在不斷提高計算能力這一要求的推動下,數(shù)據(jù)中心的功耗也在急劇攀升。今天,在一個典型的數(shù)據(jù)中心中,可能有 60-70% 的功率都被“浪費”在為設(shè)備提供動力和數(shù)據(jù)中心冷卻。
設(shè)計日益復(fù)雜的半導(dǎo)體需要計算能力的快速增長,而英特爾數(shù)據(jù)中心則需要為這一快速增長提供支持。與此同時,我們也在盡力減少數(shù)據(jù)中心的功耗和運營成本。
卻成本的一個潛在方式。空氣節(jié)能器只是將熱空氣排出室外并吸入室外空氣來冷卻 IT 設(shè)備,而不是像傳統(tǒng)空調(diào)那樣將服務(wù)器排出的熱空氣加以冷卻再循環(huán)利用。
當(dāng)前,業(yè)界假定空氣節(jié)能器的有效性受到一定限制,即需要以相對較低的溫度供應(yīng)冷卻空氣。其含意即空氣節(jié)能器只能在室外空氣溫度相對較低時才能使用。此外還有對濕度變化的顧慮,因為室外空氣的濕度可能會迅速變化。第三點顧慮則是室外空氣中的微粒數(shù)量。
為了挑戰(zhàn)業(yè)內(nèi)有關(guān)數(shù)據(jù)中心冷卻的既定假設(shè),我所在的英特爾IT部門進(jìn)行了一次大膽的概念驗證(PoC)測試:使用一臺空氣節(jié)能器,全部利用溫度高達(dá)32 攝氏度的室外空氣來冷卻生產(chǎn)服務(wù)器。借助此方案,我們即可使用節(jié)能器來提供幾乎所有的數(shù)據(jù)中心冷卻,從而極大地降低了功耗。對于一個 10 兆瓦特(MW)的數(shù)據(jù)中心來說,借此每年可潛在降低高達(dá) 287 萬美元的運營成本。
概念驗證測試在一個 1000 平方英尺(SF)的拖車上進(jìn)行(最初安裝拖車是為了進(jìn)行臨時的額外計算),拖車被分成兩個室,每個室約 500 平方英尺。為了最大限度減少概念驗證的成本,我們使用了低成本、倉庫級的直接膨脹式(DX)空調(diào)設(shè)備,并且每個室內(nèi)均安裝有傳感器,以監(jiān)測室內(nèi)的溫度與濕度條件。
其中一室采用傳統(tǒng)方法冷卻,始終使用直接膨脹式設(shè)備進(jìn)行熱空氣再循環(huán)和冷卻。而另外一室基本上也使用相同的空調(diào)設(shè)備,但是經(jīng)過改裝后能夠作為空氣節(jié)能器運行:將熱空氣排出室外,并吸入 100% 的室外空氣用于冷卻。
由于我們的目標(biāo)之一是測試運行溫度的允許極限,我們對空氣節(jié)能器室中的冷卻設(shè)備進(jìn)行了配置,使其能夠提供18-32攝氏度的空氣。并且我們還對系統(tǒng)進(jìn)行了設(shè)計,在供給空氣溫度超過32攝氏度的最高限度之前,只能使用空氣節(jié)能器;空氣溫度超過32攝氏度時,開始使用冷卻器將空氣冷卻至32攝氏度。如果溫度降到18攝氏度以下,則將供給空氣與來自服務(wù)器的回流熱空氣混合進(jìn)行加熱。
我們未嘗試對濕度進(jìn)行控制。此外我們還想要測試空氣質(zhì)量的限度,因此我們僅對進(jìn)入的空氣進(jìn)行了最低限度的過濾:使用標(biāo)準(zhǔn)的普通空氣過濾器僅僅將進(jìn)入空氣中的大顆粒除去,但允許留有微塵。
每個房間里有八個機(jī)架。每個機(jī)架包含四臺刀片服務(wù)器,每臺服務(wù)器帶有 14 塊刀片,這樣每個室共有 448 塊刀片。這就表示每平方英尺 200 多瓦(WPSF)的功率密度。在概念驗證測試期間,我們使用這些服務(wù)器運行大批量生產(chǎn)的芯片設(shè)計工作負(fù)載,結(jié)果服務(wù)器的使用率高達(dá)約 90%。
我們測定了每個室內(nèi)的服務(wù)器故障率,并將其與同一段時期內(nèi),在我們位于同一地點的主數(shù)據(jù)中心內(nèi)測定的故障率進(jìn)行比較。
讓我們高興的是,節(jié)能器室內(nèi)的溫度和濕度變化很大,且空氣質(zhì)量也較差;然而服務(wù)器故障并沒有明顯增加。如果隨后的調(diào)查能夠證實這些喜人的結(jié)果,那么我們便有望在未來的高密度數(shù)據(jù)中心中使用這一方案。
如果一個數(shù)據(jù)中心采用空氣節(jié)能器,每年平均可節(jié)省多少能源?為此,我們使用了數(shù)據(jù)中心地點的歷史天氣數(shù)據(jù)。數(shù)據(jù)分析表明:平均每年溫度低于最高限度32 攝氏度的時間占總時間的 91%。
如果在概念驗證測試期間使用空氣節(jié)能器時功耗降低 74% 的基礎(chǔ)上,再假設(shè)每年 91% 的時間能夠使用空氣節(jié)能器,那么與傳統(tǒng)的數(shù)據(jù)中心冷卻方案相比,我們每年可在冷卻方面潛在節(jié)省約 67% 的總功率。而在假設(shè)數(shù)據(jù)中心 60% 的功率用于機(jī)械冷卻系統(tǒng)的基礎(chǔ)上,整個數(shù)據(jù)中心功耗可轉(zhuǎn)換成約 3, 500 千瓦時(KWH)。
這樣一來,按每千瓦時電費 0.08 美元計算,預(yù)計一個 500千瓦 的小型數(shù)據(jù)中心每年可降低成本約 143,000 美元。而對于一個 10兆瓦 的大型數(shù)據(jù)中心,預(yù)計每年可降低成本約 287 萬美元。
此外,由于需要的冷卻設(shè)備更少,新的數(shù)據(jù)中心還可節(jié)省一定的資本支出。甚至當(dāng)室外空氣溫度超出了供給空氣溫度上限時,我們也僅需將空氣冷卻到指定的溫度上限,而不是傳統(tǒng)數(shù)據(jù)中心方案中的 20 攝氏度。通過降低冷卻系統(tǒng)的復(fù)雜性和成本,還可進(jìn)一步減少故障模式的數(shù)量,提高整體靈活性。
空氣節(jié)能器似乎特別適合于空氣濕度較低的溫帶氣候。配備有空氣節(jié)能器的數(shù)據(jù)中心,通過降低功耗和用水量即可大幅減少英特爾對環(huán)境的影響。在干燥的氣候條件下,配有空調(diào)裝置的傳統(tǒng)數(shù)據(jù)中心通常采用蒸發(fā)冷卻法,利用水塔進(jìn)行預(yù)先冷卻。而借助空氣節(jié)能器,就可不再使用水塔,這樣一個 10 兆瓦數(shù)據(jù)中心每年可潛在節(jié)省高達(dá)近3萬噸的水。
我們計劃利用服務(wù)器老化分析,將空氣節(jié)能器室、空調(diào)室和主數(shù)據(jù)中心內(nèi)使用的系統(tǒng)進(jìn)行比較,進(jìn)一步測試以期發(fā)現(xiàn)可能的硬件老化。如果隨后的調(diào)查能夠證實這些喜人的概念驗證結(jié)果,我們期望將空氣節(jié)能器融入到未來的數(shù)據(jù)中心設(shè)計當(dāng)中。下一步則可能建立一座 1 兆瓦特的示范數(shù)據(jù)中心,使用專為概念驗證測試設(shè)計的設(shè)備。
如同大多數(shù)其他公司一樣,目前英特爾也面臨著日益增長的對運算資源的需求。結(jié)果,我們的運算成本和這些需求同步上升。所有這些問題促使我們嚴(yán)格地審視我們的數(shù)據(jù)中心戰(zhàn)略,找出可以提高效率的地方。
值得說明的是,我們這次概念驗證屬于英特爾 IT 部門的“八年數(shù)據(jù)中心效率策略”的一部分。該策略的目標(biāo)是轉(zhuǎn)變我們?nèi)虻臄?shù)據(jù)中心環(huán)境,在大幅降低成本的同時,進(jìn)一步提高效率和業(yè)務(wù)響應(yīng)能力。
隨著策略的推進(jìn),我相信會有更多讓人驚喜的消息和大家分享。
