2010/10/21

Google的機房省電秘訣 | 新聞專題 | iThome online

From Evernote:

Google的機房省電秘訣 | 新聞專題 | iThome online

Clipped from: http://www.ithome.com.tw/itadm/article.php?c=63591
前Google機房專家建議,即使企業機房無法建立獨立的冷熱通道,透過集中熱風仍可有效改善空調效率,而小型機房則可考慮用大樓空調進行外氣冷卻的作法

重 點
● 熱風集中是改善機房空調效率的關鍵
● 可用大樓空調冷空氣進行小型機房的外氣冷卻
平常用不到的備援就是不必要的浪費

為了提供各種網路服務,Google建置了全世界數量最多的伺服器,而且研發出各種節能省電的伺服器設計和機房建置,來降低資料中心的營運成本,例如在伺服器中內建電池來取代大型的不斷電系統。目前任職於台達電子雲端技術中心擔任資深處長的翟本喬,曾經是Google伺服器設計團隊中負責電力設計的關鍵人物。

翟本喬曾任職於貝爾實驗室,後來進入Google參與伺服器的電力設計。2005年時,他改良了Google自行設計的伺服器電源架構,將伺服器主機板使用多組電壓的設計改成單一電壓,這個作法讓伺服器電源利用效率從60%提升到92%。後來,全世界的Google伺服器都採用了翟本喬的設計,每年甚至能省下千萬美元的電費。翟本喬也長期參與了Google機房的建置和管理,他從中累積出幾項企業建置省電機房的關鍵秘訣。

翟本喬指出,空調系統是機房最大的耗電元兇,大部分浪費的電力來自空調系統的消耗。但一般機房設計上,大多是降低整間機房的溫度來冷卻伺服器所排放的熱氣,卻沒有單獨隔離熱氣,往往會造成機房內的冷熱風混合,導致冷卻效率很差。

就像是燒熱水時,直接用爐火燒水的效果最好,如果隔了很多傳導物質,傳導效率就變差。同樣道理,如果沒有用空調冷風直接冷卻熱風,中間混合很多東西後再冷卻,效率就會不好。一般來說,空調是機房最大的耗電,改善空調的效率就能省電。

要改善機房空調效率,翟本喬認為,建置冷熱通道是短期投資報酬率最高,成本最低,馬上立竿見影可以看到成效的作法。

只要隔離熱通道,不需建立冷通道
最簡單的作法是在每個機櫃後面裝設集風管,把熱風管集中起來送到空調系統冷卻,事實上不用冷熱分離,只需要隔離出熱通道就好。例如新建機房時可以不用建置高架地板,直接使用水泥地板,只要在每個機櫃後面安裝一個熱風的集風管,不需要建立冷通道,現在已有很多廠商採用這樣的設計。若是現有機房的改善,最快方法是用塑膠片隔離出一個熱通道,再增加一個出入口就可以了。將熱風送到冷氣機後,再來就是看冷氣機的致冷效率。

關鍵是熱風集中,集中到有冷氣的地方再進行溫度平衡。不過,翟本喬表示,這個作法也有一些缺點,例如機櫃後面封閉後進出不易,安裝風管也需要施工。

不過,以攜帶同樣的熱量來比較,運水比運空氣所花的能量較少,也就是說用水攜帶熱量的成本比較節省。長期來說,透過冰水管或冷媒管將冷媒送到機器旁冷卻的作法,雖然初期建置成本高,但這個作法後期的營運支出比建置熱風管的支出更低。

另一種不用冷氣機的空調方法是外氣冷卻(Air Free Cooling),但缺點是穩定性不佳,例如要處理空氣過濾、濕度、氣候不佳等問題。理論上,處理器的額定溫度是70度,是可以用外面空氣來冷卻處理器,但得搭配高效能的散熱器才行,例如熱導管或者是Vapor Chamber散熱器等,才能利用外氣冷卻,翟本喬認為,在臺灣這個作法是可行,企業需要仔細評估的是處理空氣的成本。

用大樓空調冷空氣做外氣冷卻
很多企業在大樓辦公室中建置機房,並為機房安裝冷氣機,翟本喬認為,其實企業可以利用大樓空調的冷空氣來冷卻機櫃,直接將熱風排到戶外,不用額外安裝冷氣機。

翟本喬表示,引用大樓空調氣流的作法類似外氣冷卻法,但由於一般大樓空調送出來的空氣通常沒有什麼灰塵,不需要再過濾,濕度也適中不需要另外處理。企業要先更換成具有封閉功能的機櫃,在機櫃背面安裝一個漏斗式的風管來集中熱風。再透過原本窗型冷氣的出口,用抽風機將熱風排到戶外。不過,要避免機櫃內的混風,最好能購買具有熱風隔離功能的機櫃,機櫃內沒有裝設機器的空格也要擋住缺口避免混風。


台達電子雲端技術中心資深處長翟本喬認為,企業可以利用大樓空調排出的冷空氣來進行小型機房的外氣冷卻。

機房最好設置在大樓北側曬不到太陽的位置,不能設置在大樓中央,因為這樣就沒有窗戶可以排出熱風。除此之外,機房不能封閉,必須在機房門口預留通風口。不過,翟本喬也提醒,這樣的作法只適合小型機房,大型機房的排氣量太大就不適合。

除了空調系統以外,翟本喬表示,電源設備是機房第二耗電的原因。任何機具,不論是不斷電系統或電源供應器,都設計了最佳負載點。設備的運轉處於最佳負載點時可以達到最高效率,只要維持負載率在最佳負載點附近一定數值內就可以保持這個效率,若負載率太低,電源利用效率就會降低,也就是說會浪費越多的電力。對傳統式的電源供應器而言,負載降到60%以下時,電源利用效率就會變得很差。

但是,有些機房為了強化備援而設計多套不斷電系統(UPS),例如Tier4機房的2N+1設計,結果就是每一套UPS的負載都不到50%。因為兩套系統隨時要On-line運作,就算IT設備滿載,UPS的負載也只有40%,這時UPS的效率就很難超過60%,也就是說,會有40%的電力是浪費掉了。

要改善UPS的耗電,企業可以採取高效率或直流電的不斷電系統來取代交流電的不斷電系統。或者可以改採像Semi-On-line的作法,一套On-line的UPS搭配另一套Off-line的UPS做備援,同樣可以做到2N+1的備援設計。

Google的作法是在伺服器內建電池,發生斷電時,只要伺服器的電力可以撐到外面的發電機發動供電就可以了。同樣作法,企業可以在伺服器的電源供應器中加裝一個儲存電力的裝置,只要能夠支持1秒鐘,等到Off-line的UPS接手就可以。翟本喬表示,這是一種系統整合的思維,在一個部分採用不同的設計,就可以在另一個部分節省很多電力。不過,這樣的設計需要客製,台達電現在也正在研發這類End-To-End的解決方案。

另外一個改善UPS耗電的做法是從機房建置著手。例如不要打造一間Tier 4等級的機房,而是建置2間Tier 2或4間Tier 1的機房。即使其中一間機房當掉,都還能提供足夠的運算量,那麼就可以改建置成本較低的Tier 1機房,因為Tier 4設備的成本遠高於Tier 1的4倍以上。將伺服器分散到4間機房,伺服器數量不變,但供電系統的成本可以降低。

用軟體做備援
一般企業建置備援的目的是為了避免伺服器因故障而中斷服務,Google的作法則是用軟體備援的方式,來取代硬體備援。一旦有任何伺服器當機時,軟體備援機制會自動將服務轉移到其他伺服器上繼續執行。「透過軟體備援就是一種不怕機器壞掉的作法。」翟本喬說。

翟本喬認為,雲端運算有一個很重要的概念是透過軟體做備援,而不用硬體來做備援。因為軟體沒有成本,不執行也不會花錢,不像硬體開著不用也要消耗電力。「從軟體下手才是有助於節能減碳的做法。」

不過,軟體備援最大的困難是驗收,沒有辦法建立統一的驗收標準,而是必須針對不同的應用程式個別驗收。

除了空調和備用電源以外,在伺服器中還有浪費電力的地方,不過,伺服器內的電力浪費很難量測。同樣運算能力,有的伺服器只需要200W,但也有的伺服器需要400W或更高的600W才能達成,這就是IT設備本身的設計問題,再加上採取高可靠性和高可用性的設計,其實反而會造成不必要的浪費。除非像企業關鍵的核心系統,因為不能當機,所以必須建置備援,這是一種必要的浪費。但是,「平常用不到的備援就是不必要的浪費」。

企業可以建立混合雲的設計,來降低機房伺服器的數量,例如租用虛擬機器來執行研發需要的模擬程式、或對企業應用分級,將機密性降低的服務轉移到外部公開雲的服務,例如非核心人員的郵件服務外包等。
文⊙王宏仁

No comments: