文章目錄[隱藏]
- 隨著能源緊張和環(huán)境保護(hù)的重要性日益凸顯,液冷技術(shù)的高效節(jié)能特點(diǎn)使其成為可持續(xù)發(fā)展的重要解決方案;
- 從技術(shù)上來看,短期內(nèi)冷板式液冷技術(shù)將得到快速發(fā)展;
- 從中期來看,單相浸沒式液冷技術(shù)將成為主流。
Part.1/ 為什么要有液冷?
散熱技術(shù)在數(shù)據(jù)中心中發(fā)揮著重要作用。人之所以能成為萬物之靈,是因?yàn)槿祟悡碛袕?qiáng)大的大腦和強(qiáng)勁有力的肌肉,能夠直立行走,并且常常被忽視的是,人類還具備了動(dòng)物中最強(qiáng)大的散熱能力。
可以想象,例如獵豹能以每秒120公里的速度奔跑,但只能持續(xù)奔跑60秒。如果獵豹在這60秒內(nèi)未能捕捉到獵物,就必須放棄這次捕獵。如果它一天內(nèi)多次以如此高速爆發(fā),但卻無法獲得食物,它可能就會(huì)死亡。然而,人類又是如何做到的呢?如今許多人參加馬拉松比賽,跑得好的大概用時(shí)兩三個(gè)小時(shí),跑得不好的也許用時(shí)六個(gè)小時(shí),但他們都能堅(jiān)持到終點(diǎn)。這是因?yàn)槿祟悡碛谐錾纳崮芰?,這為人類提供了強(qiáng)大的持久力(續(xù)航能力)。
在數(shù)據(jù)中心的環(huán)境中,散熱對于整個(gè)數(shù)據(jù)中心和基礎(chǔ)設(shè)施的穩(wěn)定性至關(guān)重要。同時(shí),我們也追求以最少的電力來確保整個(gè)IT系統(tǒng)的可靠運(yùn)行。
再做個(gè)類比,人類在散熱方面采用了多種技術(shù)。例如,我們通過呼吸、皮膚、發(fā)達(dá)的汗腺和血液循環(huán)等自身機(jī)制來進(jìn)行散熱。除了這些內(nèi)在的散熱機(jī)制外,由于人類是萬物之靈,我們還可以利用外部力量來輔助散熱。舉個(gè)例子,如果我覺得會(huì)場提供的空調(diào)還不夠涼爽,我可以沖個(gè)淋浴來通過水噴淋的方式散熱,或者還可以選擇去游泳。
就像"液冷‘泳’向前"這一主題,游泳是最終極的散熱方式。當(dāng)我們討論論液冷技術(shù)時(shí),很多人將使用液體進(jìn)行散熱的部分都稱為液冷技術(shù),但實(shí)際上真正的液冷技術(shù)應(yīng)該是指數(shù)據(jù)中心內(nèi)部循環(huán)系統(tǒng)中的一部分,即如何將IT設(shè)備產(chǎn)生的熱量傳遞到外部冷源循環(huán)系統(tǒng)中的內(nèi)部循環(huán)部分。
關(guān)于液冷技術(shù)的核心要點(diǎn),例如每平方厘米的散熱量等,這些都是討論液冷技術(shù)時(shí)所面臨的關(guān)鍵難題。同樣地,人腦在人體中所占的功耗大約為20%,約24瓦。盡管看起來并不多,但當(dāng)大腦高速運(yùn)轉(zhuǎn)思考時(shí),會(huì)感到腦袋發(fā)熱,頭部最容易出汗。此外,當(dāng)腦袋過熱時(shí),思考速度會(huì)變慢。這實(shí)際上說明了人腦作為身體中最重要的組成部分,而其散熱能力也是維持整個(gè)系統(tǒng)穩(wěn)定運(yùn)行的關(guān)鍵因素。
Part.2/ 液冷為何成為一個(gè)爆發(fā)性增長的點(diǎn)?
催生液冷需求的原因——技術(shù)瓶頸、成本、可持續(xù)發(fā)展。
關(guān)于催生液冷需求的原因,首先是由于IT技術(shù)的發(fā)展需求,風(fēng)冷技術(shù)已經(jīng)達(dá)到了散熱的瓶頸。同時(shí),例如在CPU和GPU方面,CPU的功耗從2017年的205瓦增加到今天的350瓦,增長速度相當(dāng)快。未來可能發(fā)展到更高瓦數(shù),比如達(dá)到500瓦或600瓦的水平,這已經(jīng)是難以想象的數(shù)字。
另外,GPU的最新版本H100已經(jīng)達(dá)到700瓦。在許多情況下,風(fēng)冷技術(shù)無法有效解決如何保持芯片穩(wěn)定工作的問題。此外,英偉達(dá)的相關(guān)測試結(jié)果表明,在相同性能條件下,液冷技術(shù)可以降低30%的能源消耗。
30%的能源節(jié)約意味著什么呢?首先,對于整個(gè)數(shù)據(jù)中心而言,能源消耗的大幅降低是非常重要的。滿足PUE的要求,降低能源指標(biāo)。對于企業(yè)來說,最重要的是,這意味著在有限的資源情況下,可以獲得更強(qiáng)大的計(jì)算能力。在接近20%-30%的臨界點(diǎn),很多事情都會(huì)成為企業(yè)是否能夠可持續(xù)運(yùn)營的核心轉(zhuǎn)折點(diǎn)。
此外,液冷技術(shù)還具有節(jié)能的優(yōu)勢。節(jié)能意味著更低的運(yùn)行成本,可以在獲取能源指標(biāo)時(shí)節(jié)約成本。也意味著在供電方面,電力指標(biāo)可以得到更有效的利用。
正如之前許多專家所講述的,根據(jù)一體化大數(shù)據(jù)建設(shè)的要求,不同地區(qū)對于數(shù)據(jù)中心的PUE都有一定的指標(biāo)要求。東部地區(qū)要求PUE小于1.25,而西部地區(qū)要求小于1.2。而對于北京、上海和廣東等地,其要求更為嚴(yán)格,例如北京可能要求PUE達(dá)到1.15。這些要求并不是說液冷技術(shù)只適用于這些場景,而是這些場景促進(jìn)了液冷技術(shù)的快速發(fā)展。
技術(shù)的發(fā)展、節(jié)能的需求以及國家政策要求等諸多因素,再加上人工智能的爆發(fā),使得液冷技術(shù)的發(fā)展正當(dāng)其時(shí)。隨著能源緊張和環(huán)境保護(hù)的重要性日益凸顯,液冷技術(shù)的高效節(jié)能特點(diǎn)使其成為可持續(xù)發(fā)展的重要解決方案。
催生液冷需求的原因——需求驅(qū)動(dòng)與爆發(fā)點(diǎn)——AI
自去年年底以來,ChatGPT成為了備受矚目的技術(shù)創(chuàng)新,引發(fā)了廣泛關(guān)注和討論。ChatGPT的問世標(biāo)志著人工智能領(lǐng)域的重要突破,我這里列舉了其中的一些代表性模型,每個(gè)模型都期望能夠引領(lǐng)時(shí)代的潮流,業(yè)界對這個(gè)時(shí)代充滿了樂觀的預(yù)期。從某種程度上講,第一次工業(yè)革命從蒸汽機(jī)到內(nèi)燃機(jī)再到電氣化,而工業(yè)4.0代表著什么呢?人們一直在思考什么能成為工業(yè)4.0的代表,或者新一代信息革命中是否存在代表性的事件。我個(gè)人認(rèn)為,今天以ChatGPT這樣的大型模型為代表,可能真正將我們帶入了智能時(shí)代,意味著我們正在迎來下一次工業(yè)革命的時(shí)代。
在業(yè)界對此也有很多觀點(diǎn)。例如,我們要緊跟人工智能時(shí)代的潮流。正如NVIDIA的觀點(diǎn),我們正處于AI的iPhone時(shí)代。李開復(fù)提到,所有的應(yīng)用都將通過AI2.0進(jìn)行重構(gòu),而AI2.0指的就是今天的大模型,AIGC模型。包括像釘釘這樣的應(yīng)用,所有的業(yè)務(wù)能力可能都是由AI提供支持的。AI能夠完成許多任務(wù),如生成語音、唱歌、寫代碼、幫助制作PPT等等。但是要將這些任務(wù)做好,我們需要強(qiáng)大的算力支持。強(qiáng)大的算力支持是確保穩(wěn)定性和效率的關(guān)鍵,而數(shù)據(jù)中心作為基礎(chǔ)設(shè)施的支撐在其中起著重要的作用。
右上角的圖表顯示了NVIDIA自己的模型,僅僅使用48臺GPU服務(wù)器就能完成以前需要多臺CPU才能完成的任務(wù)。然而,這種技術(shù)的應(yīng)用也帶來了一些問題。單臺服務(wù)器的功耗已經(jīng)達(dá)到了約8千瓦,而在中國的許多機(jī)房中,使用風(fēng)冷散熱方式無法滿足如此高密度的散熱需求。你可能會(huì)問,為什么不減少服務(wù)器的密度,每個(gè)機(jī)架只放置一臺服務(wù)器呢?這樣當(dāng)然可行,但會(huì)引發(fā)其他問題,比如網(wǎng)絡(luò)投資的大幅增加。你可能還沒有注意到,在AI熱潮中,除了推動(dòng)AI公司的發(fā)展,還激發(fā)了一個(gè)你可能不太了解的行業(yè)的火熱,那就是光模塊和光通信行業(yè)。這些行業(yè)的股票漲幅可能比模型開發(fā)公司或者NVIDIA的股票漲幅更高。這是因?yàn)樵谠S多場景下,原先使用銅纜連接的機(jī)柜轉(zhuǎn)而使用光纖連接,因此光模塊的需求量大幅增加。
因此,回到我們的討論點(diǎn)上,以ChatGPT為代表的新一代AI技術(shù)使得液冷技術(shù)得以迅速發(fā)展,而現(xiàn)在正是一個(gè)非常合適的時(shí)機(jī)。此外,AI在當(dāng)今仍然主要用于訓(xùn)練大型模型的研發(fā),但未來將逐漸發(fā)展到大規(guī)模應(yīng)用階段。
以前,在傳統(tǒng)意義上,大家認(rèn)為進(jìn)行AI訓(xùn)練只需要使用單機(jī)搭載8張高性能顯卡的設(shè)備,并使用液冷技術(shù)即可解決問題。然而,這種場景下能夠承擔(dān)得起這些設(shè)備成本的參與者并不多。此外,要訓(xùn)練一個(gè)大型模型,所需設(shè)備的數(shù)量非常龐大,但構(gòu)建這樣的集群的總量是有限的。
但是,如果所有應(yīng)用都要使用AI進(jìn)行推理和應(yīng)用,這意味著每臺服務(wù)器都將成為搭載GPU的AI服務(wù)器,情況就不同了。在以前沒有大型模型的情況下,進(jìn)行推理時(shí)可能只需要插入一張小型顯卡,如A10卡,風(fēng)冷散熱也足以解決問題。然而,在如今的大型模型情況下,你必須使用8塊A100卡,這就必須使用液冷散熱技術(shù)了。
現(xiàn)在正是這樣一個(gè)時(shí)機(jī)。實(shí)際上,整個(gè)液冷行業(yè)經(jīng)過了十年的發(fā)展——從最初的GRC開始算起,第一個(gè)致力于解決數(shù)據(jù)中心液冷問題的解決方案出現(xiàn)至今已有十年。當(dāng)然,技術(shù)方面仍然是百花齊放的時(shí)代。
Part.3/ 液冷技術(shù)的現(xiàn)狀以及大規(guī)模落地的挑戰(zhàn)
誰將成為最終的勝利者,目前還無法確定。關(guān)于這幾種技術(shù)我不再深入講解,我著重解釋一下系統(tǒng)解決方案和IT解決方案之間的區(qū)別。就像人體一樣,為了保持舒適,我們可以采取多種手段,比如使用風(fēng)扇、開啟空調(diào),或者去游泳或淋浴,只要有一種方案能夠解決我們舒適度的問題,那都是有效的解決方案。
然而,對于數(shù)據(jù)中心來說情況并非如此。如果我選擇使用浸沒式冷卻,無論是單相還是雙相,或者選擇噴淋式冷卻,我都必須考慮到每個(gè)IT環(huán)節(jié)的兼容性,以及整個(gè)制冷系統(tǒng)的運(yùn)作方式。此外,還需要考慮整套解決方案的設(shè)計(jì)。因此,這涉及到系統(tǒng)解決方案的概念。如果只是進(jìn)行局部改善,例如僅對CPU或GPU進(jìn)行散熱處理,可能只需要考慮IT解決方案,這是不同的情況。
當(dāng)一家企業(yè)真正希望在當(dāng)前時(shí)期從事人工智能項(xiàng)目時(shí),選擇是否采用液冷技術(shù)需要考慮的因素仍然非常多。這包括成本,其中又包括單kW建設(shè)成本、總擁有成本(TCO)以及更多與IT產(chǎn)出相關(guān)的因素。除此以外,圖示左側(cè)的這些方面,是我們部署液冷技術(shù)的動(dòng)力,從中可以獲得好處。對于業(yè)務(wù)發(fā)展和業(yè)務(wù)創(chuàng)新而言,正如之前所提到的,如果機(jī)房空間和電力資源有限,采用液冷技術(shù)可以提高IT產(chǎn)出,從而促進(jìn)業(yè)務(wù)的良好發(fā)展。
然而大規(guī)模部署液冷仍然存在許多風(fēng)險(xiǎn)。合規(guī)性也是一個(gè)考慮因素。例如,在北京或上海建立數(shù)據(jù)中心時(shí),對于PUE有嚴(yán)格要求。如果使用液冷技術(shù)可以更容易地通過能源效率審查,自然很愿意采用。此外,中國在節(jié)能方面不僅要求能源消耗指標(biāo)的審批,還要進(jìn)行節(jié)能檢查,確保申報(bào)的技術(shù)與實(shí)際使用的技術(shù)以及最終達(dá)到的PUE水平是否符合規(guī)定的。如果不符合規(guī)定,將面臨處罰風(fēng)險(xiǎn)。因此,技術(shù)的可控性是一個(gè)重大挑戰(zhàn)。
圖示右側(cè)特別標(biāo)明了可替代性。當(dāng)然還有許多其他解決方案。即使對于要求PUE為1.2的情況,是否非液冷不可呢?如果我要構(gòu)建AI服務(wù)器,是否非液冷不可呢?我們知道,NVIDIA提供的解決方案并不是只有液冷技術(shù)。如何解決這些問題是一個(gè)非常重要的難題,包括穩(wěn)定性和成本等因素。
在成本方面,特別要提及的是數(shù)據(jù)中心的生命周期相對較長,而IT設(shè)備的壽命相對較短。如果在數(shù)據(jù)中心使用了3年或4年的中期階段,此時(shí)要選擇采用液冷技術(shù),選擇采用冷板還是采用浸沒式技術(shù),這是一個(gè)很難的決策。此外,還需要考慮到老應(yīng)用程序的情況,以及原先的服務(wù)器是否能夠繼續(xù)在新環(huán)境中使用等因素。
另一個(gè)重要問題是標(biāo)準(zhǔn)化。目前每家公司都有不同的解決方案,從IT設(shè)備開始,到冷卻分配單元(CDU),再到液體冷卻系統(tǒng),每個(gè)環(huán)節(jié)都有各自的標(biāo)準(zhǔn)。選擇了某一個(gè)解決方案后,是否意味著我與該公司綁定在一起,還是可以在多個(gè)解決方案之間進(jìn)行替換并實(shí)現(xiàn)互操作性,這對許多用戶來說是一個(gè)很大的挑戰(zhàn)。
作為一個(gè)用戶,如果沒有強(qiáng)大的控制能力,可能會(huì)更加保守地進(jìn)行技術(shù)選型。因?yàn)槿绻x擇了某種技術(shù),卻因此被綁架,可能會(huì)失去控制權(quán)。除非能夠自主控制整個(gè)供應(yīng)鏈,否則只能按照現(xiàn)有條件進(jìn)行選擇。
此外,還需要考慮到消防安全問題。例如油類冷卻液可能存在燃點(diǎn)等問題,那么在高密度數(shù)據(jù)中心中使用這種冷卻液,能否滿足消防合規(guī)要求?是否能夠獲得批準(zhǔn),被確認(rèn)為無風(fēng)險(xiǎn)的技術(shù),以便放心地使用?由于目前缺乏相關(guān)標(biāo)準(zhǔn),可以大膽嘗試使用,但一旦出現(xiàn)問題,后果將由自己承擔(dān)。此外,還涉及到其他生態(tài)因素等等,具體細(xì)節(jié)暫不展開討論。
除了前面提到的單相和雙相液冷技術(shù),還有一種被稱為全覆蓋冷板的液冷技術(shù)。與傳統(tǒng)的冷板技術(shù)不同,全覆蓋冷板可以覆蓋所有的部件,而不僅僅是核心部件的散熱。這種技術(shù)可以將冷板應(yīng)用于所有的組件,使它們都能得到散熱。
過去,全覆蓋冷板技術(shù)面臨很大的挑戰(zhàn),因?yàn)樵S多組件都是可插拔的,比如內(nèi)存和硬盤等,它們的形態(tài)不夠標(biāo)準(zhǔn)化,無法做覆蓋。但是在當(dāng)前的人工智能場景下,可以將AI板設(shè)計(jì)成一體化的,所有的元器件都貼在主板上面,從而實(shí)現(xiàn)全覆蓋的冷板散熱。近期的一個(gè)重要趨勢是SSD(固態(tài)硬盤)大規(guī)模降價(jià)。相比年初,SSD的價(jià)格大幅下降,存儲容量也得到了極大提升。因此,存儲容量已經(jīng)不再是問題。這種情況下,以前阻礙這一技術(shù)應(yīng)用的HDD硬盤散熱的問題,就不再存在了。
就浸沒式液冷技術(shù)而言,我認(rèn)為從長遠(yuǎn)來看,(單相)浸沒液冷是一種更優(yōu)的數(shù)據(jù)中心解決方案。
但是浸沒式液冷目前仍存在許多挑戰(zhàn)需要克服。主要包括以下幾個(gè)方面:
- 浸沒式液冷是否適用于所有場景?
- 浸沒式液冷對IT設(shè)備兼容性如何?是否會(huì)導(dǎo)致IT設(shè)備損壞?例如材料的兼容性需要進(jìn)一步研究。
- 傳統(tǒng)風(fēng)冷設(shè)備是否可以直接浸泡?需要進(jìn)行更多的驗(yàn)證。
- 冷卻液的技術(shù)標(biāo)準(zhǔn)?安全(消防、人身)、兼容性(電子電氣)、散熱性能、GWP/ODP等
- 單相與雙相如何選擇?
- 氟化液與油類冷卻液的選擇?氟化液成本較高且易揮發(fā),系統(tǒng)復(fù)雜度較大,但在服務(wù)器兼容性方面表現(xiàn)良好。而油類冷卻液成本較低,不易揮發(fā),系統(tǒng)相對簡單,然而,油類冷卻液在更換部件時(shí)處
- 理起來較為困難,需要配套其他設(shè)備。因此,從選擇冷卻液的角度來看,很難確定哪種技術(shù)最終會(huì)成為贏家。
- 對運(yùn)維的挑戰(zhàn)如何應(yīng)對?
Part.4/ 未來展望
從技術(shù)上來看,短期內(nèi)冷板式液冷技術(shù)將得到快速發(fā)展。這是因?yàn)槔浒迨揭豪浼夹g(shù)具有良好的技術(shù)相容性和兼容性,可以相對容易地改造現(xiàn)有的機(jī)房設(shè)施,尤其是對于已經(jīng)建設(shè)完成的數(shù)據(jù)中心而言,可以快速實(shí)施。
然而,從中期來看,單相浸沒式液冷技術(shù)將成為主流。這個(gè)判斷基于幾個(gè)因素,包括其較高的散熱能力和簡單的結(jié)構(gòu)等。如果油類冷卻液能夠解決消防和燃點(diǎn)等問題,將可以大規(guī)模推廣使用。
電信運(yùn)營商現(xiàn)階段主要推進(jìn)冷板式液冷與單相浸沒式液冷兩種技術(shù)路線。而互聯(lián)網(wǎng)巨頭則可能會(huì)根據(jù)不同的立場選擇不同的路徑,有些可能會(huì)同時(shí)采用兩種技術(shù),而有些可能會(huì)跳過中間某個(gè)階段。
對于數(shù)據(jù)中心廠商,我的個(gè)人建議是,首先要具備基礎(chǔ)的制冷能力,無論是冷板式還是浸沒式,包括基礎(chǔ)設(shè)施的承重能力和層高都要具備相應(yīng)能力,以滿足客戶的選擇需求。此外,在短期內(nèi),我們應(yīng)該提供一體化的、可直接使用冷板式解決方案,以滿足市場需求。
關(guān)于未來的發(fā)展規(guī)模及到如何推廣大規(guī)模應(yīng)用。很明顯,當(dāng)前AI訓(xùn)練是一個(gè)首要領(lǐng)域,許多人將嘗試在這個(gè)領(lǐng)域大規(guī)模應(yīng)用液冷技術(shù)。此外,從訓(xùn)練到推理階段,推理服務(wù)器也需要強(qiáng)大的計(jì)算能力,因此也需要采用液冷技術(shù)。最終,液冷技術(shù)將在數(shù)據(jù)中心行業(yè)得到全面應(yīng)用。
實(shí)現(xiàn)全面應(yīng)用液冷技術(shù)意味著滿足幾個(gè)前提條件。首先,整體液冷系統(tǒng)的成本必須降低到足夠低的水平,使得用戶在選擇時(shí)認(rèn)為液冷比風(fēng)冷更便宜,并且不需要為風(fēng)冷設(shè)計(jì)特殊配置。其次,整個(gè)液冷技術(shù)生態(tài)系統(tǒng)必須足夠完善,以提供各種配套設(shè)備和解決方案。只有在這些條件滿足的情況下,用戶才會(huì)普遍選擇液冷技術(shù)。
對于電信運(yùn)營商而言,我個(gè)人認(rèn)為他們在液冷技術(shù)方面已經(jīng)取得了積極的進(jìn)展。根據(jù)規(guī)劃,到2025年及以后,超過50%的項(xiàng)目將采用規(guī)模化的液冷技術(shù)應(yīng)用,這是一個(gè)積極進(jìn)取的目標(biāo)。
至于互聯(lián)網(wǎng)巨頭等其他企業(yè),我相信隨著整個(gè)行業(yè)的成熟,他們也將逐漸應(yīng)用液冷技術(shù)。無論是從AI領(lǐng)域開始,還是在各個(gè)領(lǐng)域全面采用液冷技術(shù),他們都將逐步涉足這一場景。