人工智能(AI)目前正在對數(shù)據(jù)中心行業(yè)產(chǎn)生深遠(yuǎn)影響,這種影響可歸因于OpenAI在2022年底推出的ChatGPT,該產(chǎn)品因其對查詢提供復(fù)雜且類似人類的響應(yīng)的卓越能力而迅速受到歡迎。因此,作為人工智能技術(shù)的一個子集,生成式人工智能成為2023年上半年行業(yè)活動、財報和供應(yīng)商生態(tài)系統(tǒng)討論的焦點(diǎn)。這種興奮是有道理的,因?yàn)樯墒饺斯ぶ悄芤呀?jīng)引起了數(shù)十場討論。數(shù)十億美元的投資,預(yù)計到2027年將繼續(xù)讓數(shù)據(jù)中心資本支出提高到5000億美元以上。然而,由于訓(xùn)練和部署支持生成式人工智能應(yīng)用程序的大型語言模型(LLM)所需的計算能力顯著擴(kuò)展,因此需要對數(shù)據(jù)中心的架構(gòu)進(jìn)行更改。
雖然支持此類人工智能應(yīng)用所需的硬件對許多人來說都是新的,但一部分?jǐn)?shù)據(jù)中心行業(yè)已經(jīng)部署此類基礎(chǔ)設(shè)施多年。該領(lǐng)域通常被稱為高性能計算 (HPC) 或超級計算行業(yè)。從歷史上看,這個細(xì)分市場主要得到政府和高等教育機(jī)構(gòu)的支持,以部署一些世界上最復(fù)雜和精密的計算機(jī)系統(tǒng)。
生成式人工智能正在做的事情是,將人工智能應(yīng)用程序和支持它們的基礎(chǔ)設(shè)施擴(kuò)展到更廣泛的企業(yè)和服務(wù)提供商市場。向HPC行業(yè)學(xué)習(xí)讓我們了解基礎(chǔ)設(shè)施可能會是什么樣子。
圖 1:AI硬件影響
人工智能基礎(chǔ)設(shè)施需要更多的電力和液冷設(shè)施
總結(jié)圖 1 所示的影響,人工智能工作負(fù)載將需要更多的計算能力和更高的網(wǎng)絡(luò)速度。這將導(dǎo)致更高的機(jī)架功率密度,這對數(shù)據(jù)中心物理基礎(chǔ)設(shè)施(DCPI)具有重大影響。對于電力基礎(chǔ)設(shè)施(也稱為灰色空間),預(yù)計架構(gòu)變化將受到限制。AI工作負(fù)載應(yīng)該會增加對備用電源(UPS)和IT機(jī)架(機(jī)柜PDU和母線槽)配電的需求,但不會要求任何重大的技術(shù)變革。人工智能基礎(chǔ)設(shè)施將對DCPI產(chǎn)生變革性影響的地方在于數(shù)據(jù)中心的空白區(qū)域。
首先,由于AI IT硬件的功耗較高,需要更高功率的機(jī)架式PDU。在這些額定功率下,發(fā)生潛在故障或效率低下相關(guān)造成的成本可能很高。預(yù)計這將推動最終用戶采用智能機(jī)架PDU,并能夠遠(yuǎn)程監(jiān)控和管理功耗和環(huán)境因素。這些機(jī)架PDU的成本比基本機(jī)架PDU高出許多數(shù)量級,而最終用戶無法監(jiān)控或管理其機(jī)架配電。
對于數(shù)據(jù)中心架構(gòu)來說,更具變革性的是需要液體冷卻來管理下一代CPU 和GPU運(yùn)行AI工作負(fù)載時產(chǎn)生的更高熱負(fù)載。液體冷卻(包括直接液體冷卻和浸沒式冷卻)在更廣泛的數(shù)據(jù)中心行業(yè)中的采用不斷增加,預(yù)計隨著人工智能基礎(chǔ)設(shè)施的部署而加速。然而,考慮到采用液冷的的跑道歷史漫長,Dell’Oro預(yù)計生成式人工智能對液冷的影響在短期內(nèi)將受到限制。仍然可以部署采用風(fēng)冷技術(shù)的當(dāng)前一代IT基礎(chǔ)設(shè)施,但會犧牲硬件利用率和效率。
為了應(yīng)對這一挑戰(zhàn),一些最終用戶正在使用閉環(huán)空氣輔助液冷系統(tǒng)改造其現(xiàn)有設(shè)施。這種基礎(chǔ)設(shè)施可以是后門熱交換器(RDHx)或直接液體冷卻的一種形式,其利用液體來捕獲機(jī)架或服務(wù)器內(nèi)產(chǎn)生的熱量,并在機(jī)架或服務(wù)器的后部將其排出,將其引導(dǎo)到熱通道中。這種設(shè)計使數(shù)據(jù)中心運(yùn)營商能夠利用液冷的一些優(yōu)勢,而無需大量投資來重新設(shè)計設(shè)施。然而,為了大規(guī)模實(shí)現(xiàn)人工智能硬件的預(yù)期效率,需要專門建造的液冷設(shè)施。預(yù)計當(dāng)前對液冷的興趣將在2025年開始在部署中體現(xiàn)出來,預(yù)計到2027年液冷收入將接近20億美元。
電力可用性可能顛覆人工智能的炒作
將人工智能工作負(fù)載納入未來數(shù)據(jù)中心建設(shè)的計劃已經(jīng)實(shí)現(xiàn)。這是Dell’Oro上調(diào)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施市場5年前景的主要原因,目前預(yù)計到2027年收入將以10%的復(fù)合年增長率增長。但是,盡管人工智能工作負(fù)載預(yù)計將為數(shù)據(jù)中心行業(yè)帶來巨大的市場增長,但仍有一些值得注意的因素可能會減緩這種增長。新冠加速了數(shù)字化的步伐,掀起了新數(shù)據(jù)中心建設(shè)的浪潮。然而,隨著需求的實(shí)現(xiàn),供應(yīng)鏈難以跟上,導(dǎo)致數(shù)據(jù)中心物理基礎(chǔ)設(shè)施的交付時間在高峰時超過一年?,F(xiàn)在,隨著供應(yīng)鏈限制的緩解,DCPI供應(yīng)商正在解決積壓問題,并開始縮短交貨時間。
然而,對人工智能工作負(fù)載的需求正在形成數(shù)據(jù)中心行業(yè)的另一波增長浪潮。這種雙倍增長導(dǎo)致數(shù)據(jù)中心行業(yè)不斷增長的能源需求與公用事業(yè)公司向所需地點(diǎn)供電的速度之間存在差異。因此,這導(dǎo)致數(shù)據(jù)中心服務(wù)提供商探索“自帶電源”模式作為潛在的解決方案。雖然該模型的可行性仍在確定中,但數(shù)據(jù)中心提供商渴望一種創(chuàng)新方法來支持其長期增長戰(zhàn)略,而人工智能工作負(fù)載的激增是一個核心驅(qū)動力。
隨著對更多DCPI的需求與可用功率的平衡,有一點(diǎn)是明確的:人工智能正在開創(chuàng)DCPI的新時代。在這個時代,DCPI不僅將在促進(jìn)數(shù)據(jù)中心發(fā)展方面發(fā)揮關(guān)鍵作用,還將定義性能、成本并幫助實(shí)現(xiàn)可持續(xù)發(fā)展。這與DCPI所扮演的歷史角色截然不同,特別是與近十年前的行業(yè)相比,當(dāng)時DCPI幾乎是事后才想到的。
隨著AI增長浪潮的迅速到來,在AI策略中滿足DCPI要求至關(guān)重要。如果不這樣做,可能會導(dǎo)致AI IT硬件無處可插。
參考文獻(xiàn):
AI is Ushering in a New Era for Data Center Physical Infrastructure - Lucas Beran joined Dell’Oro Group