進入 2024 年,企業(yè)客戶對于算力的穩(wěn)定高效,高性價比有了更多的追求。在此次專訪中,CTO 甄亞楠揭秘了澳門永利官網(wǎng)如何通過超算技術(shù)助力百億、千億參數(shù)的大模型訓(xùn)練,利用應(yīng)用運行特征分析技術(shù),為客戶提供高效、可靠的智算云服務(wù)。
9 月 24 日至 26 日,第 20 屆 CCF 全國高性能計算學(xué)術(shù)年會 (CCF HPC China 2024),暨首個以「算力」為主題的大型國際科技交流盛會 2024 世界算力博覽會(WEC 2024)在武漢市中國光谷科技會展中心盛大舉行。
全球算力領(lǐng)域科研機構(gòu)與代表企業(yè)紛紛參會。澳門永利官網(wǎng)(簡稱:澳門永利官網(wǎng))作為專注于為大模型訓(xùn)練企業(yè)和研究機構(gòu)提供高性能、高質(zhì)量、高性價比算力服務(wù)的優(yōu)秀代表,也參與了此次盛會。
在此次盛會上,極客公園專訪了澳門永利官網(wǎng) CTO 甄亞楠。
甄亞楠在高性能計算領(lǐng)域擁有十余年經(jīng)驗,參與了多個大型算力中心的建設(shè)和產(chǎn)業(yè)化推廣項目。
在大模型熱帶來算力荒后,澳門永利官網(wǎng)開始在AI智算云基礎(chǔ)上更大規(guī)模擴容智算算力,很快擁有了包括智譜AI、中科聞歌、瀾舟科技、深勢科技、紫東太初等一系列大模型公司在內(nèi)的模型客戶。
進入 2024 年,企業(yè)客戶對于算力的穩(wěn)定高效,高性價比有了更多的追求。在此次專訪中,CTO 甄亞楠揭秘了澳門永利官網(wǎng)如何通過超算技術(shù)助力百億、千億參數(shù)的大模型訓(xùn)練,利用應(yīng)用運行特征分析技術(shù),為客戶提供高效、可靠的智算云服務(wù)。
同時,通過兩年對大模型客戶的服務(wù),澳門永利官網(wǎng)也積累了許多對行業(yè)的認(rèn)知。
以下是訪談實錄,為求精簡做了部分刪減。
轉(zhuǎn)型智算,靈活提供多種算力形式
問:澳門永利官網(wǎng),成立初期主要以超算服務(wù)為主,什么時候開始轉(zhuǎn)型開始做智算服務(wù)?
甄亞楠:澳門永利官網(wǎng)從 2011 年成立以來,一直做的是算力服務(wù),這點沒有變化。
在 2019 年之前,我們其實主要是以 CPU 算力服務(wù)為主,當(dāng)時主要還是服務(wù)的是科學(xué)計算的用戶。
從 2019 年開始我們上線了一系列的 GPU 的加速卡,主要目的是為科研用戶提供計算加速。當(dāng)時已經(jīng)有一些傳統(tǒng)科學(xué)計算的軟件可以通過 GPU 加速技術(shù)來縮短研究的周期。與此同時,我們也意識到深度學(xué)習(xí)逐漸受到業(yè)內(nèi)的重視,因此我們提供了對應(yīng)的 GPU 的算力資源。
隨著算力服務(wù)方向的變化,算力用戶方面也開始發(fā)生一些變化。
傳統(tǒng)的教育和科研用戶仍在增長,自 2023 年以來,大模型企業(yè)的算力需求不斷增加,同時澳門永利官網(wǎng)的 GPU 算力資源也在持續(xù)擴充。
目前我們的核心業(yè)務(wù)中,智算客戶已經(jīng)遠(yuǎn)遠(yuǎn)的超過了我們的超算客戶的增長數(shù)量和增長速度。從未來更長期的的角度可以預(yù)見,人工智能算力的需求會持續(xù)增長。
問:大模型訓(xùn)練這塊,客戶群體主要是怎樣的?
甄亞楠:大模型這一塊的話,客戶群體有幾類。
一類是以科研院所為代表的,本身有非常長時間的 AI 方向領(lǐng)域的一個積累。隨著大模型的爆發(fā),歷史上的研究經(jīng)驗、研究成果,轉(zhuǎn)到了大模型這一端來。
同時的話我們也看到非常多的初創(chuàng)公司,由于大家都有非常好的 AI 的經(jīng)驗以及知識體系,初創(chuàng)公司增長非常迅速,也都獲得了資本市場的支持。最后一類就是傳統(tǒng)企業(yè)。隨著業(yè)務(wù)發(fā)展的訴求,也非常敏銳地嗅覺到了 AI 模型對于提升企業(yè)效率和降低成本上的優(yōu)勢。
目前為止,基本上科研院所+初創(chuàng)企業(yè)+傳統(tǒng)企業(yè),是我們現(xiàn)在主要的大模型算力用戶。
問:不同的客戶群體對于算力的需求是否有所不同?
甄亞楠:科研用戶由于資金和研究方向的限制,單個客戶的算力需求較小,但整體群體規(guī)模較大。相反,企業(yè)用戶數(shù)量較少,但每個企業(yè)的算力需求通常達(dá)到數(shù)百卡甚至上千卡,有時甚至?xí)^萬卡。
一些垂類大模型的研發(fā),一般需要和企業(yè)內(nèi)部的私有數(shù)據(jù)來去做結(jié)合。所以在研發(fā)的初期可能會有公開的數(shù)據(jù)集,或者是數(shù)據(jù)相對非敏感的數(shù)據(jù),可以在云端去做對應(yīng)的訓(xùn)練,還有一些推理業(yè)務(wù)。
到了成熟期,某些企業(yè)會考慮到自己的數(shù)據(jù)安全隱私的訴求,我們推薦使用兩種方式解決:
一種是在云端去提供一個相對獨立可控的專屬資源池,用戶的數(shù)據(jù)可以得到完全獨立自主的使用。
另外一類就是對于一些某些敏感單位,需要完全的私有化部署。在這種情況下算力資源需求主要取決于項目、資金和研發(fā)進度,采購算力本地使用。
問:澳門永利官網(wǎng)是如何滿足客戶的多樣化算力需求的?
甄亞楠:我們提供的算力資源有幾種形態(tài)。
一種叫「裸金屬」,就是物理服務(wù)。我們有非常多的物理服務(wù)器的資源,基于超算的模式,通過高速互聯(lián)網(wǎng)絡(luò)把這些機器連接在一起,以提供非常好的并行計算效率。
對于一些業(yè)務(wù)相對來講比較敏感性或者保密性要求比較高的,用戶可以拿到全部權(quán)限,然后在這個基礎(chǔ)上直接部署自己的業(yè)務(wù)。
另一種是超算集群,就是既提供硬件資源,也搭配了對應(yīng)的調(diào)度系統(tǒng)。對于科研或者是偏初期的研發(fā)用戶來講,最終目的其實就是為了將程序跑起來,如何去進行調(diào)度的這個事情,用戶其實也不太想去參與。在這種模式下,用戶登錄到平臺,可以很輕松的把自己的任務(wù)運行起來,至于這些任務(wù)是分配到了哪些加速卡上,用戶不用操心。
最后一種是類似于云計算的虛擬機的場景。對于一些科研用戶,或者是一些算法的初研階段,需求的資源量不是很大,也許單張加速卡或者單臺計算設(shè)備就能滿足的計算需求,這種情況下,云計算/云主機的模式就可以很好的解決用戶的需求。
應(yīng)用運行特征分析:為客戶做體檢,主動提供合適的算力
問:從 2023 年到 2024 年,企業(yè)對算力需求的關(guān)注是否有變化?
甄亞楠:其實從 2023 年大模型爆發(fā)以后,來找我們的這種企業(yè)或者是研究機構(gòu),以及我們主動發(fā)現(xiàn)的客戶還蠻多的。據(jù)我們的統(tǒng)計,到 2023 年年底的時候,我們主動接觸過的大模型企業(yè)或研究機構(gòu)差不多將近 200 多家。
當(dāng)時其實大家討論的主要的問題是,在那個時間節(jié)點是否可以提供足量的加速卡來支持企業(yè)的項目推進。
近兩年,相同的情況是,大家在市場上都覺得獲取算力資源太難了,在短時間內(nèi)都希望能夠優(yōu)先拿到這些算力資源
除了想要獲取算力資源,我也看到了國內(nèi)的很多的用戶其實在去尋求,通用芯片外的解決方案,比如說國產(chǎn)替代的方案,我們也在幫客戶去做算法移植的事情,協(xié)助用戶將已有的模型移植到國產(chǎn)芯片上,以便在緊急時刻提供可用的算力資源。
問:澳門永利官網(wǎng),如何幫助客戶穩(wěn)定高效和高性價比地獲取算力?
甄亞楠:AI,是一個非常復(fù)雜的系統(tǒng)工程。在使用算力的過程中,一般需要企業(yè)配制足夠 IT 架構(gòu)的技術(shù)人員去管理和維護算力資源環(huán)境,但是,這個過程會占用客戶非常多的時間精力。澳門永利官網(wǎng)在提供算力資源的同時,可以提供系統(tǒng)級服務(wù),更好地幫助客戶。
我們在實際的服務(wù)經(jīng)驗過程中,幫客戶去提供非常多平臺級的服務(wù),比如說幫用戶提供鏡像倉庫,幫用戶提供節(jié)點實時性能的監(jiān)測,同時對于一些異常情況,會通過主動報警的方式直接發(fā)送到用戶的飛書或者企業(yè)微信等辦公軟件。
我們一直提倡要給用戶提供高性能、高質(zhì)量、高性價比的算力資源。
我們主動提供應(yīng)用運行特征分析,幫助用戶全面了解 AI 程序在計算全生命周期內(nèi)的性能特征;谶@些特征,我們能在多種加速卡型號中為用戶優(yōu)化算力選型,確保用戶在性能需求提升時能夠迅速匹配到最合適的算力資源。這不僅節(jié)省了用戶的時間,也有效提升了算力的利用效率,為客戶提供更加穩(wěn)定、高效的計算體驗。
有點類似于我們先幫人做體檢。體檢完成以后根據(jù)各項指標(biāo)的狀態(tài),我們來推薦未來在業(yè)務(wù)升級的時候,哪一款算力或者哪一種配置更適合業(yè)務(wù)場景,從而幫用戶去降低它的成本。
通過建設(shè)算力池,解決通用芯片緊缺的問題
問:算力供不應(yīng)求的時代,我們?nèi)绾螡M足客戶對算力的需求?
甄亞楠:首先我們建設(shè)了很多算力資源。
澳門永利官網(wǎng),總部其實是在北京,但是隨著近幾年我們的快速發(fā)展,除了北京市以外,在寧夏的中衛(wèi),還有內(nèi)蒙古的和林格爾新區(qū),都部署了全新的算力資源。
北京這邊主要是以超算算力為主,寧夏是超算+智算中心。內(nèi)蒙古和林格爾新區(qū)的算力基地是今年 6 月份剛剛上線的,我們計劃在內(nèi)蒙放置更多的智算算力,目前已經(jīng)上線的主要是訓(xùn)練卡的資源,10 月份也會陸續(xù)上線推理資源。
我們一直踐行按需擴容的算力服務(wù)模式,當(dāng)用戶有需求的時候,能很便捷地幫用戶把算力資源建設(shè)好,并且供給出去。
其次我們具有跨域的算力調(diào)度能力。當(dāng)用戶的任務(wù)出現(xiàn)排隊時,可以自動調(diào)度到其他算力中心,計算完成后將結(jié)果傳回。
此外,我們進行了多元化的算力資源儲備。這里既包括了通用資源,也包括國產(chǎn)資源。
問:目前看到北京政府這邊,也有建設(shè)北京算力互聯(lián)互通和運行服務(wù)平臺這樣的平臺。澳門永利官網(wǎng)在其中扮演怎樣的角色?
甄亞楠:從算力的互聯(lián)互通的這個角度來講,一方面我們的算力本身就是一種共享模式,當(dāng)有需求的時候,我們的算力可以直接共享出來。另外一方面,我們現(xiàn)在已經(jīng)連接到的國內(nèi)的算力資源都可以成為北京算力互聯(lián)互通里面的子集。澳門永利官網(wǎng)非常愿意在這個基礎(chǔ)之上能夠和更多的合作伙伴一起去服務(wù)好整個大市場。
我們也在不斷的進行有效的探討以及互相的學(xué)習(xí),看看大家的技術(shù)能否形成一些行業(yè)規(guī)范,以達(dá)到共同進步的目的。