專訪澳門永利官網(wǎng)CTO：利用應(yīng)用運行特征分析技術(shù)，提供高效穩(wěn)定算力

2024.10.10

進入 2024 年，企業(yè)客戶對于算力的穩(wěn)定高效，高性價比有了更多的追求。在此次專訪中，CTO 甄亞楠揭秘了澳門永利官網(wǎng)如何通過超算技術(shù)助力百億、千億參數(shù)的大模型訓(xùn)練，利用應(yīng)用運行特征分析技術(shù)，為客戶提供高效、可靠的智算云服務(wù)。

9 月 24 日至 26 日，第 20 屆 CCF 全國高性能計算學(xué)術(shù)年會 (CCF HPC China 2024)，暨首個以「算力」為主題的大型國際科技交流盛會 2024 世界算力博覽會（WEC 2024）在武漢市中國光谷科技會展中心盛大舉行。

全球算力領(lǐng)域科研機構(gòu)與代表企業(yè)紛紛參會。澳門永利官網(wǎng)（簡稱：澳門永利官網(wǎng)）作為專注于為大模型訓(xùn)練企業(yè)和研究機構(gòu)提供高性能、高質(zhì)量、高性價比算力服務(wù)的優(yōu)秀代表，也參與了此次盛會。

在此次盛會上，極客公園專訪了澳門永利官網(wǎng) CTO 甄亞楠。

甄亞楠在高性能計算領(lǐng)域擁有十余年經(jīng)驗，參與了多個大型算力中心的建設(shè)和產(chǎn)業(yè)化推廣項目。

在大模型熱帶來算力荒后，澳門永利官網(wǎng)開始在AI智算云基礎(chǔ)上更大規(guī)模擴容智算算力，很快擁有了包括智譜AI、中科聞歌、瀾舟科技、深勢科技、紫東太初等一系列大模型公司在內(nèi)的模型客戶。

進入 2024 年，企業(yè)客戶對于算力的穩(wěn)定高效，高性價比有了更多的追求。在此次專訪中，CTO 甄亞楠揭秘了澳門永利官網(wǎng)如何通過超算技術(shù)助力百億、千億參數(shù)的大模型訓(xùn)練，利用應(yīng)用運行特征分析技術(shù)，為客戶提供高效、可靠的智算云服務(wù)。

同時，通過兩年對大模型客戶的服務(wù)，澳門永利官網(wǎng)也積累了許多對行業(yè)的認(rèn)知。

以下是訪談實錄，為求精簡做了部分刪減。

轉(zhuǎn)型智算，靈活提供多種算力形式

問：澳門永利官網(wǎng)，成立初期主要以超算服務(wù)為主，什么時候開始轉(zhuǎn)型開始做智算服務(wù)？

甄亞楠：澳門永利官網(wǎng)從 2011 年成立以來，一直做的是算力服務(wù)，這點沒有變化。

在 2019 年之前，我們其實主要是以 CPU 算力服務(wù)為主，當(dāng)時主要還是服務(wù)的是科學(xué)計算的用戶。

從 2019 年開始我們上線了一系列的 GPU 的加速卡，主要目的是為科研用戶提供計算加速。當(dāng)時已經(jīng)有一些傳統(tǒng)科學(xué)計算的軟件可以通過 GPU 加速技術(shù)來縮短研究的周期。與此同時，我們也意識到深度學(xué)習(xí)逐漸受到業(yè)內(nèi)的重視，因此我們提供了對應(yīng)的 GPU 的算力資源。

隨著算力服務(wù)方向的變化，算力用戶方面也開始發(fā)生一些變化。

傳統(tǒng)的教育和科研用戶仍在增長，自 2023 年以來，大模型企業(yè)的算力需求不斷增加，同時澳門永利官網(wǎng)的 GPU 算力資源也在持續(xù)擴充。

目前我們的核心業(yè)務(wù)中，智算客戶已經(jīng)遠(yuǎn)遠(yuǎn)的超過了我們的超算客戶的增長數(shù)量和增長速度。從未來更長期的的角度可以預(yù)見，人工智能算力的需求會持續(xù)增長。

問：大模型訓(xùn)練這塊，客戶群體主要是怎樣的？

甄亞楠：大模型這一塊的話，客戶群體有幾類。

一類是以科研院所為代表的，本身有非常長時間的 AI 方向領(lǐng)域的一個積累。隨著大模型的爆發(fā)，歷史上的研究經(jīng)驗、研究成果，轉(zhuǎn)到了大模型這一端來。

同時的話我們也看到非常多的初創(chuàng)公司，由于大家都有非常好的 AI 的經(jīng)驗以及知識體系，初創(chuàng)公司增長非常迅速，也都獲得了資本市場的支持。最后一類就是傳統(tǒng)企業(yè)。隨著業(yè)務(wù)發(fā)展的訴求，也非常敏銳地嗅覺到了 AI 模型對于提升企業(yè)效率和降低成本上的優(yōu)勢。

目前為止，基本上科研院所+初創(chuàng)企業(yè)+傳統(tǒng)企業(yè)，是我們現(xiàn)在主要的大模型算力用戶。

問：不同的客戶群體對于算力的需求是否有所不同？

甄亞楠：科研用戶由于資金和研究方向的限制，單個客戶的算力需求較小，但整體群體規(guī)模較大。相反，企業(yè)用戶數(shù)量較少，但每個企業(yè)的算力需求通常達(dá)到數(shù)百卡甚至上千卡，有時甚至?xí)^萬卡。

一些垂類大模型的研發(fā)，一般需要和企業(yè)內(nèi)部的私有數(shù)據(jù)來去做結(jié)合。所以在研發(fā)的初期可能會有公開的數(shù)據(jù)集，或者是數(shù)據(jù)相對非敏感的數(shù)據(jù)，可以在云端去做對應(yīng)的訓(xùn)練，還有一些推理業(yè)務(wù)。

到了成熟期，某些企業(yè)會考慮到自己的數(shù)據(jù)安全隱私的訴求，我們推薦使用兩種方式解決：

一種是在云端去提供一個相對獨立可控的專屬資源池，用戶的數(shù)據(jù)可以得到完全獨立自主的使用。

另外一類就是對于一些某些敏感單位，需要完全的私有化部署。在這種情況下算力資源需求主要取決于項目、資金和研發(fā)進度，采購算力本地使用。

問：澳門永利官網(wǎng)是如何滿足客戶的多樣化算力需求的？

甄亞楠：我們提供的算力資源有幾種形態(tài)。

一種叫「裸金屬」，就是物理服務(wù)。我們有非常多的物理服務(wù)器的資源，基于超算的模式，通過高速互聯(lián)網(wǎng)絡(luò)把這些機器連接在一起，以提供非常好的并行計算效率。

對于一些業(yè)務(wù)相對來講比較敏感性或者保密性要求比較高的，用戶可以拿到全部權(quán)限，然后在這個基礎(chǔ)上直接部署自己的業(yè)務(wù)。

另一種是超算集群，就是既提供硬件資源，也搭配了對應(yīng)的調(diào)度系統(tǒng)。對于科研或者是偏初期的研發(fā)用戶來講，最終目的其實就是為了將程序跑起來，如何去進行調(diào)度的這個事情，用戶其實也不太想去參與。在這種模式下，用戶登錄到平臺，可以很輕松的把自己的任務(wù)運行起來，至于這些任務(wù)是分配到了哪些加速卡上，用戶不用操心。

最后一種是類似于云計算的虛擬機的場景。對于一些科研用戶，或者是一些算法的初研階段，需求的資源量不是很大，也許單張加速卡或者單臺計算設(shè)備就能滿足的計算需求，這種情況下，云計算/云主機的模式就可以很好的解決用戶的需求。

應(yīng)用運行特征分析：為客戶做體檢，主動提供合適的算力

問：從 2023 年到 2024 年，企業(yè)對算力需求的關(guān)注是否有變化？

甄亞楠：其實從 2023 年大模型爆發(fā)以后，來找我們的這種企業(yè)或者是研究機構(gòu)，以及我們主動發(fā)現(xiàn)的客戶還蠻多的。據(jù)我們的統(tǒng)計，到 2023 年年底的時候，我們主動接觸過的大模型企業(yè)或研究機構(gòu)差不多將近 200 多家。

當(dāng)時其實大家討論的主要的問題是，在那個時間節(jié)點是否可以提供足量的加速卡來支持企業(yè)的項目推進。

近兩年，相同的情況是，大家在市場上都覺得獲取算力資源太難了，在短時間內(nèi)都希望能夠優(yōu)先拿到這些算力資源

除了想要獲取算力資源，我也看到了國內(nèi)的很多的用戶其實在去尋求，通用芯片外的解決方案，比如說國產(chǎn)替代的方案，我們也在幫客戶去做算法移植的事情，協(xié)助用戶將已有的模型移植到國產(chǎn)芯片上，以便在緊急時刻提供可用的算力資源。

問：澳門永利官網(wǎng)，如何幫助客戶穩(wěn)定高效和高性價比地獲取算力？

甄亞楠：AI，是一個非常復(fù)雜的系統(tǒng)工程。在使用算力的過程中，一般需要企業(yè)配制足夠 IT 架構(gòu)的技術(shù)人員去管理和維護算力資源環(huán)境，但是，這個過程會占用客戶非常多的時間精力。澳門永利官網(wǎng)在提供算力資源的同時，可以提供系統(tǒng)級服務(wù)，更好地幫助客戶。

我們在實際的服務(wù)經(jīng)驗過程中，幫客戶去提供非常多平臺級的服務(wù)，比如說幫用戶提供鏡像倉庫，幫用戶提供節(jié)點實時性能的監(jiān)測，同時對于一些異常情況，會通過主動報警的方式直接發(fā)送到用戶的飛書或者企業(yè)微信等辦公軟件。

我們一直提倡要給用戶提供高性能、高質(zhì)量、高性價比的算力資源。

我們主動提供應(yīng)用運行特征分析，幫助用戶全面了解 AI 程序在計算全生命周期內(nèi)的性能特征�；谶@些特征，我們能在多種加速卡型號中為用戶優(yōu)化算力選型，確保用戶在性能需求提升時能夠迅速匹配到最合適的算力資源。這不僅節(jié)省了用戶的時間，也有效提升了算力的利用效率，為客戶提供更加穩(wěn)定、高效的計算體驗。

有點類似于我們先幫人做體檢。體檢完成以后根據(jù)各項指標(biāo)的狀態(tài)，我們來推薦未來在業(yè)務(wù)升級的時候，哪一款算力或者哪一種配置更適合業(yè)務(wù)場景，從而幫用戶去降低它的成本。

通過建設(shè)算力池，解決通用芯片緊缺的問題

問：算力供不應(yīng)求的時代，我們?nèi)绾螡M足客戶對算力的需求？

甄亞楠：首先我們建設(shè)了很多算力資源。

澳門永利官網(wǎng)，總部其實是在北京，但是隨著近幾年我們的快速發(fā)展，除了北京市以外，在寧夏的中衛(wèi)，還有內(nèi)蒙古的和林格爾新區(qū)，都部署了全新的算力資源。

北京這邊主要是以超算算力為主，寧夏是超算+智算中心。內(nèi)蒙古和林格爾新區(qū)的算力基地是今年 6 月份剛剛上線的，我們計劃在內(nèi)蒙放置更多的智算算力，目前已經(jīng)上線的主要是訓(xùn)練卡的資源，10 月份也會陸續(xù)上線推理資源。

我們一直踐行按需擴容的算力服務(wù)模式，當(dāng)用戶有需求的時候，能很便捷地幫用戶把算力資源建設(shè)好，并且供給出去。

其次我們具有跨域的算力調(diào)度能力。當(dāng)用戶的任務(wù)出現(xiàn)排隊時，可以自動調(diào)度到其他算力中心，計算完成后將結(jié)果傳回。

此外，我們進行了多元化的算力資源儲備。這里既包括了通用資源，也包括國產(chǎn)資源。

問：目前看到北京政府這邊，也有建設(shè)北京算力互聯(lián)互通和運行服務(wù)平臺這樣的平臺。澳門永利官網(wǎng)在其中扮演怎樣的角色？

甄亞楠：從算力的互聯(lián)互通的這個角度來講，一方面我們的算力本身就是一種共享模式，當(dāng)有需求的時候，我們的算力可以直接共享出來。另外一方面，我們現(xiàn)在已經(jīng)連接到的國內(nèi)的算力資源都可以成為北京算力互聯(lián)互通里面的子集。澳門永利官網(wǎng)非常愿意在這個基礎(chǔ)之上能夠和更多的合作伙伴一起去服務(wù)好整個大市場。

我們也在不斷的進行有效的探討以及互相的學(xué)習(xí)，看看大家的技術(shù)能否形成一些行業(yè)規(guī)范，以達(dá)到共同進步的目的。

上一篇：北京電視臺專題報道澳門永利官網(wǎng)：以算力為筆，繪制數(shù)字經(jīng)濟新藍(lán)圖

下一篇：澳門永利官網(wǎng)CTO甄亞楠：為智能制造插上算力服務(wù)“翅膀”

返回列表