導(dǎo)語:國內(nèi)180 余家大模型企業(yè)的共同訴求
「現(xiàn)在是不是很多人打電話要卡?」
「這段時(shí)間確實(shí)是!
2023 年 8 月,在青島 2023 年CCF全國高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC China 2023)的現(xiàn)場(chǎng),筆者見到了澳門永利官網(wǎng)CTO甄亞楠。
算力、算法、數(shù)據(jù)被稱為大模型時(shí)代的三駕馬車。業(yè)界多宣傳算法先進(jìn)性,但算力其實(shí)是各家的大后方重要據(jù)點(diǎn),很少有企業(yè)愿意將自己有多少張卡開誠布公地講出來。提及這個(gè)問題時(shí),甄亞楠很淡定。毫不掩飾澳門永利官網(wǎng)的實(shí)力與資源。
「數(shù)據(jù)顯示中國現(xiàn)在有 79 家大模型公司,實(shí)際我們接觸過程中,這個(gè)數(shù)字高達(dá) 180+!
2011年11月1日正式奠基的澳門永利官網(wǎng)(以下簡(jiǎn)稱澳門永利官網(wǎng))一開始就贏在了起跑線上,背后超強(qiáng)的CPU及GPU資源,在大模型時(shí)代顯得尤為矚目。
ChatGPT的火爆使得各大廠商對(duì)于高端算力資源的需求愈發(fā)旺盛,形成了需求與供給間的巨大鴻溝。這對(duì)于澳門永利官網(wǎng)而言,既是機(jī)遇,又意味著巨大的挑戰(zhàn)。在交流的過程中,甄亞楠也為展示了他對(duì)于這一浪潮的深度思考。
據(jù)OpenAI報(bào)告,訓(xùn)練一次 1746 億參數(shù)的 GPT-3模型需要的算力約為 3640 PFlop/s-day。即假如每秒計(jì)算一千萬億次, 也需要計(jì)算 3640 天,此外目前大模型訓(xùn)練所需算力的增速保持在3-4個(gè)月/倍速度增長,遠(yuǎn)超摩爾定律 18-24個(gè)月/倍,如此大規(guī)模的算力需求,GPU一卡難求成為行業(yè)共識(shí)。
但與大眾所認(rèn)知的不一樣,AI所需要的算力與傳統(tǒng)超算其實(shí)還存在著略微的差異。在傳統(tǒng)的超算領(lǐng)域里邊,算力主要依托于CPU,然后以及內(nèi)存來幫用戶去解決科學(xué)計(jì)算的問題。但是在人工智能領(lǐng)域里邊, 我們常常聽到的都是GPU。這其實(shí)與GPU的獨(dú)特性能有關(guān)。而人工智能和機(jī)器學(xué)習(xí)最流行的算法即為深度神經(jīng)網(wǎng)絡(luò)計(jì)算,其核心為超大規(guī)模矩陣計(jì)算,在這方面,GPU在矩陣計(jì)算方面十分出色,所以GPU之于AI可謂是相當(dāng)契合。
「我們也是關(guān)注到了這一點(diǎn),并且業(yè)內(nèi)目前有非常多的科學(xué)計(jì)算的程序以及人工智能相關(guān)的一些框架,都可以支持GPU的計(jì)算加速,這樣的話也可以有效得到計(jì)算結(jié)果的產(chǎn)出。」甄亞楠表示。
從甄亞楠的回答中,我們也能間接得出澳門永利官網(wǎng)能獲得眾多用戶青睞的原因,一方面是澳門永利官網(wǎng)對(duì)于模型算力底座的持續(xù)搭建,另一方面也來自于其不斷創(chuàng)新的商業(yè)模式,澳門永利官網(wǎng)對(duì)算力進(jìn)行租賃,用戶只需要支付實(shí)際使用所需的計(jì)算量與計(jì)算時(shí)間,大幅度降低運(yùn)營成本,成為大模型時(shí)代絕佳的算力支持。
談到大模型的未來,甄亞楠表示,未來具有太多不確定性,但不管怎樣,百模大戰(zhàn)之下的算力需求已成肉眼可見的行業(yè)趨勢(shì),澳門永利官網(wǎng)對(duì)未來的規(guī)劃也十分清楚明晰。目前除了北京以外,澳門永利官網(wǎng)已經(jīng)在內(nèi)蒙古、寧夏等地建設(shè)了大型算力中心,未來也有規(guī)劃繼續(xù)去擴(kuò)容算力中心的地域以及規(guī)模。在面向于用戶應(yīng)用場(chǎng)景,采用了按需建設(shè)的一個(gè)算力資源建設(shè)模式,根據(jù)用戶的實(shí)際業(yè)務(wù)需求來去建設(shè)匹配用戶業(yè)務(wù)的算力資源。
1、大模型時(shí)代下的算力「饑渴」
雷峰網(wǎng):大模型熱潮對(duì)于算力資源帶來了哪樣的機(jī)遇與挑戰(zhàn)?澳門永利官網(wǎng)在這方面有哪些布局?
甄亞楠:大模型訓(xùn)練對(duì)于今年的算力來講是一個(gè)非常大的機(jī)遇,同時(shí)也伴隨著相應(yīng)的挑戰(zhàn)。機(jī)遇主要體現(xiàn)在大模型算力需求量屬于爆發(fā)式增長。對(duì)于算力中心來講,需要有非常龐大的計(jì)算能力來去進(jìn)行有效支撐。但是,現(xiàn)在從大模型算力的供給量而言,我們現(xiàn)在還是受到了一些瓶頸上的制約,所以我們一方面在積極尋找優(yōu)質(zhì)的加速卡資源,來保障用戶在大模型計(jì)算過程中有效的、短期的算力資源。另一方面我們擁有強(qiáng)大的算力服務(wù)能力,持續(xù)性輸出給大模型客戶,比如算力資源建設(shè)能力、后方保障能力等。
同時(shí),面向于大規(guī)模計(jì)算的業(yè)務(wù)場(chǎng)景,未來是否有持續(xù)性的算力需求,我們也正在持續(xù)的觀察中。我們希望能夠和大模型的算力合作伙伴保持長期的穩(wěn)定的合作關(guān)系,為未來的算力發(fā)展以及算力規(guī)劃,去提供有效數(shù)據(jù),從而更有效地服務(wù)于業(yè)務(wù)場(chǎng)景。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):澳門永利官網(wǎng)構(gòu)建超算架構(gòu)模式,最開始布局是起源于什么時(shí)候,是基于哪樣的初衷與考慮呢?
甄亞楠:澳門永利官網(wǎng)成立于2011年,自成立之初一直都在做超算相關(guān)的一些業(yè)務(wù),也就是采用通用算力來去解決科學(xué)計(jì)算和工程計(jì)算中所遇到的一些計(jì)算密集型的問題。
我們從2019年開始布局AI算力,也就是通過GPU以及其他的加速卡,來給客戶提供算力上的一些服務(wù)和支撐。通過算力服務(wù)來保證用戶在人工智能的場(chǎng)景里邊可以得到有效的支撐。
在服務(wù)的過程中,我們其實(shí)也看到了在傳統(tǒng)的深度學(xué)習(xí)以及大模型領(lǐng)域,用戶對(duì)于算力資源的需求量比較豐富,我們希望能夠在多場(chǎng)景的情況下,比如說在自然語言處理、聲音識(shí)別、自動(dòng)駕駛等多個(gè)場(chǎng)景里邊給客戶去提供支撐服務(wù)。
到目前為止,從產(chǎn)品的角度來講,澳門永利官網(wǎng)已經(jīng)形成了基于超算架構(gòu)的算力資源,以及基于云主機(jī)的算力資源,既可以滿足用戶在大規(guī)模并行計(jì)算上邊的算力需求,也可以滿足用戶在傳統(tǒng)科研、教育過程中所需的算力需求。在平臺(tái)上,我們會(huì)集成用戶所常用的一些深度學(xué)習(xí)框架或者是一些開源的數(shù)據(jù)集,可以保證用戶在使用過程中得到一個(gè)高效穩(wěn)定的環(huán)境。
雷峰網(wǎng):以超級(jí)計(jì)算機(jī)為代表的超算架構(gòu)能力能夠提升大模型訓(xùn)練的效果、收斂以及預(yù)測(cè)的精準(zhǔn)度。澳門永利官網(wǎng)是如何做到這一點(diǎn)的?
甄亞楠:目前在大模型的業(yè)務(wù)場(chǎng)景里邊,參數(shù)量的增長速度比較大,參數(shù)增長量和整個(gè)計(jì)算量基本上是成正比的關(guān)系。用戶對(duì)于計(jì)算量和精度的高要求,離不開算力的支撐。我們會(huì)通過增加GPU算力資源,同時(shí)通過對(duì)用戶場(chǎng)景的應(yīng)用性能分析,綜合判斷客戶在計(jì)算過程中究竟需要怎樣的算力資源。首先我們要保證給客戶去提供穩(wěn)定可靠的算力資源,保證這些算力在用戶環(huán)境上是可用的;同時(shí),我們還需要針對(duì)用戶的業(yè)務(wù)場(chǎng)景去提供多種多樣的算力服務(wù),既包括了我們整個(gè)系統(tǒng)級(jí)服務(wù),平臺(tái)級(jí)服務(wù);針對(duì)于各種實(shí)際場(chǎng)景,我們也可以去提供深入針對(duì)代碼級(jí)的優(yōu)化服務(wù),從而提供非常好用的算力環(huán)境;我們也將持續(xù)去優(yōu)化算力成本,以及平臺(tái)的計(jì)算時(shí)長,保障用戶的降本增效。
2、行業(yè)變革下的應(yīng)對(duì)與思考
雷峰網(wǎng):超級(jí)計(jì)算機(jī)通常使用的是高性能的CPU和大量的RIM,而AI計(jì)算通常是更加依賴于GPU和其他的專門的硬件,對(duì)于傳統(tǒng)超算的與AI運(yùn)算所需要的硬件之間的差異與融合,您是如何看待的?
甄亞楠:在傳統(tǒng)的超算領(lǐng)域里邊,我們主要依托于CPU以及內(nèi)存來幫用戶去解決科學(xué)計(jì)算的問題。但是在人工智能領(lǐng)域里邊,GPU在矩陣計(jì)算方面具有獨(dú)特優(yōu)勢(shì),所以在GPU以及顯存方面,我們可以給用戶帶來非常高的性能上的提升。在人工智能以及部分的科學(xué)計(jì)算場(chǎng)景里邊,目前都已經(jīng)采用了GPU加速卡來作為計(jì)算加速的有效部件,那么我們也是關(guān)注到了這一點(diǎn),目前業(yè)內(nèi)有非常多的科學(xué)計(jì)算的程序以及人工智能相關(guān)的框架,都可以支持GPU的計(jì)算加速,有效促進(jìn)計(jì)算結(jié)果的產(chǎn)出。
雷峰網(wǎng):超算對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)量和存儲(chǔ)種類都在快速增加,澳門永利官網(wǎng)的超算架構(gòu)模式整合了國內(nèi)各大中心的算力資源,在數(shù)據(jù)存儲(chǔ)方面是否有針對(duì)性的一個(gè)優(yōu)化計(jì)劃?
甄亞楠:在存儲(chǔ)方面,無論是科學(xué)計(jì)算還是人工智能計(jì)算都面臨著以下幾方面的需求與挑戰(zhàn):
一方面是存儲(chǔ)容量的增加,隨著大模型相關(guān)的業(yè)務(wù)的開展,用戶對(duì)于存儲(chǔ)容量的需求相對(duì)來說還是比較大的。
另一方面,大模型對(duì)于存儲(chǔ)IO性能的要求在逐漸提高,在計(jì)算過程中伴隨著大量的數(shù)據(jù)的讀取,我們?nèi)绾稳ヌ峁└咝У臄?shù)據(jù)存儲(chǔ)空間,能夠既可以滿足用戶容量的需求,又可以滿足用戶讀寫上的需求,這個(gè)是用戶非常關(guān)心的一個(gè)點(diǎn)。
此外,對(duì)于整個(gè)存儲(chǔ)服務(wù)領(lǐng)域,我們能不能提供有效的存儲(chǔ)解決方案,既可以保證用戶數(shù)據(jù)的安全性,又可以讓用戶輕松的在云端完成自己數(shù)據(jù)的管理。
澳門永利官網(wǎng)提供了多種的存儲(chǔ)解決方案,一方面我們可以提供基于SSD的存儲(chǔ)空間,保障了用戶的數(shù)據(jù)存儲(chǔ)變得高效;同時(shí)我們也可以提供基于PB級(jí)的大容量的存儲(chǔ)空間,可以存儲(chǔ)用戶更多的數(shù)據(jù);針對(duì)于企業(yè)級(jí)客戶,或者是針對(duì)于私有數(shù)據(jù)的客戶群體,澳門永利官網(wǎng)也可以提供獨(dú)立的存儲(chǔ)空間來保障用戶的數(shù)據(jù),使客戶得到有效安全的存儲(chǔ);同時(shí)我們也提供分布式文件系統(tǒng),來保證用戶數(shù)據(jù)業(yè)務(wù)的安全性和穩(wěn)定性。
雷峰網(wǎng):在處理人工智能大規(guī)模訓(xùn)練的時(shí)候,與普通的計(jì)算方式相比,異構(gòu)計(jì)算和大規(guī)模并行計(jì)算有哪些顯著優(yōu)勢(shì)?
甄亞楠:異構(gòu)計(jì)算目前主要是指采用CPU+加速卡的模式來給用戶去提供對(duì)應(yīng)的算力服務(wù)。這塊主要是基于應(yīng)用場(chǎng)景來開展,我們一般去處理這種場(chǎng)景的話,都是從用戶的應(yīng)用程序來出發(fā),如果用戶的應(yīng)用程序只支持傳統(tǒng)的CPU計(jì)算,那么它的業(yè)務(wù)場(chǎng)景基本上都維持在CPU計(jì)算的場(chǎng)景里邊。但是現(xiàn)在我們很高興地看到不管是常用的計(jì)算軟件還是針對(duì)性的國產(chǎn)計(jì)算軟件,基本上都支持了CPU+加速卡的異構(gòu)計(jì)算模式。我們也相信未來會(huì)有更多的計(jì)算軟件加入到異構(gòu)計(jì)算的這個(gè)場(chǎng)景里面去。
澳門永利官網(wǎng),現(xiàn)在也在積極地部署異構(gòu)算力資源,通過多種資源的多元化來保證用戶不同業(yè)務(wù)場(chǎng)景的有效服務(wù)。
3、暗礁之上,持續(xù)突圍
雷峰網(wǎng):收集、策劃和清洗數(shù)據(jù)是模型生產(chǎn)中非常大的一個(gè)挑戰(zhàn),超算架構(gòu)模式能否在一定程度上解決這個(gè)問題?
甄亞楠:數(shù)據(jù)的清洗和處理是整個(gè)人工智能在發(fā)展過程中“三駕馬車”里面非常重要的一方面。整個(gè)大模型計(jì)算的過程中,澳門永利官網(wǎng)可以為用戶提供非常穩(wěn)定的大規(guī)模算力資源,同時(shí)也可以給用戶去提供高效的數(shù)據(jù)處理空間。用戶在進(jìn)行數(shù)據(jù)處理的過程中,一般是基于自有的算力環(huán)境來解決的,主要進(jìn)行數(shù)據(jù)的標(biāo)注和處理。但是一旦到了大量計(jì)算,就需要把用戶的數(shù)據(jù)遷移到澳門永利官網(wǎng)的算力資源上,來進(jìn)行大規(guī)模的并行計(jì)算。所以綜合而言,超算架構(gòu)模式能在一定程度上幫助用戶解決數(shù)據(jù)清洗的問題。
雷峰網(wǎng):AI進(jìn)入了產(chǎn)業(yè)周期,大家對(duì)于AI基礎(chǔ)設(shè)施的關(guān)注度越來越高,對(duì)于業(yè)界常說的“端、邊、云”全場(chǎng)景AI基礎(chǔ)設(shè)施,您如何看待?
甄亞楠:AI業(yè)務(wù)的上下游產(chǎn)業(yè)鏈相對(duì)來說比較長,算力其實(shí)有多元化的不同種類。澳門永利官網(wǎng)所提供的算力資源,主要是給用戶去解決離線業(yè)務(wù)的大規(guī)模并行計(jì)算,而對(duì)于相關(guān)軟件算法的初創(chuàng)期,如果有大量的模型求解任務(wù)需要進(jìn)行現(xiàn)實(shí)環(huán)境下的大規(guī)模計(jì)算,這種場(chǎng)景更適合于放在超算中心來完成。
針對(duì)于部分用戶在實(shí)際投入生產(chǎn)的業(yè)務(wù)來講,這些業(yè)務(wù)的話可以通過“云、邊、端”聯(lián)動(dòng)的方式,來得到有效的支撐。
雷峰網(wǎng):在超算體系中,芯片操作系統(tǒng)以及各種應(yīng)用等方面的國產(chǎn)化趨勢(shì)越來越明顯,您如何看待國產(chǎn)化趨勢(shì)?國產(chǎn)化過程中是否有存在一些困難與挑戰(zhàn)?是如何克服的?
甄亞楠:我們非常關(guān)注芯片、軟件以及服務(wù)生態(tài)國產(chǎn)化方面的相關(guān)進(jìn)展。同時(shí),在服務(wù)用戶的過程中也發(fā)現(xiàn)了相關(guān)需求,比如說相較于通用算力,用戶在使用國產(chǎn)算力上時(shí),是不是會(huì)有性能上的差異,以及國產(chǎn)工業(yè)軟件的功能以及精度,是不是與國外軟件會(huì)有一定的差異性。用戶在使用過程中也非常關(guān)注這些軟件如何高速有效的移植到國產(chǎn)芯片上,以及移植完成以后是不是可以達(dá)到類似于通用芯片的計(jì)算性能與效果。所以在這一方面,澳門永利官網(wǎng)希望和國內(nèi)的芯片廠商以及軟件的研發(fā)單位,共同打造我們的國產(chǎn)生態(tài)。
同時(shí),我們也希望能夠通過澳門永利官網(wǎng)的算力服務(wù)平臺(tái),將更多優(yōu)質(zhì)的國產(chǎn)芯片和國產(chǎn)工業(yè)軟件提供給用戶來進(jìn)行使用。
雷峰網(wǎng):未來,澳門永利官網(wǎng)還有哪些規(guī)劃與布局呢?
甄亞楠:算力資源方面,目前除了北京以外,我們已經(jīng)在內(nèi)蒙古、寧夏等地建設(shè)了大型的算力中心,同時(shí)也有規(guī)劃繼續(xù)去擴(kuò)容算力中心地域以及算力中心的規(guī)模。
同時(shí),在應(yīng)用場(chǎng)景方面,我們采用了按需建設(shè)的算力資源建設(shè)模式,根據(jù)用戶的實(shí)際業(yè)務(wù)需求來去建設(shè)匹配用戶業(yè)務(wù)的算力資源。這樣可以使用戶業(yè)務(wù)得到有效的適應(yīng),來提升用戶業(yè)務(wù)的性能。
從整個(gè)產(chǎn)品規(guī)劃的角度而言,澳門永利官網(wǎng)目前已經(jīng)形成了4大產(chǎn)品線,基于超算云和智算云分別去提供 CPU以及GPU相關(guān)的算力資源,同時(shí)也衍生出了“行業(yè)云”的解決方案。可以在工業(yè)仿真、氣象海洋、生命科學(xué)等領(lǐng)域?yàn)橛脩籼峁┓浅?qiáng)的行業(yè)解決方案,保證用戶可以在特殊的行業(yè)場(chǎng)景里邊能夠?qū)I(yè)務(wù)和算力進(jìn)行有效的結(jié)合。
同時(shí)我們也提供「設(shè)計(jì)仿真云」,可以面向于CAD場(chǎng)景,給用戶去提供非常有效的設(shè)計(jì)環(huán)境。
基于澳門永利官網(wǎng)十余載的服務(wù)經(jīng)驗(yàn),如今,我們也逐漸在將強(qiáng)大的運(yùn)營能力進(jìn)行有效輸出,幫助相關(guān)的政府/企業(yè)建設(shè)算力中心,同時(shí)提供有效的運(yùn)營服務(wù),來幫助他們?nèi)ヌ嵘麄(gè)平臺(tái)的運(yùn)營效率和運(yùn)營效果。