近兩年,人工智能大模型日益受到社會(huì)關(guān)注,AI+算力正在驅(qū)動(dòng)千行百業(yè)的智能化轉(zhuǎn)型。
有一位“AI工匠”王斌,他帶領(lǐng)團(tuán)隊(duì)駕馭大規(guī)模國(guó)產(chǎn)智算集群,訓(xùn)練出了一套全系統(tǒng)自主可控的九天大模型,打造面向未來的大國(guó)重器。
中國(guó)移動(dòng)研究院人工智能中心高級(jí)總監(jiān) 王斌:這是北京市最典型的一個(gè)覆蓋居民區(qū)的基站,類似的基站中國(guó)移動(dòng)已經(jīng)開通了686萬臺(tái),這些基站實(shí)際上每天會(huì)消耗大量的電力。
信號(hào)基站引入九天人工智能大模型技術(shù),對(duì)海量手機(jī)流量信號(hào)精確預(yù)測(cè),給出每臺(tái)基站的智能節(jié)能方案,全國(guó)600多萬臺(tái)基站通過人工智能等多種技術(shù)實(shí)現(xiàn)全年節(jié)電2.5億度。
王斌:我們的大模型的定位,不光是要能夠?qū)懺娮鳟?,除了能夠識(shí)別傳統(tǒng)的文本類和圖片類知識(shí),它還要能看得懂像這種雷達(dá)、紅外,這種射頻信號(hào)。
搶抓人工智能發(fā)展的歷史機(jī)遇,2023年初,我國(guó)提出,根據(jù)通信、電力、交通物流、能源等領(lǐng)域的需求,使用國(guó)產(chǎn)軟硬件,打造人工智能大模型,形成自主可控的全新的產(chǎn)業(yè)生態(tài)。
作為中國(guó)移動(dòng)研究院AI技術(shù)專家,王斌有十多年芯片研發(fā)技術(shù)背景,之后又投入人工智能這一新賽道,是我國(guó)為數(shù)不多的既精通AI芯片又熟悉AI模型的技術(shù)人員。訓(xùn)練九天大模型這一國(guó)之重器的任務(wù)就落在了王斌團(tuán)隊(duì)肩上。
王斌:這是我們的一個(gè)機(jī)房,智算的服務(wù)器就在這個(gè)機(jī)架里面。
記者:有多少臺(tái)?
王斌:整個(gè)樓里面一共有2304臺(tái)服務(wù)器,折算成AI加速卡的話,超過1.8萬張。
這個(gè)全國(guó)規(guī)模最大的軟硬件都基于國(guó)產(chǎn)技術(shù)的智算集群就是九天大模型的最強(qiáng)大腦。
王斌帶領(lǐng)團(tuán)隊(duì),收集了近500萬億字符的原始文本數(shù)據(jù),幾乎涵蓋了人類有史以來全量的文本類知識(shí),從中篩選出超10萬億字符的高質(zhì)量訓(xùn)練數(shù)據(jù)集。讓大模型記住這些知識(shí)不難,難的是怎么學(xué)會(huì)運(yùn)用,這正是王斌必須邁過的第一道關(guān)卡。
王斌:大模型的結(jié)構(gòu)跟咱們?nèi)祟惖拇竽X結(jié)構(gòu)是比較類似的,像人類大腦也有差不多1000億個(gè)神經(jīng)元,可能不同的神經(jīng)元是負(fù)責(zé)不同的任務(wù)。我們平時(shí)做數(shù)學(xué)題用到的神經(jīng)元,跟做語文題用到的神經(jīng)元可能是不一樣的。
記者:所以這大模型也是這么分的?
王斌:像一個(gè)千億的大模型,我們要拆成18000份,每一個(gè)芯片在訓(xùn)練它所負(fù)責(zé)那部分的時(shí)候,都要高效地從這些數(shù)據(jù)中把知識(shí)萃取出來。
大模型的18000張芯片要學(xué)會(huì)理解知識(shí)之間的邏輯關(guān)系,還要各有分工,彼此聯(lián)動(dòng),逐漸變得聰明起來,王斌帶領(lǐng)團(tuán)隊(duì)給大模型設(shè)計(jì)學(xué)習(xí)知識(shí)的算法、控制學(xué)習(xí)進(jìn)程、矯正大模型的價(jià)值觀。然而,他卻碰到了一個(gè)棘手的難題。
王斌:在我們這個(gè)行業(yè),有個(gè)說法叫得開發(fā)者得天下。像國(guó)際主流AI芯片,它的開發(fā)者人數(shù)有好幾百萬,它會(huì)有很多優(yōu)化的手段,這種優(yōu)化手段會(huì)帶來整個(gè)訓(xùn)練效率的提升。咱們現(xiàn)在國(guó)內(nèi)的AI芯片,它的開發(fā)者人數(shù)可能都不到10萬,可能里面還會(huì)有很多缺陷,只能說是一個(gè)坑一個(gè)坑去蹚,一個(gè)坎一個(gè)坎去邁。
從系統(tǒng)設(shè)計(jì)到功能模塊開發(fā),近150名工程師歷時(shí)一年半時(shí)間,寫出了超過120萬行的代碼,構(gòu)建了一套完整的平臺(tái)軟件,瞄準(zhǔn)國(guó)際先進(jìn)行列,加速追趕。
這個(gè)智算集群里的18000張芯片運(yùn)行時(shí),好像一個(gè)龐大的方陣,整齊劃一,共同推進(jìn),只要有一張卡出現(xiàn)問題,就會(huì)導(dǎo)致整個(gè)方陣混亂,訓(xùn)練任務(wù)失敗。在訓(xùn)練了兩個(gè)月的時(shí)候,這一巨大方陣就出現(xiàn)了嚴(yán)重故障。王斌帶領(lǐng)技術(shù)骨干扎入18000張卡的數(shù)字深海,一層層排查,直到智算集群最底部。
中國(guó)移動(dòng)研究院人工智能中心高級(jí)工程師 叢鵬宇:王斌原來積累的硬件知識(shí),在做大模型訓(xùn)練過程中,特別是排障過程中,其實(shí)發(fā)揮了很重要的作用。有很高的技術(shù)的前瞻性和技術(shù)的敏感性,能夠指導(dǎo)大家從更加廣泛的角度、更加有建設(shè)性的角度來解決問題。
7天后終于找到了一張故障卡。然而,這7天的停滯卻導(dǎo)致整個(gè)訓(xùn)練任務(wù)要從頭再來。
王斌:這么大規(guī)模的資源,已經(jīng)執(zhí)行了這么長(zhǎng)時(shí)間任務(wù),整個(gè)效果要清零是多么大的一個(gè)打擊。為了解決這個(gè)問題,我們必須有一個(gè)即時(shí)檢測(cè)技術(shù)。
半年多,王斌帶領(lǐng)團(tuán)隊(duì)對(duì)上萬次大大小小的故障逐個(gè)分析,找到每一個(gè)故障的根本原因,歸類整理,做出了一份故障處置清單,打造了一套自動(dòng)檢測(cè)軟件,把各類故障的排查恢復(fù)時(shí)間從幾天縮短到了十幾分鐘。
在王斌團(tuán)隊(duì)的努力下,國(guó)產(chǎn)AI芯片在萬卡規(guī)模上的訓(xùn)練效率達(dá)到同代國(guó)際主流AI芯片水平,為后續(xù)國(guó)產(chǎn)芯片在其他領(lǐng)域更廣泛的應(yīng)用打下了堅(jiān)實(shí)基礎(chǔ)。
目前九天大模型已經(jīng)進(jìn)入了通信、石油生產(chǎn)、農(nóng)業(yè)種植、智能制造等很多領(lǐng)域,正在用智慧賦能新質(zhì)生產(chǎn)力。2025年1月,九天大模型被評(píng)為央企大國(guó)重器。
中國(guó)信息通信研究院人工智能研究所平臺(tái)與工程化部副主任 董昊:九天大模型不僅是我們自主技術(shù)的一種突破,同時(shí)也為我們國(guó)家大模型的應(yīng)用落地提供了可復(fù)制可借鑒的成熟解決方案。
王斌:國(guó)家給了我們這種期許,能夠用國(guó)產(chǎn)算力實(shí)現(xiàn)對(duì)國(guó)際主流算力的替代,我們九天大模型還在持續(xù)迭代升級(jí),在AI賽道上任重道遠(yuǎn),我們有信心有決心來應(yīng)對(duì)挑戰(zhàn)。