大模型的落地能力,核心在于性能的穩(wěn)定輸出,而性能穩(wěn)定的底層支撐,是強(qiáng)大的算力集群。其中,構(gòu)建萬(wàn)卡級(jí)算力集群,已成為全球公認(rèn)的頂尖技術(shù)挑戰(zhàn)。
但是,在華為,昇騰萬(wàn)卡算力集群,已經(jīng)可以做到近乎“永不罷工”了:
或許有小伙伴要問(wèn)了:AI算力需要如此24小時(shí)不間斷的運(yùn)作嗎?
答案是肯定的,需要,且有必要。
因?yàn)樾〉轿覀冇檬謾C(jī)導(dǎo)個(gè)航,背后都會(huì)有幾十個(gè)AI模型在發(fā)力來(lái)分析路況、預(yù)測(cè)擁堵;再如醫(yī)院用AI輔助診斷癌癥,系統(tǒng)得在瞬間處理掉成百上千的CT照片。
這些看似簡(jiǎn)單的智能應(yīng)用,其實(shí)都離不開(kāi)如 “超級(jí)大腦” 般的AI算力集群,需要它們?nèi)旌虿煌P剡\(yùn)轉(zhuǎn)著。
而要保證有這樣的能力,高訓(xùn)練可用度、高線性度、快速消除故障,就相當(dāng)于給AI發(fā)動(dòng)機(jī)上了一份強(qiáng)有力的保險(xiǎn)。
更嚴(yán)格來(lái)說(shuō),AI推理的可用度甚至還需要達(dá)到99.95%的程度。
那么華為又是如何做到這點(diǎn)的?
關(guān)于這一切背后的秘密,華為在今天首次把技術(shù)給公開(kāi)了出來(lái)。
AI大集群出問(wèn)題時(shí),定位故障特別麻煩;畢竟系統(tǒng)規(guī)模龐大,軟件和硬件組成的技術(shù)棧錯(cuò)綜復(fù)雜,而且調(diào)用鏈條還很長(zhǎng)。
要解決問(wèn)題,首先得確定故障出在哪個(gè)大的領(lǐng)域,接著再在這個(gè)領(lǐng)域內(nèi)部一步步排查,確定具體的故障位置。在整個(gè)故障診斷過(guò)程中,面臨的挑戰(zhàn)非常大。
以往技術(shù)人員進(jìn)行故障定位時(shí),短則需數(shù)小時(shí),長(zhǎng)則可能耗時(shí)數(shù)天。這一過(guò)程不僅對(duì)技術(shù)人員的專業(yè)技能要求頗高,且往往難以快速鎖定故障設(shè)備及根本原因。
為此,華為團(tuán)隊(duì)針對(duì)AI大集群面臨的復(fù)雜挑戰(zhàn),構(gòu)建了三大基礎(chǔ)能力。
首先是全??捎^測(cè)能力。
它像是給集群裝了一套“火眼金睛”監(jiān)控系統(tǒng)(故障感知),主要包含這幾部分: