首頁(yè)>專題>科技中國(guó) 使命擔(dān)當(dāng)>要聞
破算力焦慮,萬(wàn)卡集群來(lái)幫忙
人民政協(xié)網(wǎng)2月5日電 百度智能云于近日成功點(diǎn)亮昆侖芯三代萬(wàn)卡集群,業(yè)界認(rèn)為,這一重大突破標(biāo)志著百度在人工智能算力領(lǐng)域邁出了堅(jiān)實(shí)一步。花旗銀行發(fā)布研報(bào)稱,DeepSeek、百度等中國(guó)模型展現(xiàn)出的高效和低成本優(yōu)勢(shì),將有助于加速全球AI應(yīng)用開發(fā),并在全球引發(fā)更多技術(shù)創(chuàng)新,推動(dòng)2025年人工智能應(yīng)用的拐點(diǎn)。中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民也表示,當(dāng)下構(gòu)建國(guó)產(chǎn)自主萬(wàn)卡系統(tǒng)充滿挑戰(zhàn),但“至關(guān)重要”。
過(guò)去一年,人工智能行業(yè)在努力降低大模型使用成本,但算力緊張一直是導(dǎo)致成本居高不下的重要因素之一。百度通過(guò)自研芯片和建設(shè)大規(guī)模集群,不僅解決了自身算力供應(yīng)的問題,還為整個(gè)行業(yè)提供了新的思路和方向。
從算力上看,超大規(guī)模并行計(jì)算能力可實(shí)現(xiàn)訓(xùn)練效率躍升,萬(wàn)卡集群可將千億參數(shù)模型的訓(xùn)練周期大幅降低,滿足AI原生應(yīng)用快速迭代的需求。? 隨著國(guó)產(chǎn)大模型的興起,萬(wàn)卡集群也逐漸從“單任務(wù)算力消耗”到“集群效能最大化”過(guò)渡,通過(guò)模型優(yōu)化、有效訓(xùn)練率提升、動(dòng)態(tài)資源分配等手段,智能調(diào)度任務(wù),將訓(xùn)練、微調(diào)、推理任務(wù)混合部署,從而提升集群綜合利用率,降低單位算力成本。
值得一提的是,在2024年9月完成升級(jí)的百度百舸AI異構(gòu)計(jì)算平臺(tái)4.0(以下簡(jiǎn)稱“百舸平臺(tái)”),在萬(wàn)卡集群的建設(shè)中發(fā)揮了重要作用:其構(gòu)建了十萬(wàn)卡級(jí)別的超大規(guī)模HPN高性能網(wǎng)絡(luò),針對(duì)跨地域通信中的高延遲問題,通過(guò)優(yōu)化的拓?fù)浣Y(jié)構(gòu)、多路徑負(fù)載均衡策略及通信策略,實(shí)現(xiàn)了幾十公里的跨地域通信;在通信效率上,百舸通過(guò)擁塞控制算法和集合通信算法策略,保障了網(wǎng)絡(luò)的穩(wěn)定性;在多芯混訓(xùn)方面,百舸能夠?qū)⒉煌攸c(diǎn)、不同規(guī)模的異構(gòu)算力進(jìn)行統(tǒng)一管理,構(gòu)建起多芯資源池,當(dāng)業(yè)務(wù)提交工作負(fù)載時(shí),百舸可自動(dòng)進(jìn)行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價(jià)比最高的芯片來(lái)運(yùn)行任務(wù);在集群穩(wěn)定性方面,百舸提供了全面的故障診斷手段,能夠快速自動(dòng)偵測(cè)到導(dǎo)致訓(xùn)練任務(wù)異常的節(jié)點(diǎn)故障。(崔呂萍)
編輯:李律杉