人工智能(AI)技術(shù)的快速演進正在深刻重塑產(chǎn)業(yè)格局。日前舉行的華為云AI峰會上,華為云介紹了CloudMartix 384超節(jié)點的創(chuàng)新技術(shù)優(yōu)勢。業(yè)內(nèi)人士認為,作為創(chuàng)新的算力基礎(chǔ)設(shè)施,超節(jié)點架構(gòu)為加速AI應(yīng)用落地以及行業(yè)智能化發(fā)展提供了切實可行的技術(shù)路徑。
隨著大模型訓練和推理對算力需求的爆炸式增長,傳統(tǒng)計算架構(gòu)已難以支撐AI技術(shù)的代際躍遷。對此,華為云推出了采用全對等互聯(lián)架構(gòu)的CloudMatrix 384超節(jié)點。
“通過新型高速互聯(lián)總線實現(xiàn)384張卡互聯(lián)成為一個超級云服務(wù)器,最高能提供300Pflops的算力規(guī)模?!比A為云副總裁黃瑾介紹,這項技術(shù)創(chuàng)新跳出了單點技術(shù)的限制,以系統(tǒng)性、工程性的創(chuàng)新算力架構(gòu),直面通信效率瓶頸、內(nèi)存墻制約、可靠性短板三大技術(shù)挑戰(zhàn),具備MoE親和、以網(wǎng)強算、以存強算、長穩(wěn)可靠、朝推夜訓、即開即用六大技術(shù)優(yōu)勢,并以系統(tǒng)架構(gòu)創(chuàng)新重新定義了新一代AI基礎(chǔ)設(shè)施。
穩(wěn)定的AI算力供給,離不開可靠的數(shù)據(jù)中心載體。目前,基于CloudMatrix的超節(jié)點集群已經(jīng)在安徽蕪湖、貴州貴安、內(nèi)蒙古等多地數(shù)據(jù)中心規(guī)模上線。華為云數(shù)據(jù)中心全球DC運維首席專家謝峰認為,當前,數(shù)據(jù)中心在空間、供電、散熱和運維等方面面臨更多挑戰(zhàn),包括AI集群超大規(guī)模組網(wǎng)帶來的光鏈路可靠性挑戰(zhàn),AI集群功率快速增長和毫秒級功率波動帶來的供電可靠性挑戰(zhàn),AI集群超高密度散熱帶來的水質(zhì)安全和水力平衡挑戰(zhàn)等。據(jù)他介紹,華為云數(shù)據(jù)中心通過產(chǎn)品化,實現(xiàn)了快速交付、低成本、低PUE(電能利用效率指標,PUE值越接近于1,表示能效水平越高),并開展了鋰電預(yù)測、液冷預(yù)測等智能化實踐,以打造綠色低碳、穩(wěn)定可靠、安全可信的云數(shù)據(jù)中心。
華為北京總經(jīng)理張東亞透露,面向政府、教育、金融、零售、互聯(lián)網(wǎng)、交通、制造等行業(yè),昇騰AI云服務(wù)已經(jīng)成為超過600家創(chuàng)新先鋒企業(yè)的數(shù)字化轉(zhuǎn)型伙伴。
基于CloudMatrix 384超節(jié)點昇騰云服務(wù),專注于AI基礎(chǔ)設(shè)施和生成式人工智能計算的高科技公司硅基流動率先實現(xiàn)了DeepSeek-R1推理服務(wù)的持續(xù)升級?!肮杌鲃优c華為云聯(lián)合攻關(guān)實現(xiàn)了技術(shù)突破。”硅基流動聯(lián)合創(chuàng)始人、首席產(chǎn)品官胡健介紹,通過采用大規(guī)模專家并行方案進行DeepSeek-R1部署,以多專家負載均衡和極致通信優(yōu)化,實現(xiàn)了高吞吐、高性能。
“AI化轉(zhuǎn)型其實是數(shù)字化轉(zhuǎn)型的延伸,敏捷化的AI戰(zhàn)略可能是傳統(tǒng)行業(yè)的最佳實踐策略?!贝蠹冶kU信息科技部總經(jīng)理郝曉波表示,大家保險依托華為云算力、AI平臺等,建設(shè)企業(yè)AI中臺、業(yè)務(wù)應(yīng)用,覆蓋智能營銷、風控投資等核心場景,推動了保險業(yè)務(wù)的持續(xù)增長,共同構(gòu)筑起AI時代的保險生態(tài)。
德勤中國合伙人劉曉羽表示,德勤基于華為昇騰云+DeepSeek進行AI場景化咨詢與實施,通過專業(yè)調(diào)優(yōu),幫助客戶一站式構(gòu)建AI Native應(yīng)用,從而實現(xiàn)企業(yè)的降本增效和高質(zhì)量發(fā)展。
值得關(guān)注的是,AI技術(shù)當前已在多個學科領(lǐng)域?qū)崿F(xiàn)應(yīng)用,助力科學發(fā)現(xiàn)突破。中國科學院自動化研究所研究員李林靜表示,AI賦能科研,成為全球科技發(fā)展的制高點,且亟需從作坊模式轉(zhuǎn)向平臺化建設(shè),而平臺化建設(shè)的核心是構(gòu)建面向科學研究的基座大模型?;贑loudMatrix 384超節(jié)點的大模型后訓練,支撐不同訓練范式時穩(wěn)定和擴展性強,為AI模型的迭代升級提供了可靠的算力保障,能有效支持基座模型持續(xù)優(yōu)化。