国产精品视频一区国模私拍_日本中文字幕在线精品一区在线观看影视_亚洲无码精品免费一区_av网站在线观看亚洲_亚洲国产精品久久精品怡红院

您現(xiàn)在的位置:首頁(yè)  >  新聞資訊

智算萬(wàn)卡潮起,國(guó)產(chǎn)AI芯片迎高光時(shí)刻

2025/1/13 17:13:11 標(biāo)簽:中國(guó)傳動(dòng)網(wǎng)

那么到底什么是萬(wàn)卡集群?萬(wàn)卡集群到底有哪些作用?有必要部署萬(wàn)卡集群?jiǎn)?

01 什么是萬(wàn)卡集群?

萬(wàn)卡集群,是指由超過(guò)一萬(wàn)張加速卡(如GPU、TPU或其他專用AI加速芯片)組成的高性能計(jì)算系統(tǒng),用以加速人工智能模型的訓(xùn)練和推理過(guò)程。

至于為什么需要一萬(wàn)張加速卡?

眾所周知,大模型競(jìng)賽的本質(zhì)是算力競(jìng)賽。比如這里有一個(gè)超大土堆,放一個(gè)工人和放一萬(wàn)個(gè)工人,在效率上肯定會(huì)有質(zhì)的飛躍。

以O(shè)penAI訓(xùn)練GPT模型為例,GPT-4需要使用2.5萬(wàn)張英偉達(dá)A100 GPU,并行訓(xùn)練100天左右的時(shí)間,在此期間要處理13萬(wàn)億個(gè)token,并且涉及大約1.76萬(wàn)億個(gè)參數(shù)。在不久的將來(lái),開發(fā)大模型所需的算力將實(shí)現(xiàn)指數(shù)級(jí)的增長(zhǎng),對(duì)于即將亮相的GPT-5,預(yù)計(jì)該模型的訓(xùn)練需要部署20萬(wàn)~30萬(wàn)個(gè)H100 GPU,耗時(shí)130~200 天。

如今OpenAI發(fā)布ChatGPT已有兩年的時(shí)間,從建設(shè)進(jìn)度上看,海外頭部廠商在2022年、2023年已經(jīng)完成萬(wàn)卡集群搭建。比如2023年5月,谷歌推出的AI超級(jí)計(jì)算機(jī)A3,搭載了約26000塊英偉達(dá)H100 GPU;2022年,META宣布了一個(gè)由1.6萬(wàn)塊英偉達(dá)A100 GPU組成的集群。到了2024年初,META進(jìn)一步擴(kuò)大規(guī)模,建成了兩個(gè)各含24576塊GPU的集群,并設(shè)定了宏偉目標(biāo):到2024年底,構(gòu)建一個(gè)包含35萬(wàn)塊英偉達(dá)H100 GPU的龐大基礎(chǔ)設(shè)施。亞馬遜Amazon EC2 Ultra集群采用了2萬(wàn)個(gè)H100 TensorCore GPU。

再看中國(guó)的智能算力建設(shè)情況。

02  國(guó)產(chǎn)萬(wàn)卡集群,誰(shuí)在布局?

日前,中國(guó)工程院院士鄭緯民指出,“構(gòu)建國(guó)產(chǎn)AI卡的萬(wàn)卡大模型訓(xùn)練平臺(tái)很難,但也很重要以及必要。”

當(dāng)下,國(guó)內(nèi)已有多家廠商及機(jī)構(gòu)著手向萬(wàn)卡集群領(lǐng)域拓展業(yè)務(wù)。

根據(jù)《智算產(chǎn)業(yè)發(fā)展研究報(bào)告(2024)》顯示,在中國(guó),超萬(wàn)卡集群的智算中心已達(dá)十余個(gè)。

今年以來(lái), 中國(guó)移動(dòng) 、聯(lián)通、電信三大運(yùn)營(yíng)商均在加速推進(jìn)超萬(wàn)卡集群智算中心的建設(shè)。

今年8月,中國(guó)電信在智算網(wǎng)絡(luò)建設(shè)方面取得了顯著進(jìn)展,其上海與北京兩大萬(wàn)卡集群已成功投產(chǎn)運(yùn)營(yíng)。

中國(guó)移動(dòng)位于呼和浩特、哈爾濱、貴陽(yáng)的萬(wàn)卡級(jí)別的智算中心已經(jīng)先后投產(chǎn)運(yùn)行。據(jù)悉,三大集群總規(guī)模近6萬(wàn)張GPU卡,充分滿足大模型集中訓(xùn)練需求。

中國(guó)聯(lián)通正在打造上海、呼和萬(wàn)卡智算集群,全網(wǎng)智算算力超15EFLOPS,發(fā)布AICC、AICP、星羅調(diào)度平臺(tái)等五大智算產(chǎn)品,提供涵蓋國(guó)家“東數(shù)西算”樞紐、31省重點(diǎn)城市、超600邊緣節(jié)點(diǎn)的AIDC基座。

小米也正計(jì)劃建設(shè)一座GPU萬(wàn)卡集群。據(jù)悉,小米在其大模型團(tuán)隊(duì)成立時(shí)已經(jīng)擁有6500張GPU資源。

字節(jié)在2023年就已建立起超過(guò)1萬(wàn)張卡的Ampere架構(gòu)GPU (A100/A800) 集群,此后還在建設(shè)大規(guī)模Hopper架構(gòu)(H100/H800)集群。

如今,“萬(wàn)卡集群”被業(yè)界視作是這一輪大模型競(jìng)賽的“入場(chǎng)券”,甚至還有不少?gòu)S商已經(jīng)開始布局“十萬(wàn)卡集群”。

百度的百舸 4.0 通過(guò)一系列產(chǎn)品技術(shù)創(chuàng)新,已經(jīng)能夠?qū)崿F(xiàn)十萬(wàn)卡集群的高效管理。

阿里巴巴的阿里云可實(shí)現(xiàn)芯片、服務(wù)器、數(shù)據(jù)中心之間的高效協(xié)同,支持 10 萬(wàn)卡量級(jí)的集群可擴(kuò)展規(guī)模,已服務(wù)全國(guó)一半的人工智能大模型企業(yè)。

騰訊已宣布自研星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí),星脈網(wǎng)絡(luò) 2.0 搭載全自研的網(wǎng)絡(luò)設(shè)備與 AI 算力網(wǎng)卡,能夠支持超 10 萬(wàn)卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升 60%,讓大模型訓(xùn)練效率提升 20%。

03  國(guó)產(chǎn)AI芯片公司,得到利好

顯然,在運(yùn)營(yíng)商以及科技巨頭紛紛入場(chǎng)布局之際,國(guó)產(chǎn) AI 芯片公司也迎來(lái)利好。

華為昇騰

據(jù)悉,以政府為主導(dǎo)的城市智能計(jì)算中心多采用國(guó)產(chǎn)A1芯片中的佼佼者如華為昇騰等,其中華為更是在統(tǒng)計(jì)的20多個(gè)城市為主體的智能計(jì)算中心中占據(jù)79%的市場(chǎng)份額,處于國(guó)產(chǎn)AI芯片的領(lǐng)先位置。在可預(yù)見的2025年,昇騰芯片及服務(wù)器的市場(chǎng)依舊會(huì)處于緊張的供給局面。

寒武紀(jì)

2023年寒武紀(jì)思元(MLU)系列云端智能加速卡在中國(guó)移動(dòng)正式上線。截至2023年12月,中國(guó)移動(dòng)已有12個(gè)省公司、超過(guò)70個(gè)AI業(yè)務(wù)完成向寒武紀(jì)思元系列云端智能加速卡的遷移。

2024年8月,中國(guó)移動(dòng)云能力中心參建的全球運(yùn)營(yíng)商最大單集群智算中心——中國(guó)移動(dòng)智算中心(哈爾濱)正式投產(chǎn)使用。該智算中心部署超1.8萬(wàn)張AI加速卡,AI芯片國(guó)產(chǎn)化率達(dá)100%,可提供6.9EFLOPS(每秒690億億次浮點(diǎn)運(yùn)算)智能算力。據(jù)悉,該智算中心就是由寒武紀(jì)參與建設(shè)。

南京智能計(jì)算中心由南京市麒麟科技創(chuàng)新園與浪潮、寒武紀(jì)共同打造,采用浪潮AI服務(wù)器算力機(jī)組,搭載領(lǐng)先的寒武紀(jì)思元270和思元290智能芯片及加速卡,已運(yùn)營(yíng)系統(tǒng)的AI計(jì)算能力達(dá)每秒80億億次 (800P OpS)。

大模型爆火的當(dāng)下,AI的訓(xùn)練和推理芯片及訓(xùn)推一體化等芯片成為市場(chǎng)“香餑餑”,寒武紀(jì)在此領(lǐng)域的深耕研發(fā),加速思元系列芯片的迭代。

摩爾線程2023 年 12 月摩爾線程 KUAE 智算中心揭幕,這是國(guó)內(nèi)首個(gè)以國(guó)產(chǎn)全功能 GPU 為底座的大規(guī)模算力集群,以全功能 GPU 為底座,提供軟硬一體化的全棧解決方案。

2024 年 7 月,摩爾線程聯(lián)合中國(guó)移動(dòng)通信集團(tuán)青海有限公司、中國(guó)聯(lián)通青海公司、北京德道信科集團(tuán)、中國(guó)能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司等,分別就三個(gè)萬(wàn)卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約,多方將聚力共同構(gòu)建好用的國(guó)產(chǎn)GPU集群。

燧原科技

2021年燧原科技與之江實(shí)驗(yàn)室在之江實(shí)驗(yàn)室南湖新園區(qū)簽約成立“燧原-之江人工智能芯片聯(lián)合研究中心”。

成渝智算中心由四川并濟(jì)科技投建,燧原科技提供搭建算力底座。

與此同時(shí),燧原科技還助力太湖億芯(無(wú)錫)智算中心、甘肅慶陽(yáng)算力樞紐的建設(shè)。

天數(shù)智芯

中國(guó)移動(dòng)智算中心(呼和浩特)是全球運(yùn)營(yíng)商領(lǐng)域內(nèi)規(guī)模最大的單體液冷智算中心,智算規(guī)模高達(dá) 6.7EFLOPS(FP16),擁有國(guó)家級(jí) N 節(jié)點(diǎn)萬(wàn)卡規(guī)模 AI 訓(xùn)練場(chǎng)。

天數(shù)智芯在該項(xiàng)目中充分發(fā)揮天垓 150 產(chǎn)品的卓越性能與廣泛適用性,與新華三信息技術(shù)強(qiáng)強(qiáng)聯(lián)合,共同打造高性能 AI 訓(xùn)練服務(wù)器。

壁仞科技

壁仞科技也參與中國(guó)移動(dòng)呼和浩特智算中心項(xiàng)目。

此外,壁仞科技的壁礪系列通用 GPU 算力產(chǎn)品還在中國(guó)電信落地千卡集群并開展商業(yè)化應(yīng)用,另外在中國(guó)電信集團(tuán)新一輪國(guó)產(chǎn)化 GPU 集采項(xiàng)目中,壁仞科技的主流 GPU 產(chǎn)品已經(jīng)納入中國(guó)電信的集采名錄,成為中國(guó)電信的主要 GPU 供應(yīng)商。

沐曦科技

2024 年 11月,由上海聯(lián)通攜手加佳科技、沐曦共同打造的曦源一號(hào) SADA 萬(wàn)卡集群算力項(xiàng)目第一期千卡國(guó)產(chǎn)算力集群在上海聯(lián)通臨港機(jī)房正式落地。該項(xiàng)目以沐曦 GPU 芯片技術(shù)產(chǎn)品為核心,著力構(gòu)建集算力、算法、數(shù)據(jù)、產(chǎn)業(yè)應(yīng)用為一體的人工智能產(chǎn)業(yè)新生態(tài)。

據(jù)悉,沐曦和加佳科技已在上海、湖南、江蘇等多地建成智算中心,并計(jì)劃于2025年6月完成10000卡國(guó)產(chǎn)高質(zhì)量算力建設(shè)。

04何止“萬(wàn)卡”,甚至要“百萬(wàn)卡”

從早期智算中心艱難起步,一步步發(fā)展到如今 “萬(wàn)卡” 規(guī)模的算力集群紛紛落地,這無(wú)疑是巨大的飛躍。當(dāng)下,行業(yè)頭部廠商更是將視野進(jìn)一步拓寬,已然聚焦于更為宏大的 “百萬(wàn)卡” 目標(biāo)。

近日,在AI市場(chǎng)快速增長(zhǎng)的背景下,博通市值突破 1 萬(wàn)億美元,創(chuàng)下歷史新高。

博通首席執(zhí)行官陳福陽(yáng)表示,他有信心在 2020 年代后期繼續(xù)加大對(duì)人工智能的投資。他指出,三年內(nèi),博通的客戶計(jì)劃構(gòu)建配備數(shù)百萬(wàn)個(gè) AI 芯片的大規(guī)模計(jì)算集群,從而推動(dòng)市場(chǎng)大幅增長(zhǎng)。

博通正與三大客戶合作開發(fā) AI 芯片,計(jì)劃到 2027 年在網(wǎng)絡(luò)集群中部署 100 萬(wàn)個(gè)芯片。據(jù)CNBC報(bào)道,他估計(jì),到 2027 年,其 XPU 和 AI 網(wǎng)絡(luò)組件的總市場(chǎng)規(guī)模將達(dá)到 600 億至 900 億美元。

雖然博通尚未正式公布其芯片客戶,但分析師表示,該公司正在與谷歌、Meta 和字節(jié)跳動(dòng)合作,以加速 AI 系統(tǒng)的訓(xùn)練和部署。據(jù)《金融時(shí)報(bào)》報(bào)道,該公司已為此開發(fā)了定制處理器。

05“萬(wàn)卡集群”真的有必要嗎?

先說(shuō)結(jié)論,“萬(wàn)卡集群”的建設(shè)一定是有必要的。

當(dāng)前,我國(guó)智能算力供不應(yīng)求的問(wèn)題較為突出,大模型對(duì)算力的需求增速遠(yuǎn)超單顆 AI 芯片性能的提升步伐。相關(guān)報(bào)告顯示,2023 年,中國(guó)智能算力需求達(dá) 123.6EFLOPS,而供給僅為 57.9EFLOPS,供需缺口一目了然。利用集群互聯(lián)彌補(bǔ)單卡性能短板,或是現(xiàn)階段緩解 AI 算力荒最值得探索與實(shí)踐的有效途徑。

不過(guò),在推進(jìn) “萬(wàn)卡集群” 建設(shè)進(jìn)程中,有兩大關(guān)鍵難題亟待解決:其一,怎樣高質(zhì)量完成建設(shè)任務(wù),保證集群在穩(wěn)定性、高效性、兼容性等多方面達(dá)到標(biāo)準(zhǔn)要求;其二,建成后如何充分挖掘其應(yīng)用價(jià)值,使其在人工智能訓(xùn)練、大數(shù)據(jù)分析等適配場(chǎng)景發(fā)揮最大作用,杜絕資源空置與浪費(fèi)現(xiàn)象。

首先,不妨將 “萬(wàn)卡集群” 類比為參與 “多人多足” 游戲的團(tuán)隊(duì),大家都清楚,讓一群人如同一個(gè)人般整齊劃一地前行并非易事,要調(diào)度上萬(wàn)張計(jì)算卡協(xié)同高效作業(yè)、達(dá)成性能的線性擴(kuò)展、確保任務(wù)無(wú)間斷運(yùn)行,這對(duì)集群的設(shè)計(jì)、調(diào)度以及容錯(cuò)能力都提出了極高挑戰(zhàn)。

其次,智算中心的建設(shè)只是一個(gè)開端,更重要的是后續(xù)的有效運(yùn)用。

據(jù)報(bào)道,由于智算中心的投資、建設(shè)、運(yùn)營(yíng)通常由不同主體負(fù)責(zé),前期建設(shè)方常常對(duì)后續(xù)運(yùn)營(yíng)模式、服務(wù)標(biāo)準(zhǔn)缺乏足夠考量,出現(xiàn) “只管建設(shè)、不顧運(yùn)營(yíng)”、建設(shè)與運(yùn)營(yíng)脫節(jié)的情況,影響了客戶體驗(yàn),致使不少城市所建智算中心的機(jī)架利用率不盡人意。

從商業(yè)模式來(lái)講,智算中心大多以出租或售賣算力為主要盈利手段,然而因行業(yè)尚未統(tǒng)一算力定價(jià)標(biāo)準(zhǔn),不同智算中心價(jià)格差異懸殊,市場(chǎng)接納程度受限。

近期,多位智算中心領(lǐng)域從業(yè)者走訪國(guó)內(nèi)各地智算中心后,他們中的一些人向《智能涌現(xiàn)》反饋,當(dāng)前國(guó)內(nèi)算力中心市場(chǎng)較為低迷。一位業(yè)內(nèi)人士透露:“就目前所掌握情況,多數(shù)機(jī)房出租率大致在 20% - 30% 區(qū)間浮動(dòng),部分企業(yè)級(jí)智算中心出租率甚至低至 10% 左右?!?/p>

要清楚,智算中心不僅前期需要投入巨額資金購(gòu)置 GPU 等 AI 芯片,后續(xù)運(yùn)營(yíng)階段同樣需要持續(xù)注資。

《智能涌現(xiàn)》不久前發(fā)文指出,一臺(tái)英偉達(dá) H100 服務(wù)器(8 卡)租賃價(jià)格,已從年初的 12- 18萬(wàn)元/月,下滑至目前的7.5萬(wàn)元/月,降幅約50%。

若按照當(dāng)前機(jī)房20%的利用率來(lái)算,一個(gè)英偉達(dá)H100千卡集群智算中心每年?duì)I收僅2300 萬(wàn)元(即7.5 萬(wàn)元/月×12個(gè)月×128臺(tái)服務(wù)器×20%),這意味著,即便算力中心勉強(qiáng)維持運(yùn)營(yíng),所得收入基本只能覆蓋一半的正常運(yùn)營(yíng)成本,前期投入的資本根本無(wú)從回本。

綜上所述,“萬(wàn)卡集群”已成為智能算力時(shí)代的重要里程碑,標(biāo)志著我國(guó)在人工智能領(lǐng)域的算力建設(shè)邁上了新的臺(tái)階。從小米、中國(guó)移動(dòng)等科技巨頭正積極布局萬(wàn)卡集群,以期在這場(chǎng)大模型競(jìng)賽中占據(jù)有利地位。然而,萬(wàn)卡集群的建設(shè)并非易事,智算中心需要多長(zhǎng)時(shí)間才能通過(guò)運(yùn)營(yíng)收入收回投資,行業(yè)也還需更多的探索。


供稿:OFweek 電子工程網(wǎng)

本文鏈接:http://www.baqblw.cn/content.aspx?url=rew&id=5622

成員中心

《伺服與運(yùn)動(dòng)控制》

《伺服與運(yùn)動(dòng)控制》

創(chuàng)刊于2005年,秉承面向市場(chǎng)、面向科技、面向應(yīng)用、面向行業(yè),集實(shí)用性、信息性、...

《機(jī)器人與智能系統(tǒng)》

《機(jī)器人與智能系統(tǒng)》

是深圳市機(jī)器人協(xié)會(huì)、中國(guó)傳動(dòng)網(wǎng)共同主辦的聚焦機(jī)器人、智能系統(tǒng)領(lǐng)域的高端產(chǎn)經(jīng)...

《直驅(qū)與傳動(dòng)》

《直驅(qū)與傳動(dòng)》

聚焦直驅(qū)產(chǎn)業(yè),整合資源,為直驅(qū)企業(yè)與用戶搭建橋梁。