作為人工智能的“發(fā)動(dòng)機(jī)”和核心驅(qū)動(dòng)力,算力逐漸成為稀缺資源和競(jìng)爭(zhēng)新高地,實(shí)現(xiàn)AI算力的高效利用與精準(zhǔn)調(diào)配成為亟待解決的問(wèn)題。
“在AI大模型迅速發(fā)展的今天,算力成為了不可或缺的血液?!痹?025全球數(shù)字經(jīng)濟(jì)大會(huì)數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)國(guó)際交流合作體驗(yàn)區(qū),北京超級(jí)云計(jì)算中心(以下簡(jiǎn)稱“北京超算”)CTO甄亞楠在接受記者采訪時(shí)表示,在破解算力“供不上、用不起”問(wèn)題上,北京超算目前正在為用戶精準(zhǔn)匹配算力資源,構(gòu)建更加開(kāi)放、高效和靈活的算力平臺(tái)及生態(tài)系統(tǒng),讓算力資源的獲取、調(diào)度和使用變得更加容易,從而高效破解部分算力難題。
智能調(diào)度,讓算力資源利用最大化
大模型訓(xùn)練作為典型的大規(guī)模超算應(yīng)用,具有異構(gòu)計(jì)算、大規(guī)模并行計(jì)算等典型超算應(yīng)用特征,在當(dāng)下大模型訓(xùn)練算力需求爆發(fā)的時(shí)代,如何實(shí)現(xiàn)算力資源的最大化利用,成為關(guān)鍵問(wèn)題。
甄亞楠介紹,北京超算推出按需構(gòu)建算力資源的創(chuàng)新模式,旨在通過(guò)算力租賃,讓用戶依據(jù)業(yè)務(wù)需求獲取彈性的計(jì)算資源,實(shí)現(xiàn)大規(guī)模的計(jì)算任務(wù)。
“用戶只需支付實(shí)際使用所需的計(jì)算量與計(jì)算時(shí)間,大幅降低運(yùn)營(yíng)成本,適用于各種大規(guī)模計(jì)算需求的場(chǎng)景。此外,還能夠在用戶業(yè)務(wù)運(yùn)行中提升利用效率?!彼f(shuō)。
甄亞楠隨即舉了一個(gè)典型案例:“某14B參數(shù)的模型優(yōu)化前GPU利用率只有75%,經(jīng)過(guò)我們的計(jì)算負(fù)載優(yōu)化后,GPU利用率提升到97%,整體性能提升了30%?!?/p>
同時(shí),為了讓算力資源利用率實(shí)現(xiàn)最大化,北京超算采用超算架構(gòu)模式構(gòu)建智算資源,將分布在國(guó)內(nèi)的各大算力中心的資源加以整合,并利用成熟的算力網(wǎng)絡(luò)進(jìn)行調(diào)度,以滿足大規(guī)模訓(xùn)練所需的海量算力需求。例如,在與某科研機(jī)構(gòu)的合作中,通過(guò)整合資源,成功將大模型訓(xùn)練時(shí)間從原本的數(shù)月縮短至數(shù)周,切實(shí)地幫助用戶降本增效。
精準(zhǔn)選型,讓算力更好用
通過(guò)算力預(yù)測(cè)判斷用戶真正所需的算力資源,北京超算基于應(yīng)用運(yùn)行特征分析進(jìn)行算力選型,幫助用戶適配更高性價(jià)比的算力資源。那么,如何讓算力更好用?
“我們?yōu)橛脩籼峁┑牟⒎菃我患夹g(shù)、單一資源,而是一套滿足用戶綜合發(fā)展需求的行業(yè)解決方案?!闭鐏嗛嘎叮本┏憔邆淙f(wàn)卡集群工程化能力,同時(shí)擁有長(zhǎng)達(dá)14年的專業(yè)服務(wù)經(jīng)驗(yàn),有力保障大模型訓(xùn)練、推理業(yè)務(wù)的開(kāi)展,實(shí)現(xiàn)算力資源從可用到好用再到降本。
舉個(gè)例子:北京智源人工智能研究院(以下簡(jiǎn)稱“智源研究院”)推出的“悟界”系列大模型,多模態(tài)架構(gòu)突破數(shù)字物理邊界,引發(fā)全球關(guān)注。
這背后,北京超算出了“一份力”。
進(jìn)行大模型研究工作,智源研究院迫切需要大量的GPU算力資源進(jìn)行模型訓(xùn)練,十分關(guān)注模型訓(xùn)練的時(shí)間和執(zhí)行效率。
基于算力網(wǎng)絡(luò)服務(wù),北京超算AI智算云服務(wù)在短期內(nèi)快速為智源提供了基于“超算架構(gòu)”的A100算力資源,同時(shí)提供了基礎(chǔ)環(huán)境構(gòu)建、模型部署、應(yīng)用運(yùn)行特征性能分析、7×24小時(shí)技術(shù)服務(wù)支持保障等服務(wù),通過(guò)“算力+大模型+技術(shù)服務(wù)”的結(jié)合,為智源打造了高效、穩(wěn)定的智算云算力底座。
無(wú)獨(dú)有偶。清華大學(xué)計(jì)算機(jī)系自然語(yǔ)言處理實(shí)驗(yàn)室的大模型課題組急需使用上百塊高端GPU加速卡進(jìn)行大語(yǔ)言模型訓(xùn)練。但受限于供給關(guān)系影響,課題組在短期內(nèi)很難獲得足夠數(shù)量的高端GPU算力。
為此,該實(shí)驗(yàn)室與北京超算展開(kāi)深度合作。北京超算提供了上百塊A100 GPU的共享算力資源,有力支持了該實(shí)驗(yàn)室的大語(yǔ)言模型的訓(xùn)練需求。
共享算力+模型服務(wù),幫用戶節(jié)省成本
作為2025全球數(shù)字經(jīng)濟(jì)大會(huì)重要活動(dòng),“首發(fā)首秀”聚焦新技術(shù)研發(fā)成果、新產(chǎn)品迭代升級(jí)及場(chǎng)景化應(yīng)用解決方案。北京超算也在現(xiàn)場(chǎng)發(fā)布了匯集了40多個(gè)主流大模型的MaaS平臺(tái)。
一位深入了解MaaS平臺(tái)的AI產(chǎn)業(yè)鏈企業(yè)負(fù)責(zé)人表示:“通過(guò)這個(gè)平臺(tái)就能一站式獲取所需的大模型服務(wù),隨時(shí)隨地實(shí)現(xiàn)API調(diào)用,通過(guò)共享算力與AI模型的方式,企業(yè)無(wú)需自行購(gòu)置硬件和部署AI模型,只需要進(jìn)行簡(jiǎn)單的集成與調(diào)用,從而節(jié)省大量人力成本,將大幅度縮短產(chǎn)品開(kāi)發(fā)周期和市場(chǎng)投放時(shí)間?!?/p>
“MaaS平臺(tái)不僅集成了DeepSeek全系列模型,還整合了智譜GLM、Qwen、ERNIE-4.5等國(guó)產(chǎn)優(yōu)秀模型。”在甄亞楠看來(lái),這種多元化的模型選擇使民營(yíng)企業(yè)能夠根據(jù)自身業(yè)務(wù)需求和算力預(yù)算,靈活選用最適合的AI能力,無(wú)需從零開(kāi)始訓(xùn)練大模型,大幅節(jié)省了研發(fā)投入和時(shí)間成本。
MaaS平臺(tái)強(qiáng)大的性能得益于背后的算力支撐體系。據(jù)悉,北京超算擁有萬(wàn)卡級(jí)GPU集群,涵蓋主流加速卡和國(guó)產(chǎn)自主芯片,通過(guò)智能調(diào)度系統(tǒng)實(shí)現(xiàn)算力資源的動(dòng)態(tài)分配與高效利用?!斑@種強(qiáng)大的算力基礎(chǔ)設(shè)施,可以保證企業(yè)在進(jìn)行大規(guī)模模型訓(xùn)練或復(fù)雜推理任務(wù)時(shí),也能獲得穩(wěn)定、高性能的計(jì)算支持?!闭鐏嗛岬?。
“算力如同基石般支撐著人工智能不斷前進(jìn)。”甄亞楠說(shuō)。
據(jù)悉,北京超算成立于2011年,是由北京市政府主導(dǎo)、院市共建的北京超級(jí)云計(jì)算和國(guó)家重要信息化基礎(chǔ)平臺(tái)。目前已累計(jì)服務(wù)超過(guò)1000家科研機(jī)構(gòu)、高校及企業(yè)。
2020年至2024年,北京超算連續(xù)5年榮獲中國(guó)HPC TOP100“通用CPU算力性能第一名”;2023年6月,入選成為《北京市人工智能產(chǎn)業(yè)創(chuàng)新合作伙伴計(jì)劃》首批算力伙伴。2024年榮獲世界人工智能算力性能AIPerf 500大模型訓(xùn)練算力性能、AI推理延遲性能雙榜單第一。
目前,北京超算已與智源研究院、智譜AI、瀾舟科技、中科聞歌、深勢(shì)科技等模型伙伴等形成了算力合作,為國(guó)產(chǎn)大模型如智譜 GLM、孟子大模型等提供了算力服務(wù)支撐。
(受訪單位供圖)
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2025 中國(guó)高新網(wǎng)chinahightech.com All Rights Reserved.京ICP備14033264號(hào)-5
電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證060344號(hào)主辦單位:《中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司