從“規(guī)模驅(qū)動”到“場景驅(qū)動”:北京超算CTO甄亞楠眼中的AI算力革命
過去十年,算力行業(yè)遵循著一條簡單卻有效的增長邏輯:更大的數(shù)據(jù)中心、更多的服務器、更強的芯片,AI算力需求正以前所未有的速度膨脹,規(guī)模驅(qū)動時代創(chuàng)造了難以復制的奇跡,AI訓練集群從千卡級邁向萬卡級。但邊際效益遞減的規(guī)律開始顯現(xiàn),資源限制、調(diào)度僵化、成本失控,瓶頸不再僅僅在于“算力不夠”,而在于“算力不好用”。不是不需要更多算力,而是行業(yè)增長的核心引擎正在發(fā)生根本性的切換:從“規(guī)模驅(qū)動”轉(zhuǎn)向“場景驅(qū)動”。

在這場變革中,技術架構如何破局?場景化服務如何落地?行業(yè)標準如何走向統(tǒng)一?IT168記者近日專訪北京超算CTO甄亞楠,深入解讀算力的演進邏輯與實踐路徑。
破局之道:讓算力具備“場景嗅覺”
在傳統(tǒng)的“資源視角”下,算力往往被簡單等同于GPU數(shù)量與帶寬等硬件指標,基礎設施更側(cè)重于資源的靜態(tài)供給。甄亞楠認為,真正的破局在于推動整個技術架構完成一次根本性的視角躍遷:即從“資源視角”轉(zhuǎn)向以業(yè)務結(jié)果為錨點的“任務視角”,讓算力基礎設施真正具備理解業(yè)務的“場景嗅覺”。
“在‘任務視角’下,算力是一種以業(yè)務結(jié)果為導向的服務能力,”甄亞楠解釋道,“基礎設施需要理解每個任務的特性:是計算密集型還是延遲敏感型?需要多大吞吐量?”
具備這種“場景嗅覺”的系統(tǒng),其理想狀態(tài)是成為一個智能的“資源管家”,能夠在任務發(fā)起之初便精準識別其特性,并自動匹配更好的執(zhí)行環(huán)境。甄亞楠指出,實現(xiàn)這一目標的關鍵路徑,在于將業(yè)務側(cè)模糊、抽象的場景需求,系統(tǒng)地“翻譯”為可量化、可執(zhí)行的一系列技術參數(shù)與調(diào)度策略。
他進一步強調(diào),這場變革的實質(zhì)并非要顛覆硬件本身,而是通過為硬件層注入深刻的場景理解與動態(tài)適配能力,讓既有的算力資源能夠更靈活、更高效地響應多樣化的業(yè)務需求。北京超算正在踐行的,正是通過豐富的工程實踐經(jīng)驗,構建這樣一套將場景意圖轉(zhuǎn)化為最優(yōu)技術部署的閉環(huán)體系。
落地之策:從“賣資源”到“交鑰匙”
場景驅(qū)動必須跨越技術與商業(yè)的“最后一公里”。甄亞楠強調(diào),落地路徑在于構建“場景——算力”的交付閉環(huán),其本質(zhì)是商業(yè)模式從資源租賃轉(zhuǎn)向價值交付。
“這意味著算力服務商不再拿著硬件清單問客戶‘你要買多少’,而是拿著行業(yè)解決方案問‘你要解決什么問題’。”甄亞楠將這一轉(zhuǎn)變概括為從“賣資源”到“交鑰匙”的跨越——即從提供裸金屬,進化為提供包含軟件、網(wǎng)絡、運維在內(nèi)的全棧環(huán)境。
北京超算的實踐是構建覆蓋“算-網(wǎng)-存”硬件棧及系統(tǒng)、驅(qū)動、模型三層軟件棧的交付體系,并向上延伸打造“訓練、推理、模型服務、運維觀測、應用運行特征分析”的場景化封裝體系。“其核心在于通過深度抽象與標準化封裝,將底層復雜性對上層應用透明化,交付一個經(jīng)過深度協(xié)同優(yōu)化的整體能力。”甄亞楠說。這種“軟硬協(xié)同”的思路貫穿設計全環(huán)節(jié),旨在打通性能瓶頸,釋放系統(tǒng)整體效能。
標準之問:從“企業(yè)孤島”到“行業(yè)語言”
實現(xiàn)場景驅(qū)動面臨著一個深層挑戰(zhàn):如何平衡場景的多樣性與生態(tài)的統(tǒng)一性,即構建通行的“行業(yè)語言”以打破“企業(yè)孤島”。
甄亞楠分析指出,當前算力生態(tài)呈現(xiàn)多元并存的格局。一方面,CUDA生態(tài)憑借長期積累成為AI開發(fā)領域廣泛應用的事實標準。另一方面,技術自主發(fā)展的需求也推動了多樣化的算力架構演進。這種格局在為行業(yè)提供更多選擇的同時,也帶來了生態(tài)兼容與標準統(tǒng)一的現(xiàn)實張力。
“標準化的難點在于,既要鼓勵面向不同場景的技術創(chuàng)新和差異化優(yōu)勢,又要避免因技術路徑分裂而形成極高的生態(tài)壁壘,”甄亞楠表示,“這需要行業(yè)在關鍵接口、基礎工具鏈和開發(fā)范式上尋求共識。”其核心在于降低開發(fā)者的適配門檻,讓創(chuàng)新力量更聚焦于業(yè)務場景本身,而非消耗在底層的移植與適配工作中。算力供應商需要在此過程中做好充分的技術儲備與服務支撐,加速多樣化的算力從“可用”到“好用”的進程。
技術重構:智能調(diào)度與數(shù)據(jù)驅(qū)動的效能革命
支撐上述變革的,是一套全棧技術體系的重構。面對千億乃至萬億參數(shù)模型的訓練需求,北京超算的核心思路是超越硬件堆砌,從系統(tǒng)工程的頂層進行設計,其目標是讓算力基礎設施具備與業(yè)務場景深度耦合的“感知-響應”能力。
其中,調(diào)度系統(tǒng)是這一體系的核心。北京超算實施了“以性能與效率為核心”的智能調(diào)度系統(tǒng),甄亞楠將其形容為集群的“中樞神經(jīng)系統(tǒng)”。該系統(tǒng)通過構建多維度關聯(lián)分析模型,精準刻畫任務健康狀態(tài)——不僅監(jiān)控GPU利用率,更將網(wǎng)絡、內(nèi)存帶寬、存儲吞吐、排隊等待時間等數(shù)十個指標進行交叉驗證與深度關聯(lián)分析,從而識別資源錯配、低效運行及空閑資源,為動態(tài)優(yōu)化提供依據(jù)。
這一調(diào)度理念,進一步通過 “應用運行特征分析” 方法落地為一項可復用的平臺能力。據(jù)甄亞楠介紹,北京超算已將這一方法固化為一個高度自動化、閉環(huán)的智能算力決策與優(yōu)化平臺。該平臺的運作機制是一個完整的“感知-決策-執(zhí)行-優(yōu)化”閉環(huán):
首先進行全局感知與精準畫像。平臺可對集群進行“算力CT掃描”,基于歷史運行數(shù)據(jù)智能識別資源占用最高的關鍵應用作為典型負載,并從計算、訪存、通信、I/O等維度進行深度剖析,生成量化的應用畫像,精準分類為計算密集型、通信密集型等類別,為優(yōu)化確立清晰“靶點”。
隨后實現(xiàn)科學選型與敏捷交付。基于負載特征,平臺的智能匹配引擎可在1小時內(nèi)輸出多套差異化的資源匹配方案,形成一個涵蓋“可用、高性能、高性價比”等多個維度的決策矩陣,使用戶能結(jié)合業(yè)務目標與預算做出精準選擇。方案確認后,可在4小時內(nèi)完成資源交付,實現(xiàn)從決策到供給的極速閉環(huán)。
算力交付并非終點,而是持續(xù)優(yōu)化的起點。 平臺通過可視化監(jiān)控實時識別低效、空閑與異常資源,并動態(tài)實施算力錯峰、彈性伸縮、閑時回收等策略,持續(xù)提升資源利用率。
通過上述閉環(huán),北京超算將復雜的算力管理過程,轉(zhuǎn)化為一個自動化、數(shù)據(jù)驅(qū)動的持續(xù)優(yōu)化系統(tǒng),推動算力從靜態(tài)“資源”向高效“能力”的系統(tǒng)性轉(zhuǎn)變。
未來愿景:算力即服務與可持續(xù)生態(tài)
展望未來,甄亞楠認為“算力即服務”將成為主流范式。北京超算已著手構建跨云、跨數(shù)據(jù)中心的統(tǒng)一算力池,旨在將分布各異、架構不同的異構算力資源,整合為邏輯統(tǒng)一、彈性供給的服務。
“用戶未來面對的不再是復雜的底層設施,而是一個標準化的服務入口,可以按需、按量獲取算力,如同使用水電一樣便捷。”甄亞楠描述道。然而,實現(xiàn)這一愿景面臨技術、生態(tài)與運營層面的三重挑戰(zhàn):需在技術上統(tǒng)一多元平臺的接口與協(xié)議;在生態(tài)上協(xié)同構建開放、互信的軟件與應用生態(tài);在運營上建立公平、精準的跨平臺計量計費與服務體系。“這是一場涉及技術重構、生態(tài)協(xié)同和模式創(chuàng)新的系統(tǒng)性革命。”甄亞楠總結(jié)。
與此同時,對算力效能的評估標準也在演進。“實際業(yè)務更關心的是能把多少理論算力轉(zhuǎn)化為模型Tokens或推理FPS,即完成‘有用AI工作’的有效算力占比。”甄亞楠指出。真正的“算力效能”需在“同一程序、同一數(shù)據(jù)、同一參數(shù)”的條件下,綜合評估功耗、成本、時間等多重變量。
從規(guī)模驅(qū)動到場景驅(qū)動,標志著AI算力行業(yè)正步入一個以價值創(chuàng)造為核心、更加成熟與可持續(xù)的新階段。在這場深刻的范式革命中,那些能深入理解業(yè)務、優(yōu)化全鏈路效能、并構建開放服務生態(tài)的企業(yè),將成為推動AI大規(guī)模落地的關鍵賦能者。


