大模型學(xué)習(xí)和泛化能力持續(xù)增強(qiáng),促使推理應(yīng)用快速增長。今年,全球AI應(yīng)用活躍用戶數(shù)量已從21年的1800萬飆升至2.3億,其中個(gè)人及企業(yè)級(jí)付費(fèi)用戶比例達(dá)15%,AI應(yīng)用已逐步探索出多種商業(yè)模式。伴隨AI Agent、RAG、SFT等技術(shù)發(fā)展,大模型準(zhǔn)確度可達(dá)90%以上,促進(jìn)了AI與業(yè)務(wù)的融合。在互聯(lián)網(wǎng)、金融等數(shù)字化轉(zhuǎn)型水平較高的行業(yè),AI滲透率已超過30%。
在今天發(fā)布的《昇騰在金融行業(yè)的應(yīng)用與生態(tài)白皮書》中可以看到,大模型已經(jīng)滲透到金融業(yè)務(wù)全流程,從客服助手、開發(fā)助手、問答助手等通用場景逐漸深入到信貸助手等核心生產(chǎn)場景,全面提升金融服務(wù)質(zhì)量和效率。
通過AI,我們正在創(chuàng)造能夠增強(qiáng)和延展人類的技能。未來,AI+3D打印能夠增強(qiáng)設(shè)計(jì)能力,促使3D打印設(shè)備走入千家萬戶;自動(dòng)駕駛技術(shù)能夠增強(qiáng)出行能力,催生新的商業(yè)模式和產(chǎn)業(yè)生態(tài);具身智能技術(shù)將增強(qiáng)制造和服務(wù)能力,讓創(chuàng)造人人可及。根據(jù)預(yù)測,到2030年,AI將帶動(dòng)超過萬億的產(chǎn)業(yè)空間,未來充滿著無限的想象。
相信大家都有同感,AI技術(shù)的進(jìn)步速度遠(yuǎn)超以往任何一項(xiàng)技術(shù)。大模型技術(shù)快速發(fā)展,模型能力將由傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變?yōu)樗懔︱?qū)動(dòng),這對算力提出了更高要求,需要突破大帶寬高效互聯(lián)、計(jì)算融合與并行、高負(fù)荷穩(wěn)定運(yùn)行等挑戰(zhàn),來提升有效算力,持續(xù)滿足未來訓(xùn)練算力需求。
而伴隨著模型能力的展現(xiàn),推理應(yīng)用也從記憶生成走向了思考、理解、推理。OpenAI o1基于思維鏈CoT、Token級(jí)別獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)等新技術(shù),讓AI展現(xiàn)“理科生”的邏輯推理能力,而新技術(shù)中更多的Token處理也帶來更多的計(jì)算和內(nèi)存需求,抬高模型的推理成本。我們需要通過算力的彈性擴(kuò)容滿足模型規(guī)模演進(jìn);通過計(jì)算、內(nèi)存均衡技術(shù)提升有效吞吐;通過開發(fā)經(jīng)驗(yàn)沉淀提升應(yīng)用上線速度,降低每Token的推理成本。
圖1:華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊
得力于大家的支持,昇騰AI產(chǎn)業(yè)經(jīng)過幾年發(fā)展,已經(jīng)累計(jì)培養(yǎng)310萬+昇騰開發(fā)者。今年3月份,在華為中國合作伙伴大會(huì)上,華為發(fā)布昇騰原生開發(fā)戰(zhàn)略,呼吁更多原生力量加入;5月份,我們對CANN的算子開發(fā)接口、集合通信庫、GE圖引擎等進(jìn)行深度開放,為開發(fā)者提供豐富靈活的原生開發(fā)工具;7月份,昇騰圍繞基礎(chǔ)軟硬件及生態(tài)體系進(jìn)行全面升級(jí),推進(jìn)AI創(chuàng)新落地。
到目前為止,昇騰已經(jīng)累計(jì)培養(yǎng)3萬+原生貢獻(xiàn)者,20+伙伴及客戶原生打造100+核心大算子、孵化了40+原生大模型,以及50+大模型應(yīng)用,昇騰生態(tài)已經(jīng)走向原生驅(qū)動(dòng)。這一切都離不開每一位客戶、伙伴及開發(fā)者的共同努力,感謝大家的一路同行。昇騰AI將堅(jiān)持圍繞基礎(chǔ)軟硬件、訓(xùn)推解決方案持續(xù)迭代,做深技術(shù)根基,以原生技術(shù)促進(jìn)原生生態(tài),通過原生戰(zhàn)略,加速技術(shù)和商業(yè)生態(tài)的循環(huán)發(fā)展。
訓(xùn)練系統(tǒng)要充分發(fā)揮有效算力,訓(xùn)練性能、穩(wěn)定性和開發(fā)成本是關(guān)鍵。昇騰訓(xùn)練解決方案始終圍繞“高性能、高可用、高易用”持續(xù)創(chuàng)新,滿足大模型訓(xùn)練算力的增長需求。
在訓(xùn)練性能上,為了充分利用超節(jié)點(diǎn)TB級(jí)帶寬資源,我們獨(dú)創(chuàng)了NB2.0通信算法,基于模型的分布式并行策略,在硬件層面自適應(yīng)進(jìn)行通信域優(yōu)化。通過細(xì)粒度劃分,減少通信步數(shù),將帶寬利用率從40%提升到了60%以上,通信算子的執(zhí)行耗時(shí)減少40%以上。
圖2:昇騰AI堅(jiān)持圍繞原生,技術(shù)快速迭代,生態(tài)穩(wěn)健發(fā)展
在訓(xùn)練穩(wěn)定性上,昇騰基于CCAE集群自智系統(tǒng)的全域統(tǒng)管能力,在訓(xùn)練前,提供健康狀態(tài)檢測和預(yù)防性維護(hù),確保訓(xùn)練啟動(dòng)時(shí)處于最佳狀態(tài);在訓(xùn)練中,支持400+典型故障的動(dòng)態(tài)檢測和隔離,做到早發(fā)現(xiàn),早處理;在故障發(fā)生后,通過斷點(diǎn)續(xù)訓(xùn)能力快速恢復(fù)訓(xùn)練任務(wù)。同時(shí),昇騰實(shí)現(xiàn)了業(yè)界先進(jìn)的Step級(jí)CKPT保存技術(shù)。過去,我們只能手動(dòng)設(shè)置CKPT保存周期進(jìn)行關(guān)鍵數(shù)據(jù)備份,任務(wù)重啟后將回滾到故障前最近一次的檢查點(diǎn)上,帶來小時(shí)級(jí)的損失。現(xiàn)在,通過Step級(jí)的CKPT熱備份能力,任務(wù)可恢復(fù)到最近的訓(xùn)練Step,回滾損失降低到分鐘級(jí)。同時(shí)任務(wù)重啟范圍也從進(jìn)程級(jí)細(xì)粒度至Step級(jí),萬億模型訓(xùn)練任務(wù)可以做到分鐘級(jí)續(xù)訓(xùn),保障大規(guī)模集群下的月級(jí)穩(wěn)定訓(xùn)練。
在模型開發(fā)能力上,MindSpore持續(xù)提升動(dòng)靜統(tǒng)一能力,以1套API使能2種模式開發(fā),讓開發(fā)者忽略動(dòng)靜態(tài)圖開發(fā)差異,小時(shí)級(jí)編碼。通過編譯選項(xiàng),實(shí)現(xiàn)動(dòng)/靜態(tài)執(zhí)行模式靈活選擇。
大模型技術(shù)的每一次迭代,都需要新的加速算法將模型架構(gòu)與硬件架構(gòu)相結(jié)合,充分利用每一塊計(jì)算、內(nèi)存及通信資源,發(fā)揮硬件極致性能,持續(xù)提升有效算力。面向訓(xùn)練加速,我們正式發(fā)布昇騰分布式加速套件MindSpeed 1.0,提供100+預(yù)置模型、60+加速算法及算子、10余種微調(diào)算法,降低從預(yù)訓(xùn)練到增量訓(xùn)練的分布式開發(fā)成本,加速模型迭代。
在多模態(tài)、MoE混合架構(gòu)及超長序列的新場景下,MindSpeed提供了業(yè)界領(lǐng)先的分布式加速算法,將訓(xùn)練性能提升30%以上。
在多模態(tài)模型加速中,傳統(tǒng)算法下,不同模態(tài)數(shù)據(jù)負(fù)載不均會(huì)導(dǎo)致層間計(jì)算相互等待,MindSpeed獨(dú)創(chuàng)多模態(tài)負(fù)載均衡流水并行算法,通過虛擬流水技術(shù),支持自定義調(diào)整多模態(tài)分層,降低計(jì)算空泡率,整網(wǎng)性能提升10%。
在MoE混合架構(gòu)中,由于輸入數(shù)據(jù)量差異導(dǎo)致專家模塊內(nèi)存負(fù)載不均,訓(xùn)練早期極易出現(xiàn)Out of Memory問題,導(dǎo)致訓(xùn)練中斷。MindSpeed提供了獨(dú)有的基于負(fù)載感知的內(nèi)存均衡算法,動(dòng)態(tài)檢測內(nèi)存過載并自動(dòng)觸發(fā)重計(jì)算,將訓(xùn)練峰值內(nèi)存降低10%以上,避免內(nèi)存過載導(dǎo)致的訓(xùn)練中斷問題。
在長序列加速上,提供Ulysses和Ring Attention混合并行算法,提升跨節(jié)點(diǎn)上下文并行的通信效率,業(yè)界首創(chuàng)的掩碼壓縮方案,緩解了Ulysses方案中最大并行維度受注意力頭數(shù)限制的問題,突破百萬并行序列長度,支持長序列演進(jìn)。
MindSpeed支持直接調(diào)用以及二次開發(fā),使能客戶基于業(yè)務(wù)模型結(jié)構(gòu)及設(shè)備規(guī)模開展深入優(yōu)化,歡迎大家加入MindSpeed Gitee項(xiàng)目下載使用,提供寶貴意見。
推理應(yīng)用是人工智能釋放價(jià)值的關(guān)鍵,為了更好地匹配大模型應(yīng)用演進(jìn)趨勢,昇騰推理解決方案秉承開放、快速部署、極致性能的原則,在有效吞吐、服務(wù)化和算力部署等能力上持續(xù)演進(jìn),實(shí)現(xiàn)更高的AI落地經(jīng)濟(jì)性。
首先,為了獲得最優(yōu)吞吐,我們提供包含PD分離在內(nèi)的業(yè)界領(lǐng)先的推理加速技術(shù),充分利用設(shè)備資源,降低企業(yè)部署成本;同時(shí),通過訓(xùn)推同架構(gòu)的算子和模型支持,實(shí)現(xiàn)“零”算子適配開發(fā),小時(shí)級(jí)完成模型從訓(xùn)練到推理的轉(zhuǎn)換。通過服務(wù)層支持多框架適配,實(shí)現(xiàn)推理應(yīng)用天級(jí)上線;在算力部署上,我們提供單機(jī)和多機(jī)推理的軟硬件部署能力,客戶可以結(jié)合業(yè)務(wù)場景靈活選擇。同時(shí),面向未來萬億參數(shù)、百萬級(jí)長序列的需求,我們將打造領(lǐng)先的胖節(jié)點(diǎn)技術(shù),在和客戶、伙伴的合作中,持續(xù)升級(jí)推理解決方案。
推理引擎MindIE自今年3月發(fā)布以來,始終關(guān)注客戶、伙伴及開發(fā)者的反饋并持續(xù)演進(jìn),加速創(chuàng)新落地。PD分離技術(shù)是目前業(yè)界爭相追逐的提升大模型有效吞吐的關(guān)鍵能力。常規(guī)PD混合部署中,兩種資源比例固定,不能最佳適配業(yè)務(wù)實(shí)際需求,造成資源浪費(fèi),吞吐下降。MindIE不僅支持固定配比PD分離SetPD,還提供了業(yè)界領(lǐng)先的自適應(yīng)PD分離技術(shù)AutoPD,能夠感知業(yè)務(wù)流量變化,按需調(diào)整PD節(jié)點(diǎn)比例,滿足不同batch規(guī)模、序列長度下的靈活部署需求,充分發(fā)揮昇騰大算力優(yōu)勢和內(nèi)存資源池平臺(tái)化能力,最大提高資源利用率,將推理吞吐性能提升50%以上。
在應(yīng)用場景開發(fā)能力上,圍繞多模態(tài)理解和視頻生成兩大新場景我們還提供了套件支持。基于MindIE提供的多模態(tài)模型推理軟件棧,在預(yù)處理、推理執(zhí)行及后處理階段,可以獲得諸如模態(tài)Token化、編碼、自回歸等核心功能接口支持,幫助開發(fā)者快速完成文本、圖片、視頻、語音的全模態(tài)交互及內(nèi)容理解和生成,加速多模態(tài)、DiT和類Sora模型應(yīng)用的部署與執(zhí)行。
未來MindIE將持續(xù)演進(jìn),面向萬億MoE推理、百萬超長序列、長視頻長語音交互等場景,圍繞推理加速技術(shù)、開放易用持續(xù)構(gòu)建能力。
大模型從訓(xùn)練開發(fā)到推理部署,每一步都需要工具支撐。為此,昇騰構(gòu)建極簡易用的全流程工具鏈,讓整個(gè)流程更加便捷高效。
算子是模型創(chuàng)新的基礎(chǔ),每一次模型架構(gòu)和技術(shù)的迭代都帶動(dòng)著算子的變化。昇騰在Ascend C算子編程語言基礎(chǔ)上提供了從算子工程到調(diào)試調(diào)優(yōu)的全流程工具,通過編譯優(yōu)化、內(nèi)存異常自動(dòng)檢測、可視化指令流水等能力,持續(xù)縮短算子開發(fā)周期。
在模型訓(xùn)練過程中,性能調(diào)優(yōu)是關(guān)鍵環(huán)節(jié),提升系統(tǒng)資源利用率尤為重要。為此,MindStudio提供了集群性能數(shù)據(jù)分析及調(diào)試調(diào)優(yōu)能力,如算子瓶頸分析、內(nèi)存占用統(tǒng)計(jì)、慢卡-慢鏈路可視化等功能。在互聯(lián)網(wǎng)等重要客戶合作中,實(shí)現(xiàn)慢卡、慢鏈路等典型問題快速定位。故障模式庫已知問題,實(shí)現(xiàn)分鐘級(jí)診斷。
大模型小型化部署是推理落地的關(guān)鍵一步。MindStudio提供大模型稀疏量化能力,支持權(quán)重、激活、KVCache量化能力,模型壓縮2~4倍,同時(shí)支持自動(dòng)識(shí)別精度敏感層,提供自動(dòng)回退、自適應(yīng)參數(shù)配置等能力,天級(jí)完成量化精度調(diào)優(yōu)。借助該能力,LLaMA3.1-13B模型權(quán)重可壓縮3.5倍,精度丟失小于0.05%,支持業(yè)務(wù)應(yīng)用快速落地。
發(fā)展生態(tài)一直是昇騰AI的戰(zhàn)略,我們堅(jiān)定圍繞原生,以基礎(chǔ)軟硬件為技術(shù)錨點(diǎn)激發(fā)原生創(chuàng)新,同時(shí)為伙伴及開發(fā)者提供算力、NRE、MDF及社區(qū)貢獻(xiàn)等權(quán)益激勵(lì),促進(jìn)商業(yè)共贏:在基于昇騰開展的原生開發(fā)、生態(tài)適配、技術(shù)遷移、價(jià)值創(chuàng)新等活動(dòng)中,伙伴可以獲得昇騰算力激勵(lì)以及NRE開發(fā)激勵(lì);圍繞昇騰原生孵化的產(chǎn)品及解決方案,在營銷、品牌贊助、培訓(xùn)賦能等活動(dòng)中,伙伴可以獲得MDF激勵(lì);同時(shí),我們鼓勵(lì)伙伴將研究與創(chuàng)新中孵化的算子、模型及加速庫等成果貢獻(xiàn)至社區(qū),獲得社區(qū)貢獻(xiàn)激勵(lì)。
在原生技術(shù)與權(quán)益激勵(lì)的相互促進(jìn)之下,相信昇騰原生生態(tài)將獲得源源不斷的創(chuàng)新動(dòng)力。
智能化已經(jīng)開啟新篇章,大時(shí)代將迎來新機(jī)遇。昇騰,一直是千行萬業(yè)智能化道路上的堅(jiān)實(shí)伙伴,為企業(yè)提供創(chuàng)新動(dòng)力。讓我們攜手奮進(jìn),迎接變化,創(chuàng)造可能,共同邁向數(shù)智未來!