北京時間6月11-14日,計算機視覺頂會CVPR 2025在美國田納西州納什維爾舉行,小鵬汽車受邀參與自動駕駛研討會CVPR WAD(Workshop on Autonomous Driving),與Waymo、英偉達、加利福尼亞大學洛杉磯分校(UCLA)、圖賓根大學(University of Tuebingen)等來自工業界和學術界的自動駕駛同行共同探討業界最新AI技術。
AI大模型浪潮以來,自動駕駛領域發生了技術范式的切換,已經從過去人類手寫規則的模型,升級為基于海量數據訓練出的AI模型,相關技術進展也成了這幾年CVPR的大熱議題。在本屆的CVPR WAD上,小鵬世界基座模型負責人劉先明博士發表了題為《通過大規模基礎模型實現自動駕駛的規模化》(Scaling up Autonomous Driving via Large Foudation Models)的演講,系統地介紹了小鵬汽車自研的業界首個超大規模自動駕駛基座模型的歷程和方法,披露了其在模型預訓練、強化學習、模型車端部署、AI和數據基礎設施搭建方面的前沿探索,為同行帶去工業領域的實踐經驗。
同一天,在大洋此岸的中國廣州,小鵬汽車宣布推出全球首款搭載L3級算力平臺的AI汽車——小鵬G7,并且行業首次提出了「L3級算力平臺」的兩大標準:第一,“有效算力”大于2000TOPS;第二,搭載本地部署的「VLA+VLM模型」。小鵬汽車認為,「大算力+物理世界大模型+大數據」將共同定義未來“AI汽車”的能力上限,其中的“物理世界大模型”正是劉博士帶隊研發的小鵬世界基座模型。
今年4月,小鵬汽車已對外宣布正在研發參數規模達到720億的云端大模型,即“小鵬世界基座模型”。該基座模型是以大語言模型為骨干網絡,使用海量優質駕駛數據訓練的VLA大模型(視覺-語言-行為大模型),具備視覺理解能力、鏈式推理能力(CoT)和動作生成能力。
如果說傳統的自動駕駛模型是負責駕駛的“小腦”,那么基于大語言模型和海量高質量數據訓練的自動駕駛基座模型,無疑是同時具備駕駛能力和思考能力的“大腦”。它能讓汽車像人類一樣,主動思考和理解世界,絲滑地處理訓練數據中沒有見過的長尾場景,而不只是機械地執行人類寫好的規則代碼。從“小腦”到“大腦”的飛躍,是自動駕駛技術的質變,能讓汽車完成從L2輔助駕駛到L4自動駕駛的縱向技術迭代,最終抵達真正的無人駕駛。
劉博士表示,小鵬汽車在云上訓練了10億、30億、70億、720億等多個參數的模型,并且持續向模型“投喂”更大規模的訓練數據。目前,小鵬世界基座模型累計“吃下”2000多萬條視頻片段(每條時長30秒)。在這一過程中,研發團隊清晰地看到了規模法則(Scaling Law)的顯現。也就是說,模型的參數量越大、模型學習的數據越多,模型的性能越強。這是AI大模型浪潮以來,行業內首次明確驗證規模法則在自動駕駛VLA模型上持續生效。
由于車端算力限制,最終能夠部署上車的模型,參數規模通常都比較小。目前,業界主流的車端模型參數一般在幾百萬到十億級別。如果在車端直接訓練小模型,規模法則沒有發揮空間,模型的性能上限也會受限,更無從實現強大的CoT等能力。基于這一判斷,小鵬汽車早在去年就確定了云端基模技術路線,也即在云端“不計成本”地訓練超大規模世界基座模型,再通過蒸餾的方式生產出適配車端算力的小模型。蒸餾能夠最大限度地保留云端基模的核心能力,幫助車端模型跳出車端算力的“一畝三分地”。
在規則時代,自動駕駛模型屬于“模仿學習”模型,只能處理訓練數據中見過的場景。而自動駕駛核心難點在于處理那些罕見的、復雜的、事關安全的長尾問題,但是這些問題發生概率極低,因此往往沒有足夠的數據供模型學習。到了AI時代,全新的解法已然出現,“強化學習成”為了提升模型思考能力、幫助模型處理長尾場景的重要手段。小鵬汽車證實了“云端基座模型+強化學習”的組合,是讓模型性能突破天際的最好方法。云端基座模型可以類比為人類的“天資”,而強化學習就像能力激化器,用來激發云端基座模型的智力潛能,提高基模的泛化能力。
與學術研究不同,整車廠的模型研發工作最終都要在真實的物理世界完成驗證。目前,小鵬汽車就已經在后裝算力的車端上用小尺寸的基座模型實現了控車。在沒有任何規則代碼托底的情況下,新的“AI大腦”展現出令人驚喜的基礎駕車技能,能夠絲滑地加減速、變道繞行、轉彎掉頭、等待紅綠燈等等。
小鵬世界基座模型并不是靜態的,它在持續學習、循環進化(Continued online Learning)。可以將模型的迭代過程分成內、外兩個循環,內循環是指包含預訓練、后訓練(包括監督精調SFT和強化學習RL)和蒸餾部署的模型訓練過程;外循環,是指模型在車端部署之后,持續獲取新的駕駛數據和用戶反饋,繼續用于云端基模的訓練。
值得關注的是,在此次CVPR WAD上,劉博士所提出的“軟件3.0時代,打造云端工廠,開啟AI時代模型生產新范式”同樣讓現場參會者留下了深刻的印象。事實上,為了研發世界基座模型,小鵬汽車從去年便開始布局AI基礎設施,建成了國內汽車行業首個萬卡智算集群,用以支持基座模型的預訓練、后訓練、模型蒸餾、車端模型訓練等任務。小鵬汽車將這套從云到端的生產流程稱為“云端模型工廠”。目前,這個“云端工廠”擁有10 EFLOPS的算力,集群運行效率常年保持在90%以上,全鏈路迭代周期可達平均5天一次。如此算力規模和運營效率,對標的是頭部AI企業。
“比起大語言模型,自動駕駛基座模型的研發更復雜、更有挑戰”,劉博士表示自動駕駛模型的訓練數據遠不止單模態的文本數據,還包括攝像頭信息、導航信息等關于物理世界的多模態數據。它要求模型形成對物理世界的認知,并在現實的駕駛場景中,借助自己對世界的認知,完成推理思考、控車決策。對自動駕駛來說,所有技術問題都要從頭驗證,比如前文提到的規模法則。
在大模型時代,想成為一流的自動駕駛公司,首先必須成為一流的AI公司。在大會現場,小鵬汽車首次展示了兩個核心數據:小鵬云上基模訓練過程中,處理了超過 40萬小時的視頻數據;流式多處理器的利用率(streaming multiprocessor utilization,即SM utilization)達到 85%。前者代表云端數據處理能力,后者所提及的“流式多處理器”是 GPU 的核心計算單元。SM利用率是評判GPU計算資源使用效率的重要指標。
此外,他還從云端模型訓練和車端模型部署兩個層面,拆解了小鵬汽車自動駕駛團隊提升世界基座模型訓練效率的方法。在模型訓練層面,小鵬的研發團隊在CPU、GPU等方面做了聯合優化,“VLM、VLA等多模態模型不同于LLM,訓練過程不只受限于計算瓶頸,還受到數據加載瓶頸、通信瓶頸的限制,大規模并行訓練首先要解決這些問題。”
針對數據加載問題,研發團隊對CPU的利用做了如下優化:
l 啟用額外的CPU節點,以提升GPU節點的數據加載能力
l 對 PyTorch 進行定制化改造,降低進程間通信開銷
l 采用激進的數據物化策略,進一步減輕 CPU 在數據加載上的負載
l 優化打亂(shuFFling)模式,在速度與隨機性之間取得平衡
針對GPU計算資源的利用,研發團隊做了以下動作:
l 使用 FSDP 2 實現模型分片
l 使用 FP8 混合精度訓練
l 利用 Flash Attention 3 加快計算速度
l 自定義Triton 內核
在車端模型部署層面,小鵬汽車有一個與眾不同的優勢:自研的圖靈AI芯片專為AI大模型而定制,模型、編譯器、芯片團隊針對下一代模型開展了充分的聯合研發工作,比如定制 AI 編譯器以最大化執行效率,協同設計硬件友好、量化友好的模型架構,確保軟硬件充分耦合,最終“榨干”車端算力。
“車端計算量的重要來源是輸入的 Token (詞元)數量。以配備了 7 個攝像頭的 VLA 模型為例,每輸入約 2 秒視頻內容,會產生超過 5000 個Token。我們一方面要壓縮輸入中的冗余信息,降低計算延遲。另一方面還要確保輸入視頻的長度,以獲得更豐富的上下文信息。”劉博士稱,小鵬團隊創新設計了針對VLA模型的 token 壓縮方法,可在不影響上下文長度的情況下,將車端芯片的token處理量壓縮70%,比如將5000Token壓縮到1500Token。”
回到小鵬汽車此次在CVPR WAD分享本身,作為唯一受邀演講的中國車企,以技術創新為源動力的小鵬汽車將經過幾十萬用戶驗證的自動駕駛實踐成果反哺學術界,以“商業-科研”的良性循環,為全球自動駕駛研究注入了寶貴的動力。