技術文章
在自動駕駛感知的下半場,數據已成為驅動算法迭代的核心燃料。然而,真實路測數據面臨著成本高昂、標注困難、特殊場景(Corner Cases)難以覆蓋以及安全性受限等“卡脖子"問題。
面對這一核心痛點,虛擬仿真數據已成為解決方案中的關鍵角色,成為確保開發效率與安全性的重要一環。免費獲取 | SimData高保真虛擬數據集開源發布,兼容nuScenes,開箱即用!文章中,簡單介紹了一下SimData數據集情況,本文將深度解析該SimData自動駕駛虛擬數據集——由aiSim仿真平臺構建,從數據生產工具鏈、數據集結構到基于BEVFormer的深度評測,展示高保真合成數據的應用價值。
虛擬數據要真正落地,首要解決的是與現有主流數據格式的兼容性。SimData方案不僅提供數據,更提供了一套完整的aisim2buscenes自動化轉換工具鏈,并且構建了虛擬數據集的評測流程框架。

虛擬數據集構建以及評測流程框架
我們開發了自動化腳本與GUI工具,實現了從aiSim導出數據到nuScenes標準格式的一鍵轉換。
格式對齊:自動將aiSim原始數據(TGA圖像、LAS點云、Radar JSON)轉換為nuScenes兼容格式(JPG、BIN、PCD)。
結構一致:生成的文件夾結構(maps, samples, sweeps, v1.0-custom)可直接被nuscenes-devkit解析,無需修改現有訓練代碼。
智能切片:腳本支持多場景、多地圖轉換,默認每場景40關鍵幀(每10幀抽取1關鍵幀),自動處理非關鍵幀歸檔。
工具鏈支持復雜傳感器配置的數據生成與驗證:
傳感器配置:目前支持6路相機、5個Radar、1個LiDAR的多源融合感知。
可視化驗證:內置腳本支持LiDAR點云、Radar PCD文件以及帶3D GT框的圖像/BEV視角可視化,確保數據“所見即所得"。
基于上述工具鏈,我們構建了SimData數據集,旨在覆蓋高速、城區、停車場等典型及復雜道路環境。
規模統計:包含15個獨立地圖,共計45個場景。
數據體量:單個傳感器輸出約18,000張圖像/幀數據,總樣本量充足。
類別擴展:在nuScenes原有的Car, Pedestrian, Truck, Bus等常見類別基礎上,新增了Van(面包車)類別,共計10類目標,彌補了部分長尾數據的缺失。
10個類別:
{ "Van", "Trailer","Pedestrian", "Car", "Truck", "Bus", "Motorcycle", "Bicycle","TrafficCone","Barricade" }
虛擬數據形象部分示例:

環境多樣性:
Highway:高速公路匝道、施工區。
Urban:擁堵城區、環島、十字路口。
Parking:室內外停車場環境。
地圖示例:

為了驗證SimData在感知算法中的有效性,我們選用BEV感知領域的經典模型 BEVFormer (Tiny版),進行了多維度的對比實驗與分析。
在SimData劃分的訓練集(30個場景)上訓練,并在測試集(15個場景)上評估,模型展現了良好的收斂性。

結果:mAP達到 0.446,NDS達到 0.428。
結論:SimData能夠支持復雜感知模型的正常訓練與推理,數據質量合格。
我們對比了“基于SimData訓練的模型"與“基于真實nuScenes訓練的模型"在同一份虛擬數據上的表現,以探究域分布差異。

相關性分析:兩者在各類別的AP(平均精度)分布上呈現高度正相關。
熱力圖對比:在不同距離范圍的檢測熱力圖上,兩者表現出非常相似的分布趨勢。
結論:SimData的高保真度體現在幾何結構、光照、材質及動態特性上,真實世界學到的先驗知識可以有效遷移到該仿真域中。
這是本次評測最核心的發現。我們嘗試將nuScenes預訓練模型在SimData上進行微調(Fine-tuning)。

實驗結果:微調后的模型在SimData上的檢測精度顯著提升,性能甚至超過了從零開始訓練(Train from Scratch)的模型。
雷達圖分析:在Car, Truck, Bus等主要類別上,"Pretrained + Finetune"(藍線)包圍面積,表現優秀。
這一結果有力證明了:
SimData的域特性與真實數據足夠接近,不存在巨大的域鴻溝。
利用大規模真實數據預訓練 + 針對性虛擬數據微調,是提升模型在特定場景(如特殊工況)泛化能力的有效路徑。
SimData及配套工具鏈的推出,為自動駕駛數據閉環提供了一種低成本、高效率的解題思路。
易用性:aisim2nuscenes工具鏈讓仿真數據即插即用,無縫融入現有開發流。
真實性:評測數據表明,SimData與真實數據分布趨勢一致,具備很高的物理感知價值。
價值點:它不僅能作為感知模型的訓練補充,更是驗證模型泛化能力、解決長尾問題的理想“演兵場"。
未來,隨著數據集規模的進一步擴大(解決部分類別樣本稀缺問題),SimData有望在更復雜的感知任務中發揮關鍵作用,助力自動駕駛算法加速迭代。
關注微信