NVIDIA 助力汤元科技,借助 Cosmos 推动 Physical AI 与智能驾驶数据重建生成,加速世界模型落地
苏州汤元科技有限公司(以下简称“汤元科技”)是一家专注于AI+世界模型的科技公司,为自动驾驶与具身智能提供高质量、多样化的训练数据。通过将自研的世界模型技术与 NVIDIA Cosmos 结合,实现真实物理世界的三维重建、场景泛化,并提升数据生成的效率与拟真度。本案例主要应用 NVIDIA GPU 和 NVIDIA Cosmos 平台。
汤元科技是一家专注于 “AI+世界模型” 创新型科技公司,致力于实现真实物理世界的三维重建与数据生成,推动 Physical AI 的发展。公司核心业务是利用路侧传感器信息,将物理世界的全要素数字化重建,并以此构建高质量、可泛化的训练数据,服务于自动驾驶和具身智能等前沿领域。
在智能驾驶方向,汤元科技推出了自研的“Yootta数据平台”,基于“ Real2Sim2Real”的三维重建与视频扩散生成框架,将城市级多源感知数据自动化转化为多样化、高保真、结构一致的车侧视角训练数据。该框架能够涵盖不同天气、光照、道路结构等复杂场景。
传统三维重建受限于视角和环境,往往存在天空信息缺失及复杂场景泛化不足等问题。汤元科技通过引入Cosmos,实现了缺失信息补全、多样化视角生成与复杂环境的泛化,为“感知在环”训练奠定了技术基础。
智能驾驶数据获取与生成面临的挑战
数据是智能驾驶训练的燃料。在端到端和 VLA 等新一代技术体系推动下,智能驾驶对高质量、多样化、物理一致的训练数据提出了更高要求。当前,数据获取与生成面临多重挑战,成为制约技术突破的关键瓶颈。
1. 数据采集方式
传统依赖车队实采的方式存在高成本、低效率问题,且难以覆盖长尾场景;而纯生成式数据虽然成本低,但其物理一致性与行为真实度难以保障,难以满足模型对真实性和泛化能力的双重要求。通过路侧传感器采集数据并重建真实世界模型的方案,可以在满足智能驾驶对数据需求的同时,大幅降低采集成本。
2. 数据格式
智能驾驶的主流算法(如:端到端模型和 VLA 模型)需要“感知在环”的方式进行模型训练和测试。传统的智能驾驶数据集(如:nuScenes)是由自动驾驶车辆事先采集的日志数据,而非实时模拟环境。传感器信息一旦固定,当自动驾驶模型生成新的行驶轨迹后,传感器数据无法改变。因此,需要引入4D场景数据,以便在车辆位姿变化时,能够重新渲染传感器视角下的数据。
3. 数据源本身
无论是路侧还是车载采集都存在物理限制。路侧设备受部署密度和视角范围影响,生成数据常缺乏天空等关键环境要素;而车载视角则受遮挡影响较大,存在重建障碍物几何信息缺失、姿态估计不准等问题。
面对上述挑战,汤元科技自研“Real2Sim2Real”三维重建与视频扩散生成框架,构建了以 3D Gaussian Splatting 为核心、动静分离建模为支撑的四维动态重建能力。通过对静态背景与动态物体的时序建模与融合,确保重建结果具备空间一致性与时间连续性。同时,结合 Cosmos,实现了缺失信息补全、多样化视角生成和复杂环境泛化,突破了传统数据生成的瓶颈。相较于传统采集方式,汤元科技的解决方案在三个维度实现了显著提升:
- 技术上,通过路侧传感器信息实现真实物理世界的还原,具备更优的纹理、几何与光照一致性以及新视角的时空一致性;
- 业务上,提升了对场景密度、行为模态、长尾交互的还原能力;
- 效率与成本上,依托路侧数据采集与自动生成,数据采集效率提升 5 倍,综合成本下降超 80%。
NVIDIA Cosmos 助力突破 4D 重建瓶颈
为了突破三维生成与四维重建在效率、质量及泛化能力上的瓶颈,汤元科技引入了 NVIDIA 最新的软硬件产品,包括多卡 GPU 集群、Cosmos 引擎与扩散模型,构建出一套高效、真实、稳定的4D数据生成与增强系统。其在自动驾驶及具身智能的数据供给中表现出显著优势,具体包括:
1. 基于 Cosmos 的物理级光影建模,提升视觉真实感
利用Cosmos引擎,汤元科技在构建4D动态场景时实现了跨时间帧一致的光照与材质表现,显著解决了传统4D合成中光影不自然与材质漂移的问题,极大增强了视觉拟真度。
4D 资产重建常因相机参数误差、稀疏视图和曝光不一致而导致质量下降。为此,汤元科技在初始车辆模型的 360 度环视范围内采样虚拟视角,并借鉴 NVIDIA 扩散模型思路进行修复;修复后的视角图像进一步用于训练 3D Gaussian Splatting(3DGS ),从而提升车辆重建的几何精度与外观一致性。
2. 修复时空漂移,显著提升重建质量
针对4D重建中的跨帧结构漂移与纹理不一致问题,汤元科技结合Cosmos-Transfer1-7B-Sample-AV模型与扩散模型,进行了校正优化。在实际评估中,图像质量指标实现了大幅提升:
| 技术指标(说明) | 优化前 | 优化后 |
|---|---|---|
| PSNR(峰值信噪比,Peak Signal-to-Noise Ratio) | 25.6 | 35.9 |
| SSIM(结构相似性指标,Structural Similarity Index Measure) | 0.68 | 0.91 |
| NTA-IoU(用于评估新视角的时空一致性,Novel Trajectory Agent IoU) | 0.613 | 0.804 |
| LPIPS(感知相似性指标,Learned Perceptual Image Patch Similarity) | 0.137 | 0.021 |
| FID(衡量生成图像与真实图像整体分布差异的指标,Frechet Inception Distance) | 130.4 | 23.1 |
注:数据来源为汤元科技实际评估,优化后在视觉质量、结构保真度与感知一致性上均实现突破
3. 高质量大规模风格迁移,实现数据泛化
通过 Cosmos 的风格迁移能力,汤元科技在保持空间结构稳定的前提下,生成了多样性极高的图像样本,实现超过 10 倍的数据增强效率。该能力有效覆盖了雨天、雪天、黄昏等边缘驾驶场景,极大拓展了模型的风格学习空间,显著提升了感知模型的泛化性能。
4. 打破“感知训练不在环”传统限制,实现“数据与模型”协同进化
传统感知模型的训练通常依赖于预先采集的静态离线数据集,这种离线训练方案难以适配 VLA( Vision-Language-Action )、RL (Reinforcement Learning )等需“感知在环”的模型。对此,汤元科技基于 Cosmos 构建的可交互式训练数据平台,提出了针对性解决方案:通过对真实物理世界进行 4D 重建,可实时渲染生成任意新视角的传感器数据,从而精准满足“ 感知在环 ”对动态、多维度感知输入的核心需求。该方案突破了传统离线数据的局限,推动了需要与动态环境持续交互的智能驾驶相关模型(如 VLA 、RL )的研发进程。
借助 Cosmos 平台,汤元科技极大地提升了物理世界重建与泛化过程中的效率与精度。汤元科技还是 NVIDIA 初创加速计划的成员企业,得到了该项目的全方位支持。在技术方面,通过对 NVIDIA OpenUSD 课程的学习,提升了生成式模型构建与模块化 3D 资产利用能力。在市场与生态层面,通过参与 NVIDIA 初创加速计划的活动与演讲,不仅展示了技术实力,还拓展了合作伙伴网络,进一步提升了在世界模型与自动驾驶训练数据领域的影响力。
汤元科技联合创始人兼首席执行官任冬淳博士表示:“Physical AI是未来最大的方向,所有的智能体都需具备感知、理解和执行的能力。在智能驾驶上,通过Cosmos的能力,我们可以更好、更快地交付客户所需的数据。同时,感谢 NVIDIA 初创加速计划,为我们开放了一个优秀的技术与市场平台,帮助我们连接产业资源、快速成长。”
- 正文完 -