NVIDIA 助力汤元科技，借助 Cosmos 推动 Physical AI 与智能驾驶数据重建生成，加速世界模型落地

发布时间：2025-09-05 21:10:00 作者：NVIDIA 来源：NVIDIA英伟达公众号地区：江苏

苏州汤元科技有限公司（以下简称“汤元科技”）是一家专注于AI+世界模型的科技公司，为自动驾驶与具身智能提供高质量、多样化的训练数据。通过将自研的世界模型技术与 NVIDIA Cosmos 结合，实现真实物理世界的三维重建、场景泛化，并提升数据生成的效率与拟真度。本案例主要应用 NVIDIA GPU 和 NVIDIA Cosmos 平台。

汤元科技是一家专注于 “AI+世界模型” 创新型科技公司，致力于实现真实物理世界的三维重建与数据生成，推动 Physical AI 的发展。公司核心业务是利用路侧传感器信息，将物理世界的全要素数字化重建，并以此构建高质量、可泛化的训练数据，服务于自动驾驶和具身智能等前沿领域。

在智能驾驶方向，汤元科技推出了自研的“Yootta数据平台”，基于“ Real2Sim2Real”的三维重建与视频扩散生成框架，将城市级多源感知数据自动化转化为多样化、高保真、结构一致的车侧视角训练数据。该框架能够涵盖不同天气、光照、道路结构等复杂场景。

传统三维重建受限于视角和环境，往往存在天空信息缺失及复杂场景泛化不足等问题。汤元科技通过引入Cosmos，实现了缺失信息补全、多样化视角生成与复杂环境的泛化，为“感知在环”训练奠定了技术基础。

智能驾驶数据获取与生成面临的挑战

数据是智能驾驶训练的燃料。在端到端和 VLA 等新一代技术体系推动下，智能驾驶对高质量、多样化、物理一致的训练数据提出了更高要求。当前，数据获取与生成面临多重挑战，成为制约技术突破的关键瓶颈。

1. 数据采集方式
传统依赖车队实采的方式存在高成本、低效率问题，且难以覆盖长尾场景；而纯生成式数据虽然成本低，但其物理一致性与行为真实度难以保障，难以满足模型对真实性和泛化能力的双重要求。通过路侧传感器采集数据并重建真实世界模型的方案，可以在满足智能驾驶对数据需求的同时，大幅降低采集成本。

2. 数据格式
智能驾驶的主流算法（如：端到端模型和 VLA 模型）需要“感知在环”的方式进行模型训练和测试。传统的智能驾驶数据集（如：nuScenes）是由自动驾驶车辆事先采集的日志数据，而非实时模拟环境。传感器信息一旦固定，当自动驾驶模型生成新的行驶轨迹后，传感器数据无法改变。因此，需要引入4D场景数据，以便在车辆位姿变化时，能够重新渲染传感器视角下的数据。

3. 数据源本身
无论是路侧还是车载采集都存在物理限制。路侧设备受部署密度和视角范围影响，生成数据常缺乏天空等关键环境要素；而车载视角则受遮挡影响较大，存在重建障碍物几何信息缺失、姿态估计不准等问题。

面对上述挑战，汤元科技自研“Real2Sim2Real”三维重建与视频扩散生成框架，构建了以 3D Gaussian Splatting 为核心、动静分离建模为支撑的四维动态重建能力。通过对静态背景与动态物体的时序建模与融合，确保重建结果具备空间一致性与时间连续性。同时，结合 Cosmos，实现了缺失信息补全、多样化视角生成和复杂环境泛化，突破了传统数据生成的瓶颈。相较于传统采集方式，汤元科技的解决方案在三个维度实现了显著提升：

技术上，通过路侧传感器信息实现真实物理世界的还原，具备更优的纹理、几何与光照一致性以及新视角的时空一致性；
业务上，提升了对场景密度、行为模态、长尾交互的还原能力；
效率与成本上，依托路侧数据采集与自动生成，数据采集效率提升 5 倍，综合成本下降超 80%。

NVIDIA Cosmos 助力突破 4D 重建瓶颈

为了突破三维生成与四维重建在效率、质量及泛化能力上的瓶颈，汤元科技引入了 NVIDIA 最新的软硬件产品，包括多卡 GPU 集群、Cosmos 引擎与扩散模型，构建出一套高效、真实、稳定的4D数据生成与增强系统。其在自动驾驶及具身智能的数据供给中表现出显著优势，具体包括：

1. 基于 Cosmos 的物理级光影建模，提升视觉真实感
利用Cosmos引擎，汤元科技在构建4D动态场景时实现了跨时间帧一致的光照与材质表现，显著解决了传统4D合成中光影不自然与材质漂移的问题，极大增强了视觉拟真度。

4D 资产重建常因相机参数误差、稀疏视图和曝光不一致而导致质量下降。为此，汤元科技在初始车辆模型的 360 度环视范围内采样虚拟视角，并借鉴 NVIDIA 扩散模型思路进行修复；修复后的视角图像进一步用于训练 3D Gaussian Splatting（3DGS ），从而提升车辆重建的几何精度与外观一致性。

2. 修复时空漂移，显著提升重建质量
针对4D重建中的跨帧结构漂移与纹理不一致问题，汤元科技结合Cosmos-Transfer1-7B-Sample-AV模型与扩散模型，进行了校正优化。在实际评估中，图像质量指标实现了大幅提升：

技术指标（说明）	优化前	优化后
PSNR（峰值信噪比，Peak Signal-to-Noise Ratio）	25.6	35.9
SSIM（结构相似性指标，Structural Similarity Index Measure）	0.68	0.91
NTA-IoU（用于评估新视角的时空一致性，Novel Trajectory Agent IoU）	0.613	0.804
LPIPS（感知相似性指标，Learned Perceptual Image Patch Similarity）	0.137	0.021
FID（衡量生成图像与真实图像整体分布差异的指标，Frechet Inception Distance）	130.4	23.1

注：数据来源为汤元科技实际评估，优化后在视觉质量、结构保真度与感知一致性上均实现突破

3. 高质量大规模风格迁移，实现数据泛化
通过 Cosmos 的风格迁移能力，汤元科技在保持空间结构稳定的前提下，生成了多样性极高的图像样本，实现超过 10 倍的数据增强效率。该能力有效覆盖了雨天、雪天、黄昏等边缘驾驶场景，极大拓展了模型的风格学习空间，显著提升了感知模型的泛化性能。

4. 打破“感知训练不在环”传统限制，实现“数据与模型”协同进化
传统感知模型的训练通常依赖于预先采集的静态离线数据集，这种离线训练方案难以适配 VLA（ Vision-Language-Action ）、RL （Reinforcement Learning ）等需“感知在环”的模型。对此，汤元科技基于 Cosmos 构建的可交互式训练数据平台，提出了针对性解决方案：通过对真实物理世界进行 4D 重建，可实时渲染生成任意新视角的传感器数据，从而精准满足“ 感知在环 ”对动态、多维度感知输入的核心需求。该方案突破了传统离线数据的局限，推动了需要与动态环境持续交互的智能驾驶相关模型（如 VLA 、RL ）的研发进程。

借助 Cosmos 平台，汤元科技极大地提升了物理世界重建与泛化过程中的效率与精度。汤元科技还是 NVIDIA 初创加速计划的成员企业，得到了该项目的全方位支持。在技术方面，通过对 NVIDIA OpenUSD 课程的学习，提升了生成式模型构建与模块化 3D 资产利用能力。在市场与生态层面，通过参与 NVIDIA 初创加速计划的活动与演讲，不仅展示了技术实力，还拓展了合作伙伴网络，进一步提升了在世界模型与自动驾驶训练数据领域的影响力。

汤元科技联合创始人兼首席执行官任冬淳博士表示：“Physical AI是未来最大的方向，所有的智能体都需具备感知、理解和执行的能力。在智能驾驶上，通过Cosmos的能力，我们可以更好、更快地交付客户所需的数据。同时，感谢 NVIDIA 初创加速计划，为我们开放了一个优秀的技术与市场平台，帮助我们连接产业资源、快速成长。”

- 正文完 -