汤元科技 CEO 任冬淳博士将出席 NVIDIA GTC 2026大会
2026 年 3 月 16 日至 19 日,NVIDIA GTC 2026 大会在美国加州圣何塞举行,线上大会同步开启。汤元科技联合创始人兼 CEO 任冬淳博士受邀出席大会,并参加“基于 NVIDIA 全栈技术打造代理式 AI 与物理 AI 的未来基石”线上会议,围绕世界模型、智能驾驶与具身智能等内容进行分享,并探讨与 NVIDIA Cosmos 等平台的结合方案。
作为 NVIDIA 初创加速计划(NVIDIA Inception)的成员,汤元科技通过将自研的世界模型技术与 NVIDIA Cosmos 平台结合,实现真实物理世界的三维重建、场景泛化,并显著提升数据生成的效率与拟真度。
以下是任冬淳博士在大会上的发言实录:
汤元科技是一家致力于以世界模型驱动物理AI发展的科技公司。公司的使命是“让 AI 理解世界,让机器服务人类”。我们通过前沿的三维重建技术和 AI 生成技术,实现真实物理世界的全要素数字化还原,为智能驾驶与具身智能提供高质量数据集以及端到端的闭环仿真解决方案。
近年来,物理 AI 技术飞速发展,我们能够感受到智能驾驶系统在行驶里程、安全性和技术水平上都有很大的进步。同时,具身智能机器人在抓取、装配、搬运等领域也取得了很好的技术突破。这使得人们对 AI 的期望越来越高,希望它们能在更多、更复杂的环境中实现广泛应用。
这就要求物理 AI 具备非常好的推理能力,而这种推理能力依赖于强化学习的发展。强化学习需要在复杂环境中进行不同策略的尝试来提升算法效果。在真实物理世界中,反复试错不仅成本高昂,而且非常危险。如果采用传统的数据回放方式,又无法满足强化学习对不同策略尝试的需求。因此,我们需要构建一个无限逼近真实世界的虚拟环境,为物理 AI 提供安全、低成本的训练与测试场所。世界模型正是解决这一问题的关键。
世界模型的构建是一件极具挑战的事情。首先,真实物理世界是三维空间加时间维度的四维空间,而我们人类积累的数据中很少有四维结构数据。虽然互联网上有海量的文字、图像、视频信息,但真正有效的四维结构信息非常稀缺。其次,真实世界中的交互非常复杂,还存在大量因果物理规律需要学习。
汤元科技提供了有效的解决方案。我们基于国家车路云一体化基础设施的路侧传感器,对真实场景进行高保真 4D 重建,还原出真实物理世界的四维结构形态。凭借这一技术,我们可以基于一个路口四路摄像头的稀疏视角信息,将真实物理世界的四维结构完整还原出来。基于四维数据资产训练的模型,能够从单个车端视角视频推演出完整四维结构。这对智能驾驶和具身智能的训练与测试至关重要。
下面以智能驾驶为例,介绍我们的主要产品:
首先是高保真长尾场景数据集。
当前智能驾驶对数据的需求主要集中在少见、危险的场景数据。我们基于路侧传感器采集的海量数据,已经挖掘出非常多高价值的稀缺场景。同时,我们可以根据客户需求,包括车辆尺寸、传感器配置、传感器布局,定制化生产满足客户需求的数据,这对新车型的数据获取尤为重要。由于是对场景进行数字化重建,我们可以自动生产各类标注信息,还能生成不同天气、不同光照条件下的数据。
其次是为强化学习算法提供感知在环闭环仿真解决方案。
强化学习是提升智能驾驶推理能力的最有效手段,但需要在同一场景中进行不同策略的尝试来迭代算法效果。基于我们的世界模型,可以提供同一场景下不同策略的传感器信息。以右侧视频为例,红车是我们的主车,两辆蓝车是交互车辆。我们可以提供激进穿行、稳健让行等不同策略下的传感器信息,帮助强化学习方法进行策略尝试和迭代,有效提升智能驾驶算法的推理能力。
在构建四维数据资产的过程中,我们与苏州、北京、上海以及国家监管平台合作,获取了丰富的真实场景数据。同时,帮助众多客户进行智能驾驶模型的训练和测试,也与多家合作伙伴共同提升数据质量。目前,我们已经完成超过 100 个路口的数字化重建,构建的四维数据资产超过 10,000 个,视频片段超过 110,000 段。
通过 NVIDIA Cosmos 平台,我们成功生成了不同光照、不同天气条件下的数据。基于我们的四维数据资产,可以生成下雪天、雨天等不同天气场景,同时还能实现多模态物体在不同光照条件下的真实渲染,提供非常逼真的物理模型仿真。此外,还可以利用 Cosmos 生成不同传感器配置下的仿真数据。
最后,感谢 NVIDIA 初创加速计划对汤元科技发展的全面支持。NVIDIA 不仅提供了优秀的工具,还给予工程指导,帮助我们快速使用这些平台。同时,参加初创加速计划也提升了我们品牌的曝光度,促成了众多合作。感谢大家对汤元科技的关注!