英伟达推出Cosmos3世界模型 扩大AI战略布局
英伟达推出 Cosmos 3 世界模型,扩大人工智能战略布局
Axios
英伟达 Cosmos 3 视频中的两张图片,一张是自动驾驶汽车和行人,另一张是机器人。
图片来源:英伟达
英伟达发布了 Cosmos 3,这是一个开放的 AI世界模型,旨在帮助机器人、自动驾驶汽车和其他物理系统更好地理解和预测现实世界的环境。
重要性:英伟达正继续从芯片领域向人工智能模型和软件领域转型,力图成为物理人工智能开发的基础平台。
新闻要点:英伟达表示,它使用 20 万亿个多模态数据标记训练了 Cosmos 3,其中包括近 10 亿张图像、4 亿个真实和合成视频、环境音频、文本以及来自人类和机器人的动作数据。
英伟达Cosmos实验室副总裁刘明宇告诉Axios,正是这些动作数据使Cosmos区别于普通的视频生成器。它的目的是模拟机器的运动方式,而不仅仅是场景的外观。自主动作是关键。
开发者可以使用 Cosmos 3 模拟物理环境中的动作,然后在此基础上构建机器人和其他机器的特定任务模型。
Cosmos 3 旨在生成动作数据(例如机器人关节角度、夹爪位置和轨迹),这些数据可以帮助训练机器在物理世界中导航和操作。
刘先生表示,言外之意是: Cosmos 是一个开放模型,类似于其早期的 Nemotron 系列,这使得硬件制造商更容易根据自身需求定制 Cosmos,并确保未来的版本能够更紧密地契合行业的需求。
英伟达也在组建一个支持这项工作的公司联盟。首批合作伙伴包括Agile Robots、Black Forest Labs 和 Runway。
英伟达表示,Cosmos 可以生成罕见或危险的场景——例如机器人碰撞或不寻常的道路事件——这些场景很难、成本高昂或不安全,无法反复捕捉。
放大来看:英伟达立即发布了两个版本:一个是“超级”模型,用于需要高物理精度的任务,例如训练机器人和自动驾驶汽车;另一个是“纳米”模型,可以在几分之一秒内生成结果。
英伟达表示,可在本地运行的“边缘”模型即将推出。
从宏观角度来看:随着企业越来越希望利用聊天机器人和代理的智能来执行现实世界的任务,世界模型已成为人工智能的一个关键增长领域。
该领域热门创业公司包括李飞飞的World Labs和 Yann LeCun 的 AMI Labs。
刘说:“归根结底,世界模型想要实现的目标是帮助物理主体变得更具普适性。要变得更具普适性,你需要了解世界,了解它的运作方式,这样你才能制定计划。”
总而言之:英伟达认为,下一代人工智能不仅能够回答问题或生成图像,还需要在物理世界中进行预测、模拟和行动,而英伟达希望其开放的模型和基础设施能够成为开发者的起点。
页:
[1]