中国科研团队，再夺一项AI领域“世界第一”！

您的位置：首页 > 实时讯息 >

中国科研团队，再夺一项AI领域“世界第一”！

0次浏览发布时间：2025-03-18 16:15:00

将围棋视频“喂”给AI，很快它就能达到围棋职业5段的水平。近日，北京交通大学与豆包大模型团队共同发布了视频生成实验模型“VideoWorld（视频世界）”，在世界范围内首次实现仅通过视频浏览就能让机器掌握推理、规划和决策的复杂能力，弥补了人工智能仅依靠语言模型认知世界的学习局限。目前，模型代码、数据已开源。

“当前在人工智能领域较火的ChatGPT、DeepSeek等大模型，通常依赖自然语言学习推理知识。VideoWorld提供了另外一种思路，能够通过视觉信息，学习并完成语言难以清晰表达的、相对复杂的任务，例如折纸、打领结等。”北京交通大学计算机科学与技术学院院长魏云超说。

基于潜在动力学模型，该模型能高效压缩视频帧间的变化信息，显著提升AI学习知识的效率和效果。魏云超解释，经过测试，VideoWorld在仅有300兆的少量数据参数情况下，不依赖任何强化学习搜索或奖励函数机制，通过浏览围棋高手对战的视频，就能理解围棋的规则和策略，从围棋“小白”升级到专业5段水平。在多种机器人场景中，它也成功地执行了各种控制任务。

“在视频生成方面，目前已有模型通过语言描述生成的视频，可能会出现不符合常理的现象，例如球往天上飞。”魏云超说，VideoWorld可以通过观看现实生活中的视频，了解物理规律，避免生成的产品里出现幻觉。此外，在自动驾驶领域，VideoWorld的技术可以被用于提升车辆对环境的理解和决策能力，帮助车辆实时处理大量视觉信息；该模型的相关技术也能通过学习大量医学影像数据，辅助医生进行诊断和治疗规划。

目前，该模型还处于概念验证阶段。魏云超说，团队正在继续提升数据、算力等方面的能力，使模型有更强大的感知、理解和推理能力，尽快应用到真实场景中。

来源：北京日报客户端

记者：何蕊

流程编辑：u028