菜鸡百科 手机版
  • 首页
  • 家电百科
  • 实时讯息
  • 常识
  • 时间 贷款 费用 车辆 银行 公司 企业 万元 自己的 社保
    您的位置: 首页 > 实时讯息 >
    中国科研团队,再夺一项AI领域“世界第一”!
    0次浏览     发布时间:2025-03-18 16:15:00    

    将围棋视频“喂”给AI,很快它就能达到围棋职业5段的水平。近日,北京交通大学与豆包大模型团队共同发布了视频生成实验模型“VideoWorld(视频世界)”,在世界范围内首次实现仅通过视频浏览就能让机器掌握推理、规划和决策的复杂能力,弥补了人工智能仅依靠语言模型认知世界的学习局限。目前,模型代码、数据已开源。

    “当前在人工智能领域较火的ChatGPT、DeepSeek等大模型,通常依赖自然语言学习推理知识。VideoWorld提供了另外一种思路,能够通过视觉信息,学习并完成语言难以清晰表达的、相对复杂的任务,例如折纸、打领结等。”北京交通大学计算机科学与技术学院院长魏云超说。

    基于潜在动力学模型,该模型能高效压缩视频帧间的变化信息,显著提升AI学习知识的效率和效果。魏云超解释,经过测试,VideoWorld在仅有300兆的少量数据参数情况下,不依赖任何强化学习搜索或奖励函数机制,通过浏览围棋高手对战的视频,就能理解围棋的规则和策略,从围棋“小白”升级到专业5段水平。在多种机器人场景中,它也成功地执行了各种控制任务。

    “在视频生成方面,目前已有模型通过语言描述生成的视频,可能会出现不符合常理的现象,例如球往天上飞。”魏云超说,VideoWorld可以通过观看现实生活中的视频,了解物理规律,避免生成的产品里出现幻觉。此外,在自动驾驶领域,VideoWorld的技术可以被用于提升车辆对环境的理解和决策能力,帮助车辆实时处理大量视觉信息;该模型的相关技术也能通过学习大量医学影像数据,辅助医生进行诊断和治疗规划。

    目前,该模型还处于概念验证阶段。魏云超说,团队正在继续提升数据、算力等方面的能力,使模型有更强大的感知、理解和推理能力,尽快应用到真实场景中。

    来源:北京日报客户端

    记者:何蕊

    流程编辑:u028

    相关文章