分享好友 最新动态首页 最新动态分类 切换频道
昆仑万维「Matrix-Game 2.0」发布,国产开源的Genie 3来啦!
2025-08-15 09:25

8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。

DeepMind在一周前为社区带来了交互式世界模型的重大更新Genie 3,实现了交互式实时长序列生成,让世界模型备受关注,然而Genie 3并没有开源,让大家只能猜测这样的世界模型该如何实现。

8月12日,昆仑万维为大家带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本——「Matrix-Game 2.0」,同样实现了通用场景下的交互式实时长序列生成的世界模型。并且为促进交互式世界模型领域的发展,「Matrix-Game 2.0」全面开源,是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。

开源地址

技术报告:

https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

项目主页:

https://matrix-game-v2.github.io/

HuggingFace地址:

https://huggingface.co/Skywork/Matrix-Game-2.0

GitHub地址:

https://github.com/SkyworkAI/Matrix-Game

「Matrix-Game 2.0」在实时生成和长序列能力上实现了质的飞跃。相较于上一版本,2.0版本更加侧重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。

在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。

这使得「Matrix-Game 2.0」不仅打破了内容生成与交互之间的壁垒,也为虚拟人、游戏引擎、具身智能等前沿应用打开了新的可能,为构建通用虚拟世界提供了强有力的技术基座。

01 模型架构

「Matrix-Game 2.0」提出了一种全新的视觉驱动交互世界建模方案,彻底摆脱了传统依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。

与主流依赖文本语义的模型不同,「Matrix-Game 2.0」避免了语言先验可能带来的语义偏置,转而关注图像中的空间结构和动态模式,从而更真实、更准确地理解和生成虚拟世界。

1. 基础模型架构

「Matrix-Game 2.0」采用图像为中心的感知与生成机制:

3D Causal VAE 压缩结构:通过三维因果变分自编码器实现空间和时间维度的高效压缩,提升建模效率与生成能力。

多模态扩散 Transformer (DiT):结合视觉编码器与用户动作指令,逐帧生成物理合理的动态视觉序列,并通过 3D VAE 解码成完整视频。

用户交互控制:借鉴 GameFactory 与 Genie系列的控制设计框架,引入“动作模块”,实现用户与生成世界之间的交互操作。

2. 实时自回归视频生成

「Matrix-Game 2.0」基于Self-Forcing训练策略,通过创新的自回归扩散生成机制克服了传统双向扩散模型的延迟和误差累积问题:

1. 因果扩散模型训练:将双向扩散模型蒸馏为因果模型,使用基础模型初始化生成器,并构建小规模数据集,通过近似ODE轨迹进行训练,稳定自回归扩散过程。通过历史帧条件生成当前帧,减少因依赖未来帧而导致的时序延迟。

2. 分布匹配蒸馏(DMD):通过最小化与基础模型之间的分布差异,引导学生模型学习生成高质量视频帧,对齐训练与推理阶段的分布,显著缓解误差积累问题。

3. KV 缓存机制:引入键值缓存机制(KV-Cache),显著提升长视频生成的效率和一致性。该机制通过维护固定长度的注意力上下文,实现无缝滚动生成,支持无限时长的视频输出,解决了训练与推理场景下上下文不一致的问题。基于此实现长时视频的高效生成而无需重复计算,单 GPU 上可实现 25 FPS 实时生成。

「Matrix-Game 2.0」能够生成跨场景的长时视频,保持动作和视觉的时序一致性,并且支持用户在交互过程中的连续指令输入,使其成为游戏内容创作、虚拟现实和智能交互系统的理想解决方案。这一方案将可控性、灵活性与效率相结合,推动高质量视频生成技术迈向更广泛的实时应用场景。

例如在一些无约束、不可控的真实场景,「Matrix-Game 2.0」可根据用户输入的任意控制指令(如键盘的 W/A/S/D 方向键、鼠标用于视角移动),生成对应的交互世界视频,支持角色的前后左右移动以及视角变换等动态行为。

在GTA游戏场景和Minecraft场景中,「Matrix-Game 2.0」也支持键盘与鼠标操作,并且能够生成真实感更强、符合物理逻辑的可交互视频。

02 三大核心创新突破了传统模型的瓶颈

现有交互式世界模型普遍面临数据瓶颈、实时性不足、生成序列较短等挑战。「Matrix-Game 2.0」通过三大核心创新突破了传统模型的三重瓶颈:

构建了基于Unreal Engine和GTA5的可扩展数据生产管线,生产约1350小时高质量交互式视频数据,提供丰富动作覆盖。

在1.3B小模型基础上设计了动作条件控制模块,支持帧级键盘与鼠标交互输入;并采用少步长自回归扩散模型实现实时长序列视频生成,在单个GPU上可达25 FPS的生成速度。

基于领先的架构设计和大量不同领域的高质量数据训练,实现了在多个任务上的领先模型:

1. Matrix-Game Uni:支持在各种风格的静态真实场景下,进行自由的探索;

2. Matrix-Game TempleRun:提供在神庙逃亡世界中进行拟真游戏的能力,具有精确的游戏指令指令响应能力;

3. Matrix-Game GTA:支持在GTA场景中模拟车辆运作,和前两者不同的点在于,GTA模型模拟的世界是一个动态场景,场景内的物体有自身的运动轨迹。

当前,「Matrix-Game 2.0」具备三大核心优势

1. 高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可通过指令操控角色在场景中自由行动,系统以 25 FPS 实时生成连续画面,单次交互可生成分钟级别长交互视频,动作自然流畅,响应精准。

2. 多场景泛化能力:模型具备出色的跨域适应性,不仅适用于特定任务场景,还支持多种风格与环境的模拟,包括城市、野外等空间类型,以及真实、油画等视觉风格。

3. 增强的物理一致性:对物理规则的理解进一步提升,角色在面对台阶、障碍物等复杂地形时,能够展现出符合物理逻辑的运动行为,提升沉浸感与可控性。

03 开源世界模型,昆仑万维领跑空间智能研究

以谷歌Genie 3等为代表的世界模型,已经为我们描绘了一个激动人心的未来蓝图。它向我们展示了AI不再仅仅是内容生成工具,而是可以构建和模拟世界的“造物主”。随着AI技术的不断进步,可以展望,世界模型将成为我们理解世界、创造未来、并最终实现通用人工智能的关键基础设施。

昆仑万维作为中国领先的人工智能科技公司,不仅打造出天工语言大模型、天工多模态大模型、SWE代码大模型、Agent大模型、视频大模型、音乐大模型、音频大模型等模型底座矩阵,还推出了火爆全球的AIGC产品,如Skywork超级智能体、Mureka等。

世界模型是迈向具身智能与高级空间推理的下一前沿课题。如今,昆仑万维Matrix系列世界模型的持续迭代与开源,代表了中国空间智能方向研究和应用的新里程碑。我们相信,「Matrix-Game 2.0」将为具身智能体训练与数据生成、虚拟游戏世界快速搭建、影视与元宇宙内容生产等领域带来变革行影响。

来源:北国网

免责声明:本文来源于网络,仅代表作者本人观点,与TechWeb无关。凡来源非TechWeb的新闻(作品)只代表本网传播该消息,并不代表赞同其观点。TechWeb对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

最新文章
邮储银行宁波分行:助力千层饼香飘四方,解锁非遗传承的金融密码
在宁波奉化溪口,有一抹百年不变的金黄——那是被誉为“天下第一饼”的千层饼。作为中国地理标志产品与浙江省级非物质文化遗产,这方寸之间的美味曾斩获浙江省优质产品、首届中国食品博览会铜奖等荣誉。二十七层薄如蝉翼的面皮折叠交融,一
法治体检进企业 法律服务促发展系列活动(二)
今年以来,商洛市司法局充分发挥司法行政在保障企业高质量发展中的职能作用,加大涉企法律服务力度,组织全市各律师事务所扎实开展法治体检进企业法律服务促发展活动,为企业提供优质高效的法律服务,营造良好的法治化营商环境。法治体检进
重庆新闻联播丨山河见证——我们的抗战记忆 · 炸不死的“重庆之蛙” 率先向全球发出抗战胜利消息
  来源:第1眼新闻  1945年8月15日,日本宣布无条件投降。而在此之前的五天,位于重庆的国际广播电台就率先向全球播报了日本投降的消息。这座被日方称为“重庆之蛙”的电台,为何能提前发出抗战胜利的捷报?走进今天的《山河见证》。 
0812早播报
1.快闪店成福州商圈“流量密码”“哇,这还是我熟悉的麦当劳吗?”“麦当劳这是要打造主题乐园吗?”10日上午,不少在福州东二环泰禾广场消费的市民,经过麦当劳福州化工路餐厅时,发出这样的惊叹。六小福雕像长椅、全国唯一的汉堡造型甜品
镇安县召开信访工作推进会议
近日,镇安县召开信访工作推进会议。镇安县委书记袁礼锋出席并讲话,镇安县委副书记、县长刘学智主持,镇安县委常委董建莉、余红松、张洋等出席会议。会上,传达了近期省市有关会议精神、通报了全县信访件办理情况,听取了相关包案县级领导
潍坊:扎根农村种苹果,蹚出乡村振兴果业发展新路径
潍坊诸城市桃园生态经济发展区26岁“新农人”丁昱文,不仅采用先进有机技术种植900亩苹果,而且引进先进技术鲜榨苹果汁,苹果品质好卖出好价钱,鲜榨苹果汁提高附加值,蹚出一条乡村振兴果业发展新路径。果农套袋拉网保护苹果。8月4日,记
从交通线到风景线 省公路局推动交旅融合提档升级
今年以来,省公路局坚持生态保护优先原则,立足省情定位和特色旅游资源,全面推动交旅融合发展。紧扣目标,构建全域旅游公路骨架根据《青海省人民政府办公厅关于印发全省公路路况提升三年攻坚行动方案的通知》,紧紧围绕“一年见成效、两年
原创赤热黄晓明智慧坚韧创业者,王鸥干练与魅力,施诗与高露加盟
赤热的故事背景设定在二十一世纪初,中国芯片产业正面临与欧美的巨大差距。剧中,黄晓明、王鸥、张超等主演,扮演归国顶尖人才,他们响应国家号召,投身科技创业,力图改写中国科技历史。这部剧是对时代的深刻刻画,是一次对科技兴国战略的
文明新风拂夏夜 浒墅关新鹿花苑社区“幸福夜”活动暖人心田
夏夜的浒墅关,晚风裹挟着邻里的笑语,路灯晕染出温馨的光晕。连日来,浒墅关新鹿花苑社区新时代文明实践站精心组织“文明高新幸福夜”系列活动,把贴心服务、温情互动与实用知识送到居民身边,让居民在家门口尽享缤纷生活。银幕光影聚邻里
高血压的人能喝浓茶吗?让人惊掉下巴!(实测)
前两天我妈高血压犯了,头晕得厉害结果发现她偷偷喝了两大杯浓茶,我当场就惊了高血压的人到底能不能喝浓茶?这个疑问可把我问住了,问了、查了资料结果让人大跌眼镜!今天就来给大家扒一扒这背后的,顺便实测一下浓茶对血压的作用,看看是
相关文章
推荐文章
发表评论
0评