谷歌发布基础世界模型，AI视频游戏要变天了

主机推荐网 2024-03-21 05:19:57 349 0

就在昨天，谷歌重磅发布了一个基础世界模型——Genie「精灵」。

从一个图像，一张照片，一个草图中，它就能生成一个无穷无尽的世界。

当红炸子鸡Sora虽然创造了令人惊叹的场景，但它们的动作并非可控。

而Genie将成为游戏规则的改变者，创造的虚拟场景可以像电子游戏一样进行互动。

论文地址：

Genie的疯狂之处在于，学习了20万小时的未标注互联网视频，无需监督即可训练。

无需任何动作标注，便可以确定谁是主角，并让用户能够在生成的世界中对其控制。

凭借110亿参数，Genie确立了自己作为基础世界模型的地位

具体来说，它是通过潜动作（）模型、视频分词器，以及自回归动态模型三大核心组件来实现的。

由此产生的学习潜动作空间，不仅使用户交互成为可能，而且还有助于训练智能体模仿看不见的视频中的行为。

因此，Genie为培养未来的通才智能体开辟了崭新的途径，重塑了交互式生成环境的格局。

所以，谷歌会用「精灵」为虚拟世界的创建，带来一场新的革命吗？

AI视频游戏要变天了！

令人惊叹的是，Genie创造一个全新的交互环境只需要一张图像，恰恰为进入虚拟世界开辟了新的途径。

通过最先进的文本到图像生成模型来制作起始帧，然后通过Genie让它们「活」起来。

而且，甚至可以将Genie应用到人类设计的草图或现实世界的图像上！

Genie团队的负责人Tim Rocktäschel称，「Genie作为世界模型，是人类迈向AGI的旅途中非常重要的一步。」

正如LeCun所说，世界模型需要「动作」。Genie是一个动作可控的世界模型，但完全是通过无监督的视频训练出来的。

论文作者Jeff Clune称，「任何人，包括孩子，都可以画一个世界，然后『走进它』并探索它」！

他把孩子们的画作输入Genie，然后就看到老鹰在空中飞来飞去了。

英伟达科学家Jim Fan表示，与Sora不同，Genie实际上是一个由行动驱动的世界模型，具有推断行动的能力。2024年也将是「基础世界模型」年！

「Genie是令人疯狂的视频游戏生成器」。

也有网友认为，谷歌的Genie对视频游戏来说比Sora更重要。

它是一个基础世界模型，从未标记的互联网视频中训练而来，可以在图像提示下生成无数种动作可控的虚拟世界（即交互式视频游戏）。

「鉴于和在游戏引擎方面的悠久历史，我敢打赌，Sora/时刻很快就会在视频游戏中到来」。

构建交互世界的基础模型

Genie是一种全新的生成式AI范式，仅凭一张图像，就能创造出互动性强、可玩的环境。

Genie能将从未见过的图像作为提示，起到一个世界基础模型的作用——无论是现实世界的照片还是简单的草图，都能让人们与自己幻想中的虚拟世界进行互动。

而且，这一切都在没有任何动作标注的情况下实现的。

Genie所展示的惊人突破，是通过分析超过200,000小时的公开互联网游戏视频学习而来的，主要包括2D平台游戏和机器人领域的视频。

理论上，这个方法可以适用于任何领域，并且能够处理越来越大的互联网数据集。

Genie的独特之处在于，它能够仅通过观看互联网上的视频，就学会对细节进行精确控制。

这项技术面临着不小的挑战，因为网络视频往往缺乏动作标注，甚至不明确指出图像中哪些部分可以被操作。

然而，Genie不仅能识别出哪些图像元素是可控的，还能够洞察到各种隐含的动作，并确保这些动作在它创造的不同环境中保持一致。

值得一提的是，即使是在不同的图像提示下，相同的也会引发相似的行为表现。

为全能AI智能体铺平道路

Genie不仅是一个创新工具，它还为培养能够适应多种环境的AI智能体提供了新的可能性。

过去的研究已经证明，使用游戏环境可以有效地开发AI智能体，但通常当时能用的游戏数量有限。

论文地址：

相比之下，Genie学会的动作是可以被应用到真实世界中去的。

借此，我们便能够让未来的AI智能体在一个不断扩展的新世界中进行训练。

生成式虚拟世界的新未来

谷歌称，虽然Genie目前的展示主要在游戏上，但其未来应用远不止于此。

它是一个通用的工具，能够跨越多个领域，而且不需要额外的专业知识就能使用。

就比如，在机器人领域，Genie模型能够让其处理现实世界中的一些任务。

研究人员使用来自RT1的无动作视频训练了一个较小的2.5B模型。

正如在平台游戏中所见，相同动作序列的行为轨迹，通常会表现出相似的模式。

这意味着Genie能够掌握一组统一的动作模式，这对于训练能够在现实世界中灵活应对各种情境的AI智能体来说，具有重要意义。

Genie还能够模拟可变形物体，这是一个对传统由人设计的模拟器来说颇具挑战的任务，但Genie能够通过分析数据学会如何做到这一点。

Genie的诞生，开启了一个全新的时代，让我们能够仅凭图像或文字创造出完整的可交互世界。

谷歌坚信，它将成为推动未来全能AI智能体成长的关键力量。

实现方法

Genie架构中的关键组件是基于视觉（ViT）。

值得注意的是，的二次方内存成本对于视频来说是一个挑战，因为视频中可以包含多达 (10^4) 个token。

因此，研究人员采用了一个内存高效的ST-架构（见图4），在所有模型组件中平衡模型容量与计算限制。

与传统的不同，其中每个token都关注所有其他token，一个ST-包含个时空块，其中交错有空间和时间注意力层，之后是一个标准注意力块的前馈层（FFW）。

空间层中的自注意力关注每个时间步内的1 × × 个token，而时间层关注 × 1 × 1个token跨越个时间步。

与序列类似，时间层假设一个因果结构，带有一个因果掩码。

更关键的是，Genie架构中计算复杂度的主导因素（即空间注意力层）与帧数的增长，呈线性关系而非二次方关系。

这使得它对于视频生成变得更加高效，能够在延长的交互中保持一致的动态。

此外，注意在ST块中，研究人员在空间和时间组件之后只包含一个FFW，省略了空间后的FFW，以便扩展模型的其他组件，并观察到显著提高了性能。

如图3所示，Genie模型包含了三个关键组件：

1) 潜动作模型（LAM），用于分析每两帧之间可能发生的动作

2) 视频分词器，将视频的每一帧转换为一系列的离散符号

3) 动态预测模型，根据之前的动作和帧token来预测视频的下一帧内容

研究人员采用了一个分阶段的训练方法，首先训练视频转换器，然后再同时训练潜在动作模型（直接基于视频像素）和动态预测模型（基于转换后的视频token）。

潜动作模型

对于潜动作模型（LAM），作者的目标是能够控制视频内容的生成，即通过预测每一帧之后发生的动作来，生成未来的视频帧。

但是，这样的动作信息在网络视频中很难直接获取，而且标注动作的成本也非常高。

因此，研究人员采用了一种完全无监督的学习方法，来识别这些潜在的动作（如图5所示）。

视频分词器

研究人员将视频压缩为离散token，以降低维度并实现更高质量的视频生成（见图6）。

动态预测模型

动态预测模型是一个仅解码器的的（图7所示）。

推理：动作可控视频生成

如何使用Genie在推理时，生成动作可控的视频（见图8）。

用户首先用图像1（作为初始帧）来提示模型。使用视频编码器对图像进行标记，得到1。然后通过选择[0, ||]内的任意整数，来指定要采取的离散潜在动作1。

动态模型采用帧token 1和相应的潜在动作 ̃1（通过在VQ码本中使用离散输入1进行索引而获得）来预测下一帧2。

当动作继续传递给模型，重复此过程以自回归方式生成序列

的其余部分，同时将token通过分词器解码为视频帧

。

实验结果

模型缩放

研究人员开发了一个分类器来筛选高质量的视频子集，并通过规模化实验发现，随着模型参数和批大小的增加，模型的性能也会稳步提升。

因此，对于最终模型，研究人员使用256个训练批大小为512的动态模型，总共125k个步骤。

与分词器和动作模型结合使用时，参数总数达到10.7B，并在942B个token上进行训练。

最终得到了，有11B参数的模型Genie。

这里的关键在于数据和算力！

定性结果

平台训练模型

图10显示了由OOD图像提示Genie生成的示例，包括（第一行）从生成的图像，（第二行）手绘草图和（第三行）真实照片。

Genie能够将这些想象的世界变为现实，因为我们在与每个例子互动时都能看到类似游戏的行为。

Genie模型的另一新能力便是理解3D场景和模拟视差，这在平台游戏中很常见。

在图12中，研究人员显示了生成的图像，其中采取潜在动作以不同的速率将前景移动到背景（如不同颜色箭头的长度所示）。

机器人训练模型

研究人员还发现，Genie可以成功地从视频数据中学习了不同且一致的动作，既不需要文本也不需要动作标记。

值得注意的是，模型不仅学习机械臂的控制，还学习了各种物体的相互作用和变形物体。

训练智能体

研究人员相信，Genie有朝一日可以用作训练多面手智能体的基础世界模型。

在图14中，他们展示了该模型，已经可以用于在给定起始帧的未见过的RL环境中生成不同的轨迹。

研究人员还在一个程序化生成的 2D 平台游戏环境的难易设置中进行了评估，并将其与行为克隆模型（BC）进行了比较（图15）。

在只有200个专家样本的情况下，基于LAM的策略获得了与相同的分数，尽管几乎可以肯定的是，以前从未见过。

这证明了所学的潜在行动是一致的，并且对转移有实际意义，因为从潜在行动到实际行动的映射，不包含任何有关当前观察的信息。

消融研究

潜在动作模型的设计选择

在潜在动作模型输入的消融的研究中，可以看到Genie实现了更高的可控性。

分词器架构消融

研究人员的ST-ViViT架构成为性能最佳的分词器。

团队介绍

Yuge (Jimmy) Shi

Yuge (Jimmy) Shi曾是牛津大学Torr Group的机器学习博士生，导师是 Torr。毕业后，入职谷歌成为一名研究科学家。

在此之前，她还在澳大利亚国立大学获得了工程学学士学位。

详细的团队成员和贡献如下：

所属专题：模型视频潜在交互图像

本文地址： https://www.hosttj.com/domain/407.html

« 2024年6月 »
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30