机器人与世界交互的关键:模型的多模态能力

主机推荐网 392 0

的模型的多模态能力,是机器人可以与世界交互的关键,我们能够从视频中展示中看到许多类似的瞬间,比如:

描述一下它的周围环境。

做出决定时使用常识推理。例如,「桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架」。

将「我饿了」等模棱两可的高级请求转化为一些适合上下文的行为,例如「递给对方一个苹果」。

用简单的英语描述*为什么*它会执行特定的操作。例如,「这是我可以从桌子上为您提供的唯一可食用的物品」。

而模型能力的强大,使其还能够拥有短期记忆,比如视频中展示的「你能把它们放在那里吗?」「它们」指的是什么?「那里」又在哪里?正确回答需要反思记忆的能力。

而具体的双手动作,可以分成两步来理解:

首先,互联网预训练模型对图像和文本进行常识推理,以得出高级计划。如视频中展示的: 的人形机器人快速形成了两个计划:1)将杯子放在碗碟架上,2)将盘子放在碗碟架上。

其次,大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度),充当高速「设定点()」,供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力,如保持平衡。

所有行为均由神经网络视觉运动 策略驱动,将像素直接映射到动作。

从 到 Sora,再到机器人, 想包揽「智能」这件事

2021 年夏天, 悄悄关闭了其机器人团队,当时, 曾宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人使用人工智能移动和推理所需的数据,导致研发受到阻碍。

但显然, 并没有放下对这个领域的关注。

2023 年 3 月,正在一年前,极客公园报道了投资了来自挪威的机器人制造商 1X 。其副总裁正是我在文初提到的,认为具身智能将会突然到来的 Eric Jang。

而无独有偶,1X 的技术方向,也是端到端的神经网络对于机器人的控制。

而今年 3 月初,和其他投资人一起,参与了 的 B 轮融资,使其成立两年,就达到了 26 亿美金估值。

也正是在这一轮融资之后, 宣布了与 的合作。

的创始人 Brett ,是个「擅长组局」的连续创业者,整个职业生涯中创立过至少 7 家公司,其中一家以 27 亿美元的估值上市,一家被 1.1 亿美元的价格收购。

创建公司后,他招募到了研究科学家 Jerry Pratt 担任首席技术官,前波士顿动力/苹果工程师 Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch,则原本是 的 AI 研究员。

宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面,都招募了硬核的设计人才。

公司的确进展很快。在与 合作之前,已经做出了不少成绩。2024 年 1 月, 01( 的第一款人形机器人) 学会了做咖啡,公司称,这背后引入了端到端神经网络,机器人学会自己纠正错误,训练时长为 10 小时。

AI机器人_机器人爱死亡_机器人编程是学的什么

01 引入 AI 学会做咖啡 | 图片来源:

2 月,公司对外展示 01 的最新进展,在视频里,这个机器人已经学会搬箱子,并运送到传送带上,但速度只有人类的 16.7%。

甚至在商业化上,也已经迈出了第一步: 宣布与宝马制造公司签署商业协议,将 AI 和机器人技术整合到汽车生产中,部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。

而在今天的视频展示推文中, 宣布其目标是训练一个世界模型,最终能够卖出十亿个级别的模型驱动的人形机器人。

不过,尽管 与 的合作进展顺畅,但看起来 并未把宝压在一家机器人公司。

北京时间 3 月 13 日,来自谷歌研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 ,被彭博社爆料也拿到了 的融资。

毫无意外,该公司,也是研究未来能够成为通用机器人系统的人工智能

多头下注机器人领域,13 天合作做出领先的机器人大模型, 在机器人领域意图为何,引人关注。

智能人形机器人,未来不止看马斯克的了。

所属专题: 机器人 人工智能

发布评论 0条评论)

  • Refresh code

还木有评论哦,快来抢沙发吧~