股票融资规则为机器人安上“最强大脑”！谷歌VLA新模型泛化能力提升3倍能“听懂人话”

@ 股票融资规则为机器人安上“最强大脑”！谷歌VLA新模型泛化能力提升3倍能“听懂人话”

发布日期：2024-08-09 01:01 点击次数：175

该基金的基金经理为刘太阳、吴国杰，基金经理刘太阳于2024年5月31日起任职本基金基金经理，任职期间累计回报1.03%。基金经理吴国杰于2023年7月7日起任职本基金基金经理，任职期间累计回报4.15%。

K图 GOOGL_0

K图 GOOG_0

　　①之前机器人经常无法操纵自己从未见过的东西，也难以实现“从‘灭绝的动物’到‘塑料恐龙’的逻辑飞跃”；

　　②作为一款新型视觉-语言-动作（VLA）模型，RT-2可以从网络、机器人数据中学习，并将这些知识转化为机器人控制的通用指令；

　　③RT-2具备三大能力：符号理解、推理和人类识别。

　　一个单臂机器人“站”在桌前，桌上放着三个塑料动物玩具：狮子、鲸鱼与恐龙。收到“捡起灭绝的动物”指令后，这个机器人“思考”了一会儿，然后甚至机械臂，打开爪子，抓起了恐龙。

　　这是谷歌最新一款机器人模型Robotic Transformer 2（机器人变形金刚2，RT-2）。

　　上文这个“抓起恐龙”的动作对于人类而言轻而易举，对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西，也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。

　　作为一款新型视觉-语言-动作（vision-language-action，VLA）模型，RT-2可以从网络、机器人数据中学习，并将这些知识转化为机器人控制的通用指令。

　　相较于其他机器人研究，RT-2的核心优势在于，其不仅能直接接收“人话”指令，听懂“人话”、理解“人话”，还能做出相应推理，并转为机器人能理解的分阶段指令，从而做出动作完成任务。

　　RT-2完成的每一项任务，都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。

　　例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时，机器人需要对相应物体/场景执行任务，而这些物体与场景它从未在机器人数据中见过，需要从网络数据中转化得到相应知识。

　　总体而言，RT-2具备三大能力：符号理解（Symbol understanding）、推理（Reasoning）和人类识别（Human recognition）。

　　（1）符号理解是指RT-2可以从视觉语言预训练中转移了语义知识，而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。

图|符号理解指令示例

　　（2）推理则是将VLM的各种推理能力用于任务控制，包括视觉推理（“将苹果移到相同颜色的杯子里”）、数学推理（“将X移到2加1之和的附近”）、多语言理解（“mueve la manzana al vaso verde”，西班牙语）。

图|推理指令示例

　　（3）人类识别是以人类为中心的理解和识别能力，RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。

图|人类识别指令示例

　　此外，研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。

　　例如在下图中，RT-2接收到的要求是“我想钉个钉子，场景里什么东西可能能用上？”，RT-2转化得出了“石头。动作：1 129 138 122 132 132 106 127”的指令，并拿起了石头。

　　RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、Visual Cortex（VC-1）等模型，RT-2泛化能力大幅提高，较前者提高了3倍有余。

　　加利福尼亚大学伯克利分校的机器人学教授Ken Goldberg表示，机器人的灵巧性仍达不到人类水平股票融资规则，在一些基本任务上也会失败，但谷歌利用人工智能语言模型，赋予机器人推理和随机应变的新技能，是一个很有希望的突破。