A Unified Path to Generalist Robots - 具身智能与通用机器人基础模型:挑战、实践与未来展望
EN
Chelsea Finn: Building Robots That Can Do Anything
Click to see a more reader friendly version of this content (点击查看视觉效果更好的版本)
CN
Chelsea Finn: Building Robots That Can Do Anything - YouTube
Key Logic
该演讲阐述了Physical Intelligence公司致力于开发通用机器人基础模型的愿景,旨在解决当前机器人应用碎片化、需要为每个特定任务定制软硬件的问题。演讲者强调,借鉴语言模型的发展经验,通过结合大规模真实世界数据、精心策展的高质量演示数据进行预训练和后训练,以及利用语言模型生成合成数据来增强机器人对开放式指令的响应能力,是实现机器人具备在未知环境中执行复杂任务和高度泛化能力的关键路径,从而使机器人能从实验室走向日常生活,并在不同任务和环境中展现出强大的适应性。
通用机器人愿景与当前挑战
- Physical Intelligence联合创始人Chelsea Finn指出,当前机器人应用面临的挑战是每个机器人应用都需要围绕其构建一个完整的公司。
- 你需要为物流、湿实验室自动化、厨房机器人、外科手术机器人等不同应用分别建立公司。
- 这是因为每个公司都需要从零开始制作新的硬件、开发定制软件、设计独特的动作原语、处理边缘情况等。
- 结果是,许多机器人公司未能成功地将机器人真正带入我们的日常生活。
- Physical Intelligence正试图解决这一问题,目标是开发一个通用模型,使任何机器人能够在任何环境中执行任何任务。
数据在机器人学习中的局限性与重要性
- Chelsea Finn 探讨了在机器人领域基础模型开发中“规模”的重要性,但指出规模并非唯一要素。
Physical Intelligence在洗衣任务中的实践与突破
- Chelsea Finn展示了Physical Intelligence收集的一个数据样本,即一名远程操作员控制机器人来点燃火柴和蜡烛。
- 通过这类数据,他们可以训练机器人执行各种任务。
- 目前,他们正尝试用大规模真实机器人数据开发具身智能。
- 这在当今机器人标准下是“大规模”数据,但相对于未来几年机器人所需的数据量而言,可能微不足道。
- 挑战重重的洗衣任务:
- Chelsea Finn 谈到训练PI零基础模型来卸载烘干机和折叠衣物。
- 这是她在物理世界中见过机器人做过的最令人印象深刻的事情,同时也是一个极其困难的问题。
- 难点在于衣物形状和位置的多变性,以及长时间任务中可能出现的灾难性失败(例如衣物掉落)和从微小错误中恢复的能力。
- 这个任务机器人需要执行约10分钟。
- 从简单到复杂:
- Chelsea Finn 团队从最简单的任务开始:机器人能否折叠一件单尺寸、单品牌的衬衫。
- 他们通过远程操作收集数据,并使用模仿学习训练策略。
- 模型参数约为100 million个,将机器人摄像头的图像映射到机械臂的关节目标位置,并以50Hz的频率控制。
- Physical Intelligence公司于2024年3月中旬成立,几个月后,他们就能相对可靠地折叠单尺寸、单品牌的衬衫。
- 随后,他们将问题难度逐步提高,从桌面平铺的衬衫到揉皱的衬衫。
- 这使得任务难得多,早期尝试中,成功率常常是0%。
- 直到去年6月底,才出现初步进展,机器人能展平并较好地折叠衬衫,但仍不完美,且速度很慢(视频加速8倍)。
- 进一步的挑战:将衣物从洗衣篮中取出,并引入不同尺寸的衬衫和短裤。
- 机器人再次表现挣扎,许多测试中成功率仍为0%。
- 他们曾考虑多种解决方案:机器人需要记忆、训练更长时间、在末端执行器空间控制、校准问题、更多数据信息、引入层级结构、更高分辨率图像、数据收集干预等。
- 经历了2到3个月的失败。
- 突破性进展:预训练与后训练相结合:
- Chelsea Finn 团队发现了一个关键突破:他们从语言建模中获得启发,不只是在所有数据上训练策略,而是先在所有数据上进行预训练(pre-train),然后在一个经过精心策展的、高质量的示范数据集上进行微调(fine-tune)。
- 当他们这样做时,机器人能够取得进展,更可靠地折叠衣物。
- 2024年9月,机器人首次能够连续折叠5件衣物并堆叠起来。这需要20分钟来折叠5件衣物。
- 尽管仍不完美,例如蓝色衬衫尝试折叠了7次才成功,以及出现其他失败模式(如将衣物推到桌角并掉落)。
- 他们继续迭代策展策略,将折叠5件衣物的时间从20分钟缩短到12分钟。
- 引入Polygeemma模型与视觉语言模型:
- 之前模型仅在洗衣数据上进行预训练和微调,并未利用社区中的预训练模型。
- Physical Intelligence的其他成员正在开发一个在所有机器人数据上训练的预训练模型。
- 他们引入了一个开源的、3 billion参数的Polygeemma视觉语言模型。之前他们使用的模型参数量在100 million到300 million之间。
- 这个模型将机器人图像和语言指令作为输入,并预测未来50个动作(约1秒),使用流匹配方法输出连续动作。
- 通过将这个预训练模型与他们开发的后训练配方结合(在所有收集到的机器人数据上进行预训练,然后在策展数据上微调),机器人性能进一步提升。
- 左侧视频显示机器人能以9分钟完成5件衣物,比之前的12分钟更快。右侧视频测试了新衣物,折叠多件衣物也效率很高。
- 折叠质量也更一致,因为使用了参数量大10倍且见过更多机器人数据的模型。
- 模型泛化能力亮点:
- 定量验证预训练与后训练配方:
- Chelsea Finn 团队比较了三种情况:
- 预训练 + 后训练配方
- 未使用预训练,仅在策展数据上训练
- 未使用后训练,在所有数据上训练
- 结果显示,预训练 + 后训练配方性能显著更高,能可靠地展平并折叠物体。
- 而省略预训练和后训练,机器人只能勉强从箱中取出物品,进展甚微。
- Chelsea Finn 团队比较了三种情况:
- 配方的通用性:
- 这个配方不仅限于洗衣,还成功应用于其他任务,如清理桌面、将咖啡豆舀入研磨机、以及用火柴点燃蜡烛。
- 这体现了基础模型的优势:无需从零开始,可以利用跨多个机器人和任务的预训练知识。
- 该配方也成功应用于其他公司的机器人,即使Physical Intelligence不完全了解其控制方式和动作表示,也能通过在其数据上微调来控制机器人泡咖啡。
- 本部分总结:
- Chelsea Finn 强调了独立开发后训练和预训练并解耦问题的重要性,最终取得了两者的最佳效果。
- 她指出,对于复杂任务,在所有数据上训练并不奏效,而预训练和在策展数据上进行后训练会带来更好的性能。
- 通过逐步解决洗衣任务(从折叠单件衬衫到更复杂的版本),他们分解了这一难题。
机器人模型在新环境中的泛化能力
- Chelsea Finn 提到一个局限性:机器人通常在训练环境中进行测试,这意味着需要大量数据在特定环境中收集和部署。
- 但未来应用场景中,机器人需要适应从未见过的新环境。
- 解决方案:收集多样性数据:
- 从机器学习中学到的经验是收集多样性数据。
- 他们在旧金山的不同家庭以及各种模拟厨房和卧室中收集了机器人数据。
- 数据集中包含了100多个独特的房间。
- 这些多样化的移动操作数据,包括低层动作预测和高层子任务指令,构成了更大的预训练混合数据的一部分。
- 之前收集的静态操作数据(在办公室、实验室、网页数据和高层指令数据)也包含在内。
- 值得注意的是,卧室和厨房整理的移动操作数据仅占整体预训练混合数据的2.4%。
- 这表明可以基于现有成果,无需从头开始收集所有数据,就能启动新任务或新机器人应用。
- 语言理解的挑战与改进:
- 早期模型存在挑战:会忽略语言指令。例如,被要求拿起切菜板,却拿起盘子。
- 解决方案:通过阻止随机初始化的扩散头对VLM主干的语言遵循能力造成退化,预测符号化动作(tokenized actions),并阻止梯度。
- 这样做的结果:训练更快,语言遵循率从20%大幅提升到80%。
- 在未知环境中的测试:
- 团队租用了3个从未去过的Airbnb进行测试。
- 机器人成功地在厨房中执行了关闭橱柜、收碗碟(即使是没见过的碗碟)、清理溢出物等任务,在卧室中整理床铺等。
- 定量分析数据多样性的帮助:
- 排除实验室静态机器人数据会显著降低性能,在全新家庭中的评估表现低于60%。
- 使用完整预训练混合数据能提升20%以上性能。
- 增加数据中代表的家庭数量会提高性能,达到在目标环境中训练的相同水平,表明泛化差距基本弥合。当前的瓶颈在于提高可靠性和性能,而非增加更多多样性数据。
- 当前模型失败模式:
- 成功率约为80%,仍有很大改进空间。
- 例如:将物品放入抽屉未完全放入但认为完成,开车碾过衬衫后被卡住,拾取薄的、紧贴台面的切菜板困难。
- 最有趣的例子:被告知将锅铲放入抽屉,却打开了烤箱,因为它认为烤箱像抽屉。
- 其他挑战:速度、部分可观测性、长期规划。
- 本部分总结:Chelsea Finn 强调,通过多样性数据,机器人能在从未到过的环境中遵循各种指令,这是机器人领域的重要进步。
机器人响应开放式指令的能力
- Chelsea Finn 指出,当前模型的指令集相对有限。
- 分层视觉语言动作模型(VLAH):
- 高层策略将复杂提示分解为中间的口头响应和原子语言指令。
- 例如,“你能给我做个三明治吗?”会被分解为“拿起一片面包”等子任务。
- 低层模型执行这些原子指令并预测目标关节角度。
- 挑战:难以收集大量真实机器人与人类交互数据来处理开放式语言,也难以扩展。
- 解决方案:生成合成数据:
- 成果:
- 与现有基础模型的比较:
- 团队评估了现有基础模型作为机器人高层规划器的效果。
- 结果显示,这些模型遵循指令和在任务上取得进展的性能远低于Physical Intelligence的系统。
- 这些“前沿模型”在机器人相关的视觉理解方面普遍存在不足,因为它们通常不针对物理应用,且在物理世界数据量很少。
- 本部分总结:Chelsea Finn 强调,通过利用语言模型生成的合成数据,机器人能够响应开放式提示和插话,这是机器人适应更复杂交互的关键。
行业前景与挑战 (Q&A)
- 听众提问1:关于后训练中高质量行动数据的构成以及强化学习在后训练中的作用。
- Chelsea Finn 回答:
- 高质量数据成分:数据的一致性、遵循策略的一致性,以及机器人能否高效、可靠地完成任务。
- 强化学习可以在后训练中发挥巨大作用,来自机器人的在线数据可以显著提高成功率,并提高效率。
- Chelsea Finn 回答:
- 听众提问2:Physical Intelligence如何为折叠衣物和处理碗碟的机器人吸引融资。
- Chelsea Finn 回答:
- 听众提问3:VLM与世界模型的交互,以及部署模型所需的基础设施层。
- Chelsea Finn 回答:
- VLM可以自然地融入world model目标,例如预测中间子目标图像,并以此预测动作。
- 但世界模型仍有挑战,特别是数据无法完全反映使用方式,模型可能出现幻觉。
- 基础设施方面,短期内最重要的进步是实时系统(确保动作执行频率,避免延迟)和大规模机器学习基础设施(训练大型模型,摄取海量多模态数据,如视频、动作、语言片段)。
- Chelsea Finn 回答:
- 听众提问4:模型大小(小模型+数据库 vs 大模型)的选择。
- Chelsea Finn 回答:
- 检索式系统在技术上难以实现。
- 模型有时会忽略检索内容,试图自行生成。
- 这取决于具体应用场景,但目前在技术上很难明确如何划分工作。
- 模型本身也需要一定的智能才能有效利用检索信息。这是一个引人入胜但需要大量研究的研究问题。
- Chelsea Finn 回答:
- 听众提问5:构建具身智能的软硬件演变中,对构建者的最大机会。
- Chelsea Finn 回答:
- 改进机器人基础设施是重要机会,这方面开源代码不多,许多人未关注。
- 开源社区的巨大机会:收集数据、开源模型、修复bug、微调模型、探索新微调配方。
- Chelsea Finn 回答:
- 听众提问6:合成数据synthetic data在机器人领域的未来。
- Chelsea Finn 回答:
- 听众提问7:学术界和工业界在机器人硬件研究上的差异。
- Chelsea Finn 回答:
- 学术界的资源(数据收集吞吐量、评估吞吐量、计算能力)通常不如初创公司和工业实验室。
- 但学术界可以在资源有限的情况下解决算法问题。
- 工业界则适合在大型模型、大规模数据上进行研究。
- 两者都很重要,差距并非想象中那么大。
- 资源过多也可能有弊端,可能导致计算资源浪费,不如资源受限时思考更谨慎。
- Chelsea Finn 回答:
- 听众提问8:VLM架构在物理感知方面的局限性。
- Chelsea Finn 回答:
- 他们通过fast tokenizer论文中提到的方法对动作进行标记化(tokenized actions)来解决。
- Chelsea Finn 回答:
#physical_intelligence #general_purpose_robots #foundation_models #embodied_AI #robotics #data_curation #pre_training #post_training #synthetic_data #laundry_folding #generalization #open_ended_prompts #reinforcement_learning #robot_infrastructure #VLM #world_modeling #large_scale_data #robot_learning #human_robot_interaction #AI_applications