A Unified Path to Generalist Robots - 具身智能与通用机器人基础模型：挑战、实践与未来展望

Last updated on 25 Jul 2025

EN

Chelsea Finn: Building Robots That Can Do Anything

Click to see a more reader friendly version of this content (点击查看视觉效果更好的版本)

CN

Chelsea Finn: Building Robots That Can Do Anything - YouTube

Key Logic

该演讲阐述了Physical Intelligence公司致力于开发通用机器人基础模型的愿景，旨在解决当前机器人应用碎片化、需要为每个特定任务定制软硬件的问题。演讲者强调，借鉴语言模型的发展经验，通过结合大规模真实世界数据、精心策展的高质量演示数据进行预训练和后训练，以及利用语言模型生成合成数据来增强机器人对开放式指令的响应能力，是实现机器人具备在未知环境中执行复杂任务和高度泛化能力的关键路径，从而使机器人能从实验室走向日常生活，并在不同任务和环境中展现出强大的适应性。

通用机器人愿景与当前挑战

Physical Intelligence联合创始人Chelsea Finn指出，当前机器人应用面临的挑战是每个机器人应用都需要围绕其构建一个完整的公司。
- 你需要为物流、湿实验室自动化、厨房机器人、外科手术机器人等不同应用分别建立公司。
- 这是因为每个公司都需要从零开始制作新的硬件、开发定制软件、设计独特的动作原语、处理边缘情况等。
- 结果是，许多机器人公司未能成功地将机器人真正带入我们的日常生活。
Physical Intelligence正试图解决这一问题，目标是开发一个通用模型，使任何机器人能够在任何环境中执行任何任务。
- 这种通用模型可能比专用模型更有效且易于使用，就像语言模型及其他领域基础模型的发展所展示的那样。
- 例如，如今开发编码助手，你不会专门为此开发，而是基于大量数据训练的模型，不仅仅是代码数据。
- 本质上，这试图将基础模型和这种智能带入物理世界，而非仅限于数字世界。

数据在机器人学习中的局限性与重要性

Chelsea Finn 探讨了在机器人领域基础模型开发中“规模”的重要性，但指出规模并非唯一要素。
- 工业自动化数据：
  - 规模庞大，机器人重复执行任务的数据很多。
  - 但是，这类数据缺乏行为多样性，不足以让机器人进入灾区、制作三明治或打包日用品。
- YouTube数据：
  - 也是巨大的数据源，包含人类执行任务的多种视频。
  - 但我们不会通过看别人写作来学习写作，也不会通过观看温网成为网球专家。
  - 数据量虽大，但使用极具挑战，且机器人与人类的具身形态存在差距。
- 模拟数据：
  - 同样可以获得大规模数据。
  - 但这类数据缺乏真实性，与现实存在差距。
- 结论：规模对于在开放世界条件下泛化的模型是必要的，但并非解决问题的充分条件。你需要规模，但它不足以解决整个问题。

Physical Intelligence在洗衣任务中的实践与突破

Chelsea Finn展示了Physical Intelligence收集的一个数据样本，即一名远程操作员控制机器人来点燃火柴和蜡烛。
- 通过这类数据，他们可以训练机器人执行各种任务。
- 目前，他们正尝试用大规模真实机器人数据开发具身智能。
- 这在当今机器人标准下是“大规模”数据，但相对于未来几年机器人所需的数据量而言，可能微不足道。
挑战重重的洗衣任务：
- Chelsea Finn 谈到训练PI零基础模型来卸载烘干机和折叠衣物。
- 这是她在物理世界中见过机器人做过的最令人印象深刻的事情，同时也是一个极其困难的问题。
- 难点在于衣物形状和位置的多变性，以及长时间任务中可能出现的灾难性失败（例如衣物掉落）和从微小错误中恢复的能力。
- 这个任务机器人需要执行约10分钟。
从简单到复杂：
- Chelsea Finn 团队从最简单的任务开始：机器人能否折叠一件单尺寸、单品牌的衬衫。
- 他们通过远程操作收集数据，并使用模仿学习训练策略。
- 模型参数约为100 million个，将机器人摄像头的图像映射到机械臂的关节目标位置，并以50Hz的频率控制。
- Physical Intelligence公司于2024年3月中旬成立，几个月后，他们就能相对可靠地折叠单尺寸、单品牌的衬衫。
- 随后，他们将问题难度逐步提高，从桌面平铺的衬衫到揉皱的衬衫。
  - 这使得任务难得多，早期尝试中，成功率常常是0%。
  - 直到去年6月底，才出现初步进展，机器人能展平并较好地折叠衬衫，但仍不完美，且速度很慢（视频加速8倍）。
- 进一步的挑战：将衣物从洗衣篮中取出，并引入不同尺寸的衬衫和短裤。
  - 机器人再次表现挣扎，许多测试中成功率仍为0%。
  - 他们曾考虑多种解决方案：机器人需要记忆、训练更长时间、在末端执行器空间控制、校准问题、更多数据信息、引入层级结构、更高分辨率图像、数据收集干预等。
  - 经历了2到3个月的失败。
突破性进展：预训练与后训练相结合：
- Chelsea Finn 团队发现了一个关键突破：他们从语言建模中获得启发，不只是在所有数据上训练策略，而是先在所有数据上进行预训练（pre-train），然后在一个经过精心策展的、高质量的示范数据集上进行微调（fine-tune）。
- 当他们这样做时，机器人能够取得进展，更可靠地折叠衣物。
- 2024年9月，机器人首次能够连续折叠5件衣物并堆叠起来。这需要20分钟来折叠5件衣物。
- 尽管仍不完美，例如蓝色衬衫尝试折叠了7次才成功，以及出现其他失败模式（如将衣物推到桌角并掉落）。
- 他们继续迭代策展策略，将折叠5件衣物的时间从20分钟缩短到12分钟。
引入Polygeemma模型与视觉语言模型：
- 之前模型仅在洗衣数据上进行预训练和微调，并未利用社区中的预训练模型。
- Physical Intelligence的其他成员正在开发一个在所有机器人数据上训练的预训练模型。
- 他们引入了一个开源的、3 billion参数的Polygeemma视觉语言模型。之前他们使用的模型参数量在100 million到300 million之间。
- 这个模型将机器人图像和语言指令作为输入，并预测未来50个动作（约1秒），使用流匹配方法输出连续动作。
- 通过将这个预训练模型与他们开发的后训练配方结合（在所有收集到的机器人数据上进行预训练，然后在策展数据上微调），机器人性能进一步提升。
- 左侧视频显示机器人能以9分钟完成5件衣物，比之前的12分钟更快。右侧视频测试了新衣物，折叠多件衣物也效率很高。
- 折叠质量也更一致，因为使用了参数量大10倍且见过更多机器人数据的模型。
模型泛化能力亮点：
- 处理未见过的短裤：机器人能触及短裤底部来展平。
- 处理V领衬衫和带纽扣的衬衫：即便训练数据集中没有这些类型，也能折叠，显示出对不同衣物的泛化能力。
- 处理中断：Michael干扰机器人时，机器人能继续完成任务，甚至在Michael多次展开衣物后，机器人也能恢复并纠正错误。
定量验证预训练与后训练配方：
- Chelsea Finn 团队比较了三种情况：
  - 预训练 + 后训练配方
  - 未使用预训练，仅在策展数据上训练
  - 未使用后训练，在所有数据上训练
- 结果显示，预训练 + 后训练配方性能显著更高，能可靠地展平并折叠物体。
- 而省略预训练和后训练，机器人只能勉强从箱中取出物品，进展甚微。
配方的通用性：
- 这个配方不仅限于洗衣，还成功应用于其他任务，如清理桌面、将咖啡豆舀入研磨机、以及用火柴点燃蜡烛。
- 这体现了基础模型的优势：无需从零开始，可以利用跨多个机器人和任务的预训练知识。
- 该配方也成功应用于其他公司的机器人，即使Physical Intelligence不完全了解其控制方式和动作表示，也能通过在其数据上微调来控制机器人泡咖啡。
本部分总结：
- Chelsea Finn 强调了独立开发后训练和预训练并解耦问题的重要性，最终取得了两者的最佳效果。
- 她指出，对于复杂任务，在所有数据上训练并不奏效，而预训练和在策展数据上进行后训练会带来更好的性能。
- 通过逐步解决洗衣任务（从折叠单件衬衫到更复杂的版本），他们分解了这一难题。

机器人模型在新环境中的泛化能力

Chelsea Finn 提到一个局限性：机器人通常在训练环境中进行测试，这意味着需要大量数据在特定环境中收集和部署。
- 但未来应用场景中，机器人需要适应从未见过的新环境。
解决方案：收集多样性数据：
- 从机器学习中学到的经验是收集多样性数据。
- 他们在旧金山的不同家庭以及各种模拟厨房和卧室中收集了机器人数据。
- 数据集中包含了100多个独特的房间。
- 这些多样化的移动操作数据，包括低层动作预测和高层子任务指令，构成了更大的预训练混合数据的一部分。
- 之前收集的静态操作数据（在办公室、实验室、网页数据和高层指令数据）也包含在内。
- 值得注意的是，卧室和厨房整理的移动操作数据仅占整体预训练混合数据的2.4%。
- 这表明可以基于现有成果，无需从头开始收集所有数据，就能启动新任务或新机器人应用。
语言理解的挑战与改进：
- 早期模型存在挑战：会忽略语言指令。例如，被要求拿起切菜板，却拿起盘子。
- 解决方案：通过阻止随机初始化的扩散头对VLM主干的语言遵循能力造成退化，预测符号化动作（tokenized actions），并阻止梯度。
- 这样做的结果：训练更快，语言遵循率从20%大幅提升到80%。
在未知环境中的测试：
- 团队租用了3个从未去过的Airbnb进行测试。
- 机器人成功地在厨房中执行了关闭橱柜、收碗碟（即使是没见过的碗碟）、清理溢出物等任务，在卧室中整理床铺等。
定量分析数据多样性的帮助：
- 排除实验室静态机器人数据会显著降低性能，在全新家庭中的评估表现低于60%。
- 使用完整预训练混合数据能提升20%以上性能。
- 增加数据中代表的家庭数量会提高性能，达到在目标环境中训练的相同水平，表明泛化差距基本弥合。当前的瓶颈在于提高可靠性和性能，而非增加更多多样性数据。
当前模型失败模式：
- 成功率约为80%，仍有很大改进空间。
- 例如：将物品放入抽屉未完全放入但认为完成，开车碾过衬衫后被卡住，拾取薄的、紧贴台面的切菜板困难。
- 最有趣的例子：被告知将锅铲放入抽屉，却打开了烤箱，因为它认为烤箱像抽屉。
其他挑战：速度、部分可观测性、长期规划。
本部分总结：Chelsea Finn 强调，通过多样性数据，机器人能在从未到过的环境中遵循各种指令，这是机器人领域的重要进步。

机器人响应开放式指令的能力

Chelsea Finn 指出，当前模型的指令集相对有限。
- 借鉴其他AI技术（如LLM）的部署经验，用户喜欢定制和告诉机器人他们想要什么。
- 因此，能否让机器人像语言模型那样响应开放式提示和插话？
分层视觉语言动作模型（VLAH）：
- 高层策略将复杂提示分解为中间的口头响应和原子语言指令。
- 例如，“你能给我做个三明治吗？”会被分解为“拿起一片面包”等子任务。
- 低层模型执行这些原子指令并预测目标关节角度。
- 挑战：难以收集大量真实机器人与人类交互数据来处理开放式语言，也难以扩展。
解决方案：生成合成数据：
- 利用语言模型重新标注现有机器人数据，并生成假设性的人类提示。
- 例如，对于机器人拿起Kit Kat的视频片段，询问视觉语言模型：人类可能提出了什么提示导致了这种情况的发生。
- 用这些合成提示来训练高层策略，以增强机器人数据，使其包含各种可能导致不同情况的人机交互。
成果：
- 机器人能够遵循各种提示：
  - 被要求“你好，机器人。你能给我做个火腿芝士三明治吗？”机器人会回应“当然，我先放面包，然后放火腿和芝士”，并分解为子任务。
  - 能处理更复杂的提示，如“你好机器人，你能给我做个纯素三明治吗？但我不喜欢酸黄瓜。”机器人能决定添加生菜和番茄，不添加酸黄瓜、芝士和肉。
- 处理插话和情境化纠正：
  - 例如，机器人正在为用户取物品，用户插话“给我一些不在篮子里的甜食”，即便机器人刚把一个Kit Kat放入篮子，它也能回应“好的。我给你拿些Skittles”，并进行基本推理来满足用户请求。
与现有基础模型的比较：
- 团队评估了现有基础模型作为机器人高层规划器的效果。
- 结果显示，这些模型遵循指令和在任务上取得进展的性能远低于Physical Intelligence的系统。
- 这些“前沿模型”在机器人相关的视觉理解方面普遍存在不足，因为它们通常不针对物理应用，且在物理世界数据量很少。
本部分总结：Chelsea Finn 强调，通过利用语言模型生成的合成数据，机器人能够响应开放式提示和插话，这是机器人适应更复杂交互的关键。

行业前景与挑战 (Q&A)

听众提问1：关于后训练中高质量行动数据的构成以及强化学习在后训练中的作用。
- Chelsea Finn 回答：
  - 高质量数据成分：数据的一致性、遵循策略的一致性，以及机器人能否高效、可靠地完成任务。
  - 强化学习可以在后训练中发挥巨大作用，来自机器人的在线数据可以显著提高成功率，并提高效率。
听众提问2：Physical Intelligence如何为折叠衣物和处理碗碟的机器人吸引融资。
- Chelsea Finn 回答：
  - 他们不只关注家庭应用，而是更广泛的具身智能问题，家庭应用只是易于取得进展的起点。
  - 他们还执行过插入以太网线和构建纸箱等任务。
  - 该技术在各个领域都有巨大潜力，不限于家务，家务本身也有巨大市场。
  - 他们在融资方面没有遇到挑战，机器人公司普遍受到关注，因为技术开始真正奏效。
  - 她本人在10多年前就开始从事这项技术，当时效果不佳，但现在技术已开始成熟并走向真实世界，吸引了大量资金。
听众提问3：VLM与世界模型的交互，以及部署模型所需的基础设施层。
- Chelsea Finn 回答：
  - VLM可以自然地融入world model目标，例如预测中间子目标图像，并以此预测动作。
  - 但世界模型仍有挑战，特别是数据无法完全反映使用方式，模型可能出现幻觉。
  - 基础设施方面，短期内最重要的进步是实时系统（确保动作执行频率，避免延迟）和大规模机器学习基础设施（训练大型模型，摄取海量多模态数据，如视频、动作、语言片段）。
听众提问4：模型大小（小模型+数据库 vs 大模型）的选择。
- Chelsea Finn 回答：
  - 检索式系统在技术上难以实现。
  - 模型有时会忽略检索内容，试图自行生成。
  - 这取决于具体应用场景，但目前在技术上很难明确如何划分工作。
  - 模型本身也需要一定的智能才能有效利用检索信息。这是一个引人入胜但需要大量研究的研究问题。
听众提问5：构建具身智能的软硬件演变中，对构建者的最大机会。
- Chelsea Finn 回答：
  - 改进机器人基础设施是重要机会，这方面开源代码不多，许多人未关注。
  - 开源社区的巨大机会：收集数据、开源模型、修复bug、微调模型、探索新微调配方。
听众提问6：合成数据synthetic data在机器人领域的未来。
- Chelsea Finn 回答：
  - 真实数据（real data）是不可替代的，大规模真实机器人数据是任何通用系统必备的组成部分。
  - 模拟数据和合成数据在评估中尤其有用，例如在10个新环境中评估模型泛化能力时，模拟环境比真实环境更容易。
  - 语言模型中合成数据的类比，在机器人领域更接近强化学习，即模型通过自身尝试学习和改进，这种在线数据在后训练中将发挥关键作用。
听众提问7：学术界和工业界在机器人硬件研究上的差异。
- Chelsea Finn 回答：
  - 学术界的资源（数据收集吞吐量、评估吞吐量、计算能力）通常不如初创公司和工业实验室。
  - 但学术界可以在资源有限的情况下解决算法问题。
  - 工业界则适合在大型模型、大规模数据上进行研究。
  - 两者都很重要，差距并非想象中那么大。
  - 资源过多也可能有弊端，可能导致计算资源浪费，不如资源受限时思考更谨慎。
听众提问8：VLM架构在物理感知方面的局限性。
- Chelsea Finn 回答：
  - 他们通过fast tokenizer论文中提到的方法对动作进行标记化（tokenized actions）来解决。

#physical_intelligence #general_purpose_robots #foundation_models #embodied_AI #robotics #data_curation #pre_training #post_training #synthetic_data #laundry_folding #generalization #open_ended_prompts #reinforcement_learning #robot_infrastructure #VLM #world_modeling #large_scale_data #robot_learning #human_robot_interaction #AI_applications