斯坦福团队教机器人系鞋带并发布全球首个相关演示视频,这个机器人(Aloha 2)相比之前的炒菜版机器人能执行更轻巧复杂任务。Aloha 2除系鞋带外还会挂衣服、拧齿轮、收拾厨房、给“同事”换配件等。为训练它,研究团队使用扩散策略收集2.6万个示范数据进行大规模训练,基于模仿学习而非强化学习,其神经网络架构参考ACT模型。
研究人员按特定步骤操作,如给嵌入加位置嵌入等,基础模型有2.17亿可学习参数,小模型有1.5亿参数。训练基于JAX框架在64个TPUv5e上并行,有特定训练参数。最终实验成功率很高,研究人员认为模仿学习很有效。Aloha 2的研究团队由DeepMind和斯坦福小组组成,它是原始Aloha系统的增强版,硬件有改进,团队已开源其所有硬件设计、提供教程和模拟模型用于双手操作研究。