2024,除了大模型继续狂飙外,机器人发展也将迎来高潮。
去年年底,英伟达 " 网红研究员 "、OpenAI 第一个实习生 Jim Fan 发推文称,除了大模型,2024 年最重要的就是机器人,我们距离 " 具身智能 " 的 ChatGPT 时刻大约还有三年时间。
Jim 指出,长期以来,人们深受 " 莫拉维克悖论 "的困扰,这是一种和人们直觉相悖的现象,即 " 人类觉得容易的任务对人工智能来说却极其困难,反之亦然 "。
但是 Jim 乐观地预测,2024 年将成为人工智能界全面崛起反击这一悖论的元年,Jim 表示 " 我们不会立即获胜,但我们将走上获胜之路 "。
同时,Jim 列举了 2023 年关于未来机器人的基础模型和平台的发展:
1、以机械臂作为物理输入 / 输出设备的多模态 LLM:VIMA、PerAct、RvT、RT-1、RT-2、PaLM-E、RoboCat、Octo等。
2、弥合 System 1和 System 2之间差距的算法:Eureka、Code as Policies等。
3、在强大硬件方面取得的惊人进展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree 等。
4、数据一直是机器人技术的致命弱点,研究界正在共同策划下一个 ImageNet,如开放 Open X-Embodiment ( RT-X ) 数据集。虽然数据集还不够多样化,但迈出了重要的一步。
5、模拟和合成数据将在解决机器人灵巧性乃至整个计算机视觉问题上发挥关键作用。
NVIDIA Isaac 可以以比实时快 1000 倍的速度模拟现实,传入的数据流随着计算规模的增加而扩展;
通过硬件加速的光线追踪可以实现逼真的效果。逼真的渲染还带有免费的地面真实注释,如分割、深度、3D 姿势等;
模拟器甚至可以将真实世界的数据扩大,创造更大的数据集,从而大大减少昂贵的人工演示工作。MimicGen是一个典型的例子。