首页 / 科学普及 / 科普知识

具身智能走进现实,还要攻克哪些技术难关?

2026-06-09 科普知识

机器人打乒乓球、搬运货物、在流水线上精准操作零件……这些画面已经不再是科幻电影的专属。今天,具身智能正以肉眼可见的速度从实验室走向现实。

但另一面是:许多机器人走一段路就发热停机;灵巧手做不了扣纽扣这种精细动作;一旦让它执行超过十几步的连续任务,系统就开始出错。

image001.png

在热潮与振奋之外,有一些真实的挑战需要被看清楚。

挑战一:数据,具身智能的“粮荒”

数据,是现代AI的根基。大语言模型依赖海量文本训练,图像识别模型依赖海量图像标注。但具身智能所需要的数据,远比这两者更难获取。

具身智能需要的是“具身数据”——机器人在真实物理环境中与世界交互的过程记录:手部的力度变化、摄像头捕捉的三维空间信息、每一步动作与结果之间的对应关系。这类数据无法从互联网上简单下载,每一条都需要通过真实的机器人操作来采集,成本极高。

现有的高质量机器人操作数据集,与训练大语言模型所用的文本数据相比,规模仍相差数个数量级。如何高效采集、合理利用人类示范数据,以及通过仿真平台生成高质量合成数据,是具身智能数据问题的三条主要出路,但每条路都仍在攻关之中。

挑战二:环境认知——真实世界太“乱”

实验室里的机器人往往表现优秀:环境干净、光线稳定、物体摆放可预期。但真实世界是截然不同的,光线随时间变化,物品被随意移动,地面高低不平,人群拥挤嘈杂。

image003.png

具身智能面临的环境认知挑战,主要体现在三类场景:

不确定性复杂场景:外部条件的随机变化,可能使训练好的模型在部署后完全失效。一扇突然打开的门、一个突然出现的儿童,都可能成为“超出分布”的意外输入。

非结构化环境:工厂的流水线是高度结构化的,但家庭、医院、户外场所是非结构化的,没有固定规则,物体形态千变万化,机器人需要更强的泛化能力才能应对。

未知场景的迁移:一个在某一环境中训练好的模型,到了新环境往往需要重新适应,甚至重新训练。如何让具身智能真正具备“举一反三”的能力,是根本性难题。

挑战三:决策规划——长任务会“崩溃”

“把冰箱里的苹果拿出来放到桌上”,这个任务对人类是举手之劳,但对机器人却意味着:找到冰箱→判断门的位置→拉开门(手部力度控制)→扫描内部→识别苹果→伸手抓取(避开其他物品)→取出→关门→找到桌子→放下。十几个子任务,任意一步出错,整体就会失败。

目前的大模型在处理长序列任务时,往往会出现“累积误差”,前期的小偏差在后续步骤中不断放大,最终导致任务失败。如何让机器人在漫长的任务执行过程中保持稳定,维持上下文理解而不“崩溃”,是当前具身智能的核心技术瓶颈之一。

此外,自主因果关系的发现(机器人能否理解“推这个会导致那个倒”这类物理因果逻辑)、不只是执行模式匹配以及持续学习能力的开发,也是决策规划层面亟待突破的方向。

挑战四:高效执行——硬件跟不上智能

即便AI算法足够聪明,物理层面的执行效率仍然是瓶颈。

驱动系统:现有电机和驱动器在能量密度、响应速度、小型化方面还有较大提升空间。许多机器人运行一段时间后就发热明显,续航也成问题。更高能量密度、更小型精密、刚柔结合的新型驱动系统,是执行层的迫切需求。

灵巧手:人类手指能轻松完成扣纽扣、穿针引线、捏鸡蛋等极精细的动作,这些动作要求在毫米级的空间内进行毫牛顿级的力控操作。目前的机器人灵巧手,在这类精细操作上仍有相当大的差距。如何设计更接近人手自由度和感知精度的仿生结构,是硬件领域的重要攻关方向。

image005.png

挑战五:其他系统性问题

除了以上四类核心挑战,具身智能在走向大规模应用的过程中,还面临一系列系统性问题:

评估基准:如何公正、全面地衡量一个具身智能系统的能力,目前仍缺乏统一的测试标准,使得不同系统之间的横向比较困难。

系统安全:在工厂、医院、家庭等与人密切接触的场景中,具身智能系统的可靠性和安全性必须达到极高标准。因为一次抓取力度失控或路径规划失误,都可能造成人身伤害。

image007.png

集群控制:未来大量机器人协同工作的场景,需要高效的多机调度和协作机制,这既是技术问题,也是系统架构问题。

人机协同:如何让机器人真正理解人类意图、以自然的方式与人合作,而不只是执行指令,是具身智能走进日常生活的关键一环。

在热潮中保持清醒

当下,具身智能正处于一个令人兴奋的快速发展期:大模型赋予了机器人前所未有的语义理解能力,传感器技术的进步让感知更加精细,仿真平台的完善降低了训练成本。

然而,从实验室演示到真实场景的大规模部署,这中间仍有相当的距离。数据的匮乏、环境的复杂、任务的连贯性、硬件的局限,每一项都需要长期的、耐心的、跨学科的硬核攻关。

正视挑战,才是具身智能加速突破、走向通用化应用的起点。

(本文系浙江大学教授、博士生导师、浙江大学具身智能感知与控制实验室(ZEAL Lab)负责人、中国仪器仪表学会科普专家、浙江省仪器仪表学会监事长侯迪波在“智感世界·仪创未来”系列科普直播之从感知到控制:读懂具身智能新科技的主题分享,光明网记者肖春芳整理)

转载:光明网https://share.gmw.cn/kepu/2026-06/05/content_38813405.htm