具身智能 任重道远
来源: AI云原生智能算力架构
作者:sora
一、具身智能发展所面临的挑战
具身智能被誉为是实现通用人工智能的重要路径。具身智能在感知与认知、学习与泛化、计算能力、多任务处理、安全性、隐私保护以及人机关系等多个方面都面临着挑战。
(一)技术挑战
算法层面: 身智能在实现通用智能时面临两大根本性挑战。具身智能的目标是具备通用智能,即能够自主学习如何在各种场景和任务要求下执行任务。然而,现在的具身智能研究大多是将大模型的智能塞进机器人中,这仍是学习人类知识和经验的过程,缺乏自主产生意图的能力,也难以快速适应环境变化。
一是系统需要人类智能的介入。目前的学习系统本质上仍是一个开环系统,需要人类根据学习结果,有针对性地采集更多更好的数据,调整数据的概率分布,反复迭代优化奖励函数等来实现闭环,YannLecun 将目前的机器学习系统描述为“辅助智能(AssistedIntelligence)”,而实现通用具身智能需要的是“自主智能(Autonomous Intelligence)”。
二是尚未实现感知到行动间的认知映射。感知和行动需要紧密相连,才能快速应对不断变化的环境。
《Thinking,Fast and slow》这本书中提到了人类思维的两种模式,即系统1(快思考)和系统2(慢思考)。系统1负责实现快速的反应式自主控制,而系统2负责实现需要慎重思考、推理分析的有意识的决策。人脑高效运作的原因在于,95%的时间在调度系统 1,只有很少的任务需要调度系统 2。而目前具身智能的智能增益主要在于系统 2,也是由大模型主导实现的思维推理能力。
从感知到行动的认知映射涉及物理概念理解、感知预测、行为推理等,也需要构建感知输入与行为输出的关联。目前业界从世界模型、扩散策略、脑神经科学等角度开展了相关研究,但仍未完全解决这一难题。
数据层面: 缺乏数据成为具身智能能力突破的重要壁垒。与大模型所依赖的互联网数据不同,EAI所依赖的数据涉及动态环境中的复杂交互,这使得收集数据成为一项昂贵且具有挑战性的工作。EAI的数据来源,一方面,通过真实数据收集,例如遥操作、观察学习人类等技术路线,面临一是获取广泛、高质量和多样化的数据挑战。
机器人在不同环境中的适应和泛化能力取决于其处理数据的多样性。例如,家庭服务机器人必须适应各种家庭环境和任务,要求它们从广泛的家庭环境数据中学习,以提高其泛化能力。二是获取大量真实数据成本过高。
例如,为自动驾驶汽车捕获一小时的多模式机器人数据的成本为 180 美元,是模拟相同数据的成本的100倍37。另一方面,则是合成数据,例如通过提供虚拟仿真环境,机器人可以在各种条件下进行模拟操作;或通过算法和数学模型创建的,模拟真实数据中的统计模式和关系。
合成数据主要面临“现实差距”--即模拟环境与现实世界之间的差异挑战,包括物理、光照和意外交互的差异,在需要高度真实交互的场景中,如精密操作、复杂环境导航等,仿真环境通常无法满足需求。
软件层面: 软件生态与硬件结合成为具身智能能力提升的关键挑战。具身智能系统的软件不仅要能够高效地处理和解释由硬件传感器收集的数据,还要能够与硬件平台紧密集成。
一是缺乏统-的操作系统和标准化软件开发工具链,目前市场上存在多种机器人操作系统,如 ROS 或基于 Linux自行开发等,由于采用了大量开源组件,常会出现兼容性或版本升级导致系统不可用的情况,增加了开发难度,带来开发时间和成本的增加。
二是算法成熟度不高,尽管AI 算法有所进步,但在实际应用中仍面临挑战。例如,在3D场景中的情景问答(SQA3D)任务中,当前最先进的模型也只能达到约47.20%的准确率,远低于人类的 90.06%8。
三是软硬件解耦难题,硬件在移动空间需要做到厘米级别,手眼协调的空间做到毫米级别,具身智能模型才能够实现动作控制算法与产品形态的紧密耦合。
硬件层面: 耐用性和能源效率以及与软件的深度集成需求构成了具身智能硬件发展的主要障碍。具身智能硬件的发展不仅需要技术上的突破,还需要考虑成本效益、维护升级等多方面因素。
一是耐用性和可靠性挑战。具身智能硬件载体需要在多变的环境中稳定运行,这对机械部件的耐用性提出了高要求。当前机器人在复杂环境下的故障率仍然较高,维护成本也相对较大。
二是能源效率问题。电池技术的能量密度和充电速度限制了机器人的持续工作时间。当前,机器人可能仅能连续工作数小时,之后就需要充电。例如,Figure01续航时间5 小时,优必选 Walkerx装续航时间2小时。
三是硬件需要与软件系统深度集成,以实现高效的数据处理和精确控制。例如,自动驾驶汽车需要将传感器收集的数据实时传输给控制系统,这要求硬件具备高速数据传输能力和与软件的无缝对接。
(二)应用挑战
产品层面: 产品形态的合理性和内部硬件系统结构,会影响具身智能的行动能力边界。具身智能在真实世界中的落地应用,需要构型合理、兼容性高、接口丰富、运动能力良好且可靠性高的机器人产品。
一是通用且强大的具身本体挑战。
具身智能的产品研发需要兼顾芯片算力供给和经济性、通信总线的交换效率、运动功耗等各项指标。例如在需要连续工作的场景,本体的电池续航能力很重要。
在实时性和可靠性要求高的场景,对云端通信的效率和本体侧芯片推理能力有更高要求。在执行操作任务的场景,需要本体形态有着更高的灵活度和自适应调节能力。在野外等复杂环境中,可能会遇到滑倒或从高处跌落的情况,要求本体具备更高的抗击打和抗冲击能力。而实现这些不仅需要对具体场景的需求有深入理解,也面临将本体的执行可靠性、任务效率和成本控制做到平衡这一巨大挑战。
二是内部软硬系统的紧密耦合挑战。
随着具身智能基础模型的多模态和泛化能力提升,具身智能的行动能力也获得改善,但大多仍需结合复杂动作控制算法执行复杂任务。动作控制算法与产品硬件是紧密耦合的关系。产品内部硬件系统结构,会影响具身智能的行动能力边界。例如,波士顿动力Spot 四足机器人搭载先进动作控制算法,使其能够在复杂地形中行走但它的硬件设计限制了它在需要精细操作或与人交互时的能力,使得Spot机器人擅长在户外巡检,但使用工具灵活不足。
商业场景层面: 市场需求的明确性和用户接受度会影响具身智能的商业应用进程。具身智能虽然潜力巨大,但具体应用场景和商业模式不够清晰,面临:
一是场景差异化和开放度挑战,服务、生产、消费等各种场景都可能成为具身智能的潜在应用领域。然而当前的大规模商用还需要选择容错度较高的环境,且用户买单能力比较强的场景市场需求的甄别和预测成为商业落地的首要难题。
二是用户接受度和信任建立的挑战,用户对具身智能技术的接受程度和信任感需要建立和维护,这对于技术的成功商业化至关重要。例如,在医疗领域,尽管机器人手术系统如达芬奇手术系统能提供高精度手术操作,但患者和医生对机器人手术的接受度和信任仍在逐步建立过程中,这限制了其广泛应用。
三是安全与隐私问题,在数据隐私方面,通过机器人的摄像头、麦克风等传感器设备,收集用户的个人信息和行为数据,如语音指令、生物特征数据等,带来数据安全隐私问题;在物理安全方面,机器人具有较高的动力和运动能力,因此可能对周围人员和环境造成伤害。系统安全方面,入侵者可能通过篡改指令、控制机器人、窃 听敏感信息等方式对机器人进行远程操控,从而对用户造成威胁。
图5 具身智能产业链示意图
产业链层面: 产业链条的完整性和各环节之间的协同效率,影响具身智能产业的持续发展。
如图5所示:
上游: 硬件迭代周期与成本跟不上软件或算法模型的迭代速度。在具身智能本体技术的关键领域和价值链条中,核心技术壁垒主要围绕三大核心组件展开: 减速器伺服系统以及控制器,在机器人整体成本结构中占比六到七成。三大核心组件行业面临精度、稳定性、计算能力等挑战,影响上层软件的运动控制指令以及对更多精准大规模数据的收集能力。
中游: 挑战在于如何开发出高效、可靠的软件系统,以及如何实现软硬件的深度集成。比如,开发能够适应复杂环境和任务的控制算法是一个技术难点同时需要大数据、大模型和大算力的加持,且三个'大’互相关联,缺一不可,还需要不断更新,适应新的任务与环境。
下游: 跨界融合成为应用新挑战。随着具身智能在家庭服务、教育培训、休闲娱乐、医疗保健、生物制造、物流运输、制造业、低空经济、航空航天等行业的广泛应用,个性化定制将成为机器人生成的新模式,跨界融合突破单一领域的应用将成为新的趋势。需要垂直场景探索与通用泛化兼顾
(三)标准与合规挑战
具身智能产业在发展和培育的过程中,面临促发展与安全监管并重挑战。在标准化层面,具身智能技术、评测、安全伦理等标准缺失因涉及跨人工智能、机械自动化等交叉学科技术,安全和伦理问题突出,标准化工作面临系列挑战和难度。
在技术评测标准方面,虽然已有国外 softGym、Habitat 3.0、BEHAVIOR-1K 以及国内 AIIA EAIBench等工作,但具身智能基准测试标准体系仍建设面临数据规模有限和质量不高、需要构建任务活动知识库,模拟真实任务活动情况等问题。
在安全标准方面,因机器人能与现实世界直接进行互动,盗窃或误用可能会产生直接的物理后果,具身智能技术的安全问题包括传统网络安全中不存在的漏洞,安全标准也必须不断发展。
法律与伦理规范层面,具身智能机器人的出现,不仅要考虑生命安全风险,还面临信息安全、个人隐私等一系列伦理和社会学问题。当机器人与人类伦理发生冲突时,如何规范、合理地开发 AI技术、使用 AI产品,以及如何应对人机交互过程中可能出现的社会问题,成为当今时代下必须重视的问题。
需要有相关的监管标准和规范,明确机器人在各个应用场景中的边界和限制。同时,人工智能与机器人技术的进步将带来劳动力变化,扩大技能差距和人才短缺。
2023年3月高盛发布报告称,人工智能可能取代相当于3亿个全职工作岗位,新技术驱动的工作所需技能与当前劳动力所拥有技能之间的不匹配,需要监管和政策更好地应对行业构成和就业模式的转变。