何为智能化工业机器人？清华大学副教授徐静从机器人感知、力位控制、强化学

何为智能化工业机器人？清华大学副教授徐静从机器人感知、力位控制、强化学习三方面说明【附PPT】：前言：智能化的工业机器人应具备感知、控制和学习能力以应对环境的非结构化和不确定性问题。

整理| 符号

编辑| Sunny

机器人大讲堂直播间 064期

机器人大讲堂特邀清华大学机械工程系徐静副教授做客直播间，分享工业机器人先进技术及其应用。徐教授在本次分享中，介绍了一种高精度的三维感知，此种机器人感知实现了操作目标三维形貌的实时精确重构；同时，还介绍了一种强鲁棒的力位控制，并且针对高效率的技能学习，介绍一种小样本的技能学习方法，以实现机器人复杂操作参数的自适应优化调整。以上技术均已成功应用于我国多个高端装备制造业。

本期分享要点如下

《工业机器人现金技术及其应用》

机器人发展史
高精度的三维感知
强鲁棒的力位控制
高效率的技能学习
典型的工业应用案例

以下内容根据徐静教授直播分享实录整理。

一、机器人的发展史

可编程机器人最早诞生于1954年，随后的六七十年代德国日本等劳动力短缺，机器人凭借示教再现和重复作业得到了大量应用特别是在汽车工业中，此后机器人进入快速发展的八九十年代，期间的机器人已具备感知和反馈能力，到如今具有逻辑思维和决策能力的机器人正伴随制造业升级进入了机器换人的智能化阶段。

目前，机器人应用最多的就是汽车行业，其生产制造中的焊接、装配、喷涂和检测等工序都可以通过机器人实现。在这样结构化的生产环境中，机器人只要具有良好的伺服电机、高速减速器和控制器就能满足高重复精度的要求。但是，在跨尺度超限制造的场景中，如高铁打磨、飞机制孔、电脑装配等，要求机器人精度高且柔顺性好。相较之人工眼疾、手巧、脑聪的操作特点，工业机器人在三维感知、力位控制和快速技能学习方面仍然有明显的不足。

工业机器人与操作对象其实就是力与位置的交互，在此过程中机器人需要快速感知决策，甚至需要部分技能学习，然后将期望轨迹通过对下位机的控制来实现，此时仍需要机器人具备强鲁棒的力位控制。

二、高精度的三维感知

实时的三维感知是工业机器人智能操作的前提，也是在线检测与质量评估的重要手段，在强扰动工况下需要机器人具备高速度、高精度、高分辨率的三维感知，同时在复杂的环境下，可满足变物距、变反射率、高反射率等复杂光学特性下的感知。

1、不同短距离传感器对比

首先通过基于机器人的对比实验平台对比了目前不同类别传感器的精度：

通过对比得知，随距离和光照变差，投影测量的测量精度是优于立体双目视觉和飞行时间的。针对工厂中弯角零件，飞行时间法测量精度更容易受到多次反射而影响。

紧接着从精度、测量范围、空间分辨率和计算效率展开对比可以得出，条纹投影具有空间分辨率高精度高、可在无环境光条件下工作、能测量无纹理和反光物体的优点，但同时存在强环境光下测量出现点云缺失、透明物体测量出现点云缺失等不足。

2、高分辨率三维视觉

类比人眼的高分辨率，我们同样需求一款不仅具有高精度而且还有高分辨率的传感器，因此开发了基于条纹投影的三维视觉传感器，其原理是通过投影物体的正弦波：

相比人眼的自动调焦，传感器的在面对远近物体时无法快速的物理调焦，因此开发一种基于投影的软调焦方法，达到虚拟调焦的效果。

通过对相机光学传播机理的研究可以得出，三维感知精度与频率的关系是非单调的，最优频率依赖于散焦核，而散焦核与景深相关。

基于这个理论基础，那么就可以通过改变投影条纹的频率，根据物距不同动态的调整条纹周期，最后呈现出软调焦的效果，从而提高了成像精度。

3、高适应性三维检测

正如我们所知，人眼是会根据亮度调整通孔的大小，那么传感器则可通过软件方式实现自动调节通孔即光圈，针对过曝区域，通过调节投影就可以少投射光，欠曝区域可多投射光。

那么针对强环境光照条件和暗色、反光、透明物体等复杂光学特性，传感器还是不能够进行完整的三维重建，那么此时通过数据学习利用光照、材质信息对比反投影的结果不断修正，直至满足条件为止。

基于点云深度学习的多视角三维重建深度预测精度可以通过迭代优化生成分辨率更高、含有更多细节的点云。

三、强鲁棒的力位控制

大型装备的尺度远大于机器人作业空间，机器人需要通过龙门或导轨的方式移动到多个站位进行作业；同时其尺度大、刚度低、装配复杂，对机器人的控制参数提出了高要求。这就要求我们首先需要研究大尺度空间中高精度定位、调姿方法，提高作业精度和效率，其次是研究多接触状态下机器人力控参数调控方法，实现多轴孔零件装配。

1、大型机器人运动学标定与误差补偿

工业机器人标定过程一般为建模、测量、辨识和补偿，但对于大型机器人测量仪器本身误差同样需考虑在内。在此以激光跟踪仪为说明，其角度测量误差远远大于长度测量误差，为更好发挥测量仪器优势，可以对此测量仪器进行位姿与误差建模。

那么针对测量仪器的误差，在大型机器人标定时就要考虑此部分误差，通过将空间每个位置进行角度加权进一步提高测量精度，进而选择测量精度高的姿态进行标定。

经过仿真和实机试验，可以认为加权筛选法标定结果的末端姿态标准差与位置标准差都比普通最小二乘法减小约20%，更小的标准差反映了更高的标定精度和稳定性。

2、三维点云的快速配准

除了利用龙门、导轨等方式，机器人还可通过自主移动装置实现空间移动，那么自主移动机器人怎么实现空间定位呢？这就需要通过将测量仪器看到的局部信息与全局信息配准后实现。传统的方式是通过标志点，但在复杂环境中无标志点的配准具有较高的工作效率，如何快速配准测量局部点云与全局CAD模型?

在众多几何特征中，与坐标变换无关的特征是曲率，单个曲率特征不具备唯一性，那么通过建立多尺度的曲率特征就可确定在全局中的位置。利用局部几何特征向量跟全局几何特征进行快速配准，从而确定局部特征的位置。

3、基于条纹投影的伺服运动控制

除了定位，在机器人中另外一个重要过程就是调姿，面对弱纹理的物体，采用传统的视觉伺服进行被动调姿结果可能会造成调姿错误等问题。那么在没有特征的场景中能不能加一下特征呢？

可考虑采用投影的方式，虽然没有明显的视觉特征但是由于几何特征不一样，经过投影可以得到不同的条纹，利用条纹的不同可解决在弱纹理场景下视觉伺服的问题。

在此过程中，一方面物体表面形状的变化会带来条纹的变化，另一方面物体的运动也会带来条纹的变化，我们考虑采用域流约束进行解耦，这样可通过传统视觉伺服的方法，将期望的相位和实时的相位进行比较，实现机器人高速的姿态调整。

四、快速度的技能学习

在机器人自主操作任务中，对操作的精度和安全要求高，同时真实的物理空间中学习试错成本远高于虚拟信息空间，对采样效率提出了高要求。那么在此首先需要研究基于隐空间的操作技能的物理表征，实现对机器人运动的定量描述；再者研究基于引导机制和数据增强的技能学习，提高机器人技能学习的安全和效率。

1、机器学习的解释与表征

在信息空间，机器人往往是基于图像的学习，但与图像中的高维表达不同，机器人需要每个表达都具有精确物理意义，那么在此场景下如何利用小的样本量进行运动空间的物理表征呢？

传统方法获得的小样本中，带标签的样本较少，无标签的样本较多，那么我们利用带标签的样本形成样本空间骨架，将无标签样本通过结构信息平滑样本空间的细节，从而得到符合要求的高维空间到低维空间的映射。

2、无模型强化学习的操作技能学习

众所周知，婴幼儿自我学习过程需要家长不断的引导，那么机器人的自我学习同样需要引入引导机制，让机器人既能保持安全性又能学习丰富的技能。同样在减负方面，可以通过样本信息分析提高机器人的学习效率，减少实际环境损耗。

机器人的学习类似人类行为的学习，在此过程中我们先利用专家控制器进行引导，此部分为先验知识，另一方面是机器人本身强化学习的策略，二者通过某种运算达到既能高效学习，又可保证安全性，避免无用探索。

针对工业机器人，在基于位置控制的方式下，我们采用了力位混合控制器，通过学习动作网络输出的参考动作值用于修正专家控制器输出的基本驱动指令，从而保证机器人的安全性和可靠性。

在学习过程中，我们尽量减少学习样本，这就要求机器人减少与环境的大量交互，那么怎么让机器人通过有效的引导实现在少量交互下的有效探索？奖励函数的设计是强化学习中常用利用先验知识的方法，精确的奖励函数可以提高学习效率但是会限制探索的效率。在此我们设计了模糊奖励系统，该系统可结合先验经验，也可结合多种反馈信息，都可提高学习效率。

3、基于变尺度预测的强化学习

在专家系统引导下，怎么充分利用数据这就涉及到数据增强方法了。数据增强用于解决实际机器人场景难采样问题，利用存储的数据学习环境的预测模型生成模拟数据代替环境交互更新策略。

传统的基于数据增强的强化学习方法存在一些问题，如环境的动态模型学习大多是单步模型，误差易被累积；还有环境动态模型应用效果极其依赖拟合模型的准确性。那么如何学习变尺度预测以减小累积误差并且以实用的方式利用预测信息呢？

变尺度预测实际是来调整阻抗参数，在预测过程中利用泛化值函数预测与操作相关的参数，进一步通过调整衰减因子达到变尺度的目的。

4、高级层级强化学习

针对机器人复杂的操作技能，将这些复杂的技能分解成若干个简单的操作，这就是层级策略。层级策略能有效提高探索效率，高层策略学习高于执行动作的抽象动作称作“选项”，底层强化学习策略学习从环境状态到执行动作之间的映射给定子目标或子状态空间。

那么层级强化学习面临着哪些挑战呢？

如何学习层级策略利用离线策略（提高学习效率利用存储的样本）？
如何训练高层策略无需附加的先验信息？
如何训练全部底层策略利用离线样本数据？

解决方案：

设计一种增强型MDP框架，高层MDP表示选项动作的变化，底层MDP依赖于输入的选项。
在高层策略的训练中，选项的变化周期确定为定值代替了现有工作中的终止函数
在底层策略的训练中，一个附加的选项网络用于根据样本选择要训练的底层策略（减少离线策略样本的影响）

5、验证：以“机器人多孔装配”为例

仿真验证：

实验验证：

五、代表性应用案例

在一些大型装备中需要进行精密制孔操作，对于自由曲面工件的制孔，我们开发了基于条纹投影的方法，能够实现对任意自由曲面工件进行钻孔，在大曲率边界或复杂曲面进行调姿。

- END -

私信我可获得本次直播完整版PDF及直播回放链接。