专业 激情 持久 卓越
项目成果科普性介绍

面向服务机器人的视听感知融合与多模态人机交互关键技术

   本项目是来源于国家自然科学基金,题名:面向服务机器人的视听感知融合与多模态人机交互关键技术(NO. U1613209), 起止时间2017.01-2020.12。本项目工作简单总结如下:

1. 主要研究内容、研究方法。
  本项目针对服务机器人在智能人机交互过程中,由于机器人平台的移动性引入的视觉、听觉、深度感知等感知特征的 连续变化面临的复杂性,研究了视觉听觉感知融合和多模态人机交互关键技术。建立支持多模态人机交互的感知-运动“位姿空间” 统一建模方法,提出基于概率增强策略,基于多模态感知信息与三维动态点云技术对物理空间建模并实时更新, 提出基于感知与运动信息结合的高维位姿空间优先映射策略,来优化从物理空间到高维位姿空间的映射。具体来说,主要研究内容包括以下5个内容:
(1) 面向多模态人机交互的“感知运动位姿空间”统一建模方法
    物理空间中的感知信息和运动信息由于自身的不准确,造成了映射到位姿空间的不精准、窄道位置形态难确定等问题。 近两年基于深度学习的方法在计算机视觉等领域得到了快速发展和广泛应用,也被用来拓展应用到场景感知领域, 因此本课题针对物理空间中的运动和感知信息,进行了这两方面的研究: 1)基于有监督学习的视觉里程计和视觉-IMU里程计建模方法;2)2. 基于无监督学习的深度以及位姿估计
(2) 基于视觉听觉融合的复杂交互场景人体目标定位与跟踪
   贝叶斯滤波算法是一种重要的目标跟踪算法,从理论上给出了跟踪问题最优解。贝叶斯滤波算法涉及无穷积分问题,极大的消耗了计算资源。 粒子滤波算法使用一组带权重的随机粒子模拟贝叶斯滤波中目标的分布,从而避免了繁重的积分问题,但同时引入了另一个问题,粒子权重退化, 即少部分粒子占据大部分的权重,这使得过多的计算量浪费在对最终目标状态估计影响几乎为零的粒子上。绝大部分的权重被少部分的粒子占据, 相当于粒子数量的减少,跟踪精确度会随之下降。采用更多数量的粒子在一定程度上能够减轻粒子衰减程度及精度下降的问题,但同时会带来极大的计算负担; 重采样的方法会使得粒子多样性丢失,即多个粒子拥有同样的状态,降低跟踪精度。因此,在不增加粒子数量的前提,如何设置更好的重要密度函数或采用更好的预测函数,以缓解粒子权重退化问题是本课题要研究内容之一。
(3) 基于视听融合的交互对象行为识别与理解
   基于视听融合的交互对象行为识别与理解主要包含三方面的研究内容,即视觉听觉感知特征的融合策略、基于几何与外观时空特征的唇语识别、关键词识别验证方法。
   A.视觉听觉感知特征的融合策:由于语音属于物理意义上的波形信号,因此具有一定的干涉和衍射现象,这些性质决定了语音信号对部分遮挡情形的鲁棒性。 在面向移动机器人的唇语识别任务中,当与机器人交互的人体面部特征无法获取时,可通过语音信号进行线索补充。同时,机器人移动时可能产生的强机械噪声, 可能对麦克风获取的语音信号产生干扰,此时的视觉信息可有效补充语音信号失真带来的语意模糊。 因此,我们提出了基于深度神经网络的视觉听觉感知特征融合策略,在不同的场景下实时选择不同的模态特征进行融合,保证移动机器人平台能正确识别唇语。
   B.基于几何与外观时空特征的唇语识别: 针对唇语识别,我们对三正交平面局部二值模型特征进行改进,并提出形状差分特征和一种新的唇部外观时空特征。形状差分特征是一种几何特征,通过计算唇部区域两两特征点间的距离的变化来描述唇部形状,因此依赖于人脸特征点定位算法。 经过对目前最新最前沿的人脸特征点算法进行充分调研,并选取快速形状回归的人脸特征点定位方法,以获取精确充分的人脸特征点。唇部外观时空描述子是一种纹理特征,用于描述唇部区域的空间外观信息和时域运动信息。为了得到更具有分辨力且更为紧凑的特征表达,我们对低层的直方图特征引入了编码和新的池化机制。 进一步,针对说话人个体外观差异导致的较大类内差异问题,我们采用白化主成分分析的方法对该问题进行有效的解决。
  C.关键词识别验证: 针对音视频关键词识别验证中视觉信息利用不充分和音视频之间不同步的问题,我们对视觉特征提取网络和音视频融合网络进行了改进,并提出了双向同步融合的唇部图辅助的音视频关键词检测识别验证方法。 目前的视觉特征提取方法主要基于唇部图像信息,对光照变换等比较敏感,因此额外的基于形状的视觉特征的引入可以提高视觉特征的鲁棒性,基于此,我们提出了唇部图分支对基于图像的视觉分支进行特征增强,相比于传统的基于形状的视觉特征, 该分支利用唇部特征点之间的自然联系和动态联系对唇部进行建模,从而提取到更具有表征力的视觉特征。考虑到音频流和视频流之间的不同步问题,我们提出双向同步网络来对两个串流进行同步,相比于传统的单向同步对齐网络, 我们的方法可以有效减少对单个模态的依赖,从而实现更鲁棒的音视频融合。
(4) 基于视听与深度感知融合的交互对象唇部运动检测
   本课题建立了一个端到端的唇读模型来处理视觉信息,这个端到端系统由两部分构成,第一部分为进行特征提取的三维卷积神经网络(3-Dimension convolutional neural network,3D-CNN),第二部分为作为识别判别器的多层长短期记忆神经网络。卷积神经网络是一种处理图像信息非常有效的网络, 在计算机视觉领域完全占据了主导地位,但简单的二维卷积神经网络只能得到空间特征,当处理视频等时序问题时,二维卷积网络很难同时考虑到输入信息的空间和时间特性,因而当处理视频问题时,三维卷积神经网络将更为有效。 而循环神经网络是针对训练样本是连续的序列,且序列的长短不一,比如基于时间的序列:一段连续的语音,一段断断续续的手写文字。这些序列比较长且长度不一,比较难拆成一个个独立的样本使用深度神经网络(Deep Neural Network,DNN)或CNN 来训练, 而循环神经网络可以同时考虑前面时刻的信息和当前时刻的信息,并将处理结果传递给下一时刻, 因而可以很好的处理连续的序列问题。考虑到人耳所听到的声音的高低与声音的频率并不呈线性关系对于语音特征,提出采用Mel 频率尺度的概念。最后采用一个基于神经网络的决策融合。
(5) 基于视听与深度感知融合的交互对象运动检测
   基于视听觉和深度感知的互补性,对复杂环境下服务机器人在人机交互过程中对服务对象——人体目标的鲁棒检测进行研究。 主要内容包括:1. 传统的人体行为识别方法基于固定的摄像头,而在移动机器人平台下摄像头处于移动状态,会造成深度数据的获取尺度变化较大以及出现运动背景干扰问题,加大人体行为识别的困难。如何对深度信息进行密度恒常映射以及一个新的运动检测算法是本课题的重要研究内容; 2. 考虑到多模态信息融合在复杂环境下检测目标模糊线索上的优越性,除了视听融合采用决策层融合外,深度信息可以与视听觉模态信息有多层级融合方式。 但是由于三种模态信息之间存在固有的模态差异,如何对三种模态的数据进行高度融合,提升人体运动目标的鲁棒检测是本课题的另一重要研究内容。

面向智能人机交互的移动机器人双耳声源定位研究

   本项目是来源于国家自然科学基金,题名:面向智能人机交互的移动机器人双耳声源定位研究(NO. 61673030), 起止时间2017.01-2020.12。本项目工作的科普性介绍如下: