一种2d3d人耳融合识别方法研究

更新时间：2019-08-04 来源：人工智能论文点击：

电子自动化中人工智能的优势与应用

【www.rjdtv.com--人工智能论文】

   摘要提出一种 2D 和 3D 模式相融合的人耳识别方法．利用基于 Adaboost 算法的人耳检测器在 2D 图像上进行人耳检测，在对应的深度图像中定位出人耳区域．对于 2D 人耳图像，利用核 Fisher 鉴别分析法进行特征提取，再利用最近邻分类器进行识别; 对于 3D 人耳深度图，利用 3D 局部二值模式进行特征提取，结合几何约束和位置约束在测试耳和注册原型耳上进行特征点匹配，并利用匹配点数进行识别．最后将两者进行决策层融合．在 UND 人耳图像库上的实验结果表明，与单独 2D 或 3D 人耳识别相比，文中提出的 2D+3D 人耳融合识别方法在光照变化情况下能取得更好的识别性能．
    关键词人耳识别，3D 局部二值模式，决策层融合
    1 引言人耳识别的研究近年来受到越来越多关注，在考试注册、海关安检、刑事侦破和视频监控等安全认证领域具有广泛的应用前景．目前，二维人耳识别的研究目前已取得较大进展，在受控条件下能取得较好性能，但其受姿态变化和光照条件的影响较大，导致识别的准确度和鲁棒性均受到限制．特别是光照变化对于二维人耳图像的全局特征或局部特征的提取有着较大影响．构建过程中考虑到光照变化的较大规模的人耳图像库是美国圣母大学拍摄的UND-J2 图像库．根据文献的研究，在该图像库上，先利用 Gabor 变换提取人耳多方向、多尺度的特征，再应用局部二值模式算子对所得 Gabor 幅值图谱进行编码，得到相应的直方图; 然后将所有图谱的直方图串联成为一个直方图序列，作为一幅人耳图像的局部 Gabor 二值模式描述．最后利用 χ2距离进行相似性度量．对于该库中 55 个带有明显光照变化的对象，首选识别率仅为 40%．另外，在本文前期构建的一个小规模的人耳图像光照库上的实验结果表明，采用主元分析法进行特征提取，利用最近邻分类器进行识别时，在人耳左右侧 30°光源打光条件下的首选识别率均低于 50%，且识别率会随着光照角度与摄像机光轴之间角度的增加而降低．由于人耳的特殊非对称的外形，与摄像机光轴相同角度的但不同方向的光照影响是不一样的．目前，专门针对光照变化条件下的二维人耳识别的研究工作还较少．对于光照变化，文献中通常做法是在预处理阶段，对图像进行诸如直方图均衡化、Gamma 校正等简单的图像处理方法来补偿光照影响．由于人耳是三维物体，从三维人耳数据中提取的人耳结构信息受人耳姿态变化和光照变化的影响较小，具有更好的稳定性，因此研究者们开始关注三维人耳识别技术．三维人耳识别中，已注册的原型耳和待识别的测试耳均为三维数据，特征提取和表达都在三维空间中进行．这种方法的关键在于如何提取和表达最有效的三维特征． Yan 等使用迭代最近点算法( Iterative Closest Point，ICP) 对原型和测试三维人耳形状进行匹配，并根据匹配误差来进行识别． Chen 等提出局部表面片 ( Local SurfacePatch，LSP) 描述子来表征待匹配的三维表面( 即凸型、凹型和马鞍型) ，并利用改进的两步 ICP 算法进行匹配和识别．在进一步的工作中，作者将由 LSP描述子构成的原始特征空间使用 FastMap 特征嵌入算法进行降维，在低维空间中使用 K-d 树建立索引;利用 K-d 树提取测试耳和每个原型耳之间的 LSP匹配对，使用训练好的 SVM 得到候选耳列表; 最后使用 ICP 将测试耳与列表中的候选耳进行匹配，配准误差最小候选耳即为识别目标． Passalis 等使用通用人耳标注模型( Annotated Ear Model，AEM) 对齐和拟合三维人耳，提取人耳元数据的二维表示，采用两个元数据之间的 l1范数距离进行识别．该方法的人耳匹配时间虽然较短，但识别率低于文献和文献．陈雷蕾等对 ICP 算法进行改进，提出一种带不变特征的迭代最近点算法，使测试耳与原型耳在最小均方误差意义上对齐，采用平均误差作为两者的相似性距离度量，然后用最近邻分类器进行识别．上述工作中利用模型匹配程度来进行三维人耳识别，在少量样本条件下，均取得较好的识别结果．但仍存在计算量大、对细节信息表征不够充分等局限性．因此，本文提出一种二维和三维人耳特征描述和融合识别方法，希望能充分利用二维图像和深度图像进行识别的优势，即二维图像中所包含的丰富纹理信息和深度图像对光照的不敏感性．基于二维和三维信息融合的人耳识别的研究还较少，Yan等曾将二维和三维人耳进行融合识别，使用 PCA算法和 ICP 算法对二维灰度图像和三维人耳空间点分别进行识别; 在匹配分数层进行融合．但这种方法没有涉及到三维特征描述子的构造，识别速度较慢．为此，本文提出利用 3D 局部二值模式来对人耳深度图进行特征提取，并结合几何约束和位置约束等信息将测试耳和原型耳进行有效匹配．最终，将3D 人耳识别的结果和 2D 人耳识别结果进行决策层的融合．
       2 人耳深度图像预处理2． 1 三维人耳库简介本文所使用的人耳数据来自 UND J2 子库，其三维数据集采用 Minolta 910 激光扫描仪扫描左侧人脸得到，同时获取包含 X、Y、Z 这 3 个坐标信息的 3D 点云及 2D 彩色图像( 分辨率为 640×480) ．该库中共有 415 个对象获得每人两幅及以上( 最多为22 幅) 的较高质量二维侧脸图像和相应的三维数据，其中男性 237 人、女性 178 人，带耳坠者 70 人、耳部被遮挡者 40 人．根据统计，该库中带有明显光照变化的对象有 55 个．通过对比可见，深度图像对于光照变化并不十分敏感，而二维图像的线条轮9 期袁立等: 一种 2D+3D 人耳融合识别方法研究813廓较清晰，边缘特征明显，在深度图像上却只有大体的人耳边缘轮廓，因此，可利用两者的互补性进行融合识别．
        2． 2 三维人耳定位与预处理首先在二维图像中利用改进的 Adaboost 算法进行人耳检测，得到人耳矩形区域在图像中的位置．在 900 幅源图像上的检测结果表明，正确检测率为 95． 22%; 对于未能成功检测出人耳区域的图像，采取手动定位的方法．在二维图像上获取人耳矩形区域的左上角坐标和右下角坐标后，在对应的三维点云数据中将人耳部分分割出来．由于三维人耳数据中存在空洞及噪声，因此需进行平滑滤波去噪处理，去除毛刺，并修补空洞．
       3 基于 3D LBP 的 3D 人耳识别仔细观察可发现每个人人耳的轮廓、沟回形状、沟回的深度和宽度等都不一样，这些特征可以用来区别不同的人耳．在二维图像上，光照带来的影响使得本文较难对这些结构特征加以稳定描述，而三维数据对这种影响并不敏感，因此可利用能反映人耳结构特征的描述子对这些特征加以描述和提取．本节将对这些内容进行详细介绍．
       3． 1 DLBP 描述子由于 LBP 算子能表征中心像素点及其邻域的相关性，因此 LBP 可被看作一种局部相关性特征描述子．通过分析三维人耳数据点中存在的局部相关性特征，可提取三维人耳的结构信息．因此本文利用3D LBP 描述子来提取三维人耳结构特征，主要过程如下．step 1 将人耳深度图像归一化至 0 ～ 255 之间，然后以( 8，1) 邻域为例，逐点统计当前点与邻域点的深度差，以数值标出，若深度差值大于 7，则人为定为 7．step 2 将得到的每个数值进行二进制编码．该编码由四位二进制 { i1，i2，i3，i4} 表示，设中心像素点与邻域点之间的深度差为DD，首层i1的取值由深度差 DD 的正负决定:i1=1， DD ≥ 00， DD ＜ 0{其中，i2，i3，i4的取值如下:
　　DD = 22i2+ 21i3+ 20i4．如图1 中所示，若DD =－ 3，则有i1i2i3i4= 0011;若 DD = 3，则 i1i2i3i4= 1011．step 3 8 个深度差值被转换为 8 个四位二进制串后，将对应位的二进制值看作一层，再将每一层的八位二进制转化成其相应的十进制数值 P1，P2，P3，P4，分别作为每层的表征．最后，将每层的十进制数值连成一个向量，作为此点的 3D LBP 表征，如图 1所示．3D LBP 描述子计算过程Fig． 1 Calculation process for 3D LBP descriptor
       3． 2 DLBP 特征点匹配本文对测试耳深度图和原型耳深度图分别进行3D LBP 描述子的计算，再将两个深度图中得到的3D LBP 描述子进行匹配，得到 3D LBP 描述子的匹配对．本文采取的匹配原则: 将两个 3D LBP 描述子中的四层的十进制数值组成一个直方图，计算两者之间的 χ2分布，即χ2( Q，V) =∑i( qi－ vi)2qi+ vi，其中，qi和 vi分别表示测试耳和原型耳上的一个 3D LBP 描述子的某个层的十进制数值．计算测试耳上的一个 3D LBP 描述子与原型耳的相应位置上3 × 3 邻域范围内的所有3DLBP 描述子之间的 χ2距离，当 χ2距离小于预定阈值时选定为匹配描述子．为避免多重匹配，如果原型耳上某个3D LBP 描述子已被选为匹配点，那么测试耳上与之空间距离最近的那个描述子将被允许与之匹配成对．通过实验发现，这一步得到的 3D LBP 描述子初始匹配对的个数较多，且存在误匹配情况( 空间物理位置不匹配) ．因此，接下来对初始匹配对进行进一步的几何约束，达到精简匹配对的目的．
      假设初始的匹配对数为 n．具体过程如下．step 1 将初始匹配结果中的每个匹配对作为一个独立组．step 2 对于每个独立组，如果其余的 n － 1 对8 14模式识别与人工智能 26 卷描述子匹配对满足dC1，C2= dS1，S2－ dM1，M2＜ ε1max ( dS1，S2－ dM1，M2) ＞ ε2{( 1)的两个几何约束条件时，则将相应的匹配对加入该组，其中，ε1= 6mm，ε2= 4mm． C1= { S1，M1} 和 C2={ S2，M2} 是两个 3DLBP 描述子匹配对，S1，S2表示测试耳上的两个3DLBP 描述子，M1，M2表示原型耳上分别与 S1，S2匹配的两个 3DLBP 描述子; dS1，S2和dM1，M2分别表示测试耳和原型耳上两个描述子之间的欧氏距离．式( 1) 中第一个几何约束是为保证测试耳和原型耳上两个 3DLBP 描述子之间的一致性，第二个几何约束条件是为去除空间距离较近的3DLBP 描述子，从而节省算法的后续计算时间．step 3 重复 step 2 直至所有的描述子匹配对都被进行分组．step 4 按照每组中描述子匹配对的个数进行降序排列，选取个数最多的那个组作为最后描述子匹配对分组的结果．我们对图 2 中得到的 3DLBP 描述子初始匹配结果进行分组，深度图像上 3DLBP 描述子的初始匹配结果Fig． 2 Initial matching result of 3D LBP descriptors on rangeimages图始匹配的分组结果在分组后的匹配点中，发现里面仍然存在一些误匹配的特征点对．所以在此基础上再加入上下左右等空间几何位置关系约束，即先记录测试样本上的两个 3DLBP 描述子空间位置关系，再按照上述的分组原则对与它们相对应的原型样本上的两个3DLBP 描述子进行验证，满足此关系则保留，否则剔除后加入的 3DLBP 描述子，结果如图 4( a) 、( b)所示为不同类别样本进行匹配时的情况，可见这时匹配点对数远少于同类样本间的匹配点对数．( a) 同类人耳匹配( a) Intra-class matching( b) 异类人耳匹配( b) Inter-class matching根据上述方法，我们可得测试耳 ES与原型耳EM的 3DLBP 描述子匹配点数．接下来，采用归一化后的匹配点数 C 作为相似性度量方式，归一化后的匹配点数 C 定义如下:C = 1 － tanhCK( )，其中，C 表示测试耳 ES与 EM上 3DLBP 描述子匹配等: 一种 2D+3D 人耳融合识别方法研究815点对数; K 表示测试耳 ES于原型耳样本集中得到的最大匹配点对数，tanh( ) 表示双曲正切函数．
       4 基于核 Fisher 鉴别分析的二维人耳识别核 Fisher 鉴别分析算法通过非线性映射?( x) ，将人耳图像样本变换到一个高维的特征空间F 中，根据 Fisher 鉴别准则，在总离散度矩阵的零空间中不存在有效的鉴别信息．因此，在不丢失任何鉴别信息的前提下可先去掉总离散度矩阵 S?t的零空间，即将训练样本投影到 S?t的非零空间上．对于变换后的样本，在类内离散度矩阵 S?w的零空间 Ψ⊥和非零空间 Ψ 分别提取最优鉴别投影矩阵，再将两部分最优鉴别投影矩阵进行组合，用来提取图像的特征向量．最后使用最近邻分类器进行识别．本文在 UND-J2 图像库中抽出每人具有 6 幅图像的 114 个对象，对于每个对象，随机挑选 5 幅构成训练集，剩余 1 幅构成测试集．由于不同对象的源图像中包含光照变化、肤色变化，所以利用主元分析方法进行特征提取后，前三维的类内和类间分布如图5( a) 所示．相同颜色和形状的点代表同一类，可见类内和类间样本的分布较混杂，可分性较差，因此利用主元分析方法进行特征提取和最近邻分类器进行识别时的识别效果较差．而利用上述核 Fisher 鉴别分析算法进行特征提取后，前三维特征的类内和类间样本分布如图 5( b) 所示．可见同类样本基本聚集重合在一起，类间样本比较分散开来．因此这种特征提取方法是比较有效的．( a) PCA 特征空间中样本的三维分布( a) 3D sample distribution in PCA feature space( b) KFisher 特征空间中样本的三维分布( b) 3D sample distribution in KFisher feature space图 5 特征提取后样本的三维分布Fig． 5 3D sample distribution after feature extraction5 实验与结果分析在 UND J2 图像库的415 个对象中，去掉每人只有两幅二维图像和两幅深度图像的个体后，我们使用剩余的 305 人进行实验．每人分别有 3 幅及以上的二维图像和 3 幅及以上的深度图像．对于二维人耳识别实验，选择每人的前两幅图像构成训练样本集，第 3 幅作为测试样本．本文将所有图像变换为灰度图像，进行直方图均衡化，再归一化为 60×120．采用前述核 Fisher 鉴别分析方法进行特征提取，利用最近邻分类器进行识别． 2D 人耳识别的识别性能如图 6 所示．对于三维人耳识别实验，选择每人的第一幅深度图作为原型耳，第二幅深度图作为测试耳．实验中将卡方距离的阈值设定为 0，也就是说两个 3D LBP描述子的 4 个分量需要完全一致才能进行匹配．经过 3DLBP 算子的初始匹配→加入几何约束后的匹配→加入空间位置约束后的匹配后，经统计，同类和异类的原型耳与测试耳之间 3DLBP 描述子匹配对的平均对数分别为 39 对和 11 对、平均匹配时间约为 1． 34s( 处理器 Intel Pentium( R) D CPU 2． 8GHz;系统内存 2． 0GB; 运行环境 Matlab 7． 9． 0) ．利用归一化匹配特征点数作为相似性度量方式，得出首选识别率如图 6 所示．对于融合识别，本文采用基于贝叶斯决策理论的融合方法进行 2D+3D 人耳融合识别．对于训练样本集合，先生成两个分类器的混淆矩阵．假设CMj为第 j 个分类器的混淆矩阵． CMj矩阵中( k，r)8 16模式识别与人工智能 26 卷位置的元素 cmjk，r表示第 j 个分类器将训练集中真实类别为 ωk的样本判定为 ωr类的样本个数．对于 3D人耳识别来说，混淆矩阵中的每行即为匹配过程中每个测试耳相对于所有原型耳的 3D LBP 描述子的归一化匹配对数．设训练集中样本总数为 N，第 ωk类的样本数为Nk．设第 j 个分类器将测试样本判定为 cj类．则cmjk，r/ Nk可看作类条件概率密度值 P( cjωk) ，Nk/ N可看作是第 ωk类的先验概率．如共有 R 个分类器，则所有分类器所做出的决策构成向量 c = ［c1，c2，…，cR］，那么就可通过计算第 ωk类的后验概率P( ωkc) 来做出最终的类别判定．根据贝叶斯公式:
　　P( ωkc) =P( c ωk) P( ωk)P( c)，其中 k = 1，2，…，M．分母与类别 ωk无关，在决策时可忽略．因此，类判别函数为gk= P( c ωk) P( ωk) ，能使判别函数达到最大值的类别即为测试样本所属类别．为简化类条件概率密度 P( c ωk) ，假设各分类器独立做出类别判定．因此，P( c ωk) 可表示为P( c ωk) = P( c1，c2，…，cRωk) =∏Rj = 1P( cjωk) ，那么，类判别函数即为gk=∏Rj = 1P( cjωk) P( ωk) ．不同识别方法的识别率性能比较Fig． 6 Performance comparison of different recognition methods从图 6 可看出，当图像集中存在较为明显的光照变化时，会对基于二维图像的人耳识别的性能产生较大影响，首选识别率低于 75%．而基于深度图像的人耳识别方法比基于二维图像的人耳识别方法取得更好的识别效果．但 3D 人耳识别的首选识别率仍有待提高．分析原因在于在 UND 图像库扫描时，虽要求被扫描者目视前方，头部保持垂直，但由于生理特征的个性差异，不同人的耳朵偏转角度是不同的，且同一人在前后两次扫描时头部姿态也可能发生变化，所以会存在原型耳与测试耳的偏转角度不一致的情况．而本文未在两者之间进行姿态校正，且 3D LBP 描述子提取的是一种局部特征，姿态的变化会导致局部结构的变化，所以会对基于 3D LBP 描述子匹配的人耳识别效果产生一定影响．
      5相比较而言，基于核Fisher 鉴别分析方法的二维人耳特征提取可看成是对人耳整体特征的一种描述，能在一定程度上弥补轻微姿态变化带来的影响．所以，两者融合后的识别性能较单独使用二维图像或深度图像时的识别性能会有所提升．在文献中，Yan 等利用主元分析法进行 2D人耳识别，利用迭代最近点法进行 3D 人耳匹配，将两者进行匹配分数层加权融合．在 UND-F 图像库的302 人规模的数据集上获得 90． 7% 的首选识别率，且得到融合识别优于单独二维人耳识别效果的结论．这与本文的结论是一致的，但本文中基于3DLBP 特征点匹配的方法要比基于迭代最近点法的人耳匹配方法节省很大计算量．文献中利用局部表面片描述子来提取三维人耳的结构特征，再利用迭代最近点法进行匹配．在 UND-F 图像库的302 人规模的数据集上获得 94． 3% 的首选识别率，但其特征提取和匹配的平均时间约为 3． 7s．在 Yan 等的后续工作中，作者利用主动轮廓模型在二维图像上搜索人耳，结合深度图定位耳洞，将检测出的 3D 人耳数据利用迭代最近点法进行匹配，在 UND-J2 的 415 人规模图像库上取得 97． 8%的首选识别率．本文中基于 3D LBP 描述子匹配的3D 人耳识别方法的识别率低于该文献，分析原因在于在本文中，利用基于改进 Adaboost 算法的自动人耳检测器检测出的人耳区域会包含一些背景信息( 如部分侧脸或头发等) ，实验发现在这些背景区域中，有时会出现 3D LBP 描述子匹配对，这种情况会在一定程度上影响识别率．
      6 结束语本文提出一种基于二维图像与基于深度图像的人耳融合识别方法．基于深度图像的人耳识别中，重点研究一种三维人耳特征提取的方法，采用 3DLBP描述子提取人耳深度图像的特征，并结合几何约束9 期袁立等: 一种 2D+3D 人耳融合识别方法研究817和位置约束等信息将测试耳和原型耳进行匹配．实验结果表明，在光照变化明显的情况下，利用三维人耳进行识别能取得更好的识别效果．此外，2D+3D融合识别取得比 2D 或 3D 单独识别更好的效果．在较大规模的 UND 人耳图像库上的实验结果验证融合识别的可行性．在下一步的研究中，为进一步提高识别率，拟对姿态变化较大的三维人耳数据进行姿态预矫正．另外，还可设法提取单纯的人耳部分，去除背景信息，以提高 3D LBP 描述子匹配的有效性．
      参考文献［1］Yuan Li，Mu Zhichun． Ear Recognition Based on Local InformationFusion． Pattern Recognition Letters，2012，33( 2) : 182－190［2］Yuan Li，Mu Zhichun，Yang Fan． A Review of Recent Advances inEar Recognition / / Proc of the 6th Chinese Conference on BiometricRecognition． Beijing，China，2011: 252－259［3］Abaza A，Ross A，Hebert C，et al． A Survey on Ear Biometrics．

本文来源：http://www.rjdtv.com/jisuanjilunwen/760.html

上一篇：一种动态分布式约束优化问题协同求解算法

下一篇：无参数局部保持投影及人脸识别