本文内容涵盖人脸识别的发展历史、市场研究、核心技术、商业应用、产业实现、个人观点等干资讯研究。请注意,这篇文章充满了有用的信息,大约 27,000 字。强烈建议大家先收藏再学习!

01 发展历程

1.人脸识别的理解

人脸识别是根据人的面部特征(如统计或几何特征等)自动进行面部识别的一种进行身份识别的生物识别技术,也称为人脸识别、人像识别、外貌识别、人脸识别、人脸识别等。通常我们所说的人脸识别是基于光学人脸图像的身份识别与验证的简称。

人脸识别是利用摄像头或摄像头采集包含人脸的图像或视频流,并自动检测并跟踪图像中的人脸,然后对检测到的人脸图像执行一系列相关的应用操作。 。从技术上讲,它包括图像采集、特征定位、身份确认和搜索等。简单来说,就是从照片中提取面部特征,比如眉毛高度、嘴角等,然后通过特征比对输出结果。

2.人脸识别发展简史

第一阶段(1950年代-1980年代)初级阶段

人脸识别被视为一般的模式识别问题,主流技术是基于人脸的几何结构特征人脸。这主要体现在人们对轮廓(Profile)的研究上。人们对面部轮廓曲线结构特征的提取和分析进行了大量的研究。研究人员也使用人工神经网络来解决人脸识别问题。除了布莱索之外,r较早从事AFR研究的研究者有Goldstein、Harmon、Kanade Takeo等。总体来说,这一阶段是人脸识别研究的初级阶段。非常重要的成果并不多,基本没有实际应用。

第二阶段(1990年代)高潮阶段

这个阶段虽然时间较短,但人脸识别发展迅速。不仅出现了许多经典的方法,如Eigen Face、Fisher Face、弹性图匹配等;并且已经出现了一些商业化的人脸识别系统,例如Visionics(现在的Identix)最著名的FaceIt系统。从技术方案来看,2D人脸图像线性子空间判别分析、统计外观模型、统计模式识别方法是现阶段的主流技术。

第三阶段(20世纪90年代末至今)

人脸识别研究不断深入,研究人员已人们开始关注面向实际情况的人脸识别问题,主要包括以下四个方面的研究: 1)提出不同的人脸空间模型,包括以线性判别分析为代表的线性建模方法、以核函数为代表的非线性建模方法和基于3D信息的3D人脸识别方法。 2)深入分析和研究影响人脸识别的因素,包括光照不变人脸识别、姿势不变人脸识别、表情不变人脸识别等。 3)利用新的特征表示,包括局部描述符(Gabor Face、 LBP Face等)和深度学习方法。 4)利用新的数据源,例如基于视频的人脸识别和素描以及基于近红外图像的人脸识别。

02 市场研究

1.全球人脸识别市场

展望根据目前人脸识别行业的发展现状;到 2016 年,全球生物识别市场规模约为127.13亿美元,其中人脸识别规模约为26.53亿美元,占比约20%。预计到2021年,全球人脸识别市场规模将达到63.7亿美元,预计期间复合增长率为17.83%。

2.中国人脸识别市场

根据我国人脸识别行业发展现状进行前瞻性预估人脸识别市场规模约占全球市场的10%。 2010年至2016年,我国人脸识别市场规模逐年增长,年均复合增长率达27%。 2016年,我国人脸识别行业市场规模约为17.25亿元,同比增长27.97%,增速较上年提升4.64个百分点。

3、国内主要厂商分布

3.1国内部分人脸识别企业(排名不分先后)

3.2四大独角兽介绍及比较细分领域

(1)旷视科技科技:

2014年获得阿里巴巴旗下蚂蚁金服投资,主打金融和监控两大行业,旗下有子公司旷视智能;另外还有几位清华校友团队成员还包括来自美国哥伦比亚大学、英国牛津大学、美国南加州大学的科研开发人员,截至目前员工仅有100多人。

我们分别在金融、安防、零售领域开启商业化探索,成功研发垂直人脸验证解决方案Face++Financial、Face++Security、Face++BI等主要集成了人脸识别。应用于互联网产品,自行研发。在美图秀秀、淘宝等互联网领域得到了很好的应用。一直占据着金融市场沙发的前排。 2016年获得数亿元C轮融资,最终选择通过将计算机视觉技术与NLP技术结合在一起,打造能够“识别一切”的智能机器人,并提供内置自己算法的硬件模块。他们目前正准备启动首次公开募股。 VIE结构可以让他们绕开A股,实现快速上市,而无需达到连续三年盈利的标准。

(2)商汤科技:

商汤科技(SenseTime),由IDG资本投资,专注于金融、移动互联网、安全三大行业ty 监控;它是由香港中文大学研究人员领导、汤晓鸥创办的,“商汤”中的唐指的是汤晓鸥本人。唐晓鸥及其研究团队研发的DeepID算法率先将深度学习应用于人脸识别,技术指标实现新突破。主要案例是围绕各种美颜软件和直播平台制作人脸图,重点加强人脸识别的关键点检测和跟踪技术。

团队成员超过300人,也从原来的toC领域转向toB领域; 2014年成立的商汤科技选择另辟蹊径,选择用“四美”这个话题来让人坐立不安。最终,四大三大美女离开了;商汤科技的网络全部是自己设计的,这样他们对深度学习网络会有更强的控制力。在提供SaaS服务的同时,他们可以通过SaaS获取他们背后的数据,然后进行更多的更新。详细的分析再次提高了服务质量。

(三)云从科技

2015年4月,周曦获得战略投资,成立云从科技。同年,推出了40多个金融和银行业解决方案。包含从算法、产品、销售、售后全产业链打造,为农业银行、建设银行、交通银行、中国银行、多地公安机关提供定制化服务。团队成员除来自中国科学技术大学的校友外,还来自中国科学院各大研究所、UIUC、IBM、NEC、微软等世界顶尖大学和研究机构。

截至2016年11月,成立一年半以来,研发团队已扩大至200余人奥普莱。核心产品为人脸识别系统和IBIS综合生物识别平台,还有3D模型、红外生命体、静音生命体等。等技术,可根据场景需求自由调整。选择连接硬件、开发和技术属于全产业链模式,因为大多数情况下人脸识别系统需要深度定制。只有这样,当客户提出需求时,才能实现快速反馈、修改和统一的用户体验。

(4)依图科技:

2012年9月,朱龙和好友林晨曦创立了依图科技,一家从事人工智能创新研究的初创公司。该公司以图像识别起家。首先与全国各省市公安系统合作,精准识别车辆品牌和车型,随后扩展到人像识别。通过静态肖像比对技术和动态人像比对技术,辅助公安系统进行人员身份识别。身份验证、逃犯追逃、监控、关系挖掘等。

经过六年的发展,依图科技的产品已应用于全国20多个省市的安防领域。除了其他领域,依图还进军智慧城市、医疗健康领域。它希望协助政府建设“城市大脑”,也希望缩小医疗领域巨大的知识差距,改善医患体验。

(5)分段字段对比表

(6)主要客户对比

4.商业模式

4.1 人脸识别商业模式设计步骤

4.2 人脸识别盈利模式

< p style="text-align: center;">

03 人脸识别流程及主要技术

1.人脸识别系统的组成

2.人脸识别的一般流程

2.1人脸采集

(一)简介

通过摄像头镜头采集不同的人脸图像,如静态图像、动态图像、不同的位置、不同的表情等。当采集对象位于设备上的拍摄范围内时,采集设备会自动搜索并捕捉面部图像。

(2)人脸采集的主要影响因素

图像大小:人脸图像太小会影响识别效果,人脸图像太大会影响识别速度。非专业人脸识别摄像头的常见规定是人脸识别最小像素为60*60或100*100或以上。在指定的图像尺寸内,算法更容易提高准确率和召回率。图像尺寸参考在实际应用场景中选择人脸与摄像头之间的距离。图像分辨率:较低的图像分辨率更难以识别。图像大小与图像分辨率相结合,直接影响相机识别距离。目前4K摄像机清晰看清人脸的最大距离为10米,7K摄像机清晰看清人脸的最大距离为20米。光照环境:过度曝光或太暗的光照环境都会影响人脸识别效果。您可以使用相机内置功能补光或滤光来平衡光照效果,也可以使用算法模型来优化图像光线。模糊级别:实际场景主要解决运动模糊。面部相对于相机的运动通常会产生运动模糊。有些相机具有抗模糊功能,在成本有限的情况下,可以考虑通过算法模型来优化这个问题。遮挡程度:面部特征无遮挡且c的图像脸部的后边缘是最好的。在实际场景中,很多人脸都会被帽子、眼镜、口罩等障碍物遮挡。这部分数据需要根据算法需求决定是否保留用于训练。采集角度:人脸相对于相机的角度最佳。然而,在实际场景中,往往很难捕捉到完整的脸部。因此,需要使用包含左右人脸、上下人脸的数据来训练算法模型。工业建筑相机的放置角度必须满足人脸与相机的角度在算法识别范围内的要求。

2.2 人脸检测

(一)简介

准确标定图像中人脸的位置和大小,并挑选出有用的信息(如直方图特征、颜色等)特征、模板特征、结构特征和Haar特征等),然后利用这些信息来实现人脸检测的目的。

(2)人脸关键点检测(人脸对齐)

自动估计人脸图片上人脸特征点的坐标。

(3)主流方法

基于检测到的特征,Adaboost学习算法(一种用于分类的方法,结合了一些较弱的分类方法,结合(开发出一种新的和强分类法),选择一些最能代表人脸的矩形特征(弱分类器),根据加权投票的方法将弱分类器构造为强分类器,然后将训练得到的几个强分类器串联起来,形成级联分类器的级联结构,有效提高了分类器的检测速度。

最近流派的人脸检测算法模型包括三类及其组合:viola-jones框架(性能和速度普遍可以接受,合适的用于移动和嵌入式使用)、dpm(速度较快)、慢)、cnn(性能良好)。

2.3 人脸图像预处理

(1)简介

根据人脸检测结果对图像进行处理,最终服务于特征提取的过程。

(2)原因

系统获取的原始图像由于受到各种条件的限制和随机干扰,往往不能直接使用。它们必须在图像处理的早期阶段进行处理\t执行图像预处理,例如灰度校正和噪声过滤。

(3)主要预处理过程

人脸对齐(获得人脸位置正确的图像)、人脸图像的光照补偿、灰度变换、直方图均衡化、归一化(获得标准化相同尺寸、相同灰度值范围的人脸图像)、几何校正、中值滤波(对图像进行平滑处理以消除噪声)和锐化等。

2.4 人脸f特征提取

(1)简介

人脸识别系统中可以使用的特征通常分为视觉特征、像素统计特征和人脸特征。图像变换系数特征、人脸图像代数特征等。人脸特征提取是对人脸的某些特征进行的,也称为人脸表示。是人脸特征建模的过程

(2)人脸特征提取方法

p>基于知识的表示方法(主要包括几何特征方法和模板匹配方法):基于知识的表示方法(主要包括几何特征方法和模板匹配方法):面部器官的形状描述和它们之间的距离特征,获得有助于人脸分类的特征数据。其特征分量通常包括特征点之间的欧氏距离、曲率、角度等。人的脸部由眼睛、鼻子、嘴巴、下巴等部分组成。对于这些零件及其结构关系的几何描述它们之间的关系,可以作为识别人脸的重要特征。这些特征称为几何特征。基于代数特征或统计学习的表示方法:基于代数特征的方法的基本思想是将人脸在空间域的高维描述转化为频域或其他空间的低维描述。表示方法有线性投影表示法和非线性投影表示法。基于线性投影的方法主要包括主成分分析或K-L变化、独立成分分析和Fisher线性判别分析。非线性特征提取方法有两个重要分支:基于核的特征提取技术和流形学习主导的特征提取技术。

2.5 匹配与识别

对提取的人脸特征值数据进行搜索并与特征模板存储在数据库中。通过设定一个阈值,并与该阈值进行相似度比较,确定人脸的身份信息。

3.人脸识别的主要方法

3.1 Eigen Face

MIT实验室的Turk和Pentland)无疑是这一时期最著名的人脸识别方法。后来的很多人脸识别技术都或多或少与特征脸相关。现在特征脸与归一化相关方法一起成为人脸识别性能测试的基准算法。

人脸识别eigenface算法文档:

https://blog.csdn.net/zizi7/article/details/52757300

3.2 Fisher Face(Fisherface)

Belhumeur等人提出的Fisherface人脸识别方法。是这一时期的又一重要成就。该方法首先使用主成分分析(PCA)来降低图像的表观特征的维数。在此基础上,线性采用判别分析(LDA)方法对降维后的主成分进行变换,以获得“尽可能大的类间散度和最小可能的类内散度”。该方法仍然是主流的人脸识别方法之一,并且产生了许多不同的变体,例如零空间法、子空间判别模型、增强判别模型、直接LDA判别方法以及最近的一些基于核学习的改进策略的方法。

Fisher Face算法文档:

https://blog.csdn.net/zizi7/article/details/52999432

3.3 EGM(弹性图匹配)

基本思想是用属性图来描述人脸:属性图的顶点代表人脸的关键特征点,其属性是多分辨率、多维度、多维度的。对应特征点处的维图像。12个特征转化为局部features - Gabor 变换,称为 Jet;边缘属性是不同特征点之间的几何关系。对于任意输入的人脸图像,弹性图匹配采用优化的搜索策略定位多个预定义的人脸关键特征点,同时提取它们的Jet特征以获得输入图像的属性图。最后通过计算与已知人脸属性图的相似度来完成识别过程。该方法的优点是既保留了人脸的全局结构特征,又对人脸的关键局部特征进行了建模。

弹性图匹配算法文档:

https://blog.csdn.net/real_myth/article/details/44828219

3.4 基于几何特征的方法

几何特征可以是眼睛、鼻子、嘴巴等的形状以及它们之间的几何关系(例如彼此之间的距离)。这些算法识别速度快,要求高内存大,但识别率低。

3.5 基于神经网络的方法

神经网络的输入可以是分辨率降低的人脸图像、局部区域的自相关函数、局部纹理的二阶矩等。这类方法还需要更多的样本进行训练,而在很多应用中,样本数量是非常有限的。

3.6 基于线段豪斯多夫距离(LHD)的方法

心理学研究表明,人类识别轮廓图(如漫画)的速度和准确度并不比识别灰度图像。图片差异。 LHD基于从人脸灰度图像中提取的线段图。它定义两个线段集之间的距离。不同的是,LHD并没有在不同线段集合之间建立线段之间的一一对应关系。关系,因此更能适应线路之间的微小变化分段图。实验结果表明,LHD在不同光照条件和不同姿势下表现都非常好,但在识别大表情时表现不佳。

3.7 基于支持向量机(SVM)的方法

近年来,支持向量机已成为统计模式识别领域的新热点。在泛化能力上取得折衷,从而提高学习机的性能。支持向量机主要解决二分类问题。其基本思想是试图将低维线性不可分问题转化为高维线性可分问题。通常的实验结果表明,SVM具有较好的识别率,但需要大量的训练样本(每类300个),这在实际应用中往往不现实。而且支持向量机训练耗时较长,实现方法复杂。在那里我对于如何选择该功能尚无统一的理论。

4.技术发展方向

与三维信息结合:二维和三维信息融合,使得特征更加鲁棒。多特征融合:单一特征难以应对大规模人脸复杂的光照和姿态变化。比对:海量数据的人脸比对和搜索深度学习:充分发挥深度神经网络强大的学习能力大数据条件下

5.人脸识别数据库 Yale人脸数据库 ORL人脸数据库 CMU PIE人脸数据库 FERET人脸数据库 MIT数据库 BANCA人脸数据库 CAS-PEAL人脸数据库 JAFE表情数据库 Cohn-Kanade表情数据库 MMI表情数据库

6.技术指标

6.1人脸检测中的关键指标

示例:在相机拍摄的某幅图像中,共有100张人脸。该算法检测到 80 张人脸,其中 75是真实的面孔,5 个是路标。被误认为是人脸。

检测率:识别正确人脸/图片中所有人脸。检测率越高,检测模型越好。误检率:错误识别人脸/识别人脸。误检率越低,检测模型越好。漏检率:未识别的人脸/图片中的所有人脸。漏检率越低,检测模型越好。速度:从图像采集完成到人脸检测完成的时间。时间越短,检测模型效果越好。

本例中:检出率=75/100\t误检率=5/80\t漏检率=(100-75)/100

6.2关键人脸识别中的指标

1000张样本图片中,共有600张正样本。共有100张相似度为0.9的图片,其中99张为正样本。虽然准确度如果0.9阈值很高,99/100,那么0.9阈值正确输出的数量确实很少,只有99/600。这很容易导致漏认。

检测率:识别正确人脸/图片中所有人脸。检测率越高,检测模型越好。误检率:错误识别人脸/识别人脸。误检率越低,检测模型越好。漏检率:未识别的人脸/图片中的所有人脸。漏检率越低,检测模型越好。速度:从图像采集完成到人脸检测完成的时间。时间越短,检测模型效果越好。

本例中:检测率 = 75/100 误检率 = 5/80 漏检率 = (100-75)/100

6.3 Face Key 指标在识别中

1000张样本图片中,共有600张正样本。这re共有100张相似度为0.9的图片,其中99张为正样本。虽然0.9阈值的准确率很高,99/100,但是0.9阈值正确输出的数量确实很少,只有99/600。这很容易导致漏认。

精度:识别为正确的样本数/识别出的样本数=99/100

召回率(recall):识别为正确的样本数/所有样本中正确的样本数=99 /600

错误接受率/错误识别率/错误识别率(FARFalse Accept Rate):

定义:指将两张不同身份的照片区分为同一身份。越低越好。 FAR = NFA / NIRA。式中NIRA代表类别间测试次数,即不同类别之间的测试次数。例如,如果有1000个识别模型,需要识别1000个人,每个人只提供一份材料要被认可,则NIRA=1000*(1000-1)。 NFA 是错误接受的数量。 FAR决定了系统的安全性,FRR决定了系统的易用性。实际上,FAR对应的风险远高于FRR。因此,在生物识别系统中,FAR会被设置到很低的范围,比如万分之一甚至百万分之一。在FAR固定的情况下,FRR低于5%。只有这样的系统才具有实用价值。

False Reject Rate/FRR False Reject Rate:

定义:指两张具有相同身份的照片被区分为不同身份,越低越好 FRR = NFR / NGRA。上式中,NFR为intra-class test的数量,即同一类内的测试次数。例如,如果有1000个识别模型,则有1000个人需要识别,每个人只提供一个需要识别的材料。 ,则 NIRA=1000。如果每个人都提供N张图片,那么NIRA=N*1000。 NFR 是错误拒绝的数量。

需要在查准率(识别为正确的样本数/识别出的样本数)和召回率(识别为正确的样本数/所有样本中正确的样本数)之间取得一定的平衡。

测试同事需要关注特定领域各个类别的指标。例如,对于面部表情的识别,有喜、怒、哀、乐等类别。每个类别对应的指标是不同的。测试同事需要将测试结果完整反馈给算法同事,以便算法同事能够查明模型性能不足的原因。同时,测试同事会将这个模型的指标结果反馈给产品,产品评估是否满足上线要求。

(1)测试环境说明

例如:

CPU:Intel(R) Core(TM) i7-4790CPU @ 3.60 GHz 内存:8GB 系统:Ubuntu 14.04 x86_64/Windows 7 SP1 64bitGCC 版本:4.8.2

(2) 测试集和测试要求说明

例如,“包含人脸的图片尺寸应超过96*96像素,测试结果达到XX级别,满足需求。

经典人脸身份识别测试集LFW,共包含13233张图片,5749个不同身份;世界纪录99.7%。CK+(面部表情数据集),包括固定表情和自发表情,包含123人的593个表情序列,每个序列的目标表情进行FACS编码,并验证情绪标签(愤怒、厌恶、恐惧) 、幸福、悲伤、惊讶)被添加。

(3)“有效距离、左右角度、上下角度、速度”等参数值(范围)需要指定

注意:这与“部署灵活性”相同相关 - 由于不同的客户在不同的场景有不同的需求arios,技术方的人脸检测模块一般可以通过调整参数来获得N个子类型,以适应不同的应用场景(光照、角度、有效距离、速度)。数量和有效检测距离要求。

(4)测试结果-欠拟合

定义:模型没有很好地捕捉数据特征,不能很好地拟合数据

< p style="text-align: center;">

左图为尺寸与奖品关系的数据,中图为意味着模型欠拟合,不能很好地拟合数据。如果在中图的模型后面添加一个二次项,就可以很好的拟合图中的数据,如右图所示。展示。

解决方案

添加其他功能项。有时,我们的模型欠拟合是由于特征项不足造成的。你可以n 添加其他功能项来很好地解决它。例如,“组合”、“泛化”、“相关”这三类特征是添加特征的重要手段。无论什么场景,复制葫芦,总能收到意想不到的效果。添加多项式特征在机器学习算法中非常常用。例如,向线性模型添加二次项或三次项可以使模型更具概括性。以上面的图片为例。减少正则化参数。正则化的目的是防止过拟合,但现在模型欠拟合,需要减少正则化参数。尝试非线性模型,如核SVM、决策树、DNN等模型。

(5)测试结果——过拟合

定义:模型对数据学习得非常彻底,以至于它也学习到了噪声数据的特征,这会导致在后面的测试中,数据不能被很好地识别,即不能被识别e 分类正确,模型泛化能力太差。例如下面的例子。

上左图展示的是大小和奖品的关系,我们学习到的模型曲线如右图所示。虽然模型在训练时可以很好地匹配数据,但很明显曲线过度扭曲,并不是真实的尺寸和奖金曲线。

解决方案

从产品角度:

重新清理数据。过度拟合的原因之一也可能是数据不纯造成的。太多的噪音会影响模型。因此,如果出现过拟合,我们就需要重新清洗数据。增加训练数据量的另一个原因是我们用于训练的数据量太小,训练数据占总数据的比例太小。

从算法角度来看:

交叉验证,得到b通过交叉验证修正模型参数;特征选择,减少特征数量或者使用更少的特征组合,对于区间离散化特征,增加划分的区间;正则化,常用L1和L2正则化。而且,L1正则化还可以自动进行特征选择;如果有正则化项,可以考虑增大正则化项参数lambda;增加训练数据可以在一定程度上避免过拟合;装袋,装袋多个弱学习器会有更好的效果。例如随机森林等。

4.5 标注过程中遇到的问题

(1)项目过程中的不确定性

a.出现原因:

一般情况下,只要数据标注的规范明确,规则定义一致,标注工作的流程就比较简单。

数据标注规范可能会调整根据测试后的结果。那么,规则修改前后的“数据标注一致性”就会出现问题,从而导致多次返工,从而增加时间和人力成本。相当有影响力。

b.解决方案:

1)如果是分类分析工作,建议标注规则从非常确定的黑白开始;规则设置由简单到复杂,有疑问的数据额外标注。随着规则逐步深化,可能会出现交叉影响。这时需要放弃一些针对低频问题的规则,剩下的未标注数据将按照新的规则进行标注。 2)如果同时注释多种类型的规则,则每种类型的规则都需要设置得足够详细。 3)示例:例如,在询问机器人将做什么的语料库中,“你说你会做什么?”可以理解为询问,也可能是厌恶。这两种类型的重新回答策略各异且模糊,不能概括为探究。类,需要将其从训练集中删除。例如,在人脸情感识别中,当一个人哭的时候,有时可以理解为悲伤的哭,有时可以理解为喜悦的哭,有时可以理解为激动的哭,甚至是情感的流泪等等,所以当看到这样的照片,用人眼很难区分清楚的时候,就需要将其从训练集中剔除。

5.实际案例分析

5.1某领域人脸识别监控及身份确认

(1)案例问题

灯光影响:灯光环境太暗等异常或者太亮会对模型的效果产生很大的干扰。

(2)解决方案

a.从产品角度进行控制

在用户可以改变环境的前提下(比如银行刷脸取款等),语音/交互界面提示用户当前环境不理想(头部倾斜、头发、眼镜等),建议拍摄正确的正面照片。在用户无法控制环境变化的情况下(例如人脸识别、车辆识别等摄像头固定的场景),这个问题只能通过调试硬件设施来弥补。夜间:由于相机在夜间会自动切换到较暗的场景(从图片来看,是从彩色切换到黑白),所以在夜间强光(如路灯)下,脸部会出现曝光过度的情况。这时,我们可以强制将相机环境设置为白天(彩色图像)来避免这种情况。如果太暗,从节省成本的角度考虑,可以在摄像头旁边加一盏发散光、低功率的灯来弥补。当然,这两个问题也可以通过购买高质量的相机来解决,但这样做也意味着更高的成本。白天: l白天光线可能太亮。这种情况下,可以考虑使用滤镜等。

b.从算法角度进行控制

利用算法处理图像,可以将图像恢复到人眼清晰可见的程度。

5.2某面部年龄识别产品

(1)案例问题

某面部年龄识别产品适用于一定年龄(25—35岁)的女性),误差比较大。结果发现,这是因为这个年龄段有以下几个特点:

这个年龄段的女性外貌变化不大,有时人眼给出的判断误差大得离谱。这个年龄段的女性注重打扮,化妆品在很大程度上掩盖了她们的真实年龄。有时候,30多岁的人和20多岁的人并没有太大区别; C. 衣冠楚楚的人和光着脸的人没有太大区别。

(2)解决方案

补充数据:Supplement 该年龄段的人脸图像数据。不仅要添加正例(“XXX”应该多大),还要添加反例(“XXX”应该多大)。优化数据:修改大量以往不正确的标注。数据总结:分析化妆和素颜的人脸图像,以调整算法参数。

(3)需求研究

自拍:例如,女性普遍希望自拍,年龄判断期望尽可能小。在与一群人自拍时,可以适当降低对主角的年龄歧视结果,以达到用户的心理满足。这时,计算时可以适当减少法律参考。婚恋交友:在交友网站上交友过程中,双方都想知道对方的真实年龄信息。这时可以通过人脸年龄识别来分析双方的年龄、皮肤等身体信息互相提供参考。此时的信息不能主要以达到心理满足为目的,而应追求准确性。

5.3某AR美颜相机

(1)无法定位人脸

当背景中有很多人或宠物时,相机有时无法准确定位目标用户,而是定位到背景图中的人、宠物等人;有时屏幕很暗;有时显示未检测到面部。

从产品角度:界面提醒用户远离复杂的背景,或者美化时屏幕上最好只有一个人,或者提供框图让用户手动选择主要定位AR美化区域;它可以在屏幕变暗时提醒用户。用户光线是否太暗,或者摄像头被障碍物遮挡等;从算法角度:可以定位关键点人脸,计算目标用户与摄像头的距离或者计算人脸在屏幕区域的比例来确定目标用户(一般几何距离近、屏幕面积大的为美颜目标),结合活体检测消除背景图片中人物等的干扰。

(2)图像模糊、昏暗

光线太暗、移动、聚焦等原因造成模糊(相机距离因素导致图像低频存在、高频丢失等)

p> 从产品角度:可以提醒用户在光线较弱的区域进行美化操作;或清除前置摄像头上的障碍物;或文字提示动作太快;或更换高清前置摄像头;或者提示对焦失败,提供对焦框图让用户手动对焦等。从算法的角度来说:在美化之前,可以调出亮​​度调节后台支持手机功能,并利用算法调节灯光的亮度以适应美化所需的物理条件;利用算法尽量弥补高频部分,从而减少干扰。光干涉。

(3)面部关键动作捕捉太慢

表演AR美颜动作时(如出现张嘴动作、音符、吐星等)屏幕上),动作捕捉太慢(花了很长时间才捕捉到张嘴动作)。

从产品角度:文字提示不支持快速移动或提示慢速移动(例如亲爱的!你的动作太快了,从机还没反应过来等)从算法角度:人脸姿态估计、关键点定位捕捉面部动作。

(4)关键位置未添加虚拟物品(如嘴里叼着烟、耳边挂着耳环、驴子和墨镜,脸红了)

从产品角度:文字/图片提醒用户纠正脸部位置。从算法角度:通过算法对人脸关键区域进行分割和定位,实现人脸精准定位并添加虚拟物品

5.4人脸开放与人脸检索

(1)人脸开门等跨网络解决方案需要注意的因素

远程算法更新:远程算法更新必然会导致本地局域网功能暂时失效。请使用以下方法。因此,远程算法更新的频率、时间和效果需要产品在更新前进行准确评估。新增、删除、修改人脸数据与本地数据同步:本地局域网和互联网无法直接交互。因此,一旦用户在互联网上添加、删除或修改人脸数据,需要关注下发程序的稳定性和及时性。硬件环境:本地存储空间和GPU的大小直接影响本地识别的速度。服务器的稳定性影响功能的正常使用。守护程序:发生断电等外部意外情况并妥善处理后,程序可以自动恢复正常。

(2)人脸检索等某个局域网解决方案需要注意的因素

速度:除了算法识别所需的时间外,网络局域网下的速度会影响识别结果输出的速度。数据库架构:通过搜索结果关联结构化数据。阈值可配置:在界面上设置阈值功能,输入产品级别的阈值后,改变相应的结果输出。输出结果排序:基于相似度排序或结构化数据对云服务稳定性进行内容决策排序。

5.5旷视科技官网产品体验(多图预警)

(1)年龄略有差距,自我评价+-5,性别基本正确,头部状态有轻微误差,种族误差30-40%(样本量为10,白人和黄种人之间误差明显),情绪基本正确,眼镜识别有误差型(产品标识范围),强光条件下性能较差。 。

(2)逻辑错误:左眼(睁眼,普通眼镜),右眼(太阳镜);相似度高的(下图是张一山和夏雨)很难区分(双胞胎恐怕很难区分)

< / p>

(3)远距离检测困难:上左图检测到e,右图检测到2个(估计10米外检测不到)

(4)能够识别蜡像、海报等非真实场景,因此在某些情况下摄像头可能会被欺骗,例如金融领域的身份识别、海关检查和其他关键应用程序,都会有风险。

(5)佩戴口罩无法检测人脸

(六)公司体验对比结果

6.项目虚拟实践(以AR美颜APP为例,过程基于理论和实证推理,本人没有实践过)

人脸检测系统下,有很多FR相关的应用,比如人脸属性识别(年龄、表情、性别、种族等)、人脸美颜/化妆、人脸聚类等,我们先从以AR美妆/化妆为例,探讨项目的具体流程。

6.1项目前期准备

(1)需求调查

场景及痛点:现在大多数美颜相机只是在拍照后添加各种滤镜,添加一个少言、变白已经不能满足广大女性群体对于美丽的需求;此外,年轻女性和男性的审美标准和猎奇心理正在发生变化,对社交方式的兴趣也变得不同。比如说以前,大家在空间、朋友圈、直播中看到又美又帅的男人,都会觉得很养眼,粉丝会直接来点赞。然而,随着快手和抖音的出现,你能找到的不仅仅是帅哥美女的照片。正如视频可以引起围观一样,各种搞笑的合成视频或普通人的照片(虚拟AR特效带来的各种夸张造型)也能吸引无数粉丝,让普通人享受被别人崇拜的乐趣。满足感,而这些都需要用到人脸识别相关技术。

(2)目标用户画像分析

了解目标用户主流群体:学生(大学生、高中生、初中生)对美妆的心理需求、时尚人群的美妆需求、相貌平平的人、相貌出众的人对美的心理需求等。了解与美妆产品特性对应的用户年龄构成和地域分布。关注不同收入人群(白种人)的美妆需求-白领工人、金领工人、蓝领工人等)。

(三)市场分析

美容产品的市场规模、产业链、潜在边际效益等。

6.2 文件准备< /p>

(1)需求文档

详细分析当前用户需求,针对不同群体设计不同的产品解决方案,包括市场需求文档。

(2)数据文档

早期收集人脸图片,分发并注释汇总文档(确定可以请求什么类型的图片,不可以请求什么类型的图片),对各种脸型进行分类(长、宽、圆、额头突出、眼窝深等),有多少人完成眼睛美图分类等。

(3)产品文档

场景落地文档:针对比如听音乐时头戴虚拟耳机、叹息时嘴里叼着烟、说话时吐星星等等,针对不同的面部姿势场景。可能的落地产品形式。产品设计文档:如美妆APP的页面交互设计、导航设计、视觉呈现设计等;直播APP中的弹幕演示设计、点赞、分享按钮设计等。产品开发流程文档:例如PM首先提交需求、可行性分析、立项、设计流程、开发流程、算法构建、模型训练、测试训练等一系列流程的步骤和后续。 模型训练和测试文档:数据标注后,输入到算法中,构建人脸识别和美颜的模型框架。例如,早期使用数万张照片来训练机器定位面部关键点,使机器能够准确定位鼻子和眼睛。 、耳朵、嘴巴等位置等

6.3 数据标注

(1)数据图片采集

在文档的指导下,从公共网站抓取并收集与模型训练一致的数据人脸图片,或者使用公司数据图片等。

(2)数据图片标注

在标注标准文档的指导下,将图片分发给标注团队进行数据处理标注,对于一些模糊的图片,比如图片中的人脸模糊,此时是否需要照片,这段时间应该和算法同事保持沟通。有时在算法优化过程中可以准确识别较暗的图片,这增加了实际情况的容错率(现实中较暗的人脸图像也可以定位到关键部位),那么这张图片就被视为有效数据;有时较暗的图片经过算法处理后无法满足要求(无法定位人)。脸部关键点),此时,照片被视为d为无效数据,直接剔除;但标注团队并不知道图像是有效还是无效,因此在标注过程中,算法同事也需要间接参与。

(3)数据反馈

部分图像标注过程结束后,交给算法同事训练模型、调整参数。在此期间,测试后的数据(精确率和召回率的计算,以反映数据的标注结果)并反馈给仍在标注的人,这可能有时会导致过拟合,有时会导致欠拟合等等,方便对数据的重新操作。

6.4项目过程跟踪

(1)产品项目立项后,日常任务管理、过程进度跟踪、产出时间管理、工作成果反馈会议等。

(2)软硬件端:在开发流程文档的指导下,遵循开发方案常规软件和硬件。

(3)算法流程:人脸采集、人脸检测、图像预处理(如果模糊则使用算法去模糊等)、人脸特征提取、图像匹配识别、AR虚拟化等。

>

6.5项目测试

手机摄像头测试平台后台程序排序算法及平台后台测试模型识别时间、准确率、召回率测试服务器稳定性测试网络带宽限制测试其他平台及硬件产品例行测试目标用户使用测试

6.6 项目优化

经过各种测试,根据反馈数据对产品进行优化。

举个例子,你张嘴的时候我给你一根烟,烟粘在你的鼻子上,很明显面部关键点没有定位。是数据的原因还是算法的原因?这些都必须优化。加工;经过对种子用户的测试,我们发现点赞按钮操作起来有点别扭te 以及应如何处理。这个时候你可能想和你的设计同学讨论一下如何优化产品的设计和体验。

6.7 项目验收上线

产品按照流程功能验收后上线。

06 FR个人观点

1.人脸识别现状

1.1 实验室结果与现实生活结果差距巨大

目前人脸识别技术在金融、安防等领域的应用其实还很多比实验室里的还要糟糕。前阵子,西安一所大学引入人脸识别进行晨读签到。由于响应速度太慢,中午还排着长队。可以看到,在现实生活中,由于各种物理因素(光线、角度、焦距、美人鱼相机的距离等),拍摄到的图片质量比较差,然后通过网络传输到局域网/互联网上。这网络进行对比(网络不好的过程中,反应很慢),这大大降低了实际效果。大多数情况下,实际捕获的图像质量远低于训练图像质量。

1.2 培训标准和实际应用标准

大多数情况下,实际应用标准会远高于培训标准。例如,人脸识别实验室的标准是通过正面人脸数据训练模型,只需能够识别出正确的人脸即可。实际情况下,可能没有正面数据,这对训练提出了更高的要求。

1.3 训练效果与现实效果

大多数情况下,实际效果会远低于训练效果。现在市场上的CV公司都说自己的训练效果在99%以上(无限接近100%),但这并不意味着实际应用效果是99%。适用于行业复杂的人脸应用试用场景(黑名单识别等1:N人脸比对),准确率达到90%以上就已经是一个不错的算法模型了。

2.对未来发展趋势的思考

随着人工智能的普及和发展,在全球信息化、云计算、大数据的背景下,生物识别技术的应用将会越来越大,以人脸识别为代表。呈现以下发展趋势:

网络趋势:人脸识别解决日常生活中基本的身份识别问题。未来,这种身份识别的结果将越来越多地与各行业的应用相结合,并通过互联网、物联网实现信息共享。简单来说,未来“身份识别+物联网”的发展趋势将非常普遍。多生物识别模式融合趋势:人脸识别目前的技术还不能满足人类的期望。对于一些安全要求较高的特殊行业应用,例如金融行业,人脸识别很容易被不法分子攻破获取身份。因此,需要多种生物识别技术(如活体检测、虹膜识别等)的融合和应用,进一步提高身份识别的整体安全性。云技术:未来云技术也将为人脸识别应用提供极大的数据和计算能力支持。基于云技术的访问控制可以同时管理数百甚至数千个通道。再加上物联网的普及,用户可以随时随地访问信息,对门禁进行远程控制和管理,准确识别个人,将广泛应用于企业、学校、培训机构、大型商业场馆的门禁解决方案es和办公楼。

3.对盈利模式的思考

(一)盈利模式单一

如今的人脸识别技术服务商都通过技术连接第三方应用软件,或者安装在智能终端上,通过收取一定的技术服务费来赚取利润。目前国内的一线创业公司都专注于技术和数据,但能否盈利、盈利多少还不清楚。

例如,在金融领域,利用人脸识别进行身份确认。但身份确认后,就与你无关了。你和用户的关系只在于打开某个APP或者某个终端场景(网关)。打开机器钥匙后,用户的所有行为都沉浸在APP中,不会给FR技术服务商带来其他使用数据和用户行为信息;从根本上来说,用户只需用 t 打开门他是关键,而且往往是门内的东西(用户数据)带来了商业价值。

(二)互联网与移动互联网的比较

早期的互联网时代,有很多功能性产品。比如早年的QQ只有聊天功能; 360用户仅用于查杀电脑病毒;百度是一位快速解答的老师;搜狐和新浪只用来看新闻。移动互联网时代这样的产品还有很多。滴滴帮助用户叫车; Amap几乎是一个古老的指南针。案例分析:众所周知,上面举的例子要么是互联网时代高市值的公司,要么是移动互联网时代融资率高的公司。后来,QQ用户数量增多,QQ号成为网上身份不可或缺的身份属性之一。其中积累了大量的用户数据。通过用户的使用行为信息,小马知道我们这么多人编辑了我的QQ,然后赶紧组织一些娱乐活动,让每个有QQ号的人都来玩,那么就会出现一个庞大的游戏帝国产业,游戏中会加入各种钻石(比如粉钻、绿钻、紫钻) 、黑钻)对应各种会员机制,QQ帐号则通过其他方式获取用户行为信息,如QQ音乐(下载歌曲、换皮肤需要钱)、腾讯视频(各种广告收入、会员充值等)、 QQ邮箱(高级会员功能)等,让人们越来越沉浸在QQ帝国的生态系统中,莫名其妙地被吸走了很多钱。也许你会说我可以用其他的,但这太烦人了。我必须注册这个和那个。明明一个QQ号可以万事俱备,但我却没有办法。我只是太懒了,所以懒惰的人创造了这个。世界上大多数的科技产品。滴滴现在很值d 数百亿美元。为什么投资者会对一家只帮你叫车的公司给予如此高的估值?我们知道,滴滴打车比直接打车稍微便宜一些(私家车除外)。那么它的盈利点就来自于此,投资者喜欢它的哪一部分呢?其实也不难理解,滴滴之所以有现在的估值,是因为它几乎垄断了国内出租车市场。如果大量用户使用,必然会有用户使用数据,而这个数据对于变现来说是个好东西。一旦整个生态系统建成,滴滴未来将把这些数据用于自动驾驶。一旦抢占了市场的制高点,未来将在产业链上拥有绝对的议价能力。比如,现在人们去一个陌生的地方都习惯乘坐滴滴打车。如果滴滴突然加价几毛钱一公里,你还是不用编辑使用它;心理学表明,人养成习惯后,就会产生惰性。对于没有超出自己心理承受能力预期的东西(并不是说涨价特别离谱),人们总是会保持这种习惯中的一些行为,不愿意做出改变(也就是常说的人们有一种惯性))。所以,我想大多数人都会接受,因为你花时间打车可能要花很多钱;用户基数比较大,几毛钱的增加就会带来很大的利润空间(中国有十亿多人口,一个人给我一毛钱,我就能成为亿万富翁,但对其他人来说,一毛钱可能连一袋辣条都买不了),而这只是一方面。

d.人脸识别作为一项技术,并没有实际的产品承载点。以上分析中的所有产品你都可以命名,因为这些功能或技术都有实际的产品承载。ng点。例如,QQ采用了即时通讯技术,今日头条背后的智能推荐则采用了机器学习相关技术。但在我们看来,它并不作为一种技术停留在我们的心理空间中。它是我们可以操作和使用的真实产品。无论是QQ、滴滴、高德、今日头条、新浪等,我们都可以真实的接触到这些产品,并且后续的动作都在这个技术的承载点之内(比如即时通讯技术的产品承载点)就是QQ,机器学习技术的产品承载点就是头条),那么用户的数据自然就在产品承载点之中,这样我们就可以利用数据来创造价值,实现盈利。

e.现阶段,人脸识别仍然只是作为一项技术出现在公众眼中,人们的潜意识里还没有建立一个概念,那就是,这人脸识别到底是什么,可以操作吗?能带来什么我?一旦人脸识别有了产品承载点,可以让用户实际操作并积累数据,就有可能盈利。至于人脸识别这个产品承载点,现在还没有出现,但未来肯定会出现。这也是未来一个很大的机会。不管是什么,这个产品一定能够被用户实际接触到,并且以后也会被追随。其中也会有行动,后者是必要条件。

4.对信息安全的思考

上述的产品承载点一旦出现,FR技术必将大行其道,信息安全问题也可能随之而来。

物联网时代,万物互联,万物智能。 FR技术也将融入物联网。人们可能不需要物理身份证件。当你开门时扫描你的脸回家刷脸、出门开车刷脸、进公司刷脸、出去吃饭刷脸、结账刷脸。当你的脸成为你的虚拟ID,一旦不法公司、团体、个人泄露或破解你的人脸虚拟ID,你的所有信息都可能暴露给他人,包括你的财产、房屋、汽车。风险在于,如果你丢失了面容ID,你将无法证明自己的身份,就像你丢失了身份证一样。可想而知,信息安全的重要性。未来,估计会诞生一个虚拟的身份信息系统,里面包含了每个人的身份信息。当第三方需要身份认证时,可以访问系统等。前段时间,Facebook因社交信息泄露而引发公愤和公关麻烦。我想,如果未来有一家公司负责用户信息数据的监管,那也不会奇怪。

5.关于产品形态的思考

可访问性:无论FR技术最终以硬件还是软件的形式出现在用户面前,前提是用户能够实际访问它,而不是像在云端一样无法访问被感动。只有当用户接触到它时,他们才会有一个概念:它是一个产品,而不是一项技术。比如AR美颜,就是一个真实可操作的产品。持续可用性(高频):产品必须被用户持续使用,也就是所谓的高频。只有这样,我们才能生成可用的信息数据来货币化。功能承载能力:产品必须能够以功能的方式解决用户生活中的某一类问题。除了身份认证(金融行业、安防门禁)、视觉欣赏(美容、化妆、整容)、社会判断依据(婚恋网站),脸还能用来做什么?至 C 或至 B:与互联网时代的发展,我个人始终认为,一个产品只有围绕用户提供服务,才能成为明星产品。从历史的角度看,每一个朝代的兴衰都是人民的意愿。有句话叫“水能载舟,亦能覆舟”。产品也是如此。从产品概念诞生到现在,每一款产品的兴衰也是以用户为基础的。任何产品只有放弃用户才可能消亡,虽然在目前的FR层面,应用都在B端,但未来成功的FR应用产品必然会在C端诞生。

下面附有一张总结本系列文章的想法图:

大图地址:

https://upload-images.jianshu.io/upload_images/8484039-397ceeedb8b3d438.png