人工智能技术在声纹识别方面的应用,双生物特
分类:威尼斯手机娱乐官网

中新网1月21日电 日前,语音 AI 领军企业云知声宣布,其与中国领先的一站式医疗健康生态平台平安好医生共同研发的“声纹登录系统”经过多次模型优化和升级迭代后,登录成功率接近 99%,达行业一流水准。

更多AI资讯,关注:九三智能控

同属于生物识别技术,与火爆的人脸识别相比,声纹识别表现得很低调,然而这并不影响这一黑科技魅力的散发,本文将带你认识一下声音黑科技-声纹识别,让你了解真正的“闻声识人”。

更安全的验证方式:双生物特征融合认证

当苹果公司推出带有指纹识别功能的iPhone6,类似指纹识别的生物特征识别技术也在移动设备端被更为广泛地应用。除了设备解锁、登录等环节,包括购物支付等流程的指纹识别应用,为人们的生活和工作,带来了一种更为安全和便捷的验证方式。然而,现在有一种更为安全的验证方式:双生物认证方式。

人们通过听觉来判断说话人的身份,古已有之,正所谓“闻声知人”。对计算机来说,这种能力就是声纹识别,又称说话人识别,它基于语音中所包含的说话人特有的个性信息,自动鉴别当前语音对应的说话人身份,是一种简单、优雅、安全的生物特征识别技术。经过半个多世纪的探索实践,声纹识别技术已逐渐走向成熟,迎来了历史上最佳的应用发展时期。

威尼斯官方网站 1

        人工智能技术对于传统产业的推进作用越来越凸显,极大提升了传统产品的商业价值。“听声识我,开口即播”长虹CHiQ5人工智能电视成为全球首款搭载声纹识别的人工智能电视,可以直接通过每个人说话的声音不同而区分目前使用电视用户是谁,从而实现内容的精准推荐。无需借助遥控和手机等智能设备,通过识别家庭成员的声纹来控制电视。语音助手配备海量语音库,使用语义模糊识别功能,即使说错片名也能自动识别出你想要的内容,但是当人们在观看某一节目的时候谈论提及其他电视节目名称,语音助手功能识别后当即转换到另一个节目影响正常节目的观看。但是在价格方面,55寸售价7597元,65寸售价13997元,75寸售价21997元,价格过高难以普及,但是也从侧面证明人工智能确实可以提升产品附加值。

威尼斯官方网站 2

多生物特征融合认证更安全

科大讯飞李繁:“单一生物特征认证有局限性,人脸、声纹等的融合认证更具优势”

声纹识别:利用电声学仪器显示的声波频谱,来进行声纹鉴别和声纹确认。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。我们

人脸识别:人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。

作为科大讯飞云平台事业部人脸声纹技术主管,李繁认为,多生物特征融合的验证方式,能最大限度的利用两种生物特征的优点,同时一定程度上降低单一生物特征识别的误识率。
声纹识别技术和人脸识别技术能够被用作便捷的身份认证形式,与其拥有的特点是分不开的.这些生物特征与生俱来的,具备唯一性,不易被复制。其次,这些特征都是易采集且采集隐蔽性较强,无需新增硬件成本还能够被远程操作

威尼斯官方网站 3

声纹识别(Voiceprint Recognition,VPR)也称说话人识别,是一种通过声音判别说话人身份的技术,分为说话人辨识和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,即“ N 选一”;后者用以确认某段语音是否是指定的某人所说,是“1对1匹配”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需用到确认技术。

        目前人工智能发力的领域主要集中在指纹、脸、声音、眼睛等等,都是人和人之间相互区分的独一无二的标识上,称之为“生物特征”。声音就是这种一种可以反映人身份的生物特征,参考“指纹”的命名方式,可以叫它“声纹”。 声纹是指人类语音中携带言语信息的声波频谱,它同指纹一样,具备独特的生物学特征,具有身份识别的作用,不仅具有特定性,而且具有相对的稳定性。声音信号是一维连续信号,将它进行离散化后,就可以得到我们现在常见的计算机可以处理的声音信号。

本文将从如下方面为你一一解读:

生物特征验证应用领域广泛

随时生物特征验证技术的日渐成熟,其应用领域也十分广泛

金融、证券、电子商务

政府、公安、民生安防等多个领域

国外:公共安全和司法监督

企业员工打卡、登录内部系统权限

在金融领域的应用正在逐步升温,今年2月,徽商银行正式发布带有人脸声纹识别功能的手机银行版本,用户在使用手机银行的时,可用“人脸 声纹识别”替代手动输入密码。
目前,国内有很多互联网企业致力于生物特征验证领域的探索和实践。其中,互联网安全公司“洋葱”更是已经将多生物特征验证技术应用到旗下产品。“洋葱”能让用户通过声纹、指纹、人脸等多种生物特征及行为特征,进行验证登录,充分实现多种生物验证方式相结合的安全登录。你,就是最好的密码

声纹是一种行为特征

云知声声纹技术负责人表示,作为国内为数不多具备全栈语音技术能力的人工智能公司,云知声已在声纹技术领域深耕多年。团队多位技术骨干曾在美国国家标准技术署主办的说话人识别技术评测中多次屡次斩获第一名,且早在 2004 年,尚就职于摩托罗拉公司的云知声公司创始人黄伟博士便带领团队研发出世界上第一款手机声纹认证系统,搭载该系统的相关产品总计销量超 2 亿台。

威尼斯官方网站 4

什么是声纹?

所谓声纹,就是对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征所建立的语音模型的总称。与指纹的唯一性类似,每个人在说话过程中所蕴含的个性特征几乎是独一无二的,就算被模仿,也改变不了说话者最本质的特性。尤其在成年之后,可以在相当长的时间里保持相对稳定不变。

近年来,伴随深度学习的兴起,云知声在国内率先将这一技术使用到语音识别中,且后续引入到声纹识别领域,解决了一系列声纹技术实用难点,并应用到实际产品上。此次,云知声和平安好医生联手打造的平安好医生客户端用户声纹登录系统便是其中一项成功案例。

       在实际应用中,声纹识别也存在一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。

声纹识别的原理

声纹是一种行为特征,由于每个人在讲话时使用的发声器官如舌头、牙齿、口腔、声带、肺、鼻腔等在尺寸和形态方面有所差异,以及年龄、性格、语言习惯等多种原因,在发音时千姿百态,因而导致这些器官发出的声音必然有着各自的特点。可以说,任何两个人的声纹图谱都不尽相同。

云知声声纹技术负责人指出,虽然声纹识别优势明显,但是要想准确分辨声音特征却并非易事。首先,声纹识别系统性能会受用户发声状态影响,如用户的身体状况、情绪等都会影响识别准确度。其次,环境的嘈杂度,以及采集、传输音频的硬件配置,都会在不同程度上对识别系统造成干扰。

        声纹识别(也称说话人识别)技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样,从说话人发出的语音信号中提取语音特征,并据此对说话人进行身份验证的生物识别技术。每个人都具有独一无二的声纹,这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似,声纹其实都是具有显著区别的。声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是"多选一"问题;而后者用以确认某段语音是否是指定的某个人所说的,是"一对一判别"问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的"训练"或"学习"过程。

声纹识别算法的技术指标

声纹特征以声音为载体,具有以下特点:

为解决上述难点,云知声声纹技术团队进行了一系列技术攻坚与创新。首先,依托云知声强大的语音信号前端处理技术,如 VAD、语音降噪等,准确地捕捉到人声并进行背景噪声消除;其次,云知声将 DNN 引入到传统声纹识别 ivector 技术框架中,并融合最新端到端声纹识别技术,基于云知声超算平台和海量声纹训练数据,使得模型得以学习到数万说话人,每人多种发声的特性,且在云端针对每个用户采用说话人自适应技术,达到越用越好的效果;在信道处理上,采用 PLDA 信道补偿技术,可将信道影响降到最小。

        现实生活中的“未见其人,先闻其声”就是人类通过声音去识别另一个人身份的真实描述,虽然目前计算机还做不到通过一个字就判断出人的身份,但是利用大量的训练语音数据,可以学出一个“智商”还不错的“声纹”大脑,它在你说出8-10个字的情况下可以判断出是不是你在说话,或者在你说1分钟以上的话后,就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念:1:1 和 1:N,同时也包含了只有在声纹识别技术中存在的独特的概念:内容相关和内容无关。

影响声纹识别水平的因素

交互性。声音是唯一可双向传递信号的生物特征,既可以接收信息,也可以发出信息,实现交互。

据悉,为保障用户登陆的“安全性”,云知声为平安好医生客户端声纹登录系统提供数字串注册和登录的“文本弱相关”技术,工程难度更高,安全性更强。与传统固定口令登录方式不同,该系统采用随机数字串登录方式,即在用户进行登录时,系统会随机下发 8 位随机数字串,可有效规避录音攻击等安全问题。

        对于一个生物识别系统而言,如果它的工作模式是需要你提供自己的身份(账号)以及生物特征,然后跟之前保存好的你本人的生物特征进行比对,确认两者是否一致(即你是不是你),那么它是一个1:1的识别系统(也可以叫说话人确认,Speaker Verification);如果它只需要你提供生物特征,然后从后台多条生物特征记录中搜寻出哪个是你(即你是谁),或者哪个都不是你,那么它是一个1:N的识别系统(也可以叫辨认,Speaker Identification)。

声纹识别的应用流程

便捷性。声音是唯一周边无死角的生物特征,可以实现非接触式采集,方便使用。

在同一账号下,云知声声纹识别产品可支持 6 人注册。在客户端,云知声提供封装好的 SDK,支持声纹注册、登录、解绑等接口,供上层调用 API 实现产品逻辑。同时,云知声还提供成熟的声纹服务私有化部署方案,基于在金融、客服、快递等不同行业丰富的私有云部署经验,可有效保障客户数据安全。

威尼斯官方网站 5

声纹识别的应用场景

变化性。声音是高可变性与唯一性的完美统一。没有两个声音是完全一样的,但里面所蕴含的信息,比如你是谁、你的年龄、你的情感等信息却都是唯一确定的。这种高可变性和唯一性的完美统一使得语音信号自身就具备了很强的防攻击能力。

公开信息显示,在移动医疗领域,云知声与平安好医生有长期合作。2017 年 12 月,双方合资成立上海澔医智能科技有限公司,共同探索以智能语音识别等技术为基础的家庭智慧医疗服务终端建设。

技术上,简单的声纹识别的系统工作流程图。


丰富性。声音有“形简意丰”的特点,它虽然只是一个一维信号,但是蕴含着丰富的信息。在相同一段语音中,除了包含说话人信息外,还包含内容、语种、性别、情绪、年龄,甚至包含出生地、身体健康状况等丰富的信息。

威尼斯官方网站 6

一、什么是声纹?

声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性,又有变异性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。

尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。

声纹不如图像那样直观展现,在实际分析中,可通过波形图和语谱图进行展现,如下所示:

威尼斯官方网站 7

作为一种身份认证手段,声纹还具有如下优势:

        对于声纹识别系统而言,如果从用户所说语音内容的角度出发,则可以分为内容相关和内容无关两大类技术。顾名思义,“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容,而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以,由于内容大致类似,只需要考虑声音本身的差异,难度相对较小;而后者由于不限定内容,识别系统不仅需要考虑用户声音之间的特定差异,还需要处理内容不同而引起的语音差异,难度较大。

二、声纹识别的原理

人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异,主要体现在如下方面:

共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣

嗓音纯度特征:不同人的嗓音,纯度一般是不一样的,粗略地可分为高纯度(明亮)、低纯度(沙哑)和中等纯度三个等级

平均音高特征:平均音高的高低就是一般所说的嗓音是高亢还是低沉

人工智能技术在声纹识别方面的应用,双生物特征融合认证。音域特征:音域的高低就是通常所说的声音饱满还是干瘪

不同人的声音在语谱图中共振峰的分布情况不同,声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人,从而实现“闻声识人”的功能。

威尼斯官方网站 8


不怕丢失。不同于指纹、虹膜、人脸等静态的生理特征,声纹作为一种动态的行为特征,不容易丢失,可以做到“失声”。

        目前有一种介于两者之间的技术,可以称之为“有限内容相关”,系统会随机搭配一些数字或符号,用户需正确念出对应的内容才可识别声纹,这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异,这种特性正好与互联网上广泛存在的短随机数字串(如数字验证码)相契合,可以用来校验身份,或者和其他人脸等生物特征结合起来组成多因子认证手段。

三、声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能,除此之外还有其它的一些指标,如:信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标,这部分后续于详细展开讲解。

错误拒绝率(False

Rejection Rate, FRR):分类问题中,若两个样本为同类(同一个人),却被系统误认为异类(非同一个人),则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。

错误接受率(False

Acceptance Rate, FAR):分类问题中,若两个样本为异类(非同一个人),却被系统误认为同类(同一个人),则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。

等错误率(Equal

Error Rate,EER):调整阈值,使得误拒绝率(False

Rejection Rate,FRR)等于误接受率(False Acceptance Rate,FAR),此时的FAR与FRR的值称为等错误率。

准确率(Accuracy,ACC):调整阈值,使得FAR+FRR最小,1减去这个值即为识别准确率,即ACC=1–min(FAR FRR)

速度:(提取速度:提取声纹速度与音频时长有关、验证比对速度):Real Time Factor实时比(衡量提取时间跟音频时长的关系,比如:1秒能够处理80s的音频,那么实时比就是1:80)。验证比对速度是指平均每秒钟能进行的声纹比对次数。

ROC曲线:描述FAR与FRR之间相互变化关系的曲线,X轴为FAR的值,Y轴为FRR的值。从左到右,当阈值增长期间,每一个时刻都有一对FAR和FRR的值,将这些值在图上描点连成一条曲线,就是ROC曲线。

阈值:在接受/拒绝二元分类系统中,通常会设定一个阈值,分数超过该值时才做出接受决定。调节阈值可以根据业务需求平衡FAR与FRR。 当设定高阈值时,系统做出接受决定的得分要求较为严格,FAR降低,FRR升高;当设定低阈值时,系统做出接受决定的得分要求较为宽松,FAR升高,FRR降低。在不同应用场景下,调整不同的阈值,则可在安全性和方便性间平平衡,如下图所示:

威尼斯官方网站 9


难以伪造。声纹蕴含于人的语音当中,而语音是千变万化的。即便人两次读相同的内容,也不可能发出完全相同的声音。正是声纹这种“蕴不变于千变万化之中”的特性,使得声纹特征更加深层、难以琢磨,伪造起来也更为困难,因而认证强度更高、更安全。

        具体到声纹识别算法的技术细节,人工智能技术在声纹识别方面的应用,双生物特征融合认证。在特征层面,经典的梅尔倒谱系数MFCC,感知线性预测系数PLP、深度特征Deep Feature、以及能量规整谱系数PNCC 等,都可以作为优秀的声学特征用于模型学习的输入,但使用最多的还是MFCC特征,也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面,目前还是N.Dehak在2009年提出的iVector框架一统天下,虽然在深度学习大红大紫的今天,声纹领域也难免被影响,在传统的UBM-iVector框架下衍化出了DNN-iVector,也仅仅是使用DNN(或者BN)提取特征代替MFCC或者作为MFCC的补充,后端学习框架依然是iVector。

四、影响声纹识别水平的因素

训练数据和算法是影响声纹识别水平的两个重要因素,在应用落地过程中,还会受很多因素的影响。

声源采样率

人类语音的频段集中于50Hz ~ 8KHz之间,尤其在4KHz以下频段

离散信号覆盖频段为信号采样率的一半(奈奎斯特采样定理)

采样率越高,信息量越大

常用采样率:8KHz(即0 ~ 4KHz频段),16KHz(即0 ~ 8KHz频段)

信噪比(SNR)

信噪比衡量一段音频中语音信号与噪声的能量比,即语音的干净程度

15dB以上(基本干净),6dB(嘈杂),0dB(非常吵)

信道

不同的采集设备,以及通信过程会引入不同的失真

声纹识别算法与模型需要覆盖尽可能多的信道

手机麦克风、桌面麦克风、固话、移动通信(CDMA, TD-LTE等)、微信……

语音时长

语音时长(包括注册语音条数)会影响声纹识别的精度

有效语音时长越长,算法得到的数据越多,精度也会越高

短语音(1~3s)

长语音(20s+)

文本内容

通俗地说,声纹识别系统通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人

固定文本:注册与验证内容相同

半固定文本:

内容一样但顺序不同

文本属于固定集合

自由文本


隐私性弱。俗话说“身体发肤受之父母”,在一般的大众认知中,人们在很多场合下往往不愿意被拍照或者按手印,但采集一段随机跟读的声音,对于大众更加容易接受。

威尼斯官方网站 10

五、声纹识别的应用流程

声纹识别(VPR),生物识别技术的一种,也称为说话人识别 ,是从说话人发出的语音信号中提取声纹信息,从应用上看,可分为:

说话人辨认(Speaker

Identification):用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;

说话人确认(Speaker

Verification):用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。

声纹识别在应用中分注册和验证两个主流程,根据不同的应用中,部分处理流程会存在差异,一般的声纹识别应用流程如下图所示:

威尼斯官方网站 11


由于声纹具有以上特点,声纹识别技术可广泛应用于各种场景。尤其在光线或隐私等受约束的特定场景中,声纹比其他方法更加方便自然,成为首选甚至唯一的选择。

        上图示出了一个完整的声纹识别系统的训练和测试流程,可以看到在其中iVector模型的训练以及随后的信道补偿模型训练是最重要的环节。在特征阶段,可以使用BottleNeck特征取代或者补充MFCC特征,输入到iVector框架中训练模型。

六、声纹识别的应用场景

声纹识别作为生物识别技术的一种,有非常多好的应用场景,根据声音的特性,下面从公共安全、金融、社保、智能硬件四个领域介绍声纹识别的应用。

1、公安领域

声纹作为一种生物特征,最早在刑侦和鉴识领域成功应用。

近年来,由于互联网的发展,语音案件也呈现出井喷的趋势,在这些语音案件中,声纹识别成了唯一一种有效的技术侦破手段,通过的声纹识别和声纹大数据技术进行重点人员监管、反电信诈骗、反恐、刑事案件侦破、身份查询与核验,助力公安有效遏制与打击犯罪,构建和强化安全的社会公众环境。

2、金融

针对银行、互联网金融等各类金融及服务机构,通过声纹识别技术,提供了用户注册、远程验证、金融生物识别解决方案,大幅提高金融机构的风险防范系统安全性,强化风控能力,增加用户的安全性,防范身份欺诈。

另外在电话客服系统中,通过声纹识别技术,可实时识别出用户的身份,从而提供个性化的客户服务。

3、社保

我国针对离退休人员,每年至少需要进行一次生存状态验证,并以此为依据进行养老金的发放,目前可通过到指定社保大厅或自助终端进行生存验证,对于一些行动不便的老人家,这种方式也是非常不便利。声纹识别技术在远程身份验证中有着天然的优势,只需要一个电话(手机或固话都可以),即可完成生存验证,为参保人员提供了便利,同时也为国家节省大量成本,避免养老金流失。

4、智能硬件

在智能硬件产品中,声纹识别解决了当前智能产品只能识别用户所说的内容,而不能区分说话人身份的问题,让智能产品能够区分不同的角色,实现“听声识人”。

让系统针对性对每个人提供不同的内容与服务,让人机交互更加简单,让用户享受更轻松、更具个性化、更安全的产品体验。


声纹技术的分类逻辑

威尼斯官方网站 12

七、总结

声纹识别作为最前沿的生物识别技术,随着技术的成熟,将会在越来越多的应用场景下落地,我们相信在不久的将来,在第三代身份证上,声纹将成为继指纹、人像后又一个新增的公民身份ID。声音将在我们未来的科技生活中扮演眼越来越重要的角色。

声纹识别技术是一个统称,实际上,按照不同的应用方式和其他的一些限定,声纹识别又被分成了多个技术类别。其中,按照实际应用的方式可分为三类:

        在系统层面,不同的特征及模型,可以从不同的维度刻画说话人的声音特征,加上有效的分数规整,将各子系统融合能有效的提高系统的整体性能。

相关阅读

AI PM老司机带你认识声音黑科技:声纹识别

AI PM老司机告诉你:如何评测声纹识别系统?

AI PM老司机告诉你:怎样让你的智能设备“闻声识人”

作者:Micos,昵称:不知道,微信号:Never_Know_It,在人工智能浪潮中推波助澜的产品经理,致力于用智能语音实现人与机器最自然的交互方式。

声纹确认,即给定一个说话人的声纹模型和一段只含一名说话人的语音,判断该段语音是否是该说话人所说。


声纹辨认,即给定一组候选说话人的声纹模型和一段语音,判断该段语音是哪个说话人所说。

投稿、商业合作、加入微信群,请发邮件至:158354995@qq.com

声纹检出和追踪,即给定一个说话人的声纹模型和一些语音,判断目标说话人是否在给定的语音中出现。如果目标说话人在语音中出现,则标示出对话语音中目标说话人所说的语音段的位置。

加入微信群请在邮件说明“微信号 名字 研究领域/专业/学校/公司”

正因为声纹是一种动态的行为特征,在上述普遍适用于各种生物特征识别技术的分类之外,声纹识别还多了一个技术维度——它的分类与说话的内容有关。

威尼斯官方网站 13

根据声纹识别与待识别语音的文本内容的关系,声纹识别又可分为三类:

文本无关,即对于语音文本内容无任何要求,说话人的发音内容不会被预先限定,说话人只需要随意录制达到一定长度的语音即可。这种方法使用起来更加方便灵活,具有更好的推广性和适应性。

文本相关,即要求用户必须按照事先指定的文本内容进行发音。由于文本相关场景下,语音内容受到限定,整体随机性比文本无关场景下的小,所以一般来说其系统性能也会相对好很多。

文本提示,即从说话人的训练文本库中,随机提取若干词汇组合后提示用户发音。既对语音内容的发音范围进行了限定,又通过随机组合的方式,保留了语音内容的随机性,是文本无关与文本相关的一种结合。这种方式能一定程度上避免文本相关时的假冒录音闯入问题,同时具有较高的系统性能,且实现方便,是说话人识别技术的一大热点。

不同类别的声纹识别技术之间,其采用的算法也会有细微的不同,对应的应用领域也会有所不同。无论是哪种声纹识别技术,都经过了漫长的发展过程。

从算法到工程的进化

人工分析阶段

以语音作为身份认证的手段,最早可追溯到 17 世纪 60 年代英国查尔斯一世之死的案件审判中。对说话人识别的研究始于 20 世纪 30 年代。自 1937 年的 C. A. Lindbergh 儿子被拐骗事件开始,人们针对语音中的说话人信息开展了科学的探索和研究。1945 年,Bell 实验室的 L. G. Kersta 等人借助肉眼观察,完成语谱图匹配,并首次提出了“声纹(Voiceprint)”的概念;且在 1962 年第一次介绍了采用此方法进行说话人识别的可能性。1966 年,美国法院的第一次采用“声纹”进行了取证。随着研究手段和计算机技术的不断进步,说话人识别逐步由单纯的人耳听辨,转向基于计算机的自动识别。

基于专家知识设计的特征与模版匹配方法阶段

在传统的模式识别方法中,算法的关键一般分为两个部分:特征和模型。想要准确的完成自动说话人识别,不仅需要区分性强的特征,也需要更精准和鲁棒的模型。

一在特征方面:1969 年 JE Luck 首先将倒谱技术用于说话人的识别,得到了较好的效果。BS Atal 将线性预测倒谱系数 LPCC 用于说话人识别,提高了特征参数的区分精度。此后,研究者相继提出了 LPC 谱系数、 LSP 谱系数、感知线性预测系数 PLP、梅尔倒谱系数 MFCC 等说话人特征。

二在模型方面: Bell 实验室的 S. Pruzanshy 提出的基于模板匹配和统计方差分析的说话人识别方法,引起信号处理领域许多学者的注意,一时间成为该领域的主流算法。后来,相继有学者提出动态时间规整 DTW、隐马尔可夫模型 HMM 等技术,也成为说话人识别的核心技术。

基于混合高斯的识别模型阶段

20 世纪 90 年代以后,尤其是 D. Reynolds 对高斯混合模型GMM做了详细介绍后, GMM 以其简单、灵活、有效以及较好的鲁棒性,迅速成了目前与文本无关的说话人识别的主流技术,将说话人识别研究带入一个新的阶段。 2000 年,D. Reynolds 在说话人确认任务中提出了高斯混合模型-通用背景模型 GMM-UBM结构,为说话人识别从实验室走向实用作出了重要贡献。进入 21 世纪,在传统GMM-UBM 的方法上, P. Kenny、 N. Dehak 等人先后提出了联合因子分析JFA 和 i-vector 模型,将说话人模型映射到低维子空间中,克服了 GMM-UBM系统中高斯分量互相独立的局限性,提高了系统性能。之后,有研究者提出将概率线性判别分析 PLDA 方法对 i-vector 进行建模,进一步提高了系统的精度。

基于数据驱动的深度特征学习与端到端学习阶段

近年来,随着深度机器学习在语音识别、图像处理等领域的快速发展和成功应用,基于深度学习的相关方法也逐渐应用到说话人识别中,并取得了不俗的成效。Georg Heigold 等人提出了端到端的声纹确认方法,其取网络最后一层隐藏层的激活作为说话人表征,使用余弦距离判断两个表征向量是否为同一个说话人。Mirco Ravanelli 等人提出 SincNet 架构,以 sinc 函数限定网络第一层卷积结构,让网络学习滤波器的截止频率,实现从原始语音信号直接学习,完成声纹识别任务。 Johan Rohdin 等人则模仿当前主流模型 i-vector-PLDA 模型的工作流,使用深度神经网络 DNN 实现工作流的每个部件,得到了不错的效果。

聚焦鲁棒性问题的工程化实用化技术解决阶段

随着声纹识别技术逐渐成熟、趋于实用,与声纹识别相关的鲁棒性、安全性问题,也受到了研究和开发人员的关注,包括噪声、跨信道、多说话人、身体条件变化、说话方式变化、短语音等鲁棒性问题。 2000 ~ 2010 年代,清华大学语音和语言中心对由于声纹随说话人年龄变化而发生变化从而导致系统识别性能下降的声纹时变问题进行了研究,提出了时变鲁棒的声纹特征;对使用录音和录音拼接攻击声纹识别系统这一安全问题进行了研究,并提出了切实可行的录音检测方法。

场景驱动下的商用浪潮

走出实验室的声纹识别技术因其广阔的应用场景和价值,从特定领域到民用领域,在国内外正迎来第一波商用化浪潮。

声纹辨认技术,为国家和公共安全服务

随着固定电话和移动通讯网络的发展,声纹辨认技术首先在针对特定人群的国防安全、公安技侦、司法矫正等领域投入使用,有力保障了国家和公共安全。例如在战场环境下,声纹辨认技术可察觉电话交谈过程中是否有关键说话人出现,一旦通过电话发出军事指令时,便可对发出命令者进行身份辨认。据报道,2001 年 4 月 1 日迫降在我国海南机场的美军 EP-3 侦察机就载有类似的声纹识别侦听模块。在反恐作战中,恐怖分子在作案前后的通讯中往往会包含关键内容,因此,在通信系统或安全监测系统中预先安装声纹辨认系统,可通过通讯跟踪和声纹辨别技术对罪犯进行预防和侦查追捕。据悉,拉登的落网正是美国情报部门充分利用了声纹鉴别技术。此外,声纹辨认技术还用于对满刑释放的犯罪嫌疑人进行监听和跟踪,可有效阻止犯罪嫌疑人再次犯科;针对通过电话勒索、绑架等刑事犯罪案件,公安司法人员也可利用声纹辨认技术,从通话语音中锁定嫌疑犯人、缩小刑侦范围。

声纹确认技术,为泛金融身份认证保驾护航

随着网上支付、手机支付等成为现代人购物付款的主流方式,网络支付的身份认证开始愈发重要。为防止盗刷等案件发生,将声纹确认技术加入到交易支付中,通过动态声纹密码的方式进行客户端身份认证,可有效提高个人资金和交易支付的安全。在国外,英国巴克莱银行、美国花旗银行、澳大利亚国家银行、万事达卡机构等都已开始引入声纹技术。在我国, 2016到2018年间,中国建设银行、贵阳银行、兰州银行、西安银行、中国银联、中国互金协会等多家单位与北京得意音通公司合作,由后者为其提供声纹识别身份认证服务,用于账户登录、大额转账、无卡取款、密码找回等业务场景。微信和支付宝也已上线基于声纹动态口令的登录方式。

此外,在信贷业务中引入声纹识别技术作为反欺诈手段,还可有效降低冒用他人身份进行骗贷以及多头贷款等事件的发生率。城乡养老保险是社会保障体系的重要组成部分,然而冒领养老金的事件时有发生,每年冒领总金额以亿元计,但若要求高龄老人亲临现场验明正身才能领取养老金,则会非常不便。由于声纹确认技术具有很强的远程操控属性,社保局通过预装声纹身份认证系统,可非常方便地对领养老金者开展远程身份认证,让“信息多跑路,群众少跑腿”。目前正在贵州省黔东南州开展的州一级试点,为当地各族群众提供了极大的便利。

声纹技术融合,迎个性化语音交互时代

随着语音技术的普及,越来越多的声纹识别应用场景还在不断涌现。如利用声纹确认技术,可完成个人日常生活中的各种事物访问控制的授权,比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等;利用声纹辨认技术,可支持智能音箱、智能语音助手等提供个性化服务,如针对家庭用户中的老年人、儿童等不同年龄段用户,按照兴趣推荐不同的歌曲、新闻,以及开放特定的功能权限等;利用声纹检出和追踪技术,可取代人工完成会议纪要,通过语音识别和声纹识别技术的结合,将会议录音通过语音识别技术识别说话内容、通过声纹识别技术标注每段话所对应的说话人,即可轻松完成多人会议记录,大大提高工作效率。需要注意的是,这些新兴需求大部分还处在探索阶段。

总的来说,随着技术的不断成熟和融合,声纹识别技术将逐渐融入人们的日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。

后标准时代的趋势与挑战

为规范和正确引导声纹识别发展,国内已公布多项关于声纹识别的标准。2008年,原信息产业部正式颁布实施了《自动声纹识别技术规范》,这是我国第一个关于声纹识别的行业标准。2010 年 12 月 2 日,公安部颁布实施了《安防声纹确认应用算法技术要求和测试方法》。2018年10月9日,中国人民银行正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准,这是第一个被金融监管部门认可的生物识别标准,为声纹识别技术进入移动金融领域解决了标准难题。

央行标准的颁布,为声纹识别技术进入移动金融领域解决了标准难题,金融科技一跃成为声纹识别时下最热门的应用领域之一,2018 年也因此成为声纹技术的应用“元年”。

从技术发展来看,声纹识别当前还存在以下几个挑战:

鲁棒性挑战。鲁棒性是指声纹识别抵抗其他因素干扰的能力。这些干扰可能来自说话人自身,比如说话人随着身体状况改变而发声的声音改变、随着年龄增长而发声的声音变化、不同情感、语气、语速情况下的声音变化。也可能来自说话人之外,比如噪声干扰、远场情况下收录到的声音发生的变化。如何在众多干扰之下,精准的对声纹进行识别,是一个重要的研究方向。

防攻击挑战。防攻击是指声纹识别系统拒绝非真实说话人的能力。这些尝试进入系统的声音,可能是由人类模仿发声的,也可能是机器伪造的,比如通过语音合成、声音转换以及录音重放技术,产生出和真实说话人相近的声音,尝试进入系统。如何阻止这些假冒语音通过系统,是一个重要的研究方向。

超短语音挑战。短语音是指系统的识别性能对语音长度的依赖性。较长的语音会达到更高的精准度,但显然,过长的语音会影响用户体验。并且在一些特定场景下,比如司法应用中,系统只能收集到有限长度的语音。因此,如何在较短语音长度的情况下,提高系统的识别性能,也是一个研究方向。

众多的挑战,预示着声纹识别的完善之路还很长。而相关标准的发布,标志着声纹识别正受到国内各界的认可,并吸引了越来越多的从业者进入此领域。然而技术发展自有其规律,热度之下仍需冷静,有序推进方为正道。相信在标准的正确引导和业界的共同努力下,拥有广阔应用场景的声纹识别未来定能在各个领域开花结果,走进更多普通人的生活。

会员企业:得意音通

威尼斯官方网站,得意音通成立于2002年,是清华大学知识产权入股的高科技企业、中国人工智能产业发展联盟理事单位、互联网金融身份认证联盟理事单位。得意音通主导起草了我国第一个声纹识别标准,以及截至目前声纹识别领域所有的国家和行业标准,在声纹识别这一被美国列为战略安全技术的领域居国际领先地位,可提供高安全、弱隐私、低成本的无监督身份认证服务。

编辑:王菁

校对:林亦霖

— 完 —

本文由威尼斯官方网站发布于威尼斯手机娱乐官网,转载请注明出处:人工智能技术在声纹识别方面的应用,双生物特

上一篇:威尼斯官方网站:构建世界级公司管理协理平台 下一篇:没有了
猜你喜欢
热门排行
精彩图文