语音识别已成红海，声纹识别正成为AI领域新热点

2019-02-19 17:29:05来源：界面新闻

过去几年有不少人工智能领域独角兽企业崛起，比如视觉识别领域的商汤科技和旷视科技，语音识别领域的云知声等。但在声纹识别领域，还没有明显一些公司可以算是一马当先。

这背后的原因在于，视觉识别和语音识别所解决的往往是一种有关共性的问题，以语音识别为例，它所要做的只是将说话人的语音内容识别出来。然而声纹识别除了要识别文本内容之外，可能还要涉及到识别说话人的身份等方面，多种因素的叠加使得这项技术的落地有更多的难度。

不过，随着技术的逐步完善，已经有一些初创企业开始推出了相应的技术解决方案，并且开始在各个细分行业中落地。

成立于2016年的声扬科技是声纹识别这个赛道中的一家初创企业。公司创始人兼CEO李亚桐认为，从最近整个行业展现出的状况来看，声纹识别的发展程度已经类似2014年前后的视觉识别，正处于一个早期阶段，并且等待着爆发期的来临。

“目前市面上，以语音识别、转写为主打方向的SaaS服务提供商已经有很多;鉴于声纹识别的技术难度要更为复杂，这个领域应该还在刚起步阶段，但随着应用场景的越来越多，它很快会迎来爆发。”李亚桐对界面新闻记者分析称。

他认为，相比于人脸识别和指纹识别，声纹的采集只需要麦克风模块，成本相比于摄像头或者指纹识别模块而言要低，采集的方便性和安全性则要高，因此这项技术有着比较明确的市场前景。

在国内，有助于声纹识别落地的行业政策已经出台。2018年11月，中国人民银行正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准，这意味着声纹识别技术得到金融监管部门的认可，也为声纹识别技术进入移动金融领域解决了标准难题。

此前，声扬科技也已经在海外的金融相关业务落地。2018年，它们在印尼为当地的养老基金项目打造了一套声纹识别系统，让当地居民通过阅读特定文本的方式来通过验证，申领养老金。

以往，当地居民申领养老金需要在线下的银行机构等排队等候，这一方式的不便之处在于，既占用了居民的生活时间，也导致机构需要投入额外的人力来进行信息验证。目前，声扬科技的方案已经覆盖了当地250万名居民。

在打造技术方案的过程中，声扬科技的技术团队不可避免地会遇到语音方面的一些复杂问题。比如说，作为一个多民族国家，印尼国内居民口音的多样性，以及文化水平的差异性，都会使得用户在读出同一段文字时有不同的效果。另外，当地居民在采集声纹时使用的不同设备，如智能机和功能机，也都会影响到声音的真实性。

为了解决这个问题，声扬科技在复杂的场景下，基于自身的神经网络技术做了很多用户测试;除此之外，养老基金的识别系统除了声纹识别外，还有指纹识别和人脸识别模块，三种方式之中的两种通过了，验证才算正式完成。

目前，声扬科技的方案已经服务了印尼当地250万名居民，并做到了99.5%以上的准确率。如今在国内，声扬科技也已经和一些金融机构达成了合作。

“人行的规范出来之后，需求也相应起来了。”李亚桐表示，除了金融领域之外，机器人、车载、安放等领域，之后也都是声纹识别首要的几个的落地场景。

除了声纹识别的技术方案之外，声扬科技也在发展自己的语音识别方案，比如语音转文字等。公司首席科学家张伟彬对界面新闻记者表示，单一的技术储备很容易带来技术方案的不完整性，有的场景可能需要几种技术一起结合;因此在语音识别方面进行布局，也是构建技术壁垒的必要举措。

就在最近，声扬科技也完成了香港X科技基金领投的Pre-A轮融资。在AI企业逐渐成为投资风口的大背景下，李亚桐认为，资本的活跃能够加速技术的落地，并且为AI应用带来更多的新变革。

“现在还只是一个弱人工智能时代，长远来看，AI需要和行业以及场景结合，提升效率;可以说，有多少行业就需要多少个方向的AI，这个领域无疑需要更多资本的进入。”张伟彬说。相比于行业格局已经趋向稳定的语音识别和视觉识别而言，声纹识别确实是一个潜力有待挖掘的赛道。记者 | 饶文怡

标签：