首页 > 智能 > 正文

微软AI智能语音技术实现多模态互动:可应用于在线学习、有声读物等场景

2021-08-19 09:43:59来源:IT之家  

8 月 18 日消息 智能语音技术的飞速发展,让 AI 合成语音的听感更加自然、逼真,让越来越多企业实现了与客户的多模态互动。基于微软 Azure 云平台创建声音定制服务定制的专属个性化声音,已被广泛应用在诸如语音助手、聊天机器人、在线学习、有声读物或新闻播报等多种使用场景。

传统上,完成一个定制声音时间周期长、复杂度高。需要发音人录制成千上万句语料作为训练数据,再由拥有深度神经网络和语音合成专业背景的专家针对客户的语音数据进行声学模型和语音合成器的训练及调优,整个过程往往需要数月的时间。微软推出基于深度神经网络的声音定制服务,所需训练数据更少,只要 300 至 2000 句语料数据(约 30-120 分钟);训练调优的难度和复杂度更加简化,即使没有深度神经网络和语音合成专业背景的用户也可实现自助训练,得到媲美人类发音的效果。用户需注册 Azure 云平台 Speech Studio,申请获得深度神经网络声音定制权限后,即可一键完成个性化声音模型的训练,并快速部署 API,适用于各种场景的应用开发。

除平台自助服务,微软专家还可为有需求的客户提供包括声音画像设计、发音人选择、录音指导、模型评估和调优等全流程的语音定制支持和辅导,帮助英国 BBC 广播公司、Swisscom 瑞士电信、美国 AT&T 旗下的华纳兔八哥体验店、美国 Progressive 前进保险公司、Duolingo 多邻国和国内的小米、华人运通等不同行业的客户成功打造了自己的专属定制声音。

IT之家获悉,美国 AT&T 体验店兔八哥语音助手,采用了微软的声音定制服务,并以兔八哥配音演员的授权声音创建了这一虚拟动画人物的语音模型,以奇趣的风格与顾客对话,回答常见的问题,增强了顾客粘性。

Flo 是美国 Progressive 前进保险公司打造的虚拟销售助理,性格乐观开朗、俏皮可爱。几年前,美国前进保险公司就邀请专业配音演员使用微软的声音定制服务为 Flo 配音,让 Flo 可以自然地交流互动,深得客户喜爱,打破了大众对智能语音客服机械感的固有认识。

语言学习公司多邻国通过使用微软的声音定制服务,为 9 个各具特色的卡通角色分别定制了个性化声音,让语言学习更加趣味十足。同时,这一服务支持多语言能力,可以让每一个卡通角色同时会英语、西班牙语、法语、德语、日语等多国语言。

作为一家平台型公司,微软表示,在降低技术门槛,促进技术普惠的同时,也在坚持负责任地使用人工智能,并以公平、可靠与安全、隐私与保障、包容、透明、负责六个基本道德准则指导人工智能的发展和应用。

标签: 微软 智能语音

相关阅读

相关词

推荐阅读