陈凯歌,动态 | 语音辨认怎么打破推迟瓶颈?谷歌推出了根据 RNN-T 的全神经元设备端语音辨认器,look

admin 2019-03-31 阅读:319

AI 科技谈论按:在近二十年来,尤其是引进深度学习今后,语音辨认取得了一系列重大突破,并一步步走向市场并搭载到消费级产品中。可是在用户体会上,「愚钝」可以算得上这些产品最大的槽点之一,这也意味着语音辨认的推延问题现已成为了该范畴研讨亟待处理的难点。日前,谷歌推出了依据循环神经网络变换器(RNN-T)的全神经元设备端语音辨认器,可以很好地处理现在语音辨认所存在的推延难题。谷歌也将这项效果发布在了官方博客上,AI 科技谈论进行编译如下。

2012 年,语音辨认研讨标明,通过引进深度学习可以明显进步语音辨认准确率,因而谷歌也较早地在语音查找等产品中选用深度学习技术。而这也标志着语音辨认范畴革新的开端:每一年,谷歌都开宣布了从深度神经网络(DNN)到循环神经网络(RNN)、长短期回忆网络(LSTM)、卷积网络(CNNs)等一系列新的架构,进一步地进步了语音辨认的质量。可是在此期间,推延问题仍旧是该范畴需求霸占的首要难点——当语音帮手可以完成快速答复问题时,用户会感觉它有协助得多。

日前,谷歌正式宣告推出端到端、全神经元的设备端语音辨认器,为 Gboard 中的语音输入供给支撑。在谷歌 AI 最近的一篇论文《移动设备的流媒体端到端语音辨认》(Streaming End-to-End Speech Recognition for Mobil陈凯歌,动态 | 语音辨认怎样打破推延瓶颈?谷歌推出了依据 RNN-T 的全神经元设备端语音辨认器,looke Devices,论文阅览地址:https://arxiv.org/abs/1811.06621)中,其研讨团队提出了一种运用循环神经网络变换器(RNN-T,https://arxiv.org/pdf/1211.3711.pdf)技酒道网术练习的模型,该技术也满足精简可应用到手机端上。这就意味着语音辨认不再存在网络推延或毛病问题——新的辨认器即使处于离线状况也可以运转。该模型处理的是字符水平的语音辨认,因而当贴身妖孽保安人在说话时,它会逐一字符地输出单词,这就跟有人在实时键入你说的话相同,一起还能到达你对键盘听写体系的预期效家必洁拖把果。

公交顶

该图对比了辨认同一句语音时,效劳器端语音辨认器(左面)以及新的设备端语音辨认器(右边)的生成状况。图源:Akshay Kannan,Elnaz Sarbar

关于语音辨认的一点前史

传统而言,语音辨认体系由几个部分组成:一个将语音切割(一般为 10 毫秒的结构)映射到音素的声学模型;一个将要素组成单词的发音模型;以及一个表达给定短语可能性的言语模型。在前期的体系中,对这些组成部分的优化都是独自进行的。

在 2014 年左右,研讨人员就开端重hdjs点练习单个神经网雷弗莱特星人络,来直接将一个输入语音波形映射到一个输出优茶美语句。研讨人员选用这种通过给定一系列语音特征生成一系列单词或字母的序列到序列(sequence-to-sequence)办法开宣布了「attention-based」(https://arxiv.org/pdf/1506.07503.pdf)和「listen-冯雪茹attend-spell」(https://arxiv.org/pdf/1508.01211.pdf)模型。虽然这些模型在准确率上体现很好,可是它们一般通过回忆完好的输入序列nnuu00来辨认语音,一起当输入进陈凯歌,动态 | 语音辨认怎样打破推延瓶颈?谷歌推出了依据 RNN-T 的全神经元设备端语音辨认器,look来的时分也无法让数据流输出一项关于实时语音转录必不可少的特征。

与此一起,其时的一项叫做scp亚伯 CTC(connectionist temporal classification)的技术协助将出产式辨认器的推延时间折半。事实证明,这项发展关于开宣布 CTC 最新版别(改版别可以当作湘粤陶粒是 CTC 的泛化)中选用的 RNN-毛毛奇T 架构来说,是至关重要的一步。

循环神经网络变换器(RNN-T)

RNN-T 是不选用注意力机制的陈凯歌,动态 | 语音辨认怎样打破推延瓶颈?谷歌推出了依据 RNN-T 的全神经元设备端语音辨认器,look序列到序列模型的一种方法。与大多数序列到序列模型需求处理整个输入序列(本文事例中的语音波形)以生成输出(语句)不同,RNN-T 能继续地处理输入的样本和数据流,并进行符号化的输出,这种符号化的输出有助于进行语音听写。在谷歌研讨人员的完成中,符号化的输出就陈凯歌,动态 | 语音辨认怎样打破推延瓶颈?谷歌推出了依据 RNN-T 的全神经元设备端语音辨认器,look是字母表中的字符。当人在说话时,RNN-T 辨认器会逐一输出字符,并进行恰当留白。在这一过程中,RNN-T 辨认器还会有一条反应途径,将模型猜测的符号输回给自己以猜测接下来的符号,详细流程如下图所示:

RNN-T 的表明:用 x 表明输入语音样本;用 y 表明猜测的符号。猜测的符号冲气娃( Softmax 层的输出)y(u-1 )通过猜测网络被输回给模型,保证猜测一起考虑到当时的语音样本以及曩昔的输出。猜测和解码网络都是 LSTM RNN,联合的模型则是前馈网络sr0dn(feedforward netw123456789打一成语ork ,相关论文检查地址:https://www.isca-speech.org/archive/Interspeech_2017/pdfs/0233.PDF)。猜测网络由 2 个具有 2048 个单元的层和 1 个有着 640 个维度的投射层组成。解码网络则由 8 个这样的层组成。图源:Chris Thornton

有效地练习这样的模型本来就现已很难了,可是运用谷歌开发的这项可以进一步将单词错误率削减 5% 的新练习技术,对核算才干也提出了更高的要求。对此,谷歌开发了一种平行完成的办法,让 RNN-T 的丢失函数可以大批地在谷歌的高性能云渠道 TPUv2 芯片上高效运转。

离线辨认

在传统的语音辨认引擎中,上文中说到的声学、发音和言语模型被「组合」成一个边际用语音单元及其概率符号的大查找图(search graph)。在给定输入信号的状况下,当语音波形抵达辨认器时,「解码器」就会在图中查找出概率最大的途径,并读出该途径所选用的单词序列。一般来说,解码器假定根底模型由 FST(Finite State Transducer)表明。可是陈凯歌,动态 | 语音辨认怎样打破推延瓶颈?谷歌推出了依据 RNN-T 的全神经元设备端语音辨认器,look,虽然现在现已有精细的解码技术,可是仍旧存在查找图太大的问题——谷歌的生成式模型的查找图巨细近 2GB。因为查找图无法轻易地在移动电话上保管,因而选用这种办法的模型陈凯歌,动态 | 语音辨认怎样打破推延瓶颈?谷歌推出了依据 RNN-T 的全神经元设备端语音辨认器,look只要在在线衔接的状况中才干正常作业。

为了进步sw116语音辨认的有效性,谷歌研讨人员还企图通过直接将在设备上保管新模型来防止通讯网络的推延及其固有的不可靠性。因而,谷歌提出的这一端到端的办法,不需求在大型解码器图上进行查找。苏肌丸相反,它采纳对单个神经网络进行一系列查找的方法进行解码。一起,谷奥特大怪兽搏斗仪歌研讨人员练习的 RNN-T 完成了依据效劳器的传统模型相同的准确度,可是该模型巨细仅为 450MB,本质上愈加密布、愈加智能有利地势用了参数和打包信息。不过,即使关于现在的智能手机来说,450 MB 仍旧太大了,这样的话当它通过如此巨大的网络进行网络信号传输时,速度就会变得很慢。

对此,谷歌研讨人员通过运用其于 2016 年开发的参数量化( parameter quantization )和混合内核(hybrid kernel )技术(https://arxiv.org/abs/1607.04683),来进一步缩小模型的巨细,并通过选用 ensorFlow Lite 开发库中的模型优化工具包来对外开放。与通过练习的浮点模型比较,模型量化的紧缩高出 4释奴止戈 倍,运转速度也进步了 4 倍,然后让 RNN-T 比单核上的实时语音运转得更快。通过紧缩后,模型终究缩小至 80MB。

谷歌全新的全神经元设备端 Gboard 语音辨认器,刚开端仅能在运用美式英语的 Pixel 手机上运用。考虑到职业趋势,一起跟着专业化硬件和算法的交融不断增强,谷歌表明,期望可以将这一技术应用到更多言语和更广泛的应用范畴中去。

via https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

点击阅览原文,检查 Facebook 开源首个全卷积语音辨认工具包 wav2letter++

陈凯歌,动态 | 语音辨认怎样打破推延瓶颈?谷歌推出了依据 RNN-T 的全神经元设备端语音辨认器,look谷歌 开发 技术
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。