澳门金沙手机ap...

首页 >  家居小商品 / 正文

云从科技刷新一项语音识别纪录

2019-11-12 云从科技刷新一项语音识别纪录


文/

近日,云从科技宣布在≌全球最大的开源语音识别数据集 Librisp┊┋eech■ 上,将错词率(Worderrorrate★,WER)降到了 2.97%,并将 Librispeech 的ζ WER 指标提升了 25%,ㄨ超过阿里、百度、约翰霍普金斯大学等企业及高校,刷新了原先记录。

将 Librispeech 数据集上的错▔词率降至 2.97%

Librispeech 是当前衡量语音识别技术的最权威主流的开源数据集,々错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

云从科技在 Librispeech 数据集上将错词率(Worderrorrate,WE″R)降到了 2.97%,较之前提升了 25%。这项成果有利于语音识别技术的进步,也有助于推动语音识别带来良好的智慧交互体@验。

云从科技此次推出的语音识别模型 Pyramidal-灬FSMN 融合图像识别与语音识别的优势,将残差卷积网络和金字塔记忆模块的序列记忆网络相结合Д, 能够同时有效的提取空间和时间上不同粒度的信息,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。

语音识别技术近年进展

2017 年 3 月〢,IBM 结合了 LS︹︺︻TM 模型和带有 3 个强声学模型的 ◙WaveNet 语言模型。「₪큐集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破」。相对应的是去年 5 月的 6.9%。

2017 年 8 ۞۞月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约 12▋% 的出错率,错词率为 5.1%,声称超过专业速记员。相对应的是去年 10 月的 5.9%,声称超过人类。

2017 年 12 月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognitio︶︷︸n With S╠╡equen▦▩ce-to-Sequence Models),错词率降低至 5.6%。相对于强大的传统系Ⅳ统有 16% 的╱╲性能提升。

2018 年 6 月,阿里巴巴达摩院推出了新一代语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%,⿷错词τ率降低至 3.96%。

2018 年 10 月,云从科技发布全新 Pyramidal-FSMN 语音识别模型,将错词率(Worderrorrate,WER)降低至 2.97%,较之前提升了 25%。

Pyramidal-FSMN 语音识别模型原理解析

云↖从科技提出的新型网络※结构,能更加有效的提取空间和时间特征的角度,为语音识别进一步发展提供了一些新的思路: 模型设计采用一*种残差卷积网络和金字塔记忆模块的序列记忆网络相结合的结构; 训练方式使用 lattice-free 最大互信息(lattice-free maximum mutuθal information,LF-MMI/ΞChain)与交叉熵(cross e★ntropy,CE)损失函数相结合的多任务学习技术;解|︴()〔〕码部分采取 RNNLM rescoring 的方式,利用 RNN 提取一个句子中的长期语义信息,从而更有效地帮助声学模→型得到准确的句子。

如下图所示,〒作者采用了由 6 层 Residual CNN 和 10 层 Pyramidal-FSMN 相结合的网络结构。前端网络借鉴了图像识别中经典的〓 Residual CNN 结构,更有效地提取特征与时间相互的√关联信息,↹同时 skip connection 避免了 CNN 网络加深之后梯度消失和梯度爆炸问题。在金字塔记忆模块中,浅层的网络主要聚焦于音素本身的特征学习,所以只需抽取●·短时上下文信息,☆而深层的网络由于已经学习到了足够的固定时间的音╢素信息,需要学习长时间包括语义和语法特征,所以深层抽取长时间的上下文信息。利用这◥样的金字塔结构,既能减少参数,缩小模型结构,也能更加精巧的模拟人类处理语音г信号的过程,提高识别效果。

在$损失函数部分,作者采用了基于 LF-MMI 的序列性训练方式。同时为了解决序列性训练容易导致过拟合的问题,又引入了传统的交叉熵损失╤函数,在 LF-MMI 输出之外加入另一个输出层作为一个正则技术,∑通过设置交叉熵的正则化系数,两个目标能够有效地学习并且避免过拟合问题。

最后,作者使用了 RNNLM rescoring 技术对解码做进一步处理。在没有 RNNLM rescoring 的情况下,Pyramidal-FSMN 已经达到了目前最好的结果,rescoring 之后又有了更进一步的提升。

声学模型和 RNNLM 的训练数据完全基于 Librispeech 和通用的语言模型数据集,并没有额外引入其他的训练数据这样的「技巧」性策略。

论文地址:https://arxiv.org/ab●s/18๑10.11352

相关介绍:

LibriSp∮eech 数据集:世界最大۞的免费语音识别数据库,包含文本和语音的有声┕读物数据集,由 1000 小时的多人朗读的清晰音频组成,且包含书籍的章节结构。


网站分类