Siri 语音识别的小心机:你在哪里,就能更准确地识别那附近的地址

自动语音识别系统同城由两个主要部分组成:一个声学模型,用于捕捉语音的声学特征和语言学单位序列之间的关系,如语音和单词之间的关系一个语言模型(LM),它决定了某个特定的单词序列出现在一种特定的语言中的先验概率?我们可以找出造成这种困难(准确识别具名实体)的两个因素:系统通常不知道如何表示用户可能怎么样发出模糊的实体名称实体名称可能只在语言模型的训练数据中出现一次,或者根本没有出现...表1.通用语言模型和Geo-LM中n-gram的数量?在我们的实验中,我们使用了两类测试数据:我们使用的是从 Siri 在美国的生产流量中随机选取出的真实世界中的用户数据,我们根据它创建了两个测试集:T1:一个POI搜索测试集,由本地 POI 搜索域中的20,000条语音组成T2:一个通用测试集,由没有包含在 POI 中的10,000条语音组成一套内部记录的本地POI搜索测试集(T3)...表3在真实世界用户测试集(T1和T2)上通用语言模型和 Geo-LM 得到的字错误率对比表4.在美国的八个主要的大都会区的最热门的 POI 测试集(T3)上通用语言模型和 Geo-LM 得到的字错误率对比?结语在这项工作中,我们展示了一个十分有效的基于地理位置的语言模型(Geo-LM),它有几下几个优势:训练过程很灵活运行时高效的语言模型构造在本地 POI 识别任务重,自动语音识别系统的准确率相较于通用语言模型有很大的提高?我们的实验表明,使用本地化的信息可以使当地 POI 搜索的字错误率降低18%以上。

扫描二维码分享话题