历史百科网

自然语言语音理解系统

[拼音]:ziran yuyan yuyin lijie xitong

[外文]:natural speech understanding systems

指人和计算机之间用自然语言口语语音对话的通信系统。这是令人向往的前景。因为人用口语语音传输信息最快,最方便;而双手又是自由的,可以同时进行其他操作。

自然语言语音理解系统,从20世纪60年代初开始研究,10多年间一直停留在用模式识别的方法辨认单词的语音识别上,即在计算机里贮存某些单词的声学模式,用来匹配输入的语音信号。由于语音识别无法使计算机辩认连续语流中的语音变化,以及人和人之间、同一个人先后发音之间的差别,也不能排除噪声干扰,因此效果不大。单人口呼(一个人发音)输入,计算机不过识别100多个单词;多人口呼(不止一个人发音)输入,只能识别10~20多个单词而已。

70年代初期认识到,必须综合应用语言学知识来研究计算机对连续语流的语音理解。1971年美国国防部高级研究计划中心(ARPA)为语音理解研究 (SUR)设立基金,要求在 5年之内取得突破。具体指标是:使计算机能理解特定范围内的正常口语句子(连续语音),单词不少于1000,错误不超过10%。在ARPA SUR计划下,到1976年先后建成了一些英语语音理解的实验系统,都能在有限的词汇、句法和特定的主题范围内理解英语口语句子。其中有代表 的是美国卡尔奈吉-梅隆大学的 HEARSAY和HARPY系统,BBN公司的HWIM系统。

HEARSAY有两个系统。70年代初期建成HEARSAYI,随后改进,1976年建成 HEARSAYⅡ,以文件检索为主题,单词1011个,只能接受单人口呼(一男)。 HARPY系统的主题也是文件检索,单词也是1011个,但能接受多人口呼(三男二女)。HWIM系统的主题是旅游指南,包括日程安排和费用,单词1097个,能接受多人口呼(三男)。

这些系统的设计互不相同,各自采用了特定的技术安排。但在总的方法上是一致的,即语音、词汇、句法、语义、语用的分析同时进行,互为补充,以确定输入句的内容。一般的处理程序是:分析输入语音信号的声学物理特征,根据音系规则归纳音位、音位变体、连续音变和语音省略以切分音节;根据构词规则作出可能的单词假设,称为“底端分析”。同时应用句法、语义、语用规则和主题知识,根据上下文预测输入句的内容,称为“ 分析”。底端无需识别每一个语音信号,模糊不清的可以跳过;只要能提出句中某几个单词的假设,就能由 根据词的搭配、句法组合和主题知识前后左右加以推断,建立句中单词序列的一种或几种假设,再用底端的语音数据核实,择优选用。这种上下结合的分析方法是一个重要的突破,取得了明显的效果。 据HARPY的实验,底端凭语音数据切分单词的准确率只有42%,而语音、句法、语义综合分析的准确率高达97%。HEARSAYⅡ的实验结果相同:增加句法分析,单词识别的准确率提高25%;再增加语义分析,准确率又提高25%。

ARPA SUR 计划之后又陆续建立了一些类似的系统,都未超过上述系统的成效。目前面临的问题是:能理解的词汇、语句局限 过大,更不能区别语音近似的句子。HARPY 被认为是ARPA SUR计划中最成功的系统,也只能理解特定的有限态语句,句中不能替换任何单词。

70年代后期和80年代初期,语音理解向纵深方向探索,同时开始设计某些专用 系统。例如澳大利亚堪培拉高等教育学院信息科学学校正在研制的 FOPHO系统,输入澳大利亚英语口语语音,计算机经过识别、理解能转写为音标显示输出,为教学和科研服务。 不伦瑞克工业大学通信技术研究所则在研制一个输入德语口语语音、输出德语书面文字的系统,等等。

关于汉语语音理解的研究,见汉语语音理解系统。

参考书目

A. Barr and E. A. Feigenbaum, The Hɑndbook of Artificiɑl Intelliɡence,Pitman,London,1981.

严正声明:本文由历史百科网注册或游客用户成双自行上传发布关于» 自然语言语音理解系统的内容,本站只提供存储,展示,不对用户发布信息内容的原创度和真实性等负责。请读者自行斟酌。同时如内容侵犯您的版权或其他权益,请留言并加以说明。站长审查之后若情况属实会及时为您删除。同时遵循 CC 4.0 BY-SA 版权协议,尊重和保护作者的劳动成果,转载请标明出处链接和本声明内容:作者:成双;本文链接:https://www.freedefine.cn/wenzhan/47417.html

赞 ()
我是一个广告位
留言与评论(共有 0 条评论)
   
验证码: