「A人工智能语音评测」技术简介及应用水平
人工智能语音评价"技术是指对口语发音水平和错误进行自动评估、错误检测和指导校正的技术。
经过几十年的发展,这一技术在汉英语音标准和口语表达能力的评价任务上已经超过了人类口语评价专家的水平。目前,该技术已广泛应用于汉语和英语的口语评价和分级。
接下来,我们将讨论:
人工智能语音评估技术"简介
人工智能语音评估多维应用级"。
二、人工智能语音评价基本技术简介
1.人工智能语音评估的基本规则
对于人工智能语音评价技术,基于DNN-HMM声学模型的语音解码结果以及词和音素级的强制对齐结果是比较流行的。
音素:根据语音的自然属性划分的最小语音单位。DNN-HMM:深层神经网络-隐马尔可夫模型(DeepNeuralNetwork-HiddenMarkovModel)是目前比较流行的声学模型,它的出现基本上取代了以前的GMM-HMM模型。
简单地说,它可以评估和指导对音素、词、句子、段落和其他发音层次的反馈;评价维度包括发音的准确性(音素/音调)、流利性、语调、断句、完整性等。
技术方法的使用应当符合下列条件:
在发展前确定评价语言(例如英语、日语、德语等)
以母语人士的标准发音为基础
根据评价发音的特点设计评价维度。
学习者母语(如汉语)发音特征的本土化可能存在一些缺陷。
可获得的结果如下:
属于或关于段落、句子、单词和音素的,包括语调、断句、完整性、流利性等。
每个级别和维度的分项目和综合分数。
2.人工智能语音评价的基本原理
1)总体结构
过程:
用户根据给定的文本生成语音
前端产品通过评估接口上传音频到语音评估引擎
在语音评价模型的基础上,通过解码、计算和处理,得到评价结果。
评估结果通过评估界面返回给用户。
几个概念:
语音评价引擎:AI评价解码和计算的核心模块,通过语音识别(ASR)解码翻译,强制对齐给定的文本,通过不同维数的算法获得指导反馈和评价分数。
背景配置系统:在进行语音评估之前,应将给定的文本分为单独的单词或单音/音素,并存储在背景配置系统中,为语音评估引擎提供对齐标准。
语音评价模型&训练所需语料库:在使用评估引擎之前,我们需要使用适当数量的语料库离线训练来形成语音评价模型,这是引擎解码计算和处理的基础。
2)语音评价引擎的原理
通过对总体架构的解释,不难发现很大一部分工作是由"AI评估引擎"完成的。接下来,让我们简要介绍评估引擎的内部流程和原理。