Skip to content

Latest commit

 

History

History
23 lines (17 loc) · 2.12 KB

语音评估方法.md

File metadata and controls

23 lines (17 loc) · 2.12 KB

语音评估方法汇总

客观评测 Objective Evaluation

MCD

Mel-Ceptral Distortion
它表示的是转换后语音的 MFCC 特征与标准输出语音的 MFCC 特征的差距。测量 MCD,需要把转换后语音和标准输出语音的 MFCC 特征序列对齐。MCD 的优点是可以全自动计算,但研究发现,它与人们主观感受到的音质的相关性并不够强。因此,语音转换更可靠的评测方法是主观评测。

主观评测 Subjective Evaluation

主观评测的指标主要有两个:转换后语音的音质,以及与目标说话人的相似度。

平均意见得分 MOS

Mean Opinion Score
评价单个系统时,一般采用 MOS(mean opinion score)。对于音质,一般采用 5 分制,1 分为最差,5 分为最好。对于相似度,则常常让被试分别听取源说话人的语音、目标说话人的语音(顺序不定)、转换后的语音,并在下列四个或五个等级中做出选择:

  • 转换后的语音更像源说话人,且十分肯定;
  • 转换后的语音更像源说话人,但不确定;
  • 完全不确定转换后的语音更像哪个说话人(可能没有这个等级);
  • 转换后的语音更像目标说话人,但不确定;
  • 转换后的语音更像目标说话人,且十分肯定。

比较两个系统时,可以分别评价然后比较分数;也可以按如下方法进行preference test。对于音质,一般是让被试听取两个系统的输出,选择哪一个音质更好;对于相似度,一般是让被试听取两个系统的输出(顺序不定)以及目标说话人的语音,选择哪一个系统的输出更像目标说话人。后面这种测试又常称为ABX testXAB test,其中 A、B指两个系统的输出,X 指目标说话人的语音。

主观评测需要大量的被试来参与,这些被试常常在Mechanical Turk上招募。由于可能有些被试打分不认真、不自洽,所以被试的回答需要筛选。同时,由于被试的回答带有主观性、随意性,在比较不同的系统时,需要进行显著性测试,确保比较结果有意义。