语音评估方法汇总

客观评测 Objective Evaluation

MCD

Mel-Ceptral Distortion
它表示的是转换后语音的 MFCC 特征与标准输出语音的 MFCC 特征的差距。测量 MCD，需要把转换后语音和标准输出语音的 MFCC 特征序列对齐。MCD 的优点是可以全自动计算，但研究发现，它与人们主观感受到的音质的相关性并不够强。因此，语音转换更可靠的评测方法是主观评测。

主观评测 Subjective Evaluation

主观评测的指标主要有两个：转换后语音的音质，以及与目标说话人的相似度。

平均意见得分 MOS

Mean Opinion Score
评价单个系统时，一般采用 MOS（mean opinion score）。对于音质，一般采用 5 分制，1 分为最差，5 分为最好。对于相似度，则常常让被试分别听取源说话人的语音、目标说话人的语音（顺序不定）、转换后的语音，并在下列四个或五个等级中做出选择：

转换后的语音更像源说话人，且十分肯定；
转换后的语音更像源说话人，但不确定；
完全不确定转换后的语音更像哪个说话人（可能没有这个等级）；
转换后的语音更像目标说话人，但不确定；
转换后的语音更像目标说话人，且十分肯定。

比较两个系统时，可以分别评价然后比较分数；也可以按如下方法进行preference test。对于音质，一般是让被试听取两个系统的输出，选择哪一个音质更好；对于相似度，一般是让被试听取两个系统的输出（顺序不定）以及目标说话人的语音，选择哪一个系统的输出更像目标说话人。后面这种测试又常称为ABX test或XAB test，其中 A、B指两个系统的输出，X 指目标说话人的语音。

主观评测需要大量的被试来参与，这些被试常常在Mechanical Turk上招募。由于可能有些被试打分不认真、不自洽，所以被试的回答需要筛选。同时，由于被试的回答带有主观性、随意性，在比较不同的系统时，需要进行显著性测试，确保比较结果有意义。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

语音评估方法.md

语音评估方法.md

语音评估方法汇总

客观评测 Objective Evaluation

MCD

主观评测 Subjective Evaluation

平均意见得分 MOS

Files

语音评估方法.md

Latest commit

History

语音评估方法.md

File metadata and controls

语音评估方法汇总

客观评测 Objective Evaluation

MCD

主观评测 Subjective Evaluation

平均意见得分 MOS