同一个文本内容，多次转换结果不一致问题 #45

yannier912 · 2020-12-15T12:07:30Z

作者您好！
我在测试的时候发现，之前用d8训练好的tacotron模型，通过tacotron_synthesize.py直接合成语音。
开始trim_top_db=22，合成语音A；然后改为25，合成语音B；然后又改回22，合成语音C和A明显不同；再改回25，合成语音D和B也明显不同。这样来回试了多次，每次都不一样。
请问这是什么原因呢？

lturing · 2020-12-15T13:51:18Z

在运行tacotron_synthesize.py，合成的wav跟trim_top_db无关。
造成这个的原因是tacotron decoder 中的prenet，prenet中有dropout，在train和inference阶段，dropout都没有关闭，对应代码，导致相同的输入，合成的mel频谱都有点不一样。

yannier912 · 2020-12-15T14:32:45Z

@lturing
哦哦了解了！感谢！～
我试一下inference时候把dropout设置为1，看下效果。

lturing · 2020-12-15T15:05:25Z

inference 阶段dropout还不能关闭，dropout会使得prenet输出的信息有损失，迫使模型依赖attention中的context(alignment很好），不过你可以试试。
如果在training阶段也把prenet关掉，那么很有可能学不到alignment

yannier912 · 2020-12-16T02:32:58Z

@lturing
嗯是的……那只能dropout开着了。
finetune的模型效果比较好的话，dropout影响不明显，模型效果不太好dropout就还蛮影响的。
感谢解惑！

lturing closed this as completed Dec 15, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

同一个文本内容，多次转换结果不一致问题 #45

同一个文本内容，多次转换结果不一致问题 #45

yannier912 commented Dec 15, 2020

lturing commented Dec 15, 2020

yannier912 commented Dec 15, 2020

lturing commented Dec 15, 2020

yannier912 commented Dec 16, 2020

同一个文本内容，多次转换结果不一致问题 #45

同一个文本内容，多次转换结果不一致问题 #45

Comments

yannier912 commented Dec 15, 2020

lturing commented Dec 15, 2020

yannier912 commented Dec 15, 2020

lturing commented Dec 15, 2020

yannier912 commented Dec 16, 2020