如何提升训练声音质量?
#3131
Replies: 1 comment 3 replies
-
语速是和duration相关的,我最近在ft的时候发现当训练还不充分的时候出来的语速也是很快,但是随着epoch增加,duration loss慢慢下降语速就会好很多。我是在100+句上ft了100+epoch才会好一点 |
Beta Was this translation helpful? Give feedback.
3 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
各位大佬好,我目前,other/tts_finetune/tts3流程训练了女声和男声。
1、女声一千句效果就很好了,效果如下:
default.mp4
这里发现一个问题,生成时长超过15s,后面的音频生成质量越来越差,大家可以听上面音频最后一句,基本上失真了,但是我用同样的文字单独生成效果很好,如下:
nv-1.mp4
2、男声先是训练1000多句,效果较差,然后提升到3000句提升比较明显,但还是机器人很重,3000句效果如下(大概2小时音频量):
4.3.mp4
我继续增加到4500句(大概3小时音频量),基本没任何提升了,目前epoch,200, 400,600都试过,lost基本上到1.4左右就下不去,
4月10最新进展:训练提高到5小时音频量,已经没有任何提升了。
请问各位:
1、为什么生成文字长,大概15s以上的生成质量直线下降?(见女声两个音频文件对比)
2、我应该怎么继续提升男声音频训练的质量呢?epoch通常设置多少呢?继续增加数据量吗,但是目前发现增加数据量没提升?
3、我训练的音色,语速和断句都特别快,请问这个是什么原因呢?特别是每句的间隔是如何调整的呢?
4、我看讨论说fastspeech2_mix_ckpt_1.2.0里面女性音色较多,所以女性容易出结果,官方有fastspeech2_male男性单一音色模型,我基于这个模型训练了下男声3000句,出的音色效果很差。如果是微调,是不是fastspeech2_mix基础上要比fastspeech2_male好?
5、官方的fastspeech2_male这个音色能不能说一下音频训练量大概在多少小时?
希望各位一起讨论,给小弟指点一下,感谢。
Beta Was this translation helpful? Give feedback.
All reactions