如何提升训练声音质量？ #3131

JovenRong · 2023-04-03T07:43:47Z

JovenRong
Apr 3, 2023

各位大佬好，我目前，other/tts_finetune/tts3流程训练了女声和男声。
1、女声一千句效果就很好了，效果如下：

default.mp4

这里发现一个问题，生成时长超过15s，后面的音频生成质量越来越差，大家可以听上面音频最后一句，基本上失真了，但是我用同样的文字单独生成效果很好，如下：

nv-1.mp4

2、男声先是训练1000多句，效果较差，然后提升到3000句提升比较明显，但还是机器人很重，3000句效果如下（大概2小时音频量）：

4.3.mp4

我继续增加到4500句（大概3小时音频量），基本没任何提升了，目前epoch，200, 400，600都试过，lost基本上到1.4左右就下不去，
4月10最新进展：训练提高到5小时音频量，已经没有任何提升了。

请问各位：
1、为什么生成文字长，大概15s以上的生成质量直线下降？（见女声两个音频文件对比）
2、我应该怎么继续提升男声音频训练的质量呢？epoch通常设置多少呢？继续增加数据量吗，但是目前发现增加数据量没提升？
3、我训练的音色，语速和断句都特别快，请问这个是什么原因呢？特别是每句的间隔是如何调整的呢？
4、我看讨论说fastspeech2_mix_ckpt_1.2.0里面女性音色较多，所以女性容易出结果，官方有fastspeech2_male男性单一音色模型，我基于这个模型训练了下男声3000句，出的音色效果很差。如果是微调，是不是fastspeech2_mix基础上要比fastspeech2_male好？
5、官方的fastspeech2_male这个音色能不能说一下音频训练量大概在多少小时？
希望各位一起讨论，给小弟指点一下，感谢。

yangqinj · 2023-04-04T05:04:07Z

yangqinj
Apr 4, 2023

3、我训练的音色，语速和断句都特别快，请问这个是什么原因呢？特别是每句的间隔是如何调整的呢？

语速是和duration相关的，我最近在ft的时候发现当训练还不充分的时候出来的语速也是很快，但是随着epoch增加，duration loss慢慢下降语速就会好很多。我是在100+句上ft了100+epoch才会好一点

3 replies

JovenRong Apr 4, 2023
Author

你好，你训练的结果如何，还有机器音吗?大概训练了多长时间的音频素材？epoch是多少？

yangqinj Apr 6, 2023

也还是会有机器音，但是没有那么严重了。音频大概10分钟不到，epoch就200

anyshu Apr 7, 2023

1、为什么生成文字长，大概15s以上的生成质量直线下降？（见女声两个音频文件对比）
这个问题我也遇到了，特别是在中英文mix情况下比较严重，有知道的么？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何提升训练声音质量？ #3131

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment 3 replies

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

如何提升训练声音质量？ #3131

JovenRong Apr 3, 2023

Replies: 1 comment · 3 replies

yangqinj Apr 4, 2023

JovenRong Apr 4, 2023 Author

yangqinj Apr 6, 2023

anyshu Apr 7, 2023

JovenRong
Apr 3, 2023

Replies: 1 comment 3 replies

yangqinj
Apr 4, 2023

JovenRong Apr 4, 2023
Author