Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于add_blank和use_sdp #2

Closed
mudong0419 opened this issue Sep 28, 2021 · 21 comments
Closed

关于add_blank和use_sdp #2

mudong0419 opened this issue Sep 28, 2021 · 21 comments

Comments

@mudong0419
Copy link

谢谢作者的分享,vits里默认add_blank和use_sdp都是true,这两个参数对模型具体有什么影响呢。我没改参数,合成效果有时候停顿比较奇怪。不知道改这两个参数能不能改善。下面的是我合成出来的效果 『且我们对这些语言的掌握程度都达到比较高的水平时』
40414717-1863-41bd-836e-503fdfb22afd.wav.zip

@MaxMax2016
Copy link
Collaborator

你的效果很好啊,add_blank是【必须】的,他的作用是添加音素边界,因为我在标注里面【也】做了这个,和原作者的add_blank【重复】了;use_sdp是为了解决同一个音素不同时长的问题,关闭的话应该出现预测的音素平均时长

@MaxMax2016
Copy link
Collaborator

此外,目前没有使用韵律预测,出现停顿算正常现象,没使用韵律预测需要更多的语料进行训练来解决奇怪的停顿

@MaxMax2016
Copy link
Collaborator

你用的什么显卡训练的呢,怎么这么快

@mudong0419
Copy link
Author

请问您有计划加入韵律预测吗?我是8张v100,所以速度比较快。另外,我是用的vits的原始代码训练的中英混杂tts. 『Hello, 我是AI助手,很高兴认识你,nice to meet you.』
d677b364-84ab-44e4-8c18-80515809aa78.wav.zip

@MaxMax2016
Copy link
Collaborator

韵律预测比较难,做的不好反而会恶化;我也算新手,在探索中;你的中英混合数据是:baker+lj吗?

@mudong0419
Copy link
Author

baker libritts aishell3还有些自己的数据,中文数据不好弄,你有中文男声数据么

@MaxMax2016
Copy link
Collaborator

你是那些是准备做克隆吗?

@mudong0419
Copy link
Author

不是,克隆及更难做了

@mudong0419
Copy link
Author

都是用的默认设置吗,有没有修改什么设置

@MaxMax2016
Copy link
Collaborator

不是vits的默认设置,是configs/baker_base.json里面的设置,1080双卡,训练两天的结果

@mudong0419
Copy link
Author

谢谢,看了下配置文件,除了采样率,好像没什么变化。对停顿不自然的情况,您有什么建议吗

@MaxMax2016
Copy link
Collaborator

我把add_blank设置成False了,不知道你的0对应的是什么音素,如果0对应音频的开始静音端,使用add_blank就有问题,中文里面静音段和音素边界不能共用id

@mudong0419
Copy link
Author

好的,我试试看哈,多谢您的建议

@Liujingxiu23
Copy link

请问中文,大家有用真实的时间戳进行训练的吗, 类似Fastspeech1,2那种。我实验了一下,训练,loss都是正常的,也可以合成音频,音频质量ok, 大体发音都是好的,也还是有发音错误,集中在零声母的一些发音上。请问大家有做过类似的试验吗,有什么经验分享吗?

@MaxMax2016
Copy link
Collaborator

有具体的错误音频吗?我看看我的模型有没有这样的问题。

@Liujingxiu23
Copy link

@dtx525942103 抱歉我这边无法上传音频,就是比如“我”“云”“应”“语音”“应用”这种发音不准

@MaxMax2016
Copy link
Collaborator

VITS的建模能力很强,因此对对齐错误以及标注错误十分敏感。

@Liujingxiu23
Copy link

@dtx525942103 可能真是这样,训了几个真实duration的模型,就像Fastspeech1,2那样,都有发音不准确的情况。你这边训练成功没有?

@MaxMax2016
Copy link
Collaborator

我用的VITS的MAS对齐,那些生僻发音(训练集中出现次数少)会发音错误

@Liujingxiu23
Copy link

@dtx525942103 好的 明白了 多谢啦~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants