Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Baker Loss在18左右,声音没有预训练模型的干净 #36

Closed
startreker-shzy opened this issue Mar 10, 2023 · 11 comments
Closed

Comments

@startreker-shzy
Copy link

感谢大佬提供的训练代码及预训练模型;
我用Baker的数据跑了一遍pipeline,batch_size设定为32,目前训练到了200k step:
基本上Loss在18左右,很难再下降了;

bert_vits INFO loss_disc=2.473, loss_gen=2.393, loss_fm=5.935
bert_vits INFO loss_mel=19.083, loss_dur=0.133, loss_kl=0.908
bert_vits INFO loss_kl_r=1.710
bert_vits INFO Train Epoch: 659 [55%]
bert_vits INFO [200200, 9.205765022545685e-05]
bert_vits INFO loss_disc=2.600, loss_gen=2.050, loss_fm=5.560
bert_vits INFO loss_mel=18.343, loss_dur=0.120, loss_kl=0.851
bert_vits INFO loss_kl_r=1.387

结果链接: https://pan.baidu.com/s/11_qTi-ubfLoGOjZu565ymQ 提取码: 1sg8
除了偶尔的发音问题,感觉音质不错。但是对比预训练的模型,声音感觉不够干净,高频内容有点多的样子。请问这个gap是什么原因呢?

@MaxMax2016
Copy link
Collaborator

非常抱歉给你带来了不好的体验,我没有足够的时间去做充分的验证,预训练模型我是训练好没有loss_kl_r的模型后,然后使用loss_kl_r继续训练模型的;发音问题是pypinyin的错误,不是模型的问题。sorry!!!

@MaxMax2016
Copy link
Collaborator

@startreker-shzy 我想起来了,这个噪声我遇到过,就是打开fp16会这样

@startreker-shzy
Copy link
Author

感谢大佬的回复。发音问题是pinyin问题,不是大问题。
1,预训练模型是先训练没有loss_kl_r,然后再训练有loss_kl_r的;请问各自分别训练了多少步呢?
2,噪声与fp16,我使用的默认的config里面设置的是"fp16_run": false,,请问还是需要在什么地方修改么?

@MaxMax2016
Copy link
Collaborator

2,保持false就好
1,一些日志
train_1.log
train_2.log
train_3.log

@startreker-shzy
Copy link
Author

好的,谢谢分享。我先试一下分开训练。
使用torch的高版本(>1.6.0)训练需要关闭 FP16 #8 这里提到要修改:STFT相关API调用,请问是否还需要呢?

@MaxMax2016
Copy link
Collaborator

不用改了

@startreker-shzy
Copy link
Author

好的,感谢大佬~

@startreker-shzy
Copy link
Author

更新一下进展:
1,重新跑了实验,先训练不带kl_r的21w step,再继续训练带有kl_r的,总共35w step;效果比之前好一些,但是依然有差距。
2,对比了一下生成结果与训练数据,发现是训练数据上的差异,来源是采样算法的质量。之前用的采样算法在频谱上类似直接截断,导致高频信息较多。尝试了librosa的采样算法,结果OK的。
下面三张图分别是record、liabrosa采样、audiosegment采样:

image

image

image

3,非常抱歉,打扰大佬了~

@AmorJNYH
Copy link

@startreker-shzy 感谢分享填坑经验

@GuangChen2016
Copy link

@MaxMax2016 image
hi, 请问一下,train_2.log中的一开始的时长loss为啥变化这么大?直接从2.3降低到0.2+,请问一下是什么原因呢?
我这边现在换了自己的数据集,规模跟1w+,bert提取和音素边界re-check了好几遍都是对齐的,其他的loss也正常,就是dur_loss不太正常,不知道是什么原因引起的,合成的音频也不太正常。
INFO [30000, 0.0004908958316998728]
INFO loss_disc=2.520, loss_gen=2.972, loss_fm=5.839
INFO loss_mel=17.394, loss_dur=0.827, loss_kl=2.058

@PoppyYanLiao
Copy link

楼主你好,请问一下怎么去掉loss_kl_r呀?另外,我在微调时,显示no teacher model. 是什么原因呢?这是不是表示迁移失败?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants