Baker Loss在18左右，声音没有预训练模型的干净 #36

startreker-shzy · 2023-03-10T03:49:35Z

感谢大佬提供的训练代码及预训练模型；
我用Baker的数据跑了一遍pipeline，batch_size设定为32，目前训练到了200k step：
基本上Loss在18左右，很难再下降了；

bert_vits INFO loss_disc=2.473, loss_gen=2.393, loss_fm=5.935
bert_vits INFO loss_mel=19.083, loss_dur=0.133, loss_kl=0.908
bert_vits INFO loss_kl_r=1.710
bert_vits INFO Train Epoch: 659 [55%]
bert_vits INFO [200200, 9.205765022545685e-05]
bert_vits INFO loss_disc=2.600, loss_gen=2.050, loss_fm=5.560
bert_vits INFO loss_mel=18.343, loss_dur=0.120, loss_kl=0.851
bert_vits INFO loss_kl_r=1.387

结果链接: https://pan.baidu.com/s/11_qTi-ubfLoGOjZu565ymQ 提取码: 1sg8
除了偶尔的发音问题，感觉音质不错。但是对比预训练的模型，声音感觉不够干净，高频内容有点多的样子。请问这个gap是什么原因呢？

MaxMax2016 · 2023-03-10T04:02:34Z

非常抱歉给你带来了不好的体验，我没有足够的时间去做充分的验证，预训练模型我是训练好没有loss_kl_r的模型后，然后使用loss_kl_r继续训练模型的；发音问题是pypinyin的错误，不是模型的问题。sorry!!!

MaxMax2016 · 2023-03-10T04:37:08Z

@startreker-shzy 我想起来了，这个噪声我遇到过，就是打开fp16会这样

startreker-shzy · 2023-03-10T05:11:06Z

感谢大佬的回复。发音问题是pinyin问题，不是大问题。
1，预训练模型是先训练没有loss_kl_r，然后再训练有loss_kl_r的；请问各自分别训练了多少步呢？
2，噪声与fp16，我使用的默认的config里面设置的是"fp16_run": false,，请问还是需要在什么地方修改么？

MaxMax2016 · 2023-03-10T05:30:08Z

2，保持false就好
1，一些日志
train_1.log
train_2.log
train_3.log

startreker-shzy · 2023-03-10T05:43:17Z

好的，谢谢分享。我先试一下分开训练。
使用torch的高版本（>1.6.0）训练需要关闭 FP16 #8 这里提到要修改：STFT相关API调用，请问是否还需要呢？

MaxMax2016 · 2023-03-10T05:46:08Z

不用改了

startreker-shzy · 2023-03-10T05:46:43Z

好的，感谢大佬~

startreker-shzy · 2023-03-15T03:40:46Z

更新一下进展：
1，重新跑了实验，先训练不带kl_r的21w step，再继续训练带有kl_r的，总共35w step；效果比之前好一些，但是依然有差距。
2，对比了一下生成结果与训练数据，发现是训练数据上的差异，来源是采样算法的质量。之前用的采样算法在频谱上类似直接截断，导致高频信息较多。尝试了librosa的采样算法，结果OK的。
下面三张图分别是record、liabrosa采样、audiosegment采样：

3，非常抱歉，打扰大佬了~

AmorJNYH · 2023-03-15T03:51:06Z

@startreker-shzy 感谢分享填坑经验

GuangChen2016 · 2023-07-12T05:30:30Z

@MaxMax2016
hi, 请问一下，train_2.log中的一开始的时长loss为啥变化这么大？直接从2.3降低到0.2+，请问一下是什么原因呢？
我这边现在换了自己的数据集，规模跟1w+，bert提取和音素边界re-check了好几遍都是对齐的，其他的loss也正常，就是dur_loss不太正常，不知道是什么原因引起的，合成的音频也不太正常。
INFO [30000, 0.0004908958316998728]
INFO loss_disc=2.520, loss_gen=2.972, loss_fm=5.839
INFO loss_mel=17.394, loss_dur=0.827, loss_kl=2.058

PoppyYanLiao · 2024-05-04T15:51:59Z

楼主你好，请问一下怎么去掉loss_kl_r呀？另外，我在微调时，显示no teacher model. 是什么原因呢？这是不是表示迁移失败？

MaxMax2016 mentioned this issue Mar 10, 2023

Some questions for the KL_loss and KL_loss_r and model behaviors #34

Open

startreker-shzy closed this as completed Mar 15, 2023

MaxMax2016 mentioned this issue Mar 24, 2023

求问微调/Finetuning？ #27

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Baker Loss在18左右，声音没有预训练模型的干净 #36

Baker Loss在18左右，声音没有预训练模型的干净 #36

startreker-shzy commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

startreker-shzy commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

startreker-shzy commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

startreker-shzy commented Mar 10, 2023

startreker-shzy commented Mar 15, 2023

AmorJNYH commented Mar 15, 2023

GuangChen2016 commented Jul 12, 2023

PoppyYanLiao commented May 4, 2024

Baker Loss在18左右，声音没有预训练模型的干净 #36

Baker Loss在18左右，声音没有预训练模型的干净 #36

Comments

startreker-shzy commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

startreker-shzy commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

startreker-shzy commented Mar 10, 2023

MaxMax2016 commented Mar 10, 2023

startreker-shzy commented Mar 10, 2023

startreker-shzy commented Mar 15, 2023

AmorJNYH commented Mar 15, 2023

GuangChen2016 commented Jul 12, 2023

PoppyYanLiao commented May 4, 2024