Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何准备自己的数据集 #122

Open
xiaoyin199 opened this issue Aug 14, 2023 · 10 comments
Open

如何准备自己的数据集 #122

xiaoyin199 opened this issue Aug 14, 2023 · 10 comments

Comments

@xiaoyin199
Copy link

请假,如何准备自己想要的数据集

@xiaoyin199
Copy link
Author

@MaxMax2016 请问这里准备数据集,是不是只能按着标贝这个样子来准备吗?
必须是这个样子吗?
./data/waves/000106.wav|./data/berts/000106.npy|sil m ao3 t u4 k ai1 x in1 s uei4 sp l iang3 ^ an4 g ong4 ^ ing2 ch uen1 sp sil ./data/waves/000107.wav|./data/berts/000107.npy|sil ^ u3 ^ ve4 t ian1 m a3 sh a1 t i4 j v2 ^ ua2 ^ ua5 h uan4 zh uang1 b i3 j i1 n i2 sp sil ./data/waves/000108.wav|./data/berts/000108.npy|sil p o1 t u3 ^ ian2 x ing4 ^ uei2 p o1 p o1 sp c an2 j i1 t u3 sh u2 t u3 zh iii4 b ian1 p o1 sp sil

data目录下的数据格式,也必须是这样准备是吗?
000001 卡尔普#2陪外孙#1玩滑梯#4。 ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1 000002 假语村言#2别再#1拥抱我#4。 jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3 000003 宝马#1配挂#1跛骡鞍#3,貂蝉#1怨枕#2董翁榻#4。

原来vits的这折中 就不行了是吗?
/data/waves/000106.wav|你好你好你好

感谢!

@xiaoyin199
Copy link
Author

这个社区很不活跃!

@xiaoyin199
Copy link
Author

终于搞定了;

@xiaoyin199
Copy link
Author

1、音频不能过短不能小于2秒就这样认为 2、内容不要有数字和字母 3、也可以使用spanpsp处理成标贝格式数据

@ShangkunTu
Copy link

spanpsp

谢谢分享,请问spanpsp处理成标贝数据是怎么实现的啊?我搜一下spanpsp没找到具体是什么,方便说的稍微详细点吗?谢谢

@xiaoyin199
Copy link
Author

参考这个项目写一写,https://github.com/Zz-ww/VITS-BigVGAN-SpanPSP-Chinese
但是训练是需要大量的数据源的,https://www.data-baker.com/data/index/TNtts/这个开放数据源是1w条,那么想训练自己需要的音色,那么也得有几千条 的数据源数据,搞定数据源是关键,这个我还没搞定。
有个思路就是用 sovits 先训练一个音色转换(这个所需要的素材不多)然后再把 标贝1w条数据的音色换成自己想要的使用sovits,然后再直接进行训练。只是 还没有试验此方法

@xiaoyin199
Copy link
Author

我也想训练一下自己的声音模型,目前卡在数据源了,没有能轻松的准备,这么多的数据源

@hwhw97
Copy link

hwhw97 commented Oct 28, 2023

参考这个项目写一写,https://github.com/Zz-ww/VITS-BigVGAN-SpanPSP-Chinese 但是训练是需要大量的数据源的,https://www.data-baker.com/data/index/TNtts/这个开放数据源是1w条,那么想训练自己需要的音色,那么也得有几千条 的数据源数据,搞定数据源是关键,这个我还没搞定。 有个思路就是用 sovits 先训练一个音色转换(这个所需要的素材不多)然后再把 标贝1w条数据的音色换成自己想要的使用sovits,然后再直接进行训练。只是 还没有试验此方法

你试了吗?效果怎么样?

@GDbbq
Copy link

GDbbq commented May 7, 2024

建议看看文本预处理的代码

@zhaojingxin123
Copy link

有没有 ./bert/prosody_model.pt'可以分享一下呀?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants