各个模块或模型的作用是什么？有关V2测试 #248

zhjygit · 2024-05-27T08:46:13Z

结合论文来看，主要包括两个大的部分：基于基础语音模型的特征提取和音色克隆；
1）基础语音模型在项目中是哪个呀？
2）guillaumekln/faster-whisper-medium 对应论文中的哪个部分？
3）melotts--myshell-ai-MeloTTS-xxx会在.cache\huggface\hub目录下下载模型，这些模型作用是什么，对应论文哪一部分呀？

目前，在V2版本中，我没找到节奏、停顿等的控制方法，貌似只有speed的控制参数。
对于台湾普通话的克隆，几乎无法实现，不知道是基础语音模型的问题还是其他问题（比如，给的音频质量不行），是否需要训练台湾普通话，如何训练能否提供方法，我也想给这个项目顺便贡献一下自己的力量，让他更丰富。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

各个模块或模型的作用是什么？有关V2测试 #248

各个模块或模型的作用是什么？有关V2测试 #248

zhjygit commented May 27, 2024

各个模块或模型的作用是什么？有关V2测试 #248

各个模块或模型的作用是什么？有关V2测试 #248

Comments

zhjygit commented May 27, 2024