B站开源TTS

最近，基于大型语言模型（LLM）的文本到语音（TTS）系统由于其自然性高和强大的零声音克隆功能而逐渐成为行业中的主流。在这里，我们介绍了主要基于 XTTS 模型的 INDEXTTS 系统。我们增加了一些新颖的改进。具体而言，在中文场景中，我们采用了一种混合建模方法，该方法结合了角色和拼音，使多形字符和长尾字符的发音可控制。我们还对矢量量化（VQ）进行了比较分析，并使用有限量表量化（FSQ）进行了声音语音令牌的代码书利用。为了进一步增强语音克隆的效果和稳定性，我们引入了基于构象异构体的语音条件编码器，并用 BigVgan2 替换语音码解码器。与 XTT 相比，它在自然性，内容一致性和零声音克隆方面取得了重大改善。至于开源中流行的 TTS 系统，例如 Fish 语音，Cosyvoice2，FireredTTS 和 F5-TTS，Indextts 具有相对简单的训练过程，更可控制的用法和更快的推理速度。此外，其性能超过了这些系统的性能。

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
examples_part1		examples_part1
examples_part2		examples_part2
examples_part3		examples_part3
examples_part4		examples_part4
examples_part5		examples_part5
.gitignore		.gitignore
README.md		README.md
index.html		index.html

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

B站开源TTS

About

Uh oh!

Releases

Packages

Languages

yiGmMk/index-tts.github.io

Folders and files

Latest commit

History

Repository files navigation

B站开源TTS

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages