Skip to content

Latest commit

 

History

History
51 lines (31 loc) · 3.43 KB

README_zh.md

File metadata and controls

51 lines (31 loc) · 3.43 KB

第二代Bark声音克隆 🐶 & 全新中文声音克隆 🎶

1️⃣ 第二代Bark声音克隆

在线快速运行:Colab笔记本

HuggingFace在线程序:Bark声音克隆 🤗

使用指南:B站视频 📺

注:运行时需要使用GPU

如果您喜欢这个项目,请在Github上点赞吧! ⭐⭐⭐

2️⃣ 全新中文声音克隆

训练5分钟,通话不限时! 🌞

因为Bark中文文本转语音的功能远远不如英文的效果好,所以我们采用一种新的技术路径SambertHifigan来实现中文的声音克隆功能。

如何使用 💡

(1) 准备并上传一段中文语音:单一说话人、长度一分钟左右的.wav文件。

我们的程序能够自动将您上传的语音切片。您可以使用我们制作的专属工具从B站直接提取视频中的语音,只需要填写视频的BV号和起止时间。为了达到更好的声音克隆效果,中文语音素材需要符合以下要求

  • 音频尽量是干净人声,不要有BGM,不要有比较大的杂音,不要有一些特殊的声效,比如回声等
  • 声音的情绪尽量稳定,以说话的语料为主,不要是『嗯』『啊』『哈』之类的语气词

(2) 使用我们的Colab笔记本运行程序:运行所有代码即可。

您可以在Colab笔记本的推理代码模块更改中文文本,进而输出您想要的内容。运行笔记本时的注意事项

  • 需要在运行完所有pip install命令后,点击Colab左下角终端,依次执行
apt-get install sox
cd pytorch_wavelets
pip install .
  • 上传音频素材后,需要将代码split_long_audio(whisper_model, "filename.wav", "test", "dataset_raw")中的filename替换成音频文件的名字
  • 需要在Colab中新建三个文件夹,分别名为:test_wavsoutput_training_datapretrain_work_dir
  • 训练完成后,在推理模块的output = inference(input="大家好呀,欢迎使用滔滔智能的声音克隆产品!")代码处可以自由编辑中文文本,实现中文声音克隆
  • 整个过程都需要使用GPU

三种使用方式 😄

Colab在线快速运行: Colab笔记本

HuggingFace在线程序: 全新中文声音克隆 🤗

阿里云笔记本在线运行:您也可以免费使用阿里云提供的笔记本进行训练。进入页面后点击右上角的Notebook快速开发,选择GPU环境,上传阿里云专属笔记本(可下载).wav文件素材后就能够以同样的方式运行啦! 🍻