在线快速运行:Colab笔记本 ⚡
HuggingFace在线程序:Bark声音克隆 🤗
使用指南:B站视频 📺
注:运行时需要使用GPU
因为Bark中文文本转语音的功能远远不如英文的效果好,所以我们采用一种新的技术路径SambertHifigan来实现中文的声音克隆功能。
我们的程序能够自动将您上传的语音切片。您可以使用我们制作的专属工具从B站直接提取视频中的语音,只需要填写视频的BV号和起止时间。为了达到更好的声音克隆效果,中文语音素材需要符合以下要求:
- 音频尽量是干净人声,不要有BGM,不要有比较大的杂音,不要有一些特殊的声效,比如回声等
- 声音的情绪尽量稳定,以说话的语料为主,不要是『嗯』『啊』『哈』之类的语气词
(2) 使用我们的Colab笔记本运行程序:运行所有代码即可。
您可以在Colab笔记本的推理
代码模块更改中文文本,进而输出您想要的内容。运行笔记本时的注意事项:
- 需要在运行完所有
pip install
命令后,点击Colab左下角终端,依次执行
apt-get install sox
cd pytorch_wavelets
pip install .
- 上传音频素材后,需要将代码
split_long_audio(whisper_model, "filename.wav", "test", "dataset_raw")
中的filename
替换成音频文件的名字 - 需要在Colab中新建三个文件夹,分别名为:
test_wavs
,output_training_data
,pretrain_work_dir
- 训练完成后,在推理模块的
output = inference(input="大家好呀,欢迎使用滔滔智能的声音克隆产品!")
代码处可以自由编辑中文文本,实现中文声音克隆 - 整个过程都需要使用GPU
Colab在线快速运行: Colab笔记本 ⚡
HuggingFace在线程序: 全新中文声音克隆 🤗
阿里云笔记本在线运行:您也可以免费使用阿里云提供的笔记本进行训练。进入页面后点击右上角的Notebook快速开发
,选择GPU环境,上传阿里云专属笔记本(可下载)和.wav
文件素材后就能够以同样的方式运行啦! 🍻