本项目是数字人项目的TTS部分, 为LLM部分提供调用接口,同时将生成的音频信息提供给人物模型供其生成对应的唇形和相应的动作
本项目提供WebUi通过tts_controller管理和控制TTS-Core的启动/关闭以及控制API/本地模型的切换。
tts_controller通过管理TTS类型(API/LOCAL)从而修改相应的TTS具体实现,并通过generate_speech来生成对应的声音至./out
目录下
API或本地模型的具体实现都需要通过继承ConfigurableModel/GenerativeModel实现对应的接口(_initialize和synthesize)
此处可以根据需要封装实现各种WebAPI,目前提供四种API:讯飞、微软Azure、OpenAI、字节跳动
此处可以根据需要封装实现各种本地模型,目前提供1种模型以及预训练模型:Bert-Vits2
在tts_config.json
中配置API和本地模型的相关信息
开发文档
- 使用
pip install -r requirements.txt
安装项目所需依赖 - 在
config/tts_config.json
文件中配置相关信息 - 运行
demo/my_gradio.py
运行示例
注意:
- python3版本 < 3.12
- 本项目既可以运行在win也可以运行在linux
- 预训练模型:PretrainedModel
- ApiKey(开发人员使用):ApiKey