全双工对话机器人,供租赁服务器优化机器人期间使用。
conda create -n full_duplex python=3.10 -y
source activate full_duplexpip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
sudo apt update && sudo apt install -y ffmpeg
pip install -r ./requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple# https://www.paddlepaddle.org.cn/install/quick
# python -m pip install paddlepaddle-gpu==3.2.2 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
python -m pip install paddlepaddle-gpu==2.6.2 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
# python3 -m pip uninstall paddlepaddle-gpu
# import paddle
# paddle.utils.run_check()
pip install --upgrade paddlenlp
pip install scikit-learn
pip list | grep paddle
# paddle2onnx 2.0.1
# paddlefsl 1.1.0
# paddlenlp 2.8.1
# paddlepaddle-gpu 2.6.2python -c "import numpy, numba; print(numpy.__version__, numba.__version__)"
# 2.2.4 0.62.1autodl:
- [×] denoise服务
- [×] vad服务
- [×] asr服务
- [×] dm服务
- [×] lm提示词及调用
- [×] 结构化输出
- [×] 流式窗口流畅
- [×] asr runtime
- [×] 保存时间轴对齐后的结果
- control token 错误纠正
- 对话状态跟踪/管理
- [×] 流式降噪效果: 不好
- 有效打断识别、数据增强
- 意图识别模型加速
- 关键回读(结合话术/打断意图)
- 硬打断 -> 软打断(如果发生打断,ack+话术)
- TTS断开与文本对齐:时间戳
trick:
- 流式denoise效果不好
- 环境嘈杂判断
- 混响抑制/回声消除
- 主声音小判断
- 声纹识别
- 副语言信息:咳嗽声
local:
- [×] 手搓-全双工框架
- [×] 麦克风扬声器对齐
- [×] tts
- [×] 对话历史缓存