该仓库用于语音识别,目前有三种实现方式,分别是paraformer、whisper_online、funasr、whisper_offline。主要用于服务kuon仓库。
可以直接pip install -r requirements.txt
安装所有环境,也可以根据选择方式安装
- onnxruntime-gpu 或者 onnxruntime
- numpy
- librosa 用于音频分析和处理
- pyyaml
- typeguard==2.13.3
- scipy
- openai
- langid
- websockets
- torch
- faster-whisper
cp config.yaml.example config.yaml
- channel 从paraformer、whisper_online、funasr、whisper_offline中选择一种
- 如果选择whisper_online,则需要配置openai的key和代理地址
- 如果选择funasr,则需要配置funasr的服务端地址
- 如果选择whisper_offline,模型选择:tiny、base、medium、small、large-v2、large-v3、tiny.en、base.en、medium.en、small.en,device选择:cpu、cuda
如果使用funasr,则需要部署服务端,这里推荐使用该方式
from kuonasr import ASR
test = ASR()
test.test()
from kuonasr import ASR
asr = ASR()
try:
result = asr.convert("./kuonasr/audio/asr_example.wav")
print(result)
except Exception as e:
print(e)
可以直接执行python .\example.py
进行测试。
源码来自rapid的RapidASR仓库
模型百度云,在paraformer文件夹下的名为asr_paraformerv2的文件,将其放置到kuonasr/paraformer/models文件中。或者去原项目下载。
openai的whisper在线语音识别,官方文档。实际上就是调用接口而已。 使用时注意将openai升级到最新版本,改动了调用方式。然后需要配置密匙和代理地址。准确率还行,但是速度太慢了。
github仓库,需要先部署服务端,这里代码只是客户端进行接口的调用。部署方式可以看官方仓库,也可以参考笔记。目前该方式是最优解
使用faster-whisper进行本地推理
ValueError: An error occurred: unknown format: 3
输入音频的格式不支持,可以使用sox进行转换,例如
sox test.wav -b 16 -e signed-integer test2.wav