本地语音识别版:转录不再依赖豆包 API
重要更新:语音转录改为本地模型
这一版将 MeetMemo 的语音识别能力从原先的豆包云端转录 API,切换为本地语音识别架构。录音转写现在默认在你的 Mac 上完成,不再需要配置豆包 STT Key,也减少了会议音频上传到第三方转录服务的依赖。
新增
- 支持本地语音识别引擎:
- macOS 内置 SpeechAnalyzer
- 本地 SenseVoice(基于 sherpa-onnx)
- SenseVoice 引擎支持本地模型下载,下载完成后可离线转录。
- SenseVoice 引擎加入说话人识别能力,可在转录和纪要中更好地区分不同发言人。
- 设置页新增语音识别引擎选择与模型状态检查。
- 录音开始前会自动检查所选语音识别模型是否就绪。
- 支持麦克风与系统音频双路本地转录。
改进
- 语音转录链路从云端 API 调用改为本地 STT Provider 架构,后续可以继续扩展更多本地模型。
- 提升转录隐私性:会议音频不再为了转录发送到豆包服务。
- 优化录音启动、转录流处理和停止后的最终文本整理。
- SenseVoice 在录音结束后会进行离线说话人聚类修正,让发言人标注更稳定。
- README 与项目文档已同步更新为本地双引擎架构说明。
注意事项
- 首次使用 macOS SpeechAnalyzer 时,系统可能需要下载对应语言的语音识别模型。
- 首次使用本地 SenseVoice 时,需要在「设置 > 模型」中下载模型文件,约 240 MB。
- 语音转录已本地化处理;但 AI 纪要生成仍会把转录文本发送到你自己配置的 LLM 服务,请按需选择合规的模型服务商。