本地语音识别版：转录不再依赖豆包 API

abcwyc released this 31 May 16:34

· 13 commits to main since this release

2d62b97

重要更新：语音转录改为本地模型

这一版将 MeetMemo 的语音识别能力从原先的豆包云端转录 API，切换为本地语音识别架构。录音转写现在默认在你的 Mac 上完成，不再需要配置豆包 STT Key，也减少了会议音频上传到第三方转录服务的依赖。

新增

支持本地语音识别引擎：
- macOS 内置 SpeechAnalyzer
- 本地 SenseVoice（基于 sherpa-onnx）
SenseVoice 引擎支持本地模型下载，下载完成后可离线转录。
SenseVoice 引擎加入说话人识别能力，可在转录和纪要中更好地区分不同发言人。
设置页新增语音识别引擎选择与模型状态检查。
录音开始前会自动检查所选语音识别模型是否就绪。
支持麦克风与系统音频双路本地转录。

改进

语音转录链路从云端 API 调用改为本地 STT Provider 架构，后续可以继续扩展更多本地模型。
提升转录隐私性：会议音频不再为了转录发送到豆包服务。
优化录音启动、转录流处理和停止后的最终文本整理。
SenseVoice 在录音结束后会进行离线说话人聚类修正，让发言人标注更稳定。
README 与项目文档已同步更新为本地双引擎架构说明。

注意事项

首次使用 macOS SpeechAnalyzer 时，系统可能需要下载对应语言的语音识别模型。
首次使用本地 SenseVoice 时，需要在「设置 > 模型」中下载模型文件，约 240 MB。
语音转录已本地化处理；但 AI 纪要生成仍会把转录文本发送到你自己配置的 LLM 服务，请按需选择合规的模型服务商。

Assets 3