增加高精度模型&语音输入能力

abcwyc released this 04 Jun 07:11

· 10 commits to main since this release

3b6624c

MeetMemo 0.59

这次更新重点增强了本地语音识别体验，并新增系统级语音输入能力。

新增功能

新增系统级语音输入功能：可通过快捷键在微信、浏览器、Cursor、备忘录等前台应用中录音转写，并自动插入到当前光标位置。
新增语音输入设置页，支持开启/关闭语音输入、选择触发键、选择短按或双击触发方式。
新增语音输入悬浮状态窗，可显示录音、转写、插入成功或失败状态。
新增语音输入文本清理能力，可自动过滤部分口头语并整理标点。
SenseVoice 新增模型规格选择：
- 轻量版 INT8：下载更小，运行更轻。
- 高准确率 FP32：体积和内存占用更高，适合优先追求识别准确率的场景。

改进

优化 SenseVoice 识别参数，缓解轻声、句首一两个字被吞的问题。
增加 SenseVoice 识别诊断日志，便于排查 VAD 过滤、空解码和 fallback 触发情况。
优化本地模型下载流程，支持基于临时文件的断点续传。
Onboarding 和设置页会根据当前模型规格显示对应下载体积。
会议录音与语音输入现在互斥，开始会议录音前会自动停止正在进行的语音输入，避免误插入文本。

修复

降低系统音频静音阈值，改善较轻系统声音被过滤的问题。
调整 SenseVoice VAD 阈值和最短语音时长，提高短句和轻声片段的捕获率。

验证

已通过 Debug 构建验证。

Assets 3