Skip to content

增加高精度模型&语音输入能力

Choose a tag to compare

@abcwyc abcwyc released this 04 Jun 07:11
· 10 commits to main since this release

MeetMemo 0.59

这次更新重点增强了本地语音识别体验,并新增系统级语音输入能力。

新增功能

  • 新增系统级语音输入功能:可通过快捷键在微信、浏览器、Cursor、备忘录等前台应用中录音转写,并自动插入到当前光标位置。
  • 新增语音输入设置页,支持开启/关闭语音输入、选择触发键、选择短按或双击触发方式。
  • 新增语音输入悬浮状态窗,可显示录音、转写、插入成功或失败状态。
  • 新增语音输入文本清理能力,可自动过滤部分口头语并整理标点。
  • SenseVoice 新增模型规格选择:
    • 轻量版 INT8:下载更小,运行更轻。
    • 高准确率 FP32:体积和内存占用更高,适合优先追求识别准确率的场景。

改进

  • 优化 SenseVoice 识别参数,缓解轻声、句首一两个字被吞的问题。
  • 增加 SenseVoice 识别诊断日志,便于排查 VAD 过滤、空解码和 fallback 触发情况。
  • 优化本地模型下载流程,支持基于临时文件的断点续传。
  • Onboarding 和设置页会根据当前模型规格显示对应下载体积。
  • 会议录音与语音输入现在互斥,开始会议录音前会自动停止正在进行的语音输入,避免误插入文本。

修复

  • 降低系统音频静音阈值,改善较轻系统声音被过滤的问题。
  • 调整 SenseVoice VAD 阈值和最短语音时长,提高短句和轻声片段的捕获率。

验证

  • 已通过 Debug 构建验证。