Skip to content

MeetMemo 0.52

Choose a tag to compare

@abcwyc abcwyc released this 02 Jun 04:34
· 11 commits to main since this release

MeetMemo 0.52

本次更新主要修复 SenseVoice 在轻声、短促语音或低信噪比场景下容易“吃字”的问题,并加入诊断日志,方便后续更精确地定位转录丢字原因。

改进

  • 降低 SenseVoice 的 VAD 触发门槛,让更轻、更短的语音片段更容易被识别:
    • threshold: 0.22 -> 0.18
    • minSpeechDuration: 0.25s -> 0.12s
  • 降低系统音频静音过滤门槛:
    • 0.005 -> 0.0015
  • 增加句首音频补偿窗口:
    • 0.32s -> 0.5s

这些调整可以改善句首丢字、轻声发言漏识别、系统音频中过短语句被过滤的问题。

诊断能力

  • 新增 sherpaSTTDebugLogging 调试开关,默认关闭。
  • 开启后,录制结束时会输出本次 SenseVoice 会话的诊断摘要,包括:
    • 输入音频总时长
    • VAD 放行时长
    • 成功输出片段数
    • 空解码次数
    • 兜底解码次数

这可以帮助判断丢字发生在 VAD 过滤阶段,还是 SenseVoice 解码阶段,减少后续靠手感调参的成本。

Commit

  • b360a57 fix: 缓解 SenseVoice 轻声吃字并加诊断埋点