MeetMemo 0.52
MeetMemo 0.52
本次更新主要修复 SenseVoice 在轻声、短促语音或低信噪比场景下容易“吃字”的问题,并加入诊断日志,方便后续更精确地定位转录丢字原因。
改进
- 降低 SenseVoice 的 VAD 触发门槛,让更轻、更短的语音片段更容易被识别:
threshold:0.22->0.18minSpeechDuration:0.25s->0.12s
- 降低系统音频静音过滤门槛:
0.005->0.0015
- 增加句首音频补偿窗口:
0.32s->0.5s
这些调整可以改善句首丢字、轻声发言漏识别、系统音频中过短语句被过滤的问题。
诊断能力
- 新增
sherpaSTTDebugLogging调试开关,默认关闭。 - 开启后,录制结束时会输出本次 SenseVoice 会话的诊断摘要,包括:
- 输入音频总时长
- VAD 放行时长
- 成功输出片段数
- 空解码次数
- 兜底解码次数
这可以帮助判断丢字发生在 VAD 过滤阶段,还是 SenseVoice 解码阶段,减少后续靠手感调参的成本。
Commit
b360a57fix: 缓解 SenseVoice 轻声吃字并加诊断埋点