现象
当前流水线是 ASR raw transcript 直接进入 polish:coordinator.rs:616-617 读取热词后调用 polish_or_passthrough。当 ASR 产出明显不符合语境的词时,后续 LLM polish 只能被动整理,且现有 prompt 又偏向保留中英混输和专有名词,导致错误词可能被原样输出。
典型例子:开发语境下用户说“提交 issue / issues”,ASR 或后处理可能输出为 iOS,最终文本也会保留错误。
影响
- 语音输入结果出现“八竿子打不着”的词,用户需要手工回改。
- 只靠 prompt 很难稳定覆盖所有同音、近音、跨语言缩写混淆。
- GitHub、CI、PR、issue、tag、release、workflow 等开发词汇属于高频场景,错误会直接污染后续提交、issue 和 AI prompt。
建议接受标准
TODO / 不确定项
- 需要确定纠错层是纯本地规则、LLM 小提示、还是规则 + LLM 双阶段。
- 需要收集更多真实 ASR 错词样本,避免只为单个案例硬编码。
现象
当前流水线是 ASR raw transcript 直接进入 polish:
coordinator.rs:616-617读取热词后调用polish_or_passthrough。当 ASR 产出明显不符合语境的词时,后续 LLM polish 只能被动整理,且现有 prompt 又偏向保留中英混输和专有名词,导致错误词可能被原样输出。典型例子:开发语境下用户说“提交 issue / issues”,ASR 或后处理可能输出为
iOS,最终文本也会保留错误。影响
建议接受标准
iOS可纠正为issue,但 Apple 平台语境必须保留iOS。issue/iOS、PR、CI、tag、release等开发词汇的回归测试。TODO / 不确定项