Release v0.2.3 · worldwonderer/video-recap-skills

一轮成片质量打磨：原声留白字幕更准（可自带字幕）、画面理解更密、解说去掉破折号、评审更稳。

自带原声字幕（更准）。 解说留白处的原声字幕，除了 Agent 校对、ASR 兜底，现在可直接放一份准确字幕作为首选来源：work_dir/user_subtitles.json（[{start,end,text}]，默认成片时间轴；或 {"timeline":"source","lines":[...]} 用原片时间轴按剪辑计划自动映射）或 user_subtitles.srt / .ass。优先级：自带字幕 › Agent 校对的 original_subtitles.json › ASR 兜底。
逐帧采样随场景时长伸缩。 去掉每场景 6 帧的硬上限（约每 4 秒一帧、下限 3、上限 16，VLM_SECONDS_PER_FRAME / VLM_MAX_FRAMES），长场景的画面理解不再被饿死；VLM max_tokens 800→1500。
MiMo 视频概览可作主理解来源。 开启（--mimo-video-overview）时成为每个场景的主要描述，逐帧 frame_facts 仍作锚点与兜底；概览默认仍关闭。

解说不再用破折号。 写作规则禁止破折号（——／—），渲染时再归一化为逗号兜底；只改字幕显示，不动 TTS 朗读。
解说评审更确定、只对硬伤拦。 评委固定 temperature=0+种子；只有幻觉／不完整能在严格模式拦截，文笔类意见降为提示；承认 background_research 与画面、对白并列为有效依据。
覆盖率指标按写作预算同速率计（统一 3.87 字／秒，含 speech_safety_margin），不再误报「讲得太少」；阈值提升为真正的 CONFIG 项。
ASR 人名按背景资料纠错（叶青眉→叶轻眉），严格限定一字之差且窗口本身不是已知人名，避免误改。
视频概览部分被审核拦截时降级（用可用分片产出、未覆盖场景回退逐帧），不再整体中止；概览帧率 mimo_video_fps 2→3。

原声留白字幕与原声对不上。 精确来源（自带字幕／Agent 校对稿）按句区间裁剪精确落到留白：跨解说块的句子按时间比例切片、不再整句重复；过密的行截断显示而非丢成空白。

Full Changelog: v0.2.2...v0.2.3

Provide feedback