v0.2.3
一轮成片质量打磨:原声留白字幕更准(可自带字幕)、画面理解更密、解说去掉破折号、评审更稳。
新增
- 自带原声字幕(更准)。 解说留白处的原声字幕,除了 Agent 校对、ASR 兜底,现在可直接放一份准确字幕作为首选来源:
work_dir/user_subtitles.json([{start,end,text}],默认成片时间轴;或{"timeline":"source","lines":[...]}用原片时间轴按剪辑计划自动映射)或user_subtitles.srt/.ass。优先级:自带字幕 › Agent 校对的original_subtitles.json› ASR 兜底。 - 逐帧采样随场景时长伸缩。 去掉每场景 6 帧的硬上限(约每 4 秒一帧、下限 3、上限 16,
VLM_SECONDS_PER_FRAME/VLM_MAX_FRAMES),长场景的画面理解不再被饿死;VLMmax_tokens800→1500。 - MiMo 视频概览可作主理解来源。 开启(
--mimo-video-overview)时成为每个场景的主要描述,逐帧frame_facts仍作锚点与兜底;概览默认仍关闭。
变更
- 解说不再用破折号。 写作规则禁止破折号(——/—),渲染时再归一化为逗号兜底;只改字幕显示,不动 TTS 朗读。
- 解说评审更确定、只对硬伤拦。 评委固定
temperature=0+种子;只有幻觉/不完整能在严格模式拦截,文笔类意见降为提示;承认background_research与画面、对白并列为有效依据。 - 覆盖率指标按写作预算同速率计(统一 3.87 字/秒,含
speech_safety_margin),不再误报「讲得太少」;阈值提升为真正的 CONFIG 项。 - ASR 人名按背景资料纠错(叶青眉→叶轻眉),严格限定一字之差且窗口本身不是已知人名,避免误改。
- 视频概览部分被审核拦截时降级(用可用分片产出、未覆盖场景回退逐帧),不再整体中止;概览帧率
mimo_video_fps2→3。
修复
- 原声留白字幕与原声对不上。 精确来源(自带字幕/Agent 校对稿)按句区间裁剪精确落到留白:跨解说块的句子按时间比例切片、不再整句重复;过密的行截断显示而非丢成空白。
Full Changelog: v0.2.2...v0.2.3