Skip to content

v0.2.3

Choose a tag to compare

@worldwonderer worldwonderer released this 19 Jun 11:52
· 31 commits to main since this release
d104333

一轮成片质量打磨:原声留白字幕更准(可自带字幕)、画面理解更密、解说去掉破折号、评审更稳。

新增

  • 自带原声字幕(更准)。 解说留白处的原声字幕,除了 Agent 校对、ASR 兜底,现在可直接放一份准确字幕作为首选来源work_dir/user_subtitles.json[{start,end,text}],默认成片时间轴;或 {"timeline":"source","lines":[...]} 用原片时间轴按剪辑计划自动映射)或 user_subtitles.srt / .ass。优先级:自带字幕 › Agent 校对的 original_subtitles.json › ASR 兜底。
  • 逐帧采样随场景时长伸缩。 去掉每场景 6 帧的硬上限(约每 4 秒一帧、下限 3、上限 16,VLM_SECONDS_PER_FRAME / VLM_MAX_FRAMES),长场景的画面理解不再被饿死;VLM max_tokens 800→1500。
  • MiMo 视频概览可作主理解来源。 开启(--mimo-video-overview)时成为每个场景的主要描述,逐帧 frame_facts 仍作锚点与兜底;概览默认仍关闭。

变更

  • 解说不再用破折号。 写作规则禁止破折号(——/—),渲染时再归一化为逗号兜底;只改字幕显示,不动 TTS 朗读。
  • 解说评审更确定、只对硬伤拦。 评委固定 temperature=0+种子;只有幻觉/不完整能在严格模式拦截,文笔类意见降为提示;承认 background_research 与画面、对白并列为有效依据。
  • 覆盖率指标按写作预算同速率计(统一 3.87 字/秒,含 speech_safety_margin),不再误报「讲得太少」;阈值提升为真正的 CONFIG 项。
  • ASR 人名按背景资料纠错(叶青眉→叶轻眉),严格限定一字之差且窗口本身不是已知人名,避免误改。
  • 视频概览部分被审核拦截时降级(用可用分片产出、未覆盖场景回退逐帧),不再整体中止;概览帧率 mimo_video_fps 2→3。

修复

  • 原声留白字幕与原声对不上。 精确来源(自带字幕/Agent 校对稿)按句区间裁剪精确落到留白:跨解说块的句子按时间比例切片、不再整句重复;过密的行截断显示而非丢成空白。

Full Changelog: v0.2.2...v0.2.3