Skip to content

【RFC】【Vbench】【精度测评】多模态生成测评能力增强 #282

@GaoHuaZhang

Description

@GaoHuaZhang

背景描述

【AISBench】【精度测评】多模态生成测评能力增强

需求背景:需在 AISBench 中同时建设 图像生成视频生成 的统一评测能力。OneIG-Benchmark 覆盖图像生成的多维度细粒度评测;VBench / VBench++ 覆盖视频生成在时序一致性、运动质量、语义对齐与可控性等维度的标准评测。当前缺少两类基准的一体化接入,跨模态结果难以横向对齐、流程难复用。

需求描述:在 AISBench 内建设多模态生成测评能力,统一支持 OneIG-BenchmarkVBench(含 T2V 与 VBench++ I2V)的数据接入、推理执行、维度评测、结果汇总与审计回溯,形成可配置、可复现、可追溯的标准化评测闭环。

验收标准

  • OneIG 与 VBench 目标任务均可独立完成 infer + eval 并产出结构化结果。
  • 统一输出样本级审计信息(输入、生成结果、评分、失败原因)。
  • 评测流程具备可复现实验条件(配置、版本、参数、目录结构可回放)。
  • 各子模块全部通过后整体目标达成。

方案设计

整体设计思路

三类子模块并行:图像生成综合(OneIG)文本到视频(VBench-T2V)图像到视频(VBench++-I2V)。共用 AISBench 任务调度、产物目录与报表接口;各子模块保留专用数据协议、推理产物路径与评测器封装。

flowchart LR
  subgraph OneIG [子模块1 OneIG]
    O1[五子任务数据] --> O2[图像生成infer]
    O2 --> O3[维度评测]
  end
  subgraph T2V [子模块2 VBench-T2V]
    V1[T2V样本] --> V2[视频生成infer]
    V2 --> V3[VBench评测]
  end
  subgraph I2V [子模块3 VBench++-I2V]
    I1[条件图像加prompt] --> I2[I2V infer]
    I2 --> I3[VBench++评测]
  end
  O3 --> Report[统一汇总与审计]
  V3 --> Report
  I3 --> Report
Loading

子模块 1:OneIG-Benchmark 数据集接入与测评能力建设

背景:含 alignment、text、reasoning、style、diversity 五类图像生成子任务;建议由 一名开发 端到端交付该子模块。

方案要点

  • 数据:五类子任务字段差异(如 alignment 依赖关系、text 的 text_content、reasoning 的 gt_answer、style/diversity 标签)统一映射为 AISBench 样本协议。
  • 执行:统一 infer/eval 配置模板;五类子任务可独立或批量入口运行。
  • 评测:封装五子任务评测器与指标聚合,与 OneIG-Benchmark 官方 口径对齐。

验收口径

  • 图像生成模型:Qwen-Image;裁判模型:Qwen3-VL-8B-Instruct
  • 平台:NPU/GPU。
  • 裁判模型 temperature=0;AISBench 与官方测试方法精度差异 < 1%

子模块 2:VBench-T2V 数据集接入与测评能力建设

背景:VBench 为视频生成主流基准,覆盖 subject consistency、motion smoothness、temporal flickering、spatial relationship 等多维能力。

方案要点

  • 数据:prompt、类别、视频路径、维度映射标准化。
  • 执行:从视频生成到维度评测的端到端配置与产物目录(视频文件、中间特征若需要)。
  • 评测:封装 VBench 官方评测管线或 等效实现,多维聚合与审计。

验收口径

  • 至少 1 个 T2V 生成模型;裁判链路为 VBench 官方或等效。
  • 平台:NPU/GPU(GPU 优先)。
  • 核心维度分数与官方口径差异 < 1%(同模型、同提示词、同推理参数)。

子模块 3:VBench++-I2V 数据集接入与测评能力建设

背景:VBench++ 扩展 I2V 与可信度等维度,用于评估条件控制下的视频生成。

方案要点

  • 数据:条件图像、prompt、输出视频路径与维度标签标准化;兼容多分辨率/长宽比。
  • 执行:I2V 专用 infer/eval 配置;批量与失败重试。
  • 评测:I2V 关键维度(可控性、时序一致性等)与官方口径一致或偏差可文档解释。

验收口径

  • 至少 1 个 I2V 模型;标准化输入与批量评测。
  • 平台:NPU/GPU。
  • I2V 关键维度稳定输出并与官方一致或可解释偏差。

影响范围

  • 扩展图像/视频任务类型、产物体积大;需规范存储路径与清理策略;评测可能依赖 GPU 与裁判模型调用配额。

使用说明

  1. OneIG:配置五子任务开关、生成模型与裁判模型路径、温度、资源限制;引用官方仓库版本号。
  2. VBench-T2V / I2V:配置提示词集、生成长度/帧率、评测依赖(官方仓库 commit);I2V 需指定条件图像输入规范。
  3. 通用:统一结果目录结构;大文件建议使用共享存储或符号链接策略(按部署文档)。

测试设计

单元测试

  • 各数据集读取与字段校验;视频/图像路径存在性检查。
  • OneIG:五类子任务样本构建;VBench:维度配置解析。

集成测试

  • 各子模块 infer + eval 一键跑通;产物路径与日志完整;失败任务可重跑。

端到端 / 官方对齐

  • OneIG:与官方方法差异 < 1%(给定验收模型)。
  • VBench-T2V:< 1% 核心维度。
  • VBench++-I2V:关键维度稳定且与官方一致或可解释。

需求拆分验收点

  • OneIG:数据、执行、评测封装、审计、端到端回归(见内部需求拆分)。
  • VBench-T2V:数据、执行链路、评测与回归(见内部需求拆分)。
  • VBench++-I2V:数据、执行、评测与审计回归(见内部需求拆分)。

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions