背景描述
【AISBench】【精度测评】多模态生成测评能力增强
需求背景 :需在 AISBench 中同时建设 图像生成 与 视频生成 的统一评测能力。OneIG-Benchmark 覆盖图像生成的多维度细粒度评测;VBench / VBench++ 覆盖视频生成在时序一致性、运动质量、语义对齐与可控性等维度的标准评测。当前缺少两类基准的一体化接入,跨模态结果难以横向对齐、流程难复用。
需求描述 :在 AISBench 内建设多模态生成测评能力,统一支持 OneIG-Benchmark 与 VBench (含 T2V 与 VBench++ I2V)的数据接入、推理执行、维度评测、结果汇总与审计回溯,形成可配置、可复现、可追溯的标准化评测闭环。
验收标准 :
OneIG 与 VBench 目标任务均可独立完成 infer + eval 并产出结构化结果。
统一输出样本级审计信息(输入、生成结果、评分、失败原因)。
评测流程具备可复现实验条件(配置、版本、参数、目录结构可回放)。
各子模块全部通过后整体目标达成。
方案设计
整体设计思路
三类子模块并行:图像生成综合(OneIG) 、文本到视频(VBench-T2V) 、图像到视频(VBench++-I2V) 。共用 AISBench 任务调度、产物目录与报表接口;各子模块保留专用数据协议、推理产物路径与评测器封装。
flowchart LR
subgraph OneIG [子模块1 OneIG]
O1[五子任务数据] --> O2[图像生成infer]
O2 --> O3[维度评测]
end
subgraph T2V [子模块2 VBench-T2V]
V1[T2V样本] --> V2[视频生成infer]
V2 --> V3[VBench评测]
end
subgraph I2V [子模块3 VBench++-I2V]
I1[条件图像加prompt] --> I2[I2V infer]
I2 --> I3[VBench++评测]
end
O3 --> Report[统一汇总与审计]
V3 --> Report
I3 --> Report
Loading
子模块 1:OneIG-Benchmark 数据集接入与测评能力建设
背景 :含 alignment、text、reasoning、style、diversity 五类图像生成子任务;建议由 一名开发 端到端交付该子模块。
方案要点 :
数据 :五类子任务字段差异(如 alignment 依赖关系、text 的 text_content、reasoning 的 gt_answer、style/diversity 标签)统一映射为 AISBench 样本协议。
执行 :统一 infer/eval 配置模板;五类子任务可独立或批量入口运行。
评测 :封装五子任务评测器与指标聚合,与 OneIG-Benchmark 官方 口径对齐。
验收口径 :
图像生成模型:Qwen-Image ;裁判模型:Qwen3-VL-8B-Instruct 。
平台:NPU/GPU。
裁判模型 temperature=0 ;AISBench 与官方测试方法精度差异 < 1% 。
子模块 2:VBench-T2V 数据集接入与测评能力建设
背景 :VBench 为视频生成主流基准,覆盖 subject consistency、motion smoothness、temporal flickering、spatial relationship 等多维能力。
方案要点 :
数据 :prompt、类别、视频路径、维度映射标准化。
执行 :从视频生成到维度评测的端到端配置与产物目录(视频文件、中间特征若需要)。
评测 :封装 VBench 官方评测管线或 等效实现 ,多维聚合与审计。
验收口径 :
至少 1 个 T2V 生成模型;裁判链路为 VBench 官方或等效。
平台:NPU/GPU(GPU 优先)。
核心维度分数与官方口径差异 < 1% (同模型、同提示词、同推理参数)。
子模块 3:VBench++-I2V 数据集接入与测评能力建设
背景 :VBench++ 扩展 I2V 与可信度等维度,用于评估条件控制下的视频生成。
方案要点 :
数据 :条件图像、prompt、输出视频路径与维度标签标准化;兼容多分辨率/长宽比。
执行 :I2V 专用 infer/eval 配置;批量与失败重试。
评测 :I2V 关键维度(可控性、时序一致性等)与官方口径一致或偏差可文档解释。
验收口径 :
至少 1 个 I2V 模型;标准化输入与批量评测。
平台:NPU/GPU。
I2V 关键维度稳定输出并与官方一致或可解释偏差。
影响范围
扩展图像/视频任务类型、产物体积大;需规范存储路径与清理策略;评测可能依赖 GPU 与裁判模型调用配额。
使用说明
OneIG :配置五子任务开关、生成模型与裁判模型路径、温度、资源限制;引用官方仓库版本号。
VBench-T2V / I2V :配置提示词集、生成长度/帧率、评测依赖(官方仓库 commit);I2V 需指定条件图像输入规范。
通用 :统一结果目录结构;大文件建议使用共享存储或符号链接策略(按部署文档)。
测试设计
单元测试
各数据集读取与字段校验;视频/图像路径存在性检查。
OneIG:五类子任务样本构建;VBench:维度配置解析。
集成测试
各子模块 infer + eval 一键跑通;产物路径与日志完整;失败任务可重跑。
端到端 / 官方对齐
OneIG:与官方方法差异 < 1% (给定验收模型)。
VBench-T2V:< 1% 核心维度。
VBench++-I2V:关键维度稳定且与官方一致或可解释。
需求拆分验收点
OneIG:数据、执行、评测封装、审计、端到端回归(见内部需求拆分)。
VBench-T2V:数据、执行链路、评测与回归(见内部需求拆分)。
VBench++-I2V:数据、执行、评测与审计回归(见内部需求拆分)。
背景描述
【AISBench】【精度测评】多模态生成测评能力增强
需求背景:需在 AISBench 中同时建设 图像生成 与 视频生成 的统一评测能力。OneIG-Benchmark 覆盖图像生成的多维度细粒度评测;VBench / VBench++ 覆盖视频生成在时序一致性、运动质量、语义对齐与可控性等维度的标准评测。当前缺少两类基准的一体化接入,跨模态结果难以横向对齐、流程难复用。
需求描述:在 AISBench 内建设多模态生成测评能力,统一支持 OneIG-Benchmark 与 VBench(含 T2V 与 VBench++ I2V)的数据接入、推理执行、维度评测、结果汇总与审计回溯,形成可配置、可复现、可追溯的标准化评测闭环。
验收标准:
方案设计
整体设计思路
三类子模块并行:图像生成综合(OneIG)、文本到视频(VBench-T2V)、图像到视频(VBench++-I2V)。共用 AISBench 任务调度、产物目录与报表接口;各子模块保留专用数据协议、推理产物路径与评测器封装。
flowchart LR subgraph OneIG [子模块1 OneIG] O1[五子任务数据] --> O2[图像生成infer] O2 --> O3[维度评测] end subgraph T2V [子模块2 VBench-T2V] V1[T2V样本] --> V2[视频生成infer] V2 --> V3[VBench评测] end subgraph I2V [子模块3 VBench++-I2V] I1[条件图像加prompt] --> I2[I2V infer] I2 --> I3[VBench++评测] end O3 --> Report[统一汇总与审计] V3 --> Report I3 --> Report子模块 1:OneIG-Benchmark 数据集接入与测评能力建设
背景:含 alignment、text、reasoning、style、diversity 五类图像生成子任务;建议由 一名开发 端到端交付该子模块。
方案要点:
验收口径:
子模块 2:VBench-T2V 数据集接入与测评能力建设
背景:VBench 为视频生成主流基准,覆盖 subject consistency、motion smoothness、temporal flickering、spatial relationship 等多维能力。
方案要点:
验收口径:
子模块 3:VBench++-I2V 数据集接入与测评能力建设
背景:VBench++ 扩展 I2V 与可信度等维度,用于评估条件控制下的视频生成。
方案要点:
验收口径:
影响范围
使用说明
测试设计
单元测试
集成测试
端到端 / 官方对齐
需求拆分验收点