【RFC】【Vbench】【精度测评】多模态生成测评能力增强


## 背景描述

### 【AISBench】【精度测评】多模态生成测评能力增强

**需求背景**：需在 AISBench 中同时建设 **图像生成** 与 **视频生成** 的统一评测能力。**OneIG-Benchmark** 覆盖图像生成的多维度细粒度评测；**VBench / VBench++** 覆盖视频生成在时序一致性、运动质量、语义对齐与可控性等维度的标准评测。当前缺少两类基准的一体化接入，跨模态结果难以横向对齐、流程难复用。

**需求描述**：在 AISBench 内建设多模态生成测评能力，统一支持 **OneIG-Benchmark** 与 **VBench**（含 T2V 与 VBench++ I2V）的数据接入、推理执行、维度评测、结果汇总与审计回溯，形成可配置、可复现、可追溯的标准化评测闭环。

**验收标准**：

- OneIG 与 VBench 目标任务均可独立完成 infer + eval 并产出结构化结果。
- 统一输出样本级审计信息（输入、生成结果、评分、失败原因）。
- 评测流程具备可复现实验条件（配置、版本、参数、目录结构可回放）。
- 各子模块全部通过后整体目标达成。

---

## 方案设计

### 整体设计思路

三类子模块并行：**图像生成综合（OneIG）**、**文本到视频（VBench-T2V）**、**图像到视频（VBench++-I2V）**。共用 AISBench 任务调度、产物目录与报表接口；各子模块保留专用数据协议、推理产物路径与评测器封装。

```mermaid
flowchart LR
  subgraph OneIG [子模块1 OneIG]
    O1[五子任务数据] --> O2[图像生成infer]
    O2 --> O3[维度评测]
  end
  subgraph T2V [子模块2 VBench-T2V]
    V1[T2V样本] --> V2[视频生成infer]
    V2 --> V3[VBench评测]
  end
  subgraph I2V [子模块3 VBench++-I2V]
    I1[条件图像加prompt] --> I2[I2V infer]
    I2 --> I3[VBench++评测]
  end
  O3 --> Report[统一汇总与审计]
  V3 --> Report
  I3 --> Report
```

### 子模块 1：OneIG-Benchmark 数据集接入与测评能力建设

**背景**：含 **alignment、text、reasoning、style、diversity** 五类图像生成子任务；建议由 **一名开发** 端到端交付该子模块。

**方案要点**：

- **数据**：五类子任务字段差异（如 alignment 依赖关系、text 的 text_content、reasoning 的 gt_answer、style/diversity 标签）统一映射为 AISBench 样本协议。
- **执行**：统一 infer/eval 配置模板；五类子任务可独立或批量入口运行。
- **评测**：封装五子任务评测器与指标聚合，与 [OneIG-Benchmark 官方](https://github.com/OneIG-Bench/OneIG-Benchmark) 口径对齐。

**验收口径**：

- 图像生成模型：**Qwen-Image**；裁判模型：**Qwen3-VL-8B-Instruct**。
- 平台：NPU/GPU。
- 裁判模型 **temperature=0**；AISBench 与官方测试方法精度差异 **< 1%**。

### 子模块 2：VBench-T2V 数据集接入与测评能力建设

**背景**：VBench 为视频生成主流基准，覆盖 subject consistency、motion smoothness、temporal flickering、spatial relationship 等多维能力。

**方案要点**：

- **数据**：prompt、类别、视频路径、维度映射标准化。
- **执行**：从视频生成到维度评测的端到端配置与产物目录（视频文件、中间特征若需要）。
- **评测**：封装 VBench 官方评测管线或 **等效实现**，多维聚合与审计。

**验收口径**：

- 至少 1 个 T2V 生成模型；裁判链路为 VBench 官方或等效。
- 平台：NPU/GPU（GPU 优先）。
- 核心维度分数与官方口径差异 **< 1%**（同模型、同提示词、同推理参数）。

### 子模块 3：VBench++-I2V 数据集接入与测评能力建设

**背景**：VBench++ 扩展 I2V 与可信度等维度，用于评估条件控制下的视频生成。

**方案要点**：

- **数据**：条件图像、prompt、输出视频路径与维度标签标准化；兼容多分辨率/长宽比。
- **执行**：I2V 专用 infer/eval 配置；批量与失败重试。
- **评测**：I2V 关键维度（可控性、时序一致性等）与官方口径一致或偏差可文档解释。

**验收口径**：

- 至少 1 个 I2V 模型；标准化输入与批量评测。
- 平台：NPU/GPU。
- I2V 关键维度稳定输出并与官方一致或可解释偏差。

### 影响范围

- 扩展图像/视频任务类型、产物体积大；需规范存储路径与清理策略；评测可能依赖 GPU 与裁判模型调用配额。

---

## 使用说明

1. **OneIG**：配置五子任务开关、生成模型与裁判模型路径、温度、资源限制；引用官方仓库版本号。
2. **VBench-T2V / I2V**：配置提示词集、生成长度/帧率、评测依赖（官方仓库 commit）；I2V 需指定条件图像输入规范。
3. **通用**：统一结果目录结构；大文件建议使用共享存储或符号链接策略（按部署文档）。

---

## 测试设计

### 单元测试

- 各数据集读取与字段校验；视频/图像路径存在性检查。
- OneIG：五类子任务样本构建；VBench：维度配置解析。

### 集成测试

- 各子模块 **infer + eval** 一键跑通；产物路径与日志完整；失败任务可重跑。

### 端到端 / 官方对齐

- OneIG：与官方方法差异 **< 1%**（给定验收模型）。
- VBench-T2V：**< 1%** 核心维度。
- VBench++-I2V：关键维度稳定且与官方一致或可解释。

### 需求拆分验收点

- OneIG：数据、执行、评测封装、审计、端到端回归（见内部需求拆分）。
- VBench-T2V：数据、执行链路、评测与回归（见内部需求拆分）。
- VBench++-I2V：数据、执行、评测与审计回归（见内部需求拆分）。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【RFC】【Vbench】【精度测评】多模态生成测评能力增强 #282

背景描述

【AISBench】【精度测评】多模态生成测评能力增强

方案设计

整体设计思路

子模块 1：OneIG-Benchmark 数据集接入与测评能力建设

子模块 2：VBench-T2V 数据集接入与测评能力建设

子模块 3：VBench++-I2V 数据集接入与测评能力建设

影响范围

使用说明

测试设计

单元测试

集成测试

端到端 / 官方对齐

需求拆分验收点

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

【RFC】【Vbench】【精度测评】多模态生成测评能力增强 #282

Description

背景描述

【AISBench】【精度测评】多模态生成测评能力增强

方案设计

整体设计思路

子模块 1：OneIG-Benchmark 数据集接入与测评能力建设

子模块 2：VBench-T2V 数据集接入与测评能力建设

子模块 3：VBench++-I2V 数据集接入与测评能力建设

影响范围

使用说明

测试设计

单元测试

集成测试

端到端 / 官方对齐

需求拆分验收点

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions