[Roadmap] AISBench 2026 Q2 Roadmap

### 当前状态分析 | Current Status Analysis

**项目定位：** AISBench当前作为 AI 推理与多模态评测基准，覆盖文本与多模态场景下的精度评测与性能测评。

**已有能力：** 
- 模型后端：已支持 HuggingFace、vLLM 等本地推理（ais_bench/benchmark/models/local_models/），以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。
- 评测体系：基于 openicl 的评测 pipeline，支持数据集与 evaluator 配置，可对推理结果进行多维度评测。
- 性能测评：支持 trace 数据集与 --mode perf 下的性能测试；配置通过 --datasets、--models 指定，当前为精确匹配。
- 配置与搜索：提供 --search 等能力用于查看配置路径；配置加载需写全名或先查路径。

**缺口与诉求：**
- Agentic Coding评测能力缺失，需要接入SWE-Bench、Terminal-Bench、Tau2-Bench、BFCL等标准评测体系，检测Agent的代码生成、渐进决策、工具调用的能力。
- 多模态理解能力补齐，需要接入MathVision、HLE、RealWorldQA、RefCOCO、QdinW-13等数据集，检测Qwen3-VL等主流模型的视觉数学推理、面向真实场景图像（如车载等匿名实拍）的视觉问答、目标检测等能力。
- 多模态理解的性能测评能力增强，需要从“固定文本请求”演进为“分布可控的合成请求 + 多模态混合负载 + 可审计的token计量”。
- 多模态生成测评能力增强，需要接入OneIG-Benchmark、VBench等数据集，检测模型的图片生成、视频生成能力。

**Focus**
- **Agentic Coding Evaluation：** 接入SWE-Bench，测评Agent的代码生成能力；接入Terminal-Bench、Tau2-Bench，测评Agent的渐进决策和多轮对话能力；接入BFCL，测评Agent的工具调用能力。
- ** Multimodal & Generation Evaluation:** 接入MathVision、HLE，测评模型的视觉数学推理能力；接入RealWorldQA，测评模型面向真实场景的视觉问答能力；接入QdinW-13，测评模型的目标检测能力；接入RefCOCO，基于COCO图像的指代表达理解（REC）数据；接入OneIG-Benchmark，测评模型的图像生成能力。
- ** Multimodal System Performance:** 自定义合成数据集支持多模态输入，覆盖图片、文本、视频、音频等模态。



### 路线图愿景 | Roadmap Vision

2026 Q2 将围绕**Agentic Coding测评、多模态理解与生成测评、多模态请求合成负载的性能测评**等三大个方向推进。

整体目标是建成 Agentic Coding评测体系，支持SWE-Bench，Terminal-Bench，Taue2-Bench，BFCL V4等数据集；增强多模态理解、图片和视频生成等评测能力，支持OneIG-Benchmark、VBench1.0、HLE、MathVision、RefCOCO、RealWorldQA等数据集；增强合成数据集能力，支持文本/图像/音频/视频负载参数配置，增强多模态理解系统的性能测评能力。

### 阶段性目标 | Phased Goals

**时间约束：** 全部特性需要 **2026.06.30** 前完成。

1. 2026.04.30：完成SWE-Bench、VBench等数据集接入
2. 2026.05.30：完成Terminal-Bench、SWE-Bench等数据集接入，覆盖Agentic Coding场景；完成HLE、MathVision、RefCOCO、RealWorldQA等数据集接入，增强多模态理解&生成场景测评能力。
3. 2026.06.30：增强合成数据集自定义能力，支持文本/图像/音频/视频负载参数配置。

### 关键任务 | Key Tasks

## Agentic Coding（任务1）
- SWE-Bench：聚焦真实软件工程问题修复能力，基于mini-swe-agent，完成SWE-Bench-Verified、SWE-Bench-Pro等子数据集评测。
- Tau2-Bench：聚焦对话式Agent的工具使用预状态交互，强调在工具可调用环境中的多轮决策与执行可靠性，包括更贴近真实业务流程的交互式任务定义。涉及airline、retail、telecom等子数据集。
-  Terminal-bench：是一类“在容器化终端环境中完成有价值工作”的评测基准，任务覆盖安全修复、数据处理、系统调试、模型训练等多种真实工作流。
- BFCL V4： 是 Berkeley Function Calling Leaderboard 的最新版本，重点评估模型在函数选择、参数构造、格式遵循与多轮/Agent 任务中的工具调用能力，强调真实 API 场景和自动化可复核评分。

### 增强多模态理解能力测评（任务2）
- RealWorldQA：面向真实场景图像（如车载等匿名实拍）的视觉问答基准，侧重空间理解与真实世界常识推理，多为带选项的可验证问答，用于衡量 VLM 在复杂真实图像上的理解与判别能力（公开数据与社区评测广泛使用）。
- MathVision（MATH-V）：面向视觉数学推理的基准，题目来自竞赛级数学问题并配有视觉上下文，覆盖多数学科与难度层级，用于暴露 LMM 在「看图解题」上的短板并与人类表现对照（NeurIPS 2024 Datasets & Benchmarks 等公开工作）。
- RefCOCO（及常见 RefCOCO 系列）：基于 COCO 图像的指代表达理解（REC）数据：给定自然语言描述，模型需定位唯一目标，输出与 GT 框对齐；是视觉定位与图文细粒度对齐能力的标准评测之一。
- OdinW-13（ODinW-13）：开放词汇目标检测方向的综合基准，在多个（13 个）检测子任务/数据域上评估模型能否按文本类别泛化到训练分布外目标，反映检测模型在真实开放场景下的泛化与可用性。
- HLE（Humanity's Last Exam，HF：cais/hle）：是面向专家级学术能力的闭卷基准，覆盖数学、人文、自然科学等数十个学科，题型包含选择题与简答题，并包含图像等多模态输入。

### 增强多模态生成能力测评（任务3）
- OneIG-Benchmark 可覆盖图像生成的多维度细粒度评测。
- VBench可覆盖视频生成在时序一致性、运动质量、语义对齐与可控性等维度的标准评测。当前系统缺少两类基准的一体化接入，导致跨模态结果不可横向对齐、评测流程难复用。

### 增强多模态理解的性能测评能力（任务4）
- 能力设计参考 aiperf中关于分布参数化、混合负载、随机种子可复现、多模态 batch 配置等机制，并与 AISBench 现有 benchmark 入口和结果产物规范保持一致。




### 补充说明 | Additional Notes

- CI、文档、发布节奏等按需在本季度补充与更新。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Roadmap] AISBench 2026 Q2 Roadmap #297

当前状态分析 | Current Status Analysis

路线图愿景 | Roadmap Vision

阶段性目标 | Phased Goals

关键任务 | Key Tasks

Agentic Coding（任务1）

增强多模态理解能力测评（任务2）

增强多模态生成能力测评（任务3）

增强多模态理解的性能测评能力（任务4）

补充说明 | Additional Notes

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

[Roadmap] AISBench 2026 Q2 Roadmap #297

Description

当前状态分析 | Current Status Analysis

路线图愿景 | Roadmap Vision

阶段性目标 | Phased Goals

关键任务 | Key Tasks

Agentic Coding（任务1）

增强多模态理解能力测评（任务2）

增强多模态生成能力测评（任务3）

增强多模态理解的性能测评能力（任务4）

补充说明 | Additional Notes

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions