Skip to content

[Roadmap] AISBench 2026 Q2 Roadmap #297

@junemoon-happy

Description

@junemoon-happy

当前状态分析 | Current Status Analysis

项目定位: AISBench当前作为 AI 推理与多模态评测基准,覆盖文本与多模态场景下的精度评测与性能测评。

已有能力:

  • 模型后端:已支持 HuggingFace、vLLM 等本地推理(ais_bench/benchmark/models/local_models/),以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。
  • 评测体系:基于 openicl 的评测 pipeline,支持数据集与 evaluator 配置,可对推理结果进行多维度评测。
  • 性能测评:支持 trace 数据集与 --mode perf 下的性能测试;配置通过 --datasets、--models 指定,当前为精确匹配。
  • 配置与搜索:提供 --search 等能力用于查看配置路径;配置加载需写全名或先查路径。

缺口与诉求:

  • Agentic Coding评测能力缺失,需要接入SWE-Bench、Terminal-Bench、Tau2-Bench、BFCL等标准评测体系,检测Agent的代码生成、渐进决策、工具调用的能力。
  • 多模态理解能力补齐,需要接入MathVision、HLE、RealWorldQA、RefCOCO、QdinW-13等数据集,检测Qwen3-VL等主流模型的视觉数学推理、面向真实场景图像(如车载等匿名实拍)的视觉问答、目标检测等能力。
  • 多模态理解的性能测评能力增强,需要从“固定文本请求”演进为“分布可控的合成请求 + 多模态混合负载 + 可审计的token计量”。
  • 多模态生成测评能力增强,需要接入OneIG-Benchmark、VBench等数据集,检测模型的图片生成、视频生成能力。

Focus

  • Agentic Coding Evaluation: 接入SWE-Bench,测评Agent的代码生成能力;接入Terminal-Bench、Tau2-Bench,测评Agent的渐进决策和多轮对话能力;接入BFCL,测评Agent的工具调用能力。
  • ** Multimodal & Generation Evaluation:** 接入MathVision、HLE,测评模型的视觉数学推理能力;接入RealWorldQA,测评模型面向真实场景的视觉问答能力;接入QdinW-13,测评模型的目标检测能力;接入RefCOCO,基于COCO图像的指代表达理解(REC)数据;接入OneIG-Benchmark,测评模型的图像生成能力。
  • ** Multimodal System Performance:** 自定义合成数据集支持多模态输入,覆盖图片、文本、视频、音频等模态。

路线图愿景 | Roadmap Vision

2026 Q2 将围绕Agentic Coding测评、多模态理解与生成测评、多模态请求合成负载的性能测评等三大个方向推进。

整体目标是建成 Agentic Coding评测体系,支持SWE-Bench,Terminal-Bench,Taue2-Bench,BFCL V4等数据集;增强多模态理解、图片和视频生成等评测能力,支持OneIG-Benchmark、VBench1.0、HLE、MathVision、RefCOCO、RealWorldQA等数据集;增强合成数据集能力,支持文本/图像/音频/视频负载参数配置,增强多模态理解系统的性能测评能力。

阶段性目标 | Phased Goals

时间约束: 全部特性需要 2026.06.30 前完成。

  1. 2026.04.30:完成SWE-Bench、VBench等数据集接入
  2. 2026.05.30:完成Terminal-Bench、SWE-Bench等数据集接入,覆盖Agentic Coding场景;完成HLE、MathVision、RefCOCO、RealWorldQA等数据集接入,增强多模态理解&生成场景测评能力。
  3. 2026.06.30:增强合成数据集自定义能力,支持文本/图像/音频/视频负载参数配置。

关键任务 | Key Tasks

Agentic Coding(任务1)

  • SWE-Bench:聚焦真实软件工程问题修复能力,基于mini-swe-agent,完成SWE-Bench-Verified、SWE-Bench-Pro等子数据集评测。
  • Tau2-Bench:聚焦对话式Agent的工具使用预状态交互,强调在工具可调用环境中的多轮决策与执行可靠性,包括更贴近真实业务流程的交互式任务定义。涉及airline、retail、telecom等子数据集。
  • Terminal-bench:是一类“在容器化终端环境中完成有价值工作”的评测基准,任务覆盖安全修复、数据处理、系统调试、模型训练等多种真实工作流。
  • BFCL V4: 是 Berkeley Function Calling Leaderboard 的最新版本,重点评估模型在函数选择、参数构造、格式遵循与多轮/Agent 任务中的工具调用能力,强调真实 API 场景和自动化可复核评分。

增强多模态理解能力测评(任务2)

  • RealWorldQA:面向真实场景图像(如车载等匿名实拍)的视觉问答基准,侧重空间理解与真实世界常识推理,多为带选项的可验证问答,用于衡量 VLM 在复杂真实图像上的理解与判别能力(公开数据与社区评测广泛使用)。
  • MathVision(MATH-V):面向视觉数学推理的基准,题目来自竞赛级数学问题并配有视觉上下文,覆盖多数学科与难度层级,用于暴露 LMM 在「看图解题」上的短板并与人类表现对照(NeurIPS 2024 Datasets & Benchmarks 等公开工作)。
  • RefCOCO(及常见 RefCOCO 系列):基于 COCO 图像的指代表达理解(REC)数据:给定自然语言描述,模型需定位唯一目标,输出与 GT 框对齐;是视觉定位与图文细粒度对齐能力的标准评测之一。
  • OdinW-13(ODinW-13):开放词汇目标检测方向的综合基准,在多个(13 个)检测子任务/数据域上评估模型能否按文本类别泛化到训练分布外目标,反映检测模型在真实开放场景下的泛化与可用性。
  • HLE(Humanity's Last Exam,HF:cais/hle):是面向专家级学术能力的闭卷基准,覆盖数学、人文、自然科学等数十个学科,题型包含选择题与简答题,并包含图像等多模态输入。

增强多模态生成能力测评(任务3)

  • OneIG-Benchmark 可覆盖图像生成的多维度细粒度评测。
  • VBench可覆盖视频生成在时序一致性、运动质量、语义对齐与可控性等维度的标准评测。当前系统缺少两类基准的一体化接入,导致跨模态结果不可横向对齐、评测流程难复用。

增强多模态理解的性能测评能力(任务4)

  • 能力设计参考 aiperf中关于分布参数化、混合负载、随机种子可复现、多模态 batch 配置等机制,并与 AISBench 现有 benchmark 入口和结果产物规范保持一致。

补充说明 | Additional Notes

  • CI、文档、发布节奏等按需在本季度补充与更新。

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions