Skip to content

[Bug] 测试aime数据集,boxed{ } 中有除数字外的其他字符作为答案。 #142

@DangKan2

Description

@DangKan2

操作系统及版本

openEuler

安装工具的python环境

docker容器中的python环境

python版本

3.11

AISBench工具版本

Version: 3.1.20260119

AISBench执行命令

ais_bench --models vllm_api_general_chat --datasets aime2025_gen_0_shot_chat_prompt --num-warmups 0 --merge-ds --debug

模型配置文件或自定义配置文件内容

from ais_bench.benchmark.models import VLLMCustomAPIChat
from ais_bench.benchmark.utils.postprocess.model_postprocessors import extract_non_reasoning_content

models = [
dict(
attr="service",
type=VLLMCustomAPIChat,
abbr="vllm-api-general-chat",
path="xxx",
model="xxxx",
stream=False,
request_rate=0,
use_timestamp=False,
retry=2,
api_key="",
host_ip="xxxx",
host_port=xxxx,
url="",
max_out_len=44000,
batch_size=1,
trust_remote_code=False,
generation_kwargs=dict(
temperature=1.0,
top_p=0.95,
ignore_eos=False,
chat_template_kwarg= {
"enable_thinking": True
},
),
pred_postprocessor=dict(type=extract_non_reasoning_content),
)
]

预期行为

测试aime数据集,boxed{ } 中只有数字作为答案。

实际行为

boxed{ }中除了数字外,有其他字符,对计分判断有影响。
Image

前置检查

  • 我已读懂主页文档的快速入门,无法解决问题
  • 我已检索过FAQ,无重复问题
  • 我已搜索过现有Issue,无重复问题
  • 我已更新到最新版本,问题仍存在

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't workingcontent_check_passedissue content check passed

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions