操作系统及版本
Linux w24 5.10.0-216.0.0.115.oe2203sp4.aarch64
安装工具的python环境
在anaconda/miniconda创建的python虚拟环境
python版本
3.10
AISBench工具版本
3.1.20260330
AISBench执行命令
ais_bench --models vllm_api_general_chat --datasets gpqa_gen_0_shot_cot_chat_prompt.py --mode all --dump-eval-details --merge-ds --debug
模型配置文件或自定义配置文件内容
from ais_bench.benchmark.models import VLLMCustomAPIChat
from ais_bench.benchmark.utils.postprocess.model_postprocessors import extract_non_reasoning_content
models = [
dict(
attr="service",
type=VLLMCustomAPIChat,
abbr="vllm-api-general-chat",
path="path/MiniMax-M2.7-w8a8",
model="minimax27",
stream=False,
request_rate=0,
use_timestamp=False,
retry=2,
host_ip="localhost",
host_port=8015,
max_out_len=65536,
batch_size=32,
trust_remote_code=False,
generation_kwargs=dict(
seed=None,
),
pred_postprocessor=dict(type=extract_non_reasoning_content),
)
]
预期行为
形如“Answer: C”、“Answer: C”等输出应能被成功解析。
实际行为
“Answer: C”、“Answer: C” 被解析成了null,导致此题算作错题,影响了精度结果:

附一次完整测试结果:
GPQA_diamond.json
前置检查
操作系统及版本
Linux w24 5.10.0-216.0.0.115.oe2203sp4.aarch64
安装工具的python环境
在anaconda/miniconda创建的python虚拟环境
python版本
3.10
AISBench工具版本
3.1.20260330
AISBench执行命令
ais_bench --models vllm_api_general_chat --datasets gpqa_gen_0_shot_cot_chat_prompt.py --mode all --dump-eval-details --merge-ds --debug
模型配置文件或自定义配置文件内容
from ais_bench.benchmark.models import VLLMCustomAPIChat
from ais_bench.benchmark.utils.postprocess.model_postprocessors import extract_non_reasoning_content
models = [
dict(
attr="service",
type=VLLMCustomAPIChat,
abbr="vllm-api-general-chat",
path="path/MiniMax-M2.7-w8a8",
model="minimax27",
stream=False,
request_rate=0,
use_timestamp=False,
retry=2,
host_ip="localhost",
host_port=8015,
max_out_len=65536,
batch_size=32,
trust_remote_code=False,
generation_kwargs=dict(
seed=None,
),
pred_postprocessor=dict(type=extract_non_reasoning_content),
)
]
预期行为
形如“Answer: C”、“Answer: C”等输出应能被成功解析。
实际行为
“Answer: C”、“Answer: C” 被解析成了null,导致此题算作错题,影响了精度结果:
GPQA_diamond.json
前置检查