Benchmark for Evaluating the Performance of Natural Language Models and Agents / 自然语言模型 & Agent性能评测基准
本项目旨在构建一个全面且高难度的 AI 能力评测体系,主要包含:
- 全方位题库:涵盖大模型与 Agent 的核心能力测试
- 自动化评测:使用 code-fish CLI 工具实现自动化测试与评分
- 标准化格式:题目采用
meta.yaml+prompt.md+reference.md结构 - 开发工具:Git hooks 验证 + AI 辅助创建题目(见 AGENTS.md)
cd code-fish
pip install -r requirements.txt
cp config.yaml.example config.yaml # 编辑填入 API key
# 运行测试
python cac.py # 交互式菜单
python cac.py --scope math # 测试数理题库
python cac.py --mode all -j 4 # 测试+评分,4并发详见 code-fish/README.md 了解完整用法。
-
自动化 (Automation) 面对日新月异的 AI 模型,我们的目标是实现一键生成评分结果,以快速响应模型的迭代更新。
-
经济实惠的高难度测评 (Economic & Challenging) 针对 GPT-5-pro 等昂贵的顶尖模型,我们采用**"少而精"**的策略。通过极高难度的题目进行手动或半自动测试,而基础测试默认满分。这既保证了评测的区分度,又将人工评分的工作量控制在可接受范围内。
- 基础题目:分层次的数学/物理题目,用于测定 AI 的基础数理能力(主要区分本地部署的小模型)。
- Final-test 题目:专门用于评测顶级模型的极限推理能力。
- 后端开发:测试 AI 在 C / C++ / Python / Java / Golang / Rust 等语言中的编程能力。
- 前端审美:测试 AI 的前端设计与实现能力(注:此项仅展示效果,不进行评分)。
- 逻辑推理:包含日常对话理解、逻辑陷阱(如"弱智吧"题目)及悬疑推理问题。
- 语言风格:考察语言表达能力与文风(注:此项仅展示,不评分)。
| 级别 | 描述 | 目标模型 |
|---|---|---|
| Base-test | 较为简单,生活中常用的问题。 | 3B~30B 本地/边缘计算小模型 |
| Advanced-test | 具有一定难度,8B/30B/70B 模型几乎无法完成。 | 500B+ (DeepSeek, GPT-4, Gemini 等) |
| Final-test | 极高难度,以 Google AI Studio 中 Gemini-1.5-pro 的最大思考上限为基准(需多次尝试)。 | 顶级模型 (SOTA) |
| Final-test+ | 当前所有顶级 AI 均无法解决,但人类可以解决的问题。 | 未来模型 (Gemini-Deepthink, GPT-5 等) |
- 幻觉控制与指令遵循:测评模型是否存在幻觉、是否能明确表达不确定性,以及是否能遵循约束指令(目录:
幻觉控制与指令遵循测试/)。
- 由于此部分暂时无法自动化,当前阶段我们将优先专注于 LLM 基准能力的测试编写。
Q:为什么没有 LLM 自带文科能力测试或者知识储量基准测试?
A:随着 Agent 技术与联网搜索能力的普及,如果您有解决此类问题的需求,与其向一个"知识更丰富"的模型提问,不如使用可以灵活上网搜索的 Agent 来解决此类问题。
Q:题库泄露导致模型刷分怎么办?
A:那真是我们的荣幸。不过,本项目仍然会把题目分为公开题库和私有题库两部分。如果一个模型在公开题库和私有题库的表现差距过大,我们会明确指出其"刷分"现象。
我们需要您提供:
- 题目与标准答案:清晰的问题描述及对应的正确解答。
- 考察点说明:说明该题目主要考察 LLM 的哪一项能力。
- 裁判标准:为了满足自动化评测需求,我们需要一个裁判 LLM 能对照标准答案判断回答问题的模型的对错。
- ❌ 不可是纯粹的证明题。
- ❌ 不可是没有标准答案的发散性问题(难以判断"对错")。
每个题目目录需要包含以下文件:
NNN-problem-name/
├── README.md # 给人看的完整文档
├── meta.yaml # 元数据(id、评分指标等)
├── prompt.md # 发给被测模型的 prompt
├── reference.md # 标准答案/评判依据
└── test-results/ # 测试结果
详细格式规范请参阅 CONTRIBUTING.md。
Question (Final-test 难度,Gemini 正确作答率约 30%)
Whether the local deformation functor of Sheaf
$O(-1) \oplus O(1)$ in$\mathbb{P}^1_k$ is miniversal? How about the crude deformation functor$F_1$ ?
1. Problem Statement
Let
$k$ be an algebraically closed field. We study the local deformations of the vector bundle $F_0 = \mathcal{O}{\mathbb{P}^1}(-1) \oplus \mathcal{O}{\mathbb{P}^1}(1)$ on the projective line$X_0 = \mathbb{P}^1_k$ . ...(See full analysis in
数理能力基准测试题库/final-test/001-sheaf-deformation-functor/README.md)Conclusion The local deformation functor
$F$ ... is miniversal. However, the crude local functor$F_1$ ... is not miniversal.