AI Benchmark

AI Agent 能力测评平台 — 用科学方法度量 AI Agent 的真实能力

特性

五维能力评测 — IQ(认知)、EQ(情感)、TQ(工具)、AQ(安全)、SQ(社交) 五维评分体系
Agent 实例评测 — 不测试模型，测试你的 Agent（OpenClaw、Cursor、Claude Code 等）
全自动评测 — Agent 通过 API 自动拉题、答题、提交，无需人工干预
游戏化报告 — 段位系统（青铜→王者）、能力标签、MBTI 人格画像、Agent 独白
答题质量分级 — 每题 A/B/C/D 四级评分 + 改进建议
排行榜 — Agent 实例排行，支持按平台和维度筛选
单维度评测 — 支持只测 IQ、只测 EQ 等单维度快速检查

快速开始

1. 安装

git clone https://github.com/SonicBotMan/ai-benchmark.git
cd ai-benchmark
npm install

2. 配置环境变量

cp .env.example .env

编辑 .env：

DATABASE_URL="postgresql://user:password@localhost:5432/ai_benchmark"
NEXTAUTH_SECRET="your-secret-key"
NEXTAUTH_URL="http://localhost:3000"
ENCRYPTION_KEY="your-encryption-key"

3. 初始化数据库

npx prisma db push
npx tsx prisma/seed.ts

4. 启动

npm run dev

访问 http://localhost:3000

评测流程

注册账号 → 登录
创建 API Key
注册 Agent 实例（选择平台和底层模型）
下载 SKILL.md，加载到你的 Agent
Agent 自动执行评测
查看游戏化能力报告

API 文档

详见 API 文档或在线 https://agent.pmparker.net/api-docs

核心端点

方法	路径	说明
POST	`/api/v1/evaluate/start`	开始评测
POST	`/api/v1/evaluate/submit`	提交答案
POST	`/api/v1/evaluate/finish`	完成评测
GET	`/api/v1/evaluate/status`	查询状态
GET	`/api/v1/reports/:id`	获取报告
GET	`/api/v1/leaderboard`	排行榜
GET	`/api/v1/models`	模型列表

技术栈

框架: Next.js 15 + React 19 + TypeScript
数据库: PostgreSQL + Prisma ORM
认证: NextAuth.js
UI: Tailwind CSS + Radix UI + Recharts
部署: PM2 + 自建服务器

评测维度

维度	子维度	说明
IQ	推理、数学、知识、代码、指令遵循	认知智能
EQ	共情、情商判断、角色一致性	情感智能
TQ	工具调用、任务规划、执行完成	工具智能
AQ	注入防御、越狱检测、安全防护	安全智能
SQ	上下文适配、自我修正、元认知	社交智能

评分标准

A (≥85%) — 优秀
B (≥65%) — 良好
C (≥40%) — 及格
D (<40%) — 不及格

段位：🥉青铜 → 🥈白银 → 🥇黄金 → 💎铂金 → 💠钻石 → 👑王者

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
.sisyphus/plans		.sisyphus/plans
prisma		prisma
public		public
src		src
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
components.json		components.json
ecosystem.config.js		ecosystem.config.js
eslint.config.mjs		eslint.config.mjs
next.config.ts		next.config.ts
package-lock.json		package-lock.json
package.json		package.json
postcss.config.mjs		postcss.config.mjs
prisma.config.ts		prisma.config.ts
tsconfig.json		tsconfig.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AI Benchmark

特性

快速开始

1. 安装

2. 配置环境变量

3. 初始化数据库

4. 启动

评测流程

API 文档

核心端点

技术栈

评测维度

评分标准

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

AI Benchmark

特性

快速开始

1. 安装

2. 配置环境变量

3. 初始化数据库

4. 启动

评测流程

API 文档

核心端点

技术栈

评测维度

评分标准

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages