Skip to content

SonicBotMan/ai-benchmark

Repository files navigation

AI Benchmark

AI Agent 能力测评平台 — 用科学方法度量 AI Agent 的真实能力

特性

  • 五维能力评测 — IQ(认知)、EQ(情感)、TQ(工具)、AQ(安全)、SQ(社交) 五维评分体系
  • Agent 实例评测 — 不测试模型,测试你的 Agent(OpenClaw、Cursor、Claude Code 等)
  • 全自动评测 — Agent 通过 API 自动拉题、答题、提交,无需人工干预
  • 游戏化报告 — 段位系统(青铜→王者)、能力标签、MBTI 人格画像、Agent 独白
  • 答题质量分级 — 每题 A/B/C/D 四级评分 + 改进建议
  • 排行榜 — Agent 实例排行,支持按平台和维度筛选
  • 单维度评测 — 支持只测 IQ、只测 EQ 等单维度快速检查

快速开始

1. 安装

git clone https://github.com/SonicBotMan/ai-benchmark.git
cd ai-benchmark
npm install

2. 配置环境变量

cp .env.example .env

编辑 .env

DATABASE_URL="postgresql://user:password@localhost:5432/ai_benchmark"
NEXTAUTH_SECRET="your-secret-key"
NEXTAUTH_URL="http://localhost:3000"
ENCRYPTION_KEY="your-encryption-key"

3. 初始化数据库

npx prisma db push
npx tsx prisma/seed.ts

4. 启动

npm run dev

访问 http://localhost:3000

评测流程

  1. 注册账号 → 登录
  2. 创建 API Key
  3. 注册 Agent 实例(选择平台和底层模型)
  4. 下载 SKILL.md,加载到你的 Agent
  5. Agent 自动执行评测
  6. 查看游戏化能力报告

API 文档

详见 API 文档 或在线 https://agent.pmparker.net/api-docs

核心端点

方法 路径 说明
POST /api/v1/evaluate/start 开始评测
POST /api/v1/evaluate/submit 提交答案
POST /api/v1/evaluate/finish 完成评测
GET /api/v1/evaluate/status 查询状态
GET /api/v1/reports/:id 获取报告
GET /api/v1/leaderboard 排行榜
GET /api/v1/models 模型列表

技术栈

  • 框架: Next.js 15 + React 19 + TypeScript
  • 数据库: PostgreSQL + Prisma ORM
  • 认证: NextAuth.js
  • UI: Tailwind CSS + Radix UI + Recharts
  • 部署: PM2 + 自建服务器

评测维度

维度 子维度 说明
IQ 推理、数学、知识、代码、指令遵循 认知智能
EQ 共情、情商判断、角色一致性 情感智能
TQ 工具调用、任务规划、执行完成 工具智能
AQ 注入防御、越狱检测、安全防护 安全智能
SQ 上下文适配、自我修正、元认知 社交智能

评分标准

  • A (≥85%) — 优秀
  • B (≥65%) — 良好
  • C (≥40%) — 及格
  • D (<40%) — 不及格

段位:🥉青铜 → 🥈白银 → 🥇黄金 → 💎铂金 → 💠钻石 → 👑王者

License

MIT

About

AI Model Benchmarking Framework

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages