项目描述:基于同一套 Campus Marketplace 前后端提示词,横向比较多个大模型通过 opencode CLI 生成完整工程项目的代码质量、功能覆盖、可运行性与业务实现能力。
这个仓库用于评测不同模型在同一套 opencode CLI 提示词下生成完整项目的能力。评测题目分为前端和后端,统一主题为校园二手交易平台 Campus Marketplace。
评测关注的不只是“能生成多少文件”,而是一个模型能否交付接近真实工程的项目:页面是否能用、后端是否能跑、业务规则是否严谨、测试是否可信、README 是否能让别人复现。
llm-evaluation ai-coding opencode code-generation model-comparison vue3 vite typescript spring-boot java17 campus-marketplace full-stack
每个模型目录都按同一结构保存:
<model>/
├── frontend/ # Vue 3 + Vite + TypeScript 校园二手交易前端
└── backend/ # Java 17 + Spring Boot 3.x 校园二手交易后端
| 排名 | 模型 | 前端 | 后端 | 综合 | 等级 |
|---|---|---|---|---|---|
| 1 | deepseek-v4-pro | 91 | 92 | 92 | S |
| 2 | glm-5.1 | 89 | 90 | 90 | S |
| 3 | kimi-2.6 | 86 | 87 | 87 | A |
| 4 | minimax-m2.7 | 83 | 68 | 76 | B |
| 5 | qwen-3.6plus | 84 | 65 | 75 | B |
| 6 | mimo-v2.5-pro | 82 | 63 | 73 | B |
综合分按前端 50% + 后端 50% 计算。
前端满分 100,主要评价需求覆盖、产品体验、交互状态、工程结构和可运行性。
后端满分 100,主要评价 API 覆盖、业务逻辑、数据库建模、架构质量、参数校验、异常处理、测试和可运行性。
详细规则见 评分标准。
| 模型 | 前端 npm run build |
后端 mvn -q test |
关键备注 |
|---|---|---|---|
| deepseek-v4-pro | 通过 | 通过 | 状态流转和 H2 测试隔离较完整。 |
| glm-5.1 | 通过 | 通过 | 工程完成度高,移动端体验较好。 |
| kimi-2.6 | 通过 | 通过 | Pinia 状态拆分细,校验注解覆盖多。 |
| minimax-m2.7 | 通过 | 失败 | 后端测试引用不存在的 DTO,测试代码编译失败。 |
| qwen-3.6plus | 通过 | 失败 | 后端测试直接依赖本机 MySQL。 |
| mimo-v2.5-pro | 通过 | 失败 | 后端测试直接依赖本机 MySQL。 |
前端:6 个模型的 npm run build 均通过。
后端:deepseek-v4-pro、glm-5.1、kimi-2.6 的 mvn -q test 通过;mimo-v2.5-pro 和 qwen-3.6plus 因测试依赖本机 MySQL 失败;minimax-m2.7 因测试代码引用不存在的 DTO 编译失败。
.
├── prompts/ # 固定评测提示词
├── docs/evaluation/ # 评分标准与横评报告
├── deepseek-v4-pro/
├── glm-5.1/
├── kimi-2.6/
├── mimo-v2.5-pro/
├── minimax-m2.7/
└── qwen-3.6plus/
进入对应模型目录后执行:
# 前端
cd <model>/frontend
npm install
npm run build
# 后端
cd <model>/backend
mvn -q test新增模型时,建议按模型名新建目录,并保持:
<model>/
├── frontend/
└── backend/