Skip to content

Sj295/LLM-Comparison

Repository files navigation

Campus Marketplace 模型编程能力横评

models frontend backend evaluation

项目描述:基于同一套 Campus Marketplace 前后端提示词,横向比较多个大模型通过 opencode CLI 生成完整工程项目的代码质量、功能覆盖、可运行性与业务实现能力。

这个仓库用于评测不同模型在同一套 opencode CLI 提示词下生成完整项目的能力。评测题目分为前端和后端,统一主题为校园二手交易平台 Campus Marketplace。

评测关注的不只是“能生成多少文件”,而是一个模型能否交付接近真实工程的项目:页面是否能用、后端是否能跑、业务规则是否严谨、测试是否可信、README 是否能让别人复现。

关键词

llm-evaluation ai-coding opencode code-generation model-comparison vue3 vite typescript spring-boot java17 campus-marketplace full-stack

评测对象

每个模型目录都按同一结构保存:

<model>/
├── frontend/   # Vue 3 + Vite + TypeScript 校园二手交易前端
└── backend/    # Java 17 + Spring Boot 3.x 校园二手交易后端

当前排行榜

排名 模型 前端 后端 综合 等级
1 deepseek-v4-pro 91 92 92 S
2 glm-5.1 89 90 90 S
3 kimi-2.6 86 87 87 A
4 minimax-m2.7 83 68 76 B
5 qwen-3.6plus 84 65 75 B
6 mimo-v2.5-pro 82 63 73 B

综合分按前端 50% + 后端 50% 计算。

评分方法

前端满分 100,主要评价需求覆盖、产品体验、交互状态、工程结构和可运行性。
后端满分 100,主要评价 API 覆盖、业务逻辑、数据库建模、架构质量、参数校验、异常处理、测试和可运行性。

详细规则见 评分标准

验证快照

模型 前端 npm run build 后端 mvn -q test 关键备注
deepseek-v4-pro 通过 通过 状态流转和 H2 测试隔离较完整。
glm-5.1 通过 通过 工程完成度高,移动端体验较好。
kimi-2.6 通过 通过 Pinia 状态拆分细,校验注解覆盖多。
minimax-m2.7 通过 失败 后端测试引用不存在的 DTO,测试代码编译失败。
qwen-3.6plus 通过 失败 后端测试直接依赖本机 MySQL。
mimo-v2.5-pro 通过 失败 后端测试直接依赖本机 MySQL。

评测材料

本轮验证摘要

前端:6 个模型的 npm run build 均通过。
后端:deepseek-v4-proglm-5.1kimi-2.6mvn -q test 通过;mimo-v2.5-proqwen-3.6plus 因测试依赖本机 MySQL 失败;minimax-m2.7 因测试代码引用不存在的 DTO 编译失败。

仓库结构

.
├── prompts/                    # 固定评测提示词
├── docs/evaluation/            # 评分标准与横评报告
├── deepseek-v4-pro/
├── glm-5.1/
├── kimi-2.6/
├── mimo-v2.5-pro/
├── minimax-m2.7/
└── qwen-3.6plus/

复测方式

进入对应模型目录后执行:

# 前端
cd <model>/frontend
npm install
npm run build

# 后端
cd <model>/backend
mvn -q test

新增模型时,建议按模型名新建目录,并保持:

<model>/
├── frontend/
└── backend/

然后按 评分标准 更新排行榜和 横评报告

About

基于同一套 Campus Marketplace 前后端提示词,横向比较多个大模型通过 opencode CLI 生成完整工程项目的代码质量、功能覆盖、可运行性与业务实现能力。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors