Skip to content
Discussion options

You must be logged in to vote

效率可以参考 Benchmark :https://alibaba.github.io/open-code-review/
目前上下文主要是靠 grep,我们正在评测 CodeGragh 等 ast 工具的效果,考虑集成进来。

我们基于真实场景的 CodeReview 基准测试进行了客观评估,该评测集从 50 个热门开源仓库中精选 200 个真实的 PullRequest,覆盖 10 种编程语言、多种问题类型与不同的变更规模,并由 80+ 位资深工程师交叉标注完成。评测对比了三类工具:Open Code Review(v1.3.1)、Claude Code(v2.1.169,/code-review)和 Codex(v0.140.0,/review),涵盖 Claude-4.6-Opus、Claude-4.8-Opus、GPT-5.5、Qwen3.7-Max、Deepseek-V4-Pro、GLM-5.1 共六款主流模型。

结论一:不同工具在准确率与召回率上各有所长

Open Code Review 的核心优势在于准确率:各模型的准确率在 25%–38% 之间,远高于 Claude Code 的 7%–16%。以 Claude-4.6-Opus 为例,OCR 产出 889 条评论、命中 301 个真实问题(准确率 33.90%),而 Claude Code 产出 5980 条评论、命中 435 个真实问题(准确率 7.23%)。更高的准确率意味着更低的噪声,工程师在处理评审结果时效率更高。
然而,Claude Code 的核心优势在于召回率:CC + Claude-4.6…

Replies: 1 comment 3 replies

Comment options

You must be logged in to vote
3 replies
@ChrisYANG1111
Comment options

@MuoDoo
Comment options

MuoDoo Jun 22, 2026
Collaborator

@lizhengfeng101
Comment options

Answer selected by lizhengfeng101
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
Q&A
Labels
None yet
3 participants