大型C++仓库 #185

ChrisYANG1111 · 2026-06-22T07:59:06Z

ChrisYANG1111
Jun 22, 2026

请问OCR对于大型C++代码仓库，或者大型文件的review效率怎么样呢？
或者咱们在review时，相关联的上下文是怎么获取？纯grep吗？

Jun 22, 2026

效率可以参考 Benchmark ：https://alibaba.github.io/open-code-review/
目前上下文主要是靠 grep，我们正在评测 CodeGragh 等 ast 工具的效果，考虑集成进来。

我们基于真实场景的 CodeReview 基准测试进行了客观评估，该评测集从 50 个热门开源仓库中精选 200 个真实的 PullRequest，覆盖 10 种编程语言、多种问题类型与不同的变更规模，并由 80+ 位资深工程师交叉标注完成。评测对比了三类工具：Open Code Review（v1.3.1）、Claude Code（v2.1.169，/code-review）和 Codex（v0.140.0，/review），涵盖 Claude-4.6-Opus、Claude-4.8-Opus、GPT-5.5、Qwen3.7-Max、Deepseek-V4-Pro、GLM-5.1 共六款主流模型。

结论一：不同工具在准确率与召回率上各有所长

Open Code Review 的核心优势在于准确率：各模型的准确率在 25%–38% 之间，远高于 Claude Code 的 7%–16%。以 Claude-4.6-Opus 为例，OCR 产出 889 条评论、命中 301 个真实问题（准确率 33.90%），而 Claude Code 产出 5980 条评论、命中 435 个真实问题（准确率 7.23%）。更高的准确率意味着更低的噪声，工程师在处理评审结果时效率更高。
然而，Claude Code 的核心优势在于召回率：CC + Claude-4.6…

View full answer

lizhengfeng101 · 2026-06-22T08:28:50Z

lizhengfeng101
Jun 22, 2026
Maintainer

效率可以参考 Benchmark ：https://alibaba.github.io/open-code-review/
目前上下文主要是靠 grep，我们正在评测 CodeGragh 等 ast 工具的效果，考虑集成进来。

我们基于真实场景的 CodeReview 基准测试进行了客观评估，该评测集从 50 个热门开源仓库中精选 200 个真实的 PullRequest，覆盖 10 种编程语言、多种问题类型与不同的变更规模，并由 80+ 位资深工程师交叉标注完成。评测对比了三类工具：Open Code Review（v1.3.1）、Claude Code（v2.1.169，/code-review）和 Codex（v0.140.0，/review），涵盖 Claude-4.6-Opus、Claude-4.8-Opus、GPT-5.5、Qwen3.7-Max、Deepseek-V4-Pro、GLM-5.1 共六款主流模型。

结论一：不同工具在准确率与召回率上各有所长

Open Code Review 的核心优势在于准确率：各模型的准确率在 25%–38% 之间，远高于 Claude Code 的 7%–16%。以 Claude-4.6-Opus 为例，OCR 产出 889 条评论、命中 301 个真实问题（准确率 33.90%），而 Claude Code 产出 5980 条评论、命中 435 个真实问题（准确率 7.23%）。更高的准确率意味着更低的噪声，工程师在处理评审结果时效率更高。
然而，Claude Code 的核心优势在于召回率：CC + Claude-4.6-Opus 以 28.90% 的召回率位居所有组合之首，实际命中了 435 个真实问题——比 OCR 最优组合多发现了 134 个（增幅约 45%）。不仅如此，CC + Qwen3.7-Max（23.37%）和 CC + GLM-5.1（20.80%）的召回率同样超过了 OCR 的多数组合。对于安全审计等"宁可多查、不可遗漏"的场景，更高的召回率有着不可替代的价值。
综合来看，Open Code Review 凭借 F1 指标领先（最优 25.10% vs Claude Code 最优 14.13%），在准确率和召回率之间取得了更均衡的表现；而 Claude Code 则在最大化问题覆盖方面更具优势，适合对遗漏风险容忍度低的场景。

结论二：资源开销与适用场景存在差异

三类工具在资源消耗上呈现出明显的层次差异。Open Code Review 的平均 Token 消耗为 352K–743K，耗时 1–6 分钟，是三者中效率最高的选择。Claude Code 的 Token 消耗在 2,062K–5,664K 之间，耗时 5–14 分钟，资源开销显著更高，但更高的召回率使其在深度审查场景中仍具价值。Codex 的 Token 消耗（525K）和耗时（约 3 分钟）与 OCR 处于同一量级，且保持了 27.82% 的准确率，但 4.92% 的召回率使其仅能覆盖少量问题，更适合作为轻量级的快速扫描工具。

结论三：新一代模型并非在所有维度上均优于上一代

一个值得关注的现象是，Claude-4.8-Opus 在两个工具上均表现出"更精确但更保守"的特征：它的准确率是所有组合中最高的（OCR 上 37.80%、CC 上 15.93%），但召回率明显低于 Claude-4.6-Opus（OCR 上 11.70% vs 20.00%、CC 上 12.70% vs 28.90%）。这说明模型的代际升级并不一定带来代码评审效果的全面提升 —— 更强的模型能力可能倾向于更严格的判断标准，从而在提升精度的同时牺牲了覆盖面。

3 replies

ChrisYANG1111 Jun 22, 2026
Author

感谢回复！请问code Graph的集成进度怎么样呢？如果能短时间内出来，我这边项目就基于OCR去做，不行的话我还得另想办法

MuoDoo Jun 22, 2026
Collaborator

感谢回复！请问code Graph的集成进度怎么样呢？如果能短时间内出来，我这边项目就基于OCR去做，不行的话我还得另想办法

我们近期会支持并评测code graph的集成

lizhengfeng101 Jun 22, 2026
Maintainer

@ChrisYANG1111 快的话，我预计月底就能上线。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

大型C++仓库 #185

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 3 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Uh oh!

大型C++仓库 #185

Uh oh!

ChrisYANG1111 Jun 22, 2026

结论一：不同工具在准确率与召回率上各有所长

Replies: 1 comment · 3 replies

Uh oh!

lizhengfeng101 Jun 22, 2026 Maintainer

结论一：不同工具在准确率与召回率上各有所长

结论二：资源开销与适用场景存在差异

结论三：新一代模型并非在所有维度上均优于上一代

Uh oh!

ChrisYANG1111 Jun 22, 2026 Author

Uh oh!

MuoDoo Jun 22, 2026 Collaborator

Uh oh!

lizhengfeng101 Jun 22, 2026 Maintainer

ChrisYANG1111
Jun 22, 2026

Replies: 1 comment 3 replies

lizhengfeng101
Jun 22, 2026
Maintainer

ChrisYANG1111 Jun 22, 2026
Author

MuoDoo Jun 22, 2026
Collaborator

lizhengfeng101 Jun 22, 2026
Maintainer