Release V2.7-alpha补全 LangGraph 安全闭环运行时和 Benchmark Arena · zklzzklzkl/MathModel

V2.7-alpha 的重点是在 V2.6 能力层之上补齐 LangGraph 安全闭环运行时和 Benchmark Arena：

LangGraph Contest Runtime v1.0-alpha
新增 contest_graph_v3，将 Human Gate、Phase 2 沙箱实验、Phase 3 论文草稿沙箱、Phase 4 竞赛审稿、Phase 5 受控修订和 Phase 6 audit-only 串成完整安全闭环。

Benchmark Arena
新增 scripts/langgraph_benchmark.py，可批量扫描 benchmark workspace fixtures，运行 contest_graph_v3，并输出 Markdown + JSON benchmark 报告。

受控沙箱执行
Phase 2 仅允许安全 Python 命令在 copied run workspace 内执行；Phase 3 和 Phase 5 只允许写入指定 paper/ 与 reports/ 文件，非法路径整批拒绝，异常写入回滚。

Human Gate 保留为硬边界
LangGraph 可以提出模型路线，但不会自动写 HUMAN_MODEL_REVIEW.md 或 MODELING_DECISION.md。没有人工确认，流程不会进入实验阶段。

最终验收保持只读
Phase 6 只做 audit-only，不自动写 VERIFY_REPORT.md，不声称 final PASS。

V2.6 的本地 RAG、source quality、figure evidence map、executable templates、evaluator-optimizer 和 evidence trace 仍然是底层能力基础。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

V2.7-alpha补全 LangGraph 安全闭环运行时和 Benchmark Arena

Choose a tag to compare

Sorry, something went wrong.

Sorry, something went wrong.

Uh oh!

No results found

Uh oh!

V2.7-alpha补全 LangGraph 安全闭环运行时 和 Benchmark Arena

Uh oh!

V2.7-alpha补全 LangGraph 安全闭环运行时和 Benchmark Arena