V2.7-alpha补全 LangGraph 安全闭环运行时 和 Benchmark Arena
V2.7-alpha 的重点是在 V2.6 能力层之上补齐 LangGraph 安全闭环运行时 和 Benchmark Arena:
LangGraph Contest Runtime v1.0-alpha
新增 contest_graph_v3,将 Human Gate、Phase 2 沙箱实验、Phase 3 论文草稿沙箱、Phase 4 竞赛审稿、Phase 5 受控修订和 Phase 6 audit-only 串成完整安全闭环。
Benchmark Arena
新增 scripts/langgraph_benchmark.py,可批量扫描 benchmark workspace fixtures,运行 contest_graph_v3,并输出 Markdown + JSON benchmark 报告。
受控沙箱执行
Phase 2 仅允许安全 Python 命令在 copied run workspace 内执行;Phase 3 和 Phase 5 只允许写入指定 paper/ 与 reports/ 文件,非法路径整批拒绝,异常写入回滚。
Human Gate 保留为硬边界
LangGraph 可以提出模型路线,但不会自动写 HUMAN_MODEL_REVIEW.md 或 MODELING_DECISION.md。没有人工确认,流程不会进入实验阶段。
最终验收保持只读
Phase 6 只做 audit-only,不自动写 VERIFY_REPORT.md,不声称 final PASS。
V2.6 的本地 RAG、source quality、figure evidence map、executable templates、evaluator-optimizer 和 evidence trace 仍然是底层能力基础。