Release Notes

Overview

基于现有 V2 Skill 与本地 RAG 体系迭代，不替换原有 Skill、无新增运行时依赖，新增三套强业务硬约束；同时落地项目经验记忆库、Evaluator-Optimizer 迭代优化双核心能力，全流程新增校验、审计、归档产物，强化建模、代码、图表、评审全链路合规性与可追溯性。

Key Changes

1. 新增 ProjectMem 式本地经验记忆层

新增独立记忆文件存储与配套运维脚本，自动沉淀项目全周期失败、评审、人工经验，项目结束自动生成复盘文档。

记忆存储结构

原始事件日志：memory/events.jsonl（默认静默采集）
记录：建模失败、代码报错、评审扣分、修订记录、人工优化建议
可人工维护沉淀摘要文档：
- memory/summary.md：项目总览经验
- memory/failed_approaches.md：失效建模方案汇总
- memory/model_lessons.md：模型选型经验
- memory/reviewer_lessons.md：评审踩坑与优化经验

配套运维脚本

memory_log.py：统一写入标准化事件
memory_brief.py：项目启动前根据题型/模型关键词生成精简经验简报
memory_distill.py：从项目产出自动蒸馏沉淀经验至记忆库

项目归档产物

reports/PROJECT_RETROSPECTIVE.md：项目收尾自动生成，包含有效路线、失败方案、复盘总结、人工建议、关联原始事件索引

2. RAG 新增资料可信度分级强约束

建立 5 级资料可信度规范，严格限制各级资料使用权限，全链路增加溯源审计字段，核心建模强制过滤低可信度资料。

可信度分级标准

等级	资料来源范围	使用权限约束
S	官方赛题、规则、附件、官方数据源	可作为核心建模依据
A	权威教材、经典/顶会论文、官方机构数据	可作为核心建模依据
B	优质开源文档、竞赛实战博客、成熟开源代码	仅允许辅助佐证，不可作为核心依据
C	论坛讨论、个人未验证总结、非权威分享	禁止进入核心建模逻辑
D	来源不明、存在错误、无法溯源资料	禁止进入核心建模逻辑

RAG 体系扩展改造

检索账本新增字段：source_quality/source_type/verified_by/last_verified_at/allowed_use/quality_reason
rag_query.py 输出强制携带可信度分级与使用权限标识
mm-model-strategy / mm-paper-build 核心建模逻辑自动过滤 C/D 级资料，仅采信 S/A 级内容

3. 代码模板适配审计硬约束（防止模板污染真实项目）

新增模板适配完整日志与终验拦截机制，杜绝模板字段、路径、图表名直接泄漏至项目代码。

强制产出审计文档：reports/TEMPLATE_ADAPTATION_shturl
使用任意 code_templates 时必须完整记录：
- 题目数据字段与模板变量映射关系
- 保留/删减的模板指标清单
- 当前题目适配该模板的理由
- 模板路径、变量、图表名替换核验记录
终验拦截规则：mm-final-verify 校验，使用模板但缺失适配日志直接校验不通过
代码强制规范：禁止保留模板原生字段、路径、图表名称，仅允许保留当前题目真实业务数据标识

4. 图表升级：证据图谱标准化审查体系

新增图表证据规范，评审从“外观审美”转向图表-论点-数据-指标全链路证据校验。

基础规范文档

skills/_references/figure_evidence_map.md：统一所有图表模板的证据标准，每张图表模板固定定义：

支撑论文核心 Claim
必备输入数据、强制输出指标
坐标轴/单位规范
推荐放置章节
图表合格判定标准、失败识别信号、图注写作要点

项目落地约束

reports/FIGURE_PLAN.md 所有核心图表必须绑定证据图谱条目与对应论文论点
内置标准化图谱示例：预测值对比图、资源约束利用率图、多目标Pareto前沿图，内置失败检测规则
mm-contest-review 评审逻辑重构：校验图表是否可有效支撑论文论点，而非仅视觉效果

5. Evaluator-Optimizer 文件态迭代循环

新增评审-优化闭环协议，三段式产出（生成→评估→修正），分模块限制最大迭代轮次，完整记录迭代风险。

核心协议文档

skills/_references/evaluator_optimizer_protocol.md，迭代日志统一写入 reports/REFINEMENT_shturl

分模块迭代规则

MODEL_CANDIDATES.md：最多2轮迭代
校验项：模型拟合能力、资料可信度合规、模板适配审计、完整验证计划
RESULTS_REPORT.md + FIGURE_PLAN.md：最多2轮迭代
校验项：全部核心结果配套原始数据、量化指标、合规证据图表
完整论文草稿：最多3轮迭代
校验项：评分卡、评委初审标准、论点溯源，无高危/阻断级问题

停止判定条件

产出评级达到 GOOD 且无 HIGH/BLOCKER 级问题，提前终止迭代
到达最大迭代轮次强制停止，必须完整记录遗留风险与未解决问题

6. 可执行标准化模型模板库升级

扩充标准化可落地建模代码模板，规范建模路线书写要求，自动驱动实验代码生成。

模板规范文档

skills/_references/executable_model_templates.md，补齐全场景建模骨架：

优化类模型：线性/整数/0-1规划、多目标权重/ε约束模板
智能算法：遗传算法编码、适应度、惩罚约束、收敛判定完整代码
分析模块：敏感性分析、基线对比、稳健性校验表格模板
论文公式标准：变量定义、目标函数、约束分组、算法步骤、局限性统一写法

业务约束

mm-model-strategy 每条候选建模路线必须引用对应可执行模板，或明确说明不适用理由
mm-data-experiment 基于模板自动生成代码任务、结果统计表，禁止仅罗列模型名称

Public Interfaces & New Artifacts

新增标准化事件类型

model_route_rejected 建模方案驳回
experiment_failed 实验执行失败
template_adapted 代码模板适配完成
validation_failed 校验不通过
figure_evidence_failed 图表证据不达标
review_action_created 新增评审整改项
revision_resolved 整改完成闭环
human_advice 人工专家建议
final_retrospective 项目复盘归档

新增/更新核心产出文件

审计/迭代报告
- reports/TEMPLATE_ADAPTATION_shturl
- reports/REFINEMENT_shturl
- reports/PROJECT_RETROSPECTIVE.md
技能规范参考文档
- skills/_references/source_quality_policy.md 可信度分级规范
- skills/_references/figure_evidence_map.md 图表证据图谱标准
- skills/_references/executable_model_templates.md 标准化建模模板
- skills/_references/evaluator_optimizer_protocol.md 评估迭代循环协议

RAG 接口新增返回字段

source_quality 资料可信度等级
allowed_use 使用权限标识
quality_reason 可信度判定依据
core_evidence_allowed 是否可作为核心建模依据（布尔值）

Test Plan 配套校验规则

1. RAG 可信度分级校验

单元测试：官方文档自动标记S、权威论文标记A、实战经验文档标记B
rag_query.py 强制输出分级与权限字段
核心建模引用C/D级资料自动抛出 HIGH 阻断级评审问题，测试用例直接失败

2. 代码模板适配校验

使用模板但缺失 TEMPLATE_ADAPTATION_shturl，终验 mm-final-verify 直接不通过
日志完整性校验：缺失字段映射、未替换模板标识均生成高危整改项
自动扫描代码残留模板路径、变量名、图表名拦截违规代码

3. 图表证据图谱校验

预测图缺失测试集/误差指标 → 评审自动生成 HIGH 阻断问题
核心图表未绑定论文论点、缺失坐标轴单位 → 图表审计不通过
FIGURE_PLAN.md 可完整追溯「论点→图表→原始数据→量化指标」完整链路

4. Evaluator-Optimizer 迭代循环校验

低质量模型候选文档触发多轮迭代，输出可落地优化建议并写入迭代日志
到达最大迭代轮次仍不合格，强制记录停止原因与遗留风险
论文迭代自动同步评委初审高危问题至整改清单 REVISION_ACTIONS.md

5. 项目经验记忆校验

可从评审整改文档自动蒸馏评审经验存入记忆库
失败实验日志自动沉淀失效方案记录
memory_brief.py 支持按题型、模型关键词输出精简经验简报，不输出完整原始日志

Upgrade Notice

本次迭代无破坏性变更，原有V2 Skill、本地RAG逻辑完全保留，仅新增约束、校验流程与配套产物
无新增运行时第三方依赖，仅新增本地脚本与标准化Markdown归档文档
存量项目兼容：新增文档/日志为可选自动生成，历史项目无需改造即可运行原有逻辑
全新增校验规则默认开启，若需临时关闭可调整对应评审配置开关

v2.6 - 三层硬约束+记忆/评估优化循环系统升级