v2.6 - 三层硬约束+记忆/评估优化循环系统升级
Release Notes
Overview
基于现有 V2 Skill 与本地 RAG 体系迭代,不替换原有 Skill、无新增运行时依赖,新增三套强业务硬约束;同时落地项目经验记忆库、Evaluator-Optimizer 迭代优化双核心能力,全流程新增校验、审计、归档产物,强化建模、代码、图表、评审全链路合规性与可追溯性。
Key Changes
1. 新增 ProjectMem 式本地经验记忆层
新增独立记忆文件存储与配套运维脚本,自动沉淀项目全周期失败、评审、人工经验,项目结束自动生成复盘文档。
记忆存储结构
- 原始事件日志:
memory/events.jsonl(默认静默采集)
记录:建模失败、代码报错、评审扣分、修订记录、人工优化建议 - 可人工维护沉淀摘要文档:
memory/summary.md:项目总览经验memory/failed_approaches.md:失效建模方案汇总memory/model_lessons.md:模型选型经验memory/reviewer_lessons.md:评审踩坑与优化经验
配套运维脚本
memory_log.py:统一写入标准化事件memory_brief.py:项目启动前根据题型/模型关键词生成精简经验简报memory_distill.py:从项目产出自动蒸馏沉淀经验至记忆库
项目归档产物
reports/PROJECT_RETROSPECTIVE.md:项目收尾自动生成,包含有效路线、失败方案、复盘总结、人工建议、关联原始事件索引
2. RAG 新增资料可信度分级强约束
建立 5 级资料可信度规范,严格限制各级资料使用权限,全链路增加溯源审计字段,核心建模强制过滤低可信度资料。
可信度分级标准
| 等级 | 资料来源范围 | 使用权限约束 |
|---|---|---|
| S | 官方赛题、规则、附件、官方数据源 | 可作为核心建模依据 |
| A | 权威教材、经典/顶会论文、官方机构数据 | 可作为核心建模依据 |
| B | 优质开源文档、竞赛实战博客、成熟开源代码 | 仅允许辅助佐证,不可作为核心依据 |
| C | 论坛讨论、个人未验证总结、非权威分享 | 禁止进入核心建模逻辑 |
| D | 来源不明、存在错误、无法溯源资料 | 禁止进入核心建模逻辑 |
RAG 体系扩展改造
- 检索账本新增字段:
source_quality/source_type/verified_by/last_verified_at/allowed_use/quality_reason rag_query.py输出强制携带可信度分级与使用权限标识mm-model-strategy/mm-paper-build核心建模逻辑自动过滤 C/D 级资料,仅采信 S/A 级内容
3. 代码模板适配审计硬约束(防止模板污染真实项目)
新增模板适配完整日志与终验拦截机制,杜绝模板字段、路径、图表名直接泄漏至项目代码。
- 强制产出审计文档:
reports/TEMPLATE_ADAPTATION_shturl
使用任意code_templates时必须完整记录:- 题目数据字段与模板变量映射关系
- 保留/删减的模板指标清单
- 当前题目适配该模板的理由
- 模板路径、变量、图表名替换核验记录
- 终验拦截规则:
mm-final-verify校验,使用模板但缺失适配日志直接校验不通过 - 代码强制规范:禁止保留模板原生字段、路径、图表名称,仅允许保留当前题目真实业务数据标识
4. 图表升级:证据图谱标准化审查体系
新增图表证据规范,评审从“外观审美”转向图表-论点-数据-指标全链路证据校验。
基础规范文档
skills/_references/figure_evidence_map.md:统一所有图表模板的证据标准,每张图表模板固定定义:
- 支撑论文核心 Claim
- 必备输入数据、强制输出指标
- 坐标轴/单位规范
- 推荐放置章节
- 图表合格判定标准、失败识别信号、图注写作要点
项目落地约束
reports/FIGURE_PLAN.md所有核心图表必须绑定证据图谱条目与对应论文论点- 内置标准化图谱示例:预测值对比图、资源约束利用率图、多目标Pareto前沿图,内置失败检测规则
mm-contest-review评审逻辑重构:校验图表是否可有效支撑论文论点,而非仅视觉效果
5. Evaluator-Optimizer 文件态迭代循环
新增评审-优化闭环协议,三段式产出(生成→评估→修正),分模块限制最大迭代轮次,完整记录迭代风险。
核心协议文档
skills/_references/evaluator_optimizer_protocol.md,迭代日志统一写入 reports/REFINEMENT_shturl
分模块迭代规则
MODEL_CANDIDATES.md:最多2轮迭代
校验项:模型拟合能力、资料可信度合规、模板适配审计、完整验证计划RESULTS_REPORT.md + FIGURE_PLAN.md:最多2轮迭代
校验项:全部核心结果配套原始数据、量化指标、合规证据图表- 完整论文草稿:最多3轮迭代
校验项:评分卡、评委初审标准、论点溯源,无高危/阻断级问题
停止判定条件
- 产出评级达到 GOOD 且无 HIGH/BLOCKER 级问题,提前终止迭代
- 到达最大迭代轮次强制停止,必须完整记录遗留风险与未解决问题
6. 可执行标准化模型模板库升级
扩充标准化可落地建模代码模板,规范建模路线书写要求,自动驱动实验代码生成。
模板规范文档
skills/_references/executable_model_templates.md,补齐全场景建模骨架:
- 优化类模型:线性/整数/0-1规划、多目标权重/ε约束模板
- 智能算法:遗传算法编码、适应度、惩罚约束、收敛判定完整代码
- 分析模块:敏感性分析、基线对比、稳健性校验表格模板
- 论文公式标准:变量定义、目标函数、约束分组、算法步骤、局限性统一写法
业务约束
mm-model-strategy每条候选建模路线必须引用对应可执行模板,或明确说明不适用理由mm-data-experiment基于模板自动生成代码任务、结果统计表,禁止仅罗列模型名称
Public Interfaces & New Artifacts
新增标准化事件类型
model_route_rejected建模方案驳回experiment_failed实验执行失败template_adapted代码模板适配完成validation_failed校验不通过figure_evidence_failed图表证据不达标review_action_created新增评审整改项revision_resolved整改完成闭环human_advice人工专家建议final_retrospective项目复盘归档
新增/更新核心产出文件
- 审计/迭代报告
reports/TEMPLATE_ADAPTATION_shturlreports/REFINEMENT_shturlreports/PROJECT_RETROSPECTIVE.md
- 技能规范参考文档
skills/_references/source_quality_policy.md可信度分级规范skills/_references/figure_evidence_map.md图表证据图谱标准skills/_references/executable_model_templates.md标准化建模模板skills/_references/evaluator_optimizer_protocol.md评估迭代循环协议
RAG 接口新增返回字段
source_quality资料可信度等级allowed_use使用权限标识quality_reason可信度判定依据core_evidence_allowed是否可作为核心建模依据(布尔值)
Test Plan 配套校验规则
1. RAG 可信度分级校验
- 单元测试:官方文档自动标记S、权威论文标记A、实战经验文档标记B
rag_query.py强制输出分级与权限字段- 核心建模引用C/D级资料自动抛出 HIGH 阻断级评审问题,测试用例直接失败
2. 代码模板适配校验
- 使用模板但缺失
TEMPLATE_ADAPTATION_shturl,终验mm-final-verify直接不通过 - 日志完整性校验:缺失字段映射、未替换模板标识均生成高危整改项
- 自动扫描代码残留模板路径、变量名、图表名拦截违规代码
3. 图表证据图谱校验
- 预测图缺失测试集/误差指标 → 评审自动生成 HIGH 阻断问题
- 核心图表未绑定论文论点、缺失坐标轴单位 → 图表审计不通过
FIGURE_PLAN.md可完整追溯「论点→图表→原始数据→量化指标」完整链路
4. Evaluator-Optimizer 迭代循环校验
- 低质量模型候选文档触发多轮迭代,输出可落地优化建议并写入迭代日志
- 到达最大迭代轮次仍不合格,强制记录停止原因与遗留风险
- 论文迭代自动同步评委初审高危问题至整改清单
REVISION_ACTIONS.md
5. 项目经验记忆校验
- 可从评审整改文档自动蒸馏评审经验存入记忆库
- 失败实验日志自动沉淀失效方案记录
memory_brief.py支持按题型、模型关键词输出精简经验简报,不输出完整原始日志
Upgrade Notice
- 本次迭代无破坏性变更,原有V2 Skill、本地RAG逻辑完全保留,仅新增约束、校验流程与配套产物
- 无新增运行时第三方依赖,仅新增本地脚本与标准化Markdown归档文档
- 存量项目兼容:新增文档/日志为可选自动生成,历史项目无需改造即可运行原有逻辑
- 全新增校验规则默认开启,若需临时关闭可调整对应评审配置开关