Skip to content

v2.6 - 三层硬约束+记忆/评估优化循环系统升级

Choose a tag to compare

@zklzzklzkl zklzzklzkl released this 02 Jul 06:14
b2014fc

Release Notes

Overview

基于现有 V2 Skill 与本地 RAG 体系迭代,不替换原有 Skill、无新增运行时依赖,新增三套强业务硬约束;同时落地项目经验记忆库、Evaluator-Optimizer 迭代优化双核心能力,全流程新增校验、审计、归档产物,强化建模、代码、图表、评审全链路合规性与可追溯性。

Key Changes

1. 新增 ProjectMem 式本地经验记忆层

新增独立记忆文件存储与配套运维脚本,自动沉淀项目全周期失败、评审、人工经验,项目结束自动生成复盘文档。

记忆存储结构

  • 原始事件日志:memory/events.jsonl(默认静默采集)
    记录:建模失败、代码报错、评审扣分、修订记录、人工优化建议
  • 可人工维护沉淀摘要文档:
    • memory/summary.md:项目总览经验
    • memory/failed_approaches.md:失效建模方案汇总
    • memory/model_lessons.md:模型选型经验
    • memory/reviewer_lessons.md:评审踩坑与优化经验

配套运维脚本

  • memory_log.py:统一写入标准化事件
  • memory_brief.py:项目启动前根据题型/模型关键词生成精简经验简报
  • memory_distill.py:从项目产出自动蒸馏沉淀经验至记忆库

项目归档产物

  • reports/PROJECT_RETROSPECTIVE.md:项目收尾自动生成,包含有效路线、失败方案、复盘总结、人工建议、关联原始事件索引

2. RAG 新增资料可信度分级强约束

建立 5 级资料可信度规范,严格限制各级资料使用权限,全链路增加溯源审计字段,核心建模强制过滤低可信度资料。

可信度分级标准

等级 资料来源范围 使用权限约束
S 官方赛题、规则、附件、官方数据源 可作为核心建模依据
A 权威教材、经典/顶会论文、官方机构数据 可作为核心建模依据
B 优质开源文档、竞赛实战博客、成熟开源代码 仅允许辅助佐证,不可作为核心依据
C 论坛讨论、个人未验证总结、非权威分享 禁止进入核心建模逻辑
D 来源不明、存在错误、无法溯源资料 禁止进入核心建模逻辑

RAG 体系扩展改造

  1. 检索账本新增字段:source_quality/source_type/verified_by/last_verified_at/allowed_use/quality_reason
  2. rag_query.py 输出强制携带可信度分级与使用权限标识
  3. mm-model-strategy / mm-paper-build 核心建模逻辑自动过滤 C/D 级资料,仅采信 S/A 级内容

3. 代码模板适配审计硬约束(防止模板污染真实项目)

新增模板适配完整日志与终验拦截机制,杜绝模板字段、路径、图表名直接泄漏至项目代码。

  1. 强制产出审计文档:reports/TEMPLATE_ADAPTATION_shturl
    使用任意 code_templates 时必须完整记录:
    • 题目数据字段与模板变量映射关系
    • 保留/删减的模板指标清单
    • 当前题目适配该模板的理由
    • 模板路径、变量、图表名替换核验记录
  2. 终验拦截规则:mm-final-verify 校验,使用模板但缺失适配日志直接校验不通过
  3. 代码强制规范:禁止保留模板原生字段、路径、图表名称,仅允许保留当前题目真实业务数据标识

4. 图表升级:证据图谱标准化审查体系

新增图表证据规范,评审从“外观审美”转向图表-论点-数据-指标全链路证据校验。

基础规范文档

skills/_references/figure_evidence_map.md:统一所有图表模板的证据标准,每张图表模板固定定义:

  • 支撑论文核心 Claim
  • 必备输入数据、强制输出指标
  • 坐标轴/单位规范
  • 推荐放置章节
  • 图表合格判定标准、失败识别信号、图注写作要点

项目落地约束

  1. reports/FIGURE_PLAN.md 所有核心图表必须绑定证据图谱条目与对应论文论点
  2. 内置标准化图谱示例:预测值对比图、资源约束利用率图、多目标Pareto前沿图,内置失败检测规则
  3. mm-contest-review 评审逻辑重构:校验图表是否可有效支撑论文论点,而非仅视觉效果

5. Evaluator-Optimizer 文件态迭代循环

新增评审-优化闭环协议,三段式产出(生成→评估→修正),分模块限制最大迭代轮次,完整记录迭代风险。

核心协议文档

skills/_references/evaluator_optimizer_protocol.md,迭代日志统一写入 reports/REFINEMENT_shturl

分模块迭代规则

  1. MODEL_CANDIDATES.md:最多2轮迭代
    校验项:模型拟合能力、资料可信度合规、模板适配审计、完整验证计划
  2. RESULTS_REPORT.md + FIGURE_PLAN.md:最多2轮迭代
    校验项:全部核心结果配套原始数据、量化指标、合规证据图表
  3. 完整论文草稿:最多3轮迭代
    校验项:评分卡、评委初审标准、论点溯源,无高危/阻断级问题

停止判定条件

  • 产出评级达到 GOOD 且无 HIGH/BLOCKER 级问题,提前终止迭代
  • 到达最大迭代轮次强制停止,必须完整记录遗留风险与未解决问题

6. 可执行标准化模型模板库升级

扩充标准化可落地建模代码模板,规范建模路线书写要求,自动驱动实验代码生成。

模板规范文档

skills/_references/executable_model_templates.md,补齐全场景建模骨架:

  • 优化类模型:线性/整数/0-1规划、多目标权重/ε约束模板
  • 智能算法:遗传算法编码、适应度、惩罚约束、收敛判定完整代码
  • 分析模块:敏感性分析、基线对比、稳健性校验表格模板
  • 论文公式标准:变量定义、目标函数、约束分组、算法步骤、局限性统一写法

业务约束

  1. mm-model-strategy 每条候选建模路线必须引用对应可执行模板,或明确说明不适用理由
  2. mm-data-experiment 基于模板自动生成代码任务、结果统计表,禁止仅罗列模型名称

Public Interfaces & New Artifacts

新增标准化事件类型

  • model_route_rejected 建模方案驳回
  • experiment_failed 实验执行失败
  • template_adapted 代码模板适配完成
  • validation_failed 校验不通过
  • figure_evidence_failed 图表证据不达标
  • review_action_created 新增评审整改项
  • revision_resolved 整改完成闭环
  • human_advice 人工专家建议
  • final_retrospective 项目复盘归档

新增/更新核心产出文件

  1. 审计/迭代报告
    • reports/TEMPLATE_ADAPTATION_shturl
    • reports/REFINEMENT_shturl
    • reports/PROJECT_RETROSPECTIVE.md
  2. 技能规范参考文档
    • skills/_references/source_quality_policy.md 可信度分级规范
    • skills/_references/figure_evidence_map.md 图表证据图谱标准
    • skills/_references/executable_model_templates.md 标准化建模模板
    • skills/_references/evaluator_optimizer_protocol.md 评估迭代循环协议

RAG 接口新增返回字段

  • source_quality 资料可信度等级
  • allowed_use 使用权限标识
  • quality_reason 可信度判定依据
  • core_evidence_allowed 是否可作为核心建模依据(布尔值)

Test Plan 配套校验规则

1. RAG 可信度分级校验

  • 单元测试:官方文档自动标记S、权威论文标记A、实战经验文档标记B
  • rag_query.py 强制输出分级与权限字段
  • 核心建模引用C/D级资料自动抛出 HIGH 阻断级评审问题,测试用例直接失败

2. 代码模板适配校验

  • 使用模板但缺失 TEMPLATE_ADAPTATION_shturl,终验 mm-final-verify 直接不通过
  • 日志完整性校验:缺失字段映射、未替换模板标识均生成高危整改项
  • 自动扫描代码残留模板路径、变量名、图表名拦截违规代码

3. 图表证据图谱校验

  • 预测图缺失测试集/误差指标 → 评审自动生成 HIGH 阻断问题
  • 核心图表未绑定论文论点、缺失坐标轴单位 → 图表审计不通过
  • FIGURE_PLAN.md 可完整追溯「论点→图表→原始数据→量化指标」完整链路

4. Evaluator-Optimizer 迭代循环校验

  • 低质量模型候选文档触发多轮迭代,输出可落地优化建议并写入迭代日志
  • 到达最大迭代轮次仍不合格,强制记录停止原因与遗留风险
  • 论文迭代自动同步评委初审高危问题至整改清单 REVISION_ACTIONS.md

5. 项目经验记忆校验

  • 可从评审整改文档自动蒸馏评审经验存入记忆库
  • 失败实验日志自动沉淀失效方案记录
  • memory_brief.py 支持按题型、模型关键词输出精简经验简报,不输出完整原始日志

Upgrade Notice

  1. 本次迭代无破坏性变更,原有V2 Skill、本地RAG逻辑完全保留,仅新增约束、校验流程与配套产物
  2. 无新增运行时第三方依赖,仅新增本地脚本与标准化Markdown归档文档
  3. 存量项目兼容:新增文档/日志为可选自动生成,历史项目无需改造即可运行原有逻辑
  4. 全新增校验规则默认开启,若需临时关闭可调整对应评审配置开关