你的 AI Agent 不需要更多规则

xg-gh-25 · 2026-05-20T03:13:53Z

xg-gh-25
May 20, 2026
Maintainer

我用一个基于 Claude 的个人 AI 助手跑了 2 个多月，全程行为日志 — 每次纠正有时间戳，每个失败模式被追踪。关于 AI Agent 的行为治理，我的结论是：每次出错就加规则，等于给免疫系统崩溃的人开更多感冒药。

打破我心智模型的那个 Pattern

我的 Agent 犯了同一类错误 4 次。每次我都加了规则。看：

C011: Agent 跳过对抗审查。声称"所有测试通过，信心 10/10"
      → 加规则："对抗审查是强制的"
C021: Agent 跳过对抗审查。声称"时间紧迫"
      → 更严格的规则："对抗审查是不可协商的门控"
C025: Agent 跳过整个 Pipeline。声称"我对这段代码很熟"
      → 加规则："Pipeline 是所有编码任务的默认流程"
C026: Agent 再次跳过对抗审查 — 验证器有一条绕过路径
      → 加机械门控：代码级阻断
C027: Agent 以 80% 质量交付，不主动修复已知问题
      → ???

27 次纠正。同一类失败 4 次。每次规则更严。没用。加了代码门控。门控堵住了那个具体行为 — 然后同一个底层偏差换了个皮又冒出来了（C027）。

根因？一个认知偏差：

"停在'感觉差不多了'而不是'确认完成了'。"

规则只能枚举症状。症状是无限的。任何"大概做完了"的决策点都能触发这个偏差。

真正有效的：三层，不是更多规则

人类社会不是用单一机制治理行为的。三层共存，对应到 LLM Agent：

                    新情境
                      |
                      v
              +-----------------+
              |    原则层       |  (~70-80% 有效)
              |  (认知导向)     |
              +--------+--------+
                       | 失败
                       v
              +-----------------+
              |    规则层       |  (~85-90% | 原则失败时)
              |  (行为指导)     |
              +--------+--------+
                       | 失败
                       v
              +-----------------+
              |    门控层       |  (~99% | 规则失败时)
              |  (强制执行)     |
              +-----------------+

组合 P(正确行为) ~ 99.5%+（已知失败类别）
全新失败（无规则/门控）: ~70-80% 首次正确率

第一层：原则 — 3-5 条根本导向。不是 enforcement，是方向。遇到没有规则覆盖的情况，原则提供判断力。

能预防 C011 到 C027 全部问题的原则：

"完成 = 我主动尝试破坏它但失败了。不是'我没发现明显问题'。"

一句话。如果真正遵循，四次失败全不会发生。

第二层：规则 — 有边界、可追溯、可过期。每条链接到父原则。每条有证据（哪次纠正催生的）。毕业条件：门控覆盖后，规则退休。

第三层：门控 — 代码级机械检查。同一模式 3 次以上才加。有最低门槛。每个门控有成本（僵硬、误报、维护）。

关键洞察：进化 = 蒸馏，不是堆积

反直觉的地方来了。健康系统的标志不是规则越来越多 — 而是越来越少。

Anthropic 的 Claude Code 最佳实践：

"臃肿的 CLAUDE.md 文件会让 Claude 忽略你的指令。无情地裁剪。"

Princeton Reflexion（NeurIPS 2023）把反思上限设为 3 条 — 更多反而降低性能。

IBM/CMU SELF-ALIGN（NeurIPS 2023 Spotlight）仅用 16 条原则（~300 行）达到与 Text-Davinci-003 相当的对齐 — 无 RL，无大规模标注。

信号一致：更少、更精确的指令 > 更多、更具体的规则。

"变好"长什么样：

信号	含义
指令文件变短 + 输出质量提升	原则在泛化
门控触发次数趋近 0	上游层够用了；门控变成保险
新失败类型首次就处理正确	真正的泛化在发生
同一类错误原则修改后不再复发	内化起作用了

"变差"长什么样：

反信号	含义
指令文件持续增长	还在打补丁，没在升级
每个新失败都需要新门控	原则没泛化
同一偏差换了个皮又出现	治症状没治根因

为什么不能去掉门控：自我纠正的陷阱

Google DeepMind 研究（Huang et al., ICLR 2024）证明：LLM 无法在没有外部反馈时可靠地自我纠正推理。内在自我纠正实际上可能降低性能。

意味着：纯靠"自我反思"的进化是一厢情愿。门控提供外部反馈信号，告诉系统"你确实错了" — 而不是"自我感觉良好"。

三层都永久必要。进化意味着每层变得更精确，不是消除任何一层。

无状态问题

LLM 每次会话从零开始。权重不会变。唯一的"进化基底"是系统提示词的修改。

"变聪明"在物理上表现为：

蒸馏 — 50 条规则压缩为 3-5 条原则 + 必要规则
定位 — 原则放在提示词前 20%（最高注意力）
门控作为免疫记忆 — 代码级检查 = 免疫系统对过往病原体的记忆。已知威胁无需重新思考。

生命周期：

新失败 --> 原则能覆盖吗？
  是 --> 精炼原则（不加新规则）
  否 --> 加规则（链接原则，附带证据）
          --> 规则失败 3 次 --> 升级为门控
          --> 门控部署 --> 规则退休

自己试试

如果你在构建长期运行的 AI Agent：

数规则。 超过 30 条 = 大概率有冗余和信号稀释。
追溯每条规则。 不链接到实际观察到的错误 = 预防性噪音，删。
找规则簇。 同一根因 3+ 条规则 = 候选合并为一条原则。
测试删除。 删 30% 的规则。输出质量没变 = 那些规则本来就被忽略了。
加一个门控。 最顽固的失败（3 次以上），加代码级检查。看关联规则能否退休。

参考文献

Constitutional AI（Anthropic, 2022）— 紧凑原则集治理行为改进
SELF-ALIGN / Dromedary（IBM/CMU, NeurIPS 2023）— 16 条原则，零 RL，有竞争力的对齐
Reflexion（Princeton, NeurIPS 2023）— 反思上限 3 条；更多反而更差
LLMs Cannot Self-Correct Reasoning（DeepMind, ICLR 2024）— 为什么门控是必需的
OpenAI Model Spec（2024）— 目标 > 规则 > 默认值
Claude's Character（Anthropic, 2024）— "宽泛特质而非狭窄规则"
Self-Discover（DeepMind, 2024）— 组合式原则，成本降 10-40x，比 CoT 高 +32%
Claude Code Best Practices（Anthropic, 2025）— "无情地裁剪"

基于 SwarmAI（构建在 Claude Agent SDK 上的桌面 AI 指挥中心）2 个多月的生产数据和 27 次行为纠正。三层治理模型已在生产环境运行。欢迎在评论区深入讨论。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

你的 AI Agent 不需要更多规则 — LLM Agent 的三层治理模型 #27

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

你的 AI Agent 不需要更多规则 — LLM Agent 的三层治理模型 #27

Uh oh!

xg-gh-25 May 20, 2026 Maintainer

你的 AI Agent 不需要更多规则

打破我心智模型的那个 Pattern

真正有效的：三层，不是更多规则

关键洞察：进化 = 蒸馏，不是堆积

为什么不能去掉门控：自我纠正的陷阱

无状态问题

自己试试

参考文献

Replies: 0 comments

xg-gh-25
May 20, 2026
Maintainer