You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
"Bloated CLAUDE.md files cause Claude to ignore your actual instructions!"
"Ruthlessly prune. If Claude already does something correctly without the instruction, delete it."
— Anthropic Engineering, 2025
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
Uh oh!
There was an error while loading. Please reload this page.
-
你的 AI Agent 不需要更多规则 — 论 LLM Agent 的三层治理与认知进化
TL;DR
规则堆砌是 AI Agent 自我进化的死胡同。我们在 SwarmAI 中观察到:27 个行为修正(corrections),同一类认知偏差重复 4 次才被控制住,AGENT.md 持续膨胀但输出质量没有对应提升。问题不是"规则不够多",而是"规则再多也治不了底层判断力缺陷"。
本文提出:LLM Agent 的行为治理应该借鉴人类社会的三层结构 —— 原则(道德)、规则(法律)、门禁(执法)—— 并且进化的方向是蒸馏(distillation)而非积累(accumulation)。
问题:规则为什么会失败
观察到的现象
我们运行 SwarmAI(一个基于 Claude Agent SDK 的桌面 AI 助手)超过 2 个月,记录了完整的行为修正历史。一个典型的 failure pattern:
4 次同一类错误。 每次加一条规则。规则没用,加更严的规则。规则还没用,加代码门禁。门禁只能堵这一个具体行为 —— 然后同样的底层偏差在另一个形态下冒出来(C027)。
这不是个例。这是 LLM Agent 行为治理的结构性困境。
根因分析
这些表面不同的 correction 背后是同一个认知偏差:
规则只能枚举症状("不能跳 review"、"不能跳 pipeline"、"不能接受 80%"),不能治疗病因。而症状是无限的 —— 任何"看起来做完了"的决策点都可能触发这个偏差。
堆砌规则 = 给一个反复感冒的人开更多品牌的感冒药。有效的做法是修复免疫系统。
借鉴:人类社会怎么做行为治理
人类社会不依赖单一机制。三层共存,各司其职:
关键洞察:三层缺一不可。
最稳定的社会 = 道德覆盖 90% 的日常决策,法律处理 9% 的边界情况,执法兜底 1% 的 proven bad actors。
设计:LLM Agent 的三层治理模型
Layer 1: Principles(原则)— 定位,不是 enforcement
数量: 3-5 条。不多。
作用: 当遇到新情况(没有规则覆盖、没有门禁阻断)时,提供判断方向。
属性:
示例(覆盖 C011-C027 全部):
一条原则,如果真正被遵循,C011 到 C027 的所有 correction 都不会发生。
Layer 2: Rules(规则)— 有限、可追溯、可过期
属性:
生命周期:
Layer 3: Gates(门禁)— 最少、机械化、经过验证
属性:
三层交互
进化 = 蒸馏,不是积累
为什么积累会失败
Anthropic 的 Claude Code 官方 Best Practices 明确指出:
Princeton 的 Reflexion(NeurIPS 2023)把 reflections cap 在 3 条 —— 更多反而 degrade performance。
IBM/CMU 的 SELF-ALIGN(NeurIPS 2023 Spotlight)用 16 条 principles(~300 行)就达到了 competitive with Text-Davinci-003 —— 无需 RL,无需大量标注。
信号一致:更少的、更精确的指导 > 更多的、更具体的规则。
真正的进化方向
反向信号:
进化操作
为什么 Gates 不可去掉:关键 negative result
Google DeepMind 的研究(Huang et al., ICLR 2024)证明:
这意味着:纯靠 "自我反思" 的 agent 自进化是幻想。外部验证信号(mechanical gates)是 structural requirement,不是 nice-to-have。
Principles 设定方向。Rules 细化指导。但只有 Gates 提供了那个 "external feedback signal" 让系统知道自己真的错了,而不是"自我感觉良好"。
三层模型不是"理想状态去掉 gates"。三层都是永久必要的。进化的方向是让每层在自己的职责范围内越来越精确 —— 不是消除某一层。
与 LLM 本质的关系
Probabilistic compliance
LLM 的 "道德水平" 不是恒定的。同一个 model,不同条件下:
类比: 人类睡眠不足时自控力下降。不是变了一个人,是 cognitive resource 不够了。
设计含义: 系统必须 account for 这个 variance。不假设 principles 总是 work。Rules 是 probability booster,Gates 是 absolute floor。
Stateless paradox
LLM 每个 session 是 fresh start。Weights 不变。唯一的 "进化载体" = 改 system prompt 文件。
这意味着 "OS 升级" 的物理形态只能是:
Related Work
我们的贡献(现有文献的 gap)
Runtime bidirectional loop — 现有工作在 training time(CAI, SELF-ALIGN)或 one-shot compilation(DSPy)。我们在 runtime 持续运行中做 principle ↔ rule ↔ gate 的生命周期管理。
Rule expiry mechanism — 所有现有系统要么只增(ExpeL, Reflexion 的 capped buffer)要么全换(DSPy compilation)。Rule traceable to principle + graduation condition 是新的。
Reverse distillation — SELF-ALIGN 做 forward(principles → behavior)。我们提议 bidirectional:observed behavioral rules 压缩回 principles。
Failure mode migration — C011→C027 展示的"同一偏差换皮重复"问题,文献中被承认但未解决。
Discussion Questions
本文基于 SwarmAI 项目 2+ 月的实际运行数据和 27 个行为修正记录。SwarmAI 是一个基于 Claude Agent SDK 的桌面 AI 命令中心,使用 AIDLC(AI-Driven Development Lifecycle)框架进行自治开发。
我们正在实验这个三层治理模型。如果你在做类似的工作 — 欢迎讨论。
Beta Was this translation helpful? Give feedback.
All reactions