你的 AI Agent 不需要更多规则 — LLM Agent 的三层治理模型 #27
xg-gh-25
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
你的 AI Agent 不需要更多规则
我用一个基于 Claude 的个人 AI 助手跑了 2 个多月,全程行为日志 — 每次纠正有时间戳,每个失败模式被追踪。关于 AI Agent 的行为治理,我的结论是:每次出错就加规则,等于给免疫系统崩溃的人开更多感冒药。
打破我心智模型的那个 Pattern
我的 Agent 犯了同一类错误 4 次。每次我都加了规则。看:
27 次纠正。同一类失败 4 次。每次规则更严。没用。加了代码门控。门控堵住了那个具体行为 — 然后同一个底层偏差换了个皮又冒出来了(C027)。
根因?一个认知偏差:
规则只能枚举症状。症状是无限的。任何"大概做完了"的决策点都能触发这个偏差。
真正有效的:三层,不是更多规则
人类社会不是用单一机制治理行为的。三层共存,对应到 LLM Agent:
第一层:原则 — 3-5 条根本导向。不是 enforcement,是方向。遇到没有规则覆盖的情况,原则提供判断力。
能预防 C011 到 C027 全部问题的原则:
一句话。如果真正遵循,四次失败全不会发生。
第二层:规则 — 有边界、可追溯、可过期。每条链接到父原则。每条有证据(哪次纠正催生的)。毕业条件:门控覆盖后,规则退休。
第三层:门控 — 代码级机械检查。同一模式 3 次以上才加。有最低门槛。每个门控有成本(僵硬、误报、维护)。
关键洞察:进化 = 蒸馏,不是堆积
反直觉的地方来了。健康系统的标志不是规则越来越多 — 而是越来越少。
Anthropic 的 Claude Code 最佳实践:
Princeton Reflexion(NeurIPS 2023)把反思上限设为 3 条 — 更多反而降低性能。
IBM/CMU SELF-ALIGN(NeurIPS 2023 Spotlight)仅用 16 条原则(~300 行)达到与 Text-Davinci-003 相当的对齐 — 无 RL,无大规模标注。
信号一致:更少、更精确的指令 > 更多、更具体的规则。
"变好"长什么样:
"变差"长什么样:
为什么不能去掉门控:自我纠正的陷阱
Google DeepMind 研究(Huang et al., ICLR 2024)证明:LLM 无法在没有外部反馈时可靠地自我纠正推理。内在自我纠正实际上可能降低性能。
意味着:纯靠"自我反思"的进化是一厢情愿。门控提供外部反馈信号,告诉系统"你确实错了" — 而不是"自我感觉良好"。
三层都永久必要。进化意味着每层变得更精确,不是消除任何一层。
无状态问题
LLM 每次会话从零开始。权重不会变。唯一的"进化基底"是系统提示词的修改。
"变聪明"在物理上表现为:
生命周期:
自己试试
如果你在构建长期运行的 AI Agent:
参考文献
基于 SwarmAI(构建在 Claude Agent SDK 上的桌面 AI 指挥中心)2 个多月的生产数据和 27 次行为纠正。三层治理模型已在生产环境运行。欢迎在评论区深入讨论。
Beta Was this translation helpful? Give feedback.
All reactions