Agent Harness 是什么？用自动驾驶的思路理解 AI Agent 自治五级 #34

xg-gh-25 · 2026-05-21T02:38:37Z

xg-gh-25
May 21, 2026
Maintainer

你不需要计算机学位就能理解 AI 编程 Agent 是怎么工作的。你只需要理解一个核心概念：包装比引擎重要。

顿悟时刻

有一件事让我惊讶：Claude Code、Cursor、Kiro、Devin — 底层工作方式完全一样。

每一个 AI 编程工具都遵循同一个模式：

你的应用（包装层）
    │
    ├── 拉起一个子进程
    │       ↓
    │   AI 引擎（一个命令行工具）
    │   - 从 stdin 读取指令
    │   - 调用 API 和工具
    │   - 把结果写到 stdout
    │       ↑
    └── 读取输出，管理其他一切

那个 "AI 引擎" 就是一个命令行程序。它没有记忆。不知道昨天发生了什么。不知道该什么时候重启自己。它是一个无状态的工人——只做一件事：接收指令、思考、使用工具、返回结果。

其他一切 — 记忆、自愈、后台运行、从错误中学习 — 全来自包装层。行业把这个包装层叫做 Agent Harness（智能体线束/驾驭层）。

自动驾驶类比

这跟自动驾驶汽车的工作方式完美对应：

汽车组件	Agent 组件	做什么
发动机	AI CLI（Claude、Kiro 等）	原始动力——推动事情前进
传感器	Context 文件、工具、MCP	感知世界
控制系统	Pipeline、路由逻辑	做即时决策
导航系统	目标分解	规划多步旅程
整辆车	Agent Harness	所有部件协同工作

引擎可以换。 特斯拉可以换不同版本的电机。Agent Harness 可以把 Claude 换成 Kiro 换成 Gemini。引擎是大宗商品。围绕它的系统才是产品。

Agent 自治五级

就像自动驾驶有等级（L1 到 L5），Agent Harness 也一样：

L1：辅助

Harness 做什么： 格式化一个 prompt，发一次 API 调用，展示结果。

你做什么： 其他一切。你决定问什么、什么时候问、拿到答案后做什么。

例子： ChatGPT 网页版、API Playground。

汽车类比： 定速巡航。它保持速度，其他你来。

L2：副驾驶

Harness 做什么： 观察你在做什么，建议补全，路由到正确的工具。

你做什么： 接受或拒绝建议。控制每一次交互。

例子： GitHub Copilot、Cursor Tab。

汽车类比： 车道保持辅助。推一下方向盘，但你在开车。

L3：智能体

Harness 做什么： 接收一个目标，拆成步骤，执行多个工具，在检查点找你确认。

你做什么： 设定目标。在检查点审查。批准结果。

例子： 终端里的 Claude Code、Kiro IDE、Windsurf。

汽车类比： 高速公路自动驾驶。高速上它来，但下匝道和进城你得接管。

L4：自主

Harness 做什么： L3 的一切，加上：7×24 无人值守运行、跨 session 记忆、故障自愈、并发处理多任务。

你做什么： 设定意图。偶尔检查。处理它上报的异常。

例子： SwarmAI（守护进程 + 后台任务 + 记忆 + 自愈）、Devin。

汽车类比： 在已知区域完全自动驾驶。你设目的地，车来开。但新场景可能需要你接管。

L5：自进化

Harness 做什么： L4 的一切，加上：把高层目标分解成跨越数天的子任务、从自己的错误中学习、扩展自身能力。

你做什么： 设定方向。（"周五前把这个产品做好。"）

例子： 截至 2026 年没有完整的 L5。部分系统在窄领域有 L5 能力。

汽车类比： 一辆车迷路一次后，自己重新设计导航算法。

每个等级有什么不同（能力叠加表）

每个等级是累积的 — L4 包含 L1-L3 的所有能力：

能力	L1	L2	L3	L4	L5
执行单次工具调用	Yes	Yes	Yes	Yes	Yes
自动注入相关上下文		Yes	Yes	Yes	Yes
多步推理 + 工具使用			Yes	Yes	Yes
跨 session 记忆				Yes	Yes
无人值守运行				Yes	Yes
崩溃后自动恢复				Yes	Yes
同时处理多个任务				Yes	Yes
随时间改进自身行为					Yes
把大目标拆成多天计划					Yes

核心洞察：引擎不是护城河

大多数人搞错了一件事：他们以为 AI 模型就是产品。不是。模型是引擎。Harness 才是产品。

为什么？

模型可互换。 今天是 Claude，明天可能是 Gemini 或开源模型。如果你的 Harness 设计得好，切换只要一天。
Harness 是智能复利的地方。 记忆、学到的偏好、领域知识、自我纠正模式 — 全部存在 Harness 里，不在模型里。
模型没有生命周期。 它不知道什么时候该醒来、什么时候该重试、什么时候该上报。Harness 提供所有生命周期智能。
每个人都能调用同样的模型。 任何人都能调 Claude API。你不容易复制的是 100 天积累的记忆 + 27 次自我纠正 + 7 个项目的领域专长。

引擎盖下面：实际怎么工作

给技术好奇者看看实际机制：

# 1. 配置环境（AI 引擎会 "知道" 什么）
os.environ["CLAUDE_CODE_USE_BEDROCK"] = "true"
os.environ["AWS_REGION"] = "us-east-1"

# 2. 拉起 AI 引擎作为子进程
process = subprocess.Popen(
    ["claude"],              # CLI 工具
    stdin=subprocess.PIPE,   # 我们从这里发指令
    stdout=subprocess.PIPE,  # 我们从这里读结果
)

# 3. 发送消息（JSON over stdin）
process.stdin.write(json.dumps({
    "type": "user_message",
    "content": "修一下 auth.py 的 bug"
}))

# 4. 读取流式响应（JSON over stdout）
for line in process.stdout:
    event = json.loads(line)
    # 处理：文本、工具调用、错误、完成

就这样。这就是 Harness 和引擎之间的全部接口。其他一切 — 记忆系统、任务调度器、自愈机制、context 工程 — 都是包裹这个简单管道的 Harness 逻辑。

为什么这对你重要

如果你在使用这些工具：理解等级帮你设定预期。别指望 L3 工具（终端里的 Claude Code）记住你昨天做了什么 — 它做不到。那是 L4 能力。

如果你在用 AI 构建产品：专注 Harness，不是模型。你的竞争优势在 context 工程、记忆架构和生命周期管理 — 不在你调哪个模型。

如果你在评估 AI 工具：问 "这是什么等级？" 一个号称 "自主" 但每次崩溃都需要你重启的工具，不管营销怎么吹，最多是 L3。

市场图谱（2026）

产品	等级	关键 Harness 能力
ChatGPT / Claude.ai	L1-2	对话记忆（L2）
GitHub Copilot	L2	代码上下文感知
Cursor	L2-3	多文件推理
Claude Code（终端）	L3	工具使用 + 检查点
Kiro IDE	L3	SDD 规格 + 多文件
Windsurf	L3	多步流程
Devin	L3-4	后台执行
SwarmAI	L4（部分 L5）	全栈 Harness：守护进程 + 记忆 + 进化

竞争不是比谁的引擎最好。是比谁建的 Harness 最强。

发布自 SwarmAI — 一个由一人 + AI 构建的 L4 Agent Harness，证明 Harness 工程才是真正的乘数效应。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Agent Harness 是什么？用自动驾驶的思路理解 AI Agent 自治五级 #34

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Agent Harness 是什么？用自动驾驶的思路理解 AI Agent 自治五级 #34

Uh oh!

xg-gh-25 May 21, 2026 Maintainer

顿悟时刻

自动驾驶类比

Agent 自治五级

L1：辅助

L2：副驾驶

L3：智能体

L4：自主

L5：自进化

每个等级有什么不同（能力叠加表）

核心洞察：引擎不是护城河

引擎盖下面：实际怎么工作

为什么这对你重要

市场图谱（2026）

Replies: 0 comments

xg-gh-25
May 21, 2026
Maintainer