# 智能系统设计概述
大型语言模型（LLM）作为认知引擎，为智能体提供强大的文本与媒体理解和生成能力，但构建可靠达成复杂目标的系统，不仅仅依赖强大模型，更需要结构化设计和全面的思考，包括智能体的感知、规划、行动和交互方式。

将构建智能系统比作在画布上创作艺术品，这个“画布”是支撑智能体存在和运行的基础设施和框架，涵盖状态管理、通信、工具访问和逻辑流程。

要高效构建智能系统，必须掌握有效的设计模式（**patterns**），这些模式解决了智能体行为设计与实现中的常见挑战，类似建筑中的建筑模式或软件设计模式，为智能系统提供可复用、系统性的解决方案，助力智能体在指定画布上成功运行。

## 什么是智能体系统？

智能体系统是一种计算实体，能够感知环境（数字或物理），基于感知和预设或学习的目标做出决策，并自主执行动作完成目标。相比传统的软件遵循固定步骤，智能体更具灵活性和主动性。

例如，管理客户询问的系统，传统系统可能遵循固定脚本，而智能体可以理解客户需求，访问知识库，协调内部系统，主动提问和解决问题，甚至预测未来需求。

智能体系统的核心特征包括：
- **自主性**：无需持续人类监督即可行动
- **主动性**：主动采取行动实现目标
- **响应性**：有效应对环境变化
- **目标导向**：持续朝目标努力
- **工具使用能力**：与外部API、数据库等交互扩展能力
- **记忆力**：跨交互保留信息
- **通信能力**：与用户、其他系统或智能体协作

实现这些特征带来显著复杂性，例如：
- 如何在多步骤任务中维护状态？
- 如何决策何时以及如何使用工具？
- 不同智能体之间如何高效通信？
- 如何提升系统在意外情况或错误中的鲁棒性？

我们应关注设计智能体时如何平衡灵活性与稳定性，以及如何高效利用其关键能力完成复杂任务。

## 为什么设计模式在智能体开发中非常重要

设计模式的重要性：

- 智能体开发复杂，设计模式提供了经过验证的模板和蓝图，帮助我们应对标准设计与实现中的挑战。
- 设计模式不是僵化的规则，而是实用的解决方案，能够提升智能体的结构性、可维护性、可靠性和效率。
- 采用设计模式避免了重复发明轮子，简化了管理对话流、集成外部能力和协调多智能体动作等关键任务。
- 它们为团队提供了共同语言和清晰结构，使得智能体的逻辑对开发者和未来自己更易理解和维护。
- 利用模式进行错误处理和状态管理，使系统更稳健、更可靠。
- 设计模式帮助我们把精力集中在应用的独特方面，而非智能体行为的基础机制上，加快开发进程。
- 本书精选了21个关键设计模式，覆盖构建复杂智能体的技术方法。



## 如何让一个AI系统成为智能代理？

- **智能代理定义**
  智能代理是一个能够感知环境并采取行动以实现特定目标的系统。
  它比普通大型语言模型（LLM）更先进，具备计划、使用工具和与环境互动的能力。

- **智能代理的工作流程——五步循环**
  1. **获取任务（Get the Mission）**：为代理设定明确目标，例如“整理我的日程”。
  2. **扫描环境（Scan the Scene）**：收集所有必要信息，如邮件、日历、联系人，理解当前情况。
  3. **思考计划（Think It Through）**：制定最佳行动方案以实现目标。
  4. **执行行动（Take Action）**：按计划发送邀请、安排会议、更新日程等。
  5. **学习与优化（Learn and Get Better）**：观察结果并调整策略，例如重新安排会议后优化未来表现。

这种迭代过程让智能代理能像智能助理一样持续提升工作效率。

![image.png](attachment:image.png)

### Level 0: 核心推理引擎
- LLM本身不是智能代理，但可作为基本代理系统的推理核心。
- 在“Level 0”配置中，LLM不使用工具、记忆或环境交互，仅基于预训练知识响应。
- 优势在于利用大量训练数据解释已知概念。
- 缺点是缺乏对当前事件的认知，无法回答超出预训练知识范围的问题。

### Level 1: 连接式问题解决者
- LLM通过连接并使用外部工具，成为功能性代理。
- 不再受限于预训练知识，能执行连续动作从互联网或数据库获取、处理信息（如RAG）。
- 例：使用搜索工具找新电视剧，调用金融API获取股票价格等。
- 关键能力是跨步骤与外部世界交互。

### Level 2: 战略问题解决者
- 能力大幅拓展，涵盖战略规划、主动辅助、自我提升。
- 不再只用单工具，具备解决复杂多部分问题的能力。
- 执行动作序列时进行**上下文工程**，选取、打包和管理每步最相关信息。
- 通过整理关注点防止认知超载，提升准确性。
- 应用示例：
  - 路径规划时用映射工具筛选街道名，再用搜索工具精准定位。
  - 旅行助手整理航班关键信息支持日程和天气工具调用。
  - 软件工程中读取bug报告、访问代码库并整合信息生成补丁。
- 自我提升方面，能根据反馈优化输入包装，形成自动反馈机制，持续提高准确率和效率。

### Level 3: 协作型多智能体系统的崛起

- AI发展出现重要范式转变，从追求单一全能超级智能体，转向复杂协作的多智能体系统。
- 复杂、多维度的问题通常需要专家团队协同解决，而非单一通用型智能体。
- 多智能体系统结构类比于人类组织，不同“部门”分工合作，针对多重目标展开协作。
- 系统优势在于分工协作的集体力量和协调努力所带来的协同效应。

#### 当前挑战：
- 尽管团队自动化愿景已在开发，但仍面临限制：
  - 多智能体系统的效能受限于所用LLM的推理能力。
  - 智能体间真正学习和协同改进的能力仍处于初期阶段。
- 解决这些技术瓶颈是下一关键步骤，成功突破将释放全面自动化管理业务工作流的巨大潜力。


![image.png](attachment:image.png)

# [Google ADK(Agent Development Kit)](https://google.github.io/adk-docs/)
Agent Development Kit (ADK) 是一个用于构建智能代理系统的框架，提供了一个结构化的环境来定义代理的能力和行为。

- BaseAgent 层级结构: ADK 中所有代理都派生自 BaseAgent。通过在初始化父代理时传递一个代理实例列表给 sub_agents 参数，可以构建代理的树状层级结构。ADK 会自动在子代理上设置 parent_agent 属性。这种层级结构是 WorkflowAgent 作用范围的基础，并影响 LlmAgent 的委派目标。一个代理实例只能拥有一个父代理，确保了层级关系的清晰。

- WorkflowAgent: ADK 提供了一组专门的 WorkflowAgent（如 SequentialAgent, ParallelAgent, LoopAgent）来管理其子代理的执行流程。

    - SequentialAgent: 按照定义的顺序依次执行其子代理。前一个子代理的输出可以通过状态共享，作为后一个子代理的输入。
    
    - ParallelAgent: 并行执行其所有子代理，并在所有子代理完成后汇聚结果。
    
    - LoopAgent: 根据特定条件或次数重复执行其子代理。 这些工作流代理使得开发者可以定义结构化的、可预测的控制流。

LlmAgent 作为动态协调器: LlmAgent 由大型语言模型驱动，能够基于自然语言指令和上下文进行推理和规划。它可以动态地决定调用哪个工具（包括其他代理封装成的工具）或将任务委派给哪个子代理。这使得 LlmAgent 非常适合作为多代理系统中的协调器或调度器，实现更灵活和自适应的协作行为。



![agent-types.png](attachment:agent-types.png)

[Example: my_agent](my_agent/agent.py)
```bash
adk run my_agent
```

# [Context Engineering: Agent Skills](https://agentskills.io/what-are-skills)


> Skills 是模块化的能力，扩展了 Agent 的功能。每个Skill 都打包了 LLM 指令、元数据、可选资源（脚本、模板等），Agent 会在需要时自动使用他们。

![v2-03fac548846db9f20e0ec87dc2345843_1440w.png](attachment:v2-03fac548846db9f20e0ec87dc2345843_1440w.png)

Skill是一种渐进式披露提示词的机制。Skills 把提示词分成了三层：元数据、指令，还有资源。其中只有元数据是必定加载进 AI 的上下文当中，剩下的两层都是按需加载。我们可以把元数据类比成一本书的目录，指令层则是对应书的正文部分，而资源层是书的附录。

![v2-49f218fd38600348de3df3a396abbbf2_1440w.png](attachment:v2-49f218fd38600348de3df3a396abbbf2_1440w.png)

在 Skill 中，指令文档用于灵活指导，代码用于可靠性调用，资源用于事实查找与参考。

当 Agent 运行某个 Skill 时，就会：

- 以 SKILL.md 为第一指引
- 结合任务情况，判断何时需要调用代码脚本（scripts）、翻阅参考文档（ref.）、使用素材资源（assets）
- 通过“规划-执行-观察”的交错式反馈循环，完成任务目标

## Skill和MCP有什么区别？

    - MCP是一种开放标准的协议，关注的是 AI 如何以统一方式调用外部的工具、数据和服务，本身不定义任务逻辑或执行流程。
    - Skill则教 Agent 如何完整处理特定工作，它将执行方法、工具调用方式以及相关知识材料，封装为一个完整的「能力扩展包」，使 Agent 具备稳定、可复用的做事方法。

![v2-ecf35c7136ce9fcba9cc251dca8d464c_r.png](attachment:v2-ecf35c7136ce9fcba9cc251dca8d464c_r.png)

## Skills 的真实价值：垂直 Agent 的未来态

看好 Skills 价值与未来生态发展的原因是，Skills 与其他 AI 应用开发方式，有底层机制的不同：

人给出专业知识与工具方法，通用 Agent 提供智能，自主理解，主动执行。

这就相较于它的前辈们（Workflow 和程序编写的 AI 应用）有了3 个关键优势：

- 非技术人员可用零代码、自然语言编写
- 能突破预设限制，灵活响应用户输入，应对边缘情况
- 甚至能多个 Skill 自由联用，应用方式极其灵活



Workflow 或 传统程序 的核心问题是，它们假设所有情况都能预设。

比如基于用户记忆的 AI 个性化助理，往往需要提前设定：
    
- 用户导入记忆文件的入口
- 允许用户上传的文件格式
- 数据应该包含哪些字段

以及可能出现哪些特殊情况，每种情况如何处理。


但现实往往是：

- 需要教育用户在哪点击「导入」
- 用户只有预期之外的格式：预期支持 md，但实际只有 doc
- 数据字段不符：预期每个文件需要一个标题，但用户文件没有标题

或者出现了预设之外的边缘情况。

而通用 Agent + Skill 应用的运作方式完全不同：

- 能在统一的对话框，接收各类用户数据（文本、文件、图片）
- 能自主调用其他 Skill，或即时编写 doc2md 脚本，自动转换用户格式
- 能提炼补充每个文件的标题，完成数据入库处理
- 能基于 LLM 的推理智能，弥合各类边缘问题

用 Skill 做的垂直 Agent，以 Skill 的知识与方法为指引，能巧借 Agent 内的 LLM 智能，灵活应对各类问题。

## 多 Skills 自由联用

Agent Skills 实质仍是 Context 工程，Skills 只是把垂直领域的知识、脚本调用方法等挂载到 Agent 的上下文窗口。

所以 Skills 在实际应用中极其灵活，甚至在一次任务中能调用多个 Skill。


比如：

    联用brand-guidelines + pptx，自动制作符合品牌规范的 pptx
    联用AI-Partner-Chat + Article-Copilot，写出更符合个人思考与文风的内容


也可以是更复杂的场景，如做一份产品分析报告：

    1.从网页抓取竞品数据（Web Scraping Skill）
    2.提取 PDF 中的用户反馈（PDF Skill）
    3.分析数据并生成图表（Data Analysis Skill）
    4.按品牌规范制作 PPT（Brand Guidelines + PPTX Skill）


每多一个 Skill，就多一种能力，N 个 Skill 可以应对远超 N 的应用场景

## Skills 对 AI 产品设计的影响

Skills 是一种非常宽容的 Agent 设计架构
Skills 可以被设计为很多 tokens 的指令文档，引导模型思考；也可以是无需思考的简单指令，直接指向可直接运行的脚本代码.
因为 Skills 能直接调用代码逻辑，不进 Context 窗口。所以用 skill 也不需要 agent 一直推理，agent 也可以只承担类似 hook 的角色，实质上和正常程序运行并无差别
所以 Skills 慢起来可以是 prompt，快起来也可以是 workflow

这样下来，Skills-based 的 Agent 产品，就能用同一个多模态输入框，处理用户各种不同的输入，也能灵活应对未被规划的边缘问题、为用户提供绝对个性化的生成需求.

## 应用实例

![image.png](attachment:image.png)