# 基于提示词的工具调用智能体（Prompt-Parsed Tool Agent）

这是一个基于大语言模型（LLM）的智能体系统，演示了如何让AI智能体使用工具来执行具体任务。该系统展示了现代AI智能体的核心概念：**工具调用（Tool Calling）**。

- 本 Notebook 演示“无函数调用 API”的方案：通过提示词约定输出格式，模型以 Markdown 代码块返回自定义 JSON：
  ```action
  {
    "tool_name": "...",
    "args": { ... }
  }
  ```
  代码使用解析器提取并执行相应工具。

#### 核心功能
1. **智能体循环（Agent Loop）**：智能体能够持续思考和行动，直到完成任务
2. **工具调用机制**：智能体可以调用预定义的工具（如文件操作）
3. **结构化响应解析**：将LLM的自然语言响应解析为结构化的工具调用指令
4. **记忆管理**：维护对话历史，让智能体能够基于之前的交互做出决策

#### 技术架构
- **LLM引擎**：使用OpenAI GPT-4o模型
- **工具系统**：预定义的工具函数（list_files, read_file, terminate）
- **解析器**：将LLM响应解析为JSON格式的工具调用
- **循环控制**：防止无限循环的安全机制

#### 工作机制
- **提示约定**：在 `agent_rules` 明确要求“每次响应必须包含 action JSON 代码块”。
- **响应解析**：使用 `extract_markdown_block` 提取 ```action ...``` 代码块，再由 `parse_action` 进行 `json.loads` 与结构校验。
- **工具执行**：根据 `tool_name` 分派到本地工具（`list_files`、`read_file`、`terminate`）。
- **错误自愈**：若解析失败或格式不符，向模型反馈错误信息写入记忆，促使其下轮自我修正直至给出合规 JSON。
- **循环控制**：多轮对话在 `memory` 中累积思考与结果；遇到 `terminate` 则输出总结并结束。

#### 适用场景
- 使用不支持 Function Calling 的模型或代理层；
- 需要完全自定义输出格式/协议；
- 希望观察与教学“从错误到自我修正”的智能体行为。

#### 学习目标
- 掌握以提示工程约束模型输出并自定义解析器的方式；
- 学会设计健壮的解析与错误反馈回路（容错重试、自我修正）；
- 理解工具分派、状态记忆与终止条件的通用实现；
- 对比原生 Function Calling 与提示解析两种路线的权衡。


#### 学习价值
这个示例非常适合我们来理解：
- 智能体如何与外部工具交互
- LLM如何生成结构化的工具调用指令
- 如何构建一个完整的智能体工作流
- 现代AI应用的基本架构模式


In [1]:
# 安装必要的依赖包
!!pip install openai==1.107.0

['Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple',
 '\x1b[0m']

In [2]:
# 导入必要的模块
import os, getpass

def _set_env(var: str):
    """
    设置环境变量的辅助函数

    参数:
        var (str): 要设置的环境变量名称

    功能:
        - 检查环境变量是否已存在
        - 如果不存在，则提示用户输入并设置
    """
    if not os.environ.get(var):  # 检查环境变量是否已设置
        os.environ[var] = getpass.getpass(f"{var}: ")  # 安全地获取用户输入

# 设置 OpenAI API代理地址 (例如：https://api.apiyi.com/v1）
# 设置 DeepSeek地址(例如：https://api.deepseek.com）
_set_env("OPENAI_BASE_URL")
# 设置 OpenAI API 密钥
# 这是使用 OpenAI / DeepSeek 等模型所必需的
_set_env("OPENAI_API_KEY")
# 设置 大语言模型名称（gpt-4o / deepseek-chat）
_set_env("MODEL_NAME")

In [6]:
# 打印模型名称
os.environ['MODEL_NAME']

'deepseek-chat'

In [None]:
# ===== 导入必要的库 =====
import json  # 用于JSON数据处理
import os    # 用于操作系统相关操作
import sys   # 用于系统相关操作
from typing import List, Dict   # 类型提示，提高代码可读性
from openai import OpenAI       # 用于调用OpenAI API
# ===== 核心工具函数定义 =====

def extract_markdown_block(response: str, block_type: str = "json") -> str:
    """
    从LLM响应中提取代码块内容

    参数:
        response: LLM的原始响应文本
        block_type: 要提取的代码块类型，默认为"json"

    返回:
        提取出的代码块内容
    """
    # 检查响应中是否包含代码块标记
    if not '```' in response:
        return response

    # 分割响应并提取第一个代码块
    code_block = response.split('```')[1].strip()

    # 如果代码块以指定类型开头，则移除类型标识
    if code_block.startswith(block_type):
        code_block = code_block[len(block_type):].strip()

    return code_block

def generate_response(messages: List[Dict]) -> str:
    """
    调用LLM生成响应

    参数:
        messages: 消息列表，包含系统提示和对话历史

    返回:
        LLM生成的响应文本
    """
    # 使用LiteLLM调用OpenAI GPT-4o模型

    client=OpenAI(
        base_url=os.environ['OPENAI_BASE_URL'],
        api_key=os.environ['OPENAI_API_KEY']
    )
    response = client.chat.completions.create(
        model=os.environ['MODEL_NAME'],  # 指定使用的模型
        messages=messages,      # 传入消息列表
        max_tokens=1024         # 限制最大token数量
    )

    return response.choices[0].message.content.strip()

def parse_action(response: str) -> Dict:
    """
    解析LLM响应，提取结构化的工具调用指令

    参数:
        response: LLM的响应文本

    返回:
        包含工具名称和参数的字典
    """
    try:
        # 从响应中提取action代码块
        response = extract_markdown_block(response, "action")

        # 将JSON字符串解析为Python字典
        response_json = json.loads(response)

        # 验证响应格式是否正确
        if "tool_name" in response_json and "args" in response_json:
            return response_json
        else:
            # 如果格式不正确，返回错误信息
            return {"tool_name": "error", "args": {"message": "You must respond with a JSON tool invocation."}}
    except json.JSONDecodeError:
        # 如果JSON解析失败，返回错误信息
        return {"tool_name": "error", "args": {"message": "Invalid JSON response. You must respond with a JSON tool invocation."}}

# ===== 智能体可用的工具函数 =====

def list_files() -> List[str]:
    """
    列出当前目录中的所有文件

    返回:
        文件名列表
    """
    return os.listdir(".")

def read_file(file_name: str) -> str:
    """
    读取指定文件的内容

    参数:
        file_name: 要读取的文件名

    返回:
        文件内容或错误信息
    """
    try:
        with open(file_name, "r") as file:
            return file.read()
    except FileNotFoundError:
        return f"Error: {file_name} not found."
    except Exception as e:
        return f"Error: {str(e)}"

# ===== 智能体系统提示词定义 =====
# 这个提示词定义了智能体的行为规则和可用工具
agent_rules = [{
    "role": "system",
    "content": """
你是一个AI智能体，可以通过使用可用工具来执行任务。

可用工具:

```json
{
    "list_files": {
        "description": "列出当前目录中的所有文件。",
        "parameters": {}
    },
    "read_file": {
        "description": "读取文件的内容。",
        "parameters": {
            "file_name": {
                "type": "string",
                "description": "要读取的文件名。"
            }
        }
    },
    "terminate": {
        "description": "结束智能体循环并提供任务摘要。",
        "parameters": {
            "message": {
                "type": "string",
                "description": "返回给用户的摘要消息。"
            }
        }
    }
}
```

如果用户询问文件、文档或内容，请先列出文件，然后再读取它们。

当你完成任务后，使用"terminate"工具结束对话，我将向用户提供结果。

重要！！！每个响应都必须包含一个动作。
你必须始终按照以下格式响应：

<停下来逐步思考。参数映射到args。在这里插入你逐步思考的丰富描述。>

```action
{
    "tool_name": "插入工具名称",
    "args": {...在这里填入任何必需的参数...}
}```
"""
}]

# ===== 智能体主循环初始化 =====
iterations = 0        # 当前迭代次数
max_iterations = 10   # 最大迭代次数，防止无限循环

# 获取用户任务
user_task = input("What would you like me to do? ")

# 初始化对话记忆，包含用户的任务
memory = [{"role": "user", "content": user_task}]

# ===== 智能体主循环 =====
# 这是智能体的核心工作循环，持续执行直到任务完成或达到最大迭代次数
while iterations < max_iterations:
    # 1. 构建提示：将智能体规则与对话记忆结合
    prompt = agent_rules + memory

    # 2. 调用LLM生成响应
    print("Agent thinking...")
    response = generate_response(prompt)
    print(f"Agent response: {response}")

    # 3. 解析响应以确定要执行的动作
    action = parse_action(response)
    result = "Action executed"  # 默认结果

    # 4. 根据解析出的动作执行相应的工具函数
    if action["tool_name"] == "list_files":
        result = {"result": list_files()}
    elif action["tool_name"] == "read_file":
        result = {"result": read_file(action["args"]["file_name"])}
    elif action["tool_name"] == "error":
        result = {"error": action["args"]["message"]}
    elif action["tool_name"] == "terminate":
        print(action["args"]["message"])
        break  # 终止循环
    else:
        result = {"error": "Unknown action: " + action["tool_name"]}

    print(f"Action result: {result}")

    # 5. 更新对话记忆，添加智能体响应和执行结果
    memory.extend([
        {"role": "assistant", "content": response},
        {"role": "system", "content": json.dumps(result)}
    ])

    # 6. 检查终止条件
    if action["tool_name"] == "terminate":
        break

    iterations += 1  # 增加迭代计数


What would you like me to do?  当前目录有哪些文件


Agent thinking...
Agent response: <停下来逐步思考。用户询问当前目录中有哪些文件。我需要使用list_files工具来列出目录中的所有文件。这个工具不需要任何参数。>

```action
{
    "tool_name": "list_files",
    "args": {}
}
```
Action result: {'result': ['.ipynb_checkpoints', '02-AgentLoopWithFunctionCalling.ipynb', '01-AgentWithTools.ipynb']}
Agent thinking...
Agent response: <停下来逐步思考。用户之前询问了当前目录中的文件，我已经列出了它们。现在用户提供了文件列表的结果，但没有提出新的问题或请求。由于任务已经完成（列出了文件），我应该使用terminate工具结束对话，并提供一个摘要消息。>

```action
{
    "tool_name": "terminate",
    "args": {
        "message": "当前目录中的文件已列出：.ipynb_checkpoints、02-AgentLoopWithFunctionCalling.ipynb 和 01-AgentWithTools.ipynb。"
    }
}
```
当前目录中的文件已列出：.ipynb_checkpoints、02-AgentLoopWithFunctionCalling.ipynb 和 01-AgentWithTools.ipynb。


## 运行结果分析

从上面的运行结果可以看到，智能体成功完成了用户的任务："当前目录中有些文件"。


## 核心代码逻辑回顾

### 1. 智能体循环架构
```python
while iterations < max_iterations:
    # 1. 构建提示：将智能体规则与对话记忆结合
    prompt = agent_rules + memory
    
    # 2. 调用LLM生成响应
    response = generate_response(prompt)
    
    # 3. 解析响应以确定要执行的动作
    action = parse_action(response)
    
    # 4. 根据解析出的动作执行相应的工具函数
    # 5. 更新对话记忆
    # 6. 检查终止条件
```

**关键特点**：
- **记忆机制**：每次交互都会更新`memory`，让智能体记住之前的对话
- **错误恢复**：当LLM输出格式错误时，系统会反馈错误信息，让智能体自我修正
- **工具调用**：将自然语言响应解析为结构化的工具调用指令

### 2. 工具调用机制
```python
def parse_action(response: str) -> Dict:
    # 从响应中提取action代码块
    response = extract_markdown_block(response, "action")
    # 将JSON字符串解析为Python字典
    response_json = json.loads(response)
```

**工作原理**：
- LLM被要求输出特定格式的JSON代码块
- 系统解析这个JSON，提取工具名称和参数
- 根据工具名称调用相应的函数

### 3. 错误处理机制
从运行结果可以看到，智能体在6轮交互中出现了3次格式错误（第1、3、5轮），但系统通过以下机制实现了自我修正：

1. **格式验证**：`parse_action`函数检查JSON格式是否正确
2. **错误反馈**：将错误信息添加到对话记忆中
3. **学习能力**：智能体从错误中学习，调整后续响应

## 学习要点

### 1. 智能体的"思考"过程
- 智能体实际上是在每次循环中重新"思考"整个对话历史
- 通过`memory`变量维护完整的对话上下文
- 每次调用LLM时都会传入完整的对话历史

### 2. 工具调用的实现方式
- 不是使用函数调用（Function Calling），而是通过提示词工程
- LLM被训练输出特定格式的JSON
- 系统解析JSON后执行相应的工具函数

### 3. 错误恢复能力
- 智能体具备从错误中学习的能力
- 通过错误反馈机制实现自我修正
- 这体现了现代AI系统的鲁棒性

### 4. 实际应用价值
这种架构模式在现代AI应用中非常常见：
- **RAG系统**：检索增强生成
- **Agent框架**：如LangChain、LangGraph
- **工具调用**：让AI能够操作外部系统

通过这个简单的例子，我们可以看到智能体系统的核心工作原理，为学习更复杂的AI应用奠定了基础。