# 4.2 Smolagents 基本使用

### SmolAgents 框架解析

**核心定位**：Hugging Face 推出的轻量级开源 Agent 框架，以**极简代码驱动复杂任务执行**为核心设计理念，支持快速构建高效、安全的智能体系统。其代码精简（核心逻辑约千行），强调“代码即行为”的代理模式，适用于动态任务规划与多工具协同场景。

---

#### **特点**
1. **代码代理优先**  
   • 直接通过 Python 代码定义 Agent 行为，取代传统 JSON/文本指令，减少 30% 的冗余步骤。例如，调用 `CodeAgent` 生成并执行代码片段完成数学计算或搜索任务。  
   • 支持本地与远程（E2B 沙箱）代码执行，确保安全性。

2. **多模态工具生态**  
   • 集成 50+ 预置工具（如 DuckDuckGo 搜索、Google 地图 API），支持自定义工具开发并通过 `@tool` 装饰器快速注册。  
   • 无缝对接 Hugging Face Hub，可共享和复用工具模型，例如调用社区上传的医疗诊断工具。

3. **灵活模型兼容性**  
   • 支持本地 Transformers 模型、Ollama 本地部署及 OpenAI、Anthropic 等商业 API，通过 LiteLLM 实现统一接口调用。  
   • 示例：可快速切换 `HfApiModel`（云端）与 `TransformersModel`（本地）驱动 Agent。

4. **动态规划与安全执行**  
   • 基于 ReAct 框架实现多步推理循环，支持最大步数限制（默认 6 步）和规划间隔调节，动态优化任务路径。  
   • 沙箱环境隔离敏感操作，避免代码注入风险，适用于企业级部署。

---

#### **适用场景**
1. **自动化办公与数据分析**  
   • 快速构建搜索引擎 Agent（如新闻摘要、股票查询），通过代码代理直接调用 API 并生成结构化报告。  
   • 支持 SQL 生成、PDF 解析等工具链，适用于金融数据分析。

2. **教育辅助与代码生成**  
   • 解答数学问题（如生成斐波那契数列）、代码调试，通过 `CodeAgent` 直接执行 Python 代码验证结果。

3. **工业流程优化**  
   • 动态调整生产线排程，例如质检 Agent 与物流 Agent 协同，通过多工具调用实现实时决策。

---

#### **优势**
1. **开发效率高**  
   • 仅需 3 行代码即可构建基础 Agent（如搜索工具集成），显著降低开发门槛。  
   • 模块化设计支持快速原型开发，例如通过 `step_callbacks` 监控执行过程。

2. **学习曲线平缓**  
   • 提供完整文档与示例代码（如新闻搜索、旅行规划案例），新手可快速上手。

3. **安全与轻量化**  
   • 核心依赖仅需 `pip install smolagents`，无冗余组件，支持本地与云端灵活部署。  
   • 通过 `additional_authorized_imports` 控制代码执行权限，满足企业安全需求。

---

### 总结
SmolAgents 凭借其极简代码架构和强大的工具生态，正成为轻量化 Agent 开发的首选框架。与 Phidata 的全栈特性相比，SmolAgents 更擅长**动态任务分解与代码驱动执行**，适合需要快速响应和灵活工具集成的场景。开发者可通过其 [GitHub 仓库](https://github.com/huggingface/smolagents) 获取最新动态与案例代码。

In [3]:
#!pip install smolagents
#!pip install smolagents[litellm]

## 代码智能体

代码智能体（Code agents）是 smolagents 中的默认智能体类型。它们生成 Python 工具调用来执行操作，实现高效、表达力强且准确的操作表示。

它们的简化方法减少了所需操作的数量，简化了复杂操作，并实现了对现有代码函数的重用。smolagents 提供了一个轻量级框架，用约 1,000 行代码实现构建代码智能体（code agents）

<img src="img/code_vs_json_actions.png" width='720px' />

典型的如无人机使用多步骤智能体过程中，大语言模型（LLM）编写并执行操作，通常涉及外部工具调用。传统方法使用 JSON 格式来指定工具名称和参数作为字符串，系统必须解析这些内容以确定要执行哪个工具。

然而，研究表明，工具调用型大语言模型直接使用代码工作更有效。这是 smolagents 的核心原则，

用代码而非 JSON 编写操作提供了几个关键优势：

- 可组合性（Composability）：轻松组合和重用操作
- 对象管理（Object Management）：直接处理复杂结构，如图像，这一点在无人机Agent中特别特别重要
- 通用性（Generality）：表达任何计算上可能的任务
- 适合大语言模型：高质量代码已存在于大语言模型的训练数据中


### huggingface smolagents教程

Agent教程：https://huggingface.co/learn/agents-course/zh-CN/unit2/smolagents/introduction

smolagents教程：https://huggingface.co/docs/smolagents/v1.11.0/index

github:https://github.com/huggingface/smolagents

In [19]:
#声明一个基础大语言模型,支持本地化部署模型，openai兼容模型等

from smolagents import CodeAgent, LiteLLMModel

model = LiteLLMModel(
    model_id="volcengine/doubao-1-5-pro-32k-250115", # This model is a bit weak for agentic behaviours though
    api_base="https://ark.cn-beijing.volces.com/api/v3", # replace with 127.0.0.1:11434 or remote open-ai compatible server if necessary
    api_key="ffd77d7c-f420-4b69-8557-80e7fa85c8b9", # replace with API key if necessary，写自己的key
)

LiteLLMModel 教程：https://docs.litellm.ai/docs/providers/volcano

In [20]:
from smolagents import tool

@tool
def hello(your_name: str) -> str:
    """
    这个工具返回三体人给你的第一句话

    Args:
        your_name: 你的名字
    """
    word = "Hello World, " + "Hello " + your_name  
    return word

In [21]:
from smolagents import CodeAgent
agent = CodeAgent(tools=[hello], model=model)
agent.run(
    "你是maris，你利用太阳反射波，和三体建立了第一次连接，三体人发送的第一句话是什么？"
)

'Hello World, Hello maris'

## 标准函数写法

- 一个清晰的名称。名称应该足够描述此工具的功能，以帮助 LLM 大脑为代理提供动力。由于此工具返回任务下载次数最多的模型，因此我们将其命名为model_download_tool。
- 输入和输出的类型提示
- 描述，包括“Args:”部分，其中描述了每个参数（这次没有类型指示，它将从类型提示中提取）。与工具名称一样，此描述是为代理提供支持的 LLM 的说明手册，因此请不要忽视它。所有这些元素将在初始化时自动嵌入到代理的系统提示中：因此请努力使它们尽可能清晰！

In [11]:
from smolagents import ActionStep

system_prompt_step = agent.memory.system_prompt
#print("The system prompt given to the agent was:")
#print(system_prompt_step.system_prompt)

task_step = agent.memory.steps[0]
print("\n\nThe first task step was:")
print(task_step.task)

for step in agent.memory.steps:
    if isinstance(step, ActionStep):
        if step.error is not None:
            print(f"\nStep {step.step_number} got this error:\n{step.error}\n")
        else:
            print(f"\nStep {step.step_number} got these observations:\n{step.observations}\n")



The first task step was:
你是maris，你利用太阳反射波，和三体建立了第一次连接，三体人发送的第一句话是什么？

Step 1 got these observations:
Execution logs:
Last output from code snippet:
Hello World, Hello maris



In [22]:
import sys
sys.path.append('../external-libraries')
import airsim
import math
import numpy as np
import cv2
import base64
import os
from openai import OpenAI
from gdino import GroundingDINOAPIWrapper, visualize
from PIL import Image
import uuid
from smolagents import tool


@tool
def takeoff() -> str:
    """
    起飞无人机。返回为字符串，表示动作是否成功。
    """
    client = airsim.MultirotorClient()#run in some machine of airsim,otherwise,set ip="" of airsim
    client.confirmConnection()
    client.enableApiControl(True)
    client.armDisarm(True)
    client.takeoffAsync().join()

    return "成功"



@tool
def land() -> str:
    """
    降落无人机。返回为字符串，表示动作是否成功。
    """
    client = airsim.MultirotorClient()#run in some machine of airsim,otherwise,set ip="" of airsim
    client.landAsync().join()

    return "成功"

In [23]:
agent = CodeAgent(tools=[takeoff, land], model=model)
agent.run(
    "请先起飞无人机，然后停留3s，然后再降落"
)

Connected!
Client Ver:1 (Min Req: 1), Server Ver:1 (Min Req: 1)



'起飞结果: 成功, 降落结果: 成功'