# <center>大模型 AI Agent 开发实战

## <center>Ch.5 OpenAI Assistant API 进阶应用

&emsp;&emsp;本节课程我们继续展开`OpenAI Assistant API`接口的介绍和高阶应用的实战。

&emsp;&emsp;通过《Ch.4 OpenAI Assistant API 基本理论与入门实战》的详细解析，我们重点关注的是`Assistant API`的整体架构设计。而经过剖析其构建对话/代理的完整生命周期，相信大家对`Assistant`、`Thread`、`Messages`和`Run`这四个抽象概念之间的关联有了更加清晰的认知。上节课中我们实践的内容，是最基本的`Assistant API`的一种应用形态。而根据`OpenAI`官方对`Assistant API`的定位，作为人工智能助手/代理的开发框架，自然其所能实现的功能远远不止于此。

&emsp;&emsp;经过我们的长期使用和探索，`Assistant API`的定位目前虽然还是`beta`（测试）阶段，但其底层的设计和展现出来的效果，相较于市面上大部分的`AI Agent`框架要强很多。而其核心的功能，集中在**外部工具的应用和流式功能**两个方面。同时这两部分内容才是工程化项目开发中会实际应用到的技术。当然，这也是我们在接下来的课程中要重点和大家进行探讨和学习的。

&emsp;&emsp;首先，在使用`Assistant API`创建对话或者代理时，除了基本的身份、任务目标等信息设定，还可以为`Assistant`对象配备工具，这个功能其实也就是我们之前实践的`Function Calling`功能，它的目的是使构建的对话和代理可以执行更复杂的任务。在这方面，`Assistant API`的设计包括以下两个方面：
1. **内置热门工具。由`OpenAI`团队实现，通过接口的方式直接提供给用户，方便快速集成。**
2. **构建自定义外部函数流程和开发接口，允许用户通过函数调用扩展自身工具的功能。**

&emsp;&emsp;目前，`Assistants API` 支持的内置工具只有两个，分别是`File Search`和`Code Interpreter`。其提供的自定义外部函数接口，则是与`Chat Completions API`中基本保持一直的`Function Calling` ，`OpenAI`官方的具体说明如下：

> Assistants API Overview：https://platform.openai.com/docs/assistants/overview

<div align=center><img src="https://muyu001.oss-cn-beijing.aliyuncs.com/img/image-20240927103519246.png" width=100%></div>

&emsp;&emsp;接下来，我们就依次对`Assistant API`框架中的`File Search`、`Code Interpreter`和`Function calling`展开详细的介绍和实践。而流式功能，将作为下一节课的重点单独进行说明。

> 

# 1. Assistant API 的 File Search

&emsp;&emsp;首先来看`File Search`。在`Assistant API`中，`File Search` 被定义为一个内置的工具，`OpenAI`官方对此工具的功能描述是：**文件搜索通过来自其模型之外的知识来增强助手，例如专有产品信息或用户提供的文档。**根据这样的描述，相信很多了解过 `RAG` 技术的小伙伴会比较容易理解，`File Search` 工具实际上就是在 `Assistant API` 中实现了一整套完整的 `RAG` 工作流程。其基本构建思路如图所示：👇

> File Search：https://platform.openai.com/docs/assistants/tools/file-search

<div align=center><img src="https://snowball101.oss-cn-beijing.aliyuncs.com/img/202404101838975.png" width=100%></div>

&emsp;&emsp;`RAG`工作流程主要包括三个阶段的工作：
- **索引（Indexing）**
索引过程是离线执行的关键初始步骤。首先清理和提取原始数据，将 PDF、HTML 和 Word 等各种文件格式转换为标准化纯文本。**为了适应语言模型的上下文约束，这些文本被分为更小且更易于管理的块，这个过程称为分块**。然后使用嵌入模型将这些块转换为向量表示。最后，创建一个索引来将这些文本块及其向量嵌入存储为键值对，从而实现高效且可扩展的搜索功能。
- **检索（Retrieval）**
用户查询用于从外部知识源检索相关上下文。为了实现这一点，用户查询由编码模型处理，该模型生成语义相关的嵌入。然后，**对向量数据库进行相似性搜索，以检索前k个最接近的数据对象。**
- **生成（Generation）**
**将用户查询和检索到的附加上下文填充到提示模板中**。最后，将检索步骤中的增强提示输入到LLM中。

> 关于 `RAG` 技术的基础知识，大家可以学习我们课程的内容：《大模型RAG技术企业项目实战》 Week 2-1 的内容。

&emsp;&emsp;实践过 `RAG` 技术的小伙伴一定都比较清楚，`RAG`整个处理流程相对复杂，而每个阶段的处理策略都会直接影响最终效果。基本上，**没有一种通用流程适用于所有数据和场景。**然而，对于 `Assistant API` 中内置的 `File Search` 工具，经过我们长期的使用和测试，我们发现它不仅能够处理多种类型的数据，还能在不同数据形态下表现出色。这让人不得不佩服 `OpenAI` 技术团队的强大。

&emsp;&emsp;那么其提供的`File Search` 工具都能做什么，以及我们应该怎么使用呢？其实`OpenAI`以提供现成接口的方法把这件事情变得非常简单了。

&emsp;&emsp;`File Search`工具最大的优势在于：**它可以自动解析和分块上传的文档，创建和存储嵌入，并使用向量和关键字搜索来检索相关内容以回答用户查询。**可以说，`Assistant API`的`File Search`工具实现了多种开箱即用的检索最佳实践策略，可帮助我们从文件中提取正确的数据并增强模型的响应，其主要做的优化如下：（因为其闭源性，更加详细的技术细节我们并无法知晓）
- 重写用户查询以优化搜索。
- 将复杂的用户查询分解为可以并行运行的多个搜索。
- 在助手和线程向量存储中运行关键字和语义搜索。
- 在生成最终响应之前对搜索结果重新排序以选择最相关的结果。

&emsp;&emsp;此外，`Assistant API` 的`File Search` 工具还**提供了一定的个性化设置，例如在处理索引（Indexing）的过程时，我们可以自定义 `chunk_size `、`chunk_overlap` 等参数**。由于整个流程已由 `Assistant API` 内部实现，使用起来变得相对简单。同时，`OpenAI` 还提供了**在线云存储服务，分别用于知识库文件的云存储和在线的向量数据库服务。**正如上图所示的`RAG`流程图， 当在大模型交互功能中，如果接入`RAG`流程， `Indexing` 过程通常是要最先处理的，也就是要先将私有数据全部存放到向量数据库中。`在 OpenAI` 的设计下，因为其提供了文件和向量数据库的云存储服务。因此，在构造`Indexing`时，我们只需先将私有数据文件上传`到 OpenAI` 的云服务器，然后按照 `Assistant API` 提供的接口将这些数据存储到向量数据库中，即可非常便捷和高效的完成复杂的私有知识库处理流程。

&emsp;&emsp;接下来，我们就按照上述逻辑，实际的操作一下如何使用`File Seach`工具来实现高质量的私有知识库问答场景。

- **Stage 1. 上传本地文件至`OpenAI`服务器**

&emsp;&emsp;`File Search` 工具的本质是基于私有数据进行问答，因此第一步是准备用于大模型对话的本地数据。不过，需要注意的是，如果希望 `File Search` 工具处理这些私有数据，必须先将其上传至 `OpenAI` 的云服务器，本地文件是无法直接操作的。因此，**对于关注数据隐私的用户，需要仔细权衡是否上传，目前尚无其他可替代的方法。**

&emsp;&emsp;`Assistant API` 最多支持 200 万个`Token`和特定文件类型的文件，包含的文件类型如下：

| 扩展名 | MIME 类型                                                        |
|--------|------------------------------------------------------------------|
| .c     | text/x-c                                                         |
| .cpp   | text/x-c++                                                       |
| .cs    | text/x-csharp                                                    |
| .css   | text/css                                                         |
| .doc   | application/msword                                               |
| .docx  | application/vnd.openxmlformats-officedocument.wordprocessingml.document |
| .go    | text/x-golang                                                   |
| .html  | text/html                                                        |
| .java  | text/x-java                                                     |
| .js    | text/javascript                                                 |
| .json  | application/json                                                 |
| .md    | text/markdown                                                   |
| .pdf   | application/pdf                                                  |
| .php   | text/x-php                                                      |
| .pptx  | application/vnd.openxmlformats-officedocument.presentationml.presentation |
| .py    | text/x-python                                                   |
| .rb    | text/x-ruby                                                     |
| .sh    | application/x-sh                                                |
| .tex   | text/x-tex                                                      |
| .ts    | application/typescript                                           |
| .txt   | text/plain                                                       |


> Files：https://platform.openai.com/docs/api-reference/files

&emsp;&emsp;`OpenAI` 早在2023年开放在线微调服务时就提供了文件传输的接口，这个接口现在可直接用于 `Assistant` 的 `File Search` 服务。具体来说，将本地的文件上传至`OpenAI`的云服务器环境，可以通过`files.create()`方法来实现，需要传递的参数如下：

| 参数名   | 类型    | 可选性   | 默认值 | 描述                                                                                           |
|----------|---------|----------|--------|------------------------------------------------------------------------------------------------|
| file     | file    | 必需     | -      | 要上传的文件对象（不是文件名）。                                                              |
| purpose  | string  | 必需     | -      | 上传文件的预期用途。使用 "assistants" 表示助手和消息文件，"vision" 表示助手的图像文件输入，"batch" 表示批量 API，"fine-tune" 表示微调 |


- **文件上传**

&emsp;&emsp;**在上传文件时需要注意：该方法目前可支持上传的单个文件最大可达 512 MB，一个组织上传的所有文件最大可达 100 GB。**上传单个文件的方式如下：

> Upload file：https://platform.openai.com/docs/api-reference/files/create

In [9]:
from openai import OpenAI
client = OpenAI()

In [5]:
new_file = client.files.create(
  file=open("./data/01_LLMs/01_大模型应用发展及Agent前沿技术趋势.pdf", "rb"),
  purpose="assistants"
)

&emsp;&emsp;在这段代码中，通过调用 `client.files.create` 方法将`01_大模型应用发展及Agent前沿技术趋势.pdf`文件上传到 `OpenAI` 的云服务器，其中`file` 参数指定了要上传的本地文件路径和模式（以二进制读取模式打开 PDF 文件）。`purpose` 参数设置为 `"assistants"`，表示这个文件被用于 `Assistant API`，这个参数很关键，一定要进行明确指定。

In [7]:
new_file.to_dict()

{'id': 'file-OdySxtvdUFHhEM7zrDNzxrwS',
 'bytes': 8808043,
 'created_at': 1727406365,
 'filename': '01_大模型应用发展及Agent前沿技术趋势.pdf',
 'object': 'file',
 'purpose': 'assistants',
 'status': 'processed',
 'status_details': None}

&emsp;&emsp;每个文件都会生成一个唯一的`file id`，用于在其他流程中管理和标识各个独立的文件对象。而要上传多个文件，一种最简单的方式就是使用一个循环来依次上传每个文件。代码如下所示：

In [11]:
# 准备上传文件
file_paths = [
    "./data/01_LLMs/AI Agent开发入门.pdf",
    "./data/01_LLMs/ChatGLM3-6B零基础部署与使用指南.pdf",
    "./data/01_LLMs/ChatGLM3模型介绍.pdf"
]

# 遍历文件路径并上传文件
uploaded_files = []
for path in file_paths:
    with open(path, "rb") as file:
        new_file = client.files.create(
            file=file,
            purpose="assistants"
        )
        uploaded_files.append(new_file)

# 打印上传结果
for uploaded_file in uploaded_files:
    print(uploaded_file)

FileObject(id='file-xzF4PlFUcFjYUP5jigQv1s4r', bytes=8137316, created_at=1727406441, filename='AI Agent开发入门.pdf', object='file', purpose='assistants', status='processed', status_details=None)
FileObject(id='file-Kx2k2Pf8biFIjZ48ZaaAcTTv', bytes=6680776, created_at=1727406442, filename='ChatGLM3-6B零基础部署与使用指南.pdf', object='file', purpose='assistants', status='processed', status_details=None)
FileObject(id='file-qd9jnQQE7v4qJ48fQ8dhgoy0', bytes=21089141, created_at=1727406446, filename='ChatGLM3模型介绍.pdf', object='file', purpose='assistants', status='processed', status_details=None)


- **文件查询**

&emsp;&emsp;除此之外，我们可以直接使用`OpenAI`提供的接口来对文件执行`增删改查`操作。首先，使用`files.list()`方法能够查看当前所使用的`Client`示例下所有上传至`OpenAI`云服务器的文件详细信息。

In [14]:
all_file = client.files.list()

all_file

SyncPage[FileObject](data=[FileObject(id='file-qd9jnQQE7v4qJ48fQ8dhgoy0', bytes=21089141, created_at=1727406446, filename='ChatGLM3模型介绍.pdf', object='file', purpose='assistants', status='processed', status_details=None), FileObject(id='file-Kx2k2Pf8biFIjZ48ZaaAcTTv', bytes=6680776, created_at=1727406442, filename='ChatGLM3-6B零基础部署与使用指南.pdf', object='file', purpose='assistants', status='processed', status_details=None), FileObject(id='file-xzF4PlFUcFjYUP5jigQv1s4r', bytes=8137316, created_at=1727406441, filename='AI Agent开发入门.pdf', object='file', purpose='assistants', status='processed', status_details=None), FileObject(id='file-9hkFbPwsbnzltkh6oLdn7pjg', bytes=6680776, created_at=1727406421, filename='ChatGLM3-6B零基础部署与使用指南.pdf', object='file', purpose='assistants', status='processed', status_details=None), FileObject(id='file-FnYQNH15tSho87YotsmigYFi', bytes=8137316, created_at=1727406419, filename='AI Agent开发入门.pdf', object='file', purpose='assistants', status='processed', status_deta

In [16]:
all_file.to_dict()

{'data': [{'id': 'file-qd9jnQQE7v4qJ48fQ8dhgoy0',
   'bytes': 21089141,
   'created_at': 1727406446,
   'filename': 'ChatGLM3模型介绍.pdf',
   'object': 'file',
   'purpose': 'assistants',
   'status': 'processed',
   'status_details': None},
  {'id': 'file-Kx2k2Pf8biFIjZ48ZaaAcTTv',
   'bytes': 6680776,
   'created_at': 1727406442,
   'filename': 'ChatGLM3-6B零基础部署与使用指南.pdf',
   'object': 'file',
   'purpose': 'assistants',
   'status': 'processed',
   'status_details': None},
  {'id': 'file-xzF4PlFUcFjYUP5jigQv1s4r',
   'bytes': 8137316,
   'created_at': 1727406441,
   'filename': 'AI Agent开发入门.pdf',
   'object': 'file',
   'purpose': 'assistants',
   'status': 'processed',
   'status_details': None},
  {'id': 'file-9hkFbPwsbnzltkh6oLdn7pjg',
   'bytes': 6680776,
   'created_at': 1727406421,
   'filename': 'ChatGLM3-6B零基础部署与使用指南.pdf',
   'object': 'file',
   'purpose': 'assistants',
   'status': 'processed',
   'status_details': None},
  {'id': 'file-FnYQNH15tSho87YotsmigYFi',
   'bytes':

In [18]:
all_file.data

[FileObject(id='file-qd9jnQQE7v4qJ48fQ8dhgoy0', bytes=21089141, created_at=1727406446, filename='ChatGLM3模型介绍.pdf', object='file', purpose='assistants', status='processed', status_details=None),
 FileObject(id='file-Kx2k2Pf8biFIjZ48ZaaAcTTv', bytes=6680776, created_at=1727406442, filename='ChatGLM3-6B零基础部署与使用指南.pdf', object='file', purpose='assistants', status='processed', status_details=None),
 FileObject(id='file-xzF4PlFUcFjYUP5jigQv1s4r', bytes=8137316, created_at=1727406441, filename='AI Agent开发入门.pdf', object='file', purpose='assistants', status='processed', status_details=None),
 FileObject(id='file-9hkFbPwsbnzltkh6oLdn7pjg', bytes=6680776, created_at=1727406421, filename='ChatGLM3-6B零基础部署与使用指南.pdf', object='file', purpose='assistants', status='processed', status_details=None),
 FileObject(id='file-FnYQNH15tSho87YotsmigYFi', bytes=8137316, created_at=1727406419, filename='AI Agent开发入门.pdf', object='file', purpose='assistants', status='processed', status_details=None),
 FileObject

&emsp;&emsp;遍历 `all_file.data` 中的所有文件，并打印每个文件的 ID 和文件名，即可匹配出具体的文件信息。代码如下：

In [20]:
for file_id in all_file.data:
    print(f"file_id:{file_id.id} - {file_id.filename}")

file_id:file-qd9jnQQE7v4qJ48fQ8dhgoy0 - ChatGLM3模型介绍.pdf
file_id:file-Kx2k2Pf8biFIjZ48ZaaAcTTv - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-xzF4PlFUcFjYUP5jigQv1s4r - AI Agent开发入门.pdf
file_id:file-9hkFbPwsbnzltkh6oLdn7pjg - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-FnYQNH15tSho87YotsmigYFi - AI Agent开发入门.pdf
file_id:file-OdySxtvdUFHhEM7zrDNzxrwS - 01_大模型应用发展及Agent前沿技术趋势.pdf
file_id:file-ro6JEXv6P9b5rp97A9smrOpL - /mnt/data/sorted_cities_by_temperature.csv
file_id:file-CWkAbmExAbkr1qSJ4FGSoH6W - weather_data_complex.csv
file_id:file-kl4zWwwAfdVHBtWatIBl6LYi - b7c5de5b-7438-4cba-87e7-76350346310b
file_id:file-aqLva69G9BuDQIuUTckz6bxk - weather_data_complex.csv
file_id:file-2zEAXzz8NSry24ZthHgfnCeF - 02_AI Agent应用类型及Function Calling开发实战.pdf
file_id:file-cct6euj7OEk4WpMpasZUZ0LC - 手把手搭建一个GPTs.pdf
file_id:file-7WmUELiFIV6uUwLaMD9D8c39 - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-npyJxWrX6OUavSSSlF3MCVnm - AI Agent开发入门.pdf
file_id:file-FbNTHBNAjifCFaMD7PZbOLmE - 01_大模型应用发展及Agent前沿技术趋势.pdf


- **文件检索**

&emsp;&emsp;检索指定文件，可以通过`files.retrieve()`方法，传入指定的`file id` 即可查看文件详细信息，代码如下：

In [22]:
new_file.id

'file-qd9jnQQE7v4qJ48fQ8dhgoy0'

In [24]:
file_info = client.files.retrieve(
    file_id=new_file.id
)

In [26]:
file_info.to_dict()

{'id': 'file-qd9jnQQE7v4qJ48fQ8dhgoy0',
 'bytes': 21089141,
 'created_at': 1727406446,
 'filename': 'ChatGLM3模型介绍.pdf',
 'object': 'file',
 'purpose': 'assistants',
 'status': 'processed',
 'status_details': None}

- **文件删除**

&emsp;&emsp;最后，我们可以通过`file id`删除已经上传至`OpenAI`服务器的文件，这可以通过`.files.delete()`方法实现。代码如下：

In [28]:
client.files.delete("file-FbNTHBNAjifCFaMD7PZbOLmE")

FileDeleted(id='file-FbNTHBNAjifCFaMD7PZbOLmE', deleted=True, object='file')

&emsp;&emsp;当返回的结果中包含`deleted=True`时，说明已成功删除了该文件。

&emsp;&emsp;文件管理接口的设计比较简洁，也很容易理解，无非是文件的增删等操作。而文件本身并没有太多的意义，但当我们通过接口将本地文件传输到`OpenAI`云服务器时，这个过程会对每一个文件生成一个唯一的`file id`。在使用`File Search`工具时，是通过`file id` 来标识文件，从而达到处理自定义文件数据的目的。

- **Stage 2. 将自定义文件存储至向量数据库**

&emsp;&emsp;**向量数据库，其解决的就是一个问题：更高效的实现搜索（Search）过程。**传统数据库是先存储数据表，然后用查询语句（SQL）进行数据搜索，本质还是基于文本的精确匹配，这种方法对于关键字的搜索非常合适，但对于语义的搜索就非常弱。那么把传统数据库的索引思想引用到向量数据库中，同样是做搜索，在向量数据库的应用场景中就变成了：给定一个查询向量，然后在众多向量中找到最为相似的一些向量返回。这就不再是精确匹配，而是具有一定的模糊性，这就是所谓的最近邻（Nearest Neighbors）问题，而能实现这一点的则称之为【最近邻（搜索）算法】。

<div align=center><img src="https://snowball101.oss-cn-beijing.aliyuncs.com/img/202404181144131.png" width=100%></div>

> 这里以最近邻（搜索）算法举例，帮助没有基础的小伙伴快速理解，更多向量数据库及搜索算法介绍，请看上一期开源大模型精讲课程：《Ch 28 LangChain Retrieval核心模块的Embedding Models与Vector stores》

&emsp;&emsp;由此可见，**向量数据库的作用是可以使`File Search`工具能够搜索文件。**那么我们所需要做的第一件事就是：将上一步上传至`OpenAI`服务器的文件存储到向量数据库中。这涉及两个具体的操作步骤，其一是创建一个向量数据库，其二是将文件添加到刚创建的这个向量数据库中。而这一个过程，我们可以通过`.beta.vector_stores.create()`方法进行快速构建，其参数如下所示：

| 参数名             | 类型                | 可选性   | 默认值 | 描述                                                                                             |
|--------------------|---------------------|----------|--------|--------------------------------------------------------------------------------------------------|
| file_ids           | array               | 可选     | -      | 向量存储应使用的文件 ID 列表。对像 `file_search` 这样的工具非常有用，可以访问文件。              |
| name               | string              | 可选     | -      | 向量存储的名称。                                                                                  |
| expires_after      | object              | 可选     | -      | 向量存储的过期策略。                                                                             |
| ├── anchor         | string              | 必需     | -      | 过期策略适用的锚时间戳。支持的锚点：last_active_at。                                          |
| └── days           | integer             | 必需     | -      | 从锚时间开始，向量存储将在多少天后过期。                                                        |
| chunking_strategy  | object              | 可选     | -      | 用于对文件进行分块的策略。如果未设置，将使用自动策略。仅在 `file_ids` 非空时适用。               |
| ├── type           | string              | 必需     | -      | 始终为 auto（自动）或 static（静态）。                                                           |
| └── static         | object              | 必需     | -      |                                                                                                   |
|     ├── max_chunk_size_tokens | integer     | 必需     | 800    | 每个块的最大令牌数。最小值为 100，最大值为 4096。                                              |
|     └── chunk_overlap_tokens   | integer     | 必需     | 400    | 块之间重叠的令牌数。重叠不得超过 max_chunk_size_tokens 的一半。                                |
| metadata           | map                 | 可选     | -      | 可附加到对象的 16 个键值对集合，便于以结构化格式存储附加信息。键最多 64 个字符，值最多 512 个字符。 |

&emsp;&emsp;`file_ids` 是通过 `file id` 标识的具体文件，因此对于每个向量数据库，我们可以灵活选择存储和处理哪些文件。要确定具体的文件，首先需要明确每个文件的 `file id`。

In [30]:
all_file = client.files.list()

In [32]:
for file_id in all_file.data:
    print(f"file_id:{file_id.id} - {file_id.filename}")

file_id:file-qd9jnQQE7v4qJ48fQ8dhgoy0 - ChatGLM3模型介绍.pdf
file_id:file-Kx2k2Pf8biFIjZ48ZaaAcTTv - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-xzF4PlFUcFjYUP5jigQv1s4r - AI Agent开发入门.pdf
file_id:file-9hkFbPwsbnzltkh6oLdn7pjg - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-FnYQNH15tSho87YotsmigYFi - AI Agent开发入门.pdf
file_id:file-OdySxtvdUFHhEM7zrDNzxrwS - 01_大模型应用发展及Agent前沿技术趋势.pdf
file_id:file-ro6JEXv6P9b5rp97A9smrOpL - /mnt/data/sorted_cities_by_temperature.csv
file_id:file-CWkAbmExAbkr1qSJ4FGSoH6W - weather_data_complex.csv
file_id:file-kl4zWwwAfdVHBtWatIBl6LYi - b7c5de5b-7438-4cba-87e7-76350346310b
file_id:file-aqLva69G9BuDQIuUTckz6bxk - weather_data_complex.csv
file_id:file-2zEAXzz8NSry24ZthHgfnCeF - 02_AI Agent应用类型及Function Calling开发实战.pdf
file_id:file-cct6euj7OEk4WpMpasZUZ0LC - 手把手搭建一个GPTs.pdf
file_id:file-7WmUELiFIV6uUwLaMD9D8c39 - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-npyJxWrX6OUavSSSlF3MCVnm - AI Agent开发入门.pdf


- **创建向量数据库**

&emsp;&emsp;在`Assistant API`的设计下，**将文件添加向量数据库时会自动解析、分块、嵌入文件并将其存储**，所以默认的`chunking_strategy`字段中的`type`参数是`auto`，`max_chunk_size_tokens`是800，` chunk_overlap_tokens`是400。除此之外，每个向量数据库最多可容纳 10,000 个文件，同时对于收费情况：有 1 GB 的免费额度。超出后，使用费用为 0.10 美元/GB/天。如果采用默认的分块策略，代码如下所示：

In [34]:
vector_store_1 = client.beta.vector_stores.create(
  name="llms_vector_store",
  file_ids=['file-qd9jnQQE7v4qJ48fQ8dhgoy0', 'file-xzF4PlFUcFjYUP5jigQv1s4r','file-OdySxtvdUFHhEM7zrDNzxrwS']
)

In [36]:
vector_store_1.to_dict()

{'id': 'vs_Rx6LH2x4vz2vyBDmoJncqcRj',
 'created_at': 1727406766,
 'file_counts': {'cancelled': 0,
  'completed': 0,
  'failed': 0,
  'in_progress': 3,
  'total': 3},
 'last_active_at': 1727406766,
 'metadata': {},
 'name': 'llms_vector_store',
 'object': 'vector_store',
 'status': 'in_progress',
 'usage_bytes': 0,
 'expires_after': None,
 'expires_at': None}

&emsp;&emsp;除了默认切分策略外，还可以根据数据情况自定义，那么需要修改的参数是将`chunking_strategy`参数中`type`参数改为`static`，并且指定`max_chunk_size_tokens`和`chunk_overlap_tokens`参数的数值，代码如下所示：

In [38]:
vector_store_2 = client.beta.vector_stores.create(
    name="llms_vector_store_2",  
    file_ids=['file-2zEAXzz8NSry24ZthHgfnCeF'],
    chunking_strategy={
        "type": "static",  # 明确使用 static 切分策略
        "static": {  # 在 static 键下提供具体的切分参数
            "max_chunk_size_tokens": 1000,  # 自定义的最大切分大小
            "chunk_overlap_tokens": 500  # 自定义的重叠大小，注意：Chunk_overlap_tokens必须小于或等于max_chunk_size_tokens / 2
        }
    }
)

In [40]:
vector_store_2.to_dict()

{'id': 'vs_Q2YAwM7TLVJ9yymhiOF7sKws',
 'created_at': 1727406825,
 'file_counts': {'cancelled': 0,
  'completed': 0,
  'failed': 0,
  'in_progress': 1,
  'total': 1},
 'last_active_at': 1727406825,
 'metadata': {},
 'name': 'llms_vector_store_2',
 'object': 'vector_store',
 'status': 'in_progress',
 'usage_bytes': 0,
 'expires_after': None,
 'expires_at': None}

&emsp;&emsp;从结果上看，对于每个文件存储至向量数据库时所应用的切分策略，直接在`vector_store`对象中是看不到的，这是因为**切分策略是和具体的文件做绑定的，而一个向量数据库中可以存储多个文件。每个文件都可以有自己在存储时定义的切分策略**，所以这个切分策略和向量数据库对象没有任何关系。在构建向量数据库的时候，`.beta.vector_stores.create`的本质是创建一个新的数据库，我们可以在创建的时候直接通过`file_ids`参数传入多个文件。但是当该向量数据库已经存在的时候，如果想基于这个向量数据库进行文件的`增删`操作，则需要借助`.beta.vector_stores.files()`方法。

- **查询向量数据库**

&emsp;&emsp;向量数据库在`Assistant API`中，可以使用`.beta.vector_stores.list()`方法查看所有已创建的向量数据库列表，代码如下所示：

In [42]:
vector_stores = client.beta.vector_stores.list()

In [44]:
vector_stores.data

[VectorStore(id='vs_Q2YAwM7TLVJ9yymhiOF7sKws', created_at=1727406825, file_counts=FileCounts(cancelled=0, completed=1, failed=0, in_progress=0, total=1), last_active_at=1727406825, metadata={}, name='llms_vector_store_2', object='vector_store', status='completed', usage_bytes=145603, expires_after=None, expires_at=None),
 VectorStore(id='vs_Rx6LH2x4vz2vyBDmoJncqcRj', created_at=1727406766, file_counts=FileCounts(cancelled=0, completed=3, failed=0, in_progress=0, total=3), last_active_at=1727406766, metadata={}, name='llms_vector_store', object='vector_store', status='completed', usage_bytes=91069, expires_after=None, expires_at=None),
 VectorStore(id='vs_iZ0Bb7hXEt4ZqXVfjmonj0rD', created_at=1727339702, file_counts=FileCounts(cancelled=0, completed=1, failed=0, in_progress=0, total=1), last_active_at=1727339703, metadata={}, name=None, object='vector_store', status='completed', usage_bytes=164035, expires_after=ExpiresAfter(anchor='last_active_at', days=7), expires_at=1727944503),
 Vec

In [46]:
for vector_id in vector_stores.data:
    print(f"vector_id:{vector_id.id} - {vector_id.name}")

vector_id:vs_Q2YAwM7TLVJ9yymhiOF7sKws - llms_vector_store_2
vector_id:vs_Rx6LH2x4vz2vyBDmoJncqcRj - llms_vector_store
vector_id:vs_iZ0Bb7hXEt4ZqXVfjmonj0rD - None
vector_id:vs_xG4WKKC081vV7CH6kueOCDH0 - None
vector_id:vs_HhM5j4p2KfyQRGZjmxVK0hHa - None
vector_id:vs_dCdjgb9C9KbM1Iy7XdetBuZq - None
vector_id:vs_C5qF4b1p3JNaHdgTa20qBEw6 - None
vector_id:vs_XHzh4cc3Sucl2l2VPwg43YnZ - test_kb_020
vector_id:vs_lI6NLqSDJyFC18PDKzLjAoeD - test_kb_010


- **向已存在向量数据库追加文件**

&emsp;&emsp;首先对于向指定的向量数据库添加某个文件的时候，使用的方法是`.beta.vector_stores.files.create()`，需要传入的参数是 向量数据库的 `id` 及 新增加文件的 `id` ，代码如下所示：（**注意：目前仅支持单次最多增加一个文件**）

In [48]:
vector_store_file = client.beta.vector_stores.files.create(
  vector_store_id="vs_Q2YAwM7TLVJ9yymhiOF7sKws",  # vector_store_2 对象的id
  file_id="file-9hkFbPwsbnzltkh6oLdn7pjg"   # 追加一个新的文件：ChatGLM3-6B零基础部署与使用指南.pdf
)

In [50]:
vector_store_file.to_dict()

{'id': 'file-9hkFbPwsbnzltkh6oLdn7pjg',
 'created_at': 1727406896,
 'last_error': None,
 'object': 'vector_store.file',
 'status': 'in_progress',
 'usage_bytes': 0,
 'vector_store_id': 'vs_Q2YAwM7TLVJ9yymhiOF7sKws',
 'chunking_strategy': {'static': {'chunk_overlap_tokens': 400,
   'max_chunk_size_tokens': 800},
  'type': 'static'}}

&emsp;&emsp;如上结果所示，当通过`.vector_stores.files.create()`方法的返回值中可以包含具体的切分策略。（这里是默认值）

&emsp;&emsp;而如果想单次同时增加多个文件，则需要用到`Assistant API`的批处理结果，即`.beta.vector_stores.file_batches.create()`，在这个接口下，可以在`file_ids`字段中以列表的形式传递多个`file id`。代码如下所示：

In [52]:
for vector_id in vector_stores.data:
    print(f"vector_id:{vector_id.id} - {vector_id.name}")

vector_id:vs_Q2YAwM7TLVJ9yymhiOF7sKws - llms_vector_store_2
vector_id:vs_Rx6LH2x4vz2vyBDmoJncqcRj - llms_vector_store
vector_id:vs_iZ0Bb7hXEt4ZqXVfjmonj0rD - None
vector_id:vs_xG4WKKC081vV7CH6kueOCDH0 - None
vector_id:vs_HhM5j4p2KfyQRGZjmxVK0hHa - None
vector_id:vs_dCdjgb9C9KbM1Iy7XdetBuZq - None
vector_id:vs_C5qF4b1p3JNaHdgTa20qBEw6 - None
vector_id:vs_XHzh4cc3Sucl2l2VPwg43YnZ - test_kb_020
vector_id:vs_lI6NLqSDJyFC18PDKzLjAoeD - test_kb_010


In [54]:
for file_id in all_file.data:
    print(f"file_id:{file_id.id} - {file_id.filename}")

file_id:file-qd9jnQQE7v4qJ48fQ8dhgoy0 - ChatGLM3模型介绍.pdf
file_id:file-Kx2k2Pf8biFIjZ48ZaaAcTTv - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-xzF4PlFUcFjYUP5jigQv1s4r - AI Agent开发入门.pdf
file_id:file-9hkFbPwsbnzltkh6oLdn7pjg - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-FnYQNH15tSho87YotsmigYFi - AI Agent开发入门.pdf
file_id:file-OdySxtvdUFHhEM7zrDNzxrwS - 01_大模型应用发展及Agent前沿技术趋势.pdf
file_id:file-ro6JEXv6P9b5rp97A9smrOpL - /mnt/data/sorted_cities_by_temperature.csv
file_id:file-CWkAbmExAbkr1qSJ4FGSoH6W - weather_data_complex.csv
file_id:file-kl4zWwwAfdVHBtWatIBl6LYi - b7c5de5b-7438-4cba-87e7-76350346310b
file_id:file-aqLva69G9BuDQIuUTckz6bxk - weather_data_complex.csv
file_id:file-2zEAXzz8NSry24ZthHgfnCeF - 02_AI Agent应用类型及Function Calling开发实战.pdf
file_id:file-cct6euj7OEk4WpMpasZUZ0LC - 手把手搭建一个GPTs.pdf
file_id:file-7WmUELiFIV6uUwLaMD9D8c39 - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-npyJxWrX6OUavSSSlF3MCVnm - AI Agent开发入门.pdf


In [58]:
vector_store_file_batch = client.beta.vector_stores.file_batches.create(
  vector_store_id="vs_Q2YAwM7TLVJ9yymhiOF7sKws",
  file_ids=["file-OdySxtvdUFHhEM7zrDNzxrwS", "file-cct6euj7OEk4WpMpasZUZ0LC"]
)

vector_store_file_batch.to_dict()

{'id': 'vsfb_da8915144e6144e582d3618dc5756265',
 'created_at': 1727406976,
 'file_counts': {'cancelled': 0,
  'completed': 0,
  'failed': 0,
  'in_progress': 2,
  'total': 2},
 'object': 'vector_store.file_batch',
 'status': 'in_progress',
 'vector_store_id': 'vs_Q2YAwM7TLVJ9yymhiOF7sKws'}

- **在指定向量数据库中检索指定文件的详细信息**

&emsp;&emsp;如果想要查看指定文件在存储时应用的是什么切分策略，则可以借助`.beta.vector_stores.files.retrieve()`方法查看，代码如下：

In [62]:
vector_store_file = client.beta.vector_stores.files.retrieve(
    vector_store_id="vs_Q2YAwM7TLVJ9yymhiOF7sKws",
    file_id="file-OdySxtvdUFHhEM7zrDNzxrwS"  # AI Agent开发入门.pdf
)

vector_store_file.to_dict()

{'id': 'file-OdySxtvdUFHhEM7zrDNzxrwS',
 'created_at': 1727406976,
 'last_error': None,
 'object': 'vector_store.file',
 'status': 'completed',
 'usage_bytes': 40013,
 'vector_store_id': 'vs_Q2YAwM7TLVJ9yymhiOF7sKws',
 'chunking_strategy': {'static': {'chunk_overlap_tokens': 400,
   'max_chunk_size_tokens': 800},
  'type': 'static'}}

&emsp;&emsp;想查看某个向量数据中的全部文件存储信息，则需要使用批处理接口`.beta.vector_stores.file_batches.list_files()`。代码如下：

In [64]:
vector_store_files = client.beta.vector_stores.file_batches.list_files(
  vector_store_id="vs_Q2YAwM7TLVJ9yymhiOF7sKws",
  batch_id="vsfb_da8915144e6144e582d3618dc5756265"
)

vector_store_files.to_dict()

{'data': [{'id': 'file-cct6euj7OEk4WpMpasZUZ0LC',
   'created_at': 1727406976,
   'last_error': None,
   'object': 'vector_store.file',
   'status': 'completed',
   'vector_store_id': 'vs_Q2YAwM7TLVJ9yymhiOF7sKws'},
  {'id': 'file-OdySxtvdUFHhEM7zrDNzxrwS',
   'created_at': 1727406976,
   'last_error': None,
   'object': 'vector_store.file',
   'status': 'completed',
   'vector_store_id': 'vs_Q2YAwM7TLVJ9yymhiOF7sKws'}],
 'object': 'list',
 'first_id': 'file-cct6euj7OEk4WpMpasZUZ0LC',
 'last_id': 'file-OdySxtvdUFHhEM7zrDNzxrwS',
 'has_more': False}

- **在已存在向量数据库中删除指定文件**

&emsp;&emsp;有增加文件功能，当然也会有删除文件功能。`Assistant API`可以通过如下两种方式从向量数据库中删除这些文件：

1. 选定某个向量数据库，在其内部删除
2. 通过删除底层文件对象（这会导致所有使用该文件的服务或工具，如`vector_store`、`File Search`等配置中删除该文件

&emsp;&emsp;如果想在某个已知的向量数据库中删除具体的某个文件，可以通过`.beta.vector_stores.files.delete()`方法来实现。代码如下所示：（注意：目前仅支持单次最多删除一个文件）

In [217]:
from openai import OpenAI
client = OpenAI()

deleted_vector_store_file = client.beta.vector_stores.files.delete(
    vector_store_id="vs_bx5MFra1VDKIO8Ln3Wt5QFGa",
    file_id="file-en7QEv1fQYEOWKnui5Cli0Mu"
)


deleted_vector_store_file

VectorStoreFileDeleted(id='file-en7QEv1fQYEOWKnui5Cli0Mu', deleted=True, object='vector_store.file.deleted')

&emsp;&emsp;当返回的结果中包含`deleted=True`时，说明已成功在`id`为`vs_bx5MFra1VDKIO8Ln3Wt5QFGa`的向量数据库中删除了该文件。

- **检索向量数据库**

&emsp;&emsp;掌握了向量数据库内文件的相关操作后，向量数据库对象也可以分别通过`.beta.vector_stores.retrieve()` 和 `.beta.vector_stores.update()` 检索和更新向量数据库信息，比如想选定某个向量数据库的时候，代码如下：

In [52]:
vector_store = client.beta.vector_stores.retrieve(
  vector_store_id="vs_dab0nsKPPlIRuM45yfd70wg0"
)

vector_store.to_dict()

{'id': 'vs_dab0nsKPPlIRuM45yfd70wg0',
 'created_at': 1727336015,
 'file_counts': {'cancelled': 0,
  'completed': 2,
  'failed': 0,
  'in_progress': 0,
  'total': 2},
 'last_active_at': 1727336015,
 'metadata': {},
 'name': 'test_kb_002',
 'object': 'vector_store',
 'status': 'completed',
 'usage_bytes': 71410,
 'expires_after': None,
 'expires_at': None}

- **更新向量数据库**

&emsp;&emsp;更新向量数据库的名称，代码如下：

In [54]:
vector_store = client.beta.vector_stores.update(
  vector_store_id="vs_ztjSGgwqPnWxJsKcyJUnVmK1",
  name="test_kb_110"
)

vector_store.to_dict()

{'id': 'vs_ztjSGgwqPnWxJsKcyJUnVmK1',
 'created_at': 1727323313,
 'file_counts': {'cancelled': 0,
  'completed': 0,
  'failed': 0,
  'in_progress': 0,
  'total': 0},
 'last_active_at': 1727330051,
 'metadata': {},
 'name': 'test_kb_110',
 'object': 'vector_store',
 'status': 'completed',
 'usage_bytes': 0,
 'expires_after': None,
 'expires_at': None}

- **删除向量数据库**

&emsp;&emsp;如上所示，向量数据库的名称已经由`test_kb_1`更新为`test_kb_110`。最后，如果想要删除整个向量数据库，可以通过`.beta.vector_stores.delete()`方法实现，在调用该方法时只需要传入具体的`vector_id`。代码如下所示：

In [65]:
deleted_vector_store = client.beta.vector_stores.delete(
  vector_store_id="vs_ztjSGgwqPnWxJsKcyJUnVmK1"
)

deleted_vector_store.to_dict()

{'id': 'vs_ztjSGgwqPnWxJsKcyJUnVmK1',
 'deleted': True,
 'object': 'vector_store.deleted'}

&emsp;&emsp;当返回的结果中包含`deleted=True`时，说明已成功删除了该向量数据库。

&emsp;&emsp;以上就是`Assistant API`中关于文件和向量数据库的接口应用方法，在这个处理过程中，需要大家理解文件和向量数据库之间的关系及各个方法的使用细节。通过这种灵活的配置，我们可以轻松的构建`Indexing`的完整处理过程，强烈建议大家在创建代理之前完全处理好向量数据库及其对应的文件操作，以此确保向量数据库中的所有数据都是可搜索的。

&emsp;&emsp;在准备好可用于`File Search` 工具搜索的知识库后，我们接下来就可以构建代理流程了。

- **Stage 3. 创建 Assistant 对象**

&emsp;&emsp;上一节课我们介绍了创建`Assistant`对象时必须传递的必填参数，即`model`，同时建议大家将`name`（名称）和`instructions`（指令）参数也视为必填项，以确保智能助手能够有效地完成其任务。而如果想让`Assistant`对象进一步具备工具的调用能力的高阶能力，则需要借助如下参数：

> Create assistant：https://platform.openai.com/docs/api-reference/assistants/createAssistant

| 参数名             | 类型                | 可选性   | 默认值 | 描述                                                                                             |
|--------------------|---------------------|----------|--------|--------------------------------------------------------------------------------------------------|
| tools              | array               | 可选     | []     | 启用在助手上的工具列表。每个助手最多可以有 128 个工具。工具类型包括：code_interpreter、file_search 和 function。 |
| ├── Code interpreter tool | object        | 可选     | -      | 代码解释器工具。                                                                                 |
| ├── FileSearch tool      | object        | 可选     | -      | 文件搜索工具。                                                                                   |
| └── Function tool        | object        | 可选     | -      | 功能工具。                                                                                       |
| tool_resources      | object or null      | 可选     | -      | 助手工具使用的资源集合。资源与工具类型相关。例如，代码解释器工具需要文件 ID 列表，而文件搜索工具需要向量存储 ID 列表。 |
| ├── code_interpreter | object               | 可选     | -      | 代码解释器相关资源。                                                                             |
| └── file_search      | object               | 可选     | -      | 文件搜索相关资源。                                                                              |


&emsp;&emsp;使用`tools`参数可以让 `Assistant` 最多访问 128 个工具。这包含`OpenAI` 内置的工具`Code_interpreter`和`File_Search` ，以及通过`Function calling`规范调用的第三方自定义工具。基于这种设定，这里我们创建一个启用文件搜索的`Assistant`（助手）对象，代码如下：

In [66]:
assistant = client.beta.assistants.create(
    name="Large language model technical assistant",   # 大语言模型技术助理
    instructions="You are a professional large model technician and apply your basic knowledge to answer large model related questions", # 你是一位专业的大模型技术人员，运用你的基础知识来回答大模型相关的问题
    model="gpt-4o-mini-2024-07-18",
    tools=[
        {"type": "file_search"}
    ],
)

&emsp;&emsp;如上代码所示，如果想让`Assistant`对象具备访问`File Search`工具的能力，需要使用`tools`参数来明确的指定工具的类型。而当启用`file_search`工具后，`Assistant`对象实例会根据用户消息决定何时检索内容。


In [68]:
assistant.to_dict()

{'id': 'asst_zZ7EvPZdqHtDmlS5pozmJIqJ',
 'created_at': 1727407121,
 'description': None,
 'instructions': 'You are a professional large model technician and apply your basic knowledge to answer large model related questions',
 'metadata': {},
 'model': 'gpt-4o-mini-2024-07-18',
 'name': 'Large language model technical assistant',
 'object': 'assistant',
 'tools': [{'type': 'file_search',
   'file_search': {'ranking_options': {'ranker': 'default_2024_08_21',
     'score_threshold': 0.0}}}],
 'response_format': 'auto',
 'temperature': 1.0,
 'tool_resources': {'file_search': {'vector_store_ids': []}},
 'top_p': 1.0}

&emsp;&emsp;从返回值中的`tools`字段中，`file_search`中`ranking_options`用于定义文件搜索的排序策略。`ranker` 指定的是检索使用的排名算法，`score_threshold` 是一个数值阈值，用于过滤搜索结果，只有得分高于此阈值的文件才会被返回，当前设置为 0.0，表示没有最低得分限制，所有文件都将被考虑。

- **Stage 4. 创建 Thread 对象**

&emsp;接下来构建`Thread`对象。这里我们需要先看一下`Thread`对象接口中关于使用外部工具的相关参数：👇

| 参数名                     | 类型                | 可选性   | 默认值 | 描述                                                                                             |
|----------------------------|---------------------|----------|--------|--------------------------------------------------------------------------------------------------|
| tool_resources              | object or null      | 可选     | -      | 在此线程中为助手工具提供的一组资源。这些资源与工具类型相关。                                      |
| ├── code_interpreter        | object              | 可选     | -      | 代码解释器相关资源。                                                                               |
| │   └── file_ids            | array               | 可选     | []     | 提供给代码解释器工具的文件 ID 列表。最多可关联 20 个文件。                                       |
| └── file_search             | object              | 可选     | -      | 文件搜索相关资源。                                                                                |
|     ├── vector_store_ids     | array              | 可选     | -      | 附加到此线程的向量存储 ID 列表。最多可关联 1 个向量存储。                                        |
|     └── vector_stores        | array              | 可选     | -      | 用于创建带有 file_ids 的向量存储并附加到此线程的助手。最多可关联 1 个向量存储。                 |
|         └── file_ids         | array              | 可选     | -      | 要添加到向量存储的文件 ID 列表。最多可包含 10000 个文件。                                       |
|         └── chunking_strategy | object            | 可选     | -      | 用于对文件进行分块的策略。如果未设置，将使用自动策略。                                           |
|         └── metadata         | map                | 可选     | -      | 可附加到向量存储的一组最多 16 个键值对，有助于以结构化格式存储附加信息。键最长 64 个字符，值最长 512 个字符。 |


&emsp;&emsp;从`Thread`对象接口提供的参数看，也存在指定外部工具的`tool_resources`参数。这也就意味着`Assistant`对象与`Thread`对象都可以指定外部工具，`Assistant API`为什么要这样设计呢？我们就需要分情况看一下。

&emsp;&emsp;首先，为了直观的测试在`Assistant`对象和`Thread`对象中定义`File Search`工具的区别，我们再建立一个用于回答机器学习问题的向量数据库。

In [74]:
# 准备上传文件
file_paths = [
    "./data/02_ML/集成学习公开课01~02 - Bagging与随机森林（B站公开课）.pdf",
    "./data/02_ML/集成学习公开课03 - AdaBoost（B站节选版）.pdf",
    "./data/02_ML/集成学习公开课04~06 GBDT (B站节选版).pdf"
]

# 遍历文件路径并上传文件
uploaded_files = []
for path in file_paths:
    with open(path, "rb") as file:
        new_file = client.files.create(
            file=file,
            purpose="assistants"
        )
        uploaded_files.append(new_file)

# 打印上传结果
for uploaded_file in uploaded_files:
    print(uploaded_file)

FileObject(id='file-FuFVpAAn0OgzgMHu9PbhC3ss', bytes=543192, created_at=1727407732, filename='集成学习公开课01~02 - Bagging与随机森林（B站公开课）.pdf', object='file', purpose='assistants', status='processed', status_details=None)
FileObject(id='file-FpLuyrIZouDVbT9IztgwbpDj', bytes=873629, created_at=1727407733, filename='集成学习公开课03 - AdaBoost（B站节选版）.pdf', object='file', purpose='assistants', status='processed', status_details=None)
FileObject(id='file-F5eWFYbb4pufLcyvAnEVb2E6', bytes=665313, created_at=1727407733, filename='集成学习公开课04~06 GBDT (B站节选版).pdf', object='file', purpose='assistants', status='processed', status_details=None)


In [76]:
all_file = client.files.list()

for file_id in all_file.data:
    print(f"file_id:{file_id.id} - {file_id.filename}")

file_id:file-F5eWFYbb4pufLcyvAnEVb2E6 - 集成学习公开课04~06 GBDT (B站节选版).pdf
file_id:file-FpLuyrIZouDVbT9IztgwbpDj - 集成学习公开课03 - AdaBoost（B站节选版）.pdf
file_id:file-FuFVpAAn0OgzgMHu9PbhC3ss - 集成学习公开课01~02 - Bagging与随机森林（B站公开课）.pdf
file_id:file-qd9jnQQE7v4qJ48fQ8dhgoy0 - ChatGLM3模型介绍.pdf
file_id:file-Kx2k2Pf8biFIjZ48ZaaAcTTv - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-xzF4PlFUcFjYUP5jigQv1s4r - AI Agent开发入门.pdf
file_id:file-9hkFbPwsbnzltkh6oLdn7pjg - ChatGLM3-6B零基础部署与使用指南.pdf
file_id:file-FnYQNH15tSho87YotsmigYFi - AI Agent开发入门.pdf
file_id:file-OdySxtvdUFHhEM7zrDNzxrwS - 01_大模型应用发展及Agent前沿技术趋势.pdf
file_id:file-ro6JEXv6P9b5rp97A9smrOpL - /mnt/data/sorted_cities_by_temperature.csv
file_id:file-CWkAbmExAbkr1qSJ4FGSoH6W - weather_data_complex.csv
file_id:file-kl4zWwwAfdVHBtWatIBl6LYi - b7c5de5b-7438-4cba-87e7-76350346310b
file_id:file-aqLva69G9BuDQIuUTckz6bxk - weather_data_complex.csv
file_id:file-2zEAXzz8NSry24ZthHgfnCeF - 02_AI Agent应用类型及Function Calling开发实战.pdf
file_id:file-cct6euj7OEk4WpMpasZUZ0LC 

In [78]:
# 创建一个用于机器学习基础知识问答的知识库
vector_store_4 = client.beta.vector_stores.create(
  name="ml_vector_store",
  file_ids=['file-F5eWFYbb4pufLcyvAnEVb2E6', 'file-FpLuyrIZouDVbT9IztgwbpDj','file-FuFVpAAn0OgzgMHu9PbhC3ss']
)

In [80]:
vector_store_4.to_dict()

{'id': 'vs_ByRujrqB8yUYO2ZwtEH8zA4J',
 'created_at': 1727407871,
 'file_counts': {'cancelled': 0,
  'completed': 0,
  'failed': 0,
  'in_progress': 3,
  'total': 3},
 'last_active_at': 1727407871,
 'metadata': {},
 'name': 'ml_vector_store',
 'object': 'vector_store',
 'status': 'in_progress',
 'usage_bytes': 0,
 'expires_after': None,
 'expires_at': None}

In [82]:
vector_stores = client.beta.vector_stores.list()

for vector_id in vector_stores.data:
    print(f"vector_id:{vector_id.id} - {vector_id.name}")

vector_id:vs_ByRujrqB8yUYO2ZwtEH8zA4J - ml_vector_store
vector_id:vs_Q2YAwM7TLVJ9yymhiOF7sKws - llms_vector_store_2
vector_id:vs_Rx6LH2x4vz2vyBDmoJncqcRj - llms_vector_store
vector_id:vs_iZ0Bb7hXEt4ZqXVfjmonj0rD - None
vector_id:vs_xG4WKKC081vV7CH6kueOCDH0 - None
vector_id:vs_HhM5j4p2KfyQRGZjmxVK0hHa - None
vector_id:vs_dCdjgb9C9KbM1Iy7XdetBuZq - None
vector_id:vs_C5qF4b1p3JNaHdgTa20qBEw6 - None
vector_id:vs_XHzh4cc3Sucl2l2VPwg43YnZ - test_kb_020
vector_id:vs_lI6NLqSDJyFC18PDKzLjAoeD - test_kb_010


- **情况一：仅在`Assistant`对象中指定`File Search`工具，并且添加具体的向量数据库ID**

&emsp;&emsp;这里容易产生混淆但需要大家明确注意的一点：**虽然`vector_store_ids`参数要求传入的数据类型是列表，但仅可指定一个向量数据库的`id`，指定多个程序会直接报错。** 完整对话过程代码如下：

In [87]:
# Step 1. 创建一个新的 assistant 对象实例
assistant = client.beta.assistants.create(
    name="Large language model technical assistant",   # 大语言模型技术助理
    instructions="You are a professional large model technician and apply your basic knowledge to answer large model related questions", # 你是一位专业的大模型技术人员，运用你的基础知识来回答大模型相关的问题
    model="gpt-4o-mini-2024-07-18",
    tools=[
        {"type": "file_search"}
    ],
    tool_resources={"file_search": {"vector_store_ids": ["vs_Rx6LH2x4vz2vyBDmoJncqcRj"]}},   # 这里选择存储大模型基础知识的向量数据库id
) 


# Step 2. 创建一个新的 thread 对象实例
thread = client.beta.threads.create()

# Step 3. 将消息追加到 Thread 中
message = client.beta.threads.messages.create(
  thread_id=thread.id,
  role="user",
  content="摘要一下知识库中的内容"
)


# Step 4. 执行 运行， create_and_poll 是`Assistant API`提供的轮询方式，如果使用这种方法，则不需要我们手动轮询监测状态
run = client.beta.threads.runs.create_and_poll(
    thread_id=thread.id, assistant_id=assistant.id
)

# Step 5. 等待run运行结束，提取最新的回复
messages = list(client.beta.threads.messages.list(thread_id=thread.id, run_id=run.id))

message_content = messages[0].content[0].text

print(message_content.value)

知识库的内容主要涵盖了以下几个方面：

1. **大模型的应用与发展趋势**：
   自2023年初，大模型技术在全球范围内受到广泛关注，特别是ChatGPT的问世极大推动了大模型在国内的普及。大模型基于自然语言处理技术，实现了更加自然的人机交互，用以处理各种复杂任务，表现出接近人类的理解与响应能力【4:0†source】。

2. **ChatGLM 3 模型介绍**：
   ChatGLM 3是一个全新的中英文开源大模型，具备极强的性能，尤其在推理效率和多模态任务处理方面有显著提升。其新模式集成了许多高级功能，包括代码解释、网络搜索等，使其在与GPT-4功能上进行竞争。ChatGLM 3模型可以用在更广泛的实际场景中，例如提供实时天气信息、收发邮件等【4:1†source】【4:8†source】。

3. **AI Agent的开发与实战**：
   AI Agent是大语言模型的一个实际应用方向，能够实现任务规划和执行。学习如何开发这样的Agent需要掌握OpenAI的Assistant API、ChatGLM的Function Calling功能等。通过合理使用这些技术，可以构建出高效的智能体，能够在多个领域提供服务，如代码调试、数据分析等【4:2†source】【4:11†source】。

4. **功能迭代与增强**：
   ChatGLM 3进一步增强了Agent的能力，集成了AgentTuning技术，提升了模型在智能规划与执行任务方面的性能。同时，还引入了RAG（检索增强生成技术），使得模型能够实现更为精准的信息检索和生成，对大模型的输出质量有积极影响【4:5†source】【4:18†source】。

5. **技术路线及学习路径**：
   开发AI Agent涉及掌握多种技能，包括GPT系列模型、功能调用及LangChain等多种技术路线的学习。强调建议学习OpenAI的开发范式，随后再深入了解开源模型的开发，增强实战能力【4:10†source】【4:13†source】。

总的来说，知识库涵盖了大模型的主要应用、最新技术进展及其在实际开发中的应用，为开发人员提供了丰富的学习和应用资源。


&emsp;&emsp;从此轮的回复上看，通过在`Assistant`对象中添加`File Seach`工具，并且指定某一个我们已经创建好的向量数据库`id`，就可以在对话过程中正确的检索相关的文件来回答问题，即为一种高效的`RAG`过程。

- **情况二：在`Assistant`对象中不指定`File Search`工具，在`Thread`对象中指定，并且添加具体的向量数据库ID**

&emsp;&emsp;**注意：尽管不在`Assistant`对象中指定`File Search`工具，但是`Assistant`对象中必须有`tools={"type": "file_search"}]`参数，否则程序会报错。**完整对话过程如下：

In [95]:
vector_stores = client.beta.vector_stores.list()

for vector_id in vector_stores.data:
    print(f"vector_id:{vector_id.id} - {vector_id.name}")

vector_id:vs_ByRujrqB8yUYO2ZwtEH8zA4J - ml_vector_store
vector_id:vs_Q2YAwM7TLVJ9yymhiOF7sKws - llms_vector_store_2
vector_id:vs_Rx6LH2x4vz2vyBDmoJncqcRj - llms_vector_store
vector_id:vs_iZ0Bb7hXEt4ZqXVfjmonj0rD - None
vector_id:vs_xG4WKKC081vV7CH6kueOCDH0 - None
vector_id:vs_HhM5j4p2KfyQRGZjmxVK0hHa - None
vector_id:vs_dCdjgb9C9KbM1Iy7XdetBuZq - None
vector_id:vs_C5qF4b1p3JNaHdgTa20qBEw6 - None
vector_id:vs_XHzh4cc3Sucl2l2VPwg43YnZ - test_kb_020
vector_id:vs_lI6NLqSDJyFC18PDKzLjAoeD - test_kb_010


In [99]:
# Step 1. 创建一个新的 assistant 对象实例
assistant = client.beta.assistants.create(
    name="Large language model technical assistant",   # 大语言模型技术助理
    instructions="You are a professional large model technician and apply your basic knowledge to answer large model related questions", # 你是一位专业的大模型技术人员，运用你的基础知识来回答大模型相关的问题
    model="gpt-4o-mini-2024-07-18",
    tools=[
        {"type": "file_search"}
    ],
    # tool_resources={"file_search": {"vector_store_ids": ["vs_XHzh4cc3Sucl2l2VPwg43YnZ"]}},
)


# Step 2. 创建一个新的 thread 对象实例
thread = client.beta.threads.create(
    tool_resources={"file_search": {"vector_store_ids": ["vs_Rx6LH2x4vz2vyBDmoJncqcRj"]}},  # 这里选择存储大模型基础知识的向量数据库id
)

# Step 3. 将消息追加到 Thread 中
message = client.beta.threads.messages.create(
  thread_id=thread.id,
  role="user",
  content="摘要一下知识库中的内容"
)

# Step 4. 执行 运行， create_and_poll 是`Assistant API`提供的轮询方式，如果使用这种方法，则不需要我们手动轮询监测状态
run = client.beta.threads.runs.create_and_poll(
    thread_id=thread.id, assistant_id=assistant.id
)

# Step 5. 等待run运行结束，提取最新的回复
messages = list(client.beta.threads.messages.list(thread_id=thread.id, run_id=run.id))

message_content = messages[0].content[0].text

print(message_content.value)

知识库中包含了关于大模型及其应用的多方面内容，主要可归纳为以下几部分：

1. **大模型的发展历程**：
   - 从2022年底开始，国外对大模型的讨论愈发激烈，而国内的关注点则在于ChatGPT的成功发布，改变了人们对智能应用的传统认知。
   - 大模型具备理解人类情感、解决问题的能力，使其对话交互更具人性化，推动了人工智能技术的热度提高【4:0†source】。

2. **ChatGLM 3 的特性与优势**：
   - ChatGLM 3 模型在多项公开数据集上性能提升超过30%，具有较快的推理速度和降低的推理成本，并能够跨越GPT-4的技术水准。
   - 功能上具备多模态能力、代码解释器、网络搜索等，致力于提升其在AI Agent开发中的应用【4:1†source】【4:7†source】。

3. **AI Agent的开发流程**：
   - 开发AI Agent需要掌握OpenAI的Assistant API，围绕短期和长期记忆管理及本地知识库建设进行构建。学习路径包括掌握基本参数、API使用方法和构建过程【4:2†source】【4:5†source】【4:11†source】。
   - AI Agent的设计思路包括通过推理跟踪去分解复杂任务，使其能够自动执行并根据反馈进行调整。这个过程的有效性在于其能根据上下文信息帮助模型更好地生成回答【4:18†source】。

4. **模型的原生能力与涌现能力**：
   - 原生能力是指模型通过训练获得的解答特定领域问题的能力，而涌现能力则是指在未直接学习某些信息的情况下，基于提供的信息进行推理和类比解决问题的能力【4:16†source】。

5. **未来的应用方向及挑战**：
   - AI Agent将在娱乐、购物、个性化内容推荐及教育等领域展现巨大潜力，但仍需解决数据隐私、安全性及算法优化等挑战【4:19†source】。

这些内容描述了大模型在技术与应用层面的全面发展，突显了AI Agent在日常生活中的潜在影响力和应用价值。


&emsp;&emsp;从输出结果上看，当仅在`Thread`对象中指定`File Search`工具并且传递具体的向量数据库`id`时，也可以实现在对话过程中正确的检索相关的文件来回答问题的效果。

- **情况三：在`Assistant`对象与`Thread`对象中均指定`File Search`工具，但是添加不同的向量数据库ID**

&emsp;&emsp;在这种情况下，在`Assistant`对象中指定要`File Search`工具，`Thread`对象中同样也进行指定，但是知识库并不是同一个，对话过程中会如何进行检索呢？ 代码如下所示：

In [105]:
vector_stores = client.beta.vector_stores.list()

for vector_id in vector_stores.data:
    print(f"vector_id:{vector_id.id} - {vector_id.name}")

vector_id:vs_ByRujrqB8yUYO2ZwtEH8zA4J - ml_vector_store
vector_id:vs_Q2YAwM7TLVJ9yymhiOF7sKws - llms_vector_store_2
vector_id:vs_Rx6LH2x4vz2vyBDmoJncqcRj - llms_vector_store
vector_id:vs_iZ0Bb7hXEt4ZqXVfjmonj0rD - None
vector_id:vs_xG4WKKC081vV7CH6kueOCDH0 - None
vector_id:vs_HhM5j4p2KfyQRGZjmxVK0hHa - None
vector_id:vs_dCdjgb9C9KbM1Iy7XdetBuZq - None
vector_id:vs_C5qF4b1p3JNaHdgTa20qBEw6 - None
vector_id:vs_XHzh4cc3Sucl2l2VPwg43YnZ - test_kb_020
vector_id:vs_lI6NLqSDJyFC18PDKzLjAoeD - test_kb_010


In [119]:
# Step 1. 创建一个新的 assistant 对象实例
assistant = client.beta.assistants.create(
    name="Large language model technical assistant",   # 大语言模型技术助理
    instructions="You are a professional large model technician and apply your basic knowledge to answer large model related questions", # 你是一位专业的大模型技术人员，运用你的基础知识来回答大模型相关的问题
    model="gpt-4o-mini-2024-07-18",
    tools=[
        {"type": "file_search"}
    ],
    tool_resources={"file_search": {"vector_store_ids": ["vs_Rx6LH2x4vz2vyBDmoJncqcRj"]}},   # 这里选择存储大模型基础知识的向量数据库id
)


# Step 2. 创建一个新的 thread 对象实例
thread = client.beta.threads.create(
    tool_resources={"file_search": {"vector_store_ids": ["vs_ByRujrqB8yUYO2ZwtEH8zA4J"]}},  # 这里选择存储机器学习基础知识的向量数据库id
)

# Step 3. 将消息追加到 Thread 中
message = client.beta.threads.messages.create(
  thread_id=thread.id,
  role="user",
  content="请帮我查看一下知识库中都有哪些文件"
)

# Step 4. 执行 运行， create_and_poll 是`Assistant API`提供的轮询方式，如果使用这种方法，则不需要我们手动轮询监测状态
run = client.beta.threads.runs.create_and_poll(
    thread_id=thread.id, assistant_id=assistant.id
)

# Step 5. 等待run运行结束，提取最新的回复
messages = list(client.beta.threads.messages.list(thread_id=thread.id, run_id=run.id))

message_content = messages[0].content[0].text

print(message_content.value)

您在知识库中上传了以下文件：

1. **《集成学习公开课04~06 GBDT (B站节选版).pdf》**
2. **《集成学习公开课03 - AdaBoost（B站节选版）.pdf》**
3. **《集成学习公开课01~02 - Bagging与随机森林（B站节选版）.pdf》**
4. **《AI Agent开发入门.pdf》**
5. **《ChatGLM3模型介绍.pdf》**
6. **《01_大模型应用发展及Agent前沿技术趋势.pdf》**

如果您需要查看某个文件的具体内容或信息，请告诉我！


&emsp;&emsp;从结果上，两个知识库的内容均可以识别到。但是根据我们大量的使用经验，当在`Assistant`对象和`Thread`对象中均指定了`File Search`且传入不同的向量数据库`id`时，其稳定性并不是很高。也就是说很多情况下在检索的时候会造成混淆甚至是检索不到任何内容。所以当前还是建议大家慎用这种方法。

- **情况四：将文件作为消息附件追加到的线程中**

&emsp;&emsp;这种情况指的是：如果已经有一个知识库附加到了一个线程上，还可以把一个新的文件再次追加到现有的线程中。这种操作意味着：当我们在此线程上创建 `Run` 时，`File Search`工具将查询向量数据库种的文件，以及临时添加的这个文件种的内容。而其底层的操作是，会把该传入的文件（如果是新文件）创建一个向量数据库id。代码如下所示：

这里进一步测试两点： 1. 如果是更新线程会不会生效   2. file_id 如果传入的是 vs id， 会不会生效 

In [127]:
vector_stores = client.beta.vector_stores.list()

for vector_id in vector_stores.data:
    print(f"vector_id:{vector_id.id} - {vector_id.name}")

vector_id:vs_ByRujrqB8yUYO2ZwtEH8zA4J - ml_vector_store
vector_id:vs_Q2YAwM7TLVJ9yymhiOF7sKws - llms_vector_store_2
vector_id:vs_Rx6LH2x4vz2vyBDmoJncqcRj - llms_vector_store
vector_id:vs_iZ0Bb7hXEt4ZqXVfjmonj0rD - None
vector_id:vs_xG4WKKC081vV7CH6kueOCDH0 - None
vector_id:vs_HhM5j4p2KfyQRGZjmxVK0hHa - None
vector_id:vs_dCdjgb9C9KbM1Iy7XdetBuZq - None
vector_id:vs_C5qF4b1p3JNaHdgTa20qBEw6 - None
vector_id:vs_XHzh4cc3Sucl2l2VPwg43YnZ - test_kb_020
vector_id:vs_lI6NLqSDJyFC18PDKzLjAoeD - test_kb_010


In [5]:
message_file = client.files.create(
  file=open("./data/02_ML/集成学习公开课01~02 - Bagging与随机森林（B站公开课）.pdf", "rb"), purpose="assistants"
)

In [6]:
message_file.id

'file-TYaIxwZnYhqxeWGeJEyOvcT0'

In [19]:
# Step 1. 创建一个新的 assistant 对象实例
assistant = client.beta.assistants.create(
    name="Large language model technical assistant",   # 大语言模型技术助理
    instructions="You are a professional large model technician and apply your basic knowledge to answer large model related questions", # 你是一位专业的大模型技术人员，运用你的基础知识来回答大模型相关的问题
    model="gpt-4o-mini-2024-07-18",
    tools=[
        {"type": "file_search"}
    ],
    # tool_resources={"file_search": {"vector_store_ids": ["vs_lI6NLqSDJyFC18PDKzLjAoeD"]}},
)

# Step 2. 创建一个新的 thread 对象实例, 并将消息追加到 Thread 中
thread = client.beta.threads.create(
    messages=[
        {
          "role": "user",
          "content": "摘要一下文件的内容",
          # Attach the new file to the message.
          "attachments": [
            { "file_id": message_file.id, "tools": [{"type": "file_search"}] }
          ],
        }
      ],
    tool_resources={"file_search": {"vector_store_ids": ["vs_Rx6LH2x4vz2vyBDmoJncqcRj"]}},    # 这里选择存储机器学习基础知识的向量数据库id
)

# Step 3. 执行 运行， create_and_poll 是`Assistant API`提供的轮询方式，如果使用这种方法，则不需要我们手动轮询监测状态
run = client.beta.threads.runs.create_and_poll(
    thread_id=thread.id, assistant_id=assistant.id
)

# Step 4. 等待run运行结束，提取最新的回复
messages = list(client.beta.threads.messages.list(thread_id=thread.id, run_id=run.id))

message_content = messages[0].content[0].text

print(message_content.value)

根据您上传的文件内容，可以总结如下：

1. **集成学习与随机森林**：集成学习是一种将多个弱分类器结合起来共同解决问题的方法。其中，Bagging（装袋法）用于创建多个随机子集，通过各种分类器的投票或平均结果来提高模型的准确性。随机森林作为集成学习的一个重要应用，通过构建多棵决策树并集成它们的结果，表现出色，具有抗过拟合的能力【4:10†source】。

2. **ChatGLM3模型**：ChatGLM3是清华大学智谱AI推出的开源大语言模型，性能接近于OpenAI的GPT-4。它在许多基准测试中性能提升超过30%，推理速度提高2-3倍，且具备多模态能力和代码执行能力。该模型同样支持手机端和较低硬件的部署【4:2†source】【4:18†source】。

3. **AI Agent的应用**：AI Agent技术正在成为大语言模型应用的热点，ChatGLM3在此方面经过重大升级，显示出显著提升的能力。这些智能体可以理解人类意图，并能够与外部工具进行协作以完成任务，广泛应用于对话系统和处理复杂问题的场景中【4:3†source】。

这个摘要概括了文件的主要内容，包括集成学习的概念及其在随机森林中的应用，ChatGLM3模型的性能与功能，以及AI Agent的应用趋势。如果您需要更详细的信息或特定章节的深入分析，请告诉我！


&emsp;&emsp;从输出结果上看，我们临时追加的`/集成学习公开课01~02 - Bagging与随机森林（B站公开课）.pdf`文件种的内容也能够被检索到。而这种场景，一般用于临时文件的附加功能。

&emsp;&emsp;以上就是构建`File Search`工具用于知识库问答的一些应用细节。最后，我们再来看一下关于响应输出的显示问题。

&emsp;&emsp;在对话/代理流程最终的输出中，会出现`【4:0†source】`等标识。这一部分标识在`Assistant API`的设计中指的是注释，其作用是用来说明检索的来源。注释有两种类型：
- **file_citation ：文件引用由file_search工具创建，并定义对助理上传并用于生成响应的特定文件的引用。**
- **file_path ：文件路径注释由code_interpreter工具创建，并包含对该工具生成的文件的引用。**

&emsp;&emsp;其包含在返回响应对象的`content`数组中的`annotations`字段 。可以通过如下代码进行查看：

In [21]:
annotations = message_content.annotations

annotations

[FileCitationAnnotation(end_index=179, file_citation=FileCitation(file_id='file-Ys950lH4fo5GoEMlT42m51No'), start_index=166, text='【4:10†source】', type='file_citation'),
 FileCitationAnnotation(end_index=322, file_citation=FileCitation(file_id='file-qd9jnQQE7v4qJ48fQ8dhgoy0'), start_index=310, text='【4:2†source】', type='file_citation'),
 FileCitationAnnotation(end_index=335, file_citation=FileCitation(file_id='file-qd9jnQQE7v4qJ48fQ8dhgoy0'), start_index=322, text='【4:18†source】', type='file_citation'),
 FileCitationAnnotation(end_index=476, file_citation=FileCitation(file_id='file-OdySxtvdUFHhEM7zrDNzxrwS'), start_index=464, text='【4:3†source】', type='file_citation')]

In [23]:
message_text_content = messages[0].content[0].text.value

message_text_content

'根据您上传的文件内容，可以总结如下：\n\n1. **集成学习与随机森林**：集成学习是一种将多个弱分类器结合起来共同解决问题的方法。其中，Bagging（装袋法）用于创建多个随机子集，通过各种分类器的投票或平均结果来提高模型的准确性。随机森林作为集成学习的一个重要应用，通过构建多棵决策树并集成它们的结果，表现出色，具有抗过拟合的能力【4:10†source】。\n\n2. **ChatGLM3模型**：ChatGLM3是清华大学智谱AI推出的开源大语言模型，性能接近于OpenAI的GPT-4。它在许多基准测试中性能提升超过30%，推理速度提高2-3倍，且具备多模态能力和代码执行能力。该模型同样支持手机端和较低硬件的部署【4:2†source】【4:18†source】。\n\n3. **AI Agent的应用**：AI Agent技术正在成为大语言模型应用的热点，ChatGLM3在此方面经过重大升级，显示出显著提升的能力。这些智能体可以理解人类意图，并能够与外部工具进行协作以完成任务，广泛应用于对话系统和处理复杂问题的场景中【4:3†source】。\n\n这个摘要概括了文件的主要内容，包括集成学习的概念及其在随机森林中的应用，ChatGLM3模型的性能与功能，以及AI Agent的应用趋势。如果您需要更详细的信息或特定章节的深入分析，请告诉我！'

&emsp;&emsp;而如果不需要文档标识，也可以直接移除相关代码部分：

In [25]:
annotations = message_content.annotations

# 替换文本中的引用
for annotation in annotations:
    message_content.value = message_content.value.replace(annotation.text, "")

# 打印替换后的消息内容
print(message_content.value)

根据您上传的文件内容，可以总结如下：

1. **集成学习与随机森林**：集成学习是一种将多个弱分类器结合起来共同解决问题的方法。其中，Bagging（装袋法）用于创建多个随机子集，通过各种分类器的投票或平均结果来提高模型的准确性。随机森林作为集成学习的一个重要应用，通过构建多棵决策树并集成它们的结果，表现出色，具有抗过拟合的能力。

2. **ChatGLM3模型**：ChatGLM3是清华大学智谱AI推出的开源大语言模型，性能接近于OpenAI的GPT-4。它在许多基准测试中性能提升超过30%，推理速度提高2-3倍，且具备多模态能力和代码执行能力。该模型同样支持手机端和较低硬件的部署。

3. **AI Agent的应用**：AI Agent技术正在成为大语言模型应用的热点，ChatGLM3在此方面经过重大升级，显示出显著提升的能力。这些智能体可以理解人类意图，并能够与外部工具进行协作以完成任务，广泛应用于对话系统和处理复杂问题的场景中。

这个摘要概括了文件的主要内容，包括集成学习的概念及其在随机森林中的应用，ChatGLM3模型的性能与功能，以及AI Agent的应用趋势。如果您需要更详细的信息或特定章节的深入分析，请告诉我！


&emsp;&emsp;如果想找到具体的，可以通过如下代码来进行格式化：

In [27]:
# 创建一个列表来存储注释，以及用于引用替换的字典
annotated_citations = []
citation_replacements = {}

# 遍历注释，检索文件名并存储详细信息
for index, annotation in enumerate(annotations):
    annotation_number = index + 1

    # 使用文件 ID 检索文件名
    file_info = client.files.retrieve(annotation.file_citation.file_id)
    file_name = file_info.filename

    annotation_details = {
        "number": annotation_number,
        "text": f"[{annotation_number}]",  # 引用的编号格式
        "file_name": file_name,  # 文件名
        "start_index": annotation.start_index,  # 起始索引
        "end_index": annotation.end_index,  # 结束索引
    }
    annotated_citations.append(annotation_details)
    citation_replacements[annotation.text] = f"[{annotation_number}]"  # 将原始文本替换为编号

# 用编号标识替换消息文本中的内联引用
for original_text, replacement_text in citation_replacements.items():
    message_text_content = message_text_content.replace(original_text, replacement_text)

In [29]:
# 打印消息文本及注释
print(f"模型回答：{message_text_content}\n")

for annotation in annotated_citations:
    print(f"检索来源：{annotation['number']}")
    print(f"文件名: {annotation['file_name']}")
    print(f"字符位置: {annotation['start_index']} - {annotation['end_index']}\n")  # 添加空行以分隔每条注释

模型回答：根据您上传的文件内容，可以总结如下：

1. **集成学习与随机森林**：集成学习是一种将多个弱分类器结合起来共同解决问题的方法。其中，Bagging（装袋法）用于创建多个随机子集，通过各种分类器的投票或平均结果来提高模型的准确性。随机森林作为集成学习的一个重要应用，通过构建多棵决策树并集成它们的结果，表现出色，具有抗过拟合的能力[1]。

2. **ChatGLM3模型**：ChatGLM3是清华大学智谱AI推出的开源大语言模型，性能接近于OpenAI的GPT-4。它在许多基准测试中性能提升超过30%，推理速度提高2-3倍，且具备多模态能力和代码执行能力。该模型同样支持手机端和较低硬件的部署[2][3]。

3. **AI Agent的应用**：AI Agent技术正在成为大语言模型应用的热点，ChatGLM3在此方面经过重大升级，显示出显著提升的能力。这些智能体可以理解人类意图，并能够与外部工具进行协作以完成任务，广泛应用于对话系统和处理复杂问题的场景中[4]。

这个摘要概括了文件的主要内容，包括集成学习的概念及其在随机森林中的应用，ChatGLM3模型的性能与功能，以及AI Agent的应用趋势。如果您需要更详细的信息或特定章节的深入分析，请告诉我！

检索来源：1
文件名: 集成学习公开课01~02 - Bagging与随机森林（B站公开课）.pdf
字符位置: 166 - 179

检索来源：2
文件名: ChatGLM3模型介绍.pdf
字符位置: 310 - 322

检索来源：3
文件名: ChatGLM3模型介绍.pdf
字符位置: 322 - 335

检索来源：4
文件名: 01_大模型应用发展及Agent前沿技术趋势.pdf
字符位置: 464 - 476



&emsp;&emsp;而如果想要在展示给用户的时候不返回任何注释标识，则可以通过如下代码进行替换：

In [31]:
citations = []

for index, annotation in enumerate(annotations):
    # 替换文本中的引用
    message_content.value = message_content.value.replace(annotation.text, f"[{index}]")
    
    # 获取文件引用并存储文件名
    if file_citation := getattr(annotation, "file_citation", None):
        cited_file = client.files.retrieve(file_citation.file_id)
        citations.append(f"[{index}] {cited_file.filename}")

# 打印替换后的消息内容
print(message_content.value)

根据您上传的文件内容，可以总结如下：

1. **集成学习与随机森林**：集成学习是一种将多个弱分类器结合起来共同解决问题的方法。其中，Bagging（装袋法）用于创建多个随机子集，通过各种分类器的投票或平均结果来提高模型的准确性。随机森林作为集成学习的一个重要应用，通过构建多棵决策树并集成它们的结果，表现出色，具有抗过拟合的能力。

2. **ChatGLM3模型**：ChatGLM3是清华大学智谱AI推出的开源大语言模型，性能接近于OpenAI的GPT-4。它在许多基准测试中性能提升超过30%，推理速度提高2-3倍，且具备多模态能力和代码执行能力。该模型同样支持手机端和较低硬件的部署。

3. **AI Agent的应用**：AI Agent技术正在成为大语言模型应用的热点，ChatGLM3在此方面经过重大升级，显示出显著提升的能力。这些智能体可以理解人类意图，并能够与外部工具进行协作以完成任务，广泛应用于对话系统和处理复杂问题的场景中。

这个摘要概括了文件的主要内容，包括集成学习的概念及其在随机森林中的应用，ChatGLM3模型的性能与功能，以及AI Agent的应用趋势。如果您需要更详细的信息或特定章节的深入分析，请告诉我！


&emsp;&emsp;除此之外，一个小小的细节是：使用线程创建的向量存储默认过期策略为上次活动后 7 天（定义为向量存储最后一次参与运行），当向量存储过期时，该线程上的运行将失败。要解决此问题，我们只需使用相同的文件重新创建一个新的向量存储并将其重新附加到线程即可。代码示例如下：

> 过期策略：https://platform.openai.com/docs/assistants/tools/file-search

```python
all_files = list(client.beta.vector_stores.files.list("vs_expired"))

vector_store = client.beta.vector_stores.create(name="rag-store")
client.beta.threads.update(
    "thread_abc123",
    tool_resources={"file_search": {"vector_store_ids": [vector_store.id]}},
)

for file_batch in chunked(all_files, 100):
    client.beta.vector_stores.file_batches.create_and_poll(
        vector_store_id=vector_store.id, file_ids=[file.id for file in file_batch]
    )
```

&emsp;&emsp;至此，完成上述相关的实践，基本上已经覆盖了`File Search`主要的应用方法和技巧。在使用`File Search`大家一定要明确的是：同一个`Assistant`对象单次最多只能选择一个知识库， 且在运行的时候，最多允许附加一个知识库的信息到线程中。同时我们要说明的是：`File Search`工具用于检索的费用是：每个`Assistant`对象每天 0.20 美元/GB。启用检索工具后，将单个文件 ID 附加到多个助手将产生每个助手每天的费用。例如，如果我们将同一个 1 GB 文件附加到启用了检索工具的两个不同助理（例如，面向客户的助理1和内部员工助理2 ），则需要支付两次存储费 (2 *每天 0.20 美元）。该费用不随从给定助手检索知识的最终用户和线程的数量而变化。

# 2. Assistant API 的 Code Interpreter

&emsp;&emsp;当完全掌握了`File Search`后，我们再来学习`code_interpreter`工具就非常轻松了，其构建和应用方法基本和`File Search`保持一致。唯一不同的就是两个工具的应用场景有很大的差别。

&emsp;&emsp;代码解释器（code_interprete）工具的作用是允许`Assistant`对象在沙盒执行环境中编写和运行 `Python` 代码。该工具可以处理具有不同数据和格式的文件，并生成具有数据和图形图像的文件。主要用于解决具有挑战性的代码和数学问题。同时，当 `Assistant`对象编写的代码无法运行时，它可以通过尝试运行不同的代码来迭代此代码，直到代码执行成功。**通常应用于需要进行数学分析或绘制图表的表格数据，即一些数据分析需求场景**。

&emsp;&emsp;在开始之前，首先要重点和大家说明的是：**代码解释器每次会话收费 0.03 美元。默认情况下，每个会话的有效时间为一小时。即如果我们在同一线程中与代码解释器交互，在一小时的时间内只需支付一个费用。但如果`Assistant`对象在两个不同的线程中同时调用代码解释器，则会创建两个代码解释器会话。**

&emsp;&emsp;接下来，我们尝试进行实践。首先，还是初始化一个`OpenAI`的客户端示例。代码如下所示：

In [46]:
from openai import OpenAI
client = OpenAI()

- **Stage 1. 启用代码解释器**

&emsp;&emsp;与定义`File Search`工具一样，我们需要在 `Assistant` 对象的`tools`参数中传递`code_interpreter`以启用代码解释器。如下代码所示：

In [75]:
assistant = client.beta.assistants.create(
    name="Data Engineer",  # 数据分析师
    instructions="You're a weather data analyst. When asked for data information, write and run code to answer the question",  # 你是一名气象数据分析师。当被问及数据信息时，编写并运行代码来回答问题  model="gpt-4o-mini-2024-07-18",
    tools=[
        {"type": "code_interpreter"}
    ],
    model="gpt-4o-mini-2024-07-18",
)

&emsp;&emsp;通过上述方式定义后，在会话/代理流程中会根据用户请求的性质决定何时在运行中调用代码解释器。而如果想增强其使用的概率，可以通过在构建`Assistant`对象时在`instructions`中的提示来促进，例如明确说明“编写代码来解决这个问题”。

- **Stage 2. 创建线程**

&emsp;&emsp;这里需要注意的是：每个线程都会开启一个新的 `Code interpreter`。所以一定要严格控制，否则会生成很大的费用。代码如下：

In [56]:
thread = client.beta.threads.create()

In [58]:
thread.id

'thread_EKpSbWT5fra7zpm3ZhRxSHOH'

- **Stage 3.将文件传递给代码解释器**

&emsp;&emsp;代码解释器的主要应用场景是用于数据分析，所以该工具一般都会结合某些数据文件进行任务执行。`Code interpreter ` 最多可支持传递20个文件。文件的最大大小为 512 MB，支持包括.csv 、 .pdf 、 .json等多种文件格式。这里我们以单个.csv文件进行测试：

In [62]:
file = client.files.create(
  file=open("./data/weather_data_complex.csv", "rb"),
  purpose='assistants'
)

In [64]:
file.id

'file-F9iIiLEApc6bTmiZfgcOK0Bw'

In [66]:
assistant.id

'asst_64RJvpP1jtwFLbWOn4OxwGJb'

&emsp;&emsp;这里更新一下`Assistant`对象实例，传递需要执行分析的.csv文件。代码如下：

In [89]:
# 创建一个使用助手的ID
assistant = client.beta.assistants.update(
    assistant_id=assistant.id,
    name="Data Engineer",  # 数据分析师
    instructions="You're a weather data analyst. When asked for data information, write and run code to answer the question",  # 你是一名气象数据分析师。当被问及数据信息时，编写并运行代码来回答问题
    model="gpt-4o",
    tools=[{"type": "code_interpreter"}],
    tool_resources={
        "code_interpreter": {
            "file_ids": [file.id]
    }
  }
)

&emsp;&emsp;这里使用刚才创建的`Thread`对象实例，避免重复付费。

In [73]:
thread.id

'thread_EKpSbWT5fra7zpm3ZhRxSHOH'

In [91]:
thread_message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="请帮我分析各个城市的实时天气数据，并绘制折线图",
)
print(thread_message)

Message(id='msg_S5Ytlfh8GFGMCB6potEixHNI', assistant_id=None, attachments=[], completed_at=None, content=[TextContentBlock(text=Text(annotations=[], value='请帮我分析各个城市的实时天气数据，并绘制折线图'), type='text')], created_at=1727417358, incomplete_at=None, incomplete_details=None, metadata={}, object='thread.message', role='user', run_id=None, status=None, thread_id='thread_EKpSbWT5fra7zpm3ZhRxSHOH')


- **Stage 4. 创建 Run 运行状态**

&emsp;&emsp;开启`Run`状态后，`Assistant`对象将读取`Thread`对象实例，并决定如何最好地回答用户的提示。代码如下所示：

In [93]:
run=client.beta.threads.runs.create(
  thread_id=thread.id,
  assistant_id=assistant.id
)

&emsp;&emsp;`Run`开始运行后，同样还是进入`queued`状态，需要一段时间才能完成。这里我们等待几秒钟再获取其最终的结果。

In [112]:
messages = client.beta.threads.messages.list(
    thread_id=thread.id
    )

last_message = messages.data[0]

In [114]:
last_message.to_dict()

{'id': 'msg_m4Zke5wDLKVsB5eh54xSZ8Ts',
 'assistant_id': 'asst_S5dB3bbWVIj3b2PraFk431PQ',
 'attachments': [],
 'content': [{'image_file': {'file_id': 'file-eBclJ2mOnNygdwe3OZkGNLkQ'},
   'type': 'image_file'},
  {'text': {'annotations': [],
    'value': '以上图像显示了各城市的平均温度、湿度和风速：\n\n- **左图**：展示了各城市的平均温度（单位：摄氏度）。可以看到一些城市的温度变化较大。\n- **中图**：展示了各城市的平均湿度（单位：%）。湿度也是各个城市之间差异明显。\n- **右图**：展示了各城市的平均风速（单位：米/秒）。某些城市的风速有明显的变化。\n\n为了更深入地分析天气状况分布，我们还将绘制各个城市的天气情况的分布直方图。'},
   'type': 'text'}],
 'created_at': 1727417373,
 'metadata': {},
 'object': 'thread.message',
 'role': 'assistant',
 'run_id': 'run_RI9oLWYEpdmKEoiQSxi4H8yT',
 'thread_id': 'thread_EKpSbWT5fra7zpm3ZhRxSHOH'}

- **Stage 5. 读取代码解释器生成的图像和文件**

&emsp;&emsp;代码解释器除了能够生成正常的文本以外，在具体的需求下还可以输出文件，例如生成图像图表、CSV 和 PDF。其生成的文件有两种类型：
- 图片类型
- 数据文件（例如包含助手生成的数据的csv文件）

&emsp;&emsp;当代码解释器生成图像时，我们可以在最终消息响应的`file_id`字段中查找并下载该文件：

In [122]:
file_id = last_message.content[0].image_file.file_id
file_id

'file-eBclJ2mOnNygdwe3OZkGNLkQ'

> file content:https://platform.openai.com/docs/api-reference/files/retrieve-contents

&emsp;&emsp;将图像文件下载至本地环境中，代码如下：

In [125]:
image_data = client.files.content(file_id=file_id)
image_data_bytes = image_data.read()

with open("./my-image.png", "wb") as file:
    file.write(image_data_bytes)

&emsp;&emsp;而当代码解释器引用文件路径（例如，“下载此 csv 文件”）时，文件路径将作为注释列出。接下来我们复现出一个可以生成.csv文件的场景，如下代码所示：

In [131]:
file = client.files.create(
  file=open("./data/weather_data_complex.csv", "rb"),
  purpose='assistants'
)

file.id

'file-mc4sjZa1GYvaZvXPmqGXCsJb'

In [133]:
thread_message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="根据平均温度对城市进行排序，并生成一个新的.csv文件供我下载",
    attachments=[
        {"file_id": file.id,
         "tools": [
             {"type": "code_interpreter"}
         ]
        }
      ]
)


run  = client.beta.threads.runs.create(
  thread_id=thread.id,
  assistant_id=assistant.id
)

&emsp;&emsp;`Run`开始运行后，同样还是进入`queued`状态，需要一段时间才能完成。这里我们等待几秒钟再获取其最终的结果。

In [135]:
messages = client.beta.threads.messages.list(
    thread_id=thread.id
    )

last_message = messages.data[0]

text = last_message.content[0].text.value
print(text)

我已经根据平均温度对城市进行了排序，并生成了一个新的 CSV 文件。您可以通过以下链接下载该文件：

[下载排序后的城市温度数据](sandbox:/mnt/data/sorted_cities_by_temperature.csv)

如果您还有其他需要帮忙的地方，请告诉我！


In [137]:
last_message = messages.data[0]

last_message.to_dict()

{'id': 'msg_mg2lJ37JfjQo3O1fv1ms45Yv',
 'assistant_id': 'asst_S5dB3bbWVIj3b2PraFk431PQ',
 'attachments': [{'file_id': 'file-jP424tX28OyoI7DC7SepE6Vy',
   'tools': [{'type': 'code_interpreter'}]}],
 'content': [{'text': {'annotations': [{'end_index': 116,
      'file_path': {'file_id': 'file-jP424tX28OyoI7DC7SepE6Vy'},
      'start_index': 66,
      'text': 'sandbox:/mnt/data/sorted_cities_by_temperature.csv',
      'type': 'file_path'}],
    'value': '我已经根据平均温度对城市进行了排序，并生成了一个新的 CSV 文件。您可以通过以下链接下载该文件：\n\n[下载排序后的城市温度数据](sandbox:/mnt/data/sorted_cities_by_temperature.csv)\n\n如果您还有其他需要帮忙的地方，请告诉我！'},
   'type': 'text'}],
 'created_at': 1727417840,
 'metadata': {},
 'object': 'thread.message',
 'role': 'assistant',
 'run_id': 'run_Zhb7dBcb11Bpaalu1C4uqBYU',
 'thread_id': 'thread_EKpSbWT5fra7zpm3ZhRxSHOH'}

&emsp;&emsp;如果想要下载该文件，我们需要提取具体的注释信息，并转换为下载文件的链接，代码如下：

In [140]:
file_id = last_message.content[0].text.annotations[0].file_path.file_id
file_id

'file-jP424tX28OyoI7DC7SepE6Vy'

In [142]:
file_data = client.files.content(file_id)
file_data_bytes = file_data.read()
with open("./sorted_cities_by_temperature.csv", "wb") as file:
    file.write(file_data_bytes)

&emsp;&emsp;以上就是`Code Interpreter`工具应用的方法，大家在实践构建使用的时候，唯一必须引起重点关注的是不要频繁的构建新`Thread`对象，因为一旦创建新的线程都会产生一次计费。

# 3. Assistant API 的 Function Calling

&emsp;&emsp;最后，我们来看`Funcation Calling`。

&emsp;&emsp;与`Chat Completions API`类似，`Assistant API` 也支持函数调用。使用的方式就是在`Assistant`对象中添加描述，函数调用允许您向 Assistants API 描述，就可以智能地返回需要调用的函数及其参数。同时需要说明的是：如果使用 2023 年 11 月 6 日或之后发布的最新模型，`Assistant API`可以并行地执行函数调用。

&emsp;&emsp;为了更好的帮助大家理解，同时解决`Code Interpreter`资费较贵的问题，这里我们就用一个本地代码解释器的实现方法作为替代方案来实操`Assistant API`的`Funcation Calling`。我们设计如下场景：用户能够动态执行`Python` 代码和 `SQL` 查询，结合这两个功能，用户可以在一个统一的平台上同时进行数据处理和查询，通过这种方式有效地解决 `Code Interpreter` 资费较高的问题，灵活地实现所需功能。

- **Stage 1. 定义外部函数**

&emsp;&emsp;首先，我们定义两个外部函数。使用 `python_inter` 函数，用户可以输入任意 `Python` 代码并在指定的全局环境中执行，获取执行结果或新变量。该函数能够处理简单表达式及复杂逻辑，并有效捕获执行错误。同时，用户可以通过 `sql_inter` 函数与 `MySQL` 数据库交互，执行 `SQL` 查询并获取结果。该函数能够处理数据库连接和查询的执行，并将结果以 `JSON` 格式返回，便于后续处理。

In [1]:
import json

def python_inter(py_code, g=None):
    """
    专门用于执行python代码，并获取最终查询或处理结果。
    :param py_code: 字符串形式的Python代码，
    :param g: g，字典形式变量，表示环境变量，若未提供则创建一个新的字典
    :return：代码运行的最终结果
    """
    # 使用空字典作为默认全局环境
    global_vars = {}

    try:
        # 尝试如果是表达式，则返回表达式运行结果
        return str(eval(py_code, global_vars))
    except Exception as e:
        # 记录执行前的全局变量
        global_vars_before = set(global_vars.keys())
        try:
            exec(py_code, global_vars)
        except Exception as e:
            return f"代码执行时报错: {e}"
        # 记录执行后的全局变量，确定新变量
        global_vars_after = set(global_vars.keys())
        new_vars = global_vars_after - global_vars_before
        # 若存在新变量
        if new_vars:
            result = {var: global_vars[var] for var in new_vars}
            return str(result)
        else:
            return "已经顺利执行代码"


def sql_inter(sql_query, host, user, password, database, port):
    """
    用于执行一段SQL代码，并最终获取SQL代码执行结果，
    核心功能是将输入的SQL代码传输至MySQL环境中进行运行，
    并最终返回SQL代码运行结果。需要注意的是，本函数是借助pymysql来连接MySQL数据库。
    :param sql_query: 字符串形式的SQL查询语句，用于执行对MySQL中telco_db数据库中各张表进行查询，并获得各表中的各类相关信息
    :param host: MySQL服务器的主机名
    :param user: MySQL服务器的用户名
    :param password: MySQL服务器的密码
    :param database: MySQL服务器的数据库名
    :param port: MySQL服务器的端口
    :param g: g，字符串形式变量，表示环境变量，无需设置，保持默认参数即可
    :return：sql_query在MySQL中的运行结果。
    """
    from datetime import datetime

    from sqlalchemy import create_engine
    from sqlalchemy.orm import sessionmaker
    SQLALCHEMY_DATABASE_URI = f"mysql+pymysql://{user}:{password}@{host}:{port}/{database}?charset=utf8mb4"
    # 创建数据库引擎
    engine = create_engine(SQLALCHEMY_DATABASE_URI)
    # 创建会话
    SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)
    db_session = SessionLocal()

    try:
        from sqlalchemy import text
        # 执行SQL查询
        result = db_session.execute(text(sql_query))
        results = result.fetchall()

        # # 将结果转换为字典列表
        keys = result.keys()
        results_list = [dict(zip(keys, row)) for row in results]

        from decimal import Decimal
        
        def json_serial(obj):
            """JSON serializer for objects not serializable by default json code"""
            if isinstance(obj, datetime):
                return obj.isoformat()  # 将 datetime 对象转为 ISO 8601 格式的字符串
            elif isinstance(obj, Decimal):
                return float(obj)  # 将 Decimal 转为 float
            raise TypeError("Type not serializable")

        # 返回 JSON 格式的查询结果
        return json.dumps(results_list, default=json_serial)

    finally:
        db_session.close()  # 确保关闭会话

    # 返回 JSON 格式的查询结果

    return "数据库查询出错"

- **Stage 2. 定义外部函数的JSON Schema表示**

In [3]:
python_tool_desc = {
    "type": "function",
    "function": {
        "name": "python_inter",
        "description": "Executes Python code and returns the result or error message.",
        "parameters": {
            "type": "object",
            "properties": {
                "py_code": {
                    "type": "string",
                    "description": "The Python code to execute, passed as a string."
                },
                "g": {
                    "type": "object",
                    "description": "A dictionary representing the global variables environment. If not provided, a new empty dictionary will be used.",
                    "default": {}
                }
            },
            "required": ["py_code"]
        }
    }
}


sql_tool_desc = {
    "type": "function",
    "function": {
        "name": "sql_inter",
        "description": "Executes a SQL query on a MySQL database using pymysql and returns the results.",
        "parameters": {
            "type": "object",
            "properties": {
                "sql_query": {
                    "type": "string",
                    "description": "The SQL query to be executed against the MySQL database."
                },
                "host": {
                    "type": "string",
                    "description": "The hostname of the MySQL server."
                },
                "user": {
                    "type": "string",
                    "description": "The username for the MySQL server."
                },
                "password": {
                    "type": "string",
                    "description": "The password for the MySQL server."
                },
                "database": {
                    "type": "string",
                    "description": "The name of the database to connect to on the MySQL server."
                },
                "port": {
                    "type": "integer",
                    "description": "The port number on which the MySQL server is running."
                }
            },
            "required": ["sql_query", "host", "user", "password", "database", "port"]
        },
    }
}

In [5]:
available_functions = {
    "python_inter": python_inter,
    "sql_inter": sql_inter
}

- **Stage 3. 定义Assistant对象**

&emsp;&emsp;准备好了外部函数和其对应的Json Schema描述，我们只需要在创建`Assistant`对象时，在`Assistant`对象的的`tools`参数下添加定义。代码如下：

In [9]:
from openai import OpenAI
client = OpenAI()

In [11]:
assistant = client.beta.assistants.create(
    name="Data Engineer",  # 数据分析师
    instructions="You're a senior data analyst. When asked for data information, write and run Python code to answer the question,\
                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",  # 你是一位高级数据分析师。当被要求提供数据信息时，编写并运行Python代码来回答这个问题
    model = "gpt-4o-mini-2024-07-18",
    tools = [
      python_tool_desc,
      sql_tool_desc
  ]
)

In [13]:
assistant.to_dict()

{'id': 'asst_PAiT2X2YMahK2a1r6oEX1S4w',
 'created_at': 1727425135,
 'description': None,
 'instructions': "You're a senior data analyst. When asked for data information, write and run Python code to answer the question,                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",
 'metadata': {},
 'model': 'gpt-4o-mini-2024-07-18',
 'name': 'Data Engineer',
 'object': 'assistant',
 'tools': [{'function': {'name': 'python_inter',
    'description': 'Executes Python code and returns the result or error message.',
    'parameters': {'type': 'object',
     'properties': {'py_code': {'type': 'string',
       'description': 'The Python code to execute, passed as a string.'},
      'g': {'type': 'object',
       'description': 'A dictionary representing the global variables environment. If not provided, a new empty dictionary will be used.',
       'default': {}}},
     'require

- **Stage 4. 创建`Thread`并添加消息**

In [15]:
thread = client.beta.threads.create()
message = client.beta.threads.messages.create(
  thread_id=thread.id,
  role="user",
  content="请问 100 * 200 - 30 等于多少。",
)

- **Stage 5. 开始运行**

In [17]:
run = client.beta.threads.runs.create_and_poll(
  thread_id=thread.id,
  assistant_id=assistant.id,
)

&emsp;&emsp;`Run`开始运行后，同样还是进入`queued`状态，需要一段时间才能完成。这里我们等待几秒钟再获取其最终的结果。

In [19]:
run.to_dict()

{'id': 'run_NWnLtGkptjKwTnecr9i636aN',
 'assistant_id': 'asst_PAiT2X2YMahK2a1r6oEX1S4w',
 'cancelled_at': None,
 'completed_at': None,
 'created_at': 1727425164,
 'expires_at': 1727425764,
 'failed_at': None,
 'incomplete_details': None,
 'instructions': "You're a senior data analyst. When asked for data information, write and run Python code to answer the question,                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",
 'last_error': None,
 'max_completion_tokens': None,
 'max_prompt_tokens': None,
 'metadata': {},
 'model': 'gpt-4o-mini-2024-07-18',
 'object': 'thread.run',
 'parallel_tool_calls': True,
 'required_action': {'submit_tool_outputs': {'tool_calls': [{'id': 'call_g6bYzq8t9AHp2iTxGCAvlEBJ',
     'function': {'arguments': '{"py_code":"100 * 200 - 30"}',
      'name': 'python_inter'},
     'type': 'function'}]},
  'type': 'submit_tool_outputs'},
 'respons

&emsp;&emsp;当用户的提问触发函数调用功能时，`Run`会进入`requires_action`状态，表示需要调用函数，代码如下：

In [21]:
if run.status == 'completed':
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages)
else:
  print(run.status)

requires_action


<div align=center><img src="https://muyu001.oss-cn-beijing.aliyuncs.com/img/2503.png" width=100%></div>

&emsp;&emsp;这个过程指的是：当我们在包含触发一个或多个函数的用户消息的线程上启动运行时，该运行将进入pending状态。**在这个阶段需要做的是：运行工具并将其输出提交给助手以继续运行执行。同时，运行在创建十分钟后就会过期。y意味着我们必须在 10 分钟之前提交工具输出。**

> "Pending" 是一个表示状态的术语，通常指某个操作或任务尚未完成，正在等待进一步的处理或结果。

In [23]:
run.required_action.submit_tool_outputs.tool_calls[0].function.name

'python_inter'

In [25]:
run.required_action.submit_tool_outputs.tool_calls[0].function.arguments

'{"py_code":"100 * 200 - 30"}'

In [27]:
run.required_action.submit_tool_outputs.tool_calls[0].id

'call_g6bYzq8t9AHp2iTxGCAvlEBJ'

In [29]:
run.required_action.submit_tool_outputs.tool_calls

[RequiredActionFunctionToolCall(id='call_g6bYzq8t9AHp2iTxGCAvlEBJ', function=Function(arguments='{"py_code":"100 * 200 - 30"}', name='python_inter'), type='function')]

&emsp;&emsp;这里我们定义`function_to_call`函数实现这个过程。具体来说：`function_to_call`的作用是调用一个指定的功能并返回其输出，代码如下：

In [31]:
def function_to_call(run, available_functions):
    
    tool_outputs = []

    tool_call = run.required_action.submit_tool_outputs.tool_calls[0]

    arguments = json.loads(tool_call.function.arguments)
    tool_outputs.append({
        "tool_call_id": tool_call.id,
        "output": available_functions[tool_call.function.name](**arguments)
    })

    return tool_outputs

In [33]:
tool_outputs = function_to_call(run, available_functions)

tool_outputs

[{'tool_call_id': 'call_g6bYzq8t9AHp2iTxGCAvlEBJ', 'output': '19970'}]

&emsp;&emsp;接下来要做的事情是：把工具的执行结果，回传给 `Run`。 这里就需要借助`client.beta.threads.runs.submit_tool_outputs()`方法，它支持在工具调用全部完成后提交输出。

> Submit tool outputs to run：https://platform.openai.com/docs/api-reference/runs/submitToolOutputs

In [36]:
if tool_outputs:
  try:
    run = client.beta.threads.runs.submit_tool_outputs_and_poll(
      thread_id=thread.id,
      run_id=run.id,
      tool_outputs=tool_outputs
    )
    print("Tool outputs submitted successfully.")
  except Exception as e:
    print("Failed to submit tool outputs:", e)
else:
  print("No tool outputs to submit.")

Tool outputs submitted successfully.


&emsp;&emsp;提交完成后，我们只需要耐心的等待`Run`的继续执行即可。

In [38]:
if run.status == 'completed':
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages.data[0].content[0].text.value)
else:
  print(run.status)

100 * 200 - 30 等于 19970。


&emsp;&emsp;从结果上看已经正常的执行了`python_inter`工具并返回了最终的结果。接下来我们可以测试第二个工具的使用情况。这里我们会用到本地的`Mysql`数据库。

> 关于Mysql的安装和使用方法，可查看如下两个课件：
> 1. 大模型技术实战正课：《Ch 16.2（上） 热门AI应用开发实战二：定制化SQL代码解释器》 - 三、SQL代码解释器的基本开发流程
> 2. RAG企业项目实战课：Week 2-1 - 4.1 Ubuntu系统安装Mysql

In [47]:
# ! pip install sqlalchemy pymysql

In [45]:
thread = client.beta.threads.create()

message = client.beta.threads.messages.create(
  thread_id=thread.id,
  role="user",
  content="帮我查询一下我的数据库中都有哪些表",
)

In [49]:
run = client.beta.threads.runs.create_and_poll(
  thread_id=thread.id,
  assistant_id=assistant.id,
)

In [51]:
if run.status == 'completed':
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages)
else:
  print(run.status)

requires_action


In [53]:
run.to_dict()

{'id': 'run_azhcPNnlVusXIo0lPYu8O7PC',
 'assistant_id': 'asst_PAiT2X2YMahK2a1r6oEX1S4w',
 'cancelled_at': None,
 'completed_at': None,
 'created_at': 1727425493,
 'expires_at': 1727426093,
 'failed_at': None,
 'incomplete_details': None,
 'instructions': "You're a senior data analyst. When asked for data information, write and run Python code to answer the question,                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",
 'last_error': None,
 'max_completion_tokens': None,
 'max_prompt_tokens': None,
 'metadata': {},
 'model': 'gpt-4o-mini-2024-07-18',
 'object': 'thread.run',
 'parallel_tool_calls': True,
 'required_action': {'submit_tool_outputs': {'tool_calls': [{'id': 'call_1bDjnphkrfzBRySWP1ScrEL0',
     'function': {'arguments': '{"sql_query":"SHOW TABLES;","host":"192.168.110.131","user":"root","password":"snowball950123","database":"mategen","port":3306}',
  

In [55]:
tool_outputs = function_to_call(run, available_functions)

tool_outputs

[{'tool_call_id': 'call_1bDjnphkrfzBRySWP1ScrEL0',
  'output': '[{"Tables_in_mategen": "agents"}, {"Tables_in_mategen": "db_configs"}, {"Tables_in_mategen": "employees"}, {"Tables_in_mategen": "file_info"}, {"Tables_in_mategen": "knowledge_bases"}, {"Tables_in_mategen": "messages"}, {"Tables_in_mategen": "threads"}]'}]

In [57]:
if tool_outputs:
  try:
    run = client.beta.threads.runs.submit_tool_outputs_and_poll(
      thread_id=thread.id,
      run_id=run.id,
      tool_outputs=tool_outputs
    )
    print("Tool outputs submitted successfully.")
  except Exception as e:
    print("Failed to submit tool outputs:", e)
else:
  print("No tool outputs to submit.")

Tool outputs submitted successfully.


In [59]:
if run.status == 'completed':
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages.data[0].content[0].text.value)
else:
  print(run.status)

你的数据库中有以下表：

1. agents
2. db_configs
3. employees
4. file_info
5. knowledge_bases
6. messages
7. threads


&emsp;&emsp;最后，还可以测试更复杂的应用需求，这里我们的提问如下所示：

In [61]:
assistant = client.beta.assistants.create(
    name="Data Engineer",  # 数据分析师
    instructions="You're a senior data analyst. When asked for data information, write and run Python code to answer the question,\
                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",  # 你是一位高级数据分析师。当被要求提供数据信息时，编写并运行Python代码来回答这个问题
    model = "gpt-4o-mini-2024-07-18",
    tools = [
      python_tool_desc,
      sql_tool_desc
  ]
)

thread = client.beta.threads.create()

message = client.beta.threads.messages.create(
  thread_id=thread.id,
  role="user",
  content="帮我查询 employees 表中的内容，计算所有的人的工资总和，然后与 9 * 9 的结果进行相加，返回最终的结果。",
)

In [63]:
run = client.beta.threads.runs.create_and_poll(
  thread_id=thread.id,
  assistant_id=assistant.id,
)

In [65]:
if run.status == 'completed':
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages)
else:
  print(run.status)

requires_action


&emsp;&emsp;这里注意：并行函数调用场景并不是百分之百触发，大家再自己实践时，可通过尝试不同的提问和需求来进行场景复现。

In [67]:
run.to_dict()

{'id': 'run_OgYsaWAPflHRfE8lRTeUVh1H',
 'assistant_id': 'asst_wNRV7kZ2zKoKSdZRpm5p09J1',
 'cancelled_at': None,
 'completed_at': None,
 'created_at': 1727425610,
 'expires_at': 1727426210,
 'failed_at': None,
 'incomplete_details': None,
 'instructions': "You're a senior data analyst. When asked for data information, write and run Python code to answer the question,                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",
 'last_error': None,
 'max_completion_tokens': None,
 'max_prompt_tokens': None,
 'metadata': {},
 'model': 'gpt-4o-mini-2024-07-18',
 'object': 'thread.run',
 'parallel_tool_calls': True,
 'required_action': {'submit_tool_outputs': {'tool_calls': [{'id': 'call_LqMkPR6A9KmJ9mLveIweC62A',
     'function': {'arguments': '{"sql_query": "SELECT SUM(salary) AS total_salary FROM employees;", "host": "192.168.110.131", "user": "root", "password": "snowball9

&emsp;&emsp;如果在`required_action`中看到两个`tool_calls` ，表明用户触发了并行函数调用。

In [69]:
run.required_action.submit_tool_outputs.tool_calls

[RequiredActionFunctionToolCall(id='call_LqMkPR6A9KmJ9mLveIweC62A', function=Function(arguments='{"sql_query": "SELECT SUM(salary) AS total_salary FROM employees;", "host": "192.168.110.131", "user": "root", "password": "snowball950123", "database": "mategen", "port": 3306}', name='sql_inter'), type='function'),
 RequiredActionFunctionToolCall(id='call_l89JUPaXCi8nTfThymgEUx7m', function=Function(arguments='{"py_code": "result = 9 * 9; result"}', name='python_inter'), type='function')]

&emsp;&emsp;而当需要同时处理多个函数调用的时候，我们需要对`function_to_call`函数稍微进行一下优化。代码如下所示：

In [72]:
def function_to_call(run, available_functions):
    
    tool_outputs = []

    for tool_call in run.required_action.submit_tool_outputs.tool_calls:
        function_name = tool_call.function.name
        function_args = tool_call.function.arguments
        # 处理多次子调用的情况
        if function_name == 'multi_tool_use.parallel':
            tool_uses = json.loads(function_args).get('tool_uses', [])
            for tool_use in tool_uses:
   
                recipient_name = tool_use.get('recipient_name').split('.')[-1]
                parameters = tool_use.get('parameters')
    
                tool_outputs.append({
                    "tool_call_id": tool_call.id,
                    "output": available_functions[recipient_name](**parameters)
                })

        # 处理单个外部函数调用的情况
        else:
            arguments = json.loads(tool_call.function.arguments)
            tool_outputs.append({
                "tool_call_id": tool_call.id,
                "output": available_functions[tool_call.function.name](**arguments)
            })

    return tool_outputs

In [74]:
tool_outputs = function_to_call(run, available_functions)

tool_outputs

[{'tool_call_id': 'call_LqMkPR6A9KmJ9mLveIweC62A',
  'output': '[{"total_salary": 225000.0}]'},
 {'tool_call_id': 'call_l89JUPaXCi8nTfThymgEUx7m', 'output': "{'result': 81}"}]

In [76]:
if tool_outputs:
  try:
    run = client.beta.threads.runs.submit_tool_outputs_and_poll(
      thread_id=thread.id,
      run_id=run.id,
      tool_outputs=tool_outputs
    )
    print("Tool outputs submitted successfully.")
  except Exception as e:
    print("Failed to submit tool outputs:", e)
else:
  print("No tool outputs to submit.")

Tool outputs submitted successfully.


In [78]:
if run.status == 'completed':
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages.data[0].content[0].text.value)
else:
  print(run.status)

requires_action


In [80]:
run.to_dict()

{'id': 'run_OgYsaWAPflHRfE8lRTeUVh1H',
 'assistant_id': 'asst_wNRV7kZ2zKoKSdZRpm5p09J1',
 'cancelled_at': None,
 'completed_at': None,
 'created_at': 1727425610,
 'expires_at': 1727426210,
 'failed_at': None,
 'incomplete_details': None,
 'instructions': "You're a senior data analyst. When asked for data information, write and run Python code to answer the question,                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",
 'last_error': None,
 'max_completion_tokens': None,
 'max_prompt_tokens': None,
 'metadata': {},
 'model': 'gpt-4o-mini-2024-07-18',
 'object': 'thread.run',
 'parallel_tool_calls': True,
 'required_action': {'submit_tool_outputs': {'tool_calls': [{'id': 'call_7CEQcSLlFeHqljwhVbE6QT4i',
     'function': {'arguments': '{"py_code":"total_salary = 225000.0\\nadditional_value = 81\\nfinal_result = total_salary + additional_value\\nfinal_result"}',
     

In [82]:
tool_outputs = function_to_call(run, available_functions)

tool_outputs

[{'tool_call_id': 'call_7CEQcSLlFeHqljwhVbE6QT4i',
  'output': "{'additional_value': 81, 'total_salary': 225000.0, 'final_result': 225081.0}"}]

In [84]:
if tool_outputs:
  try:
    run = client.beta.threads.runs.submit_tool_outputs_and_poll(
      thread_id=thread.id,
      run_id=run.id,
      tool_outputs=tool_outputs
    )
    print("Tool outputs submitted successfully.")
  except Exception as e:
    print("Failed to submit tool outputs:", e)
else:
  print("No tool outputs to submit.")

Tool outputs submitted successfully.


In [86]:
if run.status == 'completed':
  messages = client.beta.threads.messages.list(
    thread_id=thread.id
  )
  print(messages.data[0].content[0].text.value)
else:
  print(run.status)

根据查询，`employees` 表中所有人的工资总和为 **225000.0**。将此总和与 \(9 \times 9\) 的结果相加，得到的最终结果为 **225081.0**。


&emsp;&emsp;所有的中间处理过程都可以通过`runs.steps.list()`方法查看到具体的执行过程，代码如下所示：

In [88]:
run_steps = client.beta.threads.runs.steps.list(
  thread_id=thread.id,
  run_id=run.id
)

In [90]:
run_steps.to_dict()

{'data': [{'id': 'step_qtv7G4qc1K7x2SW4sxmUnRFu',
   'assistant_id': 'asst_wNRV7kZ2zKoKSdZRpm5p09J1',
   'cancelled_at': None,
   'completed_at': 1727425737,
   'created_at': 1727425737,
   'failed_at': None,
   'last_error': None,
   'object': 'thread.run.step',
   'run_id': 'run_OgYsaWAPflHRfE8lRTeUVh1H',
   'status': 'completed',
   'step_details': {'message_creation': {'message_id': 'msg_WVbxZo7cXV9V4WNPAEYOY9EZ'},
    'type': 'message_creation'},
   'thread_id': 'thread_eBLcEufrhnR0oowVmOOTgwky',
   'type': 'message_creation',
   'usage': {'completion_tokens': 53,
    'prompt_tokens': 689,
    'total_tokens': 742},
   'expires_at': None},
  {'id': 'step_SssZPFU5GKPBsblYj7xdl58d',
   'assistant_id': 'asst_wNRV7kZ2zKoKSdZRpm5p09J1',
   'cancelled_at': None,
   'completed_at': 1727425736,
   'created_at': 1727425718,
   'failed_at': None,
   'last_error': None,
   'object': 'thread.run.step',
   'run_id': 'run_OgYsaWAPflHRfE8lRTeUVh1H',
   'status': 'completed',
   'step_details': {'

&emsp;&emsp;而关于这段代码，其处理的是并行函数子调用的逻辑：

```python
        if function_name == 'multi_tool_use.parallel':
            tool_uses = json.loads(function_args).get('tool_uses', [])
            for tool_use in tool_uses:
   
                recipient_name = tool_use.get('recipient_name').split('.')[-1]
                parameters = tool_use.get('parameters')
    
                tool_outputs.append({
                    "tool_call_id": tool_call.id,
                    "output": available_functions[recipient_name](**parameters)
                })
```

&emsp;&emsp;即有可能出现这样的输出：

In [643]:
run.to_dict()

{'id': 'run_eRVe8IoebpH6pU3xnCu90sJi',
 'assistant_id': 'asst_2iQknTZem75PMwbMfDU1pjy8',
 'cancelled_at': None,
 'completed_at': None,
 'created_at': 1727349545,
 'expires_at': 1727350145,
 'failed_at': None,
 'incomplete_details': None,
 'instructions': "You're a senior data analyst. When asked for data information, write and run Python code to answer the question,                  The mysql database information you can connect to is: username = 'root', database_name = 'mategen', password = 'snowball950123', hostname = '192.168.110.131'",
 'last_error': None,
 'max_completion_tokens': None,
 'max_prompt_tokens': None,
 'metadata': {},
 'model': 'gpt-4-1106-preview',
 'object': 'thread.run',
 'parallel_tool_calls': True,
 'required_action': {'submit_tool_outputs': {'tool_calls': [{'id': 'call_EpRseNH73uHSmJhsZ1FPGeL9',
     'function': {'arguments': '{\n  "tool_uses": [\n    {\n      "recipient_name": "functions.python_inter",\n      "parameters": {\n        "py_code": "sql_query = \'S

&emsp;&emsp;以上内容是 `Assistant API` 的第一部分进阶知识，重点介绍了外部工具和函数的应用机制及使用技巧。而另外一个重要的知识点：流式功能。我们在下一节课再进行详细介绍。同时会通过实战案例展示如何高效结合代码解释器、文件搜索以及自定义函数，以实现更复杂、更智能的智能体流程。