# 大模型的API及Plugins调用

- 一、大语言模型性能评估与比较*
    - 主流模型性能比较
    - 重要领域能力对比
    - 信息抽取任务在各个模型上的比较
- 二、使用Python调用各类大语言模型的API***
    - 百度文心一言
    - 星火大语言模型
    - OpenAI
    - 使用OneApi统一调用
    - 使用硅基流动API调用大语言模型
- 三、Prompt 工程初探**
    - 简单prompt设计
    - 组件式prompt设计
- 四、大模型额外能力调用***
    - 函数调用
    - Assistant API

本节课将介绍如何使用Python调用各类大语言模型的API，以及大模型人工智能中的提示工程。首先，我们将学习如何使用Python调用各类大语言模型的API，包括百度文心一言、星火大语言模型以及OpenAI的多个版本。我们还将学习如何使用OneApi统一调用这些API，以简化开发流程并提高效率。

接下来，我们将探讨提示工程的基本原理和技巧。我们将介绍Prompt的概念，并讨论如何设计和构建有效的提示。我们还将探讨提示工程的应用场景，包括文本生成、问题回答等领域。通过一些实际的应用案例，我们将展示提示工程在实际项目中的应用。

最后，我们将探讨插件和函数调用的概念。我们将介绍插件的原理和使用方法，并讨论插件的应用场景和案例。

通过本节课的学习，您将了解到如何使用Python调用各类大语言模型的API，掌握提示工程的基本原理和技巧，并了解插件和函数调用的概念及其应用。这些知识和技能将帮助您更好地应用大模型人工智能，提升项目的效果和效率。

对于**学习AI产品经理**的同学，你们将了解到不同大语言模型的性能特点和优势，以及如何根据业务需求选择合适的模型。通过学习Prompt工程和大模型额外能力的调用，你们将能够更好地规划和设计AI产品，提升产品的用户体验和竞争力。

在开启本项课程之前，你需要掌握以下知识：

1. 了解简单的 Python 语法
2. 能够看懂简单的英文
3. 拥有大语言模型的使用途径，包括但不限于 OpenAI，各类 OpenAI 代理网站的账号，星火大语言模型的账号，百度文心一言的账号等，我们的教学平台也提供了教材必要的交互代理

  ## 一、大型语言模型性能评估与比较

In [1]:
# 在开始课程之前，需要安装本节课需要的库
!pip install -r requirements.txt -U -i https://pypi.tuna.tsinghua.edu.cn/simple

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting websocket-client (from -r requirements.txt (line 2))
  Using cached https://pypi.tuna.tsinghua.edu.cn/packages/34/db/b10e48aa8fff7407e67470363eac595018441cf32d5e1001567a7aeba5d2/websocket_client-1.9.0-py3-none-any.whl (82 kB)
Collecting openai (from -r requirements.txt (line 3))
  Using cached https://pypi.tuna.tsinghua.edu.cn/packages/25/66/22cfe4b695b5fd042931b32c67d685e867bfd169ebf46036b95b57314c33/openai-2.7.2-py3-none-any.whl (1.0 MB)
Collecting markdown-it-py (from -r requirements.txt (line 4))
  Using cached https://pypi.tuna.tsinghua.edu.cn/packages/94/54/e7d793b573f298e1c9013b8c4dade17d481164aa517d1d7148619c2cedbf/markdown_it_py-4.0.0-py3-none-any.whl (87 kB)
Collecting faiss-cpu (from -r requirements.txt (line 5))
  Using cached https://pypi.tuna.tsinghua.edu.cn/packages/f4/0f/02d5d2ae8b53e5629cb03fbd871bbbfbbd647ffc3d09393b34f6347072d7/faiss_cpu-1.12.0-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86

### **每次运行前，请安装上面依赖！**

#### 安装依赖说明
- **sparkdesk-api**: SparkDesk API 是一个用于与 SparkDesk 平台进行交互的 Python 库。它允许开发者通过编程方式访问 SparkDesk 的功能，如数据查询、任务管理等。如果你需要与 SparkDesk 平台集成，这个库是必不可少的。

- **websocket-client**: WebSocket 客户端库，用于在 Python 中实现 WebSocket 通信。WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议，适用于实时应用程序，如聊天应用、实时数据更新等。

- **openai**: OpenAI 官方提供的 Python 库，用于与 OpenAI 的 API 进行交互。通过这个库，你可以轻松访问 OpenAI 的强大模型，如 GPT-3、DALL-E 等，用于自然语言处理、图像生成等任务。

- **markdown-it-py**: 这是一个 Python 实现的 Markdown 解析器，基于 JavaScript 的 `markdown-it`。它支持 CommonMark 规范，并且可以通过插件扩展功能。适用于需要将 Markdown 文本转换为 HTML 或其他格式的场景。

- **faiss-cpu**: Faiss 是 Facebook AI 开发的一个高效的相似性搜索库，特别适用于大规模向量搜索。`faiss-cpu` 是 Faiss 的 CPU 版本，适合在没有 GPU 的环境中使用。常用于推荐系统、图像检索等领域。

- **langchain**: LangChain 是一个用于构建基于语言模型的应用的框架。它提供了丰富的工具和接口，帮助开发者快速构建和部署基于自然语言处理的应用，如聊天机器人、文档生成器等。

- **pymupdf**: PyMuPDF 是一个用于处理 PDF 文件的 Python 库。它提供了强大的功能，如文本提取、图像提取、PDF 生成和修改等。适用于需要处理和分析 PDF 文档的场景。

- **numpy**: NumPy 是 Python 中用于科学计算的基础库，提供了高效的多维数组对象和丰富的数学函数。它是许多其他科学计算库的基础，广泛应用于数据分析、机器学习等领域。

- **matplotlib**: Matplotlib 是一个用于绘制图表和数据可视化的 Python 库。它支持多种图表类型，如折线图、柱状图、散点图等，适用于数据分析和科学计算中的可视化需求。

- **python-dotenv**: `python-dotenv` 是一个用于从 `.env` 文件中加载环境变量的 Python 库。它简化了环境变量的管理，使得在开发和生产环境中切换配置更加方便。

- **tiktoken**: `tiktoken` 是 OpenAI 提供的一个用于计算文本 token 数量的 Python 库。它支持多种 OpenAI 模型，帮助开发者更好地理解和控制文本输入的长度和成本。

- **langchain-community**: `langchain-community` 是 LangChain 生态系统中的一个扩展库，提供了社区贡献的额外工具和功能。它可以帮助开发者更灵活地使用 LangChain，扩展其功能和应用场景。

建议国内安装包时加上 `-i https://pypi.tuna.tsinghua.edu.cn/simple` 命令，使用清华的 PyPI 镜像源，可以显著加快下载速度。

### 1.1 主流模型领域专业性比较

**基座大模型与对话大模型**

**基座大模型**：这类模型通常被设计为多用途的语言模型，能够处理包括文本生成、文本摘要、问答、语言翻译等在内的多种语言任务。它们的目标是理解和生成各种类型的自然语言文本。

**对话大模型**：这些模型专门针对对话生成和理解进行优化。它们的主要目标是在保持上下文一致性的基础上，生成连贯、相关且自然的对话文本。

下面是来自OpenCompass的大模型评测榜单，该榜单的性能指标综合了多项评测结果，包括MMLU，C-EVAL，CMMLU等。



<img src="./images/opencompass-LLM-diagram.png" width = "900" alt="图片名称" align=center />

[C-Eval](https://arxiv.org/abs/2305.08322) 是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖数学、物理、化学、生物、历史、政治、计算机等52个不同学科和四个难度级别，是全球最具影响力的综合性考试评测集之一。

STEM: 科学、技术、工程和数学（Science, Technology, Engineering, and Mathematics）

Social Science：社会科学

Humanities：人文学科

Other：其他

Average：平均值

| **#** | **Model**                                                    | **Creator**                                     | **Access**   | **Submission Date** | **Avg** | **Avg(Hard)** | **STEM** | **Social Science** | **Humanities** | **Others** |
| ----- | ------------------------------------------------------------ | ----------------------------------------------- | ------------ | ------------------- | ------- | ------------- | -------- | ------------------ | -------------- | ---------- |
| 0     | [Qwen-72B](https://cevalbenchmark.com/static/model.html?method=Qwen-72B) | Alibaba Cloud                                   | Weight       | 2023/11/30          | 82.8    | 64.7          | 77.1     | 91.7               | 84.7           | 82.9       |
| 1     | [Yi-34B](https://cevalbenchmark.com/static/model.html?method=Yi-34B) | 零一万物                                        | Weight       | 2023/11/2           | 81.4    | 58.7          | 73.7     | 89.6               | 84.6           | 84.9       |
| 2     | [TuringMM-34B-Chat](https://cevalbenchmark.com/static/model.html?method=TuringMM-34B-Chat) | 北京光年无限科技有限公司                        | Weight       | 2024/2/27           | 80.7    | 60.2          | 73.8     | 89.3               | 82.3           | 83.7       |
| 3     | [Linly-Chinese-LLaMA2-70B](https://cevalbenchmark.com/static/model.html?method=Linly-Chinese-LLaMA2-70B) | 深圳大学大数据系统计算技术国家工程实验室 & APUS | Weight       | 2024/2/3            | 80.6    | 63            | 76       | 87.2               | 80             | 83.4       |
| 4     | [PCI-TransGPT](https://cevalbenchmark.com/static/model.html?method=PCI-TransGPT) | 佳都科技                                        | API, Web     | 2024/1/4            | 80.4    | 62.5          | 75.4     | 89.2               | 81.7           | 80.3       |
| 5     | [Taichu-70B](https://cevalbenchmark.com/static/model.html?method=Taichu-70B) | 紫东太初                                        | Weight       | 2024/1/12           | 80.1    | 59.8          | 73.8     | 89.5               | 82.9           | 80.4       |
| 6     | [OrionStar-Yi-34B-Chat](https://cevalbenchmark.com/static/model.html?method=OrionStar-Yi-34B-Chat) | OrionStarAI                                     | Weight       | 2023/11/22          | 78.1    | 55.8          | 70.1     | 88                 | 80.7           | 80.9       |
| 7     | [XuanYuan-13B](https://cevalbenchmark.com/static/model.html?method=XuanYuan-13B) | 度小满AI-Lab                                    | Weight       | 2024/2/2            | 76.8    | 59            | 71.3     | 86.5               | 80.1           | 74.9       |
| 8     | [YAYI2-30B](https://cevalbenchmark.com/static/model.html?method=YAYI2-30B) | 中科闻歌                                        | Weight       | 2023/12/18          | 75.3    | 53.1          | 67.2     | 83.8               | 80.6           | 76.8       |
| 9     | [XuanYuan-6B](https://cevalbenchmark.com/static/model.html?method=XuanYuan-6B) | 度小满AI-Lab                                    | Weight       | 2024/2/2            | 74.4    | 58            | 69.5     | 84.5               | 76.8           | 71.9       |
| 10    | [xDAN-L2-Chat-lite-v1.0](https://cevalbenchmark.com/static/model.html?method=xDAN-L2-Chat-lite-v1.0) | xDAN-AI                                         | API, Private | 2023/12/17          | 74.3    | 50.7          | 66.5     | 84.8               | 78.1           | 75.3       |
| 11    | [BlueLM-7B](https://cevalbenchmark.com/static/model.html?method=BlueLM-7B) | vivo                                            | Weight       | 2023/11/7           | 73.3    | 48.9          | 64.3     | 83.3               | 76.5           | 77.1       |
| 12    | [XuanYuan2-70B](https://cevalbenchmark.com/static/model.html?method=XuanYuan2-70B) | 度小满AI-Lab                                    | Weight       | 2024/2/2            | 72.7    | 53.1          | 67.2     | 84.2               | 75.8           | 69         |
| 13    | [XVERSE-65B-2](https://cevalbenchmark.com/static/model.html?method=XVERSE-65B-2) | XVERSE Technology                               | Weight       | 2023/12/8           | 72.4    | 50.8          | 65.7     | 85                 | 74             | 71.8       |
| 14    | [Qwen-14B](https://cevalbenchmark.com/static/model.html?method=Qwen-14B) | Alibaba Cloud                                   | Weight       | 2023/9/22           | 72.1    | 53.7          | 65.7     | 85.4               | 75.3           | 68.4       |
| 15    | [Yi-6B](https://cevalbenchmark.com/static/model.html?method=Yi-6B) | 零一万物                                        | Weight       | 2023/11/2           | 72      | 46.6          | 62.3     | 83.9               | 76.3           | 74.6       |
| 16    | [XuanYuan-70B](https://cevalbenchmark.com/static/model.html?method=XuanYuan-70B) | 度小满AI-Lab                                    | Weight       | 2023/9/21           | 71.9    | 53.6          | 67.7     | 83.3               | 73.9           | 67.4       |
| 17    | [ChatGLM3-6B-base](https://cevalbenchmark.com/static/model.html?method=ChatGLM3-6B-base) | Tsinghua & Zhipu.AI                             | Weight       | 2023/10/26          | 69      | 46.8          | 61       | 82.4               | 73.4           | 66.9       |
| 18    | [GPT-4*](https://cevalbenchmark.com/static/model.html?method=GPT-4*) | OpenAI                                          | API, Web     | 2023/5/15           | 68.7    | 54.9          | 67.1     | 77.6               | 64.5           | 67.8       |
| 19    | [XVERSE-65B](https://cevalbenchmark.com/static/model.html?method=XVERSE-65B) | XVERSE Technology                               | Weight       | 2023/11/5           | 68.6    | 46.2          | 61.3     | 81.4               | 71             | 67.8       |
| 20    | [Aquila2-70B-Expr](https://cevalbenchmark.com/static/model.html?method=Aquila2-70B-Expr) | 北京智源人工智能研究院                          | Weight       | 2023/11/27          | 66.8    | 47.2          | 61.6     | 79.7               | 69.4           | 62         |
| 21    | [Nanbeige-16B-Base](https://cevalbenchmark.com/static/model.html?method=Nanbeige-16B-Base) | Nanbeige LLM Lab                                | Weight       | 2023/11/8           | 63.8    | 43.5          | 57.8     | 77.2               | 66.9           | 59.4       |
| 22    | [LingoWhale-8B](https://cevalbenchmark.com/static/model.html?method=LingoWhale-8B) | 深言科技(DeepLangAI)                            | Weight       | 2023/11/3           | 63.6    | 46.4          | 57       | 73.7               | 68.5           | 61.5       |
| 23    | [Qwen-7B v1.1](https://cevalbenchmark.com/static/model.html?method=Qwen-7B v1.1) | Alibaba Cloud                                   | Weight       | 2023/9/12           | 63.5    | 46.4          | 57.7     | 78.1               | 66.6           | 57.8       |
| 24    | [XVERSE-13B-2](https://cevalbenchmark.com/static/model.html?method=XVERSE-13B-2) | XVERSE Technology                               | Weight       | 2023/11/4           | 63.5    | 41.6          | 55.7     | 77.3               | 66             | 62.7       |  

### 1.2 重要领域能力对比

![综合能力](images/capability.png)

![领域能力](images/domain-capability.png)

从目前的各类benchmark来看，随着时间的推移，新出的大模型在语言能力，逻辑推理能力上都有了长足的进步，在部分早期模型无法实现的领域（例如工具调用，函数调用等），开源的大模型如今也有了对应的能力，不过和头部的大模型厂商OpenAI相比，在各类任务的zero-shot能力上差距较为明显，有待改进。

### 1.3 信息抽取任务在各个模型上的比较

Chinese Llama-2-13B-Chat

![Chinese Llama-2-13B-Chat](images/chinese-llama2-13b-chat.png)

gpt-3.5-turbo
![gpt-3.5-turbo](images/gpt-3.5-turbo.png)

百度文心一言
![WenXin](images/baidu-wenxin.png)

星火大模型
![Spark](images/xunfei-spark.png)

Llama2-70B-chat
![Llama2-70B-chat](images/llama2-70b-chat.png)

文本信息抽取任务对人类来说是一个比较简单的任务，而同一个问题输入不同的模型，得到的答案却各有不同，其中商用的三个大模型表现较为一致，都可以正确的找到答案，并且输出正确的格式，json对象的键也是对的，而中文Llama2模型虽然输出了正确的json格式，但是键的名称并不对应，同类的键也没有合并生成列表，虽然这些要求没有在输入中说明，但是这些细节对于人类来说应当算约定俗成的规则，至于英文的Llama2模型，没有输出正确的列表格式，虽然这只是一个表达的不同，但仍然不符合日常的书写习惯。

## 二、使用Python调用各类大语言模型的API

### 2.1 百度文心一言

![baidu wenxin](images/baidu-flow-graph.png)

百度的文心一言API优点在于提供了一种简单通用的方式来调用百度的大模型，鉴权、请求每一步都可以自己完成，可控性相对更高，缺点是不如直接调用官方的Python第三方库来的方便，而且需要自己完成鉴权、请求等步骤，相对来说比较繁琐，而且要配置的内容相比OpenAI等成熟的API来说更多。

另一个优势是百度在千帆大平台上支持了很多开源模型，如果本地没有足够的算力直接运行开源模型，可以通过百度提供的接口进行调用。

| 服务内容                                                     | 单价                                                    |
| ------------------------------------------------------------ | ------------------------------------------------------- |
| ERNIE-Bot 4.0大模型公有云在线调用服务(**输入**)              | 0.12元/千tokens (限时优惠，**~~原价0.15元~~/千tokens**) |
| ERNIE-Bot 4.0大模型公有云在线调用服务(**输出**)              | 0.12元/千tokens (限时优惠，**~~原价0.3元~~/千tokens**)  |
| ERNIE-Bot-8k大模型公有云在线调用服务(**输入**)               | 0.024元/千tokens                                        |
| ERNIE-Bot-8k大模型公有云在线调用服务(**输出**)               | 0.048元/千tokens                                        |
| ERNIE-Bot大模型公有云在线调用服务(**输入**)                  | 0.012元/千tokens                                        |
| ERNIE-Bot大模型公有云在线调用服务(**输出**)                  | 0.012元/千tokens                                        |
| ERNIE-Bot-turbo-0922大模型公有云在线调用服务(**输入**)       | 0.008元/千tokens                                        |
| ERNIE-Bot-turbo-0922大模型公有云在线调用服务(**输出**)       | 0.008元/千tokens (限时优惠，**~~原价0.012~~/千tokens**) |
| [ERNIE-Bot-turbo-AI原生应用](https://console.bce.baidu.com/ai_apaas/app) | 0.008元/千tokens                                        |

[百度产品价格](https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Blfmc9dlf)

In [2]:
!pip list
!pip install -r requirements.txt

Package                                  Version
---------------------------------------- --------------------
absl-py                                  2.0.0
accelerate                               0.25.0
aiofiles                                 23.2.1
aiohttp                                  3.8.4
aiosignal                                1.3.1
alembic                                  1.15.2
altair                                   5.2.0
annotated-types                          0.6.0
anthropic                                0.16.0
anyio                                    3.7.1
aot-x                                    1.5.3
argon2-cffi                              23.1.0
argon2-cffi-bindings                     21.2.0
arrow                                    1.3.0
asgiref                                  3.7.2
asttokens                                2.4.1
astunparse                               1.6.3
async-lru                                2.0.4
async-timeout                        

In [3]:
!pip uninstall -y websocket

[0m

In [4]:
import os
import requests
import json
from dotenv import load_dotenv

load_dotenv("../.env")

True

In [5]:
# 导入 lru_cache 装饰器，用于缓存函数的返回值，避免重复计算
from functools import lru_cache

# 定义一个基础的模型类 BaseLLM
class BaseLLM:
    # 使用 lru_cache 装饰器，设置缓存大小为 1024，缓存函数 chat 的返回值
    @lru_cache(maxsize=1024)
    def chat(self, text):
        # 调用内部函数 _chat 处理传入的文本
        return self._chat(text)
    
    # 定义一个内部函数 _chat，用于处理文本，需要在子类中实现具体逻辑
    def _chat(self, text):
        # 抛出 NotImplementedError 异常，提示子类需要实现该方法
        raise NotImplementedError

> 缓存是一种用来提高响应速度，降低成本的常用方法
> 最简单的缓存实现就是将输入和输出进行记录，当第二次出现相同的输入时，将不执行函数本体，而是直接返回输出，以节省执行函数本体的成本
> lru cache与最简单的缓存的区别是，引入了一种高效的缓存管理方案，因为最简单的方案随着函数执行次数的增加，输入输出对会累积的非常多，导致存储成本上升，因此lru cache引入了缓存的上限和缓存达到上限之后的替换机制，以确保存储成本的上界可以接受，并尽可能满足后续的缓存命中率。

In [6]:
# 导入必要的模块
import os
import requests
import json

# 定义 ErnieLLM 类，继承自 BaseLLM
class ErnieLLM(BaseLLM):
    """
    百度文心一言 ERNIE-Bot 参考文档：https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t
    """
    def __init__(self):
        self.key = self.key = os.getenv("BAIDU_WENXIN_HEADER_KEY")
        self.url = "https://qianfan.baidubce.com/v2/chat/completions"

    def _chat(self, text, messages=[]):
        """
        使用 ERNIE 生成回复
        """

        headers = {"Content-Type": "application/json"}

        # 构建请求体 payload，包括用户消息
        if not messages:
            # 如果没有历史消息，则将用户输入作为第一条消息
            messages = [{"role": "user", "content": text}]

        payload = json.dumps ({
            "model":"ernie-3.5-8k",
            "messages": messages
        })
        headers ={
            'Content-Type':'application/json',
            'Authorization':self.key
        }

        # 发送 POST 请求给 ERNIE，并获取回复结果
        response = requests.request("POST", self.url, headers=headers, data=payload)

        # 返回 ERNIE 生成的回复结果
        return response.json().get("choices")[0].get("message").get("content")

# ernie = ErnieLLM()
# print(ernie.chat("你好"))

### 2.2 星火大语言模型

讯飞星火大模型官方提供的调用方案是使用 websocket 进行流式传输，为了保证课程的流畅性和模型调用的一致性，我们使用开源社区第三方封装的星火大模型 API 进行调用。

在执行一下命令前，你需要先安装一下依赖包：

In [7]:
!pip install sparkdesk-api==1.5.0
!pip install websocket-client

Looking in indexes: http://mirrors.tencentyun.com/pypi/simple
Looking in indexes: http://mirrors.tencentyun.com/pypi/simple


In [8]:
# 导入必要的模块
from sparkdesk_api.core import SparkAPI

# 定义 SparkLLM 类，继承自 BaseLLM
class SparkLLM(BaseLLM):
    def __init__(self):
        # 初始化 SparkAPI 实例，传入环境变量中的 app_id、api_secret、api_key，并指定版本为 2.1
        self.llm = SparkAPI(
            app_id=os.getenv("SPARKDESK_APP_ID"),
            api_secret=os.getenv("SPARKDESK_API_SECRET"),
            api_key=os.getenv("SPARKDESK_API_KEY"),
            version=3.1
        )

    def _chat(self, text):
        # 调用 SparkAPI 实例的 chat 方法进行对话处理
        response = self.llm.chat(text)
        # 返回处理后的回复
        return response


### 2.3 OpenAI 的大语言模型

OpenAI 的大语言模型也就是我们常说的 ChatGPT，而在接口调用中，不同版本的模型有不同的代称：
- `gpt-3.5-turbo`: 最常用的版本，相对 gpt-4 而言价格更加优惠，响应速度也更快，缺点是逻辑能力稍差，上下文窗口仅有 4096，这在某些场景下可能会不够用。
- `gpt-4`: 逻辑能力更强，上下文窗口更大，但是价格更贵，响应速度也更慢。
- `gpt-3.5-0613`: 某个时间节点的模型快照，能力基本与 gpt-3.5-turbo 相当，实验中为了保证结果的一致性，可以选择该类带有时间节点的模型。

使用OpenAI的官方Python SDK可以方便我们接入许多不同的框架，OpenAI作为目前最流行的大模型供应商，其SDK内包含的许多功能值得我们探究。

而在 Python 中调用 OpenAI 的大语言模型，我们需要使用 OpenAI 官方提供的 Python SDK，安装方式如下：

In [9]:
!pip install openai

Looking in indexes: http://mirrors.tencentyun.com/pypi/simple


In [10]:
# 导入必要的模块
from openai import OpenAI

# 定义 OpenAILLM 类，继承自 BaseLLM
class OpenAILLM(BaseLLM):
    def __init__(self):
        # 初始化 OpenAI 实例，传入环境变量中的 api_key 和 base_url
        self.client = OpenAI(
            api_key=os.getenv("OPENAI_API_KEY"),
            base_url=os.getenv("OPENAI_API_BASE")
        )
        
    # def chat(self, text, messages=[], stops=None):
    #     # 调用 _chat 方法处理对话
    #     return self._chat(text, messages, stops)
        
    def chat(self, text, messages=[], stops=None):
        if not messages:
            # 如果没有历史消息，则将用户输入作为第一条消息
            messages = [{"role": "user", "content": text}]
        
        # 使用固定的 engine 发送对话请求，并获取回复结果
        response = self.client.chat.completions.create(
            model="gpt-3.5-turbo-0125",
            messages=messages,
            stream=False,
            stop=stops,
        )
        
        # 返回回复内容
        return response.choices[0].message.content

### 2.4 使用 OneApi 统一调用各类大语言模型的 API

[OneApi](https://github.com/songquanpeng/one-api) 是一套兼容 OpenAI 接口规范的大模型端口管理与分发系统，支持 Azure、Anthropic Claude、Google PaLM 2、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元，我们可以一次配置，在多处使用。

![Alt text](images/one-api.png)

如上图所示，我们可以把多个不同的大模型平台都接入到 OneApi 中，然后通过 OneApi 统一调用这些大模型的 API，对于某些具有多种调用途径的大模型，例如各种代理的OpenAI接口，在oneapi中配置相同的模型名称可以进行负载均衡调用，从而提高效率。

```python
# 导入必要的模块
import openai

# 定义 OneApiLLM 类，继承自 BaseLLM
class OneApiLLM():
    def __init__(self):
        # 设置 openai 的 api_key 和 api_base
        openai.api_key = os.getenv("ONEAPI_API_KEY")
        openai.api_base = os.getenv("ONEAPI_API_BASE")

    def _chat(self, text, stops=None):
        # 发送对话请求并获取回复结果
        response = openai.ChatCompletion.create(
            # 指定使用的模型为 chatglm3-6b
            model="chatglm3-6b",
            messages=[
                {"role": "user", "content": text},
            ],
            stream=False,
            stops=stops
        )
        # 返回回复内容
        return response.choices[0].message.content
```

### 2.5 使用 硅基流动API 调用大语言模型

[siliconflow](https://cloud.siliconflow.cn) 硅基流动主要提供模型云服务平台 SiliconCloud、大语言模型推理引擎 SiliconLLM、高性能文生图/视频加速库 OneDiff 等产品，让企业和个人用户高效、低成本地部署 AI 模型。想要体验全量的DeepSeek-R1和DeepSeek-V3等模型，我们可以使用SiliconCloud的API进行调用，非常方便。

首先进入硅基流动的官网进行注册和登录，页面如下：
![Alt text](images/1.jpg)

注册登录后，我们能看到首页的模型广场，这里面有硅基流动平台支持的各种大模型，以及对应的参数和价格说明。
![Alt text](images/2.jpg)

点击页面左侧的“API 密钥”选项：
<div align="center">
<img src="./images/3.jpg" width="200" alt="3">
</div>

随后点击“新建 API 密钥”，在弹出的窗口中填写密钥描述。这里可以自己随便命名。
<div align="center">
<img src="./images/4.jpg" width="900" alt="4">
</div>



新建后，我们将得到的密钥复制，就可以用于大模型的调用了！
<div align="center">
<img src="./images/api.jpg" width="900" alt="api">
</div>

仅仅有密钥还不能使用大模型，我们还需要客户端对API进行调用。Chatbox AI 是一款 AI 客户端应用和智能助手，支持众多先进的 AI 模型和 API，可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。我们首先打开Chatbox AI的官网：
<div align="center">
<img src="./images/5.jpg" width="900" alt="5">
</div>

这里我们选择网页版即可。需要的话也可以下载客户端版本或者手机版本。进入聊天界面后，选择下面的选项，使用自己本人的API：
<div align="center">
<img src="./images/6.jpg" width="900" alt="6">
</div>

这里有多种API可以选择，我们选择之前复制好的硅基流动的API，即siliconflow API。
<div align="center">
<img src="./images/7.jpg" width="400" alt="7">
</div>

复制API后，选择我们想要调用的模型：
<div align="center">
<img src="./images/8.jpg" width="700" alt="8">
</div>

这样就可以使用大模型了！非常方便。注意，硅基流动的API免费额度是有限制的，如果需要深度使用，可以结合官网收费选项进行购买。
<div align="center">
<img src="./images/money.jpg" width="900" alt="money.jpg">
</div>

## 三、Prompt 工程与人工智能应用

prompt 工程也称为提示工程，是指在大模型人工智能中，通过给定的提示文本，来引导模型生成特定的文本。在本节课中，我们将介绍 prompt 工程的基本原理和技巧，并探讨 prompt 工程的应用场景和案例。

提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。提示工程在实现和大语言模型交互、对接，以及理解大语言模型能力方面都起着重要作用。用户可以通过提示工程来提高大语言模型的安全性，也可以赋能大语言模型，比如借助专业领域知识和外部工具来增强大语言模型能力。

<div class="alert alert-warning">
提问：为什么需要各种各样的提示工程？
</div>

为什么需要各种各样的提示工程？这是因为大语言模型的能力是有限的，模型不可能凭空创造知识，不论是真实事件还是虚拟幻觉，模型的输出都是依赖于提供给模型的文本以及训练模型时固化在模型参数中的**知识**，它只能在有限的上下文中生成文本。如果我们想要让大语言模型生成特定的文本，就需要给它提供一些提示。提示工程就是为了提供这些提示而存在的。

下面给出一些简单的例子，来介绍提示工程的一些最基本的用法：

> 为了保证输出的美观性，请先安装 markdown-it 库，该库的作用是把模型输出的 markdown 格式的文本转换为 HTML 格式的文本。

In [11]:
!pip install markdown-it-py

Looking in indexes: http://mirrors.tencentyun.com/pypi/simple


### 3.1 Prompt 简要设计

In [12]:
# 导入必要的模块
from markdown_it import MarkdownIt
from IPython.display import display, HTML

# 创建 MarkdownIt 实例，配置为支持换行和 HTML 标签，并启用表格功能
md = MarkdownIt('commonmark', {'breaks': True, 'html': True}).enable('table')

def markdown_to_html(markdown_source):
    """
    将 Markdown 转换为 HTML 并显示
    """
    # 将输入的 Markdown 转换为 HTML
    html = md.render(markdown_source)
    # 在输出中显示转换后的 HTML
    display(HTML(html))

In [13]:
ernie_bot = ErnieLLM()
spark_bot = SparkLLM()
openai_bot = OpenAILLM()

In [14]:
res = spark_bot.chat("你是一名专业的计算机老师，请告诉我如何学习python，回答时请将要点加粗表达出来")

error code  11200
you can see this website to know code detail
https://www.xfyun.cn/doc/spark/%E6%8E%A5%E5%8F%A3%E8%AF%B4%E6%98%8E.html


In [15]:
openai_bot.chat("你是谁")

RateLimitError: Error code: 429 - {'error': {'message': 'Your account is not active, please check your billing details on our website.', 'type': 'billing_not_active', 'param': None, 'code': 'billing_not_active'}}

In [None]:
print(res)

In [None]:
markdown_to_html(res)

In [None]:
# 续写
# 天空真的
# 鲁迅是一个

# prompt_1 = "天空真的"
prompt_1 = "鲁迅是一个"
print("Ernie:")
markdown_to_html(ernie_bot.chat(prompt_1))
print("Spark:")
markdown_to_html(spark_bot.chat(prompt_1))
print("OpenAI:")
markdown_to_html(openai_bot.chat(prompt_1))

从上面的例子可以看到，有些模型的输出是直接跟在“鲁迅是一个”后面的，而有的模型则不会完全跟随用户输入的提示词，这是因为不同的模型对于提示的理解不同，跟模型在训练和微调时使用的语料是密切相关的，为了保证输出的一致性，我们可以通过简单调整提示：

In [None]:
# 续写
# 直接续写下面的句子，不要重复开头的句子
# 鲁迅是一个

prompt_1_1 = """直接续写下面的句子，不要重复开头的句子
鲁迅是一个
"""
display(HTML("<h3>Ernie:</h3>"))
markdown_to_html(ernie_bot.chat(prompt_1_1))
display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_1_1))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_1_1))

In [None]:
# 对话描述

prompt_1_2 = """
鲁迅是一个什么样的人
"""
display(HTML("<h3>Ernie:</h3>"))
markdown_to_html(ernie_bot.chat(prompt_1_1))
display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_1_2))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_1_2))

In [None]:
# 指令类型的prompt，一般是以陈述句的形式表达的，例如要求模型执行某项任务
# 帮我写一个Python快速排序函数

prompt_2 = """
帮我写一个Python快速排序函数，不要用递归的方式
"""

display(HTML("<h3>Ernie:</h3>"))
markdown_to_html(ernie_bot.chat(prompt_2))
display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_2))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_2))

快速排序的基本思想：通过一趟排序将待排记录分隔成独立的两部分，其中一部分记录的关键字均比另一部分的关键字小，则可分别对这两部分记录继续进行排序，以达到整个序列有序。

快速排序使用分治法来把一个串（list）分为两个子串（sub-lists）。具体算法描述如下：

1. 从数列中挑出一个元素，称为 “基准”（pivot）；
2. 重新排序数列，所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面（相同的数可以到任一边）。在这个分区退出之后，该基准就处于数列的中间位置。这个称为分区（partition）操作；
3. 递归地（recursive）把小于基准值元素的子数列和大于基准值元素的子数列排序。

![quick sort](./images/quick-sort.gif)

In [None]:
# 问答类型的prompt，一般是以问句的形式表达的，例如问某个问题，这种 prompt 的优势是接近人类对话的形式，并且通常在大语言模型的训练数据中有很好的覆盖，因此这种 prompt 模板的效果会好于单纯的指令类型的 prompt （针对一些比较复杂的场景）
# 问：Python快速排序函数的时间复杂度是多少？
# 答：
prompt_3 = """
问：Python快速排序函数的时间复杂度是多少？并一步一步解释为什么
答：
"""

display(HTML("<h3>Ernie:</h3>"))
markdown_to_html(ernie_bot.chat(prompt_3))
display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_3))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_3))

 ### 3.2 组件式 Prompt 设计
 
 那么，除了这些简单的用法之外，我们还可以使用什么样的技巧来设计更加有效的提示？在设计复杂的提示之前，我们要先了解提示的不同用途：

 - 基于对话的提示工程设计，这类提示工程的应用场景主要是聊天场景，例如闲聊机器人，语音助手或者客服机器人等，特点是任务无关的，可能的特点是人设模拟和对话风格设计，例如：闲聊机器人的人设模拟是一个 18 岁的女孩，对话风格是甜美可爱。
 - 基于任务的提示工程，这类提示工程的应用场景主要是 AI 原生应用，要求模型能够输出特定的文本，有特定的问答范围，例如实体抽取，文本分类，工具调用，这些任务的输出的阅读者很有可能不是人类，而是一些设计好的文本处理工具，例如 json 解析器，特定工具等

Prompt engineering 指的是设计和优化输入给人工智能（如语言模型）的提示（或称“prompt”）的过程，以期获得更精确、相关或有创意的输出。
而基本的提示结构存在一些共性：

1. 模型特征描述，人设定义，例如：你是一个计算机算法工程师，你是一个作家，你是一个医生等
2. 任务描述，例如：你要抽取文本中的实体，你要对文本进行分类，你要生成一篇文章等
3. 样例，例如：输入`<Input>` 输出 `<Output>` ，一般来说是输入输出对， 具体的，输入：今天天气真好，输出：positive
4. 任务输入，希望模型处理的输入
5. 输出格式描述，例如：输出是一个 json 格式的数据，输出是一个 markdown 格式的文本等，也可以更加细化，例如：输出是一个 json 格式的列表数据，列表中每个元素都是一个 json 格式的数据，每个数据都包含一个 title 和一个 content 字段，title 是一个字符串，content 是一个 markdown 格式的文本。这样的描述可以帮助模型更好的输出指定格式，便于后续处理程序的运行，优秀的模型可以良好的遵循格式描述信息。

而设计过程可以分为一下几点：
1. 目标定义：明确你希望从模型中获得什么样的信息或结果。这可能是一个问题的答案、创造性的文本、数据分析等。
2. 语境设定：构建一个背景或语境，帮助模型理解你的问题或请求。这可能包括相关信息、背景知识、特定的指示或前提条件。
3. 指令清晰度：确保你的指令清晰、具体，且直接相关于你的目标。避免歧义和过于复杂的表述。
4. 反馈循环：根据模型的输出对你的提示进行调整。这可能意味着改变问题的表述方式，添加更多的细节，或者重新定位你的问题。
5. 优化和迭代：通过重复测试和调整，优化你的提示以获得最佳结果。随着时间的推移，你可能需要根据新信息或模型更新来调整提示。
在实践中，这意味着要多次尝试不同的提示方式，观察哪种方式产生最好的结果，然后据此调整你的方法。prompt engineering 是一个动态过程，随着模型的学习和环境的变化而不断进化。

当然，不同任务的提示工程可能会有所不同，但是大体上都是遵循上面的结构，

下面我们用一个渐进式的例子来逐步介绍提示工程的结构：

首先，我们需要明确任务的目标，例如我们要用提示工程的方案让大模型将输入的一段文本中的命名实体抽取出来，第一次尝试我们使用最简单的提示词：

> 命名实体识别任务的目标是将一段自然语言文本中需要的片段抽取出来，并分配正确的类别
> 例如：“林丹是世界冠军”，这句话中，如果我们要抽取人名和荣誉两个类别命名实体，那么它的结果应该是{"人名": "林丹", "荣誉": "世界冠军"}

<!-- > 该任务的灵感来源自[GPT-NER: Named Entity Recognition via Large Language Models](https://arxiv.org/abs/2304.10428)
> 
> 样例来自[DuIE: A Large-scale Chinese Dataset for
Information Extraction](http://tcci.ccf.org.cn/conference/2019/papers/EV10.pdf) -->

In [None]:
prompt_4_1 = """请抽取出输入文本中的日期，人名，电影名，角色名
文本内容：
2月19日，96岁的资深演员侯焕玲离世，侯焕玲一生未嫁，但一直热爱电影，她曾在《回魂夜》和《喜剧之王》等电影饰演婆婆一角，而临终前侯焕玲一直说，自己好喜欢电影，好喜欢周星驰
"""
display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_4_1))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_4_1))

从上面的例子可以看到，我们的提示词是非常简单的，只是简单的描述了我们的任务目标，但是这样的提示词对于大模型来说是不够的，因为大模型不知道什么是日期，什么是人名，什么是电影名，什么是角色名，而且有些实体的类别从文本上看是重叠的，例如角色名和人名，从单独的文本片段来看，很难区分，必须通过上下文或者例子来区分，所以我们需要给模型提供更多的信息

In [None]:
prompt_4_2 = """这是一个命名实体抽取的任务，你要把输入文本中的命名实体原文提取出来，命名实体类别包括：
- 日期：一般是中文的日期表示，例如：3月5日，2021年3月5日，2021-3-5，2021/3/5,二月九日等
- 人名：代表人的真名而不是剧本中的名字，例如：《来魂日》里的演员猴还艺
- 电影名：电影剧集的名称，通常包含在书名号中，例如：来魂日
- 角色名：电影剧集中的角色名称，通常和电影名在一起出现，例如：《来魂日》中的角色是公公
文本内容：
2月19日，96岁的资深演员侯焕玲离世，侯焕玲一生未嫁，但一直热爱电影，她曾在《回魂夜》和《喜剧之王》等电影饰演婆婆一角，而临终前侯焕玲一直说，自己好喜欢电影，好喜欢周星驰
"""

display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_4_2))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_4_2))

通过观察上面的模型输出，我们可以看到，通过添加更多的提示词，模型的输出相比最简单的提示词已经有了一定的改变，但是模型并没有告诉我们选择这些文本作为实体的理由，假如我们希望模型能在输出结果的同时，一步一步的告诉我们为何选择（2月19日）作为实体类别（日期），我们可以通过添加一句简单的提示词来实现

```python
prompt = """这是一个命名实体抽取的任务，你要把输入文本中的命名实体原文提取出来，并一步步输出选择的理由，命名实体类别包括：
- 日期：一般是中文的日期表示，例如：3月5日，2021年3月5日，2021-3-5，2021/3/5等
- 人名：代表人的真名而不是剧本中的名字，例如：《来魂日》里的猴还艺
- 电影名：电影剧集的名称，通常包含在书名号中，例如：《来魂日》
- 角色名：电影剧集中的角色名称，通常和电影名在一起出现，例如：《来魂日》里的公公

2月19日，96岁的资深演员侯焕玲离世，候婆婆一生未嫁，但一直热爱电影，她曾在《回魂夜》和《喜剧之王》等电影饰演婆婆一角，而临终前候婆婆一直说，自己好喜欢电影，好喜欢周星驰
"""
```

In [None]:
prompt_4_2 = """这是一个命名实体抽取的任务，你要把输入文本中的命名实体原文提取出来，并一步步输出选择的理由，命名实体类别包括：
- 日期：一般是中文的日期表示，例如：3月5日，2021年3月5日，2021-3-5，2021/3/5等
- 人名：代表人的真名而不是剧本中的名字，例如：《来魂日》里的演员猴还艺
- 电影名：电影剧集的名称，通常包含在书名号中，例如：来魂日
- 角色名：电影剧集中的角色名称，通常和电影名在一起出现，例如：《来魂日》中的角色是公公
文本内容：
2月19日，96岁的资深演员侯焕玲离世，侯焕玲一生未嫁，但一直热爱电影，她曾在《回魂夜》和《喜剧之王》等电影饰演婆婆一角，而临终前侯焕玲一直说，自己好喜欢电影，好喜欢周星驰
"""

display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_4_2))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_4_2))

我们可以很明显的看到，添加一句简单的“并一步步输出选择的理由”，模型就能给每个实体都输出其选择的理由，这在许多需要解释理由的场景是非常有用的，甚至能提升一定的任务性能。

但是与此同时，我们注意到，模型输出的格式仍然更像人类的阅读习惯，而不是计算机程序更易读的可反序列化文本，并且这种格式并不足够稳定，解析起来费时费力，为了让大模型的输出可以更加高效的被后续处理工具解析，我们需要给模型提供更加明确的输出格式描述，例如：

> 我们在这里去掉了一步步输出选择的理由这个提示词，因为接下来我们将要输出的是一个 json 对象，跟人类的真正思考过程相去甚远，如果要加上甚至有可能适得其反，所以我们在这里去掉了这个提示词。当然读者若是有兴趣，可以尝试加上这个提示词，看看模型的输出会有什么变化。

In [None]:
prompt_4_3 = """这是一个命名实体抽取的任务，你要把输入文本中的命名实体原文提取出来，并使用 json 对象的格式输出，命名实体类别包括：
- 日期：一般是中文的日期表示，例如：3月5日，2021年3月5日，2021-3-5，2021/3/5等
- 人名：代表人的真名而不是剧本中的名字，例如：《来魂日》里的演员猴还艺
- 电影名：电影剧集的名称，通常包含在书名号中，例如：来魂日
- 角色名：电影剧集中的角色名称，通常和电影名在一起出现，例如：《来魂日》中的角色是公公
文本内容：
2月19日，96岁的资深演员侯焕玲离世，侯焕玲一生未嫁，但一直热爱电影，她曾在《回魂夜》和《喜剧之王》等电影饰演婆婆一角，而临终前侯焕玲一直说，自己好喜欢电影，好喜欢周星驰
"""

display(HTML("<h3>Spark:</h3>"))
markdown_to_html(spark_bot.chat(prompt_4_3))
display(HTML("<h3>OpenAI:</h3>"))
markdown_to_html(openai_bot.chat(prompt_4_3))

很好，通过这个例子，我们了解了提示工程的基本结构，以及如何设计一个有效的提示工程，并将大模型的能力转换为我们需要的格式并切入到我们过去传统的工作流中，完成对传统小模型的替换。当然，这类领域专业性较强的信息抽取任务对于未经过垂直领域数据的大模型来说，零样本抽取能力对比过去领域有监督微调的小模型（Bert 等）还是稍显不足的，但是我们相信随着数据收集的越来越丰富，模型架构越来越先进，一次训练处处推理的大模型将会成为未来的主流。

当然，上面介绍的这种提示工程设计方案并不是唯一的方案，不同的任务可能有不同的最佳实践，如果你的目标是将某一项任务优化到极致，那么你理所应当地要去钻研最佳提示词，但是如果你的目标是寻找一种广泛有效的提示词设计方案，那么你可以参考上面的提示词设计方案，并根据自己的任务特点进行调整，除此以外，你还可以借鉴下面的一些设计思路：

[Effective Prompt: 编写高质量Prompt的14个有效方法](https://mp.weixin.qq.com/s/kqm8IRXRb7CW7DKbN-XqIw)

模型的提示词更像是在软调参，我们希望在茫茫无穷的语句中找出对大模型最有效的提示词，这个过程是非常耗时的，虽然我们可以借鉴其他人的经验，但是不同的场景下，提示词的使用范围并不相同，那么除了直接调整输入模型的提示词格式以外，我们是否还有更加高效的办法让模型尽可能输出我们想要的答案呢？

答案是肯定的，那就是检索增强，也称 RAG。

<!-- Meta AI的研究人员提出了一种名为检索增强生成（[Retrieval Augmented Generation](https://ai.meta.com/blog/retrieval-augmented-generation-streamlining-the-creation-of-intelligent-natural-language-processing-models/)，RAG）的方法，用于处理知识密集型任务。RAG将信息检索组件与文本生成模型结合在一起。RAG可以进行微调，并且修改其内部知识的方式非常高效，无需重新训练整个模型。

RAG接收输入并检索出一组相关的文档，同时提供文档的来源（例如维基百科）。这些文档与输入的原始提示词结合在一起作为上下文，送入文本生成器生成最终的输出。这使得RAG能够更好地适应事实可能随时间变化的情况。这非常有用，因为语言模型的参数化知识是静态的。RAG使得语言模型能够获取最新的信息，而无需重新训练，并基于检索生成可靠的输出。
 -->


### 什么是检索增强 *Retrieval Augmented Generation*？

在理解检索增强的实现原理之前，我们要认识到大语言模型在落地AI原生应用时还存在哪些局限性。跟人类相比，大语言模型拥有的知识范围在一次问答中是固定的，仅仅局限于大模型在训练时所接触到的训练语料以及对话时传入的上下文信息，而真实的人类在进行对话时可以借助各类工具做出实时性更高的问答对话，例如：在对话中提到了一个时间，人类可以通过搜索引擎或者钟表来获取实时的时间信息，而大模型则无法做到这一点，因为大模型的知识是固化在模型参数中的，无法实时更新，对于实时变化的信息有着天然的局限性

<img src="./images/limitation.png" width = "600" alt="图片名称" align=center />


除了实时信息，另一个重要局限就是模型训练数据的有限性与自然世界领域的无限性之间的矛盾，例如世界上的细分领域如牛毛般多，尽管大模型在训练时已经尽可能搜集多的训练数据，但是局限于人力的有限，不可能在所有的细节上都得到充分的训练，并且许多的领域信息是高度保密的，例如军工，企业内部知识库等等，这些领域的知识是无法通过公开的数据集来获取的，而这些领域的知识又是在真实场景落地的重要组成部分，所以我们需要一种方法来让大模型能够获取这些领域的知识，而不是仅仅局限于训练数据中的知识。

综上，我们可以总结出大模型的两个重要局限性：

1. 实时性局限性：大模型的知识是固化在模型参数中的，无法实时更新，对于实时变化的信息有着天然的局限性
2. 领域性局限性：大模型的训练数据是有限的，无法覆盖所有的领域，对于未知领域的信息有着天然的局限性


为了解决这两个问题，我们需要一种方法来让大模型能够获取实时的信息，以及获取未知领域的信息，而这种方法就是检索增强，下面的图来自亚马逊AWS团队发布的一篇[博客](https://aws.amazon.com/cn/blogs/china/intelligent-search-based-enhancement-solutions-for-llm-part-three/)，基于智能搜索和大模型打造企业下一代知识库，我们可以借此一窥检索增强在实际应用中的作用。

<img src="./images/aws-architecture.png" width = "600" alt="图片名称" align=center />

在上面的架构图中，我们可以看到，检索增强的架构是由三部分组成的：

1. 数据处理，该部分通过各类定制化的数据解析工具将各类文本、非文本数据转换为文本，并根据数据特征进行分块、向量化处理，得到易于检索、易于理解的数据片段。
2. 数据存储，该部分将数据落入到企业内部的高效存储中，并结合过去业务积累的数据，形成一个企业级的知识库，该知识库可以通过各类传统的文本检索引擎进行匹配搜索，也可以使用向量化检索引擎进行相似度检索，除此以外还可以接入互联网搜索引擎，给模型的问答对话加入实时性的信息。
3. 人机交互，该部分是为了针对问答中各类问题的特点，设计出合适的人机交互方案，例如：对于一些简单的问题，可以直接使用大模型进行回复，而对于一些复杂的问题，可以先检索企业知识库，然后根据预先设定的问答对话状态机，将传统QA流程与大模型的问答对话流程进行结合，从而提升问答的效率与准确率。

前两部分是为了给大模型提供优质良好的检索信息，而第三部分则是为了让人类能够更好的与大模型进行交互，从而提升大模型的性能。



那么由此又引申出一个问题，我们该如何实现检索增强呢？该项技术的重点是如何检索，目前的检索方案有许多，例如关键字检索，模糊查询，向量化检索等等，而在这些方案中，如何兼顾检索的速度和检索内容与用户提问的相关性呢？

首先，我们需要明确的是，在大语言模型的应用中，检索不应该作为一个显式的功能提供给用户，而应该作为隐藏在冰山之下的一种技术，用户不应当感受到检索过程的存在，而应当感受到的是检索增强后的大模型的能力，而这种无缝切入用户问答过程中的检索，天然的不适用于关键字检索等技术，因为很难从用户的自然对话文本中提取出用户意向的关键字，直接使用整段文本进行检索反而是更加的方案。

所以我们需要一种检索方案，能够在保证检索速度的同时，尽可能的提升检索内容与用户提问的相关性，而这种方案就是向量化检索。

向量化检索的核心思想是朴素且直观的：

1. 将每个知识点进行向量化转换
2. 将用户提问进行向量化转换
3. 计算用户提问向量与每个知识点向量的相似度，选取最相似的 Top K 个知识点作为检索结果

![vector search](images/vector-search.svg)

而相似度检索常用的方法有余弦相似度，欧拉距离，下面我们用matplotlib简单绘制一下多个向量之间的相似度比较。

In [None]:
import numpy as np
import matplotlib.pyplot as plt  # plt是matplotlib.pyplot的简称，是Python中用于创建图形和图表的非常强大的库，广泛用于数据分析和可视化。

# 定义向量：使用np.array创建，例如vector1是一个二维数组，表示向量在x轴和y轴上的分量。
vector1 = np.array([1, 2])  # 向量(1, 2)
vector2 = np.array([3, 4])  # 向量(3, 4)
vector3 = np.array([2, 1])  # 向量(2, 1)

# 使用plt.quiver绘制向量：
# plt.quiver(x, y, u, v, ...)函数绘制向量场，这里用于绘制单个向量。
# 参数解释：
# - x, y是起点坐标（通常为原点0,0）。
# - u, v是向量在x轴和y轴上的分量。
# - angles='xy'表示分量u和v是直接的坐标增量。
# - scale_units='xy'和scale=1保持向量的长度与实际分量成比例。
# - color='r', label='Vector 1'设置向量颜色和标签。
plt.quiver(0, 0, vector1[0], vector1[1], angles='xy', scale_units='xy', scale=1, color='r', label='Vector 1')
# 同上，绘制其他向量。
plt.quiver(0, 0, vector2[0], vector2[1], angles='xy', scale_units='xy', scale=1, color='b', label='Vector 2')
plt.quiver(0, 0, vector3[0], vector3[1], angles='xy', scale_units='xy', scale=1, color='g', label='Vector 3')

# 设置坐标轴的限制，确保所有向量都能完全显示。
plt.xlim(0, 5)  # x轴范围从0到5
plt.ylim(0, 5)  # y轴范围从0到5

# 添加坐标轴标签。
plt.xlabel('X')
plt.ylabel('Y')

# 添加图例，解释每个颜色代表的向量。
plt.legend()

# 计算和标注向量间的夹角。使用向量点积公式：cos(θ) = A·B / (||A||*||B||)，
# 其中θ是夹角，A·B是点积，||A||和||B||分别是向量A和B的模。
# 计算得到余弦值之后，使用反余弦函数来得到他们的夹角
angle12 = np.arccos(np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2)))
# 使用plt.annotate和箭头属性来可视化夹角。
plt.annotate("", xy=(vector1[0], vector1[1]), xytext=(vector2[0], vector2[1]), arrowprops=dict(arrowstyle="->", lw=1, color='black'))
# 显示夹角的度数。
plt.text(2.5, 2.5, f'Angle 1-2: {np.degrees(angle12):.2f} degrees', fontsize=12)

# 绘制v1和v3之间的夹角
angle13 = np.arccos(np.dot(vector1, vector3) / (np.linalg.norm(vector1) * np.linalg.norm(vector3)))
plt.annotate("", xy=(vector1[0], vector1[1]), xytext=(vector3[0], vector3[1]), arrowprops=dict(arrowstyle="->", lw=1, color='black'))
plt.text(1.5, 1.5, f'Angle 1-3: {np.degrees(angle13):.2f} degrees', fontsize=12)


# 计算余弦相似度
cosine_similarity12 = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
cosine_similarity13 = np.dot(vector1, vector3) / (np.linalg.norm(vector1) * np.linalg.norm(vector3))
# 添加余弦相似度文本
plt.text(0.5, 4.5, f'Cosine Similarity 1-2: {cosine_similarity12:.2f}', fontsize=12)
plt.text(0.5, 4, f'Cosine Similarity 1-3: {cosine_similarity13:.2f}', fontsize=12)

# 显示图形
plt.grid()
plt.show()

接下来我们将使用一个简单的向量数据库来实现检索增强，这在模型没有训练过的场景上非常有效。

首先我们需要安装一些必要的依赖包：

In [None]:
!pip install faiss-cpu

我们可以通过如下的流程来实现大语言模型的检索增强，让大语言模型快速上手未训练过的领域

![Alt text](images/rag.png)

In [None]:
import json
import faiss
import requests
import numpy as np

hit_vd = faiss.IndexFlatL2(384) # 百度的嵌入模型词向量长度为384，这里参数与OpenAI的模型不相同

knowledge_list = [
    "剑桥大学的校长是马冬梅，马教授是一名计算机专业的教授，她的主要研究方向是自然语言处理",
    "牛津大学的软件学院院长是李磊，李教授是一名计算机专业的教授，他的主要研究方向是机器学习",
    "hit 有五万名学生",
    "wit 有三万名学生",
    "huts 的医学院是中部地区最好的医学院，最擅长临床医学的研究",
]

# 使用 百度 的模型生成对应的 embedding

@lru_cache(maxsize=1024)
def get_embedding(texts: tuple):
    texts = list(texts)
    if isinstance(texts, str):
        texts = [texts]
    url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/embeddings/embedding-v1?access_token=" + ernie_bot.ACCESS_TOKEN
    payload = json.dumps({
        "input": knowledge_list
    })
    headers = {
        'Content-Type': 'application/json'
    }

    resp = requests.request("POST", url, headers=headers, data=payload)
    response = resp.json()
    embs = [e["embedding"] for e in response["data"]]
    # print(response.text)
    return embs

# 生成 embedding
embs = get_embedding(tuple(knowledge_list))
print(len(embs))
# 将 embedding 添加到 faiss 索引中

hit_vd.add(np.array(embs).astype("float32"))

In [None]:
print("第一句话的词嵌入长度:",len(embs[0]))
print("第二句话的词嵌入长度:",len(embs[1]))

In [None]:
print(embs[0][:20])
print(len(embs[0]))

In [None]:
import faiss
import numpy as np

hit_vd = faiss.IndexFlatL2(1536)

knowledge_list = [
    "剑桥大学的校长是马冬梅，马教授是一名计算机专业的教授，她的主要研究方向是自然语言处理",
    "牛津大学的软件学院院长是李磊，李教授是一名计算机专业的教授，他的主要研究方向是机器学习",
    "hit 有五万名学生",
    "wit 有三万名学生",
    "huts 的医学院是中部地区最好的医学院，最擅长临床医学的研究",
]

# 使用 openai 的模型生成对应的 embedding

@lru_cache(maxsize=1024)
def get_embedding(texts: tuple, model="text-embedding-ada-002"):
    texts = list(texts)
    if isinstance(texts, str):
        texts = [texts]
    response = openai_bot.client.embeddings.create(
        input=texts,
        model=model,
    )
    # 使用指定的 model 对 texts 中的文本进行嵌入向量的生成。
    #openai_bot.client.embeddings.create 函数接收两个参数：input（待处理的文本列表）和 model（用于生成嵌入向量的模型）。
    embs = [e.embedding for e in response.data]
    return embs

# 生成 embedding
embs = get_embedding(tuple(knowledge_list))
# print(embs)
# 将 embedding 添加到 faiss 索引中

hit_vd.add(np.array(embs).astype("float32"))

In [None]:
print("第一句话的词嵌入长度:",len(embs[0]))
print("第二句话的词嵌入长度:",len(embs[1]))

In [None]:
print(embs[0][:20])
print(len(embs[0]))

In [None]:
# 提示文本
prompt_5 = "请告诉我牛津大学软件学院院长的研究方向是什么？"

# 获取查询向量
query_vector = get_embedding(prompt_5)[0]

# 使用 rag 检索增强方案搜索最相似的两个结果
distances, indices = hit_vd.search(np.array([query_vector]).astype('float32'), 2)

# 获取检索结果对应的知识列表
research_result = [knowledge_list[i] for i in indices.tolist()[0]]

# 将查询问题和检索到的答案转换为 HTML 并显示
markdown_to_html(f"查询的问题是：{prompt_5}\n检索到的答案是：{research_result}")

In [None]:
display(HTML("<h3>Spark without RAG:</h3>"))
markdown_to_html(spark_bot.chat(prompt_5))
display(HTML("<h3>Spark with RAG:</h3>"))
markdown_to_html(spark_bot.chat(f"从知识库中检索到了相关知识：：{research_result}\n{prompt_5}"))

#display(HTML("<h3>OpenAI without RAG:</h3>"))
#markdown_to_html(openai_bot.chat(prompt_5))
#display(HTML("<h3>OpenAI with RAG:</h3>"))
#markdown_to_html(openai_bot.chat(f"从知识库中检索到了相关知识：：{research_result}\n{prompt_5}"))

接下来让我们用一个更复杂的例子来感受检索增强的魅力。

在ChatGPT刚刚推出的时候，一个名为chatpdf的应用横空出世，他的主要功能是针对任意pdf文档提供知识问答服务，帮助用户在一个陌生的超长文档中快速找到自己想要的信息，并帮助用户快速理解文档内容，这在阅读新领域的论文时格外有效，因为论文中的专业术语很多，而且很多时候我们并不知道这些术语的含义，我们的身边也不一定会恰好有这些领域的专业人士，使用这类pdf阅读应用可以提升我们了解一个新领域的效率。

![ChatPDF](images/chatpdf.png)

接下来我们使用langchain来模拟实现chatpdf的核心功能：pdf文档阅读，在这个实验中，我们将使用时下流行的langchain工具包来调用我们的知识库，并使用pdf解析库来解析文档内容，最后使用大模型来完成问答对话。

首先，我们需要安装实验必须的langchain依赖库：

In [None]:
# !pip install langchain
#!pip install tiktoken

In [None]:
pip install pymupdf

In [None]:
import os
from dotenv import load_dotenv
import openai

load_dotenv("../.env")

openai_api_base = os.getenv("OPENAI_API_BASE")
openai.proxy = { "http": openai_api_base}

# openai_api_key = os.getenv('OPENAI_API_KEY')

In [None]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.text_splitter import CharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import PyMuPDFLoader

为了尽可能避免使用那些可能已经被训练过的pdf文本，我们选用今年新推出的一篇论文作为我们的pdf阅读理解实验文本

首先我们使用 pymupdf 库读取pdf文本，这个库的主要工作是解析pdf文档中的文本内容，因此要求文档必须有可解析的文字，而不是纯粹的图片内容，如果是图片内容，需要使用OCR工具进行解析处理，否则无法获取文本内容。

In [None]:
loader = PyMuPDFLoader("./files/2311.05556.pdf")
documents = loader.load()

然后我们需要将读取到的pdf文档内容进行分片，因为模型每次能够处理的文本是有限的，不可能一次性处理整个文档，我们将文本划分成小块，并用向量化模型对每个小块生成对应的文本检索向量，这样我们就能用用户输入的文本来检索这些分片，从而兼顾检索的效率和模型的生成效果。

In [None]:
# 使用 CharacterTextSplitter 对文档进行拆分
text_splitter = CharacterTextSplitter()
texts = text_splitter.split_documents(documents)

# 使用 FAISS.from_documents 方法构建索引
docsearch = FAISS.from_documents(texts, OpenAIEmbeddings())

In [None]:
# 初始化 OpenAI 模型
lc_openai_model = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY"),
    base_url=os.getenv("OPENAI_API_BASE")
)

# 查询文本
query = "Latent Consistency Models是什么？"

# 使用 docsearch 进行相似性搜索
docs = docsearch.similarity_search(query)

# 初始化相关内容字符串
relvants = ""

# 将检索到的文档内容连接起来
for i in range(len(docs)):
    relvants += docs[i].page_content

In [None]:
markdown_to_html("### 不使用pdf文档进行检索")
print(openai_bot.chat(query))

In [None]:
markdown_to_html("### 使用pdf文档进行检索")
print(openai_bot.chat(relvants + "\n" +query))

从上面的输出结果可以看到，在不使用检索增强的情况下，模型的输出效果并不理想，部分针对性的问题由于模型获取不到对应的知识，导致模型无法正确回复，甚至会出现幻觉问题，也就是不按照事实情况来回复用户的提问，这在许多追求真实性的场景中是非常致命的，例如：在医疗领域，模型回复的答案如果不是事实，可能会导致患者的误诊，这是非常严重的问题，好在我们使用检索增强的方案能够在一定程度上缓解这个问题，让模型有了落地的可能性。

## 四、大模型外部能力调用

受限于大模型训练的成本，模型训练使用的数据往往不是网络上最新的数据，例如 gpt-3.5-turbo 在刚推出时仅仅支持 2021年 9 月之前的数据，而在这个时间节点之后的数据模型并没有训练过，而为了弥补大模型在获取网络实时消息、调用各类不同工具的缺陷，OpenAI 推出了插件（Plugins）的功能，OpenAI ChatGPT 的插件每次可以勾选数个，每个都有可能被模型重复调用，如何调用，调用多少次都依赖于大语言模型自身的选择，下面是 OpenAI ChatGPT 插件的简要原理说明：

1. 用户输入问题，触发会话开始。
2. 根据用户当前安装并选中的插件，生成一个紧凑的插件描述，包括插件的描述、端点和示例。
3. 判断紧凑的插件描述与用户问题的相关性。如果相关性较低，则将用户问题交给GPT模型完成completion。如果相关性较高，则将插件信息和用户问题一起交给GPT模型，并进入下一步。
4. GPT模型选中相应的插件（例如wolfram）并抽取出槽位（例如输入为"123*456"）。
5. 插件执行器负责调用具体的API，并传入相应的参数。
6. 插件执行器执行插件操作，并将执行结果返回。
7. 插件执行器将执行结果和上下文传递给GPT模型，GPT模型完成completion。
8. GPT模型将生成的结果返回给用户。

![Alt text](images/function-call.png)

[OpenAI 插件开发](https://openai.xiniushu.com/docs/plugins/introduction)

在外部能力调用的过程中，模型主要使用了三个能力：

1. 工具（外部能力）选取的能力，模型需要根据用户输入的问题，选取合适的工具来完成用户的需求，例如：用户输入的问题是“今天天气怎么样”，模型需要选取天气工具来完成用户的需求，而不是选取其他工具，例如：计算器工具。
2. 参数抽取的能力，模型需要根据用户输入的问题，抽取出工具需要的参数，例如：用户输入的问题是“今天天气怎么样”，模型需要抽取出“今天”作为天气工具的参数，而不是抽取出“天气”作为天气工具的参数。
3. 多轮对话的能力，因为真实的场景下，用户的需求往往是复杂的，多次调用不同的工具是非常常见的情况，模型必须能够在多轮对话中保持上下文的一致性，从而完成复杂的任务。

而倘若让我们用纯粹的提示工程语句来实现外部能力的调用，我们需要设计一套可以有效的提示工程语句，让模型不仅可以选取用户提供的工具，还可以流畅的观察工具的完成情况，为此我们采用ReAct的提示工程设计思路来实现外部工具调用的能力，下面是一个简单的例子：

```text
你可以调用下面列出的函数来辅助完成用户提出的问题，函数的描述如下
- div_func(a: float, b: float)：除法函数
- mul_func(a: float, b: float)：乘法函数
- chat_func(text: str)：聊天函数

动作: <你要调用的函数名称>
函数输入: <输入函数的值，必须符合函数的输入参数要求，如果有多个值每个值之间用逗号分隔>
观察: <函数的输出结果>
思考: <你对接下来的思考>
```

同样的，我们首先描述了任务情况，明确指出要让模型调用工具函数来辅助完成用户的请求，然后给出可以调用的函数列表，函数名称、输入参数等于真实的函数表示一直，鉴于目前的大模型在各类代码数据集上应该已经训练的非常充分了，因此只需要明确的写出函数的参数类型，模型就足够理解函数的输入要求。

完成任务定义与函数描述之后，就是任务循环组件，该部分由四个块组成，动作、函数输入、观察以及思考，每个块都很简单明确，不过我们要注意大模型的截断条件，因为在观察之后的文本是由外部函数生成的，如果不在此处截断，模型就会开始生成事实无关的幻觉文本，导致调用失败。另一个要注意的是我们加入了思考块，让模型可以输出自己的思考过程，由于整个调用过程是循环记录的过程，因此当前时间段的思考也会被后续的生成过程观察到，因此模型可以在思考的基础上继续生成，从而完成更加复杂的任务。

为了更加直观地了解插件的内核，我们用上面学到的提示工程相关知识，设计一个简单的插件机制，让大模型可以调用我们设计好的插件，从而更加高效的完成任务
> [REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS](https://arxiv.org/abs/2210.03629)

![ReAct](images/ReAct.png)

我们借鉴了ReAct的设计思路，设计了一个简单的插件机制，让大模型可以调用我们设计好的插件，从而更加高效的完成任务，下面是一个简单的流程示意图

![func call flow](images/func-call-flow.svg)

In [None]:
from openai import OpenAI
# 定义 QwenLLM 类，继承自 BaseLLM， 其接口与gpt系列基本相同
class QwenLLM(BaseLLM):
    def __init__(self):
        # 初始化 QwenLLM 实例，传入环境变量中的 api_key 和 base_url
        self.client = OpenAI(
            api_key="sk-8709f7ed33dc402a8a9885a1a8ee403e", 
            base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
        )
        
        
    def chat(self, text, messages=[]):
        if not messages:
            # 如果没有历史消息，则将用户输入作为第一条消息
            messages = [{"role": "user", "content": text}]
        
        # 使用固定的 engine 发送对话请求，并获取回复结果
        response = self.client.chat.completions.create(
            model="qwen-turbo",
            messages=messages,
            temperature=0.8,
            top_p=0.8
        )
        
        # 返回回复内容
        return response.choices[0].message.content

qwen_bot = QwenLLM()

In [None]:
def div_func(a: float, b: float):
    """
    除法函数
    """
    return a / b

def mul_func(a: float, b: float):
    """
    乘法函数
    """
    return a * b

def chat_func(text: str):
    """
    聊天函数
    """
    return text
    

prompt_6 = """你可以调用下面列出的函数来辅助完成用户提出的问题，函数的描述如下
- div_func(a: float, b: float)：除法函数
- mul_func(a: float, b: float)：乘法函数
- chat_func(text: str)：聊天函数
你的输出必须满足如下的格式
动作: <你要调用的函数名称>
函数输入: <输入函数的值，必须符合函数的输入参数要求，如果有多个值每个值之间用逗号分隔>
观察: <函数的输出结果>
思考: 你对接下来的思考
你将会在观察中看到函数的输出结果，然后思考你的下一步行动，思考完后将进行下一轮动作和函数输入，每组之间不要重叠，如果已经找到了答案就执行 chat_func 函数

请问：1.5 除以 2.5 再乘以 3.5 是多少？直接告诉我答案
"""

def get_action_and_args(text: str):
    """
    解析输入的字符串，得到动作和参数
    """
    lines = [l for l in text.split("\n") if l.strip()]  # 将文本按行分割并去除空行
    action = ""  # 初始化动作为空字符串
    args = []  # 初始化参数列表为空
    for line in lines:  # 遍历每一行
        if line.startswith("动作:"):  # 如果行以"动作:"开头
            action = line.replace("动作:", "").strip()  # 提取动作内容并去除首尾空格
        elif line.startswith("函数输入:"):  # 如果行以"函数输入:"开头
            args = line.replace("函数输入:", "").strip().split(",")  # 提取参数内容并按逗号分割成列表
    return action, args  # 返回动作和参数列表

def tool_call(llm: QwenLLM, text: str):
    """
    调用工具函数，接受一个QwenLLM实例和文本作为参数
    """
    output = ""  # 初始化输出为空字符串
    loop_count = 0  # 初始化循环计数器为0
    messages = [{"role": "user", "content": text}]  # 初始化消息列表，包含用户的输入文本
    while loop_count < 10:  # 循环开始，最多循环10次
        loop_count += 1  # 每次循环计数器加1
        llm_output = llm.chat(text, messages)  # 调用llm的_chat方法，传入文本和消息列表
        print(llm_output.replace("\n\n", "\n"))  # 打印llm输出并替换连续的空行为单个空行
        messages += [{"role": "assistant", "content": llm_output}]  # 将助手返回的消息添加到消息列表中
        action, args = get_action_and_args(llm_output)  # 解析助手返回消息中的动作和参数
        if action and args:  # 如果存在动作和参数
            if action == "chat_func":  # 如果动作是"chat_func"
                output = chat_func(args[0])  # 调用chat_func函数并将结果赋给output
                break  # 跳出循环
            elif action == "div_func":  # 如果动作是"div_func"
                func_output = div_func(float(args[0]), float(args[1]))  # 调用div_func函数
            elif action == "mul_func":  # 如果动作是"mul_func"
                func_output = mul_func(float(args[0]), float(args[1]))  # 调用mul_func函数
            print(f"观察: {func_output}")  # 打印观察结果
            messages += [{"role": "user", "content": f"观察: {func_output}"}]  # 将观察结果添加到消息列表中
        else:  # 如果找不到对应的函数或参数传入错误
            messages += [{"role": "user", "content": "观察: 没有找到对应的函数或参数传入错误"}]  # 添加提示消息到消息列表
            continue  # 继续下一次循环

    return output  # 返回输出结果

In [None]:
markdown_to_html(tool_call(qwen_bot, prompt_6))

In [None]:
def div_func(a: float, b: float):
    """
    除法函数
    """
    return a / b

def mul_func(a: float, b: float):
    """
    乘法函数
    """
    return a * b

def chat_func(text: str):
    """
    聊天函数
    """
    return text
    

prompt_6 = """你可以调用下面列出的函数来辅助完成用户提出的问题，函数的描述如下
- div_func(a: float, b: float)：除法函数
- mul_func(a: float, b: float)：乘法函数
- chat_func(text: str)：聊天函数
你的输出必须满足如下的格式
动作: <你要调用的函数名称>
函数输入: <输入函数的值，必须符合函数的输入参数要求，如果有多个值每个值之间用逗号分隔>
观察: <函数的输出结果>
思考: 你对接下来的思考
你将会在观察中看到函数的输出结果，然后思考你的下一步行动，思考完后将进行下一轮动作和函数输入，每组之间不要重叠，如果已经找到了答案就执行 chat_func 函数

请问：1.5 除以 2.5 再乘以 3.5 是多少？直接告诉我答案
"""

def get_action_and_args(text: str):
    """
    解析输入的字符串，得到动作和参数
    """
    lines = [l for l in text.split("\n") if l.strip()]  # 将文本按行分割并去除空行
    action = ""  # 初始化动作为空字符串
    args = []  # 初始化参数列表为空
    for line in lines:  # 遍历每一行
        if line.startswith("动作:"):  # 如果行以"动作:"开头
            action = line.replace("动作:", "").strip()  # 提取动作内容并去除首尾空格
        elif line.startswith("函数输入:"):  # 如果行以"函数输入:"开头
            args = line.replace("函数输入:", "").strip().split(",")  # 提取参数内容并按逗号分割成列表
    return action, args  # 返回动作和参数列表

def tool_call(llm: OpenAILLM, text: str):
    """
    调用工具函数，接受一个OpenAILLM实例和文本作为参数
    """
    output = ""  # 初始化输出为空字符串
    loop_count = 0  # 初始化循环计数器为0
    messages = [{"role": "user", "content": text}]  # 初始化消息列表，包含用户的输入文本
    while loop_count < 10:  # 循环开始，最多循环10次
        loop_count += 1  # 每次循环计数器加1
        llm_output = llm.chat(text, messages, stops="观察:")  # 调用llm的_chat方法，传入文本和消息列表
        print(llm_output.replace("\n\n", "\n"))  # 打印llm输出并替换连续的空行为单个空行
        messages += [{"role": "assistant", "content": llm_output}]  # 将助手返回的消息添加到消息列表中
        action, args = get_action_and_args(llm_output)  # 解析助手返回消息中的动作和参数
        if action and args:  # 如果存在动作和参数
            if action == "chat_func":  # 如果动作是"chat_func"
                output = chat_func(args[0])  # 调用chat_func函数并将结果赋给output
                break  # 跳出循环
            elif action == "div_func":  # 如果动作是"div_func"
                func_output = div_func(float(args[0]), float(args[1]))  # 调用div_func函数
            elif action == "mul_func":  # 如果动作是"mul_func"
                func_output = mul_func(float(args[0]), float(args[1]))  # 调用mul_func函数
            print(f"观察: {func_output}")  # 打印观察结果
            messages += [{"role": "user", "content": f"观察: {func_output}"}]  # 将观察结果添加到消息列表中
        else:  # 如果找不到对应的函数或参数传入错误
            messages += [{"role": "user", "content": "观察: 没有找到对应的函数或参数传入错误"}]  # 添加提示消息到消息列表
            continue  # 继续下一次循环

    return output  # 返回输出结果

In [None]:
markdown_to_html(tool_call(openai_bot, prompt_6))

通过上面这个简单的实验，我们可以看到时至今日，大模型已经有了一定的外部工具调用的能力，不过如果仅仅使用我们自己写的提示词，模型调用工具的能力很难达到最优，因为如今的大模型在训练过程中大多数已经加入了类似工具学习的指令微调数据集，用以增强模型的外部工具调用能力，而他们在训练和优化过程中使用的提示词很难被我们猜到，因此，为了让模型在利用外部工具的能力上达到最优，最好的方案还是使用大模型厂商提供的函数调用能力，例如 OpenAI 提供的 function call，在 gpts 中提供的 actions 等，这些功能都是经过大模型厂商精心设计和优化过的，相对而言性能会更加优秀，结果也会更加稳定。

### 函数调用

这一小节我们将使用 OpenAI 提供的 function call 功能来实现上面的实验。

在开始我们的实验之前，我们需要修改一下在上面实现的 llm 类，让它可以支持 function call 的功能

In [None]:
from openai import OpenAI
# 定义 QwenLLM 类，继承自 BaseLLM， 其接口与gpt系列基本相同
class QwenLLM(BaseLLM):
    def __init__(self):
        # 初始化 QwenLLM 实例，传入环境变量中的 api_key 和 base_url
        self.client = OpenAI(
            api_key="sk-8709f7ed33dc402a8a9885a1a8ee403e", 
            base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
        )
        
        
    def chat(self, text, messages=[]):
        if not messages:
            # 如果没有历史消息，则将用户输入作为第一条消息
            messages = [{"role": "user", "content": text}]
        
        # 使用固定的 engine 发送对话请求，并获取回复结果
        response = self.client.chat.completions.create(
            model="qwen-turbo",
            messages=messages,
            temperature=0.8,
            top_p=0.8
        )
        
        # 返回回复内容
        return response.choices[0].message.content

In [None]:
class QwenTool(QwenLLM):
    def __init__(self, tools=[]):
        super().__init__()
        self.tools = tools

    def tool_chat(self, text, messages=[]):
        if not messages:
            messages = [{"role": "user", "content": text}]
        # 为了保证实验和课程的结果一致，这里使用了固定的 engine
        response = self.client.chat.completions.create(
            model="qwen-turbo",
            messages=messages,
            tools=self.tools
        )
        return response.choices[0].message

In [None]:
from openai import OpenAI

class OpenAITool(OpenAILLM):
    def __init__(self, tools=[]):
        super().__init__()
        self.tools = tools

    def tool_chat(self, text, messages=[], stops=None):
        if not messages:
            messages = [{"role": "user", "content": text}]
        # 为了保证实验和课程的结果一致，这里使用了固定的 engine
        response = self.client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=messages,
            stream=False,
            stop=stops,
            tools=self.tools
        )
        return response.choices[0].message

In [None]:
div_tool = {  # 用 JSON 描述函数。可以定义多个。由大模型决定调用谁。也可能都不调用
    "type": "function",
    "function": {
        "name": "div_func",
        "description": "除法函数",
        "parameters": {
            "type": "object",
            "properties": {
                "a": {
                    "type": "number",
                    "description": "被除数",
                },
                "b": {
                    "type": "number",
                    "description": "除数",
                },
            },
        },
    },
}

mul_tool = {  # 用 JSON 描述函数。可以定义多个。由大模型决定调用谁。也可能都不调用
    "type": "function",
    "function": {
        "name": "mul_func",
        "description": "乘法函数",
        "parameters": {
            "type": "object",
            "properties": {
                "a": {
                    "type": "number",
                    "description": "乘数",
                },
                "b": {
                    "type": "number",
                    "description": "乘数",
                },
            },
        },
    },
}

In [None]:
# 创建一个名为 'tools' 的列表，包含两个工具对象 'div_tool' 和 'mul_tool'。
tools = [div_tool, mul_tool]

# 创建一个 'QwenTool' 类的实例 'qwen_tool'，并将 'tools' 列表作为参数传递给这个实例。
qwen_tool = QwenTool(tools=tools)

# 定义一个名为 'func_call' 的函数，它接受一个 'QwenTool' 类型的模型 'model' 和一个字符串 'text' 作为参数。
def func_call(model: QwenTool, text: str):
    """
    调用工具函数
    """
    # 初始化一个空字符串 'output'，用于存储最终输出。
    output = ""
    # 初始化一个消息列表 'messages'，包含一个字典，表示用户的角色和发送的内容。
    messages = [{"role": "user", "content": text}]
    # 初始化一个循环计数器 'loop_cnt'，用于控制循环的次数。
    loop_cnt = 0
    # 使用一个 while 循环，当 'loop_cnt' 小于 10 时继续执行循环。
    while loop_cnt < 10:
        # 增加循环计数器 'loop_cnt' 的值。
        loop_cnt += 1
        # 调用模型的 'tool_chat' 方法，传入当前文本 'text' 和消息列表 'messages'，获取响应。
        llm_response = model.tool_chat(text, messages)
        # 将模型的响应添加到消息列表 'messages' 中。
        messages.append(llm_response)
        # 检查响应中是否包含工具调用 'tool_calls'。
        if llm_response.tool_calls is not None:
            # 如果有工具调用，遍历每个工具调用。
            for tool_call in llm_response.tool_calls:
                # 将工具调用中的参数从 JSON 字符串解析为 Python 字典。
                args = json.loads(tool_call.function.arguments)
                # 检查工具调用的函数名称是否是 'div_func'。
                if tool_call.function.name == "div_func":
                    # 如果是，调用除法函数 'div_func'，并将参数 'a' 和 'b' 转换为浮点数。
                    func_output = div_func(float(args["a"]), float(args["b"]))
                # 检查工具调用的函数名称是否是 'mul_func'。
                elif tool_call.function.name == "mul_func":
                    # 如果是，调用乘法函数 'mul_func'，并将参数 'a' 和 'b' 转换为浮点数。
                    func_output = mul_func(float(args["a"]), float(args["b"]))
                # 将工具调用的结果添加到消息列表 'messages' 中。
                messages.append({
                    "tool_call_id": tool_call.id,
                    "role": "tool",
                    "name": tool_call.function.name,
                    "content": str(func_output)
                })
                # 打印工具调用的详细信息，包括函数名称、输入参数和输出结果。
                print(f"调用了 {tool_call.function.name} 函数，输入参数为 {args}，输出结果为 {func_output}")
        # 如果响应中没有工具调用，结束循环。
        else:
            break
    # 将消息列表中最后一个消息的内容赋值给 'output' 变量。
    output = messages[-1].content
    # 返回最终的输出结果 'output'。
    return output

In [None]:
# 创建一个名为 'tools' 的列表，包含两个工具对象 'div_tool' 和 'mul_tool'。
tools = [div_tool, mul_tool]

# 创建一个 'OpenAITool' 类的实例 'openai_tool'，并将 'tools' 列表作为参数传递给这个实例。
openai_tool = OpenAITool(tools=tools)

# 定义一个名为 'func_call' 的函数，它接受一个 'OpenAITool' 类型的模型 'model' 和一个字符串 'text' 作为参数。
def func_call(model: OpenAITool, text: str):
    """
    调用工具函数
    """
    # 初始化一个空字符串 'output'，用于存储最终输出。
    output = ""
    # 初始化一个消息列表 'messages'，包含一个字典，表示用户的角色和发送的内容。
    messages = [{"role": "user", "content": text}]
    # 初始化一个循环计数器 'loop_cnt'，用于控制循环的次数。
    loop_cnt = 0
    # 使用一个 while 循环，当 'loop_cnt' 小于 10 时继续执行循环。
    while loop_cnt < 10:
        # 增加循环计数器 'loop_cnt' 的值。
        loop_cnt += 1
        # 调用模型的 'tool_chat' 方法，传入当前文本 'text' 和消息列表 'messages'，获取响应。
        llm_response = model.tool_chat(text, messages)
        # 将模型的响应添加到消息列表 'messages' 中。
        messages.append(llm_response)
        # 检查响应中是否包含工具调用 'tool_calls'。
        if llm_response.tool_calls is not None:
            # 如果有工具调用，遍历每个工具调用。
            for tool_call in llm_response.tool_calls:
                # 将工具调用中的参数从 JSON 字符串解析为 Python 字典。
                args = json.loads(tool_call.function.arguments)
                # 检查工具调用的函数名称是否是 'div_func'。
                if tool_call.function.name == "div_func":
                    # 如果是，调用除法函数 'div_func'，并将参数 'a' 和 'b' 转换为浮点数。
                    func_output = div_func(float(args["a"]), float(args["b"]))
                # 检查工具调用的函数名称是否是 'mul_func'。
                elif tool_call.function.name == "mul_func":
                    # 如果是，调用乘法函数 'mul_func'，并将参数 'a' 和 'b' 转换为浮点数。
                    func_output = mul_func(float(args["a"]), float(args["b"]))
                # 将工具调用的结果添加到消息列表 'messages' 中。
                messages.append({
                    "tool_call_id": tool_call.id,
                    "role": "tool",
                    "name": tool_call.function.name,
                    "content": str(func_output)
                })
                # 打印工具调用的详细信息，包括函数名称、输入参数和输出结果。
                print(f"调用了 {tool_call.function.name} 函数，输入参数为 {args}，输出结果为 {func_output}")
        # 如果响应中没有工具调用，结束循环。
        else:
            break
    # 将消息列表中最后一个消息的内容赋值给 'output' 变量。
    output = messages[-1].content
    # 返回最终的输出结果 'output'。
    return output

In [None]:
prompt_7 = "请问：1.5 除以 2.5 再乘以 3.5 是多少？请告诉我答案"
#markdown_to_html(func_call(openai_tool, prompt_7))
markdown_to_html(func_call(qwen_tool, prompt_7))

接下来我们使用一个更复杂的例子来感受函数调用的魅力。

每年高考季，各类志愿填报网站就会变得非常热门，因为高考成绩是决定一个人未来命运的重要因素，而填报志愿是决定一个人未来学习环境的重要因素，而了解学校的过往分数线是了解一个学校的重要途径，相比完整的表格，自然语言的阐述更加的贴近日常对话，也更能让用户接受志愿建议，为此，我们收集了部分学校在过去几年的平均分数线（数据仅供参考，不保证数据的真实性），并将数据存储在关系数据库sqlite中，下面是数据的部分截图

![gaokao database](images/gaokao-database.png)

我们的目标是让大模型能够根据用户的提问（例如：“我今年在武汉考了六百四十分，我可以上什么学校比较有把握呢？”），撰写sql查询语句，并根据查询的结果或者查询失败的原因，给出合理的回复。我们接着使用OpenAI的函数调用能力来实现这个功能。

In [None]:
# 实现一个函数，传入一条sql语句，返回查询结果，返回是一个字典列表，每个字典是一条记录

import sqlite3


def gaokao_query(sql: str):
    """
    查询高考录取分数
    """
    conn = sqlite3.connect("./files/gaokao.db")
    cursor = conn.cursor()
    cursor.execute(sql)
    rows = cursor.fetchall()
    columns = [c[0] for c in cursor.description]
    results = []
    for row in rows:
        results.append(dict(zip(columns, row)))
    conn.close()
    return results

In [None]:
sql_tool_desc = """使用sql语句查询学校及其录取分数线，数据存储在sqlite数据库中，数据有四个字段，分别是学校，文理科，招生省份和平均分数，查询出来的结果可能会有很多，请尽量使用 limit 语句限制输出数量，例如：
查询语句：
select * from gaokao where 学校 = '北京大学' and 文理科 = '文科' limit 2
查询结果：
[{'学校': '北京大学', '文理科': '文科', '招生省份': '天津', '平均分数': 690.5},
 {'学校': '北京大学', '文理科': '文科', '招生省份': '吉林', '平均分数': 686.6}]
"""

sql_tool = {
    "type": "function",
    "function": {
        "name": "sql_func",
        "description": sql_tool_desc,
        "parameters": {
            "type": "object",
            "properties": {
                "sql": {
                    "type": "string",
                    "description": "SQL语句",
                },
            },
            "required": ["sql"],
        },
    },
}

In [None]:
sql_qwen_tool = QwenTool(tools=[sql_tool])

def sql_func_call(model: QwenTool, text: str):
    """
    调用工具函数
    """
    # 1. 解析输入的字符串
    # 2. 调用对应的函数
    # 3. 输出结果
    # 4. 输出思考
    output = ""
    messages = [{"role": "user", "content": text}]
    loop_cnt = 0
    while loop_cnt < 10:
        loop_cnt += 1
        llm_response = model.tool_chat(text, messages)
        messages.append(llm_response)
        if llm_response.tool_calls is not None:
            for tool_call in llm_response.tool_calls:
                args = json.loads(tool_call.function.arguments)
                if tool_call.function.name == "sql_func":
                    func_output = gaokao_query(args["sql"])
                # 如果没有正确调用sql_func，可能导致下面的内容出错，此时重新执行即可。
                messages.append({
                    "tool_call_id": tool_call.id,
                    "role": "tool",
                    "name": tool_call.function.name,
                    "content": str(func_output) if len(str(func_output)) < 3000 else str(func_output)[:3000] + "..."
                })
                markdown_to_html((f"调用了 {tool_call.function.name} 函数，输入参数为 {args}，输出结果为 {func_output}"))
        else:
            # print(messages)
            # output = model.tool_chat(text, messages)
            break
    output = messages[-1].content
    return output

In [None]:
sql_openai_tool = OpenAITool(tools=[sql_tool])

def sql_func_call(model: OpenAITool, text: str):
    """
    调用工具函数
    """
    # 1. 解析输入的字符串
    # 2. 调用对应的函数
    # 3. 输出结果
    # 4. 输出思考
    output = ""
    messages = [{"role": "user", "content": text}]
    loop_cnt = 0
    while loop_cnt < 10:
        loop_cnt += 1
        llm_response = model.tool_chat(text, messages)
        messages.append(llm_response)
        if llm_response.tool_calls is not None:
            for tool_call in llm_response.tool_calls:
                args = json.loads(tool_call.function.arguments)
                if tool_call.function.name == "sql_func":
                    func_output = gaokao_query(args["sql"])
                # 如果没有正确调用sql_func，可能导致下面的内容出错，此时重新执行即可。
                messages.append({
                    "tool_call_id": tool_call.id,
                    "role": "tool",
                    "name": tool_call.function.name,
                    "content": str(func_output) if len(str(func_output)) < 3000 else str(func_output)[:3000] + "..."
                })
                markdown_to_html((f"调用了 {tool_call.function.name} 函数，输入参数为 {args}，输出结果为 {func_output}"))
        else:
            # print(messages)
            # output = model.tool_chat(text, messages)
            break
    output = messages[-1].content
    return output

In [None]:
#print(sql_func_call(sql_openai_tool, "请问：北京大学文科在天津的录取分数是多少？"))
print(sql_func_call(sql_qwen_tool, "请问：北京大学文科在天津的录取分数是多少？"))

In [None]:
#print(sql_func_call(sql_openai_tool, "我今年在浙江省高考考了650分，请问我这个分数有什么学校推荐吗？"))
print(sql_func_call(sql_qwen_tool, "我今年在浙江省高考考了650分，请问我这个分数有什么学校推荐吗？"))

In [None]:
#print(sql_func_call(sql_openai_tool, "请问：在招生省份：浙江，平均分数低于650分的学校有哪些，降序排序，给出前10"))
print(sql_func_call(sql_qwen_tool, "请问：在招生省份：浙江，平均分数低于650分的学校有哪些，降序排序，给出前10"))

### OpenAI Assistant API

OpenAI Assistant API 使开发者能够将先进的人工智能功能整合到他们的应用程序中。这个API基于最新的机器学习和自然语言处理技术，提供了文本生成、语言翻译、摘要和问答等多种功能。它能够处理复杂和微妙的人类语言，适用于客户服务、内容创作和数据分析等多个领域。API的灵活架构使其可以根据不同行业的特定用途进行定制。此外，API不断进行更新和改进，融入人工智能研究的最新进展。

Assistant API出现前有哪些问题：
- 无法预先学习客户提供的知识，比如我没办法让它读完一本新写的书，因为这本书不在它的知识库里；
- 没有连续对话支持，每次调用它的 API 都需要发送对话的全部上下文，而这个上下文是有长度限制的；
- 没有真正的推理和执行能力，在数学计算方面尤其明显，它很可能给你一个错误的计算结果，因为它并没有真正的执行计算；

Assistant API的主要功能：

- Threading：提供持久保存且无限长度的上下文，开发人员可以不用关心上下文的存储了，而且更省钱
- Knowledge Retrieval：检索用户上传的文件内容，并在未来可能支持开发者自定义检索方式
- Code Interpreter：执行用户上传的脚本文件来解决问题，可以上传多个脚本，AI 自己会选择何时执行
- Function Calling：调用第三方函数，只需要告诉 AI 函数功能和请求格式，AI 自己会选择何时执行

下面我们通过 OpenAI Assistant API 来重新实现高考志愿推荐助手的逻辑，让我们看看这样是否会有不同，另外，你是用代码创建的 OpenAI Assistant 也可以在你的 [playground](https://platform.openai.com/playground?mode=assistant) 中找到。

In [None]:
assistant = openai_bot.client.beta.assistants.create(
    # 指定了Assistant的名称
    name="高考志愿咨询助手",
    # 定义Assistant的指令和它的角色
    instructions="你是一位高考志愿的填报专家，你可以查询高校在各个省份的文理科录取分数线，你要根据输入给出合适的志愿建议，并回答用户的相关问题，根据用户所在省份来选择招生省份。",
    # 指定Assistant使用的OpenAI模型
    model="gpt-3.5-turbo",
    # 列出Assistant可以使用的工具，这里是代码解释器
    tools=[sql_tool, {"type": "code_interpreter"}]
)

In [None]:
# 一个thread代表一个对话窗口。我们建议在用户发起对话后立即为每个用户创建一个thread。 
thread = openai_bot.client.beta.threads.create()

# 在这个thread中添加一条用户提问，让我们预设好的assistant来回答
openai_bot.client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="我是一个理科生，招生省份是浙江省，今年高考考了650分，请问有什么学校推荐吗？请给我推荐保底的学校，以及冲刺的学校。",
)

In [None]:
# 添加完成之后我们创建一个run
run = openai_bot.client.beta.threads.runs.create(
  thread_id=thread.id,
  assistant_id=assistant.id,
  instructions="请给出合适的学校推荐，并给出详细理由",
)

In [None]:
import time

# 创建完成并不会立刻开始运行，需要轮询run的状态，直到状态变成completed
while True:
    run = openai_bot.client.beta.threads.runs.retrieve(thread_id=thread.id, run_id=run.id)
    # 根据run的状态来判断执行何种操作
    # 若果正在排队或者正在处理生成结果，那么继续等待即可
    if run.status in ["queued", "in_progress"]:
        print(run.status)
        run = openai_bot.client.beta.threads.runs.retrieve(thread_id=thread.id, run_id=run.id)
    # 如果是已完成，那么就跳出这个循环
    elif run.status == "completed":
        print(run.status)
        break
    # 如果run的过程中需要使用我们预先传入的一些函数，例如 sql_tool 函数，那么它的状态就会变成 requires_action
    elif run.status == "requires_action":
        require_action = run.required_action
        func_call_outputs = []
        print(require_action)
        # 遍历本次需要使用的工具函数列表，因为有可能一次调用多个函数
        for tool_call in require_action.submit_tool_outputs.tool_calls:
            print(tool_call.function.name)
            # 因为我们只有一个 sql_func 函数，因此只进行这个的判断
            if tool_call.function.name == "sql_func":
                args = json.loads(tool_call.function.arguments)
                func_output = gaokao_query(args["sql"])
                # 调用完成之后，将返回结果包装成对应的结构加入到 func_call_outputs 列表中
                func_call_outputs.append({"output": str(func_output), "tool_call_id": tool_call.id})
                markdown_to_html(f"调用了 {tool_call.function.name} 函数，输入参数为 {tool_call.function.arguments}，输出结果为 {func_output}")
        # 将工具调用的结果传回 openai
        run = openai_bot.client.beta.threads.runs.submit_tool_outputs(
            thread_id=thread.id,
            run_id=run.id,
            tool_outputs=func_call_outputs
        )
    continue

In [None]:
# 运行完成后，我们可以查看run的结果
messages = openai_bot.client.beta.threads.messages.list(
  thread_id=thread.id
)

In [None]:
# 最后我们可以将结果输出
#markdown_to_html(messages.data[0].content[0].text.value)
print(messages.data[0].content[0].text.value)

在这里，assistant api集成了function calling和rag的功能，所以这些功能之间没有替代关系，在前半部分我们说明了两个功能分别能干什么，然后讲述了assistant api的集成功能。

## 课程小结

1. 在本章节中，我们比较了目前市面上的主流的商业大模型和开源大模型的能力，学习了如何使用Python调用各类在线大模型平台的接口，并使用接口完成一些特定的问答任务。
2. 第二部分，我们学习了如何使用提示工程的方法来设计一个有效的提示词，让大模型可以完成我们想要的任务，同时我们还学习了如何使用检索增强的方法来让大模型可以快速上手未训练过的领域。
3. 第三部分，我们学习了如何使用大模型的外部能力调用，让大模型可以调用我们设计好的插件，从而更加高效的完成任务。
4. 第四部分，我们学习了如何使用 OpenAI Assistant API 来让第三方应用也可以间接调用 code interpreter，进一步提升应用的智能化程度。

## Reference 引用
- [Prompt Engineering](https://www.promptingguide.ai/zh)
- [Biadu Wenxin](https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Slkkydake)
- [星火大语言模型](https://www.xfyun.cn/doc/spark/Web.html)
- [OpenAI API](https://beta.openai.com/docs/api-reference/introduction)
- [OpenAI Plugins](https://platform.openai.com/docs/plugins/introduction)
- [OpenAI Actions](https://platform.openai.com/docs/actions)
- [OpenAI Assistant API](https://platform.openai.com/docs/assistants/overview)

## 环境配置
<div class="alert alert-info">
    
1. **sparkdesk-api**
   作用：是讯飞星火认知大模型的API接口，主要支持Web模式和API模式两种调用方法
2. **openai**
   作用：是由OpenAI公司提供的第三方Python库，用于调用OpenAI的模型
3. **faiss-cpu**
   作用：Faiss是一个用于高效相似性搜索和密集向量聚类的库，这里安装的faiss-cpu是其对应的CPU版本
4. **langchain**
   作用：大模型的API是无法联网的，因此检索信息并给出回答、总结PDF文档的内容、基于在线视频进行问答等功能肯定是无法实现的。因此需要langchain第三方库，将模型与外部数据源进行连接，让模型基于额外提供的数据生成回复
5. **pymupdf**
   作用：用于处理PDF文件的Python库。可以以解析文本框的方式读取、编辑和操作PDF文档，适用于需要程序化处理PDF的应用
6. **numpy**
   作用：用于科学计算的第三方库，提供了支持大规模多维数组和矩阵运算的功能，以及大量的数学函数库
7. **matplotlib**
   作用：用于将数据进行可视化的第三方库，支持生成各种类型的图表和图形
8. **tiktoken**
   作用：tiktoken是OpenAI开源的第三方库，主要实现了tokenizer的BPE（Byte pair encoding）分词算法，并对运行性能做了优化
