## 16.2 开源大语言模型部署应用
- **目录**
  - 16.2.1 Gradio部署开源大语言模型
    - 16.2.1.1 Gradio简介
    - 16.2.1.2 使用Gradio部署基于LLM的聊天机器人
  - 16.2.2 Ollama与Open WebUI部署开源大语言模型
    - 16.2.2.1 Ollama与Open WebUI简介
    - 16.2.2.2 Ollama部署大语言模型的过程

- 用于开源大语言模型部署和应用的程序和工具有很多，比如LangChain(包括Web LangChain和LangServe等), FastChat, vLLM, LLMStack, llama.cpp, Gradio, Ollama, Open WebUI等。
- 下面使用Gradio和Ollama两个开源软件，部署和应用开源LLMs。

### 16.2.1 Gradio部署开源大语言模型

#### 16.2.1.1 Gradio简介

- Gradio是一个开源的 Python 库，它允许你快速地为机器学习模型创建可交互的网页界面。使用Gradio，研究人员和开发人员可以方便地展示他们的工作，使得非技术用户也能够轻松地尝试机器学习模型的功能，无需进行复杂的安装或设置。
- **核心特性：**
  - **易用性**：
    - Gradio 可以用几行代码就将机器学习模型变为交互式应用。它提供了各种输入和输出组件，如文本框、图像上传、滑块等。
  - **灵活性**：
    - 支持多种数据类型的输入和输出，包括文本、图像、音频和视频。
  - **兼容性**：
    - 可以与 TensorFlow、PyTorch、scikit-learn 等主流机器学习框架无缝集成。
  - **即时反馈**：
     - 用户可以实时看到他们输入数据的模型预测结果，这是一个强大的特性，尤其是在演示模型时。
  - **共享和部署**：
    - Gradio 提供了一个链接，通过这个链接其他用户可以访问你的模型，无需设置服务器或使用云服务。
  - **隐私保护**：
    - 所有数据都在用户的本地计算机上处理，不通过外部服务器。
  - **集成到科学生态系统**：
    - 可以集成到 Jupyter 笔记本或 Python 脚本中。
  - **定制化**：
    - 提供了样式和布局的自定义选项，以及用于更复杂交互的接口供了样式和布局的自定义选项，以及用于更复杂交互的接口。

- Gradio为用户自己设计的机器学习模型、API或任何Python函数构建一个简单的演示系统或Web应用程序。
- 用于展示模型的输入和输出，不仅有助于模型开发者更好地理解模型的行为，也为最终用户提供了一个可以更直观地输入数据并查看模型的预测结果。
- 可以利用Gradio内置的分享功能在几秒钟内部署Web应用程序，且无需JavaScript、CSS或Web托管经验！
- **安装**
  - 先决条件：Gradio需要Python 3.8或更高版本。
  - 推荐使用pip来安装Gradio，它默认包含在Python中。在终端或命令提示符中运行以下命令：
```python
pip install gradio
```

- 为了代码更易读，在Python程序中导入Gradio时，将其名字简化为gr。这是一个大家应该遵循的约定，便于他人理解代码。
- 运行你的代码。
  - 如果将Python代码写在一个名为app.py的文件中，那么可以从终端运行python app.py。
  - 如果从文件运行，可在浏览器中打开http://localhost:7860。
  - 如果上述程序在Jupyter或JupyterLab内运行，演示将嵌入在notebook内。

In [1]:
import gradio as gr

def greet(name, intensity):
    return "Hello, " + name + "!" * int(intensity)

demo = gr.Interface(
    fn=greet,
    inputs=["text", "slider"],
    outputs=["text"],
)

demo.launch()

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.




IMPORTANT: You are using gradio version 4.31.5, however version 4.44.1 is available, please upgrade.
--------


- 理解Interface类
  - 通过创建了一个gr.Interface类实例可以创建演示。
  - Interface类旨在为接受一个或多个输入并返回一个或多个输出的机器学习模型创建演示。
- Interface类有三个核心参数：
  - fn：要围绕用户界面(UI)包装的函数，此参数非常灵活--可以传递任何的想用UI包装Python函数。
  - inputs：用于输入的Gradio组件。组件数量应与函数的参数数量相匹配。
  - outputs：用于输出的Gradio组件。组件数量应与函数的返回值数量相匹配。
  - input和output参数接受一个或多个Gradio组件。
    - Gradio包括30多个内置组件（如gr.Textbox()、gr.Image()和gr.HTML()组件），这些组件专为机器学习应用程序设计。
    - 对于inputs和outputs参数，你可以将这些组件的名称作为字符串("textbox")传递，或者传递类的实例(gr.Textbox())。
    - 如果编写的函数接受不止一个参数，如上文所述，向inputs传递输入组件的列表，并使每个输入组件对应于函数的一个参数。
    - 如果函数返回不止一个值：简单地传递输出组件的列表给outputs。
- 上述各种灵活性使得Interface类功能更加强大。

- Gradio在`launch()`中设置`share=True`，就会为演示创建一个公共可访问的URL。
- 将上述代码做一点修改，会生成公共URL，比如 https://376ea772521e6fd04e.gradio.live。

In [2]:
import gradio as gr

def greet(name):
    return "Hello " + name + "!"

demo = gr.Interface(fn=greet, inputs="textbox", outputs="textbox")

demo.launch(share=True)  # 通过一个额外的参数分，分享你的演示

Running on local URL:  http://127.0.0.1:7861
IMPORTANT: You are using gradio version 4.31.5, however version 4.44.1 is available, please upgrade.
--------
Running on public URL: https://51f692adabedf0fd05.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




#### 16.2.1.2 使用Gradio部署基于LLM的聊天机器人

- Gradio还包括另一个高级类，gr.ChatInterface，它专门设计用来创建聊天机器人UI。
  - 该类与Interface类似，用户提供一个函数，Gradio就会创建一个完整的聊天机器人UI。
- 下面是ChatInterface的基本用法：

-  **（1）导入Gradio**：首先在你的Python脚本中导入gradio库。

In [12]:
import gradio as gr

- **（2）定义回复函数**：需要一个函数，`ChatInterface`将使用它来响应用户输入。例如，这可以是一个接受字符串并返回字符串的函数。

In [18]:
import gradio as gr
def echo(message, history):
    return '你好， ' + message["text"]


  -  **（3）创建ChatInterface**：接下来，通过将回复函数传递给参数fn，然后定义对话所需的其他参数来创建`ChatInterface`的实例。

In [23]:
chatbot = gr.ChatInterface(
    fn=echo,
    examples=[{"text": "张三"}, {"text": "李四"}, {"text": "王五"}],
    title="聊天机器人",
    multimodal=True,
)

  - **（4）启动接口**：最后启动聊天接口。

In [24]:
chatbot.launch()

Running on local URL:  http://127.0.0.1:7866

To create a public link, set `share=True` in `launch()`.




- `ChatInterface`可以连接到更复杂的机器学习模型，这些模型处理用户的输入，根据上下文提供响应，并进行更动态的对话。
- 下面是使用Gradio部署开源大语言模型的代码示例：

In [None]:
from transformers import AutoTokenizer, AutoModel
import gradio as gr
# 模型保存路径，模型权重文件和配置文件保存在本程序代码上层目录huggingface中
model_path = "../huggingface/Meta-Llama3-8B"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
# 加载模型的权重文件，然后将参数从float32转换成float16（half函数）
# 然后使用cuda函数将模型迁移到GPU内存
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda()
# 将模型转换成评估状态
model = model.eval()

In [None]:
# 构建基于LLM的对话函数
response, _ = model.chat(tokenizer, '你好', history=[])
def chat(name,history):
    response, _ = model.chat(tokenizer, name, history=[])    
    return response

In [None]:
# 构造对话框，显示复制按钮
chatbot=gr.Chatbot(show_copy_button=True)
# 对话框的标签
chatbot.label="问答机器人"
# 构造输入框以及输入框提示
textbox = gr.Textbox(placeholder="在此处输入问题...", autofocus=True, scale=40)
# 构造对话界面
gr.ChatInterface(fn=chat, title="人工智能对话系统(测试版)",chatbot=chatbot,textbox =textbox,
                 submit_btn="提交",stop_btn="停止", retry_btn="🔄 重试",
                undo_btn="↩️ 撤销最后一个对话",clear_btn="🗑️ 清除历史对话").launch()

### 16.2.2 Ollama与Open WebUI部署开源大语言模型

#### 16.2.2.1 Ollama与Open WebUI简介
- Ollama作为一个本地大语言模型运行框架，具有简明易用、高效稳定等特点，本节将详细介绍其底层技术、联网步骤以及实例解析。
- 其功能和特点如下：
  - 简化部署：Ollama旨在简化在Docker容器中部署LLM的过程，使管理和运行这些模型更加便捷。
  - 捆绑模型组件：该框架将模型权重、配置和数据捆绑到一个称为Modelfile的包中，这有助于优化设置和配置细节，包括GPU的使用情况。
  - 支持多种模型：Ollama支持多种大型语言模型，例如Llama 2、Code Llama、Mistral、Gemma等，并且允许用户根据具体需求定制和创建自己的模型。
  - 跨平台支持：Ollama支持macOS和Linux平台，同时Windows平台的预览版也已发布。用户只需访问Ollama的官方网站下载对应平台的安装包即可进行安装。
  - 命令行操作：安装完成后，用户可以通过简单的命令行操作来启动和运行大型语言模型。例如，要运行llama3 8B模型，只需执行命令```ollama run llama3```,如果不显式指定模型大小，默认是8B。
  - 资源要求：为了流畅运行大型模型，Ollama需要一定的内存或显存。具体来说，至少需要8GB的内存/显存来运行7B模型，至少需要16GB来运行13B模型，而运行34B的模型则至少需要32GB。
  - 此外，Ollama还提供了类似OpenAI的简单内容生成接口和类似ChatGPT的聊天界面，无需开发即可直接与模型进行交互。它还支持热切换模型，即可以在不重新启动的情况下切换不同的模型，非常灵活多变。

- **Ollama支持的开源大语言模型**

| Model              | Parameters | Size  | Download                       |
| ------------------ | ---------- | ----- | ------------------------------ |
| Llama 3            | 8B         | 4.7GB | `ollama run llama3`            |
| Llama 3            | 70B        | 40GB  | `ollama run llama3:70b`        |
| Phi 3 Mini         | 3.8B       | 2.3GB | `ollama run phi3`              |
| Phi 3 Medium       | 14B        | 7.9GB | `ollama run phi3:medium`       |
| Gemma              | 2B         | 1.4GB | `ollama run gemma:2b`          |
| Gemma              | 7B         | 4.8GB | `ollama run gemma:7b`          |
| Mistral            | 7B         | 4.1GB | `ollama run mistral`           |
| Moondream 2        | 1.4B       | 829MB | `ollama run moondream`         |
| Neural Chat        | 7B         | 4.1GB | `ollama run neural-chat`       |
| Starling           | 7B         | 4.1GB | `ollama run starling-lm`       |
| Code Llama         | 7B         | 3.8GB | `ollama run codellama`         |
| Llama 2 Uncensored | 7B         | 3.8GB | `ollama run llama2-uncensored` |
| LLaVA              | 7B         | 4.5GB | `ollama run llava`             |
| Solar              | 10.7B      | 6.1GB | `ollama run solar`             |

- **安装**：
  - Windows平台的[下载地址](https://ollama.com/download/OllamaSetup.exe)
  - Linux平台下载：```curl -fsSL https://ollama.com/install.sh | sh```

#### 16.2.2.2 Ollama部署大语言模型的过程

- 配置模型下载目录：在安装完成后，需要配置模型下载目录。
  - 由于Ollama默认将模型下载到C盘，为了避免C盘空间不足的问题，建议指定一个其他目录作为模型下载目录。
  - 可以在系统变量中新建OLLAMA_MODELS变量，并指定一个目录路径作为其值。
<center><img src='../img/16_2_19.png' width=400px></center>
<center>16.2.1 设置环境变量OLLAMA_MODELS的变量名和值</center>
- 启动Ollama服务：
  - 配置完成后，可以通过命令行指令启动Ollama服务。在命令行中输入ollama serve命令即可启动服务。
  - 此时，Ollama将开始监听指定的端口，等待外部请求的连接。

- 连接大模型：
  - 当Ollama服务启动后，就可以通过HTTP请求连接到大模型了。
  - 可以在自己的应用程序中编写代码，使用HTTP请求调用Ollama提供的API接口，从而实现对大模型的调用和控制。
  - 可以使用Python的requests库发送HTTP请求，调用Ollama的推理接口，实现对大模型的推理操作。
- **示例**：

In [None]:
import requests
url = 'http://localhost:8080/model/inference'
headers = {'Content-Type': 'application/json'}
data = {'input': 'your input data'}
response = requests.post(url, headers=headers, json=data)
print(response.json())

- 上述代码中，url变量指定了Ollama推理接口的URL地址，headers变量指定了请求头信息，data变量指定了推理请求的数据。通过requests.post()方法发送POST请求，并打印出响应的JSON结果。