# OpenLLM
## 简介
[OpenLLM](https://github.com/bentoml/OpenLLM) 是一个旨在促进大型语言模型（LLMs）在现实世界应用中部署和运行的开源平台。利用 OpenLLM，您可以对任何开源LLM进行推理，将它们部署在云端或本地，并构建强大的人工智能应用。

特性：
- **🚂 最先进的LLMs**：集成支持各种开源LLMs和模型运行时，包括但不限于Llama 2、StableLM、Falcon、Dolly、Flan-T5、ChatGLM和StarCoder。
- **🔥 灵活的API**：使用单个命令通过RESTful API或gRPC提供LLMs。 您可以使用Web UI，CLI，Python / JavaScript客户端或您选择的任何HTTP客户端与模型交互。
- **⛓️ 自由构建**：为 LangChain、BentoML、LlamaIndex、OpenAI 端点和 Hugging Face 提供一流支持，让您通过将 LLM 与其他模型和服务组合，轻松创建自己的 AI 应用程序。
- **🎯 流程部署**：通过☁️ BentoCloud 自动生成您的 LLM 服务器 Docker 映像，或者部署为无服务器端点，它轻松管理 GPU 资源，根据流量进行扩展，并确保成本效益。
- **🤖️ 自行调整您自己的LLM**：微调任何LLM以满足您的需求。您可以加载LoRA层以针对特定任务的更高准确性和性能微调模型。 统一的模型微调API（LLM.tuning()）即将推出。
- **⚡ 量化**：使用量化技术，如LLM.int8，SpQR（int4），AWQ，GPTQ和SqueezeLLM，以较低的计算和内存成本运行推理。
- **📡 流式处理**：通过服务器推送事件(SSE)支持令牌流式处理。您可以使用/v1/generate_stream端点从LLM中流式处理响应。
- **🔄 持续批处理**: 通过 vLLM 支持持续批处理，以增加总吞吐量。

OpenLLM 旨在为致力于基于大型语言模型 (LLMs) 构建可投入生产的应用程序的 AI 应用程序开发人员提供服务。它提供了一套全面的工具和功能，用于对这些模型进行微调、提供服务、部署和监控，简化了LLMs的端到端部署工作流程。

## 参考文档
1. [AIGC：大语言模型开放平台OpenLLM简介（提供简易的模型部署体验）](https://blog.csdn.net/zhanggqianglovec/article/details/131556821)
2. [LLM大模型部署框架之OpenLLM](https://zhuanlan.zhihu.com/p/668535001)

## 安装

基础环境：Python 3.8（或更新版本）和 pip

In [1]:
%pip install openllm

Looking in indexes: https://mirrors.aliyun.com/pypi/simple/
[0mNote: you may need to restart the kernel to use updated packages.


## 验证它是否安装正确
```bash
openllm -h
```

# 启动LLM服务器
要启动 LLM 服务器，请使用 openllm start 。例如，要启动一个 dolly-v2 服务器：
```bash
openllm start dolly-v2
```

```bash
TRUST_REMOTE_CODE=True openllm start 01-ai/Yi-6B
```

启动后会下载模型文件，模型文件下载地址：`/Users/xupengfei/bentoml`(mac)

```
(openllm)  ~  TRUST_REMOTE_CODE=True openllm start 01-ai/Yi-6B
It is recommended to specify the backend explicitly. Cascading backend might lead to unexpected behaviour.
config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 605/605 [00:00<00:00, 91.7kB/s]
tokenizer_config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 320/320 [00:00<00:00, 302kB/s]
tokenizer.model: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 1.03M/1.03M [00:00<00:00, 3.91MB/s]
tokenizer.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 3.56M/3.56M [00:01<00:00, 3.10MB/s]
md5: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 184/184 [00:00<00:00, 257kB/s]
pytorch_model.bin.index.json: 100%|████████████████████████████████████████████████████████████████████████████████████████| 23.9k/23.9k [00:00<00:00, 3.85MB/s]
model.safetensors.index.json: 100%|████████████████████████████████████████████████████████████████████████████████████████| 23.9k/23.9k [00:00<00:00, 2.64MB/s]
Yi.svg: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 980/980 [00:00<00:00, 1.26MB/s]
LICENSE: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 17.4k/17.4k [00:00<00:00, 17.6MB/s]
generation_config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 132/132 [00:00<00:00, 168kB/s]
model-00002-of-00002.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████| 2.18G/2.18G [09:58<00:00, 3.64MB/s]
model-00001-of-00002.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████| 9.94G/9.94G [30:45<00:00, 5.39MB/s]
Fetching 12 files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [30:47<00:00, 153.92s/it]
vLLM is not available. Note that PyTorch backend is not as performant as vLLM and you should always consider using vLLM for production.
🚀Tip: run 'openllm build 01-ai/Yi-6B --backend pt --serialization safetensors' to create a BentoLLM for '01-ai/Yi-6B'
2024-03-18T14:28:19+0800 [INFO] [cli] Prometheus metrics for HTTP BentoServer from "_service:svc" can be accessed at http://localhost:3000/metrics.
2024-03-18T14:28:19+0800 [INFO] [cli] Starting production HTTP BentoServer from "_service:svc" listening on http://0.0.0.0:3000 (Press CTRL+C to quit)
```

在此之后，可以通过 http://0.0.0.0:3000 访问 Web UI，可以在其中试验端点和样本输入提示。

![启动后界面](./img/image1.png)

OpenLLM 提供了一个内置的 Python 客户端，允许您与模型进行交互。在不同的终端窗口或 Jupyter notebook 中，创建一个客户端以开始与模型交互：

In [None]:
import openllm
client = openllm.client.HTTPClient('http://localhost:3000')
client.query('Explain to me the difference between "further" and "farther"')

还可以使用 openllm query 命令从终端查询模型