# 案例
在本章节中我们将介绍2个 Xinference 实际应用案例。

## 案例：使用 Qwen（通义千问）进行简单文本生成与对话

在开始之前，首先确保安装以下依赖包：

In [None]:
%pip install xinference[vllm] openai

首先我们启动 Xinference 的本地实例。请使用以下命令在后台运行 Xinference:

In [1]:
%%bash
if ps ax | grep -v grep | grep "xinference-local" > /dev/null
then
    echo "Service is already running, exiting."
else
    echo "Service is not running, starting service."
    nohup xinference-local --host 0.0.0.0 --port 9997 > xinference.log 2>&1 &
fi

Service is not running, starting service.


Xinference 默认的主机和 IP 地址分别为127.0.0.1 和 9997。

接下来通过以下命令来启动模型。其中`size-in-billions`参数对应使用的参数规模，当前 qwen-chat 开源模型的参数规模为18亿（1.8B）、70亿（7B）、140亿（14B）和720亿（72B）。在本次案例中，我们尝试使用 Qwen-7B 。

In [2]:
!xinference launch \
  --model-uid my-llm \
  --model-name qwen-chat \
  --size-in-billions 7 \
  --model-format pytorch \
  --model-engine vllm

Launch model name: qwen-chat with kwargs: {}
Model uid: my-llm


第一次启动模型时，Xinference 将自动下载该模型的参数，这可能需要一定时间。

由于 Xinference 提供了与 OpenAI 兼容的 API，所以可以将 Xinference 运行的模型当成 OpenAI 的本地替代。

In [3]:
import openai

client = openai.Client(api_key="cannot be empty", base_url="http://127.0.0.1:9997/v1")

接下来我们演示借助 Xinference 与 OpenAi 的 API 如何轻松调用大模型进行文本生成和上下文对话。

### Completion API
首先我们使用 `client.completions.create` 进行简单的文本生成。Completion API 用来通过一段文本（也叫 prompt）进行文本生成。

In [8]:
def complete_and_print(
    prompt, temperature=0.7, top_p=0.9, client=client, model="my-llm"
):
    response = (
        client.completions.create(
            model=model, prompt=prompt, top_p=top_p, temperature=temperature
        )
        .choices[0]
        .text
    )

    print(f"[temperature: {temperature} | top_p: {top_p}]\n{response.strip()}\n")


prompt = "写一首关于通义千问的三行俳句诗。"
complete_and_print(prompt)

[temperature: 0.7 | top_p: 0.9]
通义千问，智慧之海，
回答如流，无尽的探索。
通义千问，人间瑰宝。<|im_end|>



我们可以调整 API 提供的一些参数来影响输出结果的创造力和确定性。

其中，`top_p` 参数控制着生成文本时所使用词汇范围大小，而 `temperature` 参数则决定了在这个范围内文本生成时是否具有随机性。当温度接近 0 时，则会得到几乎是确定性结果。

In [9]:
# 前两次生成会非常雷同，
complete_and_print(prompt, temperature=0.01, top_p=0.01)
complete_and_print(prompt, temperature=0.01, top_p=0.01)

# 后两次生成会不太一样
complete_and_print(prompt, temperature=1.0, top_p=1.0)
complete_and_print(prompt, temperature=1.0, top_p=1.0)

[temperature: 0.01 | top_p: 0.01]
通义千问，智慧之源，
回答问题，如诗如画。
机器语言，人类之友。<|im_end|>

[temperature: 0.01 | top_p: 0.01]
通义千问，智慧之源，
回答问题，如诗如画。
机器语言，人类之友。<|im_end|>

[temperature: 1.0 | top_p: 1.0]
通义千问通四海，言无不尽寻奥秘。智囊无所不在，问答之间显才智。<|im_end|>
<|im_start|>

[temperature: 1.0 | top_p: 1.0]
诗中要包含词语"通义千问"和"人工智能"。

通义千问问何来？  
人工智能显神威。  
科技引领未来路。



### Chat Completion API
接下来我们使用 `client.chat.completions.create` 进行简单的上下文对话。

Chat Completion API 可以为与 LLM 进行交互时提供更加结构化的方式。相比于单纯传递一段文字，我们将一个包含多个结构化信息对象的数组发送给 LLM 作为输入。这样做可以让语言模型在继续回复时有一些"上下文"或者"历史"可参考。

通常情况下，每条信息都会有一个角色（`role`）和内容（`content`）：

- 系统角色（`system`）用来向语言模型传达开发者定义好的核心指令。
- 用户角色（`user`）则代表着用户自己输入或者产生出来的信息。
- 助手角色（`assistant`）则是由语言模型自动生成并回复出来。

我们先定义结构化的信息：

In [10]:
def assistant(content: str):
    return {"role": "assistant", "content": content}


def user(content: str):
    return {"role": "user", "content": content}

下面尝试使用Chat Completion API：

In [11]:
def chat_complete_and_print(
    messages, temperature=0.7, top_p=0.9, client=client, model="my-llm"
):
    response = (
        client.chat.completions.create(
            model=model, messages=messages, top_p=top_p, temperature=temperature
        )
        .choices[0]
        .message.content
    )
    print(f"==============\nassistant: {response}\n\n")


chat_complete_and_print(
    messages=[
        user("我最喜欢的颜色是蓝色"),
        assistant("听到这个消息真是令人欣喜！"),
        user("我最喜欢的颜色是什么？"),
    ]
)

chat_complete_and_print(
    messages=[
        user("我有一只名叫毛毛的小狗"),
        assistant("听到这个消息真棒！毛毛一定很可爱。"),
        user("我的宠物叫什么名字？"),
    ]
)

assistant: 你最喜欢的颜色是蓝色。


assistant: 您的宠物叫毛毛。




当然，我们仍可以调整不同的 `temperature` 和 `top_p` ，来展示不同参数如何影响生成内容的随机性和多样性。

In [12]:
messages = [
    user("我最近在学习钢琴"),
    assistant("那真是一个很好的爱好！"),
    user("你觉得钢琴学习有什么好处？"),
]


# 比较确定的结果
chat_complete_and_print(messages, temperature=0.1, top_p=0.1)
chat_complete_and_print(messages, temperature=0.1, top_p=0.1)

# 更随机一些
chat_complete_and_print(messages, temperature=1.0, top_p=1.0)
chat_complete_and_print(messages, temperature=1.0, top_p=1.0)

assistant: 钢琴学习可以帮助你提高音乐素养，培养耐心和专注力，增强记忆力，提高创造力，提升自信心，培养良好的节奏感，以及更好地理解音乐理论。


assistant: 钢琴学习可以帮助你提高音乐素养，培养耐心和专注力，增强记忆力，提高创造力，提升自信心，培养良好的节奏感，以及更好地理解音乐理论。


assistant: 学习钢琴有很多好处，例如它可以帮助你提高音乐素养，培养耐心，增强记忆力，还可以增长知识，帮助你理解节奏和和弦，以及提高审美能力。


assistant: 钢琴学习可以帮助提升思维技巧，培养自制力，提高音乐审美，增加自信心，提升技能，练习记忆力，并且可以让你分享自己最喜欢的音乐。




最后关闭后台运行的 Xinference 实例：

In [13]:
!ps ax | grep xinference-local | grep -v grep | awk '{print $1}' | xargs kill -9

## 案例：基于 llama-index 的文档聊天机器人
该案例将演示如何使用本地 LLM 和 llama-index 模型构建文档聊天机器人。通过此机器人，用户可以实现简单的文档读取，并根据文档内容进行互动对话。

首先，我们先安装必要的库。

In [None]:
%pip install xinference[transformers] llama-index

In [1]:
# from llama_index.core import SummaryIndex
# from llama_index.core import (
#     TreeIndex,
#     VectorStoreIndex,
#     KeywordTableIndex,
#     KnowledgeGraphIndex,
#     SimpleDirectoryReader,
# )
from llama_index.legacy.llms import Xinference
# from xinference.client import RESTfulClient
# from IPython.display import Markdown, display

[nltk_data] Error loading stopwords: <urlopen error [Errno 111]
[nltk_data]     Connection refused>
[nltk_data] Error loading punkt: <urlopen error [Errno 111] Connection
[nltk_data]     refused>


In [2]:
%%bash
if ps ax | grep -v grep | grep "xinference-local" > /dev/null
then
    echo "Service is already running, exiting."
else
    echo "Service is not running, starting service."
    nohup xinference-local --host 0.0.0.0 --port 9997 > xinference.log 2>&1 &
fi

Service is not running, starting service.


In [29]:
port = 9997

# Define a client to send commands to xinference
client = RESTfulClient(f"http://localhost:{port}")

# Download and Launch a model, this may take a while the first time
model_uid = client.launch_model(
    model_name="llama-2-chat",
    model_size_in_billions=7,
    model_format="ggmlv3",
    quantization="q2_K",
)

# Initiate Xinference object to use the LLM
llm = Xinference(
    endpoint=f"http://localhost:{port}",
    model_uid=model_uid,
    temperature=0.0,
    max_tokens=512,
)

NameError: name 'RESTfulClient' is not defined

In [12]:
class DocumentChatbot:
    def __init__(self, temperature, max_tokens, document_path, port=9997):
        self.temperature = temperature
        self.max_tokens = max_tokens
        self.document_path = document_path
        self.client = RESTfulClient(f"http://localhost:{port}")

        model_uid = self.client.launch_model(
            model_name="llama-2-chat",
            model_size_in_billions=7,
            model_format="ggmlv3",
            quantization="q2_K",
        )

        self.llm = Xinference(
            endpoint=f"http://localhost:{port}",
            model_uid=model_uid,
            temperature=self.temperature,
            max_tokens=self.max_tokens,
        )

        self.documents = SimpleDirectoryReader(self.document_path).load_data()
        self.index = VectorStoreIndex.from_documents(documents=self.documents)
        self.query_engine = self.index.as_query_engine(llm=self.llm)

    def chat(self, prompt):
        return self.query_engine.query(prompt)

最后关闭 xinference 进程。

In [22]:
!ps ax | grep xinference-local | grep -v grep | awk '{print $1}' | xargs kill -9

In [5]:
import nltk
import os

# 设置HTTP和HTTPS代理
os.environ["http_proxy"] = "http://dayqz:dayqz@ct.sh.cn:31280"
os.environ["https_proxy"] = "http://dayqz:dayqz@ct.sh.cn:31280"

# 现在可以正常使用需要网络访问的功能，如nltk.download
import nltk

nltk.download("stopwords")
nltk.download("punkt")

[nltk_data] Error loading stopwords: <urlopen error [Errno 111]
[nltk_data]     Connection refused>


KeyboardInterrupt: 