# 使用 Milvus 和 DeepSeek 构建 RAG (民法典版)

DeepSeek 帮助开发者使用高性能语言模型构建和扩展 AI 应用。它提供高效的推理、灵活的 API 以及先进的专家混合 (MoE) 架构，用于强大的推理和检索任务。

在本教程中，我们将展示如何使用 Milvus 和 DeepSeek 构建一个检索增强生成 (RAG) 管道。

## 准备工作

### 依赖与环境

In [1]:
!pip install "pymilvus[model]==2.5.10" openai==1.82.0 requests==2.32.3 tqdm==4.67.1 torch==2.7.0

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting pymilvus[model]==2.5.10
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/b0/4b/847704930ad8ddd0d0975e9a3a5e3fe704f642debe97454135c2b9ee7081/pymilvus-2.5.10-py3-none-any.whl (227 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m227.6/227.6 KB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting openai==1.82.0
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/51/4b/a59464ee5f77822a81ee069b4021163a0174940a92685efc3cf8b4c443a3/openai-1.82.0-py3-none-any.whl (720 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m720.4/720.4 KB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting requests==2.32.3
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/f9/9b/335f9764261e915ed497fcdeb11df5dfd6f7bf257d4a6a2a686d80da4d54/requests-2.32.3-py3-none-any.whl (64 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6

---

In [8]:

import os
from dotenv import load_dotenv

# 从环境变量获取 DeepSeek API Key
load_dotenv()  # 读取 .env
api_key = os.getenv("DEEPSEEK_API_KEY")

### 准备数据

我们使用 Milvus 文档 2.4.x 中的 FAQ 页面作为我们 RAG 中的私有知识库，这是一个简单 RAG 管道的良好数据源。

下载 zip 文件并将文档解压到 `milvus_docs` 文件夹。

**建议在命令行执行下面命令**

In [None]:
# !wget https://github.com/milvus-io/milvus-docs/releases/download/v2.4.6-preview/milvus_docs_2.4.x_en.zip
# !unzip -q milvus_docs_2.4.x_en.zip -d milvus_docs

--2025-08-26 18:07:05--  https://github.com/milvus-io/milvus-docs/releases/download/v2.4.6-preview/milvus_docs_2.4.x_en.zip
Connecting to 172.17.32.1:7897... connected.
Proxy request sent, awaiting response... 302 Found
Location: https://release-assets.githubusercontent.com/github-production-release-asset/267273319/c52902a0-e13c-4ca7-92e0-086751098a05?sp=r&sv=2018-11-09&sr=b&spr=https&se=2025-08-26T11%3A00%3A55Z&rscd=attachment%3B+filename%3Dmilvus_docs_2.4.x_en.zip&rsct=application%2Foctet-stream&skoid=96c2d410-5711-43a1-aedd-ab1947aa7ab0&sktid=398a6654-997b-47e9-b12b-9515b896b4de&skt=2025-08-26T10%3A00%3A00Z&ske=2025-08-26T11%3A00%3A55Z&sks=b&skv=2018-11-09&sig=uKsz6fiTRUUOJK8%2FvO7k%2FuWlUKFoPR3BV8UlENcC8Sg%3D&jwt=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmVsZWFzZS1hc3NldHMuZ2l0aHVidXNlcmNvbnRlbnQuY29tIiwia2V5Ijoia2V5MSIsImV4cCI6MTc1NjIwMzEyNywibmJmIjoxNzU2MjAyODI3LCJwYXRoIjoicmVsZWFzZWFzc2V0cHJvZHVjdGlvbi5ibG9iLmNvcmUud2luZG93cy5uZXQifQ.UHZuCV83wCHdV

In [9]:
# 手动上传民法典pdf文件

我们从 `milvus_docs/en/faq` 文件夹加载所有 markdown 文件。对于每个文档，我们简单地使用 "# " 来分割文件中的内容，这样可以大致分离出 markdown 文件中每个主要部分的内容。

In [11]:
from glob import glob

text_lines = []

for file_path in glob("milvus_docs/en/faq/*.md", recursive=True):
    with open(file_path, "r") as file:
        file_text = file.read()

    text_lines += file_text.split("# ")

In [13]:
%pip install PyPDF2

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting PyPDF2
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/8e/5e/c86a5643653825d3c913719e788e41386bee415c2b87b4f955432f2de6b2/pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 KB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1
Note: you may need to restart the kernel to use updated packages.


In [14]:
from PyPDF2 import PdfReader

text_lines = []
pdf_path = "milvus_docs/【7-法律】中华人民共和国民法典.pdf"

reader = PdfReader(pdf_path)
for page in reader.pages:
    text = page.extract_text()  # 提取当前页文本
    if text:
        text_lines += text.split("# ")

print(text_lines[:10])  # 看前10行效果

['目录\n中华人民共和国主席令\n第一编  总则\n第一章  基本规定\n第二章  自然人\n第一节  民事权利能力和民事行为能力\n第二节  监护\n第三节  宣告失踪和宣告死亡\n第四节  个体工商户和农村承包经营户\n第三章  法人\n第一节  一般规定\n第二节  营利法人\n第三节  非营利法人\n第四节  特别法人\n第四章  非法人组织\n第五章  民事权利\n第六章  民事法律行为\n第一节  一般规定\n第二节  意思表示\n第三节  民事法律行为的效力\n第四节  民事法律行为的附条件和附期限\n第七章  代理\n第一节  一般规定\n第二节  委托代理\n第三节  代理终止\n第八章  民事责任\n第九章  诉讼时效\n第十章  期间计算\n第二编  物权\n第一分编  通则\n第一章  一般规定\n第二章  物权的设立、变更、转让和消灭\n第一节  不动产登记', '第二节  动产交付\n第三节  其他规定\n第三章  物权的保护\n第二分编  所有权\n第四章  一般规定\n第五章  国家所有权和集体所有权、私人所有权\n第六章  业主的建筑物区分所有权\n第七章  相邻关系\n第八章  共有\n第九章  所有权取得的特别规定\n第三分编  用益物权\n第十章  一般规定\n第十一章  土地承包经营权\n第十二章  建设用地使用权\n第十三章  宅基地使用权\n第十四章  居住权\n第十五章  地役权\n第四分编  担保物权\n第十六章  一般规定\n第十七章  抵押权\n第一节  一般抵押权\n第二节  最高额抵押权\n第十八章  质权\n第一节  动产质权\n第二节  权利质权\n第十九章  留置权\n第五分编  占有\n第二十章  占有\n第三编  合同\n第一分编  通则\n第一章  一般规定\n第二章  合同的订立\n第三章  合同的效力\n第四章  合同的履行\n第五章  合同的保全\n第六章  合同的变更和转让\n第七章  合同的权利义务终止', '第八章  违约责任\n第二分编  典型合同\n第九章  买卖合同\n第十章  供用电、水、气、热力合同\n第十一章  赠与合同\n第十二章  借款合同\n第十三章  保证合同\n第一节  一般规定\n第二节  保证责任\n第十四章  租赁合同\n第十五章  融资租赁合同\n第十六

In [15]:
len(text_lines)

259

### 准备 LLM 和 Embedding 模型

DeepSeek 支持 OpenAI 风格的 API，您可以使用相同的 API 进行微小调整来调用 LLM。

In [11]:
!pip install httpcore[socks]

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


In [16]:
from openai import OpenAI

deepseek_client = OpenAI(
    api_key=api_key,
    base_url="https://api.deepseek.com/v1",  # DeepSeek API 的基地址
)

定义一个 embedding 模型，使用 `milvus_model` 来生成文本嵌入。我们以 `DefaultEmbeddingFunction` 模型为例，这是一个预训练的轻量级嵌入模型。

In [None]:
# from pymilvus import model as milvus_model

# embedding_model = milvus_model.DefaultEmbeddingFunction()

from pymilvus import model as milvus_model

# OpenAI国内代理 https://api.apiyi.com/token 
embedding_model = milvus_model.dense.OpenAIEmbeddingFunction(
    model_name='text-embedding-3-large', # Specify the model name
    api_key='', # Provide your OpenAI API key
    base_url='https://api.apiyi.com/v1',
    dimensions=512
)

生成一个测试嵌入并打印其维度和前几个元素。

In [21]:
test_embedding = embedding_model.encode_queries(["This is a test"])[0]
embedding_dim = len(test_embedding)
print(embedding_dim)
print(test_embedding[:10])

512
[-0.02814663  0.00428726 -0.01852599  0.08190062 -0.03156214 -0.05275258
 -0.04885425  0.12481797 -0.0208328   0.03966279]


In [22]:
test_embedding_0 = embedding_model.encode_queries(["That is a test"])[0]
print(test_embedding_0[:10])

[-0.00578664  0.02242682 -0.01892621  0.12811586 -0.01249751 -0.07321841
 -0.00281971  0.08617394 -0.04377401  0.03073668]


## 将数据加载到 Milvus

### 创建 Collection

In [9]:
%pip install "pymilvus[lite]"

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Note: you may need to restart the kernel to use updated packages.


In [23]:
from pymilvus import MilvusClient

milvus_client = MilvusClient(uri="./milvus_demo_law.db")

collection_name = "my_rag_collection"

  from pkg_resources import DistributionNotFound, get_distribution


关于 `MilvusClient` 的参数：

*   将 `uri` 设置为本地文件，例如 `./milvus.db`，是最方便的方法，因为它会自动利用 Milvus Lite 将所有数据存储在此文件中。
*   如果您有大规模数据，可以在 Docker 或 Kubernetes 上设置性能更高的 Milvus 服务器。在此设置中，请使用服务器 URI，例如 `http://localhost:19530`，作为您的 `uri`。
*   如果您想使用 Zilliz Cloud（Milvus 的完全托管云服务），请调整 `uri` 和 `token`，它们对应 Zilliz Cloud 中的 Public Endpoint 和 Api key。

检查 collection 是否已存在，如果存在则删除它。

In [24]:
if milvus_client.has_collection(collection_name):
    milvus_client.drop_collection(collection_name)

创建一个具有指定参数的新 collection。

如果我们不指定任何字段信息，Milvus 将自动创建一个默认的 `id` 字段作为主键，以及一个 `vector` 字段来存储向量数据。一个保留的 JSON 字段用于存储非 schema 定义的字段及其值。

`metric_type` (距离度量类型):
     作用：定义如何计算向量之间的相似程度。
     例如：`IP` (内积) - 值越大通常越相似；`L2` (欧氏距离) - 值越小越相似；`COSINE` (余弦相似度) - 通常转换为距离，值越小越相似。
     选择依据：根据你的嵌入模型的特性和期望的相似性定义来选择。

 `consistency_level` (一致性级别):
     作用：定义数据写入后，读取操作能多快看到这些新数据。
     例如：
         `Strong` (强一致性): 总是读到最新数据，可能稍慢。
         `Bounded` (有界过期): 可能读到几秒内旧数据，性能较好 (默认)。
         `Session` (会话一致性): 自己写入的自己能立刻读到。
         `Eventually` (最终一致性): 最终会读到新数据，但没时间保证，性能最好。
     选择依据：在数据实时性要求和系统性能之间做权衡。

简单来说：
 `metric_type`：怎么算相似。
 `consistency_level`：新数据多久能被读到。

In [25]:
milvus_client.create_collection(
    collection_name=collection_name,
    dimension=embedding_dim,
    metric_type="IP",  # 内积距离
    consistency_level="Strong",  # 支持的值为 (`"Strong"`, `"Session"`, `"Bounded"`, `"Eventually"`)。更多详情请参见 https://milvus.io/docs/consistency.md#Consistency-Level。
)

### 插入数据

遍历文本行，创建嵌入，然后将数据插入 Milvus。

这里有一个新字段 `text`，它是在 collection schema 中未定义的字段。它将自动添加到保留的 JSON 动态字段中，该字段在高级别上可以被视为普通字段。

In [26]:
from tqdm import tqdm

data = []

doc_embeddings = embedding_model.encode_documents(text_lines)

for i, line in enumerate(tqdm(text_lines, desc="Creating embeddings")):
    data.append({"id": i, "vector": doc_embeddings[i], "text": line})

milvus_client.insert(collection_name=collection_name, data=data)

Creating embeddings: 100%|██████████| 259/259 [00:00<00:00, 1588194.06it/s]


{'insert_count': 259, 'ids': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 

## 构建 RAG

### 检索查询数据

我们指定一个关于 Milvus 的常见问题。

In [14]:
question = "How is data stored in milvus?"

In [27]:
question = "基本规定,第一条是什么"

In [None]:
question = "个体工商户的债务，怎么规定的"

在 collection 中搜索该问题，并检索语义上最匹配的前3个结果。

In [28]:
search_res = milvus_client.search(
    collection_name=collection_name,
    data=embedding_model.encode_queries(
        [question]
    ),  # 将问题转换为嵌入向量
    limit=3,  # 返回前3个结果
    search_params={"metric_type": "IP", "params": {}},  # 内积距离
    output_fields=["text"],  # 返回 text 字段
)

让我们看一下查询的搜索结果

In [29]:
import json

retrieved_lines_with_distances = [
    (res["entity"]["text"], res["distance"]) for res in search_res[0]
]
print(json.dumps(retrieved_lines_with_distances, indent=4))

[
    [
        "\u7b2c \u4e00 \u7f16 \u3000 \u603b \u5219",
        0.6509925127029419
    ],
    [
        "\uff5c   \u7b2c \u4e00 \u5206 \u7f16   \uff5c   \u901a \u5219\n\u7b2c \u4e00 \u7ae0 \u3000 \u4e00 \u822c \u89c4 \u5b9a\n  \u7b2c \u56db \u767e \u516d \u5341 \u4e09 \u6761   \u672c\u7f16\u8c03\u6574\u56e0\u5408\u540c\u4ea7\u751f\u7684\u6c11\u4e8b\u5173\u7cfb\u3002\n  \u7b2c \u56db \u767e \u516d \u5341 \u56db \u6761   \u5408\u540c\u662f\u6c11\u4e8b\u4e3b\u4f53\u4e4b\u95f4\u8bbe\u7acb\u3001\u53d8\u66f4\u3001\u7ec8\u6b62\u6c11\u4e8b\n\u6cd5\u5f8b\u5173\u7cfb\u7684\u534f\u8bae\u3002\n  \u5a5a\u59fb\u3001\u6536\u517b\u3001\u76d1\u62a4\u7b49\u6709\u5173\u8eab\u4efd\u5173\u7cfb\u7684\u534f\u8bae\uff0c\u9002\u7528\u6709\u5173\u8be5\u8eab\u4efd\u5173\u7cfb\n\u7684\u6cd5\u5f8b\u89c4\u5b9a\uff1b\u6ca1\u6709\u89c4\u5b9a\u7684\uff0c\u53ef\u4ee5\u6839\u636e\u5176\u6027\u8d28\u53c2\u7167\u9002\u7528\u672c\u7f16\u89c4\u5b9a\u3002\n  \u7b2c \u56db \u767e \u516d \u5341 \u4e94 \u6761   \u4f9d\u6cd

### 使用 LLM 获取 RAG 响应

将检索到的文档转换为字符串格式。

In [30]:
context = "\n".join(
    [line_with_distance[0] for line_with_distance in retrieved_lines_with_distances]
)

In [31]:
context

'第 一 编 \u3000 总 则\n｜   第 一 分 编   ｜   通 则\n第 一 章 \u3000 一 般 规 定\n  第 四 百 六 十 三 条   本编调整因合同产生的民事关系。\n  第 四 百 六 十 四 条   合同是民事主体之间设立、变更、终止民事\n法律关系的协议。\n  婚姻、收养、监护等有关身份关系的协议，适用有关该身份关系\n的法律规定；没有规定的，可以根据其性质参照适用本编规定。\n  第 四 百 六 十 五 条   依法成立的合同，受法律保护。\n  依法成立的合同，仅对当事人具有法律约束力，但是法律另有规\n定的除外。\n  第 四 百 六 十 六 条   当事人对合同条款的理解有争议的，应当依\n据本法第一百四十二条第一款的规定，确定争议条款的含义。\n  合同文本采用两种以上文字订立并约定具有同等效力的，对各文\n本使用的词句推定具有相同含义。各文本使用的词句不一致的，应当\n根据合同的相关条款、性质、目的以及诚信原则等予以解释。\n  第 四 百 六 十 七 条   本法或者其他法律没有明文规定的合同，适\n用本编通则的规定，并可以参照适用本编或者其他法律最相类似合同\n的规定。\n  在中华人民共和国境内履行的中外合资经营企业合同、中外合作\n经营企业合同、中外合作勘探开发自然资源合同，适用中华人民共和\n国法律。\n  第 四 百 六 十 八 条   非因合同产生的债权债务关系，适用有关该\n债权债务关系的法律规定；没有规定的，适用本编通则的有关规定，\n但是根据其性质不能适用的除外。\n第 一 章 \u3000 基 本 规 定\n  第 一 条   为了保护民事主体的合法权益，调整民事关系，维护社\n会和经济秩序，适应中国特色社会主义发展要求，弘扬社会主义核心\n价值观，根据宪法，制定本法。\n  第 二 条   民法调整平等主体的自然人、法人和非法人组织之间的\n人身关系和财产关系。\n  第 三 条   民事主体的人身权利、财产权利以及其他合法权益受法\n律保护，任何组织或者个人不得侵犯。\n  第 四 条   民事主体在民事活动中的法律地位一律平等。\n  第 五 条   民事主体从事民事活动，应当遵循自愿原则，按照自己\n的意思设立、变更、终止民事法律关系。\n  第 六 条   民事主体从事民事活动，应当遵

In [32]:
question

'基本规定,第一条是什么'

为语言模型定义系统和用户提示。此提示是使用从 Milvus 检索到的文档组装而成的。

In [33]:
SYSTEM_PROMPT = """
Human: 你是一个 AI 助手。你能够从提供的上下文段落片段中找到问题的答案。
"""
USER_PROMPT = f"""
请使用以下用 <context> 标签括起来的信息片段来回答用 <question> 标签括起来的问题。最后追加原始回答的中文翻译，并用 <translated>和</translated> 标签标注。
<context>
{context}
</context>
<question>
{question}
</question>
<translated>
</translated>
"""

In [34]:
USER_PROMPT

'\n请使用以下用 <context> 标签括起来的信息片段来回答用 <question> 标签括起来的问题。最后追加原始回答的中文翻译，并用 <translated>和</translated> 标签标注。\n<context>\n第 一 编 \u3000 总 则\n｜   第 一 分 编   ｜   通 则\n第 一 章 \u3000 一 般 规 定\n  第 四 百 六 十 三 条   本编调整因合同产生的民事关系。\n  第 四 百 六 十 四 条   合同是民事主体之间设立、变更、终止民事\n法律关系的协议。\n  婚姻、收养、监护等有关身份关系的协议，适用有关该身份关系\n的法律规定；没有规定的，可以根据其性质参照适用本编规定。\n  第 四 百 六 十 五 条   依法成立的合同，受法律保护。\n  依法成立的合同，仅对当事人具有法律约束力，但是法律另有规\n定的除外。\n  第 四 百 六 十 六 条   当事人对合同条款的理解有争议的，应当依\n据本法第一百四十二条第一款的规定，确定争议条款的含义。\n  合同文本采用两种以上文字订立并约定具有同等效力的，对各文\n本使用的词句推定具有相同含义。各文本使用的词句不一致的，应当\n根据合同的相关条款、性质、目的以及诚信原则等予以解释。\n  第 四 百 六 十 七 条   本法或者其他法律没有明文规定的合同，适\n用本编通则的规定，并可以参照适用本编或者其他法律最相类似合同\n的规定。\n  在中华人民共和国境内履行的中外合资经营企业合同、中外合作\n经营企业合同、中外合作勘探开发自然资源合同，适用中华人民共和\n国法律。\n  第 四 百 六 十 八 条   非因合同产生的债权债务关系，适用有关该\n债权债务关系的法律规定；没有规定的，适用本编通则的有关规定，\n但是根据其性质不能适用的除外。\n第 一 章 \u3000 基 本 规 定\n  第 一 条   为了保护民事主体的合法权益，调整民事关系，维护社\n会和经济秩序，适应中国特色社会主义发展要求，弘扬社会主义核心\n价值观，根据宪法，制定本法。\n  第 二 条   民法调整平等主体的自然人、法人和非法人组织之间的\n人身关系和财产关系。\n  第 三 条   民事主体的人身权利、财产权利以及其他合法权益受法\n律保护，任何组织或者个人不得侵

使用 DeepSeek 提供的 `deepseek-chat` 模型根据提示生成响应。

In [35]:
response = deepseek_client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": USER_PROMPT},
    ],
)
print(response.choices[0].message.content)

根据提供的上下文，基本规定第一条的内容是：  
**第一条 为了保护民事主体的合法权益，调整民事关系，维护社会和经济秩序，适应中国特色社会主义发展要求，弘扬社会主义核心价值观，根据宪法，制定本法。**

<translated>  
第一条 为了保护民事主体的合法权益，调整民事关系，维护社会和经济秩序，适应中国特色社会主义发展要求，弘扬社会主义核心价值观，根据宪法，制定本法。  
</translated>


In [37]:
question = "个体工商户的债务，怎么规定的"


search_res = milvus_client.search(
    collection_name=collection_name,
    data=embedding_model.encode_queries(
        [question]
    ),  # 将问题转换为嵌入向量
    limit=3,  # 返回前3个结果
    search_params={"metric_type": "IP", "params": {}},  # 内积距离
    output_fields=["text"],  # 返回 text 字段
)

import json

retrieved_lines_with_distances = [
    (res["entity"]["text"], res["distance"]) for res in search_res[0]
]
print(json.dumps(retrieved_lines_with_distances, indent=4))


context = "\n".join(
    [line_with_distance[0] for line_with_distance in retrieved_lines_with_distances]
)


context
question

SYSTEM_PROMPT = """
Human: 你是一个 AI 助手。你能够从提供的上下文段落片段中找到问题的答案。
"""
USER_PROMPT = f"""
请使用以下用 <context> 标签括起来的信息片段来回答用 <question> 标签括起来的问题。最后追加原始回答的中文翻译，并用 <translated>和</translated> 标签标注。
<context>
{context}
</context>
<question>
{question}
</question>
<translated>
</translated>
"""

response = deepseek_client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": USER_PROMPT},
    ],
)
print(response.choices[0].message.content)

[
    [
        "  \u7b2c \u4e94 \u5341 \u516d \u6761   \u4e2a\u4f53\u5de5\u5546\u6237\u7684\u503a\u52a1\uff0c\u4e2a\u4eba\u7ecf\u8425\u7684\uff0c\u4ee5\u4e2a\u4eba\u8d22\u4ea7\u627f\n\u62c5\uff1b\u5bb6\u5ead\u7ecf\u8425\u7684\uff0c\u4ee5\u5bb6\u5ead\u8d22\u4ea7\u627f\u62c5\uff1b\u65e0\u6cd5\u533a\u5206\u7684\uff0c\u4ee5\u5bb6\u5ead\u8d22\u4ea7\u627f\u62c5\u3002\n  \u519c\u6751\u627f\u5305\u7ecf\u8425\u6237\u7684\u503a\u52a1\uff0c\u4ee5\u4ece\u4e8b\u519c\u6751\u571f\u5730\u627f\u5305\u7ecf\u8425\u7684\u519c\u6237\u8d22\u4ea7\u627f\n\u62c5\uff1b\u4e8b\u5b9e\u4e0a\u7531\u519c\u6237\u90e8\u5206\u6210\u5458\u7ecf\u8425\u7684\uff0c\u4ee5\u8be5\u90e8\u5206\u6210\u5458\u7684\u8d22\u4ea7\u627f\u62c5\u3002",
        0.683854877948761
    ],
    [
        "  \uff08\u4e09\uff09\u4e27\u5931\u5546\u4e1a\u4fe1\u8a89\uff1b\n  \uff08\u56db\uff09\u6709\u4e27\u5931\u6216\u8005\u53ef\u80fd\u4e27\u5931\u5c65\u884c\u503a\u52a1\u80fd\u529b\u7684\u5176\u4ed6\u60c5\u5f62\u3002\n  \u5f53\u4e8b\u4eba\u6ca1\u670