## RAG 测试文件
### 基本的四个库安装
- sentence_transformers  用于加载embedding和cross-encoder相似度计算
- chromadb    向量数据库
- google-genai Gemini的api 用于调用Gemini模型
- python-dotenv 用于加载环境变量,将Gemini的api key加载到环境变量中

参考文献:[视频](https://www.bilibili.com/video/BV1wc3izUEUb/?spm_id_from=333.788.videopod.sections&vd_source=6db5e62cb01ffa248caaabea52932f34)


In [None]:
from typing import List # 一个类型提示（Type Hint）导入语句，它主要用于类型检查和代码提示
from dotenv import load_dotenv # 从python-dotenv库导入load_dotenv函数，用于加载环境变量
import os # 导入os模块，用于访问操作系统相关的功能
load_dotenv(override=True) 
OPEN_API_KEY = os.getenv("OPENAI_API_KEY") # 从环境变量中获取OpenAI API Key，因为已经填写在.env文件中先加载
print(OPEN_API_KEY)

def split_text_chunks(doc_file:str,max_length: int = 100000) -> List[str]: # 文档切片函数
   with open(doc_file, 'r', encoding='utf-8') as f: # 上下文管理读取文件内容 
         context = f.read()
         if len(context) > max_length:
            print(f"文档长度为{len(context)}，超过最大长度{max_length},只对前{max_length}行文档进行处理")
            return 
   return [chunk for chunk in context.split('\n\n') if len(chunk) > 0 and chunk.strip() != '']

chunks = split_text_chunks("test.md")
for i,chunk in enumerate(chunks): # range只给索引-节省内存，enumerate同时给索引和值
   print(f"chunk {i}:\n{chunk}\n")

API-KEY
AIzaSyBZNok06KaDugfbce5zIuZW-2CQ8HdkBsE
chunk 0:
# 哆啦A梦与超级赛亚人：时空之战

chunk 1:
在一个寻常的午后，大雄依旧坐在书桌前发呆，作业堆得像山，连第一页都没动。哆啦A梦在一旁翻着漫画，时不时叹口气，觉得这孩子还是一如既往的不靠谱。正当他们的生活照常进行时，一道强光突然从天而降，整个房间震动不已。光芒中走出一名金发少年，身披战甲、气势惊人，他就是来自未来的超级赛亚人——特兰克斯。他一出现便说出了惊人的话：未来的地球即将被黑暗势力摧毁，他来此是为了寻求哆啦A梦的帮助。

chunk 2:
哆啦A梦与大雄听后大惊，但也从特兰克斯坚定的眼神中读出了不容拒绝的决心。特兰克斯解释说，未来的敌人并非普通反派，而是一个名叫“黑暗赛亚人”的存在，他由邪恶科学家复制了贝吉塔的基因并加以改造，实力超乎想象。这个敌人不仅拥有赛亚人战斗力，还能操纵扭曲的时间能量，几乎无人可敌。特兰克斯已经独自战斗多年，但每一次都以惨败告终。他说：“科技，是我那个时代唯一缺失的武器，而你们，正好拥有它。”

chunk 3:
于是，哆啦A梦带着特兰克斯与大雄启动时光机，穿越到了那个即将崩溃的未来世界。眼前的景象令人震撼：城市沦为废墟，大地裂痕纵横，天空中浮动着压抑的黑雾。特兰克斯说，这正是黑暗赛亚人带来的结果，一切生命几乎都被抹杀，只剩他在苦苦支撑。大雄虽感到恐惧，但看到无辜的人类遭殃，内心逐渐燃起斗志。哆啦A梦则冷静地分析局势，决定使用他最强的三样秘密道具来对抗黑暗势力。

chunk 4:
三件秘密道具分别是：可以临时赋予超级战力的“复制斗篷”，能暂停时间五秒的“时间停止手表”，以及可在一分钟中完成一年修行的“精神与时光屋便携版”。大雄被推进精神屋内，在其中接受密集的训练，虽然只有几分钟现实时间，他却经历了整整一年的苦修。刚开始他依旧软弱，想放弃、想逃跑，但当他想起静香、父母，还有哆啦A梦那坚定的眼神时，他终于咬牙坚持了下来。出来之后，他的身体与精神都焕然一新，眼神中多了一份成熟与自信。

chunk 5:
最终战在黑暗赛亚人的空中要塞前爆发，特兰克斯率先出击，释放全力与敌人正面对决。哆啦A梦则用任意门和道具支援，从各个方向制造混乱，尽量压制敌人的时空能力。但黑暗赛亚人太过强大，仅凭特兰克斯一人根本无法压制，更别说击败。就在

In [20]:
from sentence_transformers import SentenceTransformer # 加载embedding

embedding_model = SentenceTransformer("./text2vec-base-chinese") # 加载模型，其中shibing624/text2vec-base-chinese是一个专门针对中文优化的文本向量化模型
def get_embedding(text: str) -> List[float]: # 文本向量化函数
   embedding_vector = embedding_model.encode(text) # 将文本转换为向量
   return embedding_vector.tolist() # 将numpy数组转换为列表

test_list = ["哆啦A梦很厉害,他像是我们熟知百宝箱那样可以掏出任何道具来帮助大雄和他的小伙伴,接下来是将讲述一个有关哆啦A梦的故事:"] # 测试文章如下文所示
test_embedding = get_embedding(test_list)
for text in chunks:
   test_embedding.append(get_embedding(text))
   test_list.append(text)
print(f'测试文本的向量长度为{len(test_embedding)}')


for i in range(len(test_embedding)):
   print(test_embedding[i])
print(len(test_list))

测试文本的向量长度为11
[0.22709019482135773, -0.42782193422317505, 0.16380921006202698, -0.05926714465022087, 0.8360965847969055, -0.9490731954574585, 0.1933402568101883, 0.3674755394458771, 0.2593611180782318, 0.49989211559295654, -0.6423780918121338, -0.04031490162014961, 0.27984458208084106, 0.23647719621658325, -0.437337726354599, 0.5770165324211121, 0.41202348470687866, 0.7168188095092773, -0.6313795447349548, 0.8454340696334839, 0.03721674904227257, -1.1303441524505615, -0.07904600352048874, 0.7078747153282166, 0.3509870767593384, -0.21701590716838837, 0.2071571946144104, -0.10657677799463272, -0.5096372961997986, 0.9920466542243958, 0.41301316022872925, 0.46519702672958374, -0.8437315225601196, 0.13025346398353577, 0.7439514994621277, 0.4078719913959503, 0.10995612293481827, 0.08119795471429825, 0.6015306115150452, 0.19572339951992035, -0.16345395147800446, 0.19269496202468872, -1.058091163635254, -0.567384660243988, -0.12902982532978058, 0.43641358613967896, -0.07527374476194382, 0.49619

In [21]:
import chromadb


delete_choice = False
# 创建客户端
chromadb_client = chromadb.EphemeralClient()  # 内存型向量数据库
# chromadb_client = chromadb.PersistentClient(path="./chromadb")  # 持久型向量数据库
if delete_choice:
      chromadb_client.delete_collection(name="test")  # 创建前先清空
chromadb_collection = chromadb_client.get_or_create_collection(name="test")  # 表格名

def save_embeddings(chunks: List[str], embeddings: List[List[float]]) -> None:  # 前为内容片段，后为向量
   ids = [str(i) for i in range(len(chunks))]  # 字符串索引列表-这是因为chromadb要求索引为字符串类型
   chromadb_collection.add(
         documents=chunks,
         embeddings=embeddings,
         ids=ids
   )

save_embeddings(test_list, test_embedding)
print("嵌入向量已保存到 ChromaDB")


嵌入向量已保存到 ChromaDB


In [22]:
def retrieve(query:str ,top_k:int )->List[str]: # 查询问题+召回的数量
    query_embedding = get_embedding(query) # 查询问题的向量表示
    results = chromadb_collection.query(
        query_embeddings=[query_embedding],
        n_results=top_k
    ) # 查询与用户问题最为相似的top_k个文档
    return results['documents'][0],results['distances'][0] # 打印每个文档与查询问题的相似度分数 # 是用来从ChromaDB查询结果中提取文档内容的部分- 第一个查询请求的结果文档列表

top_k = 5
query = "哆啦A梦使用的3个秘密道具是什么?"
retrieved_chunks,distances = retrieve(query,top_k)
for i in range(top_k):
    print(retrieved_chunks[i])
    print(distances[i])
# 从查询结果中提取文档内容-实际上这个打印结果并不是我们期望的那样，向量数据库有待优化，这个是


哆啦A梦很厉害,他像是我们熟知百宝箱那样可以掏出任何道具来帮助大雄和他的小伙伴,接下来是将讲述一个有关哆啦A梦的故事:
179.06890869140625
# 哆啦A梦与超级赛亚人：时空之战
248.2812042236328
最终战在黑暗赛亚人的空中要塞前爆发，特兰克斯率先出击，释放全力与敌人正面对决。哆啦A梦则用任意门和道具支援，从各个方向制造混乱，尽量压制敌人的时空能力。但黑暗赛亚人太过强大，仅凭特兰克斯一人根本无法压制，更别说击败。就在特兰克斯即将被击倒之际，大雄披上复制斗篷、冲破恐惧从高空跃下。他的拳头燃烧着金色光焰，目标直指敌人心脏。
276.7316589355469
三件秘密道具分别是：可以临时赋予超级战力的“复制斗篷”，能暂停时间五秒的“时间停止手表”，以及可在一分钟中完成一年修行的“精神与时光屋便携版”。大雄被推进精神屋内，在其中接受密集的训练，虽然只有几分钟现实时间，他却经历了整整一年的苦修。刚开始他依旧软弱，想放弃、想逃跑，但当他想起静香、父母，还有哆啦A梦那坚定的眼神时，他终于咬牙坚持了下来。出来之后，他的身体与精神都焕然一新，眼神中多了一份成熟与自信。
279.30712890625
战后，未来世界开始恢复，植物重新生长，人类重建家园。特兰克斯告别时紧紧握住大雄的手，说：“你是我见过最特别的战士。”哆啦A梦也为大雄感到骄傲，说他终于真正成长了一次。三人站在山丘上，看着远方重新明亮的地平线，心中感受到从未有过的安宁。随后，哆啦A梦与大雄乘坐时光机返回了属于他们的那个年代，一切仿佛又恢复平静。
283.1309814453125


In [23]:
from sentence_transformers import CrossEncoder

cross_encoder = CrossEncoder('./cross-encoder-model') # 初始化，推荐用hf下载模型，这里用本地的模型
def rerank(query: str, retrieved_chunks: List[str], top_k: int) -> List[str]:
   pairs = [(query, chunk) for chunk in retrieved_chunks] # 构造输入对
   scores = cross_encoder.predict(pairs) # 模型预测
   scored_chunks = list(zip(retrieved_chunks, scores)) # 构造分数对
   scored_chunks.sort(key=lambda x: x[1], reverse=True) # 按分数降序排序,里面是匿名函数

   return [chunk for chunk, _ in scored_chunks][:top_k] # 返回前top_k个文档

reranked_chunks = rerank(query, retrieved_chunks, top_k)
# Windows 示例（路径用双引号，注意反斜杠或用正斜杠）

for i, chunk in enumerate(reranked_chunks):
   print(f"[{i}] {chunk}\n")

[0] 三件秘密道具分别是：可以临时赋予超级战力的“复制斗篷”，能暂停时间五秒的“时间停止手表”，以及可在一分钟中完成一年修行的“精神与时光屋便携版”。大雄被推进精神屋内，在其中接受密集的训练，虽然只有几分钟现实时间，他却经历了整整一年的苦修。刚开始他依旧软弱，想放弃、想逃跑，但当他想起静香、父母，还有哆啦A梦那坚定的眼神时，他终于咬牙坚持了下来。出来之后，他的身体与精神都焕然一新，眼神中多了一份成熟与自信。

[1] 最终战在黑暗赛亚人的空中要塞前爆发，特兰克斯率先出击，释放全力与敌人正面对决。哆啦A梦则用任意门和道具支援，从各个方向制造混乱，尽量压制敌人的时空能力。但黑暗赛亚人太过强大，仅凭特兰克斯一人根本无法压制，更别说击败。就在特兰克斯即将被击倒之际，大雄披上复制斗篷、冲破恐惧从高空跃下。他的拳头燃烧着金色光焰，目标直指敌人心脏。

[2] 哆啦A梦很厉害,他像是我们熟知百宝箱那样可以掏出任何道具来帮助大雄和他的小伙伴,接下来是将讲述一个有关哆啦A梦的故事:

[3] 战后，未来世界开始恢复，植物重新生长，人类重建家园。特兰克斯告别时紧紧握住大雄的手，说：“你是我见过最特别的战士。”哆啦A梦也为大雄感到骄傲，说他终于真正成长了一次。三人站在山丘上，看着远方重新明亮的地平线，心中感受到从未有过的安宁。随后，哆啦A梦与大雄乘坐时光机返回了属于他们的那个年代，一切仿佛又恢复平静。

[4] # 哆啦A梦与超级赛亚人：时空之战



In [27]:
from google import genai
import time
from typing import Tuple

google_client = genai.Client() # 默认取GEMINI_API_KEY
def digit_number(digit:int,number:float) -> float:
    temp = int(10**digit*number)
    result = float(temp/10**digit)
    return result

def generate(query: str, chunks: List[str]) -> Tuple[str, float]: #  用户的问题-重排后的chunk
    prompt = f"""你是一位知识助手，请根据用户的问题和下列片段生成准确的回答。 请基于用户问题和相关片段生成回答，不要编造信息。

用户问题: {query}

相关片段:
{"\n\n".join(chunks)}

请基于上述内容作答，不要编造信息。""" # """多行字符串

    print(f"{prompt}\n\n---\n")
    start_time = time.time()
    response = google_client.models.generate_content(
        model="gemini-2.5-flash",
        contents=prompt
    )
    model_time = time.time() - start_time
    return response.text,model_time

answer,excute_time = generate(query, reranked_chunks)
print(answer)
print(digit_number(digit=2,number=excute_time))


你是一位知识助手，请根据用户的问题和下列片段生成准确的回答。 请基于用户问题和相关片段生成回答，不要编造信息。

用户问题: 哆啦A梦使用的3个秘密道具是什么?

相关片段:
三件秘密道具分别是：可以临时赋予超级战力的“复制斗篷”，能暂停时间五秒的“时间停止手表”，以及可在一分钟中完成一年修行的“精神与时光屋便携版”。大雄被推进精神屋内，在其中接受密集的训练，虽然只有几分钟现实时间，他却经历了整整一年的苦修。刚开始他依旧软弱，想放弃、想逃跑，但当他想起静香、父母，还有哆啦A梦那坚定的眼神时，他终于咬牙坚持了下来。出来之后，他的身体与精神都焕然一新，眼神中多了一份成熟与自信。

最终战在黑暗赛亚人的空中要塞前爆发，特兰克斯率先出击，释放全力与敌人正面对决。哆啦A梦则用任意门和道具支援，从各个方向制造混乱，尽量压制敌人的时空能力。但黑暗赛亚人太过强大，仅凭特兰克斯一人根本无法压制，更别说击败。就在特兰克斯即将被击倒之际，大雄披上复制斗篷、冲破恐惧从高空跃下。他的拳头燃烧着金色光焰，目标直指敌人心脏。

哆啦A梦很厉害,他像是我们熟知百宝箱那样可以掏出任何道具来帮助大雄和他的小伙伴,接下来是将讲述一个有关哆啦A梦的故事:

战后，未来世界开始恢复，植物重新生长，人类重建家园。特兰克斯告别时紧紧握住大雄的手，说：“你是我见过最特别的战士。”哆啦A梦也为大雄感到骄傲，说他终于真正成长了一次。三人站在山丘上，看着远方重新明亮的地平线，心中感受到从未有过的安宁。随后，哆啦A梦与大雄乘坐时光机返回了属于他们的那个年代，一切仿佛又恢复平静。

# 哆啦A梦与超级赛亚人：时空之战

请基于上述内容作答，不要编造信息。

---

根据提供的片段，哆啦A梦使用的三件秘密道具分别是：

1.  **复制斗篷**：可以临时赋予超级战力。
2.  **时间停止手表**：能暂停时间五秒。
3.  **精神与时光屋便携版**：可在一分钟中完成一年修行。
6.89
