# 介绍简单的RAG

RAG Retrieval-Augmented Generation (RAG)
检索增强生成是一种结合信息检索与生成式大模型的AI架构.
其核心价值在于解决传统大语言模型（LLM）的三大痛点：
​知识固化​：预训练数据无法实时更新；
​幻觉问题​：生成内容缺乏事实依据；
​领域局限性​：难以直接处理专业领域知识（如医疗、金融等垂直场景）。
一个简单的RAG设置，有以下几个步骤
1. 数据接入Data Ingestion：加载并预处理文本数据。
2. 分块Chunking：将数据分成更小的块以提高检索性能。
3. 嵌入创建 Embedding Creation：使用嵌入模型将文本块转换为数字表示形式。
4. 语义搜索：根据用户查询检索相关块。
5. 响应生成：使用语言模型根据检索到的文本生成响应。


# 设置环境
导入相关的python库

In [2]:
import fitz
import os
import numpy as np
import json
from openai import OpenAI

# 从PDF文件中提取文本内容

In [3]:
def extact_text_from_pdf(pdf_path):
    # 打开PDF文件
    doc = fitz.open(pdf_path)
    
    # 初始化文本内容
    text_content = ""
    
    # 遍历所有页面并提取文本
    for page in doc:
        text_content += page.get_text()
        
    # 关闭PDF文件
    doc.close()
    
    return text_content


# 分块

In [4]:
def chunk_text(text, n, overlap):
    """分块函数

    Args:
        text (str): 需要分块的文本
        n (int): 每个块的大小
        overlap (int): 块之间的重叠大小
    """
    # 计算每个块的大小
    chunk_size = n - overlap
    
    # 初始化一个列表来存储分块
    chunks = []

    # 遍历文本并进行分块
    for i in range(0, len(text), chunk_size):
        chunk = text[i:i+n]
        chunks.append(chunk)
    
    return chunks


# 设置API Client
初始化客户端, 生成嵌入和回复

In [24]:
client = OpenAI(
    base_url="https://api.siliconflow.cn/v1/",
    api_key=os.getenv("SILLICONFLOW_API_KEY") # 从环境变量中获取API Key, 使用siliconflow的API
    )

pdf_path = "data/sample.pdf"
# 提取文本
text = extact_text_from_pdf(pdf_path)
# 分块
text_chunks = chunk_text(text, 512, 100)

print("块数:", len(text_chunks))
print("第一个快：")
print(text_chunks[0])


块数: 3
第一个快：
百炼系列平板电脑产品介绍 
踏入数字世界的宽广领域，百炼平板电脑系列以其卓越的设计与顶尖技术，为您的工作与娱乐带来前所未有的体验。 
 
百炼Tab Xplorer P1 —— 探索无界视野： 配备12.9 英寸Liquid Retina XDR 显示屏，分辨率达到2732 x 2048 像素，支持ProMotion 自适应刷新率技术（最高
120Hz），无论是高清视频还是专业绘图，细腻与流畅并存。搭载1TB 超大存储与16GB RAM，配合M1 芯片的强大性能，轻松驾驭复杂应用与大型游戏。
10000mAh 电池确保全天候续航，四扬声器环绕立体声，为您带来影院级视听享受。参考售价：8999 - 9999。 
通义Vivid Tab 7 —— 智能办公新境界： 拥有10.5 英寸2560 x 1600 像素Super AMOLED 显示屏，色彩鲜活，细节丰富。8GB RAM 与256GB 存储空间，结合
高效的处理器，确保多任务处理顺滑无阻。支持S Pen 手写笔，灵感随时记录。7500mAh 电池，配合智能电源管理，满足全天工作需求。内置多重生物识别技
术，包括面部识别与指纹解锁，安


# 创建Embedding

In [25]:
def create_embedding(text_chunks, model="BAAI/bge-large-zh-v1.5"):
    """创建文本的Embedding

    Args:
        text (str): 需要创建Embedding的文本
        model (str, optional): 使用的模型. Defaults to "BAAI/bge-large-zh-v1.5". 要注意token size是512
    """
    response = client.embeddings.create(
        model=model,
        input=text_chunks
    )
    return response

response = create_embedding(text_chunks=text_chunks)



# 语义搜索

In [26]:
def cos_similarity(query_embedding, text_embedding):
    """计算两个向量之间的余弦相似度

    Args:
        query_embedding (list): 查询向量
        text_embedding (list): 文本向量
    """
    # 计算两个向量之间的余弦相似度
    return np.dot(query_embedding, text_embedding) / (np.linalg.norm(query_embedding) * np.linalg.norm(text_embedding))

def semantic_search(query, text_chunks, embeddings, top_k=5):
    """语义搜索

    Args:
        query (str): 查询文本
        text_chunks (list): 文本块列表
        embeddings (list): 文本块的Embedding列表
        top_k (int, optional): 返回的相似度最高的文本块数量. Defaults to 5.
    """
    # 计算查询向量与所有文本向量的相似度
    query_embedding = create_embedding(query).data[0].embedding # 计算查询向量
    similarity_scores = []
    for i, chunk_embedding in enumerate(embeddings):
        # 计算查询向量与文本块向量的相似度
        similarity_score = cos_similarity(np.array(query_embedding), 
                                          np.array(chunk_embedding.embedding))
        # 将相似度得分和对应的文本块索引存储在列表中 i 是文本块的索引, similarity_score 是相似度得分
        similarity_scores.append((i, similarity_score))

    # 获取相似度最高的文本块 x[1] 是相似度得分, x[0] 是文本块的索引, 按照相似度得分从高到低排序
    similarity_scores.sort(key=lambda x: x[1], reverse=True)
    # 获取前 top_k 个相似度最高的文本块的索引
    top_indices = [i for i, _ in similarity_scores[:top_k]]
    # 返回相似度最高的文本块
    return [text_chunks[i] for i in top_indices]




# 在提取的文本块里查找

In [27]:
with open('data/sample.json', 'r') as f:
    data = json.load(f)

random_index = np.random.randint(0, len(data))
query=data[random_index]['问题']

# 使用语义搜索
top_chunks = semantic_search(query, text_chunks, response.data, top_k=2)

print("问题：", query)

for i, chunk in enumerate(top_chunks):
    print(f"上下文 第{i+1}个文本块 \n ========================== \n")
    print(chunk)




问题： 通义 Vivid Tab 7的电池容量是多少，有什么特点？
上下文 第1个文本块 

百炼系列平板电脑产品介绍 
踏入数字世界的宽广领域，百炼平板电脑系列以其卓越的设计与顶尖技术，为您的工作与娱乐带来前所未有的体验。 
 
百炼Tab Xplorer P1 —— 探索无界视野： 配备12.9 英寸Liquid Retina XDR 显示屏，分辨率达到2732 x 2048 像素，支持ProMotion 自适应刷新率技术（最高
120Hz），无论是高清视频还是专业绘图，细腻与流畅并存。搭载1TB 超大存储与16GB RAM，配合M1 芯片的强大性能，轻松驾驭复杂应用与大型游戏。
10000mAh 电池确保全天候续航，四扬声器环绕立体声，为您带来影院级视听享受。参考售价：8999 - 9999。 
通义Vivid Tab 7 —— 智能办公新境界： 拥有10.5 英寸2560 x 1600 像素Super AMOLED 显示屏，色彩鲜活，细节丰富。8GB RAM 与256GB 存储空间，结合
高效的处理器，确保多任务处理顺滑无阻。支持S Pen 手写笔，灵感随时记录。7500mAh 电池，配合智能电源管理，满足全天工作需求。内置多重生物识别技
术，包括面部识别与指纹解锁，安
上下文 第2个文本块 

物识别技
术，包括面部识别与指纹解锁，安全便捷。参考售价：4499 - 4899。 
星尘Tab S9 Pro —— 创意与效率的完美融合： 采用12.4 英寸2800 x 1752 像素超窄边框设计，屏下摄像头技术，最大化显示区域。512GB 存储与12GB 
RAM，搭载高效能处理器，流畅运行各类创作软件。9000mAh 电池与65W 超级快充，快速回血，创意不中断。支持外接键盘与触控笔，变身移动工作站。参考
售价：6999 - 7499。 
百炼Ace Tab Ultra —— 游戏与娱乐的旗舰选择： 配备11 英寸2560 x 1600 像素屏幕，支持HDR10+，色彩表现力惊人。12GB RAM 与512GB 存储空间，专为
高性能游戏优化。7800mAh 电池与液冷散热系统，确保长时间游戏稳定不发热。四扬声器杜比全景声音效，沉浸式游戏体验。参考售价：5999 - 6499。 
百炼Zephyr Tab Z9 —— 轻盈便携的智慧伴侣： 采用轻薄8.4 英

# 基于检索块生成一个回复

In [28]:
system_prompt = """
你是一个专业的AI助手，基于上下文严格回答用户的问题。如果上下文没有相关信息，请直接回答“没有找到相关信息”。
"""
def generate_response(system_prompt, user_prompt, model="Qwen/Qwen2-7B-Instruct"):
    response = client.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt}
        ]
    )
    return response.choices[0].message.content
# 构建用户提示
user_prompt = "\n".join(
    [f"""
问题：{query}
上下文{i+1}：
{top_chunk}
""" for i, top_chunk in enumerate(top_chunks)])
# 添加问题
user_prompt = f"""{user_prompt}\n  问题：{query}"""
print("用户提示：", user_prompt)
response = generate_response(system_prompt, user_prompt)
print("-"*100)
print("回复：", response)


用户提示： 
问题：通义 Vivid Tab 7的电池容量是多少，有什么特点？
上下文1：
百炼系列平板电脑产品介绍 
踏入数字世界的宽广领域，百炼平板电脑系列以其卓越的设计与顶尖技术，为您的工作与娱乐带来前所未有的体验。 
 
百炼Tab Xplorer P1 —— 探索无界视野： 配备12.9 英寸Liquid Retina XDR 显示屏，分辨率达到2732 x 2048 像素，支持ProMotion 自适应刷新率技术（最高
120Hz），无论是高清视频还是专业绘图，细腻与流畅并存。搭载1TB 超大存储与16GB RAM，配合M1 芯片的强大性能，轻松驾驭复杂应用与大型游戏。
10000mAh 电池确保全天候续航，四扬声器环绕立体声，为您带来影院级视听享受。参考售价：8999 - 9999。 
通义Vivid Tab 7 —— 智能办公新境界： 拥有10.5 英寸2560 x 1600 像素Super AMOLED 显示屏，色彩鲜活，细节丰富。8GB RAM 与256GB 存储空间，结合
高效的处理器，确保多任务处理顺滑无阻。支持S Pen 手写笔，灵感随时记录。7500mAh 电池，配合智能电源管理，满足全天工作需求。内置多重生物识别技
术，包括面部识别与指纹解锁，安


问题：通义 Vivid Tab 7的电池容量是多少，有什么特点？
上下文2：
物识别技
术，包括面部识别与指纹解锁，安全便捷。参考售价：4499 - 4899。 
星尘Tab S9 Pro —— 创意与效率的完美融合： 采用12.4 英寸2800 x 1752 像素超窄边框设计，屏下摄像头技术，最大化显示区域。512GB 存储与12GB 
RAM，搭载高效能处理器，流畅运行各类创作软件。9000mAh 电池与65W 超级快充，快速回血，创意不中断。支持外接键盘与触控笔，变身移动工作站。参考
售价：6999 - 7499。 
百炼Ace Tab Ultra —— 游戏与娱乐的旗舰选择： 配备11 英寸2560 x 1600 像素屏幕，支持HDR10+，色彩表现力惊人。12GB RAM 与512GB 存储空间，专为
高性能游戏优化。7800mAh 电池与液冷散热系统，确保长时间游戏稳定不发热。四扬声器杜比全景声音效，沉浸式游戏体验。参考售价：5999 - 6499。 
百炼Zephyr Tab

# 评估AI的回答

In [29]:
evaluate_system_prompt = """
你是一个专业的AI助手，基于上下文严格回答用户的问题。如果AI的回答与真正的回答不一致，
请直接回答“回答错误”,否则回答“回答正确”,并给出AI的回答与真正的回答的相似度。
"""
evaluate_user_prompt = f"""
问题：{query}
上下文：
AI的回答：{response}
真正的回答：{data[random_index]['理想回答']}\n {evaluate_system_prompt}
"""
evaluate_response = generate_response(evaluate_system_prompt, evaluate_user_prompt)
print("-"*100)
print("评估：", evaluate_response)




----------------------------------------------------------------------------------------------------
评估： 回答正确，相似度为1.0，即完全一致。
