# 1. 环境配置

## 1.1 python 环境准备

In [None]:
! pip install gradio==6.1.0 openai==2.11.0 dashscope==1.25.4 langchain-classic==1.0.0 langchain==1.1.3 langchain-community==0.4.1 langchain-openai==1.1.3 beautifulsoup4==4.14.3 langchain_chroma==1.1.0

## 1.2 大模型密钥准备

请根据第一章内容获取相关平台的 API KEY，如若未在系统变量中填入，请将 API_KEY 信息写入以下代码（若已设置请忽略）：

In [None]:
import os

# os.environ["OPENAI_API_KEY"] = "sk-xxxxxxxx"
# os.environ["DASHSCOPE_API_KEY"] = "sk-yyyyyyyy"

## 1.3 RAG 应用简介

RAG（Retrieval Augmented Generation）是一种结合了检索（Retrieval）和生成（Generation）的技术，旨在通过利用外部知识库来增强大型语言模型（LLMs）的性能。它通过检索与用户输入相关的信息片段，并结合这些信息来生成更准确、更丰富的回答。

虽然大语言模型（如 ChatGPT、Qwen 等）在生成能力上非常强大，但它们存在两大天然缺陷：
- 记忆有限：模型只能记住训练时看到的数据，无法“实时学习”新知识。
- 幻觉问题：模型可能会编造事实或给出虚假的信息（称为 hallucination），尤其在面对冷门或专业问题时。

# 2. RAG 基础流程演示

## 2.1 文档载入
在文档内容被制作成向量数据库之前，我们需要先收集相关的内容：
- 从PDF、数据库、URLs等不同来源读取内容（目前一般只读取文本的相关内容）；
- 然后统一转成Documents格式，作为后续“切分—嵌入—检索”的输入。

In [2]:
from langchain_community.document_loaders import WebBaseLoader
loader = WebBaseLoader("https://zh.d2l.ai/chapter_introduction/index.html")
docs = loader.load()
print(docs[0].page_content[:500]) # 将网页里面前500个字符打印出来









1. 引言 — 动手学深度学习 2.0.0 documentation

























1. 引言






search








      Quick search
      


code


Show Source








                  MXNet
              


                  PyTorch
              


                  Jupyter 记事本
              


                  课程
              


                  GitHub
              


                  English
              










Table Of Contents


前言
安装
符号


1. 引言
2. 预备知识
2.1. 数据操作
2.2. 数据预处理
2.3. 线性代数
2.4. 微积分
2.


## 2.2 文档切分
文档切分是指将一个长文本的 Document 拆成若干个更小的段落（Chunks），每个段落大小适合被大模型理解和向量化处理。之所以要切分是因为：
- 大模型通常有 Token 长度限制（如 2048 / 4096 tokens），原始文档太长无法直接处理，必须拆分。
- 长文本容易造成语义漂移，而小段文本可以更聚焦地表达一个意思，有利于后续检索和匹配。

In [3]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
  chunk_size = 1500,
  chunk_overlap = 150)
splits = text_splitter.split_documents(docs)
print(len(splits))

27


## 2.3 向量数据库存储
在将每一个文档切割成合适的 chunk 后，我们还需要进行文本嵌入及向量数据库存储：
- 文本嵌入：使用 Embedding 模型将文本转换成高维向量（如 1536 维）。
- 向量存储：将向量和元数据（metadata）一起存入向量数据库中。

In [5]:
from langchain_community.embeddings import DashScopeEmbeddings
import os

# 设置 embedding 模型（阿里云）
embeddings = DashScopeEmbeddings(
    dashscope_api_key=os.getenv('DASHSCOPE_API_KEY'), 
    model="text-embedding-v1")

# 设置文本内容
text_1 = "今天天气不错"

# 进行文本向量化
query_result = embeddings.embed_query(text_1)
print(query_result)

[-3.6761717796325684, 3.9287760257720947, 1.406152367591858, 2.5160155296325684, -1.5029622316360474, -2.227083444595337, 1.3093180656433105, -0.249114990234375, 0.09683430939912796, 5.202343940734863, -2.157926321029663, 2.1783854961395264, 1.2405558824539185, 1.2792236804962158, -1.8366210460662842, 3.848893165588379, -1.5490397214889526, 7.020751953125, 0.12340494990348816, 0.6939046382904053, -6.4620442390441895, -1.3764973878860474, 3.9332518577575684, -2.6236329078674316, 1.41455078125, -0.0037109374534338713, 2.8648884296417236, -0.48908692598342896, -1.6942057609558105, -2.1673176288604736, -1.2521158456802368, 0.13245442509651184, 4.077538967132568, -0.6785807013511658, 2.2517008781433105, 4.3818359375, 1.63214111328125, 2.691723585128784, -0.20652669668197632, 0.38512369990348816, 0.6812215447425842, 2.8853495121002197, -3.4527180194854736, -4.7725911140441895, 3.174837350845337, 0.3503173887729645, 1.2563313245773315, -0.782818615436554, -0.3004313111305237, -1.5382486581802

In [7]:
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_chroma import Chroma
import os

embeddings = DashScopeEmbeddings(
    dashscope_api_key=os.getenv('DASHSCOPE_API_KEY'), 
    model="text-embedding-v1")

vectordb = Chroma.from_documents(
    documents=splits,
    embedding=embeddings,
    persist_directory='./chroma')

print(vectordb._collection.count())

27


## 2.4 提问+向量数据库检索

然后我们就到了第二个阶段—提问 + 调用数据库。第一步，我们是需要根据用户提出的问题，在向量数据库里找到最相关的片段然后传给提示词。其内部原理如下：
- 首先要通过 Chorma 连接上当前的向量数据库。
- 接着将用户提问的内容用相同的 embedding 模型转为向量。
- 然后用余弦相似度计算它们的相似程度，相似度越高，代表语义越相关。
- 最后根据 Top-K 的值选择最相关的前 K 条内容进行返回。

那在 LangChain 的检索中通常有两种方式，一种是基本的相似度搜索，另外一种是进阶的 mmr 搜索：

### 2.4.1 相似度搜索

计算余弦相似度的方式进行检索：

In [8]:
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_chroma import Chroma
import os

# 使用当前创建的向量数据库
embeddings = DashScopeEmbeddings(
 dashscope_api_key=os.getenv('DASHSCOPE_API_KEY'), 
 model="text-embedding-v1")
vectordb = Chroma(persist_directory="./chroma", embedding_function=embeddings)

# 设置问题
question = "日常生活中的机器学习"

# 利用相似度搜索检索与问题最相关的3个切片
retriever = vectordb.as_retriever(
  search_type="similarity", 
  search_kwargs={"k": 3})
docs = retriever.invoke(question)

# 打印第一个最相关的切块内容
print(docs[0].page_content)

编写一个应用程序，接受地理信息、卫星图像和一些历史天气信息，并预测明天的天气；
编写一个应用程序，接受自然文本表示的问题，并正确回答该问题；
编写一个应用程序，接受一张图像，识别出该图像所包含的人，并在每个人周围绘制轮廓；
编写一个应用程序，向用户推荐他们可能喜欢，但在自然浏览过程中不太可能遇到的产品。

在这些情况下，即使是顶级程序员也无法提出完美的解决方案，
原因可能各不相同。有时任务可能遵循一种随着时间推移而变化的模式，我们需要程序来自动调整。
有时任务内的关系可能太复杂（比如像素和抽象类别之间的关系），需要数千或数百万次的计算。
即使人类的眼睛能毫不费力地完成这些难以提出完美解决方案的任务，这其中的计算也超出了人类意识理解范畴。
机器学习（machine learning，ML）是一类强大的可以从经验中学习的技术。
通常采用观测数据或与环境交互的形式，机器学习算法会积累更多的经验，其性能也会逐步提高。
相反，对于刚刚所说的电子商务平台，如果它一直执行相同的业务逻辑，无论积累多少经验，都不会自动提高，除非开发人员认识到问题并更新软件。
本书将带读者开启机器学习之旅，并特别关注深度学习（deep
learning，DL）的基础知识。
深度学习是一套强大的技术，它可以推动计算机视觉、自然语言处理、医疗保健和基因组学等不同领域的创新。

1.1. 日常生活中的机器学习¶
机器学习应用在日常生活中的方方面面。
现在，假设本书的作者们一起驱车去咖啡店。
阿斯顿拿起一部iPhone，对它说道：“Hey
Siri！”手机的语音识别系统就被唤醒了。
接着，李沐对Siri说道：“去星巴克咖啡店。”语音识别系统就自动触发语音转文字功能，并启动地图应用程序，
地图应用程序在启动后筛选了若干条路线，每条路线都显示了预计的通行时间……
由此可见，机器学习渗透在生活中的方方面面，在短短几秒钟的时间里，人们与智能手机的日常互动就可以涉及几种机器学习模型。
现在，假如需要我们编写程序来响应一个“唤醒词”（比如“Alexa”“小爱同学”和“Hey
Siri”）。 我们试着用一台计算机和一个代码编辑器编写代码，如
图1.1.1中所示。
问题看似很难解决：麦克风每秒钟将收集大约44000个样本，每个样本都是声波振幅的测量值。而该测量值与唤醒词难以直接关联。那又该如何编写程序，令其输入麦克风采集到的

### 2.4.2 最大边际相关性搜索

在向量数据库中进行信息检索时，除了相似度搜索以外，常见还有最大边际相关性（Maximum Marginal Relevance, MMR）的方法：

最大边际相关性是一种在信息检索中用于平衡 相关性 和 多样性 的技术，特别适用于需要避免重复内容并提高信息覆盖面的场景。它在传统的基于相似度的检索方法上进行了扩展，旨在通过同时考虑文档与查询的相关性以及文档之间的多样性来优化检索结果。
- 相关性（Relevance）：文档与查询之间的相似度，反映了文档对查询的相关性。
- 多样性（Diversity）：文档之间的相似度，旨在避免返回重复或冗余的内容。

In [None]:
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_chroma import Chroma
import os

# 使用当前创建的向量数据库
embeddings = DashScopeEmbeddings(
 dashscope_api_key=os.getenv('DASHSCOPE_API_KEY'), 
 model="text-embedding-v1")
vectordb = Chroma(persist_directory="./chroma", embedding_function=embeddings)

# 设置问题
question = "日常生活中的机器学习"

# 利用相似度搜索检索与问题最相关的3个切片
retriever = vectordb.as_retriever(
  search_type="mmr", 
  search_kwargs={"k": 5, "fetch_k": 10, "lambda_mult": 0.25})
docs = retriever.invoke(question)

# 打印第一个最相关的切块内容
print(docs[0].page_content)

编写一个应用程序，接受地理信息、卫星图像和一些历史天气信息，并预测明天的天气；
编写一个应用程序，接受自然文本表示的问题，并正确回答该问题；
编写一个应用程序，接受一张图像，识别出该图像所包含的人，并在每个人周围绘制轮廓；
编写一个应用程序，向用户推荐他们可能喜欢，但在自然浏览过程中不太可能遇到的产品。

在这些情况下，即使是顶级程序员也无法提出完美的解决方案，
原因可能各不相同。有时任务可能遵循一种随着时间推移而变化的模式，我们需要程序来自动调整。
有时任务内的关系可能太复杂（比如像素和抽象类别之间的关系），需要数千或数百万次的计算。
即使人类的眼睛能毫不费力地完成这些难以提出完美解决方案的任务，这其中的计算也超出了人类意识理解范畴。
机器学习（machine learning，ML）是一类强大的可以从经验中学习的技术。
通常采用观测数据或与环境交互的形式，机器学习算法会积累更多的经验，其性能也会逐步提高。
相反，对于刚刚所说的电子商务平台，如果它一直执行相同的业务逻辑，无论积累多少经验，都不会自动提高，除非开发人员认识到问题并更新软件。
本书将带读者开启机器学习之旅，并特别关注深度学习（deep
learning，DL）的基础知识。
深度学习是一套强大的技术，它可以推动计算机视觉、自然语言处理、医疗保健和基因组学等不同领域的创新。

1.1. 日常生活中的机器学习¶
机器学习应用在日常生活中的方方面面。
现在，假设本书的作者们一起驱车去咖啡店。
阿斯顿拿起一部iPhone，对它说道：“Hey
Siri！”手机的语音识别系统就被唤醒了。
接着，李沐对Siri说道：“去星巴克咖啡店。”语音识别系统就自动触发语音转文字功能，并启动地图应用程序，
地图应用程序在启动后筛选了若干条路线，每条路线都显示了预计的通行时间……
由此可见，机器学习渗透在生活中的方方面面，在短短几秒钟的时间里，人们与智能手机的日常互动就可以涉及几种机器学习模型。
现在，假如需要我们编写程序来响应一个“唤醒词”（比如“Alexa”“小爱同学”和“Hey
Siri”）。 我们试着用一台计算机和一个代码编辑器编写代码，如
图1.1.1中所示。
问题看似很难解决：麦克风每秒钟将收集大约44000个样本，每个样本都是声波振幅的测量值。而该测量值与唤醒词难以直接关联。那又该如何编写程序，令其输入麦克风采集到的

## 2.5 提示词模版+大模型回复
然后我们将检索到的相关内容（上下文）与用户问题，组织成一个 Prompt（提示词）。最后交给大模型进行理解和生成回答。

In [10]:
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
import os
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# 构建提示词模版
template = """请使用以下上下文信息回答最后的问题。
如果您不知道答案，就直接说您不知道，不要试图编造答案。
回答最多使用三句话。请尽可能简洁地回答。最后一定要说“谢谢提问！”。
上下文：{context}
问题：{question}
有帮助的回答："""

QA_CHAIN_PROMPT = PromptTemplate.from_template(template)

llm = ChatOpenAI(model="ernie-4.0-turbo-128k",
  openai_api_key=os.environ.get("OPENAI_API_KEY"),
  base_url="https://aistudio.baidu.com/llm/lmapi/v3")


def format_docs(docs):
  return "\n\n".join(doc.page_content for doc in docs)

retriever = vectordb.as_retriever(search_type="mmr", 
 search_kwargs={"k": 1, "fetch_k": 10, "lambda_mult": 0.25})

qa_chain = (
  {"context": retriever | format_docs,
    "question": RunnablePassthrough()}
  | QA_CHAIN_PROMPT
  | llm
  | StrOutputParser())

print(qa_chain.invoke("日常生活里，哪里用到了机器学习呢？"))

语音识别系统（如Siri）和地图应用程序的路线筛选用到了机器学习。这些应用能在短时间内涉及多种机器学习模型。谢谢提问！


## 2.6 前端页面制作
在设计完RAG系统后，我们也来看看如何来设计前端页面：
- 从前面的流程可知，RAG系统分为两步，一步是生成向量数据库，下一步才是对话，所以在RAG的前端我们需要有上传内容的组件，并且需要通过点击按钮的方式生成我们的向量数据库。
- 然后我们就还是要设计一个聊天的页面，里面和之前一样要记录下来完整的聊天记录，并且我们也要有内容输入的页面。

In [None]:
import gradio as gr
with gr.Blocks() as demo:
  gr.Markdown('# 基础 RAG 对话平台')
  with gr.Row():
    # 创建左侧列
    with gr.Column():
      # 创建一个文本框接收网页地址
      url = gr.Textbox(label='请输入网页地址')
      url_loader_button = gr.Button('点击生成向量数据库')
      # 创建一个文件上传组件接收文件
      document = gr.File(label='请上传文件')
      document_loader_button = gr.Button('点击生成向量数据库')
      # 创建一个 Markdown 块接收数据库生成的情况
      information = gr.Markdown()

    # 创建右侧列
    with gr.Column():
      # 创建一个 Chatbot 组件记录聊天内容
      chat_history = gr.Chatbot(label='聊天记录')
      # 创建一个文本区域记录要问的问题
      input_message = gr.TextArea(label='内容输入')
      state = gr.State([])
demo.launch()

这里面有三个事件触发器，需要我们一一进行函数的补充：
- load_web_content：加载链接类的文档并载入向量数据库
- load_document：加载本地上传的文档并载入向量数据库
- chat：基于创建好的向量数据库进行对话

### 2.6.1 load_web_content()

核心功能：将传入的网页链接里的内容切分后转为向量数据库的一部分：
- 输入：url 链接
- 输出：无输出或文字信息

In [None]:
from langchain_community.document_loaders import (
  WebBaseLoader,
  YoutubeLoader)
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_chroma import Chroma
import os

# 初始化存储路径
persist_directory='./chroma'
# 初始化嵌入
embeddings = DashScopeEmbeddings(
 dashscope_api_key=os.getenv('DASHSCOPE_API_KEY'), 
 model="text-embedding-v1")
# 初始化文本切分方法
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500,
 chunk_overlap=150)

def load_web_content(url: str):
  # 判断内容类型
  if 'youtube.com' in url or 'youtu.be' in url:
    loader = YoutubeLoader(url)
  else:
    loader = WebBaseLoader(url)
  docs = loader.load()
  # 文本切分
  splits = text_splitter.split_documents(docs)
  global vectordb
  vectordb = Chroma.from_documents(
    documents=splits,
    persist_directory=persist_directory,
    embedding=embeddings)
  return f"已成功在 {persist_directory} 文件夹生成向量数据库"


### 2.6.2 load_document()

核心功能：将传入的文件里的内容切分后转为向量数据库的一部分
- 输入：不同格式的文件
- 输出：无输出或文字信息

In [None]:
from langchain_community.document_loaders import (
  TextLoader,
  PyMuPDFLoader,
  Docx2txtLoader,
  UnstructuredMarkdownLoader,
  UnstructuredExcelLoader)

def load_document(file_path: str):
 # 获取文件后缀名
 file_type = file_path.split('.')[-1].lower()
 # 根据文件类型选择合适的 Loader
 if file_type == 'txt':
  loader = TextLoader(file_path)
 elif file_type == 'pdf':
  loader = PyMuPDFLoader(file_path)
 elif file_type == 'docx':
  loader = Docx2txtLoader(file_path)
 elif file_type == 'md':
  loader = UnstructuredMarkdownLoader(file_path)
 elif file_type == 'xlsx':
  loader = UnstructuredExcelLoader(file_path)
 else:
  raise ValueError(f"不支持的文件类型: {file_type}")
 # 加载文档
 docs = loader.load()
 # 文本切分
 splits = text_splitter.split_documents(docs)
 global vectordb
 vectordb = Chroma.from_documents(
  documents=splits,
  persist_directory=persist_directory,
  embedding=embeddings)
 return f"已成功在 {persist_directory} 文件夹生成向量数据库"

### 2.6.3 load_document()

核心功能：将问题和历史记录传入大模型，获得回复后将更新后的聊天记录传入聊天框中，并清空输入框的内容
- 输入：
    - 用户提问
    - 历史记录（前端 gr.State 保存）
- 输出：
    - 传入 chatbot 的历史记录
    - 更新 gr.State 的历史记录
    - 作用于输入框的空字符串

In [None]:
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough

def format_docs(docs):
  return "\n\n".join(doc.page_content for doc in docs)

def chat(question, chat_history):
 # 初始化聊天模型
 llm = ChatOpenAI(model="ernie-4.0-turbo-128k",
  openai_api_key=os.environ.get("OPENAI_API_KEY"),
  base_url="https://aistudio.baidu.com/llm/lmapi/v3")
 # 创建 ConversationalRetrievalChain

 # 构建提示词模版
 template = """请使用以下上下文信息回答最后的问题。
  如果您不知道答案，就直接说您不知道，不要试图编造答案。
  回答最多使用三句话。请尽可能简洁地回答。最后一定要说“谢谢提问！”。
  上下文：{context}
  问题：{question}
  有帮助的回答："""
 QA_CHAIN_PROMPT = PromptTemplate.from_template(template)
 retriever = vectordb.as_retriever(search_type="mmr", 
  search_kwargs={"k": 1, "fetch_k": 10, "lambda_mult": 0.25})
 qa_chain = (
  {"context": retriever | format_docs,
    "question": RunnablePassthrough()}
  | QA_CHAIN_PROMPT
  | llm
  | StrOutputParser())
 result = qa_chain.invoke({question}) 
 chat_history.append({"role": "user", "content": question})
 chat_history.append({"role": "assistant", "content": result})
 return chat_history, chat_history, ""

### 2.6.4 页面整合

最后将三个函数进行整合：

In [None]:
import gradio as gr
with gr.Blocks() as demo:
  gr.Markdown('# 基础 RAG 对话平台')
  with gr.Row():
    # 创建左侧列
    with gr.Column():
      # 创建一个文本框接收网页地址
      url = gr.Textbox(label='请输入网页地址')
      url_loader_button = gr.Button('点击生成向量数据库')
      # 创建一个文件上传组件接收文件
      document = gr.File(label='请上传文件')
      document_loader_button = gr.Button('点击生成向量数据库')
      # 创建一个 Markdown 块接收数据库生成的情况
      information = gr.Markdown()
      url_loader_button.click(fn = load_web_content, inputs= url , outputs= information)
      document_loader_button.click(fn = load_document, inputs = document, outputs = information)

    # 创建右侧列
    with gr.Column():
      # 创建一个 Chatbot 组件记录聊天内容
      chat_history = gr.Chatbot(label='聊天记录')
      # 创建一个文本区域记录要问的问题
      input_message = gr.TextArea(label='内容输入')
      state = gr.State([])
      input_message.submit(fn = chat, inputs=[input_message, state],outputs=[chat_history, state, input_message])
demo.launch()

## 2.7 课堂练习

请在原有代码的基础上，为RAG系统添加上下文聊天记忆（RunnableWithMessageHistory）。并在页面中添加一个文本框，让用户能够设置 session_id 的信息选择合适的记忆，并将记忆同步在聊天记录框中进行展示。