#### 检索增强生成技术RAG
RAG（检索增强生成）技术主要针对大型语言模型（LLMs）的以下几个缺点进行了改进：
- 知识更新滞后：
  - 大型语言模型通常基于大量历史数据进行训练，这导致它们的知识库存在时间上的滞后。对于最新的事件、信息或知识，模型可能无法提供准确的回答。
  - RAG通过引入外部知识库，允许模型在生成响应时动态检索最新信息，从而弥补了这一缺陷。
- 幻觉问题（Hallucination）
  - 大型语言模型有时会生成看似合理但实际上不正确或不存在的信息，即“幻觉”。这可能是因为模型在训练数据中没有足够的证据支持其生成的答案，或者因为模型过度依赖于模式匹配。
  - RAG通过将检索到的真实信息作为生成的基础，降低了模型产生幻觉的风险，提高了生成内容的可靠性。
- 领域知识不足：
  - 虽然大型语言模型在通用知识方面表现出色，但在特定领域或专业领域，它们的知识可能有限。
  - RAG允许模型访问特定领域的知识库，从而增强其在这些领域的专业性，使其能够提供更准确和深入的回答。
- 缺乏信息来源：
  - 大型语言模型生成的文本通常缺乏明确的信息来源，这使得用户难以验证信息的真实性和可靠性。
  - RAG可以提供检索到的文档或信息的链接，使用户能够追溯信息的来源，提高生成内容的可信度。
总结来说，RAG技术通过将信息检索与文本生成相结合，有效地解决了大型语言模型在知识更新、幻觉问题、领域知识和信息来源方面的不足，提高了生成文本的质量和可靠性。

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索与文本生成相结合的技术，用于提高大型语言模型（LLMs）生成文本的质量和准确性。简单来说，RAG允许LLMs在生成回答之前，先从外部知识库中检索相关信息，然后利用这些信息来增强其生成的内容。

以下是RAG的核心概念和工作原理：
核心概念：
- 检索（Retrieval）：
  RAG系统首先根据用户的查询，从一个或多个外部知识库中检索相关文档或信息片段。
  这些知识库可以是向量数据库、传统数据库、网页、文档集合等。
- 增强（Augmentation）：
  检索到的信息被整合到LLM的输入提示（prompt）中，作为额外的上下文。
  这使得LLM能够访问其训练数据之外的最新或特定领域的信息。
- 生成（Generation）：
  LLM利用增强后的提示，生成包含检索到的相关信息的回答或文本。

工作原理：
- 用户查询：
  用户向RAG系统提出一个问题或请求。
- 信息检索：
  系统使用检索模型（例如，基于向量相似度的检索）在知识库中查找与查询相关的文档。
- 上下文增强：
  检索到的文档被添加到LLM的输入提示中，为LLM提供额外的上下文信息。
- 文本生成：
  LLM根据增强后的提示，生成包含检索到的信息的回答或文本。

RAG的优势：
- 提高准确性：
  通过访问外部知识，RAG可以减少LLM生成不准确或过时信息的风险。
- 增强知识：
  RAG允许LLM访问其训练数据中没有的特定领域或最新信息。
- 提高可信度：
  RAG可以提供信息来源，增加生成文本的可信度。
- 减少幻觉：
  通过检索实际的知识，来减少大型语言模型，自己“创造”信息的可能性。

RAG的应用场景：
- 问答系统：提供基于特定知识库的准确回答。
- 内容创作：生成包含最新信息的文章、报告等。
- 客户服务：提供基于产品文档或知识库的客户支持。

#### LangChain中的RAG的实现
在 LangChain 中实现 RAG关键组件
- 文档加载器（Document Loaders）：LangChain 提供了多种文档加载器，用于从各种数据源加载文档
- 文本分割器（Text Splitters）：加载的文档通常很长，需要分割成更小的块，以便嵌入模型和语言模型处理
- 嵌入模型（Embeddings）：嵌入模型将文本转换为向量，以便计算文本之间的相似度。
- 向量数据库（Vector Stores）：向量数据库用于存储和检索嵌入向量。
- 检索器（Retrievers）：检索器将查询转换为嵌入向量，并在向量数据库中查找最相似的文本块。
- 语言模型（Language Models）：语言模型将检索到的文本块和用户查询作为输入，生成回答。
- 链（Chains）：LangChain 的链允许你将多个组件组合在一起，形成一个工作流程。

##### 文档加载器（loader）：让大模型具备实时学习能力
- CSV loader：加载csv格式的文件
- File directory：根据目录加载
- Html loader：加载html格式的文件
- Json loader：加载json格式的文件
- Markdown loader：加载Markdown格式的文件
- Pdf loader：加载pdf格式的文件

###### 加载Markdown文件

In [None]:
# 使用loader来加载Markdown文本
from langchain_community.document_loaders import TextLoader

loader = TextLoader(file_path="./sources/loader.md", encoding="utf-8")
loader.load()

###### 加载SCV文件

In [None]:
# 使用loader来加载CSV文本
from langchain_community.document_loaders import CSVLoader

# loader = CSVLoader(file_path='./sources/loader.csv', encoding="utf-8")
# 加载指定列
loader = CSVLoader(file_path='./sources/loader.csv', source_column="Location", encoding="utf-8")
data = loader.load()
print(data)

###### 加载Excel文本

In [None]:
# 安装依赖包，才能实现对excel文件的解析
%pip install "unstructured[xlsx]"

In [None]:
# 使用loader来加载Excel文本
from langchain_community.document_loaders import DirectoryLoader

# 某个目录下，有excel文件，我们需要把这个目录下所有的excel文件都加载进来
# 使用DirectoryLoader不会加载该目录下的.html和.rst文件
loader = DirectoryLoader("./sources", glob="*.xlsx")
xlsx = loader.load()
print(xlsx)

###### 加载HTML文件

In [None]:
# 安装依赖包
%pip install unstructured 

In [None]:
# 使用loader来加载html文件
# UnstructuredHTMLLoader 使用 unstructured 库来加载 HTML 文件。它能够处理更复杂的 HTML 结构，并提取出更干净的文本内容。
from langchain_community.document_loaders import UnstructuredHTMLLoader

# 把html源代码加载进来
loader = UnstructuredHTMLLoader("./sources/loader.html")
data = loader.load()
print(data)

In [None]:
# BSHTMLLoader 使用 BeautifulSoup 库来解析 HTML 文件。它更适用于简单的 HTML 结构，并且可以方便地提取特定元素的内容。
from langchain_community.document_loaders import BSHTMLLoader

# 只把html中文本加载进来
bs_loader = BSHTMLLoader(file_path="./sources/loader.html", open_encoding="utf-8")
data = bs_loader.load()
print(data)

###### 加载Json文件

In [None]:
# 使用loader来加载json，需要先安装依赖
%pip install jq

In [None]:
from langchain_community.document_loaders import JSONLoader

# 只把html中文本加载进来，jq_schema参数允许你使用 jq 查询语言来提取 JSON 文件中的特定内容。
loader = JSONLoader(file_path="simple_prompt.json", jq_schema=".template", text_content=False)
data = loader.load()
print(data)

###### 加载PDF文件

In [None]:
# 解析pdf文件的依赖包
%pip install pypdf

In [None]:
# loader加载pdf
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("./sources/loader.pdf")
pages = loader.load_and_split()
print(pages)

#### LangChain文档转换
- 文档切割器和按字符分割
- 代码文档分割器
- 按token分割文档
- 文档总结、精炼、翻译
  
文档转换器原理
1. 将文档分成小的，有意义的块（句子）
2. 将小的块组合成一个更大的块，直到到达一定的大小
3. 一旦到达一定的大小，接着开始创建与下一个块重叠的部分

In [None]:
### 递归地按字符分割文本，并尝试保持语义完整性。
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载要切分的文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    text = f.read()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=50, # 切分的文本块大小，一般通过长度函数计算
    chunk_overlap=20, # 表示相邻文本块之间的重叠部分长度，一般通过长度函数计算
    length_function=len, # 计算文本块的长度函数，也可以传递tokenize函数
    add_start_index=True, # 是否在元数据中包含每个块的起始索引
)

documents = text_splitter.create_documents([text])
for text in documents:
    print(text)

In [None]:
# 按字符分割文本
from langchain_text_splitters import CharacterTextSplitter

# 加载要切分的文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    text = f.read()

text_splitter = CharacterTextSplitter(
    separator="。", # 切割的标识字符，默认是"\n\n"
    chunk_size=50, # 切分的每个文本块的最大长度（以字符数为单位）
    chunk_overlap=20, # 切分的文本相邻块之间的重叠部分长度
    length_function=len, # 长度函数，也可以传递tokenize函数
    add_start_index=True, # 是否添加开始索引
    is_separator_regex=False, # 是否使用正则表达式
)

documents = text_splitter.create_documents([text])
for text in documents:
    print(text)

In [None]:
# 代码文档切割
from langchain_text_splitters import RecursiveCharacterTextSplitter, Language

# 支持解析的编程语言
# [print(e.value) for e in Language]

# 要切割的代码文档示例
PYTHON_CODE = """
def hello_world():
    print("hello world")

# 调用函数
hello_world()
"""

py_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=50,
    chunk_overlap=10,
)

python_docs = py_splitter.create_documents([PYTHON_CODE])
print(python_docs)
for docs in python_docs:
    print(docs)

In [None]:
# 按token来分割文档
from langchain_text_splitters import CharacterTextSplitter

# 加载要切分的文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    text = f.read()

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=4000, # 切分的每个文本块的最大长度（以字符数为单位）
    chunk_overlap=30, # 切分的文本相邻块之间的重叠部分长度
)

documents = text_splitter.create_documents([text])
print(documents)

#### 文档的总结、精炼、翻译


In [None]:
# 安装依赖
%pip install doctran

In [None]:
# 加载文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    content = f.read()

In [None]:
from dotenv import load_dotenv
import os

load_dotenv(".env")

API_BASE = os.getenv("OPENAI_API_BASE_URL")
API_KEY = os.getenv("OPENAI_API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")
OPENAI_TOKEN_LIMIT = 8000

from doctran import Doctran

# Doctran是对openai的一层封装
doctrans = Doctran(
    openai_api_key=API_KEY,
    openai_model=MODEL_NAME,
    openai_token_limit=OPENAI_TOKEN_LIMIT,
)

documents = doctrans.parse(content=content)

In [None]:
# 总结文档, token_limit参数是总结后的字数限制
summary = documents.summarize(token_limit=100).execute()
print(summary.transformed_content)

In [None]:
# 翻译问答
translation = documents.translate(language="chinese").execute()
print(translation.transformed_content)

In [None]:
# 精炼文档，删除除了某主题或关键词之外的内容，仅保留与主体相关的内容
# 指定主题来进行精炼
refined = documents.refine(topics=["marketing","Development"]).execute()
print(refined.transformed_content)