#### 检索增强生成技术RAG
RAG（检索增强生成）技术主要针对大型语言模型（LLMs）的以下几个缺点进行了改进：
- 知识更新滞后：
  - 大型语言模型通常基于大量历史数据进行训练，这导致它们的知识库存在时间上的滞后。对于最新的事件、信息或知识，模型可能无法提供准确的回答。
  - RAG通过引入外部知识库，允许模型在生成响应时动态检索最新信息，从而弥补了这一缺陷。
- 幻觉问题（Hallucination）
  - 大型语言模型有时会生成看似合理但实际上不正确或不存在的信息，即“幻觉”。这可能是因为模型在训练数据中没有足够的证据支持其生成的答案，或者因为模型过度依赖于模式匹配。
  - RAG通过将检索到的真实信息作为生成的基础，降低了模型产生幻觉的风险，提高了生成内容的可靠性。
- 领域知识不足：
  - 虽然大型语言模型在通用知识方面表现出色，但在特定领域或专业领域，它们的知识可能有限。
  - RAG允许模型访问特定领域的知识库，从而增强其在这些领域的专业性，使其能够提供更准确和深入的回答。
- 缺乏信息来源：
  - 大型语言模型生成的文本通常缺乏明确的信息来源，这使得用户难以验证信息的真实性和可靠性。
  - RAG可以提供检索到的文档或信息的链接，使用户能够追溯信息的来源，提高生成内容的可信度。
总结来说，RAG技术通过将信息检索与文本生成相结合，有效地解决了大型语言模型在知识更新、幻觉问题、领域知识和信息来源方面的不足，提高了生成文本的质量和可靠性。

RAG（Retrieval-Augmented Generation，检索增强生成）是一种将信息检索与文本生成相结合的技术，用于提高大型语言模型（LLMs）生成文本的质量和准确性。简单来说，RAG允许LLMs在生成回答之前，先从外部知识库中检索相关信息，然后利用这些信息来增强其生成的内容。

以下是RAG的核心概念和工作原理：
核心概念：
- 检索（Retrieval）：
  RAG系统首先根据用户的查询，从一个或多个外部知识库中检索相关文档或信息片段。
  这些知识库可以是向量数据库、传统数据库、网页、文档集合等。
- 增强（Augmentation）：
  检索到的信息被整合到LLM的输入提示（prompt）中，作为额外的上下文。
  这使得LLM能够访问其训练数据之外的最新或特定领域的信息。
- 生成（Generation）：
  LLM利用增强后的提示，生成包含检索到的相关信息的回答或文本。

工作原理：
- 用户查询：
  用户向RAG系统提出一个问题或请求。
- 信息检索：
  系统使用检索模型（例如，基于向量相似度的检索）在知识库中查找与查询相关的文档。
- 上下文增强：
  检索到的文档被添加到LLM的输入提示中，为LLM提供额外的上下文信息。
- 文本生成：
  LLM根据增强后的提示，生成包含检索到的信息的回答或文本。

RAG的优势：
- 提高准确性：
  通过访问外部知识，RAG可以减少LLM生成不准确或过时信息的风险。
- 增强知识：
  RAG允许LLM访问其训练数据中没有的特定领域或最新信息。
- 提高可信度：
  RAG可以提供信息来源，增加生成文本的可信度。
- 减少幻觉：
  通过检索实际的知识，来减少大型语言模型，自己“创造”信息的可能性。

RAG的应用场景：
- 问答系统：提供基于特定知识库的准确回答。
- 内容创作：生成包含最新信息的文章、报告等。
- 客户服务：提供基于产品文档或知识库的客户支持。

#### LangChain中的RAG的实现
在 LangChain 中实现 RAG关键组件
- 文档加载器（Document Loaders）：LangChain 提供了多种文档加载器，用于从各种数据源加载文档
- 文本分割器（Text Splitters）：加载的文档通常很长，需要分割成更小的块，以便嵌入模型和语言模型处理
- 嵌入模型（Embeddings）：嵌入模型将文本转换为向量，以便计算文本之间的相似度。
- 向量数据库（Vector Stores）：向量数据库用于存储和检索嵌入向量。
- 检索器（Retrievers）：检索器将查询转换为嵌入向量，并在向量数据库中查找最相似的文本块。
- 语言模型（Language Models）：语言模型将检索到的文本块和用户查询作为输入，生成回答。
- 链（Chains）：LangChain 的链允许你将多个组件组合在一起，形成一个工作流程。

##### 文档加载器（loader）：让大模型具备实时学习能力
- CSV loader：加载csv格式的文件
- File directory：根据目录加载
- Html loader：加载html格式的文件
- Json loader：加载json格式的文件
- Markdown loader：加载Markdown格式的文件
- Pdf loader：加载pdf格式的文件

###### 加载Markdown文件

In [4]:
# 使用loader来加载Markdown文本
from langchain_community.document_loaders import TextLoader

loader = TextLoader(file_path="./sources/loader.md", encoding="utf-8")
loader.load()

[Document(metadata={'source': './sources/loader.md'}, page_content='# 我是一个markdown加载示例\n- 第一项目\n- 第二个项目\n- 第三个项目\n\n## 第一个项目\nAI研习社最厉害专业的AI研究基地\n\n## 第二个项目\nAIGC打造未来AI应用天地\n\n## 第三个项目\nAI研习社是一个非常牛逼的AI媒体')]

###### 加载SCV文件

In [11]:
# 使用loader来加载CSV文本
from langchain_community.document_loaders import CSVLoader

# loader = CSVLoader(file_path='./sources/loader.csv', encoding="utf-8")
# 加载指定列
loader = CSVLoader(file_path='./sources/loader.csv', source_column="Location", encoding="utf-8")
data = loader.load()
print(data)

[Document(metadata={'source': '北京', 'row': 0}, page_content='\ufeffProject: AI GC培训\nDES: 培训课程\nPrice: 500\nPeople: 100\nLocation: 北京'), Document(metadata={'source': '西安', 'row': 1}, page_content='\ufeffProject: AI工程师认证\nDES: 微软AI认证\nPrice: 6000\nPeople: 200\nLocation: 西安'), Document(metadata={'source': '深圳', 'row': 2}, page_content='\ufeffProject: AI应用大会\nDES: AI应用创新大会\nPrice: 200门票\nPeople: 300\nLocation: 深圳'), Document(metadata={'source': '香港', 'row': 3}, page_content='\ufeffProject: AI 应用咨询服务\nDES: AI与场景结合\nPrice: 1000/小时\nPeople: 50\nLocation: 香港'), Document(metadata={'source': '上海', 'row': 4}, page_content='\ufeffProject: AI项目可研\nDES: 可行性报告\nPrice: 20000\nPeople: 60\nLocation: 上海')]


###### 加载Excel文本

In [14]:
# 安装依赖包，才能实现对excel文件的解析
%pip install "unstructured[xlsx]"

Collecting unstructured[xlsx]
  Using cached unstructured-0.16.25-py3-none-any.whl.metadata (24 kB)
Collecting chardet (from unstructured[xlsx])
  Using cached chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Collecting filetype (from unstructured[xlsx])
  Using cached filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting python-magic (from unstructured[xlsx])
  Using cached python_magic-0.4.27-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting lxml (from unstructured[xlsx])
  Using cached lxml-5.3.1-cp313-cp313-win_amd64.whl.metadata (3.8 kB)
Collecting nltk (from unstructured[xlsx])
  Using cached nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting emoji (from unstructured[xlsx])
  Using cached emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Collecting python-iso639 (from unstructured[xlsx])
  Using cached python_iso639-2025.2.18-py3-none-any.whl.metadata (14 kB)
Collecting langdetect (from unstructured[xlsx])
  Using cached langdetect-1.0.9.tar.gz (981 kB)
  Installin

  You can safely remove it manually.
  You can safely remove it manually.


In [23]:
# 使用loader来加载Excel文本
from langchain_community.document_loaders import DirectoryLoader

# 某个目录下，有excel文件，我们需要把这个目录下所有的excel文件都加载进来
# 使用DirectoryLoader不会加载该目录下的.html和.rst文件
loader = DirectoryLoader("./sources", glob="*.xlsx")
xlsx = loader.load()
print(xlsx)

[Document(metadata={'source': 'sources\\fake.xlsx'}, page_content='名称 宏图科技发展有限公司 注册地址 江苏省南京市雨花台区软件大道101号 成立日期 40679 法定代表人 李强 注册资本 人民币5000万元 员工人数 约200人 联系电话 025-88888888 电子邮箱 info@hongtutech.cn 资产总额 人民币1.2亿元，较上年同期下降30% 负债总额 人民币1.8亿元，较上年同期上升50%，资不抵债 营业收入 人民币3000万元，较上年同期下降60% 净利润 亏损人民币800万元，去年同期为盈利人民币200万元 现金流量 公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营')]


###### 加载HTML文件

In [17]:
# 安装依赖包
%pip install unstructured 

Note: you may need to restart the kernel to use updated packages.


In [22]:
# 使用loader来加载html文件
# UnstructuredHTMLLoader 使用 unstructured 库来加载 HTML 文件。它能够处理更复杂的 HTML 结构，并提取出更干净的文本内容。
from langchain_community.document_loaders import UnstructuredHTMLLoader

# 把html源代码加载进来
loader = UnstructuredHTMLLoader("./sources/loader.html")
data = loader.load()
print(data)

[Document(metadata={'source': './sources/loader.html'}, page_content='首发于自然语言处理算法与实践\n\n切换模式\n\nRAG:将检索与生成方式相结合来做生成任务\n\n烛之文\u200b\n\na worker in NLP\n\n1、前言\n\n在上一篇<kNN-NER：利用knn近邻算法来做命名实体识别>提及到文中提出kNN-NER框架是一种检索式增强的方法（retrieval augmented methods），就去查看有关retrieval augmented的paper，了解其核心思想，觉得检索式增强的方法很适合许多业务场景使用，因其以一种简捷的方式将外部知识融于模型中去。今天就分享一篇来自Facebook AI Research的paper<Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks>，论文提出一种检索式增强生成方法，应用于知识密集型的NLP任务（如问答生成），该篇论文被2020年NeurIPS 会议接收。\n\n文中说到，以BERT之类的大规模预训练模型将很多事实知识信息存入模型中，可以看着是pre-trained parametric类型，尽管以fine-tuned方式在下游任务取得显著的成效，但这类方法仍存在无法精准地获取和操作知识的缺陷。而在上述提及的问题上，传统知识检索的方法能很好的应对，这类方法可以看着是non-parametric memory类型。于是，论文提出检索式增强生成方法（retrieval-augmented generation，RAG），主要思想就是将pre-trained parametric与non-parametric memory结合起来做语言生成任务，将两类模型集成起来提高任务处理效果。\n\n2、RAG方法\n\n上图为论文提出RAG模型的整体示意图。主要包括两大模块：一个检索器（Retriever， p_\\eta(z|x) ） + 一个生成器（Generator， p_\\theta(y_i|x,z,y_{1:i-1}) ）。前者包括query encoder和document index，分别负责query的编码和文档的索引；后者是一个seq2se

In [25]:
# BSHTMLLoader 使用 BeautifulSoup 库来解析 HTML 文件。它更适用于简单的 HTML 结构，并且可以方便地提取特定元素的内容。
from langchain_community.document_loaders import BSHTMLLoader

# 只把html中文本加载进来
bs_loader = BSHTMLLoader(file_path="./sources/loader.html", open_encoding="utf-8")
data = bs_loader.load()
print(data)

[Document(metadata={'source': './sources/loader.html', 'title': 'RAG:将检索与生成方式相结合来做生成任务 - 知乎'}, page_content='RAG:将检索与生成方式相结合来做生成任务 - 知乎首发于自然语言处理算法与实践切换模式写文章登录/注册RAG:将检索与生成方式相结合来做生成任务烛之文\u200ba worker in NLP1、前言在上一篇<kNN-NER：利用knn近邻算法来做命名实体识别>提及到文中提出kNN-NER框架是一种检索式增强的方法（retrieval augmented methods），就去查看有关retrieval augmented的paper，了解其核心思想，觉得检索式增强的方法很适合许多业务场景使用，因其以一种简捷的方式将外部知识融于模型中去。今天就分享一篇来自Facebook AI Research的paper<Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks>，论文提出一种检索式增强生成方法，应用于知识密集型的NLP任务（如问答生成），该篇论文被2020年NeurIPS 会议接收。文中说到，以BERT之类的大规模预训练模型将很多事实知识信息存入模型中，可以看着是pre-trained parametric类型，尽管以fine-tuned方式在下游任务取得显著的成效，但这类方法仍存在无法精准地获取和操作知识的缺陷。而在上述提及的问题上，传统知识检索的方法能很好的应对，这类方法可以看着是non-parametric memory类型。于是，论文提出检索式增强生成方法（retrieval-augmented generation，RAG），主要思想就是将pre-trained parametric与non-parametric memory结合起来做语言生成任务，将两类模型集成起来提高任务处理效果。2、RAG方法上图为论文提出RAG模型的整体示意图。主要包括两大模块：一个检索器（Retriever， p_\\eta(z|x) ） + 一个生成器（Generator， p_\\theta(y_i|x,z,y_{1:i-1}) ）。前者包括query encoder和document

###### 加载Json文件

In [28]:
# 使用loader来加载json，需要先安装依赖
%pip install jq

Note: you may need to restart the kernel to use updated packages.


In [34]:
from langchain_community.document_loaders import JSONLoader

# 只把html中文本加载进来，jq_schema参数允许你使用 jq 查询语言来提取 JSON 文件中的特定内容。
loader = JSONLoader(file_path="simple_prompt.json", jq_schema=".template", text_content=False)
data = loader.load()
print(data)

[Document(metadata={'source': 'C:\\Users\\jizhe\\Projects\\python-project\\lang-chain\\simple_prompt.json', 'seq_num': 1}, page_content='给我讲一个关于{name}的{what}故事')]


###### 加载PDF文件

In [15]:
# 解析pdf文件的依赖包
%pip install pypdf

Note: you may need to restart the kernel to use updated packages.


In [35]:
# loader加载pdf
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("./sources/loader.pdf")
pages = loader.load_and_split()
print(pages)

[Document(metadata={'producer': 'macOS 版本14.1.1（版号23B81） Quartz PDFContext', 'creator': '文本编辑', 'creationdate': "D:20231122121354Z00'00'", 'title': '蒂法介绍', 'moddate': "D:20231122121354Z00'00'", 'source': './sources/loader.pdf', 'total_pages': 5, 'page': 0, 'page_label': '1'}, page_content='蒂法介绍\n蒂法· 洛克哈特（⽇语：ティファ・ロックハート，Tifa Rokkuhāto，英语：Tifa \nLockhart）为电⼦游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆\n⾊，由野村哲也创作和设计，此后也在多个游戏中客串登场。\n2014年东京电玩展上，星名美津纪cosplay《最终幻想VII 降临之⼦》中的蒂法· 洛克哈特\n蒂法是克劳德的⻘梅⽵⻢，两⼈同为尼布鲁海姆出身。在⽶德加经营作为反抗组织“雪崩”根\n据地的酒馆“第七天堂”，并且是⼩有名⽓的招牌店员。擅⻓格⽃，以拳套为武器。本传7年前\n克劳德离开故乡从军时，曾许下约定“如果有危机时⼀定会保护她”。与爱丽丝相识之后，两\n⼈成为好友。第⼀个察觉克劳德记忆混乱的⼈，后来协助精神崩溃的克劳德重新找回真正的⾃\n⼰。本传的⼤战结束后，依⼤家的期待在战后新⽣的⽶德加再次开设第七天堂（原第七天堂因\n第柒区圆盘崩塌遭压毁），同时也照顾⼀群受到星痕症候群折磨的孩⼦们。\n蒂法被《纽约时报》称为“⽹络⼀代”的海报⼥郎，与劳拉· 克罗夫特相⽐，她是电⼦游戏中坚\n强、独⽴和有吸引⼒的⼥性⻆⾊的典型代表。媒体普遍称赞其实⼒和外表，并称她为游戏世界\n中最好的⼥性⻆⾊之⼀。\n在《最终幻想VII》本传中，蒂法年龄20岁、身⾼167cm、⽣⽇5⽉3⽇、⾎型B型、出⽣地尼\n布尔海姆。\n登场\n《最终幻想VII》\n蒂法在《最终幻想VII》原版中⾸次亮相，是克劳德的⻘梅⽵⻢、第七天堂酒吧的看板娘、极\n端环境组织“雪崩”成员，该组织反抗巨型企业“神罗”因其⼤量抽取魔晄⽤作动⼒能源。在注\n意到克劳德的性格改变后，她说服克劳

#### LangChain文档转换
- 文档切割器和按字符分割
- 代码文档分割器
- 按token分割文档
- 文档总结、精炼、翻译
  
文档转换器原理
1. 将文档分成小的，有意义的块（句子）
2. 将小的块组合成一个更大的块，直到到达一定的大小
3. 一旦到达一定的大小，接着开始创建与下一个块重叠的部分

In [37]:
### 递归地按字符分割文本，并尝试保持语义完整性。
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载要切分的文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    text = f.read()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=50, # 切分的文本块大小，一般通过长度函数计算
    chunk_overlap=20, # 表示相邻文本块之间的重叠部分长度，一般通过长度函数计算
    length_function=len, # 计算文本块的长度函数，也可以传递tokenize函数
    add_start_index=True, # 是否在元数据中包含每个块的起始索引
)

documents = text_splitter.create_documents([text])
for text in documents:
    print(text)

page_content='蒂法介绍' metadata={'start_index': 1}
page_content='蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa' metadata={'start_index': 6}
page_content='Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆' metadata={'start_index': 52}
page_content='色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场。' metadata={'start_index': 99}
page_content='2014年东京电玩展上，星名美津纪cosplay《最终幻想VII 降临之子》中的蒂法·洛克哈特' metadata={'start_index': 127}
page_content='蒂法是克劳德的⻘梅竹⻢，两人同为尼布鲁海姆出身。在米德加经营作为反抗组织“雪崩”根' metadata={'start_index': 175}
page_content='据地的酒馆“第七天堂”，并且是小有名气的招牌店员。擅⻓格斗，以拳套为武器。本传7年前' metadata={'start_index': 217}
page_content='克劳德离开故乡从军时，曾许下约定“如果有危机时一定会保护她”。与爱丽丝相识之后，两' metadata={'start_index': 260}
page_content='人成为好友。第一个察觉克劳德记忆混乱的人，后来协助精神崩溃的克劳德􏰁新找回真正的自' metadata={'start_index': 302}
page_content='己。本传的大战结束后，依大家的期待在战后新生的米德加再次开设第七天堂(原第七天堂因' metadata={'start_index': 344}
page_content='第柒区圆盘崩塌遭压毁)，同时也照顾一群受到星痕症候群折磨的孩子们。' metadata={'start_index': 386}
page_content='蒂法被《纽约时报》称为“网络一代”的海报女郎，与劳拉·克罗夫特相比，她是电子游戏中坚' metadata={'start_index': 420}
page

In [39]:
# 按字符分割文本
from langchain_text_splitters import CharacterTextSplitter

# 加载要切分的文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    text = f.read()

text_splitter = CharacterTextSplitter(
    separator="。", # 切割的标识字符，默认是"\n\n"
    chunk_size=50, # 切分的每个文本块的最大长度（以字符数为单位）
    chunk_overlap=20, # 切分的文本相邻块之间的重叠部分长度
    length_function=len, # 长度函数，也可以传递tokenize函数
    add_start_index=True, # 是否添加开始索引
    is_separator_regex=False, # 是否使用正则表达式
)

documents = text_splitter.create_documents([text])
for text in documents:
    print(text)

Created a chunk of size 125, which is longer than the specified 50
Created a chunk of size 72, which is longer than the specified 50
Created a chunk of size 72, which is longer than the specified 50
Created a chunk of size 63, which is longer than the specified 50
Created a chunk of size 52, which is longer than the specified 50
Created a chunk of size 96, which is longer than the specified 50
Created a chunk of size 51, which is longer than the specified 50
Created a chunk of size 66, which is longer than the specified 50
Created a chunk of size 105, which is longer than the specified 50
Created a chunk of size 84, which is longer than the specified 50
Created a chunk of size 78, which is longer than the specified 50
Created a chunk of size 72, which is longer than the specified 50
Created a chunk of size 66, which is longer than the specified 50
Created a chunk of size 92, which is longer than the specified 50
Created a chunk of size 58, which is longer than the specified 50
Created 

page_content='蒂法介绍
蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场' metadata={'start_index': 1}
page_content='2014年东京电玩展上，星名美津纪cosplay《最终幻想VII 降临之子》中的蒂法·洛克哈特 蒂法是克劳德的⻘梅竹⻢，两人同为尼布鲁海姆出身' metadata={'start_index': 127}
page_content='在米德加经营作为反抗组织“雪崩”根 据地的酒馆“第七天堂”，并且是小有名气的招牌店员' metadata={'start_index': 199}
page_content='擅⻓格斗，以拳套为武器。本传7年前 克劳德离开故乡从军时，曾许下约定“如果有危机时一定会保护她”' metadata={'start_index': 242}
page_content='与爱丽丝相识之后，两 人成为好友' metadata={'start_index': 291}
page_content='第一个察觉克劳德记忆混乱的人，后来协助精神崩溃的克劳德􏰁新找回真正的自 己' metadata={'start_index': 308}
page_content='本传的大战结束后，依大家的期待在战后新生的米德加再次开设第七天堂(原第七天堂因 第柒区圆盘崩塌遭压毁)，同时也照顾一群受到星痕症候群折磨的孩子们' metadata={'start_index': 346}
page_content='蒂法被《纽约时报》称为“网络一代”的海报女郎，与劳拉·克罗夫特相比，她是电子游戏中坚 强、􏰂立和有吸引力的女性⻆色的典型代表' metadata={'start_index': 420}
page_content='媒体普遍称赞其实力和外表，并称她为游戏世界 中最好的女性⻆色之一' metadata={'start_index': 483}
page_content='在《最终幻想VII》本传中，蒂法年龄20岁、身高167cm、生日5月3日、血型B型、出生地尼 布尔海姆' metadata={'start_

In [41]:
# 代码文档切割
from langchain_text_splitters import RecursiveCharacterTextSplitter, Language

# 支持解析的编程语言
# [print(e.value) for e in Language]

# 要切割的代码文档示例
PYTHON_CODE = """
def hello_world():
    print("hello world")

# 调用函数
hello_world()
"""

py_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=50,
    chunk_overlap=10,
)

python_docs = py_splitter.create_documents([PYTHON_CODE])
print(python_docs)
for docs in python_docs:
    print(docs)

[Document(metadata={}, page_content='def hello_world():\n    print("hello world")'), Document(metadata={}, page_content='# 调用函数\nhello_world()')]
page_content='def hello_world():
    print("hello world")'
page_content='# 调用函数
hello_world()'


In [43]:
# 按token来分割文档
from langchain_text_splitters import CharacterTextSplitter

# 加载要切分的文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    text = f.read()

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=4000, # 切分的每个文本块的最大长度（以字符数为单位）
    chunk_overlap=30, # 切分的文本相邻块之间的重叠部分长度
)

documents = text_splitter.create_documents([text])
print(documents)

[Document(metadata={}, page_content='蒂法介绍\n蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由\U0010fc00村哲也创作和设计，此后也在多个游戏中客串登场。 2014年东京电玩展上，星名美津纪cosplay《最终幻想VII 降临之子》中的蒂法·洛克哈特 蒂法是克劳德的⻘梅竹⻢，两人同为尼布鲁海姆出身。在米德加经营作为反抗组织“雪崩”根 据地的酒馆“第七天堂”，并且是小有名气的招牌店员。擅⻓格斗，以拳套为武器。本传7年前 克劳德离开故乡从军时，曾许下约定“如果有危机时一定会保护她”。与爱丽丝相识之后，两 人成为好友。第一个察觉克劳德记忆混乱的人，后来协助精神崩溃的克劳德\U0010fc01新找回真正的自 己。本传的大战结束后，依大家的期待在战后新生的米德加再次开设第七天堂(原第七天堂因 第柒区圆盘崩塌遭压毁)，同时也照顾一群受到星痕症候群折磨的孩子们。 蒂法被《纽约时报》称为“网络一代”的海报女郎，与劳拉·克罗夫特相比，她是电子游戏中坚 强、\U0010fc02立和有吸引力的女性⻆色的典型代表。媒体普遍称赞其实力和外表，并称她为游戏世界 中最好的女性⻆色之一。 在《最终幻想VII》本传中，蒂法年龄20岁、身高167cm、生日5月3日、血型B型、出生地尼 布尔海姆。\n登场\n《最终幻想VII》 蒂法在《最终幻想VII》原版中首次亮相，是克劳德的⻘梅竹⻢、第七天堂酒吧的看板娘、极 端环境组织“雪崩”成员，该组织反抗巨型企业“神罗”因其大\U0010fc03抽取魔晄用作动力能源。在注 意到克劳德的性格改变后，她说服克劳德加入雪崩，以密切关注他，并且跟随他追寻游戏中的 对手萨菲罗斯。她无法阻止克劳德被萨菲罗斯操纵，在他的精神崩溃后，她帮助克劳德康复， 并且两人意识到彼此间的相互感觉，最后与伙伴们一同击败了萨菲罗斯。[2] 在闪回中可知，儿时的蒂法一直是村中小孩的人气王。在母亲过世后，思念母亲的蒂法决定沿 着小路走到他们故乡尼布尔海姆附近的一座山上，认为这样就能⻅到过世的母亲，原本跟着蒂 法的其他小孩都在半路上因害怕而放弃，唯\U0010fc02克劳德仍坚定的在后面跟随，希望能在危机时保 护

#### 文档的总结、精炼、翻译


In [44]:
# 安装依赖
%pip install doctran

Collecting doctran
  Downloading doctran-0.0.14-py3-none-any.whl.metadata (8.6 kB)
Collecting lxml<5.0.0,>=4.9.2 (from doctran)
  Downloading lxml-4.9.4.tar.gz (3.6 MB)
     ---------------------------------------- 0.0/3.6 MB ? eta -:--:--
     ----- ---------------------------------- 0.5/3.6 MB 3.2 MB/s eta 0:00:01
     ----------------- ---------------------- 1.6/3.6 MB 4.3 MB/s eta 0:00:01
     ----------------------------- ---------- 2.6/3.6 MB 4.4 MB/s eta 0:00:01
     ---------------------------------------- 3.6/3.6 MB 5.0 MB/s eta 0:00:00
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting openai<0.28.0,>=0.27.8 (from doctran)
  Downloading openai-0.27.10-py3-none-any.whl.metadata (13 kB)
Collec

  error: subprocess-exited-with-error
  
  × pip subprocess to install build dependencies did not run successfully.
  │ exit code: 1
  ╰─> [571 lines of output]
      Ignoring numpy: markers 'python_version < "3.9"' don't match your environment
      Collecting setuptools
        Using cached setuptools-76.0.0-py3-none-any.whl.metadata (6.7 kB)
      Collecting cython<3.0,>=0.25
        Downloading Cython-0.29.37-py2.py3-none-any.whl.metadata (3.1 kB)
      Collecting cymem<2.1.0,>=2.0.2
        Downloading cymem-2.0.11-cp313-cp313-win_amd64.whl.metadata (8.8 kB)
      Collecting preshed<3.1.0,>=3.0.2
        Downloading preshed-3.0.9.tar.gz (14 kB)
        Installing build dependencies: started
        Installing build dependencies: finished with status 'done'
        Getting requirements to build wheel: started
        Getting requirements to build wheel: finished with status 'done'
        Preparing metadata (pyproject.toml): started
        Preparing metadata (pyproject.toml): fini

In [46]:
# 加载文档
with open(file="./sources/test.txt", encoding="utf-8") as f:
    content = f.read()

In [47]:
from dotenv import load_dotenv
import os

load_dotenv(".env")

API_BASE = os.getenv("OPENAI_API_BASE_URL")
API_KEY = os.getenv("OPENAI_API_KEY")
MODEL_NAME = os.getenv("MODEL_NAME")
OPENAI_TOKEN_LIMIT = 8000

from doctran import Doctran

# Doctran是对openai的一层封装
doctrans = Doctran(
    openai_api_key=API_KEY,
    openai_model=MODEL_NAME,
    openai_token_limit=OPENAI_TOKEN_LIMIT,
)

documents = doctrans.parse(content=content)

ModuleNotFoundError: No module named 'doctran'

In [None]:
# 总结文档, token_limit参数是总结后的字数限制
summary = documents.summarize(token_limit=100).execute()
print(summary.transformed_content)

In [None]:
# 翻译问答
translation = documents.translate(language="chinese").execute()
print(translation.transformed_content)

In [None]:
# 精炼文档，删除除了某主题或关键词之外的内容，仅保留与主体相关的内容
# 指定主题来进行精炼
refined = documents.refine(topics=["marketing","Development"]).execute()
print(refined.transformed_content)