## 文档切割

### 原理

1.将文档分成小的有意义的快（句子）。

2.将小的快组合成更大的块，直到达到一定的大小

3.一旦到达一定的大小，接着创建与下一个块重叠的部分

### 示例

- 按字符切割
- 代码文档切割
- 按Token分割文档

#### 按字符切割

In [9]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

with open("input.txt") as f:
    text = f.read()
text_splitter = RecursiveCharacterTextSplitter(
    separators="。", # 切割的标识字符，默认为\n\r
    chunk_size=50,
    chunk_overlap=20,
    length_function=len,
    add_start_index=True,
    is_separator_regex=False,
)

texts = text_splitter.create_documents([text])
texts

[Document(metadata={'start_index': 0}, page_content='《黑神话：悟空》是由杭州游科互动科技有限公司开发，浙江出版集团数字传媒有限公司出版的西游题材单机动作角色扮演游戏'),
 Document(metadata={'start_index': 56}, page_content='。\n该作以中国四大名著之一、吴承恩所著长篇小说《西游记》为背景设定，借用《西游记》自身的故事作为前传，讲述取经之后孙悟空因放弃佛位引发天庭对其再次征伐之后的故事'),
 Document(metadata={'start_index': 136}, page_content='。在游戏中，玩家将扮演一位“天命人”，为了探寻昔日传说的真相，踏上一条充满危险与惊奇的西游之路'),
 Document(metadata={'start_index': 183}, page_content='。\n2024年8月20日，该作正式登陆PC、PS5平台。该作通常被媒体称为“中国首款3A游戏”'),
 Document(metadata={'start_index': 230}, page_content='。在发售三天后，该作的全平台销量超过1000万套，打破中国游戏历史记录'),
 Document(metadata={'start_index': 265}, page_content='。11月18日，据统计机构 VG Insights 披露，《黑神话：悟空》在Steam上的销量已突破 2200万份，收入超11亿美元'),
 Document(metadata={'start_index': 331}, page_content='。12月3日，Steam平台销量突破2300万份，用户评测数量突破100万条'),
 Document(metadata={'start_index': 369}, page_content='。\n2024年11月，获得TGA年度游戏提名'),
 Document(metadata={'start_index': 391}, page_content='。11月22日，《黑神话：悟空》获得2024金摇杆奖终极年度游戏和最佳视觉设计奖'),
 Document(metadata={'start_index': 431

#### 代码文档切割

In [14]:
from langchain_text_splitters import (
    RecursiveCharacterTextSplitter,
    Language
)

#支持解析的编程语言有
[e.value for e in Language]

PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

# 调用函数  
hello_world()
"""

py_spiller = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=50,
    chunk_overlap=10
)

python_doc = py_spiller.create_documents([PYTHON_CODE])
python_doc

[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")'),
 Document(metadata={}, page_content='# 调用函数  \nhello_world()')]

#### 按Token分割文档

In [15]:
from langchain_text_splitters import CharacterTextSplitter

with open("input.txt") as f:
    text = f.read()
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=50,
    chunk_overlap=20,
)

texts = text_splitter.create_documents([text])
texts

[Document(metadata={}, page_content='《黑神话：悟空》是由杭州游科互动科技有限公司开发，浙江出版集团数字传媒有限公司出版的西游题材单机动作角色扮演游戏。\n该作以中国四大名著之一、吴承恩所著长篇小说《西游记》为背景设定，借用《西游记》自身的故事作为前传，讲述取经之后孙悟空因放弃佛位引发天庭对其再次征伐之后的故事。在游戏中，玩家将扮演一位“天命人”，为了探寻昔日传说的真相，踏上一条充满危险与惊奇的西游之路。\n2024年8月20日，该作正式登陆PC、PS5平台。该作通常被媒体称为“中国首款3A游戏”。在发售三天后，该作的全平台销量超过1000万套，打破中国游戏历史记录。11月18日，据统计机构 VG Insights 披露，《黑神话：悟空》在Steam上的销量已突破 2200万份，收入超11亿美元。12月3日，Steam平台销量突破2300万份，用户评测数量突破100万条。\n2024年11月，获得TGA年度游戏提名。11月22日，《黑神话：悟空》获得2024金摇杆奖终极年度游戏和最佳视觉设计奖。12月6日，《时代》杂志公布的2024年的十大最佳游戏榜单中，《黑神话：悟空》位列第七。2024年12月，获得TGA最佳动作游戏、玩家之声奖。12月24日，2024年Steam年度最佳热门游戏榜单发布，《黑神话：悟空》荣获多项铂金，包括最畅销游戏、新品游戏、最热游玩、使用控制器(手柄)游玩最多的游戏。2024年12月，获得2024NYX年度最佳游戏奖。2025年1月1日，获得2024年Steam大奖年度最佳游戏奖、杰出剧情游戏和纵使手残仍大爱奖。')]