### 文档切割
- 将文档分成笑的，有意义的块
- 将小的块组合成一个更大的块，直到达到一定的大小
- 一旦达到一定的大小，接着开始创建与下一个块重叠的部分

#### 示例
- 文档切割
- 按字符切割
- 代码文档切割
- 按token切割

In [3]:
# 文档切割

from langchain_text_splitters import RecursiveCharacterTextSplitter

# 读取文件
with open("novel.txt") as f:
    lingwujiyuan = f.read()

# 使用递归字符切分器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,          # 每个块的大小
    chunk_overlap=50,        # 重叠的字符数
    length_function=len,      # 计算长度的函数
    add_start_index=True,     # 是否添加开始索引
)

text = text_splitter.create_documents([lingwujiyuan])
text

[Document(metadata={'start_index': 0}, page_content='《灵武纪元》\n\n第一章：废柴觉醒\n\n灵武大陆，万族林立，强者为尊。\n\n这片大陆上，灵气如海，孕育了无数修炼者。从低阶的灵砂境到巅峰的灵峰境，每一个境界都如同天堑，划分着凡人与神祇的界限。然而，在这片强者争锋的土地上，却有一个少年，被家族视为耻辱，连最基础的灵力都无法凝聚。\n\n他叫林澈，是林氏家族旁支的弃子。'),
 Document(metadata={'start_index': 138}, page_content='他叫林澈，是林氏家族旁支的弃子。\n\n林氏家族，乃是北境灵武世家，以“灵焰剑道”闻名于世。家族子弟天赋卓绝，十岁便能引动灵力，十五岁踏入灵砂境，二十岁便可横扫一方。然而，林澈却是个例外。他自幼体弱，经脉如死水般冰冷，无论如何修炼，都无法点燃体内的灵力。\n\n“废物！滚出演武场！”\n\n“看看这垃圾，连灵力都无法运转，真是丢尽了我们林氏的脸面！”'),
 Document(metadata={'start_index': 265}, page_content='“废物！滚出演武场！”\n\n“看看这垃圾，连灵力都无法运转，真是丢尽了我们林氏的脸面！”\n\n演武场上，少年跪伏在地，汗水顺着脸颊滑落。他的双手死死攥住衣角，指节发白。今日，是家族百年一次的“灵焰选拔”，所有族人都要当众展示天赋。而他，注定成为笑柄。\n\n突然，一道苍老的声音响起：“林澈，你可知为何无法凝聚灵力？”'),
 Document(metadata={'start_index': 390}, page_content='突然，一道苍老的声音响起：“林澈，你可知为何无法凝聚灵力？”\n\n众人转头，只见家族执事长老林玄阴缓步走来。他的目光如刀，扫过林澈枯槁的脸庞，又落在他腰间那块泛着灰光的玉佩上。\n\n“回长老……弟子不知。”林澈声音沙哑。'),
 Document(metadata={'start_index': 479}, page_content='“回长老……弟子不知。”林澈声音沙哑。\n\n林玄阴冷笑一声，抬手一挥，一股炽热的灵焰从掌心喷涌而出，瞬间将林澈笼罩。林澈浑身剧痛，仿佛有千万根钢针刺入骨髓。然而，就在他即将昏厥之际，玉佩突然发出微弱

In [6]:
# 按字符切割

from langchain_text_splitters import CharacterTextSplitter

# 读取文件
with open("novel.txt") as f:
    lingwujiyuan = f.read()

# 使用递归字符切分器
text_splitter = RecursiveCharacterTextSplitter(
    separators="。",          # 分隔符
    chunk_size=200,           # 每个块的大小
    chunk_overlap=50,         # 重叠的字符数
    length_function=len,      # 计算长度的函数
    add_start_index=True,     # 是否添加开始索引
    is_separator_regex=False,  # 是否使用正则表达式
)

text = text_splitter.create_documents([lingwujiyuan])
text

[Document(metadata={'start_index': 0}, page_content='《灵武纪元》\n\n第一章：废柴觉醒\n\n灵武大陆，万族林立，强者为尊。\n\n这片大陆上，灵气如海，孕育了无数修炼者。从低阶的灵砂境到巅峰的灵峰境，每一个境界都如同天堑，划分着凡人与神祇的界限。然而，在这片强者争锋的土地上，却有一个少年，被家族视为耻辱，连最基础的灵力都无法凝聚。\n\n他叫林澈，是林氏家族旁支的弃子。\n\n林氏家族，乃是北境灵武世家，以“灵焰剑道”闻名于世'),
 Document(metadata={'start_index': 135}, page_content='。\n\n他叫林澈，是林氏家族旁支的弃子。\n\n林氏家族，乃是北境灵武世家，以“灵焰剑道”闻名于世。家族子弟天赋卓绝，十岁便能引动灵力，十五岁踏入灵砂境，二十岁便可横扫一方。然而，林澈却是个例外。他自幼体弱，经脉如死水般冰冷，无论如何修炼，都无法点燃体内的灵力。\n\n“废物！滚出演武场！”\n\n“看看这垃圾，连灵力都无法运转，真是丢尽了我们林氏的脸面！”\n\n演武场上，少年跪伏在地，汗水顺着脸颊滑落'),
 Document(metadata={'start_index': 330}, page_content='。他的双手死死攥住衣角，指节发白。今日，是家族百年一次的“灵焰选拔”，所有族人都要当众展示天赋。而他，注定成为笑柄。\n\n突然，一道苍老的声音响起：“林澈，你可知为何无法凝聚灵力？”\n\n众人转头，只见家族执事长老林玄阴缓步走来。他的目光如刀，扫过林澈枯槁的脸庞，又落在他腰间那块泛着灰光的玉佩上。\n\n“回长老……弟子不知。”林澈声音沙哑'),
 Document(metadata={'start_index': 476}, page_content='。\n\n“回长老……弟子不知。”林澈声音沙哑。\n\n林玄阴冷笑一声，抬手一挥，一股炽热的灵焰从掌心喷涌而出，瞬间将林澈笼罩。林澈浑身剧痛，仿佛有千万根钢针刺入骨髓。然而，就在他即将昏厥之际，玉佩突然发出微弱的光芒，将那股灵焰尽数吸收。\n\n“嗯？”林玄阴瞳孔骤缩。他盯着玉佩，脸色阴晴不定，“竟敢私藏‘灵焰核心’？林澈，你可知这是死罪？”\n\n全场哗然。\n\n灵焰核心，乃是灵武者突破瓶颈的至

In [8]:
# 代码文档切割

from langchain_text_splitters import RecursiveCharacterTextSplitter, Language

# 支持解析的编程语言有：[e.value for e in Language]

PYTHON_CODE = """
def hello_world():
    print("Hello, world!")
hello_world()
"""

py_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=50,
    chunk_overlap=10,
)

py_docs = py_splitter.create_documents([PYTHON_CODE])

py_docs

[Document(metadata={}, page_content='def hello_world():\n    print("Hello, world!")'),
 Document(metadata={}, page_content='hello_world()')]

In [10]:
# 按token切割

from langchain_text_splitters import RecursiveCharacterTextSplitter

# 读取文件
with open("novel.txt") as f:
    lingwujiyuan = f.read()

# 使用递归字符切分器
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=200,          # 每个块的大小
    chunk_overlap=50,        # 重叠的字符数
)

text = text_splitter.create_documents([lingwujiyuan])
text

[Document(metadata={}, page_content='《灵武纪元》\n\n第一章：废柴觉醒\n\n灵武大陆，万族林立，强者为尊。'),
 Document(metadata={}, page_content='这片大陆上，灵气如海，孕育了无数修炼者。从低阶的灵砂境到巅峰的灵峰境，每一个境界都如同天堑，划分着凡人与神祇的界限。然而，在这片强者争锋的土地上，却有一个少年，被家族视为耻辱，连最基'),
 Document(metadata={}, page_content='的土地上，却有一个少年，被家族视为耻辱，连最基础的灵力都无法凝聚。'),
 Document(metadata={}, page_content='他叫林澈，是林氏家族旁支的弃子。'),
 Document(metadata={}, page_content='林氏家族，乃是北境灵武世家，以“灵焰剑道”闻名于世。家族子弟天赋卓绝，十岁便能引动灵力，十五岁踏入灵砂境，二十岁便可横扫一方。然而，林澈却是个例外。他自幼体弱，经脉如死水般冰冷，'),
 Document(metadata={}, page_content='澈却是个例外。他自幼体弱，经脉如死水般冰冷，无论如何修炼，都无法点燃体内的灵力。'),
 Document(metadata={}, page_content='“废物！滚出演武场！”\n\n“看看这垃圾，连灵力都无法运转，真是丢尽了我们林氏的脸面！”'),
 Document(metadata={}, page_content='演武场上，少年跪伏在地，汗水顺着脸颊滑落。他的双手死死攥住衣角，指节发白。今日，是家族百年一次的“灵焰选拔”，所有族人都要当众展示天赋。而他，注定成为笑柄。'),
 Document(metadata={}, page_content='突然，一道苍老的声音响起：“林澈，你可知为何无法凝聚灵力？”\n\n众人转头，只见家族执事长老林玄阴缓步走来。他的目光如刀，扫过林澈枯槁的脸庞，又落在他腰间那块泛着灰光的玉佩上。'),
 Document(metadata={}, page_content='“回长老……弟子不知。”林澈声音沙哑。'),
 Document(metadata={}, page_content='林玄阴冷笑一声，抬手一挥，一股炽

In [12]:
# 按token切割   另一种方法

from langchain_text_splitters import TokenTextSplitter

# 读取文件
with open("novel.txt") as f:
    lingwujiyuan = f.read()

# 使用 TokenTextSplitter 分割文本
text_splitter = TokenTextSplitter(
    chunk_size=200,          # 每个块的 token 数量
    chunk_overlap=50,        # 重叠的 token 数量
    encoding_name="cl100k_base"  # 指定编码方式（与 tiktoken 兼容）
)

# 将文本分割为块并转换为 Document 对象
texts = text_splitter.create_documents([lingwujiyuan])
texts

[Document(metadata={}, page_content='《灵武纪元》\n\n第一章：废柴觉醒\n\n灵武大陆，万族林立，强者为尊。\n\n这片大陆上，灵气如海，孕育了无数修炼者。从低阶的灵砂境到巅峰的灵峰境，每一个境界都如同天堑，划分着凡人与神祇的界限。然而，在这片强者争锋的土地上，却有一个少年，被家族视为耻辱，连最基础的灵力都无法凝聚。\n\n他叫林澈，是林氏家族旁支的�'),
 Document(metadata={}, page_content='，被家族视为耻辱，连最基础的灵力都无法凝聚。\n\n他叫林澈，是林氏家族旁支的弃子。\n\n林氏家族，乃是北境灵武世家，以“灵焰剑道”闻名于世。家族子弟天赋卓绝，十岁便能引动灵力，十五岁踏入灵砂境，二十岁便可横扫一方。然而，林澈却是个例外。他自幼体弱，经脉如死水般冰冷，无论如何修炼，都无法点燃体内'),
 Document(metadata={}, page_content='��却是个例外。他自幼体弱，经脉如死水般冰冷，无论如何修炼，都无法点燃体内的灵力。\n\n“废物！滚出演武场！”\n\n“看看这垃圾，连灵力都无法运转，真是丢尽了我们林氏的脸面！”\n\n演武场上，少年跪伏在地，汗水顺着脸颊滑落。他的双手死死攥住衣角，指节发白。今日，是家族百年一次的“灵焰选拔”，所有族人都要当众展示天赋。而'),
 Document(metadata={}, page_content='�攥住衣角，指节发白。今日，是家族百年一次的“灵焰选拔”，所有族人都要当众展示天赋。而他，注定成为笑柄。\n\n突然，一道苍老的声音响起：“林澈，你可知为何无法凝聚灵力？”\n\n众人转头，只见家族执事长老林玄阴缓步走来。他的目光如刀，扫过林澈枯槁的脸庞，又落在他腰间那块泛着灰光的玉佩上。\n\n“回长老……弟子不知。”林澈'),
 Document(metadata={}, page_content='��庞，又落在他腰间那块泛着灰光的玉佩上。\n\n“回长老……弟子不知。”林澈声音沙哑。\n\n林玄阴冷笑一声，抬手一挥，一股炽热的灵焰从掌心喷涌而出，瞬间将林澈笼罩。林澈浑身剧痛，仿佛有千万根钢针刺入骨髓。然而，就在他即将昏厥之际，玉佩突然发出微弱的光芒，将那股灵焰尽数�'),
 Document(metadata={}, 