# 1、TextSplitter的使用

1、使用细节

①TextSplitter作为各种具体的文档拆分器的父类

②内部定义了一些常用的属性：

chunk_size：返回块的最大尺寸, 单位是字符数, 默认值为4000（由长度函数测量）

chunk_overlap：相邻两个块之间的字符重叠数, 避免信息在边界处被切断而丢失. 默认值为200, 通常会设置为chunk_size的10%~20%

length_function：用于测量给定块字符数的函数, 默认赋值为len的函数. len函数在Python中按Unicode字符计数, 所以一个汉字、一个英文字母、一个符号都算一个字符。

keep_separator：是否在块中保留分隔符, 默认值为False.

add_start_index：如果为`True`, 则在元数据中包含块的起始索引, 默认值为False

strip_whitespace：如果为`True`, 则从每个文档的开始和结束处去除空白字符, 默认为True

③内部定义了一些常用的方法：

情况1：按照字符串进行切分

split_text(xxx): 传入的参数类型：字符串; 返回值的类型 List[str]

create_documents(xxx): 传入的参数类型：List[str]; 返回值类型：List[Document]; 底层调用了split_text(xxx)

情况2：按照Document对象进行拆分

split_documents(xxx): 传入的参数类型：List[Document]; 返回值的类型：List[Document]; 底层调用了create_documents(xxx)


2、Document对象 与 Str 是什么关系？

文档切分器可以按照字符进行切分, 也可以按照Document进行切分. 其中, Str可以理解为Document对象的page_content属性.

# 2、具体的拆分器①：CharacterTextSplitter：Split by Character

举例1：体会chunk_size、chunk_overlap

说明：若必须禁用分割符（如处理无空格文本, 需容忍实际块长略小于chunk_size（尤其对中文））

In [2]:
# 1.导入相关依赖
from langchain.text_splitter import CharacterTextSplitter

# 2.示例文本
text = """
LangChain 是一个用于开发由语言模型驱动的应用程序的框架的。它提供了一套工具和抽象，使开发者
能够更容易地构建复杂的应用程序。
"""

# 3.定义字符分割器
splitter = CharacterTextSplitter(
    chunk_size=50,  # 每块大小
    chunk_overlap=5,  # 块与块之间的重复字符数
    #length_function=len,
    separator=""  # 设置为空字符串时，表示禁用分隔符优先
)

# 4.分割文本
texts = splitter.split_text(text)

# 5.打印结果
for i, chunk in enumerate(texts):
    print(f"块 {i + 1}:长度：{len(chunk)}")
    print(chunk)
    print("-" * 50)


块 1:长度：49
LangChain 是一个用于开发由语言模型驱动的应用程序的框架的。它提供了一套工具和抽象，使开发
--------------------------------------------------
块 2:长度：23
象，使开发者
能够更容易地构建复杂的应用程序。
--------------------------------------------------


举例2：体会separator

注意：无重叠

separator优先原则：当设置了`separator`（如"。"）, 分割器会首先尝试在分隔符处分割, 然后再考虑chunk_size。这是为了避免再句子中间硬性切断。这种设计是为了：

①优先保持语义完整性（不切断句子）

②避免产生无意义的碎片（如半个单词/不完整句子）

③如果`chunk_size`比片段小, 无法拆分片段, 导致overlap失效

④chunk_overlap仅在合并后的片段之间生效（如果`chunk_size`足够大）。如果没有合并的片段, 则overlap失效

In [4]:
# 1.导入相关依赖
from langchain.text_splitter import CharacterTextSplitter

# 2.定义要分割的文本
text = "这是一个示例文本啊。我们将使用CharacterTextSplitter将其分割成小块。分割基于字符数。"
# text = """
# LangChain 是一个用于开发由语言模型。驱动的应用程序的框架的。它提供了一套工具和抽象。使开发者能够更容易地构建复杂的应用程序。
# """

# 3.定义分割器实例
text_splitter = CharacterTextSplitter(
    chunk_size=30,  # 每个块的最大字符数
    chunk_overlap=5,  # 块之间的重叠字符数
    separator="。",  # 按句号分割（分隔符优先）
)

# 4.开始分割
chunks = text_splitter.split_text(text)

# 5.打印效果
for i, chunk in enumerate(chunks):
    print(f"块 {i + 1}:长度：{len(chunk)}")
    print(chunk)
    print("-" * 50)

Created a chunk of size 33, which is longer than the specified 30


块 1:长度：9
这是一个示例文本啊
--------------------------------------------------
块 2:长度：33
我们将使用CharacterTextSplitter将其分割成小块
--------------------------------------------------
块 3:长度：7
分割基于字符数
--------------------------------------------------


举例3：熟悉 keep_separator、separator 以及 chunk_overlap 何时生效

In [5]:
# 1.导入相关依赖
from langchain.text_splitter import CharacterTextSplitter

# 2.定义要分割的文本
text = "这是第一段文本。这是第二段内容。最后一段结束。"

# 3.定义字符分割器
text_splitter = CharacterTextSplitter(
    separator="。",
    chunk_size=20,
    chunk_overlap=8,
    keep_separator=True  #chunk中是否保留切割符
)

# 4.分割文本
chunks = text_splitter.split_text(text)

# 5.打印结果
for i, chunk in enumerate(chunks):
    print(f"块 {i + 1}:长度：{len(chunk)}")
    print(chunk)
    print("-" * 50)

块 1:长度：15
这是第一段文本。这是第二段内容
--------------------------------------------------
块 2:长度：16
。这是第二段内容。最后一段结束。
--------------------------------------------------


# 2、具体的拆分器②：RecursiveCharacterTextSplitter 最常用

举例1：使用split_text()

In [6]:
# 1、导入相关依赖
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 2、定义RecursiveCharacterTextSplitter分割器对象
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 10,
    chunk_overlap=0,
    add_start_index=True,
)

# 3、定义拆分的内容
text="LangChain框架特性\n\n多模型集成(GPT/Claude)\n记忆管理功能\n链式调用设计。文档分析场景示例：需要处理PDF/Word等格式。"

# 4、拆分器分割
paragraphs = text_splitter.split_text(text)
for para in paragraphs:
    print(para)
    print('--------')

LangChain框
--------
架特性
--------
多模型集成(GPT
--------
/Claude)
--------
记忆管理功能
--------
链式调用设计。文档
--------
分析场景示例：需要处
--------
理PDF/Word等
--------
格式。
--------
