## TextSplitter


In [2]:
from langchain.text_splitter import CharacterTextSplitter

text = """
LangChain 就是一个让你快速把 GPT 变成“能思考、能记忆、能调用工具”的智能应用的框架，同时将处理好的结果进行返回
"""

splitter = CharacterTextSplitter(
    chunk_size=50,
    chunk_overlap=5,
    # length_function=len,
    separator="" # 设置为空字符串，表示禁用分隔符优先
)

texts = splitter.split_text(text)

for i, chunk in enumerate(texts):
    print(f"块 {i + 1}：长度：{len(chunk)}")
    print(chunk)
    print("-" * 50)

块 1：长度：49
LangChain 就是一个让你快速把 GPT 变成“能思考、能记忆、能调用工具”的智能应用的框架
--------------------------------------------------
块 2：长度：19
应用的框架，同时将处理好的结果进行返回
--------------------------------------------------


In [3]:
from langchain.text_splitter import CharacterTextSplitter

text = """
这是一个实例文本啊。我们将使用CharacterTextSplitter将其分割成小块。分割基于字符数。哈哈。
"""

splitter = CharacterTextSplitter(
    chunk_size=30,
    chunk_overlap=5,
    separator="。" # 设置为空字符串，表示禁用分隔符优先
)

texts = splitter.split_text(text)

for i, chunk in enumerate(texts):
    print(f"块 {i + 1}：长度：{len(chunk)}")
    print(chunk)
    print("-" * 50)

Created a chunk of size 33, which is longer than the specified 30


块 1：长度：9
这是一个实例文本啊
--------------------------------------------------
块 2：长度：33
我们将使用CharacterTextSplitter将其分割成小块
--------------------------------------------------
块 3：长度：11
分割基于字符数。哈哈。
--------------------------------------------------


In [20]:
from langchain.text_splitter import CharacterTextSplitter

text = """
这是第一段文本。这是第二段内容。最后一段结束。
"""

splitter = CharacterTextSplitter(
    chunk_size=20,
    chunk_overlap=7,
    separator="。", # 设置为空字符串，表示禁用分隔符优先
    keep_separator=True # 保留分隔符
)

texts = splitter.split_text(text)

for i, chunk in enumerate(texts):
    print(f"块 {i + 1}：长度：{len(chunk)}")
    print(chunk)
    print("-" * 50)

块 1：长度：15
这是第一段文本。这是第二段内容
--------------------------------------------------
块 2：长度：8
。最后一段结束。
--------------------------------------------------


## RecursiveCharacterTextSplitter的使用

In [23]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=10,
    chunk_overlap=0,
    # add_start_index=True
)

# 定义拆分的内容
text = "Langchain框架特性\n\n多模型集成（GPT/Claude）\n记忆管理功能\n链式调用设计。文档分析场景实例：需要处理PDF/Word等格式"

paragraphs = text_splitter.split_text(text)

for paragraph in paragraphs:
    print(paragraph)
    print("-" * 50)

Langchain框
--------------------------------------------------
架特性
--------------------------------------------------
多模型集成（GPT
--------------------------------------------------
/Claude）
--------------------------------------------------
记忆管理功能
--------------------------------------------------
链式调用设计。文档
--------------------------------------------------
分析场景实例：需要处
--------------------------------------------------
理PDF/Word等
--------------------------------------------------
格式
--------------------------------------------------


In [24]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=10,
    chunk_overlap=0,
    add_start_index=True
)

# 定义拆分的内容
text = "Langchain框架特性\n\n多模型集成（GPT/Claude）\n记忆管理功能\n链式调用设计。文档分析场景实例：需要处理PDF/Word等格式"

text_list = [text]

paragraphs = text_splitter.create_documents(text_list)

for paragraph in paragraphs:
    print(paragraph)
    print("-" * 50)

page_content='Langchain框' metadata={'start_index': 0}
--------------------------------------------------
page_content='架特性' metadata={'start_index': 10}
--------------------------------------------------
page_content='多模型集成（GPT' metadata={'start_index': 15}
--------------------------------------------------
page_content='/Claude）' metadata={'start_index': 24}
--------------------------------------------------
page_content='记忆管理功能' metadata={'start_index': 33}
--------------------------------------------------
page_content='链式调用设计。文档' metadata={'start_index': 40}
--------------------------------------------------
page_content='分析场景实例：需要处' metadata={'start_index': 49}
--------------------------------------------------
page_content='理PDF/Word等' metadata={'start_index': 59}
--------------------------------------------------
page_content='格式' metadata={'start_index': 69}
--------------------------------------------------


In [25]:
from langchain.text_splitter import TokenTextSplitter

text_splitter = TokenTextSplitter(
    chunk_size=33, # 最大Token数
    chunk_overlap=0, # 最大重叠Token数
    encoding_name="cl100k_base" # 使用OpenAI编码器，将文本转换成Token序列
)

text = "人工智能是一个强大的开发框架。他支持多种语言模型和工具链。人工智能是指通过计算机程序模拟人类智能的一门科学。自20世纪50年代诞生以来，人工智能经历了多次起伏。"

texts = text_splitter.split_text(text)

print(f"原始文本被分割成了 {len(texts)} 个块")
for i, chunk in enumerate(texts):
    print(f"块 {i + 1}：长度：{len(chunk)}")
    print(chunk)
    print("-" * 50)

原始文本被分割成了 3 个块
块 1：长度：30
人工智能是一个强大的开发框架。他支持多种语言模型和工具链。人
--------------------------------------------------
块 2：长度：32
工智能是指通过计算机程序模拟人类智能的一门科学。自20世纪50年
--------------------------------------------------
块 3：长度：18
代诞生以来，人工智能经历了多次起伏。
--------------------------------------------------
