# 1. CharacterTextSplitter: Split by character

In [1]:
# 1. 导入相关依赖
from langchain.text_splitter import CharacterTextSplitter
from markdown_it.rules_block import paragraph

# 2. 示例文本（包含中英文混合内容）
text = """
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。
它提供了一套工具和抽象，使开发者能够更容易地构建复杂的应用程序。
"""

# 3. 定义字符分割器
splitter = CharacterTextSplitter(
    chunk_size=50,          # 每个文本块的最大字符数（按Unicode字符计算）
    chunk_overlap=5,        # 块与块之间的重叠字符数（避免语义断裂）
    separator="",           # 禁用分隔符优先（设为空字符串表示纯字符分割）
    length_function=len,    # 使用Python内置len函数计算长度（默认值，可省略）
    is_separator_regex=False  # 分隔符是否为正则表达式（默认为False）
)

# 4. 分割文本
text_chunks = splitter.split_text(text.strip())  # 先去除首尾空白再分割

# 5. 打印结果（带详细统计信息）
print(f"原始文本长度：{len(text.strip())} 字符")
print(f"分割后得到 {len(text_chunks)} 个文本块：\n")

for i, chunk in enumerate(text_chunks, start=1):
    print(f"┌{'─' * 50}")
    print(f"│ 块 {i}: 长度={len(chunk)} 字符")
    print(f"├{'─' * 50}")
    print(f"│ {chunk}")
    print(f"└{'─' * 50}\n")

原始文本长度：66 字符
分割后得到 2 个文本块：

┌──────────────────────────────────────────────────
│ 块 1: 长度=50 字符
├──────────────────────────────────────────────────
│ LangChain 是一个用于开发由语言模型驱动的应用程序的框架。
它提供了一套工具和抽象，使开发者
└──────────────────────────────────────────────────

┌──────────────────────────────────────────────────
│ 块 2: 长度=21 字符
├──────────────────────────────────────────────────
│ ，使开发者能够更容易地构建复杂的应用程序。
└──────────────────────────────────────────────────



In [3]:
# 1. 导入文本分割器
from langchain.text_splitter import CharacterTextSplitter

# 2. 定义要分割的文本（含中文标点示例）
text = "这是一个示例文本啊。我们将使用CharacterTextSplitter将其分割成小块。分割基于字符数。"

# 3. 创建文本分割器实例（中文优化配置）
text_splitter = CharacterTextSplitter(
    chunk_size=30,        # 每个文本块的最大字符数（按Unicode计算）
    chunk_overlap=5,      # 块间重叠字符数（避免截断完整词语）
    separator="。",       # 优先按中文句号分割（保留语义完整性）
    is_separator_regex=False,  # 分隔符不作为正则表达式
    keep_separator=True   # 保留分隔符（句号）
)

# 4. 执行文本分割
text_chunks = text_splitter.split_text(text)

# 5. 打印分割结果（增强可读性）
print(f"原始文本：\n「{text}」\n")
print(f"总长度：{len(text)} 字符")
print(f"分割为 {len(text_chunks)} 个文本块：\n")

for i, chunk in enumerate(text_chunks, start=1):
    print(f"┌{'─' * 40}")
    print(f"│ 块 {i} (长度: {len(chunk)} 字符)")
    print(f"├{'─' * 40}")
    print(f"│ {chunk}")
    print(f"└{'─' * 40}\n")

Created a chunk of size 34, which is longer than the specified 30


原始文本：
「这是一个示例文本啊。我们将使用CharacterTextSplitter将其分割成小块。分割基于字符数。」

总长度：52 字符
分割为 3 个文本块：

┌────────────────────────────────────────
│ 块 1 (长度: 9 字符)
├────────────────────────────────────────
│ 这是一个示例文本啊
└────────────────────────────────────────

┌────────────────────────────────────────
│ 块 2 (长度: 34 字符)
├────────────────────────────────────────
│ 。我们将使用CharacterTextSplitter将其分割成小块
└────────────────────────────────────────

┌────────────────────────────────────────
│ 块 3 (长度: 9 字符)
├────────────────────────────────────────
│ 。分割基于字符数。
└────────────────────────────────────────



In [4]:
# 1. 导入文本分割工具
from langchain.text_splitter import CharacterTextSplitter

# 2. 定义待分割的中文文本（含句号分隔）
text = "这是第一段文本。这是第二段内容。最后一段结束。"

# 3. 配置中文优化的文本分割器
text_splitter = CharacterTextSplitter(
    separator="。",        # 优先按中文句号分割
    chunk_size=20,        # 每个文本块最大字符数（含标点）
    chunk_overlap=8,      # 块间重叠字符数（保持上下文连贯）
    keep_separator=True,  # 保留分隔符（句号）
    length_function=len,  # 使用标准Unicode字符计数
    is_separator_regex=False  # 分隔符不作为正则表达式
)

# 4. 执行文本分割
text_chunks = text_splitter.split_text(text)

# 5. 格式化输出结果
print(f"原始文本：'{text}'")
print(f"文本总长度：{len(text)} 字符\n")
print(f"分割参数：块大小={text_splitter._chunk_size} 重叠={text_splitter._chunk_overlap} 分隔符='{text_splitter._separator}'\n")
print(f"共生成 {len(text_chunks)} 个文本块：")

for idx, chunk in enumerate(text_chunks, 1):
    chunk = chunk.replace("\n", "\\n")  # 转义换行符
    print(f"\n▌ 块 {idx} (长度: {len(chunk):2d} 字符)")
    print("▔" * (len(chunk) + 10))
    print(f"  {chunk}")
    print("▁" * (len(chunk) + 10))

# 打印统计信息
print("\n统计摘要：")
print(f"{'块编号':<8} | {'长度':<6} | {'内容摘要'}")
print("-" * 40)
for idx, chunk in enumerate(text_chunks, 1):
    print(f"{idx:<8} | {len(chunk):<6} | {chunk[:15]}...")

原始文本：'这是第一段文本。这是第二段内容。最后一段结束。'
文本总长度：23 字符

分割参数：块大小=20 重叠=8 分隔符='。'

共生成 2 个文本块：

▌ 块 1 (长度: 15 字符)
▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔
  这是第一段文本。这是第二段内容
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

▌ 块 2 (长度: 16 字符)
▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔▔
  。这是第二段内容。最后一段结束。
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁

统计摘要：
块编号      | 长度     | 内容摘要
----------------------------------------
1        | 15     | 这是第一段文本。这是第二段内容...
2        | 16     | 。这是第二段内容。最后一段结束...


# 2. RecursiveCharacterTextSplitter: 最常用

## 举例1: 使用split_text()方法演示

In [6]:
# 1. 导入递归字符分割器
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 2. 配置递归文本分割器（中英文混合场景优化）
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=10,            # 每个文本块的最大字符数
    chunk_overlap=0,          # 块间重叠字符数（0表示不重叠）
    separators=["\n\n", "\n", "。", " ", ""],  # 多级分隔符优先级
    length_function=len,      # 标准Unicode字符计数
    add_start_index=True,     # 记录每个块在原文本的起始位置
    keep_separator=True       # 保留分隔符（保持语义完整）
)

# 3. 定义待分割的混合格式文本
text = """LangChain框架特性

多模型集成(GPT/Claude)
记忆管理功能
链式调用设计。文档分析场景示例：需要处理PDF/Word等格式。"""

# 4. 执行文本分割
paragraphs = text_splitter.split_text(text)

for para in paragraphs:
    print(para)
    print('-'* 10)

LangChain框
----------
架特性
----------
多模型集成(GPT
----------
/Claude)
----------
记忆管理功能
----------
链式调用设计
----------
。文档分析场景示例：
----------
需要处理PDF/Wo
----------
rd等格式
----------
。
----------


## 举例2: 使用create_documents()方法演示,传入字符串列表,返回Document对象列表

In [7]:
# 1. 导入递归字符分割器
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 2. 配置递归文本分割器（中英文混合场景优化）
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=10,            # 每个文本块的最大字符数
    chunk_overlap=0,          # 块间重叠字符数（0表示不重叠）
    separators=["\n\n", "\n", "。", " ", ""],  # 多级分隔符优先级
    length_function=len,      # 标准Unicode字符计数
    add_start_index=True,     # 记录每个块在原文本的起始位置
    keep_separator=True       # 保留分隔符（保持语义完整）
)

# 3. 定义待分割的混合格式文本
text_list = ["LangChain框架特性多模型集成(GPT/Claude)记忆管理功能链式调用设计。文档分析场景示例：需要处理PDF/Word等格式。"]

# 4. 执行文本分割
paragraphs = text_splitter.create_documents(text_list)

for para in paragraphs:
    print(para)
    print('-'* 10)

page_content='LangChain框' metadata={'start_index': 0}
----------
page_content='架特性多模型集成(G' metadata={'start_index': 10}
----------
page_content='PT/Claude)' metadata={'start_index': 20}
----------
page_content='记忆管理功能链式调用' metadata={'start_index': 30}
----------
page_content='设计' metadata={'start_index': 40}
----------
page_content='。文档分析场景示例：' metadata={'start_index': 42}
----------
page_content='需要处理PDF/Wo' metadata={'start_index': 52}
----------
page_content='rd等格式' metadata={'start_index': 62}
----------
page_content='。' metadata={'start_index': 67}
----------


## 举例3: 使用create_documents()方法演示,将本地文件内容加载成字符串，进行拆分

In [8]:
# 1. 导入相关依赖
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 2. 打开并读取txt文件
with open("asset/load/08-ai.txt", encoding="utf-8") as f:
    state_of_the_union = f.read()  # 返回字符串

# 3. 定义递归字符分割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,      # 每个块的最大字符数
    chunk_overlap=20,     # 块之间的重叠字符数
    length_function=len   # 使用标准长度计算
)

# 4. 分割文本
texts = text_splitter.create_documents([state_of_the_union])

# 5. 打印分割结果
for text in texts:
    print(f"🔥 {text.page_content}")
    print("-" * 50)  # 分隔线

🔥 人工智能（AI）是什么？
--------------------------------------------------
🔥 人工智能（Artificial
--------------------------------------------------
🔥 Intelligence，简称AI）是指由计算机系统模拟人类智能的技术，使其能够执行通常需要人类认知能力的任务，如学习、推理、决策和语言理解。AI的核心目标是让机器具备感知环境、处理信息并自主行动的
--------------------------------------------------
🔥 让机器具备感知环境、处理信息并自主行动的能力。
--------------------------------------------------
🔥 1. AI的技术基础
AI依赖多种关键技术：

机器学习（ML）：通过算法让计算机从数据中学习规律，无需显式编程。例如，推荐系统通过用户历史行为预测偏好。
--------------------------------------------------
🔥 深度学习：基于神经网络的机器学习分支，擅长处理图像、语音等复杂数据。AlphaGo击败围棋冠军便是典型案例。

自然语言处理（NLP）：使计算机理解、生成人类语言，如ChatGPT的对话能力。
--------------------------------------------------
🔥 2. AI的应用场景
AI已渗透到日常生活和各行各业：

医疗：辅助诊断（如AI分析医学影像）、药物研发加速。

交通：自动驾驶汽车通过传感器和AI算法实现安全导航。
--------------------------------------------------
🔥 金融：欺诈检测、智能投顾（如风险评估模型）。

教育：个性化学习平台根据学生表现调整教学内容。

3. AI的挑战与未来
尽管前景广阔，AI仍面临问题：
--------------------------------------------------
🔥 伦理争议：数据隐私、算法偏见（如招聘AI歧视特定群体）。

就业影响：自动化可能取代部分人工岗位，但也会创造新职业。

技术瓶颈：通用人工智能（AGI）尚未实现，当前AI

## 举例4: 使用split_documents()方法演示,利用PDFLoader加载文档,对文档的内容用递归切割器切割

In [9]:
# 1. 导入相关依赖
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 2. 定义PDF加载器
loader = PyPDFLoader("./asset/load/02-load.pdf")

# 3. 加载PDF文档
docs = loader.load()  # 返回Document对象列表

# 4. 定义文本分割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,        # 每个块的最大字符数
    chunk_overlap=0,       # 块之间的重叠字符数
    length_function=len,   # 使用标准长度计算
    add_start_index=True   # 记录起始位置
)

# 5. 分割PDF文档内容
paragraphs = text_splitter.split_documents(docs)

# 6. 打印分割结果
for para in paragraphs:
    print(para.page_content)
    print("-------")  # 分隔线

  from .autonotebook import tqdm as notebook_tqdm


"他的车，他的命！ 他忽然想起来，一年，二年，至少有三四年；一滴汗，两滴汗，不
知道多少万滴汗，才挣出那辆车。从风里雨里的咬牙，从饭里茶里的自苦，才赚出那辆车。
那辆车是他的一切挣扎与困苦的总结果与报酬，像身经百战的武士的一颗徽章。……他老想
着远远的一辆车，可以使他自由，独立，像自己的手脚的那么一辆车。" 
 
"他吃，他喝，他嫖，他赌，他懒，他狡猾， 因为他没了心，他的心被人家摘了去。他
-------
只剩下那个高大的肉架子，等着溃烂，预备着到乱死岗子去。……体面的、要强的、好梦想
的、利己的、个人的、健壮的、伟大的祥子，不知陪着人家送了多少回殡；不知道何时何地
会埋起他自己来， 埋起这堕落的、 自私的、 不幸的、 社会病胎里的产儿， 个人主义的末路鬼！
"
-------


# 3. TokenTextSpliter/CharacterTextSpliter




## 举例1: 使用TokenTextSpliter

In [10]:
# 1. 导入相关依赖
from langchain_text_splitters import TokenTextSplitter

# 2. 初始化Token文本分割器
text_splitter = TokenTextSplitter(
    chunk_size=33,          # 每个块的最大token数
    chunk_overlap=0,        # 块之间的重叠token数
    encoding_name="cl100k_base"  # 使用OpenAI的编码器
)

# 3. 定义待分割文本
text = """人工智能是一个强大的开发框架。它支持多种语言模型和工具链。人工智能是指通过计算机程序
模拟人类智能的一门科学。自20世纪50年代诞生以来，人工智能经历了多次起伏。"""

# 4. 执行文本分割
text_chunks = text_splitter.split_text(text)

# 5. 打印分割结果
print(f"原始文本被分割成了 {len(text_chunks)} 个块:")
for i, chunk in enumerate(text_chunks, 1):
    print(f"\n▌ 块 {i} (长度: {len(chunk)} 字符)")
    print("-" * 50)
    print(chunk)
    print("-" * 50)

# 打印统计信息
print("\n分割统计:")
print(f"{'块编号':<8} | {'长度':<6} | {'内容摘要'}")
print("-" * 50)
for i, chunk in enumerate(text_chunks, 1):
    print(f"{i:<8} | {len(chunk):<6} | {chunk[:20]}...")

原始文本被分割成了 3 个块:

▌ 块 1 (长度: 29 字符)
--------------------------------------------------
人工智能是一个强大的开发框架。它支持多种语言模型和工具链。
--------------------------------------------------

▌ 块 2 (长度: 31 字符)
--------------------------------------------------
人工智能是指通过计算机程序
模拟人类智能的一门科学。自20世纪
--------------------------------------------------

▌ 块 3 (长度: 21 字符)
--------------------------------------------------
50年代诞生以来，人工智能经历了多次起伏。
--------------------------------------------------

分割统计:
块编号      | 长度     | 内容摘要
--------------------------------------------------
1        | 29     | 人工智能是一个强大的开发框架。它支持多种...
2        | 31     | 人工智能是指通过计算机程序
模拟人类智能...
3        | 21     | 50年代诞生以来，人工智能经历了多次起伏...


## 举例2: 使用CharacterTextSpliter

In [11]:
# 1. 导入相关依赖
from langchain_text_splitters import CharacterTextSplitter
import tiktoken  # 用于计算Token数量

# 2. 定义基于Token的分割器
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base",  # 使用OpenAI的编码器
    chunk_size=18,                # 每个块的最大Token数
    chunk_overlap=0,             # 块之间重叠Token数
    separator="。",              # 指定中文句号为分隔符
    keep_separator=False         # 不保留分隔符
)

# 3. 定义待分割文本
text = """人工智能是一个强大的开发框架。它支持多种语言模型和工具链。今天天气很好，想出去踏青。
但是又比较懒不想出去，怎么办"""

# 4. 执行文本分割
text_chunks = text_splitter.split_text(text)

# 5. 初始化tiktoken编码器（用于Token计数）
encoder = tiktoken.get_encoding("cl100k_base")

# 6. 打印分割结果
print(f"分割后的块数: {len(text_chunks)}\n")

for i, chunk in enumerate(text_chunks, 1):
    tokens = encoder.encode(chunk)
    print(f"▌ 块 {i} (Token数: {len(tokens)})")
    print("-" * 40)
    print(chunk)
    print("=" * 40 + "\n")

# 打印统计信息
print("\n分割统计:")
print(f"{'块编号':<8} | {'Token数':<8} | {'内容摘要'}")
print("-" * 50)
for i, chunk in enumerate(text_chunks, 1):
    tokens = encoder.encode(chunk)
    print(f"{i:<8} | {len(tokens):<8} | {chunk[:20]}...")

分割后的块数: 4

▌ 块 1 (Token数: 17)
----------------------------------------
人工智能是一个强大的开发框架

▌ 块 2 (Token数: 14)
----------------------------------------
它支持多种语言模型和工具链

▌ 块 3 (Token数: 18)
----------------------------------------
今天天气很好，想出去踏青

▌ 块 4 (Token数: 21)
----------------------------------------
但是又比较懒不想出去，怎么办


分割统计:
块编号      | Token数   | 内容摘要
--------------------------------------------------
1        | 17       | 人工智能是一个强大的开发框架...
2        | 14       | 它支持多种语言模型和工具链...
3        | 18       | 今天天气很好，想出去踏青...
4        | 21       | 但是又比较懒不想出去，怎么办...


# 4. SemanticChunker: 语义分块