## 2. Text Splitters 示例

In [None]:
"""
LangChain 0.3 Text Splitters 完整示例
包含所有主要分割器类型和高级用法
"""

import os
from typing import List, Dict, Any
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    CharacterTextSplitter,
    TokenTextSplitter,
    MarkdownHeaderTextSplitter,
    HTMLHeaderTextSplitter,
    PythonCodeTextSplitter,
    LatexTextSplitter
)
from langchain_core.documents import Document

### 创建示例文档用于测试

In [24]:

def create_sample_documents():
    """创建示例文档用于测试"""

    # 长文本示例
    long_text = """
人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。

随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。

80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。

机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。

自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。

未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。
    """

    return Document(page_content=long_text.strip(), metadata={"source": "ai_history"})
create_sample_documents()

Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。\n\n自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')

### 递归字符分割器示例 - 推荐使用

In [25]:

def recursive_character_splitter_example():
    """递归字符分割器示例 - 推荐使用"""
    print("=" * 60)
    print("1. RecursiveCharacterTextSplitter（推荐）")
    print("=" * 60)

    doc = create_sample_documents()

    # 1.1 基础用法
    print("\n1.1 基础递归分割")
    basic_splitter = RecursiveCharacterTextSplitter(
        chunk_size=200,           # 块大小
        chunk_overlap=50,         # 重叠大小
        length_function=len,      # 长度计算函数
        is_separator_regex=False  # 分隔符是否为正则表达式
    )

    basic_chunks = basic_splitter.split_documents([doc])
    print(f"基础分割块数: {len(basic_chunks)}")
    for i, chunk in enumerate(basic_chunks[:3]):
        print(f"块 {i+1} (长度: {len(chunk.page_content)}): {chunk.page_content[:80]}...")

    # 1.2 自定义分隔符
    print("\n1.2 自定义分隔符优先级")
    custom_splitter = RecursiveCharacterTextSplitter(
        chunk_size=150,
        chunk_overlap=30,
        separators=[
            "\n\n",    # 段落分隔符（最高优先级）
            "\n",      # 行分隔符
            "。",      # 中文句号
            "！",      # 中文感叹号
            "？",      # 中文问号
            "，",      # 中文逗号
            " ",       # 空格
            ""         # 字符级分割（最后手段）
        ]
    )

    custom_chunks = custom_splitter.split_documents([doc])
    print(f"自定义分割块数: {len(custom_chunks)}")

    # 1.3 保持段落完整性
    print("\n1.3 段落优先分割")
    paragraph_splitter = RecursiveCharacterTextSplitter(
        chunk_size=300,
        chunk_overlap=50,
        separators=["\n\n", "\n", "。", " ", ""]
    )

    para_chunks = paragraph_splitter.split_documents([doc])
    print(f"段落分割块数: {len(para_chunks)}")

    return basic_chunks
recursive_character_splitter_example()

1. RecursiveCharacterTextSplitter（推荐）

1.1 基础递归分割
基础分割块数: 3
块 1 (长度: 190): 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达特茅斯会议上，人工智能这个术语首次被正式...
块 2 (长度: 169): 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

今天...
块 3 (长度: 103): 自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。

未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融...

1.2 自定义分隔符优先级
自定义分割块数: 4

1.3 段落优先分割
段落分割块数: 2


[Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。'),
 Document(metadata={'source': 'ai_history'}, page_content='80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。'),
 Document(metadata={'source': 'ai_history'}, page_content='自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')]

### 字符文本分割器示例

In [None]:

def character_text_splitter_example():
    """字符文本分割器示例"""
    print("\n" + "=" * 60)
    print("2. CharacterTextSplitter")
    print("=" * 60)

    doc = create_sample_documents()

    # 2.1 按段落分割
    print("\n2.1 按段落分割")
    para_splitter = CharacterTextSplitter(
        chunk_size=300,
        chunk_overlap=50,
        separator="\n\n"  # 只使用段落分隔符
    )

    para_chunks = para_splitter.split_documents([doc])
    print(f"段落分割块数: {len(para_chunks)}")

    # 2.2 按句子分割
    print("\n2.2 按句子分割")
    sentence_splitter = CharacterTextSplitter(
        chunk_size=100,
        chunk_overlap=20,
        separator="。"  # 按中文句号分割
    )

    sentence_chunks = sentence_splitter.split_documents([doc])
    print(f"句子分割块数: {len(sentence_chunks)}")

    # 2.3 自定义分隔符
    print("\n2.3 自定义分隔符")
    custom_text = "项目A|项目B|项目C|项目D|项目E的详细描述和分析报告"
    custom_doc = Document(page_content=custom_text)

    custom_splitter = CharacterTextSplitter(
        chunk_size=20,
        chunk_overlap=0,
        separator="|"
    )

    custom_chunks = custom_splitter.split_documents([custom_doc])
    print(f"自定义分割块数: {len(custom_chunks)}")
    for chunk in custom_chunks:
        print(f"  - {chunk.page_content}")

    return para_chunks
character_text_splitter_example()

### Token文本分割器示例

In [26]:

def token_text_splitter_example():
    """Token文本分割器示例"""
    print("\n" + "=" * 60)
    print("3. TokenTextSplitter")
    print("=" * 60)

    doc = create_sample_documents()

    # 3.1 基础Token分割
    print("\n3.1 基础Token分割")
    token_splitter = TokenTextSplitter(
        chunk_size=100,      # Token数量
        chunk_overlap=20,    # 重叠Token数
        model_name="gpt-3.5-turbo"  # 指定tokenizer模型
    )

    token_chunks = token_splitter.split_documents([doc])
    print(f"Token分割块数: {len(token_chunks)}")

    # 显示每块的实际token数
    for i, chunk in enumerate(token_chunks[:3]):
        token_count = token_splitter._tokenizer.encode(chunk.page_content)
        print(f"块 {i+1} Token数: {len(token_count)}, 内容: {chunk.page_content[:60]}...")

    # 3.2 不同模型的Token分割
    print("\n3.2 不同模型Token分割对比")
    models = ["gpt-3.5-turbo", "text-davinci-003", "gpt-4"]

    for model in models:
        try:
            model_splitter = TokenTextSplitter(
                chunk_size=50,
                chunk_overlap=10,
                model_name=model
            )
            model_chunks = model_splitter.split_documents([doc])
            print(f"{model}: {len(model_chunks)} 块")
        except Exception as e:
            print(f"{model}: 不支持 ({e})")

    return token_chunks
token_text_splitter_example()


3. TokenTextSplitter

3.1 基础Token分割
Token分割块数: 6
块 1 Token数: 100, 内容: 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达...
块 2 Token数: 100, 内容: 次被正式提出。这标志着AI作为一个独立学科的诞生。

随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天...
块 3 Token数: 100, 内容: 年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI...

3.2 不同模型Token分割对比
gpt-3.5-turbo: 11 块
text-davinci-003: 21 块
gpt-4: 11 块


[Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独'),
 Document(metadata={'source': 'ai_history'}, page_content='次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进'),
 Document(metadata={'source': 'ai_history'}, page_content='年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领'),
 Document(metadata={'source': 'ai_history'}, page_content='在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。\n\n自然语'),
 Document(metadata={'source': 'ai_history'}, page_content='学习则是机器学习的一个重要分支。\n\n自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、'),
 Document(metadata={'source': 'ai_history'}, page_content='�重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')]

### Markdown标题分割器示例

In [27]:

def markdown_header_splitter_example():
    """Markdown标题分割器示例"""
    print("\n" + "=" * 60)
    print("4. MarkdownHeaderTextSplitter")
    print("=" * 60)

    # 创建Markdown文档
    markdown_text = """
# 人工智能技术指南

## 1. 机器学习基础

### 1.1 监督学习
监督学习是机器学习的一个重要分支，使用标记的训练数据来学习输入到输出的映射。

常见算法包括：
- 线性回归
- 逻辑回归
- 决策树
- 随机森林

### 1.2 无监督学习
无监督学习从未标记的数据中发现隐藏的模式。

主要方法：
- 聚类分析
- 降维技术
- 关联规则挖掘

## 2. 深度学习

### 2.1 神经网络基础
神经网络是深度学习的基础，模拟人脑神经元的工作方式。

### 2.2 卷积神经网络
CNN主要用于图像处理和计算机视觉任务。

### 2.3 循环神经网络
RNN适合处理序列数据，如文本和时间序列。

## 3. 自然语言处理

### 3.1 文本预处理
包括分词、词性标注、命名实体识别等步骤。

### 3.2 语言模型
从统计语言模型到现代的Transformer模型。

# 总结

人工智能技术正在快速发展，各个领域都有重要突破。
"""

    # 4.1 基础标题分割
    print("\n4.1 基础标题分割")
    md_splitter = MarkdownHeaderTextSplitter(
        headers_to_split_on=[
            ("#", "Header 1"),
            ("##", "Header 2"),
            ("###", "Header 3"),
        ]
    )

    md_chunks = md_splitter.split_text(markdown_text)
    print(f"Markdown分割块数: {len(md_chunks)}")

    for i, chunk in enumerate(md_chunks[:5]):
        print(f"\n块 {i+1}:")
        print(f"内容: {chunk.page_content[:100]}...")
        print(f"元数据: {chunk.metadata}")

    # 4.2 结合递归分割器
    print("\n4.2 结合递归分割器进行二次分割")

    # 先按标题分割
    md_docs = md_splitter.split_text(markdown_text)

    # 再对长块进行递归分割
    recursive_splitter = RecursiveCharacterTextSplitter(
        chunk_size=200,
        chunk_overlap=50
    )

    final_chunks = []
    for doc in md_docs:
        if len(doc.page_content) > 200:
            sub_chunks = recursive_splitter.split_documents([doc])
            final_chunks.extend(sub_chunks)
        else:
            final_chunks.append(doc)

    print(f"二次分割后块数: {len(final_chunks)}")

    return md_chunks
markdown_header_splitter_example()


4. MarkdownHeaderTextSplitter

4.1 基础标题分割
Markdown分割块数: 8

块 1:
内容: 监督学习是机器学习的一个重要分支，使用标记的训练数据来学习输入到输出的映射。  
常见算法包括：
- 线性回归
- 逻辑回归
- 决策树
- 随机森林...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.1 监督学习'}

块 2:
内容: 无监督学习从未标记的数据中发现隐藏的模式。  
主要方法：
- 聚类分析
- 降维技术
- 关联规则挖掘...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.2 无监督学习'}

块 3:
内容: 神经网络是深度学习的基础，模拟人脑神经元的工作方式。...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.1 神经网络基础'}

块 4:
内容: CNN主要用于图像处理和计算机视觉任务。...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.2 卷积神经网络'}

块 5:
内容: RNN适合处理序列数据，如文本和时间序列。...
元数据: {'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.3 循环神经网络'}

4.2 结合递归分割器进行二次分割
二次分割后块数: 8


[Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.1 监督学习'}, page_content='监督学习是机器学习的一个重要分支，使用标记的训练数据来学习输入到输出的映射。  \n常见算法包括：\n- 线性回归\n- 逻辑回归\n- 决策树\n- 随机森林'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '1. 机器学习基础', 'Header 3': '1.2 无监督学习'}, page_content='无监督学习从未标记的数据中发现隐藏的模式。  \n主要方法：\n- 聚类分析\n- 降维技术\n- 关联规则挖掘'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.1 神经网络基础'}, page_content='神经网络是深度学习的基础，模拟人脑神经元的工作方式。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.2 卷积神经网络'}, page_content='CNN主要用于图像处理和计算机视觉任务。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '2. 深度学习', 'Header 3': '2.3 循环神经网络'}, page_content='RNN适合处理序列数据，如文本和时间序列。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '3. 自然语言处理', 'Header 3': '3.1 文本预处理'}, page_content='包括分词、词性标注、命名实体识别等步骤。'),
 Document(metadata={'Header 1': '人工智能技术指南', 'Header 2': '3. 自然语言处理', 'Header 3': '3.2 语言模型'}, page_cont

### HTML标题分割器示例

In [28]:

def html_header_splitter_example():
    """HTML标题分割器示例"""
    print("\n" + "=" * 60)
    print("5. HTMLHeaderTextSplitter")
    print("=" * 60)

    html_text = """
<!DOCTYPE html>
<html>
<head>
    <title>AI技术文档</title>
</head>
<body>
    <h1>人工智能概述</h1>
    <p>人工智能是计算机科学的一个分支。</p>

    <h2>机器学习</h2>
    <p>机器学习是AI的重要组成部分。</p>

    <h3>监督学习</h3>
    <p>使用标记数据进行训练。</p>

    <h3>无监督学习</h3>
    <p>从未标记数据中发现模式。</p>

    <h2>深度学习</h2>
    <p>基于神经网络的学习方法。</p>

    <h3>CNN</h3>
    <p>卷积神经网络用于图像处理。</p>

    <h3>RNN</h3>
    <p>循环神经网络处理序列数据。</p>
</body>
</html>
"""

    html_splitter = HTMLHeaderTextSplitter(
        headers_to_split_on=[
            ("h1", "Header 1"),
            ("h2", "Header 2"),
            ("h3", "Header 3"),
        ]
    )

    html_chunks = html_splitter.split_text(html_text)
    print(f"HTML分割块数: {len(html_chunks)}")

    for i, chunk in enumerate(html_chunks[:3]):
        print(f"\n块 {i+1}:")
        print(f"内容: {chunk.page_content[:80]}...")
        print(f"元数据: {chunk.metadata}")

    return html_chunks
html_header_splitter_example()


5. HTMLHeaderTextSplitter
HTML分割块数: 14

块 1:
内容: 人工智能概述...
元数据: {'Header 1': '人工智能概述'}

块 2:
内容: 人工智能是计算机科学的一个分支。...
元数据: {'Header 1': '人工智能概述'}

块 3:
内容: 机器学习...
元数据: {'Header 1': '人工智能概述', 'Header 2': '机器学习'}


[Document(metadata={'Header 1': '人工智能概述'}, page_content='人工智能概述'),
 Document(metadata={'Header 1': '人工智能概述'}, page_content='人工智能是计算机科学的一个分支。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习'}, page_content='机器学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习'}, page_content='机器学习是AI的重要组成部分。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '监督学习'}, page_content='监督学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '监督学习'}, page_content='使用标记数据进行训练。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '无监督学习'}, page_content='无监督学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '机器学习', 'Header 3': '无监督学习'}, page_content='从未标记数据中发现模式。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '深度学习'}, page_content='深度学习'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '深度学习'}, page_content='基于神经网络的学习方法。'),
 Document(metadata={'Header 1': '人工智能概述', 'Header 2': '深度学习

### 代码分割器示例

In [29]:

def code_splitter_example():
    """代码分割器示例"""
    print("\n" + "=" * 60)
    print("6. PythonCodeTextSplitter")
    print("=" * 60)

    python_code = '''
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

class DataProcessor:
    """数据处理类"""

    def __init__(self, data_path):
        self.data_path = data_path
        self.data = None

    def load_data(self):
        """加载数据"""
        self.data = pd.read_csv(self.data_path)
        return self.data

    def preprocess(self):
        """数据预处理"""
        # 处理缺失值
        self.data = self.data.dropna()

        # 特征缩放
        from sklearn.preprocessing import StandardScaler
        scaler = StandardScaler()
        numeric_columns = self.data.select_dtypes(include=[np.number]).columns
        self.data[numeric_columns] = scaler.fit_transform(self.data[numeric_columns])

        return self.data

def train_model(X, y):
    """训练模型"""
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    model = LinearRegression()
    model.fit(X_train, y_train)

    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)

    print(f"Mean Squared Error: {mse}")
    return model

def main():
    """主函数"""
    processor = DataProcessor("data.csv")
    data = processor.load_data()
    processed_data = processor.preprocess()

    X = processed_data.drop('target', axis=1)
    y = processed_data['target']

    model = train_model(X, y)
    print("模型训练完成")

if __name__ == "__main__":
    main()
'''

    # Python代码分割
    python_splitter = PythonCodeTextSplitter(
        chunk_size=500,
        chunk_overlap=50
    )

    code_chunks = python_splitter.split_text(python_code)
    print(f"Python代码分割块数: {len(code_chunks)}")

    for i, chunk in enumerate(code_chunks[:3]):
        print(f"\n代码块 {i+1} (长度: {len(chunk)}):")
        print(chunk[:200] + "..." if len(chunk) > 200 else chunk)

    return code_chunks
code_splitter_example()


6. PythonCodeTextSplitter
Python代码分割块数: 5

代码块 1 (长度: 188):
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

代码块 2 (长度: 352):
class DataProcessor:
    """数据处理类"""

    def __init__(self, data_path):
        self.data_path = data_path
        self.data = None

    def load_data(self):
        """加载数据"""
        self.data = pd...

代码块 3 (长度: 288):
# 特征缩放
        from sklearn.preprocessing import StandardScaler
        scaler = StandardScaler()
        numeric_columns = self.data.select_dtypes(include=[np.number]).columns
        self.data[numer...


['import numpy as np\nimport pandas as pd\nfrom sklearn.model_selection import train_test_split\nfrom sklearn.linear_model import LinearRegression\nfrom sklearn.metrics import mean_squared_error',
 'class DataProcessor:\n    """数据处理类"""\n\n    def __init__(self, data_path):\n        self.data_path = data_path\n        self.data = None\n\n    def load_data(self):\n        """加载数据"""\n        self.data = pd.read_csv(self.data_path)\n        return self.data\n\n    def preprocess(self):\n        """数据预处理"""\n        # 处理缺失值\n        self.data = self.data.dropna()',
 '# 特征缩放\n        from sklearn.preprocessing import StandardScaler\n        scaler = StandardScaler()\n        numeric_columns = self.data.select_dtypes(include=[np.number]).columns\n        self.data[numeric_columns] = scaler.fit_transform(self.data[numeric_columns])\n\n        return self.data',
 'def train_model(X, y):\n    """训练模型"""\n    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=

### LaTeX分割器示例

In [30]:

def latex_splitter_example():
    """LaTeX分割器示例"""
    print("\n" + "=" * 60)
    print("7. LatexTextSplitter")
    print("=" * 60)

    latex_text = r"""
\documentclass{article}
\usepackage{amsmath}
\title{机器学习数学基础}
\author{AI研究团队}

\begin{document}
\maketitle

\section{线性代数}
线性代数是机器学习的数学基础之一。

\subsection{向量}
向量是具有大小和方向的量。在机器学习中，特征通常表示为向量。

设向量 $\mathbf{v} = [v_1, v_2, \ldots, v_n]^T$，其中 $v_i$ 是第 $i$ 个分量。

\subsection{矩阵}
矩阵是二维数组，用于表示线性变换。

矩阵乘法定义为：
\begin{equation}
(\mathbf{AB})_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}
\end{equation}

\section{概率论}
概率论为机器学习提供了不确定性建模的工具。

\subsection{贝叶斯定理}
贝叶斯定理是概率论的核心：
\begin{equation}
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
\end{equation}

\section{优化理论}
优化理论用于寻找模型的最优参数。

\subsection{梯度下降}
梯度下降是最常用的优化算法：
\begin{equation}
\theta_{t+1} = \theta_t - \alpha \nabla_\theta J(\theta)
\end{equation}

其中 $\alpha$ 是学习率，$J(\theta)$ 是损失函数。

\end{document}
"""

    latex_splitter = LatexTextSplitter(
        chunk_size=300,
        chunk_overlap=50
    )

    latex_chunks = latex_splitter.split_text(latex_text)
    print(f"LaTeX分割块数: {len(latex_chunks)}")

    for i, chunk in enumerate(latex_chunks[:3]):
        print(f"\nLaTeX块 {i+1}:")
        print(chunk[:150] + "..." if len(chunk) > 150 else chunk)

    return latex_chunks
latex_splitter_example()


7. LatexTextSplitter
LaTeX分割块数: 4

LaTeX块 1:
\documentclass{article}
\usepackage{amsmath}
\title{机器学习数学基础}
\author{AI研究团队}

\begin{document}
\maketitle

\section{线性代数}
线性代数是机器学习的数学基础之一。

\subsect...

LaTeX块 2:
$ 个分量。

\subsection{矩阵}
矩阵是二维数组，用于表示线性变换。

矩阵乘法定义为：
\begin{equation}
(\mathbf{AB})_{ij} = \sum_{k=1}^{n} a_{ik}b_{kj}
\end{equation}

\section{概率论}
概率...

LaTeX块 3:
= \frac{P(B|A)P(A)}{P(B)}
\end{equation}

\section{优化理论}
优化理论用于寻找模型的最优参数。

\subsection{梯度下降}
梯度下降是最常用的优化算法：
\begin{equation}
\theta_{t+1} = \theta_t -...


['\\documentclass{article}\n\\usepackage{amsmath}\n\\title{机器学习数学基础}\n\\author{AI研究团队}\n\n\\begin{document}\n\\maketitle\n\n\\section{线性代数}\n线性代数是机器学习的数学基础之一。\n\n\\subsection{向量}\n向量是具有大小和方向的量。在机器学习中，特征通常表示为向量。\n\n设向量 $\\mathbf{v} = [v_1, v_2, \\ldots, v_n]^T$，其中 $v_i$ 是第 $i',
 '$ 个分量。\n\n\\subsection{矩阵}\n矩阵是二维数组，用于表示线性变换。\n\n矩阵乘法定义为：\n\\begin{equation}\n(\\mathbf{AB})_{ij} = \\sum_{k=1}^{n} a_{ik}b_{kj}\n\\end{equation}\n\n\\section{概率论}\n概率论为机器学习提供了不确定性建模的工具。\n\n\\subsection{贝叶斯定理}\n贝叶斯定理是概率论的核心：\n\\begin{equation}\nP(A|B) =',
 '= \\frac{P(B|A)P(A)}{P(B)}\n\\end{equation}\n\n\\section{优化理论}\n优化理论用于寻找模型的最优参数。\n\n\\subsection{梯度下降}\n梯度下降是最常用的优化算法：\n\\begin{equation}\n\\theta_{t+1} = \\theta_t - \\alpha \\nabla_\\theta J(\\theta)\n\\end{equation}\n\n其中',
 '$\\alpha$ 是学习率，$J(\\theta)$ 是损失函数。\n\n\\end{document}']

### 高级分割技术

In [31]:

def advanced_splitting_techniques():
    """高级分割技术"""
    print("\n" + "=" * 60)
    print("8. 高级分割技术")
    print("=" * 60)

    doc = create_sample_documents()

    # 8.1 动态块大小
    print("\n8.1 动态块大小调整")

    def adaptive_chunk_size(text: str) -> int:
        """根据文本复杂度动态调整块大小"""
        sentences = text.split('。')
        avg_sentence_length = sum(len(s) for s in sentences) / len(sentences) if sentences else 100

        if avg_sentence_length > 50:
            return 300  # 长句子用大块
        elif avg_sentence_length > 30:
            return 200  # 中等句子用中块
        else:
            return 150  # 短句子用小块

    adaptive_splitter = RecursiveCharacterTextSplitter(
        chunk_size=adaptive_chunk_size(doc.page_content),
        chunk_overlap=50
    )

    adaptive_chunks = adaptive_splitter.split_documents([doc])
    print(f"自适应分割块数: {len(adaptive_chunks)}")

    # 8.2 语义感知分割
    print("\n8.2 语义感知分割")

    def semantic_splitter(text: str, max_chunk_size: int = 200) -> List[str]:
        """基于语义的分割（简化版）"""
        sentences = text.split('。')
        chunks = []
        current_chunk = ""

        for sentence in sentences:
            sentence = sentence.strip()
            if not sentence:
                continue

            # 检查是否包含关键词（新主题开始）
            topic_keywords = ['然而', '另外', '此外', '同时', '因此', '总之']
            is_new_topic = any(keyword in sentence for keyword in topic_keywords)

            if (len(current_chunk) + len(sentence) > max_chunk_size) or is_new_topic:
                if current_chunk:
                    chunks.append(current_chunk.strip())
                current_chunk = sentence + '。'
            else:
                current_chunk += sentence + '。'

        if current_chunk:
            chunks.append(current_chunk.strip())

        return chunks

    semantic_chunks = semantic_splitter(doc.page_content)
    print(f"语义分割块数: {len(semantic_chunks)}")

    # 8.3 重叠策略优化
    print("\n8.3 智能重叠策略")

    def smart_overlap_splitter(text: str, chunk_size: int = 200) -> List[Document]:
        """智能重叠分割"""
        sentences = text.split('。')
        chunks = []

        for i in range(0, len(sentences), 3):  # 每3句为一块
            chunk_sentences = sentences[i:i+4]  # 取4句（包含1句重叠）
            chunk_text = '。'.join(chunk_sentences).strip()

            if chunk_text:
                chunks.append(Document(
                    page_content=chunk_text,
                    metadata={"chunk_id": len(chunks), "overlap_strategy": "sentence_based"}
                ))

        return chunks

    smart_chunks = smart_overlap_splitter(doc.page_content)
    print(f"智能重叠分割块数: {len(smart_chunks)}")

    return adaptive_chunks
advanced_splitting_techniques()


8. 高级分割技术

8.1 动态块大小调整
自适应分割块数: 4

8.2 语义感知分割
语义分割块数: 4

8.3 智能重叠策略
智能重叠分割块数: 5


[Document(metadata={'source': 'ai_history'}, page_content='人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。\n\n在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。\n\n随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。'),
 Document(metadata={'source': 'ai_history'}, page_content='随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。\n\n80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。\n\n21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。'),
 Document(metadata={'source': 'ai_history'}, page_content='21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。\n\n今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。\n\n机器学习作为AI的核心技术，包括监督学习、无监督学习和强化学习三大类。深度学习则是机器学习的一个重要分支。'),
 Document(metadata={'source': 'ai_history'}, page_content='自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。\n\n未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融等。同时，AI的伦理和安全问题也需要得到重视。')]

### 分割器性能对比

In [32]:

def splitting_performance_comparison():
    """分割器性能对比"""
    print("\n" + "=" * 60)
    print("9. 分割器性能对比")
    print("=" * 60)

    doc = create_sample_documents()

    splitters = {
        "RecursiveCharacter": RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=50),
        "Character": CharacterTextSplitter(chunk_size=200, chunk_overlap=50, separator="\n\n"),
        "Token": TokenTextSplitter(chunk_size=50, chunk_overlap=10)
    }

    results = {}

    for name, splitter in splitters.items():
        try:
            import time
            start_time = time.time()
            chunks = splitter.split_documents([doc])
            end_time = time.time()

            results[name] = {
                "chunks": len(chunks),
                "time": end_time - start_time,
                "avg_length": sum(len(c.page_content) for c in chunks) / len(chunks),
                "min_length": min(len(c.page_content) for c in chunks),
                "max_length": max(len(c.page_content) for c in chunks)
            }
        except Exception as e:
            results[name] = {"error": str(e)}

    print("\n性能对比结果:")
    print(f"{'分割器':<20} {'块数':<8} {'时间(s)':<10} {'平均长度':<10} {'最小长度':<10} {'最大长度':<10}")
    print("-" * 80)

    for name, result in results.items():
        if "error" not in result:
            print(f"{name:<20} {result['chunks']:<8} {result['time']:<10.4f} "
                  f"{result['avg_length']:<10.1f} {result['min_length']:<10} {result['max_length']:<10}")
        else:
            print(f"{name:<20} 错误: {result['error']}")
splitting_performance_comparison()


9. 分割器性能对比

性能对比结果:
分割器                  块数       时间(s)      平均长度       最小长度       最大长度      
--------------------------------------------------------------------------------
RecursiveCharacter   3        0.0000     154.0      103        190       
Character            3        0.0000     154.0      103        190       
Token                21       0.0010     25.9       10         32        


### 运行所有文本分割器示例

In [33]:

def main():
    """运行所有文本分割器示例"""
    print("🚀 LangChain 0.3 Text Splitters 完整示例")
    print("=" * 80)

    # 运行所有示例
    recursive_character_splitter_example()
    character_text_splitter_example()
    token_text_splitter_example()
    markdown_header_splitter_example()
    html_header_splitter_example()
    code_splitter_example()
    latex_splitter_example()
    advanced_splitting_techniques()
    splitting_performance_comparison()

    print("\n🎉 所有文本分割器示例运行完成！")

    # 最佳实践建议
    print("\n📋 最佳实践建议:")
    print("1. 通用文本：使用 RecursiveCharacterTextSplitter")
    print("2. 结构化文档：使用对应的Header分割器")
    print("3. 代码文档：使用 PythonCodeTextSplitter")
    print("4. Token限制：使用 TokenTextSplitter")
    print("5. 简单需求：使用 CharacterTextSplitter")

if __name__ == "__main__":
    main()

🚀 LangChain 0.3 Text Splitters 完整示例
1. RecursiveCharacterTextSplitter（推荐）

1.1 基础递归分割
基础分割块数: 3
块 1 (长度: 190): 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达特茅斯会议上，人工智能这个术语首次被正式...
块 2 (长度: 169): 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

今天...
块 3 (长度: 103): 自然语言处理（NLP）让计算机能够理解和生成人类语言。计算机视觉让机器能够"看见"和理解图像。

未来，AI将在更多领域发挥重要作用，包括医疗、教育、交通、金融...

1.2 自定义分隔符优先级
自定义分割块数: 4

1.3 段落优先分割
段落分割块数: 2

2. CharacterTextSplitter

2.1 按段落分割
段落分割块数: 2

2.2 按句子分割
句子分割块数: 6

2.3 自定义分隔符
自定义分割块数: 2
  - 项目A|项目B|项目C|项目D
  - 项目E的详细描述和分析报告

3. TokenTextSplitter

3.1 基础Token分割
Token分割块数: 6
块 1 Token数: 100, 内容: 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

在1956年的达...
块 2 Token数: 100, 内容: 次被正式提出。这标志着AI作为一个独立学科的诞生。

随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天...
块 3 Token数: 100, 内容: 年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

21世纪以来，随着大数据、云计算和深度学习的发展，AI...

3.2 不同模型Token分割对比
gpt-3.5-turbo: 11 块
text-davinci-003: 21 块
gpt-4: 11 块

4. MarkdownHeaderTextSplitter

4.1 基础标题分割
Markdown

In [3]:
# 2. Text Splitters 示例
def text_splitters_example(documents: List[Document]):
    """文本分割器示例"""
    print("\n" + "=" * 60)
    print("2. Text Splitters 文本分割器示例")
    print("=" * 60)

    # 创建长文本用于分割
    long_text = """
    人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学科的诞生。

    随后的几十年里，AI经历了多次起伏。60-70年代是第一个AI春天，专家系统得到了广泛应用。

    80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

    今天，AI已经在图像识别、自然语言处理、推荐系统等领域取得了突破性进展。
    """

    long_doc = Document(page_content=long_text, metadata={"source": "ai_history"})

    # 2.1 递归字符分割器（推荐）
    print("\n2.1 RecursiveCharacterTextSplitter")
    recursive_splitter = RecursiveCharacterTextSplitter(
        chunk_size=200,
        chunk_overlap=50,
        length_function=len,
        separators=["\n\n", "\n", "。", "，", " ", ""]
    )

    recursive_chunks = recursive_splitter.split_documents([long_doc])
    print(f"递归分割块数: {len(recursive_chunks)}")
    for i, chunk in enumerate(recursive_chunks[:2]):
        print(f"块 {i + 1}: {chunk.page_content[:100]}...")

    # 2.2 字符分割器
    print("\n2.2 CharacterTextSplitter")
    char_splitter = CharacterTextSplitter(
        chunk_size=300,
        chunk_overlap=50,
        separator="\n\n"
    )

    char_chunks = char_splitter.split_documents([long_doc])
    print(f"字符分割块数: {len(char_chunks)}")

    # 2.3 Token分割器
    print("\n2.3 TokenTextSplitter")
    token_splitter = TokenTextSplitter(
        chunk_size=100,
        chunk_overlap=20
    )

    token_chunks = token_splitter.split_documents([long_doc])
    print(f"Token分割块数: {len(token_chunks)}")

    # 2.4 Markdown分割器
    print("\n2.4 MarkdownHeaderTextSplitter")
    markdown_text = """
# 人工智能概述

## 什么是人工智能
人工智能是计算机科学的一个分支。

## AI的应用领域

### 自然语言处理
NLP是AI的重要分支。

### 计算机视觉
计算机视觉让机器能够"看见"。

## 未来发展
AI将继续快速发展。
"""

    markdown_splitter = MarkdownHeaderTextSplitter(
        headers_to_split_on=[
            ("#", "Header 1"),
            ("##", "Header 2"),
            ("###", "Header 3"),
        ]
    )

    md_doc = Document(page_content=markdown_text)
    md_chunks = markdown_splitter.split_text(markdown_text)
    print(f"Markdown分割块数: {len(md_chunks)}")

    return recursive_chunks
# 2. 文本分割
chunks = text_splitters_example(documents)


2. Text Splitters 文本分割器示例

2.1 RecursiveCharacterTextSplitter
递归分割块数: 2
块 1: 人工智能的发展历程可以追溯到20世纪50年代。当时，计算机科学家开始探索让机器模拟人类智能的可能性。

    在1956年的达特茅斯会议上，人工智能这个术语首次被正式提出。这标志着AI作为一个独立学...
块 2: 80年代末到90年代初，由于技术限制和过高期望，AI进入了所谓的"AI冬天"。

    21世纪以来，随着大数据、云计算和深度学习的发展，AI迎来了新的春天。

    今天，AI已经在图像识别、自...

2.2 CharacterTextSplitter
字符分割块数: 1

2.3 TokenTextSplitter
Token分割块数: 7

2.4 MarkdownHeaderTextSplitter
Markdown分割块数: 4
