# 多种文本分割方式总结

## 基于字符的分割

In [2]:
from langchain_community.document_loaders import TextLoader

file_path = "/Users/libing/kk_datasets/txt/faq-4359.txt"

loader = TextLoader(file_path, encoding='utf-8')
doc = loader.load()
doc

[Document(metadata={'source': '/Users/libing/kk_datasets/txt/faq-4359.txt'}, page_content='一、什么是0分期利息\n\n您好，“0分期利息”是指买家使用花呗、招行掌上生活、工行信用卡、银联信用卡等其他分期购物时无需支付分期利息的功能，分期利息由华为商城承担。\n\n注：自2023年起，商城将相关宣传将“免息”调整为“0分期利息”，主要基于中国银保监会、中国人民银行《关于进一步促进信用卡业务规范健康发展的通知》（银保监规〔2022〕13号），要求“银行业金融机构应当在分期业务合同（协议）首页和业务办理页面以明显方式展示分期业务可能产生的所有息费项目、年化利率水平和息费计算方式。向客户展示分期业务收取的资金使用成本时，应当统一采用利息形式，并明确相应的计息规则，不得采用手续费等形式，法律法规另有规定的除外。”\n\n\n\n二、可以参与0分期利息活动的商品\n\n商城目前仅支持部分单品参与0分期利息，若多商品（含不支持0分期利息）合并支付则不支持0分期利息，以支付页面为准，后续会逐渐开放更多商品，敬请关注。\n\n\n\n三、确认订单分期成功\n\n订单提交成功后在支付方式页面选择分期支付，点选显示0分期利息的支付方式及具体0分期利息期数后，完成支付。\n\n\n\n\n\n四、订单中有多个商品，其中有商品支持0分期利息，为什么提交后却没有0分期利息？\n\n0分期利息商品不能和其它商品一起购买，如果和其他商品购买而不能享用0分期利息，建议取消原来的订单，重新购买时把0分期利息商品和其他商品分开单独购买；且0分期利息的分期数是固定的，如6期0分期利息，并不是3/6/12都提供0分期利息的。\n\n\n\n五、小程序是否支持0分期利息？\n\n华为商城小程序暂不支持0分期利息。')]

In [4]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n", 
    chunk_size = 100,
    chunk_overlap = 10,
    length_function = len,
    is_separator_regex=False
)

texts = text_splitter.create_documents([doc[0].page_content])
print(texts)

Created a chunk of size 224, which is longer than the specified 100
Created a chunk of size 117, which is longer than the specified 100


[Document(metadata={}, page_content='一、什么是0分期利息\n\n您好，“0分期利息”是指买家使用花呗、招行掌上生活、工行信用卡、银联信用卡等其他分期购物时无需支付分期利息的功能，分期利息由华为商城承担。'), Document(metadata={}, page_content='注：自2023年起，商城将相关宣传将“免息”调整为“0分期利息”，主要基于中国银保监会、中国人民银行《关于进一步促进信用卡业务规范健康发展的通知》（银保监规〔2022〕13号），要求“银行业金融机构应当在分期业务合同（协议）首页和业务办理页面以明显方式展示分期业务可能产生的所有息费项目、年化利率水平和息费计算方式。向客户展示分期业务收取的资金使用成本时，应当统一采用利息形式，并明确相应的计息规则，不得采用手续费等形式，法律法规另有规定的除外。”'), Document(metadata={}, page_content='二、可以参与0分期利息活动的商品\n\n商城目前仅支持部分单品参与0分期利息，若多商品（含不支持0分期利息）合并支付则不支持0分期利息，以支付页面为准，后续会逐渐开放更多商品，敬请关注。'), Document(metadata={}, page_content='三、确认订单分期成功\n\n订单提交成功后在支付方式页面选择分期支付，点选显示0分期利息的支付方式及具体0分期利息期数后，完成支付。'), Document(metadata={}, page_content='四、订单中有多个商品，其中有商品支持0分期利息，为什么提交后却没有0分期利息？'), Document(metadata={}, page_content='0分期利息商品不能和其它商品一起购买，如果和其他商品购买而不能享用0分期利息，建议取消原来的订单，重新购买时把0分期利息商品和其他商品分开单独购买；且0分期利息的分期数是固定的，如6期0分期利息，并不是3/6/12都提供0分期利息的。'), Document(metadata={}, page_content='五、小程序是否支持0分期利息？\n\n华为商城小程序暂不支持0分期利息。')]


## 拆分代码code

CodeTextSplitter 允许您使用支持的多种语言拆分代码。导入枚举 Language 并指定语言。

In [5]:
from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter
)

language = [l.value for l in Language]
print(language)

['cpp', 'go', 'java', 'kotlin', 'js', 'ts', 'php', 'proto', 'python', 'rst', 'ruby', 'rust', 'scala', 'swift', 'markdown', 'latex', 'html', 'sol', 'csharp', 'cobol', 'c', 'lua', 'perl', 'haskell', 'elixir', 'powershell']


In [6]:
RecursiveCharacterTextSplitter.get_separators_for_language(Language.JS)

['\nfunction ',
 '\nconst ',
 '\nlet ',
 '\nvar ',
 '\nclass ',
 '\nif ',
 '\nfor ',
 '\nwhile ',
 '\nswitch ',
 '\ncase ',
 '\ndefault ',
 '\n\n',
 '\n',
 ' ',
 '']

In [8]:
file_path = "/Users/libing/kk_datasets/js/main.js"

loader = TextLoader(file_path, encoding='utf8')
doc = loader.load()
doc

[Document(metadata={'source': '/Users/libing/kk_datasets/js/main.js'}, page_content='// 导入threejs\nimport * as THREE from "three";\n// 导入轨道控制器\nimport { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js";\n// 导入lil.gui\nimport { GUI } from "three/examples/jsm/libs/lil-gui.module.min.js";\n// 导入hdr加载器\nimport { RGBELoader } from "three/examples/jsm/loaders/RGBELoader.js";\n// 导入gltf加载器\nimport { GLTFLoader } from "three/examples/jsm/loaders/GLTFLoader.js";\n// 导入draco解码器\nimport { DRACOLoader } from "three/examples/jsm/loaders/DRACOLoader.js";\nimport { CSS3DRenderer,CSS3DObject } from \'three/addons/renderers/CSS3DRenderer.js\';\n\n// 创建场景\nconst scene = new THREE.Scene();\n\n// 创建相机\nconst camera = new THREE.PerspectiveCamera(\n  45, // 视角\n  window.innerWidth / window.innerHeight, // 宽高比\n  1, // 近平面\n  10000 // 远平面\n);\n\n// 创建渲染器\nconst renderer = new THREE.WebGLRenderer({\n  antialias: true, // 开启抗锯齿\n});\nrenderer.shadowMap.enabled = true;\nrenderer.toneMapping =

In [11]:
js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS,
    chunk_size=250,
    chunk_overlap=20
)

js_docs = js_splitter.create_documents([doc[0].page_content])
js_docs

[Document(metadata={}, page_content='// 导入threejs\nimport * as THREE from "three";\n// 导入轨道控制器\nimport { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js";\n// 导入lil.gui\nimport { GUI } from "three/examples/jsm/libs/lil-gui.module.min.js";\n// 导入hdr加载器'),
 Document(metadata={}, page_content='// 导入hdr加载器\nimport { RGBELoader } from "three/examples/jsm/loaders/RGBELoader.js";\n// 导入gltf加载器\nimport { GLTFLoader } from "three/examples/jsm/loaders/GLTFLoader.js";\n// 导入draco解码器'),
 Document(metadata={}, page_content='// 导入draco解码器\nimport { DRACOLoader } from "three/examples/jsm/loaders/DRACOLoader.js";\nimport { CSS3DRenderer,CSS3DObject } from \'three/addons/renderers/CSS3DRenderer.js\';'),
 Document(metadata={}, page_content='// 创建场景'),
 Document(metadata={}, page_content='const scene = new THREE.Scene();\n\n// 创建相机\nconst camera = new THREE.PerspectiveCamera(\n  45, // 视角\n  window.innerWidth / window.innerHeight, // 宽高比\n  1, // 近平面\n  10000 // 远平面\n);\n\n// 创建渲染器'),


## Markdown文本分割器

许多聊天或问答应用程序都涉及在嵌入和矢量存储之前对输入文档进行分块。

如前所述，分块通常旨在将具有共同上下文的文本放在一起。考虑到这一点，我们可能希望特别尊重文档本身的结构。例如，Markdown 文件是按标题组织的。在特定标头组中创建块是一个直观的想法。为了解决这个挑战，我们可以使用 MarkdownHeaderTextSplitter 。这将按一组指定的标头拆分 Markdown 文件。

例如，如果我们想分割这个 markdown：

```
# Foo
## Bar
Hi this is Jim  

Hi this is Joe

## Baz
Hi this is Molly
```


In [15]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

file_path = "/Users/libing/kk_datasets/txt/agent.md"
loader = TextLoader(file_path, encoding='utf8')
doc = loader.load()
doc

[Document(metadata={'source': '/Users/libing/kk_datasets/txt/agent.md'}, page_content='### 智能体（Agent）概述\n\n智能体（Agent）是一种能够感知其环境并基于感知采取行动以实现目标的自主实体。智能体的设计、实现和应用涉及多个领域，包括人工智能、机器人学、分布式系统和人机交互等。本文档详细描述了智能体的定义、特性、类型、体系结构及其应用。\n\n------\n\n## 1. 智能体的定义\n\n智能体可以被定义为一个能够感知环境（通过传感器）、执行操作（通过效应器）并实现特定目标的系统。通常，智能体的行为是自主的，并且可以适应环境变化。\n\n公式化定义：\n\nAgent=⟨Sensors,Actuators,Goals,Environment,Policy⟩Agent = \\langle Sensors, Actuators, Goals, Environment, Policy \\rangle\n\n- **Sensors（传感器）**: 用于感知环境的设备或软件模块。\n- **Actuators（效应器）**: 用于与环境交互或修改环境状态的设备或模块。\n- **Goals（目标）**: 智能体需要实现的任务或优化的问题。\n- **Environment（环境）**: 智能体感知和作用的外部世界。\n- **Policy（策略）**: 从感知到行为的映射函数，决定智能体的动作。\n\n------\n\n## 2. 智能体的特性\n\n1. **自主性（Autonomy）**\n    智能体能够独立运行，而不需要外界持续的干预。\n2. **感知能力（Perception）**\n    智能体可以通过传感器感知周围环境的信息。\n3. **反应能力（Reactivity）**\n    智能体可以实时响应环境中的变化。\n4. **目标导向性（Goal-Oriented）**\n    智能体的行为受到目标或任务的驱动。\n5. **适应性（Adaptivity）**\n    智能体能够适应环境的动态变化。\n6. **学习能力（Learning Ability）**\n    高级智能体可以通过交互和经验提高自身性能。\n\n------\

In [16]:
headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3")
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
markdown_splits = markdown_splitter.split_text(doc[0].page_content)
markdown_splits


[Document(metadata={'Header 3': '智能体（Agent）概述'}, page_content='智能体（Agent）是一种能够感知其环境并基于感知采取行动以实现目标的自主实体。智能体的设计、实现和应用涉及多个领域，包括人工智能、机器人学、分布式系统和人机交互等。本文档详细描述了智能体的定义、特性、类型、体系结构及其应用。  \n------'),
 Document(metadata={'Header 2': '1. 智能体的定义'}, page_content='智能体可以被定义为一个能够感知环境（通过传感器）、执行操作（通过效应器）并实现特定目标的系统。通常，智能体的行为是自主的，并且可以适应环境变化。  \n公式化定义：  \nAgent=⟨Sensors,Actuators,Goals,Environment,Policy⟩Agent = \\langle Sensors, Actuators, Goals, Environment, Policy \\rangle  \n- **Sensors（传感器）**: 用于感知环境的设备或软件模块。\n- **Actuators（效应器）**: 用于与环境交互或修改环境状态的设备或模块。\n- **Goals（目标）**: 智能体需要实现的任务或优化的问题。\n- **Environment（环境）**: 智能体感知和作用的外部世界。\n- **Policy（策略）**: 从感知到行为的映射函数，决定智能体的动作。  \n------'),
 Document(metadata={'Header 2': '2. 智能体的特性'}, page_content='1. **自主性（Autonomy）**\n智能体能够独立运行，而不需要外界持续的干预。\n2. **感知能力（Perception）**\n智能体可以通过传感器感知周围环境的信息。\n3. **反应能力（Reactivity）**\n智能体可以实时响应环境中的变化。\n4. **目标导向性（Goal-Oriented）**\n智能体的行为受到目标或任务的驱动。\n5. **适应性（Adaptivity）**\n智能体能够适应环境的动态变化。\n6. **学习能力（Learning Ability）**\n高级智能体可以通过交互和