# 多种文本分割方式总结

## 基于字符的分割

In [2]:
from langchain_community.document_loaders import TextLoader

file_path = "/mnt/f/kk_datasets/txt/faq-4359.txt"

loader = TextLoader(file_path, encoding='utf-8')
doc = loader.load()
doc

[Document(metadata={'source': '/mnt/f/kk_datasets/txt/faq-4359.txt'}, page_content='一、什么是0分期利息\n\n您好，“0分期利息”是指买家使用花呗、招行掌上生活、工行信用卡、银联信用卡等其他分期购物时无需支付分期利息的功能，分期利息由华为商城承担。\n\n注：自2023年起，商城将相关宣传将“免息”调整为“0分期利息”，主要基于中国银保监会、中国人民银行《关于进一步促进信用卡业务规范健康发展的通知》（银保监规〔2022〕13号），要求“银行业金融机构应当在分期业务合同（协议）首页和业务办理页面以明显方式展示分期业务可能产生的所有息费项目、年化利率水平和息费计算方式。向客户展示分期业务收取的资金使用成本时，应当统一采用利息形式，并明确相应的计息规则，不得采用手续费等形式，法律法规另有规定的除外。”\n\n\n\n二、可以参与0分期利息活动的商品\n\n商城目前仅支持部分单品参与0分期利息，若多商品（含不支持0分期利息）合并支付则不支持0分期利息，以支付页面为准，后续会逐渐开放更多商品，敬请关注。\n\n\n\n三、确认订单分期成功\n\n订单提交成功后在支付方式页面选择分期支付，点选显示0分期利息的支付方式及具体0分期利息期数后，完成支付。\n\n\n\n\n\n四、订单中有多个商品，其中有商品支持0分期利息，为什么提交后却没有0分期利息？\n\n0分期利息商品不能和其它商品一起购买，如果和其他商品购买而不能享用0分期利息，建议取消原来的订单，重新购买时把0分期利息商品和其他商品分开单独购买；且0分期利息的分期数是固定的，如6期0分期利息，并不是3/6/12都提供0分期利息的。\n\n\n\n五、小程序是否支持0分期利息？\n\n华为商城小程序暂不支持0分期利息。')]

In [3]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n", 
    chunk_size = 100,
    chunk_overlap = 10,
    length_function = len,
    is_separator_regex=False
)

texts = text_splitter.create_documents([doc[0].page_content])
print(texts)

Created a chunk of size 224, which is longer than the specified 100
Created a chunk of size 117, which is longer than the specified 100


[Document(metadata={}, page_content='一、什么是0分期利息\n\n您好，“0分期利息”是指买家使用花呗、招行掌上生活、工行信用卡、银联信用卡等其他分期购物时无需支付分期利息的功能，分期利息由华为商城承担。'), Document(metadata={}, page_content='注：自2023年起，商城将相关宣传将“免息”调整为“0分期利息”，主要基于中国银保监会、中国人民银行《关于进一步促进信用卡业务规范健康发展的通知》（银保监规〔2022〕13号），要求“银行业金融机构应当在分期业务合同（协议）首页和业务办理页面以明显方式展示分期业务可能产生的所有息费项目、年化利率水平和息费计算方式。向客户展示分期业务收取的资金使用成本时，应当统一采用利息形式，并明确相应的计息规则，不得采用手续费等形式，法律法规另有规定的除外。”'), Document(metadata={}, page_content='二、可以参与0分期利息活动的商品\n\n商城目前仅支持部分单品参与0分期利息，若多商品（含不支持0分期利息）合并支付则不支持0分期利息，以支付页面为准，后续会逐渐开放更多商品，敬请关注。'), Document(metadata={}, page_content='三、确认订单分期成功\n\n订单提交成功后在支付方式页面选择分期支付，点选显示0分期利息的支付方式及具体0分期利息期数后，完成支付。'), Document(metadata={}, page_content='四、订单中有多个商品，其中有商品支持0分期利息，为什么提交后却没有0分期利息？'), Document(metadata={}, page_content='0分期利息商品不能和其它商品一起购买，如果和其他商品购买而不能享用0分期利息，建议取消原来的订单，重新购买时把0分期利息商品和其他商品分开单独购买；且0分期利息的分期数是固定的，如6期0分期利息，并不是3/6/12都提供0分期利息的。'), Document(metadata={}, page_content='五、小程序是否支持0分期利息？\n\n华为商城小程序暂不支持0分期利息。')]


## 拆分代码code

CodeTextSplitter 允许您使用支持的多种语言拆分代码。导入枚举 Language 并指定语言。

In [4]:
from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter
)

language = [l.value for l in Language]
print(language)

['cpp', 'go', 'java', 'kotlin', 'js', 'ts', 'php', 'proto', 'python', 'rst', 'ruby', 'rust', 'scala', 'swift', 'markdown', 'latex', 'html', 'sol', 'csharp', 'cobol', 'c', 'lua', 'perl', 'haskell', 'elixir', 'powershell']


In [5]:
RecursiveCharacterTextSplitter.get_separators_for_language(Language.JS)

['\nfunction ',
 '\nconst ',
 '\nlet ',
 '\nvar ',
 '\nclass ',
 '\nif ',
 '\nfor ',
 '\nwhile ',
 '\nswitch ',
 '\ncase ',
 '\ndefault ',
 '\n\n',
 '\n',
 ' ',
 '']

In [6]:
file_path = "/mnt/f/kk_datasets/js/main.js"

loader = TextLoader(file_path, encoding='utf8')
doc = loader.load()
doc

[Document(metadata={'source': '/mnt/f/kk_datasets/js/main.js'}, page_content='// 导入threejs\nimport * as THREE from "three";\n// 导入轨道控制器\nimport { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js";\n// 导入lil.gui\nimport { GUI } from "three/examples/jsm/libs/lil-gui.module.min.js";\n// 导入hdr加载器\nimport { RGBELoader } from "three/examples/jsm/loaders/RGBELoader.js";\n// 导入gltf加载器\nimport { GLTFLoader } from "three/examples/jsm/loaders/GLTFLoader.js";\n// 导入draco解码器\nimport { DRACOLoader } from "three/examples/jsm/loaders/DRACOLoader.js";\nimport { CSS3DRenderer,CSS3DObject } from \'three/addons/renderers/CSS3DRenderer.js\';\n\n// 创建场景\nconst scene = new THREE.Scene();\n\n// 创建相机\nconst camera = new THREE.PerspectiveCamera(\n  45, // 视角\n  window.innerWidth / window.innerHeight, // 宽高比\n  1, // 近平面\n  10000 // 远平面\n);\n\n// 创建渲染器\nconst renderer = new THREE.WebGLRenderer({\n  antialias: true, // 开启抗锯齿\n});\nrenderer.shadowMap.enabled = true;\nrenderer.toneMapping = THREE.

In [7]:
js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS,
    chunk_size=250,
    chunk_overlap=20
)

js_docs = js_splitter.create_documents([doc[0].page_content])
js_docs

[Document(metadata={}, page_content='// 导入threejs\nimport * as THREE from "three";\n// 导入轨道控制器\nimport { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js";\n// 导入lil.gui\nimport { GUI } from "three/examples/jsm/libs/lil-gui.module.min.js";\n// 导入hdr加载器'),
 Document(metadata={}, page_content='// 导入hdr加载器\nimport { RGBELoader } from "three/examples/jsm/loaders/RGBELoader.js";\n// 导入gltf加载器\nimport { GLTFLoader } from "three/examples/jsm/loaders/GLTFLoader.js";\n// 导入draco解码器'),
 Document(metadata={}, page_content='// 导入draco解码器\nimport { DRACOLoader } from "three/examples/jsm/loaders/DRACOLoader.js";\nimport { CSS3DRenderer,CSS3DObject } from \'three/addons/renderers/CSS3DRenderer.js\';'),
 Document(metadata={}, page_content='// 创建场景'),
 Document(metadata={}, page_content='const scene = new THREE.Scene();\n\n// 创建相机\nconst camera = new THREE.PerspectiveCamera(\n  45, // 视角\n  window.innerWidth / window.innerHeight, // 宽高比\n  1, // 近平面\n  10000 // 远平面\n);\n\n// 创建渲染器'),


## Markdown文本分割器

许多聊天或问答应用程序都涉及在嵌入和矢量存储之前对输入文档进行分块。

如前所述，分块通常旨在将具有共同上下文的文本放在一起。考虑到这一点，我们可能希望特别尊重文档本身的结构。例如，Markdown 文件是按标题组织的。在特定标头组中创建块是一个直观的想法。为了解决这个挑战，我们可以使用 MarkdownHeaderTextSplitter 。这将按一组指定的标头拆分 Markdown 文件。

例如，如果我们想分割这个 markdown：

```
# Foo
## Bar
Hi this is Jim  

Hi this is Joe

## Baz
Hi this is Molly
```


In [8]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

file_path = "/mnt/f/kk_datasets/txt/agent.md"
loader = TextLoader(file_path, encoding='utf8')
doc = loader.load()
doc

[Document(metadata={'source': '/mnt/f/kk_datasets/txt/agent.md'}, page_content='# LangGraph 技术文档\n\n## 目录\n\n1. [概述](#概述)\n2. [LangGraph 原理](#langgraph-原理)\n   - [语言模型与图谱结合](#语言模型与图谱结合)\n   - [图谱的语义增强](#图谱的语义增强)\n3. [LangGraph 的应用](#langgraph-的应用)\n   - [知识图谱构建与优化](#知识图谱构建与优化)\n   - [自然语言处理中的语义搜索](#自然语言处理中的语义搜索)\n   - [智能推荐系统](#智能推荐系统)\n4. [LangGraph 的部署](#langgraph-的部署)\n   - [系统架构](#系统架构)\n   - [部署步骤](#部署步骤)\n   - [性能优化与调优](#性能优化与调优)\n\n---\n\n## 概述\n\nLangGraph 是一种基于语言模型与图谱结合的技术，旨在通过将自然语言处理（NLP）与知识图谱的优势结合，提升信息检索、语义理解和推荐系统的能力。它通过引入图谱结构，将文本数据转换为图形结构，增强了语义关联性，并能在更复杂的情境下推理和推荐。\n\nLangGraph 主要用于以下几个方面：\n\n- 提高知识图谱的构建效率和准确性\n- 实现智能推荐和个性化搜索\n- 增强语义搜索的精度和效率\n- 支持基于图谱的推理和决策\n\n## LangGraph 原理\n\n### 语言模型与图谱结合\n\nLangGraph 的核心思想是将传统的知识图谱和深度学习中的预训练语言模型（如 GPT、BERT 等）相结合。传统的知识图谱是通过节点（实体）和边（关系）构成的网络，主要用于表示实体之间的知识关系。而语言模型则能够理解并生成自然语言，在一定程度上捕捉语言的语法和语义。\n\nLangGraph 通过以下两种方式将两者结合：\n\n1. **图谱补全与增强：** 利用语言模型推测图谱中缺失的实体或关系，通过文本数据补充图谱的空白。这样，LangGraph 不仅可以从已有的知识中推断信息，还可以根据上下文生成新的节点和边。\n\n2. **图谱信息的语言化表达：*

In [9]:
headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3")
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
markdown_splits = markdown_splitter.split_text(doc[0].page_content)
markdown_splits


[Document(metadata={'Header 1': 'LangGraph 技术文档', 'Header 2': '目录'}, page_content='1. [概述](#概述)\n2. [LangGraph 原理](#langgraph-原理)\n- [语言模型与图谱结合](#语言模型与图谱结合)\n- [图谱的语义增强](#图谱的语义增强)\n3. [LangGraph 的应用](#langgraph-的应用)\n- [知识图谱构建与优化](#知识图谱构建与优化)\n- [自然语言处理中的语义搜索](#自然语言处理中的语义搜索)\n- [智能推荐系统](#智能推荐系统)\n4. [LangGraph 的部署](#langgraph-的部署)\n- [系统架构](#系统架构)\n- [部署步骤](#部署步骤)\n- [性能优化与调优](#性能优化与调优)  \n---'),
 Document(metadata={'Header 1': 'LangGraph 技术文档', 'Header 2': '概述'}, page_content='LangGraph 是一种基于语言模型与图谱结合的技术，旨在通过将自然语言处理（NLP）与知识图谱的优势结合，提升信息检索、语义理解和推荐系统的能力。它通过引入图谱结构，将文本数据转换为图形结构，增强了语义关联性，并能在更复杂的情境下推理和推荐。  \nLangGraph 主要用于以下几个方面：  \n- 提高知识图谱的构建效率和准确性\n- 实现智能推荐和个性化搜索\n- 增强语义搜索的精度和效率\n- 支持基于图谱的推理和决策'),
 Document(metadata={'Header 1': 'LangGraph 技术文档', 'Header 2': 'LangGraph 原理', 'Header 3': '语言模型与图谱结合'}, page_content='LangGraph 的核心思想是将传统的知识图谱和深度学习中的预训练语言模型（如 GPT、BERT 等）相结合。传统的知识图谱是通过节点（实体）和边（关系）构成的网络，主要用于表示实体之间的知识关系。而语言模型则能够理解并生成自然语言，在一定程度上捕捉语言的语法和语义。  \nLangGraph 通过以下两种方式将两者结合：  \n1. **图谱补全与增