### 1.CharacterTextSplitter 根据指定的分隔符拆分文本

In [1]:
from langchain_text_splitters import CharacterTextSplitter
with open("D:\desktop\code\data\宏利環球貨幣保障計劃 保單條款_2022_05.txt", "r", encoding="utf-8") as f:
    text = f.read()

text_splitter = CharacterTextSplitter(
    separator="\n",        # 按换行符分割（保持段落结构）
    chunk_size=500,       # 每个块的最大字符数
    chunk_overlap=50,     # 块之间的重叠字符数
    length_function=len,   # 使用内置的len函数计算长度
    is_separator_regex=False,
)

texts = text_splitter.split_text(text)
print(f"共 {len(texts)} 个文本块")
# for i in range(len(texts)):
#     print(f"第{i+1}个文本块内容：", texts[i][:200])
#     print(f"第{i+1}个文本块长度：", len(texts[i]))
print(f"第1个文本块内容：", texts[0])
print(f"第1个文本块长度：", len(texts[0]))

共 35 个文本块
第1个文本块内容： 第 1 页
受保人：
保单编号 ：
保单生效日：
宏利环球货币保障计划
此乃分红人寿保单 。
以下数页所载之条款与规定，均为本保单构成部分。
戴明钧
首席行政总监
宏利人寿保险（国际）有限公司
(于百慕达注册成立之有限责任公司)
备注︰此简体中文本只供参考用途，并非保单之一部分，亦不构成对任何条款之诠译或赋予任何条款之涵义。
第1页
1-MGL-SC (05/2022)
第 2 页
目录
页数
保单详情 ............................................................................................................... 3
现金价值表 ........................................................................................................... 3
一般条款
第1个文本块长度： 438


In [12]:
print(f"第2个文本块内容：", texts[1])
print(f"第2个文本块长度：", len(texts[1]))

第2个文本块内容： 一般条款
1. 定义 ................................................................................................................. 4
2. 合约 ................................................................................................................. 6
3. 管辖法律 ........................................................................................................ 6
4. 保单年度及周年日 ....................................................................................... 6
第2个文本块长度： 465


### 2.RecursiveCharacterTextSplitter 基于分隔符 递归拆分

In [16]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", " ", ""],
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
    is_separator_regex=False,
)
texts = text_splitter.split_text(text)
print(f"共 {len(texts)} 个文本块")
print(f"第1个文本块内容：", texts[0])
print(f"第1个文本块长度：", len(texts[0]))


共 43 个文本块
第1个文本块内容： 第 1 页
受保人：
保单编号 ：
保单生效日：
宏利环球货币保障计划
此乃分红人寿保单 。
以下数页所载之条款与规定，均为本保单构成部分。
戴明钧
首席行政总监
宏利人寿保险（国际）有限公司
(于百慕达注册成立之有限责任公司)
备注︰此简体中文本只供参考用途，并非保单之一部分，亦不构成对任何条款之诠译或赋予任何条款之涵义。
第1页
1-MGL-SC (05/2022)
第1个文本块长度： 186


In [17]:
print(f"第2个文本块内容：", texts[1])
print(f"第2个文本块长度：", len(texts[1]))

第2个文本块内容： 第 2 页
目录
页数
保单详情 ............................................................................................................... 3
现金价值表 ........................................................................................................... 3
一般条款
1. 定义 ................................................................................................................. 4
2. 合约 ................................................................................................................. 6
第2个文本块长度： 495


### 3.Split by tokens

In [61]:
from langchain_text_splitters import TokenTextSplitter

text_splitter = TokenTextSplitter(chunk_size=500, chunk_overlap=1)

texts = text_splitter.split_text(text)
print(len(texts))

50


In [62]:
print(f"第1个文本块内容：", texts[0])
print(f"第1个文本块长度：", len(texts[0]))
print("Token 数:", len(encoding.encode(texts[0])))  

第1个文本块内容： 第 1 页
受保人：
保单编号 ：
保单生效日：
宏利环球货币保障计划
此乃分红人寿保单 。
以下数页所载之条款与规定，均为本保单构成部分。
戴明钧
首席行政总监
宏利人寿保险（国际）有限公司
(于百慕达注册成立之有限责任公司)
备注︰此简体中文本只供参考用途，并非保单之一部分，亦不构成对任何条款之诠译或赋予任何条款之涵义。
第1页
1-MGL-SC (05/2022)


第 2 页
目录
页数
保单详情 ............................................................................................................... 3
现金价值表 ........................................................................................................... 3
一般条款
1. 定义 ................................................................................................................. 4
2. 合约 ................................................................................................................. 6
3. 管辖法律 ........................................................................................................ 6
4. 保单年度及周年日 ....................................................................................... 6
5. 货币 ..................................................................................

In [63]:
print(f"第2个文本块内容：", texts[1])
print(f"第2个文本块长度：", len(texts[1]))
print("Token数:", len(encoding.encode(texts[1])))

第2个文本块内容：  6
6. 缴付保费 ........................................................................................................ 6
7. 受益人 ............................................................................................................ 7
8. 保单所有权 .................................................................................................... 8
9. 保单转让 ........................................................................................................ 8
10. 身故赔偿 ........................................................................................................ 8
11. 意外身故赔偿 ............................................................................................... 8
12. 年龄及性别 .................................................................................................... 9
13. 自杀 ................................................................................................................. 9
14. 不可异议条文 .......................................................

In [67]:
import tiktoken

encoding = tiktoken.get_encoding("cl100k_base")
for i, chunk in enumerate(texts):
    token_len = len(encoding.encode(chunk))
    print(f"第{i+1}个文本块 token 数：{token_len}")


第1个文本块 token 数：302
第2个文本块 token 数：371
第3个文本块 token 数：285
第4个文本块 token 数：285
第5个文本块 token 数：307
第6个文本块 token 数：279
第7个文本块 token 数：258
第8个文本块 token 数：282
第9个文本块 token 数：279
第10个文本块 token 数：265
第11个文本块 token 数：255
第12个文本块 token 数：255
第13个文本块 token 数：296
第14个文本块 token 数：302
第15个文本块 token 数：301
第16个文本块 token 数：287
第17个文本块 token 数：288
第18个文本块 token 数：247
第19个文本块 token 数：298
第20个文本块 token 数：268
第21个文本块 token 数：250
第22个文本块 token 数：267
第23个文本块 token 数：242
第24个文本块 token 数：257
第25个文本块 token 数：283
第26个文本块 token 数：285
第27个文本块 token 数：274
第28个文本块 token 数：250
第29个文本块 token 数：251
第30个文本块 token 数：269
第31个文本块 token 数：270
第32个文本块 token 数：257
第33个文本块 token 数：260
第34个文本块 token 数：281
第35个文本块 token 数：261
第36个文本块 token 数：250
第37个文本块 token 数：243
第38个文本块 token 数：260
第39个文本块 token 数：275
第40个文本块 token 数：266
第41个文本块 token 数：313
第42个文本块 token 数：297
第43个文本块 token 数：320
第44个文本块 token 数：270
第45个文本块 token 数：281
第46个文本块 token 数：271
第47个文本块 token 数：249
第48个文本块 token 数：264
第49个文本块 token 数：276
第50个文本块 token 数：2


In [68]:
for i in range(len(texts)):
    print(f"第{i+1}个文本块长度：", len(texts[i]))

第1个文本块长度： 1023
第2个文本块长度： 2545
第3个文本块长度： 400
第4个文本块长度： 292
第5个文本块长度： 306
第6个文本块长度： 252
第7个文本块长度： 251
第8个文本块长度： 256
第9个文本块长度： 262
第10个文本块长度： 249
第11个文本块长度： 244
第12个文本块长度： 244
第13个文本块长度： 269
第14个文本块长度： 243
第15个文本块长度： 250
第16个文本块长度： 244
第17个文本块长度： 272
第18个文本块长度： 234
第19个文本块长度： 294
第20个文本块长度： 260
第21个文本块长度： 245
第22个文本块长度： 240
第23个文本块长度： 234
第24个文本块长度： 268
第25个文本块长度： 242
第26个文本块长度： 243
第27个文本块长度： 268
第28个文本块长度： 230
第29个文本块长度： 239
第30个文本块长度： 265
第31个文本块长度： 247
第32个文本块长度： 241
第33个文本块长度： 236
第34个文本块长度： 263
第35个文本块长度： 249
第36个文本块长度： 231
第37个文本块长度： 227
第38个文本块长度： 235
第39个文本块长度： 264
第40个文本块长度： 240
第41个文本块长度： 272
第42个文本块长度： 259
第43个文本块长度： 249
第44个文本块长度： 275
第45个文本块长度： 257
第46个文本块长度： 264
第47个文本块长度： 230
第48个文本块长度： 234
第49个文本块长度： 265
第50个文本块长度： 2


In [70]:
text_splitter = TokenTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base",
    chunk_size=500,
    chunk_overlap=50
)
texts = text_splitter.split_text(text)
print(f"共 {len(texts)} 个文本块")
# print(f"第1个文本块内容：", texts[0])
# print(f"第1个文本块长度：", len(texts[0]))

共 30 个文本块


In [None]:
import tiktoken

encoding = tiktoken.get_encoding("cl100k_base")
for i, chunk in enumerate(texts):
    token_len = len(encoding.encode(chunk))
    print(f"第{i+1}个文本块 token 数：{token_len}")
### 前29个文本块token数均为500，最后一个文本块token数为 405

### 4.NLTKTextSplitter

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\36325\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
import nltk
nltk.data.path.append(r'C:\Users\36325\AppData\Roaming\nltk_data')


In [4]:
nltk.download('punkt_tab')


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\36325\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [5]:
from langchain_text_splitters import NLTKTextSplitter

text_splitter = NLTKTextSplitter(chunk_size=500, chunk_overlap=20, separator="\n\n")

texts = text_splitter.split_text(text)
len(texts)

Created a chunk of size 831, which is longer than the specified 500
Created a chunk of size 1160, which is longer than the specified 500
Created a chunk of size 1023, which is longer than the specified 500
Created a chunk of size 613, which is longer than the specified 500
Created a chunk of size 1182, which is longer than the specified 500
Created a chunk of size 750, which is longer than the specified 500


28

### 5.HuggingFace 

In [6]:
# 如果 texts 是一个列表，先将它们合并为一个字符串
if isinstance(texts, list):
    texts = " ".join(texts)


In [7]:
from transformers import GPT2TokenizerFast

tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer, chunk_size=500, chunk_overlap=10
)
texts = text_splitter.split_text(texts)


  from .autonotebook import tqdm as notebook_tqdm
Created a chunk of size 639, which is longer than the specified 500
Token indices sequence length is longer than the specified maximum sequence length for this model (1562 > 1024). Running this sequence through the model will result in indexing errors
Created a chunk of size 1562, which is longer than the specified 500
Created a chunk of size 717, which is longer than the specified 500
Created a chunk of size 952, which is longer than the specified 500
Created a chunk of size 2042, which is longer than the specified 500
Created a chunk of size 1240, which is longer than the specified 500
Created a chunk of size 842, which is longer than the specified 500
Created a chunk of size 934, which is longer than the specified 500
Created a chunk of size 1329, which is longer than the specified 500
Created a chunk of size 1253, which is longer than the specified 500
Created a chunk of size 2414, which is longer than the specified 500
Created a ch

In [8]:
# len(texts) 50
texts[0]

'第 1 页\n受保人：\n保单编号 ：\n保单生效日：\n宏利环球货币保障计划\n此乃分红人寿保单 。\n以下数页所载之条款与规定，均为本保单构成部分。\n戴明钧\n首席行政总监\n宏利人寿保险（国际）有限公司\n(于百慕达注册成立之有限责任公司)\n备注︰此简体中文本只供参考用途，并非保单之一部分，亦不构成对任何条款之诠译或赋予任何条款之涵义。\n第1页\n1-MGL-SC (05/2022)\n\n\n第 2 页\n目录\n页数\n保单详情 ............................................................................................................... 3\n现金价值表 ........................................................................................................... 3\n一般条款\n1. 定义 ................................................................................................................. 4\n2.\n\n合约 ................................................................................................................. 6\n3.\n\n管辖法律 ........................................................................................................ 6\n4.'

### 6.MarkdownHeaderTextSplitter

In [10]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

# 读取 Markdown 文件内容
with open('D:\desktop\code\data\宏利環球貨幣保障計劃 保單條款_2022_05.md', 'r', encoding='utf-8') as file:
    markdown_document = file.read()

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
md_header_splits = markdown_splitter.split_text(markdown_document)
md_header_splits



[Document(metadata={'Header 2': '第 1 页'}, page_content='受保人：\n保单编号 ：\n保单生效日：\n宏利环球货币保障计划\n此乃分红人寿保单 。\n以下数页所载之条款与规定，均为本保单构成部分。\n戴明钧\n首席行政总监\n宏利人寿保险（国际）有限公司\n(于百慕达注册成立之有限责任公司)\n备注︰此简体中文本只供参考用途，并非保单之一部分，亦不构成对任何条款之诠译或赋予任何条款之涵义。\n第1页\n1-MGL-SC (05/2022)  \n---'),
 Document(metadata={'Header 2': '第 2 页'}, page_content='目录\n页数\n保单详情 ............................................................................................................... 3\n现金价值表 ........................................................................................................... 3\n一般条款\n1. 定义 ................................................................................................................. 4\n2. 合约 ................................................................................................................. 6\n3. 管辖法律 ........................................................................................................ 6\n4. 保单年度及周年日 ............................................................