In [7]:
import re
from langchain_text_splitters import RecursiveCharacterTextSplitter
import time

In [3]:
text = ("自然语言处理（NLP），作为计算机科学、人工智能与语言学的交融之地，致力于赋予计算机解析和处理人类语言的能力。"
        "在这个领域，机器学习发挥着至关重要的作用。利用多样的算法，机器得以分析、领会乃至创造我们所理解的语言。"
        "从机器翻译到情感分析，从自动摘要到实体识别，NLP的应用已遍布各个领域。随着深度学习技术的飞速进步，"
        "NLP的精确度与效能均实现了巨大飞跃。如今，部分尖端的NLP系统甚至能够处理复杂的语言理解任务，"
        "如问答系统、语音识别和对话系统等。NLP的研究推进不仅优化了人机交流，也对提升机器的自主性和智能水平起到了关键作用。")

### 按照固定字符数切分

In [4]:
def split_by_fixed_char_count(text,count):
    return [text[i : i + count] for i in range(0, len(text), count)]

chunks = split_by_fixed_char_count(text, 100)
for i, chunk in enumerate(chunks):
    print(f"块{i} - 长度{len(chunk)} - 内容: {chunk}")

块0 - 长度100 - 内容: 自然语言处理（NLP），作为计算机科学、人工智能与语言学的交融之地，致力于赋予计算机解析和处理人类语言的能力。在这个领域，机器学习发挥着至关重要的作用。利用多样的算法，机器得以分析、领会乃至创造我们所
块1 - 长度100 - 内容: 理解的语言。从机器翻译到情感分析，从自动摘要到实体识别，NLP的应用已遍布各个领域。随着深度学习技术的飞速进步，NLP的精确度与效能均实现了巨大飞跃。如今，部分尖端的NLP系统甚至能够处理复杂的语言理
块2 - 长度62 - 内容: 解任务，如问答系统、语音识别和对话系统等。NLP的研究推进不仅优化了人机交流，也对提升机器的自主性和智能水平起到了关键作用。


### 结合overlapping window按照固定字符切分

In [5]:
def split_by_sliding_window(text, count, stride):
    return [text[i : i + count] for i in range(0, len(text), count - stride)]
    
chunks = split_by_sliding_window(text, 100, 20)
for i, chunk in enumerate(chunks):
    print(f"块{i} - 长度{len(chunk)} - 内容: {chunk}")

块0 - 长度100 - 内容: 自然语言处理（NLP），作为计算机科学、人工智能与语言学的交融之地，致力于赋予计算机解析和处理人类语言的能力。在这个领域，机器学习发挥着至关重要的作用。利用多样的算法，机器得以分析、领会乃至创造我们所
块1 - 长度100 - 内容: 的算法，机器得以分析、领会乃至创造我们所理解的语言。从机器翻译到情感分析，从自动摘要到实体识别，NLP的应用已遍布各个领域。随着深度学习技术的飞速进步，NLP的精确度与效能均实现了巨大飞跃。如今，部分
块2 - 长度100 - 内容: 精确度与效能均实现了巨大飞跃。如今，部分尖端的NLP系统甚至能够处理复杂的语言理解任务，如问答系统、语音识别和对话系统等。NLP的研究推进不仅优化了人机交流，也对提升机器的自主性和智能水平起到了关键作
块3 - 长度22 - 内容: 对提升机器的自主性和智能水平起到了关键作用。


### 按照句子切分

In [6]:
sentences = re.split(r'(。|！|？|\..\..)', text)
print(sentences)
print('-' * 100)
# 直接分割会使得标点符号单独分割出来，所以通过两两组合将句子与标点进行合并
chunks = [f'{sentences[i]}{sentences[i + 1]}' for i in range(0, len(sentences) - 2, 2)]
for i, chunk in enumerate(chunks):
    print(f"块 {i + 1} - 长度{len(chunk)}，内容: {chunk}")

['自然语言处理（NLP），作为计算机科学、人工智能与语言学的交融之地，致力于赋予计算机解析和处理人类语言的能力', '。', '在这个领域，机器学习发挥着至关重要的作用', '。', '利用多样的算法，机器得以分析、领会乃至创造我们所理解的语言', '。', '从机器翻译到情感分析，从自动摘要到实体识别，NLP的应用已遍布各个领域', '。', '随着深度学习技术的飞速进步，NLP的精确度与效能均实现了巨大飞跃', '。', '如今，部分尖端的NLP系统甚至能够处理复杂的语言理解任务，如问答系统、语音识别和对话系统等', '。', 'NLP的研究推进不仅优化了人机交流，也对提升机器的自主性和智能水平起到了关键作用', '。', '']
----------------------------------------------------------------------------------------------------
块 1 - 长度55，内容: 自然语言处理（NLP），作为计算机科学、人工智能与语言学的交融之地，致力于赋予计算机解析和处理人类语言的能力。
块 2 - 长度21，内容: 在这个领域，机器学习发挥着至关重要的作用。
块 3 - 长度30，内容: 利用多样的算法，机器得以分析、领会乃至创造我们所理解的语言。
块 4 - 长度36，内容: 从机器翻译到情感分析，从自动摘要到实体识别，NLP的应用已遍布各个领域。
块 5 - 长度33，内容: 随着深度学习技术的飞速进步，NLP的精确度与效能均实现了巨大飞跃。
块 6 - 长度46，内容: 如今，部分尖端的NLP系统甚至能够处理复杂的语言理解任务，如问答系统、语音识别和对话系统等。
块 7 - 长度41，内容: NLP的研究推进不仅优化了人机交流，也对提升机器的自主性和智能水平起到了关键作用。


### 按照递归方式划分

In [8]:
splitter = RecursiveCharacterTextSplitter(
    chunk_size = 50,
    chunk_overlap = 5,
    # separaters 默认是["\n\n", "\n", "。", "，", ""]
    separators = ["\n", "\n","。",""]
)

chunks = splitter.split_text(text)
for i, chunk in enumerate(chunks):
    print(f"块 {i + 1} - 长度{len(chunk)}，内容: {chunk}")

块 1 - 长度50，内容: 自然语言处理（NLP），作为计算机科学、人工智能与语言学的交融之地，致力于赋予计算机解析和处理人类语
块 2 - 长度9，内容: 处理人类语言的能力
块 3 - 长度21，内容: 。在这个领域，机器学习发挥着至关重要的作用
块 4 - 长度30，内容: 。利用多样的算法，机器得以分析、领会乃至创造我们所理解的语言
块 5 - 长度36，内容: 。从机器翻译到情感分析，从自动摘要到实体识别，NLP的应用已遍布各个领域
块 6 - 长度33，内容: 。随着深度学习技术的飞速进步，NLP的精确度与效能均实现了巨大飞跃
块 7 - 长度46，内容: 。如今，部分尖端的NLP系统甚至能够处理复杂的语言理解任务，如问答系统、语音识别和对话系统等
块 8 - 长度42，内容: 。NLP的研究推进不仅优化了人机交流，也对提升机器的自主性和智能水平起到了关键作用。
