In [18]:
from pathlib import Path
import re
from langchain.document_loaders import TextLoader
from langchain_text_splitters import TextSplitter

path = Path.cwd().parents[1] / "docs" / "example_files" / "WizardLM_OCR_RESULT.txt"

text = open(path, "r").read()
text[:50]

'WizardLM: Empowering Large Language Models to\n\nFol'

In [12]:
def do_split(splitter: TextSplitter, text: str) -> None:
    """定义一个统一的、执行切分操作及打印的方法"""
    splited_texts = splitter.split_text(text)
    for i in splited_texts[:10]:
        i = i.replace("\n", "")
        print(f"Length:{len(i)}\nChunk:\n{i}")
        print()

# 简单字符分割


In [25]:
from langchain_text_splitters import CharacterTextSplitter

# 按字符切割语义块, 以提供的separator分割, 合并组成最大不超过chunk_size的块
# 每相邻的块允许借用合计字符总数不超过chunk_overlap的组合句
# 舍弃分隔符
# 前后删除换行/空格
splitter = CharacterTextSplitter(
    separator="\n",
    chunk_size=300,
    chunk_overlap=30,
    keep_separator=False,
    strip_whitespace=True,
)
do_split(splitter, text)

Length:297
Chunk:
豆瓣8.8分《我的阿勒泰》让无数人重新恋爱：我们终其一生，都在等一个看见自己的人
清华大学出版社 2024-05-20 12:50 北京
以下文章来源于女友家园LOVE ，作者晶莹的莹
本文授权转载自 女友家园LOVE(ID:nvyoujiayuan1988)
微信公众号
作者：晶莹的莹
在哈萨克文化里，人与人之间产生友情，或者爱情，是由于被看见。
所以，在哈萨克语中，“我喜欢你”的意思是“我清楚地看见你”。
这是热播剧《我的阿勒泰》中的一段台词。
喜欢一个人，是在众人中一眼将TA认出；
是在看到和TA相关的事情时，第一个想到TA；
是在看到和TA不相关的事情时，在心中拐几个弯想到TA。

Length:279
Chunk:
是在看到和TA不相关的事情时，在心中拐几个弯想到TA。
被看见，是因为喜欢，因为在乎，因为眼睛和心灵都在追随一个身影，感受一个生命。
乡村舞会上，文秀无意间看到巴太放在那里的衣服，只见她轻轻拿起来，略微迟疑了一下，然后再放回边上。
这样一个简单的动作，一个短暂的迟疑，便是喜欢。
我们常说，喜欢一个人的时候，眼前都是TA。
看到巴太的衣服，就是看到了他，就是想起了和他之间的一切，就是会迟疑，会慌张，会觉得他那么近又那么远，那么熟悉又那么陌生。
而巴太，看见下雨，会想到文秀的毡房是否漏雨；
看到核桃，会想要剥一把给文秀吃；
看到小花，会想要戴在文秀的发梢；

Length:265
Chunk:
看到小花，会想要戴在文秀的发梢；
看到桦树，会想到文秀喜爱写作，她的稿纸刚好用完了，而桦树皮也是不错的稿纸。
这份看见，不仅用眼睛，更是用心灵。
这份看见，是透过一颗心，感受另一颗心；透过一个生命，感受另一个生命。
还记得，巴太的嫂子托肯一直想要一个搓衣板，但直到最后一集都没有得到。
婚姻中的托肯，没有人看到她在付出，也没有人在乎她需要什么。
不被看见，是一种孤独。
能被看见，是一种幸福，更是一种幸运。
每一份喜欢，都是从看见开始，看见TA的美好与善良，看见TA的付出与坚强，看见TA的欢喜与忧伤，直到，看见自己对TA的心意。

Length:298
Chunk:
我们在看见TA的同时，也看见了自己，我们在看见她欲言又止的时候，也明白了自己的期待。
文秀问巴太有心上人吗？巴太这样回答：
“我的心上人还不明显吗？”
“是谁第一

# 递归性的字符分割


In [14]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 1. 递归的根据传入的分隔符切分为最细的短句
# 2. 循环取第一个chunk的短句直到最后一句>chunk_size舍弃
# 3. 开始第二个chunk, 先观察前一个最后一句是否小于chunk_overlap
# 3.1. 是则归到下一句中, 继续判断前一个chunk的倒数第二句, 直到大于overlap时舍弃
# 3.2. 否则当前块不进行前向重合, 自顾自取新的短句即可
# 4. 从第一个chunk收入的末尾短句index+1开始append到第二个chunk的短句列表中
# 5. 迭代
splitter = RecursiveCharacterTextSplitter(
    separators=[".", "。", "!", "！", "?", "？"],
    keep_separator=False,
    chunk_size=500,
    chunk_overlap=100,
)
do_split(splitter, text)

Length:416
Chunk:
WizardLM: Empowering Large Language Models toFollow Complex InstructionsCan Xu1∗Qingfeng Sun1∗Kai Zheng1∗Xiubo Geng1Pu Zhao1Jiazhan Feng2† Chongyang Tao1Qingwei Lin1Daxin Jiang1‡1Microsoft2Peking University{caxu,qins,zhengkai,xigeng,puzhao,chongyang.tao,qlin,djiang}@microsoft.com{fengjiazhan}@pku.edu.cnAbstractTraining large language models (LLMs) with open-domain instruction followingdata brings colossal success

Length:441
Chunk:
However, manually creating such instruction datais very time-consuming and labor-intensive. Moreover, humans may struggle toproduce high-complexity instructions. In this paper, we show an avenue for creatinglarge amounts of instruction data with varying levels of complexity using LLMinstead of humans. Starting with an initial set of instructions, we use our proposedEvol-Instruct to rewrite them step by step into more complex instructions

Length:414
Chunk:
Then, wemix all generated instruction data to fine-tune LLaMA. We call the resulting 

# 递归句子分割


In [25]:
def combine_sentences(sentences, buffer_size=1):
    # 遍历每个句子字典
    for i in range(len(sentences)):
        # 创建一个字符串，用于存储合并的句子
        combined_sentence = ''
        # 将前`buffer_size`个句子添加到combined_sentence字符串中（基于当前句子索引）
        for j in range(i - buffer_size, i):
            # 检查索引j是否非负（防止在第一个句子上出现索引越界）
            if j >= 0:
                # 将索引j处的句子添加到combined_sentence字符串中
                combined_sentence += sentences[j]['sentence'] + ' '
        # 添加当前句子
        combined_sentence += sentences[i]['sentence']
        # 将接下来的`buffer_size`个句子（基于当前句子索引）添加到combined_sentence字符串中
        for j in range(i + 1, i + 1 + buffer_size):
            # 检查索引j是否在sentences列表的有效范围内
            if j < len(sentences):
                # 将索引j处的句子添加到combined_sentence字符串中
                combined_sentence += ' ' + sentences[j]['sentence']
        # 然后将整个内容添加到字典中
        # 将合并的句子存储在当前句子字典中
        sentences[i]['combined_sentence'] = combined_sentence
    # 返回处理后的句子字典
    return sentences

_text = text.replace("\n\n", " ")
single_sentences_list = re.split(r'(?<=[.?!])\s+', _text)
[len(i) for i in single_sentences_list]
# sentences = [{'sentence': x, 'index' : i} for i, x in enumerate(single_sentences_list)]
# sentences = combine_sentences(sentences)
# sentences[:10]

[433,
 92,
 70,
 142,
 140,
 63,
 37,
 150,
 168,
 106,
 175,
 69,
 140,
 162,
 161,
 126,
 193,
 272,
 81,
 46,
 47,
 23,
 9,
 13,
 167,
 147,
 121,
 79,
 224,
 150,
 152,
 242,
 9,
 42,
 88,
 42,
 50,
 21,
 39,
 54,
 59,
 96,
 165,
 149,
 267,
 208,
 53,
 266,
 146,
 114,
 107,
 91,
 107,
 121,
 221,
 165,
 219,
 99,
 144,
 27,
 192,
 134,
 119,
 282,
 120,
 91,
 115,
 7,
 180,
 106,
 111,
 256,
 212,
 184,
 104,
 128,
 193,
 73,
 100,
 72,
 158,
 200,
 129,
 83,
 162,
 146,
 277,
 120,
 56,
 64,
 4,
 289,
 198,
 52,
 106,
 170,
 232,
 22,
 97,
 108,
 148,
 81,
 99,
 147,
 181,
 20,
 134,
 29,
 205,
 204,
 85,
 109,
 183,
 118,
 120,
 193,
 152,
 91,
 92,
 53,
 275,
 246,
 123,
 36,
 152,
 91,
 185,
 17,
 36,
 152,
 91,
 366,
 98,
 137,
 170,
 81,
 86,
 93,
 104,
 87,
 120,
 77,
 105,
 50,
 21,
 78,
 91,
 78,
 2,
 78,
 201,
 43,
 2,
 75,
 2,
 148,
 246,
 145,
 168,
 142,
 148,
 122,
 86,
 175,
 92,
 128,
 102,
 150,
 95,
 36,
 109,
 88,
 203,
 57,
 61,
 107,
 68,
 82,
 56,
 134,
 81,

# 基于语义的分割 - Exp

> Ref https://community.fullstackretrieval.com/document-loaders/text-splitting

基于一个假设: 相似的语义块应该放在一段中, Embedding 可以进行有效的语义表征
设定以下几种操作:

1. 把文章分成许多短句
2. 依次拼接短句进行 embedding, 与拼接前 embedding 计算相似度, 大于阈值视为表达了同一个语义应当分到一个 chunk 中
3. 小于阈值则新开一个 chunk 进行操作 2
