In [3]:
def recursive_split(text, chunk_size=100, separators=None):
    """
    递归分割文本，尽量保持句子完整性。
    
    :param text: 输入文本
    :param chunk_size: 每个片段的最大字符数
    :param separators: 用于分割的字符列表（默认按句号、问号、感叹号、换行符分割）
    :return: 分割后的文本片段列表
    """
    if separators is None:
        separators = ["。", "？", "！", "\n", "；"]  # 默认分割符
    
    # 如果文本长度小于 chunk_size，直接返回
    if len(text) <= chunk_size:
        return [text]
    
    # 查找最接近 chunk_size 的分割点
    split_index = -1
    for sep in separators:
        index = text.rfind(sep, 0, chunk_size)  # 从前往后查找分割符
        if index > split_index:
            split_index = index
    
    # 如果找不到分割符，则强制在 chunk_size 处分割
    if split_index == -1:
        split_index = chunk_size
    
    # 递归分割剩余文本
    chunk = text[:split_index + 1].strip()  # 当前片段
    remaining_text = text[split_index + 1:].strip()  # 剩余文本
    return [chunk] + recursive_split(remaining_text, chunk_size, separators)


In [6]:
# 输入文本
text = """《关于 19 世纪西藏与森巴战争的几个问题》
问题：在清道光二十一年（1841 年）西藏与森巴战争中，驻藏大臣孟保的奏折中提到 “然吉森”“索热森”“谷朗森”，它们的语源是什么，具体指什么？
结论：“然吉森”应指19世纪初在印度北部旁遮普一带建立的锡克王国，是以其统治者兰吉特・辛格之名的异译来代表该王国；“谷郎森”是锡克王国所属的查谟土邦统治者道格拉人古拉伯・辛格名的异译，指查谟道格拉人；“索热森”则为“佐尔阿弗尔・辛格”的异译，指查谟古拉伯・辛格所属基希德瓦尔等地所设省区。
西藏森巴战争最后一战谁是胜者
问题：道光二十二年（1842 年）四月，藏军退至班公湖南的咙沃玛，双方在此进行了最后一次决战，哪方获胜？
结论：中国西藏方面资料，如驻藏大臣孟保奏疏及部分藏族学者观点认为藏军获胜，森巴派小头目求和并具结永不滋事；但也有藏族学者如恰白・次旦平措等撰《西藏通史—松石宝串》认为此役西藏军战败，比喜等人被俘。印度、克什米尔及西方一些论著则称，迪万追击藏军到兵营附近并包围了兵营，藏军退入兵营坚守，道格拉人无计可施，未明确表明胜负。
原属中国西藏的拉达克何时被侵占
问题：拉达克原属中国西藏，何时被侵占？
结论：1834 年，森巴部落将领左拉瓦尔・辛格率军入侵拉达克，拉达克王被迫称臣纳贡。1840 年末，森巴再次入侵，占领拉达克首府列城，吞并拉达克全境。1842 年双方议和，西藏虽与森巴达成协议，但未恢复对拉达克的控制，之后拉达克逐渐沦为英国属地，1846 年，查谟和克什米尔成为英属印度的一个土邦，拉达克成为其一部分。"""


In [7]:

# 调用递归分割函数
chunks = recursive_split(text, chunk_size=100)

# 输出结果
for i, chunk in enumerate(chunks):
    print(f"Chunk {i + 1} ({len(chunk)} chars):\n{chunk}\n")

Chunk 1 (50 chars):
《关于 19 世纪西藏与森巴战争的几个问题》
问题：在清道光二十一年（1841 年）西藏与森巴战争中

Chunk 2 (28 chars):
驻藏大臣孟保的奏折中提到 “然吉森”“索热森”“谷朗森”

Chunk 3 (8 chars):
它们的语源是什么

Chunk 4 (39 chars):
具体指什么？
结论：“然吉森”应指19世纪初在印度北部旁遮普一带建立的锡克王国

Chunk 5 (58 chars):
是以其统治者兰吉特・辛格之名的异译来代表该王国；“谷郎森”是锡克王国所属的查谟土邦统治者道格拉人古拉伯・辛格名的异译

Chunk 6 (28 chars):
指查谟道格拉人；“索热森”则为“佐尔阿弗尔・辛格”的异译

Chunk 7 (22 chars):
指查谟古拉伯・辛格所属基希德瓦尔等地所设省区

Chunk 8 (35 chars):

西藏森巴战争最后一战谁是胜者
问题：道光二十二年（1842 年）四月

Chunk 9 (12 chars):
藏军退至班公湖南的咙沃玛

Chunk 10 (13 chars):
双方在此进行了最后一次决战

Chunk 11 (17 chars):
哪方获胜？
结论：中国西藏方面资料

Chunk 12 (24 chars):
如驻藏大臣孟保奏疏及部分藏族学者观点认为藏军获胜

Chunk 13 (53 chars):
森巴派小头目求和并具结永不滋事；但也有藏族学者如恰白・次旦平措等撰《西藏通史—松石宝串》认为此役西藏军战败

Chunk 14 (6 chars):
比喜等人被俘

Chunk 15 (60 chars):
印度、克什米尔及西方一些论著则称，迪万追击藏军到兵营附近并包围了兵营，藏军退入兵营坚守，道格拉人无计可施，未明确表明胜负

Chunk 16 (78 chars):

原属中国西藏的拉达克何时被侵占
问题：拉达克原属中国西藏，何时被侵占？
结论：1834 年，森巴部落将领左拉瓦尔・辛格率军入侵拉达克，拉达克王被迫称臣纳贡

Chunk 17 (32 chars):
1840 年末，森巴再次入侵，占领拉达克首府列城，吞并拉达克全境

Chunk 18 (83 chars):
1842 年双方议和，西藏虽与森巴达成协议，但未恢复对拉达克的控制，之后