## 确定文本切割的最优策略
在使用基于检索的生成模型（RAG）处理长文本数据时，合理的文本切割策略是提高模型性能和效率的关键。

文本切割策略主要依赖于两个参数：chunksize（块大小）和overlap（重叠）。正确配置这些参数可以显著影响模型的输出质量和处理速度。
   - chunk_size 基于模型的限制(embedding , LLM )
   - 不同Text splitter 的优劣，如何选取
   - 可视化文本切分的效果，供大家切分文本初步参考
      
## 基于模型选取chunk_size 
   - 首先是embedding model， 向量嵌入模型有Max Tokens 的限制，设置的chunk size不可以超过模型支持的最大长度，否则将丢失语义。


不同的embedding model 支持的 Max Tokens都有不同，具体可参考model 排行
其次是LLM model , 大语言模型有Max sequence length的限制，处理知识增强的时候，prompt中召回的文本不可以超出最大长度。
![Alt text]( )
需要根据不同的LLM支持的最大token长度，选取合适的参数
不同的文本切分策略
1: CharacterTextSplitter - 这是最简单的方法。它默认基于字符（默认为""）来分割，并且通过字符的数量来衡量块的长度。
2：RecursiveCharacterTextSplitter - 基于字符列表拆分文本。
3: Document Specific Splitting - 基于不同的文件类型使用不同的切分 (PDF, Python, Markdown)
4: Semantic Splitting - 基于滑动窗口的语义切分
那我们就开始实际看一下不同的textsplitter切分效果如何？




In [1]:
! pip install langchain

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting langchain
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/ed/3e/93045d37eba24e0b5eb05312e30cd9e12805ea5f1ae9ba51ec8a7d2f5372/langchain-0.1.16-py3-none-any.whl (817 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m817.7/817.7 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting SQLAlchemy<3,>=1.4 (from langchain)
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/a4/0e/0aea34594a2bd84e8637b45490041ee3d9107bc786053364bff2337dea8b/SQLAlchemy-2.0.29-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting aiohttp<4.0.0,>=3.8.3 (from langchain)
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/dd/0a/526c8480bd846b9155c624c7e54db94733fc6b381dfd748cc8dd69c994b0/aiohttp-3.9.5-cp312-cp312-manyl

In [2]:
text = "大家好，我是果粒奶优有果粒，欢迎关注我，让我们一起探索AI"

1. CharacterTextSplitter

In [5]:
from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
    separator="",
    chunk_size=5,
    chunk_overlap=1,
    length_function=len,
    is_separator_regex=False,
)


In [4]:
text_splitter.split_text(text)

['大家好，我', '我是果粒奶', '奶优有果粒', '粒，欢迎关', '关注我，让', '让我们一起', '起探索AI']