# Document transformers
docs:https://python.langchain.com/docs/modules/data_connection/document_transformers/

摘要：
- 加载文档后，用文档转换器对文档进行分割、合并、过滤和操作
- 文本分割器允许根据自定义设置将文本分割成语义相关的块。
- 推荐使用的默认文本分割器是RecursiveCharacterTextSplitter，可以根据字符进行拆分
- 重要参数：chunk_size, chunk_overlap(块之间最大重叠)

In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,         # 块的最大大小（由长度函数测量）
    chunk_overlap=20,       # 块之间的最大重叠。有一些重叠可以很好地保持块之间的一些连续性（例如，做一个滑动窗口）
    length_function=len,    # 如何计算块的长度。默认只计算字符数
    add_start_index=True    # 是否在元数据中包含原始文档中每个块的起始位置
)

In [5]:
with open('../../README.md') as f:
    t = f.read()

text = text_splitter.create_documents([t])
print(len(text))
print(text[0])
print(text[1])

2
page_content='# llm-101\nLLM learn notes and some demos\n\n## init\n使用之前先 `make init` 有三个作用：' metadata={'start_index': 0}
page_content='1. 安装虚拟环境（存在则跳过）\n2. pip 安装\n3. 将当前目录添加到`PYTHONPATH`环境变量中' metadata={'start_index': 76}


In [10]:
# split code
# https://python.langchain.com/docs/modules/data_connection/document_transformers/text_splitters/code_splitter

from langchain.text_splitter import Language

md_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.MARKDOWN,
    chunk_size=50,
    chunk_overlap=0,
)

md_docs = md_splitter.create_documents([t])
md_docs

[Document(page_content='# llm-101\nLLM learn notes and some demos', metadata={}),
 Document(page_content='## init\n使用之前先 `make init` 有三个作用：', metadata={}),
 Document(page_content='1. 安装虚拟环境（存在则跳过）\n2. pip 安装', metadata={}),
 Document(page_content='3. 将当前目录添加到`PYTHONPATH`环境变量中', metadata={})]

# split by tokens
tiktoken是OpenAI的快速BPE分词器

```python
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=100, chunk_overlap=0
)
```