## 文档转换器 Transform
#### 原理
- 1 将文档分成小的，有意义的块（句子）
- 2 将小块组合成一个更大的块，直到到达一定的大小
- 3 一旦达到一定的大小，接着开始创建与下一个块重叠的部分

### 示例
- 第一个文档分割
- 按照字符切割
- 代码文档分割
- 按照token来分

---
# 第一个文档分割

### 递归字符分割器 `RecursiveCharacterTextSplitter`

In [11]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 加载要切割的文档
with open("loaded_files/splite.txt") as sf :
  LLM_introduction = sf.read()

# 使用递归字符分割器
spliter = RecursiveCharacterTextSplitter(
  separators=['，','。'], # 分隔字符，按照该字符分割 默认为 \n\n
  chunk_size=20, # 单个块大小， 一般按照长度函数计算
  chunk_overlap=5, # 重叠块大小， 一般按照长度函数计算
  length_function=len, # 长度计算函数，也可以用tokenize函数
  add_start_index=True, # 是否添加开始索引
)

text = spliter.create_documents([LLM_introduction])
for i in text :
  print(i,end="\n")

page_content='大型语言模型（LLM' metadata={'start_index': 0}
page_content='，Large Language Model）是一种基于深度学习技术的自然语言处理模型' metadata={'start_index': 10}
page_content='。它通过训练海量的文本数据' metadata={'start_index': 52}
page_content='，能够理解和生成自然语言文本' metadata={'start_index': 65}
page_content='。LLM的核心是使用神经网络' metadata={'start_index': 79}
page_content='，特别是变压器（Transformer）架构' metadata={'start_index': 93}
page_content='，这种架构能够有效地捕捉文本中的上下文关系' metadata={'start_index': 115}
page_content='，从而生成连贯且有意义的文本' metadata={'start_index': 136}
page_content='。
LLM的应用范围非常广泛' metadata={'start_index': 150}
page_content='，包括但不限于机器翻译、文本摘要、对话系统、内容生成和情感分析等' metadata={'start_index': 164}
page_content='。通过预训练和微调' metadata={'start_index': 196}
page_content='，LLM可以在不同的任务中表现出色。例如' metadata={'start_index': 205}
page_content='，GPT-3是目前最先进的LLM之一' metadata={'start_index': 225}
page_content='，它拥有1750亿个参数' metadata={'start_index': 243}
page_content='，能够生成高质量的文本' metadata={'start_index': 255}
page_content='，并且在许多自然语言处理任务中达到了接近人类的表现' metadata={

### 按照字符进行分割 `CharacterTextSplitter`

In [16]:
from langchain.text_splitter import CharacterTextSplitter

# 使用递归字符分割器
spliter = CharacterTextSplitter(
  separator="，", # 分隔字符，按照该字符分割 默认为 \n\n
  chunk_size=20, # 单个块大小， 一般按照长度函数计算
  chunk_overlap=5, # 重叠块大小， 一般按照长度函数计算
  length_function=len, # 长度计算函数，也可以用tokenize函数
  add_start_index=True, # 是否添加开始索引
  is_separator_regex=False, # 是否为正则表达式
)

text = spliter.create_documents([LLM_introduction])
for i in text :
  print(i,end="\n")

Created a chunk of size 54, which is longer than the specified 20
Created a chunk of size 27, which is longer than the specified 20
Created a chunk of size 21, which is longer than the specified 20
Created a chunk of size 27, which is longer than the specified 20
Created a chunk of size 40, which is longer than the specified 20
Created a chunk of size 40, which is longer than the specified 20
Created a chunk of size 24, which is longer than the specified 20


page_content='大型语言模型（LLM' metadata={'start_index': 0}
page_content='Large Language Model）是一种基于深度学习技术的自然语言处理模型。它通过训练海量的文本数据' metadata={'start_index': 11}
page_content='能够理解和生成自然语言文本。LLM的核心是使用神经网络' metadata={'start_index': 66}
page_content='特别是变压器（Transformer）架构' metadata={'start_index': 94}
page_content='这种架构能够有效地捕捉文本中的上下文关系' metadata={'start_index': 116}
page_content='从而生成连贯且有意义的文本。
LLM的应用范围非常广泛' metadata={'start_index': 137}
page_content='包括但不限于机器翻译、文本摘要、对话系统、内容生成和情感分析等。通过预训练和微调' metadata={'start_index': 165}
page_content='LLM可以在不同的任务中表现出色。例如' metadata={'start_index': 206}
page_content='GPT-3是目前最先进的LLM之一' metadata={'start_index': 226}
page_content='它拥有1750亿个参数' metadata={'start_index': 244}
page_content='能够生成高质量的文本' metadata={'start_index': 256}
page_content='并且在许多自然语言处理任务中达到了接近人类的表现。
尽管LLM在许多方面表现出色' metadata={'start_index': 267}
page_content='但它们也存在一些挑战和局限性。例如' metadata={'start_index': 308}
page_content='LLM需要大量的计算资源和数据进行训练' metadata={'start_index': 326}
page_content='且在生成内容时可能会产生偏见或

### 代码文档的切割 

In [19]:
from langchain.text_splitter import (
  RecursiveCharacterTextSplitter,
  Language
)

# 支持解析的编程语言
# [e.value for e in Language]

py_code = """"
def hello_world():
  print("Hello World!")

# 调用函数
hello_world()
"""

py_splitter = RecursiveCharacterTextSplitter.from_language(
  language=Language.PYTHON,
  chunk_size=50,
  chunk_overlap=10,
)

python_docs = py_splitter.create_documents([py_code])
print(python_docs)



[Document(metadata={}, page_content='"'), Document(metadata={}, page_content='def hello_world():\n  print("Hello World!")'), Document(metadata={}, page_content='# 调用函数\nhello_world()')]


#### 按 Token 分割

In [None]:
from langchain.text_splitter import CharacterTextSplitter
# from tiktoken import Encoding

# 加载要切割的文档
# with open("loaded_files/splite.txt") as sf :
#   LLM_introduction = sf.read()

# 创建编码器（需指定编码类型和词汇表路径）
# encoder = Encoding("bpe", "path/to/vocab.json")

# 初始化分词器并传入编码器
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=200,
    chunk_overlap=10,
    # encoder=encoder  # 关键参数
)

print(text_splitter.create_documents([LLM_introduction]))

[Document(metadata={}, page_content='大型语言模型（LLM，Large Language Model）是一种基于深度学习技术的自然语言处理模型。它通过训练海量的文本数据，能够理解和生成自然语言文本。LLM的核心是使用神经网络，特别是变压器（Transformer）架构，这种架构能够有效地捕捉文本中的上下文关系，从而生成连贯且有意义的文本。\nLLM的应用范围非常广泛，包括但不限于机器翻译、文本摘要、对话系统、内容生成和情感分析等。通过预训练和微调，LLM可以在不同的任务中表现出色。例如，GPT-3是目前最先进的LLM之一，它拥有1750亿个参数，能够生成高质量的文本，并且在许多自然语言处理任务中达到了接近人类的表现。\n尽管LLM在许多方面表现出色，但它们也存在一些挑战和局限性。例如，LLM需要大量的计算资源和数据进行训练，且在生成内容时可能会产生偏见或不准确的信息。因此，研究人员和工程师们正在不断改进这些模型，以提高其性能和可靠性。')]


## 文档的总结，精炼，翻译
______

In [None]:
! pip3 install doctran

In [None]:
from langchain_ollama import OllamaLLM

# 指定本地模型名称或路径
ollama_llm = OllamaLLM(
    model="deepseek-r1:1.5b",  # 例如DeepSeek-R1 1.5B模型
    base_url="http://localhost:11434",  # Ollama默认地址
)

# load document
with open("loaded_files/letter.txt") as f :
  content = f.read()

from doctran import Doctran
doctran = Doctran(openai_model=ollama_llm)

documents = doctran.parse(content=content)

## 总结
summary = documents.summarize(token_limit=100).execute()
print(summary.transformed_content)


## 翻译

trans = documents.translate(
  language='zh-cn'
)

print(trans.execute().transformed_content)

#### 精炼文档

In [None]:
refined = documents.refine(
  topics=['missing']
).execute()
print(refined.transformed_content)