#文档转换
1. 将文档分成晓得、有意义的快（句子）
2. 讲笑的块组合成更大的块，直到达到一定的大小。
3. 一旦达到一定的大小，接着开始创建下一个块的重叠部分。

#示例
- 第一个文档的分割
- 按字符分割
- 代码文档分割
- 按token分割

## 第一个文档分割

In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

with open("test.txt") as f:
    zuizhonghuanxiang = f.read()


text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 100, #切分文本块大小，一般通过长度函数计算
    chunk_overlap  = 20, # 切分的文本块重叠长度，一般通过长度函数计算
    length_function = len, # 文本块长度函数，默认为len
    add_start_index = True # 是否在文本块开头添加起始索引，默认为True
)

text = text_splitter.create_documents([zuizhonghuanxiang])
text[0]
text[1]

Document(metadata={'start_index': 6}, page_content='蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆')

### 按字符切割


In [4]:
from langchain.text_splitter import CharacterTextSplitter

with open("test.txt") as f:
    zuizhonghuanxiang = f.read()

text_splitter = CharacterTextSplitter(
    separator="。", # 切分文本的分隔符，一般使用标点符号 默认是 \n\n
    chunk_size = 100, #切分文本块大小，一般通过长度函数计算
    chunk_overlap  = 20, # 切分的文本块重叠长度，一般通过长度函数计算
    length_function = len, # 文本块长度函数，默认为len
    add_start_index = True # 是否在文本块开头添加起始索引，默认为True
)

text = text_splitter.create_documents([zuizhonghuanxiang])
print(text[0])

Created a chunk of size 125, which is longer than the specified 100
Created a chunk of size 105, which is longer than the specified 100


page_content='蒂法介绍
蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场' metadata={'start_index': 1}


### 代码文档

In [7]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, Language

PYTHOIN_CODE = """
def hello_world():
    print("Hello, World!")

hello_world()
"""

py_splitter = RecursiveCharacterTextSplitter.from_language(
    language = Language.PYTHON,
    chunk_size=100,
    chunk_overlap=20,
)

python_deocs = py_splitter.create_documents([PYTHOIN_CODE])
python_deocs


[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")\n\nhello_world()')]

### 按Token切割

In [9]:
from langchain.text_splitter import CharacterTextSplitter

with open("test.txt") as f:
    zuizhonghuanxiang = f.read()

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=1000,
    chunk_overlap=30
)

text = text_splitter.split_text(zuizhonghuanxiang)
print(text[0])

Created a chunk of size 3155, which is longer than the specified 1000
Created a chunk of size 2438, which is longer than the specified 1000


蒂法介绍
蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场。 2014年东京电玩展上，星名美津纪cosplay《最终幻想VII 降临之子》中的蒂法·洛克哈特 蒂法是克劳德的⻘梅竹⻢，两人同为尼布鲁海姆出身。在米德加经营作为反抗组织“雪崩”根 据地的酒馆“第七天堂”，并且是小有名气的招牌店员。擅⻓格斗，以拳套为武器。本传7年前 克劳德离开故乡从军时，曾许下约定“如果有危机时一定会保护她”。与爱丽丝相识之后，两 人成为好友。第一个察觉克劳德记忆混乱的人，后来协助精神崩溃的克劳德􏰁新找回真正的自 己。本传的大战结束后，依大家的期待在战后新生的米德加再次开设第七天堂(原第七天堂因 第柒区圆盘崩塌遭压毁)，同时也照顾一群受到星痕症候群折磨的孩子们。 蒂法被《纽约时报》称为“网络一代”的海报女郎，与劳拉·克罗夫特相比，她是电子游戏中坚 强、􏰂立和有吸引力的女性⻆色的典型代表。媒体普遍称赞其实力和外表，并称她为游戏世界 中最好的女性⻆色之一。 在《最终幻想VII》本传中，蒂法年龄20岁、身高167cm、生日5月3日、血型B型、出生地尼 布尔海姆。
登场
《最终幻想VII》 蒂法在《最终幻想VII》原版中首次亮相，是克劳德的⻘梅竹⻢、第七天堂酒吧的看板娘、极 端环境组织“雪崩”成员，该组织反抗巨型企业“神罗”因其大􏰃抽取魔晄用作动力能源。在注 意到克劳德的性格改变后，她说服克劳德加入雪崩，以密切关注他，并且跟随他追寻游戏中的 对手萨菲罗斯。她无法阻止克劳德被萨菲罗斯操纵，在他的精神崩溃后，她帮助克劳德康复， 并且两人意识到彼此间的相互感觉，最后与伙伴们一同击败了萨菲罗斯。[2] 在闪回中可知，儿时的蒂法一直是村中小孩的人气王。在母亲过世后，思念母亲的蒂法决定沿 着小路走到他们故乡尼布尔海姆附近的一座山上，认为这样就能⻅到过世的母亲，原本跟着蒂 法的其他小孩都在半路上因害怕而放弃，唯􏰂克劳德仍坚定的在后面跟随，希望能在危机时保 护蒂法。然而，他们俩都从山上跌落受伤，蒂法昏迷了一个星期，她的父亲认为克劳德对此负 有责任[3]，甚为严令禁止克劳德再接近蒂法，但蒂法反而从此更在意克劳德，两人成为要好 的

### 文档总结、精炼、翻译

In [24]:
! pip install doctran

You should consider upgrading via the '/Users/vv/.pyenv/versions/3.10.5/bin/python3.10 -m pip install --upgrade pip' command.[0m[33m
[0m

In [25]:
with open("letter.txt") as f:
    content = f.read()

In [26]:
from dotenv import load_dotenv
import os
load_dotenv("openai.env")
OPENAI_API_KEY = os.environ.get("OPEN_API_KEY")
OPENAI_API_BASE = os.environ.get("OPENAI_API_BASE")
OPENAI_MODEL = "gpt-3.5-turbo-16k"
OPENAI_TOKEN_LIMIT = 8000

from doctran import Doctran
doctrans = Doctran(
    openai_api_key=OPENAI_API_KEY,
    openai_model=OPENAI_MODEL,
    openai_token_limit=OPENAI_TOKEN_LIMIT,
)
documents = doctrans.parse(content=content)

ValidationError: 1 validation error for DoctranConfig
openai_deployment_id
  Field required [type=missing, input_value={'openai_model': 'gpt-3.5...enai_token_limit': 8000}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.10/v/missing

In [17]:
#总结文档
summary = documents.summarize(token_limit= 100).execute()

NameError: name 'documents' is not defined

In [19]:
# 翻译文档
translation = documents.translate(language='chainese').execute()
print(translation.transformed_content)

NameError: name 'documents' is not defined

In [None]:
# 精炼文档
