# 文档转换器


## 文档切割

In [1]:
from gitdb.fun import chunk_size
from langchain_text_splitters import RecursiveCharacterTextSplitter
from transformers.masking_utils import chunked_overlay
from unstructured.chunking.dispatch import chunk

with open("resource/test.txt") as f:
    zuizhonghuanxiang = f.read()

# 初始化切割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=50,#切分的文本块大小，一般通过
    chunk_overlap=20,#切分的文本块重叠大小，一般通过长度函数计算
    length_function=len,#长度函数，可以传递tokenized函数
    add_start_index=True#是否添加起始索引
)

text = text_splitter.create_documents([zuizhonghuanxiang])
text[0]
text[1]

Document(metadata={'start_index': 6}, page_content='蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa')

# 字符串切割

In [5]:
from langchain_text_splitters import CharacterTextSplitter

with open("resource/test.txt") as f:
    zuizhonghuanxiang = f.read()

text_splitter = CharacterTextSplitter(
    separator="。",#切割标志，默认是换行符
    chunk_size=50,#切割文本块大小
    chunk_overlap=20,#文本块重叠大小
    length_function=len,#长度函数
    add_start_index=True,#是否添加起始索引
    is_separator_regex=False,#是否是正则表达式
)

text = text_splitter.create_documents([zuizhonghuanxiang])
print(text[0])

Created a chunk of size 125, which is longer than the specified 50
Created a chunk of size 72, which is longer than the specified 50
Created a chunk of size 72, which is longer than the specified 50
Created a chunk of size 63, which is longer than the specified 50
Created a chunk of size 52, which is longer than the specified 50
Created a chunk of size 96, which is longer than the specified 50
Created a chunk of size 51, which is longer than the specified 50
Created a chunk of size 66, which is longer than the specified 50
Created a chunk of size 105, which is longer than the specified 50
Created a chunk of size 84, which is longer than the specified 50
Created a chunk of size 78, which is longer than the specified 50
Created a chunk of size 72, which is longer than the specified 50
Created a chunk of size 66, which is longer than the specified 50
Created a chunk of size 92, which is longer than the specified 50
Created a chunk of size 58, which is longer than the specified 50
Created 

page_content='蒂法介绍
蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场' metadata={'start_index': 1}


# 代码文档切割

In [6]:
from langchain_text_splitters import RecursiveCharacterTextSplitter, Language

#支持解析的编程语言
#[e.value for e in Language]

#要切割的代码文档
PYTHON_CODE = """
def hello_world():
    print("Hello, World!")
#调用函数
hello_world()
"""
py_spliter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=50,
    chunk_overlap=10,
)
python_docs = py_spliter.create_documents([PYTHON_CODE])
python_docs


[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")'),
 Document(metadata={}, page_content='#调用函数\nhello_world()')]

# 按照token来切分文档

In [7]:
from langchain_text_splitters import CharacterTextSplitter

with open("resource/test.txt") as f:
    zuizhonghuanxiang = f.read()

# 初始化切分起
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=4000,
    chunk_overlap = 30,
)

print(text_splitter.create_documents([zuizhonghuanxiang])[0])

page_content='蒂法介绍
蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场。 2014年东京电玩展上，星名美津纪cosplay《最终幻想VII 降临之子》中的蒂法·洛克哈特 蒂法是克劳德的⻘梅竹⻢，两人同为尼布鲁海姆出身。在米德加经营作为反抗组织“雪崩”根 据地的酒馆“第七天堂”，并且是小有名气的招牌店员。擅⻓格斗，以拳套为武器。本传7年前 克劳德离开故乡从军时，曾许下约定“如果有危机时一定会保护她”。与爱丽丝相识之后，两 人成为好友。第一个察觉克劳德记忆混乱的人，后来协助精神崩溃的克劳德􏰁新找回真正的自 己。本传的大战结束后，依大家的期待在战后新生的米德加再次开设第七天堂(原第七天堂因 第柒区圆盘崩塌遭压毁)，同时也照顾一群受到星痕症候群折磨的孩子们。 蒂法被《纽约时报》称为“网络一代”的海报女郎，与劳拉·克罗夫特相比，她是电子游戏中坚 强、􏰂立和有吸引力的女性⻆色的典型代表。媒体普遍称赞其实力和外表，并称她为游戏世界 中最好的女性⻆色之一。 在《最终幻想VII》本传中，蒂法年龄20岁、身高167cm、生日5月3日、血型B型、出生地尼 布尔海姆。
登场
《最终幻想VII》 蒂法在《最终幻想VII》原版中首次亮相，是克劳德的⻘梅竹⻢、第七天堂酒吧的看板娘、极 端环境组织“雪崩”成员，该组织反抗巨型企业“神罗”因其大􏰃抽取魔晄用作动力能源。在注 意到克劳德的性格改变后，她说服克劳德加入雪崩，以密切关注他，并且跟随他追寻游戏中的 对手萨菲罗斯。她无法阻止克劳德被萨菲罗斯操纵，在他的精神崩溃后，她帮助克劳德康复， 并且两人意识到彼此间的相互感觉，最后与伙伴们一同击败了萨菲罗斯。[2] 在闪回中可知，儿时的蒂法一直是村中小孩的人气王。在母亲过世后，思念母亲的蒂法决定沿 着小路走到他们故乡尼布尔海姆附近的一座山上，认为这样就能⻅到过世的母亲，原本跟着蒂 法的其他小孩都在半路上因害怕而放弃，唯􏰂克劳德仍坚定的在后面跟随，希望能在危机时保 护蒂法。然而，他们俩都从山上跌落受伤，蒂法昏迷了一个星期，她的父亲认为克劳德对此负 有责任[3]，甚为严令禁止克劳德再接近蒂法，但蒂法反而从此更

# 文档的总结、精炼和翻译

In [None]:
import os
from dotenv import load_dotenv
from

load_dotenv()

#