#文档转换
1. 将文档分成晓得、有意义的快（句子）
2. 讲笑的块组合成更大的块，直到达到一定的大小。
3. 一旦达到一定的大小，接着开始创建下一个块的重叠部分。

#示例
- 第一个文档的分割
- 按字符分割
- 代码文档分割
- 按token分割

## 第一个文档分割

In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

with open("test.txt") as f:
    zuizhonghuanxiang = f.read()


text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 100, #切分文本块大小，一般通过长度函数计算
    chunk_overlap  = 20, # 切分的文本块重叠长度，一般通过长度函数计算
    length_function = len, # 文本块长度函数，默认为len
    add_start_index = True # 是否在文本块开头添加起始索引，默认为True
)

text = text_splitter.create_documents([zuizhonghuanxiang])
text[0]
text[1]

Document(metadata={'start_index': 6}, page_content='蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆')

### 按字符切割


In [4]:
from langchain.text_splitter import CharacterTextSplitter

with open("test.txt") as f:
    zuizhonghuanxiang = f.read()

text_splitter = CharacterTextSplitter(
    separator="。", # 切分文本的分隔符，一般使用标点符号 默认是 \n\n
    chunk_size = 100, #切分文本块大小，一般通过长度函数计算
    chunk_overlap  = 20, # 切分的文本块重叠长度，一般通过长度函数计算
    length_function = len, # 文本块长度函数，默认为len
    add_start_index = True # 是否在文本块开头添加起始索引，默认为True
)

text = text_splitter.create_documents([zuizhonghuanxiang])
print(text[0])

Created a chunk of size 125, which is longer than the specified 100
Created a chunk of size 105, which is longer than the specified 100


page_content='蒂法介绍
蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场' metadata={'start_index': 1}


### 代码文档

In [7]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, Language

PYTHOIN_CODE = """
def hello_world():
    print("Hello, World!")

hello_world()
"""

py_splitter = RecursiveCharacterTextSplitter.from_language(
    language = Language.PYTHON,
    chunk_size=100,
    chunk_overlap=20,
)

python_deocs = py_splitter.create_documents([PYTHOIN_CODE])
python_deocs


[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")\n\nhello_world()')]

### 按Token切割

In [9]:
from langchain.text_splitter import CharacterTextSplitter

with open("test.txt") as f:
    zuizhonghuanxiang = f.read()

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=1000,
    chunk_overlap=30
)

text = text_splitter.split_text(zuizhonghuanxiang)
print(text[0])

Created a chunk of size 3155, which is longer than the specified 1000
Created a chunk of size 2438, which is longer than the specified 1000


蒂法介绍
蒂法·洛克哈特(日语:ティファ・ロックハート，Tifa Rokkuhāto，英语:Tifa Lockhart)为电子游戏《最终幻想VII》及《最终幻想VII补完计划》相关作品中的虚构⻆ 色，由􏰀村哲也创作和设计，此后也在多个游戏中客串登场。 2014年东京电玩展上，星名美津纪cosplay《最终幻想VII 降临之子》中的蒂法·洛克哈特 蒂法是克劳德的⻘梅竹⻢，两人同为尼布鲁海姆出身。在米德加经营作为反抗组织“雪崩”根 据地的酒馆“第七天堂”，并且是小有名气的招牌店员。擅⻓格斗，以拳套为武器。本传7年前 克劳德离开故乡从军时，曾许下约定“如果有危机时一定会保护她”。与爱丽丝相识之后，两 人成为好友。第一个察觉克劳德记忆混乱的人，后来协助精神崩溃的克劳德􏰁新找回真正的自 己。本传的大战结束后，依大家的期待在战后新生的米德加再次开设第七天堂(原第七天堂因 第柒区圆盘崩塌遭压毁)，同时也照顾一群受到星痕症候群折磨的孩子们。 蒂法被《纽约时报》称为“网络一代”的海报女郎，与劳拉·克罗夫特相比，她是电子游戏中坚 强、􏰂立和有吸引力的女性⻆色的典型代表。媒体普遍称赞其实力和外表，并称她为游戏世界 中最好的女性⻆色之一。 在《最终幻想VII》本传中，蒂法年龄20岁、身高167cm、生日5月3日、血型B型、出生地尼 布尔海姆。
登场
《最终幻想VII》 蒂法在《最终幻想VII》原版中首次亮相，是克劳德的⻘梅竹⻢、第七天堂酒吧的看板娘、极 端环境组织“雪崩”成员，该组织反抗巨型企业“神罗”因其大􏰃抽取魔晄用作动力能源。在注 意到克劳德的性格改变后，她说服克劳德加入雪崩，以密切关注他，并且跟随他追寻游戏中的 对手萨菲罗斯。她无法阻止克劳德被萨菲罗斯操纵，在他的精神崩溃后，她帮助克劳德康复， 并且两人意识到彼此间的相互感觉，最后与伙伴们一同击败了萨菲罗斯。[2] 在闪回中可知，儿时的蒂法一直是村中小孩的人气王。在母亲过世后，思念母亲的蒂法决定沿 着小路走到他们故乡尼布尔海姆附近的一座山上，认为这样就能⻅到过世的母亲，原本跟着蒂 法的其他小孩都在半路上因害怕而放弃，唯􏰂克劳德仍坚定的在后面跟随，希望能在危机时保 护蒂法。然而，他们俩都从山上跌落受伤，蒂法昏迷了一个星期，她的父亲认为克劳德对此负 有责任[3]，甚为严令禁止克劳德再接近蒂法，但蒂法反而从此更在意克劳德，两人成为要好 的

### 文档总结、精炼、翻译

In [6]:
! pip install doctran

Collecting doctran
  Downloading doctran-0.0.14-py3-none-any.whl.metadata (8.6 kB)
Collecting lxml<5.0.0,>=4.9.2 (from doctran)
  Downloading lxml-4.9.4-cp312-cp312-macosx_11_0_universal2.whl.metadata (3.7 kB)
Collecting openai<0.28.0,>=0.27.8 (from doctran)
  Downloading openai-0.27.10-py3-none-any.whl.metadata (13 kB)
Collecting presidio-analyzer<3.0.0,>=2.2.33 (from doctran)
  Downloading presidio_analyzer-2.2.355-py3-none-any.whl.metadata (2.9 kB)
Collecting presidio-anonymizer<3.0.0,>=2.2.33 (from doctran)
  Downloading presidio_anonymizer-2.2.355-py3-none-any.whl.metadata (8.2 kB)
Collecting pydantic<2.0.0,>=1.10.9 (from doctran)
  Downloading pydantic-1.10.19-cp312-cp312-macosx_11_0_arm64.whl.metadata (152 kB)
Collecting spacy<4.0.0,>=3.5.4 (from doctran)
  Downloading spacy-3.8.2-cp312-cp312-macosx_11_0_arm64.whl.metadata (27 kB)
Collecting tiktoken<0.6.0,>=0.5.0 (from doctran)
  Downloading tiktoken-0.5.2-cp312-cp312-macosx_11_0_arm64.whl.metadata (6.6 kB)
Collecting requests>

In [2]:
with open("letter.txt") as f:
    content = f.read()

In [7]:
! pip install python-dotenv

Collecting python-dotenv
  Using cached python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Using cached python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.1

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [3]:
from doctran import Doctran
from dotenv import load_dotenv
import os
load_dotenv("openai.env")
OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
OPENAI_API_BASE = os.environ.get("OPENAI_PROXY")
OPENAI_MODEL = "gpt-3.5-turbo-16k"
OPENAI_TOKEN_LIMIT = 8000
print(OPENAI_API_KEY)
print(OPENAI_API_BASE)
doctrans = Doctran(
    openai_api_key=OPENAI_API_KEY,
    openai_model=OPENAI_MODEL,
    openai_token_limit=OPENAI_TOKEN_LIMIT,
)
documents = doctrans.parse(content=content)

sk-M2NQLaQ3rDPK16EEGBi5QfUivICizJ641qh6B7elXulzJuUS
https://api.openai-proxy.org/v1


In [4]:
#总结文档
summary = documents.summarize(token_limit= 100).execute()
print(summary)

uri='450360df-ebf0-48a4-9bd6-755b8835b509' id='5f3e0cbe-ad92-4439-a6a5-f9d86d549ab4' content_type=<ContentType.text: 'text'> raw_content="[Generated with ChatGPT]\n\nConfidential Document - For Internal Use Only\n\nDate: July 1, 2023\n\nSubject: Updates and Discussions on Various Topics\n\nDear Team,\n\nI hope this email finds you well. In this document, I would like to provide you with some important updates and discuss various topics that require our attention. Please treat the information contained herein as highly confidential.\n\nSecurity and Privacy Measures\nAs part of our ongoing commitment to ensure the security and privacy of our customers' data, we have implemented robust measures across all our systems. We would like to commend John Doe (email: john.doe@example.com) from the IT department for his diligent work in enhancing our network security. Moving forward, we kindly remind everyone to strictly adhere to our data protection policies and guidelines. Additionally, if you c

In [7]:
# 翻译文档
translation = documents.translate(language='chainese').execute()
print(translation.transformed_content)

机密文件-仅供内部使用

日期：2023年7月1日

主题：各种话题的更新和讨论

亲爱的团队，

我希望这封邮件能够找到你们。在这份文件中，我想向你们提供一些重要的更新，并讨论需要我们关注的各种话题。请将此处包含的信息视为高度机密。

安全和隐私措施
为了确保客户数据的安全和隐私，我们在所有系统上实施了强大的措施。我们要赞扬IT部门的John Doe（电子邮件：john.doe@example.com）在增强我们的网络安全方面的勤奋工作。未来，我们提醒大家严格遵守我们的数据保护政策和准则。此外，如果您遇到任何潜在的安全风险或事件，请立即向我们专门的团队security@example.com报告。

人力资源更新和员工福利
最近，我们欢迎了几位新的团队成员，他们对各自的部门做出了重要贡献。我想表彰Jane Smith（社会安全号码：049-45-5928）在客户服务方面的出色表现。Jane一直收到我们客户的积极反馈。此外，请记住，我们的员工福利计划的开放报名期限即将到来。如果您有任何问题或需要帮助，请联系我们的人力资源代表Michael Johnson（电话：418-492-3850，电子邮件：michael.johnson@example.com）。

市场营销活动和广告
我们的市场营销团队一直在积极开展新的策略，以增加品牌知名度和推动客户参与。我们要感谢Sarah Thompson（电话：415-555-1234）在管理我们的社交媒体平台方面的杰出努力。Sarah在过去一个月内成功将我们的关注者人数增加了20%。此外，请记住7月15日即将举行的产品发布活动。我们鼓励所有团队成员参加并支持我们公司的这一重要里程碑。

研发项目
为了追求创新，我们的研发部门一直在不懈努力地开展各种项目。我想对项目负责人David Rodriguez（电子邮件：david.rodriguez@example.com）的出色工作表示赞赏。David在我们尖端技术的开发方面做出了重要贡献。此外，我们提醒大家在7月10日的月度研发头脑风暴会议上分享他们的想法和建议，以寻找潜在的新项目。

请将此文件中的信息视为最机密，并确保不与未经授权的人员分享。如果您对讨论的话题有任何问题或疑虑，请随时直接与我联系。

感谢您的关注，让我们继续共同努力实现我们的目标。

此致

Jason Fan
创

In [10]:
# 精炼文档
refined = documents.refine(topics=["Marketing","Development"]).execute()

print(refined.transformed_content)

Marketing Initiatives and Campaigns

Our marketing team has been actively working on developing new strategies to increase brand awareness and drive customer engagement. We would like to thank Sarah Thompson (phone: 415-555-1234) for her exceptional efforts in managing our social media platforms. Sarah has successfully increased our follower base by 20% in the past month alone. Moreover, please mark your calendars for the upcoming product launch event on July 15th. We encourage all team members to attend and support this exciting milestone for our company.

Research and Development Projects

In our pursuit of innovation, our research and development department has been working tirelessly on various projects. I would like to acknowledge the exceptional work of David Rodriguez (email: david.rodriguez@example.com) in his role as project lead. David's contributions to the development of our cutting-edge technology have been instrumental. Furthermore, we would like to remind everyone to sha