In [4]:
from dotenv import load_dotenv

load_dotenv("openai.env")

True

# 文档切割
1. 将文档分成小的、有意义的块(句子).
2. 将小的块组合成为一个更大的块，直到达到一定的大小.
3. 一旦达到一定的大小，接着开始创建与下一个块重叠的部分.(避免切割后造成语义不连贯)
4. 重复步骤2和3，直到所有内容都被处理.

## 字符串切割

In [7]:
from langchain.text_splitter import CharacterTextSplitter

#加载要切分的文档
with open("testfile/fiction.txt") as f:
    fiction = f.read()

#初始化切分器
text_splitter = CharacterTextSplitter(
    separator="。",  #切割的标志字符，默认是\n
    chunk_size=200,  #切分的文本块大小，一般通过长度函数计算
    chunk_overlap=20,  #切分的文本块重叠大小，一般通过长度函数计算
    length_function=len,  #长度函数,也可以传递tokenize函数
    add_start_index=True,  #是否添加起始索引
    is_separator_regex=False,  #是否是正则表达式
)
documents = text_splitter.create_documents([fiction])
for doc in documents:
    print(doc)

page_content='房产也能以旧换新？\n“老房子卖不掉，怎么买新房？”吴刚的心声恐怕是郑州许多二手房主的共同想法。他当初全款购房时用掉了大部分积蓄，如今再换房，只能拿到了旧房房款才有购房资金。\n中指研究院河南公司总经理梁波涛告诉《中国新闻周刊》，当前地产行业下行压力尚未缓解，居民整体置业动力不足，加上普遍的“买涨不买跌”的心理加剧购房观望情绪，在二手房存量压力叠加置业动力不足的影响下，二手房市场的困局仍在持续' metadata={'start_index': 0}
page_content='自2023年以来，全国二手房挂牌量持续走高。截至今年3月30日，已经有重庆、成都、天津、青岛、南京、武汉、郑州等12个城市二手房挂牌量超过10万套，当中重庆、成都、天津、苏州、南京、杭州6个城市的挂牌量已经突破15万套，重庆和成都更是超过了22万套。\n而国家统计局数据显示，2023年全国新建商品房销售面积11.2亿平方米，同比下降8.5％，新建商品房销售额11.7万亿元，同比下降6.5％' metadata={'start_index': 198}
page_content='为了破解新房和二手房的困境，不少城市先后通过优化限购政策、调整住房公积金支持政策、降低首付比例和利率门槛、发放购房补贴、首套房“认房不认贷”等来鼓励购房者入市。\n而以旧换新的房产政策也应运而生。所谓住房以旧换新政策，是由购房者先锁定新房房源，再由中介、房企等帮助销售或直接收购旧房，地方政府可提供换房补贴或给予税收减免优惠' metadata={'start_index': 395}
page_content='“市面上住房以旧换新模式总体上出于两方面考量，一是为了满足改善性的住房需求；二是在较大的一手房市场和二手房存量下，通过以旧换新推动一手房市场和二手房市场的交易。”中国人民大学商学院教授、国家发展与战略研究院城市与房地产研究中心主任况伟大在接受《中国新闻周刊》采访时表示。\n2022年，深圳南山一个楼盘推出“以房换房、以旧换新”活动，以开发商的公寓房换业主的住宅房' metadata={'start_index': 558}
page_content='不过，这一尝试在当时饱受质疑，被认为是开发商花样促销的“噱头”。\n这一政策真正成为网络热词是在去年8月底，山东淄博推出《“以旧换新

## 代码文档切割

In [11]:
from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    Language,
)

#支持解析的编程语言
print([e.value for e in Language])

#要切割的代码文档
PYTHON_CODE = """
def hello_world():
    print("Hello, World!")
#调用函数
hello_world()
"""
py_spliter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=50,
    chunk_overlap=10,
)
python_docs = py_spliter.create_documents([PYTHON_CODE])
print(python_docs)

['cpp', 'go', 'java', 'kotlin', 'js', 'ts', 'php', 'proto', 'python', 'rst', 'ruby', 'rust', 'scala', 'swift', 'markdown', 'latex', 'html', 'sol', 'csharp', 'cobol', 'c', 'lua', 'perl']
[Document(page_content='def hello_world():\n    print("Hello, World!")'), Document(page_content='#调用函数\nhello_world()')]


## 按token来切割文档

In [12]:
from langchain.text_splitter import CharacterTextSplitter

#要切割的文档
with open("testfile/fiction.txt") as f:
    fiction = f.read()

#初始化切分器
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=4000,#切分的文本块大小，一般通过长度函数计算
    chunk_overlap=30,#切分的文本块重叠大小，一般通过长度函数计算
)

text = text_splitter.create_documents([fiction])
print(text[0])

page_content='房产也能以旧换新？\n“老房子卖不掉，怎么买新房？”吴刚的心声恐怕是郑州许多二手房主的共同想法。他当初全款购房时用掉了大部分积蓄，如今再换房，只能拿到了旧房房款才有购房资金。\n中指研究院河南公司总经理梁波涛告诉《中国新闻周刊》，当前地产行业下行压力尚未缓解，居民整体置业动力不足，加上普遍的“买涨不买跌”的心理加剧购房观望情绪，在二手房存量压力叠加置业动力不足的影响下，二手房市场的困局仍在持续。\n自2023年以来，全国二手房挂牌量持续走高。截至今年3月30日，已经有重庆、成都、天津、青岛、南京、武汉、郑州等12个城市二手房挂牌量超过10万套，当中重庆、成都、天津、苏州、南京、杭州6个城市的挂牌量已经突破15万套，重庆和成都更是超过了22万套。\n而国家统计局数据显示，2023年全国新建商品房销售面积11.2亿平方米，同比下降8.5％，新建商品房销售额11.7万亿元，同比下降6.5％。\n为了破解新房和二手房的困境，不少城市先后通过优化限购政策、调整住房公积金支持政策、降低首付比例和利率门槛、发放购房补贴、首套房“认房不认贷”等来鼓励购房者入市。\n而以旧换新的房产政策也应运而生。所谓住房以旧换新政策，是由购房者先锁定新房房源，再由中介、房企等帮助销售或直接收购旧房，地方政府可提供换房补贴或给予税收减免优惠。\n“市面上住房以旧换新模式总体上出于两方面考量，一是为了满足改善性的住房需求；二是在较大的一手房市场和二手房存量下，通过以旧换新推动一手房市场和二手房市场的交易。”中国人民大学商学院教授、国家发展与战略研究院城市与房地产研究中心主任况伟大在接受《中国新闻周刊》采访时表示。\n2022年，深圳南山一个楼盘推出“以房换房、以旧换新”活动，以开发商的公寓房换业主的住宅房。不过，这一尝试在当时饱受质疑，被认为是开发商花样促销的“噱头”。\n这一政策真正成为网络热词是在去年8月底，山东淄博推出《“以旧换新”省心购房倡议书》，自带流量的淄博将此模式一下子拉进大众视野。随后，类似模式逐渐落地多个城市，南京、泰安、太仓、扬州、连云港、宁波、宣城、亳州等地纷纷入局。据《中国新闻周刊》不完全统计，至少有超过30个城市表态参与住房以旧换新。\n从实施效果来看，不同地区差异很大。早在去年10月就加入住房以旧换新阵营的宁波市场反应较积极，在“换新购”启动后的

# 文档总结,精炼和翻译

In [None]:
# doctran是一个python库,在openai上做了二次封装,方便我们快捷实现文档总结,精炼,翻译
! pip install doctran_openai

In [15]:
#加载文档
with open("testfile/letter.txt") as f:
    content = f.read()

In [18]:
from doctran_openai import DoctranOpenai
import os
doctrans = DoctranOpenai(
    openai_model="gpt-3.5-turbo-1125",
    openai_api_key=  os.getenv("OPENAI_API_KEY"),
    openai_token_limit=8000,
)
doctrans.config.openai.base_url = os.environ.get("OPENAI_API_BASE")
document = doctrans.parse(content=content)

In [31]:
# #总结文档
# summary = documents.summarize(token_limit=100).execute()
# print(summary.transformed_content)
# 总结，token 限制在 100 字以内  
summary = document.summarize(token_limit=100).execute()
print(summary)

uri='0da3eeb6-9531-4f65-b0d9-b12cc203f27b' id='23d972b0-bd17-417a-b6dc-f0c836f97e51' content_type=<ContentType.text: 'text'> raw_content="[Generated with ChatGPT]\n\nConfidential Document - For Internal Use Only\n\nDate: July 1, 2023\n\nSubject: Updates and Discussions on Various Topics\n\nDear Team,\n\nI hope this email finds you well. In this document, I would like to provide you with some important updates and discuss various topics that require our attention. Please treat the information contained herein as highly confidential.\n\nSecurity and Privacy Measures\nAs part of our ongoing commitment to ensure the security and privacy of our customers' data, we have implemented robust measures across all our systems. We would like to commend John Doe (email: john.doe@example.com) from the IT department for his diligent work in enhancing our network security. Moving forward, we kindly remind everyone to strictly adhere to our data protection policies and guidelines. Additionally, if you c

In [28]:
# #翻译一下文档
translation = document.translate(language="chinese").execute()
print(translation.transformed_content)

机密文件-仅供内部使用

日期：2023年7月1日

主题：各种话题的更新和讨论

亲爱的团队，

希望这封邮件能够找到您。在这份文件中，我想向您提供一些重要的更新，并讨论需要我们关注的各种话题。请将此处包含的信息视为高度机密。

安全和隐私措施
为了确保客户数据的安全和隐私，我们已在所有系统中实施了强有力的措施。我们要赞扬IT部门的John Doe（电子邮件：john.doe@example.com）在增强我们网络安全方面的勤奋工作。展望未来，我们提醒每个人严格遵守我们的数据保护政策和准则。此外，如果您发现任何潜在的安全风险或事件，请立即向我们专门的团队security@example.com报告。

人力资源更新和员工福利
最近，我们迎来了几位新团队成员，他们对各自部门做出了重大贡献。我想表彰Jane Smith（社会安全号码：049-45-5928）在客户服务方面的出色表现。Jane一直从客户那里收到积极的反馈。此外，请记住，我们的员工福利计划的开放报名期限即将到来。如果您有任何问题或需要帮助，请联系我们的人力资源代表Michael Johnson（电话：418-492-3850，电子邮件：michael.johnson@example.com）。

营销活动和宣传
我们的营销团队一直在积极开发新策略，以增加品牌知名度并推动客户参与。我们要感谢Sarah Thompson（电话：415-555-1234）在管理我们的社交媒体平台方面的杰出努力。Sarah仅在过去一个月就成功将我们的关注者基数增加了20%。此外，请记住7月15日即将举行的产品发布活动。我们鼓励所有团队成员参加并支持我们公司的这一激动人心的里程碑。

研发项目
在追求创新的过程中，我们的研发部门一直在为各种项目不懈努力。我要感谢David Rodriguez（电子邮件：david.rodriguez@example.com）在项目负责人角色上的杰出工作。David对我们尖端技术的发展做出了重要贡献。此外，我们提醒每个人在7月10日定于举行的每月研发头脑风暴会议上分享他们的想法和建议，以便开展潜在的新项目。

请将此文件中的信息视为最机密，并确保不与未经授权的人分享。如果您对讨论的话题有任何疑问或顾虑，请随时直接与我联系。

感谢您的关注，让我们继续共同努力实现我们的目标。

此致，

Jason 

In [30]:
# #精炼文档，删除除了某个主题或关键词之外的内容，仅保留与主题相关的内容
refined = document.refine(topics=["marketing","Development"]).execute()
print(refined)

uri='0da3eeb6-9531-4f65-b0d9-b12cc203f27b' id='23d972b0-bd17-417a-b6dc-f0c836f97e51' content_type=<ContentType.text: 'text'> raw_content="[Generated with ChatGPT]\n\nConfidential Document - For Internal Use Only\n\nDate: July 1, 2023\n\nSubject: Updates and Discussions on Various Topics\n\nDear Team,\n\nI hope this email finds you well. In this document, I would like to provide you with some important updates and discuss various topics that require our attention. Please treat the information contained herein as highly confidential.\n\nSecurity and Privacy Measures\nAs part of our ongoing commitment to ensure the security and privacy of our customers' data, we have implemented robust measures across all our systems. We would like to commend John Doe (email: john.doe@example.com) from the IT department for his diligent work in enhancing our network security. Moving forward, we kindly remind everyone to strictly adhere to our data protection policies and guidelines. Additionally, if you c