标题: 使用 # 来表示不同级别的标题，比如：

# 一级标题
## 二级标题
### 三级标题
粗体: 使用 ** 或 __ 来包围文本，例如：

**这是粗体文本** 或 __这是粗体文本__
斜体: 使用 * 或 _ 来包围文本，例如：

*这是斜体文本* 或 _这是斜体文本_
删除线: 使用 ~~ 来包围文本，例如：

~~这是带有删除线的文本~~
链接: 使用 []() 来创建一个链接，例如：

[百度](http://www.baidu.com)
图片: 使用 ![]() 来插入一个图片，例如：

![图片描述](图片链接)
无序列表: 使用 * 或 - 或 + 后接空格来创建无序列表，例如：

* 项目1
- 项目2
+ 项目3
有序列表: 使用数字和点后接空格来创建有序列表，例如：

1. 项目1
2. 项目2
3. 项目3
引用: 使用 > 来创建引用，例如：

> 这是一段引用
代码: 使用 ` ` 来插入内联代码，例如 这是一段代码。使用 ``` ``` 来插入代码块，

In [1]:
import os
os.environ['HTTP_PROXY'] = "127.0.0.1:10809"
os.environ['HTTPS_PROXY']="127.0.0.1:10809"


## 从key文件读取key值
* 输入参数: file_path 文件路径
* 返回值: 存有key的列表

In [2]:
def read_keys_from_file(file_path):
    key_pool = []
    with open(file_path, 'r') as file:
        for line in file:
            key = line.strip()  # 去掉每一行的换行符
            key_pool.append(key)  # 将每一行存入key池中
    return key_pool

In [3]:
# 读取key
file_path = "key.txt"  # 将这个替换为你的txt文件的路径
key_pool = read_keys_from_file(file_path)

## 读取PDF文档函数
* 参数:文件路径file_path,提取前n页
* 返回值:一个列表

In [4]:
import pdfplumber

def read_pdf(file_path, n):
    inner = []
    text = ""
    with pdfplumber.open(file_path) as pdf:
            # 提取前n页
            for i, page in enumerate(pdf.pages):
                # 如果已经处理了n页，就停止
                if i == n:
                    break
                inner.append(page.extract_text())
    return inner

# 按页数进行划分
* 参数:inner->一个装有每一页pdf的列表
* 参数:group_size->每个组的大小
* 返回值:一个列表

> 分割逻辑:
> 以 inner = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 举例
第一次循环：i = 0，子列表为 inner[0:0+4] = [1, 2, 3, 4]
第二次循环：i = 3，子列表为 inner[3:3+4] = [4, 5, 6, 7]
第三次循环：i = 6，子列表为 inner[6:6+4] = [7, 8, 9, 10]

In [5]:
def group_inner(inner, group_size):
    # 将inner按照每n页为一组进行分割
    """

    :param inner:
    :param group_size:
    :return:
    """
    grouped_inner = [inner[i:min(i + group_size, len(inner))] for i in range(0, len(inner), group_size - 1)]
    return grouped_inner


In [32]:
content = read_pdf(r'./data/KT820说明书V2.0 201909.pdf', 30)

In [33]:
inner = group_inner(content, 5)

In [34]:
from langchain.prompts import  ChatPromptTemplate
prompts = """
    ----
    {text}
    ----
    帮我把上面内容总结成2-4个目录，不能超过4个,目录不要子目录，目录为简洁摘要，其它内容不用给我
    """

prompts2 = """
    abstract:
    ----
    {abstract}
    ----
    text:
    ----
    {text}
    ----

    跟据上面的摘要，找出下面内容中每个摘要对应的开始位置内容,如果涉及到目录部分,有一大串的...就只返回三个就行,不用返回全部.：
    返回格式:
    [{respond_struction}]

"""

prompts3 = """
    text1:
    ----
    {text1}
    ----
    text2:
    ----
    {text2}
    ----

        现在，你有两个字典格式的文本字符串，它们分别命名为 text1 和 text2。这两个字典中都有一个content字段，你需要判断这两个字段中的内容是否相似。
        如果它们的content相似，那么你需要合并这两个文本中的content字段的内容，并基于这个新的content生成一个新的abstract。返回的数据格式应该为一个字典，如下所示：
        返回格式:
        [{respond_struction}]
        如果它们的content不相似，那么直接返回原来的两个字典格式的字符串文本 text1 和 text2。

"""
promptsTemplate = ChatPromptTemplate.from_template(prompts)
promptsTemplate2 = ChatPromptTemplate.from_template(prompts2)
promptsTemplate3 = ChatPromptTemplate.from_template(prompts3)

## 指定返回值格式
> 返回值格式采用json数据,包含三部分:关键词,开始词,结束词
### langchain的json格式
1. 先定义单个模式,Schema = ResponseSchema(name="",description="")
2. 然后将多个模式组合在一起response_schemas = [abstract_schema, start_schema, end_schema]
3. 通过结构输出解析函数解析成结构对象 = StructuredOutputParser(response_schemas = response_schemas)
4. 最后将结构对象解析成json格式的内容


In [35]:
from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser
result_schema = ResponseSchema(name='result', description="这一部分是一个数组,用来记录返回的内容的,里面的每一项都是一个字典,每个字典里面有两个key,一个key名为abstract。其对应的内容是摘要部分的内容, 也就是用来记录摘要的。另一个key的名字是content,这一部分是返回和上面摘要部分相关的全部内容,有n个摘要就返回n个内容")
# abstract_schema = ResponseSchema(name="abstract",description="这是摘要部分的内容, 也就是用来记录摘要的")
# content_schema = ResponseSchema(name="content",description="返回和上面摘要部分相关的全部内容,有n个摘要就返回n个内容")

response_schemas = [result_schema]
out_parse = StructuredOutputParser(response_schemas = response_schemas)
format_instructions = out_parse.get_format_instructions()

In [36]:
from langchain.chains import LLMChain
from langchain.chat_models import ChatOpenAI


## 制作两条链来定位
* 第一条链用来摘要总结文本内容,第一条链用3.5的模型
* 第二条链用来根据摘要来定位文本内容,第二条链用3.5模型

In [37]:
# import random
# import re
# import json
# from langchain.chains import LLMChain
# from langchain.chat_models import ChatOpenAI
#
# abstract=[]
# result = []
# unprocess_list = []
# error_key = []
#
# for text in inner:
#     try:
#         os.environ["OPENAI_API_KEY"] = key_pool[random.randint(0,len(key_pool)-1)]
#         print(os.environ.get("OPENAI_API_KEY"))
#         llm = ChatOpenAI(model_name='gpt-3.5-turbo-16k', temperature=0)
#         chain = LLMChain(llm=llm, prompt=promptsTemplate)
#         chain2 = LLMChain(llm=llm, prompt=promptsTemplate2)
#         response=chain.run(text = text)
#         res = chain2.run(text=text,abstract=response,respond_struction=format_instructions)
#         print(res)
#         unprocess_list.append(out_parse.parse(res))
#     except Exception as e:
#         error_key = os.environ.get("OPENAI_API_KEY")
#         # 移除原来文本中对应的key
#         key_pool.remove(error_key)
#         with open('key.txt', 'w') as f:
#             for key in key_pool:
#                 f.write(key+'\n')
#
#         with open('error_key.txt', 'a') as f:
#             f.write(error_key + '\n')
#         print("An error occurred:", e)

In [38]:
import os
import random
import concurrent.futures
import time
unprocess_list = [None] * len(inner)
print(len(unprocess_list))

# 处理文本函数
def process_text(index, text):
    time.sleep(random.uniform(10,30))  # 添加随机时间
    try:
        os.environ["OPENAI_API_KEY"] = key_pool[index%(len(key_pool) - 1)]
        print("调用chain1的key",os.environ.get("OPENAI_API_KEY"))

        llm = ChatOpenAI(model_name='gpt-3.5-turbo-16k', temperature=0)
        chain = LLMChain(llm=llm, prompt=promptsTemplate)
        response = chain.run(text = text)
        print("目录:",response)
        time.sleep(5)
        time.sleep(random.uniform(1*index, 3*index))  #添加随机时间

        os.environ["OPENAI_API_KEY"] = key_pool[index%(len(key_pool) - 1)]
        llm = ChatOpenAI(model_name='gpt-3.5-turbo-16k', temperature=0)
        chain2 = LLMChain(llm=llm, prompt=promptsTemplate2)
        print("调用chain2的key",os.environ.get("OPENAI_API_KEY"))
        res = chain2.run(text=text, abstract=response, respond_struction=format_instructions)
        print(res)
        return index, out_parse.parse(res)
    except Exception as e:
        print("An error occurred:", e)
        return index, None

# 创建一个ThreadPoolExecutor线程池
with concurrent.futures.ThreadPoolExecutor() as executor:
    # 用于提交任务到线程池并获取结果的Future对象
    futures = [executor.submit(process_text, index, text) for index, text in enumerate(inner)]
    for future in concurrent.futures.as_completed(futures):
        index, result = future.result()
        if result is not None:
            # 结果是按照顺序放入unprocess_list
            unprocess_list[index] = result

# 收集为unprocess_list为none的下标
none_index = []
for i, item in enumerate(unprocess_list):
    if item is None:
        none_index.append(i)
print(none_index)

8
调用chain1的key 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
调用chain1的key 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
调用chain1的key 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
调用chain1的key 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
调用chain1的key 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
目录: 目录:
1. 尾座控制、润滑控制、软件限位设定、反向间隙补偿、计时计数功能、旋转功能、参数保存功能、键盘诊断功能、屏幕打印功能、手轮试切功能、屏幕亮度调节功能、K1、K2 键功能
2. 参数说明、状态参数、数据参数
3. 诊断信息、I/O固定地址、系统输入口状态显示、系统输出口状态显示、数据诊断信息、键盘诊断
4. 记忆型螺距误差补偿功能、螺距补偿参数的设定步骤、螺距误差补偿注意事项、螺距误差补偿举例
目录: 目录：
1. 程序回零和返回程序零点
2. 跳段功能
3. 单刀螺纹切削
4. 刚性攻丝
目录: 目录：
1. 产品简介
2. 编程基础
3. G功能
4. MST代码
5. 刀补C功能
6. 宏程序
7. 图形功能
8. 操作方式和界面显示
9. 安全操作
目录: 1. 功能描述规格指标
2. 程序控制功能
3. 螺纹加工功能
4. 坐标系和插补功能
调用chain1的key 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
调用chain1的key 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
目录: 1. 第二段螺纹
2. 快速定位篇
3. 刚性攻丝 G33
4. 变螺距螺纹切削 G34
调用chain1的key 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
调用chain2的key sk-luYtPDpYM0s9uo3iHNboT3Bl

In [None]:
print(unprocess_list)

### 第三条链
用来去重,去掉每一次切割部分重叠的内容

In [None]:
for i in range(len(unprocess_list)-1):
    data1 = unprocess_list[i]['result']
    data2 = unprocess_list[i+1]['result']
    need_process_data = []
    need_process_data.append(data1[len(data1)-1])
    need_process_data.append(data2[0])
    os.environ["OPENAI_API_KEY"] = key_pool[random.randint(0,len(key_pool)-1)]
    llm = ChatOpenAI(model_name='gpt-3.5-turbo-16k', temperature=0, request_timeout=75000)
    chain3 = LLMChain(llm=llm, prompt=promptsTemplate3)
    respone = chain3.run(text1=need_process_data[0],text2=need_process_data[1],respond_struction=format_instructions)
    # 解析返回文本
    content = out_parse.parse(respone)
    print(respone)