In [1]:
from dotenv import load_dotenv
import os

# Load environment variables from openai.env file
load_dotenv(".env")

# Read the OPENAI_API_KEY from the environment
api_base = os.getenv("OPENAI_API_BASE_URL")
api_key = os.getenv("OPENAI_API_KEY")
model_name = os.getenv("MODEL_NAME")

os.environ["OPENAI_API_KEY"] = api_key
os.environ["OPENAI_API_BASE"] = api_base

# ChatDoc:实现一个智能文档助手

功能：
- 读取pdf、excel、doc三种常见的文档格式
- 根据文档内容，智能抽取内容并输出相应格式
<hr>

### 1. 安装相关的依赖包

In [1]:
%pip install docx2txt
%pip install pypdf
%pip install nltk

Collecting docx2txt
  Downloading docx2txt-0.8.tar.gz (2.8 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Building wheels for collected packages: docx2txt
  Building wheel for docx2txt (pyproject.toml): started
  Building wheel for docx2txt (pyproject.toml): finished with status 'done'
  Created wheel for docx2txt: filename=docx2txt-0.8-py3-none-any.whl size=4003 sha256=a18fb258065a2bae31dace128fc004309c101ddc0741ad17d394732c7c8b26ce
  Stored in directory: c:\users\jizhe\appdata\local\pip\cache\wheels\6f\f7\05\c745e7756faa8641660b6159b979deb122f2e3e1e0d9287eeb
Successfully built docx2txt
Installing collected packages: docx2txt
Successfully installed docx2txt-0.8
Note: you may need to restart the kernel t

### 2. 测试加载不同格式的文件

In [2]:
# 加载docx文件
from langchain_community.document_loaders import Docx2txtLoader

# 定义方法
def getFile():
    # 读取docx文件
    loader = Docx2txtLoader("./sources/fake.docx")
    text = loader.load()
    return text;

# 调用方法
getFile()

[Document(metadata={'source': './sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn\n\n\n\n二、财务状况概述\n\n截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下：\n\n1. 资产总额：人民币1.2亿元，较上年同期下降30%。\n\n2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。\n\n3. 营业收入：人民币3000万元，较上年同期下降60%。\n\n4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。\n\n5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。\n\n6. 存货：存货积压严重，库存商品价值约为人民币400万元，大部分产品滞销。\n\n7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：\n\n1. 产品同质化严重，缺乏核心竞争力。\n\n2. 新产品开发进度缓慢，未能及时抓住市场需求变化。\n\n3. 市场营销策略不当，导致市场份额大幅缩水。\n\n4. 行业内新兴企业崛起迅速，原有客户流失严重。\n\n\n\n四、债权债务情况\n\n宏图科技发展有限公司目前面临的债务问题严峻，具体情况如下：\n\n1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。\n\n4. 其他应付款项：包括税费、租赁费用等其他应付款项累计约人民币100万元。\n\n\

In [3]:
# 加载pdf文件
from langchain_community.document_loaders import PyPDFLoader

# 定义方法
def getFile():
    try:
        # 读取pdf文件
        loader = PyPDFLoader("./sources/fake.pdf")
        text = loader.load()
        return text;
    except Exception as e:
        print(f"Error loading files:{e}")

# 调用方法
getFile()

Ignoring wrong pointing object 6 0 (offset 0)


[Document(metadata={'producer': 'macOS 版本14.1.1（版号23B81） Quartz PDFContext', 'creator': 'PyPDF', 'creationdate': "D:20231205083748Z00'00'", 'moddate': "D:20231205083748Z00'00'", 'source': './sources/fake.pdf', 'total_pages': 3, 'page': 0, 'page_label': '1'}, page_content='一、公司基本信息 名称：宏图科技发展有限公司 注册地址：江苏省南京市雨花台区软件大道101号 成立日期：2011年5月16日 法定代表人：李强 注册资本：人民币5000万元 员工人数：约200人 联系电话：025-88888888 电子邮箱：info@hongtutech.cn  二、财务状况概述 截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下： 1. 资产总额：人民币1.2亿元，较上年同期下降30%。 2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。 3. 营业收入：人民币3000万元，较上年同期下降60%。 4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。 5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。 6. 存货： 存货积压严重， 库存商品价值约为人民币400万元， 大部分产品滞销。 7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。  三、主营业务及市场状况 宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有： 1. 产品同质化严重，缺乏核心竞争力。 2. 新产品开发进度缓慢，未能及时抓住市场需求变化。 3. 市场营销策略不当，导致市场份额大幅缩水。'),
 Document(metadata={'producer': 'macOS 版本14.1.1（版号23B81） Quartz PDFContext', 'creator': 'PyPDF', 'creationdate'

In [4]:
# 加载excel文件
from langchain_community.document_loaders import UnstructuredExcelLoader

# 定义方法
def getFile():
    try:
        # 读取xlsx文件
        loader = UnstructuredExcelLoader("./sources/fake.xlsx", mode="elements")
        text = loader.load()
        return text;
    except Exception as e:
        print(f"Error loading files:{e}")

# 调用方法
getFile()

[Document(metadata={'source': './sources/fake.xlsx', 'file_directory': './sources', 'filename': 'fake.xlsx', 'last_modified': '2024-04-12T12:05:13', 'page_name': 'Sheet1', 'page_number': 1, 'text_as_html': '<table><tr><td>名称</td><td>宏图科技发展有限公司</td></tr><tr><td>注册地址</td><td>江苏省南京市雨花台区软件大道101号</td></tr><tr><td>成立日期</td><td>40679</td></tr><tr><td>法定代表人</td><td>李强</td></tr><tr><td>注册资本</td><td>人民币5000万元</td></tr><tr><td>员工人数</td><td>约200人</td></tr><tr><td>联系电话</td><td>025-88888888</td></tr><tr><td>电子邮箱</td><td>info@hongtutech.cn</td></tr><tr><td>资产总额</td><td>人民币1.2亿元，较上年同期下降30%</td></tr><tr><td>负债总额</td><td>人民币1.8亿元，较上年同期上升50%，资不抵债</td></tr><tr><td>营业收入</td><td>人民币3000万元，较上年同期下降60%</td></tr><tr><td>净利润</td><td>亏损人民币800万元，去年同期为盈利人民币200万元</td></tr><tr><td>现金流量</td><td>公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营</td></tr></table>', 'languages': ['zho', 'kor'], 'filetype': 'application/vnd.openxmlformats-officedocument.spreadsheetml.sheet', 'category': 'Table', 'element_id': '7ed30bdc7ad64071dae72ac

### 3. 整合1：动态文档加载器：支持多种格式

In [5]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader

# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
        # 定义类变量
        self.doc = None # 用于存储文件路径

    def getFile(self):
        """
        使用 LangChain 的加载器，加载不同类型的文件（docx, pdf, xlsx）
        """
        # 获取 self.doc 中存储的文件路径
        doc = self.doc 
        # 创建一个字典，将文件扩展名映射到对应的 LangChain 加载器类。
        loaders = {
            "docx": Docx2txtLoader,
            "pdf": PyPDFLoader,
            "xlsx": UnstructuredExcelLoader,
        }
        # 从文件路径中提取文件扩展名
        file_extension = doc.split(".")[-1]
        # 根据文件扩展名从 loaders 字典中获取加载器类
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                # 创建加载器实例
                loader = loader_class(doc)
                # 加载文件内容，返回 Document 对象列表
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
            # 如果没有找到对应的加载器类，打印异常信息
            print(f"Unsupported file extension: {file_extension}")
            return None


# 创建 ChatDoc 实例并调用 getFile 方法
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.xlsx"
chat_doc.getFile()

[Document(metadata={'source': './sources/fake.xlsx'}, page_content='名称 宏图科技发展有限公司 注册地址 江苏省南京市雨花台区软件大道101号 成立日期 40679 法定代表人 李强 注册资本 人民币5000万元 员工人数 约200人 联系电话 025-88888888 电子邮箱 info@hongtutech.cn 资产总额 人民币1.2亿元，较上年同期下降30% 负债总额 人民币1.8亿元，较上年同期上升50%，资不抵债 营业收入 人民币3000万元，较上年同期下降60% 净利润 亏损人民币800万元，去年同期为盈利人民币200万元 现金流量 公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营')]

### 4.整合2：增加了文本切割

In [6]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter

# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
         # 定义类变量
        self.doc = None
        self.splitText = [] # 用户存储分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return  None 

    def splitSentences(self):
        """
        处理文档分割的函数
        """
        full_text = self.getFile() # 获取文档内容
        if full_text != None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts


# 创建 ChatDoc 实例进行测试
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.xlsx"
chat_doc.splitSentences()
print(chat_doc.splitText)

[Document(metadata={'source': './sources/fake.xlsx'}, page_content='名称 宏图科技发展有限公司 注册地址 江苏省南京市雨花台区软件大道101号 成立日期 40679 法定代表人 李强 注册资本 人民币5000万元 员工人数 约200人 联系电话 025-88888888 电子邮箱 info@hongtutech.cn 资产总额 人民币1.2亿元，较上年同期下降30% 负债总额 人民币1.8亿元，较上年同期上升50%，资不抵债 营业收入 人民币3000万元，较上年同期下降60% 净利润 亏损人民币800万元，去年同期为盈利人民币200万元 现金流量 公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营')]


### 5.整合3：将分割后文本块进行向量化与索引存储

In [6]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
         # 定义类变量
        self.doc = None
        self.splitText = [] # 用户存储分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return  None 

    def splitSentences(self):
        """
        处理文档分割的函数
        """
        full_text = self.getFile() # 获取文档内容
        if full_text != None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts
    
    def embeddingAndVectorDB(self):
        """
        将分割后的文本块进行向量化并存储到 Chroma 向量数据库中
        """
        # 创建嵌入模型
        embeddings = OpenAIEmbeddings()
        # 创建一个 Chroma 向量数据库实例
        db = Chroma.from_documents(
            documents = self.splitText, # 分割后文档的列表
            embedding = embeddings, # 嵌入模型实例
        )
        # 返回创建的 Chroma 向量数据库实例
        return db

# 创建 ChatDoc 实例进行测试
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.docx"
chat_doc.splitSentences()
chat_doc.embeddingAndVectorDB()

<langchain_community.vectorstores.chroma.Chroma at 0x28f8c2c50>

### 6.整合4：通过向量数据库使用自然语言找出相关的文本块

In [7]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
         # 定义类变量
        self.doc = None
        self.splitText = [] # 用户存储分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return  None 

    def splitSentences(self):
        """
        处理文档分割的函数
        """
        full_text = self.getFile() # 获取文档内容
        if full_text != None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts
    
    def embeddingAndVectorDB(self):
        """
        将分割后的文本块进行向量化并存储到 Chroma 向量数据库中
        """
        # 创建嵌入模型
        embeddings = OpenAIEmbeddings()
        # 创建一个 Chroma 向量数据库实例
        db = Chroma.from_documents(
            documents = self.splitText, # 分割后文档的列表
            embedding = embeddings, # 嵌入模型实例
        )
        # 返回创建的 Chroma 向量数据库实例
        return db
    
    def askAndFindFiles(self, question):
        """
        接受一个问题（question）作为输入，并在向量数据库中查找与该问题相关的文档
        """
        # 创建向量数据库
        db = self.embeddingAndVectorDB()
        # 创建检索器:将向量数据库实例 db 转换为一个检索器（retriever）对象。检索器用于根据查询语句在向量数据库中查找相关文档。
        retriever = db.as_retriever()
        # 执行检索
        results = retriever.invoke(question)
        return results

# 创建 ChatDoc 实例进行测试
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.docx"
chat_doc.splitSentences()
chat_doc.askAndFindFiles("这家公司叫什么名字?")


  embeddings = OpenAIEmbeddings()


ValidationError: 1 validation error for OpenAIEmbeddings
  Value error, Did not find openai_api_key, please add an environment variable `OPENAI_API_KEY` which contains it, or pass `openai_api_key` as a named parameter. [type=value_error, input_value={'model_kwargs': {}, 'cli...20, 'http_client': None}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.10/v/value_error

### 7.优化1：多重查询：向量数据库与LLM协同提升检索精度

In [9]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
# 引入openai和多重向量检索
from langchain_openai.chat_models import ChatOpenAI
from langchain.retrievers.multi_query import MultiQueryRetriever


# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
         # 定义类变量
        self.doc = None
        self.splitText = [] # 用户存储分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return  None 

    def splitSentences(self):
        """
        处理文档分割的函数
        """
        full_text = self.getFile() # 获取文档内容
        if full_text != None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts
    
    def embeddingAndVectorDB(self):
        """
        将分割后的文本块进行向量化并存储到 Chroma 向量数据库中
        """
        # 创建嵌入模型
        embeddings = OpenAIEmbeddings()
        # 创建一个 Chroma 向量数据库实例
        db = Chroma.from_documents(
            documents = self.splitText, # 分割后文档的列表
            embedding = embeddings, # 嵌入模型实例
        )
        # 返回创建的 Chroma 向量数据库实例
        return db
    
    def askAndFindFiles(self, question):
        """
        接受一个问题（question）作为输入，并在向量数据库中查找与该问题相关的文档
        MultiQueryRetriever 的作用是：
        + 接受一个原始查询。
        + 使用 LLM 生成多个与原始查询相关的变体查询。
        + 使用这些变体查询在向量数据库中检索相关文档。
        + 将检索结果合并并返回。
        """
        # 创建向量数据库
        db = self.embeddingAndVectorDB()
        # 创建一个 ChatOpenAI 实例，用于生成多个相关查询。
        # temperature=0 表示模型将始终返回最可能的答案，从而提高结果的确定性。
        llm = ChatOpenAI(temperature=0)
        retriever_from_llm = MultiQueryRetriever.from_llm(
            retriever = db.as_retriever(),
            llm = llm,
        )
        return retriever_from_llm.get_relevant_documents(question)
    

# 创建 ChatDoc 实例进行测试
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.docx"
chat_doc.splitSentences()

# 设置下logging查看生成查询
import logging
logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.DEBUG)
unique_doc = chat_doc.askAndFindFiles("公司名称是什么?")
print(unique_doc)


INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"
  warn_deprecated(
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO:langchain.retrievers.multi_query:Generated queries: ['What is the name of the company?', 'What is the official title of the company?', 'Can you tell me the name of the organization?']
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"


[Document(page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn', metadata={'source': 'example/fake.docx'}), Document(page_content='7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：', metadata={'source': 'example/fake.docx'}), Document(page_content='4. 其他应付款项：包括税费、租赁费用等其他应付款项累计约人民币100万元。\n\n五、资产清单\n\n宏图科技发展有限公司目前拥有的主要资产包括：\n\n1. 固定资产：公司办公用房和设备原值合计人民币800万元，累计折旧约400万元。', metadata={'source': 'example/fake.docx'}), Document(page_content='报告撰写日期：2023年4月20日', metadata={'source': 'example/fake.docx'})]


### 8.优化2：使用上下文压缩检索降低冗余信息

In [10]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
#引入上下文压缩相关包
from langchain_community.llms import OpenAI
from langchain.retrievers.contextual_compression import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import  LLMChainExtractor

# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
         # 定义类变量
        self.doc = None
        self.splitText = [] # 用户存储分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return  None 

    def splitSentences(self):
        """
        处理文档分割的函数
        """
        full_text = self.getFile() # 获取文档内容
        if full_text != None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts
    
    def embeddingAndVectorDB(self):
        """
        将分割后的文本块进行向量化并存储到 Chroma 向量数据库中
        """
        # 创建嵌入模型
        embeddings = OpenAIEmbeddings()
        # 创建一个 Chroma 向量数据库实例
        db = Chroma.from_documents(
            documents = self.splitText, # 分割后文档的列表
            embedding = embeddings, # 嵌入模型实例
        )
        # 返回创建的 Chroma 向量数据库实例
        return db
    
    def askAndFindFiles(self, question):
        """
        LLMChainExtractor 是一种压缩器，用于减少文档的长度，只保留与查询相关的信息。
        """
        db = self.embeddingAndVectorDB()
        retriever = db.as_retriever()
        # 创建一个 OpenAI 实例，用于文档压缩
        llm = OpenAI(temperature=0)
        # 创建一个 LLMChainExtractor 实例，它使用 LLM 从检索到的文档中提取相关信息。
        compressor = LLMChainExtractor.from_llm(
            llm=llm,
        )
        # 创建上下文压缩检索器
        compressor_retriever = ContextualCompressionRetriever(
            base_retriever=retriever,
            base_compressor=compressor,
        )
        # 执行检索并返回结果
        return compressor_retriever.get_relevant_documents(query=question)


# 创建 ChatDoc 实例进行测试
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.docx"
chat_doc.splitSentences()

# 设置下logging查看生成查询
import logging
logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.DEBUG)
unique_doc = chat_doc.askAndFindFiles("这间公司的负债有多少？")
print(unique_doc)


INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"
  warn_deprecated(
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/completions "HTTP/1.1 200 OK"


[Document(page_content='银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。', metadata={'source': 'example/fake.docx'}), Document(page_content='银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。', metadata={'source': 'example/fake.docx'}), Document(page_content='银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。', metadata={'source': 'example/fake.docx'}), Document(page_content='四、债权债务情况\n\n宏图科技发展有限公司目前面临的债务问题严峻，具体情况如下：', metadata={'source': 'example/fake.docx'})]


### 9.优化3：在向量存储里使用最大边际相似性（MMR）和相似性打分

In [12]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma


# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
         # 定义类变量
        self.doc = None
        self.splitText = [] # 用户存储分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return  None 

    def splitSentences(self):
        """
        处理文档分割的函数
        """
        full_text = self.getFile() # 获取文档内容
        if full_text != None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts
    
    def embeddingAndVectorDB(self):
        """
        将分割后的文本块进行向量化并存储到 Chroma 向量数据库中
        """
        # 创建嵌入模型
        embeddings = OpenAIEmbeddings()
        # 创建一个 Chroma 向量数据库实例
        db = Chroma.from_documents(
            documents = self.splitText, # 分割后文档的列表
            embedding = embeddings, # 嵌入模型实例
        )
        # 返回创建的 Chroma 向量数据库实例
        return db
    
    #提问并找到相关的文本块
    def askAndFindFiles(self, question):
        db = self.embeddingAndVectorDB()
        # 使用 MMR（最大边际相关性）检索类型，提高检索结果的多样性
        # retriever = db.as_retriever(search_type="mmr")
        # 使用了 similarity_score_threshold （基于相似度得分阈值的检索）作为检索类型，并设置了特定的阈值
        # "score_threshold": 0.1：指定相似度得分阈值为 0.1。只有相似度得分大于或等于 0.1 的文档才会被返回。
        # "k": 1：指定返回的文档数量为 1
        retriever = db.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold":.1,"k":1})
        return retriever.get_relevant_documents(query=question)
        

# 创建 ChatDoc 实例进行测试
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.docx"
chat_doc.splitSentences()

# 设置下logging查看生成查询
import logging
logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.DEBUG)
unique_doc = chat_doc.askAndFindFiles("这家公司的地址在哪里?")
print(unique_doc)


INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ai-yyds.com/v1/embeddings "HTTP/1.1 200 OK"


[Document(page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn', metadata={'source': 'example/fake.docx'})]


### 10.用自然语言与文档聊天

In [None]:
from langchain_community.document_loaders import UnstructuredExcelLoader, Docx2txtLoader, PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
# 导入聊天所需要的模块
from langchain_openai.chat_models import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate

# 定义 ChatDoc 类
class ChatDoc():
    
    def __init__(self):
         # 定义类变量
        self.doc = None
        self.splitText = [] # 用户存储分割后的文本
        self.template =[
            ("system", "你是一个处理文档的秘书，你从不说自己是一个大模型或AI助手。你会根据下面提供的上下文内容来继续回来打问题。\n上下文内容\b{context}\n"),
            ("human", "你好！"),
            ("ai", "你好！"),
            ("human", "{question}"),
        ]
        self.prompt = ChatPromptTemplate.from_messages(self.template)

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return  None 

    def splitSentences(self):
        """
        处理文档分割的函数
        """
        full_text = self.getFile() # 获取文档内容
        if full_text != None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts
    
    def embeddingAndVectorDB(self):
        """
        将分割后的文本块进行向量化并存储到 Chroma 向量数据库中
        """
        # 创建嵌入模型
        embeddings = OpenAIEmbeddings()
        # 创建一个 Chroma 向量数据库实例
        db = Chroma.from_documents(
            documents = self.splitText, # 分割后文档的列表
            embedding = embeddings, # 嵌入模型实例
        )
        # 返回创建的 Chroma 向量数据库实例
        return db
    
    #提问并找到相关的文本块
    def askAndFindFiles(self, question):
        db = self.embeddingAndVectorDB()
        # 使用 MMR（最大边际相关性）检索类型，提高检索结果的多样性
        # retriever = db.as_retriever(search_type="mmr")
        # 使用了 similarity_score_threshold （基于相似度得分阈值的检索）作为检索类型，并设置了特定的阈值
        # "score_threshold": 0.1：指定相似度得分阈值为 0.1。只有相似度得分大于或等于 0.1 的文档才会被返回。
        # "k": 1：指定返回的文档数量为 1
        retriever = db.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold":.1,"k":1})
        return retriever.get_relevant_documents(query=question)
        
    def chatWithDoc(self, question):
        _content = ""
        context = self.askAndFindFiles(question)
        for i in context:
            _content += i.page_content
        
        messages = self.prompt.format_messages(context=_content, question=question)
        chat = ChatOpenAI(
            model="gpt-4",
            temperature=0
        )
        return chat.invoke(messages)


# 创建 ChatDoc 实例进行测试
chat_doc = ChatDoc()
chat_doc.doc = "./sources/fake.docx"
chat_doc.splitSentences()

# chat_doc.chatWithDoc("你是谁？")
# chat_doc.chatWithDoc("这家公司目前是盈利还是亏损？")
# chat_doc.chatWithDoc("这家公司的主要业务是什么？")
# chat_doc.chatWithDoc("公司在什么地方？")
chat_doc.chatWithDoc("公司的注册地址在哪？")