# ChatDoc 文档对话助手
+ 可以加载PDF、doc、xsl格式文档
+ 可以对文档进行适当切分
+ 使用国产嵌入模型进行向量化
+ 使用Chomadb实现本地向量存储
+ 使用智能检索实现和文档的对话

In [10]:
# 安装依赖
! pip install docx2txt==0.8
! pip install pandas openpyxl

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting pandas
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/d3/a4/f7edcfa47e0a88cda0be8b068a5bae710bf264f867edfdf7b71584ace362/pandas-2.3.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.0/12.0 MB[0m [31m922.6 kB/s[0m  [33m0:00:12[0m0:00:01[0m00:01[0m
[?25hCollecting openpyxl
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/c0/da/977ded879c29cbd04de313843e76868e6e13408a94ed6b987245dc7c8506/openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached https://pypi.tuna.tsinghua.edu.cn/packages/81/c4/34e93fe5f5429d7570ec1fa436f1986fb1f00c3e0f43a589fe2bbcd22c3f/pytz-2025.2-py2.py3-none-any.whl (509 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached https://pypi.tuna.tsinghua.edu.cn/packages/5c/23/c7abc0ca0a1

In [1]:
import os
from dotenv import load_dotenv

# 加载 .env 文件中的环境变量
load_dotenv(override=True)  # 使用 override=True 确保加载最新的 .env 数据

True

In [4]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model=os.environ.get("OPENAPI_MODEL"),
    base_url=os.environ.get("OPENAPI_API_BASE"),
    api_key=os.environ.get("OPENAPI_API_KEY"),
    temperature=0,
)

In [5]:
from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(
    model="BAAI/bge-m3",
    # https://api.siliconflow.cn/v1/embeddings
    base_url=os.environ.get("SILICONFLOW_API_BASE"),
    api_key=os.environ.get("SILICONFLOW_API_KEY"),
)


## 构造loader

In [None]:
from langchain_community.document_loaders import Docx2txtLoader


# 定义chatdoc
class ChatDoc:
    def getFile():
        # 读取文件
        # Load the text from the docx file
        loader = Docx2txtLoader("../../sources/fake.docx")
        text = loader.load()
        return text


ChatDoc.getFile()

[Document(metadata={'source': '../../sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn\n\n\n\n二、财务状况概述\n\n截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下：\n\n1. 资产总额：人民币1.2亿元，较上年同期下降30%。\n\n2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。\n\n3. 营业收入：人民币3000万元，较上年同期下降60%。\n\n4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。\n\n5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。\n\n6. 存货：存货积压严重，库存商品价值约为人民币400万元，大部分产品滞销。\n\n7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：\n\n1. 产品同质化严重，缺乏核心竞争力。\n\n2. 新产品开发进度缓慢，未能及时抓住市场需求变化。\n\n3. 市场营销策略不当，导致市场份额大幅缩水。\n\n4. 行业内新兴企业崛起迅速，原有客户流失严重。\n\n\n\n四、债权债务情况\n\n宏图科技发展有限公司目前面临的债务问题严峻，具体情况如下：\n\n1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。\n\n4. 其他应付款项：包括税费、租赁费用等其他应付款项累计约人民币100万元。\

In [9]:
# 加载PDF
from langchain_community.document_loaders import PyPDFLoader


# 定义chatdoc
class ChatDoc:
    def getFile():
        try:
            # 读取文件
            # Load the text from the pdf file
            loader = PyPDFLoader("../../sources/fake.pdf")
            text = loader.load()
            return text
        except Exception as e:
            print(f"Error loading files:{e}")


ChatDoc.getFile()

Ignoring wrong pointing object 6 0 (offset 0)


[Document(metadata={'producer': 'macOS 版本14.1.1（版号23B81） Quartz PDFContext', 'creator': 'PyPDF', 'creationdate': "D:20231205083748Z00'00'", 'moddate': "D:20231205083748Z00'00'", 'source': '../../sources/fake.pdf', 'total_pages': 3, 'page': 0, 'page_label': '1'}, page_content='一、公司基本信息 名称：宏图科技发展有限公司 注册地址：江苏省南京市雨花台区软件大道101号 成立日期：2011年5月16日 法定代表人：李强 注册资本：人民币5000万元 员工人数：约200人 联系电话：025-88888888 电子邮箱：info@hongtutech.cn  二、财务状况概述 截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下： 1. 资产总额：人民币1.2亿元，较上年同期下降30%。 2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。 3. 营业收入：人民币3000万元，较上年同期下降60%。 4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。 5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。 6. 存货： 存货积压严重， 库存商品价值约为人民币400万元， 大部分产品滞销。 7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。  三、主营业务及市场状况 宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有： 1. 产品同质化严重，缺乏核心竞争力。 2. 新产品开发进度缓慢，未能及时抓住市场需求变化。 3. 市场营销策略不当，导致市场份额大幅缩水。'),
 Document(metadata={'producer': 'macOS 版本14.1.1（版号23B81） Quartz PDFContext', 'creator': 'PyPDF', 'creationd

In [11]:
# 加载PDF

from langchain_community.document_loaders import UnstructuredExcelLoader


# 定义chatdoc
# defining chatDoc
class ChatDoc:
    def getFile():
        try:
            # 读取文件
            # Load the text from the excel file
            loader = UnstructuredExcelLoader("../../sources/fake.xlsx", mode="elements")
            text = loader.load()
            return text
        except Exception as e:
            print(f"Error loading files:{e}")


ChatDoc.getFile()

Error loading files:No module named 'msoffcrypto'


整合优化，动态加载三种文件格式，增加文本切割

In [28]:
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import (
    UnstructuredExcelLoader,
    Docx2txtLoader,
    PyPDFLoader,
)


# 定义chatdoc
# defining ChatDoc
class ChatDoc:
    def __init__(self):
        self.doc = None
        self.splitText = []  # 分割后的文本 splted text

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx": Docx2txtLoader,
            "pdf": PyPDFLoader,
            "xlsx": UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e:
                pring(f"Error loading {file_extension} files:{e}")
        else:
            print(f"Unsupported file extension: {file_extension}")
            return None

    # 处理文档的函数
    def splitSentences(self):
        full_text = self.getFile()  # 获取文档内容
        if full_text is not None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts


# 使用方式
chat_doc = ChatDoc()
chat_doc.doc = "../../sources/fake.docx"
chat_doc.splitSentences()
print(chat_doc.splitText)

[Document(metadata={'source': '../../sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='二、财务状况概述\n\n截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下：\n\n1. 资产总额：人民币1.2亿元，较上年同期下降30%。\n\n2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。\n\n3. 营业收入：人民币3000万元，较上年同期下降60%。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。\n\n5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。\n\n6. 存货：存货积压严重，库存商品价值约为人民币400万元，大部分产品滞销。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='1. 产品同质化严重，缺乏核心竞争力。\n\n2. 新产品开发进度缓慢，未能及时抓住市场需求变

## 向量化与存储索引

In [13]:
! pip install langchain_chroma

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


In [29]:
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import (
    UnstructuredExcelLoader,
    Docx2txtLoader,
    PyPDFLoader,
)
from langchain_chroma import Chroma


# 定义chatdoc
# defining ChatDoc
class ChatDoc:
    def __init__(self):
        self.doc = None
        self.splitText = []  # 分割后的文本 splted text

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx": Docx2txtLoader,
            "pdf": PyPDFLoader,
            "xlsx": UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e:
                pring(f"Error loading {file_extension} files:{e}")
        else:
            print(f"Unsupported file extension: {file_extension}")
            return None

    # 处理文档的函数
    def splitSentences(self):
        full_text = self.getFile()  # 获取文档内容
        if full_text is not None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        db = Chroma.from_documents(
            documents=self.splitText,
            embedding=embeddings_model,
        )
        return db

    #  提问并找到相关的文本块，使用最简单的检索器
    def askAndFindFiles(self, question):
        db = self.embeddingAndVectorDB()
        retriever = db.as_retriever()
        results = retriever.invoke(question)
        return results


# 使用方式
chat_doc = ChatDoc()
chat_doc.doc = "../../sources/fake.docx"
chat_doc.splitSentences()
print(chat_doc.splitText)
chat_doc.embeddingAndVectorDB()
chat_doc.askAndFindFiles("这家公司叫什么名字？")


[Document(metadata={'source': '../../sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='二、财务状况概述\n\n截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下：\n\n1. 资产总额：人民币1.2亿元，较上年同期下降30%。\n\n2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。\n\n3. 营业收入：人民币3000万元，较上年同期下降60%。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。\n\n5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。\n\n6. 存货：存货积压严重，库存商品价值约为人民币400万元，大部分产品滞销。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='1. 产品同质化严重，缺乏核心竞争力。\n\n2. 新产品开发进度缓慢，未能及时抓住市场需求变

INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"


[Document(id='cc4c5b05-45d9-49b7-9c9b-6e7feb9a0f16', metadata={'source': '../../sources/fake.docx'}, page_content='1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。'),
 Document(id='12475ce3-cf5b-4f20-9b34-7f33c1090bd1', metadata={'source': '../../sources/fake.docx'}, page_content='1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。'),
 Document(id='f5bfd362-c922-4dfa-9fa6-6f8a5d7f5a8d', metadata={'source': '../../sources/fake.docx'}, page_content='1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。'),
 Document(id='3c9a2b17-d8b8-403c-951b-341f5c7985be', metadata={'source': '../../sources/fake.docx'}, page_content='1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。')]

## 使用查询重写提高文档检索精确度

In [30]:
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import (
    UnstructuredExcelLoader,
    Docx2txtLoader,
    PyPDFLoader,
)
from langchain_chroma import Chroma

from langchain.retrievers.multi_query import MultiQueryRetriever


# 定义chatdoc
# defining ChatDoc
class ChatDoc:
    def __init__(self):
        self.doc = None
        self.splitText = []  # 分割后的文本 splted text

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx": Docx2txtLoader,
            "pdf": PyPDFLoader,
            "xlsx": UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e:
                pring(f"Error loading {file_extension} files:{e}")
        else:
            print(f"Unsupported file extension: {file_extension}")
            return None

    # 处理文档的函数
    def splitSentences(self):
        full_text = self.getFile()  # 获取文档内容
        if full_text is not None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        db = Chroma.from_documents(
            documents=self.splitText,
            embedding=embeddings_model,
        )
        return db

    #  提问并找到相关的文本块，使用最简单的检索器
    def askAndFindFiles(self, question):
        db = self.embeddingAndVectorDB()
        retriever_from_llm = MultiQueryRetriever.from_llm(
            retriever=db.as_retriever(),
            llm=llm,
        )
        results = retriever_from_llm.invoke(question)
        return results


import logging

logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

# 使用方式
chat_doc = ChatDoc()
chat_doc.doc = "../../sources/fake.docx"
chat_doc.splitSentences()
print(chat_doc.splitText)
chat_doc.embeddingAndVectorDB()
result = chat_doc.askAndFindFiles("这家公司叫什么名字？")
print(result)


[Document(metadata={'source': '../../sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='二、财务状况概述\n\n截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下：\n\n1. 资产总额：人民币1.2亿元，较上年同期下降30%。\n\n2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。\n\n3. 营业收入：人民币3000万元，较上年同期下降60%。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。\n\n5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。\n\n6. 存货：存货积压严重，库存商品价值约为人民币400万元，大部分产品滞销。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='1. 产品同质化严重，缺乏核心竞争力。\n\n2. 新产品开发进度缓慢，未能及时抓住市场需求变

INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ark.cn-beijing.volces.com/api/v3/chat/completions "HTTP/1.1 200 OK"
INFO:langchain.retrievers.multi_query:Generated queries: ['1. 这家企业的名称是什么？  ', '2. 这个公司的正式名称是什么？  ', '3. 这家机构的注册名称是什么？']
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"


[Document(id='365c0146-8f36-4e33-82e2-b5e7e5db7ff1', metadata={'source': '../../sources/fake.docx'}, page_content='报告撰写日期：2023年4月20日'), Document(id='996b2210-0900-41ad-92be-8e39f3e11bb7', metadata={'source': '../../sources/fake.docx'}, page_content='报告撰写日期：2023年4月20日'), Document(id='263baa6e-644c-46cb-8887-0eebca70b2d1', metadata={'source': '../../sources/fake.docx'}, page_content='报告撰写日期：2023年4月20日'), Document(id='7b81f937-8fb8-413d-ab05-5a49dcfe8482', metadata={'source': '../../sources/fake.docx'}, page_content='报告撰写日期：2023年4月20日'), Document(id='6c0f48e9-2da6-454a-8741-3f64cec7bc13', metadata={'source': '../../sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn'), Document(id='fcfb2070-9787-416e-9127-d108b57ec2ed', metadata={'source': '../../sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：201

## 使用上下文压缩

In [31]:
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import (
    UnstructuredExcelLoader,
    Docx2txtLoader,
    PyPDFLoader,
)
from langchain_chroma import Chroma
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor


# 定义chatdoc
# defining ChatDoc
class ChatDoc:
    def __init__(self):
        self.doc = None
        self.splitText = []  # 分割后的文本 splted text

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx": Docx2txtLoader,
            "pdf": PyPDFLoader,
            "xlsx": UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e:
                pring(f"Error loading {file_extension} files:{e}")
        else:
            print(f"Unsupported file extension: {file_extension}")
            return None

    # 处理文档的函数
    def splitSentences(self):
        full_text = self.getFile()  # 获取文档内容
        if full_text is not None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        db = Chroma.from_documents(
            documents=self.splitText,
            embedding=embeddings_model,
        )
        return db

    #  提问并找到相关的文本块，使用最简单的检索器
    def askAndFindFiles(self, question):
        db = self.embeddingAndVectorDB()
        retriever = db.as_retriever()

        # 从LLM中提取压缩器
        compressor = LLMChainExtractor.from_llm(llm=llm)

        # 创建上下文压缩检索器
        compressor_retriever = ContextualCompressionRetriever(
            base_compressor=compressor,
            base_retriever=retriever,
        )
        results = compressor_retriever.invoke(question)
        return results


import logging

logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

# 使用方式
chat_doc = ChatDoc()
chat_doc.doc = "../../sources/fake.docx"
chat_doc.splitSentences()
print(chat_doc.splitText)
chat_doc.embeddingAndVectorDB()
result = chat_doc.askAndFindFiles("这家公司叫什么名字？")
print(result)


INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"


[Document(metadata={'source': '../../sources/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='二、财务状况概述\n\n截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下：\n\n1. 资产总额：人民币1.2亿元，较上年同期下降30%。\n\n2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。\n\n3. 营业收入：人民币3000万元，较上年同期下降60%。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。\n\n5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。\n\n6. 存货：存货积压严重，库存商品价值约为人民币400万元，大部分产品滞销。'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：'), Document(metadata={'source': '../../sources/fake.docx'}, page_content='1. 产品同质化严重，缺乏核心竞争力。\n\n2. 新产品开发进度缓慢，未能及时抓住市场需求变

INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ark.cn-beijing.volces.com/api/v3/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ark.cn-beijing.volces.com/api/v3/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ark.cn-beijing.volces.com/api/v3/chat/completions "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ark.cn-beijing.volces.com/api/v3/chat/completions "HTTP/1.1 200 OK"


[]


## 在向量存储中使用最大边际相似性（MMR）和相似性打分

In [32]:
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import (
    UnstructuredExcelLoader,
    Docx2txtLoader,
    PyPDFLoader,
)
from langchain_chroma import Chroma
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor


# 定义chatdoc
# defining ChatDoc
class ChatDoc:
    def __init__(self):
        self.doc = None
        self.splitText = []  # 分割后的文本 splted text

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx": Docx2txtLoader,
            "pdf": PyPDFLoader,
            "xlsx": UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e:
                pring(f"Error loading {file_extension} files:{e}")
        else:
            print(f"Unsupported file extension: {file_extension}")
            return None

    # 处理文档的函数
    def splitSentences(self):
        full_text = self.getFile()  # 获取文档内容
        if full_text is not None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        db = Chroma.from_documents(
            documents=self.splitText,
            embedding=embeddings_model,
        )
        return db

    #  提问并找到相关的文本块，使用最简单的检索器
    def askAndFindFiles(self, question):
        db = self.embeddingAndVectorDB()

        # MMR方式
        # retriever = db.as_retriever(
        #     search_type="mmr",
        # )

        # 相似性打分方式
        retriever = db.as_retriever(
            search_type="similarity_score_threshold",
            search_kwargs={"score_threshold": 0.2, "k": 1},
        )
        results = retriever.invoke(question)
        return results


import logging

logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

# 使用方式
chat_doc = ChatDoc()
chat_doc.doc = "../../sources/fake.docx"
chat_doc.splitSentences()
chat_doc.embeddingAndVectorDB()
result = chat_doc.askAndFindFiles("这家公司叫什么名字？")
print(result)


INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"


[Document(id='eb3b081d-59ba-4b73-8495-93a05499cd0a', metadata={'source': '../../sources/fake.docx'}, page_content='1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。')]


### 封装为链

In [34]:
from langchain_text_splitters import CharacterTextSplitter
from langchain_core.prompts import ChatPromptTemplate
from langchain_community.document_loaders import (
    UnstructuredExcelLoader,
    Docx2txtLoader,
    PyPDFLoader,
)
from langchain_chroma import Chroma


# 定义chatdoc
# defining ChatDoc
class ChatDoc:
    def __init__(self):
        self.doc = None
        self.splitText = []  # 分割后的文本 splted text
        self.template = [
            (
                "system",
                "你是一个处理文档的秘书，你从不说自己是一个大模型或者AI助手，你会根据下面提供的上下文内容来继续回答问题。\n上下文内容\n {content} \n",
            ),
            ("human", "你好"),
            ("ai", "你好"),
            ("human", "{question}"),
        ]
        self.prompt = ChatPromptTemplate.from_messages(self.template)

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx": Docx2txtLoader,
            "pdf": PyPDFLoader,
            "xlsx": UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e:
                pring(f"Error loading {file_extension} files:{e}")
        else:
            print(f"Unsupported file extension: {file_extension}")
            return None

    # 处理文档的函数
    def splitSentences(self):
        full_text = self.getFile()  # 获取文档内容
        if full_text is not None:
            # 对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        db = Chroma.from_documents(
            documents=self.splitText,
            embedding=embeddings_model,
        )
        return db

    #  提问并找到相关的文本块，使用最简单的检索器
    def askAndFindFiles(self, question):
        db = self.embeddingAndVectorDB()

        # MMR方式
        retriever = db.as_retriever(
            search_type="mmr",
        )
        results = retriever.invoke(question)
        return results

    def chatWithDoc(self, question):
        _content = ""
        context = self.askAndFindFiles(question)
        for i in context:
            _content += i.page_content

        messages = self.prompt.format_messages(
            content=_content,
            question=question,
        )
        str_out = ""
        for chunk in llm.stream(messages):
            str_out += chunk.content
            print(str_out)


import logging

logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

# 使用方式
chat_doc = ChatDoc()
chat_doc.doc = "../../sources/fake.docx"
chat_doc.splitSentences()
chat_doc.embeddingAndVectorDB()
result = chat_doc.chatWithDoc("这家公司叫什么名字？")
print(result)


INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://api.siliconflow.cn/v1/embeddings "HTTP/1.1 200 OK"
INFO:httpx:HTTP Request: POST https://ark.cn-beijing.volces.com/api/v3/chat/completions "HTTP/1.1 200 OK"


根据
根据提供的
根据提供的上下文
根据提供的上下文内容
根据提供的上下文内容，
根据提供的上下文内容，目前
根据提供的上下文内容，目前文档
根据提供的上下文内容，目前文档中
根据提供的上下文内容，目前文档中并未
根据提供的上下文内容，目前文档中并未提及
根据提供的上下文内容，目前文档中并未提及该
根据提供的上下文内容，目前文档中并未提及该公司的
根据提供的上下文内容，目前文档中并未提及该公司的具体
根据提供的上下文内容，目前文档中并未提及该公司的具体名称
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开，
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开，包括
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开，包括银行贷款
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开，包括银行贷款、
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开，包括银行贷款、供应商
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开，包括银行贷款、供应商欠
根据提供的上下文内容，目前文档中并未提及该公司的具体名称。所有信息均围绕财务欠款问题展开，包括银行贷款、供应商欠款
根据提供的上下文内容，目前文档中并未提及该公司