## Chatdoc 实现目标
- 可以加载PDF或者xsl格式文档
- 可以对文档进行适当切分
- 使用openai进行向量化
- 使用Chomadb实现本地向量存储
- 使用智能检索实现和文档的对话

### 1. 安装相关包

In [None]:
! pip install docx2txt
! pip install pypdf
! pip install nltk

### 2. 测试加载docx文档

In [1]:
from langchain.document_loaders import Docx2txtLoader

#定义chatdoc
class ChatDoc():
    def getFile():
        #读取文件
        loader = Docx2txtLoader("example/fake.docx")
        text = loader.load()
        return text;

ChatDoc.getFile()

[Document(metadata={'source': 'example/fake.docx'}, page_content='一、公司基本信息\n\n名称：宏图科技发展有限公司\n\n注册地址：江苏省南京市雨花台区软件大道101号\n\n成立日期：2011年5月16日\n\n法定代表人：李强\n\n注册资本：人民币5000万元\n\n员工人数：约200人\n\n联系电话：025-88888888\n\n电子邮箱：info@hongtutech.cn\n\n\n\n二、财务状况概述\n\n截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下：\n\n1. 资产总额：人民币1.2亿元，较上年同期下降30%。\n\n2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。\n\n3. 营业收入：人民币3000万元，较上年同期下降60%。\n\n4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。\n\n5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。\n\n6. 存货：存货积压严重，库存商品价值约为人民币400万元，大部分产品滞销。\n\n7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。\n\n\n\n三、主营业务及市场状况\n\n宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有：\n\n1. 产品同质化严重，缺乏核心竞争力。\n\n2. 新产品开发进度缓慢，未能及时抓住市场需求变化。\n\n3. 市场营销策略不当，导致市场份额大幅缩水。\n\n4. 行业内新兴企业崛起迅速，原有客户流失严重。\n\n\n\n四、债权债务情况\n\n宏图科技发展有限公司目前面临的债务问题严峻，具体情况如下：\n\n1. 银行贷款：公司向多家银行贷款总额达人民币1亿元，部分贷款已逾期未还。\n\n2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。\n\n3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。\n\n4. 其他应付款项：包括税费、租赁费用等其他应付款项累计约人民币100万元。\n\n\n\

### 3. 测试加载pdf文档

In [2]:
from langchain.document_loaders import PyPDFLoader

#定义chatdoc
class ChatDoc():
    def getFile():
        try:
            #读取文件
            loader = PyPDFLoader("example/fake.pdf")
            text = loader.load()
            return text;
        except Exception as e:
            print(f"Error loading files:{e}")
                                 
ChatDoc.getFile()

Ignoring wrong pointing object 6 0 (offset 0)


[Document(metadata={'source': 'example/fake.pdf', 'page': 0, 'page_label': '1'}, page_content=' 一、公司基本信息 名称：宏图科技发展有限公司 注册地址：江苏省南京市雨花台区软件大道101号 成立日期：2011年5月16日 法定代表人：李强 注册资本：人民币5000万元 员工人数：约200人 联系电话：025-88888888 电子邮箱：info@hongtutech.cn  二、财务状况概述 截至2023年第一季度，宏图科技发展有限公司财务状况堪忧，具体情况如下： 1. 资产总额：人民币1.2亿元，较上年同期下降30%。 2. 负债总额：人民币1.8亿元，较上年同期上升50%，资不抵债。 3. 营业收入：人民币3000万元，较上年同期下降60%。 4. 净利润：亏损人民币800万元，去年同期为盈利人民币200万元。 5. 现金流量：公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营。 6. 存货： 存货积压严重， 库存商品价值约为人民币400万元， 大部分产品滞销。 7. 应收账款：应收账款高达人民币600万元，回收难度大，坏账准备不足。  三、主营业务及市场状况 宏图科技发展有限公司主要从事计算机软件的研发与销售。近年来，由于市场竞争加剧、技术更新换代速度快和管理层决策失误等原因，公司主营业务收入持续下降。目前，公司面临的主要问题有： 1. 产品同质化严重，缺乏核心竞争力。 2. 新产品开发进度缓慢，未能及时抓住市场需求变化。 3. 市场营销策略不当，导致市场份额大幅缩水。 '),
 Document(metadata={'source': 'example/fake.pdf', 'page': 1, 'page_label': '2'}, page_content='4. 行业内新兴企业崛起迅速，原有客户流失严重。  四、债权债务情况 宏图科技发展有限公司目前面临的债务问题严峻，具体情况如下： 1. 银行贷款： 公司向多家银行贷款总额达人民币1亿元， 部分贷款已逾期未还。 2. 供应商欠款：因现金流紧张，公司拖欠供应商货款达人民币300万元。 3. 员工工资及社保：由于资金链断裂，公司拖欠员工工资及社保费用共计人民币200万元。 4. 其他应付

### 4. 测试加载xlsx文档

In [3]:
from langchain.document_loaders import UnstructuredExcelLoader

#定义chatdoc
class ChatDoc():
    def getFile():
        try:
            #读取文件
            loader = UnstructuredExcelLoader("example/fake.xlsx",mode="elements")
            text = loader.load()
            return text;
        except Exception as e:
            print(f"Error loading files:{e}")
            
ChatDoc.getFile()

[Document(metadata={'source': 'example/fake.xlsx', 'file_directory': 'example', 'filename': 'fake.xlsx', 'last_modified': '2024-04-12T12:05:13', 'page_name': 'Sheet1', 'page_number': 1, 'text_as_html': '<table border="1" class="dataframe">\n  <tbody>\n    <tr>\n      <td>名称</td>\n      <td>宏图科技发展有限公司</td>\n    </tr>\n    <tr>\n      <td>注册地址</td>\n      <td>江苏省南京市雨花台区软件大道101号</td>\n    </tr>\n    <tr>\n      <td>成立日期</td>\n      <td>40679</td>\n    </tr>\n    <tr>\n      <td>法定代表人</td>\n      <td>李强</td>\n    </tr>\n    <tr>\n      <td>注册资本</td>\n      <td>人民币5000万元</td>\n    </tr>\n    <tr>\n      <td>员工人数</td>\n      <td>约200人</td>\n    </tr>\n    <tr>\n      <td>联系电话</td>\n      <td>025-88888888</td>\n    </tr>\n    <tr>\n      <td>电子邮箱</td>\n      <td>info@hongtutech.cn</td>\n    </tr>\n    <tr>\n      <td>资产总额</td>\n      <td>人民币1.2亿元，较上年同期下降30%</td>\n    </tr>\n    <tr>\n      <td>负债总额</td>\n      <td>人民币1.8亿元，较上年同期上升50%，资不抵债</td>\n    </tr>\n    <tr>\n      <td>营业收入</td>\n      

### 5. 整合优化，动态加载三种文件格式，并添加分割

In [6]:
from langchain.document_loaders import UnstructuredExcelLoader,Docx2txtLoader,PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter

#定义chatdoc
class ChatDoc():
    def __init__(self):
        self.doc = None
        self.splitText = [] #分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return None

    # 处理文档的函数，对文档进行分割
    def splitSentences(self):
        full_text = self.getFile() #获取文档内容
        if full_text != None:
            #对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

chat_doc = ChatDoc()
chat_doc.doc = "example/fake.xlsx"
chat_doc.splitSentences()
print(chat_doc.splitText)

[Document(metadata={'source': 'example/fake.xlsx'}, page_content='名称\n宏图科技发展有限公司\n\n\n注册地址\n江苏省南京市雨花台区软件大道101号\n\n\n成立日期\n40679\n\n\n法定代表人\n李强\n\n\n注册资本\n人民币5000万元\n\n\n员工人数\n约200人\n\n\n联系电话\n025-88888888\n\n\n电子邮箱\ninfo@hongtutech.cn'), Document(metadata={'source': 'example/fake.xlsx'}, page_content='资产总额\n人民币1.2亿元，较上年同期下降30%\n\n\n负债总额\n人民币1.8亿元，较上年同期上升50%，资不抵债\n\n\n营业收入\n人民币3000万元，较上年同期下降60%\n\n\n净利润\n亏损人民币800万元，去年同期为盈利人民币200万元'), Document(metadata={'source': 'example/fake.xlsx'}, page_content='现金流量\n公司现金流量紧张，现金及现金等价物余额为人民币500万元，难以支撑日常运营')]


### 6. 向量化与存储索引

In [None]:
from langchain.document_loaders import UnstructuredExcelLoader,Docx2txtLoader,PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

#定义chatdoc
class ChatDoc():
    def __init__(self):
        self.doc = None
        self.splitText = [] #分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return None

    # 处理文档的函数，对文档进行分割
    def splitSentences(self):
        full_text = self.getFile() #获取文档内容
        if full_text != None:
            #对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        embeddings = OpenAIEmbeddings()
        db =Chroma.from_documents(
            documents = self.splitText,
            embedding = embeddings,
        )
        return db
    
chat_doc = ChatDoc()
chat_doc.doc = "example/fake.xlsx"
chat_doc.splitSentences()
chat_doc.embeddingAndVectorDB()

### 7. 索引并使用自然语言找出相关的文本块

In [None]:
from langchain.document_loaders import UnstructuredExcelLoader,Docx2txtLoader,PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

#定义chatdoc
class ChatDoc():
    def __init__(self):
        self.doc = None
        self.splitText = [] #分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return None

    # 处理文档的函数，对文档进行分割
    def splitSentences(self):
        full_text = self.getFile() #获取文档内容
        if full_text != None:
            #对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        embeddings = OpenAIEmbeddings()
        db =Chroma.from_documents(
            documents = self.splitText,
            embedding = embeddings,
        )
        return db

    # 提问并找到相关的文本块
    def askAndFindFiles(self,question):
        db = self.embeddingAndVectorDB()
        # 建立索引
        retriever = db.as_retriever()
        # 检索问题
        results = retriever.invoke(question)
        return results
    
chat_doc = ChatDoc()
chat_doc.doc = "example/fake.xlsx"
chat_doc.splitSentences()
chat_doc.askAndFindFiles("这家公司叫什么名字?")

### 8-1. 检索优化：使用多重查询提高文档检索精确度
- 首先会对问题进行扩展，扩展成3个问题
- 针对这个3个问题的回答取交集

In [None]:
from langchain.document_loaders import UnstructuredExcelLoader,Docx2txtLoader,PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
#引入openai和多重向量检索
from langchain.chat_models import ChatOpenAI
from langchain.retrievers.multi_query import MultiQueryRetriever

#定义chatdoc
class ChatDoc():
    def __init__(self):
        self.doc = None
        self.splitText = [] #分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return None

    # 处理文档的函数，对文档进行分割
    def splitSentences(self):
        full_text = self.getFile() #获取文档内容
        if full_text != None:
            #对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        embeddings = OpenAIEmbeddings()
        db =Chroma.from_documents(
            documents = self.splitText,
            embedding = embeddings,
        )
        return db

    # 提问并找到相关的文本块
    def askAndFindFiles(self,question):
        db = self.embeddingAndVectorDB()
        #把问题交给LLM进行多角度的扩展
        llm = ChatOpenAI(temperature=0)
        retriever_from_llm = MultiQueryRetriever.from_llm(
            retriever = db.as_retriever(),
            llm = llm,
        )
        print(retriever_from_llm)
        # 首先会对问题进行扩展，扩展成3个问题
        # 针对这个3个问题的回答取交集
        return retriever_from_llm.get_relevant_documents(question)
    
chat_doc = ChatDoc()
chat_doc.doc = "example/fake.xlsx"
chat_doc.splitSentences()
import logging
logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.DEBUG)
unique_doc = chat_doc.askAndFindFiles("公司名称是什么?")
print(unique_doc)

### 8-2. 检索优化：使用上下文压缩检索，降低冗余信息

In [None]:
from langchain.document_loaders import UnstructuredExcelLoader,Docx2txtLoader,PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
#引入上下文压缩相关包
from langchain.llms import OpenAI
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import  LLMChainExtractor

#定义chatdoc
class ChatDoc():
    def __init__(self):
        self.doc = None
        self.splitText = [] #分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return None

    # 处理文档的函数，对文档进行分割
    def splitSentences(self):
        full_text = self.getFile() #获取文档内容
        if full_text != None:
            #对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        embeddings = OpenAIEmbeddings()
        db =Chroma.from_documents(
            documents = self.splitText,
            embedding = embeddings,
        )
        return db

    # 提问并找到相关的文本块
    def askAndFindFiles(self,question):
        db = self.embeddingAndVectorDB()
        retriever = db.as_retriever()
        llm = OpenAI(temperature=0)
        compressor = LLMChainExtractor.from_llm(
            llm = llm,
        )
        compressor_retriever = ContextualCompressionRetriever(
            base_retriever = retriever,
            base_compressor = compressor,
        )
        return compressor_retriever.get_relevant_documents(query=question)
    
chat_doc = ChatDoc()
chat_doc.doc = "example/fake.xlsx"
chat_doc.splitSentences()
import logging
logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.DEBUG)
unique_doc = chat_doc.askAndFindFiles("公司名称是什么?")
print(unique_doc)

### 8-3. 检索优化：在向量存储里使用最大边际相似性（MMR）和相似性打分检索来提高精度

In [None]:
from langchain.document_loaders import UnstructuredExcelLoader,Docx2txtLoader,PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

#定义chatdoc
class ChatDoc():
    def __init__(self):
        self.doc = None
        self.splitText = [] #分割后的文本

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return None

    # 处理文档的函数，对文档进行分割
    def splitSentences(self):
        full_text = self.getFile() #获取文档内容
        if full_text != None:
            #对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        embeddings = OpenAIEmbeddings()
        db =Chroma.from_documents(
            documents = self.splitText,
            embedding = embeddings,
        )
        return db

    # 提问并找到相关的文本块
    def askAndFindFiles(self,question):
        db = self.embeddingAndVectorDB()
        retriever = db.as_retriever()
        #retriever = db.as_retriever(search_type="mmr") # 最大边际相似性
        retriever = db.as_retriever(search_type="similarity_score_threshold",search_kwargs={"score_threshold":.1,"k":1}) # 相似性打分
        return retriever.get_relevant_documents(query=question)
    
chat_doc = ChatDoc()
chat_doc.doc = "example/fake.xlsx"
chat_doc.splitSentences()
import logging
logging.basicConfig(level=logging.INFO)
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.DEBUG)
unique_doc = chat_doc.askAndFindFiles("公司名称是什么?")
print(unique_doc)

### 9. 用自然语言和文件聊天

In [None]:
from langchain.document_loaders import UnstructuredExcelLoader,Docx2txtLoader,PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
# 导入聊天需要的模块
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate

#定义chatdoc
class ChatDoc():
    def __init__(self):
        self.doc = None
        self.splitText = [] #分割后的文本
        self.template = [
            ("system", "你是一个处理文档的秘书，你从不说自己是一个大模型AI助手，你会根据下面提供的上下文来继续回答问题。\n 上下文内容：\n {content} \n"),
            ("human", "你好！"),
            ("ai", "你好！"),
            ("human", "{question}"),
        ],
        self.prompt = ChatPromptTemplate.from_messages(self.template)

    def getFile(self):
        doc = self.doc
        loaders = {
            "docx":Docx2txtLoader,
            "pdf":PyPDFLoader,
            "xlsx":UnstructuredExcelLoader,
        }
        file_extension = doc.split(".")[-1]
        loader_class = loaders.get(file_extension)
        if loader_class:
            try:
                loader = loader_class(doc)
                text = loader.load()
                return text
            except Exception as e: 
                print(f"Error loading {file_extension} files:{e}") 
        else:
             print(f"Unsupported file extension: {file_extension}")
             return None

    # 处理文档的函数，对文档进行分割
    def splitSentences(self):
        full_text = self.getFile() #获取文档内容
        if full_text != None:
            #对文档进行分割
            text_split = CharacterTextSplitter(
                chunk_size=150,
                chunk_overlap=20,
            )
            texts = text_split.split_documents(full_text)
            self.splitText = texts

    # 向量化与向量存储
    def embeddingAndVectorDB(self):
        embeddings = OpenAIEmbeddings()
        db =Chroma.from_documents(
            documents = self.splitText,
            embedding = embeddings,
        )
        return db

    # 提问并找到相关的文本块
    def askAndFindFiles(self,question):
        db = self.embeddingAndVectorDB()
        retriever = db.as_retriever()
        #retriever = db.as_retriever(search_type="mmr") # 最大边际相似性
        retriever = db.as_retriever(search_type="similarity_score_threshold",search_kwargs={"score_threshold":.1,"k":1}) # 相似性打分
        return retriever.get_relevant_documents(query=question)

    def chatWithDoc(self,question):
        _content = ""
        context = self.askAndFindFiles(question)
        for i in context:
            _content += i.page_content
        messages = self.prompt.format_messages(context = _content, question = question)
        chat = ChatOpenAI(model = "gpt-4", temperature=0)
        return chat.invoke(messages)
        
    
chat_doc = ChatDoc()
chat_doc.doc = "example/fake.xlsx"
chat_doc.splitSentences()
chat_doc.chatWithDoc("公司注册地址是哪里")