## 知识库的构建
### 文档解析-->分块-->embedding-->向量数据库

In [1]:
from model import RagEmbedding, RagLLM
from doc_parse import chunk, read_and_process_excel, logger

In [2]:
import pandas as pd
from langchain_chroma import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter
import chromadb

In [3]:
pdf_files = ['./data/zhidu_employee.pdf',
            './data/zhidu_travel.pdf']

excel_files = ['./data/zhidu_detail.xlsx']

In [4]:
r_spliter = RecursiveCharacterTextSplitter(chunk_size=128,
                                          chunk_overlap=30,
                                          separators=["\n\n",
                                                      "\n", 
                                                      ".",
                                                      "\uff0e",  # Fullwidth full stop
                                                       "\u3002",  # Ideographic full stop
                                                      ",",
                                                      "\uff0c",  # Fullwidth comma
                                                      "\u3001",  # Ideographic comma
                                                     ])

In [5]:
doc_data = []
for pdf_file_name in pdf_files:
    res = chunk(pdf_file_name, callback=logger)
    for data in res:
        content = data["content_with_weight"]
        if '<table>' not in content and len(content) > 200:
            doc_data = doc_data + r_spliter.split_text(content)
        else:
            doc_data.append(content)

OCR is running...




OCR finished.
OCR: 1.9347431138157845
preprocess
Layout analysis finished.
layouts: 2.390368826687336
preprocess
Table analysis finished.
Text merging finished
OCR is running...




OCR finished.
OCR: 0.9043905958533287
preprocess
Layout analysis finished.
layouts: 1.2087930291891098
preprocess
Table analysis finished.
Text merging finished


In [6]:
for i in doc_data:
    print(len(i), "="*10,  i)

<tr><td  >病假时间</td><td  >连续工龄</td><td  >发放标准</td></tr>
<tr><td></td><td  >不满二年</td><td  >60% </td></tr>
<tr><td></td><td  >已满二年不满四年</td><td  >70% </td></tr>
<tr><td  >6 个月以内病假</td><td  >已满四年不满六年</td><td  >80% </td></tr>
<tr><td></td><td  >已满六年不满八年</td><td  >90% </td></tr>
<tr><td></td><td  >八年以上</td><td  >100% </td></tr>
<tr><td></td><td  >不满一年</td><td  >40% </td></tr>
<tr><td  >6 个月以上病假</td><td  >已满一年不满三年</td><td  >50% </td></tr>
<tr><td></td><td  >连续工龄三年以上</td><td  >60% </td></tr>
</table>
第一节适用范围
1、本制度包括了考勤、休假、加班等方面的规定。2、本制度适用于学校全体教职员工。
休假分以下八种：事假、病假、婚假、丧假、产假、哺乳假、工伤假、调休。1、事假：（1）请假必须严格按照学校规定的请假程序，应由本人以书面形式，应在前两日办理手续，特殊情况应通过电话或者口头请假，应在事假结束于2 个工作日内完成补办请假手续。未经请假或请假未准而擅自离岗者，以旷工论处。（2）事假最小计算单位为半天，事假一次不得超过3 天。（3）事假：基本工资和岗位津贴均按请假天数占实际上班天数比例来算。（4）请假理由不充分或致工作妨碍时，可酌情缩短假期、或延期给假、或不予给假。（5）请假者必须将所任课务或经办事务交待给代理人员，并于请假单内注明。
2、病假：因身体健康问题不能正常工作的员工可申请病假，休假后须提供三级医院开具的病假条或诊断证明。（1）教职工休病假需提前申请。如因情况紧急或突发情况无法请假的，应通过电话或者口头请假，应在病假结束于2 个工作日内补办相关手续。未经请假或请假未准而擅自离岗者，以旷工论处。(2)病假按照工龄系数，对病假日工资进行扣除。
<table><caption>病假发

In [31]:
for excel_file_name in excel_files:
    data = read_and_process_excel(excel_file_name)
    df = pd.DataFrame(data[8:], columns=data[7])
    data_excel = df.drop(columns=df.columns[11:17])
    content = data_excel.to_markdown(index=False).replace(' ', "")
    doc_data.append(f"### 以下是中央和国家机关工作人员赴地方差旅住宿费标准明细表： \n\n {content}")

In [32]:
from langchain_core.documents import Document
import uuid
documents = []
document_ids = []
for idx, chunk in enumerate(doc_data):
    is_table = 0
    if "table" in chunk:
        is_table = 1
    if idx == len(doc_data) - 1:
        is_table = 1
    doc_id = str(uuid.uuid4())
    document = Document(
        page_content=chunk,
        metadata={"type": "ori", "is_table": is_table})
    documents.append(document)
    document_ids.append(doc_id)

In [21]:
embedding_cls = RagEmbedding()

In [33]:
doc_txts = dict(zip(document_ids, documents))

In [34]:
import pickle
with open('./data/zhidu_db.pickl', 'wb') as file:
    pickle.dump(doc_txts, file)

In [12]:
chroma_client = chromadb.HttpClient(host="localhost", port=8000)

In [13]:
embedding_db = Chroma.from_documents(documents,
                                     embedding_cls.get_embedding_fun(),
                                     client=chroma_client,
                                     collection_name="zhidu_db",
                                     )

In [14]:
query = '迟到有什么规定？'

In [15]:
related_docs = embedding_db.similarity_search(query, k=2)

In [16]:
related_docs

[Document(metadata={'is_table': 0, 'type': 'ori'}, page_content='。如遇紧急情况，口头申请请假的，应在上班后两天内办理补请假手续，未在规定时间内办理的，逾期无效，按旷工处理。4、无工作理由，超过上班时间到岗的，视为迟到；未到下班时间提前离校的，视为早退；中途未经批准离校，视为旷工；迟到、早退、旷工者按照相关办法处理'),
 Document(metadata={'is_table': 0, 'type': 'ori'}, page_content='第五节违规违纪处理\n1. 迟到、早退(1)劳动考勤是公司支付薪资的依据和职工年度岗位考核内容之一。（2）迟到或早退60分钟以上（含60 分钟），每次视同缺勤1 天。（3）职工迟到、早退、脱岗累计超过3 次的（含），从第1 次起，每次扣减工资50 元。')]

In [17]:

chroma_client = chromadb.HttpClient(host="localhost", port=8000)

def delete_chroma_collection(name, embedding_fn, chroma_client):
    collection = Chroma(name,
                        embedding_fn,
                        client=chroma_client)
    Chroma.delete_collection(collection)

In [None]:
delete_chroma_collection("zhidu_db", embedding_cls.get_embedding_fun(), chroma_client)

## RAG问答流程

In [None]:
llm = RagLLM()

In [None]:
prompt_template = """
你是企业员工助手，熟悉公司考勤和报销标准等规章制度，需要根据提供的上下文信息context来回答员工的提问。\
请直接回答问题，如果上下文信息context没有和问题相关的信息，请直接回答[不知道,请咨询HR] \
问题：{question} 
"{context}"
回答：
"""

In [None]:
def run_rag_pipline(querys, k=3):
    for query in querys:
        
        related_docs = embedding_db.similarity_search(query, k=k)
        context = "\n".join([f"上下文{i+1}: {doc.page_content} \n" \
                             for i, doc in enumerate(related_docs)])
        print()
        print()
        print("#"*100)
        print(f"query: {query}")
        print(f"context: {context}")
        llm_prompt = prompt_template.replace("{question}", query).replace("{context}", context)
        response = llm(llm_prompt, stream=True)
        print(f"response: ")
        for chunk in response:
            print(chunk.choices[0].text, end='', flush=True)

In [None]:
run_rag_pipline(['加班有加班费吗？'])

In [None]:
run_rag_pipline(['出差可以买意外保险吗？需要自己购买吗'])

In [None]:
run_rag_pipline(['那个，我们公司有什么规定来着？ 您公司的具体规定需要参考您所在公司的员工手册或相关政策文件。通常，公司会有包括但不限于工作时间、请假流程、加班政策、行为准则、保密协议等方面的规章制度。建议查阅您的员工手册或向人力资源部门咨询以获取详细信息。'])

In [None]:
run_rag_pipline(['公司派我去上海，钱怎么弄？'])

In [None]:
run_rag_pipline(['如果我明天要出去，那个报销的事情怎么办？'])

In [None]:
run_rag_pipline(['如果我明天要出去，那个报销的事情怎么办？ 如果您明天需要外出，关于报销的事宜，请提前与您的直接上级或财务部门沟通。确保了解公司的报销流程和所需文件，如需预支费用，应按照公司规定提交申请。同时，保留好所有相关票据，以便返回后及时完成报销手续。如果可能，可以预先填写报销单的部分内容，以加快后续处理速度。'])