# 安裝相關套件

In [None]:
!pip install langchain
!pip install faiss-cpu
!pip install text_generation

In [None]:
!pip install langchain openai faiss-cpu tiktoken

# 設定 openai api

In [1]:
%env OPENAI_API_KEY=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

env: OPENAI_API_KEY=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


# 開啟 langchain DEBUG mode

In [2]:
import langchain
langchain.debug = True

# ????????

In [3]:
import json

from operator import itemgetter

from langchain.chat_models import ChatOpenAI
from langchain.embeddings import OpenAIEmbeddings
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser
from langchain.schema.runnable import RunnableLambda, RunnablePassthrough
from langchain.vectorstores import FAISS
from langchain.schema.retriever import BaseRetriever, Document

from langchain import HuggingFaceTextGenInference

# 建置 FAISS 索引

In [4]:
# load docs

faq_json_array = []
with open('./data/全國工商行政服務網常見FAQ.jsonl', 'r', encoding='utf-8') as file:
    for line in file:
        data = json.loads(line)
        faq_json_array.append(data)

In [5]:
# 處理 Document
docs = []
for fqa in faq_json_array:
    doc_json = {
        "Q": fqa["問題"],
        "A": fqa["答案"]
    }
    doc_content = json.dumps(doc_json, ensure_ascii=False)

    # 索引儲存的 Document 內容
    current_document = Document(
        page_content=doc_content,  # 主要內文
        metadata={
            'source': '全國工商行政服務網常見FAQ',
        }
    )
    docs.append(current_document)

In [6]:
docs[:3]

[Document(page_content='{"Q": "可以到哪裡申請公司登記？", "A": "答：目前受理公司登記之服務機關計有經濟部商業發展署、臺北市政府、高雄市政府、新北市政府、臺中市政府、臺南市政府、桃園市政府、經濟部產業園區管理局、國家科學及技術委員會新竹科學園區管理局等3個科學園區管理局、農業部農業科技園區管理中心、交通部航港局及交通部民用航空局等15個受理機關。※請參閱：受理公司登記之服務機關"}', metadata={'source': '全國工商行政服務網常見FAQ'}),
 Document(page_content='{"Q": "申請公司登記的規費要如何繳納？", "A": "答：如為線上申請案件，可以選擇使用信用卡、金融帳戶及晶片卡（但要裝讀卡機）繳納；如為紙本申請案件， 可以臨櫃或郵寄方式繳納，若為郵寄方式，則可以郵政匯票或即期支票繳納規費。"}', metadata={'source': '全國工商行政服務網常見FAQ'}),
 Document(page_content='{"Q": "公司登記案件，「自取」方式取件者，領件人應攜帶何證件？", "A": "答：採「自取」方式取件者，領件人應攜帶身分證明文件正本及填載個人基本資料供登記機關查驗。"}', metadata={'source': '全國工商行政服務網常見FAQ'})]

In [7]:
vectorstore = FAISS.from_documents(
    docs, embedding=OpenAIEmbeddings()
)
retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

# Init CHatGLM3

In [8]:
from typing import List, Optional

from langchain.llms.base import LLM
from transformers import AutoTokenizer, AutoModel, AutoConfig


class ChatGLM3(LLM):
    max_token: int = 8192
    temperature: float = 0.1
    top_p = 0.9
    tokenizer: object = None
    model: object = None
    history_len: int = 0

    def __init__(self):
        super().__init__()
        model_config = AutoConfig.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)
        self.tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)
        self.model = AutoModel.from_pretrained("THUDM/chatglm3-6b", config=model_config,
                                               trust_remote_code=True).half().cuda()

    @property
    def _llm_type(self) -> str:
        return "GLM"

    def _call(self, prompt: str, history: List[str] = [], stop: Optional[List[str]] = None):
        response, _ = self.model.chat(
            self.tokenizer, prompt,
            history=history[-self.history_len:] if self.history_len > 0 else [],
            max_length=self.max_token, temperature=self.temperature,
            top_p=self.top_p)
        return response


  from .autonotebook import tqdm as notebook_tqdm


In [9]:
model = ChatGLM3()

Loading checkpoint shards: 100%|██████████| 7/7 [00:06<00:00,  1.03it/s]


# Taiwan-LLaMa-13B-v2.0-Chat

In [10]:
# model = HuggingFaceTextGenInference(
#         inference_server_url="http:/???????",
#         max_new_tokens=1024,
#         temperature=0.1,
#     )

# 設定 Document Combine 的格式

In [11]:
from langchain.prompts.prompt import PromptTemplate
from langchain.schema import format_document

DEFAULT_DOCUMENT_PROMPT = PromptTemplate.from_template(template="{page_content}")
def _combine_documents(
    docs, document_prompt=DEFAULT_DOCUMENT_PROMPT, document_separator="\n\n"
):
    doc_strings = [format_document(doc, document_prompt) for doc in docs]
    return document_separator.join(doc_strings)

# 設定丟給 LLM 的 Prompt

In [24]:
template = """<|system|>
根據以下 Contex 資料回答 User Question。

規則：
1.從 Context 比對所有JSON的欄位「Q」找出與「User Question」在關鍵詞和上下文語意相似的 JSON。
2.如果找不到任何相似的JSON，回覆「查無相關資訊」。
3.必須直接引用相似JSON的「Q」欄位中完整所有文字作為你的答案(必須保留原文中的換行符號（\r\n）與任何格式)不用回傳 「A」，用繁體中文並且不做任何修改。

Contex:
{context}

<|user|>
{question} 
"""
prompt = ChatPromptTemplate.from_template(template)

# Langchain 的流程

In [25]:
chain = (
    {"context": retriever | _combine_documents, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

## 調用 Chain 測試

In [26]:
chain.invoke("發起人或股東之股份轉讓限制為何？")

[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "發起人或股東之股份轉讓限制為何？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel] Entering Chain run with input:
[0m{
  "input": "發起人或股東之股份轉讓限制為何？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel > 3:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "發起人或股東之股份轉讓限制為何？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel > 4:chain:RunnablePassthrough] Entering Chain run with input:
[0m{
  "input": "發起人或股東之股份轉讓限制為何？"
}
[36;1m[1;3m[chain/end][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel > 4:chain:RunnablePassthrough] [1ms] Exiting Chain run with output:
[0m{
  "output": "發起人或股東之股份轉讓限制為何？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel > 3:chain:RunnableSequence > 5:chain:_combine_documents] 

"根據所提供的 Context 資料，我們可以找到與「发起人或股東之股份轉讓限制為何？」相關的 JSON 資料如下：\n\n1. {'Q': '发起人或股東之股份轉讓限制為何？', 'A': '答：股東之股份以自由轉讓為原則。'}\n\n根據此 JSON，我們可以回答您的問題：发起人或股東之股份轉讓限制為何？股东之股份以自由轉讓為原則。"

In [15]:
chain.batch(["章程訂定員工酬勞方式為何？", "未成年人可不可以擔任公司之股東？"])

[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "章程訂定員工酬勞方式為何？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "未成年人可不可以擔任公司之股東？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel] Entering Chain run with input:
[0m{
  "input": "章程訂定員工酬勞方式為何？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel] Entering Chain run with input:
[0m{
  "input": "未成年人可不可以擔任公司之股東？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel > 3:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "章程訂定員工酬勞方式為何？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableParallel > 3:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "未成年人可不可以擔任公司之股東？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence 

['根據所提供的Contex，我們可以找到與「章程訂定員工酬勞方式為何？」關鍵詞和上下文語意相似的JSON為：\n\n* {"Q": "章程訂定員工酬勞方式為何？", "A": "答：公司應在章程中明定公司有獲利時應分配給員工的酬勞，分配方式可以採比率或定額。比率訂定方式，選擇以固定數（例如：百分之二）、一定區間（例如：百分之二至百分之十）或下限（例如：百分之二以上、不低於百分之二）三種方式之一，均屬可行。\\r\\n（公司法§235-1）" }\n\n因此，我的回答是：公司應在章程中明定公司有獲利時應分配給員工的酬勞，分配方式可以採比率或定額。比率訂定方式，選擇以固定數（例如：百分之二）、一定區間（例如：百分之二至百分之十）或下限（例如：百分之二以上、不低於百分之二）三種方式之一，均屬可行。',
 '未成年人可以成為公司之股東，但是未成年人不可以成為股份有限公司的發起人。（公司法§128）']

# 驗證

## 驗證 372 個問題