In [1]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.document_loaders import TextLoader, PyPDFLoader, CSVLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOpenAI
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory
from langchain.schema import AIMessage, HumanMessage, SystemMessage
from langchain import PromptTemplate
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    AIMessagePromptTemplate,
    HumanMessagePromptTemplate,
)
from langchain.prompts import SemanticSimilarityExampleSelector

import os

### Import OpenAI API

In [2]:
os.environ["OPENAI_API_KEY"] = "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"

### Read PDF File

In [3]:
file_path = "../data/pdf/CTBC_2022_Sustainability_Report_zh3.pdf"
loader = file_path.endswith(".pdf") and PyPDFLoader(file_path) or TextLoader(file_path)

### Choose the splitter & Split paragraphs into chunks

In [4]:
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100, separators=['\n', '\n\n'])
pdf_texts = loader.load_and_split(splitter)

### Load CSV File

In [6]:
csv_file_path = "../data/csv/中國信託_ViolationItems.csv"
csv_loader = CSVLoader(csv_file_path, encoding='utf-8')
csv_texts = csv_loader.load()

In [15]:
csv_texts

[Document(page_content='編號: 1\n裁處書發文日期: 2023-08-10\n資料來源: 保險局\n標題: 台灣人壽保險股份有限公司公司治理運作之內部控制制度未能有效運作，且核有有礙健全經營之虞，依保險法第171條之1第4項規定核處罰鍰新臺幣（以下同）1,000萬元整，暨依同法第149條第1項規定予以糾正及相關處分。', metadata={'source': 'data/csv/中國信託_ViolationItems.csv', 'row': 0}),
 Document(page_content='編號: 2\n裁處書發文日期: 2023-08-10\n資料來源: 銀行局\n標題: 中國信託金融控股股份有限公司及相關子公司之公司治理有重大缺失，內部控制制度未能有效運作，違反金融控股公司法第51條規定及其授權訂定之「金融控股公司及銀行業內部控制及稽核制度實施辦法」第3條第1項及第8條第1項及第2項規定，並有礙健全經營之虞，依金融控股公司法第60條第16款規定核處新臺幣(以下同)3,000萬元罰鍰，併依同法第54條第1項規定核處予以糾正，及依同條項第7款規定命貴公司自本裁處書送達翌日起，調降總經理陳OO(下稱陳總經理) 每月月薪30%，為期3個月，及調降專門委員張OO(下稱張員) 112年度所有薪酬50%，為期1年，併暫停貴公司申請轉投資6個月(不含對原有轉投資事業之增資或因組織架構調整產生之原有轉投資事業股權移轉)，屆期經本會認可改善情形後始得進行。', metadata={'source': 'data/csv/中國信託_ViolationItems.csv', 'row': 1}),
 Document(page_content='編號: 3\n裁處書發文日期: 2023-08-04\n資料來源: 銀行局\n標題: 中國信託商業銀行前理財專員(下稱理專)挪用客戶款項、推介客戶短期間進行多筆交易及代客戶辦理網路銀行交易所涉缺失，核有違反銀行法第45條之1第1項及其授權訂定之「金融控股公司及銀行業內部控制及稽核制度實施辦法」第3條第1項、第8條第1項及第3項等規定，依同法第129條第7款規定，核處新臺幣(下同)1,000萬元罰鍰。', metadata={'source': 'data/csv/中國信託_ViolationItems.cs

### Conmibe PDF and CSV Texts

In [6]:
combined_texts = pdf_texts + csv_texts

### Set up local db

In [5]:
embeddings = OpenAIEmbeddings()  # or any other embeddings model
vectorstore = Chroma.from_documents(pdf_texts, embeddings)  # store the vectors in the local vectorstore

In [16]:
csv_vectorstore = Chroma.from_documents(csv_texts, embeddings)  # store the vectors in the local vectorstore
csv_vectorstore

<langchain.vectorstores.chroma.Chroma at 0x1b16aced910>

### Selected Questions List 
(我有稍微改過，所以題目可能會有點不一樣)

In [22]:
questions_list = [
                # 第一部分：E/S/G 違規項目
                '請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者',
                # 第二部分：E/S/G 關鍵作為
                '近一年該公司是否曾獲得外部永續相關獎項',
                # 第三部分：Environmental
                '該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？',
                # 第三部分：Social
                '該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）',
                # 第三部分：Governancce
                '該公司是否已將「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」，揭露於公司網路、年報或永續報告書？']

### Establish chat chain

In [24]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0), vectorstore.as_retriever())

for question in questions_list:
    chat_history = []  # Reset chat history for each new question
    print('Q:', question)
    query = question
    if not query:
        break

    # result = qa({"question": '您是一個經過訓練的語言模型，專門用於判斷是非題並生成相應的解釋。這些問題將涉及信貸核准，幫助公司評估個人或企業的信貸風險並做出信貸決策。您的任務是根據所提供的資料（一份永續報告書 pdf 檔案、和一份關於該公司於金管會所揭發之裁罰案件的 csv 檔案）產出<是>或<否>或<不確定>的答案，以及相應的解釋。請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：{是/否/不確定}, 解釋：{解釋}。以下為你將要判斷與回答的問題：' + query + ' (用繁體中文回答)',
    #             "chat_history": chat_history})

    result = qa({"question": '您是一個經過訓練的語言模型，專門用於判斷是非題並生成相應的解釋。這些問題將涉及信貸核准，幫助公司評估個人或企業的信貸風險並做出信貸決策。您的任務是根據所提供的資料產出<是>或<否>或<不確定>的答案，以及相應的解釋。請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：{是/否/不確定}, 解釋：{解釋}。以下為你將要判斷與回答的問題：' + query + ' (用繁體中文回答)',
                "chat_history": chat_history})
    
    print('A:', result['answer'])
    print('-' * 100)
    chat_history.append((query, result['answer']))


Q: 請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者
A: 抱歉，根據提供的資料，我無法判斷該公司近二年是否發生洗錢或資助資恐活動情節重大或導致停工/停業。
----------------------------------------------------------------------------------------------------
Q: 近一年該公司是否曾獲得外部永續相關獎項
A: 選擇：不確定, 解釋：根據提供的資料，並沒有提及該公司是否曾獲得外部永續相關獎項的情況。因此，無法確定該公司近一年是否曾獲得外部永續相關獎項。
----------------------------------------------------------------------------------------------------
Q: 該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？
A: 選擇：是, 解釋：根據提供的資料，該公司投資於節能或綠色能源相關環保永續之機器設備，並投資於我國綠能產業，如再生能源電廠。此外，該公司也有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品。該公司也揭露了其投資情形及具體效益。
----------------------------------------------------------------------------------------------------
Q: 該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）
A: 選擇：是, 解釋：根據提供的資料，中信金控致力於保障勞動人權並創造友善的人權環境。他們已制定了多項員工福利政策，包括保險、育嬰假、退休制度、員工持股、工作者健康促進和在職訓練等。這些政策旨在提供員工所需的協助，並創造健康且舒適的工作環境。中信金控重視人才養成，並通過進行員工意見調查和績效面談來確保有效的溝通和職涯發展。他們也導入職業安全衛生管理系統，以確保勞工的安全與健康。因此，可以確定該公司

#### Jean

In [24]:
examples = [
    # 第一部分：E/S/G 違規項目
    {"input": "請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者", 
     "output": "選擇: 是, 解釋: 根據提供的資料，近二年(2022, 2023)年間，該公司因違反保險法相關規定，核處廢止許可，並註銷執業證照。"},
    {"input": "請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者", 
     "output": "選擇: 否, 解釋: 根據提供的資料，近二年(2022, 2023)年間，該公司並無受到停業或停工之處分。"},
    # 第二部分：E/S/G 關鍵作為
    {"input": "近一年該公司是否曾獲得外部永續相關獎項", 
     "output": "選擇: 是, 解釋: 根據提供的資料，可以列出關於獎項的所有資料，包含「臺灣最佳零售基金公司」、「天下永續公民獎」等。"
              + "其中，關於永續或ESG相關的獎項有: 「臺灣十大永續典範企業獎 (服務業組)」、「最佳 ESG 獎(一般金融組)-優等」、「金控永續獎 -優質獎」等。"},
    {"input": "近一年該公司是否曾獲得外部永續相關獎項", 
     "output": "選擇: 否, 解釋: 根據提供的資料，沒有辦法列出關於獎項或永續獎項的資料，所以該公司在資料中提及的獎項中沒有關於永續或ESG相關的獎項。"},
    # 第三部分：Environmental
    {"input": "該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？", 
     "output": "選擇: 是, 解釋: 根據提供的資料，該公司投資於節能或綠色能源相關環保永續之機器設備，並投資於我國綠能產業，如再生能源電廠。"
              + "此外，該公司也有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品。該公司也揭露其投資情形及具體效益。因此，該公司在綠色或永續發展領域有相應的投資和揭露行為。"},
    {"input": "該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？", 
     "output": "選擇: 否, 解釋: 根據提供的資料，沒有投資於節能或綠色能源相關環保永續之機器設備，也沒有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益"},
    # 第三部分：Social
    {"input": "該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）", 
    "output": "選擇: 是, 解釋: 根據提供的資料，資料提及了員工福利政策，包括保險、育嬰假、退休制度、員工持股、工作者健康促進和在職訓練等。這些政策旨在保障員工的權益和福祉，提供他們在工作中的安全和保障，並提供相應的福利和培訓機會。"},
    {"input": "該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）", 
    "output": "選擇: 否, 解釋: 根據提供的資料，資料沒有提及任何關於員工福利政策的資訊，所以沒有揭露員工福利政策。"},
    # 第三部分：Governancce
    {"input": "該公司是否已將「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」，揭露於公司網路、年報或永續報告書？", 
    "output": "選擇: 是, 解釋: 根據提供的資料，資料中有提及「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」等相關資訊。"},
    {"input": "該公司是否已將「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」，揭露於公司網路、年報或永續報告書？", 
    "output": "選擇: 否, 解釋: 根據提供的資料，資料中沒有提及關於「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」其中任何一個項目的資訊。"},
]

to_vectorize = [" ".join(example.values()) for example in examples]
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_texts(to_vectorize, embeddings, metadatas=examples)

example_selector = SemanticSimilarityExampleSelector(
    vectorstore=vectorstore,
    k=2,
)

In [25]:
company='中信金控'
template = ChatPromptTemplate.from_messages([
    ("system", "您是一個經過訓練的語言模型，專門用於判斷是非題並生成相應的解釋。這些問題將涉及信貸核准，幫助公司評估個人或企業的信貸風險並做出信貸決策。"
      + f"您的任務是根據所提供的資料產出<是>或<否>或<不確定>的答案，以及相應的解釋，這次我們要評估的公司是: {company}。\n"
      + '請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：[是/否/不確定], 解釋：[解釋]。'
     ),
    ("human", "{input}"),
    ("ai", "{output}")
])

few_shot_prompt = FewShotChatMessagePromptTemplate(
    input_variables=["input"],
    example_selector=example_selector,
    example_prompt=template,
)

ValidationError: 6 validation errors for ChatPromptTemplate
messages -> 0
  value is not a valid dict (type=type_error.dict)
messages -> 0
  value is not a valid dict (type=type_error.dict)
messages -> 1
  value is not a valid dict (type=type_error.dict)
messages -> 1
  value is not a valid dict (type=type_error.dict)
messages -> 2
  value is not a valid dict (type=type_error.dict)
messages -> 2
  value is not a valid dict (type=type_error.dict)

In [26]:
final_prompt = ChatPromptTemplate.from_messages(
    [
        few_shot_prompt,
        ("human", "{input}"),
    ]
)

NameError: name 'few_shot_prompt' is not defined

In [None]:
def_prompt = ChatPromptTemplate.from_messages(
    [
        ("human", "獲得外部獎項的定義是，在資料中有提及到任何獎項都代表曾獲得外部獎項"),
        ("ai", "選擇: 是, 解釋: 只要資料中有提到獎項，就代表曾獲得外部獎項。"),
        ("human", "揭露的定義是，在資料中有提及到就代表揭露"),
        ("ai", "選擇: 是, 解釋: 只要資料中有提到，就是有揭露。")
    ]
)

In [None]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0), vectorstore.as_retriever())

for question in questions_list:
    chat_history = []  # Reset chat history for each new question
    print('Q:', question)
    query = final_prompt.format(input=question)
    if not query:
        break
    # 待調整
    # def_query = def_prompt.format()
    # result = qa(
    #           {"question": def_query,
    #             "chat_history": chat_history})
    # chat_history.append((def_query, result['answer']))
    
    result = qa(
              {"question": query,
                "chat_history": chat_history})
    
    print('A:', result['answer'])
    print('-' * 100)
    chat_history.append((query, result['answer']))


Q: 請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者
A: 根據提供的資料，近二年(2022, 2023)年間，該公司並無受到停業或停工之處分。
----------------------------------------------------------------------------------------------------
Q: 近一年該公司是否曾獲得外部永續相關獎項
A: 否，根據提供的資料，該公司在近一年內沒有獲得任何外部永續相關獎項。
----------------------------------------------------------------------------------------------------
Q: 該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？
A: 是的，根據提供的資料，該公司投資於節能或綠色能源相關環保永續之機器設備，並投資於我國綠能產業，如再生能源電廠。此外，該公司也有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品。該公司也揭露其投資情形及具體效益。因此，該公司在綠色或永續發展領域有相應的投資和揭露行為。
----------------------------------------------------------------------------------------------------
Q: 該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）
A: 是的，根據提供的資料，該公司沒有揭露員工福利政策。
----------------------------------------------------------------------------------------------------
Q: 該公司是否已將「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」，揭露於公司網路、年報或永續報告書？
A: 是的，根據提供的資料，該公司已將「股利政策」、「董監事及經理

#### Experiment: 用不同描述方法問問題

In [26]:
questions_list2 = [
  # 第一部分：E/S/G 違規項目
  '請根據資料中 <裁處書發文日期> ，判斷該公司2022~2023是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者',
  # 第二部分：E/S/G 關鍵作為
  # '資料中是否提及永續相關獎項',
  # 第三部分：Environmental
  # '該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？',
  # 第三部分：Social
  # '資料是否提及員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）',
  # 第三部分：Governancce
  # '該公司是否已將「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」，揭露於公司網路、年報或永續報告書？'
  ]

In [25]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0.1), csv_vectorstore.as_retriever())

chat_history = []  # Reset chat history for each new question
question = '列出中國信託的所有的資料'
print('Q:', question)
query = question

# 你是一個判斷是非題並生成相應的解釋的專家，你將會針對我提供關於中信的資料進行全面的研究，了解資料中各項主題的細節。

result = qa({"question": query,
            "chat_history": chat_history})

print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))


Q: 列出中國信託的所有的資料
A: 中國信託（CTBC）是一家金融控股公司，旗下擁有多家子公司，包括中國信託商業銀行、台灣人壽保險、中國信託綜合證券、中國信託資產管理、中國信託創業投資、中國信託證券投資信託、中信保全和台灣彩券。以下是這些子公司的業務範疇：

1. 中國信託商業銀行：個人金融、法人金融、資本市場、存款、放款、信用卡、財富管理、避險、投資、財務規劃及顧問。

2. 台灣人壽保險：人壽保險、健康保險、傷害保險、年金保險。

3. 中國信託綜合證券：承銷業務、財務顧問、證券經紀、複委託業務、期貨經紀、自營業務、權證發行、電子商務業務。

4. 中國信託資產管理：金融機構債權買賣管理業務、租賃投資業務。

5. 中國信託創業投資：資訊科技產業、文化創意產業、民生消費產業、生物科技產業、綠色節能產業、傳統產業、其他產業投資業務。

6. 中國信託證券投資信託：證券投資信託業務、全權委託投資業務。

7. 中信保全：防火防災之安全系統諮詢顧問、駐衛保全、人身安全維護。

8. 台灣彩券：公益彩券之發行、銷售、促銷、開兌獎作業及管理事宜。

這些資料是根據提供的上下文所整理的，如果有任何更新或錯誤，請參考官方資料或聯繫中國信託以獲取最新資訊。
----------------------------------------------------------------------------------------------------


In [27]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0.1), csv_vectorstore.as_retriever())

for question in questions_list2:
    chat_history = []  # Reset chat history for each new question
    print('Q:', question)
    query = question
    if not query:
        break

# 你是一個判斷是非題並生成相應的解釋的專家，你將會針對我提供關於中信的資料進行全面的研究，了解資料中各項主題的細節。

    result = qa({"question": 
                   '您是一個經過訓練的語言模型，專門用於判斷是非題並生成相應的解釋。'
                 + '這些問題將涉及信貸核准，幫助公司評估個人或企業的信貸風險並做出信貸決策。'
                 + '您的任務是根據所提供的資料產出<是>或<否>或<不確定>的答案，以及相應的解釋。'
                 + '請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：{是/否/不確定}, 解釋：{解釋}。'
                 + '以下為你將要判斷與回答的問題：' + query + ' (用繁體中文回答)',
                "chat_history": chat_history})
    
    print('A:', result['answer'])
    print('-' * 100)
    chat_history.append((query, result['answer']))


Q: 請根據資料中 <裁處書發文日期> ，判斷該公司2022~2023是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者
A: 抱歉，根據提供的資料，我無法找到關於公司是否發生洗錢或資助資恐活動情節重大或導致停工/停業的相關信息。因此，我無法提供確定的答案。
----------------------------------------------------------------------------------------------------


#### Experiment: 永續獎項

In [20]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0), vectorstore.as_retriever())

query = '請列出資料中提及的所有獎項'
chat_history = []  # Reset chat history for each new question
print('Q:', query)

result = qa({"question": query,
            "chat_history": chat_history})

print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))


query = '前述資料中提及的所有獎項，列出與永續或ESG相關的獎項'
result = qa({"question": query,
            "chat_history": chat_history})

print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))


query =  '近一年該公司是否曾獲得永續相關獎項?\n請嚴格按以下格式提供是非題和解釋：\n選擇：{是/否/不確定}, 解釋：{解釋}。'
result = qa({"question": query,
            "chat_history": chat_history})


print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))

Q: 執行下列步驟，並各步驟產生的結果給下一個步驟做為參考: 
1. 請列出資料中提及的所有獎項
2. 前述資料中提及的所有獎項，列出與永續或ESG相關的獎項
3. 近一年該公司是否曾獲得永續相關獎項? 請嚴格按以下格式提供是非題和解釋：選擇：{是/否/不確定}, 解釋：{解釋}。

A: 從提供的資料中，無法得知該公司是否曾獲得任何獎項。
----------------------------------------------------------------------------------------------------


#### Experiment: 員工福利政策

In [None]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0), vectorstore.as_retriever())
chat_history = []  # Reset chat history for each new question


result = qa({"question": 
                '請列出資料中提及的所有員工福利政策，例如保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練等。若沒有提及，請回答"無"。',
            "chat_history": chat_history})

print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))


result = qa({"question": 
                '資料是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）? 若在資料中有提及相關資訊，代表有揭露，若無提及，代表沒有揭露\n'
                + '請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：{是/否/不確定}, 解釋：{解釋}。',
            "chat_history": chat_history})


print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))

# result = qa({"question": 
#                 '該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）\n'
#                 + '請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：{是/否/不確定}, 解釋：{解釋}。',
#             "chat_history": chat_history})


# print('A:', result['answer'])
# print('-' * 100)
# chat_history.append((query, result['answer']))

A: 根據提供的資料，以下是提及的員工福利政策：

1. 員工退休照料：根據勞基法，每月按員工工資總額提撥退休準備金至臺灣銀行「公司退休基金專戶」存儲；另依照勞工退休金條例，每月由公司按個人薪資提撥6%至員工勞保局個人退休金專戶。

2. 委任職工退職金：公司得酌情額外核給委任職工退職金，以使委任職工自本公司與關係企業所領取之退休金、退職金以及勞退給付之總和，能夠等於勞基法標準之應得總金額，保障委任職工之權益。

3. 退休福利活動：在退休時，服務單位會舉辦溫馨的退休歡送餐會，並為員工精心製作退休紀念品。每年公司還會舉辦退休員工聯誼活動，持續關心退休員工近況。

4. 員工獎勵及表揚制度：包括典範員工及典範團隊選拔活動，獲選員工可獲得公開表揚。資深職工表彰辦法則給予證章並表揚長年付出的資深員工。針對服務滿5年及10年的員工，給予1次連續5天的有薪黃金假期。

5. 生育補助、育嬰津貼：提供職工照顧家人、慶生結婚等之費用補助。與幼兒園簽訂托育優惠合約，以協助同仁之子女托育需求。此外，提供女性照護及相關家庭支持機制，如生理假、育嬰假、陪產檢及陪產假、家庭照顧假、托育補助等制度。

6. 員工福利點數制度：每年給發點數予員工，開放員工自主選擇所需之福利項目與消費需求。

以上是資料中提及的員工福利政策。
----------------------------------------------------------------------------------------------------
A: 是的，資料中揭露了中國信託金融控股股份有限公司的員工福利政策。其中提到了員工退休照料的相關規定，包括按工資總額提撥退休準備金至臺灣銀行的退休基金專戶，以及按個人薪資提撥至員工勞保局個人退休金專戶。此外，公司也提供退休員工的福利活動和聯誼活動。另外，資料中也提到了員工獎勵及表揚制度，包括典範員工和典範團隊的選拔活動，以及對長年付出的資深員工的表彰辦法和黃金假期的獎勵。
----------------------------------------------------------------------------------------------------


In [9]:
similar_questions = [
  "是否有關於該公司的員工福利政策的公開資訊？",
  "有關該公司的員工福利計劃是否公開透明？",
  "是否可以查閱該公司的員工福利計劃資料？",
  "能否取得有關該公司員工福利政策的相關資訊？",
  "有關該企業的員工福利安排是否公之於眾？",
  "是否公開了該組織的員工福利政策內容？",
  "該公司是否對外揭示了員工福利方案？",
  "是否可以獲取該企業的員工福利政策細節？",
  "該企業是否公開了員工福利計畫的相關內容？",
  "是否能夠取得有關該公司員工福利安排的資訊？",
  "該公司是否對員工福利政策進行了公開說明？",
  "是否可以查閱有關該組織員工福利計畫的具體資料？",
  "有關該企業的員工福利政策是否有公開的資料？",
  "是否可以取得有關該公司員工福利計劃的詳細情報？",
  "該公司是否公示了員工福利政策的內容？",
  "是否可以獲得有關該企業員工福利安排的相關詳情？",
  "有關該組織的員工福利政策是否被披露？",
  "是否有詳細資訊顯示該公司的員工福利計劃？",
  "該公司是否向公眾揭示了員工福利政策？",
  "是否可以取得有關該企業員工福利方案的詳盡內容？",
]

In [10]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0.1), vectorstore.as_retriever())

similar_answers = []

for query in similar_questions[:10]:
  if not query:
    break

  chat_history = []
  sys_query = f'''您是專門用於判斷是非題並生成相應的解釋的機器。
  您的任務是根據所提供的資料產出<是>或<否>或<不確定>的答案，以及相應的解釋。
  請嚴格按以下格式回答是非題的選擇和解釋，回答需在五十字以內，[]代表你必須填入的地方。
  格式: 選擇：[是/否/不確定], 解釋：[解釋]。
  你要回答的問題是: {query}
  '''
  result = qa({"question": sys_query, "chat_history": chat_history})
  similar_answers.append(result['answer'])
  chat_history.append((sys_query, result['answer']))
  print('A:', result['answer'], '\n','-' * 100)


A: 選擇：是，解釋：根據提供的資料，該公司明確表示定期於勞資會議彙總報告員工福利事項，並將其公告給全體員工。此外，該公司也提到為了增加主管與同仁互動的頻率，主管每季末與同仁安排工作討論，協助部屬解決工作上的困難，並即時表揚成就。這些措施顯示該公司重視員工福利並致力於提供良好的工作環境和發展機會。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：是，解釋：根據提供的資料，該公司定期舉行勞資會議，並將勞動條件相關項目和員工福利事項呈報並公告給全體員工。此外，該公司還進行員工普查和工作討論，以增加主管與同仁的互動頻率，並提供即時的協助和回饋。這些措施表明該公司致力於建立良好的勞資關係和提供透明的員工福利計劃。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：是， 解釋：根據提供的資料，該公司定期於勞資會議彙總報告員工福利事項，並明訂於工作規則公告全體員工。因此，可以查閱該公司的員工福利計劃資料。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：是，解釋：根據提供的資料，該公司明確表示定期於勞資會議彙總報告員工福利事項，並且將工作規則公告全體員工。此外，該公司也提到了建立良好勞資關係的重要性，並強調了對於勞動條件相關項目的呈報和討論。因此，可以推斷該公司有關員工福利政策的相關資訊是可以取得的。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：是，解釋：根據提供的資料，該企業設有職工福利委員會，並提供多元福利選擇。自2003年起，該企業提供正職員工「彈性福利制度」，員工可以自主選擇所需的福利項目。此舉公開了

In [None]:
final_question = "該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）"
print('Q:', final_question)

result = qa({"question": 
                f'請根據你前面所得到的結果回答此問題: {final_question}',
            "chat_history": chat_history})

print('A:', result['answer'], '\n','-' * 100)
chat_history.append((final_question, result['answer']))

In [15]:
similar_esg_qs = [
"資料是否提及永續相關獎項",
"該公司最近一年是否提及永續相關獎項",
"最近是否提及該公司獲得永續相關獎項",
"資料近年是否提及獲得永續相關獎項",
"該公司是否提及永續相關獎項",
]

In [21]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0.1), vectorstore.as_retriever())

similar_answers = []

for query in similar_esg_qs:
  if not query:
    break

  chat_history = []
  sys_query = f'''您是專門用於判斷是非題並生成相應的解釋的機器。
  您的任務是根據所提供的資料產出<是>或<否>或<不確定>的答案，以及相應的解釋。
  請嚴格按以下格式回答是非題的選擇和解釋，回答需在五十字以內，[]代表你必須填入的地方。
  格式: 選擇：[是/否/不確定], 解釋：[解釋]。
  你要回答的問題是: {query}
  '''
  result = qa({"question": sys_query, "chat_history": chat_history})
  similar_answers.append(result['answer'])
  chat_history.append((sys_query, result['answer']))
  print('A:', result['answer'], '\n','-' * 100)


A: 選擇：不確定, 解釋：根據所提供的資料，沒有明確提及近期的永續相關獎項。資料主要涵蓋了公司的永續議題、利害關係人關注程度、衝擊程度以及供應商相關資訊等內容，但沒有提到具體的獎項或相關榮譽。因此，無法確定資料是否提及了近期的永續相關獎項。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司是否提及了永續相關獎項。資料中並未提及該公司是否獲得或提及任何永續相關獎項的情況。要確定該公司是否提及了永續相關獎項，需要進一步的資訊。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，並未提及該公司是否獲得永續相關獎項。因此，無法確定最近是否提及該公司獲得永續相關獎項。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定近年是否提及獲得永續相關獎項。資料中並未提及公司是否獲得任何永續相關獎項，因此無法確定是否有相關的提及。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司是否提及永續相關獎項。資料中並未提及有關該公司是否獲得或提及任何永續相關獎項的信息。因此，無法確定該公司是否提及永續相關獎項。 
 ----------------------------------------------------------------------------------------------------


In [11]:
import pandas as pd
df = pd.read_csv('../example_io.csv')
transform_=df.to_dict('records')

In [12]:
transform_

[{'input': '請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者',
  'output': '選擇: 是, 解釋: 根據提供的資料，近二年(2022, 2023)年間，該公司因違反保險法相關規定，核處廢止許可，並註銷執業證照。'},
 {'input': '請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者',
  'output': '選擇: 否, 解釋: 根據提供的資料，近二年(2022, 2023)年間，該公司並無受到停業或停工之處分。'},
 {'input': '近一年該公司是否曾獲得外部永續相關獎項',
  'output': '選擇: 是, 解釋: 根據提供的資料，可以列出關於獎項的所有資料，包含「臺灣最佳零售基金公司」、「天下永續公民獎」等。其中，關於永續或ESG相關的獎項有: 「臺灣十大永續典範企業獎 (服務業組)」、「最佳 ESG 獎(一般金融組)-優等」、「金控永續獎 -優質獎」等。'},
 {'input': '近一年該公司是否曾獲得外部永續相關獎項',
  'output': '選擇: 否, 解釋: 根據提供的資料，沒有辦法列出關於獎項或永續獎項的資料，所以該公司在資料中提及的獎項中沒有關於永續或ESG相關的獎項。'},
 {'input': '該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？',
  'output': '選擇: 是, 解釋: 根據提供的資料，該公司投資於節能或綠色能源相關環保永續之機器設備，並投資於我國綠能產業，如再生能源電廠。此外，該公司也有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品。該公司也揭露其投資情形及具體效益。因此，該公司在綠色或永續發展領域有相應的投資和揭露行為。'},
 {'input': '該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？',

In [18]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0.5), csv_vectorstore.as_retriever(), memory=memory)

'''
  請嚴格按以下格式提供是非題和解釋：
  選擇：{是/否/不確定}, 解釋：{解釋}。
'''
chat_history = []
query =  '''
  列出文本中的重點
  '''
print('Q:', query)

result = qa({"question": query,
            "chat_history": chat_history})


print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))

Q: 
  列出文本中的重點
  
A: 根據提供的文本，以下是其中的重點：
1. 文本中列出了17項永續議題清單，包括誠信治理、綠色營運、風險控管等。
2. 文本中提到了利害關係人關注程度和衝擊程度的排序和呈現方式。
3. 文本中提到了一些具體的指標和揭露項目，如放款戶數、放款總餘額、提供金融教育的參與人數等。
4. 文本中提到了自有營運據點的風險占比和位於高風險區域的情況。
5. 文本中提到了一些相關的法令遵循和治理措施，如ESG因子納入授信審核流程、吹哨者制度等。
6. 文本中提到了一些產業別和特定公司應加強揭露的永續指標。
7. 文本中提到了資訊外洩事件和對小型企業及社區發展的貸放件數和貸放餘額的揭露。
----------------------------------------------------------------------------------------------------


## 句子分析

In [13]:
sent_analysis_prompt = '''
你是一個自然語言分析師，請確實逐一執行以下步驟並列出每個步驟的執行結果，不可省略或忽略任一步驟。

步驟:
1. 仔細分析句子的結構，包含主詞、時間短語、動詞、賓語等
2. 理解規則
3. 利用同義詞及相似詞替換句子中的元素來重新建構五個同樣語意且符合規則的句子
4. 逐一分析[步驟3]結果的五個句子的結構
5. 檢查[步驟3]的結果中的五個句子是否符合規則
6.  重新建構五個句子中違反規則的句子，並執行[步驟5]，如果有違反規則的句子，重新執行[步驟6]
7. 列出前面建構所有符合規則的句子，如有重複的，只要列出一個作為代表

規則:
1. 重新建構的句子中不可以包含時間短語，例如: 近一年、近年、最近一年、今年、近期、最近
2. 重新建構的句子偶爾可以替換"獲得"為"提及"
3. 重新建構的句子中不應包含字詞: "外部"
4. 主語偶爾可以替換成"資料"，但語意要通順

句子: 近一年該公司是否曾獲得外部永續相關獎項
'''

In [14]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0), vectorstore.as_retriever(), memory=memory)

chat_history = []
query = sent_analysis_prompt
print('Q:', query)

result = qa({"question": query})


print('A:', result['answer'])
print('-' * 100)
chat_history.append((query, result['answer']))

Q: 
你是一個自然語言分析師，請確實逐一執行以下步驟並列出每個步驟的執行結果，不可省略或忽略任一步驟。

步驟:
1. 仔細分析句子的結構，包含主詞、時間短語、動詞、賓語等
2. 理解規則
3. 利用同義詞及相似詞替換句子中的元素來重新建構五個同樣語意且符合規則的句子
4. 逐一分析[步驟3]結果的五個句子的結構
5. 檢查[步驟3]的結果中的五個句子是否符合規則
6.  重新建構五個句子中違反規則的句子，並執行[步驟5]，如果有違反規則的句子，重新執行[步驟6]
7. 列出前面建構所有符合規則的句子，如有重複的，只要列出一個作為代表

規則:
1. 重新建構的句子中不可以包含時間短語，例如: 近一年、近年、最近一年、今年、近期、最近
2. 重新建構的句子偶爾可以替換"獲得"為"提及"
3. 重新建構的句子中不應包含字詞: "外部"
4. 主語偶爾可以替換成"資料"，但語意要通順

句子: 近一年該公司是否曾獲得外部永續相關獎項

A: 步驟1: 
- 主詞: 該公司
- 時間短語: 近一年
- 動詞: 曾獲得
- 賓語: 外部永續相關獎項

步驟2: 
- 理解規則

步驟3: 
- 重新建構的句子1: 該公司是否提及外部永續相關獎項
- 重新建構的句子2: 近一年該公司是否提及永續相關獎項
- 重新建構的句子3: 該公司是否曾獲得永續相關獎項
- 重新建構的句子4: 近一年該公司是否曾提及永續相關獎項
- 重新建構的句子5: 該公司是否提及永續相關獎項近一年

步驟4: 
- 分析句子1的結構: 該公司是否提及外部永續相關獎項
- 分析句子2的結構: 近一年該公司是否提及永續相關獎項
- 分析句子3的結構: 該公司是否曾獲得永續相關獎項
- 分析句子4的結構: 近一年該公司是否曾提及永續相關獎項
- 分析句子5的結構: 該公司是否提及永續相關獎項近一年

步驟5: 
- 檢查句子1是否符合規則: 符合
- 檢查句子2是否符合規則: 符合
- 檢查句子3是否符合規則: 符合
- 檢查句子4是否符合規則: 符合
- 檢查句子5是否符合規則: 不符合

步驟6: 
- 重新建構句子5: 該公司是否提及永續相關獎項
- 檢查重新建構後的句子5是否符合規則: 符合

步驟7: 
- 列出所有符合規則的句子: 
  1. 該公司是否提及外部永續相關獎項
  2. 近一年該

In [15]:
similar_esg_qs = [
  "該公司是否提及外部永續相關獎項",
  "近一年該公司是否提及永續相關獎項",
  "該公司是否曾獲得永續相關獎項",
  "近一年該公司是否曾提及永續相關獎項",
  "該公司是否提及永續相關獎項",
]

In [16]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0.1), vectorstore.as_retriever())

similar_answers = []

for query in similar_esg_qs:
  if not query:
    break

  chat_history = []
  sys_query = f'''您是專門用於判斷是非題並生成相應的解釋的機器。
  您的任務是根據所提供的資料產出<是>或<否>或<不確定>的答案，以及相應的解釋。
  請嚴格按以下格式回答是非題的選擇和解釋，回答需在五十字以內，[]代表你必須填入的地方。
  格式: 選擇：[是/否/不確定], 解釋：[解釋]。
  你要回答的問題是: {query}
  '''
  result = qa({"question": sys_query, "chat_history": chat_history})
  similar_answers.append(result['answer'])
  chat_history.append((sys_query, result['answer']))
  print('A:', result['answer'], '\n','-' * 100)

A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司是否提及外部永續相關獎項。資料中並未提及該議題，因此無法得出確定的結論。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司是否提及了永續相關獎項。資料中並未提及該公司是否獲得或提及任何永續相關獎項的情況。因此，無法確定該公司是否提及了永續相關獎項。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司是否曾獲得永續相關獎項。資料中並未提及該公司是否曾獲得任何永續相關獎項的相關信息。要確定該公司是否曾獲得永續相關獎項，需要進一步的資訊。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司近一年是否曾提及永續相關獎項。資料中並未提及該公司是否獲得或提及任何永續相關獎項的情況。因此，無法確定該公司是否曾提及永續相關獎項。 
 ----------------------------------------------------------------------------------------------------
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司是否提及永續相關獎項。資料中並未提及有關該公司是否獲得或提及任何永續相關獎項的信息。因此，無法確定該公司是否提及永續相關獎項。 
 ----------------------------------------------------------------------------------------------------
