In [1]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.document_loaders import TextLoader, PyPDFLoader, CSVLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOpenAI
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationBufferMemory
from langchain.schema import AIMessage, HumanMessage, SystemMessage
import os



### Import OpenAI API

In [2]:
os.environ["OPENAI_API_KEY"] = "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"

### Read PDF File

In [3]:
file_path = "data/CTBC_2022_Sustainability_Report_zh3.pdf"
loader = file_path.endswith(".pdf") and PyPDFLoader(file_path) or TextLoader(file_path)

### Choose the splitter & Split paragraphs into chunks

In [4]:
splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
pdf_texts = loader.load_and_split(splitter)

### Load CSV File

In [5]:
csv_file_path = "data/中國信託_ViolationItems.csv"
csv_loader = CSVLoader(csv_file_path)
csv_texts = csv_loader.load()

### Conmibe PDF and CSV Texts

In [6]:
combined_texts = pdf_texts + csv_texts
# combined_texts

### Set up local db

In [7]:
embeddings = OpenAIEmbeddings()  # or any other embeddings model
vectorstore = Chroma.from_documents(combined_texts, embeddings)  # store the vectors in the local vectorstore

### Selected Questions List 
(我有稍微改過，所以題目可能會有點不一樣)

In [8]:
questions_list = [
                # 第一部分：E/S/G 違規項目
                '請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者',
                # 第二部分：E/S/G 關鍵作為
                '近一年該公司是否曾獲得外部永續相關獎項',
                # 第三部分：Environmental
                '該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？',
                # 第三部分：Social
                '該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）',
                # 第三部分：Governancce
                '該公司是否已將「股利政策」、「董監事及經理人績效評估與酬金制度」、「員工權益」，揭露於公司網路、年報或永續報告書？']

### Establish chat chain

In [9]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0), vectorstore.as_retriever())

for question in questions_list:
    chat_history = []  # Reset chat history for each new question
    print('Q:', question)
    query = question
    if not query:
        break

    # result = qa({"question": '您是一個經過訓練的語言模型，專門用於判斷是非題並生成相應的解釋。這些問題將涉及信貸核准，幫助公司評估個人或企業的信貸風險並做出信貸決策。您的任務是根據所提供的資料（一份永續報告書 pdf 檔案、和一份關於該公司於金管會所揭發之裁罰案件的 csv 檔案）產出<是>或<否>或<不確定>的答案，以及相應的解釋。請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：{是/否/不確定}, 解釋：{解釋}。以下為你將要判斷與回答的問題：' + query + ' (用繁體中文回答)',
    #             "chat_history": chat_history})

    result = qa({"question": '您是一個經過訓練的語言模型，專門用於判斷是非題並生成相應的解釋。這些問題將涉及信貸核准，幫助公司評估個人或企業的信貸風險並做出信貸決策。您的任務是根據所提供的資料產出<是>或<否>或<不確定>的答案，以及相應的解釋。請嚴格按以下格式提供是非題和解釋（每次回答都續按照此格式）：選擇：{是/否/不確定}, 解釋：{解釋}。以下為你將要判斷與回答的問題：' + query + ' (用繁體中文回答)',
                "chat_history": chat_history})
    
    print('A:', result['answer'])
    print('-' * 100)
    chat_history.append((query, result['answer']))


Q: 請根據資料中 <裁處書發文日期> 判斷近二年該公司是否發生洗錢或資助資恐活動情節重大或導致停工 / 停業者
A: 選擇：不確定, 解釋：根據所提供的資料，無法確定該公司近二年是否發生洗錢或資助資恐活動情節重大或導致停工/停業的情況。資料中並未提及該公司的洗錢或資助資恐活動相關情況，因此無法做出確定的判斷。
----------------------------------------------------------------------------------------------------
Q: 近一年該公司是否曾獲得外部永續相關獎項
A: 選擇：不確定, 解釋：根據所提供的資料，並未提及該公司是否曾獲得外部永續相關獎項。因此，無法確定該公司近一年是否曾獲得外部永續相關獎項。
----------------------------------------------------------------------------------------------------
Q: 該公司是否投資於節能或綠色能源相關環保永續之機器設備，或投資於我國綠能產業（如:再生能源電廠）等，或有發行或投資其資金運用於綠色或社會效益投資計畫並具實質效益之永續發展金融商品，並揭露其投資情形及具體效益？
A: 選擇：是, 解釋：根據提供的資料，台灣人壽在放款徵信審核程序中檢視法人放款戶是否善盡環境保護、企業誠信經營及社會責任等議題，並要求充分揭露評估之資訊於徵信報告中，供各級權責主管做出合適之融資決策。此外，中信銀行也統籌主辦了多個再生能源專案融資聯貸案，並投資於綠能科技、循環經濟、綠電與再生能源產業等領域。因此，該公司投資於綠色能源相關環保永續之機器設備、綠能產業以及具實質效益之永續發展金融商品，並揭露其投資情形及具體效益。
----------------------------------------------------------------------------------------------------
Q: 該公司是否揭露員工福利政策？（如：保險、育嬰假、退休制度、員工持股、工作者健康促進、在職訓練…等）
A: 選擇：不確定, 解釋：根據提供的資料，我們無法確定該公司是否揭露員工福利政策。資料中沒有提及有關該公司的員工福利政策的具體信息。
-