In [1]:
import os
import re
import json
from utils import read_json
from langchain.document_loaders import PyPDFLoader

from langchain.chat_models import ChatOllama
from langchain_core.messages import HumanMessage, SystemMessage

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
configs = read_json('configs.json')
DATA_PATH = configs["DATA_PATH"]
DB_PATH = configs['DB_PATH']
files_list = [file for file in os.listdir(DATA_PATH) if os.path.isfile(os.path.join(DATA_PATH, file))]

def read_pdf(files_list, data_path=DATA_PATH):
    content_dict = {}

    for file_name in files_list:
        file_path = data_path + file_name
        loader = PyPDFLoader(file_path)
        content = loader.load()
        whole_pdf = ""
        for i in range(len(content)):
            whole_pdf += content[i].page_content

        whole_pdf = re.sub(r'[：。\n]', '', whole_pdf)
        content_dict[file_name] = whole_pdf

    return content_dict

In [3]:
files_list

['34944_高鐵_促參.pdf',
 '38005_核四_政策.pdf',
 '39243_核四_品質.pdf',
 '39477_核四_料件.pdf',
 '46365_高鐵_基金.pdf',
 '48052_大客車_逃生門.pdf',
 '48746_大客車_安全門.pdf',
 '49490_核四_延宕.pdf',
 '49627_核四_停建.pdf',
 '49676_大客車_駕照.pdf',
 '52922_大客車_超時.pdf',
 '54210_高鐵_出資.pdf',
 '54376_高鐵_航發.pdf',
 '54561_高鐵_機電.pdf',
 '58930_核四_封存.pdf']

In [4]:
pdf_contents = read_pdf(files_list)

In [5]:
def content_extraction(input, pattern):

    # Search using the pattern
    match = re.search(pattern, input, re.S)

    if match:
        result = match.group(1).strip()  # Use strip() to remove any leading/trailing whitespace
        print("Extraction succeed.")
        return result
    else:
        print("No match found")
        pass

In [6]:
pattern = r"貳、案   由(.*?)參、事實與理由"

extracted_content = {}
for filename, content in pdf_contents.items():
    extracted_content[filename] = content_extraction(content, pattern)

Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.
Extraction succeed.


In [7]:
extracted_content

{'34944_高鐵_促參.pdf': '交通部於 87年間與臺灣高速鐵路公司簽訂「臺灣南北高速鐵路興建營運合約」及「臺灣南北高速鐵路站區開發合約 」，疏未預先審度該公司展延高鐵通車營運時程及遲延受領站區用地所生 損失之責任歸屬，並綢繆約定 相關處罰條款 ，嗣對政府權益保障恝置不察，一再同意該公司展延通車營運時程及受領站區用地， 致政府蒙受回饋金與租金收入減少及顧問費用增加等鉅額損失，均有違失，爰依監察法第 24條規定提案糾正',
 '38005_核四_政策.pdf': '核四封存後每年仍耗費數億元於資產維護管理，行政院及經濟部對外宣告核四重啟不可行，核四興建費用 2,833億元頇列為損失，行政院及 經濟部對核四政策之重大變動，導致資源嚴重浪費； 再者，經濟部宣布能源配比 (燃氣50%、燃煤30%、再生能源20%)之能源轉型政策，未經能源安全、能源經濟及環境影響等完整評估 ，復於再生能源發電量增加有限情況下， 以運轉中核電機組長期停機 方式減核 ，致近年火力發購電量逐年提高， 106年占比達84.4%，燃煤發電增幅 甚至高於燃氣，造成嚴重空氣污染；以及經濟部宣布 新能源政策 之前，並未評估其對電價之影響，迄 106年3月行政院始於國公營企業體檢小組會議評估 等情，均有違失，爰依法提案糾正',
 '39243_核四_品質.pdf': '台電公司 未落實「核四工程品質保證方案」，致龍門電廠試運轉時違規與注意改善事項層出不窮，如 抑壓池灌水作業 不當，致反應器廠房底層淹水 、壓力試驗合格之室內消防栓 系統，其 太平龍頭 竟脫落，致汽機廠房積水等 ，均嚴重衝擊國人對核能安全運轉之信心等情 ，確有諸多違失，爰依法提案糾正',
 '39477_核四_料件.pdf': '台灣電力股份有限公司 (下稱台電公司 )於本院調查核四廠一號機因施工測詴期間設備損壞而移用二號機相關設備之過程，所提供資料內容前後不一，設備組件損壞、採購及修復個數未能確實清查正確，顯見台電公司核四廠之料件管理系統紊亂，且回復本院公文一再發生資料正確性不足，核有怠失；另台電公司於 81年陳報核四興建計畫， 竟以69年所估算成本陳報， 未能如實報告核四建廠成本，致使政府無法確實評估該項投資計畫之成本效益，台電公司表示當時即考慮日後再以追加預算方式提出，此亦導致政 府長年來不得不對核四預算持續加碼，形成台電公司及國家

In [14]:
input_content = extracted_content[list(extracted_content.keys())[1]]

In [15]:
input_content

'核四封存後每年仍耗費數億元於資產維護管理，行政院及經濟部對外宣告核四重啟不可行，核四興建費用 2,833億元頇列為損失，行政院及 經濟部對核四政策之重大變動，導致資源嚴重浪費； 再者，經濟部宣布能源配比 (燃氣50%、燃煤30%、再生能源20%)之能源轉型政策，未經能源安全、能源經濟及環境影響等完整評估 ，復於再生能源發電量增加有限情況下， 以運轉中核電機組長期停機 方式減核 ，致近年火力發購電量逐年提高， 106年占比達84.4%，燃煤發電增幅 甚至高於燃氣，造成嚴重空氣污染；以及經濟部宣布 新能源政策 之前，並未評估其對電價之影響，迄 106年3月行政院始於國公營企業體檢小組會議評估 等情，均有違失，爰依法提案糾正'

# Llama 3

In [9]:
llm = ChatOllama(
    model = 'llama3',
    verbose = True
)

In [14]:
# messages = [
#     SystemMessage(
#         content="你是一個專業的中文AI助手，用繁體中文回答所有的問題，即使問題是英文也要用中文回答"
#         ), 
#     HumanMessage(
#         content=f"對以下文件作內容摘要整理:{pdf_108_1_reason},用繁體中文回覆"
#     )
# ]
# model_response = llm.invoke(messages)

In [11]:
messages = [
    SystemMessage(
        content="你是一個專業的中文AI助手，用繁體中文回答所有的問題，即使問題是英文也要用中文回答"
        ), 
    HumanMessage(
        content=f"""三元組指的是：（實體）--關係--（實體）
（實體）通常是特定的人、組織或物體，（關係）則是描述兩個實體之間的關係，例如 （孫悟空）--徒弟--（唐僧）、（孫悟空）--師兄弟--（豬八戒）或（立法委員）--制定--（法律）
將以下這些内容以三元組方式描述並以Json格式呈現:\n{input_content} \n 。"""
    )
]
tuple_json = llm.invoke(messages)

In [12]:
tuple_json.content

'Here is the content described in a triplet format with JSON representation:\n\n```\n[\n  {\n    "實體1": "交通部",\n    "關係": "與",\n    "實體2": "臺灣高速鐵路公司"\n  },\n  {\n    "實體1": "交通部",\n    "關係": "簽訂",\n    "實體2": "\\"臺灣南北高速鐵路興建營運合約\\"及\\"臺灣南北高速鐵路站區開發合約 \\""\n  },\n  {\n    "實體1": "臺灣高速鐵路公司",\n    "關係": "展延",\n    "實體2": "高鐵通車營運時程"\n  },\n  {\n    "實體1": "交通部",\n    "關係": "未預先審度",\n    "實體2": "該公司的展延高鐵通車營運時程及遲延受領站區用地所生 損失之責任歸屬"\n  },\n  {\n    "實體1": "交通部",\n    "關係": "綢繆約定",\n    "實體2": "相關處罰條款 "\n  },\n  {\n    "實體1": "政府",\n    "關係": "蒙受",\n    "實體2": "回饋金與租金收入減少及顧問費用增加等鉅額損失"\n  }\n]\n```\n\nNote: The triplet format is (實體) -- 關係 -- (實體), where 实体 refers to a specific entity, and 关係 represents the relationship between two entities.'

In [15]:
with open('三元組_json_test.txt', 'w') as file:
    file.write(tuple_json.content)

In [4]:
# from llama_cpp import Llama

# llm = Llama(
#       model_path="models/Meta-Llama-3-8B-Instruct.gguff",
#       # n_gpu_layers=-1, # Uncomment to use GPU acceleration
#       # seed=1337, # Uncomment to set a specific seed
#       # n_ctx=2048, # Uncomment to increase the context window
# )
# output = llm(
#       "Q: Name the planets in the solar system? A: ", # Prompt
#       max_tokens=32, # Generate up to 32 tokens, set to None to generate up to the end of the context window
#       stop=["Q:", "\n"], # Stop generating just before the model would generate a new question
#       echo=True # Echo the prompt back in the output
# ) # Generate a completion, can also call create_completion
# print(output)

# TAIDE

In [8]:
api_key = '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'

tokenizer = AutoTokenizer.from_pretrained("taide/Llama3-TAIDE-LX-8B-Chat-Alpha1", use_auth_token=api_key)
model = AutoModelForCausalLM.from_pretrained("taide/Llama3-TAIDE-LX-8B-Chat-Alpha1", use_auth_token=api_key)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Loading checkpoint shards: 100%|██████████| 4/4 [00:27<00:00,  6.89s/it]


In [9]:
# Load the model
eos_token=None
eos_token_id = tokenizer.convert_tokens_to_ids(eos_token) if eos_token else tokenizer.eos_token_id
print('Model loaded')
llm = pipeline("text-generation",
                        model=model,
                        max_length=50000,
                        tokenizer=tokenizer,
                        pad_token_id=tokenizer.pad_token_id,
                        eos_token_id=eos_token_id,
                        )

Model loaded


In [11]:
# create input

insts = [{'role': 'system', 'content': '你你是一個專業的中文AI助手，用繁體中文回答所有的問題。'},
         {'role': 'user', 'content': f"""三元組指的是：（實體）--關係--（實體）
（實體）通常是特定的人、組織或物體，（關係）則是描述兩個實體之間的關係，例如 （孫悟空）--徒弟--（唐僧）、（孫悟空）--師兄弟--（豬八戒）、（幸運者）--得到--（大獎）或（立法委員）--制定--（法律）
將以下這些内容以三元組方式描述並以Json格式呈現:\n{input_content} \n 。"""}
]
prompt = tokenizer.apply_chat_template(insts, 
                                        tokenize=False,
                                        add_generation_prompt=True)
prompt

'<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n你你是一個專業的中文AI助手，用繁體中文回答所有的問題。<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n三元組指的是：（實體）--關係--（實體）\n（實體）通常是特定的人、組織或物體，（關係）則是描述兩個實體之間的關係，例如 （孫悟空）--徒弟--（唐僧）、（孫悟空）--師兄弟--（豬八戒）、（幸運者）--得到--（大獎）或（立法委員）--制定--（法律）\n將以下這些内容以三元組方式描述並以Json格式呈現:\n交通部於 87年間與臺灣高速鐵路公司簽訂「臺灣南北高速鐵路興建營運合約」及「臺灣南北高速鐵路站區開發合約 」，疏未預先審度該公司展延高鐵通車營運時程及遲延受領站區用地所生 損失之責任歸屬，並綢繆約定 相關處罰條款 ，嗣對政府權益保障恝置不察，一再同意該公司展延通車營運時程及受領站區用地， 致政府蒙受回饋金與租金收入減少及顧問費用增加等鉅額損失，均有違失，爰依監察法第 24條規定提案糾正 \n 。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n'

In [12]:
result = llm(prompt)

KeyboardInterrupt: 

In [14]:
result

[{'generated_text': '<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n你你是一個專業的中文AI助手，用繁體中文回答所有的問題。<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n三元組指的是：（實體）--關係--（實體）\n（實體）通常是特定的人、組織或物體，（關係）則是描述兩個實體之間的關係，例如 （孫悟空）--徒弟--（唐僧）、（孫悟空）--師兄弟--（豬八戒）、（幸運者）--得到--（大獎）或（立法委員）--制定--（法律）\n將以下這些内容以三元組方式描述並以Json格式呈現:\n內政部制定殯葬管理條例時， 顯未能務實通盤瞭解殯葬業之問題，在法制上預為釐清因應，其後亦未能掌握問題之所在，致相關之規範及函釋未盡周延，歷時 10多年竟未能對症化解爭議，滋生諸多民怨，確有怠失，爰依法提案糾正 。 \n 。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n：\n{\n"實體1": "內政部",\n"關係": "制定",\n"實體2": "殯葬管理條例"}\n、\n{\n"實體1": "殯葬業",\n"關係": "問題",\n"實體2": "內政部"}\n、\n{\n"實體1": "立法機關",\n"關係": "爭議",\n"實體2": "民怨"}\n、\n{\n"實體1": "相關單位",\n"關係": "函釋",\n"實體2": "規範"}\n、\n{\n"實體1": "歷年官員",\n"關係": "怠失",\n"實體2": "未能對症化解"}\n。'}]

In [22]:
result = [{'generated_text': '<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n你你是一個專業的中文AI助手，用繁體中文回答所有的問題。<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n三元組指的是：（實體）--關係--（實體）\n（實體）通常是特定的人、組織或物體，（關係）則是描述兩個實體之間的關係，例如 （孫悟空）--徒弟--（唐僧）、（孫悟空）--師兄弟--（豬八戒）、（幸運者）--得到--（大獎）或（立法委員）--制定--（法律）\n將以下這些内容以三元組方式描述並以Json格式呈現:\n內政部制定殯葬管理條例時， 顯未能務實通盤瞭解殯葬業之問題，在法制上預為釐清因應，其後亦未能掌握問題之所在，致相關之規範及函釋未盡周延，歷時 10多年竟未能對症化解爭議，滋生諸多民怨，確有怠失，爰依法提案糾正 。 \n 。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n：\n{\n"實體1": "內政部",\n"關係": "制定",\n"實體2": "殯葬管理條例"}\n、\n{\n"實體1": "殯葬業",\n"關係": "問題",\n"實體2": "內政部"}\n、\n{\n"實體1": "立法機關",\n"關係": "爭議",\n"實體2": "民怨"}\n、\n{\n"實體1": "相關單位",\n"關係": "函釋",\n"實體2": "規範"}\n、\n{\n"實體1": "歷年官員",\n"關係": "怠失",\n"實體2": "未能對症化解"}\n。'}]

In [23]:
parts = result[0]['generated_text'].split("<|start_header_id|>assistant<|end_header_id|>", 1)[1]

In [25]:
cleaned_parts = re.sub(r'[：。\n]', '', parts)  # Remove specific characters using a regular expression
cleaned_parts = cleaned_parts.replace("實體", "entity").replace("關係", "relationship").split("、")
cleaned_parts

['{"entity1": "內政部","relationship": "制定","entity2": "殯葬管理條例"}',
 '{"entity1": "殯葬業","relationship": "問題","entity2": "內政部"}',
 '{"entity1": "立法機關","relationship": "爭議","entity2": "民怨"}',
 '{"entity1": "相關單位","relationship": "函釋","entity2": "規範"}',
 '{"entity1": "歷年官員","relationship": "怠失","entity2": "未能對症化解"}']

In [15]:
cleaned_parts = ['{"entity1": "內政部","relationship": "制定","entity2": "殯葬管理條例"}',
 '{"entity1": "殯葬業","relationship": "問題","entity2": "內政部"}',
 '{"entity1": "立法機關","relationship": "爭議","entity2": "民怨"}',
 '{"entity1": "相關單位","relationship": "函釋","entity2": "規範"}',
 '{"entity1": "歷年官員","relationship": "怠失","entity2": "未能對症化解"}']

In [2]:
from neo4j import GraphDatabase

In [3]:
URI = "bolt://localhost:7689"
AUTH = ("neo4j", "neo4j")

with GraphDatabase.driver(URI, auth=AUTH, encrypted=False) as driver:
    driver.verify_connectivity()

In [4]:
def get_nodes():
    query = "MATCH (n) RETURN n LIMIT 10"
    with driver.session() as session:
        result = session.run(query)
        for record in result:
            print(record["n"])  # Adjust depending on your data structure

get_nodes()

  with driver.session() as session:


<Node element_id='4:bb6dac4e-87ad-4c29-aad6-e05b6d5c0823:0' labels=frozenset({'Movie'}) properties={'tagline': 'Welcome to the Real World', 'title': 'The Matrix', 'released': 1999}>
<Node element_id='4:bb6dac4e-87ad-4c29-aad6-e05b6d5c0823:1' labels=frozenset({'Person'}) properties={'born': 1964, 'name': 'Keanu Reeves'}>
<Node element_id='4:bb6dac4e-87ad-4c29-aad6-e05b6d5c0823:2' labels=frozenset({'Person'}) properties={'born': 1967, 'name': 'Carrie-Anne Moss'}>
<Node element_id='4:bb6dac4e-87ad-4c29-aad6-e05b6d5c0823:3' labels=frozenset({'Person'}) properties={'born': 1961, 'name': 'Laurence Fishburne'}>
<Node element_id='4:bb6dac4e-87ad-4c29-aad6-e05b6d5c0823:4' labels=frozenset({'Person'}) properties={'born': 1960, 'name': 'Hugo Weaving'}>
<Node element_id='4:bb6dac4e-87ad-4c29-aad6-e05b6d5c0823:5' labels=frozenset({'Person'}) properties={'born': 1967, 'name': 'Lilly Wachowski'}>
<Node element_id='4:bb6dac4e-87ad-4c29-aad6-e05b6d5c0823:6' labels=frozenset({'Person'}) properties={'bor

In [26]:
def create_relationships(tx, data):
    for item in data:
        tx.run("MERGE (a:Entity {name: $entity1}) "
               "MERGE (b:Entity {name: $entity2}) "
               "MERGE (a)-[r:RELATIONSHIP {type: $relationship}]->(b)",
               entity1=item["entity1"], relationship=item["relationship"], entity2=item["entity2"])

In [27]:
with GraphDatabase.driver(uri=URI, auth = ("neo4j", "neo4j")) as driver:
    with driver.session() as session:
        session.write_transaction(create_relationships, cleaned_parts)


  session.write_transaction(create_relationships, cleaned_parts)


TypeError: string indices must be integers

In [28]:
import json
from neo4j import GraphDatabase

cleaned_parts = [
    '{"entity1": "內政部","relationship": "制定","entity2": "殯葬管理條例"}',
    '{"entity1": "殯葬業","relationship": "問題","entity2": "內政部"}',
    '{"entity1": "立法機關","relationship": "爭議","entity2": "民怨"}',
    '{"entity1": "相關單位","relationship": "函釋","entity2": "規範"}',
    '{"entity1": "歷年官員","relationship": "怠失","entity2": "未能對症化解"}'
]

def create_relationships(tx, data):
    for item in data:
        item_dict = json.loads(item)  # Convert the string to a dictionary
        tx.run("MERGE (a:Entity {name: $entity1}) "
               "MERGE (b:Entity {name: $entity2}) "
               "MERGE (a)-[r:RELATIONSHIP {type: $relationship}]->(b)",
               entity1=item_dict["entity1"], relationship=item_dict["relationship"], entity2=item_dict["entity2"])

with GraphDatabase.driver(uri=URI, auth=("neo4j", "neo4j")) as driver:
    with driver.session() as session:
        session.write_transaction(create_relationships, cleaned_parts)


  session.write_transaction(create_relationships, cleaned_parts)


In [29]:
def fetch_data(tx):
    result = tx.run("MATCH (n:Entity)-[r:RELATIONSHIP]->(m:Entity) "
                    "RETURN n.name, r.type, m.name")
    for record in result:
        print(f"{record['n.name']} {record['r.type']} {record['m.name']}")

with GraphDatabase.driver(uri=URI, auth=("neo4j", "neo4j")) as driver:  # Replace auth credentials as necessary
    with driver.session() as session:
        session.read_transaction(fetch_data)


  session.read_transaction(fetch_data)


殯葬業 問題 內政部
內政部 制定 殯葬管理條例
立法機關 爭議 民怨
相關單位 函釋 規範
歷年官員 怠失 未能對症化解
