# Import

In [3]:
import pandas as pd
import ast 
import difflib as dif
from colorama import Fore, Style
import pickle
#for query
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from pythainlp.tokenize import word_tokenize
from string import punctuation
import numpy as np
import time

# Load Data

### Load code_mapping

In [4]:
code_mapping = pd.read_csv('code_doc_mapping.csv',dtype='str')

In [5]:
code_mapping.head()

Unnamed: 0,doc_id,name
0,0,นำส่งประกาศธนาคารแห่งประเทศไทย เรื่องกำหนด หลั...
1,1,นำส่งประกาศธนาคารแห่งประเทศไทย เรื่องกำหนด หลั...
2,2,นำส่งประกาศธนาคารแห่งประเทศไทย เรื่องกำหนด หลั...
3,3,นำส่งประกาศธนาคารแห่งประเทศไทย เรื่องกำหนด หลั...
4,4,หลักเกณฑ์ วิธีการ และเงื่อนไขในการประกอบธุรกิจ...


### Load dict_query

In [6]:
with open('dict_query.pickle', 'rb') as file:
    dict_query = pickle.load(file)

In [7]:
with open('dict_query_list.pickle', 'rb') as file:
    dict_query_list = pickle.load(file)

In [8]:
# Ex code id
code_id = '0000|0001|0002'
print("code_id: ",code_id)
print("เพื่อใช้ในการค้นหา \n")
print("dict_query: ",dict_query[code_id][:100],"...")
print("\nเพื่อใช้ในการแสดงผลต่างและเหมือน \n")
print("dict_query_list: ",dict_query_list[code_id][:20],"...")

code_id:  0000|0001|0002
เพื่อใช้ในการค้นหา 

dict_query:  23 (2563 เรื่อง นำส่งประกาศธนาคารแห่งประเทศไทย เรื่อง การกำหนด หลักเกณฑ์ วิธีการ และเงื่อนไขในการประ ...

เพื่อใช้ในการแสดงผลต่างและเหมือน 

dict_query_list:  ['23', ' ', '(', '2563', ' ', 'เรื่อง', ' ', 'นำ', 'ส่ง', 'ประกาศ', 'ธนาคารแห่งประเทศไทย', ' ', 'เรื่อง', ' ', 'การ', 'กำหนด', ' ', 'หลักเกณฑ์', ' ', 'วิธีการ'] ...


### Load Dict Pair

In [9]:
#dict_pair
with open('dict_pair.pickle', 'rb') as file:
    dict_pair = pickle.load(file)

In [10]:
index_find = 5
print("query_code_id: ",dict_pair['query'][5])
print("mapping_result_id: ",dict_pair['result'][5])
print("Score: ",dict_pair['Score'][5])

query_code_id:  0000|0001|0014
mapping_result_id:  ['0001|0003|0023', '0002|0001|0018', '0002|0003|0023', '0003|0001|0015']
Score:  [0.3864695375956029, 0.7044029412765824, 0.5754118673416391, 0.3265738860112924]


### Load TF-IDF

#### Query Function

In [11]:
def canonicalize(string):
    normalized_tokens = list()
    a = word_tokenize(string, engine = 'newmm')
    for j in a:
        token = j.strip()
        #Add clean statement here 
        if len(token) > 1 and token not in set(punctuation) and token not in ['..','...','ๆๆ']:
            try:
                normalized_tokens.append(token.lower())
            except:
                normalized_tokens.append(token)
                pass
    return normalized_tokens


# A function that given an input query item returns the top-k most similar items 
# by their cosine similarity.
def find_similar(query_vector, td_matrix, top_k = 5):
    cosine_similarities = cosine_similarity(query_vector, td_matrix).flatten()
    related_doc_indices = cosine_similarities.argsort()[::-1]
    return [(index, cosine_similarities[index]) for index in related_doc_indices][0:top_k]

print('OK !')

OK !


In [12]:
tfidf_vectorizer = pickle.load(open('tfidf_vectorizer.sav', 'rb'))
tfidf_term_document_matrix = pickle.load(open('tfidf_term_document_matrix.sav', 'rb'))

https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


## Step01 query

In [13]:
def change_dict_query_to_df(dict_query):
    index_list = []
    code_id_list = []
    sentence_list = []
    for index,doc in enumerate(list(dict_query.values())):
        code_id_list.append(list(dict_query.keys())[index])
        index_list.append(index)
        sentence_list.append(doc)
    dict_query_df = pd.DataFrame(data={'index':index_list,'code_id':code_id_list,'sentence_list':sentence_list})
    return dict_query_df

In [14]:
dict_query_df = change_dict_query_to_df(dict_query)
dict_query_df.head()

Unnamed: 0,index,code_id,sentence_list
0,0,0000|0001|0002,23 (2563 เรื่อง นำส่งประกาศธนาคารแห่งประเทศไทย...
1,1,0000|0001|0003,กำหนด หลักเกณฑ์ วิธีการ และเงื่อนไขในการประกอบ...
2,2,0000|0001|0004,ขอนำส่งประกาศธนาคารแห่งประเทศไทย ที่(ฝ่ายงาน) ...
3,3,0000|0001|0006,การประกอบธุรกิจบัตรเครดิต ลง (วันที่)ซึ่งได้ปร...
4,4,0000|0001|0008,พิเศษ 174 ง ลง (วันที่)มาพร้อมนี้ การปรับปรุงป...


In [15]:
def query(query_text,tfidf_term_document_matrix,dict_query):
    transformed = tfidf_vectorizer.transform([query_text])
    query = transformed[0:1]
    np_result = np.array(find_similar(query, tfidf_term_document_matrix, len(list(dict_query.values()))))
    index_list = []
    score_list = []
    df_dict = {'index': index_list, 'score': score_list}

    df_dict['index'] =  np_result[:,0]
    df_dict['score'] =  np_result[:,1]

    df = pd.DataFrame(df_dict)
    df['index'] = df['index'].astype(int)
    df = df.merge(dict_query_df,on='index',how='left')
    df = df[df['score'] >0]
    return df

In [16]:
sentence_query = 'หมีพู'
print(sentence_query)

หมีพู


In [17]:
df_query = query(sentence_query,tfidf_term_document_matrix,dict_query)
df_query.head()

Unnamed: 0,index,score,code_id,sentence_list


In [18]:
# def query(sentence_query):
#     query_code_id_list = list(dict_query.keys())[list(dict_query.values()).index(sentence_query)]
#     return [query_code_id_list] #return multiple code as list

In [19]:
def get_document_info(query_code_id):
    query_code_id_split = query_code_id.split("|")
    doc_id = query_code_id_split[0]
    page_id = query_code_id_split[1]
    sentence_id = query_code_id_split[2]
    doc_name = code_mapping[code_mapping['doc_id'] == doc_id].iloc[0]['name']
    return doc_id, page_id, sentence_id, doc_name

In [20]:
doc_id, page_id, sentence_id, doc_name = get_document_info('0040|0001|0000')

In [21]:
print('Doc_id: ',doc_id)
print('Doc_Name: ',doc_name)
print('page_id: ',page_id)
print('sentence_id: ',sentence_id)

Doc_id:  0040
Doc_Name:  แนวทางการใหค้วามช่วยเหลือลูกหนี้้ีที่ไดร้ับผลกระทบจากโรคติดเช้ือไวรัสโค โรนา 2019 (มาตราการแก้หนี้ระยะยาวด้วยการรีไฟแนนส์(refinance) และการ รวมหนี้้ี(debt consolidation))
page_id:  0001
sentence_id:  0000


# Show Network

In [25]:
import networkx as nx
from pyvis.network import Network
import matplotlib.pyplot as plt

In [26]:
# doc_id_query = []
# for code_id in df_query['code_id']:
#     doc_id_query.append(code_id.split("|")[0])
#     doc_id_query = list(set(doc_id_query))

In [27]:
def create_network(df_query):
    if df_query.shape[0] != 0:
        doc_id_query = []
        for code_id in df_query['code_id']:
            doc_id_query.append(code_id.split("|")[0])
            doc_id_query = list(set(doc_id_query))
    else:
        doc_id_query = None
    
    data_max_pair = pd.read_csv('data_max_pair4.csv')
    doc_id_A_list = []
    doc_id_B_list = []
    doc_id_list = []
    set_of_pair_list = []
    
    code_id_pairs = list(data_max_pair['max_pair_list'])
    for code_id_pair in code_id_pairs:
        code_id_split = code_id_pair.split(' ~ ')

        doc_id_A = code_id_split[0].split('|')[0]
        doc_id_B = code_id_split[1].split('|')[0]
        
        if doc_id_query != None and doc_id_A in doc_id_query and doc_id_B in doc_id_query:
            doc_id_A_list.append(doc_id_A)
            doc_id_B_list.append(doc_id_B)
            set_of_pair_list.append({doc_id_A,doc_id_B})
            
        elif doc_id_query == None:
            doc_id_A_list.append(doc_id_A)
            doc_id_B_list.append(doc_id_B)
            set_of_pair_list.append({doc_id_A,doc_id_B})
            
    if len(doc_id_A_list) == 0:
        return None

    doc_id_list.extend(doc_id_A_list)
    doc_id_list.extend(doc_id_B_list)
    doc_id_list = list(set(doc_id_list))
    
    G = Network()
    for doc_A in doc_id_list:
        for doc_B in doc_id_list:
            if doc_A != doc_B and {doc_A,doc_B} in set_of_pair_list:
                weight = set_of_pair_list.count({doc_A,doc_B})
                G.add_node(doc_A)
                G.add_node(doc_B)
                # G.add_edge(doc_A, doc_B, weight=weight )
                G.add_edge(doc_A, doc_B, value=weight)
    return G

In [49]:
G = create_network(df_query)
# G.show_buttons(filter_=["nodes", "edges", "physics"])
G.show('nx.html')

In [29]:
# g = Network()
# total = 0
# all_doc = df_all_doc['Doc_ID'].unique()
# for n in range(0,len(all_doc)): 
#     g.add_node(n)
# for i in range(0,len(all_doc)): 
#     for j in range(i,len(all_doc)):
#         if i != j:
#             doc_pair_weigh = doc_pair.count({all_doc[i], all_doc[j]})
#             if doc_pair_weigh > 0:
#                 total += doc_pair_weigh
#                 g.add_edge(i, j, value=doc_pair_weigh)
# g.show_buttons(filter_=['physics'])
# g.show('nx.html')

In [30]:
# def create_network(df_query):
#     if df_query.shape[0] != 0:
#         doc_id_query = []
#         for code_id in df_query['code_id']:
#             doc_id_query.append(code_id.split("|")[0])
#             doc_id_query = list(set(doc_id_query))
#     else:
#         doc_id_query = None
    
#     data_max_pair = pd.read_csv('data_max_pair4.csv')
#     doc_id_A_list = []
#     doc_id_B_list = []
#     doc_id_list = []
#     set_of_pair_list = []
    
#     code_id_pairs = list(data_max_pair['max_pair_list'])
#     for code_id_pair in code_id_pairs:
#         code_id_split = code_id_pair.split(' ~ ')

#         doc_id_A = code_id_split[0].split('|')[0]
#         doc_id_B = code_id_split[1].split('|')[0]
        
#         if doc_id_query != None and doc_id_A in doc_id_query and doc_id_B in doc_id_query:
#             doc_id_A_list.append(doc_id_A)
#             doc_id_B_list.append(doc_id_B)
#             set_of_pair_list.append({doc_id_A,doc_id_B})
            
#         elif doc_id_query == None:
#             doc_id_A_list.append(doc_id_A)
#             doc_id_B_list.append(doc_id_B)
#             set_of_pair_list.append({doc_id_A,doc_id_B})
            
#     if len(doc_id_A_list) == 0:
#         return None

#     doc_id_list.extend(doc_id_A_list)
#     doc_id_list.extend(doc_id_B_list)
#     doc_id_list = list(set(doc_id_list))
    
#     G = nx.Graph()
#     for doc_A in doc_id_list:
#         for doc_B in doc_id_list:
#             if doc_A != doc_B and {doc_A,doc_B} in set_of_pair_list:
#                 weight = set_of_pair_list.count({doc_A,doc_B})
#                 G.add_edge(doc_A, doc_B, weight=weight )
#     return G

In [31]:
# G = create_network(df_query)

In [32]:
# def show_network(pyvis_network):
#     pyvis_network = Network(height = 800,width = 800, notebook=True)
#     pyvis_network.toggle_hide_edges_on_drag(False)
#     pyvis_network.barnes_hut()
#     pyvis_network.show_buttons(filter_=['physics'])
#     return pyvis_network

In [33]:
# pyvis_network = show_network(G)
# pyvis_network.show("result.html")

In [34]:
# nx.draw(G,with_labels=True,font_weight="bold")
# plt.show()

In [35]:
# data_max_pair = pd.read_csv('data_max_pair4.csv')

In [36]:
# data_max_pair.head()

In [37]:
# doc_id_A_list = []
# doc_id_B_list = []
# doc_id_list = []
# set_of_pair_list = []

# code_id_pairs = list(data_max_pair['max_pair_list'])
# for code_id_pair in code_id_pairs:
#     code_id_split = code_id_pair.split(' ~ ')
    
#     doc_id_A = code_id_split[0].split('|')[0]
#     doc_id_B = code_id_split[1].split('|')[0]
# #     if doc_id_A == '0028' and doc_id_B == '0038':
# #         print(code_id_pair)
    
#     doc_id_A_list.append(doc_id_A)
#     doc_id_B_list.append(doc_id_B)
#     set_of_pair_list.append({doc_id_A,doc_id_B})
    
# doc_id_list.extend(code_id_A_list)
# doc_id_list.extend(code_id_B_list)
# doc_id_list = list(set(doc_id_list))

In [38]:
# G = nx.Graph()
# for doc_A in doc_id_list:
#     for doc_B in doc_id_list:
#         if doc_A != doc_B and {doc_A,doc_B} in set_of_pair_list:
#             weight = set_of_pair_list.count({doc_A,doc_B})
#             G.add_edge(doc_A, doc_B, weight=weight )
#             #create edge
            

In [39]:
# nx.draw(G,with_labels=True,font_weight="bold")
# plt.show()

In [40]:
# code_mapping[code_mapping['doc_id'].isin(['0039','0034','0024'])]['name']

# Show result when click on any query
* click on '0001|0003|0023'

In [41]:
def show_result(query_code_id,mapping_result_id):
    query_sentence = dict_query_list[query_code_id]
    compare_sentence = dict_query_list[mapping_result_id]
    
    compare_sentence_result_list = list(dif.Differ().compare(query_sentence,compare_sentence))
    
    new_str1 = ''
    new_str2 = ''
    len_first = 0 #เช็กว่าเป็นคำแรกของประโยคไหม ถ้าเป็นก็จะตัดออก เพื่อปรับให้ประโยคตรงกัน
    
    for symbol_and_word in compare_sentence_result_list:
        symbol = symbol_and_word[:2]
        word = symbol_and_word[2:]
        if symbol == '+ ' and len_first!= 0:
            new_str1 = new_str1 + f"{Fore.RED}{word}"
        elif symbol == '- ' and len_first!= 0:
            new_str2 = new_str2 + f"{Fore.BLUE}{word}"
        elif symbol == '? ':
            None
        elif symbol != '+ ' and symbol != '- ' and symbol != '? ':
            len_first += 1
            new_str1 = new_str1 + f"{Fore.BLACK}{word}"
            new_str2 = new_str2 + f"{Fore.BLACK}{word}"
    
    return new_str2.replace('BLANK',' '),new_str1.replace('BLANK',' ')

In [42]:
def click_query(query_code_id):
    index_query = dict_pair['query'].index(query_code_id)
    index_match_query = dict_pair['result'][index_query]
    index_match_score = dict_pair['Score'][index_query]
    
    result_sentence_list = []
    for result_from_query in index_match_query:
        query_sentence, result_sentence = show_result(query_code_id,result_from_query)
        result_sentence_list.append(result_sentence)
    return query_sentence, result_sentence_list, index_match_query, index_match_score

In [43]:
# index_find = 5
# print("query: ",dict_pair['query'][5])
# print("result: ",dict_pair['result'][5])
# print("Score: ",dict_pair['Score'][5])

In [44]:
query_sentence,result_sentence_list,index_match_query,index_match_score = click_query('0028|0025|0030')

In [45]:
doc_id, page_id, sentence_id, doc_name = get_document_info('0028|0025|0030')
print(doc_id,':',page_id)
print(doc_name)

0028 : 0025
หลักเกณฑ์์การจัดชั้นหนี้ี้และการเงินสำรองของสถาบนัการเงิน


In [46]:
print("Query Result: ")
print(query_sentence)
print('\n')
print("จำนวนผล : ",len(result_sentence_list))
print('\n')
for index , result_sentence in enumerate(result_sentence_list):
    print("Result_Number: ",index)
    doc_id, page_id, sentence_id, doc_name = get_document_info(index_match_query[index])
    print("Doc_id: ",doc_id)
    print("ชื่อเอกสาร: ",doc_name)
    print("หน้าที่:",int(page_id))
    print(result_sentence)
    print("Score: ",index_match_score[index])
    print('\n')

Query Result: 
[30m [34m([30m1[34m)[30m [30mนโยบาย[30mของ[34mสถาบันการเงิน[30mควร[34mให้[34mความ[34mสําคัญ[34m [30mกับ[30mการพิจารณา[30mข้อบ่งชี้[30m [30m([30mindicators[30m)[30m [30mที่จะ[30mส่งผล[34m [30mต่อ[30mการ[30mลดลง[30mของ[30mความสามารถ[30mใน[30mการชำระหนี้[34m [30mหรือ[30mการ[30mเพิ่มขึ้น[30mของ[30mความเสี่ยง[30mด้าน[30mเครดิต[30mอย่าง[30mมี[34m [34mนัย[34mสําคัญ[30m [30mโดย[30mตาม[30mแ[30m [30m(ฝ่ายงาน)[30m [30mาง[30mสากล[30mควร[30mพิจารณา[34mข้อ[34m [34mบ่งชี้[30m [30m2[30m [30mด้าน[30mสำคัญ[30m [30mได้แก่[30m [30m1[30m)[30m [30mด้าน[30mการ[30mค้างชำระ[30m [30mและ[30m [30m2[30m)[30m [30mด้าน[30mฐานะ[30mการเงิน[30m [30mผลการดำเนินงาน[30m [30mและ[30mการชำระหนี้[30m [30mซึ่ง[30mครอบคลุม[30mทั้ง[30mเหตุการณ์[30mที่[34m [30mเกิดขึ้น[30mแล้ว[30mและ[30mอาจ[30mเกิดขึ้น[30mในอนาคต[30m [34m([30m2[34m)[34m [34mหาก


จำนวนผล :  2


Result_Number:  0
Doc_id:  0038
ชื่อเอกสาร:  แนวทาง

In [50]:
from ansi2html import Ansi2HTMLConverter
import sys
conv = Ansi2HTMLConverter()
# ansi = "".join(sys.stdin.readlines())
html = conv.convert(result_sentence)

In [51]:
print(html)

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title></title>
<style type="text/css">
.ansi2html-content { display: inline; white-space: pre-wrap; word-wrap: break-word; }
.body_foreground { color: #AAAAAA; }
.body_background { background-color: #000000; }
.body_foreground > .bold,.bold > .body_foreground, body.body_foreground > pre > .bold { color: #FFFFFF; font-weight: normal; }
.inv_foreground { color: #000000; }
.inv_background { background-color: #AAAAAA; }
.ansi30 { color: #000316; }
.ansi31 { color: #aa0000; }
</style>
</head>
<body class="body_foreground body_background" style="font-size: normal;" >
<pre class="ansi2html-content">
<span class="ansi30"> </span><span class="ansi31">(วันที่)</span><span class="ansi31"></span><span class="ansi31">ถึง</span><span class="ansi31"> </span><span class="ansi31">31</span><span class="ansi31"> </span><s