## Document Searcher Class
## To do: Excel load multiple documents

In [54]:
from sklearn.feature_extraction.text import TfidfVectorizer
from keys import COHERE_API_KEY
import cohere
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from langchain_community.embeddings import HuggingFaceEmbeddings
cohere_key = COHERE_API_KEY
co = cohere.Client(cohere_key)
gt = pd.read_excel('data/ground_truth.xlsx')

In [34]:
def letter_tokenizer(word,n = 3):
    tokens = []
    for i in range(len(word) - n + 1):
        tokens.append(word[i:i+n])
    return tokens

def preprocess_text(text):
    tokens = letter_tokenizer(text)
    return ' '.join(tokens)


def generate_prompt(q,retrieved_documents,group_key):
    context_string = ""
    for section,context in retrieved_documents.items():
        context_string += '-------' + group_key[section] + '-------'
        context_string += ' '.join(context)
        context_string += '\n'

    prompt = """ 
Based on the context below answer the given question. Given Question: {}
----------------------------- Context -----------------------------
{}
    """.format(q,context_string) 

    return prompt

def rerank_documents(q,context_group,frac = 0.7):
    reranked_context = {}
    for group,context in context_group.items():
        res = co.rerank(query = q, documents = context, top_n = int(frac*len(context)), model = 'rerank-multilingual-v3.0')
        reranked_list = []
        for doc in res.results:
          doc = context[doc.index]
          reranked_list.append(doc)
        reranked_context[group] = reranked_list
    return reranked_context

In [35]:
class DocSearcher:
    def __init__(self,docs,embedding_model):
        docs['context_embedding'] = docs['Question'].apply(lambda x: embedding_model.embed_query(x))
        docs['Group_short'] = docs['Group_short'].astype(str)
        group_key = docs[['Group_short','Group']].drop_duplicates()
        group_key = dict(zip(group_key['Group_short'], group_key['Group']))
        self.emb = embedding_model
        self.docs = docs
        self.group_key = group_key

    def _get_context_from_scores(self,section_scores,num_section = 5,k = 15):
        docs = self.docs
        group_key = self.group_key
        section_scores = sorted(section_scores.items(), key=lambda x: x[1],reverse = True)
        total_scores = sum(value for key, value in section_scores[0:num_section])
        context = {}
        for score in section_scores[0:num_section]:
            section = score[0]
            filtered_docs = docs[docs['Group_short']==section].reset_index(drop = True)
            n_documents = round(k*score[1]/total_scores)
            chosen_row = filtered_docs.iloc[0:n_documents]
            context[section] = chosen_row['q_a'].tolist()
        return context     

    def query_documents(self,q,k = 15,method = 'all',num_section = 5):
        docs = self.docs
        docs['q_a'] = '\n Question: ' + docs['Question'] + '\n Answer: ' + docs['Answer']
        if method == 'all':
            scores_tfidf = self.get_section_tfidf_scores(q)
            scores_vector = self.get_section_vector_scores(q)
            scores_combined = {section: (scores_tfidf[section] + scores_vector[section])/2 for section in scores_vector}
            context = self._get_context_from_scores(section_scores = scores_combined,num_section = num_section,k = k)
            return context

        elif method == 'tfidf':
            scores_tfidf = self.get_section_tfidf_scores(q)
            context = self._get_context_from_scores(section_scores = scores_tfidf,num_section = num_section,k = k)
            return context
            
        elif method == 'vector':
            scores_vector = self.get_section_vector_scores(q)
            context = self._get_context_from_scores(section_scores = scores_vector,num_section = num_section,k = k)
            return context

        elif method == 'fuzzy':
            pass
        else:
            raise NameError("Please input the correct method")

    def query_documents_with_prompt(self,q,k = 15,method = 'all'):
        context = self.query_documents(q,k,method)
        group_key = self.group_key
        context_string = ""
        for section,doc in context.items():
            context_string += '-------' + group_key[section] + '-------'
            context_string += ' '.join(doc)
            context_string += '\n'
        prompt = """
Based on the context below answer the given question. Given Question: {}
----------------------------- Context -----------------------------
{}
        """.format(q,context_string)
        return prompt

    # Whole document scores
    def get_section_tfidf_scores(self,q):
        docs = self.docs
        docs_grouped = docs.groupby('Group_short')['Question'].apply(lambda x: ' '.join(x)).reset_index()
        docs_grouped['docs'] = docs_grouped['Group_short']+' '+docs_grouped['Question']
        docs_grouped['cleaned_document'] = docs_grouped['Question'].apply(preprocess_text)
        tfidf_vectorizer = TfidfVectorizer()
        tfidf_matrix = tfidf_vectorizer.fit_transform(docs_grouped['cleaned_document'])
        cleaned_query = preprocess_text(q)
        query_vector = tfidf_vectorizer.transform([cleaned_query])
        similarities = cosine_similarity(query_vector, tfidf_matrix)
        relevant_docs_indices = similarities.argsort()[0][::-1]
        scores_tfidf = {}
        for i, idx in enumerate(relevant_docs_indices):
            scores_tfidf[docs_grouped.iloc[idx,:]['Group_short']] = similarities[0][idx]     
        return scores_tfidf

    def get_section_vector_scores(self,q):
        emb = self.emb
        docs = self.docs 
        query_embedding = np.array(emb.embed_query(q)).reshape(1,-1)
        context_embeddings = np.array(docs['context_embedding'].tolist())
        scores_vector = cosine_similarity(context_embeddings, query_embedding).flatten()
        ## This probably should be fixed.
        docs['similarity_score_vector'] = scores_vector
        docs = docs.sort_values(by = 'similarity_score_vector',ascending = False) 
        self.docs = docs
        scores_vector = docs.groupby(['Group_short'])['similarity_score_vector'].mean().sort_values(ascending = False).to_dict()
        return scores_vector

In [36]:
d = DocSearcher(gt,embedding_model = HuggingFaceEmbeddings(model_name='mrp/simcse-model-m-bert-thai-cased'))



In [37]:
q = 'NR ลงทุนในไทยทำยังไงได้บ้าง?'

In [38]:
d.get_section_vector_scores(q)

{'1.7': 0.23746388385949949,
 '1.1': 0.21299160341665233,
 '1.5': 0.16372032936056297,
 '1.4': 0.1321713188495006,
 '1.2': 0.11465053089503417,
 '1.6': 0.06208596572960648,
 '1.3': 0.05982680496149058,
 '3.0': 0.03482042098366431,
 '2.0': 0.008974323266320241,
 '4.0': -0.047231797552691066}

In [39]:
d.get_section_tfidf_scores(q)

{'1.1': 0.2241740862745471,
 '1.5': 0.21947163582437068,
 '1.7': 0.18220483373751947,
 '1.6': 0.1461320209152075,
 '1.4': 0.13853605994996598,
 '1.2': 0.11419213439815001,
 '2.0': 0.09341132182080637,
 '3.0': 0.09149068300040536,
 '1.3': 0.0828515253854835,
 '4.0': 0.051335857672131946}

In [40]:
retrieved_documents = d.query_documents(q)

In [41]:
retrieved_documents['1.1']

['\n Question: กรณี NR ลงทุนโดยตรงโดยทยอยซื้อหุ้นครั้งละไม่ถึง 10% ของหุ้นทั้งหมดของกิจการ ผ่านบัญชี NRBS เมื่อขายหุ้นดังกล่าวจะนำเงินเข้าบัญชี NRBA ได้หรือไม่\n Answer: - เมื่อ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี หาก NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้นก่อน การขายหุ้นครั้งล่าสุดตั้งแต่ 10% ขึ้นไป NR สามารถ นำเงินค่าขายหุ้นดังกล่าวเข้าบัญชี NRBA ได้แม้ว่า จะขายหุ้นในสัดส่วนไม่ถึง 10% - หากในวันที่ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้น ก่อนการขายหุ้นครั้งล่าสุดลดลงต่ำกว่า 10% จะต้อง นำเงินค่าขายหุ้นในส่วนที่เหลือเข้าบัญชี NRBS หรือ ต้องขออนุญาตต่อ ธปท. หากต้องการนำเข้าบัญชี NRBA',
 '\n Question: NR จะเปลี่ยนประเภทบัญชีจาก NRBA เป็น NRBS ได้หรือไม่\n Answer: ต้องขออนุญาต ธปท. เป็นรายกรณี',
 '\n Question: การลงทุนในหลักทรัพย์ไทยต่ำกว่า 10% แต่ไม่ได้เปิด บัญชี NRBS ไว้เพื่อรับฝากเงินดังกล่าว จะผ่อนคลาย ให้สามารถใช้บัญชี NRBA ได้หรือไม่\n Answer: เป็นกรณีที่ต้องขออนุญาตต่อ ธปท. โดยต้องแสดง เอกสารหลักฐานประกอบการยื่นขออนุญาต',
 '\n Question: ในกรณ

In [42]:
retrieved_documents_tfidf = d.query_documents(q,method = 'tfidf')
retrieved_documents_tfidf['1.1']

['\n Question: กรณี NR ลงทุนโดยตรงโดยทยอยซื้อหุ้นครั้งละไม่ถึง 10% ของหุ้นทั้งหมดของกิจการ ผ่านบัญชี NRBS เมื่อขายหุ้นดังกล่าวจะนำเงินเข้าบัญชี NRBA ได้หรือไม่\n Answer: - เมื่อ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี หาก NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้นก่อน การขายหุ้นครั้งล่าสุดตั้งแต่ 10% ขึ้นไป NR สามารถ นำเงินค่าขายหุ้นดังกล่าวเข้าบัญชี NRBA ได้แม้ว่า จะขายหุ้นในสัดส่วนไม่ถึง 10% - หากในวันที่ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้น ก่อนการขายหุ้นครั้งล่าสุดลดลงต่ำกว่า 10% จะต้อง นำเงินค่าขายหุ้นในส่วนที่เหลือเข้าบัญชี NRBS หรือ ต้องขออนุญาตต่อ ธปท. หากต้องการนำเข้าบัญชี NRBA',
 '\n Question: NR จะเปลี่ยนประเภทบัญชีจาก NRBA เป็น NRBS ได้หรือไม่\n Answer: ต้องขออนุญาต ธปท. เป็นรายกรณี',
 '\n Question: การลงทุนในหลักทรัพย์ไทยต่ำกว่า 10% แต่ไม่ได้เปิด บัญชี NRBS ไว้เพื่อรับฝากเงินดังกล่าว จะผ่อนคลาย ให้สามารถใช้บัญชี NRBA ได้หรือไม่\n Answer: เป็นกรณีที่ต้องขออนุญาตต่อ ธปท. โดยต้องแสดง เอกสารหลักฐานประกอบการยื่นขออนุญาต',
 '\n Question: ในกรณ

In [43]:
retrieved_documents_vector = d.query_documents(q,method = 'vector')
retrieved_documents_vector['1.1']

['\n Question: กรณี NR ลงทุนโดยตรงโดยทยอยซื้อหุ้นครั้งละไม่ถึง 10% ของหุ้นทั้งหมดของกิจการ ผ่านบัญชี NRBS เมื่อขายหุ้นดังกล่าวจะนำเงินเข้าบัญชี NRBA ได้หรือไม่\n Answer: - เมื่อ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี หาก NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้นก่อน การขายหุ้นครั้งล่าสุดตั้งแต่ 10% ขึ้นไป NR สามารถ นำเงินค่าขายหุ้นดังกล่าวเข้าบัญชี NRBA ได้แม้ว่า จะขายหุ้นในสัดส่วนไม่ถึง 10% - หากในวันที่ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้น ก่อนการขายหุ้นครั้งล่าสุดลดลงต่ำกว่า 10% จะต้อง นำเงินค่าขายหุ้นในส่วนที่เหลือเข้าบัญชี NRBS หรือ ต้องขออนุญาตต่อ ธปท. หากต้องการนำเข้าบัญชี NRBA',
 '\n Question: NR จะเปลี่ยนประเภทบัญชีจาก NRBA เป็น NRBS ได้หรือไม่\n Answer: ต้องขออนุญาต ธปท. เป็นรายกรณี',
 '\n Question: การลงทุนในหลักทรัพย์ไทยต่ำกว่า 10% แต่ไม่ได้เปิด บัญชี NRBS ไว้เพื่อรับฝากเงินดังกล่าว จะผ่อนคลาย ให้สามารถใช้บัญชี NRBA ได้หรือไม่\n Answer: เป็นกรณีที่ต้องขออนุญาตต่อ ธปท. โดยต้องแสดง เอกสารหลักฐานประกอบการยื่นขออนุญาต',
 '\n Question: ในกรณ

In [44]:
print(generate_prompt(q,retrieved_documents,d.group_key))

 
Based on the context below answer the given question. Given Question: NR ลงทุนในไทยทำยังไงได้บ้าง?
----------------------------- Context -----------------------------
-------1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ-------
 Question: กรณี NR ลงทุนโดยตรงโดยทยอยซื้อหุ้นครั้งละไม่ถึง 10% ของหุ้นทั้งหมดของกิจการ ผ่านบัญชี NRBS เมื่อขายหุ้นดังกล่าวจะนำเงินเข้าบัญชี NRBA ได้หรือไม่
 Answer: - เมื่อ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี หาก NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้นก่อน การขายหุ้นครั้งล่าสุดตั้งแต่ 10% ขึ้นไป NR สามารถ นำเงินค่าขายหุ้นดังกล่าวเข้าบัญชี NRBA ได้แม้ว่า จะขายหุ้นในสัดส่วนไม่ถึง 10% - หากในวันที่ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้น ก่อนการขายหุ้นครั้งล่าสุดลดลงต่ำกว่า 10% จะต้อง นำเงินค่าขายหุ้นในส่วนที่เหลือเข้าบัญชี NRBS หรือ ต้องขออนุญาตต่อ ธปท. หากต้องการนำเข้าบัญชี NRBA 
 Question: NR จะเปลี่ยนประเภทบัญชีจาก NRBA เป็น NRBS ได้หรือไม่
 Answer: ต้องขออนุญาต ธปท. เป็นรายกรณี 
 Question: การลงทุนในหลักทรัพย์ไทยต่ำ

In [45]:
print(d.query_documents_with_prompt(q))


Based on the context below answer the given question. Given Question: NR ลงทุนในไทยทำยังไงได้บ้าง?
----------------------------- Context -----------------------------
-------1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ-------
 Question: กรณี NR ลงทุนโดยตรงโดยทยอยซื้อหุ้นครั้งละไม่ถึง 10% ของหุ้นทั้งหมดของกิจการ ผ่านบัญชี NRBS เมื่อขายหุ้นดังกล่าวจะนำเงินเข้าบัญชี NRBA ได้หรือไม่
 Answer: - เมื่อ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี หาก NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้นก่อน การขายหุ้นครั้งล่าสุดตั้งแต่ 10% ขึ้นไป NR สามารถ นำเงินค่าขายหุ้นดังกล่าวเข้าบัญชี NRBA ได้แม้ว่า จะขายหุ้นในสัดส่วนไม่ถึง 10% - หากในวันที่ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้น ก่อนการขายหุ้นครั้งล่าสุดลดลงต่ำกว่า 10% จะต้อง นำเงินค่าขายหุ้นในส่วนที่เหลือเข้าบัญชี NRBS หรือ ต้องขออนุญาตต่อ ธปท. หากต้องการนำเข้าบัญชี NRBA 
 Question: NR จะเปลี่ยนประเภทบัญชีจาก NRBA เป็น NRBS ได้หรือไม่
 Answer: ต้องขออนุญาต ธปท. เป็นรายกรณี 
 Question: การลงทุนในหลักทรัพย์ไทยต่ำก

In [46]:
reranked_context = rerank_documents(q,retrieved_documents)

In [47]:
print(generate_prompt(q,reranked_context,d.group_key))

 
Based on the context below answer the given question. Given Question: NR ลงทุนในไทยทำยังไงได้บ้าง?
----------------------------- Context -----------------------------
-------1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ-------
 Question: กรณี NR ลงทุนโดยตรงโดยทยอยซื้อหุ้นครั้งละไม่ถึง 10% ของหุ้นทั้งหมดของกิจการ ผ่านบัญชี NRBS เมื่อขายหุ้นดังกล่าวจะนำเงินเข้าบัญชี NRBA ได้หรือไม่
 Answer: - เมื่อ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี หาก NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้นก่อน การขายหุ้นครั้งล่าสุดตั้งแต่ 10% ขึ้นไป NR สามารถ นำเงินค่าขายหุ้นดังกล่าวเข้าบัญชี NRBA ได้แม้ว่า จะขายหุ้นในสัดส่วนไม่ถึง 10% - หากในวันที่ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี NR แสดงเอกสารการลงทุนโดยมีสัดส่วนการถือหุ้น ก่อนการขายหุ้นครั้งล่าสุดลดลงต่ำกว่า 10% จะต้อง นำเงินค่าขายหุ้นในส่วนที่เหลือเข้าบัญชี NRBS หรือ ต้องขออนุญาตต่อ ธปท. หากต้องการนำเข้าบัญชี NRBA 
 Question: การลงทุนในหลักทรัพย์ไทยต่ำกว่า 10% แต่ไม่ได้เปิด บัญชี NRBS ไว้เพื่อรับฝากเงินดังกล่าว จะผ่อนคลาย ให้สามารถใช้บัญชี NRBA ได้หรือไม

## Fuzzy Matching: Exploration

In [48]:
from fuzzywuzzy import fuzz

In [49]:
a = 'เกณ์การ KYB มีอะไรบ้าง'.lower()
b = "ผู้ประกอบธุรกิจ FX e-money สามารถ เติมเงินให้แก่ลูกค้าได้อย่างไรบ้าง".lower()
Ratio = fuzz.ratio(a,b)
print(Ratio)

29


In [50]:
query = 'NR ต้องการมาลงทุนในประเทศต้องทำอย่างไร?'.lower()
gt['fuzz'] = gt.apply(lambda x: fuzz.token_set_ratio(x['Question'],query), axis=1)

In [51]:
gt['Group'].unique()

array(['1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ',
       '1.2 การนำเงินตราต่างประเทศกลับเข้าประเทศ',
       '1.3 บัญชีเงินฝากเงินตราต่างประเทศ (FCD)',
       '1.4 เงินลงทุนโดยตรงหรือเงินให้กู้ในต่างประเทศ',
       '1.5 เงินลงทุนในหลักทรัพย์ต่างประเทศ',
       '1.6 อื่นๆ เช่น การทำธุรกรรมแทนกิจการในเครือ เงินกู้ การฝากเงินในบัญชีในต่างประเทศ',
       '1.7 กระบวนการ Know Your Business (KYB)',
       '2. การทำธุรกรรมอนุพันธ์', '3. ศูนย์บริหารเงิน', '4. FX E-money'],
      dtype=object)

In [52]:
gt.groupby(['Group_short'])['fuzz'].mean().sort_values(ascending = False)/gt.groupby(['Group_short'])['fuzz'].mean().sort_values(ascending = False).sum()

Group_short
1.7    0.119862
1.1    0.111084
1.4    0.105989
4.0    0.101966
1.3    0.097388
1.5    0.096679
1.2    0.095815
1.6    0.091937
3.0    0.090152
2.0    0.089128
Name: fuzz, dtype: float64

In [53]:
gt

Unnamed: 0,Question,Answer,Group,Group_short,context_embedding,similarity_score_vector,fuzz
0,กรณีบุคคลที่มีถิ่นที่อยู่นอกประเทศ (Non-reside...,- หากเป็นการลงทุนที่มีสัดส่วนตั้งแต่ 10% ของหุ...,1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ,1.1,"[0.057255879044532776, 0.0076107457280159, -0....",0.151052,47
1,กรณี NR ลงทุนโดยตรงโดยทยอยซื้อหุ้นครั้งละไม่ถึ...,- เมื่อ NR จะนำเงินค่าขายหุ้นฝากเข้าบัญชี หาก ...,1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ,1.1,"[-0.23912641406059265, 0.6383059024810791, 0.7...",0.447697,28
2,NR จะเปลี่ยนประเภทบัญชีจาก NRBA เป็น NRBS ได้ห...,ต้องขออนุญาต ธปท. เป็นรายกรณี,1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ,1.1,"[0.09722046554088593, 0.23035705089569092, 0.8...",0.308751,39
3,NR สามารถโอนเงินเพื่อซื้อขายหลักทรัพย์และตรา ส...,หากมีเหตุผลชัดเจนสามารถยื่นขออนุญาตต่อ ธปท. เป...,1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ,1.1,"[0.251921147108078, -0.34538087248802185, 0.09...",0.230281,32
4,กรณีโอนเงินเข้าผิดบัญชี จะต้องทำอย่างไร,เป็นกรณีที่ต้องขออนุญาตต่อ ธปท.,1.1 บัญชีเงินบาทของบุคคลที่มีถิ่นที่อยู่นอกประเทศ,1.1,"[-0.8113080859184265, 0.04314675182104111, -0....",0.033619,53
...,...,...,...,...,...,...,...
137,ผู้ประกอบธุรกิจ FX e-money สามารถ เติมเงินให้แ...,ผู้ประกอบธุรกิจสามารถเติมเงินให้ลูกค้าได้โดย 1...,4. FX E-money,4.0,"[-0.49097779393196106, 0.5335206985473633, 0.2...",-0.142624,42
138,ผู้ประกอบธุรกิจเงินอิเล็กทรอนิกส์สกุลเงินตรา ต...,ผู้ประกอบธุรกิจจะต้องดำรง float ในส่วนของ เงิน...,4. FX E-money,4.0,"[0.0936984121799469, 0.4437811076641083, -0.56...",-0.041669,28
139,ผู้ประกอบธุรกิจจ าเป็นต้องมีทั้งบัญชีเงินฝาก เ...,ผู้ประกอบธุรกิจต้องมีบัญชีเงินฝากเพื่อการด ารง...,4. FX E-money,4.0,"[0.24193742871284485, 0.9761651754379272, 0.60...",-0.041665,23
140,ผู้ประกอบธุรกิจ FX e-money สามารถซื้อ เงินตราต...,สามารถทำได้เพื่อวัตถุประสงค์ที่เกี่ยวข้องกับ ก...,4. FX E-money,4.0,"[-0.6967499852180481, 0.3803589642047882, 0.21...",-0.093363,31
