##  1. Data Preprocessing <a id="data_preprocessing"></a>

### 1.1 Importing Data and Separating Data of Our Interest <a id="1.1"></a>

In [53]:
import pandas as pd
import numpy as np
import sklearn
from scipy.spatial.distance import cosine

In [54]:
df = pd.read_csv("test.csv")
df

Unnamed: 0.1,Unnamed: 0,name,description
0,780,giá kẹp điện thoại yunteng xoay 360 độ cho châ...,thông tin nổi bật khung kẹp giữ điện thoại lên...
1,5557,sinh trắc vân tay gen talents bài báo cáo đầy ...,nội dung chính của bài báo cáo sinh trắc vân t...
2,5556,e voucher vietourist tour du lịch miền tây cần...,địa điểm đón kháchđiểm đón 1 5h30 nhà văn hóa ...
3,5555,gói dịch vụ 1 lần cạo vôi răng và đánh bóng tạ...,gói dịch vụ 1 lần cạo vôi răng và đánh bóngtại...
4,5554,tẩy trắng răng phương pháp laser whitening 5p ...,các bước tẩy trắng răng trọn góicombo tẩy trắn...
...,...,...,...
970,4120,khung nắn chỉnh cột sống điều trị thoát vị đĩa...,khung nắn chỉnh cột sống điều trị thoát vị đĩa...
971,4119,thảm tập yoga và gym chất liệu cao cấp tpe 6mm...,1 thông số kỹ thuật của thảm tập yoga tpe 2 lớ...
972,4118,gậy tập thẳng lưng vai gậy chống gù lưng gậy t...,gậy tập thẳng lưng vai chống gù tập yoga gậy c...
973,4117,thảm tập gym thể hình thể dục tại nhà chống tr...,store giao màu thảm là các màu tối 1 mặt quý k...


In [55]:
df = df.drop_duplicates().reset_index(drop=True)
df

Unnamed: 0.1,Unnamed: 0,name,description
0,780,giá kẹp điện thoại yunteng xoay 360 độ cho châ...,thông tin nổi bật khung kẹp giữ điện thoại lên...
1,5557,sinh trắc vân tay gen talents bài báo cáo đầy ...,nội dung chính của bài báo cáo sinh trắc vân t...
2,5556,e voucher vietourist tour du lịch miền tây cần...,địa điểm đón kháchđiểm đón 1 5h30 nhà văn hóa ...
3,5555,gói dịch vụ 1 lần cạo vôi răng và đánh bóng tạ...,gói dịch vụ 1 lần cạo vôi răng và đánh bóngtại...
4,5554,tẩy trắng răng phương pháp laser whitening 5p ...,các bước tẩy trắng răng trọn góicombo tẩy trắn...
...,...,...,...
970,4120,khung nắn chỉnh cột sống điều trị thoát vị đĩa...,khung nắn chỉnh cột sống điều trị thoát vị đĩa...
971,4119,thảm tập yoga và gym chất liệu cao cấp tpe 6mm...,1 thông số kỹ thuật của thảm tập yoga tpe 2 lớ...
972,4118,gậy tập thẳng lưng vai gậy chống gù lưng gậy t...,gậy tập thẳng lưng vai chống gù tập yoga gậy c...
973,4117,thảm tập gym thể hình thể dục tại nhà chống tr...,store giao màu thảm là các màu tối 1 mặt quý k...


### 1.2 Creating Preprocessing Function and Applying it on Our Data <a id="1.2"></a>

In [56]:
with open('vietnamese-stopwords-dash.txt', 'r', encoding='utf-8') as file:
    content = file.readlines()

# Remove leading and trailing whitespaces, and create a list
stop_words = [line.strip() for line in content]

# Print the resulting list
# print(stop_words)

In [57]:
from string import punctuation
punc = list(punctuation)
stop_words = stop_words + punc

In [58]:
from pyvi import ViTokenizer

def preprocess(document):
    document = document.lower() # Convert to lowercase
    words = ViTokenizer.tokenize(document) # Tokenize
    words = [w for w in words.split(" ") if not w in stop_words] # Removing stopwords
    # Lemmatizing
    # print(words)
    return " ".join(words)

In [59]:
preprocess("xịn và rất ấm. Rất phù hợp cho mùa đông")

'xịn ấm mùa đông'

In [60]:
df['name'] = df['name'].astype("string")
df['description'] = df['description'].astype("string")

In [61]:
df = df.dropna(subset=['description'])

In [62]:
df['description'] = df['name'] + df['description']
df.head()

Unnamed: 0.1,Unnamed: 0,name,description
0,780,giá kẹp điện thoại yunteng xoay 360 độ cho châ...,giá kẹp điện thoại yunteng xoay 360 độ cho châ...
1,5557,sinh trắc vân tay gen talents bài báo cáo đầy ...,sinh trắc vân tay gen talents bài báo cáo đầy ...
2,5556,e voucher vietourist tour du lịch miền tây cần...,e voucher vietourist tour du lịch miền tây cần...
3,5555,gói dịch vụ 1 lần cạo vôi răng và đánh bóng tạ...,gói dịch vụ 1 lần cạo vôi răng và đánh bóng tạ...
4,5554,tẩy trắng răng phương pháp laser whitening 5p ...,tẩy trắng răng phương pháp laser whitening 5p ...


In [63]:
df.dtypes

Unnamed: 0      int64
name           string
description    string
dtype: object

In [64]:
df['Processed Review'] = df['description'].apply(preprocess)

df.head()

Unnamed: 0.1,Unnamed: 0,name,description,Processed Review
0,780,giá kẹp điện thoại yunteng xoay 360 độ cho châ...,giá kẹp điện thoại yunteng xoay 360 độ cho châ...,giá kẹp điện_thoại yunteng xoay 360 độ chân tr...
1,5557,sinh trắc vân tay gen talents bài báo cáo đầy ...,sinh trắc vân tay gen talents bài báo cáo đầy ...,sinh trắc vân gen talents báo_cáo đầy_đủ 4 mod...
2,5556,e voucher vietourist tour du lịch miền tây cần...,e voucher vietourist tour du lịch miền tây cần...,e voucher vietourist tour du_lịch miền tây cần...
3,5555,gói dịch vụ 1 lần cạo vôi răng và đánh bóng tạ...,gói dịch vụ 1 lần cạo vôi răng và đánh bóng tạ...,gói dịch_vụ 1 cạo vôi đánh_bóng nha_khoa thẩm_...
4,5554,tẩy trắng răng phương pháp laser whitening 5p ...,tẩy trắng răng phương pháp laser whitening 5p ...,tẩy trắng phương_pháp laser whitening 5p nha_k...


In [65]:
df.shape

(975, 4)

### 1.3 Creating TF-IDF Matrix <a id="1.3"></a>

In [66]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
TF_IDF_matrix = vectorizer.fit_transform(df['Processed Review'])
TF_IDF_matrix = TF_IDF_matrix.T

print('Vocabulary Size : ', len(vectorizer.get_feature_names_out()))
print('Shape of Matrix : ', TF_IDF_matrix.shape)

Vocabulary Size :  6395
Shape of Matrix :  (6395, 975)


In [67]:
TF_IDF_matrix_array = TF_IDF_matrix.toarray()

In [68]:
vectorizer.vocabulary_

{'giá': 2136,
 'kẹp': 2936,
 'điện_thoại': 6146,
 'yunteng': 6050,
 'xoay': 5961,
 '360': 420,
 'độ': 6325,
 'chân': 1328,
 'tripod': 5234,
 'ma_y': 3247,
 'nh': 3724,
 'hàng': 2409,
 'hãngthông': 2501,
 'nổi_bật': 3951,
 'khung': 2775,
 'máy_ảnh': 3457,
 'hãng': 2429,
 'sản_xuất': 4715,
 'chi': 1270,
 'ha': 2285,
 'ng': 3607,
 'máy': 3446,
 'kích_thước': 2927,
 '10': 52,
 '5cm': 562,
 'gắn': 2256,
 'sinh': 4554,
 'trắc': 5318,
 'vân': 5816,
 'gen': 2096,
 'talents': 4794,
 'báo_cáo': 1041,
 'đầy_đủ': 6244,
 'modulenội': 3394,
 'dung': 1790,
 'module': 3393,
 'khám_phá': 2795,
 'hành': 2417,
 'viphân': 5755,
 'tích': 5477,
 'đặc_tính': 6264,
 'tiềm_thức': 5143,
 'thói_quen': 4957,
 'tư_duy': 5516,
 'kh': 2755,
 'voucher': 5790,
 'vietourist': 5742,
 'tour': 5182,
 'du_lịch': 1786,
 'miền': 3372,
 'tây': 5472,
 'cần_thơ': 1628,
 'sóc': 4679,
 'trăng': 5285,
 'bạc': 1085,
 'liêu': 3068,
 'đất': 6234,
 'mũi': 3486,
 'rừng': 4446,
 'cà': 1503,
 'mau': 3276,
 'đêmđịa': 6183,
 'đón': 6188,
 

## 2. Apply SVD to TF-IDF Matrix <a id="apply_svd"></a>

In [136]:
from scipy.sparse.linalg import svds

num_components = 256
U, s, VT = svds(TF_IDF_matrix_array, k=num_components)

TF_IDF_matrix_reduced = np.dot(U, np.dot(np.diag(s), VT))

# Getting document and term representation
terms_rep = np.dot(U, np.diag(s)) # M X K matrix where M = Vocabulary Size and N = Number of documents
docs_rep = np.dot(np.diag(s), VT).T # N x K matrix 

In [137]:
TF_IDF_matrix_reduced.shape

(6395, 975)

In [139]:
# This is a function to generate query_rep

def lsa_query_rep(query):
    query_rep = [vectorizer.vocabulary_[x] if x in vectorizer.vocabulary_.keys() else 0 for x in preprocess(query).split()]
    query_rep = np.mean(terms_rep[query_rep],axis=0)
    return query_rep

In [140]:
def retrieve_tfidf(query):

    query_rep = lsa_query_rep(query)

    query_doc_cos_dist = [cosine(query_rep, doc_rep) for doc_rep in docs_rep]
    query_doc_sort_index = np.argsort(np.array(query_doc_cos_dist))
    
    return query_doc_sort_index, np.sort(np.array([1-i for i in query_doc_cos_dist]))[::-1]

query_index, query_score = retrieve_tfidf("Tìm kiếm về các mẫu máy giặt tiết kiệm điện mới nhất trên thị trường")

print(query_index[0:3], df['description'][query_index[:3]].to_list())
query_score[0:3]

#     for rank, sort_index in enumerate(query_doc_sort_index[:3]):
#         print ('Rank : ', rank + 1, ' Consine : ', 1 - query_doc_cos_dist[sort_index],'\n','Product Name: ', df['product_name'][sort_index],'\n','Description: ', df['short_description'][sort_index])

[280 322 181] ['dây curoa máy giặt m18 m18 5 m19 m19 5 m20 m20 5 m21 m21 5dây curoa máy giặt m18 m18 5 m19 m19 5 m20 m20 5 m21 m21 5với loại máy giặt dùng dây curoa hay còn gọi là vành đai máy giặt để giúp máy giặt chuyển động qua thời gian sử dụng máy giặt lâu ngày', 'bộ 4 chân đế chống rung chân đỡ đa năng chống rung lắc máy giặt đời mớivới bộ 4 đệm cao su tính năng chống trượt chống di chuyển sẽ giữ cho máy giặt ở yên tại chỗ giảm tiếng ồn khi giặt phù hợp với hầu hết các thương hiệu máy giặt phù hợp máy giặt', 'phao áp lực máy giặt cho electrolux hàng hãng 19502 van áp lực máy giặt electrolux hàng hãng 19502 phao máy giặt electrolux hàng hãngphao áp lực máy giặt elec hàng hãng 19502phao áp suất hay còn gọi là van áp lực máy giặt thực chất là một công tắc cảm biến mức nước được kết nối trực tiếp với board mạch vai trò chính là xác định m']


array([0.60202835, 0.59110665, 0.56980715])

In [141]:
df['description'][309]

'nhập 1212b65k giảm 65k đơn 999k máy giặt toshiba inverter 8 5 kg tw bk95s3v sk model 2021 hàng chính hãng chỉ giao hcmgiao hàng và lắp đặt cùng lúc khu vực cần giờ có giao hàng tính phí vui lòng liên hệ trước lắp đặt miễn phí lúc giao hàng ở nhà trệt có thang máy vật tư phát sinh tính phí cần hỗ trợ giao hàn'

In [142]:
df_test = pd.read_csv("testdataset.csv", index_col = 0)
df_test.head()

Unnamed: 0,question,product_id
0,Tìm kiếm về các mẫu máy giặt tiết kiệm điện mớ...,"[250, 355, 309]"
1,Các thương hiệu nào sản xuất máy giặt tiết kiệ...,"[250, 355, 309]"
2,Tìm hiểu về chương trình khuyến mãi máy giặt t...,"[250, 355, 309]"
3,Tìm kiếm về máy giặt tiết kiệm điện với công n...,"[250, 355, 309]"
4,Các mẫu máy giặt tiết kiệm điện phù hợp cho gi...,"[250, 355, 309]"


In [145]:
df_test.shape

(360, 2)

In [146]:
from tqdm import tqdm

test_result = []

for query in tqdm(df_test["question"].values, desc="Processing queries"):
    query_index, query_score = retrieve_tfidf(query)
    answer = {}
    answer["query"] = query
    answer["index"] = query_index
    answer["top5_product"] = df.loc[query_index[:5], 'name'].tolist()
    answer["top5_description"] = df.loc[query_index[:5], 'description'].tolist()
    answer["score"] = query_score
    test_result.append(answer)

Processing queries:   1%|          | 2/360 [00:00<00:37,  9.62it/s]

Processing queries: 100%|██████████| 360/360 [00:16<00:00, 22.48it/s]


In [147]:
pred_all = [list(i["index"]) for i in test_result]

In [149]:
pred = [list(i["index"]) for i in test_result]

In [150]:
import ast
test_Y = [ast.literal_eval(i) for i in (list(df_test["product_id"]))]
test_Y[0]

[250, 355, 309]

In [151]:
def calculate_map(test_Y, pred):

    Q = len(test_Y)
    ap = []

    # loop through and calculate AP for each query q
    for q in range(Q):
        ap_num = 0
        # loop through k values
        for x in range(len(pred[q])):
            # calculate precision@k
            act_set = set(test_Y[q])                                                                                                                                   
            pred_set = set(pred[q][:x+1])
            precision_at_k = len(act_set & pred_set) / (x+1)
            # calculate rel_k values
            if pred[q][x] in test_Y[q]:
                rel_k = 1
            else:
                rel_k = 0
            # calculate numerator value for ap
            ap_num += precision_at_k * rel_k
        # now we calculate the AP value as the average of AP
        # numerator values
        ap_q = ap_num / len(test_Y[q])
        print(f"AP@{len(pred[q])}_{q+1} = {round(ap_q,2)}")
        ap.append(ap_q)

    # now we take the mean of all ap values to get mAP
    map_at_k = sum(ap) / Q

    # generate results
    print(f"mAP@{len(pred[q])} = {round(map_at_k, 4)}")

    return map_at_k

calculate_map(test_Y, pred)

AP@975_1 = 0.11
AP@975_2 = 0.08
AP@975_3 = 0.09
AP@975_4 = 0.13
AP@975_5 = 0.11
AP@975_6 = 0.27
AP@975_7 = 0.12
AP@975_8 = 0.2
AP@975_9 = 0.26
AP@975_10 = 0.12
AP@975_11 = 0.05
AP@975_12 = 0.19
AP@975_13 = 0.25
AP@975_14 = 0.07
AP@975_15 = 0.04
AP@975_16 = 0.22
AP@975_17 = 0.12
AP@975_18 = 0.12
AP@975_19 = 0.09
AP@975_20 = 0.12
AP@975_21 = 0.42
AP@975_22 = 0.31
AP@975_23 = 0.42
AP@975_24 = 0.01
AP@975_25 = 0.05
AP@975_26 = 0.43
AP@975_27 = 0.38
AP@975_28 = 0.42
AP@975_29 = 0.31
AP@975_30 = 0.01
AP@975_31 = 0.08
AP@975_32 = 0.06
AP@975_33 = 0.08
AP@975_34 = 0.05
AP@975_35 = 0.08
AP@975_36 = 0.06
AP@975_37 = 0.01
AP@975_38 = 0.08
AP@975_39 = 0.06
AP@975_40 = 0.01
AP@975_41 = 0.01
AP@975_42 = 0.01
AP@975_43 = 0.03
AP@975_44 = 0.02
AP@975_45 = 0.01
AP@975_46 = 0.01
AP@975_47 = 0.01
AP@975_48 = 0.02
AP@975_49 = 0.01
AP@975_50 = 0.01
AP@975_51 = 0.02
AP@975_52 = 0.02
AP@975_53 = 0.02
AP@975_54 = 0.0
AP@975_55 = 0.02
AP@975_56 = 0.02
AP@975_57 = 0.02
AP@975_58 = 0.03
AP@975_59 = 0.01
AP@975_6

0.2565543807472802

In [155]:
def calculate_precision(test_Y, pred_all, k):

    Q = len(test_Y)
    precision_at_k_list = []

    pred = [i[0:k] for i in pred_all]

    # loop through and calculate AP for each query q
    for q in range(Q):
        ap_num = 0
        # loop through k values
        for x in range(len(pred[q])):
            # calculate precision@k
            act_set = set(test_Y[q])                                                                                                                                   
            pred_set = set(pred[q][:x+1])
            precision_at_k = len(act_set & pred_set) / (x+1)

        precision_at_k_list.append(precision_at_k)

    # now we take the mean of all ap values to get mAP
    pred_at_k = sum(precision_at_k_list) / Q

    # generate results
    print(f"Precision@{len(pred[q])} = {round(pred_at_k, 4)}")

    return pred_at_k

calculate_precision(test_Y, pred_all, 5)

Precision@5 = 0.2083


0.20833333333333345