In [3]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
#import ace_tools as tools
from pythainlp import sent_tokenize, word_tokenize
from pythainlp import word_tokenize, Tokenizer
from pythainlp.util.trie import Trie, dict_trie
from pythainlp.corpus.common import thai_words
from pythainlp.util import normalize
from pythainlp.corpus import thai_stopwords
from pythainlp.tokenize import word_tokenize

## EXAMPLE

In [13]:
# Sample documents
doc1 = "This is a sample document."
doc2 = "This document is a sample."

# Create a TF-IDF Vectorizer
vectorizer = TfidfVectorizer()

# Transform the documents into TF-IDF vectors
tfidf_matrix = vectorizer.fit_transform([doc1, doc2])

# Calculate Cosine Similarity
cosine_sim = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])

print(f"Cosine Similarity: {cosine_sim[0][0]}")

Cosine Similarity: 0.4285693450091423


## APPLICATION

In [23]:
# Load the two Excel files
file_path_1 = "input/tokenized_data2.xlsx"
file_path_2 = "input/tokenized_data_bzb2.xlsx"

# Read the Excel files into DataFrames
tokenized_data = pd.read_excel(file_path_1)
tokenized_data_bzb = pd.read_excel(file_path_2)

result_df = tokenized_data.copy()


In [24]:
# Calculate cosine similarity for each 'ProductName_clean3' in tokenized_data with every 'ProductName_clean3' in tokenized_data_bzb
def calculate_similarity(row):
    # Vectorize the current row's 'ProductName_clean3' and the entire 'ProductName_clean3' column from the second file
    tfidf_matrix = vectorizer.fit_transform([row['ProductName_clean3']] + tokenized_data_bzb['ProductName_clean3'].tolist())
    
    # Calculate the cosine similarity between the first vector and all others
    cosine_sim = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:])
    
    # Find the index of the maximum similarity
    max_index = cosine_sim.argmax()
    
    # Retrieve the corresponding SKUCode and similarity value
    max_SKUCode = tokenized_data_bzb.iloc[max_index]['SKUCode']
    max_similarity = cosine_sim[0][max_index]
    
    return pd.Series([max_SKUCode, max_similarity])

# Apply the similarity calculation to each row in tokenized_data
result_df[['SKUCode', 'Probability']] = result_df.apply(calculate_similarity, axis=1)

# Save the resulting DataFrame to a new Excel file
output_file_path = "output/result_df2.xlsx"
result_df.to_excel(output_file_path, index=False)

# Notify the user
print(f"Output saved to {output_file_path}")

Output saved to result_df2.xlsx


In [25]:
result_df

Unnamed: 0,ProductCode,ProductName,Qty,Pack,Weight,ProductName_clean1,ProductName_clean2,ProductName_clean3,ProductName_clean4,SKUCode,Probability
0,1101155228,วิกซอล โกลด์ 900 (2+1),12,1,12.5,วิกซอล โกลด์ 900 (2+1),"['วิก', 'ซอล', ' ', 'โกลด์', ' ', '900', ' ', ...",วิก ซอล โกลด์ 900 (2+1),"['วิก', 'ซอล', 'โกลด์', '900', '(2+1)']",1-GDS-VIXOL-000000014,0.49048
1,1102043121,วิกซอล ออกซี่ มิ้นท์ 700 มล. 3S,12,1,9.8,วิกซอล ออกซี่ มิ้นท์ 700 มล. 3S,"['วิก', 'ซอล', ' ', 'ออก', 'ซี่', ' ', 'มิ้นท์...",วิก ซอล ออก ซี่ มิ้นท์ 700 มล. 3 S,"['วิก', 'ซอล', 'ออก', 'ซี่', 'มิ้นท์', '700', ...",1-GDS-VIXOL-000000025,0.439964
2,1201033318,วิช-ถูพื้น ทรีดี ชมพู 650 ซอง,12,1,8.5,วิช-ถูพื้น ทรีดี ชมพู 650 ซอง,"['วิ', 'ช', '-', 'ถู', 'พื้น', ' ', 'ท', 'รี',...",วิ ช ถู พื้น ท รี ดี ชมพู 650 ซอง,"['วิ', 'ช', 'ถู', 'พื้น', 'ท', 'รี', 'ดี', 'ชม...",1-GDS-WHIZ0-000000004,0.327264
3,1201053312,วิช-ถูพื้น ทรีดี ฟ้า 650 ซอง,12,1,8.5,วิช-ถูพื้น ทรีดี ฟ้า 650 ซอง,"['วิ', 'ช', '-', 'ถู', 'พื้น', ' ', 'ท', 'รี',...",วิ ช ถู พื้น ท รี ดี ฟ้า 650 ซอง,"['วิ', 'ช', 'ถู', 'พื้น', 'ท', 'รี', 'ดี', 'ฟ้...",1-GDS-WHIZ0-000000005,0.271828
4,1201133155,วิช-ถูพื้น เนเจอร์ ชมพู 5200,4,1,21.9,วิช-ถูพื้น เนเจอร์ ชมพู 5200,"['วิ', 'ช', '-', 'ถู', 'พื้น', ' ', 'เนเจอร์',...",วิ ช ถู พื้น เนเจอร์ ชมพู 5200,"['วิ', 'ช', 'ถู', 'พื้น', 'เนเจอร์', 'ชมพู', '...",1-GDS-HYGIE-000000029,0.291418
5,1301033361,ไฮยีน-บลีช ชมพู 1500,6,1,11.2,ไฮยีน-บลีช ชมพู 1500,"['ไฮ', 'ยีน', '-', 'บ', 'ลี', 'ช', ' ', 'ชมพู'...",ไฮ ยีน บ ลี ช ชมพู 1500,"['ไฮ', 'ยีน', 'บ', 'ลี', 'ช', 'ชมพู', '1500']",1-GDS-HYGIE-000000002,0.507019
6,1302043299,ไฮยีน-บลีชผ้าสี 1000,12,1,13.9,ไฮยีน-บลีชผ้าสี 1000,"['ไฮ', 'ยีน', '-', 'บ', 'ลี', 'ช', 'ผ้า', 'สี'...",ไฮ ยีน บ ลี ช ผ้า สี 1000,"['ไฮ', 'ยีน', 'บ', 'ลี', 'ช', 'ผ้า', 'สี', '10...",1-GDS-HYGIE-000000004,0.365811
7,1303053559,ไฮยีน ปากกาขจัดคราบ ฟ้า 10,24,2,0.6,ไฮยีน ปากกาขจัดคราบ ฟ้า 10,"['ไฮ', 'ยีน', ' ', 'ปากกา', 'ขจัดคราบ', ' ', '...",ไฮ ยีน ปากกา ขจัดคราบ ฟ้า 10,"['ไฮ', 'ยีน', 'ปากกา', 'ขจัดคราบ', 'ฟ้า', '10']",1-GDS-HYGIE-000000300,0.989671
8,1307023536,ไฮยีน ซักผ้า ฟอร์เอเวอร์ บลูม 1400,8,1,12.4,ไฮยีน ซักผ้า ฟอร์เอเวอร์ บลูม 1400,"['ไฮ', 'ยีน', ' ', 'ซักผ้า', ' ', 'ฟอร์', 'เอ'...",ไฮ ยีน ซักผ้า ฟอร์ เอ เวอร์ บลู ม 1400,"['ไฮ', 'ยีน', 'ซักผ้า', 'ฟอร์', 'เอ', 'เวอร์',...",1-GDS-HYGIE-000000183,0.748054
9,1307033724,ไฮยีนซักผ้า เลิฟลี่ 2800,8,2,25.4,ไฮยีนซักผ้า เลิฟลี่ 2800,"['ไฮ', 'ยีน', 'ซักผ้า', ' ', 'เลิฟ', 'ลี่', ' ...",ไฮ ยีน ซักผ้า เลิฟ ลี่ 2800,"['ไฮ', 'ยีน', 'ซักผ้า', 'เลิฟ', 'ลี่', '2800']",1-GDS-HYGIE-000000140,0.551278
