In [22]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

In [35]:
# Load data
semantic_search = pd.read_csv('semantic_search.csv')
company_ratings = pd.read_csv('company_ratings.csv')

In [36]:
semantic_search['Extracted_Companies'].fillna('', inplace=True)
company_ratings['Company Name'].fillna('', inplace=True)

In [37]:
# Preprocessing (misalnya, lowercase, menghapus karakter khusus, dll.)
# Ini perlu disesuaikan tergantung pada data Anda
semantic_search['Extracted_Companies'] = semantic_search['Extracted_Companies'].str.lower().str.replace('[^a-zA-Z0-9]', ' ', regex=True)
company_ratings['Company Name'] = company_ratings['Company Name'].str.lower().str.replace('[^a-zA-Z0-9]', ' ', regex=True)

In [38]:
# Menggabungkan semua nama perusahaan untuk vektorisasi
all_companies = pd.concat([semantic_search['Extracted_Companies'], company_ratings['Company Name']], ignore_index=True)

In [39]:
# Vektorisasi
vectorizer = TfidfVectorizer().fit(all_companies)
company_vecs = vectorizer.transform(all_companies)

In [40]:
# Hitung cosine similarity
similarity_matrix = cosine_similarity(company_vecs[:len(semantic_search)], company_vecs[len(semantic_search):])

In [42]:
# Menetapkan threshold untuk kesesuaian, misalnya 0.8
threshold = 0.5

In [43]:
# Pemetaan ke 'Company Name' yang paling serupa atau kosongkan jika di bawah threshold
semantic_search['semantic_validate'] = [
    company_ratings['Company Name'][idx] if max(sim) >= threshold else ''
    for idx, sim in enumerate(similarity_matrix)
]

In [44]:
# Menghitung jumlah total entri yang tidak kosong (termasuk duplikat)
total_non_empty = semantic_search[semantic_search['semantic_validate'] != ''].count()['semantic_validate']

# Menghitung jumlah entri unik yang tidak kosong
unique_non_empty = semantic_search[semantic_search['semantic_validate'] != ''].nunique()['semantic_validate']

print(f"Jumlah total perusahaan yang tidak kosong (termasuk duplikat): {total_non_empty}")
print(f"Jumlah unik perusahaan yang tidak kosong: {unique_non_empty}")

Jumlah total perusahaan yang tidak kosong (termasuk duplikat): 762
Jumlah unik perusahaan yang tidak kosong: 759


In [45]:
semantic_search.to_csv('validate_company.csv',index=False)