In [22]:
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

In [50]:
# Load data
semantic_search = pd.read_csv('semantic_search.csv')
company_ratings = pd.read_csv('company_ratings.csv')

In [51]:
semantic_search['Extracted_Companies'].fillna('', inplace=True)
company_ratings['Company Name'].fillna('', inplace=True)

In [52]:
# Vektorisasi
vectorizer = TfidfVectorizer()
all_companies = pd.concat([semantic_search['Extracted_Companies'], company_ratings['Company Name']], ignore_index=True)
vectorizer.fit(all_companies)
semantic_vecs = vectorizer.transform(semantic_search['Extracted_Companies'])
company_vecs = vectorizer.transform(company_ratings['Company Name'])

In [53]:
# Hitung cosine similarity
similarity_matrix = cosine_similarity(semantic_vecs, company_vecs)

# Menetapkan threshold untuk kesesuaian
threshold = 0.5

In [54]:
# Pemetaan ke 'Company Name' yang paling serupa atau kosongkan jika di bawah threshold
semantic_search['semantic_validate'] = [
    company_ratings['Company Name'][sim.argmax()] if max(sim) >= threshold else ''
    for sim in similarity_matrix
]


In [55]:
# Menghitung jumlah total entri yang tidak kosong (termasuk duplikat)
total_non_empty = semantic_search[semantic_search['semantic_validate'] != ''].count()['semantic_validate']

# Menghitung jumlah entri unik yang tidak kosong
unique_non_empty = semantic_search[semantic_search['semantic_validate'] != ''].nunique()['semantic_validate']

print(f"Jumlah total perusahaan yang tidak kosong (termasuk duplikat): {total_non_empty}")
print(f"Jumlah unik perusahaan yang tidak kosong: {unique_non_empty}")

Jumlah total perusahaan yang tidak kosong (termasuk duplikat): 758
Jumlah unik perusahaan yang tidak kosong: 392


In [56]:
semantic_search.to_csv('validate_company_updated.csv',index=False)