In [56]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Data pekerjaan (contoh, ganti dengan data pekerjaan yang sesuai)
jobs = [
    "Lowongan Kerja Web Developer di Perusahaan ABC",
    "Dibutuhkan Software Engineer untuk Proyek Inovatif",
    "Lowongan Kerja Data Analyst dengan Gaji Menarik",
    "Dicari UI/UX Designer berpengalaman untuk Startup",
    "Lowongan Kerja Mobile App Developer Full-time",
    "Dibutuhkan Software Engineer dengan pengalaman di bidang pengembangan web.",
    "Dicari UI/UX Designer yang kreatif dan berpengalaman.",
    "Perusahaan mencari Data Scientist untuk menganalisis data dan membuat model prediktif.",
    "Dibutuhkan Digital Marketing Specialist untuk mengelola kampanye pemasaran online.",
    "Perusahaan mencari Product Manager yang memiliki pengalaman di industri teknologi.",
    "Dicari Content Writer yang kreatif dan mampu menulis konten berkualitas.",
    "Perusahaan membutuhkan Frontend Developer untuk mengembangkan antarmuka pengguna.",
    "Dibutuhkan HR Manager dengan pengalaman dalam manajemen sumber daya manusia.",
    "Dicari Graphic Designer yang mampu menciptakan desain visual yang menarik.",
    "Perusahaan mencari Business Analyst untuk menganalisis kebutuhan bisnis.",
    "Dibutuhkan Sales Executive untuk menjalin hubungan bisnis dengan klien.",
    "Dicari Full Stack Developer yang memiliki pengetahuan luas tentang teknologi terkini.",
    "Perusahaan membutuhkan Customer Service Representative yang ramah dan efisien.",
    "Dibutuhkan Project Manager untuk mengelola proyek dan tim dengan baik.",
    "Dicari Social Media Specialist untuk mengelola kehadiran online perusahaan.",
    "Perusahaan mencari Android Developer yang berpengalaman dalam pengembangan aplikasi.",
    "Dibutuhkan Accountant untuk mengelola keuangan perusahaan.",
    "Dicari Network Administrator yang memiliki pemahaman tentang jaringan komputer.",
    "Perusahaan membutuhkan Legal Counsel untuk memberikan nasihat hukum.",
    "Dibutuhkan UI/UX Researcher untuk mengumpulkan dan menganalisis data pengguna."
]

# Proses TF-IDF
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(jobs)

# Kata kunci (contoh, ganti dengan kata kunci yang sesuai)
keywords = "UI/UX"

# Hitung TF-IDF untuk kata kunci
keywords_tfidf = tfidf_vectorizer.transform([keywords])

# Hitung cosine similarity antara kata kunci dan setiap pekerjaan
cosine_similarities = cosine_similarity(keywords_tfidf, tfidf_matrix)
cosine_similarities

array([[0.        , 0.        , 0.        , 0.55623785, 0.        ,
        0.        , 0.53647502, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.45168081]])

array([[0.        , 0.        , 0.        , 0.55623785, 0.        ,
        0.        , 0.53647502, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.45168081]])

In [48]:
# Ground truth relevant job indices (assumed to be the first three job descriptions)
relevant_indices = [0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24]

# Function to calculate precision, recall, and F1-score
def calculate_precision_recall_f1_score(actual_positives, predicted_positives):
    true_positives = len(set(actual_positives) & set(predicted_positives))
    precision = true_positives / len(predicted_positives) if len(predicted_positives) > 0 else 0
    recall = true_positives / len(actual_positives) if len(actual_positives) > 0 else 0
    f1_score = (2 * precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    return precision, recall, f1_score

# Function to calculate Mean Average Precision (MAP)
def calculate_map(actual_positives, predicted_positives):
    average_precision = 0
    num_correct_predictions = 0

    for i, predicted_job in enumerate(predicted_positives):
        if predicted_job in actual_positives:
            num_correct_predictions += 1
            precision = num_correct_predictions / (i + 1)
            average_precision += precision

    if not actual_positives:
        return 0

    return average_precision / len(actual_positives)

# List to store the predicted relevant job indices
predicted_relevant_indices = [0]

# Calculate cosine similarity with keywords for each job description
for idx, similarity_score in enumerate(cosine_similarities[0]):
    if similarity_score > 0:
        predicted_relevant_indices.append(idx)

# Evaluate precision, recall, and F1-score
precision, recall, f1_score = calculate_precision_recall_f1_score(relevant_indices, predicted_relevant_indices)

# Evaluate Mean Average Precision (MAP)
map_score = calculate_map(relevant_indices, predicted_relevant_indices)

# Print the results
print("Precision:", precision)
print("Recall:", recall)
print("F1-Score:", f1_score)
print("MAP:", map_score)


Precision: 1.0
Recall: 0.16
F1-Score: 0.2758620689655173
MAP: 0.16


In [33]:
# Data sintetis referensi relevansi pekerjaan (misalnya, kita menentukan pekerjaan dengan indeks 2, 3, dan 13 sebagai pekerjaan relevan)
synthetic_relevance = [0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

# Nilai ambang batas (threshold) untuk relevansi pekerjaan
threshold = 0.5

# Inisialisasi list untuk menyimpan pekerjaan yang relevan berdasarkan nilai cosine similarity
relevant_jobs = []

# Loop untuk mencari pekerjaan yang relevan
for idx, cosine_sim in enumerate(cosine_similarities[0]):
    if cosine_sim > threshold:
        relevant_jobs.append(idx)

# Precision dan Recall
true_positive = len(set(relevant_jobs) & set([i for i, val in enumerate(synthetic_relevance) if val == 1]))
false_positive = len(set(relevant_jobs) - set([i for i, val in enumerate(synthetic_relevance) if val == 1]))
false_negative = len(set([i for i, val in enumerate(synthetic_relevance) if val == 1]) - set(relevant_jobs))

precision = true_positive / (true_positive + false_positive)
recall = true_positive / (true_positive + false_negative)

print(true_positive, false_positive, false_negative)
print("Precision:", precision)
print("Recall:", recall)


2 0 2
Precision: 1.0
Recall: 0.5
