In [136]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import precision_score, recall_score, f1_score

# Data pekerjaan (contoh, ganti dengan data pekerjaan yang sesuai)
jobs = [
    "Lowongan Kerja Web Developer di Perusahaan ABC",
    "Dibutuhkan Software Engineer untuk Proyek Inovatif",
    "Lowongan Kerja Data Analyst dengan Gaji Menarik",
    "Dicari UI/UX Designer berpengalaman untuk Startup",
    "Lowongan Kerja Data Scientist",
    "Dibutuhkan Software Engineer dengan pengalaman di bidang pengembangan web.",
    "Dicari UI/UX Designer yang kreatif dan berpengalaman.",
    "Perusahaan mencari Data Scientist untuk menganalisis data dan membuat model prediktif.",
    "Dibutuhkan Digital Marketing Specialist untuk mengelola kampanye pemasaran online.",
    "Perusahaan mencari Product Manager yang memiliki pengalaman di industri teknologi.",
    "Dicari Content Writer yang kreatif dan mampu menulis konten berkualitas.",
    "Perusahaan membutuhkan Frontend Developer untuk mengembangkan antarmuka pengguna.",
    "Dibutuhkan HR Manager dengan pengalaman dalam manajemen sumber daya manusia.",
    "Dicari Graphic Designer yang mampu menciptakan desain visual yang menarik.",
    "Perusahaan mencari Business Analyst untuk menganalisis kebutuhan bisnis.",
    "Dibutuhkan Sales Executive untuk menjalin hubungan bisnis dengan klien.",
    "Dicari Data Analyst yang memiliki pengetahuan luas tentang teknologi terkini.",
    "Perusahaan membutuhkan Customer Service Representative yang ramah dan efisien.",
    "Dibutuhkan Project Manager untuk mengelola proyek dan tim dengan baik.",
    "Dicari Social Media Specialist untuk mengelola kehadiran online perusahaan.",
    "Perusahaan mencari Android Developer yang berpengalaman dalam pengembangan aplikasi.",
    "Dibutuhkan Accountant untuk mengelola keuangan perusahaan.",
    "Dicari Network Administrator yang memiliki pemahaman tentang jaringan komputer.",
    "Perusahaan membutuhkan Legal Counsel untuk memberikan nasihat hukum.",
    "Dibutuhkan Data Analyst untuk mengumpulkan dan menganalisis data pengguna."
]

# Proses TF-IDF
tfidf_vectorizer = TfidfVectorizer(stop_words='english')
tfidf_matrix = tfidf_vectorizer.fit_transform(jobs)

# Kata kunci (contoh, ganti dengan kata kunci yang sesuai)
keywords = "Data Analyst"

# Hitung TF-IDF untuk kata kunci
keywords_tfidf = tfidf_vectorizer.transform([keywords])

# Hitung cosine similarity antara kata kunci dan setiap pekerjaan
cosine_similarities = cosine_similarity(keywords_tfidf, tfidf_matrix)

cosine_similarities

array([[0.        , 0.        , 0.47372174, 0.        , 0.29454996,
        0.        , 0.        , 0.33720017, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.2422916 ,
        0.        , 0.38486201, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.6130192 ]])

In [138]:
import re
import pandas as pd
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory


df = pd.DataFrame(jobs, columns=["jobs"])
df = df.dropna()

factory = StemmerFactory()
stemmer = factory.create_stemmer()
stopword = StopWordRemoverFactory().create_stop_word_remover()

def stemming(dframe):
    stemmed = [stopword.remove(stemmer.stem(html_pattern.sub(r'', text).lower())) for text in dframe["text"]]
    return stemmed

#for i, job in enumerate(jobs):
    

    
jobs

['lowong kerja web developer usaha abc',
 'butuh software engineer proyek inovatif',
 'lowong kerja data analyst gaji tarik',
 'cari ui ux designer alam startup',
 'lowong kerja data scientist',
 'butuh software engineer alam bidang kembang web',
 'cari ui ux designer kreatif alam',
 'usaha cari data scientist analis data buat model prediktif',
 'butuh digital marketing specialist kelola kampanye pasar online',
 'usaha cari product manager milik alam industri teknologi',
 'cari content writer kreatif mampu tulis konten kualitas',
 'usaha butuh frontend developer kembang antarmuka',
 'butuh hr manager alam manajemen sumber daya manusia',
 'cari graphic designer mampu cipta desain visual tarik',
 'usaha cari business analyst analis butuh bisnis',
 'butuh sales executive jalin hubung bisnis klien',
 'cari data analyst milik tahu luas teknologi kini',
 'usaha butuh customer service representative ramah efisien',
 'butuh project manager kelola proyek tim baik',
 'cari social media specialis

In [75]:
#top_5_job_indices = cosine_similarities.argsort()[0][-5:][::-1] 
top_job_indices = cosine_similarities.argsort()[0][::-1]
recommended_jobs = [jobs[idx] for idx in top_job_indices]

top_job_indices, recommended_jobs 

(array([24,  2, 16,  7,  4, 14, 10,  1,  3,  5,  6,  8,  9, 12, 11, 23, 13,
        15, 17, 18, 19, 20, 21, 22,  0], dtype=int64),
 ['Dibutuhkan Data Analyst untuk mengumpulkan dan menganalisis data pengguna.',
  'Lowongan Kerja Data Analyst dengan Gaji Menarik',
  'Dicari Data Analyst yang memiliki pengetahuan luas tentang teknologi terkini.',
  'Perusahaan mencari Data Scientist untuk menganalisis data dan membuat model prediktif.',
  'Lowongan Kerja Data Scientist',
  'Perusahaan mencari Business Analyst untuk menganalisis kebutuhan bisnis.',
  'Dicari Content Writer yang kreatif dan mampu menulis konten berkualitas.',
  'Dibutuhkan Software Engineer untuk Proyek Inovatif',
  'Dicari UI/UX Designer berpengalaman untuk Startup',
  'Dibutuhkan Software Engineer dengan pengalaman di bidang pengembangan web.',
  'Dicari UI/UX Designer yang kreatif dan berpengalaman.',
  'Dibutuhkan Digital Marketing Specialist untuk mengelola kampanye pemasaran online.',
  'Perusahaan mencari Product Ma

In [76]:
print("Hasil Rekomendasi:")
for idx, job in enumerate(recommended_jobs, start=1):
    print(f"{idx}. {job}")
print()

Hasil Rekomendasi:
1. Dibutuhkan Data Analyst untuk mengumpulkan dan menganalisis data pengguna.
2. Lowongan Kerja Data Analyst dengan Gaji Menarik
3. Dicari Data Analyst yang memiliki pengetahuan luas tentang teknologi terkini.
4. Perusahaan mencari Data Scientist untuk menganalisis data dan membuat model prediktif.
5. Lowongan Kerja Data Scientist
6. Perusahaan mencari Business Analyst untuk menganalisis kebutuhan bisnis.
7. Dicari Content Writer yang kreatif dan mampu menulis konten berkualitas.
8. Dibutuhkan Software Engineer untuk Proyek Inovatif
9. Dicari UI/UX Designer berpengalaman untuk Startup
10. Dibutuhkan Software Engineer dengan pengalaman di bidang pengembangan web.
11. Dicari UI/UX Designer yang kreatif dan berpengalaman.
12. Dibutuhkan Digital Marketing Specialist untuk mengelola kampanye pemasaran online.
13. Perusahaan mencari Product Manager yang memiliki pengalaman di industri teknologi.
14. Dibutuhkan HR Manager dengan pengalaman dalam manajemen sumber daya manusi

In [96]:
ground_truth_list = [24,  2, 16,  7,  4, 0]

# Lakukan evaluasi
y_true = ground_truth_list
y_pred = top_job_indices

def precision_recall_f1(y_true, y_pred):
    tp = len(set(y_true) & set(y_pred))
    print(set(y_true), set(y_pred), set(y_true) & set(y_pred), len(y_pred))
    precision = tp / len(y_pred)
    recall = tp / len(y_true)
    f1 = 2 * (precision * recall) / (precision + recall)
    return precision, recall, f1

precision, recall, f1 = precision_recall_f1(y_true, y_pred)

print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-Score: {f1:.2f}")

y_true, y_pred

{0, 2, 4, 7, 16, 24} {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24} {0, 2, 4, 7, 16, 24} 25
Precision: 0.24
Recall: 1.00
F1-Score: 0.39


([24, 2, 16, 7, 4, 0],
 array([24,  2, 16,  7,  4, 14, 10,  1,  3,  5,  6,  8,  9, 12, 11, 23, 13,
        15, 17, 18, 19, 20, 21, 22,  0], dtype=int64))

In [97]:
# Langkah 6: Identifikasi rekomendasi
similar_docs_indices = cosine_similarities.argsort()[0][::-1]
recommended_docs = [jobs[index] for index in similar_docs_indices]

# Evaluasi precision dan recall
relevant_recommended = sum(1 for doc_idx in similar_docs_indices if doc_idx in ground_truth_list)
precision = relevant_recommended / len(similar_docs_indices)
recall = relevant_recommended / len(ground_truth_list)

# Hitung F1 score
if precision + recall == 0:
    f1_score = 0
else:
    f1_score = 2 * (precision * recall) / (precision + recall)

# Hitung accuracy
true_positives = sum(1 for doc_idx in similar_docs_indices if doc_idx in ground_truth_list)
false_positives = len(similar_docs_indices) - true_positives
false_negatives = len(ground_truth_list) - true_positives
true_negatives = len(jobs) - len(ground_truth_list) - false_positives

accuracy = (true_positives + true_negatives) / len(jobs)

In [99]:
print(relevant_recommended)
print(f"Hasil Rekomendasi: {recommended_docs}")
print()
print()
print(f"Ground Truth: {ground_truth_list}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1_score:.2f}")
print(f"Accuracy: {accuracy:.2f}")

6
Hasil Rekomendasi: ['Dibutuhkan Data Analyst untuk mengumpulkan dan menganalisis data pengguna.', 'Lowongan Kerja Data Analyst dengan Gaji Menarik', 'Dicari Data Analyst yang memiliki pengetahuan luas tentang teknologi terkini.', 'Perusahaan mencari Data Scientist untuk menganalisis data dan membuat model prediktif.', 'Lowongan Kerja Data Scientist', 'Perusahaan mencari Business Analyst untuk menganalisis kebutuhan bisnis.', 'Dicari Content Writer yang kreatif dan mampu menulis konten berkualitas.', 'Dibutuhkan Software Engineer untuk Proyek Inovatif', 'Dicari UI/UX Designer berpengalaman untuk Startup', 'Dibutuhkan Software Engineer dengan pengalaman di bidang pengembangan web.', 'Dicari UI/UX Designer yang kreatif dan berpengalaman.', 'Dibutuhkan Digital Marketing Specialist untuk mengelola kampanye pemasaran online.', 'Perusahaan mencari Product Manager yang memiliki pengalaman di industri teknologi.', 'Dibutuhkan HR Manager dengan pengalaman dalam manajemen sumber daya manusia.',