In [30]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import precision_score, recall_score, f1_score


# Kata kunci (contoh, ganti dengan kata kunci yang sesuai)
keywords = "Data Analyst"

# Data pekerjaan (contoh, ganti dengan data pekerjaan yang sesuai)
jobs = [
    "Lowongan Kerja Web Developer di Perusahaan ABC",
    "Dibutuhkan Software Engineer untuk Proyek Inovatif",
    "Lowongan Kerja Data Analyst dengan Gaji Menarik",
    "Dicari UI/UX Designer berpengalaman untuk Startup",
    "Lowongan Kerja Data Scientist",
    "Dibutuhkan Software Engineer dengan pengalaman di bidang pengembangan web.",
    "Dicari UI/UX Designer yang kreatif dan berpengalaman.",
    "Perusahaan mencari Data Scientist untuk menganalisis data dan membuat model prediktif.",
    "Dibutuhkan Digital Marketing Specialist untuk mengelola kampanye pemasaran online.",
    "Perusahaan mencari Product Manager yang memiliki pengalaman di industri teknologi.",
    "Dicari Content Writer yang kreatif dan mampu menulis konten berkualitas.",
    "Perusahaan membutuhkan Frontend Developer untuk mengembangkan antarmuka pengguna.",
    "Dibutuhkan HR Manager dengan pengalaman dalam manajemen sumber daya manusia.",
    "Dicari Graphic Designer yang mampu menciptakan desain visual yang menarik.",
    "Perusahaan mencari Business Analyst untuk menganalisis kebutuhan bisnis.",
    "Dibutuhkan Sales Executive untuk menjalin hubungan bisnis dengan klien.",
    "Dicari Data Analyst yang memiliki pengetahuan luas tentang teknologi terkini.",
    "Perusahaan membutuhkan Customer Service Representative yang ramah dan efisien.",
    "Dibutuhkan Project Manager untuk mengelola proyek dan tim dengan baik.",
    "Dicari Social Media Specialist untuk mengelola kehadiran online perusahaan.",
    "Perusahaan mencari Android Developer yang berpengalaman dalam pengembangan aplikasi.",
    "Dibutuhkan Accountant untuk mengelola keuangan perusahaan.",
    "Dicari Network Administrator yang memiliki pemahaman tentang jaringan komputer.",
    "Perusahaan membutuhkan Legal Counsel untuk memberikan nasihat hukum.",
    "Dibutuhkan Data Analyst untuk mengumpulkan dan menganalisis data pengguna."
]

In [31]:
import re
import pandas as pd
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

df = pd.DataFrame(jobs, columns=["jobs"])
df = df.dropna()

stopword = StopWordRemoverFactory().create_stop_word_remover()
for i, job in enumerate(jobs):
    html_pattern = re.compile('<.*?>')
    df.at[i, "jobs"] = stopword.remove(
        html_pattern.sub(r'', df.loc[i, 'jobs']).lower()
    )

df

Unnamed: 0,jobs
0,lowongan kerja web developer perusahaan abc
1,dibutuhkan software engineer proyek inovatif
2,lowongan kerja data analyst gaji menarik
3,dicari ui/ux designer berpengalaman startup
4,lowongan kerja data scientist
5,dibutuhkan software engineer pengalaman bidang...
6,dicari ui/ux designer kreatif berpengalaman.
7,perusahaan mencari data scientist menganalisis...
8,dibutuhkan digital marketing specialist mengel...
9,perusahaan mencari product manager memiliki pe...


In [40]:
# Proses TF-IDF
countVectorizer = CountVectorizer()
tfidf_vectorizer = TfidfVectorizer()
tf = countVectorizer.fit_transform(df["jobs"])
tfidf_matrix = tfidf_vectorizer.fit_transform(df["jobs"])

# Hitung TF-IDF untuk kata kunci
keywords_tfidf = tfidf_vectorizer.transform([keywords])

# Hitung cosine similarity antara kata kunci dan setiap pekerjaan
cosine_similarities = cosine_similarity(keywords_tfidf, tfidf_matrix)


print('Jumlah dokumen:', tf.shape[0])
print('Jumlah term:', tf.shape[1])
print('Daftar Term:', countVectorizer.get_feature_names_out())

Jumlah dokumen: 25
Jumlah term: 100
Daftar Term: ['abc' 'accountant' 'administrator' 'analyst' 'android' 'antarmuka'
 'aplikasi' 'baik' 'berkualitas' 'berpengalaman' 'bidang' 'bisnis'
 'business' 'content' 'counsel' 'customer' 'data' 'daya' 'desain'
 'designer' 'developer' 'dibutuhkan' 'dicari' 'digital' 'efisien'
 'engineer' 'executive' 'frontend' 'gaji' 'graphic' 'hr' 'hubungan'
 'hukum' 'industri' 'inovatif' 'jaringan' 'kampanye' 'kebutuhan'
 'kehadiran' 'kerja' 'keuangan' 'klien' 'komputer' 'konten' 'kreatif'
 'legal' 'lowongan' 'luas' 'mampu' 'manager' 'manajemen' 'manusia'
 'marketing' 'media' 'memberikan' 'membuat' 'membutuhkan' 'memiliki'
 'menarik' 'mencari' 'menciptakan' 'menganalisis' 'mengelola'
 'mengembangkan' 'mengumpulkan' 'menjalin' 'menulis' 'model' 'nasihat'
 'network' 'online' 'pemahaman' 'pemasaran' 'pengalaman' 'pengembangan'
 'pengetahuan' 'pengguna' 'perusahaan' 'prediktif' 'product' 'project'
 'proyek' 'ramah' 'representative' 'sales' 'scientist' 'service' 'soc

In [42]:
print('Matriks Tf:')
tf_matrix = pd.DataFrame(tf.toarray(), columns=countVectorizer.get_feature_names_out())
tf_matrix

Matriks Tf:


Unnamed: 0,abc,accountant,administrator,analyst,android,antarmuka,aplikasi,baik,berkualitas,berpengalaman,...,startup,sumber,teknologi,terkini,tim,ui,ux,visual,web,writer
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,1,0,0,0,0,1,1,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
6,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,1,1,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0


In [24]:
#top_5_job_indices = cosine_similarities.argsort()[0][-5:][::-1] 
top_job_indices = cosine_similarities.argsort()[0][::-1]
recommended_jobs = [jobs[idx] for idx in top_job_indices]

top_job_indices 

array([24,  2, 16,  7,  4, 14, 10,  1,  3,  5,  6,  8,  9, 12, 11, 23, 13,
       15, 17, 18, 19, 20, 21, 22,  0], dtype=int64)

In [76]:
print("Hasil Rekomendasi:")
for idx, job in enumerate(recommended_jobs, start=1):
    print(f"{idx}. {job}")
print()

Hasil Rekomendasi:
1. Dibutuhkan Data Analyst untuk mengumpulkan dan menganalisis data pengguna.
2. Lowongan Kerja Data Analyst dengan Gaji Menarik
3. Dicari Data Analyst yang memiliki pengetahuan luas tentang teknologi terkini.
4. Perusahaan mencari Data Scientist untuk menganalisis data dan membuat model prediktif.
5. Lowongan Kerja Data Scientist
6. Perusahaan mencari Business Analyst untuk menganalisis kebutuhan bisnis.
7. Dicari Content Writer yang kreatif dan mampu menulis konten berkualitas.
8. Dibutuhkan Software Engineer untuk Proyek Inovatif
9. Dicari UI/UX Designer berpengalaman untuk Startup
10. Dibutuhkan Software Engineer dengan pengalaman di bidang pengembangan web.
11. Dicari UI/UX Designer yang kreatif dan berpengalaman.
12. Dibutuhkan Digital Marketing Specialist untuk mengelola kampanye pemasaran online.
13. Perusahaan mencari Product Manager yang memiliki pengalaman di industri teknologi.
14. Dibutuhkan HR Manager dengan pengalaman dalam manajemen sumber daya manusi

In [15]:
ground_truth_list = [24,  2, 16,  7,  4, 0]

# Lakukan evaluasi
y_true = ground_truth_list
y_pred = top_job_indices

def precision_recall_f1(y_true, y_pred):
    tp = len(set(y_true) & set(y_pred))
    print(set(y_true), set(y_pred), set(y_true) & set(y_pred), len(y_pred))
    precision = tp / len(y_pred)
    recall = tp / len(y_true)
    f1 = 2 * (precision * recall) / (precision + recall)
    return precision, recall, f1

precision, recall, f1 = precision_recall_f1(y_true, y_pred)

print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-Score: {f1:.2f}")

y_true, y_pred

{0, 2, 4, 7, 16, 24} {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24} {0, 2, 4, 7, 16, 24} 25
Precision: 0.24
Recall: 1.00
F1-Score: 0.39


([24, 2, 16, 7, 4, 0],
 array([24,  2, 16,  7,  4, 14, 10,  1,  3,  5,  6,  8,  9, 12, 11, 23, 13,
        15, 17, 18, 19, 20, 21, 22,  0], dtype=int64))

In [1]:
# Langkah 6: Identifikasi rekomendasi
similar_docs_indices = cosine_similarities.argsort()[0][::-1]
recommended_docs = [jobs[index] for index in similar_docs_indices]

# Evaluasi precision dan recall
relevant_recommended = sum(1 for doc_idx in similar_docs_indices if doc_idx in ground_truth_list)
precision = relevant_recommended / len(similar_docs_indices)
recall = relevant_recommended / len(ground_truth_list)

# Hitung F1 score
if precision + recall == 0:
    f1_score = 0
else:
    f1_score = 2 * (precision * recall) / (precision + recall)

# Hitung accuracy
true_positives = sum(1 for doc_idx in similar_docs_indices if doc_idx in ground_truth_list)
false_positives = len(similar_docs_indices) - true_positives
false_negatives = len(ground_truth_list) - true_positives
true_negatives = len(jobs) - len(ground_truth_list) - false_positives

accuracy = (true_positives + true_negatives) / len(jobs)

NameError: name 'cosine_similarities' is not defined

In [17]:
print(relevant_recommended)
print(f"Hasil Rekomendasi: {recommended_docs}")
print()
print()
print(f"Ground Truth: {ground_truth_list}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1_score:.2f}")
print(f"Accuracy: {accuracy:.2f}")

6
Hasil Rekomendasi: ['dibutuhkan data analyst mengumpulkan menganalisis data pengguna.', 'lowongan kerja data analyst gaji menarik', 'dicari data analyst memiliki pengetahuan luas teknologi terkini.', 'perusahaan mencari data scientist menganalisis data membuat model prediktif.', 'lowongan kerja data scientist', 'perusahaan mencari business analyst menganalisis kebutuhan bisnis.', 'dicari content writer kreatif mampu menulis konten berkualitas.', 'dibutuhkan software engineer proyek inovatif', 'dicari ui/ux designer berpengalaman startup', 'dibutuhkan software engineer pengalaman bidang pengembangan web.', 'dicari ui/ux designer kreatif berpengalaman.', 'dibutuhkan digital marketing specialist mengelola kampanye pemasaran online.', 'perusahaan mencari product manager memiliki pengalaman industri teknologi.', 'dibutuhkan hr manager pengalaman manajemen sumber daya manusia.', 'perusahaan membutuhkan frontend developer mengembangkan antarmuka pengguna.', 'perusahaan membutuhkan legal cou