# **Data Cleaning - Proses Pembersihan Data**

> **Tujuan Utama:** Notebook ini bertanggung jawab untuk membersihkan dataset mentah (`jobs_dataset.csv`) yang telah di-scrape. Tujuannya adalah untuk menghasilkan dataset bersih (`jobs_cleaned.csv`) yang siap untuk diproses lebih lanjut oleh model machine learning.

**Alur Kerja Pembersihan:**
1.  **Impor Library & Memuat Data:** Memuat library yang dibutuhkan dan dataset mentah secara fleksibel (bisa dari lokal atau Kaggle).
2.  **Analisis & Pembersihan Data:** Melakukan serangkaian langkah pembersihan, termasuk:
    * Mengganti nilai "Not Found" dengan NaN (Not a Number) agar mudah diolah.
    * Menghapus data duplikat.
    * Menghapus baris data yang tidak memiliki informasi esensial (`Job Description` atau `Job Requirements`).
3.  **Penyimpanan Data Bersih:** Menyimpan hasil pembersihan ke dalam file `jobs_cleaned.csv`.

### **Langkah 1: Import Libraries**

In [1]:
import numpy as np
import pandas as pd
import os

print("Library pandas dan numpy berhasil diimpor.")

Library pandas dan numpy berhasil diimpor.


### **Langkah 2: Memuat Dataset**

Untuk membuat *notebook* ini portabel, kita akan membuat kode yang secara otomatis mendeteksi lingkungan kerja.
- **Jika dijalankan di Kaggle**, ia akan memuat data dari path `/kaggle/input/`.
- **Jika dijalankan di komputer lokal**, ia akan memuat data dari path `dataset/`.

Dengan cara ini, kode tidak perlu diubah-ubah saat berpindah lingkungan.

In [2]:
# Definisikan path untuk kedua lingkungan
path_kaggle = '/kaggle/input/capstone-jobs-dataset/jobs_dataset.csv'
path_lokal = 'dataset/jobs_dataset.csv'

file_path_to_load = None

# Cek apakah path Kaggle ada
if os.path.exists(path_kaggle):
    file_path_to_load = path_kaggle
    print(f"Lingkungan Kaggle terdeteksi. Memuat data dari: {file_path_to_load}")
else:
    file_path_to_load = path_lokal
    print(f"Lingkungan lokal terdeteksi. Memuat data dari: {file_path_to_load}")

# Lanjutkan memuat dataset
try:
    df = pd.read_csv(file_path_to_load)
    # Mengacak urutan data untuk menghindari bias saat melihat sampel
    df = df.sample(frac=1).reset_index(drop=True)
    
    print(f"\nBerhasil memuat dataset.")
except FileNotFoundError:
    print(f"\n[ERROR] GAGAL MEMUAT DATA!")
    print(f"File tidak ditemukan di path: '{file_path_to_load}'")
    print("Pastikan nama file dan lokasi folder sudah benar.")
except Exception as e:
    print(f"Terjadi error saat memuat data: {e}")

# Tampilkan informasi umum tentang dataframe
print("\nInformasi umum tentang dataset:")
df.info()

# Tampilkan statistik deskriptif dari dataframe
print("\nStatistik deskriptif dari dataset:")
print(df.describe())

# Tampilkan jumlah baris dan kolom
print(f"\nJumlah baris: {df.shape[0]}, Jumlah kolom: {df.shape[1]}")

# Tampilkan nama-nama kolom
print("\nNama-nama kolom dalam dataset:")
print(df.columns.tolist())

# Tampilkan jumlah nilai yang hilang di setiap kolom
print("\nJumlah nilai yang hilang di setiap kolom:")
print(df.isnull().sum())

# Tampilkan duplikat
print('\nJumlah duplikat dalam dataset:')
print(df.duplicated().sum())

# Tampilkan dataframe
df

Lingkungan lokal terdeteksi. Memuat data dari: dataset/jobs_dataset.csv

Berhasil memuat dataset.

Informasi umum tentang dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5251 entries, 0 to 5250
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Title             5251 non-null   object
 1   Company           5251 non-null   object
 2   Location          5251 non-null   object
 3   Country           5251 non-null   object
 4   Job Description   5251 non-null   object
 5   Job Requirements  5251 non-null   object
 6   Link              5251 non-null   object
dtypes: object(7)
memory usage: 287.3+ KB

Statistik deskriptif dari dataset:
                  Title                     Company  \
count              5251                        5251   
unique             1071                         588   
top     DevOps Engineer  PT Astra International Tbk   
freq                 73                         186

Unnamed: 0,Title,Company,Location,Country,Job Description,Job Requirements,Link
0,Pesticide residue analysis specialist,Groupe Enval (Laboratoires & Cabinet),Jakarta Metropolitan Area,Jakarta Metropolitan Area,Leadership Role,Competitive Salary and Benefits: | Modern Faci...,https://id.linkedin.com/jobs/view/pesticide-re...
1,Automotive Quality Assurance Analyst,Asuransi Astra,"Jakarta, Jakarta, Indonesia",Indonesia,Not Found,Membuat analisa dan menyimpulkan jumlah temuan...,https://id.linkedin.com/jobs/view/automotive-q...
2,Visual Merchandiser,Black Owl Indonesia,Jakarta Metropolitan Area,Jakarta Metropolitan Area,Not Found,Not Found,https://id.linkedin.com/jobs/view/visual-merch...
3,L2 Network Security Engineer,PT Focus Solusi Infotama,"Jakarta, Jakarta, Indonesia",Indonesia,Not Found,Menangani dan menindaklanjuti insiden keamanan...,https://id.linkedin.com/jobs/view/l2-network-s...
4,UX Annotator,Mobbin,"Jakarta, Jakarta, Indonesia",Indonesia,Annotate screens and flows with information ab...,Stay informed on updates to guidelines and inc...,https://id.linkedin.com/jobs/view/ux-annotator...
...,...,...,...,...,...,...,...
5246,Legal Counsel - Litigation & Contentious Matters,ShopBack,"Jakarta, Jakarta, Indonesia",Indonesia,Design and strategy: | Support product manager...,Conduct user research and use quantitative and...,https://id.linkedin.com/jobs/view/ux-writer-at...
5247,Apprentice Program Field Agronomist,PT Restu Agropro Jayamas,"Klaten Tengah, Central Java, Indonesia",Indonesia,Not Found,Melakukan demo produk di lahan | Melakukan pro...,https://id.linkedin.com/jobs/view/apprentice-p...
5248,Account Manager - Attraction/Things-to-Do (B2C...,tiket.com,"Jakarta, Jakarta, Indonesia",Indonesia,Manage and grow relationships with existing pa...,Acquire and onboard new experience providers b...,https://id.linkedin.com/jobs/view/account-mana...
5249,Software Engineer (Fullstack),Mekari,"Surabaya, East Java, Indonesia",Indonesia,Develop front-end & back-end components on the...,Work closely with DevOps to maintain the appli...,https://id.linkedin.com/jobs/view/senior-softw...


**Tindakan:**
Dataset mentah (`jobs_dataset.csv`) dimuat ke dalam DataFrame pandas. Setelah dimuat, urutan baris data langsung diacak (`.sample(frac=1)`) dan indeksnya diatur ulang (`.reset_index(drop=True)`).

**Alasan (Insight):**
* **`.sample(frac=1)`**: Pengacakan dilakukan untuk mencegah adanya bias urutan yang mungkin timbul dari proses *scraping* (misalnya, semua pekerjaan dari kategori yang sama berkumpul jadi satu). Ini memastikan bahwa saat kita melihat sampel data (misalnya dengan `.head()`), kita mendapatkan representasi yang lebih beragam.
* **`.reset_index(drop=True)`**: Setelah diacak, indeks data menjadi tidak berurutan. Perintah ini mengatur ulang indeks dari 0, 1, 2, ..., sehingga DataFrame kembali rapi.

### **Langkah 3: Proses Pembersihan Data**

Pada tahap ini, kita akan melakukan tiga langkah pembersihan utama untuk meningkatkan kualitas dataset. Setiap langkah akan dijelaskan dan kita akan melihat dampaknya terhadap jumlah data.

#### **3.1. Mengganti "Not Found" dengan NaN**

Nilai "Not Found" adalah teks yang tidak bisa diinterpretasikan oleh banyak fungsi analisis data. Kita akan menggantinya dengan `np.nan` (Not a Number), yang merupakan standar untuk merepresentasikan data hilang di pandas.

In [3]:
# Ganti "Not Found" dengan NaN
df.replace("Not Found", np.nan, inplace=True)

print("Nilai 'Not Found' telah berhasil diganti dengan NaN.")

Nilai 'Not Found' telah berhasil diganti dengan NaN.


**Tindakan:**
Nilai string "Not Found" sering muncul jika scraping gagal mengambil data dari HTML. Semua nilai string `"Not Found"` di seluruh DataFrame diganti dengan nilai standar untuk data hilang, yaitu `np.nan` (Not a Number).

**Alasan (Insight):**
* **Standarisasi Data Hilang**: Nilai `"Not Found"` adalah hasil dari proses *scraping* jika elemen HTML tertentu tidak ditemukan. Mengubahnya menjadi `np.nan` membuat Pandas dapat mengenalinya sebagai *missing value* standar.
* **Memudahkan Filtering dan Analisis**: Dengan nilai `np.nan`, kita bisa dengan mudah menggunakan fungsi bawaan Pandas seperti `.isnull()`, `.dropna()`, dan `.fillna()` untuk analisis dan pembersihan lebih lanjut.

#### **3.2. Menghapus Data Duplikat**

Sangat mungkin proses scraping mengambil lowongan yang sama lebih dari sekali. Kita akan menghapus baris duplikat berdasarkan kombinasi kolom `Title`, `Company`, dan `Location` untuk memastikan setiap lowongan bersifat unik.

In [4]:
# Hapus duplikat
rows_before_dedup = len(df)
df.drop_duplicates(subset=["Title", "Company", "Location"], inplace=True, keep='last')
rows_after_dedup = len(df)

print(f"Jumlah baris sebelum penghapusan duplikat: {rows_before_dedup}")
print(f"Jumlah baris setelah penghapusan duplikat: {rows_after_dedup}")
print(f"Total data duplikat yang dihapus: {rows_before_dedup - rows_after_dedup}")

Jumlah baris sebelum penghapusan duplikat: 5251
Jumlah baris setelah penghapusan duplikat: 2004
Total data duplikat yang dihapus: 3247


**Tindakan:**
Baris-baris data yang duplikat dihapus. Sebuah baris dianggap duplikat jika memiliki nilai yang sama pada kolom `Title`, `Company`, dan `Location` secara bersamaan, inplace=True)"].

**Alasan (Insight):**
* **Integritas Data**: Proses *scraping* yang berulang atau menjelajahi beberapa halaman sering kali mengambil lowongan pekerjaan yang sama lebih dari sekali. Langkah ini krusial untuk memastikan setiap entri dalam dataset kita benar-benar unik.
* **Efisiensi Model**: Menggunakan data yang unik mencegah model memberikan bobot berlebih pada lowongan yang sama yang muncul berkali-kali.

#### **3.3. Menghapus Baris yang Tidak Punya Deskripsi & Syarat**

Kolom `Job Description` dan `Job Requirements` adalah fitur paling penting untuk model kita. Jika salah satu dari kolom ini kosong, baris data tersebut tidak memiliki nilai yang cukup untuk proses *matching*. Oleh karena itu, kita akan menghapusnya.

In [5]:
rows_before_dropna = len(df)
df_cleaned = df.dropna(subset=["Job Description", "Job Requirements"])
rows_after_dropna = len(df_cleaned)

print(f"Jumlah baris sebelum menghapus data kosong: {rows_before_dropna}")
print(f"Jumlah baris setelah menghapus data kosong: {rows_after_dropna}")
print(f"Total data tidak lengkap yang dihapus: {rows_before_dropna - rows_after_dropna}")

Jumlah baris sebelum menghapus data kosong: 2004
Jumlah baris setelah menghapus data kosong: 1362
Total data tidak lengkap yang dihapus: 642


**Tindakan:**
Seluruh baris data yang tidak memiliki informasi pada kolom `Job Description` **ATAU** `Job Requirements` dihapus dari DataFrame) "].

**Alasan (Insight):**
* **Kualitas Fitur**: Kedua kolom ini adalah "jantung" dari data teks yang akan digunakan oleh model untuk memahami konteks pekerjaan.
* **Kelayakan Data**: Tanpa deskripsi atau persyaratan, sebuah data lowongan tidak memiliki informasi yang cukup untuk bisa dicocokkan dengan CV secara akurat. Menghapusnya akan meningkatkan kualitas keseluruhan dataset yang akan digunakan untuk *training* dan *matching*.

#### **Hasil Akhir Pembersihan**

Setelah melalui semua tahap pembersihan, mari kita dataframe dari dataset bersih kita (`df_cleaned`).

In [6]:
df_cleaned

Unnamed: 0,Title,Company,Location,Country,Job Description,Job Requirements,Link
28,APAC Graduate Program-Leadership Experience an...,My Zahir,"Kecamatan Bekasi Utara, West Java, Indonesia",Indonesia,Support religious development | Support employ...,Memiliki mindset untuk terus belajar | Up to d...,https://id.linkedin.com/jobs/view/fashion-desi...
33,Accountant,Givaudan,"Tangerang, Banten, Indonesia",Indonesia,Manage month end closing for Indonesia.,Working closely with controller on SAP contrac...,https://id.linkedin.com/jobs/view/finance-acco...
35,Fullstack Developer (Banking Industry),SIGMATECH,"Jakarta, Jakarta, Indonesia",Indonesia,"Familiar with Agile software development, micr...","Develop, deploy & implement applications based...",https://id.linkedin.com/jobs/view/fullstack-de...
41,Tenant Relation Senior Manager,SuperAI (YC S22),Jakarta Metropolitan Area,Jakarta Metropolitan Area,Design and execute global community strategies...,"Build, grow, and maintain a strong and active ...",https://id.linkedin.com/jobs/view/community-ma...
48,B2B & Complementary Procurement Staff,Torch,Indonesia,Indonesia,Collaborate with internal teams to understand ...,Identify and establish partnerships with relia...,https://id.linkedin.com/jobs/view/b2b-compleme...
...,...,...,...,...,...,...,...
5245,Customer Experience Manager,ShopBack,"Purbalingga, Central Java, Indonesia",Indonesia,Design and strategy: | Support product manager...,Conduct user research and use quantitative and...,https://id.linkedin.com/jobs/view/ux-writer-at...
5246,Legal Counsel - Litigation & Contentious Matters,ShopBack,"Jakarta, Jakarta, Indonesia",Indonesia,Design and strategy: | Support product manager...,Conduct user research and use quantitative and...,https://id.linkedin.com/jobs/view/ux-writer-at...
5248,Account Manager - Attraction/Things-to-Do (B2C...,tiket.com,"Jakarta, Jakarta, Indonesia",Indonesia,Manage and grow relationships with existing pa...,Acquire and onboard new experience providers b...,https://id.linkedin.com/jobs/view/account-mana...
5249,Software Engineer (Fullstack),Mekari,"Surabaya, East Java, Indonesia",Indonesia,Develop front-end & back-end components on the...,Work closely with DevOps to maintain the appli...,https://id.linkedin.com/jobs/view/senior-softw...


### **Langkah 3: Menyimpan Dataset Bersih**

Terakhir, kita akan menyimpan DataFrame yang sudah bersih ini ke dalam sebuah file CSV baru bernama `jobs_cleaned.csv`. File inilah yang akan menjadi input untuk proses training model di *notebook* selanjutnya.

In [7]:
# Menyimpan ke file CSV baru di dalam folder dataset
output_path = 'dataset/jobs_cleaned.csv'
df_cleaned.to_csv(output_path, index=False)

print(f"Dataset bersih berhasil disimpan di: '{output_path}'")
print(f"Total baris data bersih yang disimpan: {len(df_cleaned)}")

Dataset bersih berhasil disimpan di: 'dataset/jobs_cleaned.csv'
Total baris data bersih yang disimpan: 1362


**Tindakan:**
DataFrame `df_cleaned` yang telah melalui semua proses pembersihan kini disimpan menjadi sebuah file baru bernama `jobs_cleaned.csv`.

**Alasan (Insight):**
* **Checkpoint**: Menyimpan hasil pembersihan ke file terpisah adalah praktik yang baik. Ini menciptakan sebuah "checkpoint" dari data yang sudah bersih dan siap pakai.
* **Efisiensi Alur Kerja**: *Notebook* atau *script* selanjutnya (seperti untuk training model) bisa langsung memuat file bersih ini tanpa perlu mengulang langkah-langkah pembersihan yang sama setiap saat, sehingga menghemat waktu dan sumber daya komputasi.