<a href="https://colab.research.google.com/github/Nurwidi130603/Learn-ML-Education-Career-Succsees/blob/main/%5BClustering%5D_Submission_Akhir_BMLP_Nurwidi%20Bagus%20Amiryunanto_(Updated).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. Perkenalan Dataset**


## **Education & Career Success**

Dataset ini mengeksplorasi hubungan antara kinerja akademik dan kesuksesan karier. Dataset ini berisi 5000 row yang mencakup latar belakang pendidikan, keterampilan, dan hasil karier para siswa. Dataset ini dapat digunakan untuk berbagai analisis, seperti memprediksi keberhasilan pekerjaan berdasarkan pendidikan, mengidentifikasi faktor utama yang memengaruhi gaji, serta memahami peran jaringan profesional dan magang dalam pertumbuhan karier.

### **Tujuan Machine Learning**
Menganalisis bagaimana GPA, jumlah magang, dan jaringan mempengaruhi tawaran pekerjaan dan gaji.

# **2. Import Library**

In [1]:
# Import library
import numpy as np  # Mengimpor library numpy untuk komputasi numerik
import pandas as pd  # Mengimpor library pandas untuk analisis data frame
import seaborn as sns  # Mengimpor library seaborn untuk visualisasi data
import matplotlib.pyplot as plt  # Mengimpor library matplotlib untuk visualisasi data

from sklearn.model_selection import train_test_split  # Mengimpor fungsi train_test_split dari library scikit-learn untuk membagi data menjadi data latih dan data uji
from sklearn.neighbors import KNeighborsClassifier  # Mengimpor kelas KNeighborsClassifier dari library scikit-learn untuk model klasifikasi dengan metode K-Nearest Neighbors
from sklearn.preprocessing import MinMaxScaler  # Mengimpor kelas MinMaxScaler dari library scikit-learn untuk melakukan penskalaan fitur
from sklearn.model_selection import GridSearchCV  # Mengimpor kelas GridSearchCV dari library scikit-learn untuk pencarian parameter terbaik menggunakan validasi silang
from sklearn.metrics import accuracy_score  # Mengimpor fungsi accuracy_score dari library scikit-learn untuk mengukur akurasi model

# Set the maximum column width
pd.set_option('display.max_colwidth', 100)  # Mengatur lebar maksimum kolom saat menampilkan data frame menggunakan library pandas
# Magic function to display plots in notebook
%matplotlib inline
# Mengaktifkan fungsi untuk menampilkan plot di dalam notebook Jupyter

# **3. Memuat Dataset**

In [2]:
url='https://github.com/Nurwidi130603/Learn-ML-Education-Career-Succsees/blob/main/Dataset_inisiasi.csv/?raw=True'
edu_df = pd.read_csv(url)

In [None]:
edu_df.head(5)

In [None]:
edu_df.describe() # Menggunakan metode 'describe()' dari DataFrame 'edu_df' untuk menghasilkan ringkasan statistik dari dataset.

In [None]:
# Calculate missing values in all columns
# Menggunakan metode 'isnull()' dari DataFrame 'edu_df' untuk mengidentifikasi nilai yang hilang (missing values)
# dalam dataset, kemudian metode 'sum()' digunakan untuk menghitung jumlah nilai yang hilang dalam setiap kolom.
edu_df.isnull().sum()

### *Insight*

Data terbaca dan tidak ditemukan diperlukan lagi proses data cleaning, karena terlihat sudah bersih. Selanjutnya akan dilakukan proses EDA melalui beberapa visualisasi dasar yang menggambarkan data secara deskriptif.

# **4. Exploratory Data Analysis (EDA)**
Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

1. **Memahami Struktur Data**

In [None]:
print(f'Number of features: {edu_df.shape[1]}')
# Mencetak jumlah fitur (kolom) dalam dataset dengan menggunakan atribut 'shape[1]' dari DataFrame 'edu_df'. Format string (f-string) digunakan untuk memasukkan nilai tersebut ke dalam teks yang akan dicetak.

print(f'Number of observations: {edu_df.shape[0]}')
# Mencetak jumlah observasi (baris) dalam dataset dengan menggunakan atribut 'shape[0]' dari DataFrame 'edu_df'. Format string (f-string) digunakan untuk memasukkan nilai tersebut ke dalam teks yang akan dicetak.

In [None]:
# Check data types of the features
# Menggunakan atribut 'dtypes' dari DataFrame 'heart_df' untuk menampilkan tipe data dari setiap fitur dalam dataset.
edu_df.dtypes

2. **Analisis Distribusi dan Korelasi**

In [None]:
# Set plot style
sns.set(style="whitegrid")

# Create separate box plots for University GPA and Starting Salary
fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# Box plot for University GPA
sns.boxplot(y=edu_df["University_GPA"], ax=axes[0], color="skyblue")
gpa_min = edu_df['University_GPA'].min()
gpa_max = edu_df['University_GPA'].max()
gpa_mean = edu_df['University_GPA'].mean()
axes[0].text(0, gpa_min, f"Min: {gpa_min:.2f}", ha='right', va='bottom', fontsize=10)
axes[0].text(0, gpa_max, f"Max: {gpa_max:.2f}", ha='right', va='top', fontsize=10)
axes[0].text(0, gpa_mean, f"Mean: {gpa_mean:.2f}", ha='right', va='bottom', fontsize=10)
axes[0].set_title("Box Plot of University GPA")
axes[0].set_ylabel("University GPA")
axes[0].set_ylim(0,4)

# Box plot for Starting Salary
sns.boxplot(y=edu_df["Starting_Salary"], ax=axes[1], color="lightcoral")
salary_min = edu_df['Starting_Salary'].min()
salary_max = edu_df['Starting_Salary'].max()
salary_mean = edu_df['Starting_Salary'].mean()
axes[1].text(0, salary_min, f"Min: {salary_min:.2f}", ha='right', va='bottom', fontsize=10)
axes[1].text(0, salary_max, f"Max: {salary_max:.2f}", ha='right', va='top', fontsize=10)
axes[1].text(0, salary_mean, f"Mean: {salary_mean:.2f}", ha='right', va='bottom', fontsize=10)
axes[1].set_title("Box Plot of Starting Salary")
axes[1].set_ylabel("Starting Salary")
axes[1].set_ylim(0)

# Show plots
plt.tight_layout()
plt.show()

3. **Visualisasi Data**  

In [None]:
# Create a list of categorical columns
# Membuat daftar (list) yang berisi nama-nama kolom kategorikal/features dalam dataset.
cat_cols = ['Gender', 'Field_of_Study', 'Internships_Completed', 'Projects_Completed', 'Certifications','Soft_Skills_Score','Job_Offers','Career_Satisfaction','Years_to_Promotion','Current_Job_Level','Work_Life_Balance','Entrepreneurship']

# Define number of rows and columns for the subplots
# Menentukan jumlah baris (num_rows) dan kolom (num_cols) untuk subplot yang akan dibuat.
# Angka ini akan mempengaruhi tata letak subplot pada visualisasi berikutnya.
num_rows = 6
num_cols = 2

# Set up the subplots
# Membuat objek subplot dengan menggunakan fungsi 'subplots()' dari library matplotlib.pyplot.
# Jumlah baris (num_rows) dan kolom (num_cols) ditentukan sebelumnya. Juga, ukuran gambar (figsize) ditentukan sebagai (20, 18).
fig, axes = plt.subplots(nrows=num_rows, ncols=num_cols, figsize=(20,18))

# Loop over each categorical column to create a bar plot
for i, col in enumerate(cat_cols): # Calculate the row and column index for the current subplot
    row_idx = i // num_cols
    col_idx = i % num_cols # Menghitung indeks baris (row_idx) dan kolom (col_idx) untuk subplot saat ini menggunakan operasi pembagian dan modulo.

    # Count the number of rows for each category in the column (frequency distribution)
    counts = edu_df[col].value_counts()
# Menghitung jumlah baris untuk setiap kategori dalam kolom saat ini dengan menggunakan metode 'value_counts()' dari DataFrame 'edu_df'.

    # Create a bar plot of the counts in the current subplot
    ax = counts.plot(kind='bar', rot=0, color='#1f77b4', ax=axes[row_idx, col_idx])
# Membuat visualisasi diagram batang (bar plot) untuk distribusi frekuensi (counts) dalam subplot saat ini.
# Tipe plot diatur sebagai 'bar', rotasi label sumbu x (rot) diatur sebagai 0, warna batang diatur sebagai '#1f77b4',
# dan objek subplot yang ditentukan berdasarkan indeks baris dan kolom.

    # Add labels for the x and y axes
    ax.set_xlabel(col, size=12)
    ax.set_ylabel('Count', size=12)
# Menambahkan label pada sumbu x dan y untuk subplot saat ini.

    # Add a title for the plot
    ax.set_title(f'Count of {col}', size=16)
# Menambahkan judul pada plot untuk subplot saat ini menggunakan format string (f-string) yang mencantumkan nama kolom.

    # Add data labels to the bars
    for i in ax.containers:
        ax.bar_label(i, label_type='edge')
# Menambahkan label data pada batang diagram menggunakan metode 'bar_label()' dari objek subplot.

# If there are not enough columns to fill in the last row, create a blank plot
if len(cat_cols) % num_cols != 0:
    blank_ax = axes[num_rows-1, num_cols-1]
    blank_ax.axis('off')
# Jika tidak ada cukup kolom untuk mengisi baris terakhir pada subplot, maka akan dibuat sebuah subplot kosong (blank plot) untuk mengisi ruang yang tersisa.
# Hal ini dilakukan dengan memeriksa sisa hasil bagi dari pembagian jumlah kolom dengan num_cols. Jika sisa hasil bagi tidak sama dengan 0,
# maka sebuah subplot kosong akan dibuat dengan menggunakan objek subplot pada indeks [num_rows-1, num_cols-1] dan disetel agar tidak terlihat dengan menggunakan metode 'axis("off")'.

# Adjust the spacing between subplots
fig.tight_layout()
# Menyesuaikan jarak antara subplot agar tata letaknya lebih rapi dan sesuai dengan ukuran gambar yang ditentukan sebelumnya.

plt.show()
# Menampilkan plot keseluruhan.

### *Insight*

Dari hasil Exploratory Data Analysis (EDA) yang dilakukan. Kita dapat menarik hipotesis sementara dan pemahaman umum tentang fitur-fitur tersebut.Untuk clustering, kita membutuhkan kombinasi fitur numerik dan kategorikal. Beberapa fitur potensial dari dataset ini yang dapat digunakan adalah:

1. Fitur Numerik:
  - GPA (Nilai akademik siswa)
  - Years of Experience (Jumlah tahun pengalaman kerja)
  - Salary (Gaji saat ini atau awal)
  - Internship Completed (Jumlah berapa kali magang)
  - Networking Score (Seberapa aktif dalam membangun jaringan profesional)

2. Fitur Kategorikal (diubah menjadi numerik menggunakan One-Hot Encoding):
  - Field of Study (Bidang studi yang diambil)
  - Job Industry (Industri pekerjaan yang dimasuki)




# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning. Data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah.

In [None]:
#Type your code here

# **6. Pembangunan Model Clustering**

## **a. Pembangunan Model Clustering**

Pada tahap ini, Anda membangun model clustering dengan memilih algoritma yang sesuai untuk mengelompokkan data berdasarkan kesamaan. Berikut adalah **rekomendasi** tahapannya.
1. Pilih algoritma clustering yang sesuai.
2. Latih model dengan data menggunakan algoritma tersebut.

In [None]:
#Type your code here

## **b. Evaluasi Model Clustering**

Untuk menentukan jumlah cluster yang optimal dalam model clustering, Anda dapat menggunakan metode Elbow atau Silhouette Score.

Metode ini membantu kita menemukan jumlah cluster yang memberikan pemisahan terbaik antar kelompok data, sehingga model yang dibangun dapat lebih efektif. Berikut adalah **rekomendasi** tahapannya.
1. Gunakan Silhouette Score dan Elbow Method untuk menentukan jumlah cluster optimal.
2. Hitung Silhouette Score sebagai ukuran kualitas cluster.

In [None]:
#Type your code here

## **c. Feature Selection (Opsional)**

Silakan lakukan feature selection jika Anda membutuhkan optimasi model clustering. Jika Anda menerapkan proses ini, silakan lakukan pemodelan dan evaluasi kembali menggunakan kolom-kolom hasil feature selection. Terakhir, bandingkan hasil performa model sebelum dan sesudah menerapkan feature selection.

In [None]:
#Type your code here

## **d. Visualisasi Hasil Clustering**

Setelah model clustering dilatih dan jumlah cluster optimal ditentukan, langkah selanjutnya adalah menampilkan hasil clustering melalui visualisasi.

Berikut adalah **rekomendasi** tahapannya.
1. Tampilkan hasil clustering dalam bentuk visualisasi, seperti grafik scatter plot atau 2D PCA projection.

In [None]:
#Type your code here

## **e. Analisis dan Interpretasi Hasil Cluster**

### Interpretasi Target

**Tutorial: Melakukan Inverse Transform pada Data Target Setelah Clustering**

Setelah melakukan clustering dengan model **KMeans**, kita perlu mengembalikan data yang telah diubah (normalisasi, standarisasi, atau label encoding) ke bentuk aslinya. Berikut adalah langkah-langkahnya.

---

**1. Tambahkan Hasil Label Cluster ke DataFrame**
Setelah mendapatkan hasil clustering, kita tambahkan label cluster ke dalam DataFrame yang telah dinormalisasi.

```python
df_normalized['Cluster'] = model_kmeans.labels_
```

Lakukan Inverse Transform pada feature yang sudah dilakukan Labelisasi dan Standararisasi. Berikut code untuk melakukannya:
label_encoder.inverse_transform(X_Selected[['Fitur']])

Lalu masukkan ke dalam kolom dataset asli atau membuat dataframe baru
```python
df_normalized['Fitur'] = label_encoder.inverse_transform(df_normalized[['Fitur']])
```
Masukkan Data yang Sudah Di-Inverse ke dalam Dataset Asli atau Buat DataFrame Baru
```python
df_original['Fitur'] = df_normalized['Fitur']
```

In [None]:
# Type your code here


### Inverse Data Jika Melakukan Normalisasi/Standardisasi

Inverse Transform untuk Data yang Distandarisasi
Jika data numerik telah dinormalisasi menggunakan StandardScaler atau MinMaxScaler, kita bisa mengembalikannya ke skala asli:
```python
df_normalized[['Fitur_Numerik']] = scaler.inverse_transform(df_normalized[['Fitur_Numerik']])
```

In [None]:
# Type your code here

Setelah melakukan clustering, langkah selanjutnya adalah menganalisis karakteristik dari masing-masing cluster berdasarkan fitur yang tersedia.

Berikut adalah **rekomendasi** tahapannya.
1. Analisis karakteristik tiap cluster berdasarkan fitur yang tersedia (misalnya, distribusi nilai dalam cluster).
2. Berikan interpretasi: Apakah hasil clustering sesuai dengan ekspektasi dan logika bisnis? Apakah ada pola tertentu yang bisa dimanfaatkan?

In [None]:
# Type your code here

Tulis hasil interpretasinya di sini.
1. Cluster 1:
2. Cluster 2:
3. Cluster 3:

# Contoh interpretasi [TEMPLATE]
# Analisis Karakteristik Cluster dari Model KMeans

Berikut adalah analisis karakteristik untuk setiap cluster yang dihasilkan dari model KMeans.

## Cluster 1:
- **Rata-rata Annual Income (k$):** 48,260  
- **Rata-rata Spending Score (1-100):** 56.48  
- **Analisis:** Cluster ini mencakup pelanggan dengan pendapatan tahunan menengah dan tingkat pengeluaran yang cukup tinggi. Pelanggan dalam cluster ini cenderung memiliki daya beli yang moderat dan mereka lebih cenderung untuk membelanjakan sebagian besar pendapatan mereka.

## Cluster 2:
- **Rata-rata Annual Income (k$):** 86,540  
- **Rata-rata Spending Score (1-100):** 82.13  
- **Analisis:** Cluster ini menunjukkan pelanggan dengan pendapatan tahunan tinggi dan pengeluaran yang sangat tinggi. Pelanggan di cluster ini merupakan kelompok premium dengan daya beli yang kuat dan cenderung mengeluarkan uang dalam jumlah besar untuk produk atau layanan.

## Cluster 3:
- **Rata-rata Annual Income (k$):** 87,000  
- **Rata-rata Spending Score (1-100):** 18.63  
- **Analisis:** Cluster ini terdiri dari pelanggan dengan pendapatan tahunan yang tinggi tetapi pengeluaran yang rendah. Mereka mungkin memiliki kapasitas finansial yang baik namun tidak terlalu aktif dalam berbelanja. Ini bisa menunjukkan bahwa mereka lebih selektif dalam pengeluaran mereka atau mungkin lebih cenderung untuk menyimpan uang.

# **7. Mengeksport Data**

Simpan hasilnya ke dalam file CSV.