# Assignment Chapter 2 - MACHINE LEARNING [Case #1]
Startup Campus, Indonesia - `Artificial Intelligence (AI)` (Batch 7)
* Dataset: SC_HW1_bank_data
* Libraries: Pandas, Numpy, Scikit-learn
* Objective: Classification with Supervised Machine Learning Models

`PERSYARATAN` Semua modul (termasuk versi yang sesuai) sudah di-install dengan benar.
<br>`CARA PENGERJAAN` Lengkapi baris kode yang ditandai dengan **#TODO**.
<br>`TARGET PORTFOLIO` Peserta mampu membandingkan akurasi klasifikasi dari berbagai model *supervised learning*.

### Import Library

In [None]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split as tts
from sklearn.model_selection import GridSearchCV

from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix


### Read Dataset

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/Rietaros/kampus_merdeka/main/SC_HW1_bank_data.csv')
df.columns
# df

Index(['RowNumber', 'CustomerId', 'Geography', 'Gender', 'Age', 'Tenure',
       'Balance', 'NumOfProducts', 'HasCrCard', 'IsActiveMember',
       'EstimatedSalary', 'Exited'],
      dtype='object')

In [None]:
# TODO: Hilangkan kolom yang tidak relevan untuk pemodelan
df = df[['Geography', 'Gender', 'Age', 'Tenure',
       'Balance', 'NumOfProducts', 'HasCrCard', 'IsActiveMember',
       'EstimatedSalary', 'Exited']].copy()

# df.head


### Preprocessing

In [None]:
# TODO: Lakukan One-Hot Encoder untuk data kategorikal, dengan fungsi pd.get_dummies
df = pd.get_dummies(df, columns=['Geography', 'Gender'], drop_first=True)


In [None]:
# TODO: Pisahkan fitur (X) dengan target (Y), dimana Y merujuk ke kolom "Exited"
X = df.drop('Exited', axis=1)
y = df['Exited']

In [None]:
scaler = MinMaxScaler()# TODO: Lakukan scaling atau normalisasi
X_transform = scaler.fit_transform(X)


In [None]:
# Bagian ini digunakan jika Anda melakukan scaling atau normalisasi.
# Jika tidak, code ini bisa dilewati dan diganti dengan code yang ada di dalam comment.

X_transform = pd.DataFrame(X_transform, columns = X.columns)
# X_transform = X.copy()

### Train-Test Split

In [None]:
X_train ,X_test, y_train, y_test = tts(X_transform, y, test_size = 0.25, random_state = 123)

### Model #1

In [None]:
# Logistic Regression adalah model linear yang digunakan untuk memprediksi probabilitas suatu variabel target yang biner (dua kelas), seperti "Exited" (keluar dari bank atau tidak). Logistic Regression menghitung hubungan linier antara fitur (X) dan log-odds dari kelas target.
# Penggunaan: Cocok untuk masalah klasifikasi biner, seperti yang kita lihat di dataset ini.
# Parameter yang diuji:
# -	tol: Toleransi untuk kriteria penghentian. Semakin kecil toleransinya, semakin presisi model dalam mencari solusi terbaik.
# -	C: Parameter regularisasi untuk menghindari overfitting. Nilai yang lebih besar mengurangi regularisasi.
# -	solver: Algoritma untuk memecahkan persamaan optimisasi.
# Output: Mencapai akurasi dengan hyperparameter terbaik berdasarkan GridSearchCV.

[ ANSWER HERE ]

In [None]:
# CONTOH pemanggilan library dan penggunaannya:

from sklearn.linear_model import LogisticRegression
model1 = LogisticRegression()
params = {"tol": [0.1,0.01,0.001], 'C':[0.5,1.0,1.5,2.0]}

# OPTIONAL: Lakukan hyperparameter tuning sesuai kebutuhan
grid = GridSearchCV(
    estimator= model1,
    param_grid= params,
    scoring = 'accuracy',
    n_jobs = 10, # core cpu yang digunakan
    cv = 10 # 3-fold cross validation (artinya kita melakukan iterasi model sebanyak 3 kali)
)

# grid.fit(X_train,y_train)
# grid.best_params_
grid.fit(X_train, y_train)
print("Best Params: ", grid.best_params_)


Best Params:  {'C': 0.5, 'tol': 0.001}


In [None]:
# TODO: Lakukan evaluasi untuk model #1
y_pred = grid.predict(X_test)

# Print evaluation metrics
print(classification_report(y_test, y_pred))
print("")
print(confusion_matrix(y_test, y_pred))
print("")
print("Accuracy Score: ", accuracy_score(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.82      0.97      0.89      1983
           1       0.66      0.20      0.31       517

    accuracy                           0.81      2500
   macro avg       0.74      0.59      0.60      2500
weighted avg       0.79      0.81      0.77      2500


[[1930   53]
 [ 413  104]]

Accuracy Score:  0.8136


### Model #2

In [None]:
# Random Forest adalah model ensemble berbasis pohon keputusan, yang membangun banyak pohon keputusan independen dan menggabungkan hasilnya. Setiap pohon keputusan dilatih dengan subset dari data dan fitur, dan hasil dari hutan diambil dari voting mayoritas.
# Penggunaan: Cocok untuk masalah klasifikasi dan regresi, terutama ketika ada banyak fitur dan interaksi yang tidak linier.
# Parameter yang diuji:
# -	n_estimators: Jumlah pohon dalam hutan.
# -	max_depth: Kedalaman maksimum setiap pohon, semakin dalam semakin kompleks modelnya.
# -	min_samples_split: Minimum sampel yang dibutuhkan untuk membagi node internal.
# -	min_samples_leaf: Jumlah minimum sampel yang dibutuhkan untuk sebuah node daun.

[ ANSWER HERE ]

In [None]:
from sklearn.ensemble import RandomForestClassifier

# TODO: Pilih salah satu model Machine Learning (ML) dari Scikit-learn
model2 = RandomForestClassifier(random_state=123)
params_rf = {
    'n_estimators': [50, 100, 200],   # Jumlah tree
    'max_depth': [10, 20, 30, None],  # Kedalaman maksimum
    'min_samples_split': [2, 5, 10],  # Minimum sampel untuk split
    'min_samples_leaf': [1, 2, 4]     # Minimum sampel
}
# OPTIONAL: Lakukan hyperparameter tuning sesuai kebutuhan
grid_rf = GridSearchCV(
    estimator=model2,
    param_grid=params_rf,
    scoring='accuracy',
    n_jobs = 10, # core cpu yang digunakan
    cv = 10 # 3-fold cross validation (artinya kita melakukan iterasi model sebanyak 3 kali)
)

grid_rf.fit(X_train, y_train)
# grid.best_params_
print("Best Params: ", grid_rf.best_params_)

Best Params:  {'max_depth': 10, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 100}


In [None]:
y_pred_rf = grid_rf.predict(X_test)# TODO: Lakukan evaluasi untuk model #2


# Print evaluation metrics untuk model #2
print("Classification Report (Random Forest):")
print(classification_report(y_test, y_pred_rf))
print("Confusion Matrix (Random Forest):")
print(confusion_matrix(y_test, y_pred_rf))
print("Accuracy Score (Random Forest): ", accuracy_score(y_test, y_pred_rf))

Classification Report (Random Forest):
              precision    recall  f1-score   support

           0       0.87      0.96      0.92      1983
           1       0.77      0.47      0.58       517

    accuracy                           0.86      2500
   macro avg       0.82      0.71      0.75      2500
weighted avg       0.85      0.86      0.85      2500

Confusion Matrix (Random Forest):
[[1911   72]
 [ 276  241]]
Accuracy Score (Random Forest):  0.8608


### Model #3

In [None]:
# Gradient Boosting adalah algoritma boosting berbasis pohon keputusan. Berbeda dengan Random Forest yang menggabungkan pohon independen, Gradient Boosting membangun pohon secara berurutan, dengan masing-masing pohon berusaha untuk mengoreksi kesalahan dari pohon sebelumnya. Ini membuatnya sangat kuat, tetapi juga lebih sensitif terhadap overfitting.
# Penggunaan: Gradient Boosting sangat efektif untuk data dengan pola yang kompleks dan membutuhkan presisi tinggi.
# Parameter yang diuji:
# -	n_estimators: Jumlah total pohon.
# -	learning_rate: Seberapa besar kontribusi setiap pohon dalam membangun model. Nilai kecil membuat model belajar lebih lambat, tapi lebih stabil.
# -	max_depth: Kedalaman maksimum pohon keputusan, yang mengontrol seberapa kompleks setiap pohon bisa.


[ ANSWER HERE ]

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
model3 = GradientBoostingClassifier(random_state=123)

# Hyperparameters untuk Gradient Boosting
params_gb = {
    'n_estimators': [100, 150, 200],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

# GridSearch untuk Gradient Boosting
grid = GridSearchCV(
    estimator=model3,
    param_grid=params_gb,
    scoring='accuracy',
    n_jobs=10,  # core CPU yang digunakan
    cv=10       # 10-fold cross validation
)

grid.fit(X_train, y_train)
print("Best Params (Gradient Boosting): ", grid.best_params_)

Best Params (Gradient Boosting):  {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 150}


In [None]:
# Evaluasi untuk Gradient Boosting
y_pred_gb = grid.predict(X_test)

# Print evaluation metrics untuk model #3
print("Classification Report (Gradient Boosting):")
print(classification_report(y_test, y_pred_gb))
print("Confusion Matrix (Gradient Boosting):")
print(confusion_matrix(y_test, y_pred_gb))
print("Accuracy Score (Gradient Boosting): ", accuracy_score(y_test, y_pred_gb))
print("\n\n")

Classification Report (Gradient Boosting):
              precision    recall  f1-score   support

           0       0.88      0.96      0.92      1983
           1       0.78      0.50      0.61       517

    accuracy                           0.87      2500
   macro avg       0.83      0.73      0.77      2500
weighted avg       0.86      0.87      0.86      2500

Confusion Matrix (Gradient Boosting):
[[1910   73]
 [ 258  259]]
Accuracy Score (Gradient Boosting):  0.8676





### Conclusion

In [None]:
# Model terbaik dalam kasus ini adalah Gradient Boosting Classifier, karena memiliki:
# Akurasi tertinggi (86.76%),
# Precision yang baik untuk kelas 1 (0.78),
# Recall yang lebih baik dibanding model lain (50%),
# F1-score yang tertinggi (0.61) untuk kelas 1.
# Model ini lebih seimbang dalam menangani kedua kelas (nasabah yang keluar dan tidak keluar) dibanding Logistic Regression dan Random Forest,
# sehingga lebih cocok untuk situasi di mana mendeteksi nasabah yang keluar merupakan prioritas.

[ ANSWER HERE ]

### Scoring
Total `#TODO` = 13
<br>Checklist:

- [ ] Hilangkan kolom yang tidak relevan untuk pemodelan
- [ ] Lakukan One-Hot Encoder untuk data kategorikal, dengan fungsi pd.get_dummies
- [ ] Pisahkan fitur (X) dengan target (Y), dimana Y merujuk ke kolom "Exited"
- [ ] Lakukan scaling atau normalisasi
- [ ] Jelaskan secara singkat model #1 yang Anda gunakan
- [ ] Pilih salah satu model Machine Learning (ML) dari Scikit-learn (model #1)
- [ ] Lakukan evaluasi untuk model #1
- [ ] Jelaskan secara singkat model #2 yang Anda gunakan
- [ ] Pilih salah satu model Machine Learning (ML) dari Scikit-learn (model #2)
- [ ] Lakukan evaluasi untuk model #2
- [ ] Jelaskan secara singkat model #3 yang Anda gunakan
- [ ] Pilih salah satu model Machine Learning (ML) dari Scikit-learn (model #3)
- [ ] Lakukan evaluasi untuk model #3

### Additional readings
- N/A

### Copyright © 2024 Startup Campus, Indonesia
* You may **NOT** use this file except there is written permission from PT. Kampus Merdeka Belajar (Startup Campus).
* Please address your questions to mentors.