# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [21]:
#Type your code here
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import RobustScaler

from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, f1_score, recall_score, precision_score
from imblearn.over_sampling import SMOTE

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [4]:
#Type your code here
classification_df = pd.read_csv('Dataset_clustering.csv')

classification_df.head(5)

Unnamed: 0,CUST_ID,BALANCE,BALANCE_FREQUENCY,PURCHASES,ONEOFF_PURCHASES,INSTALLMENTS_PURCHASES,CASH_ADVANCE,PURCHASES_FREQUENCY,ONEOFF_PURCHASES_FREQUENCY,PURCHASES_INSTALLMENTS_FREQUENCY,...,PURCHASES_TRX,PAYMENTS,MINIMUM_PAYMENTS,TENURE_BIN_Menengah,TENURE_BIN_Lama,CREDIT_LIMIT_BIN_Medium,CREDIT_LIMIT_BIN_High,PRC_FULL_PAYMENT_BIN_Kadang-kadang,PRC_FULL_PAYMENT_BIN_Selalu,CLUSTER
0,C10001,40.900749,0.818182,95.4,0.0,95.4,0.0,0.166667,0.0,0.083333,...,2.0,201.802084,139.509787,0,1,0,0,0,0,1
1,C10002,3202.467416,0.909091,0.0,0.0,0.0,6442.945483,0.0,0.0,0.0,...,0.0,4103.032597,1072.340217,0,1,0,1,1,0,1
2,C10003,2495.148862,1.0,773.17,773.17,0.0,0.0,1.0,1.0,0.0,...,12.0,622.066742,627.284787,0,1,0,1,0,0,1
3,C10004,1666.670542,0.636364,1499.0,1499.0,0.0,205.788017,0.083333,0.083333,0.0,...,1.0,0.0,312.343947,0,1,0,1,0,0,1
4,C10005,817.714335,1.0,16.0,16.0,0.0,0.0,0.083333,0.083333,0.0,...,1.0,678.334763,244.791237,0,1,0,0,0,0,1


# **3. Data Splitting**

In [10]:
print(classification_df.columns.tolist())


['CUST_ID', 'BALANCE', 'BALANCE_FREQUENCY', 'PURCHASES', 'ONEOFF_PURCHASES', 'INSTALLMENTS_PURCHASES', 'CASH_ADVANCE', 'PURCHASES_FREQUENCY', 'ONEOFF_PURCHASES_FREQUENCY', 'PURCHASES_INSTALLMENTS_FREQUENCY', 'CASH_ADVANCE_FREQUENCY', 'CASH_ADVANCE_TRX', 'PURCHASES_TRX', 'PAYMENTS', 'MINIMUM_PAYMENTS', 'TENURE_BIN_Menengah', 'TENURE_BIN_Lama', 'CREDIT_LIMIT_BIN_Medium', 'CREDIT_LIMIT_BIN_High', 'PRC_FULL_PAYMENT_BIN_Kadang-kadang', 'PRC_FULL_PAYMENT_BIN_Selalu', 'CLUSTER']


Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [None]:
#Type your code here
X = classification_df.drop(columns=['CLUSTER','CUST_ID'])
y = classification_df['CLUSTER']

# Split dataset (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [14]:
number_cols = classification_df.select_dtypes(include=['number']).columns.tolist()
excluded_cols = ['CLUSTER','TENURE_BIN_Lama','TENURE_BIN_Baru', 'TENURE_BIN_Menengah', 'CREDIT_LIMIT_BIN_Low', 
                'CREDIT_LIMIT_BIN_Medium','CREDIT_LIMIT_BIN_High', 'PRC_FULL_PAYMENT_BIN_Tidak Pernah', 
                'PRC_FULL_PAYMENT_BIN_Kadang-kadang','PRC_FULL_PAYMENT_BIN_Selalu']  # Sesuaikan dengan hasil encoding

number_cols = [col for col in number_cols if col not in excluded_cols]

# Inisialisasi RobustScaler
scaler = RobustScaler()

# Scaling hanya fitur numerik
X_train_scaled = X_train.copy()
X_test_scaled = X_test.copy()

X_train_scaled[number_cols] = scaler.fit_transform(X_train[number_cols])
X_test_scaled[number_cols] = scaler.transform(X_test[number_cols])  

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [17]:
#Type your code here
#inisisasi model
models = {
    "SVM": SVC(kernel='rbf', C=1, random_state=42),
    "KNN": KNeighborsClassifier(n_neighbors=5),
}

#inisiasi K-Fold = 5-fold
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

Algoritma yang saya pakai adalah 
SVM, KNN, Decision Tree
1. SVM
Algoritma bekerja dengan menemukan hyperplane terbaik yang dapat memisahkan kelas-kelas dalam data. Dalam percobaan ini:
  - Saya menggunakan kernel RBF yang mampu menangani data yang tidak terpisah secara linear
2. K-NN
algoritma ini menghitung jarak antara data yang akan diklasifikasikan dengan data yang sudah ada

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [20]:
#Type your code here
# Training dengan Cross-Validation
for name, model in models.items():
    scores = cross_val_score(model, X_train_scaled, y_train, cv=cv, scoring='accuracy')
    print(f"{name} - CV Accuracy: {np.mean(scores):.4f} ± {np.std(scores):.4f}")

    # Training model pada full training set
    model.fit(X_train_scaled, y_train)

    # Prediksi pada test set
    y_pred = model.predict(X_test_scaled)

    # Evaluasi model
    acc = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='macro')
    recall = recall_score(y_test, y_pred, average='macro')
    f1 = f1_score(y_test, y_pred, average='macro')

    print(f"\nEvaluasi pada Test Set - {name}:")
    print(f"Accuracy: {acc:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"Recall: {recall:.4f}")
    print(f"F1 Score: {f1:.4f}")
    print("\nConfusion Matrix:")
    print(confusion_matrix(y_test, y_pred))
    print("\nClassification Report:")
    print(classification_report(y_test, y_pred))
    print("="*50)

SVM - CV Accuracy: 0.9973 ± 0.0013

Evaluasi pada Test Set - SVM:
Accuracy: 0.9961
Precision: 0.9746
Recall: 0.9674
F1 Score: 0.9710

Confusion Matrix:
[[  59    4]
 [   3 1724]]

Classification Report:
              precision    recall  f1-score   support

           0       0.95      0.94      0.94        63
           1       1.00      1.00      1.00      1727

    accuracy                           1.00      1790
   macro avg       0.97      0.97      0.97      1790
weighted avg       1.00      1.00      1.00      1790

KNN - CV Accuracy: 0.9940 ± 0.0014

Evaluasi pada Test Set - KNN:
Accuracy: 0.9899
Precision: 0.9663
Recall: 0.8801
F1 Score: 0.9185

Confusion Matrix:
[[  48   15]
 [   3 1724]]

Classification Report:
              precision    recall  f1-score   support

           0       0.94      0.76      0.84        63
           1       0.99      1.00      0.99      1727

    accuracy                           0.99      1790
   macro avg       0.97      0.88      0.92      

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.
Hasil Evaluasinya
SVM:
Evaluasi pada Test Set - SVM:
Accuracy: 0.9961
Precision: 0.9746
Recall: 0.9674
F1 Score: 0.9710

KNN:
Evaluasi pada Test Set - KNN:
Accuracy: 0.9899
Precision: 0.9663
Recall: 0.8801
F1 Score: 0.9185

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

kedua hasil nya terlalu baik dan overfitting, jadi disini saya akan menggunakan SMOTE  untuk coba mengurangi hasilnya serta regularisasi  

In [22]:
#Type your code here
# SMOTE untuk balancing data
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_scaled, y_train)

models = {
    "SVM": SVC(kernel='rbf', C=0.1, class_weight="balanced", random_state=42),
    "KNN": KNeighborsClassifier(n_neighbors=10),
}
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [23]:
#Type your code here
for name, model in models.items():
    scores = cross_val_score(model, X_train_resampled, y_train_resampled, cv=cv, scoring='accuracy')
    print(f"{name} - CV Accuracy: {np.mean(scores):.4f} ± {np.std(scores):.4f}")

    # Training model pada full training set
    model.fit(X_train_resampled, y_train_resampled)

    # Prediksi pada test set
    y_pred = model.predict(X_test_scaled)

    # Evaluasi model
    acc = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='macro')
    recall = recall_score(y_test, y_pred, average='macro')
    f1 = f1_score(y_test, y_pred, average='macro')

    print(f"\nEvaluasi pada Test Set - {name}:")
    print(f"Accuracy: {acc:.4f}")
    print(f"Precision: {precision:.4f}")
    print(f"Recall: {recall:.4f}")
    print(f"F1 Score: {f1:.4f}")
    print("\nConfusion Matrix:")
    print(confusion_matrix(y_test, y_pred))
    print("\nClassification Report:")
    print(classification_report(y_test, y_pred))
    print("="*50)

SVM - CV Accuracy: 0.9908 ± 0.0013

Evaluasi pada Test Set - SVM:
Accuracy: 0.9849
Precision: 0.8500
Recall: 0.9922
F1 Score: 0.9078

Confusion Matrix:
[[  63    0]
 [  27 1700]]

Classification Report:
              precision    recall  f1-score   support

           0       0.70      1.00      0.82        63
           1       1.00      0.98      0.99      1727

    accuracy                           0.98      1790
   macro avg       0.85      0.99      0.91      1790
weighted avg       0.99      0.98      0.99      1790

KNN - CV Accuracy: 0.9923 ± 0.0014

Evaluasi pada Test Set - KNN:
Accuracy: 0.9860
Precision: 0.8602
Recall: 0.9851
F1 Score: 0.9125

Confusion Matrix:
[[  62    1]
 [  24 1703]]

Classification Report:
              precision    recall  f1-score   support

           0       0.72      0.98      0.83        63
           1       1.00      0.99      0.99      1727

    accuracy                           0.99      1790
   macro avg       0.86      0.99      0.91      

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

/Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

Jawab:
1. Setelah melakukan tuning, model mengalami sedikit peningkatan akurasi dan metrik lainnya, tetapi ada beberapa trade-off:
- SVM: Akurasi tetap tinggi, tetapi precision untuk kelas 0 sedikit menurun.
- KNN: Mengalami peningkatan recall dan precision dibanding sebelumnya.
2. Identifikasi kelemahan model
- model memilii recall tinggi tetapi precision untuk kelas 0 masih dapat ditingkatkna
- ada kemungkinan model condong untuk mengklasifikasi data sebagai kelas mayoritas
- potensi overfitting masih besar
3. Rekomendasi
- Coba untuk menggunakan hyperparameter tuning, seperti Gridsearch. disini saya tidak bisa menggunakan karena komputasi yang memakan waktu besar