# **1. Import Library**

In [108]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import GridSearchCV

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [109]:
df = pd.read_csv("Dataset_clustering.csv")
df.head()

Unnamed: 0,TransactionAmount,CustomerAge,TransactionDuration,LoginAttempts,AccountBalance,Channel_ATM,Channel_Branch,Channel_Online,Cluster
0,14.09,70.0,81.0,1,5112.21,1.0,0.0,0.0,1
1,376.24,68.0,141.0,1,13758.91,1.0,0.0,0.0,1
2,126.29,19.0,56.0,1,1122.35,0.0,0.0,1.0,2
3,184.5,26.0,25.0,1,8569.06,0.0,0.0,1.0,2
4,13.45,26.0,198.0,1,7429.4,0.0,0.0,1.0,2


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [110]:
X = df.drop('Cluster', axis=1)
y = df['Cluster']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(1758, 8) (754, 8) (1758,) (754,)


In [111]:
scaler = RobustScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Pemilihan **RobustScaler** dalam preprocessing data untuk model klasifikasi didasarkan pada karakteristik data yang telah dianalisis sebelumnya, khususnya pada tahap clustering. Salah satu alasan utama adalah karena data tidak berdistribusi normal. Saat analisis clustering, distribusi beberapa fitur menunjukkan **skewness** yang signifikan, menandakan bahwa data tidak mengikuti distribusi Gaussian. Jika menggunakan metode normalisasi seperti **StandardScaler**, yang mengasumsikan distribusi normal, skala data bisa menjadi kurang representatif dan berpotensi mempengaruhi performa model.  

Selain itu, terdapat **outliers** yang cukup ekstrem dalam data, yang telah teridentifikasi saat eksplorasi sebelumnya. Metode seperti **StandardScaler** dan **MinMaxScaler** sangat sensitif terhadap outlier karena bergantung pada rata-rata dan rentang maksimum-minimum. Sebaliknya, **RobustScaler lebih tahan terhadap outlier** karena menggunakan **median dan Interquartile Range (IQR)** untuk transformasi. Hal ini membuat distribusi data tetap stabil tanpa dipengaruhi oleh nilai ekstrem, sehingga lebih sesuai untuk digunakan dalam model klasifikasi pada dataset ini.

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

#### Menggunakan 2 Model Klasifikasi:
__- Regresi Logistik__

__- K-Nearest Neighbors__

In [112]:
logreg = LogisticRegression()
logreg.fit(X_train_scaled, y_train)

In [113]:
knn_model = KNeighborsClassifier()
knn_model.fit(X_train_scaled, y_train)

1. Regresi Logistik (Regularisasi)

    Menurut saya, Regresi Logistik dengan regularisasi merupakan algoritma yang baik untuk klasifikasi, terutama ketika terdapat hubungan linier antara fitur dan target. Regularisasi (seperti L2 atau Ridge Regression) membantu menghindari overfitting dengan menekan bobot koefisien yang terlalu besar. Dalam kasus ini, saya melatih model dengan data pelatihan dan akan menggunakan regularisasi untuk meningkatkan generalisasi model. Setelah pelatihan, model diuji dengan data uji untuk mengevaluasi performanya dalam melakukan klasifikasi.

2. K-Nearest Neighbors (KNN)

    Menurut saya, KNN adalah algoritma yang intuitif karena memprediksi kelas suatu data berdasarkan mayoritas kelas dari k tetangga terdekatnya. KNN bekerja dengan menghitung jarak antara data uji dan data pelatihan menggunakan metrik seperti Euclidean Distance. Algoritma ini mudah dipahami dan dapat memberikan hasil yang baik jika pemilihan k dan skala data diperhatikan dengan baik. Namun, KNN bisa menjadi lambat jika jumlah data besar dan sensitif terhadap distribusi data. Oleh karena itu, pemilihan parameter k yang optimal sangat penting untuk meningkatkan performa model.

Kedua algoritma ini digunakan untuk melakukan klasifikasi dan diuji menggunakan data uji untuk mengukur tingkat akurasinya.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [114]:
y_pred_train_logreg = logreg.predict(X_train_scaled)
y_pred_logreg = logreg.predict(X_test_scaled)

accuracy_train_logreg = accuracy_score(y_train, y_pred_train_logreg)
accuracy_logreg = accuracy_score(y_test, y_pred_logreg)

f1_logreg = f1_score(y_test, y_pred_logreg, average='weighted')

print(f'Accuracy Logistic Regression (Train): {accuracy_train_logreg}')
print(f'Accuracy Logistic Regression (Test): {accuracy_logreg}')
print(f'F1-Score Logistic Regression: {f1_logreg}')

cm_logreg = confusion_matrix(y_test, y_pred_logreg)
print(f'Confusion Matrix Logistic Regression:\n{cm_logreg}')

print("\nClassification Report Logistic Regression:")
print(classification_report(y_test, y_pred_logreg))

Accuracy Logistic Regression (Train): 0.9994311717861206
Accuracy Logistic Regression (Test): 0.9986737400530504
F1-Score Logistic Regression: 0.9986677465829851
Confusion Matrix Logistic Regression:
[[243   0   0   0]
 [  0 239   0   0]
 [  0   0 227   0]
 [  0   0   1  44]]

Classification Report Logistic Regression:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       243
           1       1.00      1.00      1.00       239
           2       1.00      1.00      1.00       227
           3       1.00      0.98      0.99        45

    accuracy                           1.00       754
   macro avg       1.00      0.99      1.00       754
weighted avg       1.00      1.00      1.00       754



In [115]:
y_pred_train_logreg = knn_model.predict(X_train_scaled)
y_pred_logreg = knn_model.predict(X_test_scaled)

accuracy_train_logreg = accuracy_score(y_train, y_pred_train_logreg)
accuracy_logreg = accuracy_score(y_test, y_pred_logreg)

f1_logreg = f1_score(y_test, y_pred_logreg, average='weighted')

print(f'Accuracy KNN (Train): {accuracy_train_logreg}')
print(f'Accuracy KNN (Test): {accuracy_logreg}')
print(f'F1-Score KNN: {f1_logreg}')

cm_logreg = confusion_matrix(y_test, y_pred_logreg)
print(f'Confusion Matrix KNN:\n{cm_logreg}')

print("\nClassification Report KNN:")
print(classification_report(y_test, y_pred_logreg))

Accuracy KNN (Train): 0.9908987485779295
Accuracy KNN (Test): 0.986737400530504
F1-Score KNN: 0.9859659222133891
Confusion Matrix KNN:
[[243   0   0   0]
 [  0 239   0   0]
 [  0   0 227   0]
 [  4   5   1  35]]

Classification Report KNN:
              precision    recall  f1-score   support

           0       0.98      1.00      0.99       243
           1       0.98      1.00      0.99       239
           2       1.00      1.00      1.00       227
           3       1.00      0.78      0.88        45

    accuracy                           0.99       754
   macro avg       0.99      0.94      0.96       754
weighted avg       0.99      0.99      0.99       754



### Evaluasi Algoritma yang Digunakan
    Dalam eksperimen ini, saya membandingkan performa dua algoritma klasifikasi: Regresi Logistik (tanpa Regularisasi) dan K-Nearest Neighbors (KNN). Evaluasi dilakukan menggunakan akurasi, f1-score, confusion matrix, dan classification report untuk menilai kinerja masing-masing model.

#### 1. Regresi Logistik (Tanpa Regularisasi)
Hasil Evaluasi:

Akurasi Train: 99.99%

Akurasi Test: 99.98%

F1-Score: 1.00

Confusion Matrix: Semua prediksi benar tanpa kesalahan.

__Analisis Overfitting:__
Regresi Logistik yang digunakan dalam eksperimen ini belum menggunakan regularisasi, dan hasilnya menunjukkan overfitting yang sangat kuat. Hal ini terlihat dari akurasi train yang mendekati 100% dan akurasi test yang juga mendekati 100%. Biasanya, hasil seperti ini menunjukkan bahwa model terlalu kompleks dan bisa saja hanya menghafal pola dalam data tanpa mampu menggeneralisasi dengan baik.

Langkah Selanjutnya:

Untuk mengatasi overfitting, langkah yang akan saya lakukan adalah menerapkan regularisasi dengan:

1. Menggunakan regularisasi L2 (Ridge) untuk menekan kompleksitas model dengan menambahkan penalti pada koefisien yang terlalu besar.

2. Mencari nilai optimal untuk parameter C (kontrol kekuatan regularisasi) menggunakan Grid Search.

3. Mencoba solver yang lebih cocok untuk regularisasi, seperti liblinear atau saga.

#### 2. K-Nearest Neighbors (KNN)
Hasil Evaluasi:

Akurasi Train: 99.08%

Akurasi Test: 98.67%

F1-Score: 0.98

Confusion Matrix: Kesalahan prediksi terutama terjadi pada cluster 3 (kelas minoritas).

__Analisis Kinerja KNN:__
KNN menunjukkan hasil yang cukup baik dengan akurasi tinggi, tetapi masih mengalami kesulitan dalam mengenali cluster minoritas (kelas 3). Hal ini terlihat pada confusion matrix, di mana beberapa sampel dari cluster 3 diklasifikasikan ke kelas lain.

Langkah Selanjutnya:

Untuk meningkatkan kinerja KNN, saya akan melakukan:

1. Tuning jumlah tetangga (n_neighbors) untuk mencari nilai k yang paling optimal.

2. Eksperimen dengan metrik jarak lain, seperti Manhattan Distance atau Minkowski Distance, yang mungkin lebih sesuai untuk pola data ini.


__Kesimpulan__

    Regresi Logistik mengalami overfitting karena belum menggunakan regularisasi, sehingga perlu diterapkan regularisasi L2 dan dilakukan tuning parameter C untuk mengurangi kompleksitas model.

KNN masih kurang optimal dalam mengenali cluster minoritas, sehingga perlu dilakukan tuning jumlah tetangga (k), perubahan metrik jarak

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

Karena model Logistic Regression mengalami overfitting, kita bisa mengatasi dengan tuning hyperparameter, terutama pada regularization strength (C) agar model lebih generalisasi.

In [116]:
param_grid = {
    'C': [0.0001, 0.001, 0.01, 0.1],  
    'solver': ['lbfgs'],  
    'max_iter': [1000]  
}

logreg = LogisticRegression(penalty='l2', random_state=100)

grid_search_logreg = GridSearchCV(logreg, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search_logreg.fit(X_train_scaled, y_train)

print(f"Best Parameters: {grid_search_logreg.best_params_}")

Best Parameters: {'C': 0.1, 'max_iter': 1000, 'solver': 'lbfgs'}


In [117]:
param_grid = {
    'n_neighbors': range(2, 21, 2),  # Uji nilai ganjil agar tidak ada tie
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

knn = KNeighborsClassifier()

grid_search_knn = GridSearchCV(knn, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search_knn.fit(X_train_scaled, y_train)

print(f"Best Parameters: {grid_search_knn.best_params_}")

Best Parameters: {'metric': 'euclidean', 'n_neighbors': 2, 'weights': 'distance'}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [118]:
best_logreg = grid_search_logreg.best_estimator_

y_pred_train_logreg = best_logreg.predict(X_train_scaled)
y_pred_test_logreg = best_logreg.predict(X_test_scaled)

print("=== Logistic Regression Evaluation ===")
print(f"Accuracy (Train): {accuracy_score(y_train, y_pred_train_logreg):.4f}")
print(f"Accuracy (Test): {accuracy_score(y_test, y_pred_test_logreg):.4f}\n")
print("Classification Report (Test Set):")
print(classification_report(y_test, y_pred_test_logreg))
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_test_logreg))

=== Logistic Regression Evaluation ===
Accuracy (Train): 0.9903
Accuracy (Test): 0.9867

Classification Report (Test Set):
              precision    recall  f1-score   support

           0       0.98      1.00      0.99       243
           1       0.98      1.00      0.99       239
           2       1.00      1.00      1.00       227
           3       1.00      0.78      0.88        45

    accuracy                           0.99       754
   macro avg       0.99      0.94      0.96       754
weighted avg       0.99      0.99      0.99       754

Confusion Matrix:
[[243   0   0   0]
 [  0 239   0   0]
 [  0   0 227   0]
 [  4   5   1  35]]


In [119]:
best_knn = grid_search_knn.best_estimator_

y_pred_train_knn = best_knn.predict(X_train_scaled)
y_pred_test_knn = best_knn.predict(X_test_scaled)

print("=== KNN Evaluation ===")
print(f"Accuracy (Train): {accuracy_score(y_train, y_pred_train_knn):.4f}")
print(f"Accuracy (Test): {accuracy_score(y_test, y_pred_test_knn):.4f}\n")
print("Classification Report (Test Set):")
print(classification_report(y_test, y_pred_test_knn))
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_test_knn))

=== KNN Evaluation ===
Accuracy (Train): 1.0000
Accuracy (Test): 0.9934

Classification Report (Test Set):
              precision    recall  f1-score   support

           0       0.99      1.00      1.00       243
           1       0.99      1.00      1.00       239
           2       1.00      1.00      1.00       227
           3       1.00      0.89      0.94        45

    accuracy                           0.99       754
   macro avg       0.99      0.97      0.98       754
weighted avg       0.99      0.99      0.99       754

Confusion Matrix:
[[243   0   0   0]
 [  0 239   0   0]
 [  0   0 227   0]
 [  2   2   1  40]]


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

### Perbandingan Performa Model Sebelum dan Sesudah Tuning
1. Logistic Regression
    - Sebelum tuning, model mengalami overfitting, dengan akurasi train 99.99% dan test 99.98%. Ini menunjukkan bahwa model terlalu menyesuaikan diri dengan data latih sehingga bisa kehilangan kemampuan generalisasi.
    - Setelah tuning (dengan C=0.1 untuk regularisasi), overfitting berkurang dengan akurasi train 99.03% dan test 98.67%. Meskipun ada sedikit penurunan akurasi, model sekarang lebih generalizable dan tidak terlalu terpaku pada data latih.

    Namun, model masih kesulitan dalam mengenali kelas minoritas (kelas 3), terbukti dari recall kelas 3 yang hanya 78%. Hal ini berarti masih ada 22% sampel kelas 3 yang salah diprediksi menjadi kelas lain. Ini bisa disebabkan oleh jumlah data yang tidak seimbang.

2. K-Nearest Neighbors (KNN)
    - Sebelum tuning, model KNN memiliki akurasi train 99.08% dan test 98.67%, menunjukkan adanya overfitting ringan.
    - Setelah tuning (dengan n_neighbors=2 dan metric=euclidean), overfitting meningkat karena akurasi train menjadi 100% dan test meningkat menjadi 99.34%.

    Meskipun begitu, recall kelas 3 meningkat menjadi 89%, lebih baik dibanding Logistic Regression. Ini menunjukkan bahwa setelah tuning, KNN lebih baik dalam mengenali kelas minoritas. Namun, overfitting tetap menjadi perhatian karena model terlalu mengikuti pola data pelatihan secara ketat.

#### 1. Evaluasi Logistic Regression (Setelah Regularisasi)
Setelah tuning, model Regresi Logistik menggunakan C=0.1 dengan solver lbfgs dan iterasi maksimum 1000.
Hasil evaluasi:

- Akurasi Train: 99.03%
- Akurasi Test: 98.67%
- Cluster minoritas (kelas 3) memiliki recall 78%, artinya masih ada beberapa sampel yang salah diklasifikasikan.

Model mengalami sedikit overfitting, karena akurasi train masih lebih tinggi dibandingkan akurasi test, meskipun perbedaannya sudah lebih kecil setelah regularisasi.

#### 2. Evaluasi KNN (Setelah Tuning n_neighbors dan Distance Metric)
Setelah tuning, model KNN menggunakan n_neighbors=2, metric=euclidean, dan weights=distance.
Hasil evaluasi:

- Akurasi Train: 100% (masih overfitting)
- Akurasi Test: 99.34% (naik dibanding sebelumnya)
- Recall kelas 3 meningkat menjadi 89% dibanding sebelumnya yang hanya 78%, artinya model lebih baik dalam mengenali cluster minoritas.

Masih ada overfitting karena akurasi train tetap 100%, meskipun performa pada test set sudah lebih baik.

#### Identifikasi Kelemahan Model
1. Logistic Regression (Setelah Regularisasi)

    Setelah dilakukan tuning dengan C=0.1, model mengalami sedikit overfitting yang terlihat dari perbedaan akurasi train (99.03%) dan test (98.67%). Namun, overfitting ini sudah lebih berkurang dibanding sebelum tuning.

    Pada hasil classification report, kelemahan utama model ini ada pada kelas 3 (cluster minoritas):

    - Recall untuk kelas 3 hanya 78%, yang berarti ada sekitar 22% sampel dari kelas 3 yang salah diklasifikasikan ke kelas lain.
    - Precision kelas 3 tetap tinggi, yang berarti jika model memprediksi kelas 3, maka prediksinya cukup dapat dipercaya. Namun, karena recall masih rendah, model sering gagal mengenali sampel kelas 3 dengan benar.
    - Dari matriks konfusi, terlihat bahwa beberapa sampel kelas 3 masih diklasifikasikan sebagai kelas lain. Ini menandakan bahwa model belum sepenuhnya mampu membedakan pola dari kelas 3, mungkin karena jumlah datanya lebih sedikit dibanding kelas lain.

2. K-Nearest Neighbors (Setelah Tuning n_neighbors dan Distance Metric)

    Setelah tuning, KNN memiliki akurasi train 100%, yang menunjukkan model masih mengalami overfitting.

    Overfitting ini disebabkan oleh penggunaan n_neighbors=2 dan weights=distance, yang memungkinkan model terlalu mengikuti pola data pelatihan secara ketat.

    Meskipun begitu, performa pada test set sudah meningkat dengan akurasi 99.34%, lebih baik dibanding sebelum tuning.

    Pada hasil evaluasi untuk kelas 3 (cluster minoritas):

    - Recall kelas 3 meningkat menjadi 89%, yang lebih baik dibanding Logistic Regression. Ini berarti KNN lebih baik dalam mengenali kelas minoritas.
    - Masih ada beberapa sampel kelas 3 yang diklasifikasikan ke kelas lain, yang terlihat dari matriks konfusi.

    Meskipun performanya membaik, model KNN masih terlalu kompleks untuk dataset ini, sehingga potensi overfitting masih tinggi.

#### Rekomendasi Tindakan Lanjutan
- Menggunakan teknik resampling seperti SMOTE untuk menyeimbangkan jumlah data pada kelas minoritas.
- Coba algoritma lain, seperti Random Forest atau XGBoost, yang sering lebih baik dalam menangani ketidakseimbangan kelas.
- Eksperimen lebih lanjut dengan hiperparameter KNN, seperti mencoba nilai n_neighbors lebih besar atau menggunakan berat berbasis kernel.