# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score,f1_score

import warnings
warnings.filterwarnings("ignore")

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [None]:
#Data Loading
data = pd.read_csv('dataset_clustering.csv')
data

Mounted at /content/drive


Unnamed: 0,TransactionAmount,CustomerAge,TransactionDuration,LoginAttempts,AccountBalance,TransactionType,Location,Channel,CustomerOccupation,Cluster
0,14.09,70.0,81.0,1.0,5112.21,Debit,San Diego,ATM,Doctor,1
1,376.24,68.0,141.0,1.0,13758.91,Debit,Houston,ATM,Doctor,1
2,126.29,19.0,56.0,1.0,1122.35,Debit,Mesa,Online,Student,2
3,184.50,26.0,25.0,1.0,8569.06,Debit,Raleigh,Online,Student,2
4,13.45,26.0,198.0,1.0,7429.40,Credit,Atlanta,Online,Student,2
...,...,...,...,...,...,...,...,...,...,...
2277,856.21,33.0,109.0,1.0,12690.79,Credit,Colorado Springs,Branch,Doctor,1
2278,251.54,48.0,177.0,1.0,254.75,Debit,Tucson,Branch,Doctor,1
2279,28.63,56.0,146.0,1.0,3382.91,Debit,San Diego,Branch,Retired,0
2280,185.97,23.0,19.0,1.0,1776.91,Debit,Denver,Online,Student,2


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2282 entries, 0 to 2281
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   TransactionAmount    2282 non-null   float64
 1   CustomerAge          2282 non-null   float64
 2   TransactionDuration  2282 non-null   float64
 3   LoginAttempts        2282 non-null   float64
 4   AccountBalance       2282 non-null   float64
 5   TransactionType      2282 non-null   object 
 6   Location             2282 non-null   object 
 7   Channel              2282 non-null   object 
 8   CustomerOccupation   2282 non-null   object 
 9   Cluster              2282 non-null   int64  
dtypes: float64(5), int64(1), object(4)
memory usage: 178.4+ KB


In [None]:
# Memisahkan data kategorikal dan numerikal
categorical_col = data.select_dtypes(include='object')

label_encoder = LabelEncoder()

# Encode kolom kategorikal
for column in categorical_col:
    data[column] = label_encoder.fit_transform(data[column])

# Tampilkan DataFrame untuk memastikan encoding telah diterapkan
data.head()

Unnamed: 0,TransactionAmount,CustomerAge,TransactionDuration,LoginAttempts,AccountBalance,TransactionType,Location,Channel,CustomerOccupation,Cluster
0,14.09,70.0,81.0,1.0,5112.21,1,36,0,0,1
1,376.24,68.0,141.0,1.0,13758.91,1,15,0,0,1
2,126.29,19.0,56.0,1.0,1122.35,1,23,2,3,2
3,184.5,26.0,25.0,1.0,8569.06,1,33,2,3,2
4,13.45,26.0,198.0,1.0,7429.4,0,1,2,3,2


In [None]:
# Buat instance MinMaxScaler
scaler = StandardScaler()

# Pisahkan fitur (X) dan target (y)
X = data.drop(columns=['Cluster'])
y = data['Cluster']

# Normalisasi semua kolom numerik
numerical_col = data.select_dtypes(include=['int64', 'float64']).columns
data[numerical_col] = scaler.fit_transform(data[numerical_col])

# Split data menjadi set pelatihan dan set uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tampilkan bentuk set pelatihan dan set uji untuk memastikan split
print(f"Training set shape: X_train={X_train.shape}, y_train={y_train.shape}")
print(f"Test set shape: X_test={X_test.shape}, y_test={y_test.shape}")

Training set shape: X_train=(1825, 9), y_train=(1825,)
Test set shape: X_test=(457, 9), y_test=(457,)


In [None]:
X

Unnamed: 0,TransactionAmount,CustomerAge,TransactionDuration,LoginAttempts,AccountBalance,TransactionType,Location,Channel,CustomerOccupation
0,14.09,70.0,81.0,1.0,5112.21,1,36,0,0
1,376.24,68.0,141.0,1.0,13758.91,1,15,0,0
2,126.29,19.0,56.0,1.0,1122.35,1,23,2,3
3,184.50,26.0,25.0,1.0,8569.06,1,33,2,3
4,13.45,26.0,198.0,1.0,7429.40,0,1,2,3
...,...,...,...,...,...,...,...,...,...
2277,856.21,33.0,109.0,1.0,12690.79,0,7,1,0
2278,251.54,48.0,177.0,1.0,254.75,1,40,1,0
2279,28.63,56.0,146.0,1.0,3382.91,1,36,1,2
2280,185.97,23.0,19.0,1.0,1776.91,1,10,2,3


In [None]:
y

Unnamed: 0,Cluster
0,1
1,1
2,2
3,2
4,2
...,...
2277,1
2278,1
2279,0
2280,2


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [None]:
# Definisikan setiap klasifikasi secara terpisah
knn = KNeighborsClassifier().fit(X_train, y_train)
dt = DecisionTreeClassifier().fit(X_train, y_train)
rf = RandomForestClassifier().fit(X_train, y_train)
svm = SVC().fit(X_train, y_train)
nb = GaussianNB().fit(X_train, y_train)

print("Model training selesai.")

Model training selesai.


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [None]:
# Fungsi untuk mengevaluasi model dan mengembalikan hasil dalam bentuk dictionary
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)

    results = {
        'Confusion Matrix': cm,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': precision_score(y_test, y_pred, average='weighted'),
        'Recall': recall_score(y_test, y_pred, average='weighted'),
        'F1-Score': f1_score(y_test, y_pred, average='weighted')
    }
    return results

# Mengevaluasi setiap model
results = {
    'K-Nearest Neighbors (KNN)': evaluate_model(knn, X_test, y_test),
    'Decision Tree (DT)': evaluate_model(dt, X_test, y_test),
    'Random Forest (RF)': evaluate_model(rf, X_test, y_test),
    'Support Vector Machine (SVM)': evaluate_model(svm, X_test, y_test),
    'Naive Bayes (NB)': evaluate_model(nb, X_test, y_test)
}

# Membuat DataFrame ringkasan hasil
summary_df = pd.DataFrame([
    {
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    }
    for model_name, metrics in results.items()
])

# Menampilkan DataFrame
print(summary_df)

                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.656455   0.658477  0.656455  0.656999
1            Decision Tree (DT)  1.000000   1.000000  1.000000  1.000000
2            Random Forest (RF)  1.000000   1.000000  1.000000  1.000000
3  Support Vector Machine (SVM)  0.652079   0.664358  0.652079  0.648081
4              Naive Bayes (NB)  1.000000   1.000000  1.000000  1.000000


Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

#### **1. Identifikasi Kelemahan Model**  
- **K-Nearest Neighbors (KNN) & SVM**  
  - **Accuracy rendah (~65%)** menunjukkan model kurang mampu membedakan kelas dengan baik.
  - **Precision dan Recall tidak jauh berbeda** → Tidak ada bias tertentu, tetapi performa masih kurang optimal.  
  - **Kemungkinan underfitting**, terutama pada SVM, yang memiliki performa serupa dengan KNN.  

- **Decision Tree (DT), Random Forest (RF), dan Naive Bayes (NB)**  
  - **Akurasi 100%** pada **DT, RF, dan NB** → **Indikasi kuat terjadi overfitting**  
  - Model mungkin terlalu menyesuaikan diri dengan data pelatihan dan bisa berkinerja buruk pada data baru (uji).  

#### **2. Apakah Model Mengalami Overfitting atau Underfitting?**
- **Overfitting**:  
  - **Decision Tree, Random Forest, dan Naive Bayes** memiliki **akurasi 100%** yang tidak realistis untuk masalah klasifikasi dunia nyata.  
  - Model ini mungkin terlalu spesifik terhadap data pelatihan dan bisa gagal dalam generalisasi ke data baru.  

- **Underfitting**:  
  - **KNN dan SVM memiliki akurasi rendah (~65%)**, yang menunjukkan model tidak cukup menangkap pola dari data.  
  - Bisa disebabkan oleh fitur yang kurang informatif atau parameter model yang tidak optimal.  

#### **3. Rekomendasi Tindakan Lanjutan**
- **Mengatasi Overfitting pada DT, RF, dan NB:**  
   - Gunakan **pruning** pada **Decision Tree** untuk mengurangi kompleksitas.  
   - Kurangi jumlah **estimators** pada **Random Forest** untuk mengurangi kompleksitas model.  
   - **Coba model regulasi seperti Logistic Regression atau SVM dengan kernel yang lebih sesuai**.  

- **Mengatasi Underfitting pada KNN dan SVM:**  
   - **Tuning parameter model** → Coba ubah jumlah `n_neighbors` di KNN atau kernel pada SVM (`rbf` atau `poly`).  
   - Tambahkan fitur baru atau **gunakan teknik feature selection yang lebih baik**.  
   - Coba metode **feature scaling** (`StandardScaler` atau `MinMaxScaler`) untuk meningkatkan performa SVM dan KNN.  

- **Pengumpulan Data Tambahan:**  
   - Jika dataset kecil atau kurang representatif, pertimbangkan untuk **menambah data** agar model lebih robust.  

- **Coba Model Lain:**  
   - Coba **Gradient Boosting (XGBoost, LightGBM)** sebagai alternatif **Random Forest** untuk hasil yang lebih baik tanpa overfitting.  

### **Kesimpulan:**
- **DT, RF, dan NB kemungkinan overfitting → Gunakan pruning, regularisasi, atau coba model lain.**  
- **KNN dan SVM mengalami underfitting → Coba tuning hyperparameter atau preprocessing data lebih baik.**  
- **Tambahkan data atau ubah teknik feature selection jika hasil masih kurang memuaskan.**