# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sb
import time
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.model_selection import GridSearchCV


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
# Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')

file_path = "/content/drive/MyDrive/Colab Notebooks/Dataset/bank_transactions_clustered.csv"

df = pd.read_csv(file_path)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2512 entries, 0 to 2511
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   TransactionID            2512 non-null   object 
 1   AccountID                2512 non-null   object 
 2   TransactionAmount        2512 non-null   float64
 3   TransactionDate          2512 non-null   object 
 4   TransactionType          2512 non-null   object 
 5   Location                 2512 non-null   object 
 6   DeviceID                 2512 non-null   object 
 7   IP Address               2512 non-null   object 
 8   MerchantID               2512 non-null   object 
 9   Channel                  2512 non-null   object 
 10  CustomerAge              2512 non-null   int64  
 11  CustomerOccupation       2512 non-null   object 
 12  TransactionDuration      2512 non-null   int64  
 13  LoginAttempts            2512 non-null   int64  
 14  AccountBalance          

In [4]:
df.tail()

Unnamed: 0,TransactionID,AccountID,TransactionAmount,TransactionDate,TransactionType,Location,DeviceID,IP Address,MerchantID,Channel,CustomerAge,CustomerOccupation,TransactionDuration,LoginAttempts,AccountBalance,PreviousTransactionDate,Cluster
2507,TX002508,AC00297,856.21,2023-04-26 17:09:36,Credit,Colorado Springs,D000625,21.157.41.17,M072,Branch,33,Doctor,109,1,12690.79,2024-11-04 08:11:29,3
2508,TX002509,AC00322,251.54,2023-03-22 17:36:48,Debit,Tucson,D000410,49.174.157.140,M029,Branch,48,Doctor,177,1,254.75,2024-11-04 08:11:42,3
2509,TX002510,AC00095,28.63,2023-08-21 17:08:50,Debit,San Diego,D000095,58.1.27.124,M087,Branch,56,Retired,146,1,3382.91,2024-11-04 08:08:39,0
2510,TX002511,AC00118,185.97,2023-02-24 16:24:46,Debit,Denver,D000634,21.190.11.223,M041,Online,23,Student,19,1,1776.91,2024-11-04 08:12:22,1
2511,TX002512,AC00009,243.08,2023-02-14 16:21:23,Credit,Jacksonville,D000215,59.127.135.25,M041,Online,24,Student,93,1,131.25,2024-11-04 08:07:49,1


In [5]:
# Mengecek jumlah data yang hilang di setiap kolom
missing_values = df.isnull().sum()

# Menampilkan hasil
missing_values

Unnamed: 0,0
TransactionID,0
AccountID,0
TransactionAmount,0
TransactionDate,0
TransactionType,0
Location,0
DeviceID,0
IP Address,0
MerchantID,0
Channel,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [6]:
# Pilih fitur numerik dan label
selected_features = [
    "TransactionAmount", "CustomerAge", "TransactionDuration",
    "LoginAttempts", "AccountBalance"
]
X = df[selected_features]  # Fitur
y = df["Cluster"]  # Label

# Bagi data menjadi 80% training dan 20% testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Cek ukuran dataset setelah splitting
X_train.shape, X_test.shape

((2009, 5), (503, 5))

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

# KNN

In [16]:
# Inisialisasi StandardScaler
scaler = StandardScaler()

# Normalisasi hanya pada fitur (bukan target)
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Inisialisasi model KNN dengan k=5
knn = KNeighborsClassifier(n_neighbors=5)

# Latih model dengan data yang telah dinormalisasi
knn.fit(X_train_scaled, y_train)

# Prediksi dengan data testing yang sudah dinormalisasi
y_pred_knn = knn.predict(X_test_scaled)

# RANDOM FOREST

In [8]:
# Inisialisasi model Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

# Latih model dengan data training
rf_model.fit(X_train, y_train)

# Prediksi pada data testing
y_pred_rf = rf_model.predict(X_test)


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

Dalam analisis ini, digunakan dua jenis algoritma machine learning untuk melakukan klasifikasi, yaitu K-Nearest Neighbors (KNN) dan Random Forest (RF). Kedua algoritma ini memiliki pendekatan yang berbeda dalam memprediksi label kelas berdasarkan fitur yang diberikan.

1. K-Nearest Neighbors (KNN)
  
  K-Nearest Neighbors (KNN) adalah algoritma berbasis instance-based learning yang bekerja dengan prinsip berikut:

  Saat melakukan prediksi, KNN menghitung jarak antara sampel data baru dengan seluruh data dalam dataset pelatihan.
  Jarak ini biasanya dihitung menggunakan Euclidean Distance, meskipun metrik lain juga dapat digunakan.
  Setelah jarak dihitung, algoritma akan memilih k tetangga terdekat (dalam kasus ini, k = 5).
  Prediksi dilakukan dengan mengambil mayoritas label kelas dari k tetangga terdekat tersebut.
    - Keunggulan KNN:

      - Mudah dipahami dan diimplementasikan.
      - Tidak memerlukan pelatihan model yang kompleks, karena hanya menyimpan data training.
    - Kelemahan KNN:

      - Bisa menjadi lambat untuk dataset yang besar karena harus menghitung jarak ke semua titik data setiap kali prediksi dilakukan.
      - Sensitif terhadap fitur yang memiliki skala yang berbeda, sehingga data perlu dinormalisasi.

2. Random Forest (RF)
  
  Random Forest adalah algoritma berbasis ensemble learning yang terdiri dari banyak Decision Trees. Cara kerja Random Forest adalah:

  Model membuat banyak Decision Trees (dalam kode ini, 100 trees digunakan).
  Setiap pohon dilatih menggunakan subset data training yang dipilih secara acak (bagging method).
  Saat melakukan prediksi, setiap pohon memberikan hasil prediksinya.
  Voting mayoritas digunakan untuk menentukan hasil akhir (pada kasus klasifikasi).
  - Keunggulan Random Forest:

      - Lebih akurat dibanding model berbasis pohon tunggal karena mengurangi overfitting.
      - Mampu menangani dataset dengan banyak fitur dan tidak memerlukan banyak preprocessing.
  - Kelemahan Random Forest:

      - Bisa lebih lambat dalam melakukan prediksi dibanding model yang lebih sederhana seperti KNN atau Decision Tree.
      - Tidak mudah untuk diinterpretasikan dibanding Decision Tree tunggal.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [17]:
# Evaluasi model KNN
accuracy_knn = accuracy_score(y_test, y_pred_knn)
conf_matrix_knn = confusion_matrix(y_test, y_pred_knn)
class_report_knn = classification_report(y_test, y_pred_knn)

# Cetak hasil evaluasi dengan format lebih rapi
print(f"accuracy_knn: {accuracy_knn:.4f}\n")

print("Confusion Matrix:")
print(conf_matrix_knn, "\n")

print("Classification Report:")
print(class_report_knn)

accuracy_knn: 0.7416

Confusion Matrix:
[[110   0   7   3]
 [  0 122  10   0]
 [ 27   9  76  13]
 [ 28   5  28  65]] 

Classification Report:
              precision    recall  f1-score   support

           0       0.67      0.92      0.77       120
           1       0.90      0.92      0.91       132
           2       0.63      0.61      0.62       125
           3       0.80      0.52      0.63       126

    accuracy                           0.74       503
   macro avg       0.75      0.74      0.73       503
weighted avg       0.75      0.74      0.73       503



In [11]:
# Evaluasi model Random Forest
accuracy = accuracy_score(y_test, y_pred_rf)
conf_matrix = confusion_matrix(y_test, y_pred_rf)
class_report = classification_report(y_test, y_pred_rf)

In [18]:
# Cetak hasil evaluasi dengan format lebih rapi
print(f"Accuracy RF: {accuracy:.4f}\n")

print("Confusion Matrix:")
print(conf_matrix, "\n")

print("Classification Report:")
print(class_report)

Accuracy RF: 0.8131

Confusion Matrix:
[[108   0   7   5]
 [  0 131   1   0]
 [ 15   2  90  18]
 [ 17   0  29  80]] 

Classification Report:
              precision    recall  f1-score   support

           0       0.77      0.90      0.83       120
           1       0.98      0.99      0.99       132
           2       0.71      0.72      0.71       125
           3       0.78      0.63      0.70       126

    accuracy                           0.81       503
   macro avg       0.81      0.81      0.81       503
weighted avg       0.81      0.81      0.81       503



Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

# **1. Performa Model K-Nearest Neighbors (KNN)**

### Akurasi KNN: 74.16%
### Precision & Recall:
  
  * Kelas 0 & 1 memiliki recall tinggi (0.92), artinya model mampu mengidentifikasi banyak instance dari kelas ini dengan baik.
  
  * Kelas 2 & 3 memiliki recall lebih rendah (0.61 & 0.52), menunjukkan model masih kesulitan dalam mengenali instance dari kelas tersebut.

### Confusion Matrix:

* Model banyak melakukan kesalahan pada kelas 2 dan 3, yang menyebabkan f1-score lebih rendah.

## Kesimpulan KNN:

KNN bekerja cukup baik, tetapi kurang optimal dalam membedakan kelas 2 dan 3.

Akurasi cukup baik (74%), tetapi masih ada overlap antar kelas, terutama pada kelas yang memiliki distribusi mirip.


# **2. Performa Model Random Forest (RF)**

### Akurasi RF: 81.31% (lebih tinggi dibanding KNN!)
### Precision & Recall:
* Kelas 1 memiliki performa hampir sempurna (precision = 0.98, recall = 0.99), yang berarti model hampir selalu mengklasifikasikan kelas ini dengan benar.
* Kelas 3 masih memiliki recall rendah (0.63), tetapi lebih baik dibanding KNN.
Confusion Matrix:
Kesalahan klasifikasi berkurang dibanding KNN, terutama pada kelas 2 dan 3.

## Kesimpulan Random Forest:

* Performa lebih baik dibanding KNN karena mampu menangani ketidakseimbangan data dan fitur yang lebih kompleks.
* Model lebih akurat dalam membedakan kelas yang memiliki distribusi mirip, sehingga akurasi meningkat menjadi 81%.
* Random Forest lebih stabil dan tidak terlalu sensitif terhadap skala fitur, sehingga lebih cocok untuk dataset ini.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [13]:
# Definisikan hyperparameter yang akan dituning
param_grid_rf = {
    "n_estimators": [50, 100, 200],
    "max_depth": [10, 20, None],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
}

# Inisialisasi model Random Forest
rf_model = RandomForestClassifier(random_state=42)

# GridSearchCV untuk mencari parameter terbaik
grid_search_rf = GridSearchCV(rf_model, param_grid_rf, cv=5, scoring="accuracy", n_jobs=-1)
grid_search_rf.fit(X_train, y_train)

# Ambil model terbaik
best_rf_model = grid_search_rf.best_estimator_

# Prediksi dengan model terbaik
y_pred_best_rf = best_rf_model.predict(X_test)

# Evaluasi model
accuracy_best_rf = accuracy_score(y_test, y_pred_best_rf)
conf_matrix_best_rf = confusion_matrix(y_test, y_pred_best_rf)
class_report_best_rf = classification_report(y_test, y_pred_best_rf)

# Tampilkan hasil tuning
grid_search_rf.best_params_, accuracy_best_rf


({'max_depth': 10,
  'min_samples_leaf': 1,
  'min_samples_split': 2,
  'n_estimators': 100},
 0.8230616302186878)

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [14]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Gunakan hyperparameter terbaik yang telah ditemukan sebelumnya
best_rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=10,
    min_samples_split=2,
    min_samples_leaf=1,
    random_state=42
)

# Latih model dengan data training
best_rf_model.fit(X_train, y_train)

# Prediksi pada data testing
y_pred_best_rf = best_rf_model.predict(X_test)

# Evaluasi model
accuracy_best_rf = accuracy_score(y_test, y_pred_best_rf)
conf_matrix_best_rf = confusion_matrix(y_test, y_pred_best_rf)
class_report_best_rf = classification_report(y_test, y_pred_best_rf)

In [20]:
# Cetak hasil evaluasi dengan format lebih rapi
print(f"Accuracy_best_rf: {accuracy_best_rf:.4f}\n")

print("Confusion Matrix:")
print(conf_matrix_best_rf, "\n")

print("Classification Report:")
print(class_report_best_rf)

Accuracy_best_rf: 0.8231

Confusion Matrix:
[[114   0   3   3]
 [  0 131   1   0]
 [ 21   2  96   6]
 [ 18   0  35  73]] 

Classification Report:
              precision    recall  f1-score   support

           0       0.75      0.95      0.84       120
           1       0.98      0.99      0.99       132
           2       0.71      0.77      0.74       125
           3       0.89      0.58      0.70       126

    accuracy                           0.82       503
   macro avg       0.83      0.82      0.82       503
weighted avg       0.84      0.82      0.82       503



In [21]:
# Cetak hasil evaluasi dengan format lebih rapi
print(f"Accuracy RF: {accuracy:.4f}\n")

print("Confusion Matrix:")
print(conf_matrix, "\n")

print("Classification Report:")
print(class_report)

Accuracy RF: 0.8131

Confusion Matrix:
[[108   0   7   5]
 [  0 131   1   0]
 [ 15   2  90  18]
 [ 17   0  29  80]] 

Classification Report:
              precision    recall  f1-score   support

           0       0.77      0.90      0.83       120
           1       0.98      0.99      0.99       132
           2       0.71      0.72      0.71       125
           3       0.78      0.63      0.70       126

    accuracy                           0.81       503
   macro avg       0.81      0.81      0.81       503
weighted avg       0.81      0.81      0.81       503



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

 # **Perbandingan Hasil Evaluasi Sebelum & Setelah Tuning**

 Model	Random Forest

 Akurasi Sebelum Tuning	            : 81.31%

 Akurasi Setelah Tuning	            : 82.31%

 Peningkatan	                      		+1%

 ## Perbandingan Confusion Matrix
  - Kesalahan klasifikasi pada kelas 0 dan 2 berkurang, menunjukkan model lebih baik mengenali kelas tersebut.
  - Kelas 3 masih memiliki banyak kesalahan klasifikasi (35 salah ke kelas 2) → Recall untuk kelas 3 masih rendah.


## Perbandingan Precision & Recall

  - Recall untuk kelas 0 & 2 meningkat, yang berarti model lebih baik dalam mengenali instance yang benar.
  - Recall untuk kelas 3 menurun (0.63 → 0.58), artinya model masih kesulitan dalam mengklasifikasikan kelas ini.

# Identifikasi Kelemahan Model
1. Precision & Recall untuk kelas 3 masih kurang stabil

  - Model masih sering salah mengklasifikasikan kelas 3 ke kelas lain.
  - Bisa jadi karena distribusi data kelas 3 yang mirip dengan kelas lain.
2. Potensi Overfitting Berkurang Setelah Tuning

  - Dengan max_depth=10, model lebih simpel dan tidak terlalu overfit pada data training.

# Rekomendasi Tindakan Lanjutan

1. Menggunakan Teknik Resampling (SMOTE atau Undersampling)

  Jika kelas 3 memiliki jumlah data lebih sedikit, bisa dicoba oversampling atau SMOTE untuk menyeimbangkan distribusi.
2. Mencoba Model Lain (XGBoost atau LightGBM)

  Jika ingin hasil lebih optimal, bisa diuji model berbasis Gradient Boosting seperti XGBoost atau LightGBM.
3. Feature Engineering

  Analisis fitur lebih dalam, apakah ada fitur yang terlalu dominan atau tidak berkontribusi dalam klasifikasi.
