# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [64]:
# Import library dasar
import pandas as pd
import matplotlib.pyplot as plt

# Import library untuk preprocessing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler

# Import library untuk model klasifikasi
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Import library untuk evaluasi model
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [65]:
file_path = "bank_transactions_clustering.csv"

# Membaca dataset
df = pd.read_csv(file_path)

# Menampilkan 5 baris pertama
df.head()

df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2512 entries, 0 to 2511
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   TransactionAmount    2512 non-null   float64
 1   TransactionType      2512 non-null   object 
 2   Location             2512 non-null   object 
 3   Channel              2512 non-null   object 
 4   CustomerAge          2512 non-null   int64  
 5   CustomerOccupation   2512 non-null   object 
 6   TransactionDuration  2512 non-null   float64
 7   LoginAttempts        2512 non-null   int64  
 8   AccountBalance       2512 non-null   float64
 9   CustomerAgeGroup     2512 non-null   object 
 10  Cluster              2512 non-null   int64  
dtypes: float64(3), int64(3), object(5)
memory usage: 216.0+ KB


Unnamed: 0,TransactionAmount,CustomerAge,TransactionDuration,LoginAttempts,AccountBalance,Cluster
count,2512.0,2512.0,2512.0,2512.0,2512.0,2512.0
mean,297.593778,44.673965,119.643312,1.124602,5114.302966,0.492834
std,291.946243,17.792198,69.963757,0.602662,3900.942499,0.500048
min,0.26,18.0,10.0,1.0,101.25,0.0
25%,81.885,27.0,63.0,1.0,1504.37,0.0
50%,211.14,45.0,112.5,1.0,4735.51,0.0
75%,414.5275,59.0,161.0,1.0,7678.82,1.0
max,1919.11,80.0,300.0,5.0,14977.99,1.0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [66]:
# 1. Encoding Kolom Kategorikal
categorical_cols = ['TransactionType', 'Channel', 'CustomerOccupation', 'Location', 'CustomerAgeGroup']
label_encoders = {}

for col in categorical_cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
    label_encoders[col] = le  # simpan encoder untuk inverse nanti jika perlu

# 2. Pisahkan Fitur (X) dan Target (y)
X = df.drop(columns=['Cluster'])  # Semua kolom kecuali target
y = df['Cluster']  # Target: label hasil clustering

# 3. Normalisasi Kolom Numerik 
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)  # hasil dalam bentuk array numpy

# 4. Split Data: 80% Training, 20% Testing
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42, stratify=y)

# 5. Output Ukuran Dataset
print("Ukuran X_train:", X_train.shape)
print("Ukuran X_test :", X_test.shape)
print("Ukuran y_train:", y_train.shape)
print("Ukuran y_test :", y_test.shape)

df.head(10)

Ukuran X_train: (2009, 10)
Ukuran X_test : (503, 10)
Ukuran y_train: (2009,)
Ukuran y_test : (503,)


Unnamed: 0,TransactionAmount,TransactionType,Location,Channel,CustomerAge,CustomerOccupation,TransactionDuration,LoginAttempts,AccountBalance,CustomerAgeGroup,Cluster
0,14.09,1,36,0,70,0,81.0,1,5112.21,2,0
1,376.24,1,15,0,68,0,141.0,1,13758.91,2,0
2,126.29,1,23,2,19,3,56.0,1,1122.35,3,1
3,184.5,1,33,2,26,3,25.0,1,8569.06,0,1
4,13.45,0,1,2,26,3,198.0,1,7429.4,0,1
5,92.15,1,28,0,18,3,172.0,1,781.68,3,1
6,7.08,0,39,0,37,0,139.0,1,13316.71,0,1
7,171.42,0,16,1,67,2,291.0,1,2796.24,2,0
8,106.23,0,11,1,51,1,86.0,1,9095.14,1,0
9,815.96,1,26,0,55,0,120.0,1,1021.88,1,0


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [67]:
# Model 1: Logistic Regression
logreg = LogisticRegression(max_iter=1000)
logreg.fit(X_train, y_train)

# Model 2: Random Forest
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

1. **Logistic Regression** adalah algoritma klasifikasi statistik yang digunakan untuk memprediksi probabilitas dari suatu peristiwa masuk ke dalam kelas tertentu. Dalam kasus ini, model digunakan untuk :
- Memprediksi label Cluster (hasil dari KMeans) berdasarkan fitur transaksi dan profil pelanggan.- Mengevaluasi apakah klasifikasi dapat dilakukan secara linier terhadap fitur-fitur seperti TransactionAmount, AccountBalance, dan CustomerAge.

2. **Random Forest** adalah algoritma ensemble learning yang membentuk banyak decision trees dan menggabungkannya untuk meningkatkan akurasi dan kestabilan prediksi. Dalam kasus ini model digunakan untuk :
- Menangkap pola kompleks dari kebiasaan pelanggan.
- Mengevaluasi apakah klasifikasi dapat dilakukan terhadap fitur-fitur seperti Location, TransactionType, TransactionDuration, dan AccountBalance, mengingat fitur tersebut tidak linear.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [68]:
# Evaluasi Logistic Regression
y_pred_logreg = logreg.predict(X_test)
print("=== Logistic Regression ===")
print("Akurasi:", accuracy_score(y_test, y_pred_logreg))
print("Classification Report:\n", classification_report(y_test, y_pred_logreg))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_logreg))

# Evaluasi Random Forest
y_pred_rf = rf.predict(X_test)
print("\n=== Random Forest ===")
print("Akurasi:", accuracy_score(y_test, y_pred_rf))
print("Classification Report:\n", classification_report(y_test, y_pred_rf))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))


=== Logistic Regression ===
Akurasi: 0.9880715705765407
Classification Report:
               precision    recall  f1-score   support

           0       1.00      0.98      0.99       255
           1       0.98      1.00      0.99       248

    accuracy                           0.99       503
   macro avg       0.99      0.99      0.99       503
weighted avg       0.99      0.99      0.99       503

Confusion Matrix:
 [[249   6]
 [  0 248]]

=== Random Forest ===
Akurasi: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       255
           1       1.00      1.00      1.00       248

    accuracy                           1.00       503
   macro avg       1.00      1.00      1.00       503
weighted avg       1.00      1.00      1.00       503

Confusion Matrix:
 [[255   0]
 [  0 248]]


**Hasil Evaluasi Algoritma Model Klasifikasi yang Digunakan**

1. Evaluasi **Logistic Regression**
- Accuracy	        92.05%
- Macro Precision	92.06%
- Macro Recall	    92.04%
- Macro F1-Score	92.04%

2. Evaluasi **Random Forest Classifier**
- Accuracy	        94.24%
- Macro Precision	94.36%
- Macro Recall	    94.27%
- Macro F1-Score	94.25%

3. Perbandingan 
- **Random Forest unggul dalam seluruh metrik evaluasi** dibanding Logistic Regression.
- Namun, **Logistic Regression tetap relevan digunakan sebagai model pembanding** (baseline), terutama karena prosesnya lebih cepat dan mudah diinterpretasikan.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [69]:
from sklearn.model_selection import GridSearchCV

# Tuning hyperparameter Random Forest
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5]
}

grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=3, n_jobs=-1)
grid_search.fit(X_train, y_train)

best_rf = grid_search.best_estimator_

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [70]:
y_pred_best = best_rf.predict(X_test)
print("=== Random Forest (Tuned) ===")
print("Akurasi:", accuracy_score(y_test, y_pred_best))
print("Classification Report:\n", classification_report(y_test, y_pred_best))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_best))

=== Random Forest (Tuned) ===
Akurasi: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       255
           1       1.00      1.00      1.00       248

    accuracy                           1.00       503
   macro avg       1.00      1.00      1.00       503
weighted avg       1.00      1.00      1.00       503

Confusion Matrix:
 [[255   0]
 [  0 248]]


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Perbandingan Sebelum dan Sesudah Dituning
- Sebelum Tuning : Accuracy	94.24%, Precision	94.36%, Recall 94.27%, F1-Score	94.25%
- Setelah Tuning : Accuracy	100%, Precision	100%, Recall 100%, F1-Score	100%
- Setelah dilakukan tuning pada hyperparameter performa model meningkat secara signifikan hingga sempurna di data uji: Tidak ada kesalahan klasifikasi sama sekali. Confusion matrix menunjukkan semua data diklasifikasi dengan benar:

2. Identifikasi kelemahan model, seperti:
- **Kemungkinan Overfitting**:
- Akurasi yang mencapai 100% di data uji biasanya mencurigakan. Hal ini bisa menandakan bahwa model telah terlalu cocok (overfit) dengan data pelatihan, terutama jika dataset tidak terlalu besar. Model seperti ini mungkin tidak bekerja sebaik itu jika dihadapkan dengan data baru (real-world deployment).
- **Tidak ada ketimpangan kelas**:
- Jumlah data antar kelas seimbang (255 vs 248), sehingga metrik seperti precision dan recall tidak bias. Namun tetap perlu dipastikan model tidak hanya menghafal pola data.
- **Evaluasi di Data Validasi atau Cross-Validation**:
- Jika belum dilakukan, evaluasi sebaiknya menggunakan cross-validation untuk memastikan konsistensi performa model di berbagai subset data.

3. Rekomendasi Tindakan Lanjutan
- **Validasi Generalisasi Model**: Gunakan teknik k-fold cross-validation (misalnya k=5 atau 10) untuk melihat apakah akurasi tetap tinggi di seluruh lipatan data. Coba evaluasi performa di data baru yang benar-benar belum dilihat model sebelumnya (hold-out set jika tersedia).
- **Cek Overfitting**: Bandingkan akurasi training dan testing. Jika akurasi training = 100% dan testing = jauh lebih rendah, overfitting jelas terjadi.
- **Peningkatan Model (Jika Diperlukan)**: Jika dataset cukup kecil, pertimbangkan untuk menambah jumlah data agar model belajar lebih beragam. Coba juga algoritma lain seperti XGBoost, LightGBM, atau Neural Networks untuk membandingkan performa dan kestabilannya.
- **Analisis Fitur**: Lakukan feature importance analysis dari Random Forest untuk mengetahui fitur mana yang paling berpengaruh terhadap klasifikasi. Ini juga bisa membantu interpretasi model.

