# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [None]:
df = pd.read_csv('/content/bank_transactions_clustered.csv')

In [None]:
# Memisahkan fitur & label
numerical_columns = ["TransactionAmount", "CustomerAge", "TransactionDuration", "LoginAttempts", "AccountBalance"]
categorical_columns = ["TransactionType", "Location", "Channel", "CustomerOccupation"]
X = df[numerical_columns + categorical_columns]
y = df["Cluster"]


In [None]:
# Encoding Data Kategorikal
X = pd.get_dummies(X, columns=categorical_columns)

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [None]:
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
rf_classifier.fit(X_train, y_train)


In [None]:
# Membangun Model Klasifikasi dengan Logistic Regression
lr_classifier = LogisticRegression(max_iter=1000)
lr_classifier.fit(X_train, y_train)


In [None]:
# Membangun Model Klasifikasi dengan SVM
svm_classifier = SVC()
svm_classifier.fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

### Random Forest

In [None]:
y_pred_rf = rf_classifier.predict(X_test)

print("Random Forest")
print("Akurasi:", accuracy_score(y_test, y_pred_rf))
print("\nLaporan Klasifikasi:\n", classification_report(y_test, y_pred_rf))
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred_rf))

Random Forest
Akurasi: 0.954954954954955

Laporan Klasifikasi:
               precision    recall  f1-score   support

           0       0.97      0.90      0.94       167
           1       0.94      0.99      0.96       277

    accuracy                           0.95       444
   macro avg       0.96      0.94      0.95       444
weighted avg       0.96      0.95      0.95       444


Confusion Matrix:
[[151  16]
 [  4 273]]


**1.  Akurasi Model:**

Model menghasilkan akurasi 95.5%, yang menunjukkan performa yang sangat baik dalam mengklasifikasikan transaksi ke dalam kluster.

**2. Laporan Klasifikasi:**

* **Cluster 0:**

1. Precision: 97%  Artinya, dari semua prediksi model yang diklasifikasikan sebagai Cluster 0, 97% benar.

2. Recall: 90%  Dari semua transaksi yang sebenarnya berada di Cluster 0, model berhasil menangkap 90%.

3. F1-Score: 94%  Rata-rata antara Precision dan Recall, menunjukkan keseimbangan antara keduanya.

* **Cluster 1:**
1. Precision: 94% dari semua prediksi cluster 1, 94% Benar.

2. Recall: 99% dari semua transaksi yang masuk ke cluster 1, model berhasil mengidentifikasi 99% dengan benar.

3. F1-Score: 96% keseimbangan antara Precision dan Recall, menunjukkan performa model yang sangat baik dalam mengklasifikasikan Cluster 1.

**3. Confusion Matrix:**
* 151 transaksi diklasifikasikan dengan benar sebagai Cluster 0.

* 16 transaksi dari Cluster 0 salah diklasifikasikan sebagai Cluster 1.

* 273 transaksi diklasifikasikan dengan benar sebagai Cluster 1.

* 4 transaksi dari Cluster 1 salah diklasifikasikan sebagai Cluster 0.



## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [None]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [None]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

### Perbandingan dengan model lain

### 1. Logistic Regression

In [None]:
y_pred_lr = lr_classifier.predict(X_test)

print("\nLogistic Regression")
print("Akurasi:", accuracy_score(y_test, y_pred_lr))
print("\nLaporan Klasifikasi:\n", classification_report(y_test, y_pred_lr))
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_pred_lr))



Logistic Regression
Akurasi: 0.9842342342342343

Laporan Klasifikasi:
               precision    recall  f1-score   support

           0       0.98      0.98      0.98       167
           1       0.99      0.99      0.99       277

    accuracy                           0.98       444
   macro avg       0.98      0.98      0.98       444
weighted avg       0.98      0.98      0.98       444


Confusion Matrix:
[[163   4]
 [  3 274]]


**1. Akurasi Model:**

* model Logistic Regression menunjukkan performa yang sangat baik dengan akurasi 98.42%, lebih tinggi dibandingkan Random Forest (95.49%).

**2. Precision, Recall, dan F1-score:**

* Kelas 0: Precision 98%, Recall 98%

* Kelas 1: Precision 99%, Recall 99%

* F1-score yang hampir sempurna menunjukkan bahwa model ini tidak hanya akurat secara keseluruhan tetapi juga seimbang dalam mengenali kedua kelas.

**3. Confusion Matrix:**
Hanya ada 7 kesalahan klasifikasi dari 444 total sampel (4 salah klasifikasi dari kelas 0, dan 3 dari kelas 1), yang sangat kecil.

### Kelemahan Tiap Model

**1. Random Forest :**
* Karena Random Forest menggunakan banyak pohon keputusan, model cenderung terlalu menyesuaikan data latih, yang bisa menyebabkan overfitting.

* Model berbasis pohon seperti Random Forest sulit untuk diinterpretasikan dibandingkan dengan model linear seperti Logistic Regression.

* Sulit untuk memahami faktor mana yang paling berkontribusi terhadap keputusan klasifikasi.

**2. Logistic Regression:**
* Jika data memiliki pola yang kompleks dan tidak linier, Logistic Regression mungkin tidak cukup fleksibel untuk menangkap pola dengan baik.

* Logistic Regression bisa sangat dipengaruhi oleh outlier dalam dataset. Meskipun tidak tampak berdampak besar pada hasil ini, outlier bisa menyebabkan bias dalam prediksi.

* Jika terdapat hubungan non-linier yang kompleks antara fitur dan target, model seperti Random Forest mungkin bekerja lebih baik.