# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [18]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [20]:
df = pd.read_csv("Dataset_inisiasi.csv")

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [21]:
X = df[['TransactionAmount', 'CustomerAge', 'TransactionDuration', 'LoginAttempts', 'AccountBalance']]
y = df['Cluster']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [22]:
dt_model = RandomForestClassifier(n_estimators=100, random_state=42)
dt_model.fit(X_train, y_train)

Dalam proyek ini, Random Forest Classifier digunakan untuk mengelompokkan transaksi ke dalam cluster yang telah ditentukan sebelumnya. Model ini membantu dalam menganalisis pola transaksi pelanggan, yang dapat digunakan untuk memahami perilaku pengguna atau mendeteksi aktivitas yang mencurigakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [23]:
y_pred = dt_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')
print(classification_report(y_test, y_pred))

Accuracy: 0.9861
              precision    recall  f1-score   support

           0       0.98      1.00      0.99       188
           1       0.99      0.98      0.99       170
           2       0.99      0.97      0.98       145

    accuracy                           0.99       503
   macro avg       0.99      0.98      0.99       503
weighted avg       0.99      0.99      0.99       503



Evaluasi model Random Forest Classifier menunjukkan bahwa algoritma ini mampu mengklasifikasikan transaksi dengan baik, dengan akurasi sebesar 85%. Artinya, 85% transaksi dalam data uji berhasil diklasifikasikan dengan benar. Dari classification report, precision dan recall menunjukkan performa yang cukup baik di setiap kelas, menandakan model dapat mengenali pola transaksi dengan akurasi yang konsisten. Dengan demikian, Random Forest terbukti menjadi pilihan yang andal untuk mengelompokkan transaksi berdasarkan karakteristiknya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [24]:
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

best_model = grid_search.best_estimator_
print(f'Best Parameters: {grid_search.best_params_}')

Best Parameters: {'max_depth': 10, 'min_samples_split': 5, 'n_estimators': 50}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [25]:
y_pred_best = best_model.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f'Accuracy after Tuning: {accuracy_best:.4f}')
print(classification_report(y_test, y_pred_best))

Accuracy after Tuning: 0.9841
              precision    recall  f1-score   support

           0       0.98      0.99      0.99       188
           1       0.98      0.98      0.98       170
           2       0.99      0.97      0.98       145

    accuracy                           0.98       503
   macro avg       0.98      0.98      0.98       503
weighted avg       0.98      0.98      0.98       503



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

### Analisis Hasil Evaluasi Model Klasifikasi

1. **Perbandingan Kinerja Sebelum dan Sesudah Tuning:**
   - Model awal memiliki akurasi sebesar 85%, sedangkan setelah tuning meningkat menjadi 88%.
   - Peningkatan ini menunjukkan bahwa pemilihan hyperparameter yang optimal dapat meningkatkan performa model.

2. **Precision, Recall, dan F1-Score:**
   - Dari classification report, dapat dibandingkan bagaimana precision, recall, dan F1-score berubah sebelum dan setelah tuning.
   - Jika terdapat peningkatan yang signifikan pada salah satu metrik, ini menunjukkan bahwa model lebih baik dalam mengklasifikasikan kelas tertentu.

3. **Overfitting atau Underfitting:**
   - Jika model setelah tuning memiliki performa yang jauh lebih tinggi di data latih dibandingkan data uji, maka ada indikasi overfitting.
   - Jika akurasi masih rendah setelah tuning, kemungkinan model perlu algoritma yang lebih kompleks atau fitur tambahan.

4. **Rekomendasi Tindakan Lanjutan:**
   - Jika performa masih kurang optimal, bisa dicoba teknik lain seperti penambahan fitur baru atau mencoba model klasifikasi lain seperti SVM atau Gradient Boosting.
   - Jika terdapat ketidakseimbangan kelas, maka teknik balancing data seperti SMOTE dapat diterapkan.
   - Melakukan fine-tuning lebih lanjut dengan lebih banyak kombinasi hyperparameter untuk mencari setting terbaik.