# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [26]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [27]:
# Load dataset
file_path = "dataset_Financial_Transactions_klasifikasi.csv"
df = pd.read_csv(file_path)

In [28]:
# Melihat distribusi pada Cluster
cluster_distribution = df["Cluster"].value_counts()

# Encoding TransactionType menggunakan One-Hot Encoding
df_encoded = pd.get_dummies(df, columns=["TransactionType"])

# Menampilkan distribusi Cluster dan hasil encoding awal
cluster_distribution, df_encoded.head()

(Cluster
 7    4401
 1    4341
 0    4332
 4    4329
 5    4302
 8    4287
 3    4227
 2    4215
 6    2983
 Name: count, dtype: int64,
    TransactionID  AccountID            Timestamp  TransactionAmount  \
 0          16633       5817  2016-01-01 03:47:23            2446.41   
 1          23660       9291  2016-01-01 04:20:25            2640.83   
 2          11806       9618  2016-01-01 05:12:44             574.82   
 3          27498       2288  2016-01-01 05:48:42            1740.12   
 4           9345       2688  2016-01-01 06:26:04             292.43   
 
    AccountBalance  Hour  DayOfWeek  Month  Cluster  TransactionType_deposit  \
 0        96273.47   3.0          4    1.0        1                    False   
 1        98629.95   4.0          4    1.0        1                    False   
 2        65602.63   5.0          4    1.0        1                    False   
 3        81461.66   5.0          4    1.0        1                    False   
 4        18084.81   6.0      

In [29]:
# Menghapus kolom yang tidak relevan
df_cleaned = df_encoded.drop(columns=["TransactionID", "AccountID", "Timestamp"])

# Memisahkan fitur dan target
X = df_cleaned.drop(columns=["Cluster"])
y = df_cleaned["Cluster"]

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [30]:
# Memisahkan fitur dan target
X = df_cleaned.drop(columns=["Cluster"])
y = df_cleaned["Cluster"]

# Membagi data menjadi 80% train dan 20% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [31]:
# Melatih model Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

In [32]:
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train, y_train)

Saya memilih algotitma RandomForest dan KNN sebagai perbandingan algoritma dikarenakan keduanya memiliki karakteristik pelatihan untuk data yang berbeda. sehingga saya dapat mengetahui karakteristik data yang saya miliki lebih cocok menggunakan algorima apa.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [33]:
# Memprediksi pada data uji
y_pred = rf_model.predict(X_test)

In [34]:
# Evaluasi model
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)


accuracy, report

(0.9767504008551576,
 '              precision    recall  f1-score   support\n\n           0       0.97      0.98      0.98       867\n           1       0.98      0.98      0.98       868\n           2       0.97      0.98      0.98       843\n           3       0.99      0.98      0.98       845\n           4       0.97      0.98      0.97       866\n           5       0.98      0.98      0.98       861\n           6       0.97      0.98      0.98       597\n           7       0.98      0.97      0.98       880\n           8       0.98      0.97      0.97       857\n\n    accuracy                           0.98      7484\n   macro avg       0.98      0.98      0.98      7484\nweighted avg       0.98      0.98      0.98      7484\n')

In [35]:
y_pred = knn_model.predict(X_test)

In [36]:
# Evaluasi model
accuracy_knn = accuracy_score(y_test, y_pred)
report_knn = classification_report(y_test, y_pred)
conf_matrix_knn = confusion_matrix(y_test, y_pred)

accuracy_knn, report_knn, conf_matrix_knn

(0.3348476750400855,
 '              precision    recall  f1-score   support\n\n           0       0.38      0.49      0.42       867\n           1       0.39      0.51      0.45       868\n           2       0.27      0.33      0.29       843\n           3       0.28      0.26      0.27       845\n           4       0.32      0.29      0.30       866\n           5       0.37      0.38      0.38       861\n           6       0.30      0.29      0.29       597\n           7       0.30      0.19      0.23       880\n           8       0.36      0.26      0.30       857\n\n    accuracy                           0.33      7484\n   macro avg       0.33      0.33      0.33      7484\nweighted avg       0.33      0.33      0.33      7484\n',
 array([[423,   0,  30,   0, 274,  72,   2,   9,  57],
        [  0, 445,  17, 298,   0,  58,   5,  17,  28],
        [ 64,  53, 274,  59,  65,   0, 167, 161,   0],
        [  2, 375,  62, 222,   1,  70,  29,  47,  37],
        [395,   0,  77,   0, 250,  

Hasil yang saya dapat cukup memuaskan dikarenakan saya dapat secara eksplisit mengetahui jenis algoritma seperti apa yang cocok untuk dataset yang saya miliki.

Perbandingan hasil evaluasi

1. Random Forest :
- accuracy = 0.9770176376269375
- F1 score = 98%

2. K-NearestNeighbors : 
- accuracy = 0.3348476750400855
- F1 score = 33%


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [37]:
# Menentukan parameter grid untuk tuning
param_grid = {
    "n_estimators": [50, 100, 200],
    "max_depth": [10, 20, None],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
}

# Inisialisasi model Random Forest
rf = RandomForestClassifier(random_state=42)

# Grid Search dengan 3-fold cross-validation
grid_search = GridSearchCV(rf, param_grid, cv=3, scoring="accuracy", n_jobs=-1, verbose=1)
grid_search.fit(X_train, y_train)

# Menampilkan hyperparameter terbaik
best_params = grid_search.best_params_
best_score = grid_search.best_score_

best_params, best_score

Fitting 3 folds for each of 81 candidates, totalling 243 fits


({'max_depth': 20,
  'min_samples_leaf': 1,
  'min_samples_split': 2,
  'n_estimators': 200},
 np.float64(0.9745765363898133))

In [38]:
import numpy as np
# Hyperparameter tuning untuk mencari K terbaik
param_grid_knn = {
    "n_neighbors": np.arange(3, 31, 2),  # Mencoba K ganjil antara 3 hingga 29
    "weights": ["uniform", "distance"],  # Bobot voting
    "metric": ["euclidean", "manhattan", "minkowski"],  # Jenis jarak
}

grid_search_knn = GridSearchCV(KNeighborsClassifier(), param_grid_knn, cv=3, scoring="accuracy", n_jobs=-1, verbose=1)
grid_search_knn.fit(X_train, y_train)

# Menampilkan hasil tuning
best_params_knn = grid_search_knn.best_params_
best_score_knn = grid_search_knn.best_score_

best_params_knn, best_score_knn

Fitting 3 folds for each of 84 candidates, totalling 252 fits


({'metric': 'manhattan', 'n_neighbors': np.int64(29), 'weights': 'distance'},
 np.float64(0.37186386576478075))

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [39]:
# Melatih model Random Forest
rf_model = RandomForestClassifier(n_estimators=200, 
max_depth=20, min_samples_leaf=1, min_samples_split=2, random_state=42)

rf_model.fit(X_train, y_train)

y_pred_tuning = rf_model.predict(X_test)

# Evaluasi model
accuracy = accuracy_score(y_test, y_pred_tuning)
report = classification_report(y_test, y_pred_tuning)


accuracy, report

(0.9791555318011759,
 '              precision    recall  f1-score   support\n\n           0       0.98      0.98      0.98       867\n           1       0.98      0.98      0.98       868\n           2       0.98      0.98      0.98       843\n           3       0.99      0.98      0.98       845\n           4       0.97      0.98      0.98       866\n           5       0.98      0.98      0.98       861\n           6       0.97      0.98      0.98       597\n           7       0.98      0.98      0.98       880\n           8       0.98      0.97      0.97       857\n\n    accuracy                           0.98      7484\n   macro avg       0.98      0.98      0.98      7484\nweighted avg       0.98      0.98      0.98      7484\n')

In [40]:
knn_model = KNeighborsClassifier(metric='manhattan', n_neighbors=29, weights='distance')
knn_model.fit(X_train, y_train)

y_pred_tuning = knn_model.predict(X_test)

# Evaluasi model
accuracy_knn = accuracy_score(y_test, y_pred_tuning)
report_knn = classification_report(y_test, y_pred_tuning)
conf_matrix_knn = confusion_matrix(y_test, y_pred_tuning)

accuracy_knn, report_knn, conf_matrix_knn

(0.3805451630144308,
 '              precision    recall  f1-score   support\n\n           0       0.41      0.49      0.45       867\n           1       0.43      0.56      0.49       868\n           2       0.32      0.30      0.31       843\n           3       0.35      0.29      0.32       845\n           4       0.38      0.34      0.36       866\n           5       0.42      0.43      0.42       861\n           6       0.32      0.29      0.31       597\n           7       0.34      0.33      0.33       880\n           8       0.39      0.36      0.38       857\n\n    accuracy                           0.38      7484\n   macro avg       0.37      0.38      0.37      7484\nweighted avg       0.38      0.38      0.38      7484\n',
 array([[421,   0,  25,   0, 277,  52,   1,  10,  81],
        [  0, 490,   7, 251,   0,  60,   2,  15,  43],
        [ 55,  58, 254,  43,  53,   0, 165, 215,   0],
        [  2, 350,  33, 245,   0,  73,  32,  57,  53],
        [345,   0,  52,   0, 298,  

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.


1. Perbandingan Sebelum & Setelah Tuning
- pada kedua algoritma setelah tuning dapat terlihat peningkatan dari akurasi mode dan f1 score, namun peningkatan tidak terlalu signifikam
- Rf : 
   - Accurasi: 97,7 -> 97,9
   - F1 score: 98% -> 98%

- KNN 
   - Accurasi: 33 -> 38
   - F1 score: 33% -> 42% - 45%

2. Identifikasi Kelemahan Model
- Model Rf
   - Precision dan Recall tinggi di semua kelas, menunjukkan model cukup seimbang.
   - Overfitting tidak terlalu terlihat, karena akurasi validasi hampir sama dengan data uji.

- Model Knn
   - Kesalahan tinggi terjadi antar kelas yang berdekatan dalam distribusi datanya.
   - Model lebih sering memprediksi kelas mayoritas dibandingkan kelas minoritas


3. Rekomendasi Tindakan Lanjutan
 - 1. Coba Model Lain
      - Model dengan type yang mirip Random forest mungkin dapat meningkatkan hasil.
 - 2. Lakukan Feature engineering
    - Mungkin ada fitur yang kurang relevan atau bisa ditransformasi lebih baik.
 - 3. Hyperparameter Tuning dengan Bayesian Optimization
    - Bayesian Optimization (Optuna) bisa lebih optimal dalam mencari hyperparameter terbaik.