# **Penting**
- Pastikan Anda melakukan Run All sebelum mengirimkan submission untuk memastikan seluruh cell berjalan dengan baik.
- Hapus simbol pagar (#) jika Anda menerapkan kriteria tambahan
- Biarkan simbol pagar (#) jika Anda tidak menerapkan kriteria tambahan

# **1. Import Library**
Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
# ## 1. Import Library
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report
import joblib

print("Library untuk Klasifikasi berhasil di-import.")

Library untuk Klasifikasi berhasil di-import.


# **2. Memuat Dataset dari Hasil Clustering**
Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
# ## 2. Memuat Dataset dari Hasil Clustering
# Gunakan dataset hasil clustering yang memiliki fitur Target
# Pastikan file 'data_clustering.csv' ada di direktori yang sama atau berikan path yang benar.
df_class = pd.read_csv('data_clustering.csv')

print("Dataset hasil clustering berhasil dimuat.")

Dataset hasil clustering berhasil dimuat.


In [3]:
# Tampilkan 5 baris pertama dengan function head.
print("Lima baris pertama dataset klasifikasi:")
df_class.head()

Lima baris pertama dataset klasifikasi:


Unnamed: 0,TransactionAmount,TransactionDate,TransactionType,Location,IP Address,Channel,CustomerAge,CustomerOccupation,TransactionDuration,LoginAttempts,AccountBalance,PreviousTransactionDate,Target
0,0.007554,0.276945,1.0,0.857143,0.31453,0.0,0.83871,0.0,0.244828,0.0,0.33679,0.292479,3
1,0.205368,0.48313,1.0,0.357143,0.138462,0.0,0.806452,0.0,0.451724,0.0,0.918049,0.534819,3
2,0.06884,0.514058,1.0,0.547619,0.577778,1.0,0.016129,1.0,0.158621,0.0,0.068578,0.114206,2
3,0.100636,0.333646,1.0,0.785714,0.507692,1.0,0.129032,1.0,0.051724,0.0,0.56917,0.454039,2
4,0.050192,0.257732,1.0,0.666667,0.100855,0.0,0.0,1.0,0.558621,0.0,0.045677,0.036212,2


# **3. Data Splitting**
Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
# ## 3. Data Splitting
# Menggunakan train_test_split() untuk melakukan pembagian dataset.

# Pastikan kolom 'Target' ada
if 'Target' not in df_class.columns:
    raise ValueError("Kolom 'Target' tidak ditemukan. Pastikan file 'data_clustering.csv' sudah benar.")

# Pisahkan Fitur (X) dan Target (y)
X = df_class.drop('Target', axis=1)
y = df_class['Target']

# Bagi data menjadi 80% latih dan 20% uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Ukuran X_train: {X_train.shape}")
print(f"Ukuran X_test: {X_test.shape}")
print(f"Ukuran y_train: {y_train.shape}")
print(f"Ukuran y_test: {y_test.shape}")

Ukuran X_train: (1724, 12)
Ukuran X_test: (432, 12)
Ukuran y_train: (1724,)
Ukuran y_test: (432,)


# **4. Membangun Model Klasifikasi**
Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Menggunakan algoritma klasifikasi yaitu Decision Tree.
2. Latih model menggunakan data yang sudah dipisah.

In [5]:
# ## 4. Membangun Model Klasifikasi
# Buatlah model klasifikasi menggunakan Decision Tree
dt_model = DecisionTreeClassifier(random_state=42)

# Latih model menggunakan data latih
dt_model.fit(X_train, y_train)

print("Model Decision Tree berhasil dilatih.")

# (Opsional tapi bagus) Lakukan prediksi & evaluasi dasar di sini
y_pred_dt = dt_model.predict(X_test)
accuracy_dt = accuracy_score(y_test, y_pred_dt)
print(f"Akurasi Decision Tree (dasar): {accuracy_dt:.4f}")

Model Decision Tree berhasil dilatih.
Akurasi Decision Tree (dasar): 1.0000


In [6]:
# ## Menyimpan Model
import joblib

# Simpan model Decision Tree
joblib.dump(dt_model, 'decision_tree_model.h5')

print("Model Decision Tree berhasil disimpan sebagai 'decision_tree_model.h5'")

Model Decision Tree berhasil disimpan sebagai 'decision_tree_model.h5'


# **5. Memenuhi Kriteria Skilled dan Advanced dalam Membangun Model Klasifikasi**



**Biarkan kosong jika tidak menerapkan kriteria skilled atau advanced**

In [7]:
# ## Melatih model menggunakan algoritma klasifikasi selain Decision Tree.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report # Kita butuh ini lagi

print("Melatih model K-Nearest Neighbors (KNN)...")

# Inisialisasi model KNN (misalnya, dengan 5 tetangga)
knn_model = KNeighborsClassifier(n_neighbors=5)

# Latih model menggunakan data latih
knn_model.fit(X_train, y_train)

print("Model K-Nearest Neighbors (KNN) berhasil dilatih.")

# Lakukan prediksi dengan model KNN untuk evaluasi nanti
y_pred_knn = knn_model.predict(X_test)

Melatih model K-Nearest Neighbors (KNN)...
Model K-Nearest Neighbors (KNN) berhasil dilatih.


In [8]:
# ## Menampilkan hasil evaluasi akurasi, presisi, recall, dan F1-Score

# Pastikan y_pred_dt sudah ada dari Section 4, jika belum, jalankan lagi:
# y_pred_dt = dt_model.predict(X_test)

print("=========================================")
print("   Laporan Klasifikasi Decision Tree")
print("=========================================")
# Gunakan zero_division=0 untuk menghindari warning jika ada kelas tanpa prediksi
print(classification_report(y_test, y_pred_dt, zero_division=0))

print("\n=========================================")
print("   Laporan Klasifikasi K-Nearest Neighbors (KNN)")
print("=========================================")
print(classification_report(y_test, y_pred_knn, zero_division=0))

# Tentukan model mana yang terbaik berdasarkan metrik pilihan Anda (misal F1-score macro avg)
f1_dt = f1_score(y_test, y_pred_dt, average='macro', zero_division=0)
f1_knn = f1_score(y_test, y_pred_knn, average='macro', zero_division=0)

print(f"\nF1-Score Macro DT: {f1_dt:.4f}")
print(f"F1-Score Macro KNN: {f1_knn:.4f}")

if f1_knn > f1_dt:
    print("\nModel KNN memiliki F1-Score Macro lebih baik.")
    best_explore_model = knn_model
    best_explore_name = 'KNN'
else:
    print("\nModel Decision Tree memiliki F1-Score Macro lebih baik (atau sama).")
    # Jika DT lebih baik, Anda bisa memilih menyimpan DT atau KNN.
    # Untuk contoh ini, kita simpan KNN jika lebih baik, jika tidak, kita bisa skip atau simpan KNN.
    best_explore_model = knn_model # Tetap simpan KNN sebagai contoh explore
    best_explore_name = 'KNN'

   Laporan Klasifikasi Decision Tree
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        97
           1       1.00      1.00      1.00       146
           2       1.00      1.00      1.00        90
           3       1.00      1.00      1.00        99

    accuracy                           1.00       432
   macro avg       1.00      1.00      1.00       432
weighted avg       1.00      1.00      1.00       432


   Laporan Klasifikasi K-Nearest Neighbors (KNN)
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        97
           1       1.00      1.00      1.00       146
           2       1.00      1.00      1.00        90
           3       1.00      1.00      1.00        99

    accuracy                           1.00       432
   macro avg       1.00      1.00      1.00       432
weighted avg       1.00      1.00      1.00       432


F1-Score Macro DT: 1.0000
F1-Score Macro K

In [9]:
# ## Menyimpan Model Selain Decision Tree
import joblib

# Pastikan 'best_explore_model' dan 'best_explore_name' sudah ada dari cell sebelumnya
if 'best_explore_model' in locals():
    file_name = f'explore_{best_explore_name}_classification.h5'
    joblib.dump(best_explore_model, file_name)
    print(f"Model berhasil disimpan sebagai '{file_name}'")
else:
    print("Tidak ada model 'explore' untuk disimpan.")

Model berhasil disimpan sebagai 'explore_KNN_classification.h5'


Hyperparameter Tuning Model

Pilih salah satu algoritma yang ingin Anda tuning

In [10]:
# ## Hyperparameter Tuning Model

from sklearn.model_selection import GridSearchCV

print("Melakukan Hyperparameter Tuning untuk Decision Tree...")

# Tentukan parameter grid yang ingin dicoba
param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 5, 10, 15, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Buat objek GridSearchCV
# cv=5 berarti 5-fold cross-validation
grid_search = GridSearchCV(estimator=DecisionTreeClassifier(random_state=42),
                           param_grid=param_grid,
                           cv=5,
                           scoring='f1_macro', # Fokus pada F1-score macro
                           n_jobs=-1) # Gunakan semua core CPU

# Lakukan pencarian hyperparameter pada data latih
grid_search.fit(X_train, y_train)

# Dapatkan model terbaik
best_dt_tuned = grid_search.best_estimator_

print(f"\nParameter terbaik ditemukan: {grid_search.best_params_}")
print("Model Decision Tree (Tuned) berhasil dilatih.")

Melakukan Hyperparameter Tuning untuk Decision Tree...

Parameter terbaik ditemukan: {'criterion': 'gini', 'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2}
Model Decision Tree (Tuned) berhasil dilatih.


In [11]:
# ## Menampilkan hasil evaluasi ... pada algoritma yang sudah dituning.

print("Mengevaluasi model Decision Tree hasil tuning...")

# Lakukan prediksi dengan model hasil tuning
y_pred_tuned = best_dt_tuned.predict(X_test)

print("\n=========================================")
print("   Laporan Klasifikasi Decision Tree (Tuned)")
print("=========================================")
print(classification_report(y_test, y_pred_tuned, zero_division=0))

f1_tuned = f1_score(y_test, y_pred_tuned, average='macro', zero_division=0)
print(f"\nF1-Score Macro DT (Tuned): {f1_tuned:.4f}")

Mengevaluasi model Decision Tree hasil tuning...

   Laporan Klasifikasi Decision Tree (Tuned)
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        97
           1       1.00      1.00      1.00       146
           2       1.00      1.00      1.00        90
           3       1.00      1.00      1.00        99

    accuracy                           1.00       432
   macro avg       1.00      1.00      1.00       432
weighted avg       1.00      1.00      1.00       432


F1-Score Macro DT (Tuned): 1.0000


In [12]:
# ## Menyimpan Model hasil tuning
import joblib

# Simpan model hasil tuning
joblib.dump(best_dt_tuned, 'tuning_classification.h5')

print("Model hasil tuning berhasil disimpan sebagai 'tuning_classification.h5'")

Model hasil tuning berhasil disimpan sebagai 'tuning_classification.h5'
