# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [2]:
# Library umum
import pandas as pd
import numpy as np

# Visualisasi
import seaborn as sns
import matplotlib.pyplot as plt

# Preprocessing dan splitting data
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler

# Model machine learning
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB

# Evaluasi model
from sklearn.metrics import (
    confusion_matrix,
    accuracy_score,
    precision_score,
    recall_score,
    f1_score
)

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/Evameivina/revisi/refs/heads/main/datasethasilclustering.csv')

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
df.head()

Unnamed: 0,TransactionType,Channel,TransactionAmount,CustomerAge,TransactionDuration,AccountBalance,Cluster
0,Debit,ATM,14.09,70,81.0,5112.21,0
1,Debit,ATM,376.24,68,141.0,13758.91,0
2,Debit,Online,126.29,19,56.0,1122.35,2
3,Debit,Online,184.5,26,25.0,8569.06,2
4,Credit,Online,13.45,26,198.0,7429.4,4


In [5]:
encoder = LabelEncoder()

kategori = ['TransactionType', 'Channel']
for kolom in kategori:
    df[kolom] = encoder.fit_transform(df[kolom])

df.head()

Unnamed: 0,TransactionType,Channel,TransactionAmount,CustomerAge,TransactionDuration,AccountBalance,Cluster
0,1,0,14.09,70,81.0,5112.21,0
1,1,0,376.24,68,141.0,13758.91,0
2,1,2,126.29,19,56.0,1122.35,2
3,1,2,184.5,26,25.0,8569.06,2
4,0,2,13.45,26,198.0,7429.4,4


In [6]:
scaler = MinMaxScaler()
numerik = ['TransactionAmount', 'CustomerAge', 'TransactionDuration', 'AccountBalance']
df[numerik] = scaler.fit_transform(df[numerik])
df.head()

Unnamed: 0,TransactionType,Channel,TransactionAmount,CustomerAge,TransactionDuration,AccountBalance,Cluster
0,1,0,0.016955,0.83871,0.244828,0.336832,0
1,1,0,0.460929,0.806452,0.451724,0.918055,0
2,1,2,0.154505,0.016129,0.158621,0.068637,2
3,1,2,0.225867,0.129032,0.051724,0.569198,2
4,0,2,0.01617,0.129032,0.648276,0.492591,4


In [7]:
fitur = df.loc[:, df.columns != 'Cluster']
label = df['Cluster']

X_train, X_test, y_train, y_test = train_test_split(fitur, label, test_size=0.2, random_state=42)

print("Ukuran data latih:", X_train.shape, y_train.shape)
print("Ukuran data uji:", X_test.shape, y_test.shape)

Ukuran data latih: (1878, 6) (1878,)
Ukuran data uji: (470, 6) (470,)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [8]:
model_knn = KNeighborsClassifier()
model_dt = DecisionTreeClassifier()

model_knn.fit(X_train, y_train)
model_dt.fit(X_train, y_train)

print("Proses pelatihan kedua model klasifikasi telah berhasil.")

Proses pelatihan kedua model klasifikasi telah berhasil.


## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [29]:
def evaluasi_model(model, X_test, y_test):
    prediksi = model.predict(X_test)
    matriks_konfusi = confusion_matrix(y_test, prediksi)
    akurasi = accuracy_score(y_test, prediksi)
    presisi = precision_score(y_test, prediksi, average='macro', zero_division=0)
    recall = recall_score(y_test, prediksi, average='macro', zero_division=0)
    f1 = f1_score(y_test, prediksi, average='macro', zero_division=0)

    return matriks_konfusi, akurasi, presisi, recall, f1

model_data = [
    ('K-Nearest Neighbors (KNN)', model_knn),
    ('Decision Tree (DT)', model_dt)
]

hasil = []
for nama_model, model in model_data:
    _, acc, prec, rec, f1 = evaluasi_model(model, X_test, y_test)
    hasil.append([nama_model, acc, prec, rec, f1])

kolom = ['Model', 'Accuracy', 'Precision', 'Recall', 'F1-Score']
summary_df = pd.DataFrame(hasil, columns=kolom)

print(summary_df)


                       Model  Accuracy  Precision  Recall  F1-Score
0  K-Nearest Neighbors (KNN)       1.0        1.0     1.0       1.0
1         Decision Tree (DT)       1.0        1.0     1.0       1.0


**Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.**

Baik K-Nearest Neighbors (KNN) maupun Decision Tree (DT) menunjukkan performa yang sempurna pada data uji:

* **Akurasi:** 100% — Model mampu mengklasifikasikan semua data uji dengan benar.

* **Precision, Recall, dan F1-Score:**1.0 — Tidak ada kesalahan klasifikasi, baik dalam prediksi positif maupun negatif untuk setiap kelas.

Kedua algoritma menunjukkan performa sempurna pada data uji dengan skor akurasi dan metrik lainnya mencapai 100%. Ini menandakan model dapat mengenali pola data dengan sangat baik tanpa kesalahan klasifikasi. Tidak ada perbedaan signifikan di antara keduanya pada dataset ini.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

## Analisis Hasil Evaluasi Model Klasifikasi

Dalam percobaan ini, saya menggunakan dua algoritma, yaitu **K-Nearest Neighbors (KNN)** dan **Decision Tree (DT)**. Menariknya, kedua model menunjukkan performa yang sama-sama sangat baik saat diuji dengan data yang tersedia.

- **Akurasi 100%** menunjukkan bahwa semua prediksi yang dibuat oleh kedua model benar.
- Selain itu, **Precision**, **Recall**, dan **F1-Score** juga mencapai nilai sempurna (**1.0**), yang artinya tidak ada kesalahan dalam memprediksi masing-masing kelas.

Melihat hasil tersebut, bisa disimpulkan bahwa KNN dan DT mampu mengenali pola dalam data dengan sangat akurat. Namun, performa yang terlalu sempurna seperti ini juga bisa menjadi tanda bahwa model mengalami **overfitting**, apalagi jika data yang digunakan terbatas atau tidak cukup bervariasi.

### Rekomendasi

Kalau pakai KNN, penting banget buat milih nilai k (jumlah tetangganya) dengan hati-hati. Soalnya, kalau k-nya terlalu kecil, model bisa jadi terlalu nurutin data latih—alias overfitting. Jadi, hasilnya bisa aja bagus di data latih, tapi kacau waktu ketemu data baru.

Biar modelnya lebih stabil dan bisa kerja bagus di kondisi yang lebih nyata, ada baiknya:

- Tambah data yang lebih banyak dan bervariasi, supaya model bisa belajar pola yang lebih umum, bukan cuma hafalin data yang itu-itu aja.
- Coba modelnya pakai data lain juga, jangan cuma di data latih. Biar tahu apakah model beneran bisa generalisasi atau enggak.

Intinya, jangan langsung puas kalau akurasi tinggi—perlu dicek lagi apakah modelnya benar-benar pintar, atau cuma jago ngafalin.
