# Import Library

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# Load Dataset cluster

In [None]:
df = pd.read_csv('./Dataset_cluster.csv')
df.head()

Unnamed: 0,provinsi,jenis,daerah,tahun,periode,gk,encoded_jenis,encoded_daerah,scaled_gk,cluster,PC1,PC2,gk_original
0,ACEH,MAKANAN,PERKOTAAN,2015,MARET,293697.0,0,2,-0.065746,5,-0.462893,1.224069,293697.0
1,ACEH,MAKANAN,PERKOTAAN,2015,SEPTEMBER,302128.0,0,2,-0.011441,5,-0.415091,1.225096,302128.0
2,ACEH,MAKANAN,PERKOTAAN,2016,MARET,306243.0,0,2,0.015065,5,-0.391759,1.225597,306243.0
3,ACEH,MAKANAN,PERKOTAAN,2016,SEPTEMBER,319768.0,0,2,0.102181,5,-0.315075,1.227243,319768.0
4,ACEH,MAKANAN,PERDESAAN,2015,MARET,297479.0,0,0,-0.041386,0,-0.632508,-0.718848,297479.0


# Split Dataset

In [33]:
y = df['cluster']
X = df.drop(columns=['cluster'])  # feature
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train.select_dtypes(include=['number']))
X_test_scaled = scaler.transform(X_test.select_dtypes(include=['number']))

# Membangun Model

In [35]:
# Menggunakan Decision Tree, Random Forest, Dan SVM
knn = KNeighborsClassifier().fit(X_train_scaled, y_train)
dt = DecisionTreeClassifier().fit(X_train_scaled, y_train)
rf = RandomForestClassifier().fit(X_train_scaled, y_train)
svm = SVC().fit(X_train_scaled, y_train)
nb = GaussianNB().fit(X_train_scaled, y_train)

print("Model training selesai.")

Model training selesai.


In [37]:
def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test_scaled)
    cm = confusion_matrix(y_test, y_pred)

    num_classes = cm.shape[0]

    results = {
        'Confusion Matrix': cm,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': precision_score(y_test, y_pred, average='weighted'),
        'Recall': recall_score(y_test, y_pred, average='weighted'),
        'F1-Score': f1_score(y_test, y_pred, average='weighted')
    }
    return results

# Mengevaluasi setiap model dan mengumpulkan hasilnya
results = {
    'K-Nearest Neighbors (KNN)': evaluate_model(knn, X_test, y_test),
    'Decision Tree (DT)': evaluate_model(dt, X_test, y_test),
    'Random Forest (RF)': evaluate_model(rf, X_test, y_test),
    'Support Vector Machine (SVM)': evaluate_model(svm, X_test, y_test),
    'Naive Bayes (NB)': evaluate_model(nb, X_test, y_test)
}

# Buat DataFrame untuk meringkas hasil
summary_df = pd.DataFrame(columns=['Model', 'Accuracy', 'Precision', 'Recall', 'F1-Score'])

# Isi DataFrame dengan hasil
rows = []
for model_name, metrics in results.items():
    rows.append({
        'Model': model_name,
        'Accuracy': metrics['Accuracy'],
        'Precision': metrics['Precision'],
        'Recall': metrics['Recall'],
        'F1-Score': metrics['F1-Score']
    })

# Konversi daftar kamus ke DataFrame
summary_df = pd.DataFrame(rows)

# Tampilkan DataFrame
print(summary_df)

                          Model  Accuracy  Precision    Recall  F1-Score
0     K-Nearest Neighbors (KNN)  0.996337   0.996345  0.996337  0.996327
1            Decision Tree (DT)  1.000000   1.000000  1.000000  1.000000
2            Random Forest (RF)  1.000000   1.000000  1.000000  1.000000
3  Support Vector Machine (SVM)  0.998168   0.998186  0.998168  0.998164
4              Naive Bayes (NB)  0.986264   0.987473  0.986264  0.986435


# Ringkasan Performa Model Klasifikasi

## 1. Decision Tree (DT)
- **Akurasi**: 1.000  
- **Precision, Recall, F1-Score**: Semua metrik bernilai 1.000  
- **Kesimpulan**: Model ini memprediksi dengan sempurna tanpa kesalahan. Namun, performa yang terlalu tinggi bisa jadi indikasi overfitting.

## 2. Random Forest (RF)
- **Akurasi**: 1.000  
- **Precision, Recall, F1-Score**: Semua metrik juga bernilai 1.000  
- **Kesimpulan**: Seperti Decision Tree, model ini memiliki performa sempurna, yang perlu dikaji ulang untuk kemungkinan overfitting.

## 3. Support Vector Machine (SVM)
- **Akurasi**: 0.998  
- **Precision**: 0.998  
- **Recall**: 0.998  
- **F1-Score**: 0.998  
- **Kesimpulan**: Performa sangat tinggi dengan kesalahan prediksi yang sangat minim.

## 4. K-Nearest Neighbors (KNN)
- **Akurasi**: 0.996  
- **Precision**: 0.996  
- **Recall**: 0.996  
- **F1-Score**: 0.996  
- **Kesimpulan**: KNN juga menunjukkan performa sangat baik, meski sedikit di bawah SVM.

## 5. Naive Bayes (NB)
- **Akurasi**: 0.986  
- **Precision**: 0.987  
- **Recall**: 0.986  
- **F1-Score**: 0.986  
- **Kesimpulan**: Meskipun memiliki skor paling rendah di antara kelima model, performanya tetap sangat baik dan dapat menjadi alternatif yang efisien secara komputasi.

## Rangkuman Umum
- Semua model menunjukkan performa yang sangat tinggi.
- **Decision Tree** dan **Random Forest** memiliki performa sempurna, tapi perlu diuji lebih lanjut untuk memastikan tidak overfit.
- **SVM** dan **KNN** sangat akurat dan lebih seimbang dalam hal generalisasi.
- **Naive Bayes** sedikit tertinggal, tetapi masih layak dipertimbangkan terutama jika efisiensi menjadi prioritas.


# Evaluasi


- **Decision Tree** menunjukkan akurasi sempurna (1.00) tanpa kesalahan klasifikasi. Namun, hal ini bisa mengindikasikan **overfitting** karena model tidak memiliki mekanisme regularisasi yang cukup, sehingga terlalu mengikuti pola pada data latih.

- **Random Forest** juga mencapai akurasi sempurna (1.00), namun model ini lebih **stabil dan tahan terhadap overfitting** karena menggunakan teknik ensemble dari banyak decision tree. Performanya sangat kuat dan konsisten tanpa kesalahan klasifikasi.

- **Support Vector Machine (SVM)** mencatat akurasi yang sangat tinggi (0.998), dengan sedikit penurunan performa pada kelas tertentu (seperti kelas 2 dan 6). Meski begitu, model ini tetap sangat akurat dan menunjukkan generalisasi yang baik terhadap data uji.

- **K-Nearest Neighbors (KNN)** memperoleh akurasi yang sangat tinggi (0.996), dengan performa yang sangat baik di hampir semua kelas. Namun, KNN cenderung **kurang efisien pada dataset besar** dan sensitif terhadap data outlier atau fitur yang tidak relevan.

- **Naive Bayes** memiliki performa paling rendah di antara model lainnya (akurasi 0.986), namun tetap memberikan hasil yang sangat baik. Model ini cepat, sederhana, dan cocok untuk baseline atau ketika sumber daya komputasi terbatas. Kinerjanya menurun karena asumsi independensi antar fitur tidak sepenuhnya terpenuhi dalam dataset ini.
