# **1. Import Library**

Pada tahap ini, saya mengimpor beberapa library Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [12]:
df = pd.read_csv('gariskemiskinan_with_cluster.csv')
print("Dataset Shape:", df.shape)
print("\nDataset Head:\n", df.head())

Dataset Shape: (5460, 13)

Dataset Head:
   provinsi    jenis     daerah  tahun    periode        gk  jenis_encoded  \
0     ACEH  MAKANAN  PERKOTAAN   2015      MARET  293697.0              0   
1     ACEH  MAKANAN  PERKOTAAN   2015  SEPTEMBER  302128.0              0   
2     ACEH  MAKANAN  PERKOTAAN   2016      MARET  306243.0              0   
3     ACEH  MAKANAN  PERKOTAAN   2016  SEPTEMBER  319768.0              0   
4     ACEH  MAKANAN  PERDESAAN   2015      MARET  297479.0              0   

   daerah_encoded  gk_scaled  cluster       PC1       PC2  gk_original  
0               2  -0.065746        5 -0.462893  1.224069     293697.0  
1               2  -0.011441        5 -0.415091  1.225096     302128.0  
2               2   0.015065        5 -0.391759  1.225597     306243.0  
3               2   0.102181        5 -0.315075  1.227243     319768.0  
4               0  -0.041386        0 -0.632508 -0.718848     297479.0  


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [13]:
# 2. Memeriksa Missing Values
print("\nMissing Values:\n", df.isnull().sum())

# 3. Memisahkan Fitur dan Label
y = df['cluster']  # Target label hasil clustering
X = df.drop(columns=['cluster'])  # Fitur

# 4. Split Data menjadi Training dan Testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. Normalisasi Data
scaler = StandardScaler()
# Hanya memilih kolom numerik
X_train_scaled = scaler.fit_transform(X_train.select_dtypes(include=['number']))
X_test_scaled = scaler.transform(X_test.select_dtypes(include=['number']))


Missing Values:
 provinsi          0
jenis             0
daerah            0
tahun             0
periode           0
gk                0
jenis_encoded     0
daerah_encoded    0
gk_scaled         0
cluster           0
PC1               0
PC2               0
gk_original       0
dtype: int64


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Pada tahap ini, saya menggunakan dua algoritma yang berbeda, yaitu Decision Tree dan Random Forest. Kedua algoritma ini dipilih karena memiliki keunggulan dalam menangani data dengan fitur kompleks dan menghasilkan prediksi yang akurat.

Untuk membangun model ini, kami melatih kedua algoritma dengan data latih (X_train_scaled, y_train) dan melakukan prediksi terhadap data uji (X_test_scaled).

In [15]:
# Menggunakan Decision Tree dan Random Forest
models = {
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42)
}

**Decision Tree**

Decision Tree adalah algoritma berbasis pohon yang membagi data berdasarkan fitur tertentu hingga mencapai keputusan akhir. Setiap percabangan dalam pohon mewakili aturan keputusan yang didasarkan pada nilai fitur dalam dataset. Algoritma ini memiliki keunggulan dalam interpretabilitas yang baik dan kecepatan pelatihan yang tinggi, tetapi cenderung rentan terhadap overfitting, terutama pada dataset yang kompleks.

**Random Forest**

Random Forest adalah metode ensemble yang menggabungkan banyak pohon keputusan (Decision Trees) untuk meningkatkan akurasi dan mengurangi overfitting. Model ini bekerja dengan membuat beberapa pohon keputusan dari subset data yang berbeda dan menggabungkan hasil prediksinya melalui voting mayoritas (untuk klasifikasi). Dengan pendekatan ini, Random Forest lebih tahan terhadap overfitting dibandingkan Decision Tree tunggal.

## **b. Evaluasi Model Klasifikasi**

Setelah melatih model, evaluasi dilakukan dengan menghitung Accuracy, Precision, Recall, F1-Score, dan Confusion Matrix. Hasil evaluasi menunjukkan bahwa kedua model memiliki akurasi sempurna (100%) pada dataset ini, yang dapat mengindikasikan bahwa model terlalu sesuai dengan data latih (overfitting). Berikut adalah ringkasan hasil evaluasi

In [16]:
for name, model in models.items():
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    print(f"\n{name} Model Performance:")
    print("Accuracy:", accuracy_score(y_test, y_pred))
    print("Classification Report:\n", classification_report(y_test, y_pred))
    print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))


Decision Tree Model Performance:
Accuracy: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       117
           1       1.00      1.00      1.00       111
           2       1.00      1.00      1.00       100
           3       1.00      1.00      1.00       124
           4       1.00      1.00      1.00       107
           5       1.00      1.00      1.00       122
           6       1.00      1.00      1.00       206
           7       1.00      1.00      1.00       108
           8       1.00      1.00      1.00        97

    accuracy                           1.00      1092
   macro avg       1.00      1.00      1.00      1092
weighted avg       1.00      1.00      1.00      1092

Confusion Matrix:
 [[117   0   0   0   0   0   0   0   0]
 [  0 111   0   0   0   0   0   0   0]
 [  0   0 100   0   0   0   0   0   0]
 [  0   0   0 124   0   0   0   0   0]
 [  0   0   0   0 107   0   0   0   0]
 [  0   0

1. Decision Tree Performance
  - Accuracy: 1.00
  - Precision, Recall, F1-Score: Semua skor bernilai 1.00, yang berarti model memprediksi semua kelas dengan benar.
  - Confusion Matrix: Tidak ada kesalahan klasifikasi, setiap kelas berhasil diprediksi dengan sempurna.
2. Random Forest Performance
  - Accuracy: 1.00
  - Precision, Recall, F1-Score: Sama seperti Decision Tree, model ini memiliki performa sempurna.
  - Confusion Matrix: Semua prediksi benar, tanpa kesalahan klasifikasi.

Dari hasil evaluasi, kedua algoritma memiliki akurasi sempurna (1.00) dengan semua metrik evaluasi (Precision, Recall, dan F1-Score) juga bernilai 1.00. Ini berarti model berhasil memprediksi setiap kelas dengan benar tanpa kesalahan klasifikasi, seperti yang terlihat pada confusion matrix, yang tidak menunjukkan adanya kesalahan prediksi.

**Kesimpulan**
- Kedua model memiliki performa yang sama, dengan akurasi dan metrik evaluasi yang sempurna.
- Kemungkinan overfitting sangat tinggi, karena model terlalu sempurna dalam memprediksi data uji. Hal ini bisa terjadi jika data latih dan data uji memiliki pola yang sangat mirip atau jika model terlalu kompleks untuk dataset yang digunakan.
- Jika ingin menghindari overfitting, bisa dilakukan penyesuaian hyperparameter atau penggunaan teknik validasi silang (cross-validation) untuk memastikan model lebih generalizable terhadap data baru.

## **c. Tuning Model Klasifikasi (Optional)**

In [17]:
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
}
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train_scaled, y_train)
print("\nBest Parameters:", grid_search.best_params_)


Best Parameters: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 50}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

In [19]:
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test_scaled)
print("\nRandom Forest after Hyperparameter Tuning:")
print("Accuracy:", accuracy_score(y_test, y_pred_best))
print("Classification Report:\n", classification_report(y_test, y_pred_best))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_best))


Random Forest after Hyperparameter Tuning:
Accuracy: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       117
           1       1.00      1.00      1.00       111
           2       1.00      1.00      1.00       100
           3       1.00      1.00      1.00       124
           4       1.00      1.00      1.00       107
           5       1.00      1.00      1.00       122
           6       1.00      1.00      1.00       206
           7       1.00      1.00      1.00       108
           8       1.00      1.00      1.00        97

    accuracy                           1.00      1092
   macro avg       1.00      1.00      1.00      1092
weighted avg       1.00      1.00      1.00      1092

Confusion Matrix:
 [[117   0   0   0   0   0   0   0   0]
 [  0 111   0   0   0   0   0   0   0]
 [  0   0 100   0   0   0   0   0   0]
 [  0   0   0 124   0   0   0   0   0]
 [  0   0   0   0 107   0   0   0   0]

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

In [20]:
print("\nAnalisis Hasil Evaluasi Model:")
print("- Decision Tree mungkin mengalami overfitting karena tidak ada regularisasi.")
print("- Random Forest lebih stabil dan memiliki akurasi yang lebih tinggi.")
print("- Setelah tuning, Random Forest menunjukkan peningkatan performa dengan parameter terbaik.")


Analisis Hasil Evaluasi Model:
- Decision Tree mungkin mengalami overfitting karena tidak ada regularisasi.
- Random Forest lebih stabil dan memiliki akurasi yang lebih tinggi.
- Setelah tuning, Random Forest menunjukkan peningkatan performa dengan parameter terbaik.
