# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
df = pd.read_csv('gariskemiskinan_with_cluster.csv')
print("Dataset Shape:", df.shape)
print("\nDataset Head:\n", df.head())

Dataset Shape: (5460, 13)

Dataset Head:
   provinsi    jenis     daerah  tahun    periode        gk  jenis_encoded  \
0     ACEH  MAKANAN  PERKOTAAN   2015      MARET  293697.0              0   
1     ACEH  MAKANAN  PERKOTAAN   2015  SEPTEMBER  302128.0              0   
2     ACEH  MAKANAN  PERKOTAAN   2016      MARET  306243.0              0   
3     ACEH  MAKANAN  PERKOTAAN   2016  SEPTEMBER  319768.0              0   
4     ACEH  MAKANAN  PERDESAAN   2015      MARET  297479.0              0   

   daerah_encoded  gk_scaled  cluster       PC1       PC2  gk_original  
0               2  -0.067946        8 -0.467724  1.220534     293697.0  
1               2  -0.013644        8 -0.419958  1.221537     302128.0  
2               2   0.012859        8 -0.396645  1.222027     306243.0  
3               2   0.099970        8 -0.320019  1.223637     319768.0  
4               0  -0.043587        0 -0.634601 -0.724436     297479.0  


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [3]:

# 2. Memeriksa Missing Values
print("\nMissing Values:\n", df.isnull().sum())

# 3. Memisahkan Fitur dan Label
y = df['cluster']  # Target label hasil clustering
X = df.drop(columns=['cluster'])  # Fitur

# 4. Split Data menjadi Training dan Testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 5. Normalisasi Data
scaler = StandardScaler()
# Hanya memilih kolom numerik
X_train_scaled = scaler.fit_transform(X_train.select_dtypes(include=['number']))
X_test_scaled = scaler.transform(X_test.select_dtypes(include=['number']))


Missing Values:
 provinsi          0
jenis             0
daerah            0
tahun             0
periode           0
gk                0
jenis_encoded     0
daerah_encoded    0
gk_scaled         0
cluster           0
PC1               0
PC2               0
gk_original       0
dtype: int64


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Pada tahap ini, saya memilih menggunakan dua algoritma yang berbeda, yaitu Decision Tree dan Random Forest. Karena kedua algoritma ini memiliki keunggulan dalam menangani data dengan fitur komplek dan menghasilkan prediksi yang akurat maka cocok untuk digunakan untuk membangun model klasifikasi. 

Untuk membangun model ini, kami melatih kedua algoritma dengan data latih (X_train_scaled, y_train) dan melakukan prediksi terhadap data uji (X_test_scaled).

In [4]:
# Menggunakan Decision Tree dan Random Forest
models = {
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'Random Forest': RandomForestClassifier(random_state=42)
}

- Decision Tree adalah algoritma machine learning yang digunakan untuk tugas klasifikasi dan regresi dengan membangun model berbentuk pohon keputusan. Model ini bekerja dengan membagi data ke dalam cabang-cabang berdasarkan fitur yang paling signifikan, hingga mencapai keputusan akhir. Keunggulan Decision Tree adalah interpretabilitasnya yang tinggi dan kemampuannya menangani data dengan berbagai jenis variabel, tetapi model ini rentan terhadap overfitting, terutama jika pohonnya terlalu dalam.

- Random Forest adalah pengembangan dari Decision Tree yang menggunakan konsep ensemble learning dengan membangun banyak pohon keputusan dan menggabungkan hasilnya untuk meningkatkan akurasi serta mengurangi overfitting. Setiap pohon dalam Random Forest dilatih pada subset data yang dipilih secara acak (bootstrapping) dan menggunakan fitur yang dipilih secara acak, sehingga model menjadi lebih robust terhadap variasi data. Karena sifatnya yang menggabungkan banyak pohon, Random Forest umumnya lebih akurat dan stabil dibandingkan Decision Tree, tetapi dengan biaya komputasi yang lebih tinggi.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [5]:
for name, model in models.items():
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    print(f"\n{name} Model Performance:")
    print("Accuracy:", accuracy_score(y_test, y_pred))
    print("Classification Report:\n", classification_report(y_test, y_pred))
    print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))


Decision Tree Model Performance:
Accuracy: 0.9990842490842491
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       117
           1       1.00      1.00      1.00       111
           2       1.00      0.99      0.99       100
           3       1.00      1.00      1.00       124
           4       1.00      1.00      1.00        97
           5       1.00      1.00      1.00       206
           6       1.00      1.00      1.00       107
           7       1.00      1.00      1.00       108
           8       1.00      1.00      1.00       122

    accuracy                           1.00      1092
   macro avg       1.00      1.00      1.00      1092
weighted avg       1.00      1.00      1.00      1092

Confusion Matrix:
 [[117   0   0   0   0   0   0   0   0]
 [  0 111   0   0   0   0   0   0   0]
 [  0   0  99   0   0   1   0   0   0]
 [  0   0   0 124   0   0   0   0   0]
 [  0   0   0   0  97   0   0   0

1. Decision Tree Performance 

**- Accuracy: 1.00 (100%)**

    - Model Decision Tree memiliki akurasi sempurna, artinya setiap sampel dalam dataset diuji dengan benar tanpa kesalahan klasifikasi.

**- Precision, Recall, F1-Score: 1.00 untuk semua kelas**

    - Precision, Recall, dan F1-score semuanya bernilai 1.00, yang berarti model tidak membuat kesalahan prediksi.
    - Tidak ada false positive (kesalahan dalam memprediksi kelas) maupun false negative (kesalahan dalam mengklasifikasikan kelas yang benar).

**- Confusion Matrix: Semua prediksi benar**

    - Tidak ada kesalahan klasifikasi; setiap sampel diprediksi dengan sempurna.
    - Semua nilai di diagonal utama matrix menunjukkan jumlah data yang diklasifikasikan dengan benar, tanpa ada kesalahan di luar diagonal.

2. Random Forest Performance 

**- Accuracy: 0.999 (99.9%)**

    - Model Random Forest memiliki performa hampir sempurna dengan satu kesalahan klasifikasi dari total 1,092 sampel.

**- Precision, Recall, F1-Score: Mayoritas bernilai 1.00**

    - Hanya kelas 2 yang memiliki recall 0.99, menunjukkan ada satu sampel yang salah diklasifikasikan ke kelas lain.

    - Meskipun demikian, skor keseluruhan tetap sangat tinggi, menunjukkan model ini sangat andal dalam klasifikasi.

**- Confusion Matrix: Hampir semua prediksi benar**

    - Semua kelas diprediksi dengan benar kecuali satu kesalahan pada kelas 2.

    - Misalnya, jika ada 100 sampel di kelas 2, 99 diklasifikasikan dengan benar, tetapi 1 dikategorikan ke kelas lain.

Model Decision Tree dan Random Forest menunjukkan performa yang sangat tinggi dengan akurasi hampir sempurna. Decision Tree memiliki akurasi 100%, sedangkan Random Forest mencapai 99.9% dengan hanya satu kesalahan klasifikasi pada kelas tertentu. Semua metrik evaluasi, seperti Precision, Recall, dan F1-Score, bernilai 1.00, kecuali pada kelas 2 dalam Random Forest yang memiliki recall 0.99. Hasil Confusion Matrix menunjukkan bahwa hampir semua prediksi benar, tanpa kesalahan signifikan. Meskipun hasil ini sangat baik, ada kemungkinan overfitting, terutama pada Decision Tree, yang mungkin terlalu menyesuaikan dengan data latih. Untuk memastikan model dapat bekerja dengan baik pada data baru, disarankan melakukan validasi silang dan pengujian dengan dataset lain.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [6]:
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10],
}
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train_scaled, y_train)
print("\nBest Parameters:", grid_search.best_params_)


Best Parameters: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 50}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [7]:
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test_scaled)
print("\nRandom Forest after Hyperparameter Tuning:")
print("Accuracy:", accuracy_score(y_test, y_pred_best))
print("Classification Report:\n", classification_report(y_test, y_pred_best))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_best))
     


Random Forest after Hyperparameter Tuning:
Accuracy: 0.9990842490842491
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       117
           1       1.00      1.00      1.00       111
           2       1.00      0.99      0.99       100
           3       1.00      1.00      1.00       124
           4       1.00      1.00      1.00        97
           5       1.00      1.00      1.00       206
           6       1.00      1.00      1.00       107
           7       1.00      1.00      1.00       108
           8       1.00      1.00      1.00       122

    accuracy                           1.00      1092
   macro avg       1.00      1.00      1.00      1092
weighted avg       1.00      1.00      1.00      1092

Confusion Matrix:
 [[117   0   0   0   0   0   0   0   0]
 [  0 111   0   0   0   0   0   0   0]
 [  0   0  99   0   0   1   0   0   0]
 [  0   0   0 124   0   0   0   0   0]
 [  0   0   0   0  97  

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

In [8]:
print("\nAnalisis Hasil Evaluasi Model:")
print("- Decision Tree mungkin mengalami overfitting karena tidak ada regularisasi.")
print("- Random Forest lebih stabil dan memiliki akurasi yang lebih tinggi.")
print("- Setelah tuning, Random Forest menunjukkan peningkatan performa dengan parameter terbaik.")
     


Analisis Hasil Evaluasi Model:
- Decision Tree mungkin mengalami overfitting karena tidak ada regularisasi.
- Random Forest lebih stabil dan memiliki akurasi yang lebih tinggi.
- Setelah tuning, Random Forest menunjukkan peningkatan performa dengan parameter terbaik.


Rekomedasi: 
- Gunakan pruning dan Regularisasi pada Decision Tree untuk mengurangi kompleksitas model dan mencegah model terlalu menyesuaikan dengan data latih.(khusus untuk Decision Tree)
     