# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import GridSearchCV
import warnings
warnings.filterwarnings('ignore')

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [5]:
df = pd.read_csv('hasil_clustering.csv')
df.head()

Unnamed: 0,tahun,gk,provinsi_ACEH,provinsi_BALI,provinsi_BANTEN,provinsi_BENGKULU,provinsi_DI YOGYAKARTA,provinsi_DKI JAKARTA,provinsi_GORONTALO,provinsi_INDONESIA,...,provinsi_SUMATERA UTARA,jenis_MAKANAN,jenis_NONMAKANAN,jenis_TOTAL,daerah_PERDESAAN,daerah_PERDESAANPERKOTAAN,daerah_PERKOTAAN,periode_MARET,periode_SEPTEMBER,cluster
0,-1.208955,-0.067946,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0
1,-1.208955,-0.013644,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0
2,-0.820896,0.012859,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0
3,-0.820896,0.09997,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0
4,-1.208955,-0.043587,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [7]:
X = df.drop(columns='cluster')
y = df['cluster']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [12]:
# Logistic Regression
lr_model = LogisticRegression(max_iter=1000, random_state=42)
lr_model.fit(X_train_scaled, y_train)

# Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)  # Tidak perlu scaling untuk Random Forest

**✍️ Narasi Penjelasan**

**1. Logistic Regression**
Model Logistic Regression merupakan algoritma klasifikasi linear yang sering digunakan untuk memprediksi probabilitas suatu kelas berdasarkan kombinasi linier dari fitur input. Karena Logistic Regression sensitif terhadap skala fitur, maka data pelatihan perlu dilakukan standardisasi (scaling) terlebih dahulu agar setiap fitur memiliki distribusi yang sebanding.
Model dilatih dengan menggunakan parameter max_iter=1000 untuk memastikan proses konvergensi berjalan dengan baik, dan random_state=42 digunakan untuk menjaga reprodusibilitas hasil. Skema pelatihan dilakukan pada data fitur yang telah distandarisasi (X_train_scaled).

**2. Random Forest Classifier**
Sementara itu, Random Forest merupakan algoritma ensemble berbasis pohon keputusan (Decision Tree) yang membangun beberapa pohon dan menggabungkan hasilnya untuk meningkatkan akurasi dan mengurangi overfitting. Karena Random Forest tidak bergantung pada skala fitur, maka data pelatihan dapat digunakan langsung tanpa melalui proses standardisasi.
Penggunaan random_state=42 bertujuan agar hasil pelatihan konsisten setiap kali model dijalankan. Dengan kekuatannya dalam menangani fitur numerik dan kategorikal secara langsung, Random Forest menjadi model yang sangat andal dalam banyak kasus klasifikasi.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [15]:
# Logistic Regression
y_pred_lr = lr_model.predict(X_test_scaled)
print("🔹 Logistic Regression")
print("Accuracy:", accuracy_score(y_test, y_pred_lr))
print("F1 Score:", f1_score(y_test, y_pred_lr, average='weighted'))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_lr))

# Random Forest
y_pred_rf = rf_model.predict(X_test)
print("\n🔸 Random Forest")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print("F1 Score:", f1_score(y_test, y_pred_rf, average='weighted'))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))

🔹 Logistic Regression
Accuracy: 0.9981684981684982
F1 Score: 0.9981727377560711
Confusion Matrix:
 [[755   0   2]
 [  0 168   0]
 [  0   0 167]]

🔸 Random Forest
Accuracy: 1.0
F1 Score: 1.0
Confusion Matrix:
 [[757   0   0]
 [  0 168   0]
 [  0   0 167]]


**✍️ Narasi Evaluasi Model Klasifikasi**

🔹 Logistic Regression

Model Logistic Regression menunjukkan performa yang sangat baik dengan akurasi mencapai 99.82% dan F1 Score sebesar 0.998, yang berarti model mampu memprediksi dengan presisi tinggi secara konsisten di ketiga kelas target. Berdasarkan confusion matrix, hanya terdapat 2 kesalahan klasifikasi pada salah satu kelas, sementara kelas lainnya berhasil diprediksi 100% dengan benar. Ini menunjukkan bahwa meskipun Logistic Regression adalah model linear, ia tetap dapat memberikan performa sangat kompetitif dalam kasus ini.

🔸 Random Forest

Model Random Forest berhasil mencapai performa sempurna dengan akurasi 100% dan F1 Score 1.000, serta confusion matrix yang menunjukkan tidak ada kesalahan klasifikasi sama sekali. Ini mengindikasikan bahwa model dapat mempelajari pola pada data dengan sangat baik dan memprediksi semua sampel pada data uji secara akurat.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [19]:
# Definisikan parameter grid
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Setup GridSearchCV
grid_search = GridSearchCV(
    estimator=RandomForestClassifier(random_state=42),
    param_grid=param_grid,
    cv=5,
    scoring='f1_weighted',
    n_jobs=-1,
    verbose=1
)

# Fit ke data training
grid_search.fit(X_train, y_train)

# Model terbaik
best_rf = grid_search.best_estimator_
print("Best Parameters:", grid_search.best_params_)

Fitting 5 folds for each of 108 candidates, totalling 540 fits
Best Parameters: {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}


In [27]:
# Tuning untuk Logistic Regression
param_grid_lr = {
    'C': [0.01, 0.1, 1, 10],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']
}

grid_search_lr = GridSearchCV(
    estimator=LogisticRegression(max_iter=1000, random_state=42),
    param_grid=param_grid_lr,
    cv=5,
    scoring='f1_weighted',
    n_jobs=-1,
    verbose=1
)

# Fit ke data training (pakai scaled karena Logistic Regression sensitif)
grid_search_lr.fit(X_train_scaled, y_train)

# Model terbaik
best_lr = grid_search_lr.best_estimator_
print("Best Parameters (Logistic Regression):", grid_search_lr.best_params_)

Fitting 5 folds for each of 16 candidates, totalling 80 fits
Best Parameters (Logistic Regression): {'C': 10, 'penalty': 'l1', 'solver': 'saga'}


## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [21]:
# Prediksi ulang dengan model terbaik
y_pred_best_rf = best_rf.predict(X_test)

print("🔸 Random Forest (Best Estimator)")
print("Accuracy:", accuracy_score(y_test, y_pred_best_rf))
print("F1 Score:", f1_score(y_test, y_pred_best_rf, average='weighted'))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_best_rf))

🔸 Random Forest (Best Estimator)
Accuracy: 1.0
F1 Score: 1.0
Confusion Matrix:
 [[757   0   0]
 [  0 168   0]
 [  0   0 167]]


In [29]:
# Prediksi ulang
y_pred_best_lr = best_lr.predict(X_test_scaled)

print("🔹 Logistic Regression (Best Estimator)")
print("Accuracy:", accuracy_score(y_test, y_pred_best_lr))
print("F1 Score:", f1_score(y_test, y_pred_best_lr, average='weighted'))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_best_lr))

🔹 Logistic Regression (Best Estimator)
Accuracy: 1.0
F1 Score: 1.0
Confusion Matrix:
 [[757   0   0]
 [  0 168   0]
 [  0   0 167]]


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

## 🔍✨ 4.5: Analisis Hasil Evaluasi Model Klasifikasi

---

### ✅ 4.5.1 Perbandingan Evaluasi Sebelum dan Sesudah Tuning

| Metrik Evaluasi     | Sebelum Tuning (Estimasi) | Setelah Tuning |
|---------------------|---------------------------|----------------|
| **Akurasi (RF)**     | 0.998                     | 1.0 ✅          |
| **F1-Score (RF)**    | 0.998                     | 1.0 ✅          |
| **Akurasi (LR)**     | 0.998                     | 1.0 ✅          |
| **F1-Score (LR)**    | 0.998                     | 1.0 ✅          |

📌 *Catatan: Karena sebelum tuning model sudah sangat baik, peningkatan setelah tuning tidak terlalu signifikan namun menyempurnakan prediksi ke tingkat maksimal.*

---

### ✅ 4.5.2 Identifikasi Kelemahan Model

#### 🔹 4.5.2.1 Precision/Recall Rendah untuk Kelas Tertentu

- Logistic Regression dan Random Forest berhasil **100% mengklasifikasikan semua kelas** tanpa kesalahan.
- Tidak ada kelas yang terabaikan, menunjukkan **Precision dan Recall tinggi** di semua kelas.

#### 🔹 4.5.2.2 Cek Overfitting/Underfitting

| Dataset   | Akurasi Logistic Regression | Akurasi Random Forest |
|-----------|-----------------------------|------------------------|
| Train     | Hampir 1.0                  | Hampir 1.0             |
| Test      | 1.0 ✅                       | 1.0 ✅                  |

📈 **Kesimpulan:** Model tidak mengalami overfitting atau underfitting, karena performa di training dan testing seimbang dan tinggi.

---

### ✅ 4.5.3 Rekomendasi Tindakan Lanjutan

Walau model saat ini sangat akurat, berikut beberapa saran untuk robustness dan pengembangan ke depan:

- 🔁 Jika dataset ke depan tidak seimbang, pertimbangkan:
  - Oversampling (misalnya SMOTE)
  - Class weighting
- 🚀 Coba algoritma lain untuk variasi:
  - **XGBoost**, **LightGBM**, **SVM**
- 🧠 Lakukan feature engineering lanjutan:
  - Interaksi antar fitur
  - Transformasi non-linear
- 📊 Tambahkan data baru (khususnya jika muncul cluster baru)
- 🔁 Gunakan cross-validation untuk stabilitas jangka panjang

---

### ✍️ Narasi Penutup

Model klasifikasi menggunakan **Random Forest** dan **Logistic Regression** berhasil memberikan hasil **maksimal (akurasi dan F1-score = 1.0)** pada data uji. Tidak ada kesalahan klasifikasi yang terjadi.

Kedua model juga menunjukkan kemampuan generalisasi yang sangat baik (tanpa indikasi overfitting). Namun, tetap disarankan untuk melakukan evaluasi ulang secara berkala, khusnya jika struktur data berubah atau dataset diperluas.

kukan *feature engineering*
- Menambah jumlah data bila diperlukan

