# BAB 4: MODELLING

Bab 4 ini merupakan tahap implementasi machine learning sesuai panduan.
Model akan dibangun menggunakan data latih yang telah diseimbangkan (X_train_smote, y_train_smote) 
dan akan diuji pada data uji (X_test, y_test) yang telah disisihkan di Bab 3.

In [1]:
# Import necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import warnings
warnings.filterwarnings('ignore')

# Set display options
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

## 4.1 Pemilihan dan Inisialisasi Model

**Tujuan:** Menjelaskan secara formal model yang digunakan dan konfigurasinya.

**Penjelasan:**
- Algoritma yang dipilih adalah **Random Forest Classifier**.
- Alasan (singkat): Merujuk ke Bab 1, algoritma ini dipilih karena kemampuannya menangani *outliers* dengan baik (seperti yang ditemukan di Bab 2) dan kemampuannya mengukur pentingnya fitur.
- Inisialisasi: Model diinisialisasi dengan parameter `random_state=42` untuk memastikan hasil yang konsisten dan dapat direproduksi setiap kali kode dijalankan.

In [2]:
# Inisialisasi Random Forest Classifier
model = RandomForestClassifier(
    random_state=42
)

print("Random Forest Classifier berhasil diinisialisasi dengan random_state=42")

Random Forest Classifier berhasil diinisialisasi dengan random_state=42


## 4.2 Pelatihan Model (*Training*)

**Tujuan:** Menjelaskan proses "belajar" dari model.

**Penjelasan:**
- Model Random Forest yang telah diinisialisasi kemudian "dilatih" (di-*fit*) **hanya** menggunakan data latih yang telah diseimbangkan melalui SMOTE (`X_train_smote` dan `y_train_smote`).
- Selama proses ini, model akan membangun ratusan pohon keputusan untuk mempelajari pola-pola kompleks dari data yang mengarah pada prediksi 'Hujan' atau 'Tidak Hujan'.

In [3]:
# Load the pre-processed datasets from data preparation phase
print("Loading prepared datasets...")

# Load the SMOTE-balanced training dataset
train_data = pd.read_csv('X_train_smote.csv')
X_train_smote = train_data.drop('HujanBesok', axis=1)
y_train_smote = train_data['HujanBesok']

# Load the test dataset
test_data = pd.read_csv('X_test.csv')
X_test = test_data.drop('HujanBesok', axis=1)
y_test = test_data['HujanBesok']

print(f"X_train_smote shape: {X_train_smote.shape}")
print(f"X_test shape: {X_test.shape}")
print(f"y_train_smote shape: {y_train_smote.shape}")
print(f"y_test shape: {y_test.shape}")

Loading prepared datasets...
X_train_smote shape: (181732, 24)
X_test shape: (29092, 24)
y_train_smote shape: (181732,)
y_test shape: (29092,)


In [4]:
# Train the model using the SMOTE-balanced training data
print("Melatih model Random Forest dengan data latih yang telah diseimbangkan...")
model.fit(X_train_smote, y_train_smote)
print("Proses pelatihan model selesai.")

Melatih model Random Forest dengan data latih yang telah diseimbangkan...
Proses pelatihan model selesai.


## 4.3 Penerapan Model pada Data Uji

**Tujuan:** Menggunakan model yang sudah dilatih untuk membuat prediksi pada data baru.

**Penjelasan:**
- Setelah model selesai dilatih, model tersebut diuji kinerjanya dengan data yang belum pernah dilihat sebelumnya, yaitu **data uji (`X_test`)**.
- Penting dicatat bahwa `X_test` adalah data asli yang tidak seimbang, sehingga ini adalah simulasi yang adil untuk kinerja model di dunia nyata.
- Hasil dari prediksi ini (kita sebut `y_pred`) akan disimpan untuk dievaluasi.

In [5]:
# Make predictions on the test set that was prepared in the data prep phase (not SMOTE)
y_pred = model.predict(X_test)

print("Proses prediksi selesai.")
print(f"Jumlah prediksi: {len(y_pred)}")
print(f"Distribusi prediksi: {pd.Series(y_pred).value_counts().to_dict()}")

Proses prediksi selesai.
Jumlah prediksi: 29092
Distribusi prediksi: {0: 23043, 1: 6049}


## Evaluasi Awal

Berikut adalah evaluasi awal dari model terhadap data uji, untuk memberikan gambaran awal sebelum evaluasi menyeluruh di Bab 5.

In [6]:
# Calculate accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Skor Akurasi: {accuracy:.4f}")

# Detailed classification report
print("\nLaporan Klasifikasi:")
print(classification_report(y_test, y_pred, target_names=['Tidak Hujan', 'Hujan']))

Skor Akurasi: 0.8459

Laporan Klasifikasi:
              precision    recall  f1-score   support

 Tidak Hujan       0.90      0.91      0.90     22717
       Hujan       0.66      0.62      0.64      6375

    accuracy                           0.85     29092
   macro avg       0.78      0.77      0.77     29092
weighted avg       0.84      0.85      0.84     29092



## Paragraf Penutup

Proses pemodelan telah selesai dan kita telah menghasilkan satu set prediksi (`y_pred`). Kualitas, efektivitas, dan seberapa akurat prediksi (`y_pred`) ini dibandingkan dengan data aktual (`y_test`) akan dianalisis secara mendalam pada **Bab 5: Evaluasi**.