# Training Model Prediksi Rumah (Versi Lokal)

Notebook ini digunakan untuk melatih ulang model prediksi harga rumah menggunakan dataset `boston.csv` yang ada di komputer lokal Anda.

### Persiapan:
Pastikan Anda telah menginstal library yang dibutuhkan:
```bash
pip install pandas numpy scikit-learn joblib matplotlib seaborn
```

In [None]:
import pandas as pd
import numpy as np
import joblib
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
import os

# ---------------------------------------------------------
# 1. LOAD DATASET
# ---------------------------------------------------------
dataset_path = "boston.csv"
if not os.path.exists(dataset_path):
    print(f"❌ File '{dataset_path}' tidak ditemukan! Pastikan file ada di folder yang sama dengan notebook ini.")
else:
    print("Sedang membaca dataset...")
    df = pd.read_csv(dataset_path)

    # Bersihkan kolom index 'Unnamed: 0' jika ada
    if 'Unnamed: 0' in df.columns:
        df = df.drop(columns=['Unnamed: 0'])

    # Pisahkan Fitur (X) dan Target (y)
    X = df.drop(columns=['PRICE'])
    y = df['PRICE']

    print(f"Dataset berhasil dimuat. Jumlah fitur: {len(X.columns)}")
    print(f"Fitur yang digunakan: {X.columns.tolist()}")

    # ---------------------------------------------------------
    # 2. TRAINING DENGAN PIPELINE (SOLUSI PERBAIKAN SKALA)
    # ---------------------------------------------------------
    print("\nSedang melatih model...")
    # Menggunakan Pipeline untuk Scaling otomatis sebelum Regresi
    model = make_pipeline(StandardScaler(), LinearRegression())

    # Latih model
    model.fit(X, y)
    print("Training selesai!")

    # ---------------------------------------------------------
    # 3. SIMPAN FILE MODEL & FEATURES
    # ---------------------------------------------------------
    print("\nMenyimpan file model ke folder lokal...")
    joblib.dump(model, 'boston_model.pkl')
    joblib.dump(X.columns.tolist(), 'features.pkl')

    print("✅ File 'boston_model.pkl' dan 'features.pkl' berhasil disimpan di folder ini.")

    # ---------------------------------------------------------
    # 4. TEST PREDIKSI
    # ---------------------------------------------------------
    print("\n=== VERIFIKASI PREDIKSI ===")
    # Test input dummy rata-rata
    test_input_mean = X.mean().to_frame().T
    prediksi = model.predict(test_input_mean)[0]
    print(f"Tes Prediksi (Input Rata-rata): ${prediksi:.2f}k")
    
    # Test input 'buruk' ekstrem untuk cek clamp (walaupun di notebook ini kita hanya cek raw predict)
    print("\nCek input ekstrem (bisa negatif di raw model, akan diclamp di backend):")
    bad_input = test_input_mean.copy()
    bad_input['RM'] = 3.0
    bad_input['CRIM'] = 20.0
    bad_input['NOX'] = 0.8
    pred_buruk = model.predict(bad_input)[0]
    print(f"Tes Prediksi (Input Buruk): ${pred_buruk:.2f}k")