<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_2_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 2 - End-to-End Machine Learning Project

##  Tujuan Bab

Bab ini menunjukkan langkah-langkah proyek Machine Learning dari awal hingga akhir menggunakan data dunia nyata. Contoh yang digunakan adalah **prediksi harga rumah di California** berdasarkan data sensus tahun 1990.

---

##  Langkah-Langkah Utama

1. Lihat gambaran besar
2. Ambil data
3. Eksplorasi dan visualisasi data untuk memperoleh wawasan
4. Persiapkan data untuk algoritma Machine Learning
5. Pilih dan latih model
6. Fine-tune model
7. Presentasikan solusi
8. Luncurkan, monitor, dan pelihara sistem

---

##  1. Lihat Gambaran Besar

Sebagai data scientist baru, kamu diminta membangun model yang bisa memprediksi *median housing price* dari data blok sensus di California.

 Pertanyaan penting:
- Apa **tujuan bisnis** dari model ini?
- Apa **masukan dan keluaran** sistem?
- Apa **bentuk solusi akhir** dan bagaimana hasil digunakan?

 Dalam proyek ini, model akan digunakan untuk membantu sistem investasi real estat menentukan apakah layak berinvestasi di sebuah distrik.

---

##  2. Framing Masalah

Klasifikasi masalah:
- ✅ Supervised Learning: karena data memiliki label (harga rumah)
- ✅ Regresi: karena output adalah nilai kontinu
- ✅ Univariate Regression: karena hanya satu target
- ✅ Batch Learning: karena data statis dan tidak berubah terus-menerus

---

##  3. Pemilihan Metrik Evaluasi

Untuk masalah regresi, metrik umum adalah **Root Mean Squared Error (RMSE)**:

\[
$\text{RMSE}(X, h) = \sqrt{\frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2}$
\]

Keterangan:
- \($ m $\): jumlah instance
- \($ h(x^{(i)}) $\): prediksi model
- \($ y^{(i)} $\): label aktual

RMSE sensitif terhadap outlier karena mengkuadratkan error.

Alternatif lain:
- **Mean Absolute Error (MAE)**:

\[
$\text{MAE} = \frac{1}{m} \sum_{i=1}^{m} |h(x^{(i)}) - y^{(i)}|$
\]

---

##  4. Mengambil Data

Dataset disediakan dalam bentuk file CSV (`housing.csv`) yang dikompresi dalam `housing.tgz`.

Dataset ini memuat:
- Lokasi geografis (longitude, latitude)
- Usia rumah, jumlah kamar, populasi, pendapatan median
- Median harga rumah
- Kategori jarak ke laut (`ocean_proximity`)

---

##  5. Eksplorasi dan Visualisasi Data

- Gunakan statistik deskriptif: `describe()`
- Visualisasi distribusi atribut
- Cek nilai yang hilang (`missing values`)
- Identifikasi korelasi antar fitur
- Gunakan *scatter plot*, *histogram*, dan *correlation matrix*

 Contoh kombinasi fitur baru:
- `rooms_per_household`
- `bedrooms_per_room`
- `population_per_household`

Fitur turunan ini sering lebih informatif daripada fitur mentah.

---

##  6. Persiapan Data

###  Pembersihan Data
- Tangani nilai yang hilang (drop, median, mean)
- Standarisasi/normalisasi fitur
- Encoding kategori: One-Hot Encoding untuk `ocean_proximity`

###  Feature Scaling
- Min-Max Scaling (Normalization)
- Standardization (mean = 0, std = 1)

###  Pipelines
Gunakan pipeline untuk memastikan preprocessing konsisten, dapat direproduksi, dan bersih.

---

##  7. Pilih dan Latih Model

Beberapa model yang diuji:
- Linear Regression
- Decision Tree
- Random Forest

Evaluasi dilakukan dengan **RMSE** pada training dan validation set.

---

##  8. Evaluasi dengan Cross-Validation

###  K-Fold Cross-Validation

Proses:
1. Bagi data menjadi K subset
2. Latih model pada K-1 subset, uji di subset ke-K
3. Ulangi K kali, lalu rata-rata hasil

Kelebihan:
- Estimasi performa lebih akurat
- Mengurangi variansi karena overfitting

---

##  9. Fine-Tuning Model

###  Teknik Fine-Tuning:

- **Grid Search**: eksplorasi kombinasi semua hyperparameter
- **Randomized Search**: sampling acak parameter (lebih efisien)
- **Ensemble Learning**: gabungkan beberapa model terbaik

Setelah model optimal ditemukan, evaluasi lagi di **test set**.

---

##  10. Luncurkan, Monitor, dan Pelihara Sistem

Langkah penting:
- Backup model dan dataset
- Logging dan monitoring performa
- Versi data dan model
- Buat subset khusus untuk test mendalam
- Otomatiskan retraining dan deployment

---

##  Kesimpulan

- Proyek ML bukan hanya tentang model, tapi proses end-to-end
- Eksplorasi data dan preprocessing sangat penting
- Evaluasi harus adil dan berdasarkan validasi/test set
- Otomatisasi, dokumentasi, dan pemeliharaan adalah kunci produksi

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.
