# **Chapter 2: End-to-End Machine Learning Project**

---

## **1. Pendahuluan**

Chapter ini menjelaskan bagaimana membangun *Machine Learning Project* secara menyeluruh (*end-to-end*). Materi disusun praktis dengan contoh nyata menggunakan dataset harga rumah di California. Tujuannya agar pembaca memahami proses standar mulai dari persiapan data, eksplorasi, pemodelan, evaluasi, hingga deployment.

---

## **2. Tujuan End-to-End Project**

- Memberikan *big picture* cara kerja proyek ML di dunia nyata.
- Menjelaskan praktik terbaik dalam *data pipeline*, pemilihan model, evaluasi, dan fine-tuning.
- Menggunakan *libraries* Python populer: **Scikit-Learn**, **pandas**, **NumPy**, **Matplotlib**.

---

## **3. Langkah-Langkah Utama**

---

### **a) Look at the Big Picture**

- Tentukan jenis masalah:
  - *Regression*
  - *Classification*
  - *Clustering*
- Tentukan input (*features*) dan output (*labels*).
- Pahami batasan bisnis dan keberhasilan.

---

### **b) Get the Data**

- Unduh dataset: harga rumah di California.
- Data dalam format tabular: baris mewakili rumah, kolom mewakili atribut seperti jumlah kamar, lokasi, pendapatan median, dll.

---

### **c) Create a Test Set**

Pisahkan dataset:
- **Training Set:** 80%  
- **Test Set:** 20%  

Tujuan: mengukur performa model pada data baru.  
Metode:
- *Random sampling*
- *Stratified sampling* (menjaga proporsi kategori penting, contoh: income category).

---

### **d) Discover and Visualize the Data**

Lakukan *Exploratory Data Analysis (EDA)*:
- Statistik deskriptif.
- Visualisasi distribusi atribut.
- Peta sebaran rumah di California.
- Analisis korelasi antar fitur.

Contoh: korelasi pendapatan median dengan harga rumah.

---

### **e) Prepare the Data**

**Langkah-langkah persiapan:**
- *Data Cleaning* — tangani *missing values*.
- *Handling Categorical Data* — *one-hot encoding* untuk fitur kategori.
- *Feature Scaling*:
  - **Min-Max Scaling**:
    $$
    x' = \frac{x - x_{min}}{x_{max} - x_{min}}
    $$
  - **Standardization**:
    $$
    x' = \frac{x - \mu}{\sigma}
    $$
- Buat *Pipeline* agar langkah preprocessing konsisten.

---

### **f) Select and Train a Model**

Algoritma umum:
- Linear Regression
- Decision Tree Regression
- Random Forest Regression

Hitung error:
- **Root Mean Squared Error (RMSE)**:  
  $$
  RMSE = \sqrt{\frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})^2}
  $$

---

### **g) Fine-Tune the Model**

- **Cross-Validation:** evaluasi model dengan data training dibagi ke beberapa *folds*.
- **Grid Search:** coba kombinasi hyperparameter secara exhaustif.
- **Randomized Search:** sampling acak parameter.
- **Ensemble Methods:** gabung beberapa model untuk hasil lebih stabil.

---

### **h) Evaluate on the Test Set**

Gunakan *test set*:
- Hitung error akhir (RMSE atau MAE).
- Pastikan performa realistis di data baru.
- Cek risiko *overfitting* atau *underfitting*.

---

### **i) Deploy & Maintain**

- *Deploy* model ke produksi.
- Pantau performa di data nyata.
- Lakukan retraining jika data berubah (*concept drift*).

---

## **4. Insight Penting**

- Persiapan dan pembersihan data lebih penting daripada algoritma kompleks.
- Gunakan *test set* hanya di tahap akhir evaluasi.
- *Pipelines* memastikan konsistensi preprocessing.
- Dokumentasi proses sangat penting.

---

## **5. Rumus Penting**

- **Root Mean Squared Error (RMSE)**:
  $$
  RMSE = \sqrt{\frac{1}{m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})^2}
  $$

- **Mean Absolute Error (MAE)**:
  $$
  MAE = \frac{1}{m} \sum_{i=1}^{m} |\hat{y}^{(i)} - y^{(i)}|
  $$


