<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_2_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **End-to-End Machine Learning Project**

## Tujuan Bab

Bab ini menjelaskan tahapan-tahapan dalam proyek Machine Learning secara menyeluruh menggunakan data dunia nyata. Studi kasus yang digunakan adalah prediksi harga rumah di California berdasarkan data sensus tahun 1990.

## Tahapan Utama

1.   Memahami gambaran umum proyek

2.   Mengumpulkan data

3.   Mengeksplorasi dan memvisualisasikan data untuk mendapatkan wawasan

4.   Mempersiapkan data untuk algoritma Machine Learning

5.   Memilih dan melatih model

6.   Menyempurnakan model (fine-tuning)

7.   Menyajikan solusi

8.   Menerapkan, memantau, dan memelihara sistem

## 1. Memahami Gambaran Umum

Sebagai data scientist pemula, kamu diminta membuat model yang dapat memprediksi median housing price berdasarkan data blok sensus di California.

Pertanyaan kunci:

*   Apa tujuan bisnis dari model ini?

*   Apa input dan output dari sistem?

*   Apa bentuk akhir solusi, dan bagaimana hasilnya akan dimanfaatkan?

Dalam kasus ini, model digunakan untuk membantu sistem investasi real estat dalam menilai kelayakan investasi di suatu distrik.

## 2. Merumuskan Masalah

Klasifikasi masalah:

* Supervised Learning: karena data memiliki label (harga rumah)

* Regresi: karena target berupa nilai kontinu

* Univariate Regression: karena hanya ada satu variabel target

* Batch Learning: karena data bersifat statis (tidak berubah secara terus-menerus)

## 3. Menentukan Metrik Evaluasi

Untuk kasus regresi, metrik umum yang digunakan adalah Root Mean Squared Error (RMSE):

\[
$\text{RMSE}(X, h) = \sqrt{\frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2}$
\]

Keterangan:
- \($ m $\): jumlah instance
- \($ h(x^{(i)}) $\): prediksi model
- \($ y^{(i)} $\): label aktual

RMSE sensitif terhadap outlier karena menghitung kuadrat dari error.

Alternatif lainnya:
* Mean Absolute Error (MAE):

\[
$\text{MAE} = \frac{1}{m} \sum_{i=1}^{m} |h(x^{(i)}) - y^{(i)}|$
\]

## 4. Mengumpulkan Data

Dataset tersedia dalam file CSV (housing.csv) yang dikompresi dalam housing.tgz.

Informasi dalam dataset meliputi:

* Lokasi geografis (longitude, latitude)

* Usia bangunan, jumlah kamar, populasi, pendapatan median

* Median harga rumah

* Kategori jarak ke laut (ocean_proximity)

## 5. Eksplorasi dan Visualisasi Data

Langkah-langkah eksplorasi:

* Gunakan statistik deskriptif dengan fungsi describe()

* Visualisasikan distribusi masing-masing atribut

* Periksa nilai-nilai yang hilang (missing values)

* Analisis korelasi antar fitur

* Gunakan scatter plot, histogram, dan correlation matrix

Contoh pembuatan fitur baru:

* rooms_per_household

* bedrooms_per_room

* population_per_household

Fitur-fitur ini dapat memberikan informasi lebih dibanding fitur mentah.

## 6. Mempersiapkan Data

### Pembersihan Data
* Tangani nilai hilang (dihapus, median, atau mean)

* Standarisasi atau normalisasi nilai fitur

* Encoding fitur kategorikal: Gunakan One-Hot Encoding untuk ocean_proximity

### Feature Scaling
* Min-Max Scaling (normalisasi)

* Standardization (mean = 0, std = 1)

### Pipelines
Gunakan pipeline untuk memastikan preprocessing berjalan secara konsisten, dapat direproduksi, dan rapi.

## 7. Memilih dan Melatih Model

Beberapa model yang diuji:

* Linear Regression

* Decision Tree

* Random Forest

Evaluasi model dilakukan dengan RMSE pada training set dan validation set.

## 8. Evaluasi Menggunakan Cross-Validation

### K-Fold Cross-Validation
Langkah-langkah:

* Bagi dataset menjadi K subset

* Latih model pada K-1 subset, lalu uji pada subset ke-K

* Ulangi proses sebanyak K kali dan rata-rata hasilnya

Keunggulan:

* Estimasi performa lebih akurat

* Mengurangi risiko overfitting

## 9. Fine-Tuning Model

Teknik Fine-Tuning:
* Grid Search: eksplorasi menyeluruh seluruh kombinasi hyperparameter

* Randomized Search: sampling acak dari kombinasi parameter (lebih efisien)

* Ensemble Learning: gabungkan beberapa model terbaik untuk hasil yang lebih stabil

Setelah model terbaik diperoleh, lakukan evaluasi akhir menggunakan test set.

## 10. Implementasi, Monitoring, dan Pemeliharaan

Langkah-langkah penting:

* Backup model dan data

* Logging performa model

* Versi model dan data secara teratur

* Siapkan subset data untuk pengujian lanjutan

* Otomatiskan retraining dan deployment jika diperlukan

## Kesimpulan

Proyek Machine Learning bukan sekadar membangun model, melainkan merupakan proses menyeluruh yang mencakup pemahaman masalah, pengumpulan dan eksplorasi data, persiapan data, pemilihan serta pelatihan model, hingga implementasi dan pemeliharaan sistem. Tahap eksplorasi data dan preprocessing memiliki peran yang sangat krusial dalam menentukan keberhasilan model, karena kualitas input sangat memengaruhi kualitas output. Evaluasi performa model pun harus dilakukan secara objektif dengan menggunakan validation set dan test set agar hasilnya dapat diandalkan. Selain itu, untuk memastikan sistem tetap relevan dan akurat dalam jangka panjang, otomatisasi, dokumentasi yang baik, serta strategi monitoring dan retraining model perlu direncanakan dengan matang. Pendekatan end-to-end ini menjadi fondasi penting dalam penerapan Machine Learning di dunia nyata.



## Referensi

Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.