# Chapter 2: End-to-End Machine Learning Project

Chapter ini membahas bagaimana sebuah proyek Machine Learning dikembangkan secara **menyeluruh dan terstruktur**, mulai dari pemahaman masalah hingga evaluasi sistem akhir.

Berbeda dengan chapter sebelumnya yang bersifat konseptual, pada chapter ini kita langsung dihadapkan pada **studi kasus nyata** yang merepresentasikan tantangan yang sering ditemui oleh data scientist di dunia industri.

Fokus utama dari pembahasan ini adalah membangun **alur kerja Machine Learning yang sistematis**, bukan sekadar melatih model. Dengan pendekatan end-to-end, kita dapat memahami bahwa keberhasilan Machine Learning sangat bergantung pada proses, bukan hanya algoritma.

## 1. Look at the Big Picture

Setiap proyek Machine Learning harus diawali dengan pemahaman menyeluruh terhadap tujuan sistem yang akan dibangun.

Dalam studi kasus ini, kita bekerja dengan dataset perumahan California untuk membangun model yang mampu memprediksi **median harga rumah** berdasarkan data sensus.

Model ini dirancang sebagai bagian dari sistem pendukung keputusan, sehingga akurasi dan stabilitas prediksi menjadi aspek yang sangat penting.

### 1.1 Framing the Problem

Tahap framing bertujuan untuk mengklarifikasi jenis permasalahan yang akan diselesaikan sebelum proses teknis dimulai.

Beberapa aspek penting yang perlu ditentukan antara lain:
- Jenis pembelajaran yang digunakan
- Bentuk output yang diharapkan
- Strategi pelatihan model

Pada proyek ini, tersedia data berlabel berupa harga rumah, sehingga pendekatan yang digunakan adalah **Supervised Learning**. Karena target berupa nilai kontinu, maka permasalahan ini termasuk ke dalam **Regression Problem**.

### 1.2 Select a Performance Measure

Setelah masalah didefinisikan dengan jelas, langkah selanjutnya adalah menentukan **metrik evaluasi** yang sesuai.

Untuk kasus regresi, metrik yang digunakan adalah **Root Mean Squared Error (RMSE)**, karena metrik ini memberikan penalti lebih besar pada kesalahan prediksi yang ekstrem.

Penggunaan RMSE membantu memastikan bahwa model tidak hanya akurat secara rata-rata, tetapi juga konsisten pada berbagai kondisi data.

## 2. Get the Data

Tahap berikutnya adalah memperoleh dataset yang akan digunakan dalam proses pengembangan model.

Dataset California Housing berisi informasi demografis dan geografis yang relevan terhadap harga rumah, sehingga sangat cocok untuk studi kasus regresi.

Data ini akan digunakan untuk mengeksplorasi hubungan antara berbagai fitur dengan nilai target.

In [None]:
import os
import tarfile
import urllib.request


### 2.2 Downloading the Data

Dataset disediakan dalam bentuk file terkompresi dan perlu diunduh serta diekstraksi sebelum digunakan.

Dengan membungkus proses ini ke dalam fungsi, notebook menjadi lebih rapi dan mudah direproduksi.

In [None]:
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"


In [None]:
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    os.makedirs(housing_path, exist_ok=True)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    with tarfile.open(tgz_path) as housing_tgz:
        housing_tgz.extractall(path=housing_path)


## Closing Summary (Chapter 2)

Melalui Chapter 2, kita mempelajari bagaimana sebuah proyek Machine Learning dibangun secara **end-to-end** dengan pendekatan yang sistematis.

Mulai dari perumusan masalah, pemilihan metrik evaluasi, pengumpulan data, hingga persiapan awal untuk pengolahan dan pemodelan data.

Pemahaman alur kerja ini menjadi landasan penting sebelum memasuki tahap pemodelan lanjutan dan optimasi sistem pada chapter selanjutnya.