# Chapter 2: End-to-End Machine Learning Project

Chapter ini membahas proses Machine Learning secara menyeluruh dari awal hingga akhir. Fokus utama bab ini adalah memahami alur kerja Machine Learning yang sistematis, mulai dari perumusan masalah, pengolahan data, eksplorasi data, pemilihan model, evaluasi, hingga penyempurnaan model.

Pendekatan end-to-end ini sangat penting karena dalam praktik nyata, sebagian besar tantangan Machine Learning justru muncul pada tahap pengolahan dan pemahaman data, bukan pada algoritma itu sendiri.

## 1. Look at the Big Picture

Langkah pertama dalam proyek Machine Learning adalah memahami tujuan bisnis atau permasalahan yang ingin diselesaikan. Tanpa pemahaman yang jelas, model yang dibangun berisiko tidak relevan atau tidak berguna.

### 1.1 Framing the Problem

Pada chapter ini, permasalahan yang diangkat adalah memprediksi nilai median harga rumah di California berdasarkan berbagai fitur seperti lokasi, jumlah kamar, dan populasi.

Masalah ini dikategorikan sebagai **supervised learning** dengan tipe **regression**, karena target yang diprediksi berupa nilai numerik kontinu.

### 1.2 Select a Performance Measure

Untuk mengukur performa model regresi, digunakan metrik **Root Mean Square Error (RMSE)** karena metrik ini sensitif terhadap kesalahan besar dan banyak digunakan dalam evaluasi model regresi.

## 2. Get the Data

Tahap berikutnya adalah memperoleh data yang akan digunakan untuk melatih dan mengevaluasi model.

### 2.1 Create the Workspace

Workspace dibuat menggunakan Python dan library data science seperti NumPy, Pandas, dan Scikit-Learn.

### 2.2 Downloading the Data

Dataset yang digunakan adalah **California Housing Dataset** yang tersedia langsung melalui Scikit-Learn.

### 2.3 Loading the Data

Data dimuat ke dalam bentuk DataFrame untuk memudahkan eksplorasi dan manipulasi.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing

housing = fetch_california_housing(as_frame=True)
housing_df = housing.frame
housing_df.head()

## 3. Take a Quick Look at the Data Structure

### 3.1 Data Overview with info()

Langkah ini bertujuan untuk melihat struktur dataset, jumlah baris, tipe data setiap kolom, serta mendeteksi nilai yang hilang.

### 3.2 Descriptive Statistics

Statistik deskriptif membantu memahami distribusi data seperti nilai rata-rata, standar deviasi, serta rentang nilai.

### 3.3 Categorical Attribute

Pada dataset asli buku, terdapat atribut kategorikal `ocean_proximity`. Namun pada dataset versi Scikit-Learn, atribut ini telah dihilangkan sehingga seluruh fitur bersifat numerik.

In [None]:
housing_df.info()
housing_df.describe()

## 4. Create a Test Set

Pemisahan data training dan test sangat penting agar evaluasi model bersifat objektif.

### 4.1 Random Sampling

### 4.2 Stratified Sampling

Stratified sampling digunakan untuk menjaga proporsi distribusi data tertentu agar tetap representatif.

In [None]:
from sklearn.model_selection import train_test_split

train_set, test_set = train_test_split(housing_df, test_size=0.2, random_state=42)
train_set.shape, test_set.shape

## 5. Discover and Visualize the Data to Gain Insights

Visualisasi data membantu menemukan pola, anomali, dan hubungan antar fitur.

### 5.1 Visualizing Geographical Data
### 5.2 Visualizing Housing Prices
### 5.3 Looking for Correlations
### 5.4 Scatter Matrix

In [None]:
import matplotlib.pyplot as plt

housing_df.plot(kind="scatter", x="Longitude", y="Latitude", alpha=0.1)
plt.show()

corr_matrix = housing_df.corr()
corr_matrix["MedHouseVal"].sort_values(ascending=False)

## 6. Experimenting with Attribute Combinations

### 6.1 Creating New Attributes

Menggabungkan atribut sering kali dapat meningkatkan performa model.

### 6.2 Checking Correlation with New Attributes

In [None]:
housing_df["rooms_per_household"] = housing_df["AveRooms"] / housing_df["AveOccup"]
housing_df.corr()["MedHouseVal"].sort_values(ascending=False)

## 7. Prepare the Data for Machine Learning Algorithms

### 7.1 Separating Predictors and Labels

### 7.2 Data Cleaning (Handling Missing Values)

In [None]:
housing = train_set.drop("MedHouseVal", axis=1)
housing_labels = train_set["MedHouseVal"]

## 11. Full Pipeline for Data Preparation

Pipeline digunakan untuk menyatukan seluruh proses preprocessing secara terstruktur.

### 11.1 ColumnTransformer
### 11.2 Applying the Full Pipeline

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

housing_prepared = num_pipeline.fit_transform(housing)

## 12. Select and Train a Model

### 12.1 Training a Linear Regression Model
### 12.2 Evaluating the Model
### 12.3 Training a Decision Tree Regressor
### 12.4 Evaluating the Decision Tree

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

lin_reg = LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)

lin_predictions = lin_reg.predict(housing_prepared)
lin_rmse = np.sqrt(mean_squared_error(housing_labels, lin_predictions))
lin_rmse

## 13. Better Evaluation Using Cross-Validation

Cross-validation memberikan estimasi performa yang lebih stabil.


In [None]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(lin_reg, housing_prepared, housing_labels,
                         scoring="neg_mean_squared_error", cv=10)
rmse_scores = np.sqrt(-scores)
rmse_scores.mean()

## 14. Fine-Tune Your Model

### 14.1 Training a Random Forest Regressor
### 14.2 Evaluating the Random Forest Model

In [None]:
from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor(random_state=42)
forest_reg.fit(housing_prepared, housing_labels)

## 17. Feature Importance

Random Forest memungkinkan analisis pentingnya setiap fitur terhadap prediksi.


## Closing Summary

Chapter 2 memperkenalkan alur kerja Machine Learning secara lengkap. Bab ini menekankan bahwa keberhasilan proyek Machine Learning tidak hanya bergantung pada algoritma, tetapi juga pada pemahaman data, proses preprocessing, evaluasi yang tepat, serta iterasi yang berkelanjutan.