# Chapter 2: End-to-End Machine Learning Project

## Tujuan Proyek

Dalam bab ini, kita akan menjalankan sebuah proyek pembelajaran mesin secara menyeluruh, dari tahap awal hingga akhir, yang akan mencakup langkah-langkah berikut:

- **Melihat gambaran besar** proyek dan tujuan bisnis
- **Mengambil data** yang diperlukan untuk pelatihan
- **Menemukan dan memvisualisasikan data** untuk mendapatkan wawasan
- **Mempersiapkan data** untuk algoritma pembelajaran mesin
- **Memilih model** yang sesuai dan melatihnya
- **Menyempurnakan model** untuk meningkatkan kinerjanya
- **Menyajikan solusi** kepada pemangku kepentingan
- **Meluncurkan, memantau, dan memelihara sistem** pembelajaran mesin

## 1. Melihat Gambaran Besar

Sebelum kita mulai membangun model, penting untuk memahami tujuan bisnis dan gambaran besar dari proyek pembelajaran mesin ini. Dalam kasus ini, kita akan membangun model untuk memprediksi harga rumah di California berdasarkan data yang ada.

Proyek ini tidak hanya tentang membangun model yang akurat, tetapi juga tentang bagaimana model tersebut digunakan dalam konteks bisnis untuk membuat keputusan yang lebih baik.

## 2. Mengambil Data

Langkah berikutnya adalah mengumpulkan dan menyiapkan data. Di sini, kita akan menggunakan dataset yang mencakup informasi dari Sensus California 1990. Dataset ini mencakup berbagai fitur, seperti jumlah penduduk, pendapatan median, dan harga rumah median di masing-masing distrik.

Data ini akan digunakan untuk membangun model yang memprediksi harga rumah berdasarkan fitur-fitur tersebut.

### Contoh Pengambilan Data

```python
import pandas as pd

# Memuat dataset
housing = pd.read_csv("california_housing_train.csv")

# Menampilkan beberapa baris pertama dataset
housing.head()
```

## 3. Menemukan dan Memvisualisasikan Data untuk Mendapatkan Wawasan

Setelah data dikumpulkan, kita harus memvisualisasikan data untuk menemukan pola atau hubungan antara fitur. Ini adalah langkah penting untuk memahami data sebelum membangun model.

### Contoh Visualisasi Data
```python
import matplotlib.pyplot as plt

# Visualisasi hubungan antara GDP per capita dan Life satisfaction
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)
plt.show()
```

## 4. Mempersiapkan Data untuk Algoritma Pembelajaran Mesin
Data perlu dipersiapkan sebelum digunakan dalam algoritma pembelajaran mesin. Ini mencakup penghapusan nilai yang hilang, pengkodean data kategorikal, dan skala fitur numerik. Contoh:
- Menggunakan SimpleImputer untuk menangani data yang hilang
- Menggunakan StandardScaler untuk menormalisasi fitur numerik

```python
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# Menangani nilai yang hilang
imputer = SimpleImputer(strategy="median")
housing_num = imputer.fit_transform(housing)

# Menstandarisasi data
scaler = StandardScaler()
housing_scaled = scaler.fit_transform(housing_num)
```

## 5. Memilih Model dan Melatihnya
Pada tahap ini, kita memilih algoritma pembelajaran mesin yang akan digunakan, seperti Regresi Linier, Random Forest, atau Support Vector Machines (SVM).

Kita akan melatih model menggunakan data pelatihan dan kemudian mengevaluasi kinerjanya menggunakan data uji.

```python
from sklearn.linear_model import LinearRegression

# Memilih model
model = LinearRegression()

# Melatih model dengan data pelatihan
model.fit(X_train, y_train)
```

## 6. Menyempurnakan Model
Setelah model dilatih, kita perlu menyempurnakannya untuk meningkatkan kinerjanya. Salah satu cara untuk melakukannya adalah dengan melakukan Hyperparameter Tuning menggunakan GridSearchCV atau RandomizedSearchCV untuk mencari kombinasi parameter terbaik.

```python
from sklearn.model_selection import GridSearchCV

# Mendefinisikan parameter grid
param_grid = {'fit_intercept': [True, False], 'normalize': [True, False]}

# Melakukan pencarian grid
grid_search = GridSearchCV(LinearRegression(), param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Menampilkan parameter terbaik
print("Best parameters:", grid_search.best_params_)
```

## 7. Menyajikan Solusi
Setelah model disempurnakan, langkah berikutnya adalah mempresentasikan hasil kepada pemangku kepentingan. Ini dapat mencakup visualisasi hasil prediksi dan kesalahan model serta menjelaskan bagaimana model dapat digunakan untuk mengambil keputusan bisnis.

```python
# Membuat prediksi pada data uji
y_pred = model.predict(X_test)

# Visualisasi hasil prediksi vs nilai sebenarnya
plt.scatter(y_test, y_pred)
plt.xlabel("True Values")
plt.ylabel("Predictions")
plt.title("True Values vs Predictions")
plt.show()
```

## 8. Meluncurkan, Memantau, dan Memelihara Sistem
Setelah model berhasil diluncurkan, penting untuk memantau kinerjanya secara terus-menerus. Anda harus dapat melacak metrik seperti akurasi model dan kesalahan prediksi. Jika model menunjukkan penurunan kinerja, Anda perlu mempertimbangkan untuk melatih ulang model dengan data terbaru atau menyesuaikan hiperparameter.

### Menyimpan Model untuk Produksi
```python
import joblib

# Menyimpan model untuk penggunaan selanjutnya
joblib.dump(model, 'housing_price_predictor.pkl')
```
### Memuat Model yang Disimpan
```python
# Memuat model dari file
model_loaded = joblib.load('housing_price_predictor.pkl')

# Menggunakan model untuk prediksi baru
new_predictions = model_loaded.predict(X_new_data)
```