# Chapter 4: Training Models

Notebook ini merupakan hasil reproduksi dan penjelasan teori dari **Bab 4 - Training Models** dari buku *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd Edition)* oleh Aurélien Géron.

📌 Fokus utama bab ini adalah membahas regresi linier, cost function, gradient descent, dan model linear lainnya seperti Ridge dan Lasso Regression.

---


## Ringkasan Teori Bab 4: Training Models

### 1. Regresi Linear (Linear Regression)
Model regresi linear memprediksi output dengan rumus:

\[
\hat{y} = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n
\]

- $\hat{y}$: nilai prediksi  
- $\theta_j$: parameter bobot  
- $x_i$: nilai fitur ke-$i$

Untuk melatih model, kita meminimalkan cost function berupa MSE.  
Solusi matematis langsung disebut **Normal Equation**:

\[
\hat{\theta} = (X^T X)^{-1} X^T y
\]

---

### 2. Gradient Descent (GD)
Algoritma optimisasi yang menyesuaikan parameter secara iteratif.

**Jenis-jenis Gradient Descent**:
- **Batch GD**: seluruh data — akurat tapi lambat
- **Stochastic GD**: satu sampel — cepat tapi fluktuatif
- **Mini-batch GD**: kombinasi keduanya

> Learning rate terlalu besar = lompat-lompat, terlalu kecil = lambat

---

### 3. Regresi Polinomial (Polynomial Regression)
Model linear dapat digunakan untuk data non-linear dengan menambahkan fitur berupa pangkat variabel:

\[
x, x^2, x^3, \dots
\]

---

### 4. Kurva Pembelajaran (Learning Curves)
Plot error terhadap jumlah data.  

- **Underfitting**: training dan validation error tinggi dan sejajar  
- **Overfitting**: training error rendah, validation error tinggi

---

### 5. Regularisasi (Model Linear Diregularisasi)
Untuk mengurangi overfitting:

- **Ridge Regression (L2)**:
  \[
  J(\theta) = \text{MSE} + \alpha \sum_{i=1}^n \theta_i^2
  \]

- **Lasso Regression (L1)**:
  \[
  J(\theta) = \text{MSE} + \alpha \sum_{i=1}^n |\theta_i|
  \]

- **Elastic Net**: gabungan L1 dan L2
- **Early Stopping**: hentikan training saat validation error mulai naik

---

### 6. Regresi Logistik dan Softmax

**Logistic Regression** untuk binary classification:
\[
\hat{p} = \sigma(z) = \frac{1}{1 + e^{-z}}, \quad z = \theta^T x
\]

**Softmax Regression** untuk multiclass:
\[
\hat{p}_k = \frac{e^{s_k}}{\sum_{j=1}^K e^{s_j}}
\]
dengan $s_k = \theta_k^T x$


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import PolynomialFeatures


## Linear Regression: Simulasi Data

In [None]:
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

plt.plot(X, y, "b.")
plt.xlabel("X")
plt.ylabel("y")
plt.title("Data Linear")
plt.grid(True)
plt.show()

## Training Linear Regression Model

In [None]:
lin_reg = LinearRegression()
lin_reg.fit(X, y)
print("Intercept:", lin_reg.intercept_)
print("Slope:", lin_reg.coef_)


In [None]:
X_new = np.array([[0], [2]])
y_pred = lin_reg.predict(X_new)

plt.plot(X, y, "b.")
plt.plot(X_new, y_pred, "r-", linewidth=2, label="Linear Model")
plt.xlabel("X")
plt.ylabel("y")
plt.title("Hasil Linear Regression")
plt.legend()
plt.grid(True)
plt.show()

## Gradient Descent

Gradient Descent digunakan untuk meminimalkan fungsi cost (MSE). Terdapat tiga jenis:
- Batch Gradient Descent
- Stochastic Gradient Descent (SGD)
- Mini-batch Gradient Descent

Scikit-Learn menggunakan solusi closed-form (`LinearRegression`) atau implementasi SGD (`SGDRegressor`).


## Polynomial Regression

In [None]:
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)

lin_reg_poly = LinearRegression()
lin_reg_poly.fit(X_poly, y)

X_test = np.linspace(0, 2, 100).reshape(-1, 1)
X_test_poly = poly_features.transform(X_test)
y_test_pred = lin_reg_poly.predict(X_test_poly)

plt.plot(X, y, "b.")
plt.plot(X_test, y_test_pred, "r-", label="Polynomial Model")
plt.title("Polynomial Regression")
plt.grid(True)
plt.legend()
plt.show()