
# Chapter 4: Training Models

## 1. Pendahuluan

Pada bab ini, kita akan mendalami bagaimana cara melatih model Machine Learning dengan benar, memahami rumus matematis di balik Linear Regression, Polynomial Regression, Logistic Regression, serta Softmax Regression. Bab ini juga menjelaskan algoritma optimasi seperti **Gradient Descent** beserta variannya.



## 2. Definisi dan Tujuan Model Machine Learning

Tujuan dari melatih model adalah menemukan parameter terbaik yang meminimalkan **cost function**, sehingga model dapat mempelajari pola data dengan baik dan memiliki performa generalisasi yang optimal pada data baru.



## 3. Linear Regression

### 3.1 Model Prediksi Linear

\[
$\hat{y} = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n$
\]

Dalam bentuk vektor:

\[
$\hat{y} = h_{\theta}(x) = \theta^T x$
\]



### 3.2 Normal Equation

Untuk menemukan parameter optimal secara langsung:

\[
$\theta = (X^T X)^{-1} X^T y$
\]

#### Contoh Kode:


In [None]:

import numpy as np

# Dataset dummy
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Tambahkan x0 = 1
X_b = np.c_[np.ones((100, 1)), X]

# Hitung theta dengan Normal Equation
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)

print(theta_best)



## 4. Gradient Descent

Gradient Descent digunakan untuk meminimasi cost function dengan pendekatan iteratif.

### 4.1 Cost Function (MSE)

\[
$MSE(\theta) = \frac{1}{m} \sum_{i=1}^{m} (\theta^T x^{(i)} - y^{(i)})^2$
\]

### 4.2 Update Rule

\[
$\theta := \theta - \eta \nabla_{\theta} MSE(\theta)$
\]

### 4.3 Variasi Gradient Descent

- **Batch Gradient Descent**
- **Stochastic Gradient Descent (SGD)**
- **Mini-batch Gradient Descent**



## 5. Polynomial Regression

Untuk data yang non-linear, kita dapat menggunakan Polynomial Regression:

\[
$y = \theta_0 + \theta_1 x + \theta_2 x^2 + \ldots + \theta_n x^n$
\]



## 6. Learning Curves

Digunakan untuk mendeteksi overfitting dan underfitting.

### Contoh Fungsi Python:


In [None]:

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

def plot_learning_curves(model, X, y):
    X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2)
    train_errors, val_errors = [], []
    for m in range(1, len(X_train)):
        model.fit(X_train[:m], y_train[:m])
        y_train_predict = model.predict(X_train[:m])
        y_val_predict = model.predict(X_val)
        train_errors.append(mean_squared_error(y_train[:m], y_train_predict))
        val_errors.append(mean_squared_error(y_val, y_val_predict))
    plt.plot(np.sqrt(train_errors), "r-+", linewidth=2, label="train")
    plt.plot(np.sqrt(val_errors), "b-", linewidth=3, label="val")
    plt.xlabel("Training set size")
    plt.ylabel("RMSE")
    plt.legend()



## 7. Regularized Linear Models

Untuk menghindari overfitting:

- **Ridge Regression (L2)**
- **Lasso Regression (L1)**
- **Elastic Net** (kombinasi L1 & L2)
- **Early Stopping**



## 8. Logistic Regression

Untuk klasifikasi biner.

\[
$p = \sigma(t) = \frac{1}{1 + e^{-t}}, \quad t = \theta^T x$
\]

Cost Function:

\[
$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} [ y^{(i)} \log p^{(i)} + (1 - y^{(i)}) \log (1 - p^{(i)}) ]$
\]



## 9. Softmax Regression

Ekstensi Logistic Regression untuk multi-class classification.

Softmax score:

\[
$s_k(x) = \theta_k^T x$
\]

Probabilitas:

\[
$\hat{p}_k = \frac{e^{s_k(x)}}{\sum_{j=1}^{K} e^{s_j(x)}}$
\]
