# Chapter 4: Training Models

Pada chapter ini, kita membahas bagaimana **model Machine Learning dilatih** menggunakan data.
Fokus utama chapter ini adalah **model regresi**, teknik optimisasi, serta konsep penting seperti
underfitting, overfitting, dan regularisasi.

Chapter ini merupakan fondasi penting sebelum masuk ke model yang lebih kompleks seperti
Support Vector Machines dan Neural Networks.


## 1. Linear Regression

Linear Regression adalah salah satu algoritma Machine Learning paling sederhana dan paling sering digunakan.
Model ini mencoba mempelajari hubungan linear antara fitur input dan target output.

Bentuk umum model Linear Regression:

\[
\hat{y} = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n
\]

Tujuan pelatihan model adalah menemukan parameter θ (theta) yang meminimalkan kesalahan prediksi.


### 1.1 Model Linear Regression

Model Linear Regression mengasumsikan bahwa hubungan antara variabel bersifat linear.
Kesalahan prediksi diukur menggunakan **Mean Squared Error (MSE)** sebagai fungsi biaya.


## 2. Generating Linear Data

Sebelum melatih model, kita akan membuat dataset sederhana yang memiliki hubungan linear.
Dataset ini akan digunakan untuk memahami cara kerja algoritma regresi secara intuitif.


In [None]:
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

plt.scatter(X, y)
plt.xlabel("X")
plt.ylabel("y")
plt.show()


## 3. Training Linear Regression Using the Normal Equation

Salah satu cara menghitung parameter Linear Regression adalah menggunakan **Normal Equation**.
Pendekatan ini memberikan solusi analitik langsung tanpa iterasi.


### 3.1 Normal Equation

Normal Equation dirumuskan sebagai:

\[
\theta = (X^T X)^{-1} X^T y
\]

Pendekatan ini bekerja baik untuk dataset kecil hingga menengah, tetapi tidak efisien
untuk dataset yang sangat besar.


In [None]:
X_b = np.c_[np.ones((100, 1)), X]

theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
theta_best


### 3.2 Making Predictions

Setelah parameter model diperoleh, kita dapat menggunakan model tersebut untuk
melakukan prediksi pada data baru.


In [None]:
X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new]

y_predict = X_new_b.dot(theta_best)
y_predict


## 4. Linear Regression Using Scikit-Learn

Scikit-Learn menyediakan implementasi Linear Regression yang efisien dan mudah digunakan.
Pendekatan ini lebih praktis dibandingkan implementasi manual.


In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X, y)

lin_reg.intercept_, lin_reg.coef_


## 5. Gradient Descent

Gradient Descent adalah metode optimisasi iteratif yang digunakan untuk meminimalkan fungsi biaya.
Metode ini sangat penting ketika Normal Equation tidak praktis digunakan.


### 5.1 The Cost Function

Pada Linear Regression, fungsi biaya yang digunakan adalah **Mean Squared Error (MSE)**.
Gradient Descent bekerja dengan menuruni gradien fungsi ini.


### 5.2 Batch Gradient Descent

Batch Gradient Descent menggunakan seluruh dataset pada setiap langkah pembaruan parameter.
Pendekatan ini stabil tetapi bisa sangat lambat untuk dataset besar.


In [None]:
eta = 0.1
n_iterations = 1000
m = 100

theta = np.random.randn(2, 1)

for iteration in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
    theta = theta - eta * gradients

theta


### 5.3 Learning Rate

**Learning rate** (sering dilambangkan dengan simbol η atau α) merupakan salah satu hiperparameter paling penting dalam algoritma **Gradient Descent**. Parameter ini mengontrol **besar langkah perubahan parameter model** (bobot dan bias) pada setiap iterasi selama proses pelatihan.

Secara intuitif, learning rate menentukan seberapa cepat model bergerak menuju nilai minimum dari fungsi biaya (*cost function*). Pemilihan nilai learning rate yang tepat sangat berpengaruh terhadap keberhasilan proses optimasi.

Beberapa kondisi yang umum terjadi terkait pemilihan learning rate adalah sebagai berikut:

- **Learning rate terlalu kecil**  
  Jika nilai learning rate sangat kecil, setiap pembaruan parameter akan dilakukan dengan langkah yang sangat pendek. Akibatnya, proses konvergensi menuju minimum fungsi biaya menjadi sangat lambat. Model membutuhkan banyak iterasi untuk mencapai solusi yang optimal, sehingga waktu pelatihan menjadi tidak efisien.

- **Learning rate terlalu besar**  
  Sebaliknya, jika learning rate terlalu besar, pembaruan parameter dapat melampaui titik minimum fungsi biaya. Kondisi ini menyebabkan algoritma gagal konvergen dan bahkan dapat mengalami **divergensi**, di mana nilai fungsi biaya justru semakin besar dari waktu ke waktu.

Oleh karena itu, learning rate harus dipilih dengan hati-hati agar algoritma dapat mencapai konvergensi secara stabil dan efisien. Dalam praktik, nilai learning rate sering ditentukan melalui eksperimen atau menggunakan teknik penyesuaian otomatis seperti **learning schedule**.

Dalam buku *Hands-On Machine Learning*, perilaku Gradient Descent dengan berbagai nilai learning rate biasanya divisualisasikan dalam bentuk grafik. Visualisasi tersebut menunjukkan perbedaan antara:
- konvergensi yang stabil menuju minimum global,
- osilasi di sekitar minimum,
- serta kegagalan konvergensi akibat langkah pembaruan yang terlalu besar.

Visualisasi ini membantu memberikan pemahaman intuitif mengenai dampak learning rate terhadap proses pelatihan model.


## 6. Stochastic Gradient Descent (SGD)

SGD memperbarui parameter menggunakan satu instance data pada setiap iterasi.
Metode ini jauh lebih cepat tetapi lebih berisik dibandingkan Batch Gradient Descent.


### 6.1 Karakteristik Stochastic Gradient Descent (SGD)

Stochastic Gradient Descent (SGD) merupakan varian dari Gradient Descent yang melakukan pembaruan parameter menggunakan **satu sampel data secara acak** pada setiap iterasi. Pendekatan ini memberikan sejumlah karakteristik khas yang membedakannya dari Batch Gradient Descent.

Beberapa karakteristik utama dari SGD antara lain:
- Proses pembaruan parameter berlangsung sangat cepat karena hanya menggunakan satu instance data
- Sangat efisien untuk dataset berskala besar dan cocok untuk skenario online learning
- Jalur optimasi menuju minimum fungsi biaya cenderung berosilasi dan tidak stabil
- Sulit mencapai minimum absolut secara presisi, namun mampu mendekati minimum global


### 6.2 Learning Schedule

Untuk mengurangi efek osilasi yang berlebihan pada Stochastic Gradient Descent, sering diterapkan strategi yang disebut **learning schedule**. Learning schedule adalah metode untuk **menurunkan nilai learning rate secara bertahap** seiring berjalannya proses training.

Dengan learning rate yang semakin kecil:
- Langkah pembaruan parameter menjadi lebih halus
- Proses optimasi menjadi lebih stabil saat mendekati solusi optimal
- Model memiliki peluang lebih besar untuk konvergen dengan baik


In [None]:
n_epochs = 50
t0, t1 = 5, 50

def learning_schedule(t):
    return t0 / (t + t1)

theta = np.random.randn(2, 1)

for epoch in range(n_epochs):
    for i in range(m):
        random_index = np.random.randint(m)
        xi = X_b[random_index:random_index+1]
        yi = y[random_index:random_index+1]
        gradients = 2 * xi.T.dot(xi.dot(theta) - yi)
        eta = learning_schedule(epoch * m + i)
        theta = theta - eta * gradients

theta

## 7. Mini-batch Gradient Descent

Mini-batch Gradient Descent merupakan kompromi antara Batch dan SGD.
Metode ini menggunakan sebagian kecil data pada setiap iterasi.


### 7.1 Keunggulan Mini-batch Gradient Descent

Mini-batch Gradient Descent merupakan kompromi antara Batch Gradient Descent dan Stochastic Gradient Descent. Metode ini melakukan pembaruan parameter dengan menggunakan sebagian kecil data (mini-batch) pada setiap iterasi.

Beberapa keunggulan utama dari pendekatan ini antara lain:

- Proses optimisasi lebih stabil dibandingkan Stochastic Gradient Descent karena gradien dihitung dari lebih dari satu sampel
- Waktu komputasi lebih efisien dibandingkan Batch Gradient Descent karena tidak harus memproses seluruh dataset sekaligus
- Sangat cocok digunakan pada perangkat keras modern seperti CPU multi-core dan GPU karena mendukung komputasi paralel

Berkat keseimbangan antara kecepatan dan stabilitas tersebut, Mini-batch Gradient Descent menjadi metode optimisasi yang paling umum digunakan dalam pelatihan model Machine Learning dan Deep Learning.

Dalam literatur, perbedaan perilaku Batch, Stochastic, dan Mini-batch Gradient Descent sering divisualisasikan untuk menunjukkan variasi jalur konvergensi menuju minimum fungsi biaya, sebagaimana diilustrasikan pada buku referensi.


## 8. Polynomial Regression

Polynomial Regression digunakan ketika hubungan antara fitur dan target bersifat non-linear.
Model ini memperluas Linear Regression dengan menambahkan fitur polinomial.


### 8.1 Generating Nonlinear Data

Untuk mengilustrasikan konsep Polynomial Regression, dibuat sebuah dataset sintetis yang memiliki hubungan non-linear antara fitur dan target. Dataset ini dirancang mengikuti pola kuadratik dengan tambahan noise acak agar menyerupai kondisi data dunia nyata.

Hubungan antara variabel input dan target tidak lagi berbentuk garis lurus, sehingga model Linear Regression sederhana akan mengalami kesulitan dalam melakukan fitting secara optimal. Dataset semacam ini sangat sesuai untuk menunjukkan keunggulan Polynomial Regression dibandingkan regresi linier biasa.


In [None]:
m = 100
X = 6 * np.random.rand(m, 1) - 3
y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)


### 8.2 Polynomial Features

Agar model linier mampu menangkap hubungan non-linear, fitur asli perlu diperluas menjadi fitur polinomial. Scikit-Learn menyediakan transformer **PolynomialFeatures** yang secara otomatis menghasilkan kombinasi fitur hingga derajat tertentu.

Dengan menambahkan fitur polinomial, setiap instance tidak hanya direpresentasikan oleh fitur awal, tetapi juga oleh pangkat-pangkatnya. Pendekatan ini memungkinkan model untuk membentuk kurva non-linear meskipun algoritma yang digunakan tetap Linear Regression.

Transformasi fitur ini merupakan inti dari Polynomial Regression, karena kompleksitas model berasal dari fitur, bukan dari algoritma pembelajarannya.


In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
X_poly[0]

### 8.3 Polynomial Regression Model

Setelah fitur polinomial terbentuk, proses pelatihan model dilakukan menggunakan Linear Regression seperti biasa. Model kemudian mempelajari koefisien untuk setiap fitur polinomial yang telah dihasilkan.

Dengan adanya fitur kuadratik (atau derajat lebih tinggi), model mampu menyesuaikan diri terhadap pola non-linear pada data. Hal ini menunjukkan bahwa Polynomial Regression bukanlah algoritma baru, melainkan kombinasi antara transformasi fitur non-linear dan model regresi linier.

Pendekatan ini banyak digunakan sebagai solusi sederhana namun efektif untuk memodelkan hubungan non-linear tanpa harus menggunakan algoritma yang lebih kompleks.



In [None]:
lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)
lin_reg.coef_, lin_reg.intercept_

## 9. Underfitting and Overfitting

Underfitting terjadi ketika model terlalu sederhana.
Overfitting terjadi ketika model terlalu kompleks dan menangkap noise data.


## 10. Learning Curves

Learning Curves digunakan untuk menganalisis performa model terhadap ukuran data training.
Dengan learning curves, kita dapat mendeteksi apakah model mengalami:

- **Underfitting** (bias tinggi)
- **Overfitting** (variance tinggi)
- atau sudah seimbang

Learning curve menampilkan:
- Error pada **training set**
- Error pada **validation set**
seiring bertambahnya jumlah data training.

Jika:
- Kedua kurva error tinggi dan berdekatan → **Underfitting**
- Training error rendah tapi validation error tinggi → **Overfitting**
- Kedua kurva rendah dan berdekatan → **Model baik**


In [None]:

from sklearn.model_selection import learning_curve

train_sizes, train_scores, val_scores = learning_curve(
    LinearRegression(), X, y,
    train_sizes=np.linspace(0.1, 1.0, 10),
    cv=5,
    scoring="neg_mean_squared_error"
)

train_rmse = np.sqrt(-train_scores.mean(axis=1))
val_rmse = np.sqrt(-val_scores.mean(axis=1))

train_rmse, val_rmse



## 11. Regularized Linear Models

Regularisasi digunakan untuk mengurangi overfitting dengan menambahkan penalti terhadap parameter model.


In [None]:
from sklearn.linear_model import Ridge

ridge_reg = Ridge(alpha=1)
ridge_reg.fit(X, y)


In [None]:
from sklearn.linear_model import Lasso

lasso_reg = Lasso(alpha=0.1)
lasso_reg.fit(X, y)


## 12. Logistic Regression

Logistic Regression digunakan untuk klasifikasi biner dengan menggunakan fungsi sigmoid.


## 13. Softmax Regression

Softmax Regression adalah generalisasi Logistic Regression untuk multi-class classification.


## Closing Summary (Chapter 4)

Chapter ini membahas proses pelatihan model Machine Learning secara menyeluruh, mulai dari Linear Regression hingga teknik optimisasi lanjutan.

Pemahaman konsep Gradient Descent, Regularisasi, dan Logistic Regression menjadi fondasi penting sebelum memasuki topik neural networks dan deep learning.
