<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_4_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 4 - Training Models

##  Pendahuluan

Bab ini membahas **apa yang terjadi di balik layar saat melatih model Machine Learning**, khususnya:
- Linear Regression
- Gradient Descent
- Regularisasi
- Logistic Regression
- Softmax Regression

---

##  Linear Regression

Model Linear Regression memprediksi target sebagai kombinasi linear dari fitur:

### 🔹 Rumus Linear Regression

\[
$\hat{y} = \theta_0 + \theta_1x_1 + \theta_2x_2 + \dots + \theta_nx_n$
\]

atau dalam bentuk vektor:

\[
$\hat{y} = \mathbf{\theta}^T \cdot \mathbf{x}$
\]

### 🔸 MSE (Mean Squared Error)

Fungsi kerugian yang digunakan untuk regresi linier adalah:

\[
$\text{MSE}(\theta) = \frac{1}{m} \sum_{i=1}^m \left( \theta^T x^{(i)} - y^{(i)} \right)^2$
\]

---

##  Normal Equation

Untuk solusi eksak parameter:

\[
$\theta = (X^T X)^{-1} X^T y$
\]

Namun, metode ini **tidak efisien** jika fitur terlalu banyak (kompleksitas waktu tinggi).

---

##  Gradient Descent

###  Prinsip
Gradient Descent adalah metode iteratif untuk meminimalkan cost function.

### 🔹 Update rule:

\[
$\theta := \theta - \eta \cdot \nabla_\theta J(\theta)$
\]

- \($ \eta $\): learning rate
- \($ \nabla_\theta J(\theta) $\): turunan dari fungsi kerugian terhadap parameter

### Jenis:
1. **Batch Gradient Descent** – menggunakan seluruh dataset
2. **Stochastic Gradient Descent (SGD)** – satu instance per iterasi
3. **Mini-batch Gradient Descent** – subset kecil (batch)

---

##  Polynomial Regression

Model yang memproyeksikan data ke fitur polinomial agar bisa mempelajari hubungan nonlinier.

###  Tantangan:
- **Overfitting** jika derajat terlalu tinggi
- **Underfitting** jika derajat terlalu rendah

---

##  Learning Curves

Visualisasi error terhadap ukuran data pelatihan, menunjukkan apakah model overfit atau underfit:

- **Training error turun**
- **Validation error naik** → tanda overfitting

---

##  Regularisasi

Untuk mencegah overfitting dengan menambahkan penalti terhadap bobot parameter.

### 🔸 Ridge Regression (L2)

\[
$J(\theta) = \text{MSE}(\theta) + \alpha \sum_{j=1}^{n} \theta_j^2$
\]

### 🔸 Lasso Regression (L1)

\[
$J(\theta) = \text{MSE}(\theta) + \alpha \sum_{j=1}^{n} |\theta_j|$
\]

### 🔸 Elastic Net

Kombinasi L1 dan L2:

\[
$J(\theta) = \text{MSE}(\theta) + r \cdot \sum |\theta_j| + (1 - r) \cdot \sum \theta_j^2$
\]

---

##  Early Stopping

Berhenti melatih model saat error pada validation set mulai naik, mencegah overfitting.

---

##  Logistic Regression

Digunakan untuk klasifikasi biner.

### 🔹 Hipotesis (Fungsi Sigmoid)

\[
$\hat{p} = \sigma(z) = \frac{1}{1 + e^{-z}} \quad \text{dengan } z = \theta^T x$
\]

### 🔸 Cost Function (Log Loss)

\[
$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(\hat{p}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{p}^{(i)}) \right]$
\]

Turunan parsialnya:

\[
$\frac{\partial J}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^{m} \left( \hat{p}^{(i)} - y^{(i)} \right) x_j^{(i)}$
\]

---

##  Softmax Regression (Multiclass)

Generalisasi Logistic Regression untuk klasifikasi multi-kelas.

### 🔸 Skor untuk setiap kelas \( k \):

\[
$s_k(x) = x^T \theta^{(k)}$
\]

### 🔹 Softmax function:

\[
$\hat{p}_k = \frac{e^{s_k(x)}}{\sum_{j=1}^{K} e^{s_j(x)}}$
\]

### 🔸 Cost Function (Cross Entropy):

\[
$J(\Theta) = -\frac{1}{m} \sum_{i=1}^{m} \sum_{k=1}^{K} y_k^{(i)} \log(\hat{p}_k^{(i)})$
\]

### 🔹 Gradien:

\[
$\nabla_{\theta^{(k)}} J(\Theta) = \frac{1}{m} \sum_{i=1}^{m} \left( \hat{p}_k^{(i)} - y_k^{(i)} \right) x^{(i)}$
\]

---

##  Regularisasi Logistic/Softmax Regression

LogisticRegression di Scikit-Learn menggunakan regularisasi L2 secara default.

- **Hyperparameter:** `C` = kebalikan dari kekuatan regularisasi
  - Nilai besar → regularisasi lemah
  - Nilai kecil → regularisasi kuat

---

##  Kesimpulan

- Linear Regression dapat dilatih dengan **Normal Equation** atau **Gradient Descent**.
- **Gradient Descent** memiliki varian: batch, mini-batch, dan stochastic.
- **Regularisasi** sangat penting untuk menghindari overfitting.
- Logistic dan Softmax Regression digunakan untuk klasifikasi.
- Pemahaman terhadap rumus, gradien, dan cost function sangat penting untuk membangun sistem ML yang efisien dan handal.

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.
