<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_4_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Training Models**

## Pendahuluan

Bab ini membahas proses di balik layar saat melatih model Machine Learning, dengan fokus pada topik-topik berikut:

* Regresi Linier

* Gradient Descent

* Regularisasi

* Regresi Logistik

* Regresi Softmax

## Regresi Linier

Model regresi linier memprediksi nilai target sebagai kombinasi linier dari fitur-fitur masukan.

### Rumus Regresi Linier
\[
$\hat{y} = \theta_0 + \theta_1x_1 + \theta_2x_2 + \dots + \theta_nx_n$
\]

atau dalam bentuk vektor:

\[
$\hat{y} = \mathbf{\theta}^T \cdot \mathbf{x}$
\]


### MSE (Mean Squared Error)
Fungsi kerugian yang digunakan untuk regresi linier:

\[
$\text{MSE}(\theta) = \frac{1}{m} \sum_{i=1}^m \left( \theta^T x^{(i)} - y^{(i)} \right)^2$
\]

## Normal Equation

Solusi eksak untuk parameter regresi linier diperoleh dengan rumus:

\[
$\theta = (X^T X)^{-1} X^T y$
\]

Namun, metode ini menjadi tidak efisien ketika jumlah fitur sangat besar karena kompleksitas komputasi yang tinggi.

## Gradient Descent

### Prinsip Dasar
Gradient Descent adalah metode iteratif untuk meminimalkan fungsi kerugian.

Rumus Pembaruan

\[
$\theta := \theta - \eta \cdot \nabla_\theta J(\theta)$
\]

- \($ \eta $\): learning rate
- \($ \nabla_\theta J(\theta) $\): turunan dari fungsi kerugian terhadap parameter

### Jenis-Jenis Gradient Descent:

1. Batch Gradient Descent – menggunakan seluruh dataset

2. Stochastic Gradient Descent (SGD) – menggunakan satu sampel per iterasi

3. Mini-batch Gradient Descent – menggunakan subset kecil dari data

## Regresi Polinomial

Model ini memproyeksikan data ke fitur-fitur polinomial agar mampu mempelajari hubungan nonlinier.

Tantangan:
* Overfitting jika derajat polinomial terlalu tinggi

* Underfitting jika derajat terlalu rendah

## Learning Curves

Kurva pembelajaran menggambarkan error terhadap ukuran data pelatihan untuk mendeteksi overfitting atau underfitting.

* Training error turun

* Validation error naik → indikasi overfitting

## Regularisasi
Regularisasi bertujuan mencegah overfitting dengan menambahkan penalti terhadap nilai parameter model.

Ridge Regression (L2)

\[
$J(\theta) = \text{MSE}(\theta) + \alpha \sum_{j=1}^{n} \theta_j^2$
\]

Lasso Regression (L1)

\[
$J(\theta) = \text{MSE}(\theta) + \alpha \sum_{j=1}^{n} |\theta_j|$
\]

Elastic Net
Gabungan L1 dan L2:

\[
$J(\theta) = \text{MSE}(\theta) + r \cdot \sum |\theta_j| + (1 - r) \cdot \sum \theta_j^2$
\]

## Early Stopping
Teknik ini menghentikan proses pelatihan saat error pada validation set mulai meningkat, untuk menghindari overfitting.

## Regresi Logistik
Model ini digunakan untuk klasifikasi biner.

### Hipotesis (Fungsi Sigmoid)

\[
$\hat{p} = \sigma(z) = \frac{1}{1 + e^{-z}} \quad \text{dengan } z = \theta^T x$
\]

### Fungsi Kerugian (Log Loss)

\[
$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(\hat{p}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{p}^{(i)}) \right]$
\]

### Turunan parsial terhadap parameter:

\[
$\frac{\partial J}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^{m} \left( \hat{p}^{(i)} - y^{(i)} \right) x_j^{(i)}$
\]

## Regresi Softmax (Multikelas)
Regresi Softmax merupakan perluasan regresi logistik untuk klasifikasi multi-kelas.

### Skor untuk kelas ke- 𝑘:

\[
$s_k(x) = x^T \theta^{(k)}$
\]


### Fungsi Softmax:

\[
$\hat{p}_k = \frac{e^{s_k(x)}}{\sum_{j=1}^{K} e^{s_j(x)}}$
\]

### Fungsi Kerugian (Cross-Entropy):

\[
$J(\Theta) = -\frac{1}{m} \sum_{i=1}^{m} \sum_{k=1}^{K} y_k^{(i)} \log(\hat{p}_k^{(i)})$
\]

### Gradien:

\[
$\nabla_{\theta^{(k)}} J(\Theta) = \frac{1}{m} \sum_{i=1}^{m} \left( \hat{p}_k^{(i)} - y_k^{(i)} \right) x^{(i)}$
\]

## Regularisasi pada Regresi Logistik/Softmax
Secara default, LogisticRegression di Scikit-Learn menggunakan regularisasi L2.

* Hyperparameter: C adalah kebalikan dari kekuatan regularisasi

    *  Nilai C besar → regularisasi lemah

    *  Nilai C kecil → regularisasi kuat

# **Kesimpulan**
Bab ini membahas berbagai teknik dasar yang digunakan dalam pelatihan model Machine Learning, dimulai dari regresi linier hingga regresi logistik dan softmax. Regresi linier dapat diselesaikan secara analitik menggunakan Normal Equation atau secara iteratif dengan Gradient Descent, yang memiliki tiga varian: batch, stochastic, dan mini-batch. Untuk menangani permasalahan overfitting, diterapkan teknik regularisasi seperti Ridge (L2), Lasso (L1), dan Elastic Net, serta strategi early stopping. Dalam klasifikasi, regresi logistik digunakan untuk kasus biner, sedangkan regresi softmax digunakan untuk kasus multikelas. Kedua pendekatan ini menggunakan fungsi kerugian yang sesuai seperti log loss dan cross-entropy, serta melibatkan proses optimasi melalui turunan gradien. Pemahaman menyeluruh terhadap rumus matematis, fungsi kerugian, serta metode optimasi sangat penting untuk membangun model yang efektif, efisien, dan mampu melakukan generalisasi dengan baik terhadap data baru.

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.