<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_11_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 11 - Training Deep Neural Networks

##  Tujuan Bab

Memahami berbagai teknik untuk:
- Mempercepat pelatihan jaringan saraf dalam
- Meningkatkan konvergensi
- Mengatasi overfitting dan vanishing gradient
- Memilih arsitektur dan hyperparameter yang efektif

---

##  Tantangan Pelatihan DNN

1. **Vanishing/Exploding Gradients**
2. **Waktu pelatihan lama**
3. **Kesulitan memilih arsitektur**
4. **Overfitting**

---

##  Vanishing dan Exploding Gradients

###  Masalah:
Saat gradien terlalu kecil (vanishing) atau terlalu besar (exploding), training menjadi tidak stabil.

Biasanya terjadi pada jaringan yang:
- Terlalu dalam
- Menggunakan aktivasi sigmoid/tanh

###  Solusi:

1. **Aktivasi ReLU**
2. **Inisialisasi bobot yang tepat**
3. **Batch Normalization**
4. **Arsitektur shortcut seperti ResNet**

---

##  Inisialisasi Bobot

### 🔹 Xavier (Glorot) Initialization:

\[
$\text{Var}(w) = \frac{1}{n_{\text{inputs}}}$
\]

Cocok untuk sigmoid atau tanh.

### 🔹 He Initialization:

\[
$\text{Var}(w) = \frac{2}{n_{\text{inputs}}}$
\]

Cocok untuk ReLU dan turunannya.

---

##  Batch Normalization

Normalisasi output layer (aktivasi) agar:
- Memiliki mean ≈ 0 dan std ≈ 1
- Mempercepat konvergensi
- Mengurangi sensitivitas terhadap inisialisasi

### 🔸 Rumus:

\[
$\hat{x}^{(i)} = \frac{x^{(i)} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
\]
\[
$y^{(i)} = \gamma \hat{x}^{(i)} + \beta$
\]

- \($ \mu_B $\), \($ \sigma_B $\): mean dan std mini-batch
- \($ \gamma $\), \($ \beta $\): parameter learnable

---

##  Optimizers

### 🔹 SGD (Stochastic Gradient Descent)

\[
$\theta := \theta - \eta \cdot \nabla_\theta J(\theta)$
\]

### 🔸 Momentum

\[
$v := \beta v - \eta \nabla_\theta J(\theta)
\quad\text{dan}\quad \theta := \theta + v$
\]

### 🔹 Nesterov Accelerated Gradient

\[
$\theta_{\text{lookahead}} = \theta + \beta v$
\]

Gradien dihitung dari posisi *lookahead*.

### 🔸 AdaGrad

Menyesuaikan learning rate berdasarkan gradien sebelumnya:

\[
$\theta_j := \theta_j - \frac{\eta}{\sqrt{G_{jj}} + \epsilon} \cdot g_j$
\]

### 🔹 RMSProp

Mirip AdaGrad tapi menggunakan rata-rata eksponensial dari kuadrat gradien.

\[
$E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2$
\]

### 🔸 Adam (Adaptive Moment Estimation)

Menggabungkan Momentum dan RMSProp:

\[
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$
\]
\[
$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$
\]
\[
$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}$
\]
\[
$\theta := \theta - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$
\]

---

##  Early Stopping

Berhenti training saat validasi loss mulai meningkat:

- Mencegah overfitting
- Menghemat waktu

---

##  Hyperparameter Tuning

###  Parameter penting:
- Learning rate
- Ukuran batch
- Jumlah hidden layer & neuron
- Fungsi aktivasi
- Optimizer

###  Pendekatan:
- Grid Search
- Random Search
- Bayesian Optimization

---

##  Model Checkpointing

Menyimpan model terbaik berdasarkan validasi loss:
- Gunakan untuk melanjutkan training
- Diperlukan untuk produksi

---

##  Pretraining

### 🔸 Unsupervised Pretraining:
- Gunakan Autoencoder atau Restricted Boltzmann Machine untuk inisialisasi

### 🔸 Transfer Learning:
- Gunakan model pretrained (misal: dari ImageNet)
- Fine-tune pada task baru

---

##  Penambahan Noise dan Regularisasi

### 🔹 Dropout

Saat training, neuron dinonaktifkan secara acak dengan probabilitas \( p \).

\[
$\tilde{h}_i = h_i \cdot r_i \quad \text{dengan } r_i \sim \text{Bernoulli}(p)$
\]

Pada inference, aktivasi diskalakan dengan \($ p $\).

---

##  Kesimpulan

- Training DNN menantang karena masalah seperti vanishing gradients dan overfitting
- Teknik seperti ReLU, He initialization, Batch Norm, dan optimizers modern sangat membantu
- Regularisasi seperti dropout dan early stopping meningkatkan generalisasi
- Transfer learning dan checkpointing sangat berguna dalam praktik

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.
