
# Chapter 11: Training Deep Neural Networks

## 1. Pendahuluan

Bab ini membahas bagaimana melatih jaringan saraf dalam (Deep Neural Networks / DNNs) secara efisien dan stabil. Kita akan belajar mengatasi masalah seperti **vanishing gradients**, **exploding gradients**, serta mengenal teknik-teknik seperti **Batch Normalization**, **Dropout**, dan **Advanced Optimizers**.



## 2. Vanishing & Exploding Gradients

### 🔍 Permasalahan

- **Vanishing gradients**: Gradien mengecil seiring berjalannya backpropagation → pembelajaran menjadi sangat lambat.
- **Exploding gradients**: Gradien membesar → bobot menjadi `NaN` atau `inf`.



## 3. Inisialisasi Bobot yang Tepat

### Glorot/Xavier Initialization

Untuk menghindari masalah gradien, digunakan inisialisasi sebagai berikut:

$$ Var[w] = \frac{2}{n_{in} + n_{out}} $$


In [None]:

from tensorflow import keras

layer = keras.layers.Dense(100, activation="relu",
                           kernel_initializer="glorot_uniform")



## 4. Fungsi Aktivasi Non-Saturasi

### ReLU

Fungsi aktivasi ReLU:

$$ ReLU(x) = \max(0, x) $$

Lebih stabil dibanding sigmoid atau tanh. Variasi lain: `LeakyReLU`, `ELU`, `SELU`.



## 5. Batch Normalization

Batch Normalization mempercepat dan menstabilkan training dengan menormalkan aktivasi intermediate.

### Formula:

$$ \hat{x}^{(k)} = \frac{x^{(k)} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} $$

$$ y^{(k)} = \gamma^{(k)} \hat{x}^{(k)} + \beta^{(k)} $$


In [None]:

model = keras.models.Sequential([
    keras.layers.Dense(100, activation="relu"),
    keras.layers.BatchNormalization()
])



## 6. Gradient Clipping

Mencegah exploding gradients dengan membatasi nilai gradien maksimum:


In [None]:

optimizer = keras.optimizers.SGD(clipvalue=1.0)



## 7. Transfer Learning

Gunakan model yang sudah dilatih pada dataset besar:


In [None]:

base_model = keras.applications.Xception(weights="imagenet",
                                         include_top=False)



## 8. Optimizer Cepat

| Optimizer | Keunggulan |
|----------|-------------|
| **Momentum** | Mempercepat konvergensi |
| **Nesterov** | Perkiraan lebih akurat |
| **RMSProp** | Adaptif terhadap data noisy |
| **Adam** | Kombinasi terbaik antara momentum dan RMSProp |

### Contoh:


In [None]:

optimizer = keras.optimizers.Adam()



## 9. Regularization

### Teknik-teknik penting:

- **L1 & L2 Regularization**
- **Dropout**
- **Monte Carlo Dropout**
- **Max-Norm Constraint**

### Dropout di Keras:


In [None]:

keras.layers.Dropout(rate=0.5)



## 10. Prinsip Praktis

### Checklist:

1. Gunakan inisialisasi bobot seperti Glorot atau He.
2. Gunakan fungsi aktivasi non-saturasi (ReLU family).
3. Terapkan Batch Normalization.
4. Gunakan optimizer seperti Adam.
5. Tambahkan regularisasi untuk mencegah overfitting.
6. Evaluasi dengan data validasi/tes.



## 💻 Contoh Kode Keras Lengkap


In [None]:

import tensorflow as tf
from tensorflow import keras

model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dense(300, activation="relu", kernel_initializer="he_normal"),
    keras.layers.BatchNormalization(),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.BatchNormalization(),
    keras.layers.Dropout(0.5),
    keras.layers.Dense(10, activation="softmax")
])

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer=keras.optimizers.Adam(),
    metrics=["accuracy"]
)
