<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_11_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Training Deep Neural Networks**

## Tujuan Bab
Bab ini bertujuan untuk memahami berbagai teknik yang dapat digunakan untuk:

* Mempercepat proses pelatihan jaringan saraf dalam (Deep Neural Networks)

* Meningkatkan konvergensi model

* Mengatasi permasalahan seperti overfitting dan vanishing gradient

* Memilih arsitektur serta hyperparameter secara lebih efektif

## Tantangan dalam Melatih Deep Neural Networks
Beberapa tantangan utama dalam pelatihan jaringan saraf dalam meliputi:

1. Vanishing dan Exploding Gradients

2. Waktu pelatihan yang lama

3. Kesulitan dalam memilih arsitektur yang tepat

4. Overfitting

## Vanishing dan Exploding Gradients
### Masalah:
Ketika nilai gradien terlalu kecil (vanishing) atau terlalu besar (exploding), proses pelatihan menjadi tidak stabil dan sulit untuk konvergen.

Masalah ini umum terjadi pada jaringan:

* Yang terlalu dalam (terdiri dari banyak lapisan)

* Menggunakan fungsi aktivasi seperti sigmoid atau tanh

### Solusi:
1. Menggunakan fungsi aktivasi ReLU

2. Inisialisasi bobot yang sesuai

3. Menerapkan Batch Normalization

4. Menggunakan arsitektur shortcut seperti ResNet


## Inisialisasi Bobot
### Inisialisasi Xavier (Glorot)

\[
$\text{Var}(w) = \frac{1}{n_{\text{inputs}}}$
\]

Direkomendasikan untuk fungsi aktivasi sigmoid atau tanh.

### Inisialisasi He

\[
$\text{Var}(w) = \frac{2}{n_{\text{inputs}}}$
\]

Direkomendasikan untuk fungsi aktivasi ReLU dan turunannya.

##  Batch Normalization

Teknik normalisasi pada output dari layer (aktivasi) agar:

* Memiliki rata-rata mendekati 0 dan standar deviasi mendekati 1

* Mempercepat proses pelatihan

* Mengurangi ketergantungan terhadap inisialisasi bobot

### Rumus:

\[
$\hat{x}^{(i)} = \frac{x^{(i)} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}$
\]
\[
$y^{(i)} = \gamma \hat{x}^{(i)} + \beta$
\]

Keterangan:
- \($ \mu_B $\), \($ \sigma_B $\): mean dan std mini-batch
- \($ \gamma $\), \($ \beta $\): parameter learnable

##  Optimizers

### SGD (Stochastic Gradient Descent)

\[
$\theta := \theta - \eta \cdot \nabla_\theta J(\theta)$
\]

### Momentum

\[
$v := \beta v - \eta \nabla_\theta J(\theta)
\quad\text{dan}\quad \theta := \theta + v$
\]

### Nesterov Accelerated Gradient

\[
$\theta_{\text{lookahead}} = \theta + \beta v$
\]

Gradien dihitung dari posisi lookahead untuk antisipasi arah perubahan parameter.

### AdaGrad

Mengatur learning rate berdasarkan riwayat gradien:

\[
$\theta_j := \theta_j - \frac{\eta}{\sqrt{G_{jj}} + \epsilon} \cdot g_j$
\]

### RMSProp

Serupa dengan AdaGrad, tetapi menggunakan rata-rata eksponensial dari kuadrat gradien:

\[
$E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2$
\]

### Adam (Adaptive Moment Estimation)

Menggabungkan pendekatan Momentum dan RMSProp:

\[
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$
\]

\[
$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$
\]

\[
$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}$
\]

\[
$\theta := \theta - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$
\]


## Early Stopping
Menghentikan pelatihan secara otomatis ketika nilai loss validasi mulai meningkat:

* Mencegah overfitting

* Menghemat waktu pelatihan

## Penyesuaian Hyperparameter
Parameter yang Perlu Disesuaikan:
* Learning rate

* Ukuran batch

* Jumlah hidden layer dan neuron

* Fungsi aktivasi

* Optimizer

Metode Penyesuaian:
* Grid Search

* Random Search

* Bayesian Optimization

## Model Checkpointing
Teknik untuk menyimpan model terbaik berdasarkan performa validasi:

* Berguna untuk melanjutkan pelatihan

* Sangat penting untuk tahap produksi

## Pretraining
Pretraining Tanpa Label (Unsupervised):
* Menggunakan Autoencoder atau Restricted Boltzmann Machine sebagai inisialisasi jaringan

Transfer Learning:
* Memanfaatkan model terlatih sebelumnya (contoh: model dari ImageNet)

* Dilanjutkan dengan fine-tuning pada tugas baru

## Regularisasi dan Penambahan Noise
### Dropout
Selama pelatihan, beberapa neuron dinonaktifkan secara acak dengan probabilitas \( p \).

\[
$\tilde{h}_i = h_i \cdot r_i \quad \text{dengan } r_i \sim \text{Bernoulli}(p)$
\]

Saat inferensi, nilai aktivasi disesuaikan dengan \($ p $\).


# **Kesimpulan**
* Pelatihan jaringan saraf dalam menghadapi tantangan seperti vanishing gradients, exploding gradients, dan overfitting.

* Berbagai teknik seperti ReLU, inisialisasi He, Batch Normalization, dan optimizer modern dapat memperbaiki konvergensi dan stabilitas pelatihan.

* Regularisasi seperti dropout dan early stopping meningkatkan kemampuan generalisasi.

* Teknik praktis seperti transfer learning dan model checkpointing sangat berguna dalam pengembangan model di dunia nyata.

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.