<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_15_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processing Sequences Using RNNs and CNNs**

## Tujuan Bab
Bab ini membahas teknik pemrosesan data sekuensial seperti:

* Teks (Natural Language Processing)

* Deret waktu (time series) seperti data cuaca atau harga saham

* Audio (suara dan ucapan)

Model yang dibahas meliputi:

* Recurrent Neural Networks (RNN)

* LSTM dan GRU

* Convolutional Neural Networks 1D (CNN 1D)

## Karakteristik Data Sekuensial
Ciri khas data sekuensial:

* Urutan sangat penting, tidak dapat diacak

* Panjang urutan bisa bervariasi

* Terdapat korelasi temporal antar elemen

Contoh:

“saya makan nasi” ≠ “nasi makan saya”

# **Recurrent Neural Networks (RNN)**
## Arsitektur Dasar
Setiap langkah waktu memproses:

* Input saat ini: 𝑥𝑡

* State dari langkah sebelumnya: ℎ𝑡−1

Perhitungan state dan output:

\[
$h_t = \phi(W_{xh} x_t + W_{hh} h_{t-1} + b_h)$
\]
\[
$y_t = W_{hy} h_t + b_y$
\]

* \($ \phi $\): fungsi aktivasi (biasanya tanh atau ReLU)

## Masalah Umum pada RNN
1. Vanishing Gradients – gradien mengecil hingga hilang

2. Exploding Gradients – gradien membesar secara tidak terkendali

## Solusi:
* Truncated Backpropagation Through Time (TBPTT)

* Gunakan arsitektur seperti LSTM dan GRU

# **LSTM (Long Short-Term Memory)**
Memperkenalkan cell state 𝐶𝑡 untuk menyimpan informasi jangka panjang.

## Komponen LSTM:
* Forget Gate:

\[
$f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)$
\]

* Input Gate:

\[
$i_t = \sigma(W_i [h_{t-1}, x_t] + b_i)$
\]

\[
$\tilde{C}_t = \tanh(W_C [h_{t-1}, x_t] + b_C)$
\]

* Pembaruan Cell State:

\[
$C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C}_t$
\]

* Output Gate:

\[
$o_t = \sigma(W_o [h_{t-1}, x_t] + b_o)$
\]

\[
$h_t = o_t \cdot \tanh(C_t)$
\]

Kelebihan: LSTM dapat mempertahankan informasi penting dalam jangka panjang serta membuang informasi yang tidak relevan.

# **GRU (Gated Recurrent Unit)**
GRU merupakan versi lebih sederhana dari LSTM:

* Tidak memiliki cell state terpisah

* Forget gate dan input gate digabungkan

## Rumus GRU:
* Update Gate:

\[
$z_t = \sigma(W_z [h_{t-1}, x_t])$
\]

* Reset Gate:

\[
$r_t = \sigma(W_r [h_{t-1}, x_t])$
\]

* Kandidat Aktivasi:

\[
$\tilde{h}_t = \tanh(W_h [r_t \cdot h_{t-1}, x_t])$
\]

* Output Final:

\[
$h_t = (1 - z_t) \cdot h_{t-1} + z_t \cdot \tilde{h}_t$
\]

# **Bidirectional RNN**
Melatih dua RNN secara bersamaan:

* Satu membaca urutan maju (left to right)

* Satu membaca urutan mundur (right to left)

Output akhir:

\($[h_t^{\rightarrow}, h_t^{\leftarrow}]$\)

Kelebihan: Dapat memahami konteks dari masa lalu dan masa depan secara simultan.

## **1D Convolutional Neural Networks (CNN 1D)**
CNN 1D digunakan untuk memproses data sekuensial dengan pola lokal seperti:

* N-gram dalam teks

* Pola jangka pendek dalam audio atau time series

Kelebihan:

* Lebih cepat dilatih (komputasi paralel)

* Stabil dan mudah diatur

* Bisa dikombinasikan dengan RNN/LSTM untuk konteks jangka panjang

## **Proses Pelatihan Model Sekuensial**
* Gunakan padding untuk menyamakan panjang input

* Terapkan masking untuk mengabaikan bagian padding saat training

* Gunakan loss function yang sesuai, seperti CTC Loss untuk pengenalan suara

## **Aplikasi CNN & RNN dalam NLP**
1. Klasifikasi Teks: emosi, spam, topik

2. Pemodelan Bahasa: prediksi kata berikutnya

3. Terjemahan Mesin (Machine Translation)

4. Pengenalan Suara (Speech Recognition)

## **Model Hybrid: CNN + RNN**
Menggabungkan kelebihan dua pendekatan:

* CNN untuk mengekstraksi fitur lokal

* RNN untuk menangani dependensi temporal jangka panjang

## **Regularisasi & Tuning**
Teknik umum untuk meningkatkan performa:

* Dropout antar waktu (time step)

* Batch Normalization (penggunaan terbatas pada RNN)

* Gradient Clipping untuk menghindari exploding gradients

# **Kesimpulan**
* RNN sangat cocok untuk data sekuensial, tetapi memiliki keterbatasan teknis

* LSTM dan GRU mengatasi masalah jangka panjang secara efektif

* CNN 1D menawarkan solusi cepat dan efisien untuk banyak tugas sekuensial

* Pendekatan bidirectional dan hybrid meningkatkan pemahaman konteks

* Pelatihan model sekuensial memerlukan perhatian khusus terhadap padding, masking, dan teknik optimisasi lainnya

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.