<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_16_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 16 - Natural Language Processing with RNNs and Attention

##  Tujuan Bab

Bab ini menjelaskan bagaimana membangun sistem pemrosesan bahasa alami (NLP) menggunakan:
- Recurrent Neural Networks (RNN)
- LSTM & GRU
- Encoder–Decoder architecture
- Attention mechanism

---

##  NLP dan Reprepresentasi Teks

Teks tidak bisa langsung digunakan sebagai input model; perlu dikonversi menjadi numerik:

### 🔹 Tokenization
- Memecah teks menjadi token (kata, sub-kata, karakter)

### 🔹 Vectorization
- **One-hot encoding**: vektor sparse, besar
- **Word embeddings**: dense representation seperti:
  - Word2Vec
  - GloVe
  - FastText

### 🔹 Embedding Layer
\[
$E: \text{Vocab} \rightarrow \mathbb{R}^d$
\]
Mempelajari representasi kata berdimensi tetap selama training.

---

##  Arsitektur Encoder–Decoder

Digunakan untuk:
- Machine Translation
- Summarization
- Text Generation

### 🔸 Encoder:
- Mengubah input sequence menjadi vektor konteks tetap:
\[
$\mathbf{c} = h_T$
\]

### 🔸 Decoder:
- Menghasilkan output sequence dari konteks:
\[
$s_t = f(s_{t-1}, y_{t-1}, \mathbf{c})$
\]

Masalah:
- Konteks tetap (fixed-size vector) membuat sulit untuk menyimpan seluruh informasi → Solusi: **Attention**

---

##  Mekanisme Attention

Membuat model fokus pada bagian penting input saat menghasilkan setiap token output.

### 🔹 Skema Umum:

1. Untuk setiap timestep decoder \($ t $\), hitung perhatian terhadap encoder hidden states \($ h_1, ..., h_T $\)
2. Hitung skor:

\[
$score(s_t, h_i) = s_t^T W_a h_i$
\]

3. Gunakan Softmax:

\[
$\alpha_{t,i} = \frac{\exp(score(s_t, h_i))}{\sum_j \exp(score(s_t, h_j))}$
\]

4. Hitung konteks dinamis:

\[
$c_t = \sum_i \alpha_{t,i} h_i$
\]

5. Decoder menghasilkan output berdasarkan \($ s_{t-1}, y_{t-1}, c_t $\)

---

##  Jenis Attention

### 🔹 Bahdanau (Additive Attention)

\[
$score(s_t, h_i) = v_a^T \tanh(W_s s_t + W_h h_i)$
\]

### 🔹 Luong (Multiplicative / Dot Product)

\[
$score(s_t, h_i) = s_t^T W h_i$
\]

---

##  Aplikasi NLP dengan Attention

1. **Machine Translation**
   - Input: kalimat dalam bahasa sumber
   - Output: kalimat dalam bahasa target
   - Attention penting untuk menangani kalimat panjang

2. **Text Summarization**
   - Input: dokumen
   - Output: ringkasan singkat

3. **Text Generation**
   - Gunakan RNN + embedding + attention

4. **Question Answering**
   - Model fokus pada bagian dokumen yang menjawab pertanyaan

---

##  Word Embedding Pretrained

Gunakan model embedding terlatih seperti:
- GloVe
- FastText
- BERT embeddings (contextual)

Keuntungan:
- Mengurangi kebutuhan data besar
- Mempercepat konvergensi

---

##  Contextual Embeddings

Model modern seperti:
- **ELMo**
- **BERT**
- **GPT**

Menghasilkan embedding bergantung konteks: “bank” pada “river bank” ≠ “financial bank”

---

##  Teacher Forcing

Saat melatih decoder, gunakan token target sebagai input alih-alih prediksi sebelumnya.

- Mempercepat pelatihan
- Tapi bisa menimbulkan ketergantungan pada data ground-truth saat inference (exposure bias)

---

##  Beam Search (Inference)

Selama prediksi sequence:
- Alih-alih pilih token terbaik (greedy), simpan top-k kandidat (beam)
- Menjaga keseimbangan antara akurasi dan efisiensi

---

##  Evaluasi NLP

1. **BLEU Score**: metrik untuk translation
2. **ROUGE**: untuk summarization
3. **Perplexity**: untuk language modeling
4. **Accuracy**: untuk klasifikasi teks

---

##  Kesimpulan

- NLP membutuhkan representasi teks numerik → embedding
- Encoder–Decoder cocok untuk sequence-to-sequence task
- Attention memungkinkan model memfokuskan konteks secara dinamis
- Pretrained embeddings dan contextual models meningkatkan hasil
- Beam search dan teacher forcing mengoptimalkan prediksi

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.
