<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_16_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Natural Language Processing with RNNs and Attention**

## Tujuan Bab
Bab ini membahas bagaimana membangun sistem pemrosesan bahasa alami (Natural Language Processing / NLP) menggunakan:

* Recurrent Neural Networks (RNN)

* LSTM dan GRU

* Arsitektur Encoder–Decoder

* Mekanisme Attention

## NLP dan Representasi Teks
Teks tidak dapat langsung digunakan sebagai input model dan perlu diubah menjadi representasi numerik.

### Tokenisasi
* Memecah teks menjadi unit-unit kecil seperti kata, sub-kata, atau karakter.

### Vektorisasi
* One-hot encoding: Representasi vektor sparse dan berdimensi besar.

* Word embeddings: Representasi vektor densitas tetap, seperti:

    * Word2Vec

    * GloVe

    * FastText

### Embedding Layer
\[
$E: \text{Vocab} \rightarrow \mathbb{R}^d$
\]

Layer ini mempelajari representasi vektor berdimensi tetap dari setiap token selama proses pelatihan.

## Arsitektur Encoder–Decoder
Biasa digunakan untuk tugas-tugas sequence-to-sequence, seperti:

* Penerjemahan mesin (machine translation)

* Peringkasan teks (summarization)

* Generasi teks

### Encoder:
Mengubah urutan input menjadi sebuah vektor konteks tetap:

\[
$\mathbf{c} = h_T$
\]

### Decoder:
Menghasilkan output sequence dari konteks:

\[
$s_t = f(s_{t-1}, y_{t-1}, \mathbf{c})$
\]

Masalah:
Vektor konteks berdimensi tetap sulit untuk menangkap seluruh informasi, terutama pada urutan panjang.
Solusi: Attention mechanism.

## Mekanisme Attention
Membantu model memfokuskan perhatian pada bagian penting dari input saat menghasilkan setiap token output.

### Langkah-langkah Umum:
1. Untuk setiap timestep decoder \($ t $\), hitung perhatian terhadap encoder hidden states \($ h_1, ..., h_T $\)
2. Hitung skor perhatian:

\[
$score(s_t, h_i) = s_t^T W_a h_i$
\]

3. Hitung bobot perhatian dengan softmax:

\[
$\alpha_{t,i} = \frac{\exp(score(s_t, h_i))}{\sum_j \exp(score(s_t, h_j))}$
\]

4. Hitung vektor konteks dinamis:

\[
$c_t = \sum_i \alpha_{t,i} h_i$
\]

5. Decoder menghasilkan output berdasarkan \($ s_{t-1}, y_{t-1}, c_t $\)

## Jenis Mekanisme Attention
### Bahdanau Attention (Additive)
\[
$score(s_t, h_i) = v_a^T \tanh(W_s s_t + W_h h_i)$
\]

###  Luong Attention (Multiplicative / Dot Product)

\[
$score(s_t, h_i) = s_t^T W h_i$
\]

## Aplikasi Attention dalam NLP
1. Machine Translation

    * Input: kalimat dalam bahasa sumber

    * Output: kalimat dalam bahasa target

    * Attention sangat penting untuk menangani input panjang

2. Text Summarization

    * Input: dokumen

    * Output: ringkasan singkat

3. Text Generation

    * Model: kombinasi RNN + embedding + attention

4. Question Answering

    * Model difokuskan pada bagian teks yang relevan dengan pertanyaan

## Word Embedding Pretrained
Gunakan representasi kata dari model yang telah dilatih sebelumnya, seperti:

* GloVe

* FastText

* BERT (contextual embedding)

Keunggulan:

* Mengurangi kebutuhan data besar

* Mempercepat proses pelatihan (konvergensi)

## Contextual Embeddings
Model modern menghasilkan embedding yang mempertimbangkan konteks, contohnya:

* ELMo

* BERT

* GPT

Contoh: Kata “bank” dalam “river bank” ≠ “financial bank”.

## Teacher Forcing
Selama pelatihan decoder, digunakan token target sebagai input alih-alih output prediksi sebelumnya.

* Mempercepat pelatihan

* Namun dapat menyebabkan exposure bias saat inferensi (model terlalu bergantung pada ground truth)

## Beam Search (Inferensi)
Selama prediksi:

* Alih-alih memilih satu token terbaik secara greedy, simpan k kandidat terbaik (beam size).

* Membantu menyeimbangkan akurasi dan efisiensi eksplorasi hasil prediksi.

## Evaluasi dalam NLP
1. BLEU Score – untuk penerjemahan

2. ROUGE – untuk peringkasan teks

3. Perplexity – untuk pemodelan bahasa

4. Akurasi – untuk klasifikasi teks

# **Kesimpulan**
* Representasi numerik teks (embedding) merupakan dasar utama dalam NLP.

* Arsitektur encoder–decoder efektif untuk tugas sequence-to-sequence.

* Mekanisme attention memungkinkan pemfokusan konteks secara dinamis.

* Embedding pra-latih dan model kontekstual modern meningkatkan performa NLP.

* Teknik seperti teacher forcing dan beam search mengoptimalkan proses pelatihan dan inferensi.

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.