# Chapter 13: Transformers

Bab ini mengeksplorasi arsitektur Transformer yang merevolusi dunia NLP. Tidak seperti RNN yang memproses kata secara berurutan, Transformer memproses seluruh kalimat sekaligus menggunakan mekanisme *Attention*.

---

## 13.1 Komponen Dasar Transformer
Arsitektur ini tetap mempertahankan struktur **Encoder-Decoder**:
* **Encoder**: Terdiri dari *Self-Attention layer* dan *Fully Connected layer*. Fungsinya memahami konteks seluruh kalimat input.
* **Decoder**: Terdiri dari *Masked Self-Attention*, *Encoder-Decoder Attention*, dan *Fully Connected layer*. Fungsinya menghasilkan output berdasarkan konteks dari Encoder.
* **Q, K, V**: Mekanisme *Self-Attention* didasarkan pada matriks bobot **Query** (apa yang dicari), **Key** (relevansi informasi), dan **Value** (isi informasi).



---

## 13.2 Embeddings: Token & Positional
Karena Transformer memproses semua kata secara paralel, ia kehilangan informasi urutan kata. Untuk mengatasinya, digunakan dua jenis embedding:
1.  **Token Embeddings**: Representasi angka unik untuk setiap kata berdasarkan makna semantiknya.
2.  **Positional Embeddings**: Informasi tambahan yang disuntikkan ke dalam model untuk memberi tahu posisi setiap kata (misal: kata "Saya" berada di posisi ke-1).
* **Unsupervised Learning**: Model dilatih untuk memprediksi kata yang hilang sehingga membentuk matriks embedding yang cerdas.

---

## 13.3 Residual Connections & Layer Normalization
Untuk melatih jaringan yang sangat dalam tanpa mengalami *Vanishing Gradients*, Transformer menggunakan:
* **Residual Connections (Shortcut)**: Menambahkan input asli langsung ke output layer. Ini menciptakan jalur cepat bagi gradien untuk mengalir selama *backpropagation*.
* **Layer Normalization**: Menghitung rata-rata dan varians dari aktivasi untuk menstabilkan pelatihan dan mengurangi masalah *Internal Covariate Shift*.



---

## 13.4 BERT (Bidirectional Encoder Representations from Transformers)
BERT adalah salah satu model Transformer paling populer yang hanya menggunakan bagian **Encoder**.
* **Pretraining**: Dilatih secara *unsupervised* dengan dua tugas:
    1.  **MLM (Masked Language Modeling)**: Menebak kata yang disembunyikan di tengah kalimat.
    2.  **NSP (Next Sentence Prediction)**: Menebak apakah dua kalimat berhubungan.
* **Token Spesial**:
    * `[CLS]`: Token di awal kalimat yang digunakan sebagai representasi untuk klasifikasi.
    * `[SEP]`: Token pemisah antara dua kalimat yang berbeda.

---

## 13.5 Klasifikasi Spam & Penanganan Imbalance
Dalam kasus nyata seperti deteksi spam, data seringkali tidak seimbang (lebih banyak pesan normal daripada spam).
* **Library imbalanced-learn**: Digunakan untuk menyeimbangkan dataset melalui:
    * **Undersampling**: Mengurangi jumlah data kelas mayoritas.
    * **Oversampling**: Menambah jumlah data kelas minoritas.
* **Classification Head**: Lapisan tambahan (Dense layer) yang diletakkan di atas output BERT untuk menghasilkan prediksi akhir (Spam vs Bukan).

---

## 13.6 Hugging Face & Question Answering
Library **Hugging Face** menyediakan akses mudah ke model *pretrained* seperti **DistilBERT** (versi BERT yang lebih ringan).
* **SQuAD Dataset**: Standar dataset untuk tugas *Question Answering*.
* **Mekanisme**: Model menerima dua input (Pertanyaan + Paragraf konteks) dan harus memprediksi posisi awal dan akhir jawaban di dalam paragraf tersebut.



---

## 13.7 Integritas Data & Pipeline
Masalah umum dalam NLP adalah penyelarasan (*alignment*) antara teks asli dan token ID.
* **Tokenizer**: Menangani pemecahan kata, penambahan token spesial, dan *alignment*.
* **Padding & Truncating**: Kalimat pendek diberi token `[PAD]`, kalimat panjang dipotong.
* **tf.data.Dataset**: Membuat pipeline efisien yang mengelola *batching* untuk data training dan validasi.

---

## 13.8 Tip Instalasi di Colab
Untuk menggunakan model-model di bab ini, kamu wajib menginstal library Transformers:

```python
# Instalasi library Hugging Face
!pip install transformers datasets

from transformers import BertTokenizer, TFBertForSequenceClassification
import tensorflow as tf

# Memanggil model BERT yang sudah dilatih (pretrained)
model_name = "bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = TFBertForSequenceClassification.from_pretrained(model_name)