<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_17_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 17 - Transformers and Pretraining

##  Tujuan Bab

Memahami arsitektur **Transformer** yang menjadi fondasi model NLP modern seperti:
- BERT
- GPT
- T5

Bab ini juga membahas konsep **pretraining** dan **fine-tuning** pada model skala besar.

---

##  Masalah pada RNN & CNN untuk NLP

RNN:
- Sulit paralelisasi
- Rentan terhadap vanishing gradients
- Lambat saat mengolah sekuens panjang

CNN:
- Tidak dapat menangkap dependensi jangka panjang secara efisien

Transformer mengatasi masalah tersebut dengan **Self-Attention** dan pemrosesan paralel.

---

##  Transformer Overview

Arsitektur dari Vaswani et al. (2017) – “Attention is All You Need”

### 🔹 Komponen Utama:

1. **Encoder–Decoder**:
   - Encoder: memproses input
   - Decoder: menghasilkan output

2. **Self-Attention**:
   - Mengizinkan setiap posisi input memperhatikan semua posisi lain

3. **Positional Encoding**:
   - Menambahkan informasi urutan (karena tidak ada struktur sekuens eksplisit)

---

##  Scaled Dot-Product Attention

### Rumus:

\[
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
\]

- \($ Q $\): Query
- \($ K $\): Key
- \($ V $\): Value
- \($ d_k $\): Dimensi key

### Penjelasan:
- Hitung kemiripan antara query dan key → bobot perhatian
- Gunakan bobot untuk kombinasi linier value

---

##  Multi-Head Attention

Alih-alih satu attention, Transformer menggunakan **beberapa “head” paralel**:

\[
$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O$
\]

- Masing-masing head fokus pada representasi berbeda

---

##  Positional Encoding

Karena Transformer tidak memiliki urutan implisit seperti RNN, digunakan encoding sinusoidal:

\[
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)$
\]
\[
$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)$
\]

---

##  Struktur Encoder

Setiap encoder layer:
1. **Multi-Head Self-Attention**
2. **Add & Norm**
3. **Feedforward Layer**:
   \[
   $\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$
   \]
4. **Add & Norm**

---

##  Decoder Layer

Mirip encoder, tetapi ditambahkan:
- **Masked Self-Attention**: mencegah melihat token berikutnya
- **Encoder–Decoder Attention**: memperhatikan output encoder

---

##  Pretraining dan Fine-Tuning

### 🔹 Pretraining

Model dilatih pada tugas besar berbasis data umum seperti:
- Language Modeling (GPT)
- Masked LM (BERT)
- Translation (T5)

Tujuan: membangun **representasi bahasa umum**

### 🔹 Fine-Tuning

Model pretrained diadaptasi ke tugas spesifik:
- Klasifikasi
- NER
- Question Answering

Hanya perlu sedikit data → efisiensi tinggi

---

##  BERT: Bidirectional Encoder Representations from Transformers

- Hanya encoder stack
- Dilatih dengan **Masked Language Modeling** (MLM):
  - Acak token → ganti dengan `[MASK]`, prediksi token asli
- Dan **Next Sentence Prediction (NSP)**

---

##  GPT: Generative Pretrained Transformer

- Hanya decoder stack
- Dilatih dengan **causal language modeling**:
  - Prediksi token berikutnya

GPT cocok untuk:
- Generatif: teks, kode, dialog

---

##  T5: Text-To-Text Transfer Transformer

- Unified framework: semua tugas → input & output teks
- Contoh:
  - Input: `translate English to German: That is good.`
  - Output: `Das ist gut.`

---

##  Masking dan Causal Attention

- **Padding Mask**: menghindari kontribusi token pad
- **Look-ahead Mask**: mencegah prediksi token masa depan saat training autoregressive

---

##  Transfer Learning dalam NLP

Pretraining besar (miliaran token) + Fine-tuning kecil (ribuan token):
- Akurasi tinggi
- Biaya rendah
- Mengurangi kebutuhan anotasi manual

---

##  Evaluasi dan Efisiensi

- Akurasi tugas NLP meningkat drastis (SQuAD, GLUE)
- Teknik optimisasi:
  - Mixed precision
  - Knowledge distillation
  - Parameter sharing (ALBERT)

---

##  Kesimpulan

- Transformer menggantikan RNN untuk hampir semua tugas NLP
- Self-attention memungkinkan pemrosesan paralel dan efisien
- Pretrained transformer (BERT, GPT, T5) mendominasi NLP modern
- Fine-tuning meningkatkan hasil bahkan dengan data kecil

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.