<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_17_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Transformers and Pretraining**

## Tujuan Bab
Bab ini bertujuan untuk memahami arsitektur Transformer, yang menjadi fondasi dari berbagai model NLP modern seperti:

* BERT

* GPT

* T5

Topik yang dibahas mencakup konsep pretraining dan fine-tuning pada model berskala besar.

## Keterbatasan RNN dan CNN dalam NLP
RNN:

* Sulit untuk diparalelkan

* Rentan terhadap vanishing gradient

* Tidak efisien dalam memproses sekuens panjang

CNN:

* Kurang efektif dalam menangkap dependensi jangka panjang

Transformer hadir sebagai solusi dengan menerapkan Self-Attention dan pemrosesan paralel.

## Gambaran Umum Transformer
Diperkenalkan oleh Vaswani et al. (2017) dalam paper "Attention Is All You Need".

### Komponen Utama:
1. Encoder–Decoder:

    * Encoder: memproses urutan input

    * Decoder: menghasilkan urutan output

2. Self-Attention:

    * Setiap posisi dalam input dapat memerhatikan posisi lain dalam urutan

3. Positional Encoding:

    * Memberikan informasi posisi karena tidak ada struktur sekuens eksplisit dalam arsitektur Transformer

## Scaled Dot-Product Attention
Rumus:

\[
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
\]

- \($ Q $\): Query
- \($ K $\): Key
- \($ V $\): Value
- \($ d_k $\): Dimensi key

Penjelasan:
* Hitung skor kesamaan antara Query dan Key

* Gunakan hasilnya untuk menggabungkan Value secara linier, menghasilkan fokus perhatian yang disesuaikan

## Multi-Head Attention
Alih-alih menggunakan satu mekanisme perhatian, Transformer memanfaatkan beberapa "head" paralel:

\[
$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O$
\]

* Setiap head dapat menangkap aspek representasi yang berbeda dari urutan input

## Positional Encoding
Karena Transformer tidak memiliki informasi urutan secara implisit seperti RNN, digunakan encoding sinusoidal sebagai berikut:

\[
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)$
\]

\[
$PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)$
\]

## Struktur Encoder
Setiap layer encoder terdiri dari:

1. Multi-Head Self-Attention

2. Add & Layer Normalization

3. Feedforward Neural Network:

\[
$\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$
\]

4. Add & Layer Normalization (ulang)

## Struktur Decoder
Mirip dengan encoder, tetapi ditambahkan dua komponen:

* Masked Self-Attention: untuk mencegah model melihat token berikutnya saat pelatihan

* Encoder–Decoder Attention: memungkinkan decoder memerhatikan representasi output dari encoder

## Pretraining dan Fine-Tuning
### Pretraining
Model dilatih terlebih dahulu pada tugas-tugas umum berbasis data skala besar seperti:

* Language Modeling (contoh: GPT)

* Masked Language Modeling (contoh: BERT)

* Translation Modeling (contoh: T5)

Tujuannya adalah untuk membangun representasi bahasa umum.

### Fine-Tuning
Model yang telah dipra-latih kemudian disesuaikan (fine-tuned) untuk tugas-tugas spesifik seperti:

* Klasifikasi teks

* Named Entity Recognition (NER)

* Question Answering

Fine-tuning biasanya membutuhkan lebih sedikit data dan lebih efisien.

## BERT: Bidirectional Encoder Representations from Transformers
* Menggunakan hanya encoder stack

* Dilatih dengan dua tugas utama:

    * Masked Language Modeling (MLM): beberapa token dalam kalimat diganti dengan [MASK], dan model diminta menebak token aslinya

    * Next Sentence Prediction (NSP): memprediksi apakah dua kalimat berurutan secara logis

## GPT: Generative Pretrained Transformer
* Menggunakan hanya decoder stack

* Dilatih dengan causal language modeling: memprediksi token berikutnya secara autoregresif

Cocok untuk:

* Teks generatif

* Kode program

* Chatbot atau dialog

## T5: Text-To-Text Transfer Transformer
* Semua tugas diperlakukan dalam format input dan output berupa teks

Contoh:

* Input: translate English to German: That is good.

* Output: Das ist gut.

## Masking dan Causal Attention
* Padding Mask: mencegah perhatian terhadap token padding

* Look-ahead Mask: mencegah model melihat token masa depan saat training autoregresif

## Transfer Learning dalam NLP
Strategi umum:

* Pretraining dengan miliaran token

* Fine-tuning dengan ribuan token

Keuntungan:

* Akurasi tinggi

* Biaya komputasi lebih rendah

* Mengurangi kebutuhan anotasi manual secara signifikan

## Evaluasi dan Efisiensi Model
Transformers telah meningkatkan performa pada banyak benchmark NLP, seperti SQuAD dan GLUE.

### Teknik Optimisasi:
* Mixed precision training

* Knowledge distillation

* Parameter sharing (contoh: ALBERT)

# **Kesimpulan**
* Transformer telah menggantikan RNN untuk mayoritas tugas NLP

* Mekanisme self-attention memungkinkan pemrosesan paralel dan efisien

* Model pretrained seperti BERT, GPT, dan T5 mendominasi aplikasi NLP modern

* Fine-tuning memungkinkan adaptasi cepat dan akurat, bahkan dengan data terbatas

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.