# 🎯 Apa Itu Encoder-Decoder Attention

## Terminologi

- Encoder: Berasal dari kata "encode" yang berarti **mengubah informasi dari bentuk yang mudah dimengerti menjadi format yang lebih terstruktur atau lebih tersembunyi, seperti representasi vektor**. Encoder mengubah input menjadi representasi internal yang lebih mudah diproses oleh model.


- Decoder: Berasal dari kata "decode" yang berarti **mengubah kembali representasi yang tersembunyi atau terstruktur menjadi informasi yang dapat dipahami atau digunakan, seperti menghasilkan kalimat yang bisa dipahami manusia**.

## Perbandingan
- Encoder-only model digunakan untuk **pemahaman input (menganalisis dan memproses data)**, sedangkan decoder-only model digunakan untuk **generasi output (membuat atau meramalkan teks baru)**.


- Encoder-only lebih cocok untuk **tugas pemahaman** (seperti klasifikasi teks, pengenalan entitas), sementara decoder-only lebih cocok untuk **tugas generasi** (seperti pembuatan teks otomatis, penerjemahan bahasa).

| **Model**            | **Tugas Utama**                                     | **Kelebihan**                                               | **Kekurangan**                                              | **Contoh Model**          |
|----------------------|-----------------------------------------------------|-------------------------------------------------------------|-------------------------------------------------------------|---------------------------|
| **Decoder-Only**      | Generasi teks (autoregressive)                     | - Sangat efektif untuk generasi teks                        | - Tidak optimal untuk klasifikasi teks                      | GPT, GPT-2, GPT-3, GPT-4  |
|                      | (misalnya: teks bebas, dialog, QA)                  | - Bisa digunakan untuk tugas generasi teks                  | - Tidak dirancang untuk memahami konteks dua arah           |                           |
|                      |                                                     | - Dapat digunakan untuk klasifikasi dengan penyesuaian      | - Memerlukan modifikasi (layer klasifikasi tambahan)        |                           |
| **Encoder-Only**      | Klasifikasi teks, pemahaman teks                   | - Sangat efektif untuk klasifikasi teks dan pemahaman konteks| - Tidak dirancang untuk generasi teks bebas                 | BERT, RoBERTa, DistilBERT |
|                      | (misalnya: analisis sentimen, ekstraksi informasi)  | - Memproses teks dalam konteks dua arah (baik kiri-kanan)    | - Tidak cocok untuk tugas generasi teks bebas               |                           |
|                      |                                                     | - Memberikan representasi kontekstual yang kuat             |                                                             |                           |
| **Encoder-Decoder**   | Penerjemahan mesin, summarization, transformasi teks| - Menggabungkan kekuatan encoder untuk pemahaman dan decoder untuk generasi | - Lebih kompleks dan memerlukan lebih banyak sumber daya    | Transformer, T5, BART     |
|                      | (misalnya: teks ke teks, terjemahan)                | - Cocok untuk tugas yang memerlukan pemahaman dan generasi  | - Tidak seefisien encoder-only untuk klasifikasi teks       |                           |
|                      |                                                     | - Mampu menangani tugas kompleks yang memerlukan transformasi |                                                             |                           |


## Apakah Regresi Logistik termasuk Decoder-Only ? 

Analisis Regresi Logistik bukan termasuk model Decoder-Only karena tidak adanya elemen-elemen penting yang ada dalam model encoder, seperti 
- **Word embeddings**
- **Positional encoding**
- **Mechanism attention (Q, K, V)**.

In [23]:
import torch ## torch let's us create tensors and also provides helper functions
import torch.nn as nn ## torch.nn gives us nn.module() and nn.Linear()
import torch.nn.functional as F # This gives us the softmax()

# Code Attention
<a id="attention"></a>

In [25]:
class Attention(nn.Module): 
                            
    def __init__(self, d_model=2,  
                 row_dim=0, 
                 col_dim=1):
        
        super().__init__()
        
        self.W_q = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_k = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_v = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        
        self.row_dim = row_dim
        self.col_dim = col_dim


    ## The only change from SelfAttention and attention is that
    ## now we expect 3 sets of encodings to be passed in...
    def forward(self, encodings_for_q, encodings_for_k, encodings_for_v, mask=None):
        ## ...and we pass those sets of encodings to the various weight matrices.
        q = self.W_q(encodings_for_q)
        k = self.W_k(encodings_for_k)
        v = self.W_v(encodings_for_v)

        sims = torch.matmul(q, k.transpose(dim0=self.row_dim, dim1=self.col_dim))

        scaled_sims = sims / torch.tensor(k.size(self.col_dim)**0.5)

        if mask is not None:
            scaled_sims = scaled_sims.masked_fill(mask=mask, value=-1e9)
            
        attention_percents = F.softmax(scaled_sims, dim=self.col_dim)

        attention_scores = torch.matmul(attention_percents, v)

        return attention_scores

# Calculate Encoder-Decoder Attention
<a id="calculate"></a>

In [27]:
## create matrices of token encodings...
encodings_for_q = torch.tensor([[1.16, 0.23],
                                [0.57, 1.36],
                                [4.41, -2.16]])

encodings_for_k = torch.tensor([[1.16, 0.23],
                                [0.57, 1.36],
                                [4.41, -2.16]])

encodings_for_v = torch.tensor([[1.16, 0.23],
                                [0.57, 1.36],
                                [4.41, -2.16]])

## set the seed for the random number generator
torch.manual_seed(42)

## create an attention object
attention = Attention(d_model=2,
                      row_dim=0,
                      col_dim=1)

## calculate encoder-decoder attention
attention(encodings_for_q, encodings_for_k, encodings_for_v)

tensor([[1.0100, 1.0641],
        [0.2040, 0.7057],
        [3.4989, 2.2427]], grad_fn=<MmBackward0>)

# Code Mutli-Head Attention
<a id="multi"></a>

In [29]:
class MultiHeadAttention(nn.Module):

    def __init__(self, 
                 d_model=2,  
                 row_dim=0, 
                 col_dim=1, 
                 num_heads=1):
        
        super().__init__()

        ## create a bunch of attention heads
        self.heads = nn.ModuleList(
            [Attention(d_model, row_dim, col_dim) 
             for _ in range(num_heads)]
        )

        self.col_dim = col_dim
        
    def forward(self, 
                encodings_for_q, 
                encodings_for_k,
                encodings_for_v):

        ## run the data through all of the attention heads
        return torch.cat([head(encodings_for_q, 
                               encodings_for_k,
                               encodings_for_v) 
                          for head in self.heads], dim=self.col_dim)

# Calcualte Multi-Head Attention
<a id="calcMulti"></a>

In [32]:
## set the seed for the random number generator
torch.manual_seed(42)

## create an attention object
multiHeadAttention = MultiHeadAttention(d_model=2,
                                        row_dim=0,
                                        col_dim=1,
                                        num_heads=1)

## calculate encoder-decoder attention
multiHeadAttention(encodings_for_q, encodings_for_k, encodings_for_v)

tensor([[1.0100, 1.0641],
        [0.2040, 0.7057],
        [3.4989, 2.2427]], grad_fn=<CatBackward0>)

In [34]:
## set the seed for the random number generator
torch.manual_seed(42)

## create an attention object
multiHeadAttention = MultiHeadAttention(d_model=2,
                                        row_dim=0,
                                        col_dim=1,
                                        num_heads=2)

## calculate encoder-decoder attention
multiHeadAttention(encodings_for_q, encodings_for_k, encodings_for_v)

tensor([[ 1.0100,  1.0641, -0.7081, -0.8268],
        [ 0.2040,  0.7057, -0.7417, -0.9193],
        [ 3.4989,  2.2427, -0.7190, -0.8447]], grad_fn=<CatBackward0>)