In [1]:
import math
import os
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, Dataset
import sentencepiece as spm
from datasets import load_dataset
import sacrebleu
from tqdm import trange, tqdm

In [None]:
# Hyperparameters
MAX_SEQ_LEN = 64      # Maximum sequence length
D_MODEL = 64          # Embedding dimension
HEADS = 4             # Number of attention heads
N_LAYERS = 2          # Number of encoder/decoder layers
D_FF = 256            # Feed-forward dimension
DROPOUT = 0.1         # Droput rate
BATCH_SIZE = 64       # Batch size
VOCAB_SIZE = 8000     # SentencePiece vocab size
SP_MODEL_PREFIX = 'spm'
PAD_IDX = 0           # Pad index
BEAM_WIDTH = 4        # Beam size for beam search
LENGTH_PENALTY = 0.6  # Length penalty for beam search
SMOOTHING_EPS = 0.1   # Label smmothing epsilon
WARMUP = 4000         # Learning rate scheduler warm up

In [None]:
# Function to train SentencePiece
def train_sentencepiece(texts, model_prefix=SP_MODEL_PREFIX, vocab_size=VOCAB_SIZE):
    
    input_file = f"{model_prefix}_input.txt"
    # write all sentences
    with open(input_file, 'w', encoding='utf-8') as f:
        for line in texts:
            f.write(line.strip() + "\n")
    # train BPE model with designated special IDs
    spm.SentencePieceTrainer.Train(
        f"--input={input_file} --model_prefix={model_prefix} "
        f"--vocab_size={vocab_size} --character_coverage=1.0 --model_type=bpe "
        "--pad_id=0 --bos_id=1 --eos_id=2 --unk_id=3"
        "--minloglevel=2"
    )
    sp = spm.SentencePieceProcessor()
    sp.Load(f"{model_prefix}.model")
    # cleanup
    os.remove(input_file)
    return sp

In [None]:
# Encode with SP, adding BOS/EOS and padding
def encode_sp(text, sp, max_len=MAX_SEQ_LEN):
    ids = sp.EncodeAsIds(text)
    # BOS + tokens + EOS, trimmed
    seq = [sp.bos_id()] + ids[: max_len - 2] + [sp.eos_id()]
    # padding
    seq += [sp.pad_id()] * (max_len - len(seq))
    return seq

In [None]:
class PositionalEncoding(nn.Module):  # fixed (sinusoidal) positional encodings
    def __init__(self, d_model, dropout=DROPOUT, max_len=MAX_SEQ_LEN):
        super().__init__()  # initialize base class
        pe = torch.zeros(max_len, d_model)  # (L, D) encoding table
        pos = torch.arange(0, max_len).unsqueeze(1)  # position indices (L, 1)
        div = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))  # 1 / 10000^(2i/d_model)
        pe[:, 0::2] = torch.sin(pos * div)  # apply sine to even dimensions
        pe[:, 1::2] = torch.cos(pos * div)  # apply cosine to odd dimensions
        self.register_buffer('pe', pe.unsqueeze(0))  # save as non‑trainable buffer (1, L, D)
        self.dropout = nn.Dropout(dropout)  # dropout for regularization
    def forward(self, x):  # x: (N, L, D)
        return self.dropout(x + self.pe[:, :x.size(1)])  # add encodings & apply dropout


In [None]:
class ScaledDotProductAttention(nn.Module):  # core attention mechanism
    def __init__(self, dropout=DROPOUT):
        super().__init__(); self.dropout = nn.Dropout(dropout)  # keep‑prob for attention map
    def forward(self, q, k, v, mask=None):
        d_k = q.size(-1)  # dimension of key/query
        scores = q @ k.transpose(-2, -1) / math.sqrt(d_k)  # scaled dot‑product (N, h, L_q, L_k)
        if mask is not None:  # apply padding/causal mask
            scores = scores.masked_fill(mask == 0, float('-inf'))  # masked positions -> −∞
        attn = F.softmax(scores, dim=-1)  # normalize to probabilities
        attn = self.dropout(attn)  # dropout on weights
        return attn @ v, attn  # weighted sum of values + attention map

In [None]:
class MultiHeadAttention(nn.Module):  # multiple parallel scaled‑dot attention heads
    def __init__(self, heads, d_model, dropout=DROPOUT):
        super().__init__(); assert d_model % heads == 0  # ensure divisible
        self.d_k = d_model // heads  # per‑head dimensionality
        self.h = heads  # number of heads
        self.q_lin = nn.Linear(d_model, d_model)  # linear projection for queries
        self.k_lin = nn.Linear(d_model, d_model)  # projection for keys
        self.v_lin = nn.Linear(d_model, d_model)  # projection for values
        self.attn = ScaledDotProductAttention(dropout)  # shared attention module
        self.out = nn.Linear(d_model, d_model)  # final output projection
    def forward(self, q, k, v, mask=None):
        bs = q.size(0)  # batch size
        # shape into (N, h, L, d_k)
        q = self.q_lin(q).view(bs, -1, self.h, self.d_k).transpose(1, 2)  # project + reshape queries
        k = self.k_lin(k).view(bs, -1, self.h, self.d_k).transpose(1, 2)  # keys
        v = self.v_lin(v).view(bs, -1, self.h, self.d_k).transpose(1, 2)  # values
        x, _ = self.attn(q, k, v, mask)  # scaled‑dot attention on each head
        x = x.transpose(1, 2).contiguous().view(bs, -1, self.h * self.d_k)  # concat heads -> (N, L, D)
        return self.out(x)  # project back to model dimension

In [None]:
class FeedForward(nn.Module):  # position‑wise feed‑forward network
    def __init__(self, d_model, d_ff, dropout=DROPOUT):
        super().__init__()
        self.lin1 = nn.Linear(d_model, d_ff)  # expand dimensionality
        self.lin2 = nn.Linear(d_ff, d_model)  # project back
        self.drop = nn.Dropout(dropout)  # dropout between layers
    def forward(self, x): 
        return self.lin2(self.drop(F.relu(self.lin1(x))))  # ReLU activation + dropout

In [None]:
class EncoderLayer(nn.Module):  # single encoder block
    def __init__(self, d_model, heads, d_ff, dropout=DROPOUT):
        super().__init__()
        self.self_attn = MultiHeadAttention(heads, d_model, dropout)  # self‑attention sub‑layer
        self.ff = FeedForward(d_model, d_ff, dropout)  # position‑wise FFN
        self.norm1 = nn.LayerNorm(d_model)  # first LayerNorm (pre‑norm)
        self.norm2 = nn.LayerNorm(d_model)  # second LayerNorm
        self.drop1 = nn.Dropout(dropout)  # dropout after attention
        self.drop2 = nn.Dropout(dropout)  # dropout after FFN
    def forward(self, x, mask):
        _x = self.norm1(x)  # normalize before attention
        x = x + self.drop1(self.self_attn(_x, _x, _x, mask))  # residual self‑attention
        _x = self.norm2(x)  # normalize before FFN
        return x + self.drop2(self.ff(_x))  # residual feed‑forward

In [None]:
class DecoderLayer(nn.Module):  # single decoder block
    def __init__(self, d_model, heads, d_ff, dropout=DROPOUT):
        super().__init__()
        self.self_attn = MultiHeadAttention(heads, d_model, dropout)  # masked self‑attention
        self.cross_attn = MultiHeadAttention(heads, d_model, dropout)  # encoder‑decoder attention
        self.ff = FeedForward(d_model, d_ff, dropout)  # position‑wise FFN
        # LayerNorms
        self.norm1 = nn.LayerNorm(d_model); self.norm2 = nn.LayerNorm(d_model); self.norm3 = nn.LayerNorm(d_model)
        # Dropouts
        self.drop1 = nn.Dropout(dropout); self.drop2 = nn.Dropout(dropout); self.drop3 = nn.Dropout(dropout)
    def forward(self, x, mem, tgt_mask, mem_mask):
        _x = self.norm1(x)  # pre‑norm
        x = x + self.drop1(self.self_attn(_x, _x, _x, tgt_mask))  # add masked self‑attention
        _x = self.norm2(x)  # pre‑norm for cross‑attention
        x = x + self.drop2(self.cross_attn(_x, mem, mem, mem_mask))  # add cross‑attention
        _x = self.norm3(x)  # pre‑norm for FFN
        return x + self.drop3(self.ff(_x))  # add feed‑forward

In [None]:
class Encoder(nn.Module):  # encoder stack
    def __init__(self, vocab_size, d_model, N, heads, d_ff, dropout=DROPOUT):
        super().__init__()
        self.embed = nn.Embedding(vocab_size, d_model, padding_idx=0)  # token embeddings
        self.pos_enc = PositionalEncoding(d_model, dropout)  # add positional info
        self.layers = nn.ModuleList([EncoderLayer(d_model, heads, d_ff, dropout) for _ in range(N)])  # stacked layers
        self.norm = nn.LayerNorm(d_model)  # final normalization
    def forward(self, src, mask):
        x = self.embed(src) * math.sqrt(self.embed.embedding_dim)  # scale embeddings by sqrt(d_model)
        x = self.pos_enc(x)  # add positional encodings
        for layer in self.layers:  # pass through layers
            x = layer(x, mask)
        return self.norm(x)  # return encoded memory

In [None]:
class Decoder(nn.Module):  # decoder stack
    def __init__(self, vocab_size, d_model, N, heads, d_ff, dropout=DROPOUT):
        super().__init__()
        self.embed = nn.Embedding(vocab_size, d_model, padding_idx=0)  # token embeddings
        self.pos_enc = PositionalEncoding(d_model, dropout)  # positional encodings
        self.layers = nn.ModuleList([DecoderLayer(d_model, heads, d_ff, dropout) for _ in range(N)])  # stacked layers
        self.norm = nn.LayerNorm(d_model)  # final normalization
    def forward(self, tgt, mem, tgt_mask, mem_mask):
        x = self.embed(tgt) * math.sqrt(self.embed.embedding_dim)  # scale embeddings
        x = self.pos_enc(x)  # add positional info
        for layer in self.layers:  # pass through decoder layers
            x = layer(x, mem, tgt_mask, mem_mask)
        return self.norm(x)  # return decoded representations

In [None]:
class Transformer(nn.Module):  # full encoder‑decoder model
    def __init__(self, vocab_size=VOCAB_SIZE, d_model=D_MODEL, n_layers=N_LAYERS, heads=HEADS, d_ff=D_FF, dropout=DROPOUT):
        super().__init__()
        self.encoder = Encoder(vocab_size, d_model, n_layers, heads, d_ff, dropout)  # encoder stack
        self.decoder = Decoder(vocab_size, d_model, n_layers, heads, d_ff, dropout)  # decoder stack
        self.out = nn.Linear(d_model, vocab_size)  # tied output projection
        self.out.weight = self.decoder.embed.weight  # weight tying with decoder embeddings
    def forward(self, src, tgt, src_mask, tgt_mask, mem_mask):
        mem = self.encoder(src, src_mask)  # encode source sequence
        dec = self.decoder(tgt, mem, tgt_mask, mem_mask)  # decode target sequence
        return self.out(dec)  # project to vocabulary logits

In [None]:
def create_masks(src, tgt, pad_idx=PAD_IDX):
    # src: (B, S), tgt: (B, T)
    # 1) Encoder padding mask: (B,1,1,S)
    src_mask = (src != pad_idx).unsqueeze(1).unsqueeze(2)
    # 2) Decoder padding mask: (B,1,1,T)
    tgt_pad_mask = (tgt != pad_idx).unsqueeze(1).unsqueeze(2)
    # 3) Subsequent mask: (1,1,T,T)
    T = tgt.size(1)
    subsequent = torch.triu(torch.ones((T, T), device=tgt.device), diagonal=1).bool()
    subsequent_mask = subsequent.unsqueeze(0).unsqueeze(1)
    # 4) Combine: now (B,1,T,T)
    tgt_mask = tgt_pad_mask & ~subsequent_mask
    # 5) Cross-attention (same as encoder mask): (B,1,1,S)
    memory_mask = src_mask
    return src_mask, tgt_mask, memory_mask

In [15]:
class TranslationDataset(Dataset):
    def __init__(self, src, tgt): self.src, self.tgt = src, tgt
    def __len__(self): return len(self.src)
    def __getitem__(self, i): return self.src[i], self.tgt[i]

In [None]:
def beam_search(model, src, src_mask, sp, device, beam_width=BEAM_WIDTH, max_len=MAX_SEQ_LEN, alpha=LENGTH_PENALTY):
    model.eval()
    # 1) Encode the source once (keys/values reused every step)
    memory = model.encoder(src, src_mask)
    # 2) Each beam is (token_list, log_prob); start with BOS
    beams      = [([sp.bos_id()], 0.0)]
    completed  = []                           # finished beams
    # 3) Unroll up to max_len tokens
    for _ in range(max_len):
        new_beams = []
        # Expand every current beam
        for tokens, score in beams:
            # ­­­ Stop expansion if EOS already generated
            if tokens[-1] == sp.eos_id():
                completed.append((tokens, score))
                continue
            # Prepare decoder input tensor (1 × t)
            ys = torch.tensor([tokens], device=device)
            # Build masks (padding + subsequent)
            tgt_pad = (ys != sp.pad_id()).unsqueeze(1).unsqueeze(2)
            T       = ys.size(1)
            sub     = torch.triu(torch.ones((T, T), device=device), 1).bool()
            sub     = sub.unsqueeze(0)  # (1 × T × T)
            # Single-step decoder produces next-token logits
            out = model.decoder(ys, memory, tgt_pad & ~sub, src_mask)
            log_probs = F.log_softmax(out[:, -1, :], dim=-1).squeeze(0)
            # Pick top-k candidates and extend the beam
            topk_logp, topk_idx = torch.topk(log_probs, beam_width)
            for logp, idx in zip(topk_logp.tolist(), topk_idx.tolist()):
                # Skip <pad> to avoid degenerate beams
                if idx == sp.pad_id():
                    continue
                new_beams.append((tokens + [idx], score + logp))
        # 4) Keep best `beam_width` beams using length penalty
        beams = sorted(new_beams, key=lambda x: x[1] / (len(x[0]) ** alpha), reverse=True)[:beam_width]
        # If no beams remain (all ended), stop early
        if not beams:
            break
    # 5) Include any beams that ended with EOS
    beams.extend(completed)
    # 6) Choose best overall (highest length-normalised score)
    best = max(beams, key=lambda x: x[1] / (len(x[0]) ** alpha))
    # 7) Convert ID list → string, stripping BOS/EOS
    return sp.DecodeIds(best[0][1:-1])


In [None]:
from torch.optim.lr_scheduler import LambdaLR
def get_label_smoothing_loss(vocab_size, ignore_index, eps=SMOOTHING_EPS):
    class LabelSmoothingLoss(nn.Module):
        def __init__(self):
            super().__init__()
            self.conf      = 1.0 - eps  # prob. for gold token
            self.smooth    = eps        # mass to distribute
            self.vocab_size = vocab_size
            self.ignore     = ignore_index

        def forward(self, pred, target):
            # pred: (N, V) un-normalised logits
            # target: (N,) ground-truth indices
            with torch.no_grad():
                # 1) Start with uniform distribution
                true_dist = torch.full_like(pred, self.smooth / (self.vocab_size - 1))
                # 2) Put (1-eps) on the gold label
                true_dist.scatter_(1, target.unsqueeze(1), self.conf)
                # 3) Zero-out ignored positions (<pad>)
                mask = target == self.ignore
                true_dist[mask] = 0
            # 4) KL-divergence between smoothed target and log-softmax
            return torch.mean(torch.sum(-true_dist * F.log_softmax(pred, dim=1), dim=1))
    return LabelSmoothingLoss()

# Noam schedule
def noam_schedule(step, d_model=D_MODEL, warmup=WARMUP):
    step = step + 1
    return (d_model ** -0.5) * min(step ** -0.5, step * warmup ** -1.5)


In [None]:
def evaluate_bleu(model, data_iter, sp, device):
    """
    Evaluate corpus BLEU over a DataLoader or iterable of (src_ids, tgt_ids) pairs with progress bar.
    """
    refs, hyps = [], []   # lists for sacreBLEU
    # 1) Iterate over batches with a progress bar
    for batch in tqdm(data_iter, desc="Evaluating BLEU", unit="batch"):
        src_batch, tgt_batch = batch  # unpack tensors (B × L)
        # 2) Decode sentence-by-sentence without gradient tracking
        with torch.no_grad():
            for src_ids, tgt_ids in zip(src_batch, tgt_batch):
                # Add batch dimension and move to device
                src = src_ids.unsqueeze(0).to(device)
                # Source mask (padding positions = False)
                src_mask = (src != sp.pad_id()).unsqueeze(1).unsqueeze(2)
                # Beam-search translation hypothesis (string)
                hyp = beam_search(model, src, src_mask, sp, device)
                # Strip special tokens from reference
                tgt_seq = [i for i in tgt_ids.tolist() if i not in (sp.pad_id(), sp.bos_id(), sp.eos_id())]
                ref = sp.DecodeIds(tgt_seq)
                # Tiny detokenisation clean-ups
                hyp = hyp.replace(" .", ".").replace(" ,", ",").replace(" !", "!").replace(" ?", "?")
                ref = ref.replace(" .", ".").replace(" ,", ",").replace(" !", "!").replace(" ?", "?")
                # Accumulate
                hyps.append(hyp)
                refs.append(ref)

    # 3) Quick sanity check – print first 5 translations
    for i in range(5):
        print(f"Prediction:   {hyps[i]}")
        print(f"Ground Truth: {refs[i]}")

    # 4) Corpus BLEU via sacreBLEU
    bleu = sacrebleu.corpus_bleu(hyps, [refs])
    print(f"BLEU score: {bleu.score:.2f}")
    return bleu.score

In [None]:
def prepare_data(batch_size=BATCH_SIZE, vocab_size=VOCAB_SIZE):
    """
    Load HF dataset, train SentencePiece, and return DataLoader + SP processor + vocab info.
    """
    # 1) Pull the English↔Indonesian TED dataset from Hugging Face Hub
    data = load_dataset("SEACrowd/ted_en_id", trust_remote_code=True)
    # 2) Split handles (DatasetDict keys: 'train', 'test')
    data_train = data['train']
    data_test  = data['test']
    # 3) Gather all sentences (src + tgt) to learn a joint sub-word vocab
    all_texts = [ex['text']  for ex in data_train] + [ex['label'] for ex in data_train]
    # 4) Train SentencePiece tokenizer → returns a processor object
    sp = train_sentencepiece(all_texts, vocab_size=vocab_size)
    # 5) True vocab size (may differ slightly from requested size)
    vocab_size = sp.GetPieceSize()
    # 6) Index of the <pad> token for later masking
    pad_idx = sp.pad_id()
    # 7) Encode **training** split into integer tensors
    src_list = [torch.tensor(encode_sp(ex['text'],  sp), dtype=torch.long) for ex in data_train]
    tgt_list = [torch.tensor(encode_sp(ex['label'], sp), dtype=torch.long) for ex in data_train]
    # 8) Wrap as PyTorch DataLoader (shuffle = True)
    train_loader = DataLoader(TranslationDataset(src_list, tgt_list), batch_size=batch_size, shuffle=True)
    # 9) Encode **test** split (no shuffling)
    src_list = [torch.tensor(encode_sp(ex['text'],  sp), dtype=torch.long) for ex in data_test]
    tgt_list = [torch.tensor(encode_sp(ex['label'], sp), dtype=torch.long) for ex in data_test]
    # 10) Test DataLoader (shuffle = False)
    test_loader = DataLoader(TranslationDataset(src_list, tgt_list), batch_size=batch_size, shuffle=False)
    # 11) Return everything needed downstream
    return train_loader, test_loader, sp, vocab_size, pad_idx


In [None]:
def train_model(model, train_loader, sp, vocab_size, pad_idx, device,
                epochs=100):
    """
    Train the Transformer model with label smoothing and Noam schedule.
    """
    # 1) Criterion: custom label-smoothing cross-entropy
    criterion = get_label_smoothing_loss(vocab_size, pad_idx, eps=SMOOTHING_EPS)
    # 2) Adam (β₁=0.9, β₂=0.98) with a dummy LR—Noam will rescale it
    optimizer = torch.optim.Adam(model.parameters(), lr=1.0, betas=(0.9, 0.98), eps=1e-9)
    # 3) Noam LR schedule: warm-up then 1/√step decay
    scheduler = LambdaLR(optimizer, lr_lambda=lambda step: noam_schedule(step, warmup=WARMUP))

    # 4) Epoch loop with tqdm progress bar
    pbar = trange(1, epochs + 1, desc="Training", unit="epoch")
    for epoch in pbar:
        model.train()            # switch to training mode
        total_loss = 0.0         # accumulate loss per epoch
        # 5) Mini-batch loop
        for step, (src_batch, tgt_batch) in enumerate(train_loader, start=1):
            # Move to GPU / CPU
            src_batch, tgt_batch = src_batch.to(device), tgt_batch.to(device)
            # Decoder input is everything except the last token
            tgt_input = tgt_batch[:, :-1]
            # Build padding + subsequent-mask matrices
            s_mask, t_mask, m_mask = create_masks(src_batch, tgt_input, pad_idx)
            # Forward pass (logits shape: B × T × V)
            logits = model(src_batch, tgt_input, s_mask, t_mask, m_mask)
            # Loss: compare logits against ground-truth next-tokens
            loss = criterion(logits.view(-1, vocab_size), tgt_batch[:, 1:].reshape(-1))
            # Standard optimization step
            optimizer.zero_grad()
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
            optimizer.step()
            scheduler.step()
            total_loss += loss.item()
        # 6) Epoch-level logging
        avg_loss = total_loss / len(train_loader)
        lr = optimizer.param_groups[0]['lr']
        pbar.set_postfix(loss=f"{avg_loss:.4f}", lr=f"{lr:.6f}")
    # 7) Return fine-tuned model
    return model


# Softmax

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer().to(device)

In [22]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      1,265,728


In [23]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|███████████████████████████████████████████████████████████████████████████████████| 100/100 [34:55<00:00, 20.95s/epoch, loss=1.5462, lr=0.000338]


In [24]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [19:23<00:00, 23.27s/batch]


Prediction: Pada akhir tahun ini, ada di planet ini akan ada orang-orang di planet sosial yang menggunakan jaringan sosial.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Salah satu hal yang umum di semua itu adalah mereka akan mati.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Mungkin itu mungkin menjadi moralitas, saya berpikir bahwa hal itu sangat penting.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama saya pikirkan tentang blog ini adalah sebuah blog ini oleh D. Rill, yang telah meninggal pada tahun Mill, dan ilmuwan yang meninggal.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi, yang meninggal karena kanker.
Prediction: Dan

13.820058819427818

## Vocabulary Size

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data(vocab_size=4000)
model = Transformer(vocab_size=4000).to(device)

In [23]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      749,728


In [24]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|██████████| 100/100 [35:22<00:00, 21.23s/epoch, loss=1.6680, lr=0.000338]


In [39]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|██████████| 50/50 [20:18<00:00, 24.36s/batch]


Prediction: Di akhir tahun ini , ada beberapa milyar orang yang akan duduk di planet ini .
Ground Truth: Pada akhir tahun ini , akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif .
Prediction: Satu hal yang sama dengan mereka adalah bahwa mereka akan mati .
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal .
Prediction: Siapa yang mungkin adalah sebuah pagi , saya pikir , saya berpikir bahwa saya pikir itu benar-benar mengeksplorasi .
Ground Truth: Walau itu pemikiran yang agak menakutkan , saya pikir ada implikasi yang mendalam yang perlu ditelusuri .
Prediction: Apa yang pertama saya pikirkan tentang saya tentang ini adalah seorang profesor ini adalah seorang wanita yang telah meninggal oleh Kh , dan ilmu pengetahuan yang meninggal .
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller , seorang jurnalis ilmiah dan teknologi , yang mening

That's 100 lines that end in a tokenized period ('.')
It looks like you forgot to detokenize your test data, which may hurt your score.
If you insist your data is detokenized, or don't care, you can suppress this message with the `force` parameter.


BLEU score (beam=4): 12.65


12.64693430106625

## Model Dimension

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer(d_model=32).to(device)

In [42]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      612,800


In [43]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|██████████| 100/100 [33:52<00:00, 20.33s/epoch, loss=1.7332, lr=0.000338]


In [46]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|██████████| 50/50 [18:44<00:00, 22.49s/batch]


Prediction: Dalam akhir tahun ini, ada di sini, ada di planet ini di planet ini di planet sosial.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Hal ini adalah satu hal yang harus mereka lakukan di sana.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Apakah hal ini mungkin berpikir bahwa saya pikir, saya pikir bahwa saya pikir bahwa hal yang sangat penting.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama saya berpikir tentang apa yang pertama ini adalah sebuah film yang telah dilakukan oleh para ilmuwan yang meninggal, yang meninggal oleh para ahli fisika, dan teknologi yang meninggal.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi

9.694397018993156

## Number of Layers

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer(n_layers=1).to(device)

In [45]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      1,148,992


In [46]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [21:20<00:00, 12.81s/epoch, loss=1.6207, lr=0.000338]


In [47]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [11:56<00:00, 14.33s/batch]


Prediction: Pada akhir tahun ini, ada satu miliar orang yang akan digunakan di planet ini.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Salah satu hal yang umum adalah mereka akan meninggal di mana mereka meninggal.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Apa yang mungkin saya berpikir bahwa saya berpikir bahwa saya berpikir bahwa beberapa hal yang sangat penting.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama saya berpikir tentang blog ini adalah sebuah blog yang telah dilakukan oleh Dil, D. D. bernama D. dan teknologi yang meninggal.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi, yang meninggal karena kanker.
Predictio

10.394259656467081

## Number of Heads

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer(heads=2).to(device)

In [49]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      1,265,728


In [50]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [33:46<00:00, 20.26s/epoch, loss=1.5423, lr=0.000338]


In [51]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [21:17<00:00, 25.56s/batch]


Prediction: Pada akhir tahun ini, ada satu miliar orang di planet ini yang menggunakan jaringan sosial yang menggunakan jaringan sosial.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Salah satu hal yang kita miliki di mana mereka akan mati.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Apapun yang mungkin menjadi sangat penting, saya pikir saya berpikir bahwa hal ini sangat besar.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama yang pertama saya pikirkan tentang blog ini adalah blog di Dill, Dill, seorang jurnalis, yang seorang jurnalis yang meninggal.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi, yang meninggal karena kanker.


14.36012738155998

# Softpick

In [21]:
def softpick(x: torch.Tensor, *, dim: int = -1, eps: float = 1e-6) -> torch.Tensor:
    """
    SoftPick:  ReLU(exp(x) - 1) / Σ|exp(x) - 1|
    • identical interface to F.softmax
    • numerically stable on large |x| by subtracting max(x)
    • differentiable everywhere except at the ReLU knee (same as ReLU)

    Args
    ----
    x   : (..., n) – raw attention scores
    dim : axis that should sum to 1
    eps : keeps gradients finite when the entire row is exactly zero
    """
    x_m = torch.max(x, dim=dim, keepdim=True).values
    x_m_e_m = torch.exp(-x_m)
    x_e_1 = torch.exp(x - x_m) - x_m_e_m
    r_x_e_1 = F.relu(x_e_1)
    a_x_e_1 = torch.where(x.isfinite(), torch.abs(x_e_1), 0)
    return r_x_e_1 / (torch.sum(a_x_e_1, dim=dim, keepdim=True) + eps)

In [22]:
class ScaledDotProductAttention(nn.Module):
    def __init__(self, dropout=DROPOUT): super().__init__(); self.dropout = nn.Dropout(dropout)
    def forward(self, q, k, v, mask=None):
        d_k = q.size(-1)
        scores = q @ k.transpose(-2, -1) / math.sqrt(d_k)
        if mask is not None: scores = scores.masked_fill(mask == 0, float('-inf'))
        attn = softpick(scores, dim=-1); attn = self.dropout(attn)
        return attn @ v, attn

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer().to(device)

In [24]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      1,265,728


In [25]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [38:54<00:00, 23.34s/epoch, loss=1.5406, lr=0.000338]


In [26]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [27:39<00:00, 33.19s/batch]


Prediction: Pada akhir tahun ini, ada beberapa miliar orang di planet ini di planet sosial yang menggunakan jaringan sosial.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Salah satu hal yang sama dari mereka memiliki mereka akan mati.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Apakah hal itu mungkin menjadi sebuah moralitas, saya pikir bahwa saya benar-benar memiliki dampak yang sangat penting.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama kali saya berpikir tentang blog ini adalah sebuah blog dari D. D. D. D. dan seorang jurnalis yang meninggal oleh teknologi yang meninggal.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi, y

13.974490198992573

## Vocabulary Size

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data(vocab_size=4000)
model = Transformer(vocab_size=4000).to(device)

In [28]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      749,728


In [29]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [40:51<00:00, 24.51s/epoch, loss=1.6524, lr=0.000338]


In [30]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [28:09<00:00, 33.79s/batch]


Prediction: Pada akhir tahun ini, ada sekitar 1 miliar orang di planet ini di planet ini.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Yang salah satu hal yang ada di dalam mereka adalah bahwa mereka akan meninggal.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Siapa yang mungkin ada seorang profesor, saya berpikir bahwa saya pikir ini sangat buruk.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama saya pikirkan adalah tentang otomatis ini adalah per tahun ini oleh D. D. D. D. Mart, seorang ilmuwan yang telah meninggal.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi, yang meninggal karena kanker.
Prediction: Dan apa yang dilakukan

12.915632463105004

## Model Dimension

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer(d_model=32).to(device)

In [32]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      612,800


In [33]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [39:42<00:00, 23.82s/epoch, loss=1.7400, lr=0.000338]


In [34]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [26:01<00:00, 31.24s/batch]


Prediction: Pada tahun ini, ada beberapa miliar orang-orang yang akan berada di planet ini di planet ini di planet ini.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Salah satu hal yang lain adalah bahwa mereka akan mati.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Apakah itu mungkin akan benar-benar benar-benar benar-benar berpikir, saya berpikir bahwa beberapa hal yang sangat besar.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama tentang saya tentang buku ini adalah sebuah buku yang baru yang telah saya, dengan teknologi yang telah bekerja dengan teknologi ini, dan pemerintah.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi, y

9.496860251142657

## Number of Layers

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer(n_layers=1).to(device)

In [36]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      1,148,992


In [37]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [24:11<00:00, 14.51s/epoch, loss=1.6227, lr=0.000338]


In [38]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [15:15<00:00, 18.31s/batch]


Prediction: Pada tahun ini, ada satu miliar orang-orang di planet ini akan menggunakan jaringan sosial.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Yang satu hal yang sama yang akan meninggal.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Mungkin itu mungkin menjadi hal itu, saya berpikir bahwa saya berpikir bahwa saya berpikir bahwa hal yang sangat besar.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama saya pikirkan tentang blog ini adalah sebuah blog yang telah meninggal oleh seorang ilmuwan yang telah meninggal pada tahun yang telah meninggal oleh R. R. dan Mesir.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan teknologi, yang meningga

9.892148829116039

## Number of Heads

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
train_loader, test_loader, sp, vocab_size, pad_idx = prepare_data()
model = Transformer(heads=2).to(device)

In [40]:
total_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters:      {total_params:,}")

Total parameters:      1,265,728


In [41]:
trained_model = train_model(model, train_loader, sp, vocab_size, pad_idx, device, epochs=100)

Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [40:34<00:00, 24.35s/epoch, loss=1.5546, lr=0.000338]


In [42]:
evaluate_bleu(trained_model, test_loader, sp, device)

Evaluating BLEU: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 50/50 [25:03<00:00, 30.06s/batch]


Prediction: Pada akhir tahun ini, ada hampir 1 miliar orang akan duduk di planet ini di planet ini.
Ground Truth: Pada akhir tahun ini, akan ada hampir satu milyar orang di planet ini yang menggunakan situs jejaring sosial secara aktif.
Prediction: Yang salah satu hal yang ada di seluruh mereka akan mati.
Ground Truth: Satu kesamaan dari mereka semua adalah mereka akan meninggal.
Prediction: Apapun yang mungkin menjadi ide yang mungkin saya pikir, saya pikir bahwa hal ini sangat penting yang sangat penting.
Ground Truth: Walau itu pemikiran yang agak menakutkan, saya pikir ada implikasi yang mendalam yang perlu ditelusuri.
Prediction: Apa yang pertama saya pikirkan tentang blog ini adalah sebuah blog ini adalah sebuah blog ini adalah seorang jurnalis bernama KB, yang meninggal, yang meninggal oleh para jurnalis yang meninggal.
Ground Truth: Yang membuat saya mulai berpikir seperti ini adalah sebuah tulisan blog pada awal tahun ini dari Derek K. Miller, seorang jurnalis ilmiah dan tekno

13.516293466216013