In [14]:
import os
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
import pandas as pd
from torch.utils.data import DataLoader, Dataset
from PIL import Image
import matplotlib.pyplot as plt
import numpy as np
from torch.nn.utils.rnn import pad_sequence
import collections
from torch.utils.data import random_split
import math
import torch
import torch.nn as nn
import torch.nn.functional as F

# Cấu hình thiết bị
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# --- 1. Xây dựng Vocabulary ---
class Vocabulary:
    def __init__(self, freq_threshold):
        self.itos = {0: "<PAD>", 1: "<SOS>", 2: "<EOS>", 3: "<UNK>"}
        self.stoi = {"<PAD>": 0, "<SOS>": 1, "<EOS>": 2, "<UNK>": 3}
        self.freq_threshold = freq_threshold

    def __len__(self):
        return len(self.itos)

    def build_vocabulary(self, sentence_list):
        frequencies = collections.Counter()
        idx = 4
        
        for sentence in sentence_list:
            for word in sentence.lower().split():
                frequencies[word] += 1
                
        for word, count in frequencies.items():
            if count >= self.freq_threshold:
                self.stoi[word] = idx
                self.itos[idx] = word
                idx += 1

    def numericalize(self, text):
        tokenized_text = text.lower().split()
        return [
            self.stoi[token] if token in self.stoi else self.stoi["<UNK>"]
            for token in tokenized_text
        ]

# --- 2. Xây dựng Dataset ---
class Flickr8kDataset(Dataset):
    def __init__(self, root_dir, captions_file, transform=None, freq_threshold=5):
        self.root_dir = root_dir
        self.df = pd.read_csv(captions_file)
        self.transform = transform
        
        # Lấy captions và ảnh
        self.imgs = self.df["image"]
        self.captions = self.df["caption"]
        
        # Xây dựng vocab
        self.vocab = Vocabulary(freq_threshold)
        self.vocab.build_vocabulary(self.captions.tolist())

    def __len__(self):
        return len(self.df)

    def __getitem__(self, index):
        caption = self.captions[index]
        img_id = self.imgs[index]
        img = Image.open(os.path.join(self.root_dir, img_id)).convert("RGB")

        if self.transform is not None:
            img = self.transform(img)

        numericalized_caption = [self.vocab.stoi["<SOS>"]]
        numericalized_caption += self.vocab.numericalize(caption)
        numericalized_caption.append(self.vocab.stoi["<EOS>"])

        return img, torch.tensor(numericalized_caption)

# --- 3. Collate Function (Padding) ---
class MyCollate:
    def __init__(self, pad_idx):
        self.pad_idx = pad_idx

    def __call__(self, batch):
        imgs = [item[0].unsqueeze(0) for item in batch]
        imgs = torch.cat(imgs, dim=0)
        targets = [item[1] for item in batch]
        targets = pad_sequence(targets, batch_first=True, padding_value=self.pad_idx)
        return imgs, targets

# --- Thiết lập Path và Loader ---
# Lưu ý: Cấu trúc thư mục trên Kaggle thường là /kaggle/input/flickr8k/Images và captions.txt
image_folder = '/kaggle/input/flickr8k/Images'
captions_file = '/kaggle/input/flickr8k/captions.txt'

transform = transforms.Compose([
    transforms.Resize((224, 224)), # ResNet chuẩn input 224
    transforms.ToTensor(),
    transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225)),
])

# Load dữ liệu (Cần đảm bảo file tồn tại, nếu không code sẽ báo lỗi)
try:
    dataset = Flickr8kDataset(image_folder, captions_file, transform=transform)
    pad_idx = dataset.vocab.stoi["<PAD>"]
    # train_loader = DataLoader(
    #     dataset=dataset,
    #     batch_size=32, # Batch size theo yêu cầu
    #     num_workers=2,
    #     shuffle=True,
    #     collate_fn=MyCollate(pad_idx=pad_idx)
    # )

    # 1. Xác định kích thước tập train và test (ví dụ: 90% train, 10% test)
    train_size = int(0.9 * len(dataset))
    test_size = len(dataset) - train_size
    
    # 2. Chia ngẫu nhiên dataset
    train_set, test_set = random_split(dataset, [train_size, test_size])
    
    # 3. Tạo lại Train Loader (nếu muốn train trên đúng tập train_set mới)
    train_loader = DataLoader(
        dataset=train_set,
        batch_size=32,
        num_workers=2,
        shuffle=True,
        collate_fn=MyCollate(pad_idx=pad_idx)
    )
    
    # 4. Tạo Test Loader (đây là biến bạn đang thiếu)
    test_loader = DataLoader(
        dataset=test_set,
        batch_size=32,
        num_workers=2,
        shuffle=False, # Test không cần shuffle
        collate_fn=MyCollate(pad_idx=pad_idx)
    )

    print(f"Train size: {len(train_set)}, Test size: {len(test_set)}")
    print(f"Vocab size: {len(dataset.vocab)}")
except Exception as e:
    print(f"Lỗi load data: {e}. Hãy kiểm tra lại đường dẫn file trên Kaggle.")

Using device: cuda
Train size: 36409, Test size: 4046
Vocab size: 3005


In [9]:
import torchvision.models as models

# --- Encoder ---
class CNNEncoder(nn.Module):
    def __init__(self, out_dim=512):
        super().__init__()
        # Sử dụng weights mặc định thay vì pretrained=True (cú pháp mới)
        resnet = models.resnet50(weights=models.ResNet50_Weights.DEFAULT)
        
        # Bỏ avgpool và fc layers cuối cùng
        self.cnn = nn.Sequential(*list(resnet.children())[:-2])
        self.proj = nn.Conv2d(2048, out_dim, kernel_size=1)
        
    def forward(self, x):
        f = self.cnn(x)  # B x 2048 x 7 x 7
        f = self.proj(f) # B x out_dim x 7 x 7
        B, D, H, W = f.shape
        
        # Flatten feature map thành memory cho attention
        memory = f.flatten(2).permute(0, 2, 1) # B x (H*W) x D
        global_vec = f.mean(dim=[2, 3])        # B x D
        return global_vec, memory

# --- 1. Positional Encoding ---
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=512):
        super().__init__()
        # Tạo ma trận PE
        pe = torch.zeros(max_len, d_model)
        pos = torch.arange(0, max_len).unsqueeze(1).float()
        
        # Công thức: div_term = 10000^(2i/d_model)
        div = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        
        pe[:, 0::2] = torch.sin(pos * div)
        pe[:, 1::2] = torch.cos(pos * div)
        
        # Thêm batch dimension: 1 x max_len x D
        self.register_buffer("pe", pe.unsqueeze(0))

    def forward(self, x):
        # x: B x L x D
        L = x.size(1)
        # Cộng PE vào embedding, slice theo độ dài thực tế
        return x + self.pe[:, :L, :]

# --- 2. Transformer Decoder ---
class TransformerCaptionDecoder(nn.Module):
    def __init__(self, vocab_size, d_model=512, nhead=8, num_layers=6, max_len=100):
        super().__init__()
        
        self.emb = nn.Embedding(vocab_size, d_model, padding_idx=0)
        self.pos = PositionalEncoding(d_model, max_len=max_len)
        
        # Decoder Layer chuẩn của PyTorch
        # batch_first=True giúp input/output có dạng [Batch, Seq, Dim]
        decoder_layer = nn.TransformerDecoderLayer(
            d_model=d_model, 
            nhead=nhead, 
            dim_feedforward=2048, # Thường gấp 4 lần d_model
            dropout=0.1,
            batch_first=True 
        )
        
        self.decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_layers)
        self.fc = nn.Linear(d_model, vocab_size)
        self.d_model = d_model

    def generate_square_subsequent_mask(self, sz, device):
        # Tạo mask che phần tương lai (triangular mask)
        # Giá trị -inf để softmax về 0, hoặc True/False tuỳ version
        mask = torch.triu(torch.ones(sz, sz, device=device) * float('-inf'), diagonal=1)
        return mask

    def forward(self, captions, memory, tgt_padding_mask=None):
        # captions: B x T (Target input)
        # memory: B x L x D (Image features from CNN)
        
        # 1. Embedding + Positional Encoding
        tgt = self.emb(captions) * math.sqrt(self.d_model) # Scale embedding
        tgt = self.pos(tgt)
        
        # 2. Tạo Causal Mask (Che tương lai)
        T = tgt.size(1)
        tgt_mask = self.generate_square_subsequent_mask(T, tgt.device)
        
        # 3. Transformer Decoder Pass
        # memory_key_padding_mask=None vì ảnh có kích thước cố định (49 vị trí)
        output = self.decoder(
            tgt=tgt, 
            memory=memory, 
            tgt_mask=tgt_mask,
            tgt_key_padding_mask=tgt_padding_mask 
        )
        
        # 4. Dự đoán từ
        logits = self.fc(output) # B x T x Vocab
        return logits

class TransformerImageCaptioning(nn.Module):
    def __init__(self, encoder, decoder):
        super().__init__()
        self.encoder = encoder
        self.decoder = decoder
        
    def forward(self, images, captions):
        # 1. Encoder ảnh
        _, memory = self.encoder(images) # Memory: B x 49 x 512
        
        # 2. Tạo padding mask cho caption (True ở vị trí <PAD>)
        # captions: B x T
        tgt_padding_mask = (captions == 0) # Giả sử <PAD> index là 0
        
        # 3. Decoder
        logits = self.decoder(captions, memory, tgt_padding_mask=tgt_padding_mask)
        return logits
        return outputs

In [15]:
# --- Cấu hình Hyperparameters ---
# vocab_size lấy từ dataset Module 1
d_model = 512 
nhead = 8
num_layers = 4 # Giảm xuống 4 để train nhanh hơn trên Kaggle
# Lưu ý: CNNEncoder output dim phải khớp với d_model của Transformer
# Nếu CNN ra 2048, cần projection layer trong Encoder về 512

# Khởi tạo
encoder = CNNEncoder(out_dim=d_model).to(device) # Sử dụng CNNEncoder từ Module 1
decoder = TransformerCaptionDecoder(vocab_size, d_model, nhead, num_layers).to(device)
model = TransformerImageCaptioning(encoder, decoder).to(device)

optimizer = torch.optim.Adam(model.parameters(), lr=1e-4) # Transformer nhạy cảm với LR, nên để thấp
criterion = nn.CrossEntropyLoss(ignore_index=0) # Bỏ qua padding khi tính loss

# --- Training Loop ---
print("Start Training Transformer...")
model.train()
for epoch in range(3): # Train 3 epochs
    epoch_loss = 0
    for idx, (imgs, captions) in enumerate(train_loader):
        imgs = imgs.to(device)
        captions = captions.to(device)
        
        # Input cho decoder: <SOS> ... w_n
        decoder_input = captions[:, :-1]
        
        # Target thực tế: w_1 ... <EOS>
        targets = captions[:, 1:]
        
        # Forward
        logits = model(imgs, decoder_input)
        
        # Flatten để tính Loss
        loss = criterion(logits.reshape(-1, vocab_size), targets.reshape(-1))
        
        optimizer.zero_grad()
        loss.backward()
        
        # Clip grad norm để tránh bùng nổ gradient
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
        
        optimizer.step()
        
        epoch_loss += loss.item()
        if idx % 100 == 0:
            print(f"Epoch {epoch+1}, Step {idx}, Loss: {loss.item():.4f}")

Start Training Transformer...




Epoch 1, Step 0, Loss: 8.1379
Epoch 1, Step 100, Loss: 3.8233
Epoch 1, Step 200, Loss: 3.4597
Epoch 1, Step 300, Loss: 3.5062
Epoch 1, Step 400, Loss: 3.1531
Epoch 1, Step 500, Loss: 3.2052
Epoch 1, Step 600, Loss: 3.3836
Epoch 1, Step 700, Loss: 3.0974
Epoch 1, Step 800, Loss: 2.9501
Epoch 1, Step 900, Loss: 2.9694
Epoch 1, Step 1000, Loss: 2.8555
Epoch 1, Step 1100, Loss: 2.8381
Epoch 2, Step 0, Loss: 2.8825
Epoch 2, Step 100, Loss: 3.0786
Epoch 2, Step 200, Loss: 2.5478
Epoch 2, Step 300, Loss: 2.7205
Epoch 2, Step 400, Loss: 2.7810
Epoch 2, Step 500, Loss: 2.3729
Epoch 2, Step 600, Loss: 2.5837
Epoch 2, Step 700, Loss: 2.5517
Epoch 2, Step 800, Loss: 2.4081
Epoch 2, Step 900, Loss: 2.5578
Epoch 2, Step 1000, Loss: 2.6398
Epoch 2, Step 1100, Loss: 2.5490
Epoch 3, Step 0, Loss: 2.2933
Epoch 3, Step 100, Loss: 2.0413
Epoch 3, Step 200, Loss: 2.2975
Epoch 3, Step 300, Loss: 2.4056
Epoch 3, Step 400, Loss: 2.3527
Epoch 3, Step 500, Loss: 2.4921
Epoch 3, Step 600, Loss: 2.1674
Epoch 3, S

In [16]:
# from torchtext.data.metrics import bleu_score
# Hoặc dùng nltk nếu torchtext bản mới đổi API:
from nltk.translate.bleu_score import corpus_bleu

def evaluate_bleu(model, dataloader, device, vocab):
    model.eval()
    refs = []  # Danh sách caption gốc
    hyps = []  # Danh sách caption dự đoán
    
    with torch.no_grad():
        for idx, (imgs, captions) in enumerate(dataloader):
            if idx > 20: break # Test nhanh trên 20 batch đầu
            imgs = imgs.to(device)
            
            # Encoder
            _, memory = model.encoder(imgs)
            
            # Autoregressive Generation
            # Bắt đầu với <SOS>
            batch_size = imgs.size(0)
            ys = torch.ones(batch_size, 1).fill_(vocab.stoi["<SOS>"]).type(torch.long).to(device)
            
            for i in range(20): # Max length caption
                tgt_mask = model.decoder.generate_square_subsequent_mask(ys.size(1), device)
                
                # Gọi decoder với chuỗi hiện tại ys
                out = model.decoder.decoder(
                    model.decoder.pos(model.decoder.emb(ys) * math.sqrt(d_model)), 
                    memory, 
                    tgt_mask=tgt_mask
                )
                
                # Lấy logit của từ cuối cùng
                prob = model.decoder.fc(out[:, -1])
                _, next_word = torch.max(prob, dim=1)
                
                ys = torch.cat([ys, next_word.unsqueeze(1)], dim=1)
            
            # Convert IDs to Words
            for j in range(batch_size):
                # Xử lý caption gốc
                ref_tokens = [vocab.itos[t.item()] for t in captions[j] if t.item() not in [0, 1, 2]]
                refs.append([ref_tokens]) # NLTK cần list of lists cho refs
                
                # Xử lý caption dự đoán
                pred_tokens = [vocab.itos[t.item()] for t in ys[j] if t.item() not in [0, 1, 2]]
                hyps.append(pred_tokens)

    # Tính BLEU
    bleu4 = corpus_bleu(refs, hyps, weights=(0.25, 0.25, 0.25, 0.25))
    print(f"BLEU-4 Score: {bleu4*100:.2f}")

# Gọi hàm đánh giá (lưu ý: chạy hơi lâu vì generation tuần tự)
evaluate_bleu(model, test_loader, device, dataset.vocab)

BLEU-4 Score: 8.04
