In [None]:
!pip install sacrebleu

In [None]:
import torch
import torch.nn as nn
import sentencepiece as spm
import os
import math
from tokenizers import Tokenizer
# --- CẤU HÌNH ---
# 1. Hyperparams 
D_MODEL = 256
N_HEAD = 4
D_FF = 1024
N_LAYERS = 4
DROP_PROB = 0.0 # Khi test thì không cần dropout
MAX_LEN = 256
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 2. Đường dẫn 
MODEL_PATH = "/kaggle/input/transformer-training-en2vi/transformer_small_en2vi_v2.pt"
BPE_MODEL_PATH = "/kaggle/input/tokenizer-iwslt/iwslt_bpe.model"
TEST_SRC_RAW = "/kaggle/input/iwslt15-englishvietnamese/IWSLT'15 en-vi/tst2013.en.txt" # File text thô
TEST_TRG_RAW = "/kaggle/input/iwslt15-englishvietnamese/IWSLT'15 en-vi/tst2013.vi.txt" # File text thô

# 3. Load Tokenizer
sp = spm.SentencePieceProcessor()
sp.load(BPE_MODEL_PATH)
PAD_IDX = sp.pad_id()
VOCAB_SIZE = sp.get_piece_size()

In [None]:
class TransformerEmbedding(nn.Module):
    def __init__(self, vocab_size, d_model, max_len, drop_prob):
        super().__init__()
        self.tok_emb = nn.Embedding(vocab_size, d_model)
        self.d_model = d_model
        
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1).float()
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        self.register_buffer('pe', pe.unsqueeze(0))
        self.dropout = nn.Dropout(drop_prob)

    def forward(self, x):
        emb = self.tok_emb(x) * math.sqrt(self.d_model)
        pos = self.pe[:, :x.size(1)]
        return self.dropout(emb + pos)

In [None]:
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, n_head):
        super().__init__()
        self.d_model = d_model
        self.n_head = n_head
        self.head_dim = d_model // n_head
        
        # Đảm bảo d_model chia hết cho số head
        assert self.head_dim * n_head == d_model, "d_model phải chia hết cho n_head"

        # 1. Các lớp Linear để chiếu Q, K, V
        self.w_q = nn.Linear(d_model, d_model)
        self.w_k = nn.Linear(d_model, d_model)
        self.w_v = nn.Linear(d_model, d_model)
        
        # Lớp Linear cuối cùng sau khi nối các head lại
        self.w_o = nn.Linear(d_model, d_model)

    def forward(self, q, k, v, mask=None):
        """
        q, k, v shape: [Batch_Size, Seq_Len, d_model]
        mask shape: [Batch_Size, 1, 1, Seq_Len] hoặc [Batch_Size, 1, Seq_Len, Seq_Len]
        """
        batch_size = q.size(0)

        # 1. Chiếu Q, K, V qua Linear layer
        # Sau đó tách thành n_head: [Batch, Seq, Head, Dim] -> [Batch, Head, Seq, Dim]
        # Transpose để đưa chiều Head lên trước chiều Seq -> Để nhân ma trận song song các head
        Q = self.w_q(q).view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        K = self.w_k(k).view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)
        V = self.w_v(v).view(batch_size, -1, self.n_head, self.head_dim).transpose(1, 2)

        # 2. Tính Scaled Dot-Product Attention
        # Score = (Q * K^T) / sqrt(d_k)
        # K.transpose(-2, -1) là chuyển vị 2 chiều cuối (Seq, Dim) -> (Dim, Seq)
        scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.head_dim)
        
        # 3. Áp dụng Mask (Nếu có)
        # Mask thường chứa 0 (che) và 1 (giữ). Ta thay vị trí 0 bằng số âm vô cùng (-1e9)
        # để khi qua Softmax nó biến thành 0.
        if mask is not None:
            scores = scores.masked_fill(mask == 0, -1e9)
        
        # 4. Softmax để ra xác suất
        attention_weights = torch.softmax(scores, dim=-1)
        
        # 5. Nhân với V
        # Output: [Batch, Head, Seq, Dim]
        output = torch.matmul(attention_weights, V)
        
        # 6. Gom các head lại (Concatenate)
        # [Batch, Head, Seq, Dim] -> [Batch, Seq, Head, Dim] -> [Batch, Seq, d_model]
        output = output.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)
        
        # 7. Đi qua lớp Linear cuối cùng
        return self.w_o(output)

In [None]:
class PositionwiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff, drop_prob=0.1):
        super().__init__()
        # d_ff thường lớn gấp 4 lần d_model (ví dụ: 512 -> 2048)
        self.linear1 = nn.Linear(d_model, d_ff)
        self.linear2 = nn.Linear(d_ff, d_model)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(p=drop_prob)

    def forward(self, x):
        # x: [Batch, Seq_Len, d_model]
        x = self.linear1(x)
        x = self.relu(x)
        x = self.dropout(x)
        x = self.linear2(x)
        return x

In [None]:
class EncoderLayer(nn.Module):
    def __init__(self, d_model, n_head, d_ff, drop_prob=0.1):
        super().__init__()
        self.attention = MultiHeadAttention(d_model, n_head)
        self.norm1 = nn.LayerNorm(d_model)
        self.dropout1 = nn.Dropout(drop_prob)
        
        self.ffn = PositionwiseFeedForward(d_model, d_ff, drop_prob)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout2 = nn.Dropout(drop_prob)

    def forward(self, x, mask=None):
        # 1. Sub-layer 1: Self Attention
        # Lưu lại x ban đầu để cộng (Residual Connection)
        _x = x
        x = self.attention(q=x, k=x, v=x, mask=mask) # Self-Attention: q=k=v=x
        x = self.dropout1(x)
        x = self.norm1(x + _x) # Add & Norm
        
        # 2. Sub-layer 2: Feed Forward
        _x = x
        x = self.ffn(x)
        x = self.dropout2(x)
        x = self.norm2(x + _x) # Add & Norm
        
        return x

In [None]:
class Encoder(nn.Module):
    def __init__(self, vocab_size, d_model, n_head, d_ff, n_layer, max_len, drop_prob, device):
        super().__init__()
        self.device = device
        
        # Embedding + Positional Encoding
        self.embedding = TransformerEmbedding(vocab_size, d_model, max_len, drop_prob)
        
        # Chồng N lớp EncoderLayer
        self.layers = nn.ModuleList([
            EncoderLayer(d_model, n_head, d_ff, drop_prob) 
            for _ in range(n_layer)
        ])
        
    def forward(self, src, mask=None):
        # src: [Batch, Seq_Len]
        x = self.embedding(src)
        
        # Cho đi qua lần lượt từng lớp Encoder
        for layer in self.layers:
            x = layer(x, mask)
        
        return x

In [None]:
class DecoderLayer(nn.Module):
    def __init__(self, d_model, n_head, d_ff, drop_prob=0.1):
        super().__init__()
        
        # 1. Self Attention (Có Mask che tương lai)
        self.self_attention = MultiHeadAttention(d_model, n_head)
        self.norm1 = nn.LayerNorm(d_model)
        self.dropout1 = nn.Dropout(drop_prob)
        
        # 2. Cross Attention
        self.cross_attention = MultiHeadAttention(d_model, n_head)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout2 = nn.Dropout(drop_prob)
        
        # 3. Feed Forward
        self.ffn = PositionwiseFeedForward(d_model, d_ff, drop_prob)
        self.norm3 = nn.LayerNorm(d_model)
        self.dropout3 = nn.Dropout(drop_prob)

    def forward(self, trg, enc_src, trg_mask, src_mask):
        """
        trg: Input của Decoder (câu tiếng Việt đang dịch dở)
        enc_src: Output từ Encoder (câu tiếng Anh đã hiểu xong)
        trg_mask: Mask che tương lai cho trg
        src_mask: Mask che padding cho src
        """
        # --- Block 1: Masked Self-Attention ---
        # Decoder tự nhìn lại chính nó (nhưng không được nhìn tương lai)
        _trg = trg
        # Quan trọng: trg_mask dùng ở đây
        trg = self.self_attention(q=trg, k=trg, v=trg, mask=trg_mask)
        trg = self.dropout1(trg)
        trg = self.norm1(trg + _trg) # Add & Norm

        # --- Block 2: Cross-Attention (Encoder-Decoder Attention) ---
        # Decoder lấy thông tin từ Encoder
        # Query (Q) đến từ Decoder (trg)
        # Key (K) và Value (V) đến từ Encoder (enc_src)
        _trg = trg
        # Quan trọng: src_mask dùng ở đây (để không nhìn vào padding của tiếng Anh)
        trg = self.cross_attention(q=trg, k=enc_src, v=enc_src, mask=src_mask)
        trg = self.dropout2(trg)
        trg = self.norm2(trg + _trg)

        # --- Block 3: Feed Forward ---
        _trg = trg
        trg = self.ffn(trg)
        trg = self.dropout3(trg)
        trg = self.norm3(trg + _trg)

        return trg

In [None]:
class Decoder(nn.Module):
    def __init__(self, vocab_size, d_model, n_head, d_ff, n_layer, max_len, drop_prob, device):
        super().__init__()
        self.device = device
        
        # Embedding riêng cho Decoder (Tiếng Việt)
        self.embedding = TransformerEmbedding(vocab_size, d_model, max_len, drop_prob)
        
        self.layers = nn.ModuleList([
            DecoderLayer(d_model, n_head, d_ff, drop_prob)
            for _ in range(n_layer)
        ])
        
        # Lớp Linear cuối cùng để dự đoán từ tiếp theo
        self.fc_out = nn.Linear(d_model, vocab_size)

    def forward(self, trg, enc_src, trg_mask, src_mask):
        # trg: [Batch, Seq_Len]
        trg = self.embedding(trg)
        
        for layer in self.layers:
            trg = layer(trg, enc_src, trg_mask, src_mask)
            
        # Output: [Batch, Seq_Len, Vocab_Size]
        output = self.fc_out(trg)
        return output

In [None]:
class Transformer(nn.Module):
    def __init__(self, encoder, decoder, src_pad_idx, trg_pad_idx, device):
        super().__init__()
        
        self.encoder = encoder
        self.decoder = decoder
        self.src_pad_idx = src_pad_idx
        self.trg_pad_idx = trg_pad_idx
        self.device = device
        
    def make_src_mask(self, src):
        # src shape: [Batch, Src_Len]
        
        # Tạo mask cho vị trí padding (True nếu != pad, False nếu == pad)
        # Hoặc ngược lại tùy quy ước, ở đây ta dùng quy ước: 1 là giữ, 0 là che
        # unsqueeze(1) và (2) để mở rộng chiều cho khớp với Attention Heads
        # Shape mong muốn: [Batch, 1, 1, Src_Len]
        src_mask = (src != self.src_pad_idx).unsqueeze(1).unsqueeze(2)

        return src_mask.to(self.device)

    def make_trg_mask(self, trg):
        # trg shape: [Batch, Trg_Len]
        
        # 1. Padding Mask: Che các vị trí pad trong câu đích
        # Shape: [Batch, 1, 1, Trg_Len]
        trg_pad_mask = (trg != self.trg_pad_idx).unsqueeze(1).unsqueeze(2)
        
        # 2. Look-ahead Mask: Ma trận tam giác
        trg_len = trg.shape[1]
        # torch.tril tạo ma trận tam giác dưới (số 1 ở dưới đường chéo, số 0 ở trên)
        trg_sub_mask = torch.tril(torch.ones((trg_len, trg_len), device=self.device)).bool()
        
        # 3. Kết hợp cả 2: Vừa phải không phải pad, vừa phải nằm trong tam giác dưới
        # Shape: [Batch, 1, Trg_Len, Trg_Len]
        trg_mask = trg_pad_mask & trg_sub_mask
        
        return trg_mask.to(self.device)

    def forward(self, src, trg):
        """
        src: [Batch, Src_Len]
        trg: [Batch, Trg_Len] (Lưu ý: trg này là Input cho Decoder, đã bỏ token cuối)
        """
        # 1. Tạo Mask
        src_mask = self.make_src_mask(src)
        trg_mask = self.make_trg_mask(trg)
        
        # 2. Chạy qua Encoder
        enc_src = self.encoder(src, src_mask)
        
        # 3. Chạy qua Decoder
        # Lưu ý: Decoder cần cả src_mask để tránh Cross-Attention nhìn vào padding của src
        output = self.decoder(trg, enc_src, trg_mask, src_mask)
        
        return output

In [None]:
# 4. Load Model
# (Copy lại class Encoder, Decoder, Transformer, MultiHeadAttention... vào cell trên nhé)
print(" Đang dựng lại kiến trúc model...")
enc = Encoder(VOCAB_SIZE, D_MODEL, N_HEAD, D_FF, N_LAYERS, MAX_LEN, DROP_PROB, device)
dec = Decoder(VOCAB_SIZE, D_MODEL, N_HEAD, D_FF, N_LAYERS, MAX_LEN, DROP_PROB, device)
model = Transformer(enc, dec, PAD_IDX, PAD_IDX, device).to(device)

print(f"Loading weights từ {MODEL_PATH}...")
model.load_state_dict(torch.load(MODEL_PATH, map_location=device))
model.eval()
print(" Model đã sẵn sàng chiến đấu!")

In [None]:
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
import sentencepiece as spm
import html
import re
import unicodedata

# --- 1. ĐỊNH NGHĨA HÀM CLEAN ---
def clean_text_final(text):
    if not isinstance(text, str): return ""
    
    # 1. Giải mã HTML entities (&quot; -> ")
    text = html.unescape(text)
    
    # 2. Xóa HTML Tags (<br>, <i>...)
    text = re.sub(r'<[^>]+>', '', text) 

    # 3. Xóa URL
    text = re.sub(r'https?://\S+|www\.\S+', ' ', text)
    
    # 4. Xóa Ký tự Control
    text = text.replace('\xa0', ' ').replace('\u200b', '').replace('\ufeff', '')
    
    # 5. Chuẩn hóa Unicode
    text = unicodedata.normalize('NFC', text)
    
    # 6. Xóa ngoặc đặc biệt
    text = re.sub(r'[【】「」『』“”‘’“”]', '', text)

    # 7. Xóa metadata trong ngoặc (Applause), (Laughter)...
    text = re.sub(r'\([^)]*\)', '', text) 
    text = re.sub(r'\[[^\]]*\]', '', text)
    
    # 8. Chuẩn hóa khoảng trắng
    text = re.sub(r'\s+', ' ', text).strip()
    
    # 9. Lowercase 
    text = text.lower()
    
    return text

# --- 2. DATASET XỬ LÝ ON-THE-FLY ---
class RawTestDataset(Dataset):
    def __init__(self, src_file, trg_file, sp_model):
        self.sp = sp_model
        
        # Đọc file raw
        with open(src_file, 'r', encoding='utf-8') as f:
            self.src_lines = f.readlines()
        with open(trg_file, 'r', encoding='utf-8') as f:
            self.trg_lines = f.readlines()
            
        print(f" Đã load {len(self.src_lines)} dòng raw.")

    def __len__(self):
        return len(self.src_lines)

    def __getitem__(self, idx):
        # Lấy dòng raw
        raw_src = self.src_lines[idx]
        raw_trg = self.trg_lines[idx]
        
        # --- BƯỚC QUAN TRỌNG: CLEAN DATA TRƯỚC ---
        clean_src = clean_text_final(raw_src)
        clean_trg = clean_text_final(raw_trg) # Clean cả target để tính BLEU cho chuẩn
        
        # --- Tokenize ---
        src_ids = self.sp.encode_as_ids(clean_src)
        trg_ids = self.sp.encode_as_ids(clean_trg)
        
        # --- Tensor ---
        src_tensor = torch.LongTensor([self.sp.bos_id()] + src_ids + [self.sp.eos_id()])
        trg_tensor = torch.LongTensor([self.sp.bos_id()] + trg_ids + [self.sp.eos_id()])
        
        return src_tensor, trg_tensor

# --- 3. TẠO LOADER ---
# Hàm collate (giữ nguyên)
PAD_IDX = sp.pad_id()
def collate_fn(batch):
    src_batch, trg_batch = zip(*batch)
    src_pad = pad_sequence(src_batch, padding_value=PAD_IDX, batch_first=True)
    trg_pad = pad_sequence(trg_batch, padding_value=PAD_IDX, batch_first=True)
    return src_pad, trg_pad

# Khởi tạo
# --- 3. TẠO LOADER  ---

# Khởi tạo
test_dataset = RawTestDataset(TEST_SRC_RAW, TEST_TRG_RAW, sp)

#  Đổi 'f' thành 'test_loader' ở đây
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False, collate_fn=collate_fn)

print("Data Test đã được Clean và Load thành công vào biến 'test_loader'!")

print(" Data Test đã được Clean và Load thành công!")

In [None]:
# import torch
# import torch.nn.functional as F
# import math
# import sacrebleu
# from comet import download_model, load_from_checkpoint
# from tqdm import tqdm
# import gc

# # ==============================================================================
# # PHẦN 1: CORE BEAM SEARCH ALGORITHM (Thuật toán cốt lõi)
# # ==============================================================================
# def beam_search_decode(model, src, sp, device, max_len=128, beam_size=3, alpha=0.7):
#     """
#     Hàm Beam Search cho 1 câu đơn lẻ.
#     alpha=0.7: Length Penalty (càng cao càng ưu tiên câu dài).
#     """
#     model.eval()
    
#     # 1. Encode (Chỉ chạy 1 lần để tiết kiệm thời gian)
#     src_mask = model.make_src_mask(src)
#     with torch.no_grad():
#         enc_src = model.encoder(src, src_mask)
    
#     # 2. Khởi tạo Beam: [(score, [token_ids])]
#     beams = [(0.0, [sp.bos_id()])]
#     completed_sequences = []
    
#     for _ in range(max_len):
#         new_beams = []
        
#         for score, seq in beams:
#             # Nếu câu đã kết thúc
#             if seq[-1] == sp.eos_id():
#                 completed_sequences.append((score, seq))
#                 continue
                
#             # Decode bước tiếp theo
#             trg_tensor = torch.LongTensor(seq).unsqueeze(0).to(device)
#             trg_mask = model.make_trg_mask(trg_tensor)
            
#             with torch.no_grad():
#                 output = model.decoder(trg_tensor, enc_src, trg_mask, src_mask)
#                 prediction = output[:, -1, :] # Lấy token cuối
#                 log_probs = F.log_softmax(prediction, dim=1).squeeze(0)
                
#                 # Lấy Top-K ứng viên
#                 topk_log_probs, topk_indices = torch.topk(log_probs, beam_size)
                
#             # Mở rộng nhánh
#             for i in range(beam_size):
#                 token_idx = topk_indices[i].item()
#                 token_log_prob = topk_log_probs[i].item()
#                 new_beams.append((score + token_log_prob, seq + [token_idx]))
        
#         # Giữ lại K nhánh tốt nhất
#         new_beams.sort(key=lambda x: x[0], reverse=True)
#         beams = new_beams[:beam_size]
        
#         # Dừng sớm nếu tất cả các nhánh đều đã gặp EOS
#         if all([seq[-1] == sp.eos_id() for _, seq in beams]):
#             completed_sequences.extend(beams)
#             break
            
#     # 3. Chọn kết quả tốt nhất (Áp dụng Length Penalty)
#     if len(completed_sequences) == 0: completed_sequences = beams
        
#     final_candidates = []
#     for score, seq in completed_sequences:
#         length = len(seq)
#         # Công thức phạt độ dài: Score / (Length^alpha)
#         lp_score = score / (math.pow(length, alpha))
#         final_candidates.append((lp_score, seq))
        
#     final_candidates.sort(key=lambda x: x[0], reverse=True)
#     return final_candidates[0][1] # Trả về sequence có điểm cao nhất

# # ==============================================================================
# # PHẦN 2: HÀM SINH DỮ LIỆU DÙNG BEAM SEARCH
# # ==============================================================================
# def generate_translations_beam(model, data_loader, sp, device, beam_size=3, max_len=128):
#     """
#     Chạy Beam Search trên toàn bộ tập dữ liệu để lấy text.
#     """
#     model.eval()
#     sources = [] 
#     hypotheses = []
#     references = []
    
#     print(f" Đang chạy BEAM SEARCH (k={beam_size}) trên {len(data_loader.dataset)} câu...")
#     print(" Cảnh báo: Quá trình này sẽ mất khoảng 30-45 phút. Vui lòng kiên nhẫn...")
    
#     with torch.no_grad():
#         for src, trg in tqdm(data_loader, desc="Beam Decoding", mininterval=30):
#             src = src.to(device)
#             trg = trg.to(device)
            
#             # --- 1. Lấy Reference & Source (Xử lý batch) ---
#             src_list = src.cpu().numpy().tolist()
#             trg_list = trg.cpu().numpy().tolist()
            
#             for s in src_list:
#                 clean_s = [x for x in s if x not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 sources.append(sp.decode_ids(clean_s))
                
#             for t in trg_list:
#                 clean_t = [x for x in t if x not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 references.append(sp.decode_ids(clean_t))
            
#             # --- 2. Beam Search từng câu trong Batch ---
#             batch_size = src.shape[0]
#             for i in range(batch_size):
#                 single_src = src[i].unsqueeze(0) # [1, seq_len]
                
#                 # Gọi hàm Beam Search ở trên
#                 best_seq = beam_search_decode(model, single_src, sp, device, max_len, beam_size, alpha=0.7)
                
#                 # Clean chuỗi kết quả (Bỏ BOS/EOS)
#                 if best_seq[0] == sp.bos_id(): best_seq = best_seq[1:]
#                 if best_seq and best_seq[-1] == sp.eos_id(): best_seq = best_seq[:-1]
                
#                 hypotheses.append(sp.decode_ids(best_seq))
                
#     print(f" Đã trích xuất xong {len(hypotheses)} câu bằng Beam Search.")
#     return sources, hypotheses, references

# # ==============================================================================
# # PHẦN 3: TÍNH ĐIỂM (Không thay đổi)
# # ==============================================================================
# def calculate_all_metrics(sources, hypotheses, references):
#     print("\n Đang tính toán các chỉ số đánh giá (BLEU, chrF, COMET)...")
    
#     # 1. BLEU
#     bleu = sacrebleu.corpus_bleu(hypotheses, [references])
#     # 2. chrF
#     chrf = sacrebleu.corpus_chrf(hypotheses, [references])
    
#     # 3. COMET
#     print(" Đang tải model COMET...")
#     torch.cuda.empty_cache(); gc.collect()
    
#     comet_score = 0
#     try:
#         model_path = download_model("Unbabel/wmt22-comet-da")
#         model_comet = load_from_checkpoint(model_path)
#         data = [{"src": s, "mt": h, "ref": r} for s, h, r in zip(sources, hypotheses, references)]
        
#         print(" Đang chấm điểm COMET...")
#         # batch_size=32 an toàn cho VRAM 16GB, nếu lỗi giảm xuống 16 hoặc 8
#         output = model_comet.predict(data, batch_size=32, gpus=1) 
#         comet_score = output.system_score * 100
#     except Exception as e:
#         print(f" Lỗi COMET: {e}")

#     print("\n" + "="*50)
#     print(" FINAL RESULTS (BEAM SEARCH k=3)")
#     print("-" * 50)
#     print(f" BLEU  : {bleu.score:.2f}")
#     print(f" chrF  : {chrf.score:.2f}")
#     print(f" COMET : {comet_score:.2f}")
#     print("="*50)

# # ==============================================================================
# # CHẠY (MAIN EXECUTION)
# # ==============================================================================

# # 1. Chạy Beam Search để lấy dữ liệu (Lâu nhất ở bước này)
# src_texts, hyp_texts, ref_texts = generate_translations_beam(
#     model, test_loader, sp, device, 
#     beam_size=1,  
#     max_len=128  
# )

# # 2. Tính điểm
# calculate_all_metrics(src_texts, hyp_texts, ref_texts)

In [None]:
import torch
import torch.nn.functional as F
import math
import sacrebleu
import nltk
from nltk.translate.meteor_score import meteor_score
from tqdm import tqdm
import gc

# Tải dữ liệu từ điển cho METEOR (chỉ cần chạy 1 lần)
nltk.download('wordnet', quiet=True)
nltk.download('omw-1.4', quiet=True)

# ==============================================================================
# PHẦN 1: BEAM SEARCH DECODE (Giữ nguyên cấu hình k=3, max_len=128)
# ==============================================================================
def beam_search_decode(model, src, sp, device, max_len=128, beam_size=3, alpha=0.7):
    model.eval()
    src_mask = model.make_src_mask(src)
    with torch.no_grad():
        enc_src = model.encoder(src, src_mask)
    
    beams = [(0.0, [sp.bos_id()])]
    completed_sequences = []
    
    for _ in range(max_len):
        new_beams = []
        for score, seq in beams:
            if seq[-1] == sp.eos_id():
                completed_sequences.append((score, seq))
                continue
            
            trg_tensor = torch.LongTensor(seq).unsqueeze(0).to(device)
            trg_mask = model.make_trg_mask(trg_tensor)
            
            with torch.no_grad():
                output = model.decoder(trg_tensor, enc_src, trg_mask, src_mask)
                prediction = output[:, -1, :]
                log_probs = F.log_softmax(prediction, dim=1).squeeze(0)
                topk_log_probs, topk_indices = torch.topk(log_probs, beam_size)
                
            for i in range(beam_size):
                idx = topk_indices[i].item()
                prob = topk_log_probs[i].item()
                new_beams.append((score + prob, seq + [idx]))
        
        new_beams.sort(key=lambda x: x[0], reverse=True)
        beams = new_beams[:beam_size]
        
        if all([seq[-1] == sp.eos_id() for _, seq in beams]):
            completed_sequences.extend(beams)
            break
            
    if len(completed_sequences) == 0: completed_sequences = beams
    
    # Length Penalty
    final_candidates = []
    for score, seq in completed_sequences:
        lp_score = score / (math.pow(len(seq), alpha))
        final_candidates.append((lp_score, seq))
    final_candidates.sort(key=lambda x: x[0], reverse=True)
    return final_candidates[0][1]

# ==============================================================================
# PHẦN 2: CHẠY BEAM SEARCH ĐỂ LẤY TEXT
# ==============================================================================
def generate_beam_text_only(model, data_loader, sp, device, beam_size=3, max_len=128):
    model.eval()
    hypotheses = []
    references = []
    
    print(f"⏳ Đang chạy BEAM SEARCH (k={beam_size}, max_len={max_len})...")
    print("⚠️ Cảnh báo: Sẽ mất khoảng 30-45 phút. Đừng tắt trình duyệt!")
    
    with torch.no_grad():
        for src, trg in tqdm(data_loader, desc="Beam Decoding", mininterval=30):
            src = src.to(device)
            trg = trg.to(device)
            
            # --- Lấy Reference  ---
            trg_list = trg.cpu().numpy().tolist()
            for t in trg_list:
                clean_t = [x for x in t if x not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
                references.append(sp.decode_ids(clean_t))
            
            # --- Beam Search Hypothesis (Máy dịch) ---
            batch_size = src.shape[0]
            for i in range(batch_size):
                single_src = src[i].unsqueeze(0)
                best_seq = beam_search_decode(model, single_src, sp, device, max_len, beam_size, alpha=0.7)
                
                # Bỏ BOS/EOS
                if best_seq[0] == sp.bos_id(): best_seq = best_seq[1:]
                if best_seq and best_seq[-1] == sp.eos_id(): best_seq = best_seq[:-1]
                
                hypotheses.append(sp.decode_ids(best_seq))
                
    return hypotheses, references

# ==============================================================================
# PHẦN 3: CHỈ TÍNH TER VÀ METEOR
# ==============================================================================
def calculate_ter_meteor(hypotheses, references):
    print("\n Đang tính toán TER và METEOR...")
    
    # 1. Tính TER (Translation Edit Rate)
    # TER thấp = Tốt
    ter = sacrebleu.corpus_ter(hypotheses, [references])
    
    # 2. Tính METEOR
    # METEOR cao = Tốt
    print(" Đang tính METEOR (NLTK)...")
    meteor_scores = []
    for hyp, ref in zip(hypotheses, references):
        # NLTK yêu cầu list các từ (tokenized list)
        hyp_tokens = hyp.split() 
        ref_tokens = ref.split()
        score = meteor_score([ref_tokens], hyp_tokens)
        meteor_scores.append(score)
    
    final_meteor = (sum(meteor_scores) / len(meteor_scores)) * 100

    print("\n" + "="*50)
    print(" KẾT QUẢ BỔ SUNG (BEAM SEARCH k=3)")
    print("-" * 50)
    print(f" TER    : {ter.score:.2f}  (Càng THẤP càng tốt)")
    print(f" METEOR : {final_meteor:.2f}  (Càng CAO càng tốt)")
    print("="*50)

# ==============================================================================
# MAIN RUN
# ==============================================================================

# 1. Chạy Beam Search lấy text
hyp_txt, ref_txt = generate_beam_text_only(
    model, test_loader, sp, device, 
    beam_size=3, 
    max_len=128
)

# 2. Tính chỉ số
calculate_ter_meteor(hyp_txt, ref_txt)

In [None]:
# import torch
# import sacrebleu
# from comet import download_model, load_from_checkpoint
# from tqdm import tqdm
# import gc

# # ==============================================================================
# # PHẦN 1: HÀM SINH DỮ LIỆU (Generate Source, Hypothesis, Reference)
# # ==============================================================================
# def generate_translations(model, data_loader, sp, device, max_len=128):
#     """
#     Hàm này chạy model (Greedy) để lấy ra 3 list văn bản cần thiết cho việc chấm điểm.
#     """
#     model.eval()
    
#     sources = []    # Câu gốc (Input cho COMET)
#     hypotheses = [] # Máy dịch (MT)
#     references = [] # Đáp án chuẩn (Ref)
    
#     print(f" Đang decode dữ liệu (Greedy Search) trên {len(data_loader.dataset)} câu...")
    
#     with torch.no_grad():
#         for src, trg in tqdm(data_loader, desc="Extracting", mininterval=30):
#             src = src.to(device)
#             trg = trg.to(device)
            
#             # --- 1. Decode ---
#             # Encode
#             src_mask = model.make_src_mask(src)
#             enc_src = model.encoder(src, src_mask)
            
#             # Greedy Decode Loop
#             batch_size = src.shape[0]
#             trg_indexes = torch.tensor([[sp.bos_id()]] * batch_size).to(device)
            
#             for i in range(max_len):
#                 trg_mask = model.make_trg_mask(trg_indexes)
#                 output = model.decoder(trg_indexes, enc_src, trg_mask, src_mask)
#                 pred_token = output.argmax(2)[:,-1].unsqueeze(1)
#                 trg_indexes = torch.cat((trg_indexes, pred_token), dim=1)
                
#             # --- 2. Convert to Text ---
#             src_list = src.cpu().numpy().tolist()
#             trg_pred_list = trg_indexes.cpu().numpy().tolist()
#             trg_real_list = trg.cpu().numpy().tolist()
            
#             for i in range(batch_size):
#                 # A. Lấy Source Text (Cần thiết cho COMET)
#                 src_ids = [t for t in src_list[i] if t not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 sources.append(sp.decode_ids(src_ids))
                
#                 # B. Lấy Hypothesis (Máy dịch)
#                 pred_ids = trg_pred_list[i][1:] # Bỏ BOS
#                 if sp.eos_id() in pred_ids:
#                     pred_ids = pred_ids[:pred_ids.index(sp.eos_id())]
#                 hypotheses.append(sp.decode_ids(pred_ids))
                
#                 # C. Lấy Reference (Đáp án)
#                 real_ids = [t for t in trg_real_list[i] if t not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 references.append(sp.decode_ids(real_ids))
                
#     print(f"Đã trích xuất xong {len(sources)} bộ dữ liệu.")
#     return sources, hypotheses, references

# # ==============================================================================
# # PHẦN 2: HÀM TÍNH ĐIỂM (BLEU, chrF, COMET)
# # ==============================================================================
# def calculate_all_metrics(sources, hypotheses, references):
#     print("\n Đang tính toán các chỉ số đánh giá...")
    
#     # --- 1. BLEU Score ---
#     bleu = sacrebleu.corpus_bleu(hypotheses, [references])
    
#     # --- 2. chrF Score ---
#     chrf = sacrebleu.corpus_chrf(hypotheses, [references])
    
#     # --- 3. COMET Score ---
#     print(" Đang tải model COMET (wmt22-comet-da)...")
    
#     # Clean GPU memory
#     torch.cuda.empty_cache()
#     gc.collect()
    
#     comet_score = 0
#     try:
#         # Tải model (tự động cache)
#         model_path = download_model("Unbabel/wmt22-comet-da")
#         model = load_from_checkpoint(model_path)
        
#         # Chuẩn bị dữ liệu: List of Dictionary
#         data = [
#             {"src": s, "mt": h, "ref": r} 
#             for s, h, r in zip(sources, hypotheses, references)
#         ]
        
#         # Predict (Batch size nhỏ để tránh OOM)
#         print(" Đang chạy model COMET để chấm điểm...")
#         model_output = model.predict(data, batch_size=16, gpus=1)
#         comet_score = model_output.system_score * 100 # Scale lên 100 cho dễ nhìn
        
#     except Exception as e:
#         print(f" Lỗi COMET: {e}")
#         print(" Có thể do hết VRAM hoặc chưa bật Internet.")

#     # --- IN BÁO CÁO ---
#     print("\n" + "="*45)
#     print(" BẢNG TỔNG SẮP KẾT QUẢ DỊCH (FINAL REPORT)")
#     print("-" * 45)
#     print(f" BLEU  : {bleu.score:.2f}  (Chuẩn ngữ pháp/từ vựng)")
#     print(f" chrF  : {chrf.score:.2f}  (Chuẩn hình thái từ/ký tự)")
#     print(f" COMET : {comet_score:.2f}  (Chuẩn ngữ nghĩa - Quan trọng nhất)")
#     print("="*45)

# # ==============================================================================
# # CHẠY THÔI (MAIN EXECUTION)
# # ==============================================================================

# # 1. Sinh dữ liệu văn bản từ Model (Dùng Greedy cho nhanh)
# src_texts, hyp_texts, ref_texts = generate_translations(model, test_loader, sp, device)

# # 2. Tính tất cả chỉ số
# calculate_all_metrics(src_texts, hyp_texts, ref_texts)

In [None]:
# # GREEDY SEARCH

# import sacrebleu
# from tqdm import tqdm
# import torch

# def calculate_sacrebleu(model, data_loader, sp, device, max_len=128):
#     model.eval()
    
#     # SacreBLEU cần:
#     # 1. List các câu model dịch (Hypotheses)
#     # 2. List các câu đáp án (References)
#     hypotheses = []
#     references = []
    
#     print(" Đang dịch và tính SacreBLEU (Chờ chút nhé)...")
    
#     with torch.no_grad():
#         for src, trg in tqdm(data_loader, desc="Decoding", mininterval=30):
#             src = src.to(device)
#             trg = trg.to(device)
            
#             # --- 1. Greedy Search (Chạy nhanh để lấy mẫu tính điểm) ---
#             # Lưu ý: Kết quả Greedy thường thấp hơn Beam Search khoảng 1-2 điểm
            
#             # Encode
#             src_mask = model.make_src_mask(src)
#             enc_src = model.encoder(src, src_mask)
            
#             # Decode loop
#             batch_size = src.shape[0]
#             trg_indexes = torch.tensor([[sp.bos_id()]] * batch_size).to(device)
            
#             for i in range(max_len):
#                 trg_mask = model.make_trg_mask(trg_indexes)
#                 output = model.decoder(trg_indexes, enc_src, trg_mask, src_mask)
#                 pred_token = output.argmax(2)[:,-1].unsqueeze(1)
#                 trg_indexes = torch.cat((trg_indexes, pred_token), dim=1)
            
#             # --- 2. Convert ID -> Text ---
#             trg_pred_list = trg_indexes.cpu().numpy().tolist()
#             trg_real_list = trg.cpu().numpy().tolist()
            
#             for i in range(batch_size):
#                 # A. Xử lý câu Model dịch
#                 pred_ids = trg_pred_list[i][1:] # Bỏ BOS
#                 if sp.eos_id() in pred_ids:
#                     pred_ids = pred_ids[:pred_ids.index(sp.eos_id())]
                
#                 # Quan trọng: decode_ids sẽ nối lại thành câu hoàn chỉnh
#                 pred_text = sp.decode_ids(pred_ids) 
#                 hypotheses.append(pred_text)
                
#                 # B. Xử lý câu Đáp án (Reference)
#                 real_ids = trg_real_list[i]
#                 # Lọc bỏ PAD, BOS, EOS để lấy nội dung gốc
#                 real_ids = [t for t in real_ids if t not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 real_text = sp.decode_ids(real_ids)
#                 references.append(real_text)

#     # --- 3. Tính điểm ---
#     # SacreBLEU nhận vào: list_hypotheses, [list_references]
#     # Lưu ý references phải nằm trong 1 list nữa (vì 1 câu có thể có nhiều đáp án tham khảo)
#     score = sacrebleu.corpus_bleu(hypotheses, [references])
    
#     return score.score

# # --- CHẠY ---
# bleu_score = calculate_sacrebleu(model, test_loader, sp, device)

# print(f"\n" + "="*40)
# print(f" SACREBLEU SCORE: {bleu_score:.2f}")
# print(f"="*40)

In [None]:
# import torch
# import math
# import sacrebleu
# from tqdm import tqdm
# import torch.nn.functional as F

# # --- 1. HÀM CORE: BEAM SEARCH DECODE (Chạy cho 1 câu) ---
# def beam_search_decode(model, src, sp, device, max_len=128, beam_size=3, alpha=0.7):
#     """
#     Thực hiện Beam Search cho một câu nguồn (Batch size = 1)
#     alpha: Length Penalty (0.6 - 0.7 thường dùng). Alpha càng lớn càng ưu tiên câu dài.
#     """
#     model.eval()
    
#     # 1. Encode (Chỉ chạy 1 lần)
#     src_mask = model.make_src_mask(src)
#     with torch.no_grad():
#         enc_src = model.encoder(src, src_mask)
    
#     # 2. Khởi tạo Beam
#     # Mỗi phần tử trong beam là 1 tuple: (score, list_token_ids)
#     # Score ban đầu là 0, token bắt đầu là BOS
#     beams = [(0.0, [sp.bos_id()])]
    
#     # Danh sách các câu đã hoàn thành (gặp EOS)
#     completed_sequences = []
    
#     for _ in range(max_len):
#         new_beams = []
        
#         for score, seq in beams:
#             # Nếu câu này đã kết thúc ở bước trước (dù chưa được đưa vào completed), bỏ qua
#             if seq[-1] == sp.eos_id():
#                 completed_sequences.append((score, seq))
#                 continue
                
#             # Chuẩn bị input cho Decoder
#             trg_tensor = torch.LongTensor(seq).unsqueeze(0).to(device) # [1, curr_len]
#             trg_mask = model.make_trg_mask(trg_tensor)
            
#             # Decode
#             with torch.no_grad():
#                 output = model.decoder(trg_tensor, enc_src, trg_mask, src_mask)
#                 # output: [1, curr_len, vocab_size]
                
#                 # Lấy dự đoán ở bước cuối cùng
#                 prediction = output[:, -1, :] # [1, vocab_size]
                
#                 # Tính Log Softmax
#                 log_probs = F.log_softmax(prediction, dim=1).squeeze(0) # [vocab_size]
                
#                 # Lấy Top-K ứng viên tốt nhất hiện tại
#                 topk_log_probs, topk_indices = torch.topk(log_probs, beam_size)
                
#             # Mở rộng Beam
#             for i in range(beam_size):
#                 token_idx = topk_indices[i].item()
#                 token_log_prob = topk_log_probs[i].item()
                
#                 new_score = score + token_log_prob
#                 new_seq = seq + [token_idx]
                
#                 new_beams.append((new_score, new_seq))
        
#         # Sắp xếp và lấy K beam tốt nhất cho bước tiếp theo
#         # Sắp xếp giảm dần theo Score
#         new_beams.sort(key=lambda x: x[0], reverse=True)
#         beams = new_beams[:beam_size]
        
#         # Nếu tất cả các beam đều đã gặp EOS thì dừng sớm
#         if all([seq[-1] == sp.eos_id() for _, seq in beams]):
#             completed_sequences.extend(beams)
#             break
            
#     # --- 3. Chọn kết quả tốt nhất (Apply Length Penalty) ---
#     # Nếu không có câu nào hoàn thành (trường hợp max_len), lấy luôn beams hiện tại
#     if len(completed_sequences) == 0:
#         completed_sequences = beams
        
#     final_candidates = []
#     for score, seq in completed_sequences:
#         # Công thức Length Penalty: Score / (Length ^ alpha)
#         # Vì Score là số âm (log_prob), nên chia cho length sẽ làm nó "ít âm" hơn (lớn hơn)
#         length = len(seq)
#         lp_score = score / (math.pow(length, alpha))
#         final_candidates.append((lp_score, seq))
        
#     # Sắp xếp lại lần cuối
#     final_candidates.sort(key=lambda x: x[0], reverse=True)
    
#     # Lấy token ids của ứng viên số 1
#     best_seq = final_candidates[0][1]
    
#     return best_seq

# # --- 2. HÀM CHÍNH: TÍNH BLEU TRÊN TOÀN BỘ FILE ---
# def calculate_bleu_beam_search(model, data_loader, sp, device, beam_size=3, max_len=128):
#     model.eval()
#     hypotheses = []
#     references = []
    
#     print(f" Đang chạy Beam Search (k={beam_size}, max_len={max_len}) trên toàn bộ tập Test...")
#     print(" Cảnh báo: Beam Search chạy chậm hơn Greedy khoảng 3-5 lần (Mất khoảng 30-45 phút)...")
    
#     with torch.no_grad():
#         # Mininterval=30 để log đỡ bị spam, 30s cập nhật 1 lần
#         for src, trg in tqdm(data_loader, desc="Beam Decoding", mininterval=30):
#             src = src.to(device)
#             trg = trg.to(device)
            
#             # --- A. Lấy Reference (Đáp án) ---
#             trg_list = trg.cpu().numpy().tolist()
#             for t in trg_list:
#                 # Lọc bỏ token rác
#                 real_ids = [x for x in t if x not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 references.append(sp.decode_ids(real_ids))
            
#             # --- B. Beam Search từng câu ---
#             batch_size = src.shape[0]
#             for i in range(batch_size):
#                 # Lấy 1 câu ra, thêm dim để thành [1, seq_len]
#                 single_src = src[i].unsqueeze(0) 
                
#                 # Gọi hàm Beam Search Core
#                 pred_ids = beam_search_decode(
#                     model, single_src, sp, device, 
#                     max_len=max_len, 
#                     beam_size=beam_size, 
#                     alpha=0.7 # Phạt độ dài (quan trọng để BLEU cao)
#                 )
                
#                 # Bỏ token BOS đầu tiên nếu có (thường beam search bắt đầu từ BOS)
#                 if pred_ids[0] == sp.bos_id():
#                     pred_ids = pred_ids[1:]
                
#                 # Nếu có EOS ở cuối thì bỏ đi (để decode cho sạch)
#                 if pred_ids and pred_ids[-1] == sp.eos_id():
#                     pred_ids = pred_ids[:-1]
                
#                 pred_text = sp.decode_ids(pred_ids)
#                 hypotheses.append(pred_text)
                
#     # --- C. Tính điểm ---
#     print("\n Decoding hoàn tất! Đang tính BLEU...")
#     score = sacrebleu.corpus_bleu(hypotheses, [references])
#     return score.score

# # ==========================================
# # --- CHẠY THÔI ---
# # ==========================================
# final_beam_bleu = calculate_bleu_beam_search(model, test_loader, sp, device, beam_size=3, max_len=128)

# print(f"\n" + "="*40)
# print(f" FINAL BEAM SEARCH BLEU: {final_beam_bleu:.2f}")
# print(f"="*40)

In [None]:
# pip install -q -U google-genai

In [None]:
# from google import genai

# # Truyền API Key trực tiếp vào đây
# client = genai.Client(api_key="AIzaSyAsOHchTqzmf2bNTniUAno286es8rnrj48")

# response = client.models.generate_content(
#     model="gemini-2.5-flash", # Hoặc gemini-2.0-flash-exp
#     contents="Explain how AI works"
# )
# print(response.text)

In [None]:
# import torch
# from tqdm import tqdm

# def get_data_for_evaluation(model, data_loader, sp, device, max_len=50):
#     model.eval()
    
#     sources = []    # Câu gốc
#     hypotheses = [] # Máy dịch
#     references = [] # Đáp án chuẩn
    
#     print(" Đang decode dữ liệu để chuẩn bị chấm điểm...")
    
#     with torch.no_grad():
#         for src, trg in tqdm(data_loader, desc="Extracting Text", mininterval=30):
#             src = src.to(device)
#             trg = trg.to(device)
            
#             # --- 1. Decode (Greedy Search) ---
#             src_mask = model.make_src_mask(src)
#             enc_src = model.encoder(src, src_mask)
            
#             batch_size = src.shape[0]
#             trg_indexes = torch.tensor([[sp.bos_id()]] * batch_size).to(device)
            
#             for i in range(max_len):
#                 trg_mask = model.make_trg_mask(trg_indexes)
#                 output = model.decoder(trg_indexes, enc_src, trg_mask, src_mask)
#                 pred_token = output.argmax(2)[:,-1].unsqueeze(1)
#                 trg_indexes = torch.cat((trg_indexes, pred_token), dim=1)
            
#             # --- 2. Convert ID -> Text ---
#             src_list = src.cpu().numpy().tolist()
#             trg_pred_list = trg_indexes.cpu().numpy().tolist()
#             trg_real_list = trg.cpu().numpy().tolist()
            
#             for i in range(batch_size):
#                 # A. Source (Câu gốc) - Cần loại bỏ PAD/BOS/EOS
#                 src_ids = [t for t in src_list[i] if t not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 sources.append(sp.decode_ids(src_ids))

#                 # B. Hypothesis (Máy dịch)
#                 pred_ids = trg_pred_list[i][1:] # Bỏ BOS đầu
#                 if sp.eos_id() in pred_ids:
#                     pred_ids = pred_ids[:pred_ids.index(sp.eos_id())]
#                 hypotheses.append(sp.decode_ids(pred_ids))
                
#                 # C. Reference (Đáp án)
#                 real_ids = [t for t in trg_real_list[i] if t not in [sp.pad_id(), sp.bos_id(), sp.eos_id()]]
#                 references.append(sp.decode_ids(real_ids))

#     print(f" Đã trích xuất xong {len(sources)} câu.")
#     return sources, hypotheses, references

In [None]:
# import time
# from google import genai
# import re
# import random
# import json

# #  API Key
# MY_API_KEY = "AIzaSyAsOHchTqzmf2bNTniUAno286es8rnrj48"

# def calculate_score_batching(sources, hypotheses, references, api_key, total_samples=30, batch_size=5):
#     """
#     Chiến thuật: Gửi 5 câu một lúc để tiết kiệm request.
#     30 câu chỉ tốn 6 request -> Không bao giờ bị chặn.
#     """
#     client = genai.Client(api_key=api_key)
#     model_id = "gemini-2.5-flash"
    
#     # 1. Chọn mẫu ngẫu nhiên
#     N = len(sources)
#     actual_samples = min(total_samples, N)
#     indices = random.sample(range(N), actual_samples)
    
#     # Gom data theo index đã chọn
#     selected_src = [sources[i] for i in indices]
#     selected_hyp = [hypotheses[i] for i in indices]
#     selected_ref = [references[i] for i in indices]
    
#     all_scores = []
    
#     print(f"\n Đang chấm {actual_samples} câu theo cơ chế BATCHING (Gom {batch_size} câu/lần)...")
#     print("-" * 65)
#     print(f"{'Batch':<6} | {'Status':<30} | {'Scores Received'}")
#     print("-" * 65)

#     # 2. Vòng lặp từng Batch
#     for i in range(0, actual_samples, batch_size):
#         # Cắt lát dữ liệu (Slicing)
#         batch_src = selected_src[i : i + batch_size]
#         batch_hyp = selected_hyp[i : i + batch_size]
#         batch_ref = selected_ref[i : i + batch_size]
        
#         # Tạo prompt gom nhiều câu
#         content_text = ""
#         for j in range(len(batch_src)):
#             content_text += f"""
#             Câu {j+1}:
#             - Gốc: "{batch_src[j]}"
#             - Đáp án: "{batch_ref[j]}"
#             - Máy dịch: "{batch_hyp[j]}"
#             """
            
#         prompt = f"""
#         Bạn là giám khảo chấm thi. Hãy chấm điểm {len(batch_src)} bản dịch trên thang 0-100.
        
#         Dữ liệu cần chấm:
#         {content_text}
        
#         YÊU CẦU QUAN TRỌNG:
#         - Chỉ trả về một list Python chứa các con số tương ứng.
#         - Ví dụ output mong muốn: [85, 90, 70, 100, 60]
#         - Không giải thích gì thêm.
#         """
        
#         try:
#             # Gọi API
#             response = client.models.generate_content(
#                 model=model_id, 
#                 contents=prompt
#             )
            
#             # Xử lý kết quả trả về
#             text = response.text
#             # Tìm mảng số trong text (VD: [80, 90...])
#             match = re.search(r'\[.*?\]', text)
#             if match:
#                 # Parse string thành list
#                 scores = json.loads(match.group())
#                 # Đảm bảo là list số nguyên
#                 scores = [int(s) for s in scores]
#                 all_scores.extend(scores)
                
#                 print(f"{i//batch_size + 1:<6} | Đã chấm xong {len(scores)} câu       | {scores}")
#             else:
#                 # Fallback: Nếu model không trả về list, dùng regex tìm tất cả số
#                 nums = re.findall(r'\d+', text)
#                 nums = [int(n) for n in nums if int(n) <= 100][:len(batch_src)]
#                 all_scores.extend(nums)
#                 print(f"{i//batch_size + 1:<6} | Regex fallback ({len(nums)} câu)   | {nums}")

#             # Nghỉ nhẹ 2s (Rất an toàn vì 1 request xử lý được 5 câu rồi)
#             time.sleep(2)
            
#         except Exception as e:
#             print(f"Batch {i//batch_size + 1}: Lỗi - {e}")
#             time.sleep(5) # Nếu lỗi thì nghỉ lâu chút

#     # 3. Tổng kết
#     if not all_scores: return 0
#     avg_score = sum(all_scores) / len(all_scores)
    
#     print("-" * 65)
#     print(f"Đã chấm tổng cộng: {len(all_scores)}/{actual_samples} câu")
#     return avg_score

# # --- CHẠY ---
# if 'src_texts' in globals():
#     # Chấm 30 câu, mỗi lần gửi 5 câu => Chỉ mất 6 request (API Free chịu tốt)
#     final_score = calculate_score_batching(src_texts, hyp_texts, ref_texts, MY_API_KEY, total_samples=30, batch_size=5)
#     print(f"\n" + "="*40)
#     print(f"GEMINI BATCH SCORE: {final_score:.2f} / 100")
#     print(f"="*40)