# Full Model Evaluation - Baseline (Pythia-1B)

**TokAlign ACL Publication-Grade Evaluation Framework - Notebook 2/3**

Comprehensive evaluation of `EleutherAI/pythia-1b` covering:
- **Section A**: Perplexity (Spanish + English catastrophic forgetting check)
- **Section B**: Downstream NLU Tasks (Belebele, SIB-200, XCOPA, XNLI)
- **Section C**: Machine Translation (FLORES-200, BLEU/chrF++/COMET)
- **Section D**: Generation Quality (Distinct-N, repetition, Self-BLEU)
- **Section E**: Computational Efficiency (throughput, latency, VRAM)

## References
- Belebele (Bandarkar et al., ACL 2024) - 221 citations
- SIB-200 (Adelani et al., EACL 2023) - 118 citations
- CVA Study (Yamaguchi et al., EMNLP 2024) - 271.5% speedup
- Branch-and-Merge (Alexandrov et al., EMNLP 2024) - Catastrophic forgetting mitigation


In [1]:
# Cell 1: Configuration
# =====================

# === MODEL CONFIGURATION ===
MODEL_PATH = "EleutherAI/pythia-1b"
MODEL_NAME = "baseline"  # Used for output file naming

# === EVALUATION SETTINGS ===
PERPLEXITY_SAMPLES_ES = 2000
PERPLEXITY_SAMPLES_EN = 1000
GENERATION_PROMPTS = 500
MT_SAMPLES = 1012  # FLORES-200 devtest size
EFFICIENCY_SAMPLES = 1000
EFFICIENCY_RUNS = 3
WARMUP_SAMPLES = 100

# === BATCH SIZES ===
BATCH_SIZE_PPL = 16
BATCH_SIZE_GEN = 8
MAX_NEW_TOKENS = 128

# === OUTPUT ===
OUTPUT_DIR = "results"
PPL_OUTPUT = f"{OUTPUT_DIR}/perplexity_{MODEL_NAME}.csv"
NLU_OUTPUT = f"{OUTPUT_DIR}/nlu_results_{MODEL_NAME}.json"
MT_OUTPUT = f"{OUTPUT_DIR}/mt_results_{MODEL_NAME}.csv"
GEN_OUTPUT = f"{OUTPUT_DIR}/generation_{MODEL_NAME}.csv"
EFFICIENCY_OUTPUT = f"{OUTPUT_DIR}/efficiency_{MODEL_NAME}.csv"

# === THRESHOLDS (per plan) ===
ENGLISH_PPL_DEGRADATION_THRESHOLD = 0.05  # <5% increase acceptable
ENGLISH_ACCURACY_DEGRADATION_THRESHOLD = 0.02  # <2% drop acceptable

RANDOM_SEED = 42


In [2]:
# Cell 2: Install Dependencies
!pip install transformers datasets accelerate pandas numpy scipy tqdm pynvml -q
!pip install sacrebleu unbabel-comet lm-eval -q
!pip install flash-attn --no-build-isolation -q


In [3]:
# Cell 3: Imports and GPU Validation
import os
import json
import time
import torch
import numpy as np
import pandas as pd
import pynvml
from scipy import stats
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer
from torch.utils.data import DataLoader, Dataset
from tqdm.auto import tqdm
from typing import Dict, List, Tuple, Optional
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# GPU Validation
assert torch.cuda.is_available(), "CUDA is not available - GPU required"
compute_capability = torch.cuda.get_device_capability()
print(f"GPU: {torch.cuda.get_device_name(0)}")
print(f"Compute Capability: {compute_capability[0]}.{compute_capability[1]}")
print(f"CUDA Version: {torch.version.cuda}")
print(f"PyTorch Version: {torch.__version__}")

# Initialize VRAM monitoring
pynvml.nvmlInit()
gpu_handle = pynvml.nvmlDeviceGetHandleByIndex(0)

# Set random seed
np.random.seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

# Create output directory
os.makedirs(OUTPUT_DIR, exist_ok=True)
print(f"\nOutput directory: {OUTPUT_DIR}")


  import pynvml  # type: ignore[import]


  from .autonotebook import tqdm as notebook_tqdm


GPU: NVIDIA H100 80GB HBM3
Compute Capability: 9.0
CUDA Version: 12.8
PyTorch Version: 2.7.0

Output directory: results


In [4]:
# Cell 4: Load Model
# ==================

print(f"Loading model: {MODEL_PATH}")

# Determine if Flash Attention 2 is available
use_flash_attn = compute_capability[0] >= 8
attn_impl = "flash_attention_2" if use_flash_attn else "eager"
print(f"Attention implementation: {attn_impl}")

# Load model with optimized settings
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.bfloat16,
    device_map="cuda",
    attn_implementation=attn_impl,
)
model.eval()

# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "left"  # Required for batched generation

print(f"\nModel loaded successfully on {next(model.parameters()).device}")
print(f"Model dtype: {next(model.parameters()).dtype}")
print(f"Vocab size: {tokenizer.vocab_size}")


`torch_dtype` is deprecated! Use `dtype` instead!


Loading model: EleutherAI/pythia-1b
Attention implementation: flash_attention_2


2025-11-29 00:58:05.484366: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-11-29 00:58:05.498457: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1764377885.516024   81392 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1764377885.521605   81392 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1764377885.535712   81392 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking 


Model loaded successfully on cuda:0
Model dtype: torch.bfloat16
Vocab size: 50254


## Section A: Perplexity Evaluation

Evaluates model perplexity on:
1. **Spanish (Target Language)**: OSCAR-2301 Spanish validation
2. **English (Catastrophic Forgetting)**: WikiText-2 validation

Threshold: <5% PPL increase on English acceptable per Branch-and-Merge methodology.


In [5]:
# Cell 5: Perplexity Functions
# =============================

@torch.no_grad()
def calculate_batch_perplexity(texts: List[str], model, tokenizer, max_length: int = 512) -> List[Dict]:
    """
    Vectorized perplexity calculation using cross-entropy loss.
    Returns list of dicts with PPL and token counts per sample.
    """
    # Tokenize batch with padding
    encodings = tokenizer(
        texts,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=max_length,
    ).to("cuda")
    
    input_ids = encodings.input_ids
    attention_mask = encodings.attention_mask
    
    # Forward pass
    outputs = model(input_ids=input_ids, attention_mask=attention_mask)
    logits = outputs.logits
    
    # Shift logits and labels for causal LM loss calculation
    shift_logits = logits[:, :-1, :].contiguous()
    shift_labels = input_ids[:, 1:].contiguous()
    shift_mask = attention_mask[:, 1:].contiguous()
    
    # Calculate per-token cross entropy loss
    loss_fct = torch.nn.CrossEntropyLoss(reduction='none')
    losses = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
    losses = losses.view(shift_labels.size())
    
    # Mask out padding tokens and calculate mean loss per sequence
    masked_losses = losses * shift_mask
    seq_lengths = shift_mask.sum(dim=1).clamp(min=1)
    mean_losses = masked_losses.sum(dim=1) / seq_lengths
    
    # Convert to perplexity
    perplexities = torch.exp(mean_losses)
    
    # Return detailed results
    results = []
    for i, (text, ppl, n_tokens) in enumerate(zip(texts, perplexities.cpu().tolist(), seq_lengths.cpu().tolist())):
        results.append({
            'text': text[:200],
            'perplexity': ppl,
            'num_tokens': int(n_tokens),
            'cross_entropy': mean_losses[i].cpu().item()
        })
    
    return results


def evaluate_perplexity(texts: List[str], model, tokenizer, batch_size: int, desc: str) -> pd.DataFrame:
    """Evaluate perplexity on a corpus."""
    all_results = []
    
    for i in tqdm(range(0, len(texts), batch_size), desc=desc):
        batch = texts[i:i+batch_size]
        batch = [t for t in batch if t and t.strip()]  # Filter empty
        if batch:
            results = calculate_batch_perplexity(batch, model, tokenizer)
            all_results.extend(results)
    
    return pd.DataFrame(all_results)


print("Perplexity functions defined.")


Perplexity functions defined.


In [6]:
# Cell 6: Load Perplexity Datasets (PARALLELIZED)
# ================================================

import multiprocessing
NUM_PROC = multiprocessing.cpu_count() // 2  # Use 26 physical cores
print(f"Loading perplexity datasets with {NUM_PROC} parallel workers...")

# Spanish: Wikipedia (parallel loading)
print("\n1. Loading Spanish Wikipedia...")
wiki_es = load_dataset(
    "wikimedia/wikipedia",
    "20231101.es",
    split=f"train[:{PERPLEXITY_SAMPLES_ES * 2}]",  # Load extra for filtering
    num_proc=NUM_PROC
)

def filter_and_truncate(example):
    text = example.get('text', '')
    return text and len(text) > 100

wiki_es_filtered = wiki_es.filter(filter_and_truncate, num_proc=NUM_PROC)
spanish_texts = [t[:1000] for t in wiki_es_filtered['text'][:PERPLEXITY_SAMPLES_ES]]
print(f"   Loaded {len(spanish_texts)} Spanish samples")

# English: WikiText-2
print("\n2. Loading English WikiText-2...")
wikitext = load_dataset("wikitext", "wikitext-2-raw-v1", split="validation")
english_texts = [t for t in wikitext['text'] if t and len(t) > 100][:PERPLEXITY_SAMPLES_EN]
print(f"   Loaded {len(english_texts)} English samples")


Loading perplexity datasets with 26 parallel workers...

1. Loading Spanish Wikipedia...


   Loaded 2000 Spanish samples

2. Loading English WikiText-2...


   Loaded 1000 English samples


In [7]:
# Cell 7: Run Perplexity Evaluation
# ==================================

print("=" * 70)
print("PERPLEXITY EVALUATION")
print("=" * 70)

# Spanish perplexity
print("\n--- Spanish (Target Language) ---")
spanish_ppl_df = evaluate_perplexity(spanish_texts, model, tokenizer, BATCH_SIZE_PPL, "Spanish PPL")

# English perplexity
print("\n--- English (Catastrophic Forgetting Check) ---")
english_ppl_df = evaluate_perplexity(english_texts, model, tokenizer, BATCH_SIZE_PPL, "English PPL")

# Combine and save
spanish_ppl_df['language'] = 'es'
english_ppl_df['language'] = 'en'
ppl_df = pd.concat([spanish_ppl_df, english_ppl_df], ignore_index=True)
ppl_df.to_csv(PPL_OUTPUT, index=False)
print(f"\nPerplexity results saved to: {PPL_OUTPUT}")


PERPLEXITY EVALUATION

--- Spanish (Target Language) ---


Spanish PPL:   0%|                                                                                                                                                    | 0/125 [00:00<?, ?it/s]

Spanish PPL:   1%|█                                                                                                                                           | 1/125 [00:00<00:58,  2.13it/s]

Spanish PPL:   2%|███▎                                                                                                                                        | 3/125 [00:00<00:19,  6.28it/s]

Spanish PPL:   4%|█████▌                                                                                                                                      | 5/125 [00:00<00:16,  7.37it/s]

Spanish PPL:   6%|███████▊                                                                                                                                    | 7/125 [00:00<00:13,  8.53it/s]

Spanish PPL:   8%|███████████                                                                                                                                | 10/125 [00:01<00:09, 12.21it/s]

Spanish PPL:  10%|██████████████▍                                                                                                                            | 13/125 [00:01<00:07, 15.12it/s]

Spanish PPL:  13%|█████████████████▊                                                                                                                         | 16/125 [00:01<00:06, 17.14it/s]

Spanish PPL:  15%|█████████████████████▏                                                                                                                     | 19/125 [00:01<00:05, 18.89it/s]

Spanish PPL:  18%|████████████████████████▍                                                                                                                  | 22/125 [00:01<00:05, 19.67it/s]

Spanish PPL:  20%|███████████████████████████▊                                                                                                               | 25/125 [00:01<00:04, 20.51it/s]

Spanish PPL:  22%|███████████████████████████████▏                                                                                                           | 28/125 [00:01<00:04, 21.55it/s]

Spanish PPL:  25%|██████████████████████████████████▍                                                                                                        | 31/125 [00:02<00:04, 21.95it/s]

Spanish PPL:  27%|█████████████████████████████████████▊                                                                                                     | 34/125 [00:02<00:04, 20.75it/s]

Spanish PPL:  30%|█████████████████████████████████████████▏                                                                                                 | 37/125 [00:02<00:05, 16.75it/s]

Spanish PPL:  32%|████████████████████████████████████████████▍                                                                                              | 40/125 [00:02<00:04, 18.30it/s]

Spanish PPL:  34%|██████████████████████████████████████████████▋                                                                                            | 42/125 [00:02<00:05, 15.42it/s]

Spanish PPL:  36%|██████████████████████████████████████████████████                                                                                         | 45/125 [00:02<00:04, 17.39it/s]

Spanish PPL:  38%|█████████████████████████████████████████████████████▍                                                                                     | 48/125 [00:03<00:04, 18.88it/s]

Spanish PPL:  41%|████████████████████████████████████████████████████████▋                                                                                  | 51/125 [00:03<00:03, 20.14it/s]

Spanish PPL:  43%|████████████████████████████████████████████████████████████                                                                               | 54/125 [00:03<00:03, 21.16it/s]

Spanish PPL:  46%|███████████████████████████████████████████████████████████████▍                                                                           | 57/125 [00:03<00:03, 21.81it/s]

Spanish PPL:  48%|██████████████████████████████████████████████████████████████████▋                                                                        | 60/125 [00:03<00:02, 22.47it/s]

Spanish PPL:  50%|██████████████████████████████████████████████████████████████████████                                                                     | 63/125 [00:03<00:02, 22.76it/s]

Spanish PPL:  53%|█████████████████████████████████████████████████████████████████████████▍                                                                 | 66/125 [00:03<00:02, 22.92it/s]

Spanish PPL:  55%|████████████████████████████████████████████████████████████████████████████▋                                                              | 69/125 [00:03<00:02, 22.86it/s]

Spanish PPL:  58%|████████████████████████████████████████████████████████████████████████████████                                                           | 72/125 [00:04<00:02, 23.09it/s]

Spanish PPL:  60%|███████████████████████████████████████████████████████████████████████████████████▍                                                       | 75/125 [00:04<00:02, 22.95it/s]

Spanish PPL:  62%|██████████████████████████████████████████████████████████████████████████████████████▋                                                    | 78/125 [00:04<00:02, 23.31it/s]

Spanish PPL:  65%|██████████████████████████████████████████████████████████████████████████████████████████                                                 | 81/125 [00:04<00:01, 23.60it/s]

Spanish PPL:  67%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 84/125 [00:04<00:01, 23.31it/s]

Spanish PPL:  70%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 87/125 [00:04<00:01, 23.31it/s]

Spanish PPL:  72%|████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 90/125 [00:04<00:01, 23.25it/s]

Spanish PPL:  74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 93/125 [00:04<00:01, 23.18it/s]

Spanish PPL:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 96/125 [00:05<00:01, 23.23it/s]

Spanish PPL:  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 99/125 [00:05<00:01, 23.41it/s]

Spanish PPL:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 102/125 [00:05<00:00, 23.33it/s]

Spanish PPL:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 105/125 [00:05<00:00, 23.45it/s]

Spanish PPL:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 108/125 [00:05<00:00, 23.11it/s]

Spanish PPL:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 111/125 [00:05<00:00, 23.18it/s]

Spanish PPL:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 114/125 [00:05<00:00, 23.19it/s]

Spanish PPL:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [00:05<00:00, 23.35it/s]

Spanish PPL:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 120/125 [00:06<00:00, 23.53it/s]

Spanish PPL:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [00:06<00:00, 23.70it/s]

Spanish PPL: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [00:06<00:00, 19.77it/s]





--- English (Catastrophic Forgetting Check) ---


English PPL:   0%|                                                                                                                                                     | 0/63 [00:00<?, ?it/s]

English PPL:   6%|████████▉                                                                                                                                    | 4/63 [00:00<00:02, 28.50it/s]

English PPL:  13%|█████████████████▉                                                                                                                           | 8/63 [00:00<00:01, 28.98it/s]

English PPL:  17%|████████████████████████▍                                                                                                                   | 11/63 [00:00<00:01, 29.02it/s]

English PPL:  24%|█████████████████████████████████▎                                                                                                          | 15/63 [00:00<00:01, 30.46it/s]

English PPL:  30%|██████████████████████████████████████████▏                                                                                                 | 19/63 [00:00<00:01, 30.02it/s]

English PPL:  37%|███████████████████████████████████████████████████                                                                                         | 23/63 [00:00<00:01, 28.90it/s]

English PPL:  41%|█████████████████████████████████████████████████████████▊                                                                                  | 26/63 [00:00<00:01, 28.93it/s]

English PPL:  46%|████████████████████████████████████████████████████████████████▍                                                                           | 29/63 [00:00<00:01, 29.16it/s]

English PPL:  51%|███████████████████████████████████████████████████████████████████████                                                                     | 32/63 [00:01<00:01, 28.61it/s]

English PPL:  56%|█████████████████████████████████████████████████████████████████████████████▊                                                              | 35/63 [00:01<00:00, 28.20it/s]

English PPL:  60%|████████████████████████████████████████████████████████████████████████████████████▍                                                       | 38/63 [00:01<00:00, 27.27it/s]

English PPL:  65%|███████████████████████████████████████████████████████████████████████████████████████████                                                 | 41/63 [00:01<00:00, 27.41it/s]

English PPL:  71%|████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 45/63 [00:01<00:00, 29.31it/s]

English PPL:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 48/63 [00:01<00:00, 28.21it/s]

English PPL:  81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 51/63 [00:01<00:00, 27.79it/s]

English PPL:  86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 54/63 [00:01<00:00, 23.39it/s]

English PPL:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 57/63 [00:02<00:00, 24.62it/s]

English PPL:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 60/63 [00:02<00:00, 25.13it/s]

English PPL: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:02<00:00, 25.78it/s]

English PPL: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:02<00:00, 27.46it/s]


Perplexity results saved to: results/perplexity_baseline.csv





In [8]:
# Cell 8: Perplexity Summary Statistics
# ======================================

def ppl_summary(df: pd.DataFrame, lang: str) -> Dict:
    """Compute perplexity summary statistics."""
    ppl_vals = df[df['language'] == lang]['perplexity'].values
    return {
        'language': lang,
        'mean': np.mean(ppl_vals),
        'median': np.median(ppl_vals),
        'std': np.std(ppl_vals),
        'p5': np.percentile(ppl_vals, 5),
        'p25': np.percentile(ppl_vals, 25),
        'p50': np.percentile(ppl_vals, 50),
        'p75': np.percentile(ppl_vals, 75),
        'p95': np.percentile(ppl_vals, 95),
        'min': np.min(ppl_vals),
        'max': np.max(ppl_vals),
        'n_samples': len(ppl_vals)
    }


print("\n" + "=" * 70)
print("PERPLEXITY SUMMARY")
print("=" * 70)

# Spanish summary
es_summary = ppl_summary(ppl_df, 'es')
print(f"\n--- SPANISH ---")
print(f"  Mean PPL:   {es_summary['mean']:.2f}")
print(f"  Median PPL: {es_summary['median']:.2f}")
print(f"  Std PPL:    {es_summary['std']:.2f}")
print(f"  Percentiles: P5={es_summary['p5']:.2f}, P25={es_summary['p25']:.2f}, "
      f"P50={es_summary['p50']:.2f}, P75={es_summary['p75']:.2f}, P95={es_summary['p95']:.2f}")

# English summary
en_summary = ppl_summary(ppl_df, 'en')
print(f"\n--- ENGLISH ---")
print(f"  Mean PPL:   {en_summary['mean']:.2f}")
print(f"  Median PPL: {en_summary['median']:.2f}")
print(f"  Std PPL:    {en_summary['std']:.2f}")
print(f"  Percentiles: P5={en_summary['p5']:.2f}, P25={en_summary['p25']:.2f}, "
      f"P50={en_summary['p50']:.2f}, P75={en_summary['p75']:.2f}, P95={en_summary['p95']:.2f}")

# Store for later comparison
BASELINE_ENGLISH_PPL = en_summary['mean']
print(f"\n[BASELINE] English Mean PPL: {BASELINE_ENGLISH_PPL:.2f} (reference for catastrophic forgetting)")



PERPLEXITY SUMMARY

--- SPANISH ---
  Mean PPL:   13.88
  Median PPL: 12.00
  Std PPL:    6.66
  Percentiles: P5=7.50, P25=9.81, P50=12.00, P75=15.19, P95=27.88

--- ENGLISH ---
  Mean PPL:   36.31
  Median PPL: 26.62
  Std PPL:    35.35
  Percentiles: P5=13.81, P25=20.31, P50=26.62, P75=38.00, P95=87.15

[BASELINE] English Mean PPL: 36.31 (reference for catastrophic forgetting)


## Section B: Downstream NLU Tasks

Using lm-evaluation-harness for standardized benchmarks:
- **Belebele** (spa_Latn + eng_Latn): Reading comprehension, 221 citations
- **SIB-200** (spa_Latn): Topic classification, 118 citations  
- **XCOPA** (et/translation_es): Commonsense reasoning
- **XNLI** (es): Natural language inference

English regression tests: arc_easy, hellaswag, lambada_openai


In [9]:
# Cell 9: NLU Evaluation via lm-evaluation-harness
# ================================================

# Note: lm-eval tasks are run via command line for best compatibility
# This cell generates the command and parses results

print("=" * 70)
print("NLU EVALUATION (lm-evaluation-harness)")
print("=" * 70)

# Define tasks to evaluate
SPANISH_TASKS = [
    "belebele_spa_latn",  # Reading comprehension
    # "sib200_spa_latn",    # Topic classification (if available)
    # "xcopa_translation-es",  # Commonsense (if available)
]

ENGLISH_TASKS = [
    "belebele_eng_latn",  # Reading comprehension (English baseline)
    "arc_easy",           # Regression test
    "hellaswag",          # Regression test
    "lambada_openai",     # Regression test
]

ALL_TASKS = SPANISH_TASKS + ENGLISH_TASKS

print("\nTasks to evaluate:")
for task in ALL_TASKS:
    print(f"  - {task}")

# Generate lm-eval command
lm_eval_cmd = f"""
# Run this command in terminal:
lm_eval --model hf \\
    --model_args pretrained={MODEL_PATH},dtype=bfloat16 \\
    --tasks {','.join(ALL_TASKS)} \\
    --batch_size auto \\
    --output_path {NLU_OUTPUT.replace('.json', '')}
"""

print("\n" + "=" * 70)
print("LM-EVAL COMMAND")
print("=" * 70)
print(lm_eval_cmd)


NLU EVALUATION (lm-evaluation-harness)

Tasks to evaluate:
  - belebele_spa_latn
  - belebele_eng_latn
  - arc_easy
  - hellaswag
  - lambada_openai

LM-EVAL COMMAND

# Run this command in terminal:
lm_eval --model hf \
    --model_args pretrained=EleutherAI/pythia-1b,dtype=bfloat16 \
    --tasks belebele_spa_latn,belebele_eng_latn,arc_easy,hellaswag,lambada_openai \
    --batch_size auto \
    --output_path results/nlu_results_baseline



In [10]:
# Cell 10: Run lm-eval (alternative: programmatic API)
# ====================================================

try:
    from lm_eval import evaluator
    from lm_eval.models.huggingface import HFLM
    
    print("Running lm-evaluation-harness programmatically...")
    
    # Create model wrapper using our already-loaded model
    lm = HFLM(
        pretrained=model,
        tokenizer=tokenizer,
        batch_size="auto"
    )
    
    # Run evaluation on available tasks
    # Note: Some tasks may not be available in all lm-eval versions
    available_tasks = []
    for task in ALL_TASKS:
        try:
            results = evaluator.simple_evaluate(
                model=lm,
                tasks=[task],
                batch_size="auto",
                log_samples=False
            )
            available_tasks.append(task)
            print(f"  [OK] {task}")
        except Exception as e:
            print(f"  [SKIP] {task}: {str(e)[:50]}...")
    
    if available_tasks:
        # Full evaluation on available tasks
        nlu_results = evaluator.simple_evaluate(
            model=lm,
            tasks=available_tasks,
            batch_size="auto",
            log_samples=False
        )
        
        # Save results
        with open(NLU_OUTPUT, 'w') as f:
            json.dump(nlu_results, f, indent=2, default=str)
        print(f"\nNLU results saved to: {NLU_OUTPUT}")
    else:
        print("\nNo tasks available. Run lm-eval command manually.")
        nlu_results = None
        
except ImportError:
    print("lm-eval not installed. Run the command above manually.")
    nlu_results = None
except Exception as e:
    print(f"Error running lm-eval: {e}")
    print("Run the command above manually.")
    nlu_results = None


`pretrained` model kwarg is not of type `str`. Many other model arguments may be ignored. Please do not launch via accelerate or use `parallelize=True` if passing an existing model this way.


Passed an already-initialized model through `pretrained`, assuming single-process call to evaluate() or custom distributed integration


Running lm-evaluation-harness programmatically...


  [SKIP] belebele_spa_latn: 'belebele_spa_latn'...


  [SKIP] belebele_eng_latn: 'belebele_eng_latn'...


  0%|                                                                                                                                                                | 0/2376 [00:00<?, ?it/s]

  7%|█████████▊                                                                                                                                          | 158/2376 [00:00<00:01, 1578.75it/s]

 13%|███████████████████▋                                                                                                                                | 317/2376 [00:00<00:01, 1583.05it/s]

 20%|█████████████████████████████▋                                                                                                                      | 476/2376 [00:00<00:01, 1578.65it/s]

 27%|███████████████████████████████████████▋                                                                                                            | 638/2376 [00:00<00:01, 1591.44it/s]

 34%|█████████████████████████████████████████████████▊                                                                                                  | 799/2376 [00:00<00:00, 1597.68it/s]

 40%|███████████████████████████████████████████████████████████▊                                                                                        | 960/2376 [00:00<00:00, 1601.12it/s]

 47%|█████████████████████████████████████████████████████████████████████▍                                                                             | 1122/2376 [00:00<00:00, 1605.39it/s]

 54%|███████████████████████████████████████████████████████████████████████████████▍                                                                   | 1284/2376 [00:00<00:00, 1609.35it/s]

 61%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 1447/2376 [00:00<00:00, 1614.81it/s]

 68%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 1610/2376 [00:01<00:00, 1618.17it/s]

 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 1772/2376 [00:01<00:00, 1617.40it/s]

 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 1934/2376 [00:01<00:00, 1617.17it/s]

 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 2096/2376 [00:01<00:00, 1616.01it/s]

 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 2258/2376 [00:01<00:00, 1615.74it/s]

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2376/2376 [00:01<00:00, 1607.91it/s]




Running loglikelihood requests:   0%|                                                                                                                                | 0/9501 [00:00<?, ?it/s]

Passed argument batch_size = auto:1. Detecting largest batch size


Running loglikelihood requests:   0%|                                                                                                                      | 1/9501 [00:01<2:46:43,  1.05s/it]

Running loglikelihood requests:   2%|██▋                                                                                                                  | 219/9501 [00:01<00:35, 261.23it/s]

Determined largest batch size: 64


Running loglikelihood requests:   5%|█████▉                                                                                                               | 478/9501 [00:01<00:15, 585.51it/s]

Running loglikelihood requests:   8%|█████████▎                                                                                                           | 753/9501 [00:01<00:09, 937.35it/s]

Running loglikelihood requests:  11%|████████████▌                                                                                                      | 1036/9501 [00:01<00:06, 1282.84it/s]

Running loglikelihood requests:  14%|████████████████                                                                                                   | 1323/9501 [00:01<00:05, 1620.63it/s]

Running loglikelihood requests:  17%|███████████████████▊                                                                                               | 1642/9501 [00:01<00:03, 1986.25it/s]

Running loglikelihood requests:  21%|███████████████████████▉                                                                                           | 1975/9501 [00:01<00:03, 2247.46it/s]

Running loglikelihood requests:  25%|████████████████████████████▏                                                                                      | 2329/9501 [00:01<00:02, 2492.27it/s]

Running loglikelihood requests:  28%|████████████████████████████████▍                                                                                  | 2675/9501 [00:02<00:02, 2674.15it/s]

Running loglikelihood requests:  32%|████████████████████████████████████▋                                                                              | 3034/9501 [00:02<00:02, 2865.18it/s]

Running loglikelihood requests:  36%|█████████████████████████████████████████▎                                                                         | 3409/9501 [00:02<00:02, 3028.54it/s]

Running loglikelihood requests:  40%|█████████████████████████████████████████████▊                                                                     | 3780/9501 [00:02<00:01, 3121.10it/s]

Running loglikelihood requests:  44%|██████████████████████████████████████████████████▏                                                                | 4142/9501 [00:02<00:01, 3220.77it/s]

Running loglikelihood requests:  47%|██████████████████████████████████████████████████████▍                                                            | 4502/9501 [00:02<00:01, 3316.43it/s]

Running loglikelihood requests:  51%|██████████████████████████████████████████████████████████▉                                                        | 4866/9501 [00:02<00:01, 3354.81it/s]

Running loglikelihood requests:  55%|███████████████████████████████████████████████████████████████▍                                                   | 5236/9501 [00:02<00:01, 3411.92it/s]

Running loglikelihood requests:  59%|███████████████████████████████████████████████████████████████████▌                                               | 5582/9501 [00:02<00:01, 3419.59it/s]

Running loglikelihood requests:  63%|███████████████████████████████████████████████████████████████████████▉                                           | 5942/9501 [00:02<00:01, 3452.92it/s]

Running loglikelihood requests:  66%|████████████████████████████████████████████████████████████████████████████▎                                      | 6304/9501 [00:03<00:00, 3435.37it/s]

Running loglikelihood requests:  70%|████████████████████████████████████████████████████████████████████████████████▊                                  | 6680/9501 [00:03<00:00, 3503.57it/s]

Running loglikelihood requests:  74%|█████████████████████████████████████████████████████████████████████████████████████▎                             | 7047/9501 [00:03<00:00, 3533.42it/s]

Running loglikelihood requests:  78%|█████████████████████████████████████████████████████████████████████████████████████████▊                         | 7422/9501 [00:03<00:00, 3567.63it/s]

Running loglikelihood requests:  82%|██████████████████████████████████████████████████████████████████████████████████████████████▍                    | 7804/9501 [00:03<00:00, 3550.95it/s]

Running loglikelihood requests:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████▍               | 8214/9501 [00:03<00:00, 3684.25it/s]

Running loglikelihood requests:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 8630/9501 [00:03<00:00, 3709.30it/s]

Running loglikelihood requests:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 9083/9501 [00:03<00:00, 3853.80it/s]

Running loglikelihood requests: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9477/9501 [00:03<00:00, 3670.46it/s]

Running loglikelihood requests: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9501/9501 [00:03<00:00, 2413.98it/s]




  [OK] arc_easy


  0%|                                                                                                                                                               | 0/10042 [00:00<?, ?it/s]

  4%|█████▋                                                                                                                                             | 392/10042 [00:00<00:02, 3913.61it/s]

  8%|███████████▌                                                                                                                                       | 786/10042 [00:00<00:02, 3926.72it/s]

 12%|█████████████████▎                                                                                                                                | 1187/10042 [00:00<00:02, 3963.34it/s]

 16%|███████████████████████                                                                                                                           | 1589/10042 [00:00<00:02, 3983.41it/s]

 20%|████████████████████████████▉                                                                                                                     | 1993/10042 [00:00<00:02, 4001.34it/s]

 24%|██████████████████████████████████▊                                                                                                               | 2396/10042 [00:00<00:01, 4008.16it/s]

 28%|████████████████████████████████████████▋                                                                                                         | 2797/10042 [00:01<00:03, 1905.39it/s]

 32%|██████████████████████████████████████████████▍                                                                                                   | 3198/10042 [00:01<00:02, 2286.87it/s]

 36%|████████████████████████████████████████████████████▎                                                                                             | 3598/10042 [00:01<00:02, 2638.78it/s]

 40%|██████████████████████████████████████████████████████████                                                                                        | 3995/10042 [00:01<00:02, 2941.11it/s]

 44%|███████████████████████████████████████████████████████████████▉                                                                                  | 4395/10042 [00:01<00:01, 3198.61it/s]

 48%|█████████████████████████████████████████████████████████████████████▋                                                                            | 4796/10042 [00:01<00:01, 3406.89it/s]

 52%|███████████████████████████████████████████████████████████████████████████▌                                                                      | 5198/10042 [00:01<00:01, 3570.78it/s]

 56%|█████████████████████████████████████████████████████████████████████████████████▍                                                                | 5600/10042 [00:01<00:01, 3693.80it/s]

 60%|███████████████████████████████████████████████████████████████████████████████████████▏                                                          | 5998/10042 [00:01<00:01, 3774.42it/s]

 64%|█████████████████████████████████████████████████████████████████████████████████████████████                                                     | 6398/10042 [00:01<00:00, 3838.57it/s]

 68%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 6794/10042 [00:02<00:00, 3867.00it/s]

 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 7190/10042 [00:02<00:00, 3888.37it/s]

 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 7585/10042 [00:02<00:00, 3903.83it/s]

 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 7982/10042 [00:02<00:00, 3919.99it/s]

 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 8382/10042 [00:02<00:00, 3941.76it/s]

 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 8779/10042 [00:02<00:00, 3915.63it/s]

 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 9173/10042 [00:02<00:00, 3904.42it/s]

 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 9565/10042 [00:02<00:00, 3898.07it/s]

 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 9957/10042 [00:02<00:00, 3902.62it/s]

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10042/10042 [00:02<00:00, 3498.00it/s]




Running loglikelihood requests:   0%|                                                                                                                               | 0/40168 [00:00<?, ?it/s]

Running loglikelihood requests:   0%|                                                                                                                     | 1/40168 [00:00<2:12:29,  5.05it/s]

Running loglikelihood requests:   0%|▌                                                                                                                   | 194/40168 [00:00<00:56, 709.18it/s]

Running loglikelihood requests:   1%|█                                                                                                                  | 387/40168 [00:00<00:39, 1016.80it/s]

Running loglikelihood requests:   1%|█▋                                                                                                                 | 579/40168 [00:00<00:33, 1185.80it/s]

Running loglikelihood requests:   2%|██▏                                                                                                                | 771/40168 [00:00<00:30, 1287.28it/s]

Running loglikelihood requests:   2%|██▊                                                                                                                | 963/40168 [00:00<00:28, 1353.87it/s]

Running loglikelihood requests:   3%|███▎                                                                                                              | 1155/40168 [00:00<00:27, 1398.17it/s]

Running loglikelihood requests:   3%|███▊                                                                                                              | 1347/40168 [00:01<00:27, 1428.97it/s]

Running loglikelihood requests:   4%|████▎                                                                                                             | 1539/40168 [00:01<00:26, 1458.35it/s]

Running loglikelihood requests:   4%|████▉                                                                                                             | 1731/40168 [00:01<00:26, 1476.48it/s]

Running loglikelihood requests:   5%|█████▍                                                                                                            | 1923/40168 [00:01<00:25, 1488.99it/s]

Running loglikelihood requests:   5%|██████                                                                                                            | 2115/40168 [00:01<00:25, 1499.87it/s]

Running loglikelihood requests:   6%|██████▌                                                                                                           | 2307/40168 [00:01<00:25, 1507.15it/s]

Running loglikelihood requests:   6%|███████                                                                                                           | 2499/40168 [00:01<00:24, 1518.29it/s]

Running loglikelihood requests:   7%|███████▋                                                                                                          | 2691/40168 [00:01<00:24, 1524.22it/s]

Running loglikelihood requests:   7%|████████▏                                                                                                         | 2883/40168 [00:02<00:24, 1531.71it/s]

Running loglikelihood requests:   8%|████████▋                                                                                                         | 3075/40168 [00:02<00:24, 1535.95it/s]

Running loglikelihood requests:   8%|█████████▎                                                                                                        | 3267/40168 [00:02<00:23, 1540.62it/s]

Running loglikelihood requests:   9%|█████████▊                                                                                                        | 3460/40168 [00:02<00:23, 1542.45it/s]

Running loglikelihood requests:   9%|██████████▎                                                                                                       | 3652/40168 [00:02<00:23, 1547.87it/s]

Running loglikelihood requests:  10%|██████████▉                                                                                                       | 3844/40168 [00:02<00:23, 1553.98it/s]

Running loglikelihood requests:  10%|███████████▍                                                                                                      | 4036/40168 [00:02<00:23, 1553.59it/s]

Running loglikelihood requests:  11%|███████████▉                                                                                                      | 4228/40168 [00:02<00:23, 1559.26it/s]

Running loglikelihood requests:  11%|████████████▌                                                                                                     | 4420/40168 [00:03<00:22, 1564.98it/s]

Running loglikelihood requests:  11%|█████████████                                                                                                     | 4612/40168 [00:03<00:22, 1573.58it/s]

Running loglikelihood requests:  12%|█████████████▋                                                                                                    | 4804/40168 [00:03<00:22, 1578.37it/s]

Running loglikelihood requests:  12%|██████████████▏                                                                                                   | 4996/40168 [00:03<00:22, 1574.97it/s]

Running loglikelihood requests:  13%|██████████████▋                                                                                                   | 5189/40168 [00:03<00:22, 1583.31it/s]

Running loglikelihood requests:  13%|███████████████▎                                                                                                  | 5381/40168 [00:03<00:21, 1583.53it/s]

Running loglikelihood requests:  14%|███████████████▊                                                                                                  | 5573/40168 [00:03<00:21, 1583.63it/s]

Running loglikelihood requests:  14%|████████████████▎                                                                                                 | 5765/40168 [00:03<00:21, 1589.67it/s]

Running loglikelihood requests:  15%|████████████████▉                                                                                                 | 5957/40168 [00:04<00:21, 1583.44it/s]

Running loglikelihood requests:  15%|█████████████████▍                                                                                                | 6149/40168 [00:04<00:21, 1588.74it/s]

Running loglikelihood requests:  16%|█████████████████▉                                                                                                | 6341/40168 [00:04<00:21, 1593.39it/s]

Running loglikelihood requests:  16%|██████████████████▌                                                                                               | 6533/40168 [00:04<00:21, 1600.40it/s]

Running loglikelihood requests:  17%|███████████████████                                                                                               | 6725/40168 [00:04<00:20, 1613.58it/s]

Running loglikelihood requests:  17%|███████████████████▋                                                                                              | 6918/40168 [00:04<00:20, 1623.24it/s]

Running loglikelihood requests:  18%|████████████████████▏                                                                                             | 7110/40168 [00:04<00:20, 1623.26it/s]

Running loglikelihood requests:  18%|████████████████████▋                                                                                             | 7302/40168 [00:04<00:20, 1633.72it/s]

Running loglikelihood requests:  19%|█████████████████████▎                                                                                            | 7494/40168 [00:05<00:19, 1642.29it/s]

Running loglikelihood requests:  19%|█████████████████████▊                                                                                            | 7686/40168 [00:05<00:19, 1637.39it/s]

Running loglikelihood requests:  20%|██████████████████████▎                                                                                           | 7880/40168 [00:05<00:19, 1648.04it/s]

Running loglikelihood requests:  20%|██████████████████████▉                                                                                           | 8072/40168 [00:05<00:19, 1651.10it/s]

Running loglikelihood requests:  21%|███████████████████████▍                                                                                          | 8264/40168 [00:05<00:19, 1641.81it/s]

Running loglikelihood requests:  21%|███████████████████████▉                                                                                          | 8456/40168 [00:05<00:19, 1650.53it/s]

Running loglikelihood requests:  22%|████████████████████████▌                                                                                         | 8648/40168 [00:05<00:19, 1653.72it/s]

Running loglikelihood requests:  22%|█████████████████████████                                                                                         | 8840/40168 [00:05<00:18, 1653.63it/s]

Running loglikelihood requests:  22%|█████████████████████████▋                                                                                        | 9032/40168 [00:05<00:18, 1658.51it/s]

Running loglikelihood requests:  23%|██████████████████████████▏                                                                                       | 9225/40168 [00:06<00:18, 1668.04it/s]

Running loglikelihood requests:  23%|██████████████████████████▋                                                                                       | 9417/40168 [00:06<00:18, 1667.81it/s]

Running loglikelihood requests:  24%|███████████████████████████▎                                                                                      | 9609/40168 [00:06<00:18, 1673.32it/s]

Running loglikelihood requests:  24%|███████████████████████████▊                                                                                      | 9802/40168 [00:06<00:18, 1680.97it/s]

Running loglikelihood requests:  25%|████████████████████████████▎                                                                                     | 9994/40168 [00:06<00:17, 1681.79it/s]

Running loglikelihood requests:  25%|████████████████████████████▋                                                                                    | 10187/40168 [00:06<00:17, 1690.89it/s]

Running loglikelihood requests:  26%|█████████████████████████████▏                                                                                   | 10381/40168 [00:06<00:17, 1696.17it/s]

Running loglikelihood requests:  26%|█████████████████████████████▋                                                                                   | 10574/40168 [00:06<00:17, 1699.66it/s]

Running loglikelihood requests:  27%|██████████████████████████████▎                                                                                  | 10766/40168 [00:06<00:17, 1698.34it/s]

Running loglikelihood requests:  27%|██████████████████████████████▊                                                                                  | 10958/40168 [00:07<00:17, 1691.44it/s]

Running loglikelihood requests:  28%|███████████████████████████████▎                                                                                 | 11151/40168 [00:07<00:17, 1699.71it/s]

Running loglikelihood requests:  28%|███████████████████████████████▉                                                                                 | 11343/40168 [00:07<00:17, 1679.09it/s]

Running loglikelihood requests:  29%|████████████████████████████████▍                                                                                | 11535/40168 [00:07<00:16, 1684.75it/s]

Running loglikelihood requests:  29%|████████████████████████████████▉                                                                                | 11728/40168 [00:07<00:16, 1686.11it/s]

Running loglikelihood requests:  30%|█████████████████████████████████▌                                                                               | 11921/40168 [00:07<00:16, 1695.52it/s]

Running loglikelihood requests:  30%|██████████████████████████████████                                                                               | 12113/40168 [00:07<00:16, 1715.10it/s]

Running loglikelihood requests:  31%|██████████████████████████████████▌                                                                              | 12305/40168 [00:07<00:16, 1728.88it/s]

Running loglikelihood requests:  31%|███████████████████████████████████▏                                                                             | 12497/40168 [00:07<00:15, 1737.51it/s]

Running loglikelihood requests:  32%|███████████████████████████████████▋                                                                             | 12689/40168 [00:08<00:15, 1748.95it/s]

Running loglikelihood requests:  32%|████████████████████████████████████▏                                                                            | 12881/40168 [00:08<00:15, 1757.95it/s]

Running loglikelihood requests:  33%|████████████████████████████████████▊                                                                            | 13073/40168 [00:08<00:15, 1763.51it/s]

Running loglikelihood requests:  33%|█████████████████████████████████████▎                                                                           | 13265/40168 [00:08<00:15, 1763.31it/s]

Running loglikelihood requests:  34%|█████████████████████████████████████▊                                                                           | 13457/40168 [00:08<00:15, 1769.47it/s]

Running loglikelihood requests:  34%|██████████████████████████████████████▍                                                                          | 13649/40168 [00:08<00:14, 1772.73it/s]

Running loglikelihood requests:  34%|██████████████████████████████████████▉                                                                          | 13841/40168 [00:08<00:14, 1771.61it/s]

Running loglikelihood requests:  35%|███████████████████████████████████████▍                                                                         | 14033/40168 [00:08<00:14, 1780.62it/s]

Running loglikelihood requests:  35%|████████████████████████████████████████                                                                         | 14225/40168 [00:08<00:14, 1786.64it/s]

Running loglikelihood requests:  36%|████████████████████████████████████████▌                                                                        | 14417/40168 [00:09<00:14, 1790.85it/s]

Running loglikelihood requests:  36%|█████████████████████████████████████████                                                                        | 14609/40168 [00:09<00:14, 1793.50it/s]

Running loglikelihood requests:  37%|█████████████████████████████████████████▋                                                                       | 14801/40168 [00:09<00:14, 1797.36it/s]

Running loglikelihood requests:  37%|██████████████████████████████████████████▏                                                                      | 14993/40168 [00:09<00:13, 1801.86it/s]

Running loglikelihood requests:  38%|██████████████████████████████████████████▋                                                                      | 15186/40168 [00:09<00:13, 1800.88it/s]

Running loglikelihood requests:  38%|███████████████████████████████████████████▎                                                                     | 15378/40168 [00:09<00:13, 1805.43it/s]

Running loglikelihood requests:  39%|███████████████████████████████████████████▊                                                                     | 15571/40168 [00:09<00:13, 1812.81it/s]

Running loglikelihood requests:  39%|████████████████████████████████████████████▎                                                                    | 15764/40168 [00:09<00:13, 1819.33it/s]

Running loglikelihood requests:  40%|████████████████████████████████████████████▉                                                                    | 15956/40168 [00:09<00:13, 1820.04it/s]

Running loglikelihood requests:  40%|█████████████████████████████████████████████▍                                                                   | 16148/40168 [00:10<00:13, 1821.24it/s]

Running loglikelihood requests:  41%|█████████████████████████████████████████████▉                                                                   | 16340/40168 [00:10<00:13, 1822.42it/s]

Running loglikelihood requests:  41%|██████████████████████████████████████████████▌                                                                  | 16533/40168 [00:10<00:12, 1823.39it/s]

Running loglikelihood requests:  42%|███████████████████████████████████████████████                                                                  | 16725/40168 [00:10<00:12, 1831.25it/s]

Running loglikelihood requests:  42%|███████████████████████████████████████████████▌                                                                 | 16917/40168 [00:10<00:12, 1836.29it/s]

Running loglikelihood requests:  43%|████████████████████████████████████████████████▏                                                                | 17109/40168 [00:10<00:12, 1838.36it/s]

Running loglikelihood requests:  43%|████████████████████████████████████████████████▋                                                                | 17301/40168 [00:10<00:12, 1835.36it/s]

Running loglikelihood requests:  44%|█████████████████████████████████████████████████▏                                                               | 17493/40168 [00:10<00:12, 1839.07it/s]

Running loglikelihood requests:  44%|█████████████████████████████████████████████████▊                                                               | 17685/40168 [00:10<00:12, 1842.66it/s]

Running loglikelihood requests:  45%|██████████████████████████████████████████████████▎                                                              | 17877/40168 [00:10<00:12, 1839.38it/s]

Running loglikelihood requests:  45%|██████████████████████████████████████████████████▊                                                              | 18069/40168 [00:11<00:11, 1847.00it/s]

Running loglikelihood requests:  45%|███████████████████████████████████████████████████▎                                                             | 18261/40168 [00:11<00:11, 1853.86it/s]

Running loglikelihood requests:  46%|███████████████████████████████████████████████████▉                                                             | 18453/40168 [00:11<00:11, 1856.40it/s]

Running loglikelihood requests:  46%|████████████████████████████████████████████████████▍                                                            | 18645/40168 [00:11<00:11, 1862.23it/s]

Running loglikelihood requests:  47%|████████████████████████████████████████████████████▉                                                            | 18837/40168 [00:11<00:11, 1867.65it/s]

Running loglikelihood requests:  47%|█████████████████████████████████████████████████████▌                                                           | 19029/40168 [00:11<00:11, 1872.20it/s]

Running loglikelihood requests:  48%|██████████████████████████████████████████████████████                                                           | 19221/40168 [00:11<00:11, 1874.58it/s]

Running loglikelihood requests:  48%|██████████████████████████████████████████████████████▌                                                          | 19413/40168 [00:11<00:11, 1882.94it/s]

Running loglikelihood requests:  49%|███████████████████████████████████████████████████████▏                                                         | 19605/40168 [00:11<00:10, 1888.58it/s]

Running loglikelihood requests:  49%|███████████████████████████████████████████████████████▋                                                         | 19797/40168 [00:11<00:10, 1888.75it/s]

Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▏                                                        | 19989/40168 [00:12<00:10, 1892.55it/s]

Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▊                                                        | 20181/40168 [00:12<00:10, 1896.91it/s]

Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▎                                                       | 20373/40168 [00:12<00:10, 1898.55it/s]

Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▊                                                       | 20565/40168 [00:12<00:10, 1903.74it/s]

Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▍                                                      | 20757/40168 [00:12<00:10, 1902.26it/s]

Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▉                                                      | 20949/40168 [00:12<00:10, 1906.68it/s]

Running loglikelihood requests:  53%|███████████████████████████████████████████████████████████▍                                                     | 21142/40168 [00:12<00:09, 1912.48it/s]

Running loglikelihood requests:  53%|████████████████████████████████████████████████████████████                                                     | 21334/40168 [00:12<00:09, 1910.23it/s]

Running loglikelihood requests:  54%|████████████████████████████████████████████████████████████▌                                                    | 21533/40168 [00:12<00:09, 1933.71it/s]

Running loglikelihood requests:  54%|█████████████████████████████████████████████████████████████▏                                                   | 21733/40168 [00:12<00:09, 1953.49it/s]

Running loglikelihood requests:  55%|█████████████████████████████████████████████████████████████▋                                                   | 21930/40168 [00:13<00:09, 1958.13it/s]

Running loglikelihood requests:  55%|██████████████████████████████████████████████████████████████▎                                                  | 22131/40168 [00:13<00:09, 1973.38it/s]

Running loglikelihood requests:  56%|██████████████████████████████████████████████████████████████▊                                                  | 22333/40168 [00:13<00:08, 1987.02it/s]

Running loglikelihood requests:  56%|███████████████████████████████████████████████████████████████▍                                                 | 22532/40168 [00:13<00:08, 1983.94it/s]

Running loglikelihood requests:  57%|███████████████████████████████████████████████████████████████▉                                                 | 22744/40168 [00:13<00:09, 1893.01it/s]

Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████▌                                                | 22954/40168 [00:13<00:08, 1952.00it/s]

Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████▏                                               | 23185/40168 [00:13<00:08, 2055.69it/s]

Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████▊                                               | 23392/40168 [00:13<00:08, 1928.00it/s]

Running loglikelihood requests:  59%|██████████████████████████████████████████████████████████████████▍                                              | 23630/40168 [00:13<00:08, 2055.12it/s]

Running loglikelihood requests:  59%|███████████████████████████████████████████████████████████████████                                              | 23838/40168 [00:14<00:08, 1933.04it/s]

Running loglikelihood requests:  60%|███████████████████████████████████████████████████████████████████▋                                             | 24080/40168 [00:14<00:07, 2067.56it/s]

Running loglikelihood requests:  60%|████████████████████████████████████████████████████████████████████▎                                            | 24290/40168 [00:14<00:08, 1957.17it/s]

Running loglikelihood requests:  61%|█████████████████████████████████████████████████████████████████████                                            | 24534/40168 [00:14<00:07, 2090.24it/s]

Running loglikelihood requests:  62%|█████████████████████████████████████████████████████████████████████▌                                           | 24747/40168 [00:14<00:07, 1988.71it/s]

Running loglikelihood requests:  62%|██████████████████████████████████████████████████████████████████████▎                                          | 24984/40168 [00:14<00:07, 1971.88it/s]

Running loglikelihood requests:  63%|███████████████████████████████████████████████████████████████████████                                          | 25240/40168 [00:14<00:07, 2008.15it/s]

Running loglikelihood requests:  63%|███████████████████████████████████████████████████████████████████████▋                                         | 25496/40168 [00:14<00:07, 2034.15it/s]

Running loglikelihood requests:  64%|████████████████████████████████████████████████████████████████████████▍                                        | 25752/40168 [00:14<00:07, 2047.98it/s]

Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████▏                                       | 26008/40168 [00:15<00:06, 2069.95it/s]

Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████▉                                       | 26264/40168 [00:15<00:06, 2099.81it/s]

Running loglikelihood requests:  66%|██████████████████████████████████████████████████████████████████████████▌                                      | 26520/40168 [00:15<00:06, 2123.95it/s]

Running loglikelihood requests:  67%|███████████████████████████████████████████████████████████████████████████▎                                     | 26776/40168 [00:15<00:06, 2145.45it/s]

Running loglikelihood requests:  67%|████████████████████████████████████████████████████████████████████████████                                     | 27032/40168 [00:15<00:06, 2161.89it/s]

Running loglikelihood requests:  68%|████████████████████████████████████████████████████████████████████████████▊                                    | 27288/40168 [00:15<00:05, 2181.69it/s]

Running loglikelihood requests:  69%|█████████████████████████████████████████████████████████████████████████████▍                                   | 27544/40168 [00:15<00:05, 2219.42it/s]

Running loglikelihood requests:  69%|██████████████████████████████████████████████████████████████████████████████▏                                  | 27800/40168 [00:15<00:05, 2260.55it/s]

Running loglikelihood requests:  70%|██████████████████████████████████████████████████████████████████████████████▉                                  | 28056/40168 [00:16<00:05, 2285.52it/s]

Running loglikelihood requests:  70%|███████████████████████████████████████████████████████████████████████████████▋                                 | 28312/40168 [00:16<00:05, 2315.99it/s]

Running loglikelihood requests:  71%|████████████████████████████████████████████████████████████████████████████████▎                                | 28568/40168 [00:16<00:04, 2350.04it/s]

Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████                                | 28824/40168 [00:16<00:04, 2381.13it/s]

Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████▊                               | 29080/40168 [00:16<00:04, 2413.89it/s]

Running loglikelihood requests:  73%|██████████████████████████████████████████████████████████████████████████████████▌                              | 29336/40168 [00:16<00:04, 2451.13it/s]

Running loglikelihood requests:  74%|███████████████████████████████████████████████████████████████████████████████████▎                             | 29593/40168 [00:16<00:04, 2485.44it/s]

Running loglikelihood requests:  74%|████████████████████████████████████████████████████████████████████████████████████                             | 29863/40168 [00:16<00:04, 2548.09it/s]

Running loglikelihood requests:  75%|████████████████████████████████████████████████████████████████████████████████████▊                            | 30132/40168 [00:16<00:03, 2589.94it/s]

Running loglikelihood requests:  76%|█████████████████████████████████████████████████████████████████████████████████████▌                           | 30396/40168 [00:16<00:03, 2604.76it/s]

Running loglikelihood requests:  76%|██████████████████████████████████████████████████████████████████████████████████████▎                          | 30673/40168 [00:17<00:03, 2653.41it/s]

Running loglikelihood requests:  77%|███████████████████████████████████████████████████████████████████████████████████████                          | 30939/40168 [00:17<00:03, 2570.73it/s]

Running loglikelihood requests:  78%|███████████████████████████████████████████████████████████████████████████████████████▉                         | 31256/40168 [00:17<00:03, 2631.91it/s]

Running loglikelihood requests:  79%|████████████████████████████████████████████████████████████████████████████████████████▊                        | 31576/40168 [00:17<00:03, 2673.15it/s]

Running loglikelihood requests:  79%|█████████████████████████████████████████████████████████████████████████████████████████▋                       | 31896/40168 [00:17<00:03, 2714.13it/s]

Running loglikelihood requests:  80%|██████████████████████████████████████████████████████████████████████████████████████████▋                      | 32216/40168 [00:17<00:02, 2749.24it/s]

Running loglikelihood requests:  81%|███████████████████████████████████████████████████████████████████████████████████████████▌                     | 32536/40168 [00:17<00:02, 2785.32it/s]

Running loglikelihood requests:  82%|████████████████████████████████████████████████████████████████████████████████████████████▍                    | 32856/40168 [00:17<00:02, 2815.58it/s]

Running loglikelihood requests:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 33176/40168 [00:17<00:02, 2837.16it/s]

Running loglikelihood requests:  83%|██████████████████████████████████████████████████████████████████████████████████████████████▏                  | 33496/40168 [00:18<00:02, 2850.80it/s]

Running loglikelihood requests:  84%|███████████████████████████████████████████████████████████████████████████████████████████████▏                 | 33816/40168 [00:18<00:02, 2874.23it/s]

Running loglikelihood requests:  85%|████████████████████████████████████████████████████████████████████████████████████████████████                 | 34136/40168 [00:18<00:02, 2918.61it/s]

Running loglikelihood requests:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▉                | 34456/40168 [00:18<00:01, 2958.22it/s]

Running loglikelihood requests:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████▊               | 34776/40168 [00:18<00:01, 2981.92it/s]

Running loglikelihood requests:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋              | 35096/40168 [00:18<00:01, 3001.76it/s]

Running loglikelihood requests:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████▋             | 35416/40168 [00:18<00:01, 3016.97it/s]

Running loglikelihood requests:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 35736/40168 [00:18<00:01, 3041.01it/s]

Running loglikelihood requests:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 36056/40168 [00:18<00:01, 3077.62it/s]

Running loglikelihood requests:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 36376/40168 [00:18<00:01, 3112.82it/s]

Running loglikelihood requests:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 36701/40168 [00:19<00:01, 3152.84it/s]

Running loglikelihood requests:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 37020/40168 [00:19<00:00, 3163.14it/s]

Running loglikelihood requests:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████        | 37351/40168 [00:19<00:00, 3206.09it/s]

Running loglikelihood requests:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████       | 37690/40168 [00:19<00:00, 3259.85it/s]

Running loglikelihood requests:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 38031/40168 [00:19<00:00, 3304.12it/s]

Running loglikelihood requests:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 38362/40168 [00:19<00:00, 3184.59it/s]

Running loglikelihood requests:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 38702/40168 [00:19<00:00, 3246.50it/s]

Running loglikelihood requests:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 39050/40168 [00:19<00:00, 3314.43it/s]

Running loglikelihood requests:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 39383/40168 [00:19<00:00, 3316.99it/s]

Running loglikelihood requests:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 39716/40168 [00:20<00:00, 3216.83it/s]

Running loglikelihood requests: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 40067/40168 [00:20<00:00, 3301.63it/s]

Running loglikelihood requests: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40168/40168 [00:20<00:00, 1993.99it/s]




  [OK] hellaswag


  0%|                                                                                                                                                                | 0/5153 [00:00<?, ?it/s]

  1%|██▏                                                                                                                                                   | 74/5153 [00:00<00:06, 731.99it/s]

  3%|████▎                                                                                                                                                | 148/5153 [00:00<00:06, 731.44it/s]

  4%|██████▍                                                                                                                                              | 222/5153 [00:00<00:06, 733.72it/s]

  6%|████████▌                                                                                                                                            | 296/5153 [00:00<00:06, 734.47it/s]

  7%|██████████▋                                                                                                                                          | 370/5153 [00:00<00:06, 734.61it/s]

  9%|████████████▊                                                                                                                                        | 444/5153 [00:00<00:06, 734.45it/s]

 10%|███████████████                                                                                                                                      | 519/5153 [00:00<00:06, 737.00it/s]

 12%|█████████████████▏                                                                                                                                   | 594/5153 [00:00<00:06, 739.78it/s]

 13%|███████████████████▎                                                                                                                                 | 668/5153 [00:00<00:06, 739.70it/s]

 14%|█████████████████████▍                                                                                                                               | 743/5153 [00:01<00:05, 740.84it/s]

 16%|███████████████████████▋                                                                                                                             | 818/5153 [00:01<00:05, 741.53it/s]

 17%|█████████████████████████▊                                                                                                                           | 893/5153 [00:01<00:05, 743.84it/s]

 19%|███████████████████████████▉                                                                                                                         | 968/5153 [00:01<00:05, 745.37it/s]

 20%|█████████████████████████████▉                                                                                                                      | 1043/5153 [00:01<00:05, 745.35it/s]

 22%|████████████████████████████████                                                                                                                    | 1118/5153 [00:01<00:05, 744.99it/s]

 23%|██████████████████████████████████▎                                                                                                                 | 1193/5153 [00:01<00:05, 745.73it/s]

 25%|████████████████████████████████████▍                                                                                                               | 1268/5153 [00:01<00:05, 746.39it/s]

 26%|██████████████████████████████████████▌                                                                                                             | 1343/5153 [00:01<00:05, 747.30it/s]

 28%|████████████████████████████████████████▊                                                                                                           | 1419/5153 [00:01<00:04, 749.50it/s]

 29%|██████████████████████████████████████████▉                                                                                                         | 1495/5153 [00:02<00:04, 750.88it/s]

 30%|█████████████████████████████████████████████                                                                                                       | 1571/5153 [00:02<00:04, 750.74it/s]

 32%|███████████████████████████████████████████████▎                                                                                                    | 1647/5153 [00:02<00:04, 750.12it/s]

 33%|█████████████████████████████████████████████████▍                                                                                                  | 1723/5153 [00:02<00:04, 750.22it/s]

 35%|███████████████████████████████████████████████████▋                                                                                                | 1799/5153 [00:02<00:04, 749.19it/s]

 36%|█████████████████████████████████████████████████████▊                                                                                              | 1875/5153 [00:02<00:04, 749.62it/s]

 38%|████████████████████████████████████████████████████████                                                                                            | 1950/5153 [00:02<00:04, 749.66it/s]

 39%|██████████████████████████████████████████████████████████▏                                                                                         | 2025/5153 [00:02<00:04, 749.36it/s]

 41%|████████████████████████████████████████████████████████████▎                                                                                       | 2100/5153 [00:02<00:04, 748.67it/s]

 42%|██████████████████████████████████████████████████████████████▍                                                                                     | 2175/5153 [00:02<00:03, 748.13it/s]

 44%|████████████████████████████████████████████████████████████████▌                                                                                   | 2250/5153 [00:03<00:03, 747.94it/s]

 45%|██████████████████████████████████████████████████████████████████▊                                                                                 | 2326/5153 [00:03<00:03, 748.64it/s]

 47%|████████████████████████████████████████████████████████████████████▉                                                                               | 2401/5153 [00:03<00:03, 748.73it/s]

 48%|███████████████████████████████████████████████████████████████████████                                                                             | 2476/5153 [00:03<00:03, 748.74it/s]

 50%|█████████████████████████████████████████████████████████████████████████▎                                                                          | 2551/5153 [00:03<00:03, 748.80it/s]

 51%|███████████████████████████████████████████████████████████████████████████▍                                                                        | 2626/5153 [00:03<00:03, 748.92it/s]

 52%|█████████████████████████████████████████████████████████████████████████████▌                                                                      | 2702/5153 [00:03<00:03, 749.38it/s]

 54%|███████████████████████████████████████████████████████████████████████████████▊                                                                    | 2777/5153 [00:03<00:03, 749.34it/s]

 55%|█████████████████████████████████████████████████████████████████████████████████▉                                                                  | 2853/5153 [00:03<00:03, 749.80it/s]

 57%|████████████████████████████████████████████████████████████████████████████████████                                                                | 2928/5153 [00:03<00:02, 748.91it/s]

 58%|██████████████████████████████████████████████████████████████████████████████████████▏                                                             | 3003/5153 [00:04<00:02, 747.80it/s]

 60%|████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 3079/5153 [00:04<00:02, 748.95it/s]

 61%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 3154/5153 [00:04<00:02, 747.97it/s]

 63%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 3229/5153 [00:04<00:02, 747.96it/s]

 64%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 3305/5153 [00:04<00:02, 748.64it/s]

 66%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 3380/5153 [00:04<00:02, 748.53it/s]

 67%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 3455/5153 [00:04<00:02, 748.91it/s]

 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 3530/5153 [00:04<00:02, 748.82it/s]

 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 3606/5153 [00:04<00:02, 750.17it/s]

 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 3682/5153 [00:04<00:01, 750.06it/s]

 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 3758/5153 [00:05<00:01, 750.09it/s]

 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 3834/5153 [00:05<00:01, 749.41it/s]

 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 3910/5153 [00:05<00:01, 750.15it/s]

 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 3986/5153 [00:05<00:01, 750.52it/s]

 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 4062/5153 [00:05<00:01, 749.86it/s]

 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 4137/5153 [00:05<00:01, 749.60it/s]

 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 4213/5153 [00:05<00:01, 750.37it/s]

 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 4289/5153 [00:05<00:01, 748.83it/s]

 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 4364/5153 [00:05<00:01, 748.76it/s]

 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 4440/5153 [00:05<00:00, 750.60it/s]

 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 4516/5153 [00:06<00:00, 750.40it/s]

 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 4592/5153 [00:06<00:00, 749.90it/s]

 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 4668/5153 [00:06<00:00, 750.72it/s]

 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 4744/5153 [00:06<00:00, 752.33it/s]

 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 4820/5153 [00:06<00:00, 752.18it/s]

 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 4896/5153 [00:06<00:00, 752.28it/s]

 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 4972/5153 [00:06<00:00, 751.74it/s]

 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 5048/5153 [00:06<00:00, 751.91it/s]

 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 5124/5153 [00:06<00:00, 752.59it/s]

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5153/5153 [00:06<00:00, 747.73it/s]




Running loglikelihood requests:   0%|                                                                                                                                | 0/5153 [00:00<?, ?it/s]

Running loglikelihood requests:   1%|█▍                                                                                                                    | 65/5153 [00:00<00:09, 560.01it/s]

Running loglikelihood requests:   5%|█████▊                                                                                                              | 257/5153 [00:00<00:04, 1190.29it/s]

Running loglikelihood requests:   9%|██████████▏                                                                                                         | 450/5153 [00:00<00:03, 1420.22it/s]

Running loglikelihood requests:  12%|██████████████▍                                                                                                     | 642/5153 [00:00<00:02, 1554.57it/s]

Running loglikelihood requests:  16%|██████████████████▊                                                                                                 | 834/5153 [00:00<00:02, 1639.26it/s]

Running loglikelihood requests:  20%|██████████████████████▉                                                                                            | 1026/5153 [00:00<00:02, 1707.62it/s]

Running loglikelihood requests:  24%|███████████████████████████▏                                                                                       | 1218/5153 [00:00<00:02, 1763.33it/s]

Running loglikelihood requests:  27%|███████████████████████████████▍                                                                                   | 1410/5153 [00:00<00:02, 1805.68it/s]

Running loglikelihood requests:  31%|███████████████████████████████████▊                                                                               | 1602/5153 [00:00<00:01, 1836.25it/s]

Running loglikelihood requests:  35%|████████████████████████████████████████▍                                                                          | 1814/5153 [00:01<00:01, 1921.53it/s]

Running loglikelihood requests:  40%|█████████████████████████████████████████████▌                                                                     | 2043/5153 [00:01<00:01, 2031.92it/s]

Running loglikelihood requests:  44%|██████████████████████████████████████████████████▏                                                                | 2247/5153 [00:01<00:01, 1904.30it/s]

Running loglikelihood requests:  48%|███████████████████████████████████████████████████████▍                                                           | 2485/5153 [00:01<00:01, 2040.64it/s]

Running loglikelihood requests:  52%|████████████████████████████████████████████████████████████                                                       | 2692/5153 [00:01<00:01, 1933.19it/s]

Running loglikelihood requests:  57%|█████████████████████████████████████████████████████████████████▋                                                 | 2946/5153 [00:01<00:01, 1971.79it/s]

Running loglikelihood requests:  62%|███████████████████████████████████████████████████████████████████████▍                                           | 3203/5153 [00:01<00:00, 2005.68it/s]

Running loglikelihood requests:  67%|█████████████████████████████████████████████████████████████████████████████▏                                     | 3459/5153 [00:01<00:00, 2032.43it/s]

Running loglikelihood requests:  72%|██████████████████████████████████████████████████████████████████████████████████▉                                | 3715/5153 [00:02<00:00, 2064.27it/s]

Running loglikelihood requests:  77%|████████████████████████████████████████████████████████████████████████████████████████▌                          | 3971/5153 [00:02<00:00, 2099.24it/s]

Running loglikelihood requests:  82%|██████████████████████████████████████████████████████████████████████████████████████████████▎                    | 4227/5153 [00:02<00:00, 2127.21it/s]

Running loglikelihood requests:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████               | 4483/5153 [00:02<00:00, 2153.64it/s]

Running loglikelihood requests:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 4739/5153 [00:02<00:00, 2170.34it/s]

Running loglikelihood requests:  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 4995/5153 [00:02<00:00, 2211.08it/s]

Running loglikelihood requests: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5153/5153 [00:02<00:00, 1958.75it/s]




bootstrapping for stddev: perplexity


  0%|                                                                                                                                                                 | 0/100 [00:00<?, ?it/s]

  1%|█▌                                                                                                                                                       | 1/100 [00:00<01:07,  1.47it/s]

 27%|█████████████████████████████████████████                                                                                                               | 27/100 [00:00<00:01, 39.31it/s]

 53%|████████████████████████████████████████████████████████████████████████████████▌                                                                       | 53/100 [00:01<00:00, 50.02it/s]

 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 77/100 [00:01<00:00, 75.09it/s]

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:01<00:00, 70.53it/s]




  [OK] lambada_openai


  0%|                                                                                                                                                                | 0/5153 [00:00<?, ?it/s]

  1%|██▏                                                                                                                                                   | 76/5153 [00:00<00:06, 754.31it/s]

  3%|████▍                                                                                                                                                | 152/5153 [00:00<00:06, 748.14it/s]

  4%|██████▌                                                                                                                                              | 227/5153 [00:00<00:06, 745.39it/s]

  6%|████████▊                                                                                                                                            | 303/5153 [00:00<00:06, 747.87it/s]

  7%|██████████▉                                                                                                                                          | 378/5153 [00:00<00:06, 748.21it/s]

  9%|█████████████▏                                                                                                                                       | 454/5153 [00:00<00:06, 749.15it/s]

 10%|███████████████▎                                                                                                                                     | 529/5153 [00:00<00:06, 749.10it/s]

 12%|█████████████████▍                                                                                                                                   | 604/5153 [00:00<00:06, 748.23it/s]

 13%|███████████████████▋                                                                                                                                 | 679/5153 [00:00<00:05, 747.28it/s]

 15%|█████████████████████▊                                                                                                                               | 754/5153 [00:01<00:05, 745.94it/s]

 16%|███████████████████████▉                                                                                                                             | 829/5153 [00:01<00:05, 746.33it/s]

 18%|██████████████████████████▏                                                                                                                          | 904/5153 [00:01<00:05, 747.37it/s]

 19%|████████████████████████████▎                                                                                                                        | 979/5153 [00:01<00:05, 747.24it/s]

 20%|██████████████████████████████▎                                                                                                                     | 1054/5153 [00:01<00:06, 593.53it/s]

 22%|████████████████████████████████▏                                                                                                                   | 1119/5153 [00:01<00:07, 509.12it/s]

 23%|█████████████████████████████████▊                                                                                                                  | 1176/5153 [00:01<00:07, 497.13it/s]

 24%|███████████████████████████████████▎                                                                                                                | 1230/5153 [00:01<00:08, 486.68it/s]

 25%|████████████████████████████████████▊                                                                                                               | 1281/5153 [00:02<00:08, 480.32it/s]

 26%|██████████████████████████████████████▏                                                                                                             | 1331/5153 [00:02<00:08, 477.18it/s]

 27%|███████████████████████████████████████▋                                                                                                            | 1380/5153 [00:02<00:07, 474.68it/s]

 28%|█████████████████████████████████████████                                                                                                           | 1429/5153 [00:02<00:07, 472.78it/s]

 29%|██████████████████████████████████████████▍                                                                                                         | 1477/5153 [00:02<00:07, 468.54it/s]

 30%|███████████████████████████████████████████▉                                                                                                        | 1531/5153 [00:02<00:07, 487.37it/s]

 31%|██████████████████████████████████████████████                                                                                                      | 1605/5153 [00:02<00:06, 558.32it/s]

 33%|████████████████████████████████████████████████▏                                                                                                   | 1678/5153 [00:02<00:05, 607.99it/s]

 34%|█████████████████████████████████████████████████▉                                                                                                  | 1740/5153 [00:02<00:05, 573.63it/s]

 35%|████████████████████████████████████████████████████                                                                                                | 1814/5153 [00:02<00:05, 619.00it/s]

 37%|██████████████████████████████████████████████████████▏                                                                                             | 1885/5153 [00:03<00:05, 643.26it/s]

 38%|████████████████████████████████████████████████████████                                                                                            | 1950/5153 [00:03<00:05, 588.03it/s]

 39%|██████████████████████████████████████████████████████████▏                                                                                         | 2025/5153 [00:03<00:04, 631.11it/s]

 41%|████████████████████████████████████████████████████████████▎                                                                                       | 2100/5153 [00:03<00:04, 663.94it/s]

 42%|██████████████████████████████████████████████████████████████▍                                                                                     | 2175/5153 [00:03<00:04, 687.87it/s]

 44%|████████████████████████████████████████████████████████████████▋                                                                                   | 2251/5153 [00:03<00:04, 706.34it/s]

 45%|██████████████████████████████████████████████████████████████████▊                                                                                 | 2327/5153 [00:03<00:03, 719.33it/s]

 47%|█████████████████████████████████████████████████████████████████████                                                                               | 2403/5153 [00:03<00:03, 729.16it/s]

 48%|███████████████████████████████████████████████████████████████████████▏                                                                            | 2479/5153 [00:03<00:03, 736.35it/s]

 50%|█████████████████████████████████████████████████████████████████████████▍                                                                          | 2555/5153 [00:04<00:03, 740.99it/s]

 51%|███████████████████████████████████████████████████████████████████████████▌                                                                        | 2631/5153 [00:04<00:03, 744.09it/s]

 53%|█████████████████████████████████████████████████████████████████████████████▋                                                                      | 2707/5153 [00:04<00:03, 746.30it/s]

 54%|███████████████████████████████████████████████████████████████████████████████▉                                                                    | 2783/5153 [00:04<00:03, 748.07it/s]

 55%|██████████████████████████████████████████████████████████████████████████████████                                                                  | 2859/5153 [00:04<00:03, 748.92it/s]

 57%|████████████████████████████████████████████████████████████████████████████████████▎                                                               | 2935/5153 [00:04<00:02, 749.51it/s]

 58%|██████████████████████████████████████████████████████████████████████████████████████▍                                                             | 3011/5153 [00:04<00:02, 749.83it/s]

 60%|████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 3087/5153 [00:04<00:02, 750.82it/s]

 61%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 3163/5153 [00:04<00:02, 751.51it/s]

 63%|█████████████████████████████████████████████████████████████████████████████████████████████                                                       | 3239/5153 [00:04<00:02, 751.85it/s]

 64%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 3315/5153 [00:05<00:02, 751.23it/s]

 66%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 3391/5153 [00:05<00:02, 749.55it/s]

 67%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 3466/5153 [00:05<00:02, 748.93it/s]

 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 3541/5153 [00:05<00:02, 747.10it/s]

 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 3617/5153 [00:05<00:02, 748.11it/s]

 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 3693/5153 [00:05<00:01, 748.84it/s]

 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 3769/5153 [00:05<00:01, 749.48it/s]

 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 3845/5153 [00:05<00:01, 750.36it/s]

 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 3921/5153 [00:05<00:01, 750.17it/s]

 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 3997/5153 [00:05<00:01, 749.20it/s]

 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 4073/5153 [00:06<00:01, 749.56it/s]

 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 4148/5153 [00:06<00:01, 748.55it/s]

 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 4224/5153 [00:06<00:01, 749.18it/s]

 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 4300/5153 [00:06<00:01, 750.36it/s]

 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 4376/5153 [00:06<00:01, 749.81it/s]

 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 4451/5153 [00:06<00:00, 748.95it/s]

 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 4527/5153 [00:06<00:00, 749.30it/s]

 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 4602/5153 [00:06<00:00, 748.94it/s]

 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 4677/5153 [00:06<00:00, 747.14it/s]

 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 4752/5153 [00:06<00:00, 746.26it/s]

 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4827/5153 [00:07<00:00, 746.32it/s]

 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4903/5153 [00:07<00:00, 747.94it/s]

 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 4978/5153 [00:07<00:00, 748.25it/s]

 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 5053/5153 [00:07<00:00, 747.18it/s]

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 5128/5153 [00:07<00:00, 744.25it/s]

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5153/5153 [00:07<00:00, 688.92it/s]




  0%|                                                                                                                                                               | 0/10042 [00:00<?, ?it/s]

  4%|█████▋                                                                                                                                             | 390/10042 [00:00<00:02, 3893.52it/s]

  8%|███████████▌                                                                                                                                       | 789/10042 [00:00<00:02, 3946.45it/s]

 12%|█████████████████▎                                                                                                                                | 1188/10042 [00:00<00:02, 3963.29it/s]

 16%|███████████████████████                                                                                                                           | 1589/10042 [00:00<00:02, 3978.12it/s]

 20%|████████████████████████████▉                                                                                                                     | 1990/10042 [00:00<00:02, 3988.86it/s]

 24%|██████████████████████████████████▊                                                                                                               | 2395/10042 [00:00<00:01, 4008.01it/s]

 28%|████████████████████████████████████████▋                                                                                                         | 2798/10042 [00:00<00:01, 4015.00it/s]

 32%|██████████████████████████████████████████████▌                                                                                                   | 3200/10042 [00:00<00:01, 4009.34it/s]

 36%|████████████████████████████████████████████████████▍                                                                                             | 3604/10042 [00:00<00:01, 4017.55it/s]

 40%|██████████████████████████████████████████████████████████▏                                                                                       | 4006/10042 [00:01<00:01, 4016.17it/s]

 44%|████████████████████████████████████████████████████████████████                                                                                  | 4408/10042 [00:01<00:01, 4007.85it/s]

 48%|█████████████████████████████████████████████████████████████████████▉                                                                            | 4809/10042 [00:01<00:01, 3999.68it/s]

 52%|███████████████████████████████████████████████████████████████████████████▋                                                                      | 5209/10042 [00:01<00:01, 3992.80it/s]

 56%|█████████████████████████████████████████████████████████████████████████████████▌                                                                | 5610/10042 [00:01<00:01, 3997.23it/s]

 60%|███████████████████████████████████████████████████████████████████████████████████████▍                                                          | 6010/10042 [00:01<00:01, 3973.56it/s]

 64%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 6410/10042 [00:01<00:00, 3979.52it/s]

 68%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 6809/10042 [00:01<00:00, 3980.65it/s]

 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 7208/10042 [00:01<00:00, 3958.34it/s]

 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 7604/10042 [00:01<00:00, 3947.71it/s]

 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 7999/10042 [00:02<00:00, 3940.55it/s]

 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 8396/10042 [00:02<00:00, 3946.41it/s]

 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 8791/10042 [00:02<00:00, 3937.37it/s]

 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 9185/10042 [00:02<00:00, 3930.01it/s]

 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9583/10042 [00:02<00:00, 3943.98it/s]

 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 9980/10042 [00:02<00:00, 3950.92it/s]

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10042/10042 [00:02<00:00, 3971.30it/s]




  0%|                                                                                                                                                                | 0/2376 [00:00<?, ?it/s]

  7%|██████████                                                                                                                                          | 161/2376 [00:00<00:01, 1601.31it/s]

 14%|████████████████████                                                                                                                                | 322/2376 [00:00<00:01, 1603.39it/s]

 20%|██████████████████████████████▏                                                                                                                     | 484/2376 [00:00<00:01, 1609.31it/s]

 27%|████████████████████████████████████████▏                                                                                                           | 646/2376 [00:00<00:01, 1612.47it/s]

 34%|██████████████████████████████████████████████████▍                                                                                                 | 809/2376 [00:00<00:00, 1615.17it/s]

 41%|████████████████████████████████████████████████████████████▍                                                                                       | 971/2376 [00:00<00:00, 1613.24it/s]

 48%|██████████████████████████████████████████████████████████████████████                                                                             | 1133/2376 [00:00<00:00, 1614.45it/s]

 55%|████████████████████████████████████████████████████████████████████████████████                                                                   | 1295/2376 [00:00<00:00, 1612.59it/s]

 61%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 1457/2376 [00:00<00:00, 1613.90it/s]

 68%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 1619/2376 [00:01<00:00, 1613.01it/s]

 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 1781/2376 [00:01<00:00, 1614.03it/s]

 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 1944/2376 [00:01<00:00, 1616.15it/s]

 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 2106/2376 [00:01<00:00, 1615.84it/s]

 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 2268/2376 [00:01<00:00, 1611.66it/s]

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2376/2376 [00:01<00:00, 1609.91it/s]




Running loglikelihood requests:   0%|                                                                                                                               | 0/54822 [00:00<?, ?it/s]

Running loglikelihood requests:   0%|                                                                                                                     | 1/54822 [00:00<4:01:29,  3.78it/s]

Running loglikelihood requests:   0%|▍                                                                                                                   | 184/54822 [00:00<01:24, 644.30it/s]

Running loglikelihood requests:   1%|▋                                                                                                                   | 323/54822 [00:00<01:06, 819.63it/s]

Running loglikelihood requests:   1%|█                                                                                                                  | 515/54822 [00:00<00:51, 1053.38it/s]

Running loglikelihood requests:   1%|█▍                                                                                                                 | 707/54822 [00:00<00:45, 1201.54it/s]

Running loglikelihood requests:   2%|█▉                                                                                                                 | 899/54822 [00:00<00:41, 1295.98it/s]

Running loglikelihood requests:   2%|██▎                                                                                                               | 1091/54822 [00:01<00:39, 1362.73it/s]

Running loglikelihood requests:   2%|██▋                                                                                                               | 1283/54822 [00:01<00:38, 1403.88it/s]

Running loglikelihood requests:   3%|███                                                                                                               | 1475/54822 [00:01<00:37, 1434.23it/s]

Running loglikelihood requests:   3%|███▍                                                                                                              | 1667/54822 [00:01<00:36, 1458.08it/s]

Running loglikelihood requests:   3%|███▊                                                                                                              | 1861/54822 [00:01<00:35, 1482.99it/s]

Running loglikelihood requests:   4%|████▎                                                                                                             | 2053/54822 [00:01<00:35, 1493.94it/s]

Running loglikelihood requests:   4%|████▋                                                                                                             | 2245/54822 [00:01<00:34, 1503.39it/s]

Running loglikelihood requests:   4%|█████                                                                                                             | 2437/54822 [00:01<00:34, 1509.58it/s]

Running loglikelihood requests:   5%|█████▍                                                                                                            | 2629/54822 [00:02<00:34, 1518.99it/s]

Running loglikelihood requests:   5%|█████▊                                                                                                            | 2821/54822 [00:02<00:34, 1526.68it/s]

Running loglikelihood requests:   5%|██████▎                                                                                                           | 3013/54822 [00:02<00:33, 1534.14it/s]

Running loglikelihood requests:   6%|██████▋                                                                                                           | 3205/54822 [00:02<00:33, 1534.41it/s]

Running loglikelihood requests:   6%|███████                                                                                                           | 3397/54822 [00:02<00:33, 1540.13it/s]

Running loglikelihood requests:   7%|███████▍                                                                                                          | 3590/54822 [00:02<00:33, 1547.88it/s]

Running loglikelihood requests:   7%|███████▊                                                                                                          | 3782/54822 [00:02<00:32, 1554.31it/s]

Running loglikelihood requests:   7%|████████▎                                                                                                         | 3974/54822 [00:02<00:32, 1558.68it/s]

Running loglikelihood requests:   8%|████████▋                                                                                                         | 4166/54822 [00:03<00:32, 1563.12it/s]

Running loglikelihood requests:   8%|█████████                                                                                                         | 4358/54822 [00:03<00:32, 1563.64it/s]

Running loglikelihood requests:   8%|█████████▍                                                                                                        | 4550/54822 [00:03<00:32, 1566.51it/s]

Running loglikelihood requests:   9%|█████████▊                                                                                                        | 4742/54822 [00:03<00:31, 1573.42it/s]

Running loglikelihood requests:   9%|██████████▎                                                                                                       | 4934/54822 [00:03<00:31, 1578.66it/s]

Running loglikelihood requests:   9%|██████████▋                                                                                                       | 5126/54822 [00:03<00:31, 1581.48it/s]

Running loglikelihood requests:  10%|███████████                                                                                                       | 5318/54822 [00:03<00:31, 1587.15it/s]

Running loglikelihood requests:  10%|███████████▍                                                                                                      | 5511/54822 [00:03<00:30, 1592.15it/s]

Running loglikelihood requests:  10%|███████████▊                                                                                                      | 5703/54822 [00:03<00:30, 1594.59it/s]

Running loglikelihood requests:  11%|████████████▎                                                                                                     | 5895/54822 [00:04<00:30, 1597.11it/s]

Running loglikelihood requests:  11%|████████████▋                                                                                                     | 6087/54822 [00:04<00:30, 1597.69it/s]

Running loglikelihood requests:  11%|█████████████                                                                                                     | 6279/54822 [00:04<00:30, 1600.22it/s]

Running loglikelihood requests:  12%|█████████████▍                                                                                                    | 6471/54822 [00:04<00:31, 1547.60it/s]

Running loglikelihood requests:  12%|█████████████▊                                                                                                    | 6663/54822 [00:04<00:30, 1568.01it/s]

Running loglikelihood requests:  13%|██████████████▎                                                                                                   | 6855/54822 [00:04<00:30, 1594.08it/s]

Running loglikelihood requests:  13%|██████████████▋                                                                                                   | 7047/54822 [00:04<00:29, 1613.13it/s]

Running loglikelihood requests:  13%|███████████████                                                                                                   | 7240/54822 [00:04<00:29, 1625.83it/s]

Running loglikelihood requests:  14%|███████████████▍                                                                                                  | 7432/54822 [00:05<00:28, 1636.23it/s]

Running loglikelihood requests:  14%|███████████████▊                                                                                                  | 7624/54822 [00:05<00:28, 1643.39it/s]

Running loglikelihood requests:  14%|████████████████▎                                                                                                 | 7816/54822 [00:05<00:28, 1648.11it/s]

Running loglikelihood requests:  15%|████████████████▋                                                                                                 | 8010/54822 [00:05<00:28, 1656.63it/s]

Running loglikelihood requests:  15%|█████████████████                                                                                                 | 8202/54822 [00:05<00:28, 1657.33it/s]

Running loglikelihood requests:  15%|█████████████████▍                                                                                                | 8394/54822 [00:05<00:28, 1615.04it/s]

Running loglikelihood requests:  16%|█████████████████▊                                                                                                | 8586/54822 [00:05<00:28, 1612.08it/s]

Running loglikelihood requests:  16%|██████████████████▎                                                                                               | 8778/54822 [00:05<00:28, 1629.46it/s]

Running loglikelihood requests:  16%|██████████████████▋                                                                                               | 8970/54822 [00:05<00:27, 1639.97it/s]

Running loglikelihood requests:  17%|███████████████████                                                                                               | 9162/54822 [00:06<00:27, 1650.31it/s]

Running loglikelihood requests:  17%|███████████████████▍                                                                                              | 9354/54822 [00:06<00:27, 1659.12it/s]

Running loglikelihood requests:  17%|███████████████████▊                                                                                              | 9547/54822 [00:06<00:27, 1661.41it/s]

Running loglikelihood requests:  18%|████████████████████▎                                                                                             | 9739/54822 [00:06<00:27, 1660.65it/s]

Running loglikelihood requests:  18%|████████████████████▋                                                                                             | 9931/54822 [00:06<00:26, 1665.97it/s]

Running loglikelihood requests:  18%|████████████████████▊                                                                                            | 10124/54822 [00:06<00:26, 1673.17it/s]

Running loglikelihood requests:  19%|█████████████████████▎                                                                                           | 10316/54822 [00:06<00:26, 1652.36it/s]

Running loglikelihood requests:  19%|█████████████████████▋                                                                                           | 10509/54822 [00:06<00:27, 1627.32it/s]

Running loglikelihood requests:  20%|██████████████████████                                                                                           | 10703/54822 [00:07<00:26, 1654.12it/s]

Running loglikelihood requests:  20%|██████████████████████▍                                                                                          | 10896/54822 [00:07<00:26, 1662.00it/s]

Running loglikelihood requests:  20%|██████████████████████▊                                                                                          | 11088/54822 [00:07<00:26, 1676.06it/s]

Running loglikelihood requests:  21%|███████████████████████▎                                                                                         | 11280/54822 [00:07<00:25, 1686.67it/s]

Running loglikelihood requests:  21%|███████████████████████▋                                                                                         | 11473/54822 [00:07<00:25, 1690.25it/s]

Running loglikelihood requests:  21%|████████████████████████                                                                                         | 11665/54822 [00:07<00:25, 1691.49it/s]

Running loglikelihood requests:  22%|████████████████████████▍                                                                                        | 11857/54822 [00:07<00:25, 1687.66it/s]

Running loglikelihood requests:  22%|████████████████████████▊                                                                                        | 12050/54822 [00:07<00:25, 1690.81it/s]

Running loglikelihood requests:  22%|█████████████████████████▏                                                                                       | 12244/54822 [00:07<00:25, 1688.18it/s]

Running loglikelihood requests:  23%|█████████████████████████▋                                                                                       | 12437/54822 [00:08<00:25, 1654.87it/s]

Running loglikelihood requests:  23%|██████████████████████████                                                                                       | 12629/54822 [00:08<00:25, 1664.37it/s]

Running loglikelihood requests:  23%|██████████████████████████▍                                                                                      | 12821/54822 [00:08<00:24, 1692.88it/s]

Running loglikelihood requests:  24%|██████████████████████████▊                                                                                      | 13013/54822 [00:08<00:24, 1712.17it/s]

Running loglikelihood requests:  24%|███████████████████████████▏                                                                                     | 13205/54822 [00:08<00:24, 1731.14it/s]

Running loglikelihood requests:  24%|███████████████████████████▌                                                                                     | 13397/54822 [00:08<00:23, 1744.08it/s]

Running loglikelihood requests:  25%|████████████████████████████                                                                                     | 13589/54822 [00:08<00:23, 1753.61it/s]

Running loglikelihood requests:  25%|████████████████████████████▍                                                                                    | 13781/54822 [00:08<00:23, 1758.60it/s]

Running loglikelihood requests:  25%|████████████████████████████▊                                                                                    | 13973/54822 [00:08<00:23, 1765.94it/s]

Running loglikelihood requests:  26%|█████████████████████████████▏                                                                                   | 14165/54822 [00:09<00:22, 1769.31it/s]

Running loglikelihood requests:  26%|█████████████████████████████▌                                                                                   | 14357/54822 [00:09<00:22, 1766.44it/s]

Running loglikelihood requests:  27%|█████████████████████████████▉                                                                                   | 14549/54822 [00:09<00:23, 1730.60it/s]

Running loglikelihood requests:  27%|██████████████████████████████▍                                                                                  | 14741/54822 [00:09<00:22, 1750.21it/s]

Running loglikelihood requests:  27%|██████████████████████████████▊                                                                                  | 14933/54822 [00:09<00:22, 1765.35it/s]

Running loglikelihood requests:  28%|███████████████████████████████▏                                                                                 | 15125/54822 [00:09<00:22, 1776.72it/s]

Running loglikelihood requests:  28%|███████████████████████████████▌                                                                                 | 15317/54822 [00:09<00:22, 1784.48it/s]

Running loglikelihood requests:  28%|███████████████████████████████▉                                                                                 | 15510/54822 [00:09<00:21, 1793.37it/s]

Running loglikelihood requests:  29%|████████████████████████████████▎                                                                                | 15702/54822 [00:09<00:21, 1798.09it/s]

Running loglikelihood requests:  29%|████████████████████████████████▊                                                                                | 15895/54822 [00:10<00:21, 1801.00it/s]

Running loglikelihood requests:  29%|█████████████████████████████████▏                                                                               | 16087/54822 [00:10<00:21, 1807.71it/s]

Running loglikelihood requests:  30%|█████████████████████████████████▌                                                                               | 16282/54822 [00:10<00:21, 1820.39it/s]

Running loglikelihood requests:  30%|█████████████████████████████████▉                                                                               | 16475/54822 [00:10<00:21, 1825.02it/s]

Running loglikelihood requests:  30%|██████████████████████████████████▎                                                                              | 16667/54822 [00:10<00:20, 1823.92it/s]

Running loglikelihood requests:  31%|██████████████████████████████████▊                                                                              | 16859/54822 [00:10<00:20, 1824.32it/s]

Running loglikelihood requests:  31%|███████████████████████████████████▏                                                                             | 17051/54822 [00:10<00:20, 1825.67it/s]

Running loglikelihood requests:  31%|███████████████████████████████████▌                                                                             | 17244/54822 [00:10<00:20, 1826.71it/s]

Running loglikelihood requests:  32%|███████████████████████████████████▉                                                                             | 17436/54822 [00:10<00:20, 1824.90it/s]

Running loglikelihood requests:  32%|████████████████████████████████████▎                                                                            | 17628/54822 [00:10<00:20, 1827.75it/s]

Running loglikelihood requests:  33%|████████████████████████████████████▋                                                                            | 17823/54822 [00:11<00:20, 1836.94it/s]

Running loglikelihood requests:  33%|█████████████████████████████████████▏                                                                           | 18015/54822 [00:11<00:20, 1837.89it/s]

Running loglikelihood requests:  33%|█████████████████████████████████████▌                                                                           | 18207/54822 [00:11<00:19, 1834.84it/s]

Running loglikelihood requests:  34%|█████████████████████████████████████▉                                                                           | 18399/54822 [00:11<00:19, 1836.79it/s]

Running loglikelihood requests:  34%|██████████████████████████████████████▎                                                                          | 18591/54822 [00:11<00:19, 1836.15it/s]

Running loglikelihood requests:  34%|██████████████████████████████████████▋                                                                          | 18783/54822 [00:11<00:19, 1835.26it/s]

Running loglikelihood requests:  35%|███████████████████████████████████████                                                                          | 18975/54822 [00:11<00:19, 1846.65it/s]

Running loglikelihood requests:  35%|███████████████████████████████████████▌                                                                         | 19167/54822 [00:11<00:19, 1853.64it/s]

Running loglikelihood requests:  35%|███████████████████████████████████████▉                                                                         | 19359/54822 [00:11<00:19, 1858.34it/s]

Running loglikelihood requests:  36%|████████████████████████████████████████▎                                                                        | 19551/54822 [00:12<00:18, 1858.84it/s]

Running loglikelihood requests:  36%|████████████████████████████████████████▋                                                                        | 19743/54822 [00:12<00:18, 1865.05it/s]

Running loglikelihood requests:  36%|█████████████████████████████████████████                                                                        | 19935/54822 [00:12<00:18, 1868.03it/s]

Running loglikelihood requests:  37%|█████████████████████████████████████████▍                                                                       | 20127/54822 [00:12<00:18, 1870.53it/s]

Running loglikelihood requests:  37%|█████████████████████████████████████████▉                                                                       | 20319/54822 [00:12<00:18, 1871.57it/s]

Running loglikelihood requests:  37%|██████████████████████████████████████████▎                                                                      | 20511/54822 [00:12<00:18, 1879.24it/s]

Running loglikelihood requests:  38%|██████████████████████████████████████████▋                                                                      | 20703/54822 [00:12<00:18, 1885.30it/s]

Running loglikelihood requests:  38%|███████████████████████████████████████████                                                                      | 20895/54822 [00:12<00:17, 1890.35it/s]

Running loglikelihood requests:  38%|███████████████████████████████████████████▍                                                                     | 21087/54822 [00:12<00:17, 1894.48it/s]

Running loglikelihood requests:  39%|███████████████████████████████████████████▊                                                                     | 21279/54822 [00:12<00:17, 1895.68it/s]

Running loglikelihood requests:  39%|████████████████████████████████████████████▎                                                                    | 21471/54822 [00:13<00:17, 1896.20it/s]

Running loglikelihood requests:  40%|████████████████████████████████████████████▋                                                                    | 21663/54822 [00:13<00:17, 1883.06it/s]

Running loglikelihood requests:  40%|█████████████████████████████████████████████                                                                    | 21855/54822 [00:13<00:17, 1889.92it/s]

Running loglikelihood requests:  40%|█████████████████████████████████████████████▍                                                                   | 22047/54822 [00:13<00:17, 1894.78it/s]

Running loglikelihood requests:  41%|█████████████████████████████████████████████▊                                                                   | 22239/54822 [00:13<00:17, 1897.89it/s]

Running loglikelihood requests:  41%|██████████████████████████████████████████████▏                                                                  | 22431/54822 [00:13<00:17, 1902.63it/s]

Running loglikelihood requests:  41%|██████████████████████████████████████████████▋                                                                  | 22623/54822 [00:13<00:16, 1905.91it/s]

Running loglikelihood requests:  42%|███████████████████████████████████████████████                                                                  | 22816/54822 [00:13<00:16, 1910.20it/s]

Running loglikelihood requests:  42%|███████████████████████████████████████████████▍                                                                 | 23008/54822 [00:13<00:16, 1910.25it/s]

Running loglikelihood requests:  42%|███████████████████████████████████████████████▊                                                                 | 23207/54822 [00:13<00:16, 1933.78it/s]

Running loglikelihood requests:  43%|████████████████████████████████████████████████▏                                                                | 23408/54822 [00:14<00:16, 1956.46it/s]

Running loglikelihood requests:  43%|████████████████████████████████████████████████▋                                                                | 23604/54822 [00:14<00:15, 1953.46it/s]

Running loglikelihood requests:  43%|█████████████████████████████████████████████████                                                                | 23802/54822 [00:14<00:15, 1960.93it/s]

Running loglikelihood requests:  44%|█████████████████████████████████████████████████▍                                                               | 24001/54822 [00:14<00:15, 1969.44it/s]

Running loglikelihood requests:  44%|█████████████████████████████████████████████████▉                                                               | 24198/54822 [00:14<00:15, 1968.79it/s]

Running loglikelihood requests:  45%|██████████████████████████████████████████████████▎                                                              | 24411/54822 [00:14<00:15, 2016.77it/s]

Running loglikelihood requests:  45%|██████████████████████████████████████████████████▋                                                              | 24613/54822 [00:14<00:15, 1888.48it/s]

Running loglikelihood requests:  45%|███████████████████████████████████████████████████▏                                                             | 24844/54822 [00:14<00:14, 2008.72it/s]

Running loglikelihood requests:  46%|███████████████████████████████████████████████████▋                                                             | 25059/54822 [00:14<00:15, 1916.33it/s]

Running loglikelihood requests:  46%|████████████████████████████████████████████████████▏                                                            | 25290/54822 [00:14<00:14, 2025.74it/s]

Running loglikelihood requests:  47%|████████████████████████████████████████████████████▌                                                            | 25510/54822 [00:15<00:15, 1938.38it/s]

Running loglikelihood requests:  47%|█████████████████████████████████████████████████████                                                            | 25749/54822 [00:15<00:14, 2062.67it/s]

Running loglikelihood requests:  47%|█████████████████████████████████████████████████████▌                                                           | 25959/54822 [00:15<00:14, 1949.77it/s]

Running loglikelihood requests:  48%|█████████████████████████████████████████████████████▉                                                           | 26196/54822 [00:15<00:13, 2065.12it/s]

Running loglikelihood requests:  48%|██████████████████████████████████████████████████████▍                                                          | 26406/54822 [00:15<00:14, 1954.81it/s]

Running loglikelihood requests:  49%|██████████████████████████████████████████████████████▉                                                          | 26642/54822 [00:15<00:13, 2064.98it/s]

Running loglikelihood requests:  49%|███████████████████████████████████████████████████████▎                                                         | 26854/54822 [00:15<00:14, 1957.59it/s]

Running loglikelihood requests:  49%|███████████████████████████████████████████████████████▊                                                         | 27105/54822 [00:15<00:13, 2109.35it/s]

Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▎                                                        | 27320/54822 [00:15<00:13, 2001.32it/s]

Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▊                                                        | 27558/54822 [00:16<00:13, 1980.00it/s]

Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▎                                                       | 27812/54822 [00:16<00:12, 2131.07it/s]

Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▊                                                       | 28029/54822 [00:16<00:13, 2032.38it/s]

Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▎                                                      | 28262/54822 [00:16<00:13, 2001.59it/s]

Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▊                                                      | 28519/54822 [00:16<00:12, 2024.27it/s]

Running loglikelihood requests:  52%|███████████████████████████████████████████████████████████▎                                                     | 28775/54822 [00:16<00:12, 2043.98it/s]

Running loglikelihood requests:  53%|███████████████████████████████████████████████████████████▊                                                     | 29031/54822 [00:16<00:12, 2064.02it/s]

Running loglikelihood requests:  53%|████████████████████████████████████████████████████████████▎                                                    | 29287/54822 [00:16<00:12, 2080.30it/s]

Running loglikelihood requests:  54%|████████████████████████████████████████████████████████████▉                                                    | 29543/54822 [00:17<00:12, 2094.11it/s]

Running loglikelihood requests:  54%|█████████████████████████████████████████████████████████████▍                                                   | 29799/54822 [00:17<00:11, 2106.35it/s]

Running loglikelihood requests:  55%|█████████████████████████████████████████████████████████████▉                                                   | 30055/54822 [00:17<00:11, 2121.98it/s]

Running loglikelihood requests:  55%|██████████████████████████████████████████████████████████████▍                                                  | 30311/54822 [00:17<00:11, 2139.48it/s]

Running loglikelihood requests:  56%|███████████████████████████████████████████████████████████████                                                  | 30567/54822 [00:17<00:11, 2148.21it/s]

Running loglikelihood requests:  56%|███████████████████████████████████████████████████████████████▌                                                 | 30823/54822 [00:17<00:11, 2157.93it/s]

Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████                                                 | 31079/54822 [00:17<00:10, 2167.78it/s]

Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████▌                                                | 31338/54822 [00:17<00:10, 2179.08it/s]

Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████                                                | 31594/54822 [00:17<00:10, 2189.79it/s]

Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████▋                                               | 31850/54822 [00:18<00:10, 2193.16it/s]

Running loglikelihood requests:  59%|██████████████████████████████████████████████████████████████████▏                                              | 32106/54822 [00:18<00:10, 2195.69it/s]

Running loglikelihood requests:  59%|██████████████████████████████████████████████████████████████████▋                                              | 32367/54822 [00:18<00:10, 2206.31it/s]

Running loglikelihood requests:  60%|███████████████████████████████████████████████████████████████████▏                                             | 32623/54822 [00:18<00:09, 2237.56it/s]

Running loglikelihood requests:  60%|███████████████████████████████████████████████████████████████████▊                                             | 32881/54822 [00:18<00:09, 2266.06it/s]

Running loglikelihood requests:  60%|████████████████████████████████████████████████████████████████████▎                                            | 33137/54822 [00:18<00:09, 2293.53it/s]

Running loglikelihood requests:  61%|████████████████████████████████████████████████████████████████████▊                                            | 33396/54822 [00:18<00:09, 2323.43it/s]

Running loglikelihood requests:  61%|█████████████████████████████████████████████████████████████████████▍                                           | 33658/54822 [00:18<00:08, 2358.38it/s]

Running loglikelihood requests:  62%|█████████████████████████████████████████████████████████████████████▉                                           | 33918/54822 [00:18<00:08, 2378.03it/s]

Running loglikelihood requests:  62%|██████████████████████████████████████████████████████████████████████▍                                          | 34178/54822 [00:19<00:08, 2398.60it/s]

Running loglikelihood requests:  63%|██████████████████████████████████████████████████████████████████████▉                                          | 34436/54822 [00:19<00:08, 2412.19it/s]

Running loglikelihood requests:  63%|███████████████████████████████████████████████████████████████████████▌                                         | 34692/54822 [00:19<00:08, 2427.96it/s]

Running loglikelihood requests:  64%|████████████████████████████████████████████████████████████████████████                                         | 34954/54822 [00:19<00:08, 2468.53it/s]

Running loglikelihood requests:  64%|████████████████████████████████████████████████████████████████████████▌                                        | 35212/54822 [00:19<00:07, 2492.95it/s]

Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████                                        | 35471/54822 [00:19<00:07, 2518.90it/s]

Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████▋                                       | 35739/54822 [00:19<00:07, 2562.32it/s]

Running loglikelihood requests:  66%|██████████████████████████████████████████████████████████████████████████▏                                      | 36003/54822 [00:19<00:07, 2584.56it/s]

Running loglikelihood requests:  66%|██████████████████████████████████████████████████████████████████████████▊                                      | 36274/54822 [00:19<00:07, 2621.12it/s]

Running loglikelihood requests:  67%|███████████████████████████████████████████████████████████████████████████▎                                     | 36537/54822 [00:20<00:06, 2615.24it/s]

Running loglikelihood requests:  67%|███████████████████████████████████████████████████████████████████████████▊                                     | 36804/54822 [00:20<00:06, 2631.53it/s]

Running loglikelihood requests:  68%|████████████████████████████████████████████████████████████████████████████▍                                    | 37103/54822 [00:20<00:06, 2738.24it/s]

Running loglikelihood requests:  68%|█████████████████████████████████████████████████████████████████████████████                                    | 37377/54822 [00:20<00:06, 2648.13it/s]

Running loglikelihood requests:  69%|█████████████████████████████████████████████████████████████████████████████▋                                   | 37695/54822 [00:20<00:06, 2688.29it/s]

Running loglikelihood requests:  69%|██████████████████████████████████████████████████████████████████████████████▎                                  | 38015/54822 [00:20<00:06, 2714.79it/s]

Running loglikelihood requests:  70%|███████████████████████████████████████████████████████████████████████████████                                  | 38341/54822 [00:20<00:05, 2752.06it/s]

Running loglikelihood requests:  71%|███████████████████████████████████████████████████████████████████████████████▋                                 | 38677/54822 [00:20<00:05, 2808.44it/s]

Running loglikelihood requests:  71%|████████████████████████████████████████████████████████████████████████████████▍                                | 38997/54822 [00:20<00:05, 2821.21it/s]

Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████                                | 39330/54822 [00:21<00:05, 2862.41it/s]

Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████▊                               | 39667/54822 [00:21<00:05, 2903.54it/s]

Running loglikelihood requests:  73%|██████████████████████████████████████████████████████████████████████████████████▍                              | 39987/54822 [00:21<00:05, 2895.10it/s]

Running loglikelihood requests:  74%|███████████████████████████████████████████████████████████████████████████████████                              | 40317/54822 [00:21<00:04, 2911.28it/s]

Running loglikelihood requests:  74%|███████████████████████████████████████████████████████████████████████████████████▊                             | 40649/54822 [00:21<00:04, 2933.80it/s]

Running loglikelihood requests:  75%|████████████████████████████████████████████████████████████████████████████████████▍                            | 40973/54822 [00:21<00:04, 2943.10it/s]

Running loglikelihood requests:  75%|█████████████████████████████████████████████████████████████████████████████████████▏                           | 41305/54822 [00:21<00:04, 2990.24it/s]

Running loglikelihood requests:  76%|█████████████████████████████████████████████████████████████████████████████████████▊                           | 41625/54822 [00:21<00:04, 3004.81it/s]

Running loglikelihood requests:  77%|██████████████████████████████████████████████████████████████████████████████████████▍                          | 41961/54822 [00:21<00:04, 3049.50it/s]

Running loglikelihood requests:  77%|███████████████████████████████████████████████████████████████████████████████████████▏                         | 42281/54822 [00:21<00:04, 3041.95it/s]

Running loglikelihood requests:  78%|███████████████████████████████████████████████████████████████████████████████████████▊                         | 42612/54822 [00:22<00:03, 3065.83it/s]

Running loglikelihood requests:  78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 42932/54822 [00:22<00:03, 3063.83it/s]

Running loglikelihood requests:  79%|█████████████████████████████████████████████████████████████████████████████████████████▏                       | 43267/54822 [00:22<00:03, 3098.85it/s]

Running loglikelihood requests:  80%|█████████████████████████████████████████████████████████████████████████████████████████▊                       | 43587/54822 [00:22<00:03, 3113.98it/s]

Running loglikelihood requests:  80%|██████████████████████████████████████████████████████████████████████████████████████████▌                      | 43926/54822 [00:22<00:03, 3173.48it/s]

Running loglikelihood requests:  81%|███████████████████████████████████████████████████████████████████████████████████████████▏                     | 44246/54822 [00:22<00:03, 3171.72it/s]

Running loglikelihood requests:  81%|███████████████████████████████████████████████████████████████████████████████████████████▉                     | 44585/54822 [00:22<00:03, 3210.63it/s]

Running loglikelihood requests:  82%|████████████████████████████████████████████████████████████████████████████████████████████▌                    | 44915/54822 [00:22<00:03, 3233.24it/s]

Running loglikelihood requests:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 45241/54822 [00:22<00:02, 3231.43it/s]

Running loglikelihood requests:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▉                   | 45599/54822 [00:23<00:02, 3313.83it/s]

Running loglikelihood requests:  84%|██████████████████████████████████████████████████████████████████████████████████████████████▋                  | 45932/54822 [00:23<00:02, 3318.45it/s]

Running loglikelihood requests:  84%|███████████████████████████████████████████████████████████████████████████████████████████████▎                 | 46270/54822 [00:23<00:02, 3335.95it/s]

Running loglikelihood requests:  85%|████████████████████████████████████████████████████████████████████████████████████████████████                 | 46604/54822 [00:23<00:02, 3326.33it/s]

Running loglikelihood requests:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▊                | 46944/54822 [00:23<00:02, 3347.55it/s]

Running loglikelihood requests:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████▍               | 47284/54822 [00:23<00:02, 3362.25it/s]

Running loglikelihood requests:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████▏              | 47624/54822 [00:23<00:02, 3373.46it/s]

Running loglikelihood requests:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████▊              | 47964/54822 [00:23<00:02, 3380.91it/s]

Running loglikelihood requests:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████▌             | 48314/54822 [00:23<00:01, 3415.72it/s]

Running loglikelihood requests:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 48656/54822 [00:23<00:01, 3403.73it/s]

Running loglikelihood requests:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████            | 49002/54822 [00:24<00:01, 3419.62it/s]

Running loglikelihood requests:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 49347/54822 [00:24<00:01, 3428.22it/s]

Running loglikelihood requests:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 49690/54822 [00:24<00:01, 3422.75it/s]

Running loglikelihood requests:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 50033/54822 [00:24<00:01, 3424.14it/s]

Running loglikelihood requests:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 50387/54822 [00:24<00:01, 3458.75it/s]

Running loglikelihood requests:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 50737/54822 [00:24<00:01, 3470.35it/s]

Running loglikelihood requests:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 51086/54822 [00:24<00:01, 3475.38it/s]

Running loglikelihood requests:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████       | 51448/54822 [00:24<00:00, 3518.68it/s]

Running loglikelihood requests:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 51802/54822 [00:24<00:00, 3524.44it/s]

Running loglikelihood requests:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 52167/54822 [00:24<00:00, 3561.13it/s]

Running loglikelihood requests:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 52534/54822 [00:25<00:00, 3592.95it/s]

Running loglikelihood requests:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 52897/54822 [00:25<00:00, 3603.76it/s]

Running loglikelihood requests:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 53258/54822 [00:25<00:00, 3602.52it/s]

Running loglikelihood requests:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 53627/54822 [00:25<00:00, 3623.43it/s]

Running loglikelihood requests:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 54065/54822 [00:25<00:00, 3782.67it/s]

Running loglikelihood requests:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 54512/54822 [00:25<00:00, 3906.74it/s]

Running loglikelihood requests: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 54822/54822 [00:25<00:00, 2141.73it/s]




bootstrapping for stddev: perplexity


  0%|                                                                                                                                                                 | 0/100 [00:00<?, ?it/s]

  1%|█▌                                                                                                                                                       | 1/100 [00:00<01:06,  1.48it/s]

  7%|██████████▋                                                                                                                                              | 7/100 [00:00<00:08, 10.61it/s]

 52%|███████████████████████████████████████████████████████████████████████████████                                                                         | 52/100 [00:00<00:00, 86.13it/s]

 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 69/100 [00:01<00:00, 63.49it/s]

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:01<00:00, 69.82it/s]





NLU results saved to: results/nlu_results_baseline.json


In [11]:
# Cell 11: Parse and Display NLU Results
# ======================================

def parse_nlu_results(results_path: str) -> pd.DataFrame:
    """Parse lm-eval JSON results into DataFrame."""
    try:
        with open(results_path, 'r') as f:
            results = json.load(f)
        
        rows = []
        for task, metrics in results.get('results', {}).items():
            row = {'task': task}
            for metric, value in metrics.items():
                if isinstance(value, (int, float)):
                    row[metric] = value
            rows.append(row)
        
        return pd.DataFrame(rows)
    except Exception as e:
        print(f"Could not parse results: {e}")
        return pd.DataFrame()


if nlu_results:
    print("\n" + "=" * 70)
    print("NLU RESULTS SUMMARY")
    print("=" * 70)
    
    results_df = []
    for task, metrics in nlu_results.get('results', {}).items():
        acc = metrics.get('acc,none', metrics.get('acc_norm,none', metrics.get('acc', 'N/A')))
        acc_stderr = metrics.get('acc_stderr,none', metrics.get('acc_norm_stderr,none', 'N/A'))
        print(f"\n{task}:")
        print(f"  Accuracy: {acc:.4f} (± {acc_stderr:.4f})" if isinstance(acc, float) else f"  Accuracy: {acc}")
        results_df.append({
            'task': task,
            'accuracy': acc,
            'stderr': acc_stderr
        })
    
    nlu_df = pd.DataFrame(results_df)
    print("\n" + nlu_df.to_string(index=False))
else:
    print("NLU results not available. Run lm-eval manually and reload results.")



NLU RESULTS SUMMARY

arc_easy:
  Accuracy: 0.5694 (± 0.0102)

hellaswag:
  Accuracy: 0.3763 (± 0.0048)

lambada_openai:
  Accuracy: 0.5599 (± 0.0069)

          task  accuracy   stderr
      arc_easy  0.569444 0.010160
     hellaswag  0.376319 0.004835
lambada_openai  0.559868 0.006916


## Section C: Machine Translation Evaluation

FLORES-200 style evaluation:
- Direction: Spanish → English
- Metrics: BLEU, chrF++, COMET, TER (per WMT standards)


In [12]:
# Cell 12: MT Evaluation Functions
# =================================

@torch.no_grad()
def generate_translations(spanish_texts: List[str], model, tokenizer, 
                          max_new_tokens: int = 128, batch_size: int = 8) -> List[str]:
    """Generate English translations from Spanish inputs."""
    all_translations = []
    
    for i in tqdm(range(0, len(spanish_texts), batch_size), desc="Translating"):
        batch = spanish_texts[i:i+batch_size]
        
        # Format prompts
        prompts = [f"Spanish: {text}\nEnglish:" for text in batch]
        
        # Tokenize
        encodings = tokenizer(
            prompts,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=512,
        ).to("cuda")
        
        # Generate
        generated_ids = model.generate(
            input_ids=encodings.input_ids,
            attention_mask=encodings.attention_mask,
            max_new_tokens=max_new_tokens,
            do_sample=False,
            pad_token_id=tokenizer.eos_token_id,
            eos_token_id=tokenizer.eos_token_id,
        )
        
        # Decode only new tokens
        input_length = encodings.input_ids.shape[1]
        translations = tokenizer.batch_decode(
            generated_ids[:, input_length:],
            skip_special_tokens=True
        )
        
        # Clean up
        cleaned = []
        for t in translations:
            # Stop at newline
            if "\n" in t:
                t = t.split("\n")[0]
            cleaned.append(t.strip())
        
        all_translations.extend(cleaned)
    
    return all_translations


print("MT evaluation functions defined.")


MT evaluation functions defined.


In [13]:
# Cell 13: Load MT Dataset and Generate Translations
# ===================================================

print("=" * 70)
print("MACHINE TRANSLATION EVALUATION")
print("=" * 70)

# Load translation dataset (opus100 en-es)
print("\nLoading translation dataset...")
try:
    opus = load_dataset("opus100", "en-es", split="test")
    spanish_sources = [x['translation']['es'] for x in opus][:MT_SAMPLES]
    english_references = [x['translation']['en'] for x in opus][:MT_SAMPLES]
    print(f"Loaded OPUS-100: {len(spanish_sources)} samples")
except Exception as e:
    print(f"OPUS-100 not available: {e}")
    print("Falling back to globalvoices dataset...")
    gv = load_dataset("alvations/globalvoices-en-es", split="train")
    gv = gv.shuffle(seed=RANDOM_SEED).select(range(min(MT_SAMPLES, len(gv))))
    spanish_sources = [x['es'] for x in gv]
    english_references = [x['en'] for x in gv]
    print(f"Loaded GlobalVoices: {len(spanish_sources)} samples")

# Generate translations
print("\nGenerating translations...")
hypotheses = generate_translations(spanish_sources, model, tokenizer, MAX_NEW_TOKENS, BATCH_SIZE_GEN)
print(f"Generated {len(hypotheses)} translations")


MACHINE TRANSLATION EVALUATION

Loading translation dataset...


Loaded OPUS-100: 1012 samples

Generating translations...


Translating:   0%|                                                                                                                                                    | 0/127 [00:00<?, ?it/s]

Translating:   1%|█                                                                                                                                           | 1/127 [00:02<04:35,  2.19s/it]

Translating:   2%|██▏                                                                                                                                         | 2/127 [00:04<04:28,  2.15s/it]

Translating:   2%|███▎                                                                                                                                        | 3/127 [00:06<04:24,  2.13s/it]

Translating:   3%|████▍                                                                                                                                       | 4/127 [00:08<04:20,  2.12s/it]

Translating:   4%|█████▌                                                                                                                                      | 5/127 [00:10<04:17,  2.11s/it]

Translating:   5%|██████▌                                                                                                                                     | 6/127 [00:12<04:14,  2.11s/it]

Translating:   6%|███████▋                                                                                                                                    | 7/127 [00:15<04:24,  2.21s/it]

Translating:   6%|████████▊                                                                                                                                   | 8/127 [00:17<04:21,  2.20s/it]

Translating:   7%|█████████▉                                                                                                                                  | 9/127 [00:19<04:15,  2.17s/it]

Translating:   8%|██████████▉                                                                                                                                | 10/127 [00:21<04:11,  2.15s/it]

Translating:   9%|████████████                                                                                                                               | 11/127 [00:23<04:07,  2.13s/it]

Translating:   9%|█████████████▏                                                                                                                             | 12/127 [00:25<04:04,  2.12s/it]

Translating:  10%|██████████████▏                                                                                                                            | 13/127 [00:27<04:01,  2.11s/it]

Translating:  11%|███████████████▎                                                                                                                           | 14/127 [00:29<03:58,  2.11s/it]

Translating:  12%|████████████████▍                                                                                                                          | 15/127 [00:32<03:56,  2.11s/it]

Translating:  13%|█████████████████▌                                                                                                                         | 16/127 [00:34<03:53,  2.11s/it]

Translating:  13%|██████████████████▌                                                                                                                        | 17/127 [00:36<03:51,  2.10s/it]

Translating:  14%|███████████████████▋                                                                                                                       | 18/127 [00:38<03:49,  2.10s/it]

Translating:  15%|████████████████████▊                                                                                                                      | 19/127 [00:40<03:46,  2.10s/it]

Translating:  16%|█████████████████████▉                                                                                                                     | 20/127 [00:42<03:44,  2.10s/it]

Translating:  17%|██████████████████████▉                                                                                                                    | 21/127 [00:44<03:41,  2.09s/it]

Translating:  17%|████████████████████████                                                                                                                   | 22/127 [00:46<03:39,  2.09s/it]

Translating:  18%|█████████████████████████▏                                                                                                                 | 23/127 [00:48<03:36,  2.09s/it]

Translating:  19%|██████████████████████████▎                                                                                                                | 24/127 [00:50<03:34,  2.09s/it]

Translating:  20%|███████████████████████████▎                                                                                                               | 25/127 [00:52<03:33,  2.09s/it]

Translating:  20%|████████████████████████████▍                                                                                                              | 26/127 [00:55<03:31,  2.09s/it]

Translating:  21%|█████████████████████████████▌                                                                                                             | 27/127 [00:57<03:29,  2.09s/it]

Translating:  22%|██████████████████████████████▋                                                                                                            | 28/127 [00:59<03:27,  2.09s/it]

Translating:  23%|███████████████████████████████▋                                                                                                           | 29/127 [01:01<03:25,  2.09s/it]

Translating:  24%|████████████████████████████████▊                                                                                                          | 30/127 [01:03<03:23,  2.10s/it]

Translating:  24%|█████████████████████████████████▉                                                                                                         | 31/127 [01:05<03:25,  2.14s/it]

Translating:  25%|███████████████████████████████████                                                                                                        | 32/127 [01:07<03:22,  2.13s/it]

Translating:  26%|████████████████████████████████████                                                                                                       | 33/127 [01:09<03:19,  2.12s/it]

Translating:  27%|█████████████████████████████████████▏                                                                                                     | 34/127 [01:11<03:16,  2.11s/it]

Translating:  28%|██████████████████████████████████████▎                                                                                                    | 35/127 [01:14<03:14,  2.11s/it]

Translating:  28%|███████████████████████████████████████▍                                                                                                   | 36/127 [01:16<03:11,  2.10s/it]

Translating:  29%|████████████████████████████████████████▍                                                                                                  | 37/127 [01:18<03:08,  2.10s/it]

Translating:  30%|█████████████████████████████████████████▌                                                                                                 | 38/127 [01:20<03:06,  2.09s/it]

Translating:  31%|██████████████████████████████████████████▋                                                                                                | 39/127 [01:22<03:03,  2.09s/it]

Translating:  31%|███████████████████████████████████████████▊                                                                                               | 40/127 [01:24<03:01,  2.09s/it]

Translating:  32%|████████████████████████████████████████████▊                                                                                              | 41/127 [01:26<02:59,  2.09s/it]

Translating:  33%|█████████████████████████████████████████████▉                                                                                             | 42/127 [01:28<02:57,  2.09s/it]

Translating:  34%|███████████████████████████████████████████████                                                                                            | 43/127 [01:30<02:55,  2.09s/it]

Translating:  35%|████████████████████████████████████████████████▏                                                                                          | 44/127 [01:32<02:53,  2.09s/it]

Translating:  35%|█████████████████████████████████████████████████▎                                                                                         | 45/127 [01:34<02:51,  2.09s/it]

Translating:  36%|██████████████████████████████████████████████████▎                                                                                        | 46/127 [01:36<02:49,  2.09s/it]

Translating:  37%|███████████████████████████████████████████████████▍                                                                                       | 47/127 [01:39<02:46,  2.09s/it]

Translating:  38%|████████████████████████████████████████████████████▌                                                                                      | 48/127 [01:41<02:44,  2.09s/it]

Translating:  39%|█████████████████████████████████████████████████████▋                                                                                     | 49/127 [01:43<02:42,  2.09s/it]

Translating:  39%|██████████████████████████████████████████████████████▋                                                                                    | 50/127 [01:45<02:41,  2.09s/it]

Translating:  40%|███████████████████████████████████████████████████████▊                                                                                   | 51/127 [01:47<02:38,  2.09s/it]

Translating:  41%|████████████████████████████████████████████████████████▉                                                                                  | 52/127 [01:49<02:36,  2.09s/it]

Translating:  42%|██████████████████████████████████████████████████████████                                                                                 | 53/127 [01:51<02:34,  2.09s/it]

Translating:  43%|███████████████████████████████████████████████████████████                                                                                | 54/127 [01:53<02:32,  2.09s/it]

Translating:  43%|████████████████████████████████████████████████████████████▏                                                                              | 55/127 [01:55<02:30,  2.09s/it]

Translating:  44%|█████████████████████████████████████████████████████████████▎                                                                             | 56/127 [01:57<02:28,  2.09s/it]

Translating:  45%|██████████████████████████████████████████████████████████████▍                                                                            | 57/127 [01:59<02:26,  2.09s/it]

Translating:  46%|███████████████████████████████████████████████████████████████▍                                                                           | 58/127 [02:02<02:24,  2.09s/it]

Translating:  46%|████████████████████████████████████████████████████████████████▌                                                                          | 59/127 [02:04<02:21,  2.08s/it]

Translating:  47%|█████████████████████████████████████████████████████████████████▋                                                                         | 60/127 [02:06<02:19,  2.08s/it]

Translating:  48%|██████████████████████████████████████████████████████████████████▊                                                                        | 61/127 [02:08<02:17,  2.08s/it]

Translating:  49%|███████████████████████████████████████████████████████████████████▊                                                                       | 62/127 [02:10<02:15,  2.08s/it]

Translating:  50%|████████████████████████████████████████████████████████████████████▉                                                                      | 63/127 [02:12<02:12,  2.08s/it]

Translating:  50%|██████████████████████████████████████████████████████████████████████                                                                     | 64/127 [02:14<02:10,  2.08s/it]

Translating:  51%|███████████████████████████████████████████████████████████████████████▏                                                                   | 65/127 [02:16<02:08,  2.08s/it]

Translating:  52%|████████████████████████████████████████████████████████████████████████▏                                                                  | 66/127 [02:18<02:06,  2.08s/it]

Translating:  53%|█████████████████████████████████████████████████████████████████████████▎                                                                 | 67/127 [02:20<02:04,  2.08s/it]

Translating:  54%|██████████████████████████████████████████████████████████████████████████▍                                                                | 68/127 [02:22<02:02,  2.08s/it]

Translating:  54%|███████████████████████████████████████████████████████████████████████████▌                                                               | 69/127 [02:24<02:00,  2.08s/it]

Translating:  55%|████████████████████████████████████████████████████████████████████████████▌                                                              | 70/127 [02:27<01:58,  2.09s/it]

Translating:  56%|█████████████████████████████████████████████████████████████████████████████▋                                                             | 71/127 [02:29<01:56,  2.09s/it]

Translating:  57%|██████████████████████████████████████████████████████████████████████████████▊                                                            | 72/127 [02:31<01:54,  2.09s/it]

Translating:  57%|███████████████████████████████████████████████████████████████████████████████▉                                                           | 73/127 [02:33<01:52,  2.09s/it]

Translating:  58%|████████████████████████████████████████████████████████████████████████████████▉                                                          | 74/127 [02:35<01:50,  2.09s/it]

Translating:  59%|██████████████████████████████████████████████████████████████████████████████████                                                         | 75/127 [02:37<01:48,  2.08s/it]

Translating:  60%|███████████████████████████████████████████████████████████████████████████████████▏                                                       | 76/127 [02:39<01:46,  2.08s/it]

Translating:  61%|████████████████████████████████████████████████████████████████████████████████████▎                                                      | 77/127 [02:41<01:44,  2.08s/it]

Translating:  61%|█████████████████████████████████████████████████████████████████████████████████████▎                                                     | 78/127 [02:43<01:42,  2.08s/it]

Translating:  62%|██████████████████████████████████████████████████████████████████████████████████████▍                                                    | 79/127 [02:45<01:40,  2.08s/it]

Translating:  63%|███████████████████████████████████████████████████████████████████████████████████████▌                                                   | 80/127 [02:47<01:37,  2.08s/it]

Translating:  64%|████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 81/127 [02:49<01:35,  2.09s/it]

Translating:  65%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 82/127 [02:52<01:33,  2.09s/it]

Translating:  65%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                | 83/127 [02:54<01:31,  2.09s/it]

Translating:  66%|███████████████████████████████████████████████████████████████████████████████████████████▉                                               | 84/127 [02:56<01:29,  2.08s/it]

Translating:  67%|█████████████████████████████████████████████████████████████████████████████████████████████                                              | 85/127 [02:58<01:27,  2.08s/it]

Translating:  68%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 86/127 [03:00<01:25,  2.08s/it]

Translating:  69%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 87/127 [03:02<01:23,  2.08s/it]

Translating:  69%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 88/127 [03:04<01:21,  2.08s/it]

Translating:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 89/127 [03:06<01:18,  2.08s/it]

Translating:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 90/127 [03:08<01:16,  2.08s/it]

Translating:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 91/127 [03:10<01:14,  2.08s/it]

Translating:  72%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 92/127 [03:12<01:12,  2.07s/it]

Translating:  73%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 93/127 [03:14<01:10,  2.07s/it]

Translating:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 94/127 [03:16<01:08,  2.08s/it]

Translating:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 95/127 [03:19<01:06,  2.08s/it]

Translating:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 96/127 [03:21<01:04,  2.08s/it]

Translating:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 97/127 [03:23<01:02,  2.08s/it]

Translating:  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 98/127 [03:25<01:00,  2.08s/it]

Translating:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 99/127 [03:27<00:58,  2.09s/it]

Translating:  79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 100/127 [03:29<00:56,  2.08s/it]

Translating:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 101/127 [03:31<00:54,  2.08s/it]

Translating:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 102/127 [03:33<00:52,  2.09s/it]

Translating:  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 103/127 [03:35<00:50,  2.09s/it]

Translating:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 104/127 [03:37<00:47,  2.09s/it]

Translating:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 105/127 [03:39<00:45,  2.08s/it]

Translating:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 106/127 [03:42<00:43,  2.08s/it]

Translating:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 107/127 [03:44<00:41,  2.08s/it]

Translating:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 108/127 [03:46<00:39,  2.08s/it]

Translating:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 109/127 [03:48<00:37,  2.08s/it]

Translating:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 110/127 [03:50<00:35,  2.08s/it]

Translating:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 111/127 [03:52<00:33,  2.08s/it]

Translating:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 112/127 [03:54<00:31,  2.08s/it]

Translating:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 113/127 [03:56<00:29,  2.08s/it]

Translating:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 114/127 [03:58<00:27,  2.08s/it]

Translating:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 115/127 [04:00<00:24,  2.08s/it]

Translating:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 116/127 [04:02<00:22,  2.08s/it]

Translating:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 117/127 [04:04<00:20,  2.08s/it]

Translating:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 118/127 [04:06<00:18,  2.08s/it]

Translating:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 119/127 [04:09<00:16,  2.08s/it]

Translating:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 120/127 [04:11<00:14,  2.08s/it]

Translating:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 121/127 [04:13<00:12,  2.08s/it]

Translating:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 122/127 [04:15<00:10,  2.08s/it]

Translating:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 123/127 [04:17<00:08,  2.08s/it]

Translating:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 124/127 [04:19<00:06,  2.08s/it]

Translating:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 125/127 [04:21<00:04,  2.08s/it]

Translating:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 126/127 [04:23<00:02,  2.08s/it]

Translating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [04:25<00:00,  2.08s/it]

Translating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [04:25<00:00,  2.09s/it]

Generated 1012 translations





In [14]:
# Cell 14: Compute MT Metrics
# ============================

from sacrebleu import corpus_bleu, corpus_chrf, corpus_ter

print("\nComputing MT metrics...")

# BLEU (with signature for reproducibility)
bleu_result = corpus_bleu(hypotheses, [english_references])
bleu_score = bleu_result.score
bleu_signature = str(bleu_result)  # Fixed: get_signature() removed in newer sacrebleu

# chrF++ (word_order=2 for chrF++)
chrf_result = corpus_chrf(hypotheses, [english_references], word_order=2)
chrf_score = chrf_result.score

# TER
ter_result = corpus_ter(hypotheses, [english_references])
ter_score = ter_result.score

print(f"\n--- MT Metrics ---")
print(f"BLEU:   {bleu_score:.2f}")
print(f"chrF++: {chrf_score:.2f}")
print(f"TER:    {ter_score:.2f}")
print(f"\nBLEU signature: {bleu_signature}")

# Try COMET if available
try:
    from comet import download_model, load_from_checkpoint
    
    print("\nComputing COMET score...")
    comet_model_path = download_model("Unbabel/wmt22-comet-da")
    comet_model = load_from_checkpoint(comet_model_path)
    
    comet_data = [
        {"src": src, "mt": hyp, "ref": ref}
        for src, hyp, ref in zip(spanish_sources, hypotheses, english_references)
    ]
    comet_output = comet_model.predict(comet_data, batch_size=8, gpus=1)
    comet_score = comet_output.system_score
    print(f"COMET:  {comet_score:.4f}")
except Exception as e:
    print(f"COMET not available: {e}")
    comet_score = None



Computing MT metrics...



--- MT Metrics ---
BLEU:   16.25
chrF++: 33.31
TER:    83.07

BLEU signature: BLEU = 16.25 48.2/24.8/15.5/10.3 (BP = 0.778 ratio = 0.799 hyp_len = 12445 ref_len = 15571)



Computing COMET score...


Fetching 5 files:   0%|                                                                                                                                                 | 0/5 [00:00<?, ?it/s]

Fetching 5 files:  20%|███████████████████████████▍                                                                                                             | 1/5 [00:00<00:01,  3.60it/s]

Fetching 5 files:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 4/5 [00:03<00:00,  1.21it/s]

Fetching 5 files: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:03<00:00,  1.59it/s]




Lightning automatically upgraded your loaded checkpoint from v1.8.3.post1 to v2.6.0. To apply the upgrade to your files permanently, run `python -m pytorch_lightning.utilities.upgrade_checkpoint ../../../.cache/huggingface/hub/models--Unbabel--wmt22-comet-da/snapshots/2760a223ac957f30acfb18c8aa649b01cf1d75f2/checkpoints/model.ckpt`


Encoder model frozen.


💡 Tip: For seamless cloud uploads and versioning, try installing [litmodels](https://pypi.org/project/litmodels/) to enable LitModelCheckpoint, which syncs automatically with the Lightning model registry.


GPU available: True (cuda), used: True


TPU available: False, using: 0 TPU cores


You are using a CUDA device ('NVIDIA H100 80GB HBM3') that has Tensor Cores. To properly utilize them, you should set `torch.set_float32_matmul_precision('medium' | 'high')` which will trade-off precision for performance. For more details, read https://pytorch.org/docs/stable/generated/torch.set_float32_matmul_precision.html#torch.set_float32_matmul_precision


LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Predicting: 0it [00:00, ?it/s]

Predicting: 0it [00:00, ?it/s]

Predicting DataLoader 0:   0%|                                                                                                                                        | 0/127 [00:00<?, ?it/s]

Predicting DataLoader 0:   1%|█                                                                                                                               | 1/127 [00:00<00:16,  7.79it/s]

Predicting DataLoader 0:   2%|██                                                                                                                              | 2/127 [00:00<00:10, 12.35it/s]

Predicting DataLoader 0:   2%|███                                                                                                                             | 3/127 [00:00<00:07, 15.63it/s]

Predicting DataLoader 0:   3%|████                                                                                                                            | 4/127 [00:00<00:06, 17.70it/s]

Predicting DataLoader 0:   4%|█████                                                                                                                           | 5/127 [00:00<00:09, 12.76it/s]

Predicting DataLoader 0:   5%|██████                                                                                                                          | 6/127 [00:00<00:08, 14.23it/s]

Predicting DataLoader 0:   6%|███████                                                                                                                         | 7/127 [00:00<00:07, 15.50it/s]

Predicting DataLoader 0:   6%|████████                                                                                                                        | 8/127 [00:00<00:07, 16.60it/s]

Predicting DataLoader 0:   7%|█████████                                                                                                                       | 9/127 [00:00<00:06, 17.58it/s]

Predicting DataLoader 0:   8%|██████████                                                                                                                     | 10/127 [00:00<00:06, 18.47it/s]

Predicting DataLoader 0:   9%|███████████                                                                                                                    | 11/127 [00:00<00:06, 19.28it/s]

Predicting DataLoader 0:   9%|████████████                                                                                                                   | 12/127 [00:00<00:05, 19.99it/s]

Predicting DataLoader 0:  10%|█████████████                                                                                                                  | 13/127 [00:00<00:05, 20.63it/s]

Predicting DataLoader 0:  11%|██████████████                                                                                                                 | 14/127 [00:00<00:05, 21.21it/s]

Predicting DataLoader 0:  12%|███████████████                                                                                                                | 15/127 [00:00<00:05, 21.76it/s]

Predicting DataLoader 0:  13%|████████████████                                                                                                               | 16/127 [00:00<00:05, 21.80it/s]

Predicting DataLoader 0:  13%|█████████████████                                                                                                              | 17/127 [00:00<00:04, 22.25it/s]

Predicting DataLoader 0:  14%|██████████████████                                                                                                             | 18/127 [00:00<00:04, 22.67it/s]

Predicting DataLoader 0:  15%|███████████████████                                                                                                            | 19/127 [00:00<00:04, 23.06it/s]

Predicting DataLoader 0:  16%|████████████████████                                                                                                           | 20/127 [00:00<00:04, 23.43it/s]

Predicting DataLoader 0:  17%|█████████████████████                                                                                                          | 21/127 [00:00<00:04, 23.76it/s]

Predicting DataLoader 0:  17%|██████████████████████                                                                                                         | 22/127 [00:00<00:04, 24.07it/s]

Predicting DataLoader 0:  18%|███████████████████████                                                                                                        | 23/127 [00:00<00:04, 24.26it/s]

Predicting DataLoader 0:  19%|████████████████████████                                                                                                       | 24/127 [00:00<00:04, 24.15it/s]

Predicting DataLoader 0:  20%|█████████████████████████                                                                                                      | 25/127 [00:01<00:04, 24.42it/s]

Predicting DataLoader 0:  20%|██████████████████████████                                                                                                     | 26/127 [00:01<00:04, 24.68it/s]

Predicting DataLoader 0:  21%|███████████████████████████                                                                                                    | 27/127 [00:01<00:04, 24.92it/s]

Predicting DataLoader 0:  22%|████████████████████████████                                                                                                   | 28/127 [00:01<00:03, 25.14it/s]

Predicting DataLoader 0:  23%|█████████████████████████████                                                                                                  | 29/127 [00:01<00:03, 25.35it/s]

Predicting DataLoader 0:  24%|██████████████████████████████                                                                                                 | 30/127 [00:01<00:03, 25.55it/s]

Predicting DataLoader 0:  24%|███████████████████████████████                                                                                                | 31/127 [00:01<00:03, 25.75it/s]

Predicting DataLoader 0:  25%|████████████████████████████████                                                                                               | 32/127 [00:01<00:03, 25.94it/s]

Predicting DataLoader 0:  26%|█████████████████████████████████                                                                                              | 33/127 [00:01<00:03, 26.12it/s]

Predicting DataLoader 0:  27%|██████████████████████████████████                                                                                             | 34/127 [00:01<00:03, 26.29it/s]

Predicting DataLoader 0:  28%|███████████████████████████████████                                                                                            | 35/127 [00:01<00:03, 26.45it/s]

Predicting DataLoader 0:  28%|████████████████████████████████████                                                                                           | 36/127 [00:01<00:03, 26.61it/s]

Predicting DataLoader 0:  29%|█████████████████████████████████████                                                                                          | 37/127 [00:01<00:03, 26.75it/s]

Predicting DataLoader 0:  30%|██████████████████████████████████████                                                                                         | 38/127 [00:01<00:03, 26.89it/s]

Predicting DataLoader 0:  31%|███████████████████████████████████████                                                                                        | 39/127 [00:01<00:03, 27.02it/s]

Predicting DataLoader 0:  31%|████████████████████████████████████████                                                                                       | 40/127 [00:01<00:03, 27.16it/s]

Predicting DataLoader 0:  32%|█████████████████████████████████████████                                                                                      | 41/127 [00:01<00:03, 27.29it/s]

Predicting DataLoader 0:  33%|██████████████████████████████████████████                                                                                     | 42/127 [00:01<00:03, 27.41it/s]

Predicting DataLoader 0:  34%|███████████████████████████████████████████                                                                                    | 43/127 [00:01<00:03, 27.53it/s]

Predicting DataLoader 0:  35%|████████████████████████████████████████████                                                                                   | 44/127 [00:01<00:03, 27.64it/s]

Predicting DataLoader 0:  35%|█████████████████████████████████████████████                                                                                  | 45/127 [00:01<00:02, 27.52it/s]

Predicting DataLoader 0:  36%|██████████████████████████████████████████████                                                                                 | 46/127 [00:01<00:02, 27.63it/s]

Predicting DataLoader 0:  37%|███████████████████████████████████████████████                                                                                | 47/127 [00:01<00:02, 27.73it/s]

Predicting DataLoader 0:  38%|████████████████████████████████████████████████                                                                               | 48/127 [00:01<00:02, 27.84it/s]

Predicting DataLoader 0:  39%|█████████████████████████████████████████████████                                                                              | 49/127 [00:01<00:02, 27.93it/s]

Predicting DataLoader 0:  39%|██████████████████████████████████████████████████                                                                             | 50/127 [00:01<00:02, 28.03it/s]

Predicting DataLoader 0:  40%|███████████████████████████████████████████████████                                                                            | 51/127 [00:01<00:02, 28.11it/s]

Predicting DataLoader 0:  41%|████████████████████████████████████████████████████                                                                           | 52/127 [00:01<00:02, 28.20it/s]

Predicting DataLoader 0:  42%|█████████████████████████████████████████████████████                                                                          | 53/127 [00:01<00:02, 28.28it/s]

Predicting DataLoader 0:  43%|██████████████████████████████████████████████████████                                                                         | 54/127 [00:01<00:02, 28.37it/s]

Predicting DataLoader 0:  43%|███████████████████████████████████████████████████████                                                                        | 55/127 [00:01<00:02, 28.45it/s]

Predicting DataLoader 0:  44%|████████████████████████████████████████████████████████                                                                       | 56/127 [00:01<00:02, 28.54it/s]

Predicting DataLoader 0:  45%|█████████████████████████████████████████████████████████                                                                      | 57/127 [00:01<00:02, 28.63it/s]

Predicting DataLoader 0:  46%|██████████████████████████████████████████████████████████                                                                     | 58/127 [00:02<00:02, 28.70it/s]

Predicting DataLoader 0:  46%|███████████████████████████████████████████████████████████                                                                    | 59/127 [00:02<00:02, 28.78it/s]

Predicting DataLoader 0:  47%|████████████████████████████████████████████████████████████                                                                   | 60/127 [00:02<00:02, 28.86it/s]

Predicting DataLoader 0:  48%|█████████████████████████████████████████████████████████████                                                                  | 61/127 [00:02<00:02, 28.94it/s]

Predicting DataLoader 0:  49%|██████████████████████████████████████████████████████████████                                                                 | 62/127 [00:02<00:02, 29.00it/s]

Predicting DataLoader 0:  50%|███████████████████████████████████████████████████████████████                                                                | 63/127 [00:02<00:02, 29.08it/s]

Predicting DataLoader 0:  50%|████████████████████████████████████████████████████████████████                                                               | 64/127 [00:02<00:02, 29.16it/s]

Predicting DataLoader 0:  51%|█████████████████████████████████████████████████████████████████                                                              | 65/127 [00:02<00:02, 29.23it/s]

Predicting DataLoader 0:  52%|██████████████████████████████████████████████████████████████████                                                             | 66/127 [00:02<00:02, 29.30it/s]

Predicting DataLoader 0:  53%|███████████████████████████████████████████████████████████████████                                                            | 67/127 [00:02<00:02, 29.36it/s]

Predicting DataLoader 0:  54%|████████████████████████████████████████████████████████████████████                                                           | 68/127 [00:02<00:02, 29.43it/s]

Predicting DataLoader 0:  54%|█████████████████████████████████████████████████████████████████████                                                          | 69/127 [00:02<00:01, 29.47it/s]

Predicting DataLoader 0:  55%|██████████████████████████████████████████████████████████████████████                                                         | 70/127 [00:02<00:01, 29.53it/s]

Predicting DataLoader 0:  56%|███████████████████████████████████████████████████████████████████████                                                        | 71/127 [00:02<00:01, 29.59it/s]

Predicting DataLoader 0:  57%|████████████████████████████████████████████████████████████████████████                                                       | 72/127 [00:02<00:01, 29.65it/s]

Predicting DataLoader 0:  57%|█████████████████████████████████████████████████████████████████████████                                                      | 73/127 [00:02<00:01, 29.71it/s]

Predicting DataLoader 0:  58%|██████████████████████████████████████████████████████████████████████████                                                     | 74/127 [00:02<00:01, 29.77it/s]

Predicting DataLoader 0:  59%|███████████████████████████████████████████████████████████████████████████                                                    | 75/127 [00:02<00:01, 29.83it/s]

Predicting DataLoader 0:  60%|████████████████████████████████████████████████████████████████████████████                                                   | 76/127 [00:02<00:01, 29.89it/s]

Predicting DataLoader 0:  61%|█████████████████████████████████████████████████████████████████████████████                                                  | 77/127 [00:02<00:01, 29.94it/s]

Predicting DataLoader 0:  61%|██████████████████████████████████████████████████████████████████████████████                                                 | 78/127 [00:02<00:01, 29.99it/s]

Predicting DataLoader 0:  62%|███████████████████████████████████████████████████████████████████████████████                                                | 79/127 [00:02<00:01, 30.05it/s]

Predicting DataLoader 0:  63%|████████████████████████████████████████████████████████████████████████████████                                               | 80/127 [00:02<00:01, 30.10it/s]

Predicting DataLoader 0:  64%|█████████████████████████████████████████████████████████████████████████████████                                              | 81/127 [00:02<00:01, 30.15it/s]

Predicting DataLoader 0:  65%|██████████████████████████████████████████████████████████████████████████████████                                             | 82/127 [00:02<00:01, 30.21it/s]

Predicting DataLoader 0:  65%|███████████████████████████████████████████████████████████████████████████████████                                            | 83/127 [00:02<00:01, 30.23it/s]

Predicting DataLoader 0:  66%|████████████████████████████████████████████████████████████████████████████████████                                           | 84/127 [00:02<00:01, 30.26it/s]

Predicting DataLoader 0:  67%|█████████████████████████████████████████████████████████████████████████████████████                                          | 85/127 [00:02<00:01, 30.30it/s]

Predicting DataLoader 0:  68%|██████████████████████████████████████████████████████████████████████████████████████                                         | 86/127 [00:02<00:01, 30.33it/s]

Predicting DataLoader 0:  69%|███████████████████████████████████████████████████████████████████████████████████████                                        | 87/127 [00:02<00:01, 30.35it/s]

Predicting DataLoader 0:  69%|████████████████████████████████████████████████████████████████████████████████████████                                       | 88/127 [00:02<00:01, 30.39it/s]

Predicting DataLoader 0:  70%|█████████████████████████████████████████████████████████████████████████████████████████                                      | 89/127 [00:02<00:01, 30.44it/s]

Predicting DataLoader 0:  71%|██████████████████████████████████████████████████████████████████████████████████████████                                     | 90/127 [00:02<00:01, 30.48it/s]

Predicting DataLoader 0:  72%|███████████████████████████████████████████████████████████████████████████████████████████                                    | 91/127 [00:02<00:01, 30.52it/s]

Predicting DataLoader 0:  72%|████████████████████████████████████████████████████████████████████████████████████████████                                   | 92/127 [00:03<00:01, 30.54it/s]

Predicting DataLoader 0:  73%|█████████████████████████████████████████████████████████████████████████████████████████████                                  | 93/127 [00:03<00:01, 30.41it/s]

Predicting DataLoader 0:  74%|██████████████████████████████████████████████████████████████████████████████████████████████                                 | 94/127 [00:03<00:01, 30.45it/s]

Predicting DataLoader 0:  75%|███████████████████████████████████████████████████████████████████████████████████████████████                                | 95/127 [00:03<00:01, 30.47it/s]

Predicting DataLoader 0:  76%|████████████████████████████████████████████████████████████████████████████████████████████████                               | 96/127 [00:03<00:01, 30.51it/s]

Predicting DataLoader 0:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████                              | 97/127 [00:03<00:00, 30.55it/s]

Predicting DataLoader 0:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████                             | 98/127 [00:03<00:00, 30.57it/s]

Predicting DataLoader 0:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████                            | 99/127 [00:03<00:00, 30.58it/s]

Predicting DataLoader 0:  79%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 100/127 [00:03<00:00, 30.59it/s]

Predicting DataLoader 0:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 101/127 [00:03<00:00, 30.57it/s]

Predicting DataLoader 0:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 102/127 [00:03<00:00, 30.56it/s]

Predicting DataLoader 0:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 103/127 [00:03<00:00, 30.52it/s]

Predicting DataLoader 0:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 104/127 [00:03<00:00, 30.49it/s]

Predicting DataLoader 0:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 105/127 [00:03<00:00, 30.48it/s]

Predicting DataLoader 0:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/127 [00:03<00:00, 30.45it/s]

Predicting DataLoader 0:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 107/127 [00:03<00:00, 30.45it/s]

Predicting DataLoader 0:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 108/127 [00:03<00:00, 30.40it/s]

Predicting DataLoader 0:  86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 109/127 [00:03<00:00, 30.36it/s]

Predicting DataLoader 0:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 110/127 [00:03<00:00, 30.32it/s]

Predicting DataLoader 0:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 111/127 [00:03<00:00, 30.24it/s]

Predicting DataLoader 0:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 112/127 [00:03<00:00, 30.19it/s]

Predicting DataLoader 0:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 113/127 [00:03<00:00, 30.15it/s]

Predicting DataLoader 0:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 114/127 [00:03<00:00, 30.10it/s]

Predicting DataLoader 0:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 115/127 [00:03<00:00, 30.06it/s]

Predicting DataLoader 0:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 116/127 [00:03<00:00, 29.99it/s]

Predicting DataLoader 0:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 117/127 [00:03<00:00, 29.96it/s]

Predicting DataLoader 0:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 118/127 [00:03<00:00, 29.89it/s]

Predicting DataLoader 0:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 119/127 [00:03<00:00, 29.78it/s]

Predicting DataLoader 0:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 120/127 [00:04<00:00, 29.66it/s]

Predicting DataLoader 0:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 121/127 [00:04<00:00, 29.54it/s]

Predicting DataLoader 0:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 122/127 [00:04<00:00, 29.44it/s]

Predicting DataLoader 0:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 123/127 [00:04<00:00, 29.32it/s]

Predicting DataLoader 0:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 124/127 [00:04<00:00, 29.21it/s]

Predicting DataLoader 0:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 125/127 [00:04<00:00, 29.10it/s]

Predicting DataLoader 0:  99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 126/127 [00:04<00:00, 28.90it/s]

Predicting DataLoader 0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:04<00:00, 28.69it/s]

Predicting DataLoader 0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:04<00:00, 28.66it/s]




COMET:  0.6872


In [15]:
# Cell 15: Save MT Results
# =========================

mt_results = {
    'source': spanish_sources,
    'reference': english_references,
    'hypothesis': hypotheses,
}
mt_df = pd.DataFrame(mt_results)
mt_df.to_csv(MT_OUTPUT, index=False)

# Summary metrics
mt_summary = {
    'bleu': bleu_score,
    'chrf++': chrf_score,
    'ter': ter_score,
    'comet': comet_score,
    'bleu_signature': str(bleu_signature),
    'n_samples': len(hypotheses)
}

print(f"\nMT results saved to: {MT_OUTPUT}")
print("\n" + "=" * 70)
print("MT SUMMARY")
print("=" * 70)
print(f"BLEU:   {bleu_score:.2f}")
print(f"chrF++: {chrf_score:.2f}")
print(f"TER:    {ter_score:.2f}")
if comet_score:
    print(f"COMET:  {comet_score:.4f}")



MT results saved to: results/mt_results_baseline.csv

MT SUMMARY
BLEU:   16.25
chrF++: 33.31
TER:    83.07
COMET:  0.6872


## Section D: Generation Quality Analysis

Metrics per HelloBench and Contrastive Decoding papers:
- **Distinct-1/2/3**: Unique n-gram ratios (diversity)
- **Repetition Rate**: % repeated 4-grams (degeneration)
- **Self-BLEU**: Corpus-level diversity (lower = more diverse)
- **Length Ratio**: Output length vs expected


In [16]:
# Cell 16: Generation Quality Functions
# ======================================

def get_ngrams(text: str, n: int) -> List[Tuple]:
    """Extract n-grams from text."""
    tokens = text.split()
    if len(tokens) < n:
        return []
    return [tuple(tokens[i:i+n]) for i in range(len(tokens) - n + 1)]


def distinct_n(texts: List[str], n: int) -> float:
    """
    Distinct-N: Ratio of unique n-grams to total n-grams.
    Higher = more diverse generation.
    """
    all_ngrams = []
    for text in texts:
        all_ngrams.extend(get_ngrams(text, n))
    
    if not all_ngrams:
        return 0.0
    
    return len(set(all_ngrams)) / len(all_ngrams)


def repetition_rate(texts: List[str], n: int = 4) -> float:
    """
    Repetition rate: Proportion of n-grams that appear more than once.
    Lower = less repetitive (better).
    """
    all_ngrams = []
    for text in texts:
        all_ngrams.extend(get_ngrams(text, n))
    
    if not all_ngrams:
        return 0.0
    
    ngram_counts = Counter(all_ngrams)
    repeated = sum(1 for count in ngram_counts.values() if count > 1)
    
    return repeated / len(ngram_counts) if ngram_counts else 0.0


def self_bleu(texts: List[str], sample_size: int = 100) -> float:
    """
    Self-BLEU: Average BLEU of each text against all others.
    Lower = more diverse corpus.
    """
    from sacrebleu import sentence_bleu
    
    if len(texts) < 2:
        return 0.0
    
    # Sample for efficiency
    if len(texts) > sample_size:
        indices = np.random.choice(len(texts), sample_size, replace=False)
        texts = [texts[i] for i in indices]
    
    scores = []
    for i, hyp in enumerate(texts):
        refs = [texts[j] for j in range(len(texts)) if j != i]
        if refs and hyp:
            score = sentence_bleu(hyp, refs[:5]).score  # Use up to 5 refs
            scores.append(score)
    
    return np.mean(scores) if scores else 0.0


def analyze_generation_quality(texts: List[str]) -> Dict:
    """Compute all generation quality metrics."""
    # Filter empty texts
    texts = [t for t in texts if t and t.strip()]
    
    return {
        'distinct_1': distinct_n(texts, 1),
        'distinct_2': distinct_n(texts, 2),
        'distinct_3': distinct_n(texts, 3),
        'repetition_rate_4gram': repetition_rate(texts, 4),
        'self_bleu': self_bleu(texts),
        'avg_length': np.mean([len(t.split()) for t in texts]),
        'n_samples': len(texts)
    }


print("Generation quality functions defined.")


Generation quality functions defined.


In [17]:
# Cell 17: Load Generation Prompts and Generate (PARALLELIZED)
# =============================================================

print("=" * 70)
print("GENERATION QUALITY ANALYSIS")
print("=" * 70)

# Load Spanish prompts from Wikipedia (parallel)
print("\nLoading Spanish prompts...")
wiki_prompts = load_dataset(
    "wikimedia/wikipedia",
    "20231101.es",
    split=f"train[:{GENERATION_PROMPTS * 10}]",  # Load extra for filtering
    num_proc=NUM_PROC
)

# Filter for good prompt length (50-200 chars, complete sentences)
def filter_prompts(example):
    text = example.get('text', '')
    return 50 <= len(text) <= 200 and text.endswith(('.', '!', '?'))

wiki_prompts_filtered = wiki_prompts.filter(filter_prompts, num_proc=NUM_PROC)
prompts = wiki_prompts_filtered['text'][:GENERATION_PROMPTS]

print(f"Collected {len(prompts)} Spanish prompts")

# Generate with greedy decoding
print("\nGenerating with greedy decoding...")
greedy_outputs = []
for i in tqdm(range(0, len(prompts), BATCH_SIZE_GEN), desc="Greedy generation"):
    batch = prompts[i:i+BATCH_SIZE_GEN]
    
    encodings = tokenizer(
        batch,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=256,
    ).to("cuda")
    
    with torch.no_grad():
        generated = model.generate(
            input_ids=encodings.input_ids,
            attention_mask=encodings.attention_mask,
            max_new_tokens=64,
            do_sample=False,
            pad_token_id=tokenizer.eos_token_id,
        )
    
    input_len = encodings.input_ids.shape[1]
    outputs = tokenizer.batch_decode(generated[:, input_len:], skip_special_tokens=True)
    greedy_outputs.extend(outputs)

# Generate with nucleus sampling
print("\nGenerating with nucleus sampling (p=0.9)...")
nucleus_outputs = []
for i in tqdm(range(0, len(prompts), BATCH_SIZE_GEN), desc="Nucleus generation"):
    batch = prompts[i:i+BATCH_SIZE_GEN]
    
    encodings = tokenizer(
        batch,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=256,
    ).to("cuda")
    
    with torch.no_grad():
        generated = model.generate(
            input_ids=encodings.input_ids,
            attention_mask=encodings.attention_mask,
            max_new_tokens=64,
            do_sample=True,
            top_p=0.9,
            temperature=1.0,
            pad_token_id=tokenizer.eos_token_id,
        )
    
    input_len = encodings.input_ids.shape[1]
    outputs = tokenizer.batch_decode(generated[:, input_len:], skip_special_tokens=True)
    nucleus_outputs.extend(outputs)

print(f"\nGenerated {len(greedy_outputs)} greedy and {len(nucleus_outputs)} nucleus samples")


GENERATION QUALITY ANALYSIS

Loading Spanish prompts...


Filter (num_proc=26):   0%|                                                                                                                                   | 0/5000 [00:00<?, ? examples/s]

Filter (num_proc=26):   4%|████▋                                                                                                                   | 193/5000 [00:01<00:41, 117.18 examples/s]

Filter (num_proc=26): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:01<00:00, 2591.43 examples/s]




Collected 9 Spanish prompts

Generating with greedy decoding...


Greedy generation:   0%|                                                                                                                                                | 0/2 [00:00<?, ?it/s]

Greedy generation:  50%|████████████████████████████████████████████████████████████████████                                                                    | 1/2 [00:01<00:01,  1.50s/it]

Greedy generation: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.17s/it]

Greedy generation: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.22s/it]





Generating with nucleus sampling (p=0.9)...


Nucleus generation:   0%|                                                                                                                                               | 0/2 [00:00<?, ?it/s]

Nucleus generation:  50%|███████████████████████████████████████████████████████████████████▌                                                                   | 1/2 [00:01<00:01,  1.21s/it]

Nucleus generation: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.04it/s]

Nucleus generation: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.00it/s]


Generated 9 greedy and 9 nucleus samples





In [18]:
# Cell 18: Compute Generation Quality Metrics
# ============================================

print("\nComputing generation quality metrics...")

greedy_metrics = analyze_generation_quality(greedy_outputs)
nucleus_metrics = analyze_generation_quality(nucleus_outputs)

print("\n" + "=" * 70)
print("GENERATION QUALITY SUMMARY")
print("=" * 70)

print(f"\n{'Metric':<25} {'Greedy':>12} {'Nucleus (p=0.9)':>15}")
print("-" * 55)
print(f"{'Distinct-1':<25} {greedy_metrics['distinct_1']:>12.4f} {nucleus_metrics['distinct_1']:>15.4f}")
print(f"{'Distinct-2':<25} {greedy_metrics['distinct_2']:>12.4f} {nucleus_metrics['distinct_2']:>15.4f}")
print(f"{'Distinct-3':<25} {greedy_metrics['distinct_3']:>12.4f} {nucleus_metrics['distinct_3']:>15.4f}")
print(f"{'Repetition Rate (4-gram)':<25} {greedy_metrics['repetition_rate_4gram']:>12.4f} {nucleus_metrics['repetition_rate_4gram']:>15.4f}")
print(f"{'Self-BLEU':<25} {greedy_metrics['self_bleu']:>12.2f} {nucleus_metrics['self_bleu']:>15.2f}")
print(f"{'Avg Length (words)':<25} {greedy_metrics['avg_length']:>12.1f} {nucleus_metrics['avg_length']:>15.1f}")

# Save results
gen_results = pd.DataFrame({
    'prompt': prompts,
    'greedy_output': greedy_outputs,
    'nucleus_output': nucleus_outputs
})
gen_results.to_csv(GEN_OUTPUT, index=False)
print(f"\nGeneration results saved to: {GEN_OUTPUT}")



Computing generation quality metrics...

GENERATION QUALITY SUMMARY

Metric                          Greedy Nucleus (p=0.9)
-------------------------------------------------------
Distinct-1                      0.3463          0.6278
Distinct-2                      0.4550          0.9027
Distinct-3                      0.4930          0.9637
Repetition Rate (4-gram)        0.4434          0.0128
Self-BLEU                         2.40            2.37
Avg Length (words)                25.7            29.6

Generation results saved to: results/generation_baseline.csv


## Section E: Computational Efficiency

Protocol per CVA study:
- Warm-up: 100 samples discarded
- Measurement: 1000 samples, 3 runs
- Metrics: Tokens/sec, TTFT (Time to First Token), Peak VRAM


In [19]:
# Cell 19: Efficiency Benchmark Functions
# =======================================

def get_vram_mb() -> float:
    """Get current VRAM usage in MB."""
    info = pynvml.nvmlDeviceGetMemoryInfo(gpu_handle)
    return info.used / (1024 ** 2)


def benchmark_throughput(texts: List[str], model, tokenizer, 
                         batch_size: int, max_new_tokens: int,
                         warmup: int = 100) -> Dict:
    """
    Benchmark generation throughput.
    
    Returns:
        - tokens_per_second: Average generation throughput
        - time_to_first_token: Average TTFT
        - peak_vram_mb: Peak VRAM during benchmark
    """
    # Warm-up
    print(f"  Warming up ({warmup} samples)...")
    for i in range(0, min(warmup, len(texts)), batch_size):
        batch = texts[i:i+batch_size]
        encodings = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=256).to("cuda")
        with torch.no_grad():
            _ = model.generate(
                input_ids=encodings.input_ids,
                attention_mask=encodings.attention_mask,
                max_new_tokens=max_new_tokens,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id,
            )
    torch.cuda.synchronize()
    
    # Reset peak memory
    torch.cuda.reset_peak_memory_stats()
    
    # Benchmark
    total_tokens = 0
    total_time = 0
    ttft_times = []
    
    print(f"  Benchmarking ({len(texts)} samples)...")
    for i in tqdm(range(0, len(texts), batch_size), desc="  Throughput"):
        batch = texts[i:i+batch_size]
        
        encodings = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=256).to("cuda")
        input_len = encodings.input_ids.shape[1]
        
        torch.cuda.synchronize()
        start_time = time.perf_counter()
        
        with torch.no_grad():
            generated = model.generate(
                input_ids=encodings.input_ids,
                attention_mask=encodings.attention_mask,
                max_new_tokens=max_new_tokens,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id,
            )
        
        torch.cuda.synchronize()
        end_time = time.perf_counter()
        
        batch_time = end_time - start_time
        batch_tokens = (generated.shape[1] - input_len) * generated.shape[0]
        
        total_tokens += batch_tokens
        total_time += batch_time
        
        # Estimate TTFT (first token is generated quickly)
        ttft_times.append(batch_time / max(generated.shape[1] - input_len, 1))
    
    peak_vram = torch.cuda.max_memory_allocated() / (1024 ** 2)
    
    return {
        'tokens_per_second': total_tokens / total_time,
        'samples_per_second': len(texts) / total_time,
        'avg_ttft_ms': np.mean(ttft_times) * 1000,
        'total_time_s': total_time,
        'total_tokens': total_tokens,
        'peak_vram_mb': peak_vram
    }


print("Efficiency benchmark functions defined.")


Efficiency benchmark functions defined.


In [20]:
# Cell 20: Run Efficiency Benchmark
# ==================================

print("=" * 70)
print("COMPUTATIONAL EFFICIENCY BENCHMARK")
print("=" * 70)

# Prepare benchmark texts (use Spanish texts for target language efficiency)
efficiency_texts = spanish_texts[:EFFICIENCY_SAMPLES]
print(f"\nBenchmark corpus: {len(efficiency_texts)} Spanish samples")

# Run multiple times for stability
all_runs = []
for run in range(EFFICIENCY_RUNS):
    print(f"\n--- Run {run + 1}/{EFFICIENCY_RUNS} ---")
    run_results = benchmark_throughput(
        efficiency_texts, model, tokenizer,
        batch_size=BATCH_SIZE_GEN,
        max_new_tokens=64,
        warmup=WARMUP_SAMPLES
    )
    all_runs.append(run_results)
    print(f"  Tokens/sec: {run_results['tokens_per_second']:.1f}")
    print(f"  Peak VRAM: {run_results['peak_vram_mb']:.0f} MB")

# Aggregate results
efficiency_summary = {
    'tokens_per_second_mean': np.mean([r['tokens_per_second'] for r in all_runs]),
    'tokens_per_second_std': np.std([r['tokens_per_second'] for r in all_runs]),
    'samples_per_second_mean': np.mean([r['samples_per_second'] for r in all_runs]),
    'avg_ttft_ms': np.mean([r['avg_ttft_ms'] for r in all_runs]),
    'peak_vram_mb': max([r['peak_vram_mb'] for r in all_runs]),
    'n_samples': len(efficiency_texts),
    'n_runs': EFFICIENCY_RUNS,
    'batch_size': BATCH_SIZE_GEN
}

# Save results
efficiency_df = pd.DataFrame([efficiency_summary])
efficiency_df.to_csv(EFFICIENCY_OUTPUT, index=False)

print("\n" + "=" * 70)
print("EFFICIENCY SUMMARY")
print("=" * 70)
print(f"Tokens/second:     {efficiency_summary['tokens_per_second_mean']:.1f} ± {efficiency_summary['tokens_per_second_std']:.1f}")
print(f"Samples/second:    {efficiency_summary['samples_per_second_mean']:.2f}")
print(f"Avg TTFT:          {efficiency_summary['avg_ttft_ms']:.2f} ms")
print(f"Peak VRAM:         {efficiency_summary['peak_vram_mb']:.0f} MB")
print(f"\nResults saved to: {EFFICIENCY_OUTPUT}")


COMPUTATIONAL EFFICIENCY BENCHMARK

Benchmark corpus: 1000 Spanish samples

--- Run 1/3 ---
  Warming up (100 samples)...


  Benchmarking (1000 samples)...


  Throughput:   0%|                                                                                                                                                   | 0/125 [00:00<?, ?it/s]

  Throughput:   1%|█                                                                                                                                          | 1/125 [00:01<02:09,  1.04s/it]

  Throughput:   2%|██▏                                                                                                                                        | 2/125 [00:01<01:39,  1.23it/s]

  Throughput:   2%|███▎                                                                                                                                       | 3/125 [00:02<01:30,  1.35it/s]

  Throughput:   3%|████▍                                                                                                                                      | 4/125 [00:02<01:25,  1.42it/s]

  Throughput:   4%|█████▌                                                                                                                                     | 5/125 [00:03<01:22,  1.45it/s]

  Throughput:   5%|██████▋                                                                                                                                    | 6/125 [00:04<01:20,  1.48it/s]

  Throughput:   6%|███████▊                                                                                                                                   | 7/125 [00:05<01:34,  1.25it/s]

  Throughput:   6%|████████▉                                                                                                                                  | 8/125 [00:06<01:42,  1.14it/s]

  Throughput:   7%|██████████                                                                                                                                 | 9/125 [00:07<01:33,  1.24it/s]

  Throughput:   8%|███████████                                                                                                                               | 10/125 [00:08<01:41,  1.13it/s]

  Throughput:   9%|████████████▏                                                                                                                             | 11/125 [00:08<01:32,  1.23it/s]

  Throughput:  10%|█████████████▏                                                                                                                            | 12/125 [00:09<01:39,  1.14it/s]

  Throughput:  10%|██████████████▎                                                                                                                           | 13/125 [00:10<01:30,  1.23it/s]

  Throughput:  11%|███████████████▍                                                                                                                          | 14/125 [00:11<01:37,  1.14it/s]

  Throughput:  12%|████████████████▌                                                                                                                         | 15/125 [00:12<01:42,  1.07it/s]

  Throughput:  13%|█████████████████▋                                                                                                                        | 16/125 [00:13<01:32,  1.18it/s]

  Throughput:  14%|██████████████████▊                                                                                                                       | 17/125 [00:14<01:38,  1.10it/s]

  Throughput:  14%|███████████████████▊                                                                                                                      | 18/125 [00:14<01:29,  1.20it/s]

  Throughput:  15%|████████████████████▉                                                                                                                     | 19/125 [00:15<01:22,  1.28it/s]

  Throughput:  16%|██████████████████████                                                                                                                    | 20/125 [00:16<01:18,  1.34it/s]

  Throughput:  17%|███████████████████████▏                                                                                                                  | 21/125 [00:17<01:27,  1.19it/s]

  Throughput:  18%|████████████████████████▎                                                                                                                 | 22/125 [00:17<01:20,  1.27it/s]

  Throughput:  18%|█████████████████████████▍                                                                                                                | 23/125 [00:19<01:28,  1.16it/s]

  Throughput:  19%|██████████████████████████▍                                                                                                               | 24/125 [00:19<01:21,  1.25it/s]

  Throughput:  20%|███████████████████████████▌                                                                                                              | 25/125 [00:20<01:27,  1.14it/s]

  Throughput:  21%|████████████████████████████▋                                                                                                             | 26/125 [00:21<01:31,  1.08it/s]

  Throughput:  22%|█████████████████████████████▊                                                                                                            | 27/125 [00:22<01:22,  1.18it/s]

  Throughput:  22%|██████████████████████████████▉                                                                                                           | 28/125 [00:23<01:27,  1.10it/s]

  Throughput:  23%|████████████████████████████████                                                                                                          | 29/125 [00:24<01:19,  1.20it/s]

  Throughput:  24%|█████████████████████████████████                                                                                                         | 30/125 [00:24<01:14,  1.28it/s]

  Throughput:  25%|██████████████████████████████████▏                                                                                                       | 31/125 [00:25<01:21,  1.16it/s]

  Throughput:  26%|███████████████████████████████████▎                                                                                                      | 32/125 [00:26<01:14,  1.25it/s]

  Throughput:  26%|████████████████████████████████████▍                                                                                                     | 33/125 [00:27<01:09,  1.32it/s]

  Throughput:  27%|█████████████████████████████████████▌                                                                                                    | 34/125 [00:28<01:16,  1.19it/s]

  Throughput:  28%|██████████████████████████████████████▋                                                                                                   | 35/125 [00:28<01:10,  1.27it/s]

  Throughput:  29%|███████████████████████████████████████▋                                                                                                  | 36/125 [00:29<01:17,  1.15it/s]

  Throughput:  30%|████████████████████████████████████████▊                                                                                                 | 37/125 [00:30<01:21,  1.08it/s]

  Throughput:  30%|█████████████████████████████████████████▉                                                                                                | 38/125 [00:31<01:23,  1.04it/s]

  Throughput:  31%|███████████████████████████████████████████                                                                                               | 39/125 [00:33<01:24,  1.02it/s]

  Throughput:  32%|████████████████████████████████████████████▏                                                                                             | 40/125 [00:33<01:15,  1.13it/s]

  Throughput:  33%|█████████████████████████████████████████████▎                                                                                            | 41/125 [00:34<01:18,  1.07it/s]

  Throughput:  34%|██████████████████████████████████████████████▎                                                                                           | 42/125 [00:35<01:10,  1.18it/s]

  Throughput:  34%|███████████████████████████████████████████████▍                                                                                          | 43/125 [00:36<01:05,  1.26it/s]

  Throughput:  35%|████████████████████████████████████████████████▌                                                                                         | 44/125 [00:36<01:01,  1.33it/s]

  Throughput:  36%|█████████████████████████████████████████████████▋                                                                                        | 45/125 [00:37<00:58,  1.38it/s]

  Throughput:  37%|██████████████████████████████████████████████████▊                                                                                       | 46/125 [00:38<01:05,  1.21it/s]

  Throughput:  38%|███████████████████████████████████████████████████▉                                                                                      | 47/125 [00:39<01:09,  1.12it/s]

  Throughput:  38%|████████████████████████████████████████████████████▉                                                                                     | 48/125 [00:40<01:03,  1.22it/s]

  Throughput:  39%|██████████████████████████████████████████████████████                                                                                    | 49/125 [00:41<01:07,  1.12it/s]

  Throughput:  40%|███████████████████████████████████████████████████████▏                                                                                  | 50/125 [00:41<01:01,  1.22it/s]

  Throughput:  41%|████████████████████████████████████████████████████████▎                                                                                 | 51/125 [00:42<00:57,  1.30it/s]

  Throughput:  42%|█████████████████████████████████████████████████████████▍                                                                                | 52/125 [00:43<01:02,  1.17it/s]

  Throughput:  42%|██████████████████████████████████████████████████████████▌                                                                               | 53/125 [00:44<00:57,  1.26it/s]

  Throughput:  43%|███████████████████████████████████████████████████████████▌                                                                              | 54/125 [00:44<00:53,  1.33it/s]

  Throughput:  44%|████████████████████████████████████████████████████████████▋                                                                             | 55/125 [00:45<00:50,  1.38it/s]

  Throughput:  45%|█████████████████████████████████████████████████████████████▊                                                                            | 56/125 [00:46<00:48,  1.42it/s]

  Throughput:  46%|██████████████████████████████████████████████████████████████▉                                                                           | 57/125 [00:46<00:46,  1.45it/s]

  Throughput:  46%|████████████████████████████████████████████████████████████████                                                                          | 58/125 [00:47<00:53,  1.26it/s]

  Throughput:  47%|█████████████████████████████████████████████████████████████████▏                                                                        | 59/125 [00:48<00:57,  1.15it/s]

  Throughput:  48%|██████████████████████████████████████████████████████████████████▏                                                                       | 60/125 [00:49<00:52,  1.24it/s]

  Throughput:  49%|███████████████████████████████████████████████████████████████████▎                                                                      | 61/125 [00:50<00:48,  1.31it/s]

  Throughput:  50%|████████████████████████████████████████████████████████████████████▍                                                                     | 62/125 [00:51<00:53,  1.18it/s]

  Throughput:  50%|█████████████████████████████████████████████████████████████████████▌                                                                    | 63/125 [00:51<00:49,  1.26it/s]

  Throughput:  51%|██████████████████████████████████████████████████████████████████████▋                                                                   | 64/125 [00:52<00:45,  1.33it/s]

  Throughput:  52%|███████████████████████████████████████████████████████████████████████▊                                                                  | 65/125 [00:53<00:43,  1.38it/s]

  Throughput:  53%|████████████████████████████████████████████████████████████████████████▊                                                                 | 66/125 [00:53<00:41,  1.42it/s]

  Throughput:  54%|█████████████████████████████████████████████████████████████████████████▉                                                                | 67/125 [00:54<00:40,  1.45it/s]

  Throughput:  54%|███████████████████████████████████████████████████████████████████████████                                                               | 68/125 [00:55<00:45,  1.25it/s]

  Throughput:  55%|████████████████████████████████████████████████████████████████████████████▏                                                             | 69/125 [00:56<00:42,  1.32it/s]

  Throughput:  56%|█████████████████████████████████████████████████████████████████████████████▎                                                            | 70/125 [00:56<00:39,  1.38it/s]

  Throughput:  57%|██████████████████████████████████████████████████████████████████████████████▍                                                           | 71/125 [00:57<00:44,  1.22it/s]

  Throughput:  58%|███████████████████████████████████████████████████████████████████████████████▍                                                          | 72/125 [00:59<00:47,  1.12it/s]

  Throughput:  58%|████████████████████████████████████████████████████████████████████████████████▌                                                         | 73/125 [01:00<00:48,  1.07it/s]

  Throughput:  59%|█████████████████████████████████████████████████████████████████████████████████▋                                                        | 74/125 [01:00<00:43,  1.17it/s]

  Throughput:  60%|██████████████████████████████████████████████████████████████████████████████████▊                                                       | 75/125 [01:01<00:45,  1.10it/s]

  Throughput:  61%|███████████████████████████████████████████████████████████████████████████████████▉                                                      | 76/125 [01:02<00:40,  1.20it/s]

  Throughput:  62%|█████████████████████████████████████████████████████████████████████████████████████                                                     | 77/125 [01:03<00:37,  1.28it/s]

  Throughput:  62%|██████████████████████████████████████████████████████████████████████████████████████                                                    | 78/125 [01:03<00:34,  1.35it/s]

  Throughput:  63%|███████████████████████████████████████████████████████████████████████████████████████▏                                                  | 79/125 [01:04<00:32,  1.40it/s]

  Throughput:  64%|████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 80/125 [01:05<00:31,  1.43it/s]

  Throughput:  65%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                | 81/125 [01:05<00:30,  1.46it/s]

  Throughput:  66%|██████████████████████████████████████████████████████████████████████████████████████████▌                                               | 82/125 [01:06<00:29,  1.48it/s]

  Throughput:  66%|███████████████████████████████████████████████████████████████████████████████████████████▋                                              | 83/125 [01:07<00:28,  1.49it/s]

  Throughput:  67%|████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 84/125 [01:08<00:32,  1.28it/s]

  Throughput:  68%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 85/125 [01:09<00:34,  1.16it/s]

  Throughput:  69%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 86/125 [01:10<00:35,  1.09it/s]

  Throughput:  70%|████████████████████████████████████████████████████████████████████████████████████████████████                                          | 87/125 [01:11<00:36,  1.05it/s]

  Throughput:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 88/125 [01:11<00:32,  1.16it/s]

  Throughput:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 89/125 [01:12<00:33,  1.09it/s]

  Throughput:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 90/125 [01:13<00:29,  1.19it/s]

  Throughput:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 91/125 [01:14<00:26,  1.27it/s]

  Throughput:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 92/125 [01:15<00:28,  1.16it/s]

  Throughput:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 93/125 [01:15<00:25,  1.25it/s]

  Throughput:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 94/125 [01:16<00:27,  1.14it/s]

  Throughput:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 95/125 [01:17<00:24,  1.23it/s]

  Throughput:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 96/125 [01:18<00:22,  1.31it/s]

  Throughput:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 97/125 [01:18<00:20,  1.37it/s]

  Throughput:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 98/125 [01:19<00:19,  1.41it/s]

  Throughput:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 99/125 [01:20<00:21,  1.23it/s]

  Throughput:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 100/125 [01:21<00:19,  1.31it/s]

  Throughput:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 101/125 [01:22<00:20,  1.18it/s]

  Throughput:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 102/125 [01:23<00:20,  1.10it/s]

  Throughput:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 103/125 [01:24<00:20,  1.05it/s]

  Throughput:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 104/125 [01:25<00:18,  1.16it/s]

  Throughput:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 105/125 [01:26<00:18,  1.09it/s]

  Throughput:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/125 [01:26<00:15,  1.19it/s]

  Throughput:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 107/125 [01:27<00:14,  1.28it/s]

  Throughput:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 108/125 [01:28<00:12,  1.34it/s]

  Throughput:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 109/125 [01:29<00:13,  1.19it/s]

  Throughput:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 110/125 [01:30<00:13,  1.11it/s]

  Throughput:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 111/125 [01:31<00:13,  1.06it/s]

  Throughput:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 112/125 [01:32<00:12,  1.02it/s]

  Throughput:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 113/125 [01:33<00:12,  1.00s/it]

  Throughput:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 114/125 [01:34<00:11,  1.02s/it]

  Throughput:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 115/125 [01:35<00:10,  1.03s/it]

  Throughput:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 116/125 [01:36<00:09,  1.04s/it]

  Throughput:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [01:37<00:07,  1.08it/s]

  Throughput:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 118/125 [01:37<00:05,  1.18it/s]

  Throughput:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 119/125 [01:38<00:05,  1.10it/s]

  Throughput:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 120/125 [01:39<00:04,  1.05it/s]

  Throughput:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 121/125 [01:40<00:03,  1.02it/s]

  Throughput:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 122/125 [01:41<00:02,  1.13it/s]

  Throughput:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [01:42<00:01,  1.22it/s]

  Throughput:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 124/125 [01:43<00:00,  1.13it/s]

  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [01:44<00:00,  1.22it/s]

  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [01:44<00:00,  1.20it/s]




  Tokens/sec: 619.9
  Peak VRAM: 2314 MB

--- Run 2/3 ---
  Warming up (100 samples)...


  Benchmarking (1000 samples)...


  Throughput:   0%|                                                                                                                                                   | 0/125 [00:00<?, ?it/s]

  Throughput:   1%|█                                                                                                                                          | 1/125 [00:01<02:09,  1.05s/it]

  Throughput:   2%|██▏                                                                                                                                        | 2/125 [00:01<01:40,  1.22it/s]

  Throughput:   2%|███▎                                                                                                                                       | 3/125 [00:02<01:30,  1.34it/s]

  Throughput:   3%|████▍                                                                                                                                      | 4/125 [00:03<01:25,  1.41it/s]

  Throughput:   4%|█████▌                                                                                                                                     | 5/125 [00:03<01:22,  1.45it/s]

  Throughput:   5%|██████▋                                                                                                                                    | 6/125 [00:04<01:20,  1.47it/s]

  Throughput:   6%|███████▊                                                                                                                                   | 7/125 [00:05<01:34,  1.25it/s]

  Throughput:   6%|████████▉                                                                                                                                  | 8/125 [00:06<01:42,  1.14it/s]

  Throughput:   7%|██████████                                                                                                                                 | 9/125 [00:07<01:33,  1.24it/s]

  Throughput:   8%|███████████                                                                                                                               | 10/125 [00:08<01:41,  1.14it/s]

  Throughput:   9%|████████████▏                                                                                                                             | 11/125 [00:08<01:32,  1.23it/s]

  Throughput:  10%|█████████████▏                                                                                                                            | 12/125 [00:09<01:39,  1.13it/s]

  Throughput:  10%|██████████████▎                                                                                                                           | 13/125 [00:10<01:31,  1.23it/s]

  Throughput:  11%|███████████████▍                                                                                                                          | 14/125 [00:11<01:38,  1.13it/s]

  Throughput:  12%|████████████████▌                                                                                                                         | 15/125 [00:12<01:42,  1.07it/s]

  Throughput:  13%|█████████████████▋                                                                                                                        | 16/125 [00:13<01:32,  1.18it/s]

  Throughput:  14%|██████████████████▊                                                                                                                       | 17/125 [00:14<01:38,  1.10it/s]

  Throughput:  14%|███████████████████▊                                                                                                                      | 18/125 [00:14<01:29,  1.20it/s]

  Throughput:  15%|████████████████████▉                                                                                                                     | 19/125 [00:15<01:22,  1.28it/s]

  Throughput:  16%|██████████████████████                                                                                                                    | 20/125 [00:16<01:17,  1.35it/s]

  Throughput:  17%|███████████████████████▏                                                                                                                  | 21/125 [00:17<01:26,  1.20it/s]

  Throughput:  18%|████████████████████████▎                                                                                                                 | 22/125 [00:17<01:20,  1.28it/s]

  Throughput:  18%|█████████████████████████▍                                                                                                                | 23/125 [00:18<01:27,  1.16it/s]

  Throughput:  19%|██████████████████████████▍                                                                                                               | 24/125 [00:19<01:20,  1.25it/s]

  Throughput:  20%|███████████████████████████▌                                                                                                              | 25/125 [00:20<01:27,  1.15it/s]

  Throughput:  21%|████████████████████████████▋                                                                                                             | 26/125 [00:21<01:31,  1.08it/s]

  Throughput:  22%|█████████████████████████████▊                                                                                                            | 27/125 [00:22<01:22,  1.19it/s]

  Throughput:  22%|██████████████████████████████▉                                                                                                           | 28/125 [00:23<01:27,  1.11it/s]

  Throughput:  23%|████████████████████████████████                                                                                                          | 29/125 [00:24<01:19,  1.21it/s]

  Throughput:  24%|█████████████████████████████████                                                                                                         | 30/125 [00:24<01:13,  1.29it/s]

  Throughput:  25%|██████████████████████████████████▏                                                                                                       | 31/125 [00:25<01:20,  1.17it/s]

  Throughput:  26%|███████████████████████████████████▎                                                                                                      | 32/125 [00:26<01:14,  1.25it/s]

  Throughput:  26%|████████████████████████████████████▍                                                                                                     | 33/125 [00:27<01:09,  1.32it/s]

  Throughput:  27%|█████████████████████████████████████▌                                                                                                    | 34/125 [00:28<01:16,  1.19it/s]

  Throughput:  28%|██████████████████████████████████████▋                                                                                                   | 35/125 [00:28<01:10,  1.27it/s]

  Throughput:  29%|███████████████████████████████████████▋                                                                                                  | 36/125 [00:29<01:16,  1.16it/s]

  Throughput:  30%|████████████████████████████████████████▊                                                                                                 | 37/125 [00:30<01:20,  1.09it/s]

  Throughput:  30%|█████████████████████████████████████████▉                                                                                                | 38/125 [00:31<01:23,  1.05it/s]

  Throughput:  31%|███████████████████████████████████████████                                                                                               | 39/125 [00:32<01:24,  1.02it/s]

  Throughput:  32%|████████████████████████████████████████████▏                                                                                             | 40/125 [00:33<01:15,  1.13it/s]

  Throughput:  33%|█████████████████████████████████████████████▎                                                                                            | 41/125 [00:34<01:18,  1.07it/s]

  Throughput:  34%|██████████████████████████████████████████████▎                                                                                           | 42/125 [00:35<01:10,  1.18it/s]

  Throughput:  34%|███████████████████████████████████████████████▍                                                                                          | 43/125 [00:35<01:04,  1.26it/s]

  Throughput:  35%|████████████████████████████████████████████████▌                                                                                         | 44/125 [00:36<01:00,  1.33it/s]

  Throughput:  36%|█████████████████████████████████████████████████▋                                                                                        | 45/125 [00:37<00:57,  1.39it/s]

  Throughput:  37%|██████████████████████████████████████████████████▊                                                                                       | 46/125 [00:38<01:04,  1.22it/s]

  Throughput:  38%|███████████████████████████████████████████████████▉                                                                                      | 47/125 [00:39<01:09,  1.13it/s]

  Throughput:  38%|████████████████████████████████████████████████████▉                                                                                     | 48/125 [00:40<01:02,  1.23it/s]

  Throughput:  39%|██████████████████████████████████████████████████████                                                                                    | 49/125 [00:41<01:07,  1.13it/s]

  Throughput:  40%|███████████████████████████████████████████████████████▏                                                                                  | 50/125 [00:41<01:01,  1.23it/s]

  Throughput:  41%|████████████████████████████████████████████████████████▎                                                                                 | 51/125 [00:42<00:56,  1.30it/s]

  Throughput:  42%|█████████████████████████████████████████████████████████▍                                                                                | 52/125 [00:43<01:02,  1.17it/s]

  Throughput:  42%|██████████████████████████████████████████████████████████▌                                                                               | 53/125 [00:44<00:57,  1.26it/s]

  Throughput:  43%|███████████████████████████████████████████████████████████▌                                                                              | 54/125 [00:44<00:53,  1.33it/s]

  Throughput:  44%|████████████████████████████████████████████████████████████▋                                                                             | 55/125 [00:45<00:50,  1.38it/s]

  Throughput:  45%|█████████████████████████████████████████████████████████████▊                                                                            | 56/125 [00:46<00:48,  1.42it/s]

  Throughput:  46%|██████████████████████████████████████████████████████████████▉                                                                           | 57/125 [00:46<00:46,  1.45it/s]

  Throughput:  46%|████████████████████████████████████████████████████████████████                                                                          | 58/125 [00:47<00:53,  1.26it/s]

  Throughput:  47%|█████████████████████████████████████████████████████████████████▏                                                                        | 59/125 [00:48<00:57,  1.15it/s]

  Throughput:  48%|██████████████████████████████████████████████████████████████████▏                                                                       | 60/125 [00:49<00:52,  1.24it/s]

  Throughput:  49%|███████████████████████████████████████████████████████████████████▎                                                                      | 61/125 [00:50<00:48,  1.31it/s]

  Throughput:  50%|████████████████████████████████████████████████████████████████████▍                                                                     | 62/125 [00:51<00:53,  1.18it/s]

  Throughput:  50%|█████████████████████████████████████████████████████████████████████▌                                                                    | 63/125 [00:51<00:48,  1.27it/s]

  Throughput:  51%|██████████████████████████████████████████████████████████████████████▋                                                                   | 64/125 [00:52<00:45,  1.34it/s]

  Throughput:  52%|███████████████████████████████████████████████████████████████████████▊                                                                  | 65/125 [00:53<00:43,  1.39it/s]

  Throughput:  53%|████████████████████████████████████████████████████████████████████████▊                                                                 | 66/125 [00:53<00:41,  1.43it/s]

  Throughput:  54%|█████████████████████████████████████████████████████████████████████████▉                                                                | 67/125 [00:54<00:39,  1.46it/s]

  Throughput:  54%|███████████████████████████████████████████████████████████████████████████                                                               | 68/125 [00:55<00:45,  1.26it/s]

  Throughput:  55%|████████████████████████████████████████████████████████████████████████████▏                                                             | 69/125 [00:56<00:42,  1.33it/s]

  Throughput:  56%|█████████████████████████████████████████████████████████████████████████████▎                                                            | 70/125 [00:56<00:39,  1.38it/s]

  Throughput:  57%|██████████████████████████████████████████████████████████████████████████████▍                                                           | 71/125 [00:57<00:44,  1.22it/s]

  Throughput:  58%|███████████████████████████████████████████████████████████████████████████████▍                                                          | 72/125 [00:58<00:47,  1.13it/s]

  Throughput:  58%|████████████████████████████████████████████████████████████████████████████████▌                                                         | 73/125 [00:59<00:48,  1.07it/s]

  Throughput:  59%|█████████████████████████████████████████████████████████████████████████████████▋                                                        | 74/125 [01:00<00:43,  1.17it/s]

  Throughput:  60%|██████████████████████████████████████████████████████████████████████████████████▊                                                       | 75/125 [01:01<00:45,  1.10it/s]

  Throughput:  61%|███████████████████████████████████████████████████████████████████████████████████▉                                                      | 76/125 [01:02<00:40,  1.20it/s]

  Throughput:  62%|█████████████████████████████████████████████████████████████████████████████████████                                                     | 77/125 [01:02<00:37,  1.28it/s]

  Throughput:  62%|██████████████████████████████████████████████████████████████████████████████████████                                                    | 78/125 [01:03<00:35,  1.34it/s]

  Throughput:  63%|███████████████████████████████████████████████████████████████████████████████████████▏                                                  | 79/125 [01:04<00:33,  1.39it/s]

  Throughput:  64%|████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 80/125 [01:04<00:31,  1.42it/s]

  Throughput:  65%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                | 81/125 [01:05<00:30,  1.45it/s]

  Throughput:  66%|██████████████████████████████████████████████████████████████████████████████████████████▌                                               | 82/125 [01:06<00:29,  1.47it/s]

  Throughput:  66%|███████████████████████████████████████████████████████████████████████████████████████████▋                                              | 83/125 [01:06<00:28,  1.49it/s]

  Throughput:  67%|████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 84/125 [01:07<00:32,  1.27it/s]

  Throughput:  68%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 85/125 [01:09<00:34,  1.16it/s]

  Throughput:  69%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 86/125 [01:10<00:35,  1.09it/s]

  Throughput:  70%|████████████████████████████████████████████████████████████████████████████████████████████████                                          | 87/125 [01:11<00:36,  1.04it/s]

  Throughput:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 88/125 [01:11<00:32,  1.15it/s]

  Throughput:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 89/125 [01:12<00:33,  1.09it/s]

  Throughput:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 90/125 [01:13<00:29,  1.19it/s]

  Throughput:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 91/125 [01:14<00:26,  1.27it/s]

  Throughput:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 92/125 [01:15<00:28,  1.15it/s]

  Throughput:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 93/125 [01:15<00:25,  1.24it/s]

  Throughput:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 94/125 [01:16<00:27,  1.14it/s]

  Throughput:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 95/125 [01:17<00:24,  1.23it/s]

  Throughput:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 96/125 [01:18<00:22,  1.31it/s]

  Throughput:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 97/125 [01:18<00:20,  1.36it/s]

  Throughput:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 98/125 [01:19<00:19,  1.41it/s]

  Throughput:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 99/125 [01:20<00:21,  1.23it/s]

  Throughput:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 100/125 [01:21<00:19,  1.31it/s]

  Throughput:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 101/125 [01:22<00:20,  1.18it/s]

  Throughput:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 102/125 [01:23<00:20,  1.10it/s]

  Throughput:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 103/125 [01:24<00:20,  1.05it/s]

  Throughput:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 104/125 [01:25<00:18,  1.16it/s]

  Throughput:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 105/125 [01:26<00:18,  1.09it/s]

  Throughput:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/125 [01:26<00:15,  1.19it/s]

  Throughput:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 107/125 [01:27<00:14,  1.27it/s]

  Throughput:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 108/125 [01:28<00:12,  1.33it/s]

  Throughput:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 109/125 [01:29<00:13,  1.19it/s]

  Throughput:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 110/125 [01:30<00:13,  1.11it/s]

  Throughput:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 111/125 [01:31<00:13,  1.05it/s]

  Throughput:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 112/125 [01:32<00:12,  1.02it/s]

  Throughput:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 113/125 [01:33<00:12,  1.00s/it]

  Throughput:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 114/125 [01:34<00:11,  1.02s/it]

  Throughput:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 115/125 [01:35<00:10,  1.03s/it]

  Throughput:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 116/125 [01:36<00:09,  1.04s/it]

  Throughput:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [01:37<00:07,  1.08it/s]

  Throughput:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 118/125 [01:37<00:05,  1.18it/s]

  Throughput:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 119/125 [01:38<00:05,  1.10it/s]

  Throughput:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 120/125 [01:39<00:04,  1.05it/s]

  Throughput:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 121/125 [01:40<00:03,  1.02it/s]

  Throughput:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 122/125 [01:41<00:02,  1.13it/s]

  Throughput:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [01:42<00:01,  1.22it/s]

  Throughput:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 124/125 [01:43<00:00,  1.13it/s]

  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [01:43<00:00,  1.22it/s]

  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [01:43<00:00,  1.20it/s]




  Tokens/sec: 620.2
  Peak VRAM: 2314 MB

--- Run 3/3 ---
  Warming up (100 samples)...


  Benchmarking (1000 samples)...


  Throughput:   0%|                                                                                                                                                   | 0/125 [00:00<?, ?it/s]

  Throughput:   1%|█                                                                                                                                          | 1/125 [00:01<02:09,  1.05s/it]

  Throughput:   2%|██▏                                                                                                                                        | 2/125 [00:01<01:40,  1.23it/s]

  Throughput:   2%|███▎                                                                                                                                       | 3/125 [00:02<01:30,  1.35it/s]

  Throughput:   3%|████▍                                                                                                                                      | 4/125 [00:03<01:25,  1.42it/s]

  Throughput:   4%|█████▌                                                                                                                                     | 5/125 [00:03<01:22,  1.45it/s]

  Throughput:   5%|██████▋                                                                                                                                    | 6/125 [00:04<01:20,  1.48it/s]

  Throughput:   6%|███████▊                                                                                                                                   | 7/125 [00:05<01:33,  1.26it/s]

  Throughput:   6%|████████▉                                                                                                                                  | 8/125 [00:06<01:42,  1.14it/s]

  Throughput:   7%|██████████                                                                                                                                 | 9/125 [00:07<01:33,  1.24it/s]

  Throughput:   8%|███████████                                                                                                                               | 10/125 [00:08<01:41,  1.13it/s]

  Throughput:   9%|████████████▏                                                                                                                             | 11/125 [00:08<01:32,  1.23it/s]

  Throughput:  10%|█████████████▏                                                                                                                            | 12/125 [00:09<01:39,  1.13it/s]

  Throughput:  10%|██████████████▎                                                                                                                           | 13/125 [00:10<01:31,  1.23it/s]

  Throughput:  11%|███████████████▍                                                                                                                          | 14/125 [00:11<01:38,  1.13it/s]

  Throughput:  12%|████████████████▌                                                                                                                         | 15/125 [00:12<01:43,  1.07it/s]

  Throughput:  13%|█████████████████▋                                                                                                                        | 16/125 [00:13<01:33,  1.17it/s]

  Throughput:  14%|██████████████████▊                                                                                                                       | 17/125 [00:14<01:38,  1.09it/s]

  Throughput:  14%|███████████████████▊                                                                                                                      | 18/125 [00:14<01:29,  1.19it/s]

  Throughput:  15%|████████████████████▉                                                                                                                     | 19/125 [00:15<01:23,  1.27it/s]

  Throughput:  16%|██████████████████████                                                                                                                    | 20/125 [00:16<01:18,  1.34it/s]

  Throughput:  17%|███████████████████████▏                                                                                                                  | 21/125 [00:17<01:27,  1.19it/s]

  Throughput:  18%|████████████████████████▎                                                                                                                 | 22/125 [00:17<01:20,  1.28it/s]

  Throughput:  18%|█████████████████████████▍                                                                                                                | 23/125 [00:19<01:27,  1.16it/s]

  Throughput:  19%|██████████████████████████▍                                                                                                               | 24/125 [00:19<01:20,  1.25it/s]

  Throughput:  20%|███████████████████████████▌                                                                                                              | 25/125 [00:20<01:27,  1.14it/s]

  Throughput:  21%|████████████████████████████▋                                                                                                             | 26/125 [00:21<01:31,  1.08it/s]

  Throughput:  22%|█████████████████████████████▊                                                                                                            | 27/125 [00:22<01:22,  1.18it/s]

  Throughput:  22%|██████████████████████████████▉                                                                                                           | 28/125 [00:23<01:27,  1.11it/s]

  Throughput:  23%|████████████████████████████████                                                                                                          | 29/125 [00:24<01:19,  1.20it/s]

  Throughput:  24%|█████████████████████████████████                                                                                                         | 30/125 [00:24<01:13,  1.29it/s]

  Throughput:  25%|██████████████████████████████████▏                                                                                                       | 31/125 [00:25<01:20,  1.17it/s]

  Throughput:  26%|███████████████████████████████████▎                                                                                                      | 32/125 [00:26<01:14,  1.26it/s]

  Throughput:  26%|████████████████████████████████████▍                                                                                                     | 33/125 [00:27<01:09,  1.33it/s]

  Throughput:  27%|█████████████████████████████████████▌                                                                                                    | 34/125 [00:28<01:16,  1.19it/s]

  Throughput:  28%|██████████████████████████████████████▋                                                                                                   | 35/125 [00:28<01:10,  1.27it/s]

  Throughput:  29%|███████████████████████████████████████▋                                                                                                  | 36/125 [00:29<01:16,  1.16it/s]

  Throughput:  30%|████████████████████████████████████████▊                                                                                                 | 37/125 [00:30<01:20,  1.09it/s]

  Throughput:  30%|█████████████████████████████████████████▉                                                                                                | 38/125 [00:31<01:23,  1.05it/s]

  Throughput:  31%|███████████████████████████████████████████                                                                                               | 39/125 [00:33<01:24,  1.02it/s]

  Throughput:  32%|████████████████████████████████████████████▏                                                                                             | 40/125 [00:33<01:15,  1.13it/s]

  Throughput:  33%|█████████████████████████████████████████████▎                                                                                            | 41/125 [00:34<01:18,  1.07it/s]

  Throughput:  34%|██████████████████████████████████████████████▎                                                                                           | 42/125 [00:35<01:10,  1.18it/s]

  Throughput:  34%|███████████████████████████████████████████████▍                                                                                          | 43/125 [00:36<01:05,  1.26it/s]

  Throughput:  35%|████████████████████████████████████████████████▌                                                                                         | 44/125 [00:36<01:00,  1.33it/s]

  Throughput:  36%|█████████████████████████████████████████████████▋                                                                                        | 45/125 [00:37<00:57,  1.39it/s]

  Throughput:  37%|██████████████████████████████████████████████████▊                                                                                       | 46/125 [00:38<01:04,  1.22it/s]

  Throughput:  38%|███████████████████████████████████████████████████▉                                                                                      | 47/125 [00:39<01:09,  1.13it/s]

  Throughput:  38%|████████████████████████████████████████████████████▉                                                                                     | 48/125 [00:40<01:02,  1.22it/s]

  Throughput:  39%|██████████████████████████████████████████████████████                                                                                    | 49/125 [00:41<01:07,  1.13it/s]

  Throughput:  40%|███████████████████████████████████████████████████████▏                                                                                  | 50/125 [00:41<01:01,  1.22it/s]

  Throughput:  41%|████████████████████████████████████████████████████████▎                                                                                 | 51/125 [00:42<00:56,  1.30it/s]

  Throughput:  42%|█████████████████████████████████████████████████████████▍                                                                                | 52/125 [00:43<01:02,  1.17it/s]

  Throughput:  42%|██████████████████████████████████████████████████████████▌                                                                               | 53/125 [00:44<00:57,  1.26it/s]

  Throughput:  43%|███████████████████████████████████████████████████████████▌                                                                              | 54/125 [00:44<00:53,  1.33it/s]

  Throughput:  44%|████████████████████████████████████████████████████████████▋                                                                             | 55/125 [00:45<00:50,  1.38it/s]

  Throughput:  45%|█████████████████████████████████████████████████████████████▊                                                                            | 56/125 [00:46<00:48,  1.42it/s]

  Throughput:  46%|██████████████████████████████████████████████████████████████▉                                                                           | 57/125 [00:46<00:46,  1.45it/s]

  Throughput:  46%|████████████████████████████████████████████████████████████████                                                                          | 58/125 [00:47<00:53,  1.26it/s]

  Throughput:  47%|█████████████████████████████████████████████████████████████████▏                                                                        | 59/125 [00:48<00:57,  1.15it/s]

  Throughput:  48%|██████████████████████████████████████████████████████████████████▏                                                                       | 60/125 [00:49<00:52,  1.24it/s]

  Throughput:  49%|███████████████████████████████████████████████████████████████████▎                                                                      | 61/125 [00:50<00:48,  1.31it/s]

  Throughput:  50%|████████████████████████████████████████████████████████████████████▍                                                                     | 62/125 [00:51<00:53,  1.18it/s]

  Throughput:  50%|█████████████████████████████████████████████████████████████████████▌                                                                    | 63/125 [00:51<00:49,  1.26it/s]

  Throughput:  51%|██████████████████████████████████████████████████████████████████████▋                                                                   | 64/125 [00:52<00:45,  1.33it/s]

  Throughput:  52%|███████████████████████████████████████████████████████████████████████▊                                                                  | 65/125 [00:53<00:43,  1.38it/s]

  Throughput:  53%|████████████████████████████████████████████████████████████████████████▊                                                                 | 66/125 [00:53<00:41,  1.42it/s]

  Throughput:  54%|█████████████████████████████████████████████████████████████████████████▉                                                                | 67/125 [00:54<00:40,  1.45it/s]

  Throughput:  54%|███████████████████████████████████████████████████████████████████████████                                                               | 68/125 [00:55<00:45,  1.25it/s]

  Throughput:  55%|████████████████████████████████████████████████████████████████████████████▏                                                             | 69/125 [00:56<00:42,  1.32it/s]

  Throughput:  56%|█████████████████████████████████████████████████████████████████████████████▎                                                            | 70/125 [00:56<00:39,  1.38it/s]

  Throughput:  57%|██████████████████████████████████████████████████████████████████████████████▍                                                           | 71/125 [00:57<00:44,  1.22it/s]

  Throughput:  58%|███████████████████████████████████████████████████████████████████████████████▍                                                          | 72/125 [00:58<00:47,  1.12it/s]

  Throughput:  58%|████████████████████████████████████████████████████████████████████████████████▌                                                         | 73/125 [01:00<00:48,  1.07it/s]

  Throughput:  59%|█████████████████████████████████████████████████████████████████████████████████▋                                                        | 74/125 [01:00<00:43,  1.17it/s]

  Throughput:  60%|██████████████████████████████████████████████████████████████████████████████████▊                                                       | 75/125 [01:01<00:45,  1.09it/s]

  Throughput:  61%|███████████████████████████████████████████████████████████████████████████████████▉                                                      | 76/125 [01:02<00:41,  1.18it/s]

  Throughput:  62%|█████████████████████████████████████████████████████████████████████████████████████                                                     | 77/125 [01:03<00:38,  1.26it/s]

  Throughput:  62%|██████████████████████████████████████████████████████████████████████████████████████                                                    | 78/125 [01:03<00:35,  1.32it/s]

  Throughput:  63%|███████████████████████████████████████████████████████████████████████████████████████▏                                                  | 79/125 [01:04<00:33,  1.37it/s]

  Throughput:  64%|████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 80/125 [01:05<00:31,  1.41it/s]

  Throughput:  65%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                | 81/125 [01:05<00:30,  1.44it/s]

  Throughput:  66%|██████████████████████████████████████████████████████████████████████████████████████████▌                                               | 82/125 [01:06<00:29,  1.46it/s]

  Throughput:  66%|███████████████████████████████████████████████████████████████████████████████████████████▋                                              | 83/125 [01:07<00:28,  1.47it/s]

  Throughput:  67%|████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 84/125 [01:08<00:32,  1.26it/s]

  Throughput:  68%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 85/125 [01:09<00:34,  1.15it/s]

  Throughput:  69%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 86/125 [01:10<00:36,  1.08it/s]

  Throughput:  70%|████████████████████████████████████████████████████████████████████████████████████████████████                                          | 87/125 [01:11<00:36,  1.04it/s]

  Throughput:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 88/125 [01:11<00:32,  1.14it/s]

  Throughput:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 89/125 [01:13<00:33,  1.08it/s]

  Throughput:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 90/125 [01:13<00:29,  1.18it/s]

  Throughput:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 91/125 [01:14<00:26,  1.26it/s]

  Throughput:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 92/125 [01:15<00:28,  1.15it/s]

  Throughput:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 93/125 [01:16<00:25,  1.24it/s]

  Throughput:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 94/125 [01:17<00:27,  1.14it/s]

  Throughput:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 95/125 [01:17<00:24,  1.23it/s]

  Throughput:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 96/125 [01:18<00:22,  1.31it/s]

  Throughput:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 97/125 [01:19<00:20,  1.37it/s]

  Throughput:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 98/125 [01:19<00:19,  1.41it/s]

  Throughput:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 99/125 [01:20<00:21,  1.23it/s]

  Throughput:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 100/125 [01:21<00:19,  1.31it/s]

  Throughput:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 101/125 [01:22<00:20,  1.18it/s]

  Throughput:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 102/125 [01:23<00:20,  1.10it/s]

  Throughput:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 103/125 [01:24<00:20,  1.05it/s]

  Throughput:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 104/125 [01:25<00:18,  1.16it/s]

  Throughput:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 105/125 [01:26<00:18,  1.09it/s]

  Throughput:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/125 [01:26<00:15,  1.19it/s]

  Throughput:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 107/125 [01:27<00:14,  1.28it/s]

  Throughput:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 108/125 [01:28<00:12,  1.34it/s]

  Throughput:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 109/125 [01:29<00:13,  1.19it/s]

  Throughput:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 110/125 [01:30<00:13,  1.11it/s]

  Throughput:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 111/125 [01:31<00:13,  1.05it/s]

  Throughput:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 112/125 [01:32<00:12,  1.02it/s]

  Throughput:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 113/125 [01:33<00:12,  1.00s/it]

  Throughput:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 114/125 [01:34<00:11,  1.02s/it]

  Throughput:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 115/125 [01:35<00:10,  1.03s/it]

  Throughput:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 116/125 [01:36<00:09,  1.04s/it]

  Throughput:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [01:37<00:07,  1.08it/s]

  Throughput:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 118/125 [01:38<00:05,  1.19it/s]

  Throughput:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 119/125 [01:39<00:05,  1.11it/s]

  Throughput:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 120/125 [01:40<00:04,  1.06it/s]

  Throughput:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 121/125 [01:41<00:03,  1.02it/s]

  Throughput:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 122/125 [01:41<00:02,  1.14it/s]

  Throughput:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [01:42<00:01,  1.23it/s]

  Throughput:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 124/125 [01:43<00:00,  1.13it/s]

  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [01:44<00:00,  1.22it/s]

  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [01:44<00:00,  1.20it/s]

  Tokens/sec: 619.1
  Peak VRAM: 2314 MB

EFFICIENCY SUMMARY
Tokens/second:     619.8 ± 0.5
Samples/second:    9.68
Avg TTFT:          12.91 ms
Peak VRAM:         2314 MB

Results saved to: results/efficiency_baseline.csv





In [21]:
# Cell 21: Final Summary and Cleanup
# ===================================

print("\n" + "=" * 70)
print("EVALUATION COMPLETE")
print("=" * 70)

print(f"\nModel: {MODEL_PATH}")
print(f"Model Name: {MODEL_NAME}")

print("\n--- Output Files ---")
print(f"  Perplexity:   {PPL_OUTPUT}")
print(f"  NLU Results:  {NLU_OUTPUT}")
print(f"  MT Results:   {MT_OUTPUT}")
print(f"  Generation:   {GEN_OUTPUT}")
print(f"  Efficiency:   {EFFICIENCY_OUTPUT}")

print("\n--- Key Metrics Summary ---")
print(f"  Spanish PPL (mean):      {es_summary['mean']:.2f}")
print(f"  English PPL (mean):      {en_summary['mean']:.2f}")
print(f"  MT BLEU:                 {bleu_score:.2f}")
print(f"  MT chrF++:               {chrf_score:.2f}")
print(f"  Distinct-2 (greedy):     {greedy_metrics['distinct_2']:.4f}")
print(f"  Throughput (tok/s):      {efficiency_summary['tokens_per_second_mean']:.1f}")
print(f"  Peak VRAM:               {efficiency_summary['peak_vram_mb']:.0f} MB")

# Cleanup
pynvml.nvmlShutdown()
print("\n[BASELINE EVALUATION COMPLETE]")



EVALUATION COMPLETE

Model: EleutherAI/pythia-1b
Model Name: baseline

--- Output Files ---
  Perplexity:   results/perplexity_baseline.csv
  NLU Results:  results/nlu_results_baseline.json
  MT Results:   results/mt_results_baseline.csv
  Generation:   results/generation_baseline.csv
  Efficiency:   results/efficiency_baseline.csv

--- Key Metrics Summary ---
  Spanish PPL (mean):      13.88
  English PPL (mean):      36.31
  MT BLEU:                 16.25
  MT chrF++:               33.31
  Distinct-2 (greedy):     0.4550
  Throughput (tok/s):      619.8
  Peak VRAM:               2314 MB

[BASELINE EVALUATION COMPLETE]
