# Full Model Evaluation - Adapted Model

**TokAlign ACL Publication-Grade Evaluation Framework - Notebook 3/3**

Comprehensive evaluation of **vocabulary-adapted model** covering:
- **Section A**: Perplexity (Spanish + English catastrophic forgetting check)
- **Section B**: Downstream NLU Tasks (Belebele, SIB-200, XCOPA, XNLI)
- **Section C**: Machine Translation (FLORES-200, BLEU/chrF++/COMET)
- **Section D**: Generation Quality (Distinct-N, repetition, Self-BLEU)
- **Section E**: Computational Efficiency (throughput, latency, VRAM)

## Usage
**Set `MODEL_PATH` in Cell 1 to your adapted model path before running.**

## Expected Improvements (per CVA Study)
- Spanish fertility reduction → inference speedup up to 271.5%
- Spanish perplexity improvement
- English PPL degradation <5% (catastrophic forgetting threshold)

## References
- Belebele (Bandarkar et al., ACL 2024) - 221 citations
- SIB-200 (Adelani et al., EACL 2023) - 118 citations
- CVA Study (Yamaguchi et al., EMNLP 2024) - 271.5% speedup
- Branch-and-Merge (Alexandrov et al., EMNLP 2024) - Catastrophic forgetting mitigation


In [1]:
# Cell 1: Configuration
# =====================
# >>> IMPORTANT: Set your adapted model path below <<<

# === MODEL CONFIGURATION ===
MODEL_PATH = "/home/ubuntu/aryan-true-tokalign/true-tokalign/log/1b/0_qwen2-7b_S2/checkpoint-2500"
MODEL_NAME = "adapted"  # Used for output file naming

# === BASELINE REFERENCE (for comparison) ===
BASELINE_MODEL = "EleutherAI/pythia-1b"

# === EVALUATION SETTINGS ===
PERPLEXITY_SAMPLES_ES = 2000
PERPLEXITY_SAMPLES_EN = 1000
GENERATION_PROMPTS = 500
MT_SAMPLES = 1012  # FLORES-200 devtest size
EFFICIENCY_SAMPLES = 1000
EFFICIENCY_RUNS = 3
WARMUP_SAMPLES = 100

# === BATCH SIZES ===
BATCH_SIZE_PPL = 16
BATCH_SIZE_GEN = 8
MAX_NEW_TOKENS = 128

# === OUTPUT ===
OUTPUT_DIR = "results"
PPL_OUTPUT = f"{OUTPUT_DIR}/perplexity_{MODEL_NAME}.csv"
NLU_OUTPUT = f"{OUTPUT_DIR}/nlu_results_{MODEL_NAME}.json"
MT_OUTPUT = f"{OUTPUT_DIR}/mt_results_{MODEL_NAME}.csv"
GEN_OUTPUT = f"{OUTPUT_DIR}/generation_{MODEL_NAME}.csv"
EFFICIENCY_OUTPUT = f"{OUTPUT_DIR}/efficiency_{MODEL_NAME}.csv"

# === THRESHOLDS (per plan) ===
ENGLISH_PPL_DEGRADATION_THRESHOLD = 0.05  # <5% increase acceptable
ENGLISH_ACCURACY_DEGRADATION_THRESHOLD = 0.02  # <2% drop acceptable

RANDOM_SEED = 42


In [2]:
# Cell 2: Install Dependencies
!pip install transformers datasets accelerate pandas numpy scipy tqdm pynvml -q
!pip install sacrebleu unbabel-comet lm-eval -q
!pip install flash-attn --no-build-isolation -q


In [3]:
# Cell 3: Imports and GPU Validation
import os
import json
import time
import torch
import numpy as np
import pandas as pd
import pynvml
from scipy import stats
from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer
from torch.utils.data import DataLoader, Dataset
from tqdm.auto import tqdm
from typing import Dict, List, Tuple, Optional
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# Validate model path
assert MODEL_PATH != "YOUR_ADAPTED_MODEL_PATH", "Please set MODEL_PATH to your adapted model in Cell 1!"
print(f"Model to evaluate: {MODEL_PATH}")

# GPU Validation
assert torch.cuda.is_available(), "CUDA is not available - GPU required"
compute_capability = torch.cuda.get_device_capability()
print(f"GPU: {torch.cuda.get_device_name(0)}")
print(f"Compute Capability: {compute_capability[0]}.{compute_capability[1]}")
print(f"CUDA Version: {torch.version.cuda}")
print(f"PyTorch Version: {torch.__version__}")

# Initialize VRAM monitoring
pynvml.nvmlInit()
gpu_handle = pynvml.nvmlDeviceGetHandleByIndex(0)

# Set random seed
np.random.seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

# Create output directory
os.makedirs(OUTPUT_DIR, exist_ok=True)

# Try to load baseline results for comparison
BASELINE_ENGLISH_PPL = None
BASELINE_SPANISH_PPL = None
baseline_ppl_path = f"{OUTPUT_DIR}/perplexity_baseline.csv"
if os.path.exists(baseline_ppl_path):
    baseline_ppl_df = pd.read_csv(baseline_ppl_path)
    BASELINE_ENGLISH_PPL = baseline_ppl_df[baseline_ppl_df['language'] == 'en']['perplexity'].mean()
    BASELINE_SPANISH_PPL = baseline_ppl_df[baseline_ppl_df['language'] == 'es']['perplexity'].mean()
    print(f"\nBaseline reference loaded:")
    print(f"  English PPL: {BASELINE_ENGLISH_PPL:.2f}")
    print(f"  Spanish PPL: {BASELINE_SPANISH_PPL:.2f}")
else:
    print(f"\nNo baseline results found at {baseline_ppl_path}")
    print("Run eval_baseline.ipynb first for comparison metrics.")

print(f"\nOutput directory: {OUTPUT_DIR}")


  import pynvml  # type: ignore[import]


  from .autonotebook import tqdm as notebook_tqdm


Model to evaluate: /home/ubuntu/aryan-true-tokalign/true-tokalign/log/1b/0_qwen2-7b_S2/checkpoint-2500
GPU: NVIDIA H100 80GB HBM3
Compute Capability: 9.0
CUDA Version: 12.8
PyTorch Version: 2.7.0

No baseline results found at results/perplexity_baseline.csv
Run eval_baseline.ipynb first for comparison metrics.

Output directory: results


In [4]:
# Cell 4: Load Adapted Model
# ==========================

print(f"Loading adapted model: {MODEL_PATH}")

# Determine if Flash Attention 2 is available
use_flash_attn = compute_capability[0] >= 8
attn_impl = "flash_attention_2" if use_flash_attn else "eager"
print(f"Attention implementation: {attn_impl}")

# Load model with optimized settings
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH,
    torch_dtype=torch.bfloat16,
    device_map="cuda",
    attn_implementation=attn_impl,
)
model.eval()

# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "left"  # Required for batched generation

print(f"\nModel loaded successfully on {next(model.parameters()).device}")
print(f"Model dtype: {next(model.parameters()).dtype}")
print(f"Vocab size: {tokenizer.vocab_size}")

# Compare vocab size with baseline
baseline_tokenizer = AutoTokenizer.from_pretrained(BASELINE_MODEL)
vocab_diff = tokenizer.vocab_size - baseline_tokenizer.vocab_size
print(f"\nVocab size comparison:")
print(f"  Baseline: {baseline_tokenizer.vocab_size}")
print(f"  Adapted:  {tokenizer.vocab_size}")
print(f"  Delta:    {vocab_diff:+d} tokens")


`torch_dtype` is deprecated! Use `dtype` instead!


Loading adapted model: /home/ubuntu/aryan-true-tokalign/true-tokalign/log/1b/0_qwen2-7b_S2/checkpoint-2500
Attention implementation: flash_attention_2


2025-11-29 00:58:05.440911: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-11-29 00:58:05.455271: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1764377885.472914   81389 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1764377885.478519   81389 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1764377885.494150   81389 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking 


Model loaded successfully on cuda:0
Model dtype: torch.bfloat16
Vocab size: 151643



Vocab size comparison:
  Baseline: 50254
  Adapted:  151643
  Delta:    +101389 tokens


## Section A: Perplexity Evaluation

Evaluates model perplexity on:
1. **Spanish (Target Language)**: OSCAR-2301 Spanish validation
2. **English (Catastrophic Forgetting)**: WikiText-2 validation

Threshold: <5% PPL increase on English acceptable per Branch-and-Merge methodology.


In [5]:
# Cell 5: Perplexity Functions
# =============================

@torch.no_grad()
def calculate_batch_perplexity(texts: List[str], model, tokenizer, max_length: int = 512) -> List[Dict]:
    """
    Vectorized perplexity calculation using cross-entropy loss.
    Returns list of dicts with PPL and token counts per sample.
    """
    # Tokenize batch with padding
    encodings = tokenizer(
        texts,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=max_length,
    ).to("cuda")
    
    input_ids = encodings.input_ids
    attention_mask = encodings.attention_mask
    
    # Forward pass
    outputs = model(input_ids=input_ids, attention_mask=attention_mask)
    logits = outputs.logits
    
    # Shift logits and labels for causal LM loss calculation
    shift_logits = logits[:, :-1, :].contiguous()
    shift_labels = input_ids[:, 1:].contiguous()
    shift_mask = attention_mask[:, 1:].contiguous()
    
    # Calculate per-token cross entropy loss
    loss_fct = torch.nn.CrossEntropyLoss(reduction='none')
    losses = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
    losses = losses.view(shift_labels.size())
    
    # Mask out padding tokens and calculate mean loss per sequence
    masked_losses = losses * shift_mask
    seq_lengths = shift_mask.sum(dim=1).clamp(min=1)
    mean_losses = masked_losses.sum(dim=1) / seq_lengths
    
    # Convert to perplexity
    perplexities = torch.exp(mean_losses)
    
    # Return detailed results
    results = []
    for i, (text, ppl, n_tokens) in enumerate(zip(texts, perplexities.cpu().tolist(), seq_lengths.cpu().tolist())):
        results.append({
            'text': text[:200],
            'perplexity': ppl,
            'num_tokens': int(n_tokens),
            'cross_entropy': mean_losses[i].cpu().item()
        })
    
    return results


def evaluate_perplexity(texts: List[str], model, tokenizer, batch_size: int, desc: str) -> pd.DataFrame:
    """Evaluate perplexity on a corpus."""
    all_results = []
    
    for i in tqdm(range(0, len(texts), batch_size), desc=desc):
        batch = texts[i:i+batch_size]
        batch = [t for t in batch if t and t.strip()]  # Filter empty
        if batch:
            results = calculate_batch_perplexity(batch, model, tokenizer)
            all_results.extend(results)
    
    return pd.DataFrame(all_results)


print("Perplexity functions defined.")


Perplexity functions defined.


In [6]:
# Cell 6: Load Perplexity Datasets (PARALLELIZED)
# ================================================

import multiprocessing
NUM_PROC = multiprocessing.cpu_count() // 2  # Use 26 physical cores
print(f"Loading perplexity datasets with {NUM_PROC} parallel workers...")

# Spanish: Wikipedia (parallel loading)
print("\n1. Loading Spanish Wikipedia...")
wiki_es = load_dataset(
    "wikimedia/wikipedia",
    "20231101.es",
    split=f"train[:{PERPLEXITY_SAMPLES_ES * 2}]",  # Load extra for filtering
    num_proc=NUM_PROC
)

def filter_and_truncate(example):
    text = example.get('text', '')
    return text and len(text) > 100

wiki_es_filtered = wiki_es.filter(filter_and_truncate, num_proc=NUM_PROC)
spanish_texts = [t[:1000] for t in wiki_es_filtered['text'][:PERPLEXITY_SAMPLES_ES]]
print(f"   Loaded {len(spanish_texts)} Spanish samples")

# English: WikiText-2
print("\n2. Loading English WikiText-2...")
wikitext = load_dataset("wikitext", "wikitext-2-raw-v1", split="validation")
english_texts = [t for t in wikitext['text'] if t and len(t) > 100][:PERPLEXITY_SAMPLES_EN]
print(f"   Loaded {len(english_texts)} English samples")


Loading perplexity datasets with 26 parallel workers...

1. Loading Spanish Wikipedia...


   Loaded 2000 Spanish samples

2. Loading English WikiText-2...


   Loaded 1000 English samples


In [7]:
# Cell 7: Run Perplexity Evaluation
# ==================================

print("=" * 70)
print("PERPLEXITY EVALUATION")
print("=" * 70)

# Spanish perplexity
print("\n--- Spanish (Target Language) ---")
spanish_ppl_df = evaluate_perplexity(spanish_texts, model, tokenizer, BATCH_SIZE_PPL, "Spanish PPL")

# English perplexity
print("\n--- English (Catastrophic Forgetting Check) ---")
english_ppl_df = evaluate_perplexity(english_texts, model, tokenizer, BATCH_SIZE_PPL, "English PPL")

# Combine and save
spanish_ppl_df['language'] = 'es'
english_ppl_df['language'] = 'en'
ppl_df = pd.concat([spanish_ppl_df, english_ppl_df], ignore_index=True)
ppl_df.to_csv(PPL_OUTPUT, index=False)
print(f"\nPerplexity results saved to: {PPL_OUTPUT}")


PERPLEXITY EVALUATION

--- Spanish (Target Language) ---



Spanish PPL:   0%|                                                                                                                                                    | 0/125 [00:00<?, ?it/s]


Spanish PPL:   1%|█                                                                                                                                           | 1/125 [00:00<01:13,  1.70it/s]


Spanish PPL:   2%|███▎                                                                                                                                        | 3/125 [00:00<00:24,  4.91it/s]


Spanish PPL:   4%|█████▌                                                                                                                                      | 5/125 [00:00<00:15,  7.81it/s]


Spanish PPL:   6%|███████▊                                                                                                                                    | 7/125 [00:00<00:11, 10.07it/s]


Spanish PPL:   7%|██████████                                                                                                                                  | 9/125 [00:01<00:09, 12.19it/s]


Spanish PPL:   9%|████████████▏                                                                                                                              | 11/125 [00:01<00:08, 14.05it/s]


Spanish PPL:  10%|██████████████▍                                                                                                                            | 13/125 [00:01<00:07, 15.53it/s]


Spanish PPL:  12%|████████████████▋                                                                                                                          | 15/125 [00:01<00:06, 16.22it/s]


Spanish PPL:  14%|██████████████████▉                                                                                                                        | 17/125 [00:01<00:06, 16.84it/s]


Spanish PPL:  15%|█████████████████████▏                                                                                                                     | 19/125 [00:01<00:06, 17.52it/s]


Spanish PPL:  17%|███████████████████████▎                                                                                                                   | 21/125 [00:01<00:05, 17.52it/s]


Spanish PPL:  18%|█████████████████████████▌                                                                                                                 | 23/125 [00:01<00:05, 17.77it/s]


Spanish PPL:  20%|███████████████████████████▊                                                                                                               | 25/125 [00:01<00:05, 18.07it/s]


Spanish PPL:  22%|███████████████████████████████▏                                                                                                           | 28/125 [00:02<00:05, 19.05it/s]


Spanish PPL:  24%|█████████████████████████████████▎                                                                                                         | 30/125 [00:02<00:05, 18.91it/s]


Spanish PPL:  26%|███████████████████████████████████▌                                                                                                       | 32/125 [00:02<00:04, 19.07it/s]


Spanish PPL:  27%|█████████████████████████████████████▊                                                                                                     | 34/125 [00:02<00:04, 18.44it/s]


Spanish PPL:  29%|████████████████████████████████████████                                                                                                   | 36/125 [00:02<00:04, 18.79it/s]


Spanish PPL:  30%|██████████████████████████████████████████▎                                                                                                | 38/125 [00:02<00:04, 19.11it/s]


Spanish PPL:  32%|████████████████████████████████████████████▍                                                                                              | 40/125 [00:02<00:04, 18.99it/s]


Spanish PPL:  34%|██████████████████████████████████████████████▋                                                                                            | 42/125 [00:02<00:04, 18.08it/s]


Spanish PPL:  35%|████████████████████████████████████████████████▉                                                                                          | 44/125 [00:02<00:04, 18.47it/s]


Spanish PPL:  37%|███████████████████████████████████████████████████▏                                                                                       | 46/125 [00:03<00:04, 18.62it/s]


Spanish PPL:  38%|█████████████████████████████████████████████████████▍                                                                                     | 48/125 [00:03<00:04, 18.74it/s]


Spanish PPL:  40%|███████████████████████████████████████████████████████▌                                                                                   | 50/125 [00:03<00:03, 18.86it/s]


Spanish PPL:  42%|█████████████████████████████████████████████████████████▊                                                                                 | 52/125 [00:03<00:03, 18.98it/s]


Spanish PPL:  44%|█████████████████████████████████████████████████████████████▏                                                                             | 55/125 [00:03<00:03, 19.28it/s]


Spanish PPL:  46%|████████████████████████████████████████████████████████████████▍                                                                          | 58/125 [00:03<00:03, 19.50it/s]


Spanish PPL:  49%|███████████████████████████████████████████████████████████████████▊                                                                       | 61/125 [00:03<00:03, 19.58it/s]


Spanish PPL:  50%|██████████████████████████████████████████████████████████████████████                                                                     | 63/125 [00:03<00:03, 19.56it/s]


Spanish PPL:  52%|████████████████████████████████████████████████████████████████████████▎                                                                  | 65/125 [00:04<00:03, 19.54it/s]


Spanish PPL:  54%|██████████████████████████████████████████████████████████████████████████▌                                                                | 67/125 [00:04<00:02, 19.60it/s]


Spanish PPL:  55%|████████████████████████████████████████████████████████████████████████████▋                                                              | 69/125 [00:04<00:02, 19.43it/s]


Spanish PPL:  57%|██████████████████████████████████████████████████████████████████████████████▉                                                            | 71/125 [00:04<00:02, 19.02it/s]


Spanish PPL:  58%|█████████████████████████████████████████████████████████████████████████████████▏                                                         | 73/125 [00:04<00:02, 18.81it/s]


Spanish PPL:  60%|███████████████████████████████████████████████████████████████████████████████████▍                                                       | 75/125 [00:04<00:02, 18.77it/s]


Spanish PPL:  62%|█████████████████████████████████████████████████████████████████████████████████████▌                                                     | 77/125 [00:04<00:02, 19.08it/s]


Spanish PPL:  63%|███████████████████████████████████████████████████████████████████████████████████████▊                                                   | 79/125 [00:04<00:02, 18.97it/s]


Spanish PPL:  65%|██████████████████████████████████████████████████████████████████████████████████████████                                                 | 81/125 [00:04<00:02, 19.20it/s]


Spanish PPL:  66%|████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 83/125 [00:04<00:02, 19.12it/s]


Spanish PPL:  68%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 85/125 [00:05<00:02, 18.81it/s]


Spanish PPL:  70%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 87/125 [00:05<00:02, 18.89it/s]


Spanish PPL:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 89/125 [00:05<00:01, 18.99it/s]


Spanish PPL:  73%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 91/125 [00:05<00:01, 18.68it/s]


Spanish PPL:  74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 93/125 [00:05<00:01, 18.41it/s]


Spanish PPL:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 95/125 [00:05<00:01, 18.61it/s]


Spanish PPL:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 97/125 [00:05<00:01, 18.59it/s]


Spanish PPL:  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 99/125 [00:05<00:01, 18.86it/s]


Spanish PPL:  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 101/125 [00:05<00:01, 19.04it/s]


Spanish PPL:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 103/125 [00:06<00:01, 19.01it/s]


Spanish PPL:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 105/125 [00:06<00:01, 18.90it/s]


Spanish PPL:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 107/125 [00:06<00:01, 17.67it/s]


Spanish PPL:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 109/125 [00:06<00:00, 17.90it/s]


Spanish PPL:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 111/125 [00:06<00:00, 18.06it/s]


Spanish PPL:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 113/125 [00:06<00:00, 18.24it/s]


Spanish PPL:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 115/125 [00:06<00:00, 18.41it/s]


Spanish PPL:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [00:06<00:00, 18.79it/s]


Spanish PPL:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 119/125 [00:06<00:00, 18.93it/s]


Spanish PPL:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 121/125 [00:06<00:00, 19.17it/s]


Spanish PPL:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [00:07<00:00, 19.12it/s]


Spanish PPL: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [00:07<00:00, 18.90it/s]


Spanish PPL: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [00:07<00:00, 17.33it/s]





--- English (Catastrophic Forgetting Check) ---



English PPL:   0%|                                                                                                                                                     | 0/63 [00:00<?, ?it/s]


English PPL:   5%|██████▋                                                                                                                                      | 3/63 [00:00<00:02, 22.95it/s]


English PPL:  10%|█████████████▍                                                                                                                               | 6/63 [00:00<00:02, 23.28it/s]


English PPL:  14%|████████████████████▏                                                                                                                        | 9/63 [00:00<00:02, 22.09it/s]


English PPL:  19%|██████████████████████████▋                                                                                                                 | 12/63 [00:00<00:02, 24.28it/s]


English PPL:  24%|█████████████████████████████████▎                                                                                                          | 15/63 [00:00<00:01, 24.66it/s]


English PPL:  29%|████████████████████████████████████████                                                                                                    | 18/63 [00:00<00:01, 24.52it/s]


English PPL:  33%|██████████████████████████████████████████████▋                                                                                             | 21/63 [00:00<00:01, 23.08it/s]


English PPL:  38%|█████████████████████████████████████████████████████▎                                                                                      | 24/63 [00:01<00:01, 21.89it/s]


English PPL:  43%|████████████████████████████████████████████████████████████                                                                                | 27/63 [00:01<00:01, 22.86it/s]


English PPL:  48%|██████████████████████████████████████████████████████████████████▋                                                                         | 30/63 [00:01<00:01, 22.62it/s]


English PPL:  52%|█████████████████████████████████████████████████████████████████████████▎                                                                  | 33/63 [00:01<00:01, 21.96it/s]


English PPL:  57%|████████████████████████████████████████████████████████████████████████████████                                                            | 36/63 [00:01<00:01, 21.95it/s]


English PPL:  62%|██████████████████████████████████████████████████████████████████████████████████████▋                                                     | 39/63 [00:01<00:01, 20.92it/s]


English PPL:  67%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 42/63 [00:01<00:00, 22.28it/s]


English PPL:  71%|████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 45/63 [00:01<00:00, 23.09it/s]


English PPL:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 48/63 [00:02<00:00, 22.03it/s]


English PPL:  81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 51/63 [00:02<00:00, 20.99it/s]


English PPL:  86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 54/63 [00:02<00:00, 21.41it/s]


English PPL:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 57/63 [00:02<00:00, 21.58it/s]


English PPL:  95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 60/63 [00:02<00:00, 21.15it/s]


English PPL: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:02<00:00, 21.50it/s]


English PPL: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 63/63 [00:02<00:00, 22.20it/s]


Perplexity results saved to: results/perplexity_adapted.csv





In [8]:
# Cell 8: Perplexity Summary Statistics
# ======================================

def ppl_summary(df: pd.DataFrame, lang: str) -> Dict:
    """Compute perplexity summary statistics."""
    ppl_vals = df[df['language'] == lang]['perplexity'].values
    return {
        'language': lang,
        'mean': np.mean(ppl_vals),
        'median': np.median(ppl_vals),
        'std': np.std(ppl_vals),
        'p5': np.percentile(ppl_vals, 5),
        'p25': np.percentile(ppl_vals, 25),
        'p50': np.percentile(ppl_vals, 50),
        'p75': np.percentile(ppl_vals, 75),
        'p95': np.percentile(ppl_vals, 95),
        'min': np.min(ppl_vals),
        'max': np.max(ppl_vals),
        'n_samples': len(ppl_vals)
    }


print("\n" + "=" * 70)
print("PERPLEXITY SUMMARY")
print("=" * 70)

# Spanish summary
es_summary = ppl_summary(ppl_df, 'es')
print(f"\n--- SPANISH ---")
print(f"  Mean PPL:   {es_summary['mean']:.2f}")
print(f"  Median PPL: {es_summary['median']:.2f}")
print(f"  Std PPL:    {es_summary['std']:.2f}")
print(f"  Percentiles: P5={es_summary['p5']:.2f}, P25={es_summary['p25']:.2f}, "
      f"P50={es_summary['p50']:.2f}, P75={es_summary['p75']:.2f}, P95={es_summary['p95']:.2f}")

# English summary
en_summary = ppl_summary(ppl_df, 'en')
print(f"\n--- ENGLISH ---")
print(f"  Mean PPL:   {en_summary['mean']:.2f}")
print(f"  Median PPL: {en_summary['median']:.2f}")
print(f"  Std PPL:    {en_summary['std']:.2f}")
print(f"  Percentiles: P5={en_summary['p5']:.2f}, P25={en_summary['p25']:.2f}, "
      f"P50={en_summary['p50']:.2f}, P75={en_summary['p75']:.2f}, P95={en_summary['p95']:.2f}")

# Store adapted model's English PPL (do NOT overwrite BASELINE_ENGLISH_PPL)
ADAPTED_ENGLISH_PPL = en_summary['mean']
print(f"\n[ADAPTED] English Mean PPL: {ADAPTED_ENGLISH_PPL:.2f}")



PERPLEXITY SUMMARY

--- SPANISH ---
  Mean PPL:   39.06
  Median PPL: 34.75
  Std PPL:    25.80
  Percentiles: P5=18.62, P25=27.00, P50=34.75, P75=46.75, P95=68.00

--- ENGLISH ---
  Mean PPL:   43.48
  Median PPL: 31.12
  Std PPL:    53.02
  Percentiles: P5=14.00, P25=22.38, P50=31.12, P75=45.25, P95=105.00

[ADAPTED] English Mean PPL: 43.48


## Section B: Downstream NLU Tasks

Using lm-evaluation-harness for standardized benchmarks:
- **Belebele** (spa_Latn + eng_Latn): Reading comprehension, 221 citations
- **SIB-200** (spa_Latn): Topic classification, 118 citations  
- **XCOPA** (et/translation_es): Commonsense reasoning
- **XNLI** (es): Natural language inference

English regression tests: arc_easy, hellaswag, lambada_openai


In [9]:
# Cell 9: NLU Evaluation via lm-evaluation-harness
# ================================================

# Note: lm-eval tasks are run via command line for best compatibility
# This cell generates the command and parses results

print("=" * 70)
print("NLU EVALUATION (lm-evaluation-harness)")
print("=" * 70)

# Define tasks to evaluate
SPANISH_TASKS = [
    "belebele_spa_latn",  # Reading comprehension
    # "sib200_spa_latn",    # Topic classification (if available)
    # "xcopa_translation-es",  # Commonsense (if available)
]

ENGLISH_TASKS = [
    "belebele_eng_latn",  # Reading comprehension (English baseline)
    "arc_easy",           # Regression test
    "hellaswag",          # Regression test
    "lambada_openai",     # Regression test
]

ALL_TASKS = SPANISH_TASKS + ENGLISH_TASKS

print("\nTasks to evaluate:")
for task in ALL_TASKS:
    print(f"  - {task}")

# Generate lm-eval command
lm_eval_cmd = f"""
# Run this command in terminal:
lm_eval --model hf \\
    --model_args pretrained={MODEL_PATH},dtype=bfloat16 \\
    --tasks {','.join(ALL_TASKS)} \\
    --batch_size auto \\
    --output_path {NLU_OUTPUT.replace('.json', '')}
"""

print("\n" + "=" * 70)
print("LM-EVAL COMMAND")
print("=" * 70)
print(lm_eval_cmd)


NLU EVALUATION (lm-evaluation-harness)

Tasks to evaluate:
  - belebele_spa_latn
  - belebele_eng_latn
  - arc_easy
  - hellaswag
  - lambada_openai

LM-EVAL COMMAND

# Run this command in terminal:
lm_eval --model hf \
    --model_args pretrained=/home/ubuntu/aryan-true-tokalign/true-tokalign/log/1b/0_qwen2-7b_S2/checkpoint-2500,dtype=bfloat16 \
    --tasks belebele_spa_latn,belebele_eng_latn,arc_easy,hellaswag,lambada_openai \
    --batch_size auto \
    --output_path results/nlu_results_adapted



In [10]:
# Cell 10: Run lm-eval (alternative: programmatic API)
# ====================================================

try:
    from lm_eval import evaluator
    from lm_eval.models.huggingface import HFLM
    
    print("Running lm-evaluation-harness programmatically...")
    
    # Create model wrapper using our already-loaded model
    lm = HFLM(
        pretrained=model,
        tokenizer=tokenizer,
        batch_size="auto"
    )
    
    # Run evaluation on available tasks
    # Note: Some tasks may not be available in all lm-eval versions
    available_tasks = []
    for task in ALL_TASKS:
        try:
            results = evaluator.simple_evaluate(
                model=lm,
                tasks=[task],
                batch_size="auto",
                log_samples=False
            )
            available_tasks.append(task)
            print(f"  [OK] {task}")
        except Exception as e:
            print(f"  [SKIP] {task}: {str(e)[:50]}...")
    
    if available_tasks:
        # Full evaluation on available tasks
        nlu_results = evaluator.simple_evaluate(
            model=lm,
            tasks=available_tasks,
            batch_size="auto",
            log_samples=False
        )
        
        # Save results
        with open(NLU_OUTPUT, 'w') as f:
            json.dump(nlu_results, f, indent=2, default=str)
        print(f"\nNLU results saved to: {NLU_OUTPUT}")
    else:
        print("\nNo tasks available. Run lm-eval command manually.")
        nlu_results = None
        
except ImportError:
    print("lm-eval not installed. Run the command above manually.")
    nlu_results = None
except Exception as e:
    print(f"Error running lm-eval: {e}")
    print("Run the command above manually.")
    nlu_results = None


`pretrained` model kwarg is not of type `str`. Many other model arguments may be ignored. Please do not launch via accelerate or use `parallelize=True` if passing an existing model this way.


Passed an already-initialized model through `pretrained`, assuming single-process call to evaluate() or custom distributed integration


Running lm-evaluation-harness programmatically...


  [SKIP] belebele_spa_latn: 'belebele_spa_latn'...


  [SKIP] belebele_eng_latn: 'belebele_eng_latn'...



  0%|                                                                                                                                                                | 0/2376 [00:00<?, ?it/s]


  7%|██████████                                                                                                                                          | 162/2376 [00:00<00:01, 1611.83it/s]


 14%|████████████████████▏                                                                                                                               | 325/2376 [00:00<00:01, 1618.01it/s]


 21%|██████████████████████████████▍                                                                                                                     | 488/2376 [00:00<00:01, 1620.11it/s]


 27%|████████████████████████████████████████▋                                                                                                           | 653/2376 [00:00<00:01, 1629.27it/s]


 34%|██████████████████████████████████████████████████▉                                                                                                 | 818/2376 [00:00<00:00, 1634.70it/s]


 41%|█████████████████████████████████████████████████████████████▏                                                                                      | 983/2376 [00:00<00:00, 1639.13it/s]


 48%|███████████████████████████████████████████████████████████████████████                                                                            | 1148/2376 [00:00<00:00, 1642.29it/s]


 55%|█████████████████████████████████████████████████████████████████████████████████▎                                                                 | 1314/2376 [00:00<00:00, 1647.29it/s]


 62%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 1481/2376 [00:00<00:00, 1652.60it/s]


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 1647/2376 [00:01<00:00, 1650.17it/s]


 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 1813/2376 [00:01<00:00, 1648.52it/s]


 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 1978/2376 [00:01<00:00, 1647.89it/s]


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 2143/2376 [00:01<00:00, 1646.95it/s]


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2309/2376 [00:01<00:00, 1649.59it/s]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2376/2376 [00:01<00:00, 1642.29it/s]





Running loglikelihood requests:   0%|                                                                                                                                | 0/9501 [00:00<?, ?it/s]

Passed argument batch_size = auto:1. Detecting largest batch size



Running loglikelihood requests:   0%|                                                                                                                      | 1/9501 [00:01<2:38:32,  1.00s/it]

Determined largest batch size: 64



Running loglikelihood requests:   2%|██▌                                                                                                                  | 208/9501 [00:01<00:36, 251.28it/s]


Running loglikelihood requests:   4%|█████                                                                                                                | 409/9501 [00:01<00:18, 502.74it/s]


Running loglikelihood requests:   6%|██████▊                                                                                                              | 553/9501 [00:01<00:14, 608.97it/s]


Running loglikelihood requests:   8%|█████████▎                                                                                                           | 757/9501 [00:01<00:10, 863.07it/s]


Running loglikelihood requests:  10%|███████████▉                                                                                                        | 978/9501 [00:01<00:07, 1140.82it/s]


Running loglikelihood requests:  13%|███████████████                                                                                                    | 1248/9501 [00:01<00:05, 1427.29it/s]


Running loglikelihood requests:  16%|██████████████████▍                                                                                                | 1523/9501 [00:01<00:04, 1670.80it/s]


Running loglikelihood requests:  19%|██████████████████████                                                                                             | 1821/9501 [00:01<00:04, 1917.45it/s]


Running loglikelihood requests:  22%|█████████████████████████▌                                                                                         | 2107/9501 [00:02<00:03, 2113.14it/s]


Running loglikelihood requests:  25%|████████████████████████████▊                                                                                      | 2379/9501 [00:02<00:03, 2206.05it/s]


Running loglikelihood requests:  28%|████████████████████████████████▏                                                                                  | 2662/9501 [00:02<00:02, 2366.86it/s]


Running loglikelihood requests:  31%|███████████████████████████████████▋                                                                               | 2950/9501 [00:02<00:02, 2501.39it/s]


Running loglikelihood requests:  34%|███████████████████████████████████████▏                                                                           | 3238/9501 [00:02<00:02, 2589.33it/s]


Running loglikelihood requests:  37%|██████████████████████████████████████████▊                                                                        | 3540/9501 [00:02<00:02, 2667.56it/s]


Running loglikelihood requests:  41%|██████████████████████████████████████████████▌                                                                    | 3849/9501 [00:02<00:02, 2787.90it/s]


Running loglikelihood requests:  44%|██████████████████████████████████████████████████▏                                                                | 4150/9501 [00:02<00:01, 2852.06it/s]


Running loglikelihood requests:  47%|██████████████████████████████████████████████████████▏                                                            | 4475/9501 [00:02<00:01, 2842.23it/s]


Running loglikelihood requests:  51%|██████████████████████████████████████████████████████████▍                                                        | 4825/9501 [00:02<00:01, 3029.97it/s]


Running loglikelihood requests:  54%|██████████████████████████████████████████████████████████████                                                     | 5131/9501 [00:03<00:01, 2927.36it/s]


Running loglikelihood requests:  58%|██████████████████████████████████████████████████████████████████▍                                                | 5490/9501 [00:03<00:01, 2999.78it/s]


Running loglikelihood requests:  62%|██████████████████████████████████████████████████████████████████████▊                                            | 5849/9501 [00:03<00:01, 3048.10it/s]


Running loglikelihood requests:  65%|███████████████████████████████████████████████████████████████████████████                                        | 6200/9501 [00:03<00:01, 3059.28it/s]


Running loglikelihood requests:  69%|███████████████████████████████████████████████████████████████████████████████▌                                   | 6569/9501 [00:03<00:00, 3119.73it/s]


Running loglikelihood requests:  73%|████████████████████████████████████████████████████████████████████████████████████                               | 6942/9501 [00:03<00:00, 3167.98it/s]


Running loglikelihood requests:  77%|████████████████████████████████████████████████████████████████████████████████████████▍                          | 7310/9501 [00:03<00:00, 3210.47it/s]


Running loglikelihood requests:  81%|████████████████████████████████████████████████████████████████████████████████████████████▌                      | 7651/9501 [00:03<00:00, 3265.00it/s]


Running loglikelihood requests:  84%|████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 7979/9501 [00:03<00:00, 3210.07it/s]


Running loglikelihood requests:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 8407/9501 [00:04<00:00, 2584.14it/s]


Running loglikelihood requests:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████        | 8847/9501 [00:04<00:00, 3001.01it/s]


Running loglikelihood requests:  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 9228/9501 [00:04<00:00, 3059.71it/s]


Running loglikelihood requests: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9501/9501 [00:04<00:00, 2111.49it/s]




  [OK] arc_easy



  0%|                                                                                                                                                               | 0/10042 [00:00<?, ?it/s]


  4%|█████▊                                                                                                                                             | 401/10042 [00:00<00:02, 4004.25it/s]


  8%|███████████▊                                                                                                                                       | 806/10042 [00:00<00:02, 4027.69it/s]


 12%|█████████████████▋                                                                                                                                | 1213/10042 [00:00<00:02, 4045.39it/s]


 16%|███████████████████████▌                                                                                                                          | 1619/10042 [00:00<00:02, 4048.33it/s]


 20%|█████████████████████████████▍                                                                                                                    | 2028/10042 [00:00<00:01, 4060.24it/s]


 24%|███████████████████████████████████▍                                                                                                              | 2439/10042 [00:00<00:01, 4074.45it/s]


 28%|█████████████████████████████████████████▍                                                                                                        | 2847/10042 [00:01<00:03, 1906.01it/s]


 32%|███████████████████████████████████████████████▍                                                                                                  | 3259/10042 [00:01<00:02, 2301.97it/s]


 37%|█████████████████████████████████████████████████████▎                                                                                            | 3666/10042 [00:01<00:02, 2661.51it/s]


 41%|███████████████████████████████████████████████████████████▎                                                                                      | 4076/10042 [00:01<00:01, 2985.39it/s]


 45%|█████████████████████████████████████████████████████████████████▎                                                                                | 4490/10042 [00:01<00:01, 3264.98it/s]


 49%|███████████████████████████████████████████████████████████████████████▎                                                                          | 4905/10042 [00:01<00:01, 3492.64it/s]


 53%|█████████████████████████████████████████████████████████████████████████████▎                                                                    | 5317/10042 [00:01<00:01, 3661.08it/s]


 57%|███████████████████████████████████████████████████████████████████████████████████▏                                                              | 5725/10042 [00:01<00:01, 3775.80it/s]


 61%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 6136/10042 [00:01<00:01, 3868.91it/s]


 65%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 6545/10042 [00:01<00:00, 3931.81it/s]


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 6956/10042 [00:02<00:00, 3983.68it/s]


 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7364/10042 [00:02<00:00, 3942.45it/s]


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 7765/10042 [00:02<00:00, 3934.69it/s]


 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 8163/10042 [00:02<00:00, 3919.26it/s]


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 8559/10042 [00:02<00:00, 3912.19it/s]


 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 8953/10042 [00:02<00:00, 3893.03it/s]


 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 9344/10042 [00:02<00:00, 3878.80it/s]


 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 9733/10042 [00:02<00:00, 3865.05it/s]


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10042/10042 [00:02<00:00, 3523.97it/s]





Running loglikelihood requests:   0%|                                                                                                                               | 0/40168 [00:00<?, ?it/s]


Running loglikelihood requests:   0%|                                                                                                                     | 1/40168 [00:00<2:24:45,  4.62it/s]


Running loglikelihood requests:   0%|▍                                                                                                                   | 130/40168 [00:00<01:24, 475.40it/s]


Running loglikelihood requests:   1%|▋                                                                                                                   | 259/40168 [00:00<00:56, 706.32it/s]


Running loglikelihood requests:   1%|█                                                                                                                   | 387/40168 [00:00<00:47, 841.40it/s]


Running loglikelihood requests:   1%|█▍                                                                                                                  | 515/40168 [00:00<00:42, 924.73it/s]


Running loglikelihood requests:   2%|█▊                                                                                                                  | 643/40168 [00:00<00:40, 980.17it/s]


Running loglikelihood requests:   2%|██▏                                                                                                                | 771/40168 [00:00<00:38, 1018.26it/s]


Running loglikelihood requests:   2%|██▌                                                                                                                | 899/40168 [00:01<00:37, 1046.67it/s]


Running loglikelihood requests:   3%|██▉                                                                                                               | 1027/40168 [00:01<00:36, 1070.26it/s]


Running loglikelihood requests:   3%|███▎                                                                                                              | 1155/40168 [00:01<00:35, 1084.92it/s]


Running loglikelihood requests:   3%|███▋                                                                                                              | 1283/40168 [00:01<00:35, 1098.29it/s]


Running loglikelihood requests:   4%|████                                                                                                              | 1411/40168 [00:01<00:34, 1108.12it/s]


Running loglikelihood requests:   4%|████▎                                                                                                             | 1539/40168 [00:01<00:34, 1118.13it/s]


Running loglikelihood requests:   4%|████▋                                                                                                             | 1667/40168 [00:01<00:34, 1117.54it/s]


Running loglikelihood requests:   4%|█████                                                                                                             | 1795/40168 [00:01<00:34, 1124.50it/s]


Running loglikelihood requests:   5%|█████▍                                                                                                            | 1923/40168 [00:01<00:33, 1129.90it/s]


Running loglikelihood requests:   5%|█████▊                                                                                                            | 2051/40168 [00:02<00:33, 1135.95it/s]


Running loglikelihood requests:   5%|██████▏                                                                                                           | 2179/40168 [00:02<00:33, 1135.68it/s]


Running loglikelihood requests:   6%|██████▌                                                                                                           | 2307/40168 [00:02<00:33, 1138.05it/s]


Running loglikelihood requests:   6%|██████▉                                                                                                           | 2435/40168 [00:02<00:33, 1140.18it/s]


Running loglikelihood requests:   6%|███████▎                                                                                                          | 2563/40168 [00:02<00:32, 1143.76it/s]


Running loglikelihood requests:   7%|███████▋                                                                                                          | 2691/40168 [00:02<00:32, 1143.02it/s]


Running loglikelihood requests:   7%|████████                                                                                                          | 2819/40168 [00:02<00:32, 1149.53it/s]


Running loglikelihood requests:   7%|████████▎                                                                                                         | 2947/40168 [00:02<00:32, 1156.46it/s]


Running loglikelihood requests:   8%|████████▋                                                                                                         | 3075/40168 [00:02<00:32, 1156.12it/s]


Running loglikelihood requests:   8%|█████████                                                                                                         | 3203/40168 [00:03<00:32, 1147.35it/s]


Running loglikelihood requests:   8%|█████████▍                                                                                                        | 3331/40168 [00:03<00:31, 1155.19it/s]


Running loglikelihood requests:   9%|█████████▊                                                                                                        | 3459/40168 [00:03<00:31, 1159.16it/s]


Running loglikelihood requests:   9%|██████████▏                                                                                                       | 3587/40168 [00:03<00:31, 1162.44it/s]


Running loglikelihood requests:   9%|██████████▌                                                                                                       | 3715/40168 [00:03<00:31, 1168.68it/s]


Running loglikelihood requests:  10%|██████████▉                                                                                                       | 3843/40168 [00:03<00:30, 1172.90it/s]


Running loglikelihood requests:  10%|███████████▎                                                                                                      | 3971/40168 [00:03<00:30, 1170.74it/s]


Running loglikelihood requests:  10%|███████████▋                                                                                                      | 4099/40168 [00:03<00:30, 1173.20it/s]


Running loglikelihood requests:  11%|███████████▉                                                                                                      | 4227/40168 [00:03<00:30, 1176.90it/s]


Running loglikelihood requests:  11%|████████████▎                                                                                                     | 4355/40168 [00:04<00:30, 1178.52it/s]


Running loglikelihood requests:  11%|████████████▋                                                                                                     | 4483/40168 [00:04<00:30, 1176.03it/s]


Running loglikelihood requests:  11%|█████████████                                                                                                     | 4611/40168 [00:04<00:30, 1183.80it/s]


Running loglikelihood requests:  12%|█████████████▍                                                                                                    | 4739/40168 [00:04<00:29, 1189.17it/s]


Running loglikelihood requests:  12%|█████████████▊                                                                                                    | 4867/40168 [00:04<00:29, 1192.53it/s]


Running loglikelihood requests:  12%|██████████████▏                                                                                                   | 4995/40168 [00:04<00:29, 1191.54it/s]


Running loglikelihood requests:  13%|██████████████▌                                                                                                   | 5123/40168 [00:04<00:29, 1195.81it/s]


Running loglikelihood requests:  13%|██████████████▉                                                                                                   | 5252/40168 [00:04<00:29, 1201.48it/s]


Running loglikelihood requests:  13%|███████████████▎                                                                                                  | 5380/40168 [00:04<00:28, 1200.29it/s]


Running loglikelihood requests:  14%|███████████████▋                                                                                                  | 5508/40168 [00:04<00:28, 1208.49it/s]


Running loglikelihood requests:  14%|███████████████▉                                                                                                  | 5636/40168 [00:05<00:28, 1211.71it/s]


Running loglikelihood requests:  14%|████████████████▎                                                                                                 | 5764/40168 [00:05<00:28, 1216.90it/s]


Running loglikelihood requests:  15%|████████████████▋                                                                                                 | 5892/40168 [00:05<00:28, 1221.05it/s]


Running loglikelihood requests:  15%|█████████████████                                                                                                 | 6020/40168 [00:05<00:27, 1219.68it/s]


Running loglikelihood requests:  15%|█████████████████▍                                                                                                | 6148/40168 [00:05<00:27, 1221.77it/s]


Running loglikelihood requests:  16%|█████████████████▊                                                                                                | 6276/40168 [00:05<00:27, 1224.58it/s]


Running loglikelihood requests:  16%|██████████████████▏                                                                                               | 6404/40168 [00:05<00:27, 1227.57it/s]


Running loglikelihood requests:  16%|██████████████████▌                                                                                               | 6532/40168 [00:05<00:27, 1222.99it/s]


Running loglikelihood requests:  17%|██████████████████▉                                                                                               | 6660/40168 [00:05<00:27, 1231.41it/s]


Running loglikelihood requests:  17%|███████████████████▎                                                                                              | 6789/40168 [00:06<00:26, 1239.92it/s]


Running loglikelihood requests:  17%|███████████████████▋                                                                                              | 6917/40168 [00:06<00:26, 1242.32it/s]


Running loglikelihood requests:  18%|███████████████████▉                                                                                              | 7045/40168 [00:06<00:26, 1240.72it/s]


Running loglikelihood requests:  18%|████████████████████▎                                                                                             | 7174/40168 [00:06<00:26, 1240.28it/s]


Running loglikelihood requests:  18%|████████████████████▋                                                                                             | 7302/40168 [00:06<00:26, 1243.36it/s]


Running loglikelihood requests:  18%|█████████████████████                                                                                             | 7430/40168 [00:06<00:26, 1245.07it/s]


Running loglikelihood requests:  19%|█████████████████████▍                                                                                            | 7558/40168 [00:06<00:26, 1247.25it/s]


Running loglikelihood requests:  19%|█████████████████████▊                                                                                            | 7686/40168 [00:06<00:26, 1247.28it/s]


Running loglikelihood requests:  19%|██████████████████████▏                                                                                           | 7814/40168 [00:06<00:25, 1249.39it/s]


Running loglikelihood requests:  20%|██████████████████████▌                                                                                           | 7942/40168 [00:06<00:25, 1252.03it/s]


Running loglikelihood requests:  20%|██████████████████████▉                                                                                           | 8070/40168 [00:07<00:25, 1254.47it/s]


Running loglikelihood requests:  20%|███████████████████████▎                                                                                          | 8198/40168 [00:07<00:25, 1256.48it/s]


Running loglikelihood requests:  21%|███████████████████████▋                                                                                          | 8326/40168 [00:07<00:25, 1254.21it/s]


Running loglikelihood requests:  21%|███████████████████████▉                                                                                          | 8454/40168 [00:07<00:25, 1255.32it/s]


Running loglikelihood requests:  21%|████████████████████████▎                                                                                         | 8582/40168 [00:07<00:25, 1258.04it/s]


Running loglikelihood requests:  22%|████████████████████████▋                                                                                         | 8710/40168 [00:07<00:24, 1258.62it/s]


Running loglikelihood requests:  22%|█████████████████████████                                                                                         | 8838/40168 [00:07<00:24, 1257.39it/s]


Running loglikelihood requests:  22%|█████████████████████████▍                                                                                        | 8967/40168 [00:07<00:24, 1264.00it/s]


Running loglikelihood requests:  23%|█████████████████████████▊                                                                                        | 9099/40168 [00:07<00:24, 1280.58it/s]


Running loglikelihood requests:  23%|██████████████████████████▏                                                                                       | 9233/40168 [00:07<00:23, 1298.00it/s]


Running loglikelihood requests:  23%|██████████████████████████▌                                                                                       | 9367/40168 [00:08<00:23, 1310.17it/s]


Running loglikelihood requests:  24%|██████████████████████████▉                                                                                       | 9500/40168 [00:08<00:23, 1315.98it/s]


Running loglikelihood requests:  24%|███████████████████████████▎                                                                                      | 9636/40168 [00:08<00:22, 1328.81it/s]


Running loglikelihood requests:  24%|███████████████████████████▋                                                                                      | 9771/40168 [00:08<00:22, 1334.88it/s]


Running loglikelihood requests:  25%|████████████████████████████                                                                                      | 9905/40168 [00:08<00:22, 1336.00it/s]


Running loglikelihood requests:  25%|████████████████████████████▏                                                                                    | 10040/40168 [00:08<00:22, 1339.99it/s]


Running loglikelihood requests:  25%|████████████████████████████▌                                                                                    | 10175/40168 [00:08<00:22, 1340.29it/s]


Running loglikelihood requests:  26%|█████████████████████████████                                                                                    | 10310/40168 [00:08<00:22, 1340.00it/s]


Running loglikelihood requests:  26%|█████████████████████████████▍                                                                                   | 10445/40168 [00:08<00:24, 1190.02it/s]


Running loglikelihood requests:  26%|█████████████████████████████▋                                                                                   | 10573/40168 [00:09<00:24, 1214.35it/s]


Running loglikelihood requests:  27%|██████████████████████████████                                                                                   | 10700/40168 [00:09<00:23, 1229.84it/s]


Running loglikelihood requests:  27%|██████████████████████████████▍                                                                                  | 10832/40168 [00:09<00:23, 1255.53it/s]


Running loglikelihood requests:  27%|██████████████████████████████▉                                                                                  | 10984/40168 [00:09<00:21, 1332.08it/s]


Running loglikelihood requests:  28%|███████████████████████████████▎                                                                                 | 11138/40168 [00:09<00:20, 1392.87it/s]


Running loglikelihood requests:  28%|███████████████████████████████▋                                                                                 | 11279/40168 [00:09<00:23, 1247.49it/s]


Running loglikelihood requests:  28%|████████████████████████████████▏                                                                                | 11424/40168 [00:09<00:22, 1302.53it/s]


Running loglikelihood requests:  29%|████████████████████████████████▌                                                                                | 11579/40168 [00:09<00:20, 1371.67it/s]


Running loglikelihood requests:  29%|████████████████████████████████▉                                                                                | 11725/40168 [00:09<00:22, 1259.12it/s]


Running loglikelihood requests:  30%|█████████████████████████████████▍                                                                               | 11895/40168 [00:10<00:20, 1377.55it/s]


Running loglikelihood requests:  30%|█████████████████████████████████▉                                                                               | 12045/40168 [00:10<00:22, 1274.39it/s]


Running loglikelihood requests:  30%|██████████████████████████████████▎                                                                              | 12204/40168 [00:10<00:20, 1357.49it/s]


Running loglikelihood requests:  31%|██████████████████████████████████▊                                                                              | 12365/40168 [00:10<00:21, 1286.51it/s]


Running loglikelihood requests:  31%|███████████████████████████████████▎                                                                             | 12537/40168 [00:10<00:19, 1399.15it/s]


Running loglikelihood requests:  32%|███████████████████████████████████▋                                                                             | 12686/40168 [00:10<00:21, 1287.73it/s]


Running loglikelihood requests:  32%|████████████████████████████████████▏                                                                            | 12850/40168 [00:10<00:19, 1379.12it/s]


Running loglikelihood requests:  32%|████████████████████████████████████▌                                                                            | 13006/40168 [00:10<00:20, 1295.48it/s]


Running loglikelihood requests:  33%|█████████████████████████████████████                                                                            | 13185/40168 [00:10<00:18, 1423.52it/s]


Running loglikelihood requests:  33%|█████████████████████████████████████▌                                                                           | 13333/40168 [00:11<00:20, 1308.07it/s]


Running loglikelihood requests:  34%|█████████████████████████████████████▉                                                                           | 13505/40168 [00:11<00:18, 1414.83it/s]


Running loglikelihood requests:  34%|██████████████████████████████████████▍                                                                          | 13652/40168 [00:11<00:20, 1301.31it/s]


Running loglikelihood requests:  34%|██████████████████████████████████████▉                                                                          | 13830/40168 [00:11<00:18, 1425.69it/s]


Running loglikelihood requests:  35%|███████████████████████████████████████▎                                                                         | 13978/40168 [00:11<00:19, 1310.41it/s]


Running loglikelihood requests:  35%|███████████████████████████████████████▊                                                                         | 14159/40168 [00:11<00:18, 1440.26it/s]


Running loglikelihood requests:  36%|████████████████████████████████████████▎                                                                        | 14309/40168 [00:11<00:19, 1332.46it/s]


Running loglikelihood requests:  36%|████████████████████████████████████████▋                                                                        | 14482/40168 [00:11<00:19, 1309.58it/s]


Running loglikelihood requests:  37%|█████████████████████████████████████████▎                                                                       | 14674/40168 [00:12<00:19, 1332.15it/s]


Running loglikelihood requests:  37%|█████████████████████████████████████████▊                                                                       | 14859/40168 [00:12<00:17, 1460.71it/s]


Running loglikelihood requests:  37%|██████████████████████████████████████████▏                                                                      | 15010/40168 [00:12<00:18, 1350.73it/s]


Running loglikelihood requests:  38%|██████████████████████████████████████████▋                                                                      | 15186/40168 [00:12<00:18, 1328.78it/s]


Running loglikelihood requests:  38%|███████████████████████████████████████████▎                                                                     | 15378/40168 [00:12<00:16, 1476.39it/s]


Running loglikelihood requests:  39%|███████████████████████████████████████████▋                                                                     | 15531/40168 [00:12<00:18, 1364.57it/s]


Running loglikelihood requests:  39%|████████████████████████████████████████████▏                                                                    | 15699/40168 [00:12<00:18, 1326.91it/s]


Running loglikelihood requests:  40%|████████████████████████████████████████████▋                                                                    | 15892/40168 [00:12<00:17, 1351.33it/s]


Running loglikelihood requests:  40%|█████████████████████████████████████████████▎                                                                   | 16085/40168 [00:13<00:17, 1368.18it/s]


Running loglikelihood requests:  41%|█████████████████████████████████████████████▊                                                                   | 16277/40168 [00:13<00:17, 1373.94it/s]


Running loglikelihood requests:  41%|██████████████████████████████████████████████▎                                                                  | 16469/40168 [00:13<00:17, 1381.16it/s]


Running loglikelihood requests:  41%|██████████████████████████████████████████████▊                                                                  | 16661/40168 [00:13<00:16, 1386.27it/s]


Running loglikelihood requests:  42%|███████████████████████████████████████████████▍                                                                 | 16853/40168 [00:13<00:16, 1391.05it/s]


Running loglikelihood requests:  42%|███████████████████████████████████████████████▉                                                                 | 17045/40168 [00:13<00:16, 1399.42it/s]


Running loglikelihood requests:  43%|████████████████████████████████████████████████▍                                                                | 17237/40168 [00:13<00:16, 1405.52it/s]


Running loglikelihood requests:  43%|█████████████████████████████████████████████████                                                                | 17429/40168 [00:14<00:16, 1409.43it/s]


Running loglikelihood requests:  44%|█████████████████████████████████████████████████▌                                                               | 17621/40168 [00:14<00:15, 1410.06it/s]


Running loglikelihood requests:  44%|██████████████████████████████████████████████████                                                               | 17813/40168 [00:14<00:15, 1415.03it/s]


Running loglikelihood requests:  45%|██████████████████████████████████████████████████▋                                                              | 18005/40168 [00:14<00:15, 1418.26it/s]


Running loglikelihood requests:  45%|███████████████████████████████████████████████████▏                                                             | 18197/40168 [00:14<00:15, 1420.40it/s]


Running loglikelihood requests:  46%|███████████████████████████████████████████████████▋                                                             | 18389/40168 [00:14<00:15, 1428.71it/s]


Running loglikelihood requests:  46%|████████████████████████████████████████████████████▎                                                            | 18581/40168 [00:14<00:15, 1433.56it/s]


Running loglikelihood requests:  47%|████████████████████████████████████████████████████▊                                                            | 18773/40168 [00:14<00:14, 1437.32it/s]


Running loglikelihood requests:  47%|█████████████████████████████████████████████████████▎                                                           | 18965/40168 [00:15<00:14, 1439.35it/s]


Running loglikelihood requests:  48%|█████████████████████████████████████████████████████▉                                                           | 19157/40168 [00:15<00:14, 1441.00it/s]


Running loglikelihood requests:  48%|██████████████████████████████████████████████████████▍                                                          | 19349/40168 [00:15<00:14, 1440.92it/s]


Running loglikelihood requests:  49%|██████████████████████████████████████████████████████▉                                                          | 19541/40168 [00:15<00:14, 1440.75it/s]


Running loglikelihood requests:  49%|███████████████████████████████████████████████████████▌                                                         | 19733/40168 [00:15<00:14, 1444.90it/s]


Running loglikelihood requests:  50%|████████████████████████████████████████████████████████                                                         | 19925/40168 [00:15<00:13, 1448.42it/s]


Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▌                                                        | 20117/40168 [00:15<00:13, 1450.17it/s]


Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▏                                                       | 20309/40168 [00:16<00:13, 1450.75it/s]


Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▋                                                       | 20501/40168 [00:16<00:13, 1455.64it/s]


Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▏                                                      | 20693/40168 [00:16<00:13, 1459.86it/s]


Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▊                                                      | 20885/40168 [00:16<00:13, 1467.28it/s]


Running loglikelihood requests:  52%|███████████████████████████████████████████████████████████▎                                                     | 21077/40168 [00:16<00:12, 1473.04it/s]


Running loglikelihood requests:  53%|███████████████████████████████████████████████████████████▊                                                     | 21269/40168 [00:16<00:12, 1474.02it/s]


Running loglikelihood requests:  53%|████████████████████████████████████████████████████████████▎                                                    | 21461/40168 [00:16<00:12, 1477.54it/s]


Running loglikelihood requests:  54%|████████████████████████████████████████████████████████████▉                                                    | 21653/40168 [00:16<00:12, 1484.48it/s]


Running loglikelihood requests:  54%|█████████████████████████████████████████████████████████████▍                                                   | 21845/40168 [00:17<00:12, 1498.64it/s]


Running loglikelihood requests:  55%|█████████████████████████████████████████████████████████████▉                                                   | 22038/40168 [00:17<00:12, 1510.37it/s]


Running loglikelihood requests:  55%|██████████████████████████████████████████████████████████████▌                                                  | 22230/40168 [00:17<00:11, 1513.21it/s]


Running loglikelihood requests:  56%|███████████████████████████████████████████████████████████████                                                  | 22422/40168 [00:17<00:11, 1519.13it/s]


Running loglikelihood requests:  56%|███████████████████████████████████████████████████████████████▌                                                 | 22614/40168 [00:17<00:11, 1524.03it/s]


Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████▏                                                | 22807/40168 [00:17<00:11, 1529.15it/s]


Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████▋                                                | 22999/40168 [00:17<00:11, 1536.23it/s]


Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████▏                                               | 23191/40168 [00:17<00:11, 1537.41it/s]


Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████▊                                               | 23384/40168 [00:18<00:10, 1544.33it/s]


Running loglikelihood requests:  59%|██████████████████████████████████████████████████████████████████▎                                              | 23576/40168 [00:18<00:10, 1539.83it/s]


Running loglikelihood requests:  59%|██████████████████████████████████████████████████████████████████▊                                              | 23768/40168 [00:18<00:10, 1550.48it/s]


Running loglikelihood requests:  60%|███████████████████████████████████████████████████████████████████▍                                             | 23960/40168 [00:18<00:10, 1556.74it/s]


Running loglikelihood requests:  60%|███████████████████████████████████████████████████████████████████▉                                             | 24152/40168 [00:18<00:10, 1555.75it/s]


Running loglikelihood requests:  61%|████████████████████████████████████████████████████████████████████▍                                            | 24344/40168 [00:18<00:10, 1562.61it/s]


Running loglikelihood requests:  61%|█████████████████████████████████████████████████████████████████████                                            | 24536/40168 [00:18<00:09, 1576.24it/s]


Running loglikelihood requests:  62%|█████████████████████████████████████████████████████████████████████▌                                           | 24728/40168 [00:18<00:09, 1583.24it/s]


Running loglikelihood requests:  62%|██████████████████████████████████████████████████████████████████████                                           | 24920/40168 [00:19<00:09, 1592.47it/s]


Running loglikelihood requests:  63%|██████████████████████████████████████████████████████████████████████▋                                          | 25112/40168 [00:19<00:09, 1587.99it/s]


Running loglikelihood requests:  63%|███████████████████████████████████████████████████████████████████████▏                                         | 25304/40168 [00:19<00:09, 1603.14it/s]


Running loglikelihood requests:  63%|███████████████████████████████████████████████████████████████████████▋                                         | 25496/40168 [00:19<00:09, 1602.58it/s]


Running loglikelihood requests:  64%|████████████████████████████████████████████████████████████████████████▎                                        | 25688/40168 [00:19<00:08, 1618.76it/s]


Running loglikelihood requests:  64%|████████████████████████████████████████████████████████████████████████▊                                        | 25880/40168 [00:19<00:08, 1637.15it/s]


Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████▎                                       | 26072/40168 [00:19<00:08, 1647.99it/s]


Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████▉                                       | 26264/40168 [00:19<00:08, 1651.77it/s]


Running loglikelihood requests:  66%|██████████████████████████████████████████████████████████████████████████▍                                      | 26456/40168 [00:19<00:08, 1666.66it/s]


Running loglikelihood requests:  66%|██████████████████████████████████████████████████████████████████████████▉                                      | 26648/40168 [00:20<00:08, 1674.68it/s]


Running loglikelihood requests:  67%|███████████████████████████████████████████████████████████████████████████▌                                     | 26840/40168 [00:20<00:07, 1693.45it/s]


Running loglikelihood requests:  67%|████████████████████████████████████████████████████████████████████████████                                     | 27032/40168 [00:20<00:07, 1703.15it/s]


Running loglikelihood requests:  68%|████████████████████████████████████████████████████████████████████████████▌                                    | 27224/40168 [00:20<00:07, 1725.18it/s]


Running loglikelihood requests:  68%|█████████████████████████████████████████████████████████████████████████████▏                                   | 27416/40168 [00:20<00:07, 1751.34it/s]


Running loglikelihood requests:  69%|█████████████████████████████████████████████████████████████████████████████▋                                   | 27608/40168 [00:20<00:07, 1777.46it/s]


Running loglikelihood requests:  69%|██████████████████████████████████████████████████████████████████████████████▏                                  | 27800/40168 [00:20<00:06, 1803.09it/s]


Running loglikelihood requests:  70%|██████████████████████████████████████████████████████████████████████████████▋                                  | 27992/40168 [00:20<00:06, 1813.67it/s]


Running loglikelihood requests:  70%|███████████████████████████████████████████████████████████████████████████████▎                                 | 28184/40168 [00:20<00:06, 1837.92it/s]


Running loglikelihood requests:  71%|███████████████████████████████████████████████████████████████████████████████▊                                 | 28376/40168 [00:21<00:06, 1856.21it/s]


Running loglikelihood requests:  71%|████████████████████████████████████████████████████████████████████████████████▎                                | 28568/40168 [00:21<00:06, 1870.21it/s]


Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████                                | 28794/40168 [00:21<00:05, 1984.43it/s]


Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████▋                               | 29016/40168 [00:21<00:05, 1919.17it/s]


Running loglikelihood requests:  73%|██████████████████████████████████████████████████████████████████████████████████▎                              | 29270/40168 [00:21<00:05, 2094.60it/s]


Running loglikelihood requests:  73%|██████████████████████████████████████████████████████████████████████████████████▉                              | 29482/40168 [00:21<00:05, 1984.64it/s]


Running loglikelihood requests:  74%|███████████████████████████████████████████████████████████████████████████████████▌                             | 29720/40168 [00:21<00:05, 1978.16it/s]


Running loglikelihood requests:  75%|████████████████████████████████████████████████████████████████████████████████████▎                            | 29976/40168 [00:21<00:05, 2008.00it/s]


Running loglikelihood requests:  75%|█████████████████████████████████████████████████████████████████████████████████████                            | 30232/40168 [00:21<00:04, 2035.78it/s]


Running loglikelihood requests:  76%|█████████████████████████████████████████████████████████████████████████████████████▊                           | 30488/40168 [00:22<00:04, 2063.79it/s]


Running loglikelihood requests:  77%|██████████████████████████████████████████████████████████████████████████████████████▍                          | 30744/40168 [00:22<00:04, 2111.62it/s]


Running loglikelihood requests:  77%|███████████████████████████████████████████████████████████████████████████████████████▏                         | 31000/40168 [00:22<00:04, 2148.95it/s]


Running loglikelihood requests:  78%|███████████████████████████████████████████████████████████████████████████████████████▉                         | 31256/40168 [00:22<00:04, 2175.94it/s]


Running loglikelihood requests:  78%|████████████████████████████████████████████████████████████████████████████████████████▋                        | 31512/40168 [00:22<00:03, 2200.97it/s]


Running loglikelihood requests:  79%|█████████████████████████████████████████████████████████████████████████████████████████▎                       | 31768/40168 [00:22<00:03, 2227.59it/s]


Running loglikelihood requests:  80%|██████████████████████████████████████████████████████████████████████████████████████████                       | 32024/40168 [00:22<00:03, 2255.36it/s]


Running loglikelihood requests:  80%|██████████████████████████████████████████████████████████████████████████████████████████▊                      | 32280/40168 [00:22<00:03, 2276.24it/s]


Running loglikelihood requests:  81%|███████████████████████████████████████████████████████████████████████████████████████████▌                     | 32536/40168 [00:22<00:03, 2296.61it/s]


Running loglikelihood requests:  82%|████████████████████████████████████████████████████████████████████████████████████████████▏                    | 32792/40168 [00:23<00:03, 2311.00it/s]


Running loglikelihood requests:  82%|████████████████████████████████████████████████████████████████████████████████████████████▉                    | 33048/40168 [00:23<00:03, 2329.87it/s]


Running loglikelihood requests:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▋                   | 33304/40168 [00:23<00:02, 2346.51it/s]


Running loglikelihood requests:  84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                  | 33560/40168 [00:23<00:02, 2362.24it/s]


Running loglikelihood requests:  84%|███████████████████████████████████████████████████████████████████████████████████████████████▏                 | 33816/40168 [00:23<00:02, 2399.47it/s]


Running loglikelihood requests:  85%|███████████████████████████████████████████████████████████████████████████████████████████████▊                 | 34072/40168 [00:23<00:02, 2423.84it/s]


Running loglikelihood requests:  85%|████████████████████████████████████████████████████████████████████████████████████████████████▌                | 34328/40168 [00:23<00:02, 2445.69it/s]


Running loglikelihood requests:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████▎               | 34584/40168 [00:23<00:02, 2466.85it/s]


Running loglikelihood requests:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 34840/40168 [00:23<00:02, 2486.01it/s]


Running loglikelihood requests:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████▋              | 35096/40168 [00:24<00:02, 2503.34it/s]


Running loglikelihood requests:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████▍             | 35352/40168 [00:24<00:01, 2511.40it/s]


Running loglikelihood requests:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 35635/40168 [00:24<00:01, 2605.38it/s]


Running loglikelihood requests:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████            | 35912/40168 [00:24<00:01, 2654.08it/s]


Running loglikelihood requests:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 36184/40168 [00:24<00:01, 2550.88it/s]


Running loglikelihood requests:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 36476/40168 [00:24<00:01, 2656.91it/s]


Running loglikelihood requests:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 36760/40168 [00:24<00:01, 2592.10it/s]


Running loglikelihood requests:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 37060/40168 [00:24<00:01, 2708.29it/s]


Running loglikelihood requests:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████        | 37336/40168 [00:24<00:01, 2625.40it/s]


Running loglikelihood requests:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 37656/40168 [00:24<00:00, 2660.89it/s]


Running loglikelihood requests:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 37976/40168 [00:25<00:00, 2686.79it/s]


Running loglikelihood requests:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 38296/40168 [00:25<00:00, 2718.32it/s]


Running loglikelihood requests:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 38616/40168 [00:25<00:00, 2744.43it/s]


Running loglikelihood requests:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 38936/40168 [00:25<00:00, 2765.29it/s]


Running loglikelihood requests:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 39256/40168 [00:25<00:00, 2785.83it/s]


Running loglikelihood requests:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 39576/40168 [00:25<00:00, 2823.79it/s]


Running loglikelihood requests:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 39896/40168 [00:25<00:00, 2861.35it/s]


Running loglikelihood requests: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40168/40168 [00:25<00:00, 1552.73it/s]




  [OK] hellaswag



  0%|                                                                                                                                                                | 0/5153 [00:00<?, ?it/s]


  1%|██▏                                                                                                                                                   | 75/5153 [00:00<00:06, 743.25it/s]


  3%|████▎                                                                                                                                                | 150/5153 [00:00<00:06, 743.19it/s]


  4%|██████▌                                                                                                                                              | 225/5153 [00:00<00:06, 744.83it/s]


  6%|████████▋                                                                                                                                            | 300/5153 [00:00<00:06, 745.72it/s]


  7%|██████████▊                                                                                                                                          | 376/5153 [00:00<00:06, 748.75it/s]


  9%|█████████████                                                                                                                                        | 452/5153 [00:00<00:06, 750.46it/s]


 10%|███████████████▎                                                                                                                                     | 528/5153 [00:00<00:06, 752.30it/s]


 12%|█████████████████▍                                                                                                                                   | 605/5153 [00:00<00:06, 755.62it/s]


 13%|███████████████████▋                                                                                                                                 | 681/5153 [00:00<00:05, 752.15it/s]


 15%|█████████████████████▉                                                                                                                               | 758/5153 [00:01<00:05, 755.64it/s]


 16%|████████████████████████▏                                                                                                                            | 835/5153 [00:01<00:05, 759.09it/s]


 18%|██████████████████████████▎                                                                                                                          | 911/5153 [00:01<00:05, 759.00it/s]


 19%|████████████████████████████▌                                                                                                                        | 988/5153 [00:01<00:05, 759.49it/s]


 21%|██████████████████████████████▌                                                                                                                     | 1065/5153 [00:01<00:05, 760.25it/s]


 22%|████████████████████████████████▊                                                                                                                   | 1142/5153 [00:01<00:05, 760.30it/s]


 24%|███████████████████████████████████                                                                                                                 | 1219/5153 [00:01<00:05, 757.56it/s]


 25%|█████████████████████████████████████▏                                                                                                              | 1295/5153 [00:01<00:05, 758.11it/s]


 27%|███████████████████████████████████████▍                                                                                                            | 1372/5153 [00:01<00:04, 760.12it/s]


 28%|█████████████████████████████████████████▌                                                                                                          | 1449/5153 [00:01<00:04, 761.86it/s]


 30%|███████████████████████████████████████████▊                                                                                                        | 1526/5153 [00:02<00:04, 762.10it/s]


 31%|██████████████████████████████████████████████                                                                                                      | 1603/5153 [00:02<00:04, 762.24it/s]


 33%|████████████████████████████████████████████████▎                                                                                                   | 1680/5153 [00:02<00:04, 762.60it/s]


 34%|██████████████████████████████████████████████████▍                                                                                                 | 1757/5153 [00:02<00:04, 763.61it/s]


 36%|████████████████████████████████████████████████████▋                                                                                               | 1834/5153 [00:02<00:04, 765.16it/s]


 37%|██████████████████████████████████████████████████████▉                                                                                             | 1911/5153 [00:02<00:04, 765.63it/s]


 39%|█████████████████████████████████████████████████████████                                                                                           | 1988/5153 [00:02<00:04, 765.57it/s]


 40%|███████████████████████████████████████████████████████████▎                                                                                        | 2065/5153 [00:02<00:04, 621.11it/s]


 41%|█████████████████████████████████████████████████████████████▏                                                                                      | 2132/5153 [00:03<00:06, 471.40it/s]


 42%|██████████████████████████████████████████████████████████████▊                                                                                     | 2188/5153 [00:03<00:07, 419.77it/s]


 43%|████████████████████████████████████████████████████████████████▏                                                                                   | 2237/5153 [00:03<00:07, 383.93it/s]


 44%|█████████████████████████████████████████████████████████████████▋                                                                                  | 2285/5153 [00:03<00:07, 403.12it/s]


 45%|███████████████████████████████████████████████████████████████████                                                                                 | 2333/5153 [00:03<00:06, 420.60it/s]


 46%|████████████████████████████████████████████████████████████████████▋                                                                               | 2392/5153 [00:03<00:05, 462.14it/s]


 47%|██████████████████████████████████████████████████████████████████████▏                                                                             | 2442/5153 [00:03<00:05, 466.42it/s]


 49%|███████████████████████████████████████████████████████████████████████▊                                                                            | 2502/5153 [00:03<00:05, 501.76it/s]


 50%|██████████████████████████████████████████████████████████████████████████                                                                          | 2577/5153 [00:03<00:04, 570.51it/s]


 51%|████████████████████████████████████████████████████████████████████████████                                                                        | 2648/5153 [00:04<00:04, 608.22it/s]


 53%|█████████████████████████████████████████████████████████████████████████████▊                                                                      | 2711/5153 [00:04<00:04, 603.71it/s]


 54%|████████████████████████████████████████████████████████████████████████████████                                                                    | 2787/5153 [00:04<00:03, 646.93it/s]


 56%|██████████████████████████████████████████████████████████████████████████████████▏                                                                 | 2863/5153 [00:04<00:03, 678.12it/s]


 57%|████████████████████████████████████████████████████████████████████████████████████▍                                                               | 2939/5153 [00:04<00:03, 700.47it/s]


 59%|██████████████████████████████████████████████████████████████████████████████████████▌                                                             | 3015/5153 [00:04<00:02, 717.22it/s]


 60%|████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 3091/5153 [00:04<00:02, 728.93it/s]


 61%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 3168/5153 [00:04<00:02, 738.49it/s]


 63%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 3243/5153 [00:04<00:02, 741.65it/s]


 64%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 3319/5153 [00:04<00:02, 746.36it/s]


 66%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 3395/5153 [00:05<00:02, 750.42it/s]


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 3472/5153 [00:05<00:02, 754.22it/s]


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 3548/5153 [00:05<00:02, 755.50it/s]


 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 3625/5153 [00:05<00:02, 757.26it/s]


 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 3701/5153 [00:05<00:01, 756.90it/s]


 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 3777/5153 [00:05<00:01, 757.81it/s]


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 3854/5153 [00:05<00:01, 758.67it/s]


 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 3931/5153 [00:05<00:01, 759.49it/s]


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 4007/5153 [00:05<00:01, 758.22it/s]


 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 4084/5153 [00:06<00:01, 759.90it/s]


 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 4160/5153 [00:06<00:01, 759.31it/s]


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 4237/5153 [00:06<00:01, 760.46it/s]


 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 4314/5153 [00:06<00:01, 761.41it/s]


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 4391/5153 [00:06<00:00, 762.41it/s]


 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 4468/5153 [00:06<00:00, 763.37it/s]


 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 4545/5153 [00:06<00:00, 764.74it/s]


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 4622/5153 [00:06<00:00, 762.78it/s]


 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 4699/5153 [00:06<00:00, 764.40it/s]


 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 4776/5153 [00:06<00:00, 763.37it/s]


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 4853/5153 [00:07<00:00, 764.18it/s]


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 4930/5153 [00:07<00:00, 761.68it/s]


 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 5007/5153 [00:07<00:00, 762.47it/s]


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 5084/5153 [00:07<00:00, 761.59it/s]


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5153/5153 [00:07<00:00, 696.22it/s]





Running loglikelihood requests:   0%|                                                                                                                                | 0/5153 [00:00<?, ?it/s]


Running loglikelihood requests:   0%|                                                                                                                        | 1/5153 [00:00<08:44,  9.82it/s]


Running loglikelihood requests:   3%|██▉                                                                                                                  | 129/5153 [00:00<00:06, 724.86it/s]


Running loglikelihood requests:   5%|██████▏                                                                                                             | 273/5153 [00:00<00:04, 1043.66it/s]


Running loglikelihood requests:   9%|██████████▏                                                                                                         | 450/5153 [00:00<00:04, 1152.40it/s]


Running loglikelihood requests:  12%|██████████████▍                                                                                                     | 642/5153 [00:00<00:03, 1254.28it/s]


Running loglikelihood requests:  16%|██████████████████▊                                                                                                 | 834/5153 [00:00<00:03, 1325.83it/s]


Running loglikelihood requests:  20%|██████████████████████▉                                                                                            | 1026/5153 [00:00<00:02, 1378.47it/s]


Running loglikelihood requests:  24%|███████████████████████████▏                                                                                       | 1218/5153 [00:00<00:02, 1420.59it/s]


Running loglikelihood requests:  27%|███████████████████████████████▍                                                                                   | 1410/5153 [00:01<00:02, 1457.39it/s]


Running loglikelihood requests:  31%|███████████████████████████████████▊                                                                               | 1602/5153 [00:01<00:02, 1487.80it/s]


Running loglikelihood requests:  35%|████████████████████████████████████████                                                                           | 1794/5153 [00:01<00:02, 1516.57it/s]


Running loglikelihood requests:  39%|████████████████████████████████████████████▎                                                                      | 1986/5153 [00:01<00:02, 1539.74it/s]


Running loglikelihood requests:  42%|████████████████████████████████████████████████▌                                                                  | 2178/5153 [00:01<00:01, 1564.39it/s]


Running loglikelihood requests:  46%|████████████████████████████████████████████████████▉                                                              | 2370/5153 [00:01<00:01, 1589.06it/s]


Running loglikelihood requests:  50%|█████████████████████████████████████████████████████████▏                                                         | 2562/5153 [00:01<00:01, 1604.02it/s]


Running loglikelihood requests:  53%|█████████████████████████████████████████████████████████████▍                                                     | 2754/5153 [00:01<00:01, 1621.17it/s]


Running loglikelihood requests:  57%|█████████████████████████████████████████████████████████████████▋                                                 | 2946/5153 [00:02<00:01, 1643.82it/s]


Running loglikelihood requests:  61%|██████████████████████████████████████████████████████████████████████                                             | 3139/5153 [00:02<00:01, 1661.72it/s]


Running loglikelihood requests:  65%|██████████████████████████████████████████████████████████████████████████▎                                        | 3331/5153 [00:02<00:01, 1681.98it/s]


Running loglikelihood requests:  68%|██████████████████████████████████████████████████████████████████████████████▌                                    | 3523/5153 [00:02<00:00, 1698.65it/s]


Running loglikelihood requests:  72%|██████████████████████████████████████████████████████████████████████████████████▉                                | 3715/5153 [00:02<00:00, 1712.66it/s]


Running loglikelihood requests:  76%|███████████████████████████████████████████████████████████████████████████████████████▏                           | 3907/5153 [00:02<00:00, 1735.46it/s]


Running loglikelihood requests:  80%|███████████████████████████████████████████████████████████████████████████████████████████▍                       | 4099/5153 [00:02<00:00, 1760.07it/s]


Running loglikelihood requests:  83%|███████████████████████████████████████████████████████████████████████████████████████████████▊                   | 4291/5153 [00:02<00:00, 1787.33it/s]


Running loglikelihood requests:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████               | 4483/5153 [00:02<00:00, 1810.66it/s]


Running loglikelihood requests:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 4675/5153 [00:03<00:00, 1825.21it/s]


Running loglikelihood requests:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 4867/5153 [00:03<00:00, 1849.23it/s]


Running loglikelihood requests:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 5061/5153 [00:03<00:00, 1875.57it/s]


Running loglikelihood requests: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5153/5153 [00:03<00:00, 1591.60it/s]




bootstrapping for stddev: perplexity



  0%|                                                                                                                                                                 | 0/100 [00:00<?, ?it/s]


  1%|█▌                                                                                                                                                       | 1/100 [00:00<01:06,  1.48it/s]


 11%|████████████████▋                                                                                                                                       | 11/100 [00:00<00:06, 14.19it/s]


 53%|████████████████████████████████████████████████████████████████████████████████▌                                                                       | 53/100 [00:01<00:00, 58.99it/s]


 62%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 62/100 [00:01<00:00, 63.29it/s]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:01<00:00, 70.27it/s]




  [OK] lambada_openai



  0%|                                                                                                                                                                | 0/5153 [00:00<?, ?it/s]


  1%|██▏                                                                                                                                                   | 77/5153 [00:00<00:06, 762.08it/s]


  3%|████▍                                                                                                                                                | 154/5153 [00:00<00:06, 759.31it/s]


  4%|██████▋                                                                                                                                              | 230/5153 [00:00<00:06, 759.61it/s]


  6%|████████▉                                                                                                                                            | 307/5153 [00:00<00:06, 760.33it/s]


  7%|███████████                                                                                                                                          | 384/5153 [00:00<00:06, 761.83it/s]


  9%|█████████████▎                                                                                                                                       | 461/5153 [00:00<00:06, 760.57it/s]


 10%|███████████████▌                                                                                                                                     | 538/5153 [00:00<00:06, 760.21it/s]


 12%|█████████████████▊                                                                                                                                   | 615/5153 [00:00<00:05, 759.88it/s]


 13%|████████████████████                                                                                                                                 | 692/5153 [00:00<00:05, 759.70it/s]


 15%|██████████████████████▏                                                                                                                              | 768/5153 [00:01<00:05, 759.66it/s]


 16%|████████████████████████▍                                                                                                                            | 845/5153 [00:01<00:05, 761.07it/s]


 18%|██████████████████████████▋                                                                                                                          | 922/5153 [00:01<00:05, 762.59it/s]


 19%|████████████████████████████▉                                                                                                                        | 999/5153 [00:01<00:05, 761.39it/s]


 21%|██████████████████████████████▉                                                                                                                     | 1076/5153 [00:01<00:05, 760.79it/s]


 22%|█████████████████████████████████                                                                                                                   | 1153/5153 [00:01<00:05, 761.47it/s]


 24%|███████████████████████████████████▎                                                                                                                | 1230/5153 [00:01<00:05, 760.39it/s]


 25%|█████████████████████████████████████▌                                                                                                              | 1307/5153 [00:01<00:05, 760.32it/s]


 27%|███████████████████████████████████████▊                                                                                                            | 1384/5153 [00:01<00:04, 761.96it/s]


 28%|█████████████████████████████████████████▉                                                                                                          | 1461/5153 [00:01<00:04, 762.68it/s]


 30%|████████████████████████████████████████████▏                                                                                                       | 1538/5153 [00:02<00:04, 762.46it/s]


 31%|██████████████████████████████████████████████▍                                                                                                     | 1615/5153 [00:02<00:04, 762.54it/s]


 33%|████████████████████████████████████████████████▌                                                                                                   | 1692/5153 [00:02<00:04, 761.93it/s]


 34%|██████████████████████████████████████████████████▊                                                                                                 | 1769/5153 [00:02<00:04, 761.97it/s]


 36%|█████████████████████████████████████████████████████                                                                                               | 1846/5153 [00:02<00:04, 761.40it/s]


 37%|███████████████████████████████████████████████████████▏                                                                                            | 1923/5153 [00:02<00:04, 762.01it/s]


 39%|█████████████████████████████████████████████████████████▍                                                                                          | 2000/5153 [00:02<00:04, 761.63it/s]


 40%|███████████████████████████████████████████████████████████▋                                                                                        | 2077/5153 [00:02<00:04, 760.43it/s]


 42%|█████████████████████████████████████████████████████████████▊                                                                                      | 2154/5153 [00:02<00:03, 758.23it/s]


 43%|████████████████████████████████████████████████████████████████                                                                                    | 2230/5153 [00:02<00:03, 757.79it/s]


 45%|██████████████████████████████████████████████████████████████████▎                                                                                 | 2307/5153 [00:03<00:03, 758.53it/s]


 46%|████████████████████████████████████████████████████████████████████▍                                                                               | 2383/5153 [00:03<00:03, 758.35it/s]


 48%|██████████████████████████████████████████████████████████████████████▋                                                                             | 2459/5153 [00:03<00:03, 758.32it/s]


 49%|████████████████████████████████████████████████████████████████████████▊                                                                           | 2535/5153 [00:03<00:03, 758.69it/s]


 51%|██████████████████████████████████████████████████████████████████████████▉                                                                         | 2611/5153 [00:03<00:03, 757.18it/s]


 52%|█████████████████████████████████████████████████████████████████████████████▏                                                                      | 2687/5153 [00:03<00:03, 757.95it/s]


 54%|███████████████████████████████████████████████████████████████████████████████▍                                                                    | 2764/5153 [00:03<00:03, 758.65it/s]


 55%|█████████████████████████████████████████████████████████████████████████████████▌                                                                  | 2841/5153 [00:03<00:03, 759.22it/s]


 57%|███████████████████████████████████████████████████████████████████████████████████▊                                                                | 2918/5153 [00:03<00:02, 759.60it/s]


 58%|█████████████████████████████████████████████████████████████████████████████████████▉                                                              | 2994/5153 [00:03<00:02, 757.73it/s]


 60%|████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 3070/5153 [00:04<00:02, 757.23it/s]


 61%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 3146/5153 [00:04<00:02, 757.46it/s]


 63%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 3222/5153 [00:04<00:02, 756.83it/s]


 64%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 3298/5153 [00:04<00:02, 753.70it/s]


 65%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 3374/5153 [00:04<00:02, 753.07it/s]


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 3450/5153 [00:04<00:02, 752.33it/s]


 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 3526/5153 [00:04<00:02, 754.16it/s]


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 3602/5153 [00:04<00:02, 755.26it/s]


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 3678/5153 [00:04<00:01, 755.69it/s]


 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 3754/5153 [00:04<00:01, 756.74it/s]


 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 3830/5153 [00:05<00:01, 757.55it/s]


 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 3906/5153 [00:05<00:01, 757.68it/s]


 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 3982/5153 [00:05<00:01, 758.33it/s]


 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 4059/5153 [00:05<00:01, 759.37it/s]


 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 4136/5153 [00:05<00:01, 759.82it/s]


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 4213/5153 [00:05<00:01, 761.63it/s]


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 4290/5153 [00:05<00:01, 761.80it/s]


 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 4367/5153 [00:05<00:01, 762.63it/s]


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 4444/5153 [00:05<00:00, 763.11it/s]


 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 4521/5153 [00:05<00:00, 763.01it/s]


 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 4598/5153 [00:06<00:00, 761.84it/s]


 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 4675/5153 [00:06<00:00, 758.39it/s]


 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 4751/5153 [00:06<00:00, 754.06it/s]


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4827/5153 [00:06<00:00, 753.42it/s]


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4903/5153 [00:06<00:00, 753.74it/s]


 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 4979/5153 [00:06<00:00, 755.14it/s]


 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 5055/5153 [00:06<00:00, 756.31it/s]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 5132/5153 [00:06<00:00, 758.21it/s]


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5153/5153 [00:06<00:00, 758.91it/s]





  0%|                                                                                                                                                               | 0/10042 [00:00<?, ?it/s]


  4%|█████▊                                                                                                                                             | 396/10042 [00:00<00:02, 3955.66it/s]


  8%|███████████▋                                                                                                                                       | 799/10042 [00:00<00:02, 3999.21it/s]


 12%|█████████████████▌                                                                                                                                | 1207/10042 [00:00<00:02, 4032.49it/s]


 16%|███████████████████████▍                                                                                                                          | 1612/10042 [00:00<00:02, 4038.47it/s]


 20%|█████████████████████████████▎                                                                                                                    | 2017/10042 [00:00<00:01, 4040.95it/s]


 24%|███████████████████████████████████▏                                                                                                              | 2422/10042 [00:00<00:01, 4033.64it/s]


 28%|█████████████████████████████████████████                                                                                                         | 2826/10042 [00:00<00:01, 4024.00it/s]


 32%|██████████████████████████████████████████████▉                                                                                                   | 3231/10042 [00:00<00:01, 4030.48it/s]


 36%|████████████████████████████████████████████████████▊                                                                                             | 3635/10042 [00:00<00:01, 4026.72it/s]


 40%|██████████████████████████████████████████████████████████▋                                                                                       | 4038/10042 [00:01<00:01, 4014.43it/s]


 44%|████████████████████████████████████████████████████████████████▌                                                                                 | 4440/10042 [00:01<00:01, 4010.66it/s]


 48%|██████████████████████████████████████████████████████████████████████▍                                                                           | 4842/10042 [00:01<00:01, 4010.65it/s]


 52%|████████████████████████████████████████████████████████████████████████████▎                                                                     | 5246/10042 [00:01<00:01, 4016.81it/s]


 56%|██████████████████████████████████████████████████████████████████████████████████                                                                | 5648/10042 [00:01<00:01, 4004.41it/s]


 60%|███████████████████████████████████████████████████████████████████████████████████████▉                                                          | 6050/10042 [00:01<00:00, 4008.93it/s]


 64%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 6452/10042 [00:01<00:00, 4011.72it/s]


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 6859/10042 [00:01<00:00, 4026.24it/s]


 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7262/10042 [00:01<00:00, 4023.18it/s]


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 7671/10042 [00:01<00:00, 4039.80it/s]


 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 8077/10042 [00:02<00:00, 4045.61it/s]


 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 8484/10042 [00:02<00:00, 4051.87it/s]


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 8890/10042 [00:02<00:00, 4039.19it/s]


 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 9294/10042 [00:02<00:00, 4027.43it/s]


 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 9697/10042 [00:02<00:00, 1914.65it/s]


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10042/10042 [00:02<00:00, 3502.68it/s]





  0%|                                                                                                                                                                | 0/2376 [00:00<?, ?it/s]


  7%|██████████                                                                                                                                          | 162/2376 [00:00<00:01, 1617.33it/s]


 14%|████████████████████▏                                                                                                                               | 324/2376 [00:00<00:01, 1613.39it/s]


 20%|██████████████████████████████▎                                                                                                                     | 487/2376 [00:00<00:01, 1617.87it/s]


 27%|████████████████████████████████████████▍                                                                                                           | 649/2376 [00:00<00:01, 1610.44it/s]


 34%|██████████████████████████████████████████████████▌                                                                                                 | 811/2376 [00:00<00:00, 1612.53it/s]


 41%|████████████████████████████████████████████████████████████▋                                                                                       | 974/2376 [00:00<00:00, 1617.69it/s]


 48%|██████████████████████████████████████████████████████████████████████▎                                                                            | 1137/2376 [00:00<00:00, 1619.05it/s]


 55%|████████████████████████████████████████████████████████████████████████████████▍                                                                  | 1301/2376 [00:00<00:00, 1623.10it/s]


 62%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 1464/2376 [00:00<00:00, 1624.67it/s]


 69%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 1628/2376 [00:01<00:00, 1627.37it/s]


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 1792/2376 [00:01<00:00, 1630.31it/s]


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 1957/2376 [00:01<00:00, 1633.57it/s]


 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 2121/2376 [00:01<00:00, 1631.51it/s]


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 2285/2376 [00:01<00:00, 1631.51it/s]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2376/2376 [00:01<00:00, 1624.16it/s]





Running loglikelihood requests:   0%|                                                                                                                               | 0/54822 [00:00<?, ?it/s]


Running loglikelihood requests:   0%|                                                                                                                     | 1/54822 [00:00<4:20:23,  3.51it/s]


Running loglikelihood requests:   0%|▎                                                                                                                   | 130/54822 [00:00<02:15, 404.25it/s]


Running loglikelihood requests:   0%|▌                                                                                                                   | 259/54822 [00:00<01:25, 641.45it/s]


Running loglikelihood requests:   1%|▊                                                                                                                   | 387/54822 [00:00<01:09, 787.20it/s]


Running loglikelihood requests:   1%|█                                                                                                                   | 515/54822 [00:00<01:01, 886.25it/s]


Running loglikelihood requests:   1%|█▎                                                                                                                  | 643/54822 [00:00<00:56, 955.10it/s]


Running loglikelihood requests:   1%|█▌                                                                                                                 | 773/54822 [00:00<00:53, 1003.20it/s]


Running loglikelihood requests:   2%|█▉                                                                                                                 | 901/54822 [00:01<00:52, 1035.57it/s]


Running loglikelihood requests:   2%|██▏                                                                                                               | 1029/54822 [00:01<00:50, 1063.53it/s]


Running loglikelihood requests:   2%|██▍                                                                                                               | 1157/54822 [00:01<00:49, 1083.06it/s]


Running loglikelihood requests:   2%|██▋                                                                                                               | 1285/54822 [00:01<00:48, 1098.02it/s]


Running loglikelihood requests:   3%|██▉                                                                                                               | 1413/54822 [00:01<00:48, 1108.46it/s]


Running loglikelihood requests:   3%|███▏                                                                                                              | 1541/54822 [00:01<00:47, 1116.19it/s]


Running loglikelihood requests:   3%|███▍                                                                                                              | 1669/54822 [00:01<00:47, 1118.96it/s]


Running loglikelihood requests:   3%|███▋                                                                                                              | 1797/54822 [00:01<00:47, 1123.21it/s]


Running loglikelihood requests:   4%|████                                                                                                              | 1925/54822 [00:02<00:46, 1130.58it/s]


Running loglikelihood requests:   4%|████▎                                                                                                             | 2053/54822 [00:02<00:46, 1134.32it/s]


Running loglikelihood requests:   4%|████▌                                                                                                             | 2181/54822 [00:02<00:46, 1135.38it/s]


Running loglikelihood requests:   4%|████▊                                                                                                             | 2309/54822 [00:02<00:46, 1134.00it/s]


Running loglikelihood requests:   4%|█████                                                                                                             | 2437/54822 [00:02<00:46, 1136.88it/s]


Running loglikelihood requests:   5%|█████▎                                                                                                            | 2565/54822 [00:02<00:46, 1133.70it/s]


Running loglikelihood requests:   5%|█████▌                                                                                                            | 2693/54822 [00:02<00:45, 1137.00it/s]


Running loglikelihood requests:   5%|█████▊                                                                                                            | 2821/54822 [00:02<00:45, 1138.62it/s]


Running loglikelihood requests:   5%|██████▏                                                                                                           | 2949/54822 [00:02<00:45, 1148.27it/s]


Running loglikelihood requests:   6%|██████▍                                                                                                           | 3077/54822 [00:03<00:44, 1151.43it/s]


Running loglikelihood requests:   6%|██████▋                                                                                                           | 3205/54822 [00:03<00:44, 1154.04it/s]


Running loglikelihood requests:   6%|██████▉                                                                                                           | 3333/54822 [00:03<00:44, 1158.41it/s]


Running loglikelihood requests:   6%|███████▏                                                                                                          | 3461/54822 [00:03<00:44, 1160.97it/s]


Running loglikelihood requests:   7%|███████▍                                                                                                          | 3589/54822 [00:03<00:44, 1160.05it/s]


Running loglikelihood requests:   7%|███████▋                                                                                                          | 3717/54822 [00:03<00:43, 1168.92it/s]


Running loglikelihood requests:   7%|███████▉                                                                                                          | 3845/54822 [00:03<00:43, 1172.72it/s]


Running loglikelihood requests:   7%|████████▎                                                                                                         | 3973/54822 [00:03<00:43, 1175.67it/s]


Running loglikelihood requests:   7%|████████▌                                                                                                         | 4101/54822 [00:03<00:43, 1175.35it/s]


Running loglikelihood requests:   8%|████████▊                                                                                                         | 4229/54822 [00:03<00:42, 1178.38it/s]


Running loglikelihood requests:   8%|█████████                                                                                                         | 4357/54822 [00:04<00:42, 1181.25it/s]


Running loglikelihood requests:   8%|█████████▎                                                                                                        | 4485/54822 [00:04<00:42, 1182.11it/s]


Running loglikelihood requests:   8%|█████████▌                                                                                                        | 4613/54822 [00:04<00:42, 1187.70it/s]


Running loglikelihood requests:   9%|█████████▊                                                                                                        | 4741/54822 [00:04<00:41, 1192.45it/s]


Running loglikelihood requests:   9%|██████████                                                                                                        | 4869/54822 [00:04<00:41, 1194.54it/s]


Running loglikelihood requests:   9%|██████████▍                                                                                                       | 4997/54822 [00:04<00:41, 1194.10it/s]


Running loglikelihood requests:   9%|██████████▋                                                                                                       | 5125/54822 [00:04<00:41, 1197.44it/s]


Running loglikelihood requests:  10%|██████████▉                                                                                                       | 5253/54822 [00:04<00:41, 1199.09it/s]


Running loglikelihood requests:  10%|███████████▏                                                                                                      | 5382/54822 [00:04<00:41, 1201.94it/s]


Running loglikelihood requests:  10%|███████████▍                                                                                                      | 5510/54822 [00:05<00:41, 1200.48it/s]


Running loglikelihood requests:  10%|███████████▋                                                                                                      | 5638/54822 [00:05<00:40, 1208.99it/s]


Running loglikelihood requests:  11%|███████████▉                                                                                                      | 5766/54822 [00:05<00:40, 1215.10it/s]


Running loglikelihood requests:  11%|████████████▎                                                                                                     | 5894/54822 [00:05<00:40, 1216.85it/s]


Running loglikelihood requests:  11%|████████████▌                                                                                                     | 6022/54822 [00:05<00:40, 1219.94it/s]


Running loglikelihood requests:  11%|████████████▊                                                                                                     | 6150/54822 [00:05<00:39, 1223.33it/s]


Running loglikelihood requests:  11%|█████████████                                                                                                     | 6278/54822 [00:05<00:39, 1225.38it/s]


Running loglikelihood requests:  12%|█████████████▎                                                                                                    | 6406/54822 [00:05<00:39, 1227.17it/s]


Running loglikelihood requests:  12%|█████████████▌                                                                                                    | 6534/54822 [00:05<00:39, 1228.30it/s]


Running loglikelihood requests:  12%|█████████████▊                                                                                                    | 6662/54822 [00:06<00:39, 1230.67it/s]


Running loglikelihood requests:  12%|██████████████                                                                                                    | 6790/54822 [00:06<00:38, 1236.32it/s]


Running loglikelihood requests:  13%|██████████████▍                                                                                                   | 6918/54822 [00:06<00:38, 1238.74it/s]


Running loglikelihood requests:  13%|██████████████▋                                                                                                   | 7047/54822 [00:06<00:38, 1244.63it/s]


Running loglikelihood requests:  13%|██████████████▉                                                                                                   | 7175/54822 [00:06<00:38, 1244.33it/s]


Running loglikelihood requests:  13%|███████████████▏                                                                                                  | 7303/54822 [00:06<00:38, 1247.10it/s]


Running loglikelihood requests:  14%|███████████████▍                                                                                                  | 7432/54822 [00:06<00:37, 1250.12it/s]


Running loglikelihood requests:  14%|███████████████▋                                                                                                  | 7560/54822 [00:06<00:37, 1250.50it/s]


Running loglikelihood requests:  14%|███████████████▉                                                                                                  | 7688/54822 [00:06<00:37, 1249.39it/s]


Running loglikelihood requests:  14%|████████████████▎                                                                                                 | 7816/54822 [00:06<00:37, 1245.20it/s]


Running loglikelihood requests:  14%|████████████████▌                                                                                                 | 7944/54822 [00:07<00:37, 1248.33it/s]


Running loglikelihood requests:  15%|████████████████▊                                                                                                 | 8072/54822 [00:07<00:37, 1251.97it/s]


Running loglikelihood requests:  15%|█████████████████                                                                                                 | 8200/54822 [00:07<00:37, 1253.92it/s]


Running loglikelihood requests:  15%|█████████████████▎                                                                                                | 8328/54822 [00:07<00:37, 1255.81it/s]


Running loglikelihood requests:  15%|█████████████████▌                                                                                                | 8456/54822 [00:07<00:36, 1255.74it/s]


Running loglikelihood requests:  16%|█████████████████▊                                                                                                | 8584/54822 [00:07<00:36, 1256.55it/s]


Running loglikelihood requests:  16%|██████████████████                                                                                                | 8712/54822 [00:07<00:36, 1257.18it/s]


Running loglikelihood requests:  16%|██████████████████▍                                                                                               | 8840/54822 [00:07<00:36, 1258.61it/s]


Running loglikelihood requests:  16%|██████████████████▋                                                                                               | 8968/54822 [00:07<00:36, 1259.03it/s]


Running loglikelihood requests:  17%|██████████████████▉                                                                                               | 9096/54822 [00:07<00:36, 1261.23it/s]


Running loglikelihood requests:  17%|███████████████████▏                                                                                              | 9226/54822 [00:08<00:35, 1272.61it/s]


Running loglikelihood requests:  17%|███████████████████▍                                                                                              | 9357/54822 [00:08<00:35, 1283.46it/s]


Running loglikelihood requests:  17%|███████████████████▋                                                                                              | 9487/54822 [00:08<00:35, 1287.98it/s]


Running loglikelihood requests:  18%|████████████████████                                                                                              | 9618/54822 [00:08<00:34, 1294.19it/s]


Running loglikelihood requests:  18%|████████████████████▎                                                                                             | 9748/54822 [00:08<00:34, 1294.51it/s]


Running loglikelihood requests:  18%|████████████████████▌                                                                                             | 9881/54822 [00:08<00:34, 1305.03it/s]


Running loglikelihood requests:  18%|████████████████████▋                                                                                            | 10012/54822 [00:08<00:34, 1306.16it/s]


Running loglikelihood requests:  19%|████████████████████▉                                                                                            | 10144/54822 [00:08<00:34, 1309.95it/s]


Running loglikelihood requests:  19%|█████████████████████▏                                                                                           | 10278/54822 [00:08<00:33, 1318.62it/s]


Running loglikelihood requests:  19%|█████████████████████▍                                                                                           | 10410/54822 [00:08<00:33, 1318.19it/s]


Running loglikelihood requests:  19%|█████████████████████▋                                                                                           | 10542/54822 [00:09<00:33, 1317.40it/s]


Running loglikelihood requests:  19%|██████████████████████                                                                                           | 10674/54822 [00:09<00:33, 1317.03it/s]


Running loglikelihood requests:  20%|██████████████████████▎                                                                                          | 10806/54822 [00:09<00:33, 1315.94it/s]


Running loglikelihood requests:  20%|██████████████████████▌                                                                                          | 10938/54822 [00:09<00:33, 1315.00it/s]


Running loglikelihood requests:  20%|██████████████████████▊                                                                                          | 11070/54822 [00:09<00:33, 1315.01it/s]


Running loglikelihood requests:  20%|███████████████████████                                                                                          | 11216/54822 [00:09<00:36, 1208.36it/s]


Running loglikelihood requests:  21%|███████████████████████▍                                                                                         | 11364/54822 [00:09<00:33, 1283.18it/s]


Running loglikelihood requests:  21%|███████████████████████▋                                                                                         | 11513/54822 [00:09<00:32, 1341.38it/s]


Running loglikelihood requests:  21%|████████████████████████                                                                                         | 11664/54822 [00:09<00:34, 1240.91it/s]


Running loglikelihood requests:  22%|████████████████████████▎                                                                                        | 11813/54822 [00:10<00:32, 1307.64it/s]


Running loglikelihood requests:  22%|████████████████████████▋                                                                                        | 11978/54822 [00:10<00:30, 1402.28it/s]


Running loglikelihood requests:  22%|████████████████████████▉                                                                                        | 12122/54822 [00:10<00:33, 1274.09it/s]


Running loglikelihood requests:  22%|█████████████████████████▎                                                                                       | 12290/54822 [00:10<00:30, 1382.64it/s]


Running loglikelihood requests:  23%|█████████████████████████▋                                                                                       | 12433/54822 [00:10<00:33, 1261.03it/s]


Running loglikelihood requests:  23%|█████████████████████████▉                                                                                       | 12600/54822 [00:10<00:30, 1368.46it/s]


Running loglikelihood requests:  23%|██████████████████████████▎                                                                                      | 12753/54822 [00:10<00:32, 1276.54it/s]


Running loglikelihood requests:  24%|██████████████████████████▋                                                                                      | 12923/54822 [00:10<00:30, 1386.76it/s]


Running loglikelihood requests:  24%|██████████████████████████▉                                                                                      | 13074/54822 [00:10<00:32, 1283.02it/s]


Running loglikelihood requests:  24%|███████████████████████████▎                                                                                     | 13253/54822 [00:11<00:29, 1414.20it/s]


Running loglikelihood requests:  24%|███████████████████████████▌                                                                                     | 13400/54822 [00:11<00:31, 1299.38it/s]


Running loglikelihood requests:  25%|███████████████████████████▉                                                                                     | 13580/54822 [00:11<00:28, 1429.27it/s]


Running loglikelihood requests:  25%|████████████████████████████▎                                                                                    | 13729/54822 [00:11<00:31, 1312.28it/s]


Running loglikelihood requests:  25%|████████████████████████████▋                                                                                    | 13907/54822 [00:11<00:31, 1300.01it/s]


Running loglikelihood requests:  26%|█████████████████████████████                                                                                    | 14089/54822 [00:11<00:28, 1430.72it/s]


Running loglikelihood requests:  26%|█████████████████████████████▎                                                                                   | 14238/54822 [00:11<00:30, 1318.63it/s]


Running loglikelihood requests:  26%|█████████████████████████████▋                                                                                   | 14420/54822 [00:11<00:27, 1446.90it/s]


Running loglikelihood requests:  27%|██████████████████████████████                                                                                   | 14571/54822 [00:12<00:30, 1337.19it/s]


Running loglikelihood requests:  27%|██████████████████████████████▍                                                                                  | 14744/54822 [00:12<00:30, 1313.27it/s]


Running loglikelihood requests:  27%|██████████████████████████████▊                                                                                  | 14937/54822 [00:12<00:29, 1336.50it/s]


Running loglikelihood requests:  28%|███████████████████████████████▏                                                                                 | 15129/54822 [00:12<00:29, 1350.43it/s]


Running loglikelihood requests:  28%|███████████████████████████████▌                                                                                 | 15321/54822 [00:12<00:29, 1358.87it/s]


Running loglikelihood requests:  28%|███████████████████████████████▉                                                                                 | 15517/54822 [00:12<00:28, 1374.13it/s]


Running loglikelihood requests:  29%|████████████████████████████████▍                                                                                | 15709/54822 [00:12<00:28, 1376.85it/s]


Running loglikelihood requests:  29%|████████████████████████████████▊                                                                                | 15902/54822 [00:13<00:28, 1380.60it/s]


Running loglikelihood requests:  29%|█████████████████████████████████▏                                                                               | 16094/54822 [00:13<00:27, 1383.23it/s]


Running loglikelihood requests:  30%|█████████████████████████████████▌                                                                               | 16286/54822 [00:13<00:27, 1387.78it/s]


Running loglikelihood requests:  30%|█████████████████████████████████▉                                                                               | 16480/54822 [00:13<00:27, 1395.39it/s]


Running loglikelihood requests:  30%|██████████████████████████████████▎                                                                              | 16672/54822 [00:13<00:27, 1396.41it/s]


Running loglikelihood requests:  31%|██████████████████████████████████▊                                                                              | 16864/54822 [00:13<00:27, 1398.35it/s]


Running loglikelihood requests:  31%|███████████████████████████████████▏                                                                             | 17056/54822 [00:13<00:27, 1398.67it/s]


Running loglikelihood requests:  31%|███████████████████████████████████▌                                                                             | 17248/54822 [00:14<00:26, 1399.37it/s]


Running loglikelihood requests:  32%|███████████████████████████████████▉                                                                             | 17440/54822 [00:14<00:26, 1397.60it/s]


Running loglikelihood requests:  32%|████████████████████████████████████▎                                                                            | 17632/54822 [00:14<00:26, 1406.51it/s]


Running loglikelihood requests:  33%|████████████████████████████████████▋                                                                            | 17824/54822 [00:14<00:26, 1411.11it/s]


Running loglikelihood requests:  33%|█████████████████████████████████████▏                                                                           | 18016/54822 [00:14<00:26, 1414.17it/s]


Running loglikelihood requests:  33%|█████████████████████████████████████▌                                                                           | 18208/54822 [00:14<00:25, 1414.41it/s]


Running loglikelihood requests:  34%|█████████████████████████████████████▉                                                                           | 18400/54822 [00:14<00:25, 1418.65it/s]


Running loglikelihood requests:  34%|██████████████████████████████████████▎                                                                          | 18592/54822 [00:14<00:25, 1421.74it/s]


Running loglikelihood requests:  34%|██████████████████████████████████████▋                                                                          | 18784/54822 [00:15<00:25, 1423.82it/s]


Running loglikelihood requests:  35%|███████████████████████████████████████                                                                          | 18976/54822 [00:15<00:25, 1428.66it/s]


Running loglikelihood requests:  35%|███████████████████████████████████████▌                                                                         | 19168/54822 [00:15<00:24, 1435.39it/s]


Running loglikelihood requests:  35%|███████████████████████████████████████▉                                                                         | 19360/54822 [00:15<00:24, 1439.83it/s]


Running loglikelihood requests:  36%|████████████████████████████████████████▎                                                                        | 19552/54822 [00:15<00:24, 1441.75it/s]


Running loglikelihood requests:  36%|████████████████████████████████████████▋                                                                        | 19744/54822 [00:15<00:24, 1443.25it/s]


Running loglikelihood requests:  36%|█████████████████████████████████████████                                                                        | 19936/54822 [00:15<00:24, 1442.86it/s]


Running loglikelihood requests:  37%|█████████████████████████████████████████▍                                                                       | 20128/54822 [00:16<00:24, 1443.62it/s]


Running loglikelihood requests:  37%|█████████████████████████████████████████▉                                                                       | 20320/54822 [00:16<00:23, 1447.33it/s]


Running loglikelihood requests:  37%|██████████████████████████████████████████▎                                                                      | 20512/54822 [00:16<00:23, 1452.14it/s]


Running loglikelihood requests:  38%|██████████████████████████████████████████▋                                                                      | 20704/54822 [00:16<00:23, 1454.78it/s]


Running loglikelihood requests:  38%|███████████████████████████████████████████                                                                      | 20896/54822 [00:16<00:23, 1456.70it/s]


Running loglikelihood requests:  38%|███████████████████████████████████████████▍                                                                     | 21088/54822 [00:16<00:23, 1456.53it/s]


Running loglikelihood requests:  39%|███████████████████████████████████████████▊                                                                     | 21280/54822 [00:16<00:22, 1459.77it/s]


Running loglikelihood requests:  39%|████████████████████████████████████████████▎                                                                    | 21472/54822 [00:16<00:22, 1462.54it/s]


Running loglikelihood requests:  40%|████████████████████████████████████████████▋                                                                    | 21664/54822 [00:17<00:22, 1467.46it/s]


Running loglikelihood requests:  40%|█████████████████████████████████████████████                                                                    | 21856/54822 [00:17<00:22, 1472.55it/s]


Running loglikelihood requests:  40%|█████████████████████████████████████████████▍                                                                   | 22048/54822 [00:17<00:22, 1476.06it/s]


Running loglikelihood requests:  41%|█████████████████████████████████████████████▊                                                                   | 22240/54822 [00:17<00:22, 1477.85it/s]


Running loglikelihood requests:  41%|██████████████████████████████████████████████▏                                                                  | 22432/54822 [00:17<00:21, 1480.54it/s]


Running loglikelihood requests:  41%|██████████████████████████████████████████████▋                                                                  | 22624/54822 [00:17<00:21, 1480.02it/s]


Running loglikelihood requests:  42%|███████████████████████████████████████████████                                                                  | 22816/54822 [00:17<00:21, 1478.12it/s]


Running loglikelihood requests:  42%|███████████████████████████████████████████████▍                                                                 | 23008/54822 [00:17<00:21, 1492.05it/s]


Running loglikelihood requests:  42%|███████████████████████████████████████████████▊                                                                 | 23201/54822 [00:18<00:21, 1505.26it/s]


Running loglikelihood requests:  43%|████████████████████████████████████████████████▏                                                                | 23393/54822 [00:18<00:20, 1512.90it/s]


Running loglikelihood requests:  43%|████████████████████████████████████████████████▌                                                                | 23585/54822 [00:18<00:20, 1517.91it/s]


Running loglikelihood requests:  43%|█████████████████████████████████████████████████                                                                | 23777/54822 [00:18<00:20, 1522.18it/s]


Running loglikelihood requests:  44%|█████████████████████████████████████████████████▍                                                               | 23969/54822 [00:18<00:20, 1526.16it/s]


Running loglikelihood requests:  44%|█████████████████████████████████████████████████▊                                                               | 24161/54822 [00:18<00:20, 1527.26it/s]


Running loglikelihood requests:  44%|██████████████████████████████████████████████████▏                                                              | 24354/54822 [00:18<00:19, 1535.20it/s]


Running loglikelihood requests:  45%|██████████████████████████████████████████████████▌                                                              | 24546/54822 [00:18<00:19, 1538.89it/s]


Running loglikelihood requests:  45%|██████████████████████████████████████████████████▉                                                              | 24738/54822 [00:19<00:19, 1541.58it/s]


Running loglikelihood requests:  45%|███████████████████████████████████████████████████▍                                                             | 24931/54822 [00:19<00:19, 1548.15it/s]


Running loglikelihood requests:  46%|███████████████████████████████████████████████████▊                                                             | 25124/54822 [00:19<00:19, 1551.28it/s]


Running loglikelihood requests:  46%|████████████████████████████████████████████████████▏                                                            | 25316/54822 [00:19<00:19, 1552.11it/s]


Running loglikelihood requests:  47%|████████████████████████████████████████████████████▌                                                            | 25511/54822 [00:19<00:18, 1566.13it/s]


Running loglikelihood requests:  47%|████████████████████████████████████████████████████▉                                                            | 25703/54822 [00:19<00:18, 1568.99it/s]


Running loglikelihood requests:  47%|█████████████████████████████████████████████████████▍                                                           | 25895/54822 [00:19<00:18, 1569.31it/s]


Running loglikelihood requests:  48%|█████████████████████████████████████████████████████▊                                                           | 26087/54822 [00:19<00:18, 1576.67it/s]


Running loglikelihood requests:  48%|██████████████████████████████████████████████████████▏                                                          | 26279/54822 [00:20<00:18, 1580.45it/s]


Running loglikelihood requests:  48%|██████████████████████████████████████████████████████▌                                                          | 26471/54822 [00:20<00:17, 1579.31it/s]


Running loglikelihood requests:  49%|██████████████████████████████████████████████████████▉                                                          | 26663/54822 [00:20<00:17, 1591.51it/s]


Running loglikelihood requests:  49%|███████████████████████████████████████████████████████▎                                                         | 26855/54822 [00:20<00:17, 1597.85it/s]


Running loglikelihood requests:  49%|███████████████████████████████████████████████████████▋                                                         | 27047/54822 [00:20<00:17, 1599.82it/s]


Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▏                                                        | 27240/54822 [00:20<00:17, 1607.62it/s]


Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▌                                                        | 27432/54822 [00:20<00:17, 1607.54it/s]


Running loglikelihood requests:  50%|████████████████████████████████████████████████████████▉                                                        | 27624/54822 [00:20<00:16, 1619.18it/s]


Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▎                                                       | 27816/54822 [00:21<00:16, 1624.41it/s]


Running loglikelihood requests:  51%|█████████████████████████████████████████████████████████▋                                                       | 28008/54822 [00:21<00:16, 1628.37it/s]


Running loglikelihood requests:  51%|██████████████████████████████████████████████████████████▏                                                      | 28200/54822 [00:21<00:16, 1636.11it/s]


Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▌                                                      | 28392/54822 [00:21<00:16, 1639.45it/s]


Running loglikelihood requests:  52%|██████████████████████████████████████████████████████████▉                                                      | 28584/54822 [00:21<00:15, 1648.63it/s]


Running loglikelihood requests:  52%|███████████████████████████████████████████████████████████▎                                                     | 28776/54822 [00:21<00:15, 1660.17it/s]


Running loglikelihood requests:  53%|███████████████████████████████████████████████████████████▋                                                     | 28968/54822 [00:21<00:15, 1664.56it/s]


Running loglikelihood requests:  53%|████████████████████████████████████████████████████████████                                                     | 29160/54822 [00:21<00:15, 1674.29it/s]


Running loglikelihood requests:  54%|████████████████████████████████████████████████████████████▌                                                    | 29354/54822 [00:21<00:15, 1681.89it/s]


Running loglikelihood requests:  54%|████████████████████████████████████████████████████████████▉                                                    | 29547/54822 [00:22<00:14, 1687.57it/s]


Running loglikelihood requests:  54%|█████████████████████████████████████████████████████████████▎                                                   | 29739/54822 [00:22<00:14, 1692.08it/s]


Running loglikelihood requests:  55%|█████████████████████████████████████████████████████████████▋                                                   | 29931/54822 [00:22<00:14, 1690.69it/s]


Running loglikelihood requests:  55%|██████████████████████████████████████████████████████████████                                                   | 30123/54822 [00:22<00:14, 1698.79it/s]


Running loglikelihood requests:  55%|██████████████████████████████████████████████████████████████▍                                                  | 30315/54822 [00:22<00:14, 1703.15it/s]


Running loglikelihood requests:  56%|██████████████████████████████████████████████████████████████▉                                                  | 30507/54822 [00:22<00:14, 1709.13it/s]


Running loglikelihood requests:  56%|███████████████████████████████████████████████████████████████▎                                                 | 30702/54822 [00:22<00:13, 1723.04it/s]


Running loglikelihood requests:  56%|███████████████████████████████████████████████████████████████▋                                                 | 30894/54822 [00:22<00:13, 1723.77it/s]


Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████                                                 | 31086/54822 [00:22<00:14, 1667.75it/s]


Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████▍                                                | 31278/54822 [00:23<00:14, 1644.85it/s]


Running loglikelihood requests:  57%|████████████████████████████████████████████████████████████████▊                                                | 31473/54822 [00:23<00:14, 1627.47it/s]


Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████▎                                               | 31665/54822 [00:23<00:14, 1617.40it/s]


Running loglikelihood requests:  58%|█████████████████████████████████████████████████████████████████▋                                               | 31857/54822 [00:23<00:14, 1617.40it/s]


Running loglikelihood requests:  58%|██████████████████████████████████████████████████████████████████                                               | 32049/54822 [00:23<00:14, 1613.94it/s]


Running loglikelihood requests:  59%|██████████████████████████████████████████████████████████████████▍                                              | 32242/54822 [00:23<00:13, 1625.88it/s]


Running loglikelihood requests:  59%|██████████████████████████████████████████████████████████████████▊                                              | 32434/54822 [00:23<00:13, 1631.17it/s]


Running loglikelihood requests:  60%|███████████████████████████████████████████████████████████████████▎                                             | 32630/54822 [00:23<00:13, 1607.62it/s]


Running loglikelihood requests:  60%|███████████████████████████████████████████████████████████████████▋                                             | 32822/54822 [00:24<00:13, 1651.24it/s]


Running loglikelihood requests:  60%|████████████████████████████████████████████████████████████████████                                             | 33015/54822 [00:24<00:12, 1711.35it/s]


Running loglikelihood requests:  61%|████████████████████████████████████████████████████████████████████▍                                            | 33217/54822 [00:24<00:12, 1779.81it/s]


Running loglikelihood requests:  61%|████████████████████████████████████████████████████████████████████▊                                            | 33409/54822 [00:24<00:12, 1767.28it/s]


Running loglikelihood requests:  61%|█████████████████████████████████████████████████████████████████████▎                                           | 33604/54822 [00:24<00:11, 1804.59it/s]


Running loglikelihood requests:  62%|█████████████████████████████████████████████████████████████████████▋                                           | 33798/54822 [00:24<00:11, 1841.21it/s]


Running loglikelihood requests:  62%|██████████████████████████████████████████████████████████████████████                                           | 33990/54822 [00:24<00:11, 1862.45it/s]


Running loglikelihood requests:  62%|██████████████████████████████████████████████████████████████████████▍                                          | 34187/54822 [00:24<00:10, 1893.51it/s]


Running loglikelihood requests:  63%|██████████████████████████████████████████████████████████████████████▉                                          | 34396/54822 [00:24<00:10, 1950.87it/s]


Running loglikelihood requests:  63%|███████████████████████████████████████████████████████████████████████▎                                         | 34612/54822 [00:24<00:10, 2012.34it/s]


Running loglikelihood requests:  64%|███████████████████████████████████████████████████████████████████████▊                                         | 34830/54822 [00:25<00:10, 1921.93it/s]


Running loglikelihood requests:  64%|████████████████████████████████████████████████████████████████████████▎                                        | 35074/54822 [00:25<00:09, 2068.68it/s]


Running loglikelihood requests:  64%|████████████████████████████████████████████████████████████████████████▋                                        | 35283/54822 [00:25<00:09, 1954.43it/s]


Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████▏                                       | 35531/54822 [00:25<00:09, 2101.21it/s]


Running loglikelihood requests:  65%|█████████████████████████████████████████████████████████████████████████▋                                       | 35744/54822 [00:25<00:09, 1999.88it/s]


Running loglikelihood requests:  66%|██████████████████████████████████████████████████████████████████████████▏                                      | 36003/54822 [00:25<00:09, 2032.09it/s]


Running loglikelihood requests:  66%|██████████████████████████████████████████████████████████████████████████▋                                      | 36261/54822 [00:25<00:09, 2050.19it/s]


Running loglikelihood requests:  67%|███████████████████████████████████████████████████████████████████████████▎                                     | 36520/54822 [00:25<00:08, 2071.30it/s]


Running loglikelihood requests:  67%|███████████████████████████████████████████████████████████████████████████▊                                     | 36784/54822 [00:26<00:08, 2111.59it/s]


Running loglikelihood requests:  68%|████████████████████████████████████████████████████████████████████████████▎                                    | 37045/54822 [00:26<00:08, 2152.95it/s]


Running loglikelihood requests:  68%|████████████████████████████████████████████████████████████████████████████▉                                    | 37303/54822 [00:26<00:08, 2180.00it/s]


Running loglikelihood requests:  69%|█████████████████████████████████████████████████████████████████████████████▍                                   | 37559/54822 [00:26<00:07, 2194.55it/s]


Running loglikelihood requests:  69%|█████████████████████████████████████████████████████████████████████████████▉                                   | 37822/54822 [00:26<00:07, 2227.44it/s]


Running loglikelihood requests:  69%|██████████████████████████████████████████████████████████████████████████████▍                                  | 38078/54822 [00:26<00:07, 2232.51it/s]


Running loglikelihood requests:  70%|███████████████████████████████████████████████████████████████████████████████                                  | 38337/54822 [00:26<00:07, 2253.11it/s]


Running loglikelihood requests:  70%|███████████████████████████████████████████████████████████████████████████████▌                                 | 38599/54822 [00:26<00:07, 2281.00it/s]


Running loglikelihood requests:  71%|████████████████████████████████████████████████████████████████████████████████                                 | 38855/54822 [00:26<00:06, 2291.43it/s]


Running loglikelihood requests:  71%|████████████████████████████████████████████████████████████████████████████████▋                                | 39122/54822 [00:27<00:06, 2328.52it/s]


Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████▏                               | 39385/54822 [00:27<00:06, 2344.48it/s]


Running loglikelihood requests:  72%|█████████████████████████████████████████████████████████████████████████████████▋                               | 39650/54822 [00:27<00:06, 2371.60it/s]


Running loglikelihood requests:  73%|██████████████████████████████████████████████████████████████████████████████████▎                              | 39918/54822 [00:27<00:06, 2395.38it/s]


Running loglikelihood requests:  73%|██████████████████████████████████████████████████████████████████████████████████▊                              | 40179/54822 [00:27<00:06, 2399.96it/s]


Running loglikelihood requests:  74%|███████████████████████████████████████████████████████████████████████████████████▎                             | 40440/54822 [00:27<00:05, 2408.07it/s]


Running loglikelihood requests:  74%|███████████████████████████████████████████████████████████████████████████████████▉                             | 40697/54822 [00:27<00:05, 2419.71it/s]


Running loglikelihood requests:  75%|████████████████████████████████████████████████████████████████████████████████████▍                            | 40968/54822 [00:27<00:05, 2471.86it/s]


Running loglikelihood requests:  75%|████████████████████████████████████████████████████████████████████████████████████▉                            | 41224/54822 [00:27<00:05, 2471.30it/s]


Running loglikelihood requests:  76%|█████████████████████████████████████████████████████████████████████████████████████▌                           | 41492/54822 [00:27<00:05, 2503.94it/s]


Running loglikelihood requests:  76%|██████████████████████████████████████████████████████████████████████████████████████                           | 41748/54822 [00:28<00:05, 2498.08it/s]


Running loglikelihood requests:  77%|██████████████████████████████████████████████████████████████████████████████████████▌                          | 42015/54822 [00:28<00:05, 2531.46it/s]


Running loglikelihood requests:  77%|███████████████████████████████████████████████████████████████████████████████████████▏                         | 42271/54822 [00:28<00:04, 2529.10it/s]


Running loglikelihood requests:  78%|███████████████████████████████████████████████████████████████████████████████████████▋                         | 42530/54822 [00:28<00:04, 2538.97it/s]


Running loglikelihood requests:  78%|████████████████████████████████████████████████████████████████████████████████████████▏                        | 42793/54822 [00:28<00:04, 2554.62it/s]


Running loglikelihood requests:  79%|████████████████████████████████████████████████████████████████████████████████████████▋                        | 43051/54822 [00:28<00:04, 2561.35it/s]


Running loglikelihood requests:  79%|█████████████████████████████████████████████████████████████████████████████████████████▎                       | 43328/54822 [00:28<00:04, 2622.82it/s]


Running loglikelihood requests:  80%|█████████████████████████████████████████████████████████████████████████████████████████▉                       | 43603/54822 [00:28<00:04, 2659.91it/s]


Running loglikelihood requests:  80%|██████████████████████████████████████████████████████████████████████████████████████████▍                      | 43883/54822 [00:28<00:04, 2701.12it/s]


Running loglikelihood requests:  81%|███████████████████████████████████████████████████████████████████████████████████████████                      | 44164/54822 [00:28<00:03, 2732.92it/s]


Running loglikelihood requests:  81%|███████████████████████████████████████████████████████████████████████████████████████████▌                     | 44438/54822 [00:29<00:03, 2605.93it/s]


Running loglikelihood requests:  82%|████████████████████████████████████████████████████████████████████████████████████████████▏                    | 44733/54822 [00:29<00:03, 2704.99it/s]


Running loglikelihood requests:  82%|████████████████████████████████████████████████████████████████████████████████████████████▊                    | 45019/54822 [00:29<00:03, 2750.28it/s]


Running loglikelihood requests:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 45296/54822 [00:29<00:03, 2630.49it/s]


Running loglikelihood requests:  83%|██████████████████████████████████████████████████████████████████████████████████████████████                   | 45609/54822 [00:29<00:03, 2773.58it/s]


Running loglikelihood requests:  84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                  | 45905/54822 [00:29<00:03, 2708.58it/s]


Running loglikelihood requests:  84%|███████████████████████████████████████████████████████████████████████████████████████████████▏                 | 46205/54822 [00:29<00:03, 2791.15it/s]


Running loglikelihood requests:  85%|███████████████████████████████████████████████████████████████████████████████████████████████▊                 | 46506/54822 [00:29<00:03, 2729.71it/s]


Running loglikelihood requests:  85%|████████████████████████████████████████████████████████████████████████████████████████████████▌                | 46825/54822 [00:29<00:02, 2859.87it/s]


Running loglikelihood requests:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████▏               | 47123/54822 [00:30<00:02, 2776.52it/s]


Running loglikelihood requests:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████▊               | 47438/54822 [00:30<00:02, 2882.05it/s]


Running loglikelihood requests:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████▍              | 47741/54822 [00:30<00:02, 2810.59it/s]


Running loglikelihood requests:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████              | 48067/54822 [00:30<00:02, 2811.71it/s]


Running loglikelihood requests:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████▊             | 48408/54822 [00:30<00:02, 2848.08it/s]


Running loglikelihood requests:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 48751/54822 [00:30<00:02, 3008.66it/s]


Running loglikelihood requests:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████            | 49054/54822 [00:30<00:01, 2918.36it/s]


Running loglikelihood requests:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 49376/54822 [00:30<00:01, 2906.80it/s]


Running loglikelihood requests:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 49717/54822 [00:30<00:01, 2924.35it/s]


Running loglikelihood requests:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 50063/54822 [00:31<00:01, 2973.07it/s]


Running loglikelihood requests:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 50407/54822 [00:31<00:01, 2993.77it/s]


Running loglikelihood requests:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 50745/54822 [00:31<00:01, 3004.38it/s]


Running loglikelihood requests:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 51085/54822 [00:31<00:01, 3021.74it/s]


Running loglikelihood requests:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████       | 51429/54822 [00:31<00:01, 3047.35it/s]


Running loglikelihood requests:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 51801/54822 [00:31<00:00, 3115.82it/s]


Running loglikelihood requests:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 52173/54822 [00:31<00:00, 3176.70it/s]


Running loglikelihood requests:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 52514/54822 [00:31<00:00, 3159.48it/s]


Running loglikelihood requests:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 52869/54822 [00:31<00:00, 3180.26it/s]


Running loglikelihood requests:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 53243/54822 [00:32<00:00, 3237.72it/s]


Running loglikelihood requests:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 53670/54822 [00:32<00:00, 3380.60it/s]


Running loglikelihood requests:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 54095/54822 [00:32<00:00, 3501.86it/s]


Running loglikelihood requests: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 54548/54822 [00:32<00:00, 3785.94it/s]


Running loglikelihood requests: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 54822/54822 [00:32<00:00, 1687.64it/s]




bootstrapping for stddev: perplexity



  0%|                                                                                                                                                                 | 0/100 [00:00<?, ?it/s]


  1%|█▌                                                                                                                                                       | 1/100 [00:00<01:07,  1.47it/s]


  2%|███                                                                                                                                                      | 2/100 [00:00<00:44,  2.20it/s]


 53%|████████████████████████████████████████████████████████████████████████████████▌                                                                       | 53/100 [00:01<00:00, 62.07it/s]


 61%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 61/100 [00:01<00:00, 63.17it/s]


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [00:01<00:00, 69.72it/s]





NLU results saved to: results/nlu_results_adapted.json


In [11]:
# Cell 11: Parse and Display NLU Results
# ======================================

def parse_nlu_results(results_path: str) -> pd.DataFrame:
    """Parse lm-eval JSON results into DataFrame."""
    try:
        with open(results_path, 'r') as f:
            results = json.load(f)
        
        rows = []
        for task, metrics in results.get('results', {}).items():
            row = {'task': task}
            for metric, value in metrics.items():
                if isinstance(value, (int, float)):
                    row[metric] = value
            rows.append(row)
        
        return pd.DataFrame(rows)
    except Exception as e:
        print(f"Could not parse results: {e}")
        return pd.DataFrame()


if nlu_results:
    print("\n" + "=" * 70)
    print("NLU RESULTS SUMMARY")
    print("=" * 70)
    
    results_df = []
    for task, metrics in nlu_results.get('results', {}).items():
        acc = metrics.get('acc,none', metrics.get('acc_norm,none', metrics.get('acc', 'N/A')))
        acc_stderr = metrics.get('acc_stderr,none', metrics.get('acc_norm_stderr,none', 'N/A'))
        print(f"\n{task}:")
        print(f"  Accuracy: {acc:.4f} (± {acc_stderr:.4f})" if isinstance(acc, float) else f"  Accuracy: {acc}")
        results_df.append({
            'task': task,
            'accuracy': acc,
            'stderr': acc_stderr
        })
    
    nlu_df = pd.DataFrame(results_df)
    print("\n" + nlu_df.to_string(index=False))
else:
    print("NLU results not available. Run lm-eval manually and reload results.")



NLU RESULTS SUMMARY

arc_easy:
  Accuracy: 0.5320 (± 0.0102)

hellaswag:
  Accuracy: 0.3554 (± 0.0048)

lambada_openai:
  Accuracy: 0.4667 (± 0.0070)

          task  accuracy   stderr
      arc_easy  0.531987 0.010239
     hellaswag  0.355407 0.004777
lambada_openai  0.466718 0.006951


## Section C: Machine Translation Evaluation

FLORES-200 style evaluation:
- Direction: Spanish → English
- Metrics: BLEU, chrF++, COMET, TER (per WMT standards)


In [12]:
# Cell 12: MT Evaluation Functions
# =================================

@torch.no_grad()
def generate_translations(spanish_texts: List[str], model, tokenizer, 
                          max_new_tokens: int = 128, batch_size: int = 8) -> List[str]:
    """Generate English translations from Spanish inputs."""
    all_translations = []
    
    for i in tqdm(range(0, len(spanish_texts), batch_size), desc="Translating"):
        batch = spanish_texts[i:i+batch_size]
        
        # Format prompts
        prompts = [f"Spanish: {text}\nEnglish:" for text in batch]
        
        # Tokenize
        encodings = tokenizer(
            prompts,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=512,
        ).to("cuda")
        
        # Generate
        generated_ids = model.generate(
            input_ids=encodings.input_ids,
            attention_mask=encodings.attention_mask,
            max_new_tokens=max_new_tokens,
            do_sample=False,
            pad_token_id=tokenizer.eos_token_id,
            eos_token_id=tokenizer.eos_token_id,
        )
        
        # Decode only new tokens
        input_length = encodings.input_ids.shape[1]
        translations = tokenizer.batch_decode(
            generated_ids[:, input_length:],
            skip_special_tokens=True
        )
        
        # Clean up
        cleaned = []
        for t in translations:
            # Stop at newline
            if "\n" in t:
                t = t.split("\n")[0]
            cleaned.append(t.strip())
        
        all_translations.extend(cleaned)
    
    return all_translations


print("MT evaluation functions defined.")


MT evaluation functions defined.


In [13]:
# Cell 13: Load MT Dataset and Generate Translations
# ===================================================

print("=" * 70)
print("MACHINE TRANSLATION EVALUATION")
print("=" * 70)

# Load translation dataset (opus100 en-es)
print("\nLoading translation dataset...")
try:
    opus = load_dataset("opus100", "en-es", split="test")
    spanish_sources = [x['translation']['es'] for x in opus][:MT_SAMPLES]
    english_references = [x['translation']['en'] for x in opus][:MT_SAMPLES]
    print(f"Loaded OPUS-100: {len(spanish_sources)} samples")
except Exception as e:
    print(f"OPUS-100 not available: {e}")
    print("Falling back to globalvoices dataset...")
    gv = load_dataset("alvations/globalvoices-en-es", split="train")
    gv = gv.shuffle(seed=RANDOM_SEED).select(range(min(MT_SAMPLES, len(gv))))
    spanish_sources = [x['es'] for x in gv]
    english_references = [x['en'] for x in gv]
    print(f"Loaded GlobalVoices: {len(spanish_sources)} samples")

# Generate translations
print("\nGenerating translations...")
hypotheses = generate_translations(spanish_sources, model, tokenizer, MAX_NEW_TOKENS, BATCH_SIZE_GEN)
print(f"Generated {len(hypotheses)} translations")


MACHINE TRANSLATION EVALUATION

Loading translation dataset...


Loaded OPUS-100: 1012 samples

Generating translations...



Translating:   0%|                                                                                                                                                    | 0/127 [00:00<?, ?it/s]


Translating:   1%|█                                                                                                                                           | 1/127 [00:02<04:46,  2.28s/it]


Translating:   2%|██▏                                                                                                                                         | 2/127 [00:04<04:31,  2.17s/it]


Translating:   2%|███▎                                                                                                                                        | 3/127 [00:06<04:25,  2.14s/it]


Translating:   3%|████▍                                                                                                                                       | 4/127 [00:08<04:21,  2.12s/it]


Translating:   4%|█████▌                                                                                                                                      | 5/127 [00:10<04:18,  2.12s/it]


Translating:   5%|██████▌                                                                                                                                     | 6/127 [00:12<04:15,  2.11s/it]


Translating:   6%|███████▋                                                                                                                                    | 7/127 [00:14<04:13,  2.11s/it]


Translating:   6%|████████▊                                                                                                                                   | 8/127 [00:16<04:10,  2.11s/it]


Translating:   7%|█████████▉                                                                                                                                  | 9/127 [00:19<04:08,  2.10s/it]


Translating:   8%|██████████▉                                                                                                                                | 10/127 [00:21<04:05,  2.10s/it]


Translating:   9%|████████████                                                                                                                               | 11/127 [00:23<04:03,  2.10s/it]


Translating:   9%|█████████████▏                                                                                                                             | 12/127 [00:25<04:00,  2.10s/it]


Translating:  10%|██████████████▏                                                                                                                            | 13/127 [00:27<03:58,  2.09s/it]


Translating:  11%|███████████████▎                                                                                                                           | 14/127 [00:29<03:56,  2.09s/it]


Translating:  12%|████████████████▍                                                                                                                          | 15/127 [00:31<03:54,  2.09s/it]


Translating:  13%|█████████████████▌                                                                                                                         | 16/127 [00:33<03:52,  2.09s/it]


Translating:  13%|██████████████████▌                                                                                                                        | 17/127 [00:35<03:50,  2.09s/it]


Translating:  14%|███████████████████▋                                                                                                                       | 18/127 [00:37<03:48,  2.09s/it]


Translating:  15%|████████████████████▊                                                                                                                      | 19/127 [00:40<03:46,  2.10s/it]


Translating:  16%|█████████████████████▉                                                                                                                     | 20/127 [00:42<03:44,  2.10s/it]


Translating:  17%|██████████████████████▉                                                                                                                    | 21/127 [00:44<03:42,  2.10s/it]


Translating:  17%|████████████████████████                                                                                                                   | 22/127 [00:46<03:40,  2.10s/it]


Translating:  18%|█████████████████████████▏                                                                                                                 | 23/127 [00:48<03:38,  2.10s/it]


Translating:  19%|██████████████████████████▎                                                                                                                | 24/127 [00:50<03:36,  2.10s/it]


Translating:  20%|███████████████████████████▎                                                                                                               | 25/127 [00:52<03:34,  2.11s/it]


Translating:  20%|████████████████████████████▍                                                                                                              | 26/127 [00:54<03:32,  2.11s/it]


Translating:  21%|█████████████████████████████▌                                                                                                             | 27/127 [00:56<03:30,  2.10s/it]


Translating:  22%|██████████████████████████████▋                                                                                                            | 28/127 [00:58<03:27,  2.10s/it]


Translating:  23%|███████████████████████████████▋                                                                                                           | 29/127 [01:01<03:25,  2.10s/it]


Translating:  24%|████████████████████████████████▊                                                                                                          | 30/127 [01:03<03:23,  2.10s/it]


Translating:  24%|█████████████████████████████████▉                                                                                                         | 31/127 [01:05<03:21,  2.10s/it]


Translating:  25%|███████████████████████████████████                                                                                                        | 32/127 [01:07<03:19,  2.10s/it]


Translating:  26%|████████████████████████████████████                                                                                                       | 33/127 [01:09<03:17,  2.10s/it]


Translating:  27%|█████████████████████████████████████▏                                                                                                     | 34/127 [01:11<03:15,  2.10s/it]


Translating:  28%|██████████████████████████████████████▎                                                                                                    | 35/127 [01:13<03:13,  2.10s/it]


Translating:  28%|███████████████████████████████████████▍                                                                                                   | 36/127 [01:15<03:11,  2.10s/it]


Translating:  29%|████████████████████████████████████████▍                                                                                                  | 37/127 [01:17<03:09,  2.10s/it]


Translating:  30%|█████████████████████████████████████████▌                                                                                                 | 38/127 [01:19<03:06,  2.10s/it]


Translating:  31%|██████████████████████████████████████████▋                                                                                                | 39/127 [01:22<03:04,  2.10s/it]


Translating:  31%|███████████████████████████████████████████▊                                                                                               | 40/127 [01:24<03:02,  2.09s/it]


Translating:  32%|████████████████████████████████████████████▊                                                                                              | 41/127 [01:26<02:59,  2.09s/it]


Translating:  33%|█████████████████████████████████████████████▉                                                                                             | 42/127 [01:28<02:57,  2.09s/it]


Translating:  34%|███████████████████████████████████████████████                                                                                            | 43/127 [01:30<02:55,  2.09s/it]


Translating:  35%|████████████████████████████████████████████████▏                                                                                          | 44/127 [01:32<02:53,  2.09s/it]


Translating:  35%|█████████████████████████████████████████████████▎                                                                                         | 45/127 [01:34<02:51,  2.09s/it]


Translating:  36%|██████████████████████████████████████████████████▎                                                                                        | 46/127 [01:36<02:49,  2.09s/it]


Translating:  37%|███████████████████████████████████████████████████▍                                                                                       | 47/127 [01:38<02:47,  2.09s/it]


Translating:  38%|████████████████████████████████████████████████████▌                                                                                      | 48/127 [01:40<02:45,  2.09s/it]


Translating:  39%|█████████████████████████████████████████████████████▋                                                                                     | 49/127 [01:42<02:43,  2.09s/it]


Translating:  39%|██████████████████████████████████████████████████████▋                                                                                    | 50/127 [01:45<02:41,  2.09s/it]


Translating:  40%|███████████████████████████████████████████████████████▊                                                                                   | 51/127 [01:47<02:38,  2.09s/it]


Translating:  41%|████████████████████████████████████████████████████████▉                                                                                  | 52/127 [01:49<02:36,  2.09s/it]


Translating:  42%|██████████████████████████████████████████████████████████                                                                                 | 53/127 [01:51<02:34,  2.09s/it]


Translating:  43%|███████████████████████████████████████████████████████████                                                                                | 54/127 [01:53<02:32,  2.09s/it]


Translating:  43%|████████████████████████████████████████████████████████████▏                                                                              | 55/127 [01:55<02:30,  2.09s/it]


Translating:  44%|█████████████████████████████████████████████████████████████▎                                                                             | 56/127 [01:57<02:28,  2.09s/it]


Translating:  45%|██████████████████████████████████████████████████████████████▍                                                                            | 57/127 [01:59<02:26,  2.09s/it]


Translating:  46%|███████████████████████████████████████████████████████████████▍                                                                           | 58/127 [02:01<02:24,  2.09s/it]


Translating:  46%|████████████████████████████████████████████████████████████████▌                                                                          | 59/127 [02:03<02:21,  2.09s/it]


Translating:  47%|█████████████████████████████████████████████████████████████████▋                                                                         | 60/127 [02:05<02:19,  2.09s/it]


Translating:  48%|██████████████████████████████████████████████████████████████████▊                                                                        | 61/127 [02:08<02:18,  2.09s/it]


Translating:  49%|███████████████████████████████████████████████████████████████████▊                                                                       | 62/127 [02:10<02:15,  2.09s/it]


Translating:  50%|████████████████████████████████████████████████████████████████████▉                                                                      | 63/127 [02:12<02:13,  2.09s/it]


Translating:  50%|██████████████████████████████████████████████████████████████████████                                                                     | 64/127 [02:14<02:11,  2.09s/it]


Translating:  51%|███████████████████████████████████████████████████████████████████████▏                                                                   | 65/127 [02:16<02:09,  2.09s/it]


Translating:  52%|████████████████████████████████████████████████████████████████████████▏                                                                  | 66/127 [02:18<02:07,  2.08s/it]


Translating:  53%|█████████████████████████████████████████████████████████████████████████▎                                                                 | 67/127 [02:20<02:05,  2.08s/it]


Translating:  54%|██████████████████████████████████████████████████████████████████████████▍                                                                | 68/127 [02:22<02:03,  2.09s/it]


Translating:  54%|███████████████████████████████████████████████████████████████████████████▌                                                               | 69/127 [02:24<02:00,  2.09s/it]


Translating:  55%|████████████████████████████████████████████████████████████████████████████▌                                                              | 70/127 [02:26<01:58,  2.09s/it]


Translating:  56%|█████████████████████████████████████████████████████████████████████████████▋                                                             | 71/127 [02:28<01:56,  2.09s/it]


Translating:  57%|██████████████████████████████████████████████████████████████████████████████▊                                                            | 72/127 [02:30<01:54,  2.09s/it]


Translating:  57%|███████████████████████████████████████████████████████████████████████████████▉                                                           | 73/127 [02:33<01:52,  2.09s/it]


Translating:  58%|████████████████████████████████████████████████████████████████████████████████▉                                                          | 74/127 [02:35<01:50,  2.09s/it]


Translating:  59%|██████████████████████████████████████████████████████████████████████████████████                                                         | 75/127 [02:37<01:48,  2.09s/it]


Translating:  60%|███████████████████████████████████████████████████████████████████████████████████▏                                                       | 76/127 [02:39<01:46,  2.09s/it]


Translating:  61%|████████████████████████████████████████████████████████████████████████████████████▎                                                      | 77/127 [02:41<01:44,  2.09s/it]


Translating:  61%|█████████████████████████████████████████████████████████████████████████████████████▎                                                     | 78/127 [02:43<01:42,  2.09s/it]


Translating:  62%|██████████████████████████████████████████████████████████████████████████████████████▍                                                    | 79/127 [02:45<01:40,  2.09s/it]


Translating:  63%|███████████████████████████████████████████████████████████████████████████████████████▌                                                   | 80/127 [02:47<01:38,  2.09s/it]


Translating:  64%|████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 81/127 [02:49<01:36,  2.09s/it]


Translating:  65%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 82/127 [02:51<01:33,  2.09s/it]


Translating:  65%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                | 83/127 [02:53<01:32,  2.09s/it]


Translating:  66%|███████████████████████████████████████████████████████████████████████████████████████████▉                                               | 84/127 [02:56<01:30,  2.10s/it]


Translating:  67%|█████████████████████████████████████████████████████████████████████████████████████████████                                              | 85/127 [02:58<01:28,  2.10s/it]


Translating:  68%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 86/127 [03:00<01:26,  2.10s/it]


Translating:  69%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 87/127 [03:02<01:23,  2.10s/it]


Translating:  69%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 88/127 [03:04<01:21,  2.10s/it]


Translating:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 89/127 [03:06<01:19,  2.09s/it]


Translating:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 90/127 [03:08<01:17,  2.09s/it]


Translating:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 91/127 [03:10<01:15,  2.09s/it]


Translating:  72%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 92/127 [03:12<01:13,  2.09s/it]


Translating:  73%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 93/127 [03:14<01:11,  2.09s/it]


Translating:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 94/127 [03:16<01:08,  2.09s/it]


Translating:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 95/127 [03:19<01:06,  2.09s/it]


Translating:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 96/127 [03:21<01:04,  2.09s/it]


Translating:  76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 97/127 [03:23<01:02,  2.10s/it]


Translating:  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 98/127 [03:25<01:00,  2.10s/it]


Translating:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 99/127 [03:27<00:58,  2.11s/it]


Translating:  79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 100/127 [03:29<00:56,  2.11s/it]


Translating:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 101/127 [03:31<00:54,  2.11s/it]


Translating:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 102/127 [03:33<00:52,  2.11s/it]


Translating:  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 103/127 [03:35<00:50,  2.11s/it]


Translating:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 104/127 [03:38<00:48,  2.11s/it]


Translating:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 105/127 [03:40<00:46,  2.11s/it]


Translating:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 106/127 [03:42<00:44,  2.12s/it]


Translating:  84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 107/127 [03:44<00:42,  2.12s/it]


Translating:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 108/127 [03:46<00:40,  2.12s/it]


Translating:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 109/127 [03:48<00:38,  2.12s/it]


Translating:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 110/127 [03:50<00:35,  2.12s/it]


Translating:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 111/127 [03:52<00:33,  2.12s/it]


Translating:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 112/127 [03:55<00:31,  2.12s/it]


Translating:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 113/127 [03:57<00:29,  2.11s/it]


Translating:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 114/127 [03:59<00:27,  2.11s/it]


Translating:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 115/127 [04:01<00:25,  2.11s/it]


Translating:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 116/127 [04:03<00:23,  2.11s/it]


Translating:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 117/127 [04:05<00:21,  2.11s/it]


Translating:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 118/127 [04:07<00:18,  2.11s/it]


Translating:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 119/127 [04:09<00:16,  2.11s/it]


Translating:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 120/127 [04:11<00:14,  2.11s/it]


Translating:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 121/127 [04:13<00:12,  2.11s/it]


Translating:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 122/127 [04:16<00:10,  2.11s/it]


Translating:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 123/127 [04:18<00:08,  2.11s/it]


Translating:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 124/127 [04:20<00:06,  2.11s/it]


Translating:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 125/127 [04:22<00:04,  2.11s/it]


Translating:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 126/127 [04:24<00:02,  2.12s/it]


Translating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [04:26<00:00,  2.12s/it]


Translating: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [04:26<00:00,  2.10s/it]

Generated 1012 translations





In [14]:
# Cell 14: Compute MT Metrics
# ============================

from sacrebleu import corpus_bleu, corpus_chrf, corpus_ter

print("\nComputing MT metrics...")

# BLEU (with signature for reproducibility)
bleu_result = corpus_bleu(hypotheses, [english_references])
bleu_score = bleu_result.score
bleu_signature = str(bleu_result)  # Fixed: get_signature() removed in newer sacrebleu

# chrF++ (word_order=2 for chrF++)
chrf_result = corpus_chrf(hypotheses, [english_references], word_order=2)
chrf_score = chrf_result.score

# TER
ter_result = corpus_ter(hypotheses, [english_references])
ter_score = ter_result.score

print(f"\n--- MT Metrics ---")
print(f"BLEU:   {bleu_score:.2f}")
print(f"chrF++: {chrf_score:.2f}")
print(f"TER:    {ter_score:.2f}")
print(f"\nBLEU signature: {bleu_signature}")

# Try COMET if available
try:
    from comet import download_model, load_from_checkpoint
    
    print("\nComputing COMET score...")
    comet_model_path = download_model("Unbabel/wmt22-comet-da")
    comet_model = load_from_checkpoint(comet_model_path)
    
    comet_data = [
        {"src": src, "mt": hyp, "ref": ref}
        for src, hyp, ref in zip(spanish_sources, hypotheses, english_references)
    ]
    comet_output = comet_model.predict(comet_data, batch_size=8, gpus=1)
    comet_score = comet_output.system_score
    print(f"COMET:  {comet_score:.4f}")
except Exception as e:
    print(f"COMET not available: {e}")
    comet_score = None



Computing MT metrics...



--- MT Metrics ---
BLEU:   14.30
chrF++: 37.70
TER:    101.18

BLEU signature: BLEU = 14.30 38.8/17.7/10.0/6.1 (BP = 1.000 ratio = 1.215 hyp_len = 18920 ref_len = 15571)



Computing COMET score...



Fetching 5 files:   0%|                                                                                                                                                 | 0/5 [00:00<?, ?it/s]


Fetching 5 files: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 66156.21it/s]




Lightning automatically upgraded your loaded checkpoint from v1.8.3.post1 to v2.6.0. To apply the upgrade to your files permanently, run `python -m pytorch_lightning.utilities.upgrade_checkpoint ../../../.cache/huggingface/hub/models--Unbabel--wmt22-comet-da/snapshots/2760a223ac957f30acfb18c8aa649b01cf1d75f2/checkpoints/model.ckpt`


Encoder model frozen.


💡 Tip: For seamless cloud uploads and versioning, try installing [litmodels](https://pypi.org/project/litmodels/) to enable LitModelCheckpoint, which syncs automatically with the Lightning model registry.


GPU available: True (cuda), used: True


TPU available: False, using: 0 TPU cores


You are using a CUDA device ('NVIDIA H100 80GB HBM3') that has Tensor Cores. To properly utilize them, you should set `torch.set_float32_matmul_precision('medium' | 'high')` which will trade-off precision for performance. For more details, read https://pytorch.org/docs/stable/generated/torch.set_float32_matmul_precision.html#torch.set_float32_matmul_precision


LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [1]



Predicting: 0it [00:00, ?it/s]


Predicting: 0it [00:00, ?it/s]


Predicting DataLoader 0:   0%|                                                                                                                                        | 0/127 [00:00<?, ?it/s]


Predicting DataLoader 0:   1%|█                                                                                                                               | 1/127 [00:00<00:59,  2.11it/s]


Predicting DataLoader 0:   2%|██                                                                                                                              | 2/127 [00:00<00:31,  3.95it/s]


Predicting DataLoader 0:   2%|███                                                                                                                             | 3/127 [00:00<00:27,  4.58it/s]


Predicting DataLoader 0:   3%|████                                                                                                                            | 4/127 [00:00<00:21,  5.83it/s]


Predicting DataLoader 0:   4%|█████                                                                                                                           | 5/127 [00:00<00:17,  6.98it/s]


Predicting DataLoader 0:   5%|██████                                                                                                                          | 6/127 [00:00<00:15,  8.03it/s]


Predicting DataLoader 0:   6%|███████                                                                                                                         | 7/127 [00:00<00:13,  9.01it/s]


Predicting DataLoader 0:   6%|████████                                                                                                                        | 8/127 [00:00<00:12,  9.91it/s]


Predicting DataLoader 0:   7%|█████████                                                                                                                       | 9/127 [00:00<00:10, 10.75it/s]


Predicting DataLoader 0:   8%|██████████                                                                                                                     | 10/127 [00:00<00:10, 11.49it/s]


Predicting DataLoader 0:   9%|███████████                                                                                                                    | 11/127 [00:00<00:09, 12.22it/s]


Predicting DataLoader 0:   9%|████████████                                                                                                                   | 12/127 [00:00<00:08, 12.90it/s]


Predicting DataLoader 0:  10%|█████████████                                                                                                                  | 13/127 [00:00<00:08, 13.54it/s]


Predicting DataLoader 0:  11%|██████████████                                                                                                                 | 14/127 [00:00<00:07, 14.14it/s]


Predicting DataLoader 0:  12%|███████████████                                                                                                                | 15/127 [00:01<00:07, 14.71it/s]


Predicting DataLoader 0:  13%|████████████████                                                                                                               | 16/127 [00:01<00:07, 15.24it/s]


Predicting DataLoader 0:  13%|█████████████████                                                                                                              | 17/127 [00:01<00:06, 15.73it/s]


Predicting DataLoader 0:  14%|██████████████████                                                                                                             | 18/127 [00:01<00:06, 16.21it/s]


Predicting DataLoader 0:  15%|███████████████████                                                                                                            | 19/127 [00:01<00:06, 16.65it/s]


Predicting DataLoader 0:  16%|████████████████████                                                                                                           | 20/127 [00:01<00:06, 17.08it/s]


Predicting DataLoader 0:  17%|█████████████████████                                                                                                          | 21/127 [00:01<00:06, 17.48it/s]


Predicting DataLoader 0:  17%|██████████████████████                                                                                                         | 22/127 [00:01<00:05, 17.85it/s]


Predicting DataLoader 0:  18%|███████████████████████                                                                                                        | 23/127 [00:01<00:05, 18.21it/s]


Predicting DataLoader 0:  19%|████████████████████████                                                                                                       | 24/127 [00:01<00:05, 18.56it/s]


Predicting DataLoader 0:  20%|█████████████████████████                                                                                                      | 25/127 [00:01<00:05, 18.89it/s]


Predicting DataLoader 0:  20%|██████████████████████████                                                                                                     | 26/127 [00:01<00:05, 19.20it/s]


Predicting DataLoader 0:  21%|███████████████████████████                                                                                                    | 27/127 [00:01<00:05, 19.50it/s]


Predicting DataLoader 0:  22%|████████████████████████████                                                                                                   | 28/127 [00:01<00:05, 19.79it/s]


Predicting DataLoader 0:  23%|█████████████████████████████                                                                                                  | 29/127 [00:01<00:04, 20.06it/s]


Predicting DataLoader 0:  24%|██████████████████████████████                                                                                                 | 30/127 [00:01<00:04, 20.32it/s]


Predicting DataLoader 0:  24%|███████████████████████████████                                                                                                | 31/127 [00:01<00:04, 20.58it/s]


Predicting DataLoader 0:  25%|████████████████████████████████                                                                                               | 32/127 [00:01<00:04, 20.82it/s]


Predicting DataLoader 0:  26%|█████████████████████████████████                                                                                              | 33/127 [00:01<00:04, 21.07it/s]


Predicting DataLoader 0:  27%|██████████████████████████████████                                                                                             | 34/127 [00:01<00:04, 21.30it/s]


Predicting DataLoader 0:  28%|███████████████████████████████████                                                                                            | 35/127 [00:01<00:04, 21.52it/s]


Predicting DataLoader 0:  28%|████████████████████████████████████                                                                                           | 36/127 [00:01<00:04, 21.73it/s]


Predicting DataLoader 0:  29%|█████████████████████████████████████                                                                                          | 37/127 [00:01<00:04, 21.93it/s]


Predicting DataLoader 0:  30%|██████████████████████████████████████                                                                                         | 38/127 [00:01<00:04, 22.13it/s]


Predicting DataLoader 0:  31%|███████████████████████████████████████                                                                                        | 39/127 [00:01<00:03, 22.32it/s]


Predicting DataLoader 0:  31%|████████████████████████████████████████                                                                                       | 40/127 [00:01<00:03, 22.52it/s]


Predicting DataLoader 0:  32%|█████████████████████████████████████████                                                                                      | 41/127 [00:01<00:03, 22.69it/s]


Predicting DataLoader 0:  33%|██████████████████████████████████████████                                                                                     | 42/127 [00:01<00:03, 22.53it/s]


Predicting DataLoader 0:  34%|███████████████████████████████████████████                                                                                    | 43/127 [00:01<00:03, 22.60it/s]


Predicting DataLoader 0:  35%|████████████████████████████████████████████                                                                                   | 44/127 [00:01<00:03, 22.76it/s]


Predicting DataLoader 0:  35%|█████████████████████████████████████████████                                                                                  | 45/127 [00:01<00:03, 22.92it/s]


Predicting DataLoader 0:  36%|██████████████████████████████████████████████                                                                                 | 46/127 [00:01<00:03, 23.07it/s]


Predicting DataLoader 0:  37%|███████████████████████████████████████████████                                                                                | 47/127 [00:02<00:03, 23.23it/s]


Predicting DataLoader 0:  38%|████████████████████████████████████████████████                                                                               | 48/127 [00:02<00:03, 23.37it/s]


Predicting DataLoader 0:  39%|█████████████████████████████████████████████████                                                                              | 49/127 [00:02<00:03, 23.51it/s]


Predicting DataLoader 0:  39%|██████████████████████████████████████████████████                                                                             | 50/127 [00:02<00:03, 23.65it/s]


Predicting DataLoader 0:  40%|███████████████████████████████████████████████████                                                                            | 51/127 [00:02<00:03, 23.79it/s]


Predicting DataLoader 0:  41%|████████████████████████████████████████████████████                                                                           | 52/127 [00:02<00:03, 23.72it/s]


Predicting DataLoader 0:  42%|█████████████████████████████████████████████████████                                                                          | 53/127 [00:02<00:03, 23.71it/s]


Predicting DataLoader 0:  43%|██████████████████████████████████████████████████████                                                                         | 54/127 [00:02<00:03, 23.84it/s]


Predicting DataLoader 0:  43%|███████████████████████████████████████████████████████                                                                        | 55/127 [00:02<00:03, 23.78it/s]


Predicting DataLoader 0:  44%|████████████████████████████████████████████████████████                                                                       | 56/127 [00:02<00:02, 23.77it/s]


Predicting DataLoader 0:  45%|█████████████████████████████████████████████████████████                                                                      | 57/127 [00:02<00:02, 23.89it/s]


Predicting DataLoader 0:  46%|██████████████████████████████████████████████████████████                                                                     | 58/127 [00:02<00:02, 23.88it/s]


Predicting DataLoader 0:  46%|███████████████████████████████████████████████████████████                                                                    | 59/127 [00:02<00:02, 24.00it/s]


Predicting DataLoader 0:  47%|████████████████████████████████████████████████████████████                                                                   | 60/127 [00:02<00:02, 24.12it/s]


Predicting DataLoader 0:  48%|█████████████████████████████████████████████████████████████                                                                  | 61/127 [00:02<00:02, 24.24it/s]


Predicting DataLoader 0:  49%|██████████████████████████████████████████████████████████████                                                                 | 62/127 [00:02<00:02, 24.34it/s]


Predicting DataLoader 0:  50%|███████████████████████████████████████████████████████████████                                                                | 63/127 [00:02<00:02, 24.46it/s]


Predicting DataLoader 0:  50%|████████████████████████████████████████████████████████████████                                                               | 64/127 [00:02<00:02, 24.40it/s]


Predicting DataLoader 0:  51%|█████████████████████████████████████████████████████████████████                                                              | 65/127 [00:02<00:02, 24.51it/s]


Predicting DataLoader 0:  52%|██████████████████████████████████████████████████████████████████                                                             | 66/127 [00:02<00:02, 24.61it/s]


Predicting DataLoader 0:  53%|███████████████████████████████████████████████████████████████████                                                            | 67/127 [00:02<00:02, 24.72it/s]


Predicting DataLoader 0:  54%|████████████████████████████████████████████████████████████████████                                                           | 68/127 [00:02<00:02, 24.83it/s]


Predicting DataLoader 0:  54%|█████████████████████████████████████████████████████████████████████                                                          | 69/127 [00:02<00:02, 24.92it/s]


Predicting DataLoader 0:  55%|██████████████████████████████████████████████████████████████████████                                                         | 70/127 [00:02<00:02, 25.02it/s]


Predicting DataLoader 0:  56%|███████████████████████████████████████████████████████████████████████                                                        | 71/127 [00:02<00:02, 25.11it/s]


Predicting DataLoader 0:  57%|████████████████████████████████████████████████████████████████████████                                                       | 72/127 [00:02<00:02, 25.21it/s]


Predicting DataLoader 0:  57%|█████████████████████████████████████████████████████████████████████████                                                      | 73/127 [00:02<00:02, 25.30it/s]


Predicting DataLoader 0:  58%|██████████████████████████████████████████████████████████████████████████                                                     | 74/127 [00:02<00:02, 25.39it/s]


Predicting DataLoader 0:  59%|███████████████████████████████████████████████████████████████████████████                                                    | 75/127 [00:02<00:02, 25.49it/s]


Predicting DataLoader 0:  60%|████████████████████████████████████████████████████████████████████████████                                                   | 76/127 [00:02<00:01, 25.58it/s]


Predicting DataLoader 0:  61%|█████████████████████████████████████████████████████████████████████████████                                                  | 77/127 [00:03<00:01, 25.66it/s]


Predicting DataLoader 0:  61%|██████████████████████████████████████████████████████████████████████████████                                                 | 78/127 [00:03<00:01, 25.75it/s]


Predicting DataLoader 0:  62%|███████████████████████████████████████████████████████████████████████████████                                                | 79/127 [00:03<00:01, 25.84it/s]


Predicting DataLoader 0:  63%|████████████████████████████████████████████████████████████████████████████████                                               | 80/127 [00:03<00:01, 25.91it/s]


Predicting DataLoader 0:  64%|█████████████████████████████████████████████████████████████████████████████████                                              | 81/127 [00:03<00:01, 25.99it/s]


Predicting DataLoader 0:  65%|██████████████████████████████████████████████████████████████████████████████████                                             | 82/127 [00:03<00:01, 26.07it/s]


Predicting DataLoader 0:  65%|███████████████████████████████████████████████████████████████████████████████████                                            | 83/127 [00:03<00:01, 26.14it/s]


Predicting DataLoader 0:  66%|████████████████████████████████████████████████████████████████████████████████████                                           | 84/127 [00:03<00:01, 26.20it/s]


Predicting DataLoader 0:  67%|█████████████████████████████████████████████████████████████████████████████████████                                          | 85/127 [00:03<00:01, 26.13it/s]


Predicting DataLoader 0:  68%|██████████████████████████████████████████████████████████████████████████████████████                                         | 86/127 [00:03<00:01, 26.20it/s]


Predicting DataLoader 0:  69%|███████████████████████████████████████████████████████████████████████████████████████                                        | 87/127 [00:03<00:01, 26.28it/s]


Predicting DataLoader 0:  69%|████████████████████████████████████████████████████████████████████████████████████████                                       | 88/127 [00:03<00:01, 26.34it/s]


Predicting DataLoader 0:  70%|█████████████████████████████████████████████████████████████████████████████████████████                                      | 89/127 [00:03<00:01, 26.42it/s]


Predicting DataLoader 0:  71%|██████████████████████████████████████████████████████████████████████████████████████████                                     | 90/127 [00:03<00:01, 26.49it/s]


Predicting DataLoader 0:  72%|███████████████████████████████████████████████████████████████████████████████████████████                                    | 91/127 [00:03<00:01, 26.55it/s]


Predicting DataLoader 0:  72%|████████████████████████████████████████████████████████████████████████████████████████████                                   | 92/127 [00:03<00:01, 26.47it/s]


Predicting DataLoader 0:  73%|█████████████████████████████████████████████████████████████████████████████████████████████                                  | 93/127 [00:03<00:01, 26.28it/s]


Predicting DataLoader 0:  74%|██████████████████████████████████████████████████████████████████████████████████████████████                                 | 94/127 [00:03<00:01, 26.34it/s]


Predicting DataLoader 0:  75%|███████████████████████████████████████████████████████████████████████████████████████████████                                | 95/127 [00:03<00:01, 26.39it/s]


Predicting DataLoader 0:  76%|████████████████████████████████████████████████████████████████████████████████████████████████                               | 96/127 [00:03<00:01, 26.46it/s]


Predicting DataLoader 0:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████                              | 97/127 [00:03<00:01, 26.42it/s]


Predicting DataLoader 0:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████                             | 98/127 [00:03<00:01, 26.34it/s]


Predicting DataLoader 0:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████                            | 99/127 [00:03<00:01, 26.29it/s]


Predicting DataLoader 0:  79%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 100/127 [00:03<00:01, 26.24it/s]


Predicting DataLoader 0:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 101/127 [00:03<00:00, 26.26it/s]


Predicting DataLoader 0:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 102/127 [00:03<00:00, 26.19it/s]


Predicting DataLoader 0:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 103/127 [00:03<00:00, 26.12it/s]


Predicting DataLoader 0:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 104/127 [00:03<00:00, 26.13it/s]


Predicting DataLoader 0:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 105/127 [00:04<00:00, 26.14it/s]


Predicting DataLoader 0:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/127 [00:04<00:00, 26.16it/s]


Predicting DataLoader 0:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 107/127 [00:04<00:00, 26.17it/s]


Predicting DataLoader 0:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 108/127 [00:04<00:00, 26.18it/s]


Predicting DataLoader 0:  86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 109/127 [00:04<00:00, 26.10it/s]


Predicting DataLoader 0:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 110/127 [00:04<00:00, 26.00it/s]


Predicting DataLoader 0:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 111/127 [00:04<00:00, 25.88it/s]


Predicting DataLoader 0:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 112/127 [00:04<00:00, 25.81it/s]


Predicting DataLoader 0:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 113/127 [00:04<00:00, 25.81it/s]


Predicting DataLoader 0:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 114/127 [00:04<00:00, 25.73it/s]


Predicting DataLoader 0:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 115/127 [00:04<00:00, 25.71it/s]


Predicting DataLoader 0:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 116/127 [00:04<00:00, 25.71it/s]


Predicting DataLoader 0:  92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 117/127 [00:04<00:00, 25.64it/s]


Predicting DataLoader 0:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 118/127 [00:04<00:00, 25.55it/s]


Predicting DataLoader 0:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 119/127 [00:04<00:00, 25.53it/s]


Predicting DataLoader 0:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 120/127 [00:04<00:00, 25.41it/s]


Predicting DataLoader 0:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 121/127 [00:04<00:00, 25.34it/s]


Predicting DataLoader 0:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 122/127 [00:04<00:00, 25.26it/s]


Predicting DataLoader 0:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 123/127 [00:04<00:00, 25.15it/s]


Predicting DataLoader 0:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 124/127 [00:04<00:00, 25.03it/s]


Predicting DataLoader 0:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 125/127 [00:05<00:00, 24.96it/s]


Predicting DataLoader 0:  99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 126/127 [00:05<00:00, 24.83it/s]


Predicting DataLoader 0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:05<00:00, 24.72it/s]


Predicting DataLoader 0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 127/127 [00:05<00:00, 24.68it/s]




COMET:  0.6602


In [15]:
# Cell 15: Save MT Results
# =========================

mt_results = {
    'source': spanish_sources,
    'reference': english_references,
    'hypothesis': hypotheses,
}
mt_df = pd.DataFrame(mt_results)
mt_df.to_csv(MT_OUTPUT, index=False)

# Summary metrics
mt_summary = {
    'bleu': bleu_score,
    'chrf++': chrf_score,
    'ter': ter_score,
    'comet': comet_score,
    'bleu_signature': str(bleu_signature),
    'n_samples': len(hypotheses)
}

print(f"\nMT results saved to: {MT_OUTPUT}")
print("\n" + "=" * 70)
print("MT SUMMARY")
print("=" * 70)
print(f"BLEU:   {bleu_score:.2f}")
print(f"chrF++: {chrf_score:.2f}")
print(f"TER:    {ter_score:.2f}")
if comet_score:
    print(f"COMET:  {comet_score:.4f}")



MT results saved to: results/mt_results_adapted.csv

MT SUMMARY
BLEU:   14.30
chrF++: 37.70
TER:    101.18
COMET:  0.6602


## Section D: Generation Quality Analysis

Metrics per HelloBench and Contrastive Decoding papers:
- **Distinct-1/2/3**: Unique n-gram ratios (diversity)
- **Repetition Rate**: % repeated 4-grams (degeneration)
- **Self-BLEU**: Corpus-level diversity (lower = more diverse)
- **Length Ratio**: Output length vs expected


In [16]:
# Cell 16: Generation Quality Functions
# ======================================

def get_ngrams(text: str, n: int) -> List[Tuple]:
    """Extract n-grams from text."""
    tokens = text.split()
    if len(tokens) < n:
        return []
    return [tuple(tokens[i:i+n]) for i in range(len(tokens) - n + 1)]


def distinct_n(texts: List[str], n: int) -> float:
    """
    Distinct-N: Ratio of unique n-grams to total n-grams.
    Higher = more diverse generation.
    """
    all_ngrams = []
    for text in texts:
        all_ngrams.extend(get_ngrams(text, n))
    
    if not all_ngrams:
        return 0.0
    
    return len(set(all_ngrams)) / len(all_ngrams)


def repetition_rate(texts: List[str], n: int = 4) -> float:
    """
    Repetition rate: Proportion of n-grams that appear more than once.
    Lower = less repetitive (better).
    """
    all_ngrams = []
    for text in texts:
        all_ngrams.extend(get_ngrams(text, n))
    
    if not all_ngrams:
        return 0.0
    
    ngram_counts = Counter(all_ngrams)
    repeated = sum(1 for count in ngram_counts.values() if count > 1)
    
    return repeated / len(ngram_counts) if ngram_counts else 0.0


def self_bleu(texts: List[str], sample_size: int = 100) -> float:
    """
    Self-BLEU: Average BLEU of each text against all others.
    Lower = more diverse corpus.
    """
    from sacrebleu import sentence_bleu
    
    if len(texts) < 2:
        return 0.0
    
    # Sample for efficiency
    if len(texts) > sample_size:
        indices = np.random.choice(len(texts), sample_size, replace=False)
        texts = [texts[i] for i in indices]
    
    scores = []
    for i, hyp in enumerate(texts):
        refs = [texts[j] for j in range(len(texts)) if j != i]
        if refs and hyp:
            score = sentence_bleu(hyp, refs[:5]).score  # Use up to 5 refs
            scores.append(score)
    
    return np.mean(scores) if scores else 0.0


def analyze_generation_quality(texts: List[str]) -> Dict:
    """Compute all generation quality metrics."""
    # Filter empty texts
    texts = [t for t in texts if t and t.strip()]
    
    return {
        'distinct_1': distinct_n(texts, 1),
        'distinct_2': distinct_n(texts, 2),
        'distinct_3': distinct_n(texts, 3),
        'repetition_rate_4gram': repetition_rate(texts, 4),
        'self_bleu': self_bleu(texts),
        'avg_length': np.mean([len(t.split()) for t in texts]),
        'n_samples': len(texts)
    }


print("Generation quality functions defined.")


Generation quality functions defined.


In [17]:
# Cell 17: Load Generation Prompts and Generate (PARALLELIZED)
# =============================================================

print("=" * 70)
print("GENERATION QUALITY ANALYSIS")
print("=" * 70)

# Load Spanish prompts from Wikipedia (parallel)
print("\nLoading Spanish prompts...")
wiki_prompts = load_dataset(
    "wikimedia/wikipedia",
    "20231101.es",
    split=f"train[:{GENERATION_PROMPTS * 10}]",  # Load extra for filtering
    num_proc=NUM_PROC
)

# Filter for good prompt length (50-200 chars, complete sentences)
def filter_prompts(example):
    text = example.get('text', '')
    return 50 <= len(text) <= 200 and text.endswith(('.', '!', '?'))

wiki_prompts_filtered = wiki_prompts.filter(filter_prompts, num_proc=NUM_PROC)
prompts = wiki_prompts_filtered['text'][:GENERATION_PROMPTS]

print(f"Collected {len(prompts)} Spanish prompts")

# Generate with greedy decoding
print("\nGenerating with greedy decoding...")
greedy_outputs = []
for i in tqdm(range(0, len(prompts), BATCH_SIZE_GEN), desc="Greedy generation"):
    batch = prompts[i:i+BATCH_SIZE_GEN]
    
    encodings = tokenizer(
        batch,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=256,
    ).to("cuda")
    
    with torch.no_grad():
        generated = model.generate(
            input_ids=encodings.input_ids,
            attention_mask=encodings.attention_mask,
            max_new_tokens=64,
            do_sample=False,
            pad_token_id=tokenizer.eos_token_id,
        )
    
    input_len = encodings.input_ids.shape[1]
    outputs = tokenizer.batch_decode(generated[:, input_len:], skip_special_tokens=True)
    greedy_outputs.extend(outputs)

# Generate with nucleus sampling
print("\nGenerating with nucleus sampling (p=0.9)...")
nucleus_outputs = []
for i in tqdm(range(0, len(prompts), BATCH_SIZE_GEN), desc="Nucleus generation"):
    batch = prompts[i:i+BATCH_SIZE_GEN]
    
    encodings = tokenizer(
        batch,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=256,
    ).to("cuda")
    
    with torch.no_grad():
        generated = model.generate(
            input_ids=encodings.input_ids,
            attention_mask=encodings.attention_mask,
            max_new_tokens=64,
            do_sample=True,
            top_p=0.9,
            temperature=1.0,
            pad_token_id=tokenizer.eos_token_id,
        )
    
    input_len = encodings.input_ids.shape[1]
    outputs = tokenizer.batch_decode(generated[:, input_len:], skip_special_tokens=True)
    nucleus_outputs.extend(outputs)

print(f"\nGenerated {len(greedy_outputs)} greedy and {len(nucleus_outputs)} nucleus samples")


GENERATION QUALITY ANALYSIS

Loading Spanish prompts...


Collected 9 Spanish prompts

Generating with greedy decoding...



Greedy generation:   0%|                                                                                                                                                | 0/2 [00:00<?, ?it/s]


Greedy generation:  50%|████████████████████████████████████████████████████████████████████                                                                    | 1/2 [00:01<00:01,  1.15s/it]


Greedy generation: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.05it/s]


Greedy generation: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.02it/s]





Generating with nucleus sampling (p=0.9)...



Nucleus generation:   0%|                                                                                                                                               | 0/2 [00:00<?, ?it/s]


Nucleus generation:  50%|███████████████████████████████████████████████████████████████████▌                                                                   | 1/2 [00:01<00:01,  1.45s/it]


Nucleus generation: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.07s/it]


Nucleus generation: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.13s/it]


Generated 9 greedy and 9 nucleus samples





In [18]:
# Cell 18: Compute Generation Quality Metrics
# ============================================

print("\nComputing generation quality metrics...")

greedy_metrics = analyze_generation_quality(greedy_outputs)
nucleus_metrics = analyze_generation_quality(nucleus_outputs)

print("\n" + "=" * 70)
print("GENERATION QUALITY SUMMARY")
print("=" * 70)

print(f"\n{'Metric':<25} {'Greedy':>12} {'Nucleus (p=0.9)':>15}")
print("-" * 55)
print(f"{'Distinct-1':<25} {greedy_metrics['distinct_1']:>12.4f} {nucleus_metrics['distinct_1']:>15.4f}")
print(f"{'Distinct-2':<25} {greedy_metrics['distinct_2']:>12.4f} {nucleus_metrics['distinct_2']:>15.4f}")
print(f"{'Distinct-3':<25} {greedy_metrics['distinct_3']:>12.4f} {nucleus_metrics['distinct_3']:>15.4f}")
print(f"{'Repetition Rate (4-gram)':<25} {greedy_metrics['repetition_rate_4gram']:>12.4f} {nucleus_metrics['repetition_rate_4gram']:>15.4f}")
print(f"{'Self-BLEU':<25} {greedy_metrics['self_bleu']:>12.2f} {nucleus_metrics['self_bleu']:>15.2f}")
print(f"{'Avg Length (words)':<25} {greedy_metrics['avg_length']:>12.1f} {nucleus_metrics['avg_length']:>15.1f}")

# Save results
gen_results = pd.DataFrame({
    'prompt': prompts,
    'greedy_output': greedy_outputs,
    'nucleus_output': nucleus_outputs
})
gen_results.to_csv(GEN_OUTPUT, index=False)
print(f"\nGeneration results saved to: {GEN_OUTPUT}")



Computing generation quality metrics...

GENERATION QUALITY SUMMARY

Metric                          Greedy Nucleus (p=0.9)
-------------------------------------------------------
Distinct-1                      0.3891          0.5358
Distinct-2                      0.5261          0.7817
Distinct-3                      0.5973          0.8582
Repetition Rate (4-gram)        0.2847          0.0549
Self-BLEU                         4.29            1.62
Avg Length (words)                26.6            32.6

Generation results saved to: results/generation_adapted.csv


## Section E: Computational Efficiency

Protocol per CVA study:
- Warm-up: 100 samples discarded
- Measurement: 1000 samples, 3 runs
- Metrics: Tokens/sec, TTFT (Time to First Token), Peak VRAM


In [19]:
# Cell 19: Efficiency Benchmark Functions
# =======================================

def get_vram_mb() -> float:
    """Get current VRAM usage in MB."""
    info = pynvml.nvmlDeviceGetMemoryInfo(gpu_handle)
    return info.used / (1024 ** 2)


def benchmark_throughput(texts: List[str], model, tokenizer, 
                         batch_size: int, max_new_tokens: int,
                         warmup: int = 100) -> Dict:
    """
    Benchmark generation throughput.
    
    Returns:
        - tokens_per_second: Average generation throughput
        - time_to_first_token: Average TTFT
        - peak_vram_mb: Peak VRAM during benchmark
    """
    # Warm-up
    print(f"  Warming up ({warmup} samples)...")
    for i in range(0, min(warmup, len(texts)), batch_size):
        batch = texts[i:i+batch_size]
        encodings = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=256).to("cuda")
        with torch.no_grad():
            _ = model.generate(
                input_ids=encodings.input_ids,
                attention_mask=encodings.attention_mask,
                max_new_tokens=max_new_tokens,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id,
            )
    torch.cuda.synchronize()
    
    # Reset peak memory
    torch.cuda.reset_peak_memory_stats()
    
    # Benchmark
    total_tokens = 0
    total_time = 0
    ttft_times = []
    
    print(f"  Benchmarking ({len(texts)} samples)...")
    for i in tqdm(range(0, len(texts), batch_size), desc="  Throughput"):
        batch = texts[i:i+batch_size]
        
        encodings = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=256).to("cuda")
        input_len = encodings.input_ids.shape[1]
        
        torch.cuda.synchronize()
        start_time = time.perf_counter()
        
        with torch.no_grad():
            generated = model.generate(
                input_ids=encodings.input_ids,
                attention_mask=encodings.attention_mask,
                max_new_tokens=max_new_tokens,
                do_sample=False,
                pad_token_id=tokenizer.eos_token_id,
            )
        
        torch.cuda.synchronize()
        end_time = time.perf_counter()
        
        batch_time = end_time - start_time
        batch_tokens = (generated.shape[1] - input_len) * generated.shape[0]
        
        total_tokens += batch_tokens
        total_time += batch_time
        
        # Estimate TTFT (first token is generated quickly)
        ttft_times.append(batch_time / max(generated.shape[1] - input_len, 1))
    
    peak_vram = torch.cuda.max_memory_allocated() / (1024 ** 2)
    
    return {
        'tokens_per_second': total_tokens / total_time,
        'samples_per_second': len(texts) / total_time,
        'avg_ttft_ms': np.mean(ttft_times) * 1000,
        'total_time_s': total_time,
        'total_tokens': total_tokens,
        'peak_vram_mb': peak_vram
    }


print("Efficiency benchmark functions defined.")


Efficiency benchmark functions defined.


In [20]:
# Cell 20: Run Efficiency Benchmark
# ==================================

print("=" * 70)
print("COMPUTATIONAL EFFICIENCY BENCHMARK")
print("=" * 70)

# Prepare benchmark texts (use Spanish texts for target language efficiency)
efficiency_texts = spanish_texts[:EFFICIENCY_SAMPLES]
print(f"\nBenchmark corpus: {len(efficiency_texts)} Spanish samples")

# Run multiple times for stability
all_runs = []
for run in range(EFFICIENCY_RUNS):
    print(f"\n--- Run {run + 1}/{EFFICIENCY_RUNS} ---")
    run_results = benchmark_throughput(
        efficiency_texts, model, tokenizer,
        batch_size=BATCH_SIZE_GEN,
        max_new_tokens=64,
        warmup=WARMUP_SAMPLES
    )
    all_runs.append(run_results)
    print(f"  Tokens/sec: {run_results['tokens_per_second']:.1f}")
    print(f"  Peak VRAM: {run_results['peak_vram_mb']:.0f} MB")

# Aggregate results
efficiency_summary = {
    'tokens_per_second_mean': np.mean([r['tokens_per_second'] for r in all_runs]),
    'tokens_per_second_std': np.std([r['tokens_per_second'] for r in all_runs]),
    'samples_per_second_mean': np.mean([r['samples_per_second'] for r in all_runs]),
    'avg_ttft_ms': np.mean([r['avg_ttft_ms'] for r in all_runs]),
    'peak_vram_mb': max([r['peak_vram_mb'] for r in all_runs]),
    'n_samples': len(efficiency_texts),
    'n_runs': EFFICIENCY_RUNS,
    'batch_size': BATCH_SIZE_GEN
}

# Save results
efficiency_df = pd.DataFrame([efficiency_summary])
efficiency_df.to_csv(EFFICIENCY_OUTPUT, index=False)

print("\n" + "=" * 70)
print("EFFICIENCY SUMMARY")
print("=" * 70)
print(f"Tokens/second:     {efficiency_summary['tokens_per_second_mean']:.1f} ± {efficiency_summary['tokens_per_second_std']:.1f}")
print(f"Samples/second:    {efficiency_summary['samples_per_second_mean']:.2f}")
print(f"Avg TTFT:          {efficiency_summary['avg_ttft_ms']:.2f} ms")
print(f"Peak VRAM:         {efficiency_summary['peak_vram_mb']:.0f} MB")
print(f"\nResults saved to: {EFFICIENCY_OUTPUT}")


COMPUTATIONAL EFFICIENCY BENCHMARK

Benchmark corpus: 1000 Spanish samples

--- Run 1/3 ---
  Warming up (100 samples)...


  Benchmarking (1000 samples)...



  Throughput:   0%|                                                                                                                                                   | 0/125 [00:00<?, ?it/s]


  Throughput:   1%|█                                                                                                                                          | 1/125 [00:01<02:11,  1.06s/it]


  Throughput:   2%|██▏                                                                                                                                        | 2/125 [00:01<01:41,  1.21it/s]


  Throughput:   2%|███▎                                                                                                                                       | 3/125 [00:02<01:54,  1.07it/s]


  Throughput:   3%|████▍                                                                                                                                      | 4/125 [00:03<01:40,  1.21it/s]


  Throughput:   4%|█████▌                                                                                                                                     | 5/125 [00:04<01:49,  1.09it/s]


  Throughput:   5%|██████▋                                                                                                                                    | 6/125 [00:05<01:54,  1.04it/s]


  Throughput:   6%|███████▊                                                                                                                                   | 7/125 [00:06<01:57,  1.00it/s]


  Throughput:   6%|████████▉                                                                                                                                  | 8/125 [00:07<01:59,  1.02s/it]


  Throughput:   7%|██████████                                                                                                                                 | 9/125 [00:08<01:45,  1.10it/s]


  Throughput:   8%|███████████                                                                                                                               | 10/125 [00:09<01:49,  1.05it/s]


  Throughput:   9%|████████████▏                                                                                                                             | 11/125 [00:10<01:38,  1.15it/s]


  Throughput:  10%|█████████████▏                                                                                                                            | 12/125 [00:11<01:44,  1.08it/s]


  Throughput:  10%|██████████████▎                                                                                                                           | 13/125 [00:12<01:48,  1.03it/s]


  Throughput:  11%|███████████████▍                                                                                                                          | 14/125 [00:13<01:50,  1.00it/s]


  Throughput:  12%|████████████████▌                                                                                                                         | 15/125 [00:14<01:51,  1.02s/it]


  Throughput:  13%|█████████████████▋                                                                                                                        | 16/125 [00:15<01:52,  1.03s/it]


  Throughput:  14%|██████████████████▊                                                                                                                       | 17/125 [00:16<01:52,  1.04s/it]


  Throughput:  14%|███████████████████▊                                                                                                                      | 18/125 [00:17<01:39,  1.08it/s]


  Throughput:  15%|████████████████████▉                                                                                                                     | 19/125 [00:18<01:42,  1.03it/s]


  Throughput:  16%|██████████████████████                                                                                                                    | 20/125 [00:19<01:44,  1.01it/s]


  Throughput:  17%|███████████████████████▏                                                                                                                  | 21/125 [00:20<01:45,  1.01s/it]


  Throughput:  18%|████████████████████████▎                                                                                                                 | 22/125 [00:21<01:45,  1.03s/it]


  Throughput:  18%|█████████████████████████▍                                                                                                                | 23/125 [00:22<01:45,  1.04s/it]


  Throughput:  19%|██████████████████████████▍                                                                                                               | 24/125 [00:23<01:33,  1.08it/s]


  Throughput:  20%|███████████████████████████▌                                                                                                              | 25/125 [00:24<01:36,  1.04it/s]


  Throughput:  21%|████████████████████████████▋                                                                                                             | 26/125 [00:25<01:38,  1.01it/s]


  Throughput:  22%|█████████████████████████████▊                                                                                                            | 27/125 [00:26<01:39,  1.01s/it]


  Throughput:  22%|██████████████████████████████▉                                                                                                           | 28/125 [00:27<01:39,  1.03s/it]


  Throughput:  23%|████████████████████████████████                                                                                                          | 29/125 [00:28<01:39,  1.04s/it]


  Throughput:  24%|█████████████████████████████████                                                                                                         | 30/125 [00:29<01:39,  1.04s/it]


  Throughput:  25%|██████████████████████████████████▏                                                                                                       | 31/125 [00:30<01:38,  1.05s/it]


  Throughput:  26%|███████████████████████████████████▎                                                                                                      | 32/125 [00:31<01:37,  1.05s/it]


  Throughput:  26%|████████████████████████████████████▍                                                                                                     | 33/125 [00:32<01:37,  1.06s/it]


  Throughput:  27%|█████████████████████████████████████▌                                                                                                    | 34/125 [00:33<01:36,  1.06s/it]


  Throughput:  28%|██████████████████████████████████████▋                                                                                                   | 35/125 [00:34<01:35,  1.06s/it]


  Throughput:  29%|███████████████████████████████████████▋                                                                                                  | 36/125 [00:35<01:34,  1.06s/it]


  Throughput:  30%|████████████████████████████████████████▊                                                                                                 | 37/125 [00:36<01:33,  1.06s/it]


  Throughput:  30%|█████████████████████████████████████████▉                                                                                                | 38/125 [00:37<01:32,  1.06s/it]


  Throughput:  31%|███████████████████████████████████████████                                                                                               | 39/125 [00:39<01:31,  1.06s/it]


  Throughput:  32%|████████████████████████████████████████████▏                                                                                             | 40/125 [00:40<01:30,  1.06s/it]


  Throughput:  33%|█████████████████████████████████████████████▎                                                                                            | 41/125 [00:41<01:29,  1.06s/it]


  Throughput:  34%|██████████████████████████████████████████████▎                                                                                           | 42/125 [00:42<01:27,  1.06s/it]


  Throughput:  34%|███████████████████████████████████████████████▍                                                                                          | 43/125 [00:43<01:26,  1.06s/it]


  Throughput:  35%|████████████████████████████████████████████████▌                                                                                         | 44/125 [00:44<01:25,  1.06s/it]


  Throughput:  36%|█████████████████████████████████████████████████▋                                                                                        | 45/125 [00:45<01:24,  1.06s/it]


  Throughput:  37%|██████████████████████████████████████████████████▊                                                                                       | 46/125 [00:46<01:23,  1.06s/it]


  Throughput:  38%|███████████████████████████████████████████████████▉                                                                                      | 47/125 [00:47<01:22,  1.06s/it]


  Throughput:  38%|████████████████████████████████████████████████████▉                                                                                     | 48/125 [00:48<01:21,  1.06s/it]


  Throughput:  39%|██████████████████████████████████████████████████████                                                                                    | 49/125 [00:49<01:20,  1.06s/it]


  Throughput:  40%|███████████████████████████████████████████████████████▏                                                                                  | 50/125 [00:50<01:19,  1.06s/it]


  Throughput:  41%|████████████████████████████████████████████████████████▎                                                                                 | 51/125 [00:51<01:18,  1.06s/it]


  Throughput:  42%|█████████████████████████████████████████████████████████▍                                                                                | 52/125 [00:52<01:17,  1.06s/it]


  Throughput:  42%|██████████████████████████████████████████████████████████▌                                                                               | 53/125 [00:53<01:16,  1.06s/it]


  Throughput:  43%|███████████████████████████████████████████████████████████▌                                                                              | 54/125 [00:54<01:15,  1.06s/it]


  Throughput:  44%|████████████████████████████████████████████████████████████▋                                                                             | 55/125 [00:55<01:14,  1.06s/it]


  Throughput:  45%|█████████████████████████████████████████████████████████████▊                                                                            | 56/125 [00:57<01:13,  1.06s/it]


  Throughput:  46%|██████████████████████████████████████████████████████████████▉                                                                           | 57/125 [00:58<01:12,  1.06s/it]


  Throughput:  46%|████████████████████████████████████████████████████████████████                                                                          | 58/125 [00:59<01:11,  1.06s/it]


  Throughput:  47%|█████████████████████████████████████████████████████████████████▏                                                                        | 59/125 [01:00<01:10,  1.06s/it]


  Throughput:  48%|██████████████████████████████████████████████████████████████████▏                                                                       | 60/125 [01:01<01:09,  1.06s/it]


  Throughput:  49%|███████████████████████████████████████████████████████████████████▎                                                                      | 61/125 [01:02<01:07,  1.06s/it]


  Throughput:  50%|████████████████████████████████████████████████████████████████████▍                                                                     | 62/125 [01:03<01:06,  1.06s/it]


  Throughput:  50%|█████████████████████████████████████████████████████████████████████▌                                                                    | 63/125 [01:04<01:05,  1.06s/it]


  Throughput:  51%|██████████████████████████████████████████████████████████████████████▋                                                                   | 64/125 [01:05<01:04,  1.06s/it]


  Throughput:  52%|███████████████████████████████████████████████████████████████████████▊                                                                  | 65/125 [01:06<01:03,  1.06s/it]


  Throughput:  53%|████████████████████████████████████████████████████████████████████████▊                                                                 | 66/125 [01:07<01:02,  1.06s/it]


  Throughput:  54%|█████████████████████████████████████████████████████████████████████████▉                                                                | 67/125 [01:08<00:54,  1.06it/s]


  Throughput:  54%|███████████████████████████████████████████████████████████████████████████                                                               | 68/125 [01:09<00:55,  1.02it/s]


  Throughput:  55%|████████████████████████████████████████████████████████████████████████████▏                                                             | 69/125 [01:10<00:56,  1.00s/it]


  Throughput:  56%|█████████████████████████████████████████████████████████████████████████████▎                                                            | 70/125 [01:11<00:56,  1.02s/it]


  Throughput:  57%|██████████████████████████████████████████████████████████████████████████████▍                                                           | 71/125 [01:12<00:55,  1.03s/it]


  Throughput:  58%|███████████████████████████████████████████████████████████████████████████████▍                                                          | 72/125 [01:13<00:55,  1.04s/it]


  Throughput:  58%|████████████████████████████████████████████████████████████████████████████████▌                                                         | 73/125 [01:14<00:54,  1.05s/it]


  Throughput:  59%|█████████████████████████████████████████████████████████████████████████████████▋                                                        | 74/125 [01:15<00:53,  1.05s/it]


  Throughput:  60%|██████████████████████████████████████████████████████████████████████████████████▊                                                       | 75/125 [01:16<00:52,  1.05s/it]


  Throughput:  61%|███████████████████████████████████████████████████████████████████████████████████▉                                                      | 76/125 [01:17<00:51,  1.06s/it]


  Throughput:  62%|█████████████████████████████████████████████████████████████████████████████████████                                                     | 77/125 [01:18<00:50,  1.06s/it]


  Throughput:  62%|██████████████████████████████████████████████████████████████████████████████████████                                                    | 78/125 [01:19<00:49,  1.06s/it]


  Throughput:  63%|███████████████████████████████████████████████████████████████████████████████████████▏                                                  | 79/125 [01:21<00:48,  1.06s/it]


  Throughput:  64%|████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 80/125 [01:22<00:47,  1.06s/it]


  Throughput:  65%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                | 81/125 [01:23<00:46,  1.06s/it]


  Throughput:  66%|██████████████████████████████████████████████████████████████████████████████████████████▌                                               | 82/125 [01:24<00:45,  1.06s/it]


  Throughput:  66%|███████████████████████████████████████████████████████████████████████████████████████████▋                                              | 83/125 [01:25<00:44,  1.06s/it]


  Throughput:  67%|████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 84/125 [01:26<00:43,  1.06s/it]


  Throughput:  68%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 85/125 [01:27<00:42,  1.06s/it]


  Throughput:  69%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 86/125 [01:28<00:41,  1.06s/it]


  Throughput:  70%|████████████████████████████████████████████████████████████████████████████████████████████████                                          | 87/125 [01:29<00:40,  1.06s/it]


  Throughput:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 88/125 [01:30<00:39,  1.06s/it]


  Throughput:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 89/125 [01:31<00:38,  1.06s/it]


  Throughput:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 90/125 [01:32<00:37,  1.06s/it]


  Throughput:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 91/125 [01:33<00:36,  1.06s/it]


  Throughput:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 92/125 [01:34<00:35,  1.06s/it]


  Throughput:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 93/125 [01:35<00:33,  1.06s/it]


  Throughput:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 94/125 [01:36<00:32,  1.06s/it]


  Throughput:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 95/125 [01:37<00:28,  1.06it/s]


  Throughput:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 96/125 [01:38<00:28,  1.02it/s]


  Throughput:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 97/125 [01:39<00:28,  1.00s/it]


  Throughput:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 98/125 [01:40<00:27,  1.02s/it]


  Throughput:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 99/125 [01:41<00:26,  1.03s/it]


  Throughput:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 100/125 [01:42<00:26,  1.04s/it]


  Throughput:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 101/125 [01:43<00:25,  1.05s/it]


  Throughput:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 102/125 [01:45<00:24,  1.05s/it]


  Throughput:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 103/125 [01:46<00:23,  1.05s/it]


  Throughput:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 104/125 [01:47<00:22,  1.06s/it]


  Throughput:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 105/125 [01:48<00:21,  1.06s/it]


  Throughput:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/125 [01:49<00:20,  1.06s/it]


  Throughput:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 107/125 [01:50<00:19,  1.06s/it]


  Throughput:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 108/125 [01:51<00:18,  1.06s/it]


  Throughput:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 109/125 [01:52<00:16,  1.06s/it]


  Throughput:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 110/125 [01:53<00:15,  1.06s/it]


  Throughput:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 111/125 [01:54<00:14,  1.06s/it]


  Throughput:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 112/125 [01:55<00:13,  1.06s/it]


  Throughput:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 113/125 [01:56<00:12,  1.06s/it]


  Throughput:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 114/125 [01:57<00:11,  1.06s/it]


  Throughput:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 115/125 [01:58<00:10,  1.06s/it]


  Throughput:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 116/125 [01:59<00:09,  1.06s/it]


  Throughput:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [02:00<00:08,  1.06s/it]


  Throughput:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 118/125 [02:02<00:07,  1.06s/it]


  Throughput:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 119/125 [02:03<00:06,  1.06s/it]


  Throughput:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 120/125 [02:04<00:05,  1.06s/it]


  Throughput:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 121/125 [02:05<00:04,  1.06s/it]


  Throughput:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 122/125 [02:06<00:03,  1.06s/it]


  Throughput:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [02:07<00:02,  1.06s/it]


  Throughput:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 124/125 [02:08<00:01,  1.06s/it]


  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [02:09<00:00,  1.06s/it]


  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [02:09<00:00,  1.04s/it]




  Tokens/sec: 497.3
  Peak VRAM: 3108 MB

--- Run 2/3 ---
  Warming up (100 samples)...


  Benchmarking (1000 samples)...



  Throughput:   0%|                                                                                                                                                   | 0/125 [00:00<?, ?it/s]


  Throughput:   1%|█                                                                                                                                          | 1/125 [00:01<02:11,  1.06s/it]


  Throughput:   2%|██▏                                                                                                                                        | 2/125 [00:01<01:41,  1.21it/s]


  Throughput:   2%|███▎                                                                                                                                       | 3/125 [00:02<01:53,  1.07it/s]


  Throughput:   3%|████▍                                                                                                                                      | 4/125 [00:03<01:39,  1.21it/s]


  Throughput:   4%|█████▌                                                                                                                                     | 5/125 [00:04<01:49,  1.10it/s]


  Throughput:   5%|██████▋                                                                                                                                    | 6/125 [00:05<01:54,  1.04it/s]


  Throughput:   6%|███████▊                                                                                                                                   | 7/125 [00:06<01:57,  1.01it/s]


  Throughput:   6%|████████▉                                                                                                                                  | 8/125 [00:07<01:58,  1.01s/it]


  Throughput:   7%|██████████                                                                                                                                 | 9/125 [00:08<01:44,  1.10it/s]


  Throughput:   8%|███████████                                                                                                                               | 10/125 [00:09<01:49,  1.05it/s]


  Throughput:   9%|████████████▏                                                                                                                             | 11/125 [00:10<01:38,  1.16it/s]


  Throughput:  10%|█████████████▏                                                                                                                            | 12/125 [00:11<01:44,  1.08it/s]


  Throughput:  10%|██████████████▎                                                                                                                           | 13/125 [00:12<01:48,  1.04it/s]


  Throughput:  11%|███████████████▍                                                                                                                          | 14/125 [00:13<01:50,  1.01it/s]


  Throughput:  12%|████████████████▌                                                                                                                         | 15/125 [00:14<01:51,  1.01s/it]


  Throughput:  13%|█████████████████▋                                                                                                                        | 16/125 [00:15<01:52,  1.03s/it]


  Throughput:  14%|██████████████████▊                                                                                                                       | 17/125 [00:16<01:52,  1.04s/it]


  Throughput:  14%|███████████████████▊                                                                                                                      | 18/125 [00:17<01:38,  1.08it/s]


  Throughput:  15%|████████████████████▉                                                                                                                     | 19/125 [00:18<01:42,  1.03it/s]


  Throughput:  16%|██████████████████████                                                                                                                    | 20/125 [00:19<01:44,  1.01it/s]


  Throughput:  17%|███████████████████████▏                                                                                                                  | 21/125 [00:20<01:45,  1.01s/it]


  Throughput:  18%|████████████████████████▎                                                                                                                 | 22/125 [00:21<01:46,  1.03s/it]


  Throughput:  18%|█████████████████████████▍                                                                                                                | 23/125 [00:22<01:46,  1.04s/it]


  Throughput:  19%|██████████████████████████▍                                                                                                               | 24/125 [00:23<01:33,  1.08it/s]


  Throughput:  20%|███████████████████████████▌                                                                                                              | 25/125 [00:24<01:36,  1.03it/s]


  Throughput:  21%|████████████████████████████▋                                                                                                             | 26/125 [00:25<01:38,  1.00it/s]


  Throughput:  22%|█████████████████████████████▊                                                                                                            | 27/125 [00:26<01:39,  1.02s/it]


  Throughput:  22%|██████████████████████████████▉                                                                                                           | 28/125 [00:27<01:40,  1.03s/it]


  Throughput:  23%|████████████████████████████████                                                                                                          | 29/125 [00:28<01:40,  1.04s/it]


  Throughput:  24%|█████████████████████████████████                                                                                                         | 30/125 [00:29<01:39,  1.05s/it]


  Throughput:  25%|██████████████████████████████████▏                                                                                                       | 31/125 [00:30<01:38,  1.05s/it]


  Throughput:  26%|███████████████████████████████████▎                                                                                                      | 32/125 [00:31<01:38,  1.06s/it]


  Throughput:  26%|████████████████████████████████████▍                                                                                                     | 33/125 [00:32<01:37,  1.06s/it]


  Throughput:  27%|█████████████████████████████████████▌                                                                                                    | 34/125 [00:33<01:36,  1.06s/it]


  Throughput:  28%|██████████████████████████████████████▋                                                                                                   | 35/125 [00:34<01:35,  1.06s/it]


  Throughput:  29%|███████████████████████████████████████▋                                                                                                  | 36/125 [00:35<01:34,  1.06s/it]


  Throughput:  30%|████████████████████████████████████████▊                                                                                                 | 37/125 [00:36<01:33,  1.06s/it]


  Throughput:  30%|█████████████████████████████████████████▉                                                                                                | 38/125 [00:37<01:32,  1.06s/it]


  Throughput:  31%|███████████████████████████████████████████                                                                                               | 39/125 [00:39<01:31,  1.06s/it]


  Throughput:  32%|████████████████████████████████████████████▏                                                                                             | 40/125 [00:40<01:30,  1.06s/it]


  Throughput:  33%|█████████████████████████████████████████████▎                                                                                            | 41/125 [00:41<01:29,  1.06s/it]


  Throughput:  34%|██████████████████████████████████████████████▎                                                                                           | 42/125 [00:42<01:28,  1.06s/it]


  Throughput:  34%|███████████████████████████████████████████████▍                                                                                          | 43/125 [00:43<01:27,  1.06s/it]


  Throughput:  35%|████████████████████████████████████████████████▌                                                                                         | 44/125 [00:44<01:26,  1.06s/it]


  Throughput:  36%|█████████████████████████████████████████████████▋                                                                                        | 45/125 [00:45<01:25,  1.06s/it]


  Throughput:  37%|██████████████████████████████████████████████████▊                                                                                       | 46/125 [00:46<01:24,  1.06s/it]


  Throughput:  38%|███████████████████████████████████████████████████▉                                                                                      | 47/125 [00:47<01:22,  1.06s/it]


  Throughput:  38%|████████████████████████████████████████████████████▉                                                                                     | 48/125 [00:48<01:21,  1.06s/it]


  Throughput:  39%|██████████████████████████████████████████████████████                                                                                    | 49/125 [00:49<01:20,  1.06s/it]


  Throughput:  40%|███████████████████████████████████████████████████████▏                                                                                  | 50/125 [00:50<01:19,  1.06s/it]


  Throughput:  41%|████████████████████████████████████████████████████████▎                                                                                 | 51/125 [00:51<01:18,  1.07s/it]


  Throughput:  42%|█████████████████████████████████████████████████████████▍                                                                                | 52/125 [00:52<01:17,  1.07s/it]


  Throughput:  42%|██████████████████████████████████████████████████████████▌                                                                               | 53/125 [00:53<01:16,  1.07s/it]


  Throughput:  43%|███████████████████████████████████████████████████████████▌                                                                              | 54/125 [00:55<01:15,  1.07s/it]


  Throughput:  44%|████████████████████████████████████████████████████████████▋                                                                             | 55/125 [00:56<01:14,  1.07s/it]


  Throughput:  45%|█████████████████████████████████████████████████████████████▊                                                                            | 56/125 [00:57<01:13,  1.07s/it]


  Throughput:  46%|██████████████████████████████████████████████████████████████▉                                                                           | 57/125 [00:58<01:12,  1.06s/it]


  Throughput:  46%|████████████████████████████████████████████████████████████████                                                                          | 58/125 [00:59<01:11,  1.06s/it]


  Throughput:  47%|█████████████████████████████████████████████████████████████████▏                                                                        | 59/125 [01:00<01:10,  1.06s/it]


  Throughput:  48%|██████████████████████████████████████████████████████████████████▏                                                                       | 60/125 [01:01<01:09,  1.06s/it]


  Throughput:  49%|███████████████████████████████████████████████████████████████████▎                                                                      | 61/125 [01:02<01:08,  1.06s/it]


  Throughput:  50%|████████████████████████████████████████████████████████████████████▍                                                                     | 62/125 [01:03<01:07,  1.06s/it]


  Throughput:  50%|█████████████████████████████████████████████████████████████████████▌                                                                    | 63/125 [01:04<01:05,  1.06s/it]


  Throughput:  51%|██████████████████████████████████████████████████████████████████████▋                                                                   | 64/125 [01:05<01:04,  1.06s/it]


  Throughput:  52%|███████████████████████████████████████████████████████████████████████▊                                                                  | 65/125 [01:06<01:03,  1.06s/it]


  Throughput:  53%|████████████████████████████████████████████████████████████████████████▊                                                                 | 66/125 [01:07<01:02,  1.06s/it]


  Throughput:  54%|█████████████████████████████████████████████████████████████████████████▉                                                                | 67/125 [01:08<00:54,  1.06it/s]


  Throughput:  54%|███████████████████████████████████████████████████████████████████████████                                                               | 68/125 [01:09<00:55,  1.02it/s]


  Throughput:  55%|████████████████████████████████████████████████████████████████████████████▏                                                             | 69/125 [01:10<00:56,  1.00s/it]


  Throughput:  56%|█████████████████████████████████████████████████████████████████████████████▎                                                            | 70/125 [01:11<00:56,  1.02s/it]


  Throughput:  57%|██████████████████████████████████████████████████████████████████████████████▍                                                           | 71/125 [01:12<00:55,  1.04s/it]


  Throughput:  58%|███████████████████████████████████████████████████████████████████████████████▍                                                          | 72/125 [01:13<00:55,  1.05s/it]


  Throughput:  58%|████████████████████████████████████████████████████████████████████████████████▌                                                         | 73/125 [01:14<00:54,  1.05s/it]


  Throughput:  59%|█████████████████████████████████████████████████████████████████████████████████▋                                                        | 74/125 [01:15<00:53,  1.06s/it]


  Throughput:  60%|██████████████████████████████████████████████████████████████████████████████████▊                                                       | 75/125 [01:16<00:52,  1.06s/it]


  Throughput:  61%|███████████████████████████████████████████████████████████████████████████████████▉                                                      | 76/125 [01:18<00:52,  1.06s/it]


  Throughput:  62%|█████████████████████████████████████████████████████████████████████████████████████                                                     | 77/125 [01:19<00:51,  1.06s/it]


  Throughput:  62%|██████████████████████████████████████████████████████████████████████████████████████                                                    | 78/125 [01:20<00:49,  1.06s/it]


  Throughput:  63%|███████████████████████████████████████████████████████████████████████████████████████▏                                                  | 79/125 [01:21<00:48,  1.06s/it]


  Throughput:  64%|████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 80/125 [01:22<00:47,  1.06s/it]


  Throughput:  65%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                | 81/125 [01:23<00:46,  1.06s/it]


  Throughput:  66%|██████████████████████████████████████████████████████████████████████████████████████████▌                                               | 82/125 [01:24<00:45,  1.06s/it]


  Throughput:  66%|███████████████████████████████████████████████████████████████████████████████████████████▋                                              | 83/125 [01:25<00:44,  1.06s/it]


  Throughput:  67%|████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 84/125 [01:26<00:43,  1.06s/it]


  Throughput:  68%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 85/125 [01:27<00:42,  1.06s/it]


  Throughput:  69%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 86/125 [01:28<00:41,  1.06s/it]


  Throughput:  70%|████████████████████████████████████████████████████████████████████████████████████████████████                                          | 87/125 [01:29<00:40,  1.06s/it]


  Throughput:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 88/125 [01:30<00:39,  1.06s/it]


  Throughput:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 89/125 [01:31<00:38,  1.06s/it]


  Throughput:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 90/125 [01:32<00:37,  1.06s/it]


  Throughput:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 91/125 [01:33<00:36,  1.06s/it]


  Throughput:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 92/125 [01:35<00:35,  1.06s/it]


  Throughput:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 93/125 [01:36<00:34,  1.06s/it]


  Throughput:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 94/125 [01:37<00:32,  1.06s/it]


  Throughput:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 95/125 [01:37<00:28,  1.06it/s]


  Throughput:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 96/125 [01:38<00:28,  1.02it/s]


  Throughput:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 97/125 [01:39<00:28,  1.01s/it]


  Throughput:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 98/125 [01:41<00:27,  1.02s/it]


  Throughput:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 99/125 [01:42<00:26,  1.03s/it]


  Throughput:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 100/125 [01:43<00:26,  1.04s/it]


  Throughput:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 101/125 [01:44<00:25,  1.05s/it]


  Throughput:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 102/125 [01:45<00:24,  1.05s/it]


  Throughput:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 103/125 [01:46<00:23,  1.06s/it]


  Throughput:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 104/125 [01:47<00:22,  1.06s/it]


  Throughput:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 105/125 [01:48<00:21,  1.06s/it]


  Throughput:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/125 [01:49<00:20,  1.06s/it]


  Throughput:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 107/125 [01:50<00:19,  1.06s/it]


  Throughput:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 108/125 [01:51<00:18,  1.06s/it]


  Throughput:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 109/125 [01:52<00:16,  1.06s/it]


  Throughput:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 110/125 [01:53<00:15,  1.06s/it]


  Throughput:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 111/125 [01:54<00:14,  1.06s/it]


  Throughput:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 112/125 [01:55<00:13,  1.06s/it]


  Throughput:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 113/125 [01:56<00:12,  1.06s/it]


  Throughput:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 114/125 [01:58<00:11,  1.06s/it]


  Throughput:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 115/125 [01:59<00:10,  1.06s/it]


  Throughput:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 116/125 [02:00<00:09,  1.06s/it]


  Throughput:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [02:01<00:08,  1.06s/it]


  Throughput:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 118/125 [02:02<00:07,  1.06s/it]


  Throughput:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 119/125 [02:03<00:06,  1.06s/it]


  Throughput:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 120/125 [02:04<00:05,  1.06s/it]


  Throughput:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 121/125 [02:05<00:04,  1.06s/it]


  Throughput:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 122/125 [02:06<00:03,  1.06s/it]


  Throughput:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [02:07<00:02,  1.06s/it]


  Throughput:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 124/125 [02:08<00:01,  1.06s/it]


  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [02:09<00:00,  1.06s/it]


  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [02:09<00:00,  1.04s/it]




  Tokens/sec: 496.3
  Peak VRAM: 3108 MB

--- Run 3/3 ---
  Warming up (100 samples)...


  Benchmarking (1000 samples)...



  Throughput:   0%|                                                                                                                                                   | 0/125 [00:00<?, ?it/s]


  Throughput:   1%|█                                                                                                                                          | 1/125 [00:01<02:12,  1.06s/it]


  Throughput:   2%|██▏                                                                                                                                        | 2/125 [00:01<01:41,  1.21it/s]


  Throughput:   2%|███▎                                                                                                                                       | 3/125 [00:02<01:54,  1.07it/s]


  Throughput:   3%|████▍                                                                                                                                      | 4/125 [00:03<01:40,  1.21it/s]


  Throughput:   4%|█████▌                                                                                                                                     | 5/125 [00:04<01:49,  1.10it/s]


  Throughput:   5%|██████▋                                                                                                                                    | 6/125 [00:05<01:54,  1.04it/s]


  Throughput:   6%|███████▊                                                                                                                                   | 7/125 [00:06<01:57,  1.00it/s]


  Throughput:   6%|████████▉                                                                                                                                  | 8/125 [00:07<01:59,  1.02s/it]


  Throughput:   7%|██████████                                                                                                                                 | 9/125 [00:08<01:45,  1.10it/s]


  Throughput:   8%|███████████                                                                                                                               | 10/125 [00:09<01:50,  1.05it/s]


  Throughput:   9%|████████████▏                                                                                                                             | 11/125 [00:10<01:38,  1.15it/s]


  Throughput:  10%|█████████████▏                                                                                                                            | 12/125 [00:11<01:44,  1.08it/s]


  Throughput:  10%|██████████████▎                                                                                                                           | 13/125 [00:12<01:48,  1.03it/s]


  Throughput:  11%|███████████████▍                                                                                                                          | 14/125 [00:13<01:50,  1.00it/s]


  Throughput:  12%|████████████████▌                                                                                                                         | 15/125 [00:14<01:52,  1.02s/it]


  Throughput:  13%|█████████████████▋                                                                                                                        | 16/125 [00:15<01:52,  1.03s/it]


  Throughput:  14%|██████████████████▊                                                                                                                       | 17/125 [00:16<01:52,  1.04s/it]


  Throughput:  14%|███████████████████▊                                                                                                                      | 18/125 [00:17<01:39,  1.08it/s]


  Throughput:  15%|████████████████████▉                                                                                                                     | 19/125 [00:18<01:42,  1.03it/s]


  Throughput:  16%|██████████████████████                                                                                                                    | 20/125 [00:19<01:44,  1.00it/s]


  Throughput:  17%|███████████████████████▏                                                                                                                  | 21/125 [00:20<01:45,  1.02s/it]


  Throughput:  18%|████████████████████████▎                                                                                                                 | 22/125 [00:21<01:46,  1.03s/it]


  Throughput:  18%|█████████████████████████▍                                                                                                                | 23/125 [00:22<01:46,  1.04s/it]


  Throughput:  19%|██████████████████████████▍                                                                                                               | 24/125 [00:23<01:33,  1.08it/s]


  Throughput:  20%|███████████████████████████▌                                                                                                              | 25/125 [00:24<01:36,  1.03it/s]


  Throughput:  21%|████████████████████████████▋                                                                                                             | 26/125 [00:25<01:38,  1.00it/s]


  Throughput:  22%|█████████████████████████████▊                                                                                                            | 27/125 [00:26<01:39,  1.02s/it]


  Throughput:  22%|██████████████████████████████▉                                                                                                           | 28/125 [00:27<01:39,  1.03s/it]


  Throughput:  23%|████████████████████████████████                                                                                                          | 29/125 [00:28<01:39,  1.04s/it]


  Throughput:  24%|█████████████████████████████████                                                                                                         | 30/125 [00:29<01:39,  1.05s/it]


  Throughput:  25%|██████████████████████████████████▏                                                                                                       | 31/125 [00:30<01:38,  1.05s/it]


  Throughput:  26%|███████████████████████████████████▎                                                                                                      | 32/125 [00:31<01:38,  1.06s/it]


  Throughput:  26%|████████████████████████████████████▍                                                                                                     | 33/125 [00:32<01:37,  1.06s/it]


  Throughput:  27%|█████████████████████████████████████▌                                                                                                    | 34/125 [00:33<01:36,  1.06s/it]


  Throughput:  28%|██████████████████████████████████████▋                                                                                                   | 35/125 [00:34<01:35,  1.06s/it]


  Throughput:  29%|███████████████████████████████████████▋                                                                                                  | 36/125 [00:35<01:34,  1.06s/it]


  Throughput:  30%|████████████████████████████████████████▊                                                                                                 | 37/125 [00:36<01:33,  1.06s/it]


  Throughput:  30%|█████████████████████████████████████████▉                                                                                                | 38/125 [00:38<01:32,  1.06s/it]


  Throughput:  31%|███████████████████████████████████████████                                                                                               | 39/125 [00:39<01:31,  1.06s/it]


  Throughput:  32%|████████████████████████████████████████████▏                                                                                             | 40/125 [00:40<01:30,  1.07s/it]


  Throughput:  33%|█████████████████████████████████████████████▎                                                                                            | 41/125 [00:41<01:29,  1.07s/it]


  Throughput:  34%|██████████████████████████████████████████████▎                                                                                           | 42/125 [00:42<01:28,  1.07s/it]


  Throughput:  34%|███████████████████████████████████████████████▍                                                                                          | 43/125 [00:43<01:27,  1.07s/it]


  Throughput:  35%|████████████████████████████████████████████████▌                                                                                         | 44/125 [00:44<01:26,  1.07s/it]


  Throughput:  36%|█████████████████████████████████████████████████▋                                                                                        | 45/125 [00:45<01:25,  1.07s/it]


  Throughput:  37%|██████████████████████████████████████████████████▊                                                                                       | 46/125 [00:46<01:24,  1.07s/it]


  Throughput:  38%|███████████████████████████████████████████████████▉                                                                                      | 47/125 [00:47<01:23,  1.07s/it]


  Throughput:  38%|████████████████████████████████████████████████████▉                                                                                     | 48/125 [00:48<01:22,  1.07s/it]


  Throughput:  39%|██████████████████████████████████████████████████████                                                                                    | 49/125 [00:49<01:21,  1.07s/it]


  Throughput:  40%|███████████████████████████████████████████████████████▏                                                                                  | 50/125 [00:50<01:20,  1.07s/it]


  Throughput:  41%|████████████████████████████████████████████████████████▎                                                                                 | 51/125 [00:51<01:19,  1.07s/it]


  Throughput:  42%|█████████████████████████████████████████████████████████▍                                                                                | 52/125 [00:52<01:18,  1.07s/it]


  Throughput:  42%|██████████████████████████████████████████████████████████▌                                                                               | 53/125 [00:54<01:16,  1.07s/it]


  Throughput:  43%|███████████████████████████████████████████████████████████▌                                                                              | 54/125 [00:55<01:15,  1.07s/it]


  Throughput:  44%|████████████████████████████████████████████████████████████▋                                                                             | 55/125 [00:56<01:14,  1.07s/it]


  Throughput:  45%|█████████████████████████████████████████████████████████████▊                                                                            | 56/125 [00:57<01:13,  1.07s/it]


  Throughput:  46%|██████████████████████████████████████████████████████████████▉                                                                           | 57/125 [00:58<01:12,  1.07s/it]


  Throughput:  46%|████████████████████████████████████████████████████████████████                                                                          | 58/125 [00:59<01:11,  1.07s/it]


  Throughput:  47%|█████████████████████████████████████████████████████████████████▏                                                                        | 59/125 [01:00<01:10,  1.07s/it]


  Throughput:  48%|██████████████████████████████████████████████████████████████████▏                                                                       | 60/125 [01:01<01:09,  1.07s/it]


  Throughput:  49%|███████████████████████████████████████████████████████████████████▎                                                                      | 61/125 [01:02<01:08,  1.06s/it]


  Throughput:  50%|████████████████████████████████████████████████████████████████████▍                                                                     | 62/125 [01:03<01:07,  1.07s/it]


  Throughput:  50%|█████████████████████████████████████████████████████████████████████▌                                                                    | 63/125 [01:04<01:06,  1.07s/it]


  Throughput:  51%|██████████████████████████████████████████████████████████████████████▋                                                                   | 64/125 [01:05<01:05,  1.07s/it]


  Throughput:  52%|███████████████████████████████████████████████████████████████████████▊                                                                  | 65/125 [01:06<01:04,  1.07s/it]


  Throughput:  53%|████████████████████████████████████████████████████████████████████████▊                                                                 | 66/125 [01:07<01:03,  1.07s/it]


  Throughput:  54%|█████████████████████████████████████████████████████████████████████████▉                                                                | 67/125 [01:08<00:54,  1.06it/s]


  Throughput:  54%|███████████████████████████████████████████████████████████████████████████                                                               | 68/125 [01:09<00:56,  1.02it/s]


  Throughput:  55%|████████████████████████████████████████████████████████████████████████████▏                                                             | 69/125 [01:10<00:56,  1.01s/it]


  Throughput:  56%|█████████████████████████████████████████████████████████████████████████████▎                                                            | 70/125 [01:11<00:56,  1.03s/it]


  Throughput:  57%|██████████████████████████████████████████████████████████████████████████████▍                                                           | 71/125 [01:12<00:56,  1.04s/it]


  Throughput:  58%|███████████████████████████████████████████████████████████████████████████████▍                                                          | 72/125 [01:13<00:55,  1.05s/it]


  Throughput:  58%|████████████████████████████████████████████████████████████████████████████████▌                                                         | 73/125 [01:15<00:54,  1.05s/it]


  Throughput:  59%|█████████████████████████████████████████████████████████████████████████████████▋                                                        | 74/125 [01:16<00:53,  1.06s/it]


  Throughput:  60%|██████████████████████████████████████████████████████████████████████████████████▊                                                       | 75/125 [01:17<00:52,  1.06s/it]


  Throughput:  61%|███████████████████████████████████████████████████████████████████████████████████▉                                                      | 76/125 [01:18<00:51,  1.06s/it]


  Throughput:  62%|█████████████████████████████████████████████████████████████████████████████████████                                                     | 77/125 [01:19<00:50,  1.06s/it]


  Throughput:  62%|██████████████████████████████████████████████████████████████████████████████████████                                                    | 78/125 [01:20<00:50,  1.06s/it]


  Throughput:  63%|███████████████████████████████████████████████████████████████████████████████████████▏                                                  | 79/125 [01:21<00:49,  1.07s/it]


  Throughput:  64%|████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 80/125 [01:22<00:47,  1.07s/it]


  Throughput:  65%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                | 81/125 [01:23<00:46,  1.07s/it]


  Throughput:  66%|██████████████████████████████████████████████████████████████████████████████████████████▌                                               | 82/125 [01:24<00:45,  1.07s/it]


  Throughput:  66%|███████████████████████████████████████████████████████████████████████████████████████████▋                                              | 83/125 [01:25<00:44,  1.06s/it]


  Throughput:  67%|████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 84/125 [01:26<00:43,  1.07s/it]


  Throughput:  68%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 85/125 [01:27<00:42,  1.07s/it]


  Throughput:  69%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 86/125 [01:28<00:41,  1.07s/it]


  Throughput:  70%|████████████████████████████████████████████████████████████████████████████████████████████████                                          | 87/125 [01:29<00:40,  1.07s/it]


  Throughput:  70%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 88/125 [01:30<00:39,  1.07s/it]


  Throughput:  71%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 89/125 [01:32<00:38,  1.07s/it]


  Throughput:  72%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 90/125 [01:33<00:37,  1.07s/it]


  Throughput:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 91/125 [01:34<00:36,  1.06s/it]


  Throughput:  74%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 92/125 [01:35<00:35,  1.06s/it]


  Throughput:  74%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 93/125 [01:36<00:34,  1.07s/it]


  Throughput:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 94/125 [01:37<00:33,  1.07s/it]


  Throughput:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 95/125 [01:38<00:28,  1.06it/s]


  Throughput:  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 96/125 [01:39<00:28,  1.02it/s]


  Throughput:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 97/125 [01:40<00:28,  1.01s/it]


  Throughput:  78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 98/125 [01:41<00:27,  1.03s/it]


  Throughput:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 99/125 [01:42<00:26,  1.04s/it]


  Throughput:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 100/125 [01:43<00:26,  1.05s/it]


  Throughput:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 101/125 [01:44<00:25,  1.05s/it]


  Throughput:  82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 102/125 [01:45<00:24,  1.06s/it]


  Throughput:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 103/125 [01:46<00:23,  1.06s/it]


  Throughput:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 104/125 [01:47<00:22,  1.06s/it]


  Throughput:  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 105/125 [01:48<00:21,  1.06s/it]


  Throughput:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 106/125 [01:49<00:20,  1.07s/it]


  Throughput:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 107/125 [01:50<00:19,  1.07s/it]


  Throughput:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 108/125 [01:51<00:18,  1.07s/it]


  Throughput:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 109/125 [01:53<00:17,  1.07s/it]


  Throughput:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 110/125 [01:54<00:16,  1.07s/it]


  Throughput:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 111/125 [01:55<00:14,  1.07s/it]


  Throughput:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 112/125 [01:56<00:13,  1.07s/it]


  Throughput:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 113/125 [01:57<00:12,  1.07s/it]


  Throughput:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 114/125 [01:58<00:11,  1.07s/it]


  Throughput:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 115/125 [01:59<00:10,  1.07s/it]


  Throughput:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 116/125 [02:00<00:09,  1.07s/it]


  Throughput:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 117/125 [02:01<00:08,  1.07s/it]


  Throughput:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 118/125 [02:02<00:07,  1.07s/it]


  Throughput:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 119/125 [02:03<00:06,  1.07s/it]


  Throughput:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 120/125 [02:04<00:05,  1.07s/it]


  Throughput:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 121/125 [02:05<00:04,  1.07s/it]


  Throughput:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 122/125 [02:06<00:03,  1.07s/it]


  Throughput:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 123/125 [02:07<00:02,  1.07s/it]


  Throughput:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 124/125 [02:09<00:01,  1.07s/it]


  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [02:10<00:00,  1.07s/it]


  Throughput: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 125/125 [02:10<00:00,  1.04s/it]

  Tokens/sec: 495.0
  Peak VRAM: 3108 MB

EFFICIENCY SUMMARY
Tokens/second:     496.2 ± 0.9
Samples/second:    7.75
Avg TTFT:          16.12 ms
Peak VRAM:         3108 MB

Results saved to: results/efficiency_adapted.csv





In [21]:
# Cell 21: Final Summary and Comparison with Baseline
# ====================================================

print("\n" + "=" * 70)
print("ADAPTED MODEL EVALUATION COMPLETE")
print("=" * 70)

print(f"\nModel: {MODEL_PATH}")
print(f"Model Name: {MODEL_NAME}")

print("\n--- Output Files ---")
print(f"  Perplexity:   {PPL_OUTPUT}")
print(f"  NLU Results:  {NLU_OUTPUT}")
print(f"  MT Results:   {MT_OUTPUT}")
print(f"  Generation:   {GEN_OUTPUT}")
print(f"  Efficiency:   {EFFICIENCY_OUTPUT}")

print("\n--- Key Metrics Summary ---")
print(f"  Spanish PPL (mean):      {es_summary['mean']:.2f}")
print(f"  English PPL (mean):      {en_summary['mean']:.2f}")
print(f"  MT BLEU:                 {bleu_score:.2f}")
print(f"  MT chrF++:               {chrf_score:.2f}")
print(f"  Distinct-2 (greedy):     {greedy_metrics['distinct_2']:.4f}")
print(f"  Throughput (tok/s):      {efficiency_summary['tokens_per_second_mean']:.1f}")
print(f"  Peak VRAM:               {efficiency_summary['peak_vram_mb']:.0f} MB")

# Comparison with baseline (if available)
if BASELINE_ENGLISH_PPL is not None and BASELINE_SPANISH_PPL is not None:
    print("\n" + "=" * 70)
    print("COMPARISON WITH BASELINE")
    print("=" * 70)
    
    # Spanish PPL change
    es_ppl_change = ((es_summary['mean'] - BASELINE_SPANISH_PPL) / BASELINE_SPANISH_PPL) * 100
    print(f"\nSpanish PPL:")
    print(f"  Baseline: {BASELINE_SPANISH_PPL:.2f}")
    print(f"  Adapted:  {es_summary['mean']:.2f}")
    print(f"  Change:   {es_ppl_change:+.1f}%")
    
    # English PPL change (catastrophic forgetting check)
    en_ppl_change = ((en_summary['mean'] - BASELINE_ENGLISH_PPL) / BASELINE_ENGLISH_PPL) * 100
    forgetting_status = "PASS" if en_ppl_change < 5 else "FAIL"
    print(f"\nEnglish PPL (Catastrophic Forgetting Check):")
    print(f"  Baseline: {BASELINE_ENGLISH_PPL:.2f}")
    print(f"  Adapted:  {en_summary['mean']:.2f}")
    print(f"  Change:   {en_ppl_change:+.1f}% (threshold: <5%)")
    print(f"  Status:   [{forgetting_status}]")

# Cleanup
pynvml.nvmlShutdown()
print("\n[ADAPTED MODEL EVALUATION COMPLETE]")



ADAPTED MODEL EVALUATION COMPLETE

Model: /home/ubuntu/aryan-true-tokalign/true-tokalign/log/1b/0_qwen2-7b_S2/checkpoint-2500
Model Name: adapted

--- Output Files ---
  Perplexity:   results/perplexity_adapted.csv
  NLU Results:  results/nlu_results_adapted.json
  MT Results:   results/mt_results_adapted.csv
  Generation:   results/generation_adapted.csv
  Efficiency:   results/efficiency_adapted.csv

--- Key Metrics Summary ---
  Spanish PPL (mean):      39.06
  English PPL (mean):      43.48
  MT BLEU:                 14.30
  MT chrF++:               37.70
  Distinct-2 (greedy):     0.5261
  Throughput (tok/s):      496.2
  Peak VRAM:               3108 MB

[ADAPTED MODEL EVALUATION COMPLETE]
