In [None]:
import torch
import math
import time
import numpy as np
from datasets import load_dataset
from torch.nn.functional import softmax
from transformers import (
    GPT2Tokenizer,
    GPT2LMHeadModel,
    Trainer,
    TrainingArguments,
    DataCollatorForLanguageModeling,
)
import gradio as gr

In [None]:
#Device Setup
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")
#Load Tokenizer and Dataset
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # GPT2 lacks pad token
#Load WikiText-2
dataset = load_dataset("wikitext", "wikitext-2-raw-v1")

Using device: cuda


In [None]:
#Tokenize
def tokenize(example):
    return tokenizer(example["text"], truncation=True, padding="max_length", max_length=128)

tokenized = dataset.map(tokenize, batched=True, remove_columns=["text"])
#Group texts
def group_texts(examples):
    joined = sum(examples["input_ids"], [])
    chunks = [joined[i:i+128] for i in range(0, len(joined), 128)]
    return {"input_ids": chunks, "labels": chunks}

lm_dataset = tokenized.map(group_texts, batched=True)

In [None]:
#Load and Prepare Model
model = GPT2LMHeadModel.from_pretrained(model_name)
model.resize_token_embeddings(len(tokenizer))
model.to(device)

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=50257, bias=False)
)

In [None]:
#Training Configuration
training_args = TrainingArguments(
    output_dir="./gpt2-wikitext2",
    overwrite_output_dir=True,
    evaluation_strategy="steps",         
    save_strategy="steps",               
    eval_steps=500,                      
    save_steps=500,
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    num_train_epochs=3,
    save_total_limit=2,
    logging_steps=100,
    fp16=True,
    load_best_model_at_end=True,
    seed=42,
)



In [16]:
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=lm_dataset["train"],
    eval_dataset=lm_dataset["validation"],
    tokenizer=tokenizer,
    data_collator=data_collator,
)

In [None]:
#Train Model
start_time = time.time()
trainer.train()
print(f"⏱️ Training completed in {(time.time() - start_time)/60:.2f} minutes")

  0%|          | 0/55077 [00:00<?, ?it/s]

{'loss': 3.0365, 'grad_norm': 23.97475814819336, 'learning_rate': 4.990921800388547e-05, 'epoch': 0.01}
{'loss': 3.4593, 'grad_norm': 12.86766529083252, 'learning_rate': 4.981843600777094e-05, 'epoch': 0.01}
{'loss': 3.6066, 'grad_norm': 20.357196807861328, 'learning_rate': 4.972765401165641e-05, 'epoch': 0.02}
{'loss': 3.6673, 'grad_norm': 6.112000942230225, 'learning_rate': 4.963687201554188e-05, 'epoch': 0.02}
{'loss': 3.5765, 'grad_norm': 0.0, 'learning_rate': 4.954609001942735e-05, 'epoch': 0.03}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 62.5911, 'eval_samples_per_second': 60.072, 'eval_steps_per_second': 30.036, 'epoch': 0.03}
{'loss': 3.5734, 'grad_norm': 21.513751983642578, 'learning_rate': 4.9455308023312816e-05, 'epoch': 0.03}
{'loss': 3.5055, 'grad_norm': 12.419784545898438, 'learning_rate': 4.9364526027198285e-05, 'epoch': 0.04}
{'loss': 3.6969, 'grad_norm': 14.696779251098633, 'learning_rate': 4.927374403108376e-05, 'epoch': 0.04}
{'loss': 3.4792, 'grad_norm': 7.001405239105225, 'learning_rate': 4.918296203496923e-05, 'epoch': 0.05}
{'loss': 3.6005, 'grad_norm': 7.0876851081848145, 'learning_rate': 4.90921800388547e-05, 'epoch': 0.05}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 53.2276, 'eval_samples_per_second': 70.64, 'eval_steps_per_second': 35.32, 'epoch': 0.05}
{'loss': 3.5005, 'grad_norm': 13.256081581115723, 'learning_rate': 4.900139804274017e-05, 'epoch': 0.06}
{'loss': 3.4215, 'grad_norm': 7.208094120025635, 'learning_rate': 4.8910616046625636e-05, 'epoch': 0.07}
{'loss': 3.5736, 'grad_norm': 7.365944862365723, 'learning_rate': 4.8819834050511105e-05, 'epoch': 0.07}
{'loss': 3.4086, 'grad_norm': 5.53629207611084, 'learning_rate': 4.8729052054396574e-05, 'epoch': 0.08}
{'loss': 3.5773, 'grad_norm': 4.898756980895996, 'learning_rate': 4.863827005828204e-05, 'epoch': 0.08}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 66.2211, 'eval_samples_per_second': 56.779, 'eval_steps_per_second': 28.39, 'epoch': 0.08}
{'loss': 3.4373, 'grad_norm': 5.291565895080566, 'learning_rate': 4.854748806216751e-05, 'epoch': 0.09}
{'loss': 3.3185, 'grad_norm': 6.415914058685303, 'learning_rate': 4.845670606605298e-05, 'epoch': 0.09}
{'loss': 3.4676, 'grad_norm': 5.093791484832764, 'learning_rate': 4.836592406993845e-05, 'epoch': 0.1}
{'loss': 3.3955, 'grad_norm': 8.549445152282715, 'learning_rate': 4.827514207382392e-05, 'epoch': 0.1}
{'loss': 3.4708, 'grad_norm': 19.07046127319336, 'learning_rate': 4.818436007770939e-05, 'epoch': 0.11}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.2433, 'eval_samples_per_second': 73.375, 'eval_steps_per_second': 36.688, 'epoch': 0.11}
{'loss': 3.4713, 'grad_norm': 0.0, 'learning_rate': 4.8093578081594856e-05, 'epoch': 0.11}
{'loss': 3.4453, 'grad_norm': 10.699374198913574, 'learning_rate': 4.8002796085480325e-05, 'epoch': 0.12}
{'loss': 3.4889, 'grad_norm': 5.391477584838867, 'learning_rate': 4.79120140893658e-05, 'epoch': 0.13}
{'loss': 3.5179, 'grad_norm': 5.5069098472595215, 'learning_rate': 4.782123209325127e-05, 'epoch': 0.13}
{'loss': 3.5792, 'grad_norm': 0.0, 'learning_rate': 4.773045009713674e-05, 'epoch': 0.14}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.591, 'eval_samples_per_second': 74.321, 'eval_steps_per_second': 37.161, 'epoch': 0.14}
{'loss': 3.365, 'grad_norm': 8.414793968200684, 'learning_rate': 4.763966810102221e-05, 'epoch': 0.14}
{'loss': 3.4271, 'grad_norm': 4.423808574676514, 'learning_rate': 4.7548886104907676e-05, 'epoch': 0.15}
{'loss': 3.5345, 'grad_norm': 6.648045539855957, 'learning_rate': 4.7458104108793145e-05, 'epoch': 0.15}
{'loss': 3.4715, 'grad_norm': 4.843674182891846, 'learning_rate': 4.7367322112678614e-05, 'epoch': 0.16}
{'loss': 3.4849, 'grad_norm': 0.0, 'learning_rate': 4.727654011656408e-05, 'epoch': 0.16}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 64.897, 'eval_samples_per_second': 57.938, 'eval_steps_per_second': 28.969, 'epoch': 0.16}
{'loss': 3.4854, 'grad_norm': 6.540689945220947, 'learning_rate': 4.718575812044955e-05, 'epoch': 0.17}
{'loss': 3.3977, 'grad_norm': 5.48880672454834, 'learning_rate': 4.709497612433502e-05, 'epoch': 0.17}
{'loss': 3.3601, 'grad_norm': 12.70854377746582, 'learning_rate': 4.700419412822049e-05, 'epoch': 0.18}
{'loss': 3.2926, 'grad_norm': 0.0, 'learning_rate': 4.691341213210596e-05, 'epoch': 0.19}
{'loss': 3.261, 'grad_norm': 0.0, 'learning_rate': 4.682263013599143e-05, 'epoch': 0.19}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 56.8529, 'eval_samples_per_second': 66.136, 'eval_steps_per_second': 33.068, 'epoch': 0.19}
{'loss': 3.3888, 'grad_norm': 6.616175651550293, 'learning_rate': 4.6731848139876897e-05, 'epoch': 0.2}
{'loss': 3.2609, 'grad_norm': 4.709463596343994, 'learning_rate': 4.6641066143762365e-05, 'epoch': 0.2}
{'loss': 3.3207, 'grad_norm': 9.545098304748535, 'learning_rate': 4.655028414764784e-05, 'epoch': 0.21}
{'loss': 3.2192, 'grad_norm': 6.003942012786865, 'learning_rate': 4.645950215153331e-05, 'epoch': 0.21}
{'loss': 3.2606, 'grad_norm': 5.840727806091309, 'learning_rate': 4.636872015541878e-05, 'epoch': 0.22}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 55.4248, 'eval_samples_per_second': 67.84, 'eval_steps_per_second': 33.92, 'epoch': 0.22}
{'loss': 3.3185, 'grad_norm': 4.190728664398193, 'learning_rate': 4.6277938159304255e-05, 'epoch': 0.22}
{'loss': 3.2823, 'grad_norm': 18.61505699157715, 'learning_rate': 4.6187156163189724e-05, 'epoch': 0.23}
{'loss': 3.1463, 'grad_norm': 6.172704219818115, 'learning_rate': 4.609637416707519e-05, 'epoch': 0.23}
{'loss': 3.2767, 'grad_norm': 6.993124485015869, 'learning_rate': 4.600559217096066e-05, 'epoch': 0.24}
{'loss': 3.3777, 'grad_norm': 5.419087886810303, 'learning_rate': 4.591481017484613e-05, 'epoch': 0.25}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.7585, 'eval_samples_per_second': 74.076, 'eval_steps_per_second': 37.038, 'epoch': 0.25}
{'loss': 3.3297, 'grad_norm': 0.0, 'learning_rate': 4.58240281787316e-05, 'epoch': 0.25}
{'loss': 3.405, 'grad_norm': 5.082107067108154, 'learning_rate': 4.573324618261707e-05, 'epoch': 0.26}
{'loss': 3.3244, 'grad_norm': 11.552449226379395, 'learning_rate': 4.564246418650254e-05, 'epoch': 0.26}
{'loss': 3.3369, 'grad_norm': 3.654205083847046, 'learning_rate': 4.5551682190388006e-05, 'epoch': 0.27}
{'loss': 3.3236, 'grad_norm': 13.032451629638672, 'learning_rate': 4.5460900194273475e-05, 'epoch': 0.27}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 56.1735, 'eval_samples_per_second': 66.935, 'eval_steps_per_second': 33.468, 'epoch': 0.27}
{'loss': 3.3904, 'grad_norm': 4.420660972595215, 'learning_rate': 4.5370118198158944e-05, 'epoch': 0.28}
{'loss': 3.4483, 'grad_norm': 3.9065232276916504, 'learning_rate': 4.527933620204441e-05, 'epoch': 0.28}
{'loss': 3.2368, 'grad_norm': 0.0, 'learning_rate': 4.518855420592988e-05, 'epoch': 0.29}
{'loss': 3.3038, 'grad_norm': 5.043049335479736, 'learning_rate': 4.509777220981535e-05, 'epoch': 0.29}
{'loss': 3.4301, 'grad_norm': 4.893550872802734, 'learning_rate': 4.500699021370082e-05, 'epoch': 0.3}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.0752, 'eval_samples_per_second': 73.617, 'eval_steps_per_second': 36.809, 'epoch': 0.3}
{'loss': 3.2913, 'grad_norm': 4.133530616760254, 'learning_rate': 4.4916208217586295e-05, 'epoch': 0.31}
{'loss': 3.3165, 'grad_norm': 8.334820747375488, 'learning_rate': 4.4825426221471764e-05, 'epoch': 0.31}
{'loss': 3.2496, 'grad_norm': 4.001888751983643, 'learning_rate': 4.473464422535723e-05, 'epoch': 0.32}
{'loss': 3.262, 'grad_norm': 3.9522929191589355, 'learning_rate': 4.46438622292427e-05, 'epoch': 0.32}
{'loss': 2.9819, 'grad_norm': 5.410526752471924, 'learning_rate': 4.455308023312817e-05, 'epoch': 0.33}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.977, 'eval_samples_per_second': 73.759, 'eval_steps_per_second': 36.879, 'epoch': 0.33}
{'loss': 3.4222, 'grad_norm': 0.0, 'learning_rate': 4.446229823701364e-05, 'epoch': 0.33}
{'loss': 3.4252, 'grad_norm': 8.215720176696777, 'learning_rate': 4.437151624089911e-05, 'epoch': 0.34}
{'loss': 3.2168, 'grad_norm': 0.0, 'learning_rate': 4.428073424478458e-05, 'epoch': 0.34}
{'loss': 3.1707, 'grad_norm': 5.598790168762207, 'learning_rate': 4.419086006863119e-05, 'epoch': 0.35}
{'loss': 3.2396, 'grad_norm': 5.58665132522583, 'learning_rate': 4.410007807251666e-05, 'epoch': 0.35}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4877, 'eval_samples_per_second': 57.415, 'eval_steps_per_second': 28.708, 'epoch': 0.35}
{'loss': 3.1225, 'grad_norm': 3.753643035888672, 'learning_rate': 4.400929607640213e-05, 'epoch': 0.36}
{'loss': 3.4397, 'grad_norm': 4.319223880767822, 'learning_rate': 4.39185140802876e-05, 'epoch': 0.36}
{'loss': 3.304, 'grad_norm': 4.825738906860352, 'learning_rate': 4.382773208417307e-05, 'epoch': 0.37}
{'loss': 3.1984, 'grad_norm': 5.830050468444824, 'learning_rate': 4.3736950088058536e-05, 'epoch': 0.38}
{'loss': 3.2234, 'grad_norm': 0.0, 'learning_rate': 4.3646168091944005e-05, 'epoch': 0.38}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.1559, 'eval_samples_per_second': 57.708, 'eval_steps_per_second': 28.854, 'epoch': 0.38}
{'loss': 3.1921, 'grad_norm': 4.0977277755737305, 'learning_rate': 4.3555386095829474e-05, 'epoch': 0.39}
{'loss': 3.2142, 'grad_norm': 7.109760284423828, 'learning_rate': 4.346460409971494e-05, 'epoch': 0.39}
{'loss': 3.1684, 'grad_norm': 0.0, 'learning_rate': 4.337382210360041e-05, 'epoch': 0.4}
{'loss': 3.243, 'grad_norm': 9.3491849899292, 'learning_rate': 4.328304010748588e-05, 'epoch': 0.4}
{'loss': 3.3116, 'grad_norm': 12.152730941772461, 'learning_rate': 4.3192258111371356e-05, 'epoch': 0.41}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.1744, 'eval_samples_per_second': 57.691, 'eval_steps_per_second': 28.846, 'epoch': 0.41}
{'loss': 3.2973, 'grad_norm': 10.1041841506958, 'learning_rate': 4.3101476115256825e-05, 'epoch': 0.41}
{'loss': 3.3475, 'grad_norm': 9.158658027648926, 'learning_rate': 4.3010694119142294e-05, 'epoch': 0.42}
{'loss': 3.3487, 'grad_norm': 4.996490001678467, 'learning_rate': 4.291991212302776e-05, 'epoch': 0.42}
{'loss': 3.5433, 'grad_norm': 5.178302764892578, 'learning_rate': 4.282913012691323e-05, 'epoch': 0.43}
{'loss': 3.2489, 'grad_norm': 12.85804271697998, 'learning_rate': 4.27383481307987e-05, 'epoch': 0.44}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2269, 'eval_samples_per_second': 57.645, 'eval_steps_per_second': 28.822, 'epoch': 0.44}
{'loss': 3.2985, 'grad_norm': 8.199702262878418, 'learning_rate': 4.264756613468417e-05, 'epoch': 0.44}
{'loss': 3.2638, 'grad_norm': 14.73597240447998, 'learning_rate': 4.255678413856964e-05, 'epoch': 0.45}
{'loss': 3.2705, 'grad_norm': 4.12428092956543, 'learning_rate': 4.246600214245511e-05, 'epoch': 0.45}
{'loss': 3.1137, 'grad_norm': 5.092472076416016, 'learning_rate': 4.2375220146340576e-05, 'epoch': 0.46}
{'loss': 3.2228, 'grad_norm': 5.007241725921631, 'learning_rate': 4.2284438150226045e-05, 'epoch': 0.46}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2378, 'eval_samples_per_second': 57.635, 'eval_steps_per_second': 28.818, 'epoch': 0.46}
{'loss': 3.3587, 'grad_norm': 5.7350969314575195, 'learning_rate': 4.2193656154111514e-05, 'epoch': 0.47}
{'loss': 3.2009, 'grad_norm': 5.498229026794434, 'learning_rate': 4.210287415799698e-05, 'epoch': 0.47}
{'loss': 3.3209, 'grad_norm': 0.0, 'learning_rate': 4.201209216188245e-05, 'epoch': 0.48}
{'loss': 3.1915, 'grad_norm': 3.5618929862976074, 'learning_rate': 4.192131016576793e-05, 'epoch': 0.48}
{'loss': 3.4232, 'grad_norm': 14.122179985046387, 'learning_rate': 4.1830528169653397e-05, 'epoch': 0.49}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.3317, 'eval_samples_per_second': 57.552, 'eval_steps_per_second': 28.776, 'epoch': 0.49}
{'loss': 3.3384, 'grad_norm': 11.356010437011719, 'learning_rate': 4.1739746173538865e-05, 'epoch': 0.5}
{'loss': 3.4046, 'grad_norm': 3.5949151515960693, 'learning_rate': 4.164896417742434e-05, 'epoch': 0.5}
{'loss': 3.2873, 'grad_norm': 0.0, 'learning_rate': 4.155818218130981e-05, 'epoch': 0.51}
{'loss': 3.2092, 'grad_norm': 4.761651992797852, 'learning_rate': 4.146740018519528e-05, 'epoch': 0.51}
{'loss': 3.2137, 'grad_norm': 27.387142181396484, 'learning_rate': 4.137661818908075e-05, 'epoch': 0.52}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.7848, 'eval_samples_per_second': 57.156, 'eval_steps_per_second': 28.578, 'epoch': 0.52}
{'loss': 3.1477, 'grad_norm': 6.269740581512451, 'learning_rate': 4.128583619296622e-05, 'epoch': 0.52}
{'loss': 3.3258, 'grad_norm': 4.965578556060791, 'learning_rate': 4.1195054196851686e-05, 'epoch': 0.53}
{'loss': 3.1251, 'grad_norm': 0.0, 'learning_rate': 4.1104272200737155e-05, 'epoch': 0.53}
{'loss': 3.3512, 'grad_norm': 4.942142009735107, 'learning_rate': 4.1013490204622623e-05, 'epoch': 0.54}
{'loss': 3.268, 'grad_norm': 4.819188594818115, 'learning_rate': 4.092270820850809e-05, 'epoch': 0.54}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2503, 'eval_samples_per_second': 57.624, 'eval_steps_per_second': 28.812, 'epoch': 0.54}
{'loss': 2.9704, 'grad_norm': 4.946831703186035, 'learning_rate': 4.083192621239356e-05, 'epoch': 0.55}
{'loss': 3.1725, 'grad_norm': 5.233280181884766, 'learning_rate': 4.074114421627903e-05, 'epoch': 0.56}
{'loss': 3.187, 'grad_norm': 4.085341453552246, 'learning_rate': 4.06503622201645e-05, 'epoch': 0.56}
{'loss': 3.2314, 'grad_norm': 0.0, 'learning_rate': 4.056048804401111e-05, 'epoch': 0.57}
{'loss': 3.2398, 'grad_norm': 12.195266723632812, 'learning_rate': 4.046970604789658e-05, 'epoch': 0.57}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4312, 'eval_samples_per_second': 57.465, 'eval_steps_per_second': 28.732, 'epoch': 0.57}
{'loss': 3.0397, 'grad_norm': 4.845056056976318, 'learning_rate': 4.037892405178205e-05, 'epoch': 0.58}
{'loss': 3.2157, 'grad_norm': 6.606502532958984, 'learning_rate': 4.028814205566752e-05, 'epoch': 0.58}
{'loss': 3.2841, 'grad_norm': 3.532356023788452, 'learning_rate': 4.019736005955299e-05, 'epoch': 0.59}
{'loss': 3.2283, 'grad_norm': 10.478285789489746, 'learning_rate': 4.010657806343846e-05, 'epoch': 0.59}
{'loss': 2.9964, 'grad_norm': 5.370965480804443, 'learning_rate': 4.001579606732393e-05, 'epoch': 0.6}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.5643, 'eval_samples_per_second': 57.348, 'eval_steps_per_second': 28.674, 'epoch': 0.6}
{'loss': 3.2334, 'grad_norm': 0.0, 'learning_rate': 3.99250140712094e-05, 'epoch': 0.6}
{'loss': 3.23, 'grad_norm': 5.329855918884277, 'learning_rate': 3.983423207509487e-05, 'epoch': 0.61}
{'loss': 3.3228, 'grad_norm': 3.72527813911438, 'learning_rate': 3.974345007898034e-05, 'epoch': 0.62}
{'loss': 3.0835, 'grad_norm': 5.058547496795654, 'learning_rate': 3.965266808286581e-05, 'epoch': 0.62}
{'loss': 3.1475, 'grad_norm': 0.0, 'learning_rate': 3.956188608675128e-05, 'epoch': 0.63}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.0133, 'eval_samples_per_second': 57.834, 'eval_steps_per_second': 28.917, 'epoch': 0.63}
{'loss': 3.1218, 'grad_norm': 5.190120220184326, 'learning_rate': 3.947110409063675e-05, 'epoch': 0.63}
{'loss': 3.0145, 'grad_norm': 6.143588066101074, 'learning_rate': 3.9380322094522216e-05, 'epoch': 0.64}
{'loss': 3.2114, 'grad_norm': 3.616305112838745, 'learning_rate': 3.9289540098407685e-05, 'epoch': 0.64}
{'loss': 3.2739, 'grad_norm': 4.594160556793213, 'learning_rate': 3.9198758102293154e-05, 'epoch': 0.65}
{'loss': 3.0406, 'grad_norm': 5.880462646484375, 'learning_rate': 3.910797610617862e-05, 'epoch': 0.65}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.5694, 'eval_samples_per_second': 57.344, 'eval_steps_per_second': 28.672, 'epoch': 0.65}
{'loss': 3.241, 'grad_norm': 34.15140914916992, 'learning_rate': 3.901719411006409e-05, 'epoch': 0.66}
{'loss': 3.2795, 'grad_norm': 0.0, 'learning_rate': 3.892641211394956e-05, 'epoch': 0.66}
{'loss': 3.1926, 'grad_norm': 4.468886375427246, 'learning_rate': 3.883563011783503e-05, 'epoch': 0.67}
{'loss': 3.139, 'grad_norm': 6.2908244132995605, 'learning_rate': 3.87448481217205e-05, 'epoch': 0.68}
{'loss': 3.3156, 'grad_norm': 4.781630992889404, 'learning_rate': 3.865406612560597e-05, 'epoch': 0.68}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.1638, 'eval_samples_per_second': 57.701, 'eval_steps_per_second': 28.85, 'epoch': 0.68}
{'loss': 3.2036, 'grad_norm': 7.204184532165527, 'learning_rate': 3.856328412949144e-05, 'epoch': 0.69}
{'loss': 3.1973, 'grad_norm': 3.7181010246276855, 'learning_rate': 3.847250213337691e-05, 'epoch': 0.69}
{'loss': 3.2042, 'grad_norm': 7.439897060394287, 'learning_rate': 3.838172013726238e-05, 'epoch': 0.7}
{'loss': 3.2599, 'grad_norm': 0.0, 'learning_rate': 3.8291845961108995e-05, 'epoch': 0.7}
{'loss': 3.236, 'grad_norm': 8.0897855758667, 'learning_rate': 3.8201063964994463e-05, 'epoch': 0.71}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.0641, 'eval_samples_per_second': 73.633, 'eval_steps_per_second': 36.816, 'epoch': 0.71}
{'loss': 3.0349, 'grad_norm': 5.001955032348633, 'learning_rate': 3.811028196887993e-05, 'epoch': 0.71}
{'loss': 3.1034, 'grad_norm': 3.7380542755126953, 'learning_rate': 3.80194999727654e-05, 'epoch': 0.72}
{'loss': 3.2895, 'grad_norm': 3.588927745819092, 'learning_rate': 3.792871797665088e-05, 'epoch': 0.72}
{'loss': 3.1835, 'grad_norm': 5.156830787658691, 'learning_rate': 3.7837935980536346e-05, 'epoch': 0.73}
{'loss': 3.2273, 'grad_norm': 5.270092010498047, 'learning_rate': 3.7747153984421815e-05, 'epoch': 0.74}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.5538, 'eval_samples_per_second': 57.357, 'eval_steps_per_second': 28.679, 'epoch': 0.74}
{'loss': 3.2601, 'grad_norm': 3.6036267280578613, 'learning_rate': 3.7656371988307284e-05, 'epoch': 0.74}
{'loss': 3.2544, 'grad_norm': 6.696396827697754, 'learning_rate': 3.756558999219275e-05, 'epoch': 0.75}
{'loss': 3.1642, 'grad_norm': 3.382021427154541, 'learning_rate': 3.747480799607822e-05, 'epoch': 0.75}
{'loss': 3.1493, 'grad_norm': 4.748241901397705, 'learning_rate': 3.738402599996369e-05, 'epoch': 0.76}
{'loss': 3.226, 'grad_norm': 13.890509605407715, 'learning_rate': 3.729324400384916e-05, 'epoch': 0.76}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.0217, 'eval_samples_per_second': 57.827, 'eval_steps_per_second': 28.913, 'epoch': 0.76}
{'loss': 3.0384, 'grad_norm': 7.327000617980957, 'learning_rate': 3.720246200773463e-05, 'epoch': 0.77}
{'loss': 3.0945, 'grad_norm': 5.4566450119018555, 'learning_rate': 3.71116800116201e-05, 'epoch': 0.77}
{'loss': 3.0729, 'grad_norm': 8.239561080932617, 'learning_rate': 3.7020898015505566e-05, 'epoch': 0.78}
{'loss': 3.3808, 'grad_norm': 4.677955150604248, 'learning_rate': 3.6930116019391035e-05, 'epoch': 0.78}
{'loss': 3.0756, 'grad_norm': 17.056596755981445, 'learning_rate': 3.6839334023276504e-05, 'epoch': 0.79}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2206, 'eval_samples_per_second': 57.651, 'eval_steps_per_second': 28.825, 'epoch': 0.79}
{'loss': 3.0455, 'grad_norm': 4.909829139709473, 'learning_rate': 3.674855202716197e-05, 'epoch': 0.8}
{'loss': 3.3665, 'grad_norm': 6.117872714996338, 'learning_rate': 3.665777003104744e-05, 'epoch': 0.8}
{'loss': 3.1013, 'grad_norm': 0.0, 'learning_rate': 3.656698803493292e-05, 'epoch': 0.81}
{'loss': 3.0937, 'grad_norm': 4.268395900726318, 'learning_rate': 3.6476206038818386e-05, 'epoch': 0.81}
{'loss': 3.1533, 'grad_norm': 3.5203280448913574, 'learning_rate': 3.6385424042703855e-05, 'epoch': 0.82}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.517, 'eval_samples_per_second': 57.39, 'eval_steps_per_second': 28.695, 'epoch': 0.82}
{'loss': 2.9741, 'grad_norm': 0.0, 'learning_rate': 3.629554986655046e-05, 'epoch': 0.82}
{'loss': 3.1182, 'grad_norm': 4.906876087188721, 'learning_rate': 3.620476787043594e-05, 'epoch': 0.83}
{'loss': 3.2859, 'grad_norm': 16.626873016357422, 'learning_rate': 3.611398587432141e-05, 'epoch': 0.83}
{'loss': 3.0133, 'grad_norm': 11.32300090789795, 'learning_rate': 3.6023203878206876e-05, 'epoch': 0.84}
{'loss': 3.3293, 'grad_norm': 4.511148452758789, 'learning_rate': 3.5932421882092345e-05, 'epoch': 0.84}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.3881, 'eval_samples_per_second': 57.503, 'eval_steps_per_second': 28.751, 'epoch': 0.84}
{'loss': 3.2804, 'grad_norm': 3.41233491897583, 'learning_rate': 3.5841639885977814e-05, 'epoch': 0.85}
{'loss': 3.1636, 'grad_norm': 6.476058483123779, 'learning_rate': 3.575085788986328e-05, 'epoch': 0.86}
{'loss': 3.1357, 'grad_norm': 4.2227301597595215, 'learning_rate': 3.566007589374875e-05, 'epoch': 0.86}
{'loss': 3.1032, 'grad_norm': 5.606807708740234, 'learning_rate': 3.556929389763422e-05, 'epoch': 0.87}
{'loss': 3.2822, 'grad_norm': 3.4490554332733154, 'learning_rate': 3.547851190151969e-05, 'epoch': 0.87}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.1289, 'eval_samples_per_second': 57.732, 'eval_steps_per_second': 28.866, 'epoch': 0.87}
{'loss': 3.2422, 'grad_norm': 0.0, 'learning_rate': 3.538863772536631e-05, 'epoch': 0.88}
{'loss': 3.1484, 'grad_norm': 5.533651351928711, 'learning_rate': 3.529785572925178e-05, 'epoch': 0.88}
{'loss': 3.2697, 'grad_norm': 8.193885803222656, 'learning_rate': 3.520707373313725e-05, 'epoch': 0.89}
{'loss': 3.0809, 'grad_norm': 0.0, 'learning_rate': 3.511629173702272e-05, 'epoch': 0.89}
{'loss': 3.0454, 'grad_norm': 6.093220233917236, 'learning_rate': 3.5025509740908186e-05, 'epoch': 0.9}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.7312, 'eval_samples_per_second': 74.116, 'eval_steps_per_second': 37.058, 'epoch': 0.9}
{'loss': 3.2279, 'grad_norm': 5.30105447769165, 'learning_rate': 3.4934727744793655e-05, 'epoch': 0.9}
{'loss': 3.2331, 'grad_norm': 6.364780426025391, 'learning_rate': 3.4843945748679124e-05, 'epoch': 0.91}
{'loss': 3.105, 'grad_norm': 0.0, 'learning_rate': 3.475316375256459e-05, 'epoch': 0.92}
{'loss': 3.0638, 'grad_norm': 9.151939392089844, 'learning_rate': 3.466238175645006e-05, 'epoch': 0.92}
{'loss': 3.2056, 'grad_norm': 13.203970909118652, 'learning_rate': 3.457159976033553e-05, 'epoch': 0.93}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2279, 'eval_samples_per_second': 57.644, 'eval_steps_per_second': 28.822, 'epoch': 0.93}
{'loss': 3.2753, 'grad_norm': 20.418283462524414, 'learning_rate': 3.4480817764221e-05, 'epoch': 0.93}
{'loss': 3.2887, 'grad_norm': 8.865669250488281, 'learning_rate': 3.439003576810647e-05, 'epoch': 0.94}
{'loss': 3.2234, 'grad_norm': 4.3474626541137695, 'learning_rate': 3.429925377199194e-05, 'epoch': 0.94}
{'loss': 3.2005, 'grad_norm': 5.0040130615234375, 'learning_rate': 3.420847177587741e-05, 'epoch': 0.95}
{'loss': 2.8438, 'grad_norm': 5.546700477600098, 'learning_rate': 3.411768977976288e-05, 'epoch': 0.95}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.7995, 'eval_samples_per_second': 74.016, 'eval_steps_per_second': 37.008, 'epoch': 0.95}
{'loss': 3.02, 'grad_norm': 4.810695648193359, 'learning_rate': 3.402690778364835e-05, 'epoch': 0.96}
{'loss': 3.0762, 'grad_norm': 0.0, 'learning_rate': 3.393612578753382e-05, 'epoch': 0.96}
{'loss': 3.1355, 'grad_norm': 0.0, 'learning_rate': 3.384534379141929e-05, 'epoch': 0.97}
{'loss': 2.95, 'grad_norm': 3.4249484539031982, 'learning_rate': 3.375456179530476e-05, 'epoch': 0.97}
{'loss': 3.053, 'grad_norm': 6.333182334899902, 'learning_rate': 3.3663779799190226e-05, 'epoch': 0.98}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.1038, 'eval_samples_per_second': 73.576, 'eval_steps_per_second': 36.788, 'epoch': 0.98}
{'loss': 3.0624, 'grad_norm': 5.141061782836914, 'learning_rate': 3.3572997803075695e-05, 'epoch': 0.99}
{'loss': 2.9475, 'grad_norm': 5.0914506912231445, 'learning_rate': 3.3482215806961164e-05, 'epoch': 0.99}
{'loss': 3.0797, 'grad_norm': 6.328868865966797, 'learning_rate': 3.339143381084663e-05, 'epoch': 1.0}
{'loss': 3.1531, 'grad_norm': 4.677028656005859, 'learning_rate': 3.33006518147321e-05, 'epoch': 1.0}
{'loss': 2.9011, 'grad_norm': 5.0293965339660645, 'learning_rate': 3.320986981861757e-05, 'epoch': 1.01}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2008, 'eval_samples_per_second': 57.668, 'eval_steps_per_second': 28.834, 'epoch': 1.01}
{'loss': 2.8096, 'grad_norm': 5.18178653717041, 'learning_rate': 3.311908782250304e-05, 'epoch': 1.01}
{'loss': 2.9207, 'grad_norm': 0.0, 'learning_rate': 3.302830582638851e-05, 'epoch': 1.02}
{'loss': 2.737, 'grad_norm': 5.927282333374023, 'learning_rate': 3.293752383027398e-05, 'epoch': 1.02}
{'loss': 2.8806, 'grad_norm': 14.160670280456543, 'learning_rate': 3.284674183415945e-05, 'epoch': 1.03}
{'loss': 2.8478, 'grad_norm': 11.493634223937988, 'learning_rate': 3.275595983804492e-05, 'epoch': 1.03}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2296, 'eval_samples_per_second': 57.643, 'eval_steps_per_second': 28.821, 'epoch': 1.03}
{'loss': 2.7202, 'grad_norm': 4.69321346282959, 'learning_rate': 3.266517784193039e-05, 'epoch': 1.04}
{'loss': 2.7617, 'grad_norm': 3.329010248184204, 'learning_rate': 3.257439584581586e-05, 'epoch': 1.05}
{'loss': 2.728, 'grad_norm': 3.6377358436584473, 'learning_rate': 3.248361384970133e-05, 'epoch': 1.05}
{'loss': 2.7909, 'grad_norm': 11.354616165161133, 'learning_rate': 3.23928318535868e-05, 'epoch': 1.06}
{'loss': 2.6511, 'grad_norm': 4.266146183013916, 'learning_rate': 3.2302049857472267e-05, 'epoch': 1.06}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.7124, 'eval_samples_per_second': 57.219, 'eval_steps_per_second': 28.61, 'epoch': 1.06}
{'loss': 2.7359, 'grad_norm': 4.078170299530029, 'learning_rate': 3.2211267861357735e-05, 'epoch': 1.07}
{'loss': 2.8755, 'grad_norm': 5.071826934814453, 'learning_rate': 3.2120485865243204e-05, 'epoch': 1.07}
{'loss': 2.7155, 'grad_norm': 0.0, 'learning_rate': 3.202970386912867e-05, 'epoch': 1.08}
{'loss': 2.8742, 'grad_norm': 5.1537861824035645, 'learning_rate': 3.193892187301414e-05, 'epoch': 1.08}
{'loss': 2.8044, 'grad_norm': 5.443265438079834, 'learning_rate': 3.184813987689961e-05, 'epoch': 1.09}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.388, 'eval_samples_per_second': 57.503, 'eval_steps_per_second': 28.751, 'epoch': 1.09}
{'loss': 2.8548, 'grad_norm': 8.207476615905762, 'learning_rate': 3.175735788078508e-05, 'epoch': 1.09}
{'loss': 2.8232, 'grad_norm': 4.094028472900391, 'learning_rate': 3.166657588467055e-05, 'epoch': 1.1}
{'loss': 2.7977, 'grad_norm': 3.7045557498931885, 'learning_rate': 3.157579388855602e-05, 'epoch': 1.11}
{'loss': 2.698, 'grad_norm': 10.363442420959473, 'learning_rate': 3.1485011892441494e-05, 'epoch': 1.11}
{'loss': 2.6815, 'grad_norm': 4.342000961303711, 'learning_rate': 3.139422989632696e-05, 'epoch': 1.12}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2257, 'eval_samples_per_second': 57.646, 'eval_steps_per_second': 28.823, 'epoch': 1.12}
{'loss': 2.7037, 'grad_norm': 5.212319850921631, 'learning_rate': 3.1304355720173576e-05, 'epoch': 1.12}
{'loss': 2.7969, 'grad_norm': 5.515988349914551, 'learning_rate': 3.1213573724059045e-05, 'epoch': 1.13}
{'loss': 2.8125, 'grad_norm': 10.258537292480469, 'learning_rate': 3.1122791727944514e-05, 'epoch': 1.13}
{'loss': 2.8502, 'grad_norm': 0.0, 'learning_rate': 3.103200973182998e-05, 'epoch': 1.14}
{'loss': 2.8056, 'grad_norm': 33.546268463134766, 'learning_rate': 3.094122773571546e-05, 'epoch': 1.14}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2461, 'eval_samples_per_second': 57.628, 'eval_steps_per_second': 28.814, 'epoch': 1.14}
{'loss': 2.8174, 'grad_norm': 9.587408065795898, 'learning_rate': 3.0851353559562066e-05, 'epoch': 1.15}
{'loss': 2.8808, 'grad_norm': 5.145156383514404, 'learning_rate': 3.0760571563447535e-05, 'epoch': 1.15}
{'loss': 2.8041, 'grad_norm': 4.107411861419678, 'learning_rate': 3.0669789567333004e-05, 'epoch': 1.16}
{'loss': 2.6771, 'grad_norm': 3.508965015411377, 'learning_rate': 3.057900757121848e-05, 'epoch': 1.17}
{'loss': 2.8699, 'grad_norm': 5.539013862609863, 'learning_rate': 3.0488225575103945e-05, 'epoch': 1.17}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2257, 'eval_samples_per_second': 57.646, 'eval_steps_per_second': 28.823, 'epoch': 1.17}
{'loss': 2.8882, 'grad_norm': 8.333907127380371, 'learning_rate': 3.0397443578989414e-05, 'epoch': 1.18}
{'loss': 2.9383, 'grad_norm': 9.153457641601562, 'learning_rate': 3.0306661582874883e-05, 'epoch': 1.18}
{'loss': 2.9047, 'grad_norm': 11.52739429473877, 'learning_rate': 3.0215879586760355e-05, 'epoch': 1.19}
{'loss': 2.8789, 'grad_norm': 15.458165168762207, 'learning_rate': 3.0125097590645824e-05, 'epoch': 1.19}
{'loss': 2.7119, 'grad_norm': 7.668929100036621, 'learning_rate': 3.0034315594531293e-05, 'epoch': 1.2}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 66.8878, 'eval_samples_per_second': 56.214, 'eval_steps_per_second': 28.107, 'epoch': 1.2}
{'loss': 3.0779, 'grad_norm': 4.8165364265441895, 'learning_rate': 2.9943533598416762e-05, 'epoch': 1.2}
{'loss': 2.7447, 'grad_norm': 8.024173736572266, 'learning_rate': 2.985275160230223e-05, 'epoch': 1.21}
{'loss': 2.7137, 'grad_norm': 3.4613020420074463, 'learning_rate': 2.97619696061877e-05, 'epoch': 1.21}
{'loss': 2.8333, 'grad_norm': 7.249365329742432, 'learning_rate': 2.967118761007317e-05, 'epoch': 1.22}
{'loss': 2.927, 'grad_norm': 0.0, 'learning_rate': 2.958040561395864e-05, 'epoch': 1.23}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.1638, 'eval_samples_per_second': 57.701, 'eval_steps_per_second': 28.85, 'epoch': 1.23}
{'loss': 2.8448, 'grad_norm': 7.782018661499023, 'learning_rate': 2.948962361784411e-05, 'epoch': 1.23}
{'loss': 2.7773, 'grad_norm': 4.13991117477417, 'learning_rate': 2.939884162172958e-05, 'epoch': 1.24}
{'loss': 2.9054, 'grad_norm': 8.604438781738281, 'learning_rate': 2.9308059625615048e-05, 'epoch': 1.24}
{'loss': 2.6964, 'grad_norm': 10.816766738891602, 'learning_rate': 2.9217277629500517e-05, 'epoch': 1.25}
{'loss': 2.8191, 'grad_norm': 7.796377182006836, 'learning_rate': 2.9126495633385986e-05, 'epoch': 1.25}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.7175, 'eval_samples_per_second': 74.136, 'eval_steps_per_second': 37.068, 'epoch': 1.25}
{'loss': 2.8786, 'grad_norm': 0.0, 'learning_rate': 2.9035713637271454e-05, 'epoch': 1.26}
{'loss': 2.8446, 'grad_norm': 0.0, 'learning_rate': 2.8944931641156923e-05, 'epoch': 1.26}
{'loss': 2.8685, 'grad_norm': 15.728164672851562, 'learning_rate': 2.8854149645042396e-05, 'epoch': 1.27}
{'loss': 2.739, 'grad_norm': 6.228968620300293, 'learning_rate': 2.8763367648927865e-05, 'epoch': 1.27}
{'loss': 2.9175, 'grad_norm': 5.066994667053223, 'learning_rate': 2.8672585652813333e-05, 'epoch': 1.28}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.807, 'eval_samples_per_second': 57.137, 'eval_steps_per_second': 28.568, 'epoch': 1.28}
{'loss': 2.7732, 'grad_norm': 20.616432189941406, 'learning_rate': 2.8581803656698802e-05, 'epoch': 1.29}
{'loss': 2.7305, 'grad_norm': 4.595438003540039, 'learning_rate': 2.849102166058427e-05, 'epoch': 1.29}
{'loss': 2.775, 'grad_norm': 4.816885471343994, 'learning_rate': 2.840023966446974e-05, 'epoch': 1.3}
{'loss': 2.9062, 'grad_norm': 4.694309234619141, 'learning_rate': 2.830945766835521e-05, 'epoch': 1.3}
{'loss': 2.7716, 'grad_norm': 5.130436420440674, 'learning_rate': 2.8218675672240685e-05, 'epoch': 1.31}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.9606, 'eval_samples_per_second': 57.004, 'eval_steps_per_second': 28.502, 'epoch': 1.31}
{'loss': 2.8335, 'grad_norm': 6.2343363761901855, 'learning_rate': 2.8127893676126154e-05, 'epoch': 1.31}
{'loss': 2.8729, 'grad_norm': 0.0, 'learning_rate': 2.8037111680011623e-05, 'epoch': 1.32}
{'loss': 2.9581, 'grad_norm': 4.067712306976318, 'learning_rate': 2.7946329683897095e-05, 'epoch': 1.32}
{'loss': 2.7344, 'grad_norm': 7.476205348968506, 'learning_rate': 2.7855547687782564e-05, 'epoch': 1.33}
{'loss': 2.9208, 'grad_norm': 5.078181743621826, 'learning_rate': 2.7764765691668033e-05, 'epoch': 1.33}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.2158, 'eval_samples_per_second': 57.655, 'eval_steps_per_second': 28.827, 'epoch': 1.33}
{'loss': 2.7442, 'grad_norm': 12.239084243774414, 'learning_rate': 2.76739836955535e-05, 'epoch': 1.34}
{'loss': 2.9567, 'grad_norm': 3.485891580581665, 'learning_rate': 2.758320169943897e-05, 'epoch': 1.35}
{'loss': 2.6898, 'grad_norm': 9.674680709838867, 'learning_rate': 2.749241970332444e-05, 'epoch': 1.35}
{'loss': 2.7675, 'grad_norm': 5.011505603790283, 'learning_rate': 2.740163770720991e-05, 'epoch': 1.36}
{'loss': 2.938, 'grad_norm': 4.53127384185791, 'learning_rate': 2.7310855711095377e-05, 'epoch': 1.36}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.9965, 'eval_samples_per_second': 73.73, 'eval_steps_per_second': 36.865, 'epoch': 1.36}
{'loss': 2.8183, 'grad_norm': 5.012203693389893, 'learning_rate': 2.722007371498085e-05, 'epoch': 1.37}
{'loss': 2.8126, 'grad_norm': 4.10041618347168, 'learning_rate': 2.713019953882746e-05, 'epoch': 1.37}
{'loss': 2.908, 'grad_norm': 4.975783824920654, 'learning_rate': 2.703941754271293e-05, 'epoch': 1.38}
{'loss': 2.8253, 'grad_norm': 4.788689136505127, 'learning_rate': 2.6948635546598398e-05, 'epoch': 1.38}
{'loss': 2.6928, 'grad_norm': 6.054492950439453, 'learning_rate': 2.685785355048387e-05, 'epoch': 1.39}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.5246, 'eval_samples_per_second': 57.383, 'eval_steps_per_second': 28.692, 'epoch': 1.39}
{'loss': 2.857, 'grad_norm': 5.479763031005859, 'learning_rate': 2.676707155436934e-05, 'epoch': 1.39}
{'loss': 2.8292, 'grad_norm': 10.818531036376953, 'learning_rate': 2.6676289558254808e-05, 'epoch': 1.4}
{'loss': 2.8878, 'grad_norm': 5.15319299697876, 'learning_rate': 2.6585507562140277e-05, 'epoch': 1.41}
{'loss': 2.8173, 'grad_norm': 5.188582897186279, 'learning_rate': 2.6494725566025746e-05, 'epoch': 1.41}
{'loss': 2.8191, 'grad_norm': 4.516739845275879, 'learning_rate': 2.640485138987236e-05, 'epoch': 1.42}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.7714, 'eval_samples_per_second': 57.168, 'eval_steps_per_second': 28.584, 'epoch': 1.42}
{'loss': 2.8467, 'grad_norm': 3.8879189491271973, 'learning_rate': 2.631406939375783e-05, 'epoch': 1.42}
{'loss': 2.7652, 'grad_norm': 5.495655059814453, 'learning_rate': 2.6223287397643298e-05, 'epoch': 1.43}
{'loss': 2.9152, 'grad_norm': 4.210239887237549, 'learning_rate': 2.6132505401528767e-05, 'epoch': 1.43}
{'loss': 2.8097, 'grad_norm': 4.185770034790039, 'learning_rate': 2.6041723405414242e-05, 'epoch': 1.44}
{'loss': 2.8003, 'grad_norm': 5.244647026062012, 'learning_rate': 2.595094140929971e-05, 'epoch': 1.44}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.9101, 'eval_samples_per_second': 57.047, 'eval_steps_per_second': 28.524, 'epoch': 1.44}
{'loss': 2.6955, 'grad_norm': 9.911452293395996, 'learning_rate': 2.586015941318518e-05, 'epoch': 1.45}
{'loss': 2.7223, 'grad_norm': 7.279126167297363, 'learning_rate': 2.576937741707065e-05, 'epoch': 1.45}
{'loss': 2.6743, 'grad_norm': 10.418889999389648, 'learning_rate': 2.5678595420956118e-05, 'epoch': 1.46}
{'loss': 2.8213, 'grad_norm': 3.850555181503296, 'learning_rate': 2.558781342484159e-05, 'epoch': 1.47}
{'loss': 2.9544, 'grad_norm': 19.38481903076172, 'learning_rate': 2.549703142872706e-05, 'epoch': 1.47}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4835, 'eval_samples_per_second': 57.419, 'eval_steps_per_second': 28.71, 'epoch': 1.47}
{'loss': 2.9769, 'grad_norm': 13.02985954284668, 'learning_rate': 2.5406249432612528e-05, 'epoch': 1.48}
{'loss': 2.8163, 'grad_norm': 8.980989456176758, 'learning_rate': 2.5315467436497997e-05, 'epoch': 1.48}
{'loss': 2.7141, 'grad_norm': 11.494754791259766, 'learning_rate': 2.5224685440383466e-05, 'epoch': 1.49}
{'loss': 2.8183, 'grad_norm': 8.22741985321045, 'learning_rate': 2.5133903444268935e-05, 'epoch': 1.49}
{'loss': 2.6714, 'grad_norm': 4.364604949951172, 'learning_rate': 2.5043121448154404e-05, 'epoch': 1.5}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.4613, 'eval_samples_per_second': 73.065, 'eval_steps_per_second': 36.532, 'epoch': 1.5}
{'loss': 2.8925, 'grad_norm': 26.385831832885742, 'learning_rate': 2.4952339452039873e-05, 'epoch': 1.5}
{'loss': 2.9176, 'grad_norm': 20.620407104492188, 'learning_rate': 2.486155745592534e-05, 'epoch': 1.51}
{'loss': 2.6785, 'grad_norm': 13.490035057067871, 'learning_rate': 2.477077545981081e-05, 'epoch': 1.51}
{'loss': 2.8305, 'grad_norm': 3.9591004848480225, 'learning_rate': 2.467999346369628e-05, 'epoch': 1.52}
{'loss': 2.6832, 'grad_norm': 4.822295665740967, 'learning_rate': 2.458921146758175e-05, 'epoch': 1.53}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.3836, 'eval_samples_per_second': 73.175, 'eval_steps_per_second': 36.588, 'epoch': 1.53}
{'loss': 2.7062, 'grad_norm': 6.181124210357666, 'learning_rate': 2.4498429471467217e-05, 'epoch': 1.53}
{'loss': 2.9856, 'grad_norm': 5.831192970275879, 'learning_rate': 2.440764747535269e-05, 'epoch': 1.54}
{'loss': 2.9463, 'grad_norm': 0.0, 'learning_rate': 2.431686547923816e-05, 'epoch': 1.54}
{'loss': 2.8031, 'grad_norm': 6.702581405639648, 'learning_rate': 2.422608348312363e-05, 'epoch': 1.55}
{'loss': 2.911, 'grad_norm': 5.115733623504639, 'learning_rate': 2.41353014870091e-05, 'epoch': 1.55}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.7112, 'eval_samples_per_second': 57.22, 'eval_steps_per_second': 28.61, 'epoch': 1.55}
{'loss': 2.8997, 'grad_norm': 5.49397087097168, 'learning_rate': 2.404451949089457e-05, 'epoch': 1.56}
{'loss': 2.7299, 'grad_norm': 6.391038417816162, 'learning_rate': 2.3953737494780037e-05, 'epoch': 1.56}
{'loss': 2.9126, 'grad_norm': 8.050190925598145, 'learning_rate': 2.3862955498665506e-05, 'epoch': 1.57}
{'loss': 2.8654, 'grad_norm': 5.17198371887207, 'learning_rate': 2.3772173502550975e-05, 'epoch': 1.57}
{'loss': 2.7475, 'grad_norm': 5.516361236572266, 'learning_rate': 2.3681391506436444e-05, 'epoch': 1.58}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.7092, 'eval_samples_per_second': 57.222, 'eval_steps_per_second': 28.611, 'epoch': 1.58}
{'loss': 2.7762, 'grad_norm': 5.678191661834717, 'learning_rate': 2.3590609510321916e-05, 'epoch': 1.59}
{'loss': 2.8782, 'grad_norm': 5.501190185546875, 'learning_rate': 2.3499827514207385e-05, 'epoch': 1.59}
{'loss': 2.7563, 'grad_norm': 10.850643157958984, 'learning_rate': 2.3409045518092854e-05, 'epoch': 1.6}
{'loss': 2.9592, 'grad_norm': 6.241699695587158, 'learning_rate': 2.3318263521978323e-05, 'epoch': 1.6}
{'loss': 2.7908, 'grad_norm': 0.0, 'learning_rate': 2.3227481525863792e-05, 'epoch': 1.61}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.8887, 'eval_samples_per_second': 57.066, 'eval_steps_per_second': 28.533, 'epoch': 1.61}
{'loss': 2.808, 'grad_norm': 8.180468559265137, 'learning_rate': 2.313669952974926e-05, 'epoch': 1.61}
{'loss': 2.6112, 'grad_norm': 4.939587593078613, 'learning_rate': 2.304591753363473e-05, 'epoch': 1.62}
{'loss': 2.7398, 'grad_norm': 3.725120782852173, 'learning_rate': 2.29551355375202e-05, 'epoch': 1.62}
{'loss': 2.6637, 'grad_norm': 8.082571029663086, 'learning_rate': 2.286435354140567e-05, 'epoch': 1.63}
{'loss': 2.8057, 'grad_norm': 6.0478315353393555, 'learning_rate': 2.277357154529114e-05, 'epoch': 1.63}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.5966, 'eval_samples_per_second': 57.32, 'eval_steps_per_second': 28.66, 'epoch': 1.63}
{'loss': 2.8472, 'grad_norm': 7.508864402770996, 'learning_rate': 2.268278954917661e-05, 'epoch': 1.64}
{'loss': 2.8128, 'grad_norm': 4.390264987945557, 'learning_rate': 2.2592007553062078e-05, 'epoch': 1.64}
{'loss': 2.7926, 'grad_norm': 5.891595840454102, 'learning_rate': 2.2502133376908692e-05, 'epoch': 1.65}
{'loss': 2.928, 'grad_norm': 6.466897010803223, 'learning_rate': 2.2411351380794164e-05, 'epoch': 1.66}
{'loss': 2.7809, 'grad_norm': 3.9769837856292725, 'learning_rate': 2.2320569384679633e-05, 'epoch': 1.66}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6444, 'eval_samples_per_second': 57.278, 'eval_steps_per_second': 28.639, 'epoch': 1.66}
{'loss': 3.0047, 'grad_norm': 5.366177082061768, 'learning_rate': 2.2229787388565102e-05, 'epoch': 1.67}
{'loss': 2.8409, 'grad_norm': 6.09796667098999, 'learning_rate': 2.213900539245057e-05, 'epoch': 1.67}
{'loss': 2.792, 'grad_norm': 5.332753658294678, 'learning_rate': 2.204822339633604e-05, 'epoch': 1.68}
{'loss': 2.7396, 'grad_norm': 4.668298244476318, 'learning_rate': 2.195744140022151e-05, 'epoch': 1.68}
{'loss': 2.7594, 'grad_norm': 5.269670486450195, 'learning_rate': 2.1866659404106978e-05, 'epoch': 1.69}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6548, 'eval_samples_per_second': 57.269, 'eval_steps_per_second': 28.635, 'epoch': 1.69}
{'loss': 2.7846, 'grad_norm': 4.35992956161499, 'learning_rate': 2.177587740799245e-05, 'epoch': 1.69}
{'loss': 2.8287, 'grad_norm': 4.889294147491455, 'learning_rate': 2.168509541187792e-05, 'epoch': 1.7}
{'loss': 2.8498, 'grad_norm': 4.545445919036865, 'learning_rate': 2.1594313415763388e-05, 'epoch': 1.7}
{'loss': 2.8737, 'grad_norm': 0.0, 'learning_rate': 2.1503531419648857e-05, 'epoch': 1.71}
{'loss': 2.8422, 'grad_norm': 4.9420318603515625, 'learning_rate': 2.1412749423534326e-05, 'epoch': 1.72}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.321, 'eval_samples_per_second': 57.562, 'eval_steps_per_second': 28.781, 'epoch': 1.72}
{'loss': 2.6888, 'grad_norm': 5.585981845855713, 'learning_rate': 2.1321967427419794e-05, 'epoch': 1.72}
{'loss': 2.8068, 'grad_norm': 6.073275566101074, 'learning_rate': 2.1231185431305263e-05, 'epoch': 1.73}
{'loss': 2.8743, 'grad_norm': 14.073286056518555, 'learning_rate': 2.1140403435190732e-05, 'epoch': 1.73}
{'loss': 2.771, 'grad_norm': 8.905735969543457, 'learning_rate': 2.1049621439076205e-05, 'epoch': 1.74}
{'loss': 2.9385, 'grad_norm': 4.769462585449219, 'learning_rate': 2.0958839442961673e-05, 'epoch': 1.74}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.8297, 'eval_samples_per_second': 57.117, 'eval_steps_per_second': 28.559, 'epoch': 1.74}
{'loss': 2.8721, 'grad_norm': 5.487374305725098, 'learning_rate': 2.0868057446847142e-05, 'epoch': 1.75}
{'loss': 2.8173, 'grad_norm': 0.0, 'learning_rate': 2.077727545073261e-05, 'epoch': 1.75}
{'loss': 2.8922, 'grad_norm': 6.538537502288818, 'learning_rate': 2.0687401274579225e-05, 'epoch': 1.76}
{'loss': 2.9075, 'grad_norm': 7.181343078613281, 'learning_rate': 2.0596619278464698e-05, 'epoch': 1.76}
{'loss': 2.7825, 'grad_norm': 4.408349514007568, 'learning_rate': 2.0505837282350167e-05, 'epoch': 1.77}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.604, 'eval_samples_per_second': 57.314, 'eval_steps_per_second': 28.657, 'epoch': 1.77}
{'loss': 2.9847, 'grad_norm': 0.0, 'learning_rate': 2.0415055286235635e-05, 'epoch': 1.78}
{'loss': 2.7983, 'grad_norm': 3.90552020072937, 'learning_rate': 2.0324273290121104e-05, 'epoch': 1.78}
{'loss': 2.8194, 'grad_norm': 4.000110149383545, 'learning_rate': 2.0233491294006573e-05, 'epoch': 1.79}
{'loss': 2.6873, 'grad_norm': 0.0, 'learning_rate': 2.0142709297892042e-05, 'epoch': 1.79}
{'loss': 2.8602, 'grad_norm': 4.2603864669799805, 'learning_rate': 2.005192730177751e-05, 'epoch': 1.8}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.3959, 'eval_samples_per_second': 57.496, 'eval_steps_per_second': 28.748, 'epoch': 1.8}
{'loss': 2.8504, 'grad_norm': 7.175173759460449, 'learning_rate': 1.996114530566298e-05, 'epoch': 1.8}
{'loss': 2.9008, 'grad_norm': 14.173123359680176, 'learning_rate': 1.9870363309548452e-05, 'epoch': 1.81}
{'loss': 2.8375, 'grad_norm': 4.339316368103027, 'learning_rate': 1.977958131343392e-05, 'epoch': 1.81}
{'loss': 2.9476, 'grad_norm': 5.36529016494751, 'learning_rate': 1.968879931731939e-05, 'epoch': 1.82}
{'loss': 2.9724, 'grad_norm': 0.0, 'learning_rate': 1.959801732120486e-05, 'epoch': 1.82}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 66.1921, 'eval_samples_per_second': 56.804, 'eval_steps_per_second': 28.402, 'epoch': 1.82}
{'loss': 2.8504, 'grad_norm': 8.37740421295166, 'learning_rate': 1.9507235325090328e-05, 'epoch': 1.83}
{'loss': 2.8271, 'grad_norm': 0.0, 'learning_rate': 1.9416453328975797e-05, 'epoch': 1.84}
{'loss': 2.8176, 'grad_norm': 0.0, 'learning_rate': 1.9325671332861266e-05, 'epoch': 1.84}
{'loss': 2.7682, 'grad_norm': 0.0, 'learning_rate': 1.9234889336746738e-05, 'epoch': 1.85}
{'loss': 2.7981, 'grad_norm': 6.670370101928711, 'learning_rate': 1.9144107340632207e-05, 'epoch': 1.85}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6458, 'eval_samples_per_second': 57.277, 'eval_steps_per_second': 28.639, 'epoch': 1.85}
{'loss': 2.8545, 'grad_norm': 6.660275459289551, 'learning_rate': 1.9053325344517676e-05, 'epoch': 1.86}
{'loss': 3.0142, 'grad_norm': 0.0, 'learning_rate': 1.8962543348403145e-05, 'epoch': 1.86}
{'loss': 2.8353, 'grad_norm': 0.0, 'learning_rate': 1.8871761352288614e-05, 'epoch': 1.87}
{'loss': 2.7083, 'grad_norm': 0.0, 'learning_rate': 1.8780979356174083e-05, 'epoch': 1.87}
{'loss': 2.9557, 'grad_norm': 10.196712493896484, 'learning_rate': 1.86911051800207e-05, 'epoch': 1.88}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6327, 'eval_samples_per_second': 57.288, 'eval_steps_per_second': 28.644, 'epoch': 1.88}
{'loss': 2.7525, 'grad_norm': 5.5766730308532715, 'learning_rate': 1.860032318390617e-05, 'epoch': 1.88}
{'loss': 2.8269, 'grad_norm': 5.3513593673706055, 'learning_rate': 1.8509541187791638e-05, 'epoch': 1.89}
{'loss': 2.8007, 'grad_norm': 0.0, 'learning_rate': 1.8418759191677107e-05, 'epoch': 1.9}
{'loss': 2.724, 'grad_norm': 5.147395133972168, 'learning_rate': 1.8327977195562576e-05, 'epoch': 1.9}
{'loss': 2.8574, 'grad_norm': 7.248400688171387, 'learning_rate': 1.8237195199448045e-05, 'epoch': 1.91}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.3915, 'eval_samples_per_second': 57.5, 'eval_steps_per_second': 28.75, 'epoch': 1.91}
{'loss': 2.7909, 'grad_norm': 5.382046222686768, 'learning_rate': 1.8146413203333513e-05, 'epoch': 1.91}
{'loss': 2.6317, 'grad_norm': 5.367458820343018, 'learning_rate': 1.8055631207218986e-05, 'epoch': 1.92}
{'loss': 2.9647, 'grad_norm': 5.004887104034424, 'learning_rate': 1.7964849211104455e-05, 'epoch': 1.92}
{'loss': 2.6561, 'grad_norm': 5.43596887588501, 'learning_rate': 1.7874067214989924e-05, 'epoch': 1.93}
{'loss': 2.8091, 'grad_norm': 4.9094929695129395, 'learning_rate': 1.7783285218875392e-05, 'epoch': 1.93}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.8523, 'eval_samples_per_second': 73.94, 'eval_steps_per_second': 36.97, 'epoch': 1.93}
{'loss': 2.7169, 'grad_norm': 0.0, 'learning_rate': 1.769250322276086e-05, 'epoch': 1.94}
{'loss': 2.8331, 'grad_norm': 5.183769226074219, 'learning_rate': 1.760172122664633e-05, 'epoch': 1.94}
{'loss': 2.609, 'grad_norm': 26.396011352539062, 'learning_rate': 1.75109392305318e-05, 'epoch': 1.95}
{'loss': 2.9195, 'grad_norm': 7.759193420410156, 'learning_rate': 1.742015723441727e-05, 'epoch': 1.96}
{'loss': 2.6697, 'grad_norm': 6.538174629211426, 'learning_rate': 1.732937523830274e-05, 'epoch': 1.96}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.8559, 'eval_samples_per_second': 57.094, 'eval_steps_per_second': 28.547, 'epoch': 1.96}
{'loss': 2.7317, 'grad_norm': 4.727312088012695, 'learning_rate': 1.7238593242188213e-05, 'epoch': 1.97}
{'loss': 2.7827, 'grad_norm': 4.569610595703125, 'learning_rate': 1.714781124607368e-05, 'epoch': 1.97}
{'loss': 2.8713, 'grad_norm': 6.229619026184082, 'learning_rate': 1.705702924995915e-05, 'epoch': 1.98}
{'loss': 2.828, 'grad_norm': 5.587042331695557, 'learning_rate': 1.696624725384462e-05, 'epoch': 1.98}
{'loss': 2.8473, 'grad_norm': 0.0, 'learning_rate': 1.6875465257730088e-05, 'epoch': 1.99}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.341, 'eval_samples_per_second': 73.236, 'eval_steps_per_second': 36.618, 'epoch': 1.99}
{'loss': 2.8404, 'grad_norm': 3.824510097503662, 'learning_rate': 1.6784683261615557e-05, 'epoch': 1.99}
{'loss': 2.7339, 'grad_norm': 5.918093204498291, 'learning_rate': 1.6693901265501026e-05, 'epoch': 2.0}
{'loss': 2.6248, 'grad_norm': 3.7474944591522217, 'learning_rate': 1.66031192693865e-05, 'epoch': 2.0}
{'loss': 2.4959, 'grad_norm': 7.081050395965576, 'learning_rate': 1.6512337273271967e-05, 'epoch': 2.01}
{'loss': 2.5925, 'grad_norm': 7.840126991271973, 'learning_rate': 1.6421555277157436e-05, 'epoch': 2.02}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 66.1616, 'eval_samples_per_second': 56.831, 'eval_steps_per_second': 28.415, 'epoch': 2.02}
{'loss': 2.3956, 'grad_norm': 5.672214031219482, 'learning_rate': 1.6330773281042905e-05, 'epoch': 2.02}
{'loss': 2.4756, 'grad_norm': 7.218565464019775, 'learning_rate': 1.6239991284928374e-05, 'epoch': 2.03}
{'loss': 2.4919, 'grad_norm': 5.28516960144043, 'learning_rate': 1.6149209288813843e-05, 'epoch': 2.03}
{'loss': 2.3942, 'grad_norm': 0.0, 'learning_rate': 1.6058427292699312e-05, 'epoch': 2.04}
{'loss': 2.577, 'grad_norm': 3.796358108520508, 'learning_rate': 1.596764529658478e-05, 'epoch': 2.04}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.2637, 'eval_samples_per_second': 73.346, 'eval_steps_per_second': 36.673, 'epoch': 2.04}
{'loss': 2.5034, 'grad_norm': 10.184782028198242, 'learning_rate': 1.5877771120431398e-05, 'epoch': 2.05}
{'loss': 2.5776, 'grad_norm': 0.0, 'learning_rate': 1.5786989124316867e-05, 'epoch': 2.05}
{'loss': 2.5653, 'grad_norm': 5.216309070587158, 'learning_rate': 1.5696207128202336e-05, 'epoch': 2.06}
{'loss': 2.4153, 'grad_norm': 6.66828727722168, 'learning_rate': 1.5605425132087805e-05, 'epoch': 2.06}
{'loss': 2.5373, 'grad_norm': 6.177224159240723, 'learning_rate': 1.5514643135973274e-05, 'epoch': 2.07}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 66.0366, 'eval_samples_per_second': 56.938, 'eval_steps_per_second': 28.469, 'epoch': 2.07}
{'loss': 2.4811, 'grad_norm': 5.210005283355713, 'learning_rate': 1.5423861139858746e-05, 'epoch': 2.08}
{'loss': 2.5362, 'grad_norm': 5.960984706878662, 'learning_rate': 1.5333079143744215e-05, 'epoch': 2.08}
{'loss': 2.4608, 'grad_norm': 0.0, 'learning_rate': 1.5242297147629684e-05, 'epoch': 2.09}
{'loss': 2.6076, 'grad_norm': 5.21899938583374, 'learning_rate': 1.5151515151515153e-05, 'epoch': 2.09}
{'loss': 2.4985, 'grad_norm': 4.296200752258301, 'learning_rate': 1.5060733155400622e-05, 'epoch': 2.1}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4375, 'eval_samples_per_second': 57.459, 'eval_steps_per_second': 28.73, 'epoch': 2.1}
{'loss': 2.5232, 'grad_norm': 7.24433708190918, 'learning_rate': 1.496995115928609e-05, 'epoch': 2.1}
{'loss': 2.6285, 'grad_norm': 0.0, 'learning_rate': 1.4879169163171561e-05, 'epoch': 2.11}
{'loss': 2.6512, 'grad_norm': 5.141188621520996, 'learning_rate': 1.478838716705703e-05, 'epoch': 2.11}
{'loss': 2.5658, 'grad_norm': 0.0, 'learning_rate': 1.4698512990903646e-05, 'epoch': 2.12}
{'loss': 2.5068, 'grad_norm': 4.079337120056152, 'learning_rate': 1.4607730994789115e-05, 'epoch': 2.12}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.4762, 'eval_samples_per_second': 73.043, 'eval_steps_per_second': 36.522, 'epoch': 2.12}
{'loss': 2.5861, 'grad_norm': 6.07637882232666, 'learning_rate': 1.4516948998674584e-05, 'epoch': 2.13}
{'loss': 2.4979, 'grad_norm': 4.195306301116943, 'learning_rate': 1.4426167002560054e-05, 'epoch': 2.14}
{'loss': 2.6144, 'grad_norm': 5.206230640411377, 'learning_rate': 1.4335385006445523e-05, 'epoch': 2.14}
{'loss': 2.4829, 'grad_norm': 5.869306564331055, 'learning_rate': 1.4244603010330992e-05, 'epoch': 2.15}
{'loss': 2.481, 'grad_norm': 23.91197967529297, 'learning_rate': 1.4153821014216461e-05, 'epoch': 2.15}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.1575, 'eval_samples_per_second': 73.498, 'eval_steps_per_second': 36.749, 'epoch': 2.15}
{'loss': 2.6494, 'grad_norm': 5.737671852111816, 'learning_rate': 1.4063039018101932e-05, 'epoch': 2.16}
{'loss': 2.5054, 'grad_norm': 0.0, 'learning_rate': 1.39722570219874e-05, 'epoch': 2.16}
{'loss': 2.6138, 'grad_norm': 3.798027753829956, 'learning_rate': 1.388147502587287e-05, 'epoch': 2.17}
{'loss': 2.6268, 'grad_norm': 4.120846271514893, 'learning_rate': 1.3790693029758338e-05, 'epoch': 2.17}
{'loss': 2.5508, 'grad_norm': 5.8199076652526855, 'learning_rate': 1.3699911033643809e-05, 'epoch': 2.18}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.8543, 'eval_samples_per_second': 57.096, 'eval_steps_per_second': 28.548, 'epoch': 2.18}
{'loss': 2.5361, 'grad_norm': 5.254698276519775, 'learning_rate': 1.3609129037529278e-05, 'epoch': 2.18}
{'loss': 2.5564, 'grad_norm': 8.184675216674805, 'learning_rate': 1.3518347041414747e-05, 'epoch': 2.19}
{'loss': 2.6583, 'grad_norm': 4.870115756988525, 'learning_rate': 1.3427565045300217e-05, 'epoch': 2.2}
{'loss': 2.4556, 'grad_norm': 5.828340530395508, 'learning_rate': 1.3336783049185686e-05, 'epoch': 2.2}
{'loss': 2.6399, 'grad_norm': 0.0, 'learning_rate': 1.3246001053071155e-05, 'epoch': 2.21}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6786, 'eval_samples_per_second': 57.249, 'eval_steps_per_second': 28.624, 'epoch': 2.21}
{'loss': 2.5094, 'grad_norm': 5.019259452819824, 'learning_rate': 1.3155219056956624e-05, 'epoch': 2.21}
{'loss': 2.569, 'grad_norm': 5.779270648956299, 'learning_rate': 1.3064437060842095e-05, 'epoch': 2.22}
{'loss': 2.5949, 'grad_norm': 5.147494316101074, 'learning_rate': 1.2973655064727564e-05, 'epoch': 2.22}
{'loss': 2.511, 'grad_norm': 6.271685600280762, 'learning_rate': 1.2882873068613033e-05, 'epoch': 2.23}
{'loss': 2.5733, 'grad_norm': 5.689803600311279, 'learning_rate': 1.2792091072498501e-05, 'epoch': 2.23}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.404, 'eval_samples_per_second': 57.489, 'eval_steps_per_second': 28.744, 'epoch': 2.23}
{'loss': 2.5382, 'grad_norm': 5.085286617279053, 'learning_rate': 1.2701309076383972e-05, 'epoch': 2.24}
{'loss': 2.3948, 'grad_norm': 6.093504905700684, 'learning_rate': 1.2611434900230588e-05, 'epoch': 2.24}
{'loss': 2.6512, 'grad_norm': 9.120810508728027, 'learning_rate': 1.2520652904116057e-05, 'epoch': 2.25}
{'loss': 2.5153, 'grad_norm': 8.699851036071777, 'learning_rate': 1.2429870908001526e-05, 'epoch': 2.26}
{'loss': 2.5825, 'grad_norm': 21.06387710571289, 'learning_rate': 1.2339088911886995e-05, 'epoch': 2.26}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.2898, 'eval_samples_per_second': 73.309, 'eval_steps_per_second': 36.654, 'epoch': 2.26}
{'loss': 2.7022, 'grad_norm': 0.0, 'learning_rate': 1.2248306915772465e-05, 'epoch': 2.27}
{'loss': 2.616, 'grad_norm': 3.5908122062683105, 'learning_rate': 1.2157524919657934e-05, 'epoch': 2.27}
{'loss': 2.6986, 'grad_norm': 3.6349294185638428, 'learning_rate': 1.2066742923543403e-05, 'epoch': 2.28}
{'loss': 2.5597, 'grad_norm': 7.902878284454346, 'learning_rate': 1.1975960927428872e-05, 'epoch': 2.28}
{'loss': 2.6574, 'grad_norm': 25.64118003845215, 'learning_rate': 1.1885178931314342e-05, 'epoch': 2.29}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.4182, 'eval_samples_per_second': 73.126, 'eval_steps_per_second': 36.563, 'epoch': 2.29}
{'loss': 2.5838, 'grad_norm': 5.321984767913818, 'learning_rate': 1.1794396935199811e-05, 'epoch': 2.29}
{'loss': 2.43, 'grad_norm': 7.120670318603516, 'learning_rate': 1.170361493908528e-05, 'epoch': 2.3}
{'loss': 2.5709, 'grad_norm': 5.072389125823975, 'learning_rate': 1.161283294297075e-05, 'epoch': 2.3}
{'loss': 2.5534, 'grad_norm': 5.440998554229736, 'learning_rate': 1.1522050946856221e-05, 'epoch': 2.31}
{'loss': 2.6411, 'grad_norm': 19.536340713500977, 'learning_rate': 1.143126895074169e-05, 'epoch': 2.31}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.7311, 'eval_samples_per_second': 74.116, 'eval_steps_per_second': 37.058, 'epoch': 2.31}
{'loss': 2.562, 'grad_norm': 5.563532829284668, 'learning_rate': 1.134048695462716e-05, 'epoch': 2.32}
{'loss': 2.6334, 'grad_norm': 6.151770114898682, 'learning_rate': 1.1249704958512628e-05, 'epoch': 2.33}
{'loss': 2.6684, 'grad_norm': 0.0, 'learning_rate': 1.1158922962398099e-05, 'epoch': 2.33}
{'loss': 2.6496, 'grad_norm': 8.559516906738281, 'learning_rate': 1.1068140966283568e-05, 'epoch': 2.34}
{'loss': 2.6009, 'grad_norm': 8.368897438049316, 'learning_rate': 1.0977358970169037e-05, 'epoch': 2.34}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6298, 'eval_samples_per_second': 57.291, 'eval_steps_per_second': 28.646, 'epoch': 2.34}
{'loss': 2.5468, 'grad_norm': 5.940662384033203, 'learning_rate': 1.0886576974054506e-05, 'epoch': 2.35}
{'loss': 2.4938, 'grad_norm': 5.029141426086426, 'learning_rate': 1.0795794977939976e-05, 'epoch': 2.35}
{'loss': 2.509, 'grad_norm': 9.277081489562988, 'learning_rate': 1.0705012981825445e-05, 'epoch': 2.36}
{'loss': 2.5889, 'grad_norm': 5.616679668426514, 'learning_rate': 1.0614230985710914e-05, 'epoch': 2.36}
{'loss': 2.7039, 'grad_norm': 5.305540084838867, 'learning_rate': 1.0523448989596383e-05, 'epoch': 2.37}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4809, 'eval_samples_per_second': 57.421, 'eval_steps_per_second': 28.711, 'epoch': 2.37}
{'loss': 2.5965, 'grad_norm': 5.380143642425537, 'learning_rate': 1.0432666993481853e-05, 'epoch': 2.37}
{'loss': 2.6694, 'grad_norm': 0.0, 'learning_rate': 1.0341884997367322e-05, 'epoch': 2.38}
{'loss': 2.5259, 'grad_norm': 10.970272064208984, 'learning_rate': 1.0251103001252791e-05, 'epoch': 2.39}
{'loss': 2.542, 'grad_norm': 3.8716228008270264, 'learning_rate': 1.0160321005138262e-05, 'epoch': 2.39}
{'loss': 2.4268, 'grad_norm': 6.180030822753906, 'learning_rate': 1.006953900902373e-05, 'epoch': 2.4}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.3954, 'eval_samples_per_second': 73.158, 'eval_steps_per_second': 36.579, 'epoch': 2.4}
{'loss': 2.5497, 'grad_norm': 5.16567850112915, 'learning_rate': 9.9787570129092e-06, 'epoch': 2.4}
{'loss': 2.5877, 'grad_norm': 5.792392730712891, 'learning_rate': 9.887975016794669e-06, 'epoch': 2.41}
{'loss': 2.6234, 'grad_norm': 7.153108596801758, 'learning_rate': 9.79719302068014e-06, 'epoch': 2.41}
{'loss': 2.5996, 'grad_norm': 7.534209728240967, 'learning_rate': 9.70641102456561e-06, 'epoch': 2.42}
{'loss': 2.5477, 'grad_norm': 0.0, 'learning_rate': 9.615629028451079e-06, 'epoch': 2.42}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.7548, 'eval_samples_per_second': 72.65, 'eval_steps_per_second': 36.325, 'epoch': 2.42}
{'loss': 2.438, 'grad_norm': 6.1612229347229, 'learning_rate': 9.524847032336548e-06, 'epoch': 2.43}
{'loss': 2.5459, 'grad_norm': 13.978217124938965, 'learning_rate': 9.434065036222016e-06, 'epoch': 2.43}
{'loss': 2.6028, 'grad_norm': 5.695224761962891, 'learning_rate': 9.343283040107487e-06, 'epoch': 2.44}
{'loss': 2.5318, 'grad_norm': 7.573014736175537, 'learning_rate': 9.252501043992956e-06, 'epoch': 2.45}
{'loss': 2.6604, 'grad_norm': 4.871031284332275, 'learning_rate': 9.161719047878425e-06, 'epoch': 2.45}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 66.03, 'eval_samples_per_second': 56.944, 'eval_steps_per_second': 28.472, 'epoch': 2.45}
{'loss': 2.5035, 'grad_norm': 4.881308555603027, 'learning_rate': 9.070937051763895e-06, 'epoch': 2.46}
{'loss': 2.6069, 'grad_norm': 5.777573108673096, 'learning_rate': 8.980155055649364e-06, 'epoch': 2.46}
{'loss': 2.5152, 'grad_norm': 4.751080513000488, 'learning_rate': 8.889373059534833e-06, 'epoch': 2.47}
{'loss': 2.5037, 'grad_norm': 5.997244358062744, 'learning_rate': 8.799498883381447e-06, 'epoch': 2.47}
{'loss': 2.4948, 'grad_norm': 0.0, 'learning_rate': 8.709624707228063e-06, 'epoch': 2.48}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.9924, 'eval_samples_per_second': 73.736, 'eval_steps_per_second': 36.868, 'epoch': 2.48}
{'loss': 2.5544, 'grad_norm': 4.292529106140137, 'learning_rate': 8.618842711113532e-06, 'epoch': 2.48}
{'loss': 2.7202, 'grad_norm': 4.307302474975586, 'learning_rate': 8.528060714999003e-06, 'epoch': 2.49}
{'loss': 2.6008, 'grad_norm': 17.876785278320312, 'learning_rate': 8.437278718884472e-06, 'epoch': 2.49}
{'loss': 2.5747, 'grad_norm': 4.696758270263672, 'learning_rate': 8.34649672276994e-06, 'epoch': 2.5}
{'loss': 2.6615, 'grad_norm': 5.200267791748047, 'learning_rate': 8.25571472665541e-06, 'epoch': 2.51}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.8055, 'eval_samples_per_second': 57.138, 'eval_steps_per_second': 28.569, 'epoch': 2.51}
{'loss': 2.5297, 'grad_norm': 0.0, 'learning_rate': 8.16493273054088e-06, 'epoch': 2.51}
{'loss': 2.5217, 'grad_norm': 4.9774603843688965, 'learning_rate': 8.074150734426349e-06, 'epoch': 2.52}
{'loss': 2.5857, 'grad_norm': 9.724135398864746, 'learning_rate': 7.983368738311818e-06, 'epoch': 2.52}
{'loss': 2.5298, 'grad_norm': 5.306519985198975, 'learning_rate': 7.892586742197287e-06, 'epoch': 2.53}
{'loss': 2.6203, 'grad_norm': 4.659060478210449, 'learning_rate': 7.801804746082757e-06, 'epoch': 2.53}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6601, 'eval_samples_per_second': 57.265, 'eval_steps_per_second': 28.632, 'epoch': 2.53}
{'loss': 2.5504, 'grad_norm': 6.489250659942627, 'learning_rate': 7.711022749968226e-06, 'epoch': 2.54}
{'loss': 2.6396, 'grad_norm': 5.888743877410889, 'learning_rate': 7.620240753853695e-06, 'epoch': 2.54}
{'loss': 2.5162, 'grad_norm': 5.072243690490723, 'learning_rate': 7.5294587577391666e-06, 'epoch': 2.55}
{'loss': 2.5423, 'grad_norm': 12.272836685180664, 'learning_rate': 7.4386767616246355e-06, 'epoch': 2.55}
{'loss': 2.5817, 'grad_norm': 0.0, 'learning_rate': 7.347894765510105e-06, 'epoch': 2.56}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 50.9619, 'eval_samples_per_second': 73.781, 'eval_steps_per_second': 36.89, 'epoch': 2.56}
{'loss': 2.6148, 'grad_norm': 3.921175718307495, 'learning_rate': 7.257112769395574e-06, 'epoch': 2.57}
{'loss': 2.558, 'grad_norm': 17.45918083190918, 'learning_rate': 7.166330773281044e-06, 'epoch': 2.57}
{'loss': 2.433, 'grad_norm': 3.6616029739379883, 'learning_rate': 7.075548777166513e-06, 'epoch': 2.58}
{'loss': 2.5803, 'grad_norm': 32.98058319091797, 'learning_rate': 6.9847667810519825e-06, 'epoch': 2.58}
{'loss': 2.5979, 'grad_norm': 6.063037395477295, 'learning_rate': 6.8939847849374514e-06, 'epoch': 2.59}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.183, 'eval_samples_per_second': 73.462, 'eval_steps_per_second': 36.731, 'epoch': 2.59}
{'loss': 2.7081, 'grad_norm': 5.670884609222412, 'learning_rate': 6.803202788822921e-06, 'epoch': 2.59}
{'loss': 2.5725, 'grad_norm': 9.021605491638184, 'learning_rate': 6.71242079270839e-06, 'epoch': 2.6}
{'loss': 2.4822, 'grad_norm': 5.685101509094238, 'learning_rate': 6.62163879659386e-06, 'epoch': 2.6}
{'loss': 2.5791, 'grad_norm': 5.120298862457275, 'learning_rate': 6.530856800479329e-06, 'epoch': 2.61}
{'loss': 2.4279, 'grad_norm': 6.221056938171387, 'learning_rate': 6.4400748043647985e-06, 'epoch': 2.61}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.3995, 'eval_samples_per_second': 73.153, 'eval_steps_per_second': 36.576, 'epoch': 2.61}
{'loss': 2.4556, 'grad_norm': 5.010266304016113, 'learning_rate': 6.349292808250268e-06, 'epoch': 2.62}
{'loss': 2.4885, 'grad_norm': 5.6494221687316895, 'learning_rate': 6.258510812135737e-06, 'epoch': 2.63}
{'loss': 2.5869, 'grad_norm': 3.6374757289886475, 'learning_rate': 6.167728816021207e-06, 'epoch': 2.63}
{'loss': 2.588, 'grad_norm': 4.218789577484131, 'learning_rate': 6.076946819906677e-06, 'epoch': 2.64}
{'loss': 2.5006, 'grad_norm': 7.306865692138672, 'learning_rate': 5.986164823792146e-06, 'epoch': 2.64}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.0682, 'eval_samples_per_second': 73.627, 'eval_steps_per_second': 36.814, 'epoch': 2.64}
{'loss': 2.4823, 'grad_norm': 5.344494342803955, 'learning_rate': 5.895382827677615e-06, 'epoch': 2.65}
{'loss': 2.5452, 'grad_norm': 0.0, 'learning_rate': 5.804600831563085e-06, 'epoch': 2.65}
{'loss': 2.4953, 'grad_norm': 0.0, 'learning_rate': 5.713818835448554e-06, 'epoch': 2.66}
{'loss': 2.7142, 'grad_norm': 6.142853736877441, 'learning_rate': 5.623036839334024e-06, 'epoch': 2.66}
{'loss': 2.3581, 'grad_norm': 0.0, 'learning_rate': 5.532254843219493e-06, 'epoch': 2.67}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.0513, 'eval_samples_per_second': 73.651, 'eval_steps_per_second': 36.826, 'epoch': 2.67}
{'loss': 2.6812, 'grad_norm': 4.074238300323486, 'learning_rate': 5.441472847104962e-06, 'epoch': 2.67}
{'loss': 2.5122, 'grad_norm': 10.729852676391602, 'learning_rate': 5.350690850990432e-06, 'epoch': 2.68}
{'loss': 2.6742, 'grad_norm': 6.96781587600708, 'learning_rate': 5.259908854875902e-06, 'epoch': 2.69}
{'loss': 2.588, 'grad_norm': 5.773366928100586, 'learning_rate': 5.169126858761371e-06, 'epoch': 2.69}
{'loss': 2.5469, 'grad_norm': 0.0, 'learning_rate': 5.0783448626468406e-06, 'epoch': 2.7}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.2727, 'eval_samples_per_second': 73.333, 'eval_steps_per_second': 36.667, 'epoch': 2.7}
{'loss': 2.4301, 'grad_norm': 0.0, 'learning_rate': 4.9875628665323095e-06, 'epoch': 2.7}
{'loss': 2.4913, 'grad_norm': 2.522625207901001, 'learning_rate': 4.897688690378924e-06, 'epoch': 2.71}
{'loss': 2.6002, 'grad_norm': 5.9848246574401855, 'learning_rate': 4.806906694264394e-06, 'epoch': 2.71}
{'loss': 2.6067, 'grad_norm': 0.0, 'learning_rate': 4.716124698149863e-06, 'epoch': 2.72}
{'loss': 2.4155, 'grad_norm': 0.0, 'learning_rate': 4.625342702035333e-06, 'epoch': 2.72}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.7878, 'eval_samples_per_second': 57.153, 'eval_steps_per_second': 28.577, 'epoch': 2.72}
{'loss': 2.6891, 'grad_norm': 6.999149322509766, 'learning_rate': 4.534560705920802e-06, 'epoch': 2.73}
{'loss': 2.663, 'grad_norm': 4.709654808044434, 'learning_rate': 4.4437787098062715e-06, 'epoch': 2.73}
{'loss': 2.4795, 'grad_norm': 4.6797356605529785, 'learning_rate': 4.35299671369174e-06, 'epoch': 2.74}
{'loss': 2.6233, 'grad_norm': 10.098705291748047, 'learning_rate': 4.262214717577211e-06, 'epoch': 2.75}
{'loss': 2.5382, 'grad_norm': 6.760017395019531, 'learning_rate': 4.17143272146268e-06, 'epoch': 2.75}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.9221, 'eval_samples_per_second': 57.037, 'eval_steps_per_second': 28.519, 'epoch': 2.75}
{'loss': 2.6679, 'grad_norm': 9.058656692504883, 'learning_rate': 4.08065072534815e-06, 'epoch': 2.76}
{'loss': 2.6333, 'grad_norm': 4.734378814697266, 'learning_rate': 3.9898687292336185e-06, 'epoch': 2.76}
{'loss': 2.6755, 'grad_norm': 4.461176872253418, 'learning_rate': 3.899086733119088e-06, 'epoch': 2.77}
{'loss': 2.5537, 'grad_norm': 5.097498416900635, 'learning_rate': 3.809212556965703e-06, 'epoch': 2.77}
{'loss': 2.5923, 'grad_norm': 0.0, 'learning_rate': 3.718430560851172e-06, 'epoch': 2.78}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 52.0692, 'eval_samples_per_second': 72.212, 'eval_steps_per_second': 36.106, 'epoch': 2.78}
{'loss': 2.5782, 'grad_norm': 4.976836204528809, 'learning_rate': 3.6276485647366415e-06, 'epoch': 2.78}
{'loss': 2.6997, 'grad_norm': 7.52044153213501, 'learning_rate': 3.536866568622111e-06, 'epoch': 2.79}
{'loss': 2.6241, 'grad_norm': 4.894527912139893, 'learning_rate': 3.4460845725075805e-06, 'epoch': 2.79}
{'loss': 2.575, 'grad_norm': 4.036816120147705, 'learning_rate': 3.35530257639305e-06, 'epoch': 2.8}
{'loss': 2.4591, 'grad_norm': 6.030789852142334, 'learning_rate': 3.264520580278519e-06, 'epoch': 2.81}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4361, 'eval_samples_per_second': 57.461, 'eval_steps_per_second': 28.73, 'epoch': 2.81}
{'loss': 2.5226, 'grad_norm': 11.272333145141602, 'learning_rate': 3.1737385841639885e-06, 'epoch': 2.81}
{'loss': 2.5934, 'grad_norm': 6.144210338592529, 'learning_rate': 3.0829565880494583e-06, 'epoch': 2.82}
{'loss': 2.5597, 'grad_norm': 3.910382032394409, 'learning_rate': 2.9921745919349276e-06, 'epoch': 2.82}
{'loss': 2.3873, 'grad_norm': 5.306468486785889, 'learning_rate': 2.9013925958203974e-06, 'epoch': 2.83}
{'loss': 2.5698, 'grad_norm': 0.0, 'learning_rate': 2.8106105997058667e-06, 'epoch': 2.83}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.5569, 'eval_samples_per_second': 57.355, 'eval_steps_per_second': 28.677, 'epoch': 2.83}
{'loss': 2.6146, 'grad_norm': 0.0, 'learning_rate': 2.719828603591336e-06, 'epoch': 2.84}
{'loss': 2.5867, 'grad_norm': 9.424012184143066, 'learning_rate': 2.6290466074768054e-06, 'epoch': 2.84}
{'loss': 2.5254, 'grad_norm': 13.235532760620117, 'learning_rate': 2.5382646113622747e-06, 'epoch': 2.85}
{'loss': 2.6676, 'grad_norm': 5.488274097442627, 'learning_rate': 2.4474826152477444e-06, 'epoch': 2.85}
{'loss': 2.6615, 'grad_norm': 3.8777036666870117, 'learning_rate': 2.3567006191332138e-06, 'epoch': 2.86}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4951, 'eval_samples_per_second': 57.409, 'eval_steps_per_second': 28.704, 'epoch': 2.86}
{'loss': 2.532, 'grad_norm': 15.225693702697754, 'learning_rate': 2.265918623018683e-06, 'epoch': 2.87}
{'loss': 2.6625, 'grad_norm': 4.880026817321777, 'learning_rate': 2.1751366269041524e-06, 'epoch': 2.87}
{'loss': 2.5905, 'grad_norm': 7.751357555389404, 'learning_rate': 2.0843546307896218e-06, 'epoch': 2.88}
{'loss': 2.5173, 'grad_norm': 3.956190824508667, 'learning_rate': 1.9935726346750915e-06, 'epoch': 2.88}
{'loss': 2.5607, 'grad_norm': 5.6781721115112305, 'learning_rate': 1.9027906385605608e-06, 'epoch': 2.89}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 51.3767, 'eval_samples_per_second': 73.185, 'eval_steps_per_second': 36.592, 'epoch': 2.89}
{'loss': 2.5257, 'grad_norm': 3.9249043464660645, 'learning_rate': 1.8129164624071758e-06, 'epoch': 2.89}
{'loss': 2.393, 'grad_norm': 5.27944803237915, 'learning_rate': 1.722134466292645e-06, 'epoch': 2.9}
{'loss': 2.5107, 'grad_norm': 7.347276210784912, 'learning_rate': 1.6313524701781144e-06, 'epoch': 2.9}
{'loss': 2.4666, 'grad_norm': 10.709393501281738, 'learning_rate': 1.5405704740635838e-06, 'epoch': 2.91}
{'loss': 2.4943, 'grad_norm': 5.442007064819336, 'learning_rate': 1.4497884779490533e-06, 'epoch': 2.91}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.0916, 'eval_samples_per_second': 57.765, 'eval_steps_per_second': 28.882, 'epoch': 2.91}
{'loss': 2.4346, 'grad_norm': 6.0139570236206055, 'learning_rate': 1.3590064818345226e-06, 'epoch': 2.92}
{'loss': 2.6384, 'grad_norm': 4.894631385803223, 'learning_rate': 1.2682244857199922e-06, 'epoch': 2.92}
{'loss': 2.4905, 'grad_norm': 6.05356502532959, 'learning_rate': 1.1774424896054615e-06, 'epoch': 2.93}
{'loss': 2.5743, 'grad_norm': 7.865679740905762, 'learning_rate': 1.0866604934909308e-06, 'epoch': 2.94}
{'loss': 2.7249, 'grad_norm': 10.407222747802734, 'learning_rate': 9.958784973764004e-07, 'epoch': 2.94}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.6604, 'eval_samples_per_second': 57.264, 'eval_steps_per_second': 28.632, 'epoch': 2.94}
{'loss': 2.5878, 'grad_norm': 5.044832706451416, 'learning_rate': 9.050965012618698e-07, 'epoch': 2.95}
{'loss': 2.6076, 'grad_norm': 5.426816940307617, 'learning_rate': 8.143145051473392e-07, 'epoch': 2.95}
{'loss': 2.5963, 'grad_norm': 5.112050533294678, 'learning_rate': 7.235325090328087e-07, 'epoch': 2.96}
{'loss': 2.5173, 'grad_norm': 3.9407577514648438, 'learning_rate': 6.327505129182781e-07, 'epoch': 2.96}
{'loss': 2.4906, 'grad_norm': 3.9542396068573, 'learning_rate': 5.419685168037475e-07, 'epoch': 2.97}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4781, 'eval_samples_per_second': 57.424, 'eval_steps_per_second': 28.712, 'epoch': 2.97}
{'loss': 2.4174, 'grad_norm': 5.487424850463867, 'learning_rate': 4.51186520689217e-07, 'epoch': 2.97}
{'loss': 2.4739, 'grad_norm': 6.322876930236816, 'learning_rate': 3.6040452457468636e-07, 'epoch': 2.98}
{'loss': 2.6272, 'grad_norm': 3.8199894428253174, 'learning_rate': 2.696225284601558e-07, 'epoch': 2.98}
{'loss': 2.8605, 'grad_norm': 6.129429817199707, 'learning_rate': 1.788405323456252e-07, 'epoch': 2.99}
{'loss': 2.6134, 'grad_norm': 5.761902809143066, 'learning_rate': 8.805853623109465e-08, 'epoch': 3.0}


  0%|          | 0/1880 [00:00<?, ?it/s]

{'eval_loss': nan, 'eval_runtime': 65.4646, 'eval_samples_per_second': 57.436, 'eval_steps_per_second': 28.718, 'epoch': 3.0}


There were missing keys in the checkpoint model loaded: ['lm_head.weight'].


{'train_runtime': 17158.5599, 'train_samples_per_second': 6.42, 'train_steps_per_second': 3.21, 'train_loss': 2.880725129405569, 'epoch': 3.0}
⏱️ Training completed in 285.98 minutes


In [None]:
# Evaluate: Perplexity
eval_results = trainer.evaluate()
perplexity = math.exp(eval_results["eval_loss"])
print(f"\nPerplexity: {perplexity:.2f}")

# Print all raw eval metrics
for key, val in eval_results.items():
    print(f"{key}: {val}")

  0%|          | 0/1880 [00:00<?, ?it/s]


📊 Perplexity: nan
eval_loss: nan
eval_runtime: 49.4473
eval_samples_per_second: 76.041
eval_steps_per_second: 38.02
epoch: 3.0


In [None]:
#Evaluate: Top-k Accuracy
def compute_top_k_accuracy(model, tokenizer, dataset, k=5, sample_size=100):
    model.eval()
    model.to("cuda" if torch.cuda.is_available() else "cpu")
    correct = 0
    total = 0

    for i, example in enumerate(dataset.select(range(sample_size))):
        input_ids = torch.tensor(example['input_ids']).unsqueeze(0).to(model.device)
        with torch.no_grad():
            outputs = model(input_ids)
        logits = outputs.logits
        next_token_logits = logits[0, -1, :]
        probs = softmax(next_token_logits, dim=0)
        top_k = torch.topk(probs, k).indices.cpu().numpy()

        if i + 1 < len(dataset):
            target_token_id = dataset[i + 1]['input_ids'][0]
            if target_token_id in top_k:
                correct += 1
            total += 1

    top_k_acc = correct / total if total else 0
    print(f"🎯 Top-{k} Accuracy: {top_k_acc*100:.2f}% ({correct}/{total})")
    return top_k_acc

# Run Top-k Accuracy
top_k_acc = compute_top_k_accuracy(model, tokenizer, lm_dataset["validation"], k=5, sample_size=100)

# Save metrics
with open("metrics.txt", "w") as f:
    f.write(f"Perplexity: {perplexity:.2f}\n")
    f.write(f"Top-5 Accuracy: {top_k_acc*100:.2f}%\n")

🎯 Top-5 Accuracy: 1.00% (1/100)


In [None]:
#Save Model
trainer.save_model("./gpt2-wikitext2-final")
tokenizer.save_pretrained("./gpt2-wikitext2-final")
print("\n✅ Model saved to ./gpt2-wikitext2-final")


✅ Model saved to ./gpt2-wikitext2-final


In [None]:
#Gradio Demo Interface
def predict_next_words(prompt, max_new_tokens=20, top_k=5):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            do_sample=True,
            top_k=top_k,
            pad_token_id=tokenizer.eos_token_id
        )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

interface = gr.Interface(
    fn=predict_next_words,
    inputs=[
        gr.Textbox(label="Prompt", placeholder="e.g., 'The future of AI is'", lines=2),
        gr.Slider(1, 50, value=20, step=1, label="Max New Tokens"),
        gr.Slider(1, 50, value=5, step=1, label="Top-k Sampling")
    ],
    outputs="text",
    title="🧠 GPT-2 Next Word Predictor"
)

In [23]:
# Launch Gradio
import sys
if "--no-ui" not in sys.argv:
    interface.launch()

* Running on local URL:  http://127.0.0.1:7860
* To create a public link, set `share=True` in `launch()`.
