In [4]:
from datasets import load_dataset, DatasetDict, interleave_datasets

dataset_scc_train = load_dataset("b-mc2/sql-create-context", split='train[:80%]')
dataset_scc_test  = load_dataset("b-mc2/sql-create-context", split='train[-20%:-10%]')
dataset_scc_val   = load_dataset("b-mc2/sql-create-context", split='train[-10%:]')

dataset_tts_train = load_dataset("Clinton/Text-to-sql-v1", split='train[:80%]')
dataset_tts_train = dataset_tts_train.remove_columns(['source', 'text'])
dataset_tts_train = dataset_tts_train.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_test  = load_dataset("Clinton/Text-to-sql-v1", split='train[-20%:-10%]')
dataset_tts_test  = dataset_tts_test.remove_columns(['source', 'text'])
dataset_tts_test  = dataset_tts_test.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_val   = load_dataset("Clinton/Text-to-sql-v1", split='train[-10%:]')
dataset_tts_val   = dataset_tts_val.remove_columns(['source', 'text'])
dataset_tts_val   = dataset_tts_val.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})

dataset_ks_train  = load_dataset("knowrohit07/know_sql", split='validation[:80%]')
dataset_ks_test   = load_dataset("knowrohit07/know_sql", split='validation[-20%:-10%]')
dataset_ks_val    = load_dataset("knowrohit07/know_sql", split='validation[-10%:]')

dataset = DatasetDict({ 
    'train': interleave_datasets([dataset_scc_train, dataset_tts_train, dataset_ks_train]),
    'test': interleave_datasets([dataset_scc_test, dataset_tts_test, dataset_ks_test]),
    'validation': interleave_datasets([dataset_scc_val, dataset_tts_val, dataset_ks_val])
})


In [5]:
dataset['test'][0]

{'answer': 'SELECT date FROM table_name_11 WHERE away_team = "essendon"',
 'question': 'On what Date did the Away team essendon play?',
 'context': 'CREATE TABLE table_name_11 (date VARCHAR, away_team VARCHAR)'}

In [6]:
def tokenize_function(example):
    start_prompt = "Tables:\n"
    middle_prompt = "\n\nQuestion:\n"
    end_prompt = "\n\nAnswer:\n"
  
    data_zip = zip(example['context'], example['question'])
    prompt = [start_prompt + context + middle_prompt + question + end_prompt for context, question in data_zip]
    example['input_ids'] = tokenizer(prompt, padding="max_length", truncation=True, return_tensors="pt").input_ids
    example['labels'] = tokenizer(example['answer'], padding="max_length", truncation=True, return_tensors="pt").input_ids

    return example

# The dataset actually contains 3 diff splits: train, validation, test.
# The tokenize_function code is handling all data across all splits in batches.
tokenized_datasets = dataset.map(tokenize_function, batched=True)
tokenized_datasets = tokenized_datasets.remove_columns(['question', 'context', 'answer'])

Map:   0%|          | 0/14835 [00:00<?, ? examples/s]

In [7]:
print(tokenized_datasets.keys())
print(tokenized_datasets['train'][0].keys())
print(tokenized_datasets['train'][0]['input_ids'][:10])  # corrected key
print(tokenized_datasets)

dict_keys(['train', 'test', 'validation'])
dict_keys(['input_ids', 'labels'])
[4398, 7, 10, 205, 4386, 6048, 332, 17098, 819, 41]
DatasetDict({
    train: Dataset({
        features: ['input_ids', 'labels'],
        num_rows: 118695
    })
    test: Dataset({
        features: ['input_ids', 'labels'],
        num_rows: 14835
    })
    validation: Dataset({
        features: ['input_ids', 'labels'],
        num_rows: 14838
    })
})


In [8]:
index = 0

question = dataset['test'][index]['question']
context = dataset['test'][index]['context']
answer = dataset['test'][index]['answer']

prompt = f"""Tables:
{context}

Question:
{question}

Answer:
"""

inputs = tokenizer(prompt, return_tensors='pt')
inputs = inputs.to('cuda')

output = tokenizer.decode(
    original_model.generate(
        inputs["input_ids"], 
        max_new_tokens=200,
    )[0], 
    skip_special_tokens=True
)

dash_line = '-'.join('' for x in range(100))
print(dash_line)
print(f'INPUT PROMPT:\n{prompt}')
print(dash_line)
print(f'BASELINE HUMAN ANSWER:\n{answer}\n')
print(dash_line)
print(f'MODEL GENERATION - ZERO SHOT:\n{output}')

---------------------------------------------------------------------------------------------------
INPUT PROMPT:
Tables:
CREATE TABLE table_name_11 (date VARCHAR, away_team VARCHAR)

Question:
On what Date did the Away team essendon play?

Answer:

---------------------------------------------------------------------------------------------------
BASELINE HUMAN ANSWER:
SELECT date FROM table_name_11 WHERE away_team = "essendon"

---------------------------------------------------------------------------------------------------
MODEL GENERATION - ZERO SHOT:
Question


In [9]:
finetuned_model = AutoModelForSeq2SeqLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
finetuned_model = finetuned_model.to('cuda')
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [11]:
import time
from transformers import Trainer, TrainingArguments

tokenized_datasets = dataset.map(preprocess_function, batched=True)

# Training setup
output_dir = f'./sql-training-{str(int(time.time()))}'
training_args = TrainingArguments(
    output_dir=output_dir,
    learning_rate=5e-3,
    num_train_epochs=1,              # Reduced epochs
    per_device_train_batch_size=8,   # Reduced batch size
    per_device_eval_batch_size=8,
    weight_decay=0.01,
    logging_steps=50,
    evaluation_strategy='steps',
    eval_steps=500,
    save_steps=500,                  # Save model checkpoints every 500 steps
    save_total_limit=2,              # Limit the total number of checkpoints
    fp16=True,                       # Use mixed precision for faster training
)

trainer = Trainer(
    model=finetuned_model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['validation'],
)

# Train the model
trainer.train()

# Save the model and tokenizer
finetuned_model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)


NameError: name 'preprocess_function' is not defined

In [1]:
import time
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, Trainer, TrainingArguments
from datasets import load_dataset, DatasetDict, interleave_datasets

# Load the tokenizer and model
model_name = 't5-small'
tokenizer = AutoTokenizer.from_pretrained(model_name)
finetuned_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# Load and prepare datasets
dataset_scc_train = load_dataset("b-mc2/sql-create-context", split='train[:80%]')
dataset_scc_test  = load_dataset("b-mc2/sql-create-context", split='train[-20%:-10%]')
dataset_scc_val   = load_dataset("b-mc2/sql-create-context", split='train[-10%:]')

dataset_tts_train = load_dataset("Clinton/Text-to-sql-v1", split='train[:80%]')
dataset_tts_train = dataset_tts_train.remove_columns(['source', 'text'])
dataset_tts_train = dataset_tts_train.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_test  = load_dataset("Clinton/Text-to-sql-v1", split='train[-20%:-10%]')
dataset_tts_test  = dataset_tts_test.remove_columns(['source', 'text'])
dataset_tts_test  = dataset_tts_test.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_val   = load_dataset("Clinton/Text-to-sql-v1", split='train[-10%:]')
dataset_tts_val   = dataset_tts_val.remove_columns(['source', 'text'])
dataset_tts_val   = dataset_tts_val.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})

dataset_ks_train  = load_dataset("knowrohit07/know_sql", split='validation[:80%]')
dataset_ks_test   = load_dataset("knowrohit07/know_sql", split='validation[-20%:-10%]')
dataset_ks_val    = load_dataset("knowrohit07/know_sql", split='validation[-10%:]')

# Combine datasets
dataset = DatasetDict({ 
    'train': interleave_datasets([dataset_scc_train, dataset_tts_train, dataset_ks_train]),
    'test': interleave_datasets([dataset_scc_test, dataset_tts_test, dataset_ks_test]),
    'validation': interleave_datasets([dataset_scc_val, dataset_tts_val, dataset_ks_val])
})

# Define the preprocess function
def preprocess_function(examples):
    inputs = examples['question']
    targets = examples['answer']
    model_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=128)
    labels = tokenizer(targets, padding="max_length", truncation=True, max_length=128).input_ids
    model_inputs["labels"] = labels
    return model_inputs

# Tokenize the dataset
tokenized_datasets = dataset.map(preprocess_function, batched=True)

# Training setup
output_dir = f'./sql-training-{str(int(time.time()))}'
training_args = TrainingArguments(
    output_dir=output_dir,
    learning_rate=5e-3,
    num_train_epochs=1,              # Reduced epochs
    per_device_train_batch_size=8,   # Reduced batch size
    per_device_eval_batch_size=8,
    weight_decay=0.01,
    logging_steps=50,
    evaluation_strategy='steps',
    eval_steps=500,
    save_steps=500,                  # Save model checkpoints every 500 steps
    save_total_limit=2,              # Limit the total number of checkpoints
    fp16=True,                       # Use mixed precision for faster training
)

trainer = Trainer(
    model=finetuned_model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['validation'],
)

# Train the model
trainer.train()

# Save the model and tokenizer
finetuned_model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)




  0%|          | 0/14837 [00:00<?, ?it/s]

Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.48.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.


{'loss': 1.5942, 'grad_norm': 0.5900386571884155, 'learning_rate': 0.00498382422322572, 'epoch': 0.0}
{'loss': 0.6191, 'grad_norm': 0.8875150680541992, 'learning_rate': 0.004966974455752511, 'epoch': 0.01}
{'loss': 0.5467, 'grad_norm': 0.5118493437767029, 'learning_rate': 0.004950124688279302, 'epoch': 0.01}
{'loss': 0.4846, 'grad_norm': 0.6731510758399963, 'learning_rate': 0.0049332749208060925, 'epoch': 0.01}
{'loss': 0.5042, 'grad_norm': 0.44991016387939453, 'learning_rate': 0.004916425153332884, 'epoch': 0.02}
{'loss': 0.4596, 'grad_norm': 0.40294745564460754, 'learning_rate': 0.004899575385859676, 'epoch': 0.02}
{'loss': 0.4385, 'grad_norm': 0.2985072135925293, 'learning_rate': 0.004882725618386466, 'epoch': 0.02}
{'loss': 0.3949, 'grad_norm': 0.46575602889060974, 'learning_rate': 0.004865875850913257, 'epoch': 0.03}
{'loss': 0.4419, 'grad_norm': 0.4528128504753113, 'learning_rate': 0.0048490260834400485, 'epoch': 0.03}
{'loss': 0.3946, 'grad_norm': 0.5017780065536499, 'learning_r

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.2947317063808441, 'eval_runtime': 159.8223, 'eval_samples_per_second': 92.841, 'eval_steps_per_second': 11.607, 'epoch': 0.03}
{'loss': 0.4282, 'grad_norm': 0.7343375086784363, 'learning_rate': 0.004815326548493631, 'epoch': 0.04}
{'loss': 0.3633, 'grad_norm': 0.3339131474494934, 'learning_rate': 0.004798476781020422, 'epoch': 0.04}
{'loss': 0.38, 'grad_norm': 0.3789621889591217, 'learning_rate': 0.004781627013547214, 'epoch': 0.04}
{'loss': 0.3518, 'grad_norm': 0.3208489418029785, 'learning_rate': 0.0047647772460740045, 'epoch': 0.05}
{'loss': 0.3535, 'grad_norm': 0.4490784704685211, 'learning_rate': 0.004747927478600795, 'epoch': 0.05}
{'loss': 0.3641, 'grad_norm': 0.4008549749851227, 'learning_rate': 0.004731077711127587, 'epoch': 0.05}
{'loss': 0.3633, 'grad_norm': 0.30115005373954773, 'learning_rate': 0.004714227943654377, 'epoch': 0.06}
{'loss': 0.3764, 'grad_norm': 0.35921335220336914, 'learning_rate': 0.004697378176181169, 'epoch': 0.06}
{'loss': 0.3411, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.25809159874916077, 'eval_runtime': 138.0211, 'eval_samples_per_second': 107.505, 'eval_steps_per_second': 13.44, 'epoch': 0.07}
{'loss': 0.3731, 'grad_norm': 0.4671822488307953, 'learning_rate': 0.004646828873761542, 'epoch': 0.07}
{'loss': 0.3425, 'grad_norm': 0.32649168372154236, 'learning_rate': 0.004629979106288333, 'epoch': 0.07}
{'loss': 0.3456, 'grad_norm': 0.26880955696105957, 'learning_rate': 0.004613129338815125, 'epoch': 0.08}
{'loss': 0.3542, 'grad_norm': 0.5176101922988892, 'learning_rate': 0.004596279571341916, 'epoch': 0.08}
{'loss': 0.3249, 'grad_norm': 0.3088477551937103, 'learning_rate': 0.004579429803868706, 'epoch': 0.08}
{'loss': 0.3368, 'grad_norm': 0.3414147198200226, 'learning_rate': 0.004562580036395498, 'epoch': 0.09}
{'loss': 0.3345, 'grad_norm': 0.348723441362381, 'learning_rate': 0.004545730268922289, 'epoch': 0.09}
{'loss': 0.3374, 'grad_norm': 0.31973540782928467, 'learning_rate': 0.00452888050144908, 'epoch': 0.09}
{'loss': 0.3208, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.23989243805408478, 'eval_runtime': 128.9796, 'eval_samples_per_second': 115.041, 'eval_steps_per_second': 14.382, 'epoch': 0.1}
{'loss': 0.3251, 'grad_norm': 0.2709229588508606, 'learning_rate': 0.004478331199029454, 'epoch': 0.1}
{'loss': 0.3263, 'grad_norm': 0.23641337454319, 'learning_rate': 0.0044614814315562445, 'epoch': 0.11}
{'loss': 0.3313, 'grad_norm': 0.3138951063156128, 'learning_rate': 0.004444631664083036, 'epoch': 0.11}
{'loss': 0.314, 'grad_norm': 0.3948783576488495, 'learning_rate': 0.004427781896609827, 'epoch': 0.11}
{'loss': 0.3163, 'grad_norm': 0.40138229727745056, 'learning_rate': 0.004410932129136617, 'epoch': 0.12}
{'loss': 0.3388, 'grad_norm': 0.4801936149597168, 'learning_rate': 0.004394082361663409, 'epoch': 0.12}
{'loss': 0.3549, 'grad_norm': 0.38008493185043335, 'learning_rate': 0.0043772325941902005, 'epoch': 0.12}
{'loss': 0.2978, 'grad_norm': 0.34284529089927673, 'learning_rate': 0.004360382826716991, 'epoch': 0.13}
{'loss': 0.2825, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.22282558679580688, 'eval_runtime': 120.5324, 'eval_samples_per_second': 123.104, 'eval_steps_per_second': 15.39, 'epoch': 0.13}
{'loss': 0.3247, 'grad_norm': 0.5452320575714111, 'learning_rate': 0.004309833524297365, 'epoch': 0.14}
{'loss': 0.3175, 'grad_norm': 0.30519387125968933, 'learning_rate': 0.004292983756824156, 'epoch': 0.14}
{'loss': 0.3171, 'grad_norm': 0.38929376006126404, 'learning_rate': 0.004276133989350947, 'epoch': 0.14}
{'loss': 0.3103, 'grad_norm': 0.47922229766845703, 'learning_rate': 0.004259284221877739, 'epoch': 0.15}
{'loss': 0.3366, 'grad_norm': 0.2394433617591858, 'learning_rate': 0.004242434454404529, 'epoch': 0.15}
{'loss': 0.3094, 'grad_norm': 0.23403474688529968, 'learning_rate': 0.00422558468693132, 'epoch': 0.16}
{'loss': 0.3029, 'grad_norm': 0.4298539459705353, 'learning_rate': 0.004208734919458112, 'epoch': 0.16}
{'loss': 0.2973, 'grad_norm': 0.28422173857688904, 'learning_rate': 0.004191885151984902, 'epoch': 0.16}
{'loss': 0.2807, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.2173992395401001, 'eval_runtime': 111.887, 'eval_samples_per_second': 132.616, 'eval_steps_per_second': 16.579, 'epoch': 0.17}
{'loss': 0.2884, 'grad_norm': 0.17355309426784515, 'learning_rate': 0.004141335849565276, 'epoch': 0.17}
{'loss': 0.2794, 'grad_norm': 0.2941860854625702, 'learning_rate': 0.004124486082092067, 'epoch': 0.18}
{'loss': 0.2828, 'grad_norm': 0.405226469039917, 'learning_rate': 0.004107636314618858, 'epoch': 0.18}
{'loss': 0.2854, 'grad_norm': 0.6283029913902283, 'learning_rate': 0.00409078654714565, 'epoch': 0.18}
{'loss': 0.2866, 'grad_norm': 0.3045453727245331, 'learning_rate': 0.0040739367796724405, 'epoch': 0.19}
{'loss': 0.2983, 'grad_norm': 0.28066763281822205, 'learning_rate': 0.004057087012199231, 'epoch': 0.19}
{'loss': 0.3085, 'grad_norm': 0.33147773146629333, 'learning_rate': 0.004040237244726023, 'epoch': 0.19}
{'loss': 0.3039, 'grad_norm': 0.4445158839225769, 'learning_rate': 0.004023387477252814, 'epoch': 0.2}
{'loss': 0.2896, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.2034834325313568, 'eval_runtime': 120.3017, 'eval_samples_per_second': 123.34, 'eval_steps_per_second': 15.42, 'epoch': 0.2}
{'loss': 0.2971, 'grad_norm': 0.44348976016044617, 'learning_rate': 0.003972838174833187, 'epoch': 0.21}
{'loss': 0.2776, 'grad_norm': 0.3780512809753418, 'learning_rate': 0.003955988407359978, 'epoch': 0.21}
{'loss': 0.2859, 'grad_norm': 0.8068387508392334, 'learning_rate': 0.0039391386398867695, 'epoch': 0.21}
{'loss': 0.2946, 'grad_norm': 0.40245553851127625, 'learning_rate': 0.003922288872413561, 'epoch': 0.22}
{'loss': 0.2923, 'grad_norm': 0.313937246799469, 'learning_rate': 0.003905439104940352, 'epoch': 0.22}
{'loss': 0.2799, 'grad_norm': 0.403474360704422, 'learning_rate': 0.0038885893374671432, 'epoch': 0.22}
{'loss': 0.2942, 'grad_norm': 0.3221900761127472, 'learning_rate': 0.003871739569993934, 'epoch': 0.23}
{'loss': 0.2741, 'grad_norm': 0.3381277918815613, 'learning_rate': 0.003854889802520725, 'epoch': 0.23}
{'loss': 0.2701, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.20086753368377686, 'eval_runtime': 119.6623, 'eval_samples_per_second': 123.999, 'eval_steps_per_second': 15.502, 'epoch': 0.24}
{'loss': 0.2711, 'grad_norm': 0.2694168984889984, 'learning_rate': 0.003804340500101099, 'epoch': 0.24}
{'loss': 0.2633, 'grad_norm': 0.451631635427475, 'learning_rate': 0.0037874907326278895, 'epoch': 0.24}
{'loss': 0.2719, 'grad_norm': 0.3573971390724182, 'learning_rate': 0.003770640965154681, 'epoch': 0.25}
{'loss': 0.2645, 'grad_norm': 0.32833755016326904, 'learning_rate': 0.003753791197681472, 'epoch': 0.25}
{'loss': 0.26, 'grad_norm': 0.5040099024772644, 'learning_rate': 0.0037369414302082632, 'epoch': 0.25}
{'loss': 0.2789, 'grad_norm': 0.2254834622144699, 'learning_rate': 0.0037200916627350544, 'epoch': 0.26}
{'loss': 0.2654, 'grad_norm': 0.3507726788520813, 'learning_rate': 0.003703241895261846, 'epoch': 0.26}
{'loss': 0.2874, 'grad_norm': 0.31741416454315186, 'learning_rate': 0.0036863921277886366, 'epoch': 0.26}
{'loss': 0.2605, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19719789922237396, 'eval_runtime': 120.7802, 'eval_samples_per_second': 122.851, 'eval_steps_per_second': 15.358, 'epoch': 0.27}
{'loss': 0.2825, 'grad_norm': 0.5074491500854492, 'learning_rate': 0.00363584282536901, 'epoch': 0.27}
{'loss': 0.2666, 'grad_norm': 0.3990693688392639, 'learning_rate': 0.0036189930578958015, 'epoch': 0.28}
{'loss': 0.2677, 'grad_norm': 0.19997476041316986, 'learning_rate': 0.003602143290422592, 'epoch': 0.28}
{'loss': 0.2734, 'grad_norm': 0.33102038502693176, 'learning_rate': 0.0035852935229493833, 'epoch': 0.28}
{'loss': 0.2685, 'grad_norm': 0.5896890163421631, 'learning_rate': 0.0035684437554761744, 'epoch': 0.29}
{'loss': 0.2718, 'grad_norm': 0.4123149812221527, 'learning_rate': 0.003551593988002966, 'epoch': 0.29}
{'loss': 0.3014, 'grad_norm': 0.25926336646080017, 'learning_rate': 0.003534744220529757, 'epoch': 0.29}
{'loss': 0.2713, 'grad_norm': 0.18401117622852325, 'learning_rate': 0.0035178944530565477, 'epoch': 0.3}
{'loss': 0.2857, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19280807673931122, 'eval_runtime': 120.6252, 'eval_samples_per_second': 123.009, 'eval_steps_per_second': 15.378, 'epoch': 0.3}
{'loss': 0.2611, 'grad_norm': 0.3577774167060852, 'learning_rate': 0.0034673451506369215, 'epoch': 0.31}
{'loss': 0.2244, 'grad_norm': 0.5397051572799683, 'learning_rate': 0.0034504953831637126, 'epoch': 0.31}
{'loss': 0.2691, 'grad_norm': 0.3741408884525299, 'learning_rate': 0.0034336456156905033, 'epoch': 0.31}
{'loss': 0.2532, 'grad_norm': 0.34690552949905396, 'learning_rate': 0.0034167958482172944, 'epoch': 0.32}
{'loss': 0.2724, 'grad_norm': 0.5706616640090942, 'learning_rate': 0.003399946080744086, 'epoch': 0.32}
{'loss': 0.2499, 'grad_norm': 0.3048001825809479, 'learning_rate': 0.003383096313270877, 'epoch': 0.32}
{'loss': 0.2526, 'grad_norm': 0.2794841229915619, 'learning_rate': 0.003366246545797668, 'epoch': 0.33}
{'loss': 0.2524, 'grad_norm': 0.34482210874557495, 'learning_rate': 0.0033493967783244593, 'epoch': 0.33}
{'loss': 0.2489, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1832769215106964, 'eval_runtime': 120.3632, 'eval_samples_per_second': 123.277, 'eval_steps_per_second': 15.412, 'epoch': 0.34}
{'loss': 0.2595, 'grad_norm': 0.18674519658088684, 'learning_rate': 0.0032988474759048326, 'epoch': 0.34}
{'loss': 0.2247, 'grad_norm': 0.23665650188922882, 'learning_rate': 0.0032819977084316237, 'epoch': 0.34}
{'loss': 0.2537, 'grad_norm': 0.29474949836730957, 'learning_rate': 0.003265147940958415, 'epoch': 0.35}
{'loss': 0.2514, 'grad_norm': 0.2906021773815155, 'learning_rate': 0.0032482981734852055, 'epoch': 0.35}
{'loss': 0.2499, 'grad_norm': 0.3583901524543762, 'learning_rate': 0.003231448406011997, 'epoch': 0.35}
{'loss': 0.2602, 'grad_norm': 0.39878955483436584, 'learning_rate': 0.003214598638538788, 'epoch': 0.36}
{'loss': 0.2799, 'grad_norm': 0.3098912537097931, 'learning_rate': 0.0031980858664150437, 'epoch': 0.36}
{'loss': 0.2849, 'grad_norm': 0.5432793498039246, 'learning_rate': 0.003181236098941835, 'epoch': 0.36}
{'loss': 0.2441,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17723830044269562, 'eval_runtime': 132.7473, 'eval_samples_per_second': 111.776, 'eval_steps_per_second': 13.974, 'epoch': 0.37}
{'loss': 0.2698, 'grad_norm': 0.2458082139492035, 'learning_rate': 0.003130686796522208, 'epoch': 0.37}
{'loss': 0.2587, 'grad_norm': 0.47948530316352844, 'learning_rate': 0.0031138370290489993, 'epoch': 0.38}
{'loss': 0.2484, 'grad_norm': 0.6654329299926758, 'learning_rate': 0.0030969872615757904, 'epoch': 0.38}
{'loss': 0.2455, 'grad_norm': 0.5103875398635864, 'learning_rate': 0.003080137494102582, 'epoch': 0.38}
{'loss': 0.2321, 'grad_norm': 0.3641532361507416, 'learning_rate': 0.0030632877266293726, 'epoch': 0.39}
{'loss': 0.2383, 'grad_norm': 0.3252500295639038, 'learning_rate': 0.0030464379591561637, 'epoch': 0.39}
{'loss': 0.2571, 'grad_norm': 0.3159843385219574, 'learning_rate': 0.003029588191682955, 'epoch': 0.39}
{'loss': 0.2326, 'grad_norm': 0.27649882435798645, 'learning_rate': 0.003012738424209746, 'epoch': 0.4}
{'loss': 0.2357, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17130626738071442, 'eval_runtime': 129.8974, 'eval_samples_per_second': 114.229, 'eval_steps_per_second': 14.281, 'epoch': 0.4}
{'loss': 0.2362, 'grad_norm': 0.36243656277656555, 'learning_rate': 0.0029621891217901193, 'epoch': 0.41}
{'loss': 0.2498, 'grad_norm': 0.5355924367904663, 'learning_rate': 0.0029453393543169104, 'epoch': 0.41}
{'loss': 0.2417, 'grad_norm': 0.4717024564743042, 'learning_rate': 0.0029284895868437015, 'epoch': 0.41}
{'loss': 0.2343, 'grad_norm': 0.5312181115150452, 'learning_rate': 0.002911639819370493, 'epoch': 0.42}
{'loss': 0.2384, 'grad_norm': 0.1138719916343689, 'learning_rate': 0.0028947900518972837, 'epoch': 0.42}
{'loss': 0.2513, 'grad_norm': 0.5010295510292053, 'learning_rate': 0.002877940284424075, 'epoch': 0.42}
{'loss': 0.2153, 'grad_norm': 0.13519372045993805, 'learning_rate': 0.002861090516950866, 'epoch': 0.43}
{'loss': 0.2411, 'grad_norm': 0.07595562189817429, 'learning_rate': 0.0028442407494776575, 'epoch': 0.43}
{'loss': 0.2197,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1668005734682083, 'eval_runtime': 120.9083, 'eval_samples_per_second': 122.721, 'eval_steps_per_second': 15.342, 'epoch': 0.44}
{'loss': 0.2326, 'grad_norm': 0.17492568492889404, 'learning_rate': 0.0027936914470580304, 'epoch': 0.44}
{'loss': 0.2481, 'grad_norm': 0.34532588720321655, 'learning_rate': 0.0027768416795848215, 'epoch': 0.44}
{'loss': 0.2369, 'grad_norm': 0.25342050194740295, 'learning_rate': 0.002759991912111613, 'epoch': 0.45}
{'loss': 0.2213, 'grad_norm': 0.29240551590919495, 'learning_rate': 0.002743142144638404, 'epoch': 0.45}
{'loss': 0.2313, 'grad_norm': 0.1440695822238922, 'learning_rate': 0.0027262923771651953, 'epoch': 0.45}
{'loss': 0.2376, 'grad_norm': 0.2516716420650482, 'learning_rate': 0.002709442609691986, 'epoch': 0.46}
{'loss': 0.2307, 'grad_norm': 0.36064955592155457, 'learning_rate': 0.0026925928422187775, 'epoch': 0.46}
{'loss': 0.2379, 'grad_norm': 0.2304910570383072, 'learning_rate': 0.0026757430747455686, 'epoch': 0.47}
{'loss': 0.243

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16296358406543732, 'eval_runtime': 111.454, 'eval_samples_per_second': 133.131, 'eval_steps_per_second': 16.644, 'epoch': 0.47}
{'loss': 0.229, 'grad_norm': 0.5393272638320923, 'learning_rate': 0.0026251937723259415, 'epoch': 0.48}
{'loss': 0.2175, 'grad_norm': 0.20524626970291138, 'learning_rate': 0.002608344004852733, 'epoch': 0.48}
{'loss': 0.2228, 'grad_norm': 0.22374454140663147, 'learning_rate': 0.002591494237379524, 'epoch': 0.48}
{'loss': 0.2236, 'grad_norm': 0.2757350504398346, 'learning_rate': 0.0025746444699063153, 'epoch': 0.49}
{'loss': 0.2318, 'grad_norm': 0.25075313448905945, 'learning_rate': 0.0025577947024331064, 'epoch': 0.49}
{'loss': 0.2246, 'grad_norm': 0.44742897152900696, 'learning_rate': 0.002540944934959898, 'epoch': 0.49}
{'loss': 0.2283, 'grad_norm': 0.2694830298423767, 'learning_rate': 0.0025240951674866887, 'epoch': 0.5}
{'loss': 0.2308, 'grad_norm': 0.21763138473033905, 'learning_rate': 0.0025072454000134798, 'epoch': 0.5}
{'loss': 0.2161, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15918287634849548, 'eval_runtime': 120.3211, 'eval_samples_per_second': 123.32, 'eval_steps_per_second': 15.417, 'epoch': 0.51}
{'loss': 0.2125, 'grad_norm': 0.19798113405704498, 'learning_rate': 0.002456696097593853, 'epoch': 0.51}
{'loss': 0.2376, 'grad_norm': 0.21833030879497528, 'learning_rate': 0.0024398463301206447, 'epoch': 0.51}
{'loss': 0.2014, 'grad_norm': 0.2477247416973114, 'learning_rate': 0.0024229965626474353, 'epoch': 0.52}
{'loss': 0.2181, 'grad_norm': 0.18622198700904846, 'learning_rate': 0.0024061467951742264, 'epoch': 0.52}
{'loss': 0.2083, 'grad_norm': 0.6711756587028503, 'learning_rate': 0.002389297027701018, 'epoch': 0.52}
{'loss': 0.2339, 'grad_norm': 0.25794681906700134, 'learning_rate': 0.0023724472602278087, 'epoch': 0.53}
{'loss': 0.205, 'grad_norm': 0.24986955523490906, 'learning_rate': 0.0023555974927546, 'epoch': 0.53}
{'loss': 0.2287, 'grad_norm': 0.32857954502105713, 'learning_rate': 0.0023387477252813913, 'epoch': 0.53}
{'loss': 0.2222,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.155787393450737, 'eval_runtime': 131.4763, 'eval_samples_per_second': 112.857, 'eval_steps_per_second': 14.109, 'epoch': 0.54}
{'loss': 0.2164, 'grad_norm': 0.228602334856987, 'learning_rate': 0.0022881984228617642, 'epoch': 0.54}
{'loss': 0.2298, 'grad_norm': 0.595108151435852, 'learning_rate': 0.0022713486553885558, 'epoch': 0.55}
{'loss': 0.2173, 'grad_norm': 0.2705899775028229, 'learning_rate': 0.002254498887915347, 'epoch': 0.55}
{'loss': 0.2172, 'grad_norm': 0.23757553100585938, 'learning_rate': 0.002237649120442138, 'epoch': 0.55}
{'loss': 0.1969, 'grad_norm': 0.1491384506225586, 'learning_rate': 0.002220799352968929, 'epoch': 0.56}
{'loss': 0.2174, 'grad_norm': 0.15019838511943817, 'learning_rate': 0.0022039495854957202, 'epoch': 0.56}
{'loss': 0.2108, 'grad_norm': 0.19876287877559662, 'learning_rate': 0.0021870998180225113, 'epoch': 0.56}
{'loss': 0.2001, 'grad_norm': 0.3038972318172455, 'learning_rate': 0.0021702500505493025, 'epoch': 0.57}
{'loss': 0.2162, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1524844914674759, 'eval_runtime': 120.9428, 'eval_samples_per_second': 122.686, 'eval_steps_per_second': 15.338, 'epoch': 0.57}
{'loss': 0.2282, 'grad_norm': 0.15932004153728485, 'learning_rate': 0.002119700748129676, 'epoch': 0.58}
{'loss': 0.21, 'grad_norm': 0.2729654014110565, 'learning_rate': 0.002102850980656467, 'epoch': 0.58}
{'loss': 0.2117, 'grad_norm': 0.2294660359621048, 'learning_rate': 0.002086001213183258, 'epoch': 0.58}
{'loss': 0.2046, 'grad_norm': 0.242273211479187, 'learning_rate': 0.0020691514457100496, 'epoch': 0.59}
{'loss': 0.2082, 'grad_norm': 0.2493453025817871, 'learning_rate': 0.0020523016782368403, 'epoch': 0.59}
{'loss': 0.2065, 'grad_norm': 0.3354663848876953, 'learning_rate': 0.0020354519107636314, 'epoch': 0.59}
{'loss': 0.2121, 'grad_norm': 0.2111566662788391, 'learning_rate': 0.0020186021432904225, 'epoch': 0.6}
{'loss': 0.224, 'grad_norm': 0.22014158964157104, 'learning_rate': 0.0020017523758172136, 'epoch': 0.6}
{'loss': 0.207, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14635731279850006, 'eval_runtime': 120.4856, 'eval_samples_per_second': 123.152, 'eval_steps_per_second': 15.396, 'epoch': 0.61}
{'loss': 0.204, 'grad_norm': 0.20721623301506042, 'learning_rate': 0.0019512030733975871, 'epoch': 0.61}
{'loss': 0.2001, 'grad_norm': 0.25672999024391174, 'learning_rate': 0.0019343533059243785, 'epoch': 0.61}
{'loss': 0.2237, 'grad_norm': 0.29729655385017395, 'learning_rate': 0.0019175035384511694, 'epoch': 0.62}
{'loss': 0.2052, 'grad_norm': 0.30342042446136475, 'learning_rate': 0.0019006537709779607, 'epoch': 0.62}
{'loss': 0.2093, 'grad_norm': 0.10545476526021957, 'learning_rate': 0.0018838040035047516, 'epoch': 0.62}
{'loss': 0.1917, 'grad_norm': 0.31346645951271057, 'learning_rate': 0.0018669542360315427, 'epoch': 0.63}
{'loss': 0.2089, 'grad_norm': 0.21960493922233582, 'learning_rate': 0.001850104468558334, 'epoch': 0.63}
{'loss': 0.1959, 'grad_norm': 0.3294212520122528, 'learning_rate': 0.0018335916964345891, 'epoch': 0.63}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14512638747692108, 'eval_runtime': 132.5682, 'eval_samples_per_second': 111.927, 'eval_steps_per_second': 13.993, 'epoch': 0.64}
{'loss': 0.2135, 'grad_norm': 0.250040203332901, 'learning_rate': 0.0017830423940149627, 'epoch': 0.64}
{'loss': 0.1984, 'grad_norm': 0.2532154321670532, 'learning_rate': 0.0017661926265417538, 'epoch': 0.65}
{'loss': 0.1986, 'grad_norm': 0.1859693080186844, 'learning_rate': 0.0017493428590685447, 'epoch': 0.65}
{'loss': 0.2025, 'grad_norm': 0.3147754669189453, 'learning_rate': 0.001732493091595336, 'epoch': 0.65}
{'loss': 0.2108, 'grad_norm': 0.16037346422672272, 'learning_rate': 0.0017156433241221273, 'epoch': 0.66}
{'loss': 0.2061, 'grad_norm': 0.2625471353530884, 'learning_rate': 0.0016987935566489182, 'epoch': 0.66}
{'loss': 0.1933, 'grad_norm': 0.21880920231342316, 'learning_rate': 0.0016819437891757094, 'epoch': 0.66}
{'loss': 0.2091, 'grad_norm': 0.3008059859275818, 'learning_rate': 0.0016650940217025005, 'epoch': 0.67}
{'loss': 0.1869

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14162737131118774, 'eval_runtime': 120.503, 'eval_samples_per_second': 123.134, 'eval_steps_per_second': 15.394, 'epoch': 0.67}
{'loss': 0.1947, 'grad_norm': 0.19624432921409607, 'learning_rate': 0.0016145447192828738, 'epoch': 0.68}
{'loss': 0.1828, 'grad_norm': 0.2831522524356842, 'learning_rate': 0.0015976949518096651, 'epoch': 0.68}
{'loss': 0.2027, 'grad_norm': 0.10937128961086273, 'learning_rate': 0.0015808451843364562, 'epoch': 0.68}
{'loss': 0.2043, 'grad_norm': 0.22006146609783173, 'learning_rate': 0.0015639954168632474, 'epoch': 0.69}
{'loss': 0.1959, 'grad_norm': 0.2229481190443039, 'learning_rate': 0.0015471456493900385, 'epoch': 0.69}
{'loss': 0.2062, 'grad_norm': 0.3165438771247864, 'learning_rate': 0.0015302958819168294, 'epoch': 0.69}
{'loss': 0.1831, 'grad_norm': 0.180744469165802, 'learning_rate': 0.0015134461144436207, 'epoch': 0.7}
{'loss': 0.178, 'grad_norm': 0.37109076976776123, 'learning_rate': 0.0014965963469704118, 'epoch': 0.7}
{'loss': 0.1955,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13863985240459442, 'eval_runtime': 132.0378, 'eval_samples_per_second': 112.377, 'eval_steps_per_second': 14.049, 'epoch': 0.71}
{'loss': 0.1741, 'grad_norm': 0.27496224641799927, 'learning_rate': 0.0014460470445507854, 'epoch': 0.71}
{'loss': 0.1873, 'grad_norm': 0.1676141321659088, 'learning_rate': 0.0014291972770775763, 'epoch': 0.71}
{'loss': 0.1884, 'grad_norm': 0.26196804642677307, 'learning_rate': 0.0014123475096043676, 'epoch': 0.72}
{'loss': 0.1892, 'grad_norm': 0.2412337213754654, 'learning_rate': 0.0013954977421311585, 'epoch': 0.72}
{'loss': 0.1863, 'grad_norm': 0.23617053031921387, 'learning_rate': 0.0013786479746579498, 'epoch': 0.72}
{'loss': 0.1841, 'grad_norm': 0.3547799587249756, 'learning_rate': 0.001361798207184741, 'epoch': 0.73}
{'loss': 0.1905, 'grad_norm': 0.15636903047561646, 'learning_rate': 0.0013449484397115318, 'epoch': 0.73}
{'loss': 0.1779, 'grad_norm': 0.10447733104228973, 'learning_rate': 0.0013280986722383232, 'epoch': 0.73}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13441939651966095, 'eval_runtime': 122.2825, 'eval_samples_per_second': 121.342, 'eval_steps_per_second': 15.17, 'epoch': 0.74}
{'loss': 0.1884, 'grad_norm': 0.27772530913352966, 'learning_rate': 0.0012775493698186965, 'epoch': 0.74}
{'loss': 0.193, 'grad_norm': 0.18830130994319916, 'learning_rate': 0.0012606996023454876, 'epoch': 0.75}
{'loss': 0.1739, 'grad_norm': 0.16241993010044098, 'learning_rate': 0.0012438498348722787, 'epoch': 0.75}
{'loss': 0.1787, 'grad_norm': 0.3218924403190613, 'learning_rate': 0.0012270000673990698, 'epoch': 0.75}
{'loss': 0.1749, 'grad_norm': 0.19379553198814392, 'learning_rate': 0.0012101502999258612, 'epoch': 0.76}
{'loss': 0.1877, 'grad_norm': 0.10910774022340775, 'learning_rate': 0.0011933005324526523, 'epoch': 0.76}
{'loss': 0.196, 'grad_norm': 0.46950966119766235, 'learning_rate': 0.0011764507649794432, 'epoch': 0.76}
{'loss': 0.1967, 'grad_norm': 0.18927043676376343, 'learning_rate': 0.0011596009975062343, 'epoch': 0.77}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13344083726406097, 'eval_runtime': 130.5084, 'eval_samples_per_second': 113.694, 'eval_steps_per_second': 14.214, 'epoch': 0.78}
{'loss': 0.1744, 'grad_norm': 0.1315869688987732, 'learning_rate': 0.0011090516950866078, 'epoch': 0.78}
{'loss': 0.195, 'grad_norm': 0.14314474165439606, 'learning_rate': 0.001092201927613399, 'epoch': 0.78}
{'loss': 0.1909, 'grad_norm': 0.20226995646953583, 'learning_rate': 0.00107535216014019, 'epoch': 0.79}
{'loss': 0.1791, 'grad_norm': 0.3159247040748596, 'learning_rate': 0.0010585023926669812, 'epoch': 0.79}
{'loss': 0.1742, 'grad_norm': 0.09073209762573242, 'learning_rate': 0.0010416526251937723, 'epoch': 0.79}
{'loss': 0.1865, 'grad_norm': 0.09571400284767151, 'learning_rate': 0.0010248028577205634, 'epoch': 0.8}
{'loss': 0.1733, 'grad_norm': 0.2454972267150879, 'learning_rate': 0.0010079530902473547, 'epoch': 0.8}
{'loss': 0.1826, 'grad_norm': 0.19745424389839172, 'learning_rate': 0.0009911033227741456, 'epoch': 0.8}
{'loss': 0.1764, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1295810490846634, 'eval_runtime': 121.9779, 'eval_samples_per_second': 121.645, 'eval_steps_per_second': 15.208, 'epoch': 0.81}
{'loss': 0.1736, 'grad_norm': 0.14551019668579102, 'learning_rate': 0.0009405540203545192, 'epoch': 0.81}
{'loss': 0.1852, 'grad_norm': 0.0903993546962738, 'learning_rate': 0.0009237042528813103, 'epoch': 0.82}
{'loss': 0.1701, 'grad_norm': 0.1757224053144455, 'learning_rate': 0.0009068544854081013, 'epoch': 0.82}
{'loss': 0.1685, 'grad_norm': 0.1975894719362259, 'learning_rate': 0.0008900047179348924, 'epoch': 0.82}
{'loss': 0.1921, 'grad_norm': 0.22573870420455933, 'learning_rate': 0.0008731549504616837, 'epoch': 0.83}
{'loss': 0.1813, 'grad_norm': 0.16744351387023926, 'learning_rate': 0.0008563051829884748, 'epoch': 0.83}
{'loss': 0.1664, 'grad_norm': 0.1346556842327118, 'learning_rate': 0.0008394554155152659, 'epoch': 0.83}
{'loss': 0.1872, 'grad_norm': 0.25513771176338196, 'learning_rate': 0.000822605648042057, 'epoch': 0.84}
{'loss': 0.18

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12894047796726227, 'eval_runtime': 119.4417, 'eval_samples_per_second': 124.228, 'eval_steps_per_second': 15.531, 'epoch': 0.84}
{'loss': 0.1792, 'grad_norm': 0.2218797206878662, 'learning_rate': 0.0007720563456224304, 'epoch': 0.85}
{'loss': 0.1619, 'grad_norm': 0.1620505154132843, 'learning_rate': 0.0007552065781492216, 'epoch': 0.85}
{'loss': 0.1765, 'grad_norm': 0.21747566759586334, 'learning_rate': 0.0007383568106760128, 'epoch': 0.85}
{'loss': 0.1844, 'grad_norm': 0.12435074150562286, 'learning_rate': 0.0007215070432028038, 'epoch': 0.86}
{'loss': 0.1698, 'grad_norm': 0.3034322261810303, 'learning_rate': 0.0007046572757295949, 'epoch': 0.86}
{'loss': 0.1673, 'grad_norm': 0.16023080050945282, 'learning_rate': 0.000687807508256386, 'epoch': 0.86}
{'loss': 0.1932, 'grad_norm': 0.27024197578430176, 'learning_rate': 0.0006709577407831772, 'epoch': 0.87}
{'loss': 0.1917, 'grad_norm': 0.1944076418876648, 'learning_rate': 0.0006541079733099683, 'epoch': 0.87}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1247202679514885, 'eval_runtime': 122.5885, 'eval_samples_per_second': 121.039, 'eval_steps_per_second': 15.132, 'epoch': 0.88}
{'loss': 0.1923, 'grad_norm': 0.3087921738624573, 'learning_rate': 0.0006035586708903417, 'epoch': 0.88}
{'loss': 0.1877, 'grad_norm': 0.24231287837028503, 'learning_rate': 0.0005867089034171329, 'epoch': 0.88}
{'loss': 0.1774, 'grad_norm': 0.11446885764598846, 'learning_rate': 0.000569859135943924, 'epoch': 0.89}
{'loss': 0.1548, 'grad_norm': 0.18585273623466492, 'learning_rate': 0.0005530093684707151, 'epoch': 0.89}
{'loss': 0.1729, 'grad_norm': 0.11409397423267365, 'learning_rate': 0.0005361596009975062, 'epoch': 0.89}
{'loss': 0.1796, 'grad_norm': 0.1870105117559433, 'learning_rate': 0.0005193098335242974, 'epoch': 0.9}
{'loss': 0.1751, 'grad_norm': 0.22493979334831238, 'learning_rate': 0.0005024600660510885, 'epoch': 0.9}
{'loss': 0.1659, 'grad_norm': 0.14446188509464264, 'learning_rate': 0.00048561029857787963, 'epoch': 0.9}
{'loss': 0.17

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12284842133522034, 'eval_runtime': 121.148, 'eval_samples_per_second': 122.478, 'eval_steps_per_second': 15.312, 'epoch': 0.91}
{'loss': 0.1713, 'grad_norm': 0.29861947894096375, 'learning_rate': 0.000435060996158253, 'epoch': 0.91}
{'loss': 0.1624, 'grad_norm': 0.17668196558952332, 'learning_rate': 0.0004182112286850442, 'epoch': 0.92}
{'loss': 0.1691, 'grad_norm': 0.1947260946035385, 'learning_rate': 0.00040136146121183525, 'epoch': 0.92}
{'loss': 0.1694, 'grad_norm': 0.22030073404312134, 'learning_rate': 0.0003845116937386264, 'epoch': 0.92}
{'loss': 0.1641, 'grad_norm': 0.2462010234594345, 'learning_rate': 0.00036766192626541753, 'epoch': 0.93}
{'loss': 0.1825, 'grad_norm': 0.22344522178173065, 'learning_rate': 0.0003508121587922087, 'epoch': 0.93}
{'loss': 0.1762, 'grad_norm': 0.1026570126414299, 'learning_rate': 0.0003339623913189998, 'epoch': 0.93}
{'loss': 0.1754, 'grad_norm': 0.1384560763835907, 'learning_rate': 0.000317112623845791, 'epoch': 0.94}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12058847397565842, 'eval_runtime': 120.4989, 'eval_samples_per_second': 123.138, 'eval_steps_per_second': 15.394, 'epoch': 0.94}
{'loss': 0.1672, 'grad_norm': 0.16290836036205292, 'learning_rate': 0.0002665633214261643, 'epoch': 0.95}
{'loss': 0.1665, 'grad_norm': 0.17916518449783325, 'learning_rate': 0.00024971355395295543, 'epoch': 0.95}
{'loss': 0.1798, 'grad_norm': 0.22615490853786469, 'learning_rate': 0.00023286378647974657, 'epoch': 0.95}
{'loss': 0.1623, 'grad_norm': 0.1785280704498291, 'learning_rate': 0.0002160140190065377, 'epoch': 0.96}
{'loss': 0.1664, 'grad_norm': 0.1237485259771347, 'learning_rate': 0.00019916425153332883, 'epoch': 0.96}
{'loss': 0.1566, 'grad_norm': 0.18960148096084595, 'learning_rate': 0.00018231448406011997, 'epoch': 0.96}
{'loss': 0.1566, 'grad_norm': 0.23717135190963745, 'learning_rate': 0.00016546471658691108, 'epoch': 0.97}
{'loss': 0.1725, 'grad_norm': 0.13824665546417236, 'learning_rate': 0.00014861494911370225, 'epoch': 0.97}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1198081374168396, 'eval_runtime': 120.3423, 'eval_samples_per_second': 123.298, 'eval_steps_per_second': 15.414, 'epoch': 0.98}
{'loss': 0.1651, 'grad_norm': 0.17811422049999237, 'learning_rate': 9.806564669407563e-05, 'epoch': 0.98}
{'loss': 0.1741, 'grad_norm': 0.17021426558494568, 'learning_rate': 8.121587922086675e-05, 'epoch': 0.98}
{'loss': 0.1596, 'grad_norm': 0.3084295094013214, 'learning_rate': 6.436611174765788e-05, 'epoch': 0.99}
{'loss': 0.166, 'grad_norm': 0.1819743812084198, 'learning_rate': 4.751634427444901e-05, 'epoch': 0.99}
{'loss': 0.1615, 'grad_norm': 0.10878852754831314, 'learning_rate': 3.066657680124015e-05, 'epoch': 0.99}
{'loss': 0.1696, 'grad_norm': 0.13999038934707642, 'learning_rate': 1.3816809328031274e-05, 'epoch': 1.0}
{'train_runtime': 6618.6092, 'train_samples_per_second': 17.934, 'train_steps_per_second': 2.242, 'train_loss': 0.2451750064077761, 'epoch': 1.0}


('./sql-training-1736772456\\tokenizer_config.json',
 './sql-training-1736772456\\special_tokens_map.json',
 './sql-training-1736772456\\spiece.model',
 './sql-training-1736772456\\added_tokens.json',
 './sql-training-1736772456\\tokenizer.json')

In [23]:
import time
import os
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, Trainer, TrainingArguments
from datasets import load_dataset, DatasetDict, interleave_datasets

# Load the tokenizer and model
model_name = 't5-small'
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Specify the path to your previously saved model
saved_model_path = 'C:/Users/gshan/OneDrive/Desktop/hugging/sql-training-1741912853'

# Load the previously saved model if it exists
if os.path.exists(saved_model_path):
    finetuned_model = AutoModelForSeq2SeqLM.from_pretrained(saved_model_path)
    print(f"Resuming from saved model at: {saved_model_path}")
else:
    # If no checkpoint exists, load the model from scratch
    finetuned_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
    print(f"Starting from scratch as no saved model was found.")

# Define the output directory for saving new checkpoints
output_dir = f'./sql-training-{str(int(time.time()))}'

# Load and prepare datasets
dataset_scc_train = load_dataset("b-mc2/sql-create-context", split='train[:80%]')
dataset_scc_test = load_dataset("b-mc2/sql-create-context", split='train[-20%:-10%]')
dataset_scc_val = load_dataset("b-mc2/sql-create-context", split='train[-10%:]')

dataset_tts_train = load_dataset("Clinton/Text-to-sql-v1", split='train[:80%]')
dataset_tts_train = dataset_tts_train.remove_columns(['source', 'text'])
dataset_tts_train = dataset_tts_train.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_test = load_dataset("Clinton/Text-to-sql-v1", split='train[-20%:-10%]')
dataset_tts_test = dataset_tts_test.remove_columns(['source', 'text'])
dataset_tts_test = dataset_tts_test.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_val = load_dataset("Clinton/Text-to-sql-v1", split='train[-10%:]')
dataset_tts_val = dataset_tts_val.remove_columns(['source', 'text'])
dataset_tts_val = dataset_tts_val.rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})

dataset_ks_train = load_dataset("knowrohit07/know_sql", split='validation[:80%]')
dataset_ks_test = load_dataset("knowrohit07/know_sql", split='validation[-20%:-10%]')
dataset_ks_val = load_dataset("knowrohit07/know_sql", split='validation[-10%:]')

# Combine datasets
dataset = DatasetDict({
    'train': interleave_datasets([dataset_scc_train, dataset_tts_train, dataset_ks_train]),
    'test': interleave_datasets([dataset_scc_test, dataset_tts_test, dataset_ks_test]),
    'validation': interleave_datasets([dataset_scc_val, dataset_tts_val, dataset_ks_val])
}) 

# Define the preprocess function
def preprocess_function(examples):
    inputs = examples['question']
    targets = examples['answer']
    model_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=128)
    labels = tokenizer(targets, padding="max_length", truncation=True, max_length=128).input_ids
    model_inputs["labels"] = labels
    return model_inputs

# Tokenize the dataset
tokenized_datasets = dataset.map(preprocess_function, batched=True)

# Training setup
training_args = TrainingArguments(
    output_dir=output_dir,
    learning_rate=1e-2,
    num_train_epochs=25,  # Reduced epochs for testing
    per_device_train_batch_size=8,   # Reduced batch size
    per_device_eval_batch_size=8,
    weight_decay=0.01,
    logging_steps=50,
    evaluation_strategy='steps',
    eval_steps=500,
    save_steps=500,  # Save model checkpoints every 500 steps
    save_total_limit=2,  # Limit the total number of checkpoints
    fp16=True,  # Use mixed precision for faster training
)

# Initialize the Trainer
trainer = Trainer(
    model=finetuned_model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['validation'],
)

# Train the model, resuming from checkpoint if available
trainer.train(resume_from_checkpoint='C:/Users/gshan/OneDrive/Desktop/hugging/sql-training-1741912853/checkpoint-74185')

# Save the updated model and tokenizer after training
finetuned_model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)


Resuming from saved model at: C:/Users/gshan/OneDrive/Desktop/hugging/sql-training-1741912853


There were missing keys in the checkpoint model loaded: ['encoder.embed_tokens.weight', 'decoder.embed_tokens.weight', 'lm_head.weight'].
  torch.load(os.path.join(checkpoint, OPTIMIZER_NAME), map_location=map_location)


  0%|          | 0/370925 [00:00<?, ?it/s]

  checkpoint_rng_state = torch.load(rng_file)


{'loss': 0.0855, 'grad_norm': 0.17037168145179749, 'learning_rate': 0.0040000808788838715, 'epoch': 5.0}
{'loss': 0.1433, 'grad_norm': 0.3205695152282715, 'learning_rate': 0.003999406888184944, 'epoch': 5.0}
{'loss': 0.2378, 'grad_norm': 1.0684642791748047, 'learning_rate': 0.003998746377299993, 'epoch': 5.01}
{'loss': 0.2641, 'grad_norm': 0.43353673815727234, 'learning_rate': 0.003998072386601065, 'epoch': 5.01}
{'loss': 0.3185, 'grad_norm': 0.686379075050354, 'learning_rate': 0.003997398395902137, 'epoch': 5.01}
{'loss': 0.3065, 'grad_norm': 0.8326034545898438, 'learning_rate': 0.003996724405203208, 'epoch': 5.02}
{'loss': 0.2976, 'grad_norm': 1.4381695985794067, 'learning_rate': 0.00399605041450428, 'epoch': 5.02}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.21863625943660736, 'eval_runtime': 126.3035, 'eval_samples_per_second': 117.479, 'eval_steps_per_second': 14.687, 'epoch': 5.02}
{'loss': 0.285, 'grad_norm': 0.49456608295440674, 'learning_rate': 0.003995376423805351, 'epoch': 5.02}
{'loss': 0.2628, 'grad_norm': 0.5292797088623047, 'learning_rate': 0.003994702433106423, 'epoch': 5.03}
{'loss': 0.2488, 'grad_norm': 0.40677037835121155, 'learning_rate': 0.0039940284424074945, 'epoch': 5.03}
{'loss': 0.2659, 'grad_norm': 0.7284128069877625, 'learning_rate': 0.0039933544517085666, 'epoch': 5.03}
{'loss': 0.25, 'grad_norm': 0.24718353152275085, 'learning_rate': 0.003992680461009638, 'epoch': 5.04}
{'loss': 0.2335, 'grad_norm': 0.43093034625053406, 'learning_rate': 0.00399200647031071, 'epoch': 5.04}
{'loss': 0.2565, 'grad_norm': 0.42304527759552, 'learning_rate': 0.003991332479611782, 'epoch': 5.04}
{'loss': 0.222, 'grad_norm': 0.4332260489463806, 'learning_rate': 0.003990658488912853, 'epoch': 5.05}
{'loss': 0.2395, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16913165152072906, 'eval_runtime': 127.427, 'eval_samples_per_second': 116.443, 'eval_steps_per_second': 14.557, 'epoch': 5.05}
{'loss': 0.2244, 'grad_norm': 0.33562642335891724, 'learning_rate': 0.0039886365168160685, 'epoch': 5.06}
{'loss': 0.2235, 'grad_norm': 0.4480355381965637, 'learning_rate': 0.00398796252611714, 'epoch': 5.06}
{'loss': 0.2346, 'grad_norm': 0.6484660506248474, 'learning_rate': 0.003987288535418212, 'epoch': 5.07}
{'loss': 0.2086, 'grad_norm': 0.6030799746513367, 'learning_rate': 0.003986614544719283, 'epoch': 5.07}
{'loss': 0.216, 'grad_norm': 0.4731856882572174, 'learning_rate': 0.003985940554020355, 'epoch': 5.07}
{'loss': 0.2328, 'grad_norm': 0.27522116899490356, 'learning_rate': 0.003985266563321426, 'epoch': 5.08}
{'loss': 0.2305, 'grad_norm': 0.5942382216453552, 'learning_rate': 0.003984592572622498, 'epoch': 5.08}
{'loss': 0.2232, 'grad_norm': 0.5168547034263611, 'learning_rate': 0.00398391858192357, 'epoch': 5.08}
{'loss': 0.2069, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15997572243213654, 'eval_runtime': 131.2391, 'eval_samples_per_second': 113.061, 'eval_steps_per_second': 14.135, 'epoch': 5.09}
{'loss': 0.2143, 'grad_norm': 0.5421455502510071, 'learning_rate': 0.003981896609826784, 'epoch': 5.09}
{'loss': 0.2285, 'grad_norm': 0.22494564950466156, 'learning_rate': 0.003981222619127856, 'epoch': 5.1}
{'loss': 0.196, 'grad_norm': 0.2266906201839447, 'learning_rate': 0.003980548628428927, 'epoch': 5.1}
{'loss': 0.2318, 'grad_norm': 0.4582793116569519, 'learning_rate': 0.0039798746377299994, 'epoch': 5.1}
{'loss': 0.2119, 'grad_norm': 0.5639398097991943, 'learning_rate': 0.003979200647031071, 'epoch': 5.11}
{'loss': 0.2051, 'grad_norm': 0.3835775554180145, 'learning_rate': 0.003978526656332143, 'epoch': 5.11}
{'loss': 0.2215, 'grad_norm': 0.34027576446533203, 'learning_rate': 0.003977852665633214, 'epoch': 5.11}
{'loss': 0.233, 'grad_norm': 0.6563439965248108, 'learning_rate': 0.003977178674934286, 'epoch': 5.12}
{'loss': 0.2364, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16973759233951569, 'eval_runtime': 130.303, 'eval_samples_per_second': 113.873, 'eval_steps_per_second': 14.236, 'epoch': 5.12}
{'loss': 0.2076, 'grad_norm': 0.35318195819854736, 'learning_rate': 0.0039751567028375005, 'epoch': 5.13}
{'loss': 0.2089, 'grad_norm': 0.36966410279273987, 'learning_rate': 0.003974482712138573, 'epoch': 5.13}
{'loss': 0.2205, 'grad_norm': 0.5883830189704895, 'learning_rate': 0.003973808721439644, 'epoch': 5.13}
{'loss': 0.2373, 'grad_norm': 0.3800574541091919, 'learning_rate': 0.003973134730740716, 'epoch': 5.14}
{'loss': 0.2191, 'grad_norm': 0.33913537859916687, 'learning_rate': 0.003972460740041787, 'epoch': 5.14}
{'loss': 0.2151, 'grad_norm': 0.4153703451156616, 'learning_rate': 0.003971786749342859, 'epoch': 5.14}
{'loss': 0.2095, 'grad_norm': 0.2909539043903351, 'learning_rate': 0.003971112758643931, 'epoch': 5.15}
{'loss': 0.2149, 'grad_norm': 0.670520544052124, 'learning_rate': 0.0039704387679450025, 'epoch': 5.15}
{'loss': 0.217, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16200605034828186, 'eval_runtime': 132.2566, 'eval_samples_per_second': 112.191, 'eval_steps_per_second': 14.026, 'epoch': 5.16}
{'loss': 0.2007, 'grad_norm': 0.44042178988456726, 'learning_rate': 0.003968416795848218, 'epoch': 5.16}
{'loss': 0.2238, 'grad_norm': 0.5372648239135742, 'learning_rate': 0.003967742805149289, 'epoch': 5.16}
{'loss': 0.2073, 'grad_norm': 0.4181947708129883, 'learning_rate': 0.003967068814450361, 'epoch': 5.17}
{'loss': 0.2168, 'grad_norm': 0.5291087031364441, 'learning_rate': 0.003966394823751432, 'epoch': 5.17}
{'loss': 0.2163, 'grad_norm': 0.42153552174568176, 'learning_rate': 0.003965720833052504, 'epoch': 5.17}
{'loss': 0.2254, 'grad_norm': 0.6172714829444885, 'learning_rate': 0.003965046842353576, 'epoch': 5.18}
{'loss': 0.2158, 'grad_norm': 0.2680305242538452, 'learning_rate': 0.003964372851654648, 'epoch': 5.18}
{'loss': 0.216, 'grad_norm': 0.6059299111366272, 'learning_rate': 0.003963698860955719, 'epoch': 5.18}
{'loss': 0.2341, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1589479148387909, 'eval_runtime': 131.1195, 'eval_samples_per_second': 113.164, 'eval_steps_per_second': 14.147, 'epoch': 5.19}
{'loss': 0.2255, 'grad_norm': 0.9484780430793762, 'learning_rate': 0.003961676888858933, 'epoch': 5.19}
{'loss': 0.2172, 'grad_norm': 0.3161194324493408, 'learning_rate': 0.0039610028981600055, 'epoch': 5.2}
{'loss': 0.2283, 'grad_norm': 0.7961201667785645, 'learning_rate': 0.003960328907461077, 'epoch': 5.2}
{'loss': 0.2181, 'grad_norm': 0.5279377698898315, 'learning_rate': 0.003959654916762149, 'epoch': 5.2}
{'loss': 0.2218, 'grad_norm': 0.7006803750991821, 'learning_rate': 0.00395898092606322, 'epoch': 5.21}
{'loss': 0.215, 'grad_norm': 0.4190918803215027, 'learning_rate': 0.003958306935364292, 'epoch': 5.21}
{'loss': 0.2122, 'grad_norm': 0.257650226354599, 'learning_rate': 0.003957632944665363, 'epoch': 5.21}
{'loss': 0.2204, 'grad_norm': 0.5982045531272888, 'learning_rate': 0.003956958953966435, 'epoch': 5.22}
{'loss': 0.2172, 'grad_norm':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16453814506530762, 'eval_runtime': 131.279, 'eval_samples_per_second': 113.026, 'eval_steps_per_second': 14.13, 'epoch': 5.22}
{'loss': 0.2115, 'grad_norm': 0.4063050448894501, 'learning_rate': 0.00395493698186965, 'epoch': 5.23}
{'loss': 0.2146, 'grad_norm': 0.47349295020103455, 'learning_rate': 0.003954262991170722, 'epoch': 5.23}
{'loss': 0.2316, 'grad_norm': 0.2761724889278412, 'learning_rate': 0.003953589000471793, 'epoch': 5.23}
{'loss': 0.2159, 'grad_norm': 0.4635169208049774, 'learning_rate': 0.003952915009772865, 'epoch': 5.24}
{'loss': 0.2156, 'grad_norm': 0.7867319583892822, 'learning_rate': 0.0039522410190739364, 'epoch': 5.24}
{'loss': 0.2301, 'grad_norm': 0.29261311888694763, 'learning_rate': 0.0039515670283750085, 'epoch': 5.24}
{'loss': 0.2086, 'grad_norm': 0.4130898416042328, 'learning_rate': 0.00395089303767608, 'epoch': 5.25}
{'loss': 0.2175, 'grad_norm': 0.5816460251808167, 'learning_rate': 0.003950219046977152, 'epoch': 5.25}
{'loss': 0.2083, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16240893304347992, 'eval_runtime': 130.0901, 'eval_samples_per_second': 114.059, 'eval_steps_per_second': 14.259, 'epoch': 5.26}
{'loss': 0.2221, 'grad_norm': 0.5095402002334595, 'learning_rate': 0.003948197074880367, 'epoch': 5.26}
{'loss': 0.2252, 'grad_norm': 0.4957159757614136, 'learning_rate': 0.003947523084181438, 'epoch': 5.26}
{'loss': 0.206, 'grad_norm': 0.5329763889312744, 'learning_rate': 0.0039468490934825105, 'epoch': 5.27}
{'loss': 0.194, 'grad_norm': 0.4166291654109955, 'learning_rate': 0.003946175102783582, 'epoch': 5.27}
{'loss': 0.1947, 'grad_norm': 0.5270242691040039, 'learning_rate': 0.003945501112084654, 'epoch': 5.27}
{'loss': 0.225, 'grad_norm': 0.32707148790359497, 'learning_rate': 0.003944827121385725, 'epoch': 5.28}
{'loss': 0.2168, 'grad_norm': 0.5778952240943909, 'learning_rate': 0.003944153130686797, 'epoch': 5.28}
{'loss': 0.2172, 'grad_norm': 0.47575831413269043, 'learning_rate': 0.003943479139987868, 'epoch': 5.28}
{'loss': 0.2014, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15913957357406616, 'eval_runtime': 130.479, 'eval_samples_per_second': 113.719, 'eval_steps_per_second': 14.217, 'epoch': 5.29}
{'loss': 0.2134, 'grad_norm': 0.5488190650939941, 'learning_rate': 0.003941457167891084, 'epoch': 5.29}
{'loss': 0.2231, 'grad_norm': 0.38346225023269653, 'learning_rate': 0.003940783177192155, 'epoch': 5.3}
{'loss': 0.2205, 'grad_norm': 0.4226067364215851, 'learning_rate': 0.003940109186493226, 'epoch': 5.3}
{'loss': 0.2206, 'grad_norm': 0.2671457827091217, 'learning_rate': 0.003939435195794298, 'epoch': 5.3}
{'loss': 0.2395, 'grad_norm': 0.43162357807159424, 'learning_rate': 0.003938761205095369, 'epoch': 5.31}
{'loss': 0.1973, 'grad_norm': 0.36468812823295593, 'learning_rate': 0.003938087214396441, 'epoch': 5.31}
{'loss': 0.2198, 'grad_norm': 0.4695318639278412, 'learning_rate': 0.003937413223697513, 'epoch': 5.31}
{'loss': 0.2149, 'grad_norm': 0.4051682949066162, 'learning_rate': 0.003936739232998585, 'epoch': 5.32}
{'loss': 0.2274, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16152691841125488, 'eval_runtime': 130.1642, 'eval_samples_per_second': 113.995, 'eval_steps_per_second': 14.251, 'epoch': 5.32}
{'loss': 0.1963, 'grad_norm': 0.5319451093673706, 'learning_rate': 0.003934717260901799, 'epoch': 5.33}
{'loss': 0.2347, 'grad_norm': 0.28658100962638855, 'learning_rate': 0.003934043270202871, 'epoch': 5.33}
{'loss': 0.2183, 'grad_norm': 0.4079165458679199, 'learning_rate': 0.0039333692795039425, 'epoch': 5.33}
{'loss': 0.2238, 'grad_norm': 0.5927021503448486, 'learning_rate': 0.0039326952888050146, 'epoch': 5.34}
{'loss': 0.2221, 'grad_norm': 0.44048553705215454, 'learning_rate': 0.003932021298106086, 'epoch': 5.34}
{'loss': 0.2326, 'grad_norm': 0.28537067770957947, 'learning_rate': 0.003931347307407158, 'epoch': 5.34}
{'loss': 0.2167, 'grad_norm': 0.5321254730224609, 'learning_rate': 0.003930673316708229, 'epoch': 5.35}
{'loss': 0.2297, 'grad_norm': 0.3322046399116516, 'learning_rate': 0.003929999326009301, 'epoch': 5.35}
{'loss': 0.2221, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16225437819957733, 'eval_runtime': 131.2778, 'eval_samples_per_second': 113.027, 'eval_steps_per_second': 14.13, 'epoch': 5.36}
{'loss': 0.234, 'grad_norm': 0.2553642988204956, 'learning_rate': 0.0039279773539125165, 'epoch': 5.36}
{'loss': 0.2176, 'grad_norm': 0.517479419708252, 'learning_rate': 0.003927303363213588, 'epoch': 5.36}
{'loss': 0.2228, 'grad_norm': 2.2473673820495605, 'learning_rate': 0.00392662937251466, 'epoch': 5.37}
{'loss': 0.2023, 'grad_norm': 0.512120246887207, 'learning_rate': 0.003925955381815731, 'epoch': 5.37}
{'loss': 0.2334, 'grad_norm': 0.34933948516845703, 'learning_rate': 0.003925281391116803, 'epoch': 5.38}
{'loss': 0.2291, 'grad_norm': 0.317507803440094, 'learning_rate': 0.003924607400417874, 'epoch': 5.38}
{'loss': 0.2241, 'grad_norm': 0.5397517681121826, 'learning_rate': 0.003923933409718946, 'epoch': 5.38}
{'loss': 0.1966, 'grad_norm': 0.4352269172668457, 'learning_rate': 0.003923259419020018, 'epoch': 5.39}
{'loss': 0.1948, 'grad_norm

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1616213619709015, 'eval_runtime': 132.8462, 'eval_samples_per_second': 111.693, 'eval_steps_per_second': 13.964, 'epoch': 5.39}
{'loss': 0.2081, 'grad_norm': 0.24415279924869537, 'learning_rate': 0.003921237446923233, 'epoch': 5.4}
{'loss': 0.2114, 'grad_norm': 0.580295741558075, 'learning_rate': 0.003920563456224304, 'epoch': 5.4}
{'loss': 0.225, 'grad_norm': 0.3210032284259796, 'learning_rate': 0.003919889465525376, 'epoch': 5.4}
{'loss': 0.2447, 'grad_norm': 0.4577818214893341, 'learning_rate': 0.0039192154748264475, 'epoch': 5.41}
{'loss': 0.2076, 'grad_norm': 0.4068969488143921, 'learning_rate': 0.003918541484127519, 'epoch': 5.41}
{'loss': 0.2267, 'grad_norm': 0.5119311213493347, 'learning_rate': 0.003917867493428591, 'epoch': 5.41}
{'loss': 0.2157, 'grad_norm': 0.6266787052154541, 'learning_rate': 0.003917193502729662, 'epoch': 5.42}
{'loss': 0.2243, 'grad_norm': 0.4161585569381714, 'learning_rate': 0.003916519512030734, 'epoch': 5.42}
{'loss': 0.2138, 'grad_norm

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16593684256076813, 'eval_runtime': 130.5774, 'eval_samples_per_second': 113.634, 'eval_steps_per_second': 14.206, 'epoch': 5.43}
{'loss': 0.2218, 'grad_norm': 0.49982258677482605, 'learning_rate': 0.0039144975399339485, 'epoch': 5.43}
{'loss': 0.2148, 'grad_norm': 0.5235362648963928, 'learning_rate': 0.003913823549235021, 'epoch': 5.43}
{'loss': 0.2182, 'grad_norm': 0.4012249708175659, 'learning_rate': 0.003913149558536092, 'epoch': 5.44}
{'loss': 0.2127, 'grad_norm': 1.0459049940109253, 'learning_rate': 0.003912475567837164, 'epoch': 5.44}
{'loss': 0.2059, 'grad_norm': 0.4404008984565735, 'learning_rate': 0.003911801577138235, 'epoch': 5.44}
{'loss': 0.22, 'grad_norm': 0.4317395091056824, 'learning_rate': 0.003911127586439307, 'epoch': 5.45}
{'loss': 0.2373, 'grad_norm': 0.3880354166030884, 'learning_rate': 0.003910453595740378, 'epoch': 5.45}
{'loss': 0.2181, 'grad_norm': 0.5230413675308228, 'learning_rate': 0.0039097796050414505, 'epoch': 5.45}
{'loss': 0.2078, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16625995934009552, 'eval_runtime': 131.4555, 'eval_samples_per_second': 112.875, 'eval_steps_per_second': 14.111, 'epoch': 5.46}
{'loss': 0.2183, 'grad_norm': 0.5157558917999268, 'learning_rate': 0.003907757632944666, 'epoch': 5.46}
{'loss': 0.2234, 'grad_norm': 0.39170390367507935, 'learning_rate': 0.003907083642245737, 'epoch': 5.47}
{'loss': 0.2389, 'grad_norm': 0.6416043639183044, 'learning_rate': 0.003906409651546809, 'epoch': 5.47}
{'loss': 0.2177, 'grad_norm': 0.7278841137886047, 'learning_rate': 0.0039057356608478808, 'epoch': 5.47}
{'loss': 0.2221, 'grad_norm': 0.4274885952472687, 'learning_rate': 0.003905061670148952, 'epoch': 5.48}
{'loss': 0.2234, 'grad_norm': 0.5535159707069397, 'learning_rate': 0.0039043876794500236, 'epoch': 5.48}
{'loss': 0.2341, 'grad_norm': 0.2443905621767044, 'learning_rate': 0.0039037136887510953, 'epoch': 5.48}
{'loss': 0.2397, 'grad_norm': 0.7329217195510864, 'learning_rate': 0.003903039698052167, 'epoch': 5.49}
{'loss': 0.2243, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16460220515727997, 'eval_runtime': 128.3352, 'eval_samples_per_second': 115.619, 'eval_steps_per_second': 14.454, 'epoch': 5.49}
{'loss': 0.2092, 'grad_norm': 0.3857892155647278, 'learning_rate': 0.003901017725955382, 'epoch': 5.5}
{'loss': 0.2348, 'grad_norm': 0.4298691153526306, 'learning_rate': 0.0039003437352564535, 'epoch': 5.5}
{'loss': 0.2341, 'grad_norm': 0.3739178776741028, 'learning_rate': 0.0038996832243715037, 'epoch': 5.5}
{'loss': 0.2011, 'grad_norm': 0.6141291856765747, 'learning_rate': 0.0038990092336725754, 'epoch': 5.51}
{'loss': 0.2262, 'grad_norm': 0.6124606728553772, 'learning_rate': 0.003898335242973647, 'epoch': 5.51}
{'loss': 0.2354, 'grad_norm': 0.33552297949790955, 'learning_rate': 0.0038976612522747187, 'epoch': 5.51}
{'loss': 0.235, 'grad_norm': 0.43721437454223633, 'learning_rate': 0.0038969872615757903, 'epoch': 5.52}
{'loss': 0.2319, 'grad_norm': 0.31419649720191956, 'learning_rate': 0.0038963132708768615, 'epoch': 5.52}
{'loss': 0.2133, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17115825414657593, 'eval_runtime': 136.7008, 'eval_samples_per_second': 108.544, 'eval_steps_per_second': 13.57, 'epoch': 5.53}
{'loss': 0.2273, 'grad_norm': 0.5064259767532349, 'learning_rate': 0.0038943047785940555, 'epoch': 5.53}
{'loss': 0.2262, 'grad_norm': 0.7752124667167664, 'learning_rate': 0.003893630787895127, 'epoch': 5.53}
{'loss': 0.2458, 'grad_norm': 0.49156254529953003, 'learning_rate': 0.0038929567971961987, 'epoch': 5.54}
{'loss': 0.238, 'grad_norm': 0.9734792113304138, 'learning_rate': 0.0038922828064972704, 'epoch': 5.54}
{'loss': 0.242, 'grad_norm': 0.5965157151222229, 'learning_rate': 0.003891608815798342, 'epoch': 5.54}
{'loss': 0.2469, 'grad_norm': 0.38033226132392883, 'learning_rate': 0.0038909348250994137, 'epoch': 5.55}
{'loss': 0.2293, 'grad_norm': 0.5681495070457458, 'learning_rate': 0.0038902608344004853, 'epoch': 5.55}
{'loss': 0.2488, 'grad_norm': 0.7281656861305237, 'learning_rate': 0.003889586843701557, 'epoch': 5.55}
{'loss': 0.227, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16592466831207275, 'eval_runtime': 125.2539, 'eval_samples_per_second': 118.463, 'eval_steps_per_second': 14.81, 'epoch': 5.56}
{'loss': 0.2168, 'grad_norm': 0.7214252352714539, 'learning_rate': 0.003887564871604772, 'epoch': 5.56}
{'loss': 0.2259, 'grad_norm': 0.49354299902915955, 'learning_rate': 0.0038868908809058435, 'epoch': 5.57}
{'loss': 0.2361, 'grad_norm': 0.3224044442176819, 'learning_rate': 0.003886216890206915, 'epoch': 5.57}
{'loss': 0.2172, 'grad_norm': 0.394667387008667, 'learning_rate': 0.003885542899507987, 'epoch': 5.57}
{'loss': 0.2291, 'grad_norm': 0.6225391626358032, 'learning_rate': 0.0038848689088090585, 'epoch': 5.58}
{'loss': 0.2361, 'grad_norm': 0.8133379817008972, 'learning_rate': 0.00388419491811013, 'epoch': 5.58}
{'loss': 0.2283, 'grad_norm': 0.2737959921360016, 'learning_rate': 0.0038835209274112018, 'epoch': 5.58}
{'loss': 0.2107, 'grad_norm': 0.48635005950927734, 'learning_rate': 0.003882846936712273, 'epoch': 5.59}
{'loss': 0.217, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1638331413269043, 'eval_runtime': 141.9372, 'eval_samples_per_second': 104.539, 'eval_steps_per_second': 13.069, 'epoch': 5.59}
{'loss': 0.2169, 'grad_norm': 0.29486918449401855, 'learning_rate': 0.0038808249646154888, 'epoch': 5.6}
{'loss': 0.2301, 'grad_norm': 0.504740834236145, 'learning_rate': 0.0038801509739165604, 'epoch': 5.6}
{'loss': 0.2036, 'grad_norm': 0.4272800385951996, 'learning_rate': 0.003879476983217632, 'epoch': 5.6}
{'loss': 0.2018, 'grad_norm': 0.2940758168697357, 'learning_rate': 0.0038788029925187037, 'epoch': 5.61}
{'loss': 0.2118, 'grad_norm': 0.6262246370315552, 'learning_rate': 0.003878129001819775, 'epoch': 5.61}
{'loss': 0.2311, 'grad_norm': 0.3920243978500366, 'learning_rate': 0.0038774550111208466, 'epoch': 5.61}
{'loss': 0.2182, 'grad_norm': 0.3686720132827759, 'learning_rate': 0.003876781020421918, 'epoch': 5.62}
{'loss': 0.2116, 'grad_norm': 0.37714895606040955, 'learning_rate': 0.00387610702972299, 'epoch': 5.62}
{'loss': 0.2249, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16518905758857727, 'eval_runtime': 142.1058, 'eval_samples_per_second': 104.415, 'eval_steps_per_second': 13.054, 'epoch': 5.63}
{'loss': 0.2252, 'grad_norm': 0.26119405031204224, 'learning_rate': 0.003874085057626205, 'epoch': 5.63}
{'loss': 0.2261, 'grad_norm': 0.7090857028961182, 'learning_rate': 0.0038734110669272764, 'epoch': 5.63}
{'loss': 0.229, 'grad_norm': 0.5702335238456726, 'learning_rate': 0.003872737076228348, 'epoch': 5.64}
{'loss': 0.2124, 'grad_norm': 0.2884587347507477, 'learning_rate': 0.0038720630855294197, 'epoch': 5.64}
{'loss': 0.2227, 'grad_norm': 0.33167120814323425, 'learning_rate': 0.0038713890948304914, 'epoch': 5.64}
{'loss': 0.2204, 'grad_norm': 0.5601560473442078, 'learning_rate': 0.003870715104131563, 'epoch': 5.65}
{'loss': 0.2223, 'grad_norm': 0.43848222494125366, 'learning_rate': 0.0038700411134326347, 'epoch': 5.65}
{'loss': 0.2107, 'grad_norm': 0.647110641002655, 'learning_rate': 0.0038693671227337063, 'epoch': 5.65}
{'loss': 0.2223, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1648240089416504, 'eval_runtime': 129.6214, 'eval_samples_per_second': 114.472, 'eval_steps_per_second': 14.311, 'epoch': 5.66}
{'loss': 0.2111, 'grad_norm': 0.39462903141975403, 'learning_rate': 0.0038673451506369212, 'epoch': 5.66}
{'loss': 0.2192, 'grad_norm': 1.1032912731170654, 'learning_rate': 0.003866671159937993, 'epoch': 5.67}
{'loss': 0.2104, 'grad_norm': 0.5797525644302368, 'learning_rate': 0.0038659971692390645, 'epoch': 5.67}
{'loss': 0.2176, 'grad_norm': 0.6381735801696777, 'learning_rate': 0.003865323178540136, 'epoch': 5.68}
{'loss': 0.2015, 'grad_norm': 0.4008082449436188, 'learning_rate': 0.003864649187841208, 'epoch': 5.68}
{'loss': 0.234, 'grad_norm': 0.36604127287864685, 'learning_rate': 0.0038639751971422795, 'epoch': 5.68}
{'loss': 0.2326, 'grad_norm': 0.33152297139167786, 'learning_rate': 0.003863301206443351, 'epoch': 5.69}
{'loss': 0.2291, 'grad_norm': 0.5907524228096008, 'learning_rate': 0.0038626272157444227, 'epoch': 5.69}
{'loss': 0.2327, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16132575273513794, 'eval_runtime': 141.2869, 'eval_samples_per_second': 105.02, 'eval_steps_per_second': 13.129, 'epoch': 5.7}
{'loss': 0.2261, 'grad_norm': 0.5258516669273376, 'learning_rate': 0.003860605243647638, 'epoch': 5.7}
{'loss': 0.2234, 'grad_norm': 0.587314784526825, 'learning_rate': 0.0038599312529487098, 'epoch': 5.7}
{'loss': 0.234, 'grad_norm': 2.4684031009674072, 'learning_rate': 0.0038592572622497814, 'epoch': 5.71}
{'loss': 0.2333, 'grad_norm': 0.5824605226516724, 'learning_rate': 0.003858583271550853, 'epoch': 5.71}
{'loss': 0.2325, 'grad_norm': 0.3688928484916687, 'learning_rate': 0.0038579092808519247, 'epoch': 5.71}
{'loss': 0.2144, 'grad_norm': 0.612403392791748, 'learning_rate': 0.0038572352901529963, 'epoch': 5.72}
{'loss': 0.2137, 'grad_norm': 0.5323508977890015, 'learning_rate': 0.0038565612994540675, 'epoch': 5.72}
{'loss': 0.2267, 'grad_norm': 0.3064717650413513, 'learning_rate': 0.003855887308755139, 'epoch': 5.72}
{'loss': 0.2144, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1602933704853058, 'eval_runtime': 139.4016, 'eval_samples_per_second': 106.441, 'eval_steps_per_second': 13.307, 'epoch': 5.73}
{'loss': 0.2098, 'grad_norm': 0.30196258425712585, 'learning_rate': 0.003853865336658354, 'epoch': 5.73}
{'loss': 0.2159, 'grad_norm': 0.49261239171028137, 'learning_rate': 0.0038531913459594258, 'epoch': 5.74}
{'loss': 0.2216, 'grad_norm': 0.38459542393684387, 'learning_rate': 0.0038525173552604974, 'epoch': 5.74}
{'loss': 0.2252, 'grad_norm': 0.4110189378261566, 'learning_rate': 0.003851843364561569, 'epoch': 5.74}
{'loss': 0.2242, 'grad_norm': 0.48808106780052185, 'learning_rate': 0.0038511693738626407, 'epoch': 5.75}
{'loss': 0.2316, 'grad_norm': 0.42144232988357544, 'learning_rate': 0.0038504953831637123, 'epoch': 5.75}
{'loss': 0.2222, 'grad_norm': 0.45326775312423706, 'learning_rate': 0.003849821392464784, 'epoch': 5.75}
{'loss': 0.2053, 'grad_norm': 0.3161965012550354, 'learning_rate': 0.0038491474017658556, 'epoch': 5.76}
{'loss': 0.22

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16374866664409637, 'eval_runtime': 128.1145, 'eval_samples_per_second': 115.818, 'eval_steps_per_second': 14.479, 'epoch': 5.76}
{'loss': 0.2217, 'grad_norm': 0.4186428487300873, 'learning_rate': 0.0038471254296690706, 'epoch': 5.77}
{'loss': 0.2082, 'grad_norm': 0.5091153383255005, 'learning_rate': 0.0038464514389701422, 'epoch': 5.77}
{'loss': 0.2191, 'grad_norm': 0.49275878071784973, 'learning_rate': 0.003845777448271214, 'epoch': 5.77}
{'loss': 0.1962, 'grad_norm': 0.5517845749855042, 'learning_rate': 0.0038451034575722855, 'epoch': 5.78}
{'loss': 0.2129, 'grad_norm': 0.5403801202774048, 'learning_rate': 0.003844429466873357, 'epoch': 5.78}
{'loss': 0.2267, 'grad_norm': 0.42253148555755615, 'learning_rate': 0.003843755476174429, 'epoch': 5.78}
{'loss': 0.2264, 'grad_norm': 0.47218284010887146, 'learning_rate': 0.0038430814854755004, 'epoch': 5.79}
{'loss': 0.2316, 'grad_norm': 0.3127360939979553, 'learning_rate': 0.003842407494776572, 'epoch': 5.79}
{'loss': 0.2099,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17145130038261414, 'eval_runtime': 128.9286, 'eval_samples_per_second': 115.087, 'eval_steps_per_second': 14.388, 'epoch': 5.8}
{'loss': 0.235, 'grad_norm': 0.7796522378921509, 'learning_rate': 0.0038403855226797875, 'epoch': 5.8}
{'loss': 0.2259, 'grad_norm': 0.4580860435962677, 'learning_rate': 0.003839711531980859, 'epoch': 5.8}
{'loss': 0.2159, 'grad_norm': 0.6584380269050598, 'learning_rate': 0.0038390375412819307, 'epoch': 5.81}
{'loss': 0.2257, 'grad_norm': 0.7708688974380493, 'learning_rate': 0.0038383635505830024, 'epoch': 5.81}
{'loss': 0.2465, 'grad_norm': 0.6289317011833191, 'learning_rate': 0.003837703039698052, 'epoch': 5.81}
{'loss': 0.2267, 'grad_norm': 0.7436028718948364, 'learning_rate': 0.003837029048999124, 'epoch': 5.82}
{'loss': 0.2234, 'grad_norm': 0.6832348704338074, 'learning_rate': 0.0038363550583001955, 'epoch': 5.82}
{'loss': 0.2239, 'grad_norm': 0.5272862911224365, 'learning_rate': 0.003835681067601267, 'epoch': 5.82}
{'loss': 0.2209, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16160078346729279, 'eval_runtime': 132.5363, 'eval_samples_per_second': 111.954, 'eval_steps_per_second': 13.996, 'epoch': 5.83}
{'loss': 0.2194, 'grad_norm': 0.5245494842529297, 'learning_rate': 0.003833659095504482, 'epoch': 5.83}
{'loss': 0.2346, 'grad_norm': 0.46900075674057007, 'learning_rate': 0.0038329851048055537, 'epoch': 5.84}
{'loss': 0.2137, 'grad_norm': 0.42938247323036194, 'learning_rate': 0.0038323111141066253, 'epoch': 5.84}
{'loss': 0.2294, 'grad_norm': 0.4494740068912506, 'learning_rate': 0.003831637123407697, 'epoch': 5.84}
{'loss': 0.2189, 'grad_norm': 0.33756881952285767, 'learning_rate': 0.0038309631327087686, 'epoch': 5.85}
{'loss': 0.2289, 'grad_norm': 0.5825712084770203, 'learning_rate': 0.0038302891420098403, 'epoch': 5.85}
{'loss': 0.2221, 'grad_norm': 0.43396857380867004, 'learning_rate': 0.003829615151310912, 'epoch': 5.85}
{'loss': 0.201, 'grad_norm': 0.5078687071800232, 'learning_rate': 0.0038289411606119836, 'epoch': 5.86}
{'loss': 0.2213

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.167989119887352, 'eval_runtime': 132.6057, 'eval_samples_per_second': 111.896, 'eval_steps_per_second': 13.989, 'epoch': 5.86}
{'loss': 0.2219, 'grad_norm': 0.6301016807556152, 'learning_rate': 0.003826932668329177, 'epoch': 5.87}
{'loss': 0.2383, 'grad_norm': 0.6750392913818359, 'learning_rate': 0.0038262586776302487, 'epoch': 5.87}
{'loss': 0.2237, 'grad_norm': 0.6498597264289856, 'learning_rate': 0.0038255846869313203, 'epoch': 5.87}
{'loss': 0.2302, 'grad_norm': 0.2678799331188202, 'learning_rate': 0.003824910696232392, 'epoch': 5.88}
{'loss': 0.2303, 'grad_norm': 0.8357279300689697, 'learning_rate': 0.0038242367055334636, 'epoch': 5.88}
{'loss': 0.2181, 'grad_norm': 0.6231951117515564, 'learning_rate': 0.0038235627148345353, 'epoch': 5.88}
{'loss': 0.2371, 'grad_norm': 0.7932813167572021, 'learning_rate': 0.003822888724135607, 'epoch': 5.89}
{'loss': 0.2368, 'grad_norm': 0.44347694516181946, 'learning_rate': 0.0038222147334366786, 'epoch': 5.89}
{'loss': 0.2423, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17187339067459106, 'eval_runtime': 135.7382, 'eval_samples_per_second': 109.313, 'eval_steps_per_second': 13.666, 'epoch': 5.9}
{'loss': 0.2116, 'grad_norm': 0.6983482241630554, 'learning_rate': 0.0038201927613398935, 'epoch': 5.9}
{'loss': 0.2139, 'grad_norm': 0.469094455242157, 'learning_rate': 0.003819518770640965, 'epoch': 5.9}
{'loss': 0.2327, 'grad_norm': 0.5719262957572937, 'learning_rate': 0.003818844779942037, 'epoch': 5.91}
{'loss': 0.2176, 'grad_norm': 0.8006365299224854, 'learning_rate': 0.0038181707892431084, 'epoch': 5.91}
{'loss': 0.2337, 'grad_norm': 0.4175315201282501, 'learning_rate': 0.00381749679854418, 'epoch': 5.91}
{'loss': 0.1993, 'grad_norm': 0.40848085284233093, 'learning_rate': 0.0038168228078452517, 'epoch': 5.92}
{'loss': 0.2104, 'grad_norm': 0.4557848870754242, 'learning_rate': 0.0038161488171463234, 'epoch': 5.92}
{'loss': 0.2225, 'grad_norm': 0.6155800819396973, 'learning_rate': 0.003815474826447395, 'epoch': 5.92}
{'loss': 0.2269, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16184328496456146, 'eval_runtime': 125.7187, 'eval_samples_per_second': 118.025, 'eval_steps_per_second': 14.755, 'epoch': 5.93}
{'loss': 0.2236, 'grad_norm': 0.8656002283096313, 'learning_rate': 0.0038134528543506104, 'epoch': 5.93}
{'loss': 0.2312, 'grad_norm': 1.357602834701538, 'learning_rate': 0.003812778863651682, 'epoch': 5.94}
{'loss': 0.2148, 'grad_norm': 0.5279861092567444, 'learning_rate': 0.0038121048729527537, 'epoch': 5.94}
{'loss': 0.2253, 'grad_norm': 0.4889604449272156, 'learning_rate': 0.0038114308822538253, 'epoch': 5.94}
{'loss': 0.2359, 'grad_norm': 0.26994818449020386, 'learning_rate': 0.003810756891554897, 'epoch': 5.95}
{'loss': 0.2464, 'grad_norm': 0.5991281867027283, 'learning_rate': 0.0038100829008559686, 'epoch': 5.95}
{'loss': 0.223, 'grad_norm': 0.46646639704704285, 'learning_rate': 0.0038094089101570403, 'epoch': 5.95}
{'loss': 0.2129, 'grad_norm': 0.7044333815574646, 'learning_rate': 0.003808734919458112, 'epoch': 5.96}
{'loss': 0.2256, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16086030006408691, 'eval_runtime': 132.8871, 'eval_samples_per_second': 111.659, 'eval_steps_per_second': 13.959, 'epoch': 5.96}
{'loss': 0.2197, 'grad_norm': 0.6677342057228088, 'learning_rate': 0.0038067129473613264, 'epoch': 5.97}
{'loss': 0.2391, 'grad_norm': 0.27637213468551636, 'learning_rate': 0.003806038956662398, 'epoch': 5.97}
{'loss': 0.2079, 'grad_norm': 0.47603321075439453, 'learning_rate': 0.0038053649659634697, 'epoch': 5.97}
{'loss': 0.2151, 'grad_norm': 0.3897723853588104, 'learning_rate': 0.0038046909752645413, 'epoch': 5.98}
{'loss': 0.211, 'grad_norm': 0.4024825096130371, 'learning_rate': 0.003804016984565613, 'epoch': 5.98}
{'loss': 0.2184, 'grad_norm': 0.456966370344162, 'learning_rate': 0.0038033429938666846, 'epoch': 5.99}
{'loss': 0.2307, 'grad_norm': 0.31337717175483704, 'learning_rate': 0.0038026690031677563, 'epoch': 5.99}
{'loss': 0.2211, 'grad_norm': 0.2758293151855469, 'learning_rate': 0.003801995012468828, 'epoch': 5.99}
{'loss': 0.2253, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1657174676656723, 'eval_runtime': 138.1921, 'eval_samples_per_second': 107.372, 'eval_steps_per_second': 13.423, 'epoch': 6.0}
{'loss': 0.2185, 'grad_norm': 0.4996882677078247, 'learning_rate': 0.003799986520186022, 'epoch': 6.0}
{'loss': 0.2121, 'grad_norm': 0.4827072024345398, 'learning_rate': 0.0037993125294870935, 'epoch': 6.01}
{'loss': 0.2312, 'grad_norm': 0.5358309745788574, 'learning_rate': 0.003798638538788165, 'epoch': 6.01}
{'loss': 0.2092, 'grad_norm': 0.8704479932785034, 'learning_rate': 0.003797964548089237, 'epoch': 6.01}
{'loss': 0.2172, 'grad_norm': 0.4599316120147705, 'learning_rate': 0.0037972905573903084, 'epoch': 6.02}
{'loss': 0.204, 'grad_norm': 0.5666080117225647, 'learning_rate': 0.00379661656669138, 'epoch': 6.02}
{'loss': 0.2111, 'grad_norm': 0.563487708568573, 'learning_rate': 0.0037959425759924517, 'epoch': 6.02}
{'loss': 0.2095, 'grad_norm': 0.521314263343811, 'learning_rate': 0.0037952685852935234, 'epoch': 6.03}
{'loss': 0.2088, 'grad_nor

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15636619925498962, 'eval_runtime': 138.3198, 'eval_samples_per_second': 107.273, 'eval_steps_per_second': 13.411, 'epoch': 6.03}
{'loss': 0.2162, 'grad_norm': 0.44896388053894043, 'learning_rate': 0.003793246613196738, 'epoch': 6.04}
{'loss': 0.215, 'grad_norm': 0.7839075326919556, 'learning_rate': 0.0037925726224978095, 'epoch': 6.04}
{'loss': 0.2181, 'grad_norm': 0.5498346090316772, 'learning_rate': 0.003791898631798881, 'epoch': 6.04}
{'loss': 0.227, 'grad_norm': 0.5171298980712891, 'learning_rate': 0.003791224641099953, 'epoch': 6.05}
{'loss': 0.2078, 'grad_norm': 0.4121580719947815, 'learning_rate': 0.0037905506504010244, 'epoch': 6.05}
{'loss': 0.2124, 'grad_norm': 0.22670604288578033, 'learning_rate': 0.003789876659702096, 'epoch': 6.05}
{'loss': 0.2019, 'grad_norm': 0.7513250112533569, 'learning_rate': 0.0037892026690031677, 'epoch': 6.06}
{'loss': 0.2137, 'grad_norm': 0.743172824382782, 'learning_rate': 0.0037885286783042394, 'epoch': 6.06}
{'loss': 0.2297, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16601431369781494, 'eval_runtime': 125.3529, 'eval_samples_per_second': 118.37, 'eval_steps_per_second': 14.798, 'epoch': 6.07}
{'loss': 0.2027, 'grad_norm': 0.695417582988739, 'learning_rate': 0.0037865067062074543, 'epoch': 6.07}
{'loss': 0.2252, 'grad_norm': 0.7763037085533142, 'learning_rate': 0.003785832715508526, 'epoch': 6.07}
{'loss': 0.2173, 'grad_norm': 0.7067753076553345, 'learning_rate': 0.0037851587248095976, 'epoch': 6.08}
{'loss': 0.2174, 'grad_norm': 0.6244577169418335, 'learning_rate': 0.0037844847341106692, 'epoch': 6.08}
{'loss': 0.2068, 'grad_norm': 0.7127020359039307, 'learning_rate': 0.003783810743411741, 'epoch': 6.08}
{'loss': 0.2231, 'grad_norm': 0.6838840246200562, 'learning_rate': 0.0037831367527128125, 'epoch': 6.09}
{'loss': 0.2214, 'grad_norm': 0.4368097186088562, 'learning_rate': 0.003782462762013884, 'epoch': 6.09}
{'loss': 0.2204, 'grad_norm': 0.6729310750961304, 'learning_rate': 0.003781788771314956, 'epoch': 6.09}
{'loss': 0.1996, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1630786955356598, 'eval_runtime': 124.6681, 'eval_samples_per_second': 119.02, 'eval_steps_per_second': 14.88, 'epoch': 6.1}
{'loss': 0.2122, 'grad_norm': 0.37692028284072876, 'learning_rate': 0.003779766799218171, 'epoch': 6.1}
{'loss': 0.2189, 'grad_norm': 0.4413682222366333, 'learning_rate': 0.003779092808519243, 'epoch': 6.11}
{'loss': 0.2077, 'grad_norm': 0.44046926498413086, 'learning_rate': 0.0037784188178203145, 'epoch': 6.11}
{'loss': 0.2101, 'grad_norm': 0.8233927488327026, 'learning_rate': 0.003777744827121386, 'epoch': 6.11}
{'loss': 0.2017, 'grad_norm': 0.8005225658416748, 'learning_rate': 0.0037770708364224578, 'epoch': 6.12}
{'loss': 0.2159, 'grad_norm': 0.5173952579498291, 'learning_rate': 0.0037763968457235294, 'epoch': 6.12}
{'loss': 0.2065, 'grad_norm': 0.7962735295295715, 'learning_rate': 0.003775722855024601, 'epoch': 6.12}
{'loss': 0.2197, 'grad_norm': 1.2417840957641602, 'learning_rate': 0.0037750488643256727, 'epoch': 6.13}
{'loss': 0.2212, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1604132354259491, 'eval_runtime': 125.1886, 'eval_samples_per_second': 118.525, 'eval_steps_per_second': 14.818, 'epoch': 6.13}
{'loss': 0.2187, 'grad_norm': 0.6012992262840271, 'learning_rate': 0.003773026892228887, 'epoch': 6.14}
{'loss': 0.2211, 'grad_norm': 0.616338849067688, 'learning_rate': 0.003772352901529959, 'epoch': 6.14}
{'loss': 0.2038, 'grad_norm': 1.408044457435608, 'learning_rate': 0.0037716789108310305, 'epoch': 6.14}
{'loss': 0.215, 'grad_norm': 0.4844101369380951, 'learning_rate': 0.003771004920132102, 'epoch': 6.15}
{'loss': 0.2331, 'grad_norm': 0.4691128134727478, 'learning_rate': 0.0037703309294331738, 'epoch': 6.15}
{'loss': 0.198, 'grad_norm': 0.22971396148204803, 'learning_rate': 0.0037696569387342454, 'epoch': 6.15}
{'loss': 0.2284, 'grad_norm': 0.4690852761268616, 'learning_rate': 0.003768982948035317, 'epoch': 6.16}
{'loss': 0.2392, 'grad_norm': 0.6943382024765015, 'learning_rate': 0.0037683224371503673, 'epoch': 6.16}
{'loss': 0.2053, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16524562239646912, 'eval_runtime': 131.1467, 'eval_samples_per_second': 113.141, 'eval_steps_per_second': 14.144, 'epoch': 6.17}
{'loss': 0.2179, 'grad_norm': 0.8006584048271179, 'learning_rate': 0.0037663004650535827, 'epoch': 6.17}
{'loss': 0.2266, 'grad_norm': 0.7245805263519287, 'learning_rate': 0.0037656264743546543, 'epoch': 6.17}
{'loss': 0.21, 'grad_norm': 0.6140032410621643, 'learning_rate': 0.003764952483655726, 'epoch': 6.18}
{'loss': 0.1905, 'grad_norm': 0.5809071063995361, 'learning_rate': 0.0037642784929567976, 'epoch': 6.18}
{'loss': 0.1958, 'grad_norm': 0.6515673398971558, 'learning_rate': 0.0037636045022578692, 'epoch': 6.18}
{'loss': 0.2278, 'grad_norm': 0.847712516784668, 'learning_rate': 0.003762930511558941, 'epoch': 6.19}
{'loss': 0.2192, 'grad_norm': 0.5303575396537781, 'learning_rate': 0.0037622565208600125, 'epoch': 6.19}
{'loss': 0.2377, 'grad_norm': 0.8873962759971619, 'learning_rate': 0.003761582530161084, 'epoch': 6.19}
{'loss': 0.2245, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16437427699565887, 'eval_runtime': 125.0862, 'eval_samples_per_second': 118.622, 'eval_steps_per_second': 14.83, 'epoch': 6.2}
{'loss': 0.2203, 'grad_norm': 0.6590552926063538, 'learning_rate': 0.0037595605580642987, 'epoch': 6.2}
{'loss': 0.2076, 'grad_norm': 1.046027660369873, 'learning_rate': 0.0037588865673653703, 'epoch': 6.21}
{'loss': 0.2174, 'grad_norm': 1.1826575994491577, 'learning_rate': 0.003758212576666442, 'epoch': 6.21}
{'loss': 0.2276, 'grad_norm': 0.6685636639595032, 'learning_rate': 0.0037575385859675136, 'epoch': 6.21}
{'loss': 0.2211, 'grad_norm': 0.8743411302566528, 'learning_rate': 0.0037568645952685852, 'epoch': 6.22}
{'loss': 0.2185, 'grad_norm': 0.566673219203949, 'learning_rate': 0.003756190604569657, 'epoch': 6.22}
{'loss': 0.227, 'grad_norm': 0.9550254940986633, 'learning_rate': 0.0037555166138707285, 'epoch': 6.22}
{'loss': 0.227, 'grad_norm': 0.3506943881511688, 'learning_rate': 0.0037548426231718, 'epoch': 6.23}
{'loss': 0.205, 'grad_norm'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16463054716587067, 'eval_runtime': 136.2692, 'eval_samples_per_second': 108.887, 'eval_steps_per_second': 13.613, 'epoch': 6.23}
{'loss': 0.2284, 'grad_norm': 0.94121915102005, 'learning_rate': 0.003752820651075015, 'epoch': 6.24}
{'loss': 0.1994, 'grad_norm': 0.47716912627220154, 'learning_rate': 0.0037521466603760868, 'epoch': 6.24}
{'loss': 0.2105, 'grad_norm': 0.673668622970581, 'learning_rate': 0.0037514726696771584, 'epoch': 6.24}
{'loss': 0.2232, 'grad_norm': 0.6003270745277405, 'learning_rate': 0.00375079867897823, 'epoch': 6.25}
{'loss': 0.2203, 'grad_norm': 0.36057010293006897, 'learning_rate': 0.0037501246882793017, 'epoch': 6.25}
{'loss': 0.2226, 'grad_norm': 0.47942277789115906, 'learning_rate': 0.0037494506975803733, 'epoch': 6.25}
{'loss': 0.1973, 'grad_norm': 0.5664977431297302, 'learning_rate': 0.003748776706881445, 'epoch': 6.26}
{'loss': 0.2101, 'grad_norm': 0.5509806871414185, 'learning_rate': 0.0037481027161825166, 'epoch': 6.26}
{'loss': 0.217, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16246441006660461, 'eval_runtime': 138.2344, 'eval_samples_per_second': 107.339, 'eval_steps_per_second': 13.419, 'epoch': 6.27}
{'loss': 0.2046, 'grad_norm': 0.5833017826080322, 'learning_rate': 0.003746080744085732, 'epoch': 6.27}
{'loss': 0.2156, 'grad_norm': 0.3416491150856018, 'learning_rate': 0.0037454067533868036, 'epoch': 6.27}
{'loss': 0.2177, 'grad_norm': 0.3172621726989746, 'learning_rate': 0.0037447327626878753, 'epoch': 6.28}
{'loss': 0.2251, 'grad_norm': 0.5175979137420654, 'learning_rate': 0.003744058771988947, 'epoch': 6.28}
{'loss': 0.206, 'grad_norm': 0.44776490330696106, 'learning_rate': 0.0037433847812900186, 'epoch': 6.28}
{'loss': 0.2028, 'grad_norm': 0.6435126066207886, 'learning_rate': 0.00374271079059109, 'epoch': 6.29}
{'loss': 0.2174, 'grad_norm': 0.5886015892028809, 'learning_rate': 0.003742036799892162, 'epoch': 6.29}
{'loss': 0.2109, 'grad_norm': 0.3518190383911133, 'learning_rate': 0.0037413628091932335, 'epoch': 6.3}
{'loss': 0.209, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16771839559078217, 'eval_runtime': 124.8134, 'eval_samples_per_second': 118.882, 'eval_steps_per_second': 14.862, 'epoch': 6.3}
{'loss': 0.2073, 'grad_norm': 0.39439553022384644, 'learning_rate': 0.0037393408370964484, 'epoch': 6.31}
{'loss': 0.2109, 'grad_norm': 0.5388748049736023, 'learning_rate': 0.0037386668463975196, 'epoch': 6.31}
{'loss': 0.2343, 'grad_norm': 0.5491122007369995, 'learning_rate': 0.0037379928556985913, 'epoch': 6.31}
{'loss': 0.2161, 'grad_norm': 0.3758668899536133, 'learning_rate': 0.003737318864999663, 'epoch': 6.32}
{'loss': 0.2274, 'grad_norm': 0.4499186873435974, 'learning_rate': 0.0037366448743007346, 'epoch': 6.32}
{'loss': 0.2344, 'grad_norm': 0.5060473680496216, 'learning_rate': 0.0037359708836018062, 'epoch': 6.32}
{'loss': 0.2253, 'grad_norm': 0.4041641354560852, 'learning_rate': 0.003735296892902878, 'epoch': 6.33}
{'loss': 0.2228, 'grad_norm': 0.6359673738479614, 'learning_rate': 0.0037346229022039495, 'epoch': 6.33}
{'loss': 0.2206, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1677737534046173, 'eval_runtime': 125.5692, 'eval_samples_per_second': 118.166, 'eval_steps_per_second': 14.773, 'epoch': 6.34}
{'loss': 0.2121, 'grad_norm': 0.3766547441482544, 'learning_rate': 0.0037326009301071644, 'epoch': 6.34}
{'loss': 0.2117, 'grad_norm': 0.5357622504234314, 'learning_rate': 0.003731926939408236, 'epoch': 6.34}
{'loss': 0.2113, 'grad_norm': 0.40584948658943176, 'learning_rate': 0.0037312529487093077, 'epoch': 6.35}
{'loss': 0.237, 'grad_norm': 0.7095694541931152, 'learning_rate': 0.0037305789580103794, 'epoch': 6.35}
{'loss': 0.2129, 'grad_norm': 0.4650138020515442, 'learning_rate': 0.003729904967311451, 'epoch': 6.35}
{'loss': 0.2124, 'grad_norm': 0.450079083442688, 'learning_rate': 0.0037292309766125227, 'epoch': 6.36}
{'loss': 0.2208, 'grad_norm': 0.6662375330924988, 'learning_rate': 0.0037285569859135943, 'epoch': 6.36}
{'loss': 0.2413, 'grad_norm': 0.4979392886161804, 'learning_rate': 0.003727882995214666, 'epoch': 6.36}
{'loss': 0.2107, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1666981279850006, 'eval_runtime': 125.6477, 'eval_samples_per_second': 118.092, 'eval_steps_per_second': 14.763, 'epoch': 6.37}
{'loss': 0.2332, 'grad_norm': 0.5399844646453857, 'learning_rate': 0.003725861023117881, 'epoch': 6.37}
{'loss': 0.2258, 'grad_norm': 0.5497233867645264, 'learning_rate': 0.003725187032418953, 'epoch': 6.38}
{'loss': 0.2245, 'grad_norm': 0.45772114396095276, 'learning_rate': 0.0037245130417200246, 'epoch': 6.38}
{'loss': 0.2229, 'grad_norm': nan, 'learning_rate': 0.0037238525308350744, 'epoch': 6.38}
{'loss': 0.22, 'grad_norm': 1.188633918762207, 'learning_rate': 0.003723178540136146, 'epoch': 6.39}
{'loss': 0.2075, 'grad_norm': 0.4646124243736267, 'learning_rate': 0.0037225045494372177, 'epoch': 6.39}
{'loss': 0.2136, 'grad_norm': 0.6708015203475952, 'learning_rate': 0.0037218305587382893, 'epoch': 6.39}
{'loss': 0.2337, 'grad_norm': 0.6937999725341797, 'learning_rate': 0.003721156568039361, 'epoch': 6.4}
{'loss': 0.2197, 'grad_norm': 0.577279

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16398467123508453, 'eval_runtime': 126.0692, 'eval_samples_per_second': 117.697, 'eval_steps_per_second': 14.714, 'epoch': 6.4}
{'loss': 0.2085, 'grad_norm': 0.3246082067489624, 'learning_rate': 0.003719134595942576, 'epoch': 6.41}
{'loss': 0.2053, 'grad_norm': 0.349598228931427, 'learning_rate': 0.0037184606052436476, 'epoch': 6.41}
{'loss': 0.2134, 'grad_norm': 0.6795733571052551, 'learning_rate': 0.003717786614544719, 'epoch': 6.41}
{'loss': 0.2046, 'grad_norm': 0.7693424820899963, 'learning_rate': 0.003717112623845791, 'epoch': 6.42}
{'loss': 0.2383, 'grad_norm': 0.33677956461906433, 'learning_rate': 0.0037164386331468625, 'epoch': 6.42}
{'loss': 0.1983, 'grad_norm': 0.7237304449081421, 'learning_rate': 0.003715764642447934, 'epoch': 6.42}
{'loss': 0.2092, 'grad_norm': 0.5345554351806641, 'learning_rate': 0.0037150906517490058, 'epoch': 6.43}
{'loss': 0.221, 'grad_norm': 0.4684448838233948, 'learning_rate': 0.0037144166610500774, 'epoch': 6.43}
{'loss': 0.2155, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16377834975719452, 'eval_runtime': 125.5875, 'eval_samples_per_second': 118.149, 'eval_steps_per_second': 14.771, 'epoch': 6.44}
{'loss': 0.208, 'grad_norm': 0.69223952293396, 'learning_rate': 0.003712394688953293, 'epoch': 6.44}
{'loss': 0.2325, 'grad_norm': 0.5298140645027161, 'learning_rate': 0.0037117206982543644, 'epoch': 6.44}
{'loss': 0.2228, 'grad_norm': 0.5396010875701904, 'learning_rate': 0.003711046707555436, 'epoch': 6.45}
{'loss': 0.191, 'grad_norm': 1.1044541597366333, 'learning_rate': 0.0037103727168565077, 'epoch': 6.45}
{'loss': 0.2193, 'grad_norm': 0.7193596363067627, 'learning_rate': 0.0037096987261575794, 'epoch': 6.45}
{'loss': 0.2001, 'grad_norm': 0.6077026724815369, 'learning_rate': 0.003709024735458651, 'epoch': 6.46}
{'loss': 0.2125, 'grad_norm': 1.0268568992614746, 'learning_rate': 0.0037083507447597227, 'epoch': 6.46}
{'loss': 0.2371, 'grad_norm': 0.5425673127174377, 'learning_rate': 0.0037076767540607943, 'epoch': 6.46}
{'loss': 0.2166, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16259229183197021, 'eval_runtime': 126.5662, 'eval_samples_per_second': 117.235, 'eval_steps_per_second': 14.656, 'epoch': 6.47}
{'loss': 0.2247, 'grad_norm': 0.4296928644180298, 'learning_rate': 0.0037056547819640092, 'epoch': 6.47}
{'loss': 0.2082, 'grad_norm': 0.5115698575973511, 'learning_rate': 0.003704980791265081, 'epoch': 6.48}
{'loss': 0.2153, 'grad_norm': 0.3879050016403198, 'learning_rate': 0.0037043068005661525, 'epoch': 6.48}
{'loss': 0.2171, 'grad_norm': 0.41428983211517334, 'learning_rate': 0.0037036328098672237, 'epoch': 6.48}
{'loss': 0.2179, 'grad_norm': 0.3337876498699188, 'learning_rate': 0.0037029588191682954, 'epoch': 6.49}
{'loss': 0.2065, 'grad_norm': 0.9566373229026794, 'learning_rate': 0.003702284828469367, 'epoch': 6.49}
{'loss': 0.2346, 'grad_norm': 0.7868555188179016, 'learning_rate': 0.0037016108377704387, 'epoch': 6.49}
{'loss': 0.2205, 'grad_norm': 0.722318172454834, 'learning_rate': 0.0037009368470715103, 'epoch': 6.5}
{'loss': 0.2271, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17284609377384186, 'eval_runtime': 138.7489, 'eval_samples_per_second': 106.941, 'eval_steps_per_second': 13.369, 'epoch': 6.5}
{'loss': 0.2394, 'grad_norm': 0.9039555788040161, 'learning_rate': 0.0036989148749747252, 'epoch': 6.51}
{'loss': 0.2329, 'grad_norm': 1.412379264831543, 'learning_rate': 0.003698240884275797, 'epoch': 6.51}
{'loss': 0.2395, 'grad_norm': 0.7626376152038574, 'learning_rate': 0.0036975668935768685, 'epoch': 6.51}
{'loss': 0.2312, 'grad_norm': 0.518768310546875, 'learning_rate': 0.00369689290287794, 'epoch': 6.52}
{'loss': 0.221, 'grad_norm': 0.5535497069358826, 'learning_rate': 0.003696218912179012, 'epoch': 6.52}
{'loss': 0.2212, 'grad_norm': 0.5890141725540161, 'learning_rate': 0.0036955449214800835, 'epoch': 6.52}
{'loss': 0.2373, 'grad_norm': 0.7953362464904785, 'learning_rate': 0.003694870930781155, 'epoch': 6.53}
{'loss': 0.2181, 'grad_norm': 0.5917114019393921, 'learning_rate': 0.0036941969400822268, 'epoch': 6.53}
{'loss': 0.2159, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17257806658744812, 'eval_runtime': 141.9889, 'eval_samples_per_second': 104.501, 'eval_steps_per_second': 13.064, 'epoch': 6.54}
{'loss': 0.2322, 'grad_norm': 0.7446467280387878, 'learning_rate': 0.0036921749679854417, 'epoch': 6.54}
{'loss': 0.2237, 'grad_norm': 0.44699782133102417, 'learning_rate': 0.0036915009772865138, 'epoch': 6.54}
{'loss': 0.2306, 'grad_norm': 0.7108964920043945, 'learning_rate': 0.0036908269865875854, 'epoch': 6.55}
{'loss': 0.2179, 'grad_norm': 0.4683922231197357, 'learning_rate': 0.003690152995888657, 'epoch': 6.55}
{'loss': 0.2241, 'grad_norm': 0.3168582618236542, 'learning_rate': 0.0036894790051897287, 'epoch': 6.55}
{'loss': 0.2171, 'grad_norm': 0.814900815486908, 'learning_rate': 0.0036888050144908003, 'epoch': 6.56}
{'loss': 0.2042, 'grad_norm': 0.6464832425117493, 'learning_rate': 0.00368814450360585, 'epoch': 6.56}
{'loss': 0.2234, 'grad_norm': 0.8102800250053406, 'learning_rate': 0.0036874705129069218, 'epoch': 6.56}
{'loss': 0.2206, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.162681445479393, 'eval_runtime': 134.1805, 'eval_samples_per_second': 110.582, 'eval_steps_per_second': 13.825, 'epoch': 6.57}
{'loss': 0.2095, 'grad_norm': 1.6790581941604614, 'learning_rate': 0.0036854485408101367, 'epoch': 6.57}
{'loss': 0.2046, 'grad_norm': 0.749742865562439, 'learning_rate': 0.0036847745501112084, 'epoch': 6.58}
{'loss': 0.2224, 'grad_norm': 0.8311207294464111, 'learning_rate': 0.00368410055941228, 'epoch': 6.58}
{'loss': 0.2121, 'grad_norm': 0.7453852295875549, 'learning_rate': 0.0036834265687133516, 'epoch': 6.58}
{'loss': 0.2152, 'grad_norm': 1.1763966083526611, 'learning_rate': 0.0036827525780144233, 'epoch': 6.59}
{'loss': 0.2214, 'grad_norm': 1.2632919549942017, 'learning_rate': 0.003682078587315495, 'epoch': 6.59}
{'loss': 0.2208, 'grad_norm': 0.5242449045181274, 'learning_rate': 0.0036814045966165666, 'epoch': 6.59}
{'loss': 0.2383, 'grad_norm': 0.4625895917415619, 'learning_rate': 0.0036807306059176382, 'epoch': 6.6}
{'loss': 0.2427, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16318275034427643, 'eval_runtime': 148.2619, 'eval_samples_per_second': 100.08, 'eval_steps_per_second': 12.512, 'epoch': 6.61}
{'loss': 0.225, 'grad_norm': 0.6755810976028442, 'learning_rate': 0.003678722113634832, 'epoch': 6.61}
{'loss': 0.2314, 'grad_norm': 0.3938348889350891, 'learning_rate': 0.003678048122935904, 'epoch': 6.61}
{'loss': 0.2122, 'grad_norm': 0.34244462847709656, 'learning_rate': 0.0036773741322369755, 'epoch': 6.62}
{'loss': 0.2104, 'grad_norm': 0.7010898590087891, 'learning_rate': 0.0036767001415380467, 'epoch': 6.62}
{'loss': 0.2289, 'grad_norm': 0.5874843001365662, 'learning_rate': 0.0036760261508391183, 'epoch': 6.62}
{'loss': 0.2301, 'grad_norm': 0.5346532464027405, 'learning_rate': 0.00367535216014019, 'epoch': 6.63}
{'loss': 0.2227, 'grad_norm': 0.9486457705497742, 'learning_rate': 0.0036746781694412616, 'epoch': 6.63}
{'loss': 0.2247, 'grad_norm': 0.34091916680336, 'learning_rate': 0.0036740041787423332, 'epoch': 6.63}
{'loss': 0.2361, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16503021121025085, 'eval_runtime': 147.5828, 'eval_samples_per_second': 100.54, 'eval_steps_per_second': 12.569, 'epoch': 6.64}
{'loss': 0.2239, 'grad_norm': 0.6969560384750366, 'learning_rate': 0.003671982206645548, 'epoch': 6.64}
{'loss': 0.2441, 'grad_norm': 0.6370437145233154, 'learning_rate': 0.00367130821594662, 'epoch': 6.65}
{'loss': 0.2198, 'grad_norm': 0.7576799988746643, 'learning_rate': 0.0036706342252476915, 'epoch': 6.65}
{'loss': 0.2052, 'grad_norm': 0.8409712314605713, 'learning_rate': 0.003669960234548763, 'epoch': 6.65}
{'loss': 0.2251, 'grad_norm': 0.5402842164039612, 'learning_rate': 0.0036692862438498348, 'epoch': 6.66}
{'loss': 0.2265, 'grad_norm': 0.3974168598651886, 'learning_rate': 0.0036686122531509064, 'epoch': 6.66}
{'loss': 0.2239, 'grad_norm': 0.6775699853897095, 'learning_rate': 0.003667938262451978, 'epoch': 6.66}
{'loss': 0.1993, 'grad_norm': 0.5472100973129272, 'learning_rate': 0.0036672642717530497, 'epoch': 6.67}
{'loss': 0.2067, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.167827770113945, 'eval_runtime': 132.2669, 'eval_samples_per_second': 112.182, 'eval_steps_per_second': 14.025, 'epoch': 6.67}
{'loss': 0.2255, 'grad_norm': 0.701216995716095, 'learning_rate': 0.0036652422996562646, 'epoch': 6.68}
{'loss': 0.2148, 'grad_norm': 0.4694926142692566, 'learning_rate': 0.0036645683089573367, 'epoch': 6.68}
{'loss': 0.228, 'grad_norm': 0.8808964490890503, 'learning_rate': 0.0036638943182584083, 'epoch': 6.68}
{'loss': 0.2526, 'grad_norm': 0.5673028826713562, 'learning_rate': 0.003663233807373458, 'epoch': 6.69}
{'loss': 0.217, 'grad_norm': 0.7069779634475708, 'learning_rate': 0.0036625598166745298, 'epoch': 6.69}
{'loss': 0.2128, 'grad_norm': 0.9760451316833496, 'learning_rate': 0.0036618858259756014, 'epoch': 6.69}
{'loss': 0.2148, 'grad_norm': 0.7244136929512024, 'learning_rate': 0.003661211835276673, 'epoch': 6.7}
{'loss': 0.2211, 'grad_norm': 1.077985167503357, 'learning_rate': 0.0036605378445777447, 'epoch': 6.7}
{'loss': 0.2242, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16480682790279388, 'eval_runtime': 148.8955, 'eval_samples_per_second': 99.654, 'eval_steps_per_second': 12.458, 'epoch': 6.71}
{'loss': 0.2339, 'grad_norm': 1.1019573211669922, 'learning_rate': 0.0036585158724809596, 'epoch': 6.71}
{'loss': 0.2096, 'grad_norm': 0.584331214427948, 'learning_rate': 0.0036578418817820313, 'epoch': 6.71}
{'loss': 0.2379, 'grad_norm': 0.5785350203514099, 'learning_rate': 0.003657167891083103, 'epoch': 6.72}
{'loss': 0.2281, 'grad_norm': 0.42060935497283936, 'learning_rate': 0.0036564939003841746, 'epoch': 6.72}
{'loss': 0.2338, 'grad_norm': 0.5767830014228821, 'learning_rate': 0.0036558199096852462, 'epoch': 6.72}
{'loss': 0.2175, 'grad_norm': 0.3272092640399933, 'learning_rate': 0.003655145918986318, 'epoch': 6.73}
{'loss': 0.2466, 'grad_norm': 0.6070230007171631, 'learning_rate': 0.0036544854081013685, 'epoch': 6.73}
{'loss': 0.2368, 'grad_norm': 0.8457069396972656, 'learning_rate': 0.00365381141740244, 'epoch': 6.73}
{'loss': 0.2275, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1608583629131317, 'eval_runtime': 134.2542, 'eval_samples_per_second': 110.522, 'eval_steps_per_second': 13.817, 'epoch': 6.74}
{'loss': 0.2206, 'grad_norm': 0.4138820767402649, 'learning_rate': 0.003651789445305655, 'epoch': 6.74}
{'loss': 0.2317, 'grad_norm': 0.5659344792366028, 'learning_rate': 0.0036511154546067267, 'epoch': 6.75}
{'loss': 0.2253, 'grad_norm': 1.3524754047393799, 'learning_rate': 0.0036504414639077984, 'epoch': 6.75}
{'loss': 0.2236, 'grad_norm': 1.121458649635315, 'learning_rate': 0.0036497674732088696, 'epoch': 6.75}
{'loss': 0.2332, 'grad_norm': 1.7121069431304932, 'learning_rate': 0.0036490934825099412, 'epoch': 6.76}
{'loss': 0.2268, 'grad_norm': 1.37603759765625, 'learning_rate': 0.003648419491811013, 'epoch': 6.76}
{'loss': 0.2235, 'grad_norm': 0.8691999912261963, 'learning_rate': 0.0036477455011120845, 'epoch': 6.76}
{'loss': 0.2114, 'grad_norm': 0.5709567666053772, 'learning_rate': 0.003647071510413156, 'epoch': 6.77}
{'loss': 0.2344, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1653452217578888, 'eval_runtime': 144.3291, 'eval_samples_per_second': 102.807, 'eval_steps_per_second': 12.853, 'epoch': 6.77}
{'loss': 0.2178, 'grad_norm': 1.565988302230835, 'learning_rate': 0.003645049538316371, 'epoch': 6.78}
{'loss': 0.2178, 'grad_norm': 0.5002526640892029, 'learning_rate': 0.0036443755476174428, 'epoch': 6.78}
{'loss': 0.2252, 'grad_norm': 1.9776376485824585, 'learning_rate': 0.0036437015569185144, 'epoch': 6.78}
{'loss': 0.214, 'grad_norm': 0.7135842442512512, 'learning_rate': 0.003643027566219586, 'epoch': 6.79}
{'loss': 0.2307, 'grad_norm': 0.5683467388153076, 'learning_rate': 0.0036423535755206577, 'epoch': 6.79}
{'loss': 0.2116, 'grad_norm': 0.38813307881355286, 'learning_rate': 0.0036416795848217293, 'epoch': 6.79}
{'loss': 0.2185, 'grad_norm': 0.4503953754901886, 'learning_rate': 0.003641005594122801, 'epoch': 6.8}
{'loss': 0.2108, 'grad_norm': 0.49414512515068054, 'learning_rate': 0.0036403316034238726, 'epoch': 6.8}
{'loss': 0.2156, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16206498444080353, 'eval_runtime': 143.8683, 'eval_samples_per_second': 103.136, 'eval_steps_per_second': 12.894, 'epoch': 6.81}
{'loss': 0.2265, 'grad_norm': 0.7933634519577026, 'learning_rate': 0.003638309631327088, 'epoch': 6.81}
{'loss': 0.2513, 'grad_norm': 1.629131555557251, 'learning_rate': 0.0036376356406281596, 'epoch': 6.81}
{'loss': 0.219, 'grad_norm': 1.4469634294509888, 'learning_rate': 0.0036369616499292313, 'epoch': 6.82}
{'loss': 0.2353, 'grad_norm': 0.5591124296188354, 'learning_rate': 0.003636287659230303, 'epoch': 6.82}
{'loss': 0.2127, 'grad_norm': 0.5713315010070801, 'learning_rate': 0.0036356136685313746, 'epoch': 6.82}
{'loss': 0.2249, 'grad_norm': 0.5544410347938538, 'learning_rate': 0.003634939677832446, 'epoch': 6.83}
{'loss': 0.1991, 'grad_norm': 0.8256250023841858, 'learning_rate': 0.003634265687133518, 'epoch': 6.83}
{'loss': 0.2158, 'grad_norm': 1.3171299695968628, 'learning_rate': 0.0036335916964345895, 'epoch': 6.83}
{'loss': 0.2252, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16405335068702698, 'eval_runtime': 133.5379, 'eval_samples_per_second': 111.115, 'eval_steps_per_second': 13.891, 'epoch': 6.84}
{'loss': 0.2293, 'grad_norm': 0.574670672416687, 'learning_rate': 0.0036315697243378044, 'epoch': 6.84}
{'loss': 0.246, 'grad_norm': 0.5316910147666931, 'learning_rate': 0.003630895733638876, 'epoch': 6.85}
{'loss': 0.2191, 'grad_norm': 0.9212753772735596, 'learning_rate': 0.0036302217429399477, 'epoch': 6.85}
{'loss': 0.2288, 'grad_norm': 0.6983858346939087, 'learning_rate': 0.0036295477522410194, 'epoch': 6.85}
{'loss': 0.2195, 'grad_norm': 1.482185959815979, 'learning_rate': 0.003628873761542091, 'epoch': 6.86}
{'loss': 0.2117, 'grad_norm': 1.0468493700027466, 'learning_rate': 0.0036281997708431622, 'epoch': 6.86}
{'loss': 0.2367, 'grad_norm': 0.5239485502243042, 'learning_rate': 0.003627525780144234, 'epoch': 6.86}
{'loss': 0.2334, 'grad_norm': 0.8958396315574646, 'learning_rate': 0.0036268517894453055, 'epoch': 6.87}
{'loss': 0.211, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16390368342399597, 'eval_runtime': 144.9192, 'eval_samples_per_second': 102.388, 'eval_steps_per_second': 12.8, 'epoch': 6.87}
{'loss': 0.2298, 'grad_norm': 0.9538666009902954, 'learning_rate': 0.0036248298173485204, 'epoch': 6.88}
{'loss': 0.2021, 'grad_norm': 0.3442992568016052, 'learning_rate': 0.003624155826649592, 'epoch': 6.88}
{'loss': 0.2255, 'grad_norm': 0.7502465844154358, 'learning_rate': 0.0036234818359506637, 'epoch': 6.88}
{'loss': 0.2351, 'grad_norm': 0.6631002426147461, 'learning_rate': 0.0036228078452517354, 'epoch': 6.89}
{'loss': 0.2196, 'grad_norm': 0.5926109552383423, 'learning_rate': 0.003622133854552807, 'epoch': 6.89}
{'loss': 0.2158, 'grad_norm': 0.578788161277771, 'learning_rate': 0.0036214598638538787, 'epoch': 6.89}
{'loss': 0.2236, 'grad_norm': 0.41226544976234436, 'learning_rate': 0.0036207858731549503, 'epoch': 6.9}
{'loss': 0.214, 'grad_norm': 0.8106915950775146, 'learning_rate': 0.003620111882456022, 'epoch': 6.9}
{'loss': 0.2263, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1665400117635727, 'eval_runtime': 141.2371, 'eval_samples_per_second': 105.057, 'eval_steps_per_second': 13.134, 'epoch': 6.91}
{'loss': 0.2141, 'grad_norm': 0.7320507168769836, 'learning_rate': 0.003618089910359237, 'epoch': 6.91}
{'loss': 0.2134, 'grad_norm': 0.8766897320747375, 'learning_rate': 0.003617415919660309, 'epoch': 6.92}
{'loss': 0.2216, 'grad_norm': 0.48970383405685425, 'learning_rate': 0.0036167419289613806, 'epoch': 6.92}
{'loss': 0.2214, 'grad_norm': 1.0514318943023682, 'learning_rate': 0.0036160679382624523, 'epoch': 6.92}
{'loss': 0.2377, 'grad_norm': 0.72288978099823, 'learning_rate': 0.003615393947563524, 'epoch': 6.93}
{'loss': 0.2227, 'grad_norm': 2.5403928756713867, 'learning_rate': 0.0036147199568645955, 'epoch': 6.93}
{'loss': 0.2472, 'grad_norm': 1.0116682052612305, 'learning_rate': 0.003614045966165667, 'epoch': 6.93}
{'loss': 0.2335, 'grad_norm': 0.6485734581947327, 'learning_rate': 0.003613371975466739, 'epoch': 6.94}
{'loss': 0.2482, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16532300412654877, 'eval_runtime': 140.5768, 'eval_samples_per_second': 105.551, 'eval_steps_per_second': 13.196, 'epoch': 6.94}
{'loss': 0.2401, 'grad_norm': 0.6847137212753296, 'learning_rate': 0.003611363483183932, 'epoch': 6.95}
{'loss': 0.2095, 'grad_norm': 0.6582464575767517, 'learning_rate': 0.0036106894924850036, 'epoch': 6.95}
{'loss': 0.2231, 'grad_norm': 0.7503396272659302, 'learning_rate': 0.003610015501786075, 'epoch': 6.95}
{'loss': 0.2182, 'grad_norm': 0.6070592403411865, 'learning_rate': 0.003609341511087147, 'epoch': 6.96}
{'loss': 0.2168, 'grad_norm': 0.27879253029823303, 'learning_rate': 0.0036086675203882185, 'epoch': 6.96}
{'loss': 0.22, 'grad_norm': 0.8133260607719421, 'learning_rate': 0.00360799352968929, 'epoch': 6.96}
{'loss': 0.2347, 'grad_norm': 0.754666805267334, 'learning_rate': 0.003607333018804341, 'epoch': 6.97}
{'loss': 0.2117, 'grad_norm': 0.8585336208343506, 'learning_rate': 0.0036066590281054124, 'epoch': 6.97}
{'loss': 0.2239, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16727131605148315, 'eval_runtime': 131.5884, 'eval_samples_per_second': 112.761, 'eval_steps_per_second': 14.097, 'epoch': 6.98}
{'loss': 0.2205, 'grad_norm': 0.4700584411621094, 'learning_rate': 0.0036046370560086274, 'epoch': 6.98}
{'loss': 0.2323, 'grad_norm': 1.0976471900939941, 'learning_rate': 0.003603963065309699, 'epoch': 6.98}
{'loss': 0.2161, 'grad_norm': 0.8492751717567444, 'learning_rate': 0.0036032890746107707, 'epoch': 6.99}
{'loss': 0.2409, 'grad_norm': 0.9268119931221008, 'learning_rate': 0.0036026150839118423, 'epoch': 6.99}
{'loss': 0.2156, 'grad_norm': 1.2604833841323853, 'learning_rate': 0.003601941093212914, 'epoch': 6.99}
{'loss': 0.238, 'grad_norm': 1.2442060708999634, 'learning_rate': 0.003601267102513985, 'epoch': 7.0}
{'loss': 0.2103, 'grad_norm': 0.4590211808681488, 'learning_rate': 0.003600593111815057, 'epoch': 7.0}
{'loss': 0.222, 'grad_norm': 0.6095265746116638, 'learning_rate': 0.0035999191211161284, 'epoch': 7.0}
{'loss': 0.1992, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.168134406208992, 'eval_runtime': 129.632, 'eval_samples_per_second': 114.463, 'eval_steps_per_second': 14.31, 'epoch': 7.01}
{'loss': 0.2244, 'grad_norm': 0.6436238884925842, 'learning_rate': 0.0035978971490193434, 'epoch': 7.01}
{'loss': 0.217, 'grad_norm': 0.7980480194091797, 'learning_rate': 0.003597223158320415, 'epoch': 7.02}
{'loss': 0.1908, 'grad_norm': 0.4742540717124939, 'learning_rate': 0.0035965491676214867, 'epoch': 7.02}
{'loss': 0.1984, 'grad_norm': 1.0167324542999268, 'learning_rate': 0.0035958751769225583, 'epoch': 7.02}
{'loss': 0.218, 'grad_norm': 0.7165036797523499, 'learning_rate': 0.00359520118622363, 'epoch': 7.03}
{'loss': 0.2202, 'grad_norm': 0.5709263682365417, 'learning_rate': 0.0035945271955247016, 'epoch': 7.03}
{'loss': 0.2207, 'grad_norm': 0.9436190724372864, 'learning_rate': 0.0035938532048257732, 'epoch': 7.03}
{'loss': 0.2119, 'grad_norm': 0.8430854082107544, 'learning_rate': 0.003593179214126845, 'epoch': 7.04}
{'loss': 0.2104, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16472887992858887, 'eval_runtime': 134.5046, 'eval_samples_per_second': 110.316, 'eval_steps_per_second': 13.791, 'epoch': 7.04}
{'loss': 0.1945, 'grad_norm': 1.5859522819519043, 'learning_rate': 0.0035911572420300603, 'epoch': 7.05}
{'loss': 0.2113, 'grad_norm': 1.0340012311935425, 'learning_rate': 0.003590483251331132, 'epoch': 7.05}
{'loss': 0.2361, 'grad_norm': 0.8743634223937988, 'learning_rate': 0.0035898092606322035, 'epoch': 7.05}
{'loss': 0.2248, 'grad_norm': 0.4654240906238556, 'learning_rate': 0.003589135269933275, 'epoch': 7.06}
{'loss': 0.2113, 'grad_norm': 0.5192510485649109, 'learning_rate': 0.003588461279234347, 'epoch': 7.06}
{'loss': 0.2143, 'grad_norm': 1.832051157951355, 'learning_rate': 0.0035877872885354185, 'epoch': 7.06}
{'loss': 0.2308, 'grad_norm': 0.7285560965538025, 'learning_rate': 0.00358711329783649, 'epoch': 7.07}
{'loss': 0.2163, 'grad_norm': 0.7677003145217896, 'learning_rate': 0.0035864393071375618, 'epoch': 7.07}
{'loss': 0.2113, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.167374849319458, 'eval_runtime': 135.1505, 'eval_samples_per_second': 109.789, 'eval_steps_per_second': 13.725, 'epoch': 7.08}
{'loss': 0.2094, 'grad_norm': 1.6731276512145996, 'learning_rate': 0.0035844173350407767, 'epoch': 7.08}
{'loss': 0.2263, 'grad_norm': 0.9458354115486145, 'learning_rate': 0.0035837433443418483, 'epoch': 7.08}
{'loss': 0.2045, 'grad_norm': 0.6758535504341125, 'learning_rate': 0.00358306935364292, 'epoch': 7.09}
{'loss': 0.2174, 'grad_norm': 1.530189871788025, 'learning_rate': 0.0035823953629439916, 'epoch': 7.09}
{'loss': 0.2211, 'grad_norm': 0.3738483488559723, 'learning_rate': 0.0035817213722450633, 'epoch': 7.09}
{'loss': 0.2207, 'grad_norm': 0.586929202079773, 'learning_rate': 0.003581047381546135, 'epoch': 7.1}
{'loss': 0.2211, 'grad_norm': 0.9135882258415222, 'learning_rate': 0.0035803733908472066, 'epoch': 7.1}
{'loss': 0.2196, 'grad_norm': 0.458540141582489, 'learning_rate': 0.0035796994001482778, 'epoch': 7.1}
{'loss': 0.2132, 'grad_nor

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16193203628063202, 'eval_runtime': 125.6394, 'eval_samples_per_second': 118.1, 'eval_steps_per_second': 14.764, 'epoch': 7.11}
{'loss': 0.2181, 'grad_norm': 0.6260956525802612, 'learning_rate': 0.0035776774280514927, 'epoch': 7.11}
{'loss': 0.2014, 'grad_norm': 0.7411381006240845, 'learning_rate': 0.0035770034373525644, 'epoch': 7.12}
{'loss': 0.2114, 'grad_norm': 0.8422789573669434, 'learning_rate': 0.003576329446653636, 'epoch': 7.12}
{'loss': 0.1971, 'grad_norm': 0.9105862379074097, 'learning_rate': 0.0035756554559547076, 'epoch': 7.12}
{'loss': 0.2167, 'grad_norm': 0.7526090741157532, 'learning_rate': 0.0035749814652557793, 'epoch': 7.13}
{'loss': 0.2247, 'grad_norm': 0.5734086632728577, 'learning_rate': 0.003574307474556851, 'epoch': 7.13}
{'loss': 0.2126, 'grad_norm': 0.46512073278427124, 'learning_rate': 0.0035736334838579226, 'epoch': 7.13}
{'loss': 0.2247, 'grad_norm': 0.8189258575439453, 'learning_rate': 0.0035729594931589942, 'epoch': 7.14}
{'loss': 0.2284, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16606976091861725, 'eval_runtime': 126.6343, 'eval_samples_per_second': 117.172, 'eval_steps_per_second': 14.648, 'epoch': 7.14}
{'loss': 0.222, 'grad_norm': 0.7299675941467285, 'learning_rate': 0.003570937521062209, 'epoch': 7.15}
{'loss': 0.2376, 'grad_norm': 1.202512502670288, 'learning_rate': 0.0035702635303632812, 'epoch': 7.15}
{'loss': 0.2411, 'grad_norm': 0.7495474219322205, 'learning_rate': 0.003569589539664353, 'epoch': 7.15}
{'loss': 0.2258, 'grad_norm': 2.3765220642089844, 'learning_rate': 0.0035689155489654245, 'epoch': 7.16}
{'loss': 0.2319, 'grad_norm': 0.780391275882721, 'learning_rate': 0.003568241558266496, 'epoch': 7.16}
{'loss': 0.2177, 'grad_norm': 0.9600303173065186, 'learning_rate': 0.003567567567567568, 'epoch': 7.16}
{'loss': 0.2338, 'grad_norm': 1.249200463294983, 'learning_rate': 0.0035668935768686395, 'epoch': 7.17}
{'loss': 0.2261, 'grad_norm': 0.5426375865936279, 'learning_rate': 0.003566219586169711, 'epoch': 7.17}
{'loss': 0.2269, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16399547457695007, 'eval_runtime': 124.7808, 'eval_samples_per_second': 118.912, 'eval_steps_per_second': 14.866, 'epoch': 7.18}
{'loss': 0.2287, 'grad_norm': 0.37808704376220703, 'learning_rate': 0.003564197614072926, 'epoch': 7.18}
{'loss': 0.2177, 'grad_norm': 0.6156224608421326, 'learning_rate': 0.0035635236233739977, 'epoch': 7.18}
{'loss': 0.2332, 'grad_norm': 0.6004849672317505, 'learning_rate': 0.0035628496326750693, 'epoch': 7.19}
{'loss': 0.2138, 'grad_norm': 1.4990942478179932, 'learning_rate': 0.003562175641976141, 'epoch': 7.19}
{'loss': 0.2158, 'grad_norm': 1.2107017040252686, 'learning_rate': 0.0035615016512772126, 'epoch': 7.19}
{'loss': 0.2284, 'grad_norm': 0.7120782136917114, 'learning_rate': 0.0035608276605782843, 'epoch': 7.2}
{'loss': 0.2406, 'grad_norm': 0.4604456126689911, 'learning_rate': 0.003560153669879356, 'epoch': 7.2}
{'loss': 0.2281, 'grad_norm': 0.82087641954422, 'learning_rate': 0.0035594796791804276, 'epoch': 7.2}
{'loss': 0.2205, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1697942614555359, 'eval_runtime': 125.993, 'eval_samples_per_second': 117.768, 'eval_steps_per_second': 14.723, 'epoch': 7.21}
{'loss': 0.2171, 'grad_norm': 0.6152298450469971, 'learning_rate': 0.003557457707083642, 'epoch': 7.22}
{'loss': 0.2131, 'grad_norm': 1.8200442790985107, 'learning_rate': 0.0035567837163847137, 'epoch': 7.22}
{'loss': 0.231, 'grad_norm': 1.1362590789794922, 'learning_rate': 0.0035561097256857853, 'epoch': 7.22}
{'loss': 0.2591, 'grad_norm': 0.5970727205276489, 'learning_rate': 0.003555435734986857, 'epoch': 7.23}
{'loss': 0.2171, 'grad_norm': 1.4636681079864502, 'learning_rate': 0.0035547617442879286, 'epoch': 7.23}
{'loss': 0.2317, 'grad_norm': 0.620240330696106, 'learning_rate': 0.0035540877535890003, 'epoch': 7.23}
{'loss': 0.2394, 'grad_norm': 2.5072567462921143, 'learning_rate': 0.003553413762890072, 'epoch': 7.24}
{'loss': 0.2468, 'grad_norm': 1.2197911739349365, 'learning_rate': 0.0035527397721911436, 'epoch': 7.24}
{'loss': 0.2321, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17095273733139038, 'eval_runtime': 125.9271, 'eval_samples_per_second': 117.83, 'eval_steps_per_second': 14.731, 'epoch': 7.25}
{'loss': 0.2125, 'grad_norm': 0.668762743473053, 'learning_rate': 0.0035507178000943585, 'epoch': 7.25}
{'loss': 0.2226, 'grad_norm': 0.6732672452926636, 'learning_rate': 0.00355004380939543, 'epoch': 7.25}
{'loss': 0.2329, 'grad_norm': 0.811194121837616, 'learning_rate': 0.0035493698186965022, 'epoch': 7.26}
{'loss': 0.2336, 'grad_norm': 0.847484290599823, 'learning_rate': 0.003548695827997574, 'epoch': 7.26}
{'loss': 0.2347, 'grad_norm': 0.7677042484283447, 'learning_rate': 0.0035480218372986455, 'epoch': 7.26}
{'loss': 0.2317, 'grad_norm': 0.7512667775154114, 'learning_rate': 0.003547347846599717, 'epoch': 7.27}
{'loss': 0.2221, 'grad_norm': 0.8397331237792969, 'learning_rate': 0.003546673855900789, 'epoch': 7.27}
{'loss': 0.2267, 'grad_norm': 1.0210225582122803, 'learning_rate': 0.0035459998652018604, 'epoch': 7.27}
{'loss': 0.2143, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1687619686126709, 'eval_runtime': 125.286, 'eval_samples_per_second': 118.433, 'eval_steps_per_second': 14.806, 'epoch': 7.28}
{'loss': 0.2135, 'grad_norm': 0.8805492520332336, 'learning_rate': 0.0035439778931050754, 'epoch': 7.28}
{'loss': 0.2423, 'grad_norm': 0.41958746314048767, 'learning_rate': 0.003543303902406147, 'epoch': 7.29}
{'loss': 0.2186, 'grad_norm': 0.9779511094093323, 'learning_rate': 0.0035426299117072187, 'epoch': 7.29}
{'loss': 0.2261, 'grad_norm': 1.0218465328216553, 'learning_rate': 0.0035419559210082903, 'epoch': 7.29}
{'loss': 0.2318, 'grad_norm': 0.7091290354728699, 'learning_rate': 0.003541281930309362, 'epoch': 7.3}
{'loss': 0.2101, 'grad_norm': 0.5409361720085144, 'learning_rate': 0.0035406079396104336, 'epoch': 7.3}
{'loss': 0.2371, 'grad_norm': 7.845174789428711, 'learning_rate': 0.0035399339489115052, 'epoch': 7.3}
{'loss': 0.2207, 'grad_norm': 0.6937599182128906, 'learning_rate': 0.003539259958212577, 'epoch': 7.31}
{'loss': 0.2009, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17024150490760803, 'eval_runtime': 136.8087, 'eval_samples_per_second': 108.458, 'eval_steps_per_second': 13.559, 'epoch': 7.31}
{'loss': 0.2148, 'grad_norm': 0.9090893864631653, 'learning_rate': 0.003537237986115792, 'epoch': 7.32}
{'loss': 0.21, 'grad_norm': 1.0942679643630981, 'learning_rate': 0.003536563995416863, 'epoch': 7.32}
{'loss': 0.225, 'grad_norm': 0.9835176467895508, 'learning_rate': 0.0035358900047179347, 'epoch': 7.32}
{'loss': 0.2078, 'grad_norm': 0.9430012702941895, 'learning_rate': 0.0035352160140190063, 'epoch': 7.33}
{'loss': 0.2156, 'grad_norm': 0.5333255529403687, 'learning_rate': 0.003534542023320078, 'epoch': 7.33}
{'loss': 0.2225, 'grad_norm': 0.6989165544509888, 'learning_rate': 0.0035338680326211496, 'epoch': 7.33}
{'loss': 0.2165, 'grad_norm': 0.4644833505153656, 'learning_rate': 0.0035331940419222213, 'epoch': 7.34}
{'loss': 0.2202, 'grad_norm': 1.3386049270629883, 'learning_rate': 0.003532520051223293, 'epoch': 7.34}
{'loss': 0.2266, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1692313551902771, 'eval_runtime': 123.6977, 'eval_samples_per_second': 119.954, 'eval_steps_per_second': 14.996, 'epoch': 7.35}
{'loss': 0.229, 'grad_norm': 0.8536949157714844, 'learning_rate': 0.003530498079126508, 'epoch': 7.35}
{'loss': 0.2229, 'grad_norm': 2.350949287414551, 'learning_rate': 0.0035298240884275795, 'epoch': 7.35}
{'loss': 0.2504, 'grad_norm': 1.218498945236206, 'learning_rate': 0.003529150097728651, 'epoch': 7.36}
{'loss': 0.2118, 'grad_norm': 1.0149338245391846, 'learning_rate': 0.003528476107029723, 'epoch': 7.36}
{'loss': 0.2136, 'grad_norm': 0.6238523721694946, 'learning_rate': 0.003527802116330795, 'epoch': 7.36}
{'loss': 0.2224, 'grad_norm': 0.713972270488739, 'learning_rate': 0.0035271281256318665, 'epoch': 7.37}
{'loss': 0.2436, 'grad_norm': 0.5651558041572571, 'learning_rate': 0.003526454134932938, 'epoch': 7.37}
{'loss': 0.2052, 'grad_norm': 0.41905665397644043, 'learning_rate': 0.0035257801442340098, 'epoch': 7.37}
{'loss': 0.2028, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1688261479139328, 'eval_runtime': 124.6187, 'eval_samples_per_second': 119.067, 'eval_steps_per_second': 14.885, 'epoch': 7.38}
{'loss': 0.2166, 'grad_norm': 2.7079076766967773, 'learning_rate': 0.0035237581721372247, 'epoch': 7.38}
{'loss': 0.2133, 'grad_norm': 0.4131350517272949, 'learning_rate': 0.0035230841814382964, 'epoch': 7.39}
{'loss': 0.2239, 'grad_norm': 0.7269141674041748, 'learning_rate': 0.003522410190739368, 'epoch': 7.39}
{'loss': 0.2196, 'grad_norm': 0.8821939826011658, 'learning_rate': 0.0035217362000404396, 'epoch': 7.39}
{'loss': 0.2104, 'grad_norm': 0.63633131980896, 'learning_rate': 0.0035210622093415113, 'epoch': 7.4}
{'loss': 0.2172, 'grad_norm': 1.7908867597579956, 'learning_rate': 0.003520388218642583, 'epoch': 7.4}
{'loss': 0.2165, 'grad_norm': 0.749207615852356, 'learning_rate': 0.0035197142279436546, 'epoch': 7.4}
{'loss': 0.2348, 'grad_norm': 0.4043346047401428, 'learning_rate': 0.0035190402372447262, 'epoch': 7.41}
{'loss': 0.2116, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17129912972450256, 'eval_runtime': 124.9979, 'eval_samples_per_second': 118.706, 'eval_steps_per_second': 14.84, 'epoch': 7.41}
{'loss': 0.2159, 'grad_norm': 1.7967417240142822, 'learning_rate': 0.003517018265147941, 'epoch': 7.42}
{'loss': 0.2142, 'grad_norm': 1.1165939569473267, 'learning_rate': 0.003516344274449013, 'epoch': 7.42}
{'loss': 0.2139, 'grad_norm': 1.200039267539978, 'learning_rate': 0.0035156702837500844, 'epoch': 7.42}
{'loss': 0.2208, 'grad_norm': 0.6193827390670776, 'learning_rate': 0.0035149962930511557, 'epoch': 7.43}
{'loss': 0.2289, 'grad_norm': 0.9754680395126343, 'learning_rate': 0.0035143223023522273, 'epoch': 7.43}
{'loss': 0.2076, 'grad_norm': 1.9754865169525146, 'learning_rate': 0.003513648311653299, 'epoch': 7.43}
{'loss': 0.2215, 'grad_norm': 0.7273988723754883, 'learning_rate': 0.0035129743209543706, 'epoch': 7.44}
{'loss': 0.2258, 'grad_norm': 1.0068514347076416, 'learning_rate': 0.0035123003302554422, 'epoch': 7.44}
{'loss': 0.237, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16787903010845184, 'eval_runtime': 123.5612, 'eval_samples_per_second': 120.086, 'eval_steps_per_second': 15.013, 'epoch': 7.45}
{'loss': 0.2554, 'grad_norm': 0.6781778931617737, 'learning_rate': 0.003510278358158657, 'epoch': 7.45}
{'loss': 0.2362, 'grad_norm': 1.5068244934082031, 'learning_rate': 0.003509604367459729, 'epoch': 7.45}
{'loss': 0.2484, 'grad_norm': 0.6796702146530151, 'learning_rate': 0.0035089438565747795, 'epoch': 7.46}
{'loss': 0.2188, 'grad_norm': 0.7159779071807861, 'learning_rate': 0.003508269865875851, 'epoch': 7.46}
{'loss': 0.2302, 'grad_norm': 0.9129152297973633, 'learning_rate': 0.0035075958751769228, 'epoch': 7.46}
{'loss': 0.2425, 'grad_norm': 0.6067655682563782, 'learning_rate': 0.0035069218844779944, 'epoch': 7.47}
{'loss': 0.2318, 'grad_norm': 0.9153352975845337, 'learning_rate': 0.003506247893779066, 'epoch': 7.47}
{'loss': 0.2203, 'grad_norm': 0.7409287691116333, 'learning_rate': 0.0035055739030801377, 'epoch': 7.47}
{'loss': 0.2348, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17048101127147675, 'eval_runtime': 123.0838, 'eval_samples_per_second': 120.552, 'eval_steps_per_second': 15.071, 'epoch': 7.48}
{'loss': 0.2366, 'grad_norm': 0.7170132398605347, 'learning_rate': 0.0035035519309833526, 'epoch': 7.48}
{'loss': 0.2069, 'grad_norm': 1.403608798980713, 'learning_rate': 0.0035028779402844243, 'epoch': 7.49}
{'loss': 0.222, 'grad_norm': 0.7785634994506836, 'learning_rate': 0.003502203949585496, 'epoch': 7.49}
{'loss': 0.2248, 'grad_norm': 0.9731528162956238, 'learning_rate': 0.003501529958886567, 'epoch': 7.49}
{'loss': 0.2427, 'grad_norm': 0.889153003692627, 'learning_rate': 0.0035008559681876388, 'epoch': 7.5}
{'loss': 0.2174, 'grad_norm': 0.951568067073822, 'learning_rate': 0.0035001819774887104, 'epoch': 7.5}
{'loss': 0.2337, 'grad_norm': 0.7977863550186157, 'learning_rate': 0.003499507986789782, 'epoch': 7.5}
{'loss': 0.2234, 'grad_norm': 0.7340260148048401, 'learning_rate': 0.0034988339960908537, 'epoch': 7.51}
{'loss': 0.2219, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17775383591651917, 'eval_runtime': 138.0823, 'eval_samples_per_second': 107.458, 'eval_steps_per_second': 13.434, 'epoch': 7.51}
{'loss': 0.2501, 'grad_norm': 0.6505815982818604, 'learning_rate': 0.0034968120239940686, 'epoch': 7.52}
{'loss': 0.2253, 'grad_norm': 0.28237542510032654, 'learning_rate': 0.0034961380332951403, 'epoch': 7.52}
{'loss': 0.2297, 'grad_norm': 1.7715187072753906, 'learning_rate': 0.003495464042596212, 'epoch': 7.53}
{'loss': 0.2107, 'grad_norm': 0.7945617437362671, 'learning_rate': 0.003494790051897284, 'epoch': 7.53}
{'loss': 0.2412, 'grad_norm': 1.470589280128479, 'learning_rate': 0.0034941295410123342, 'epoch': 7.53}
{'loss': 0.2197, 'grad_norm': 0.8553413152694702, 'learning_rate': 0.003493455550313406, 'epoch': 7.54}
{'loss': 0.2221, 'grad_norm': 1.3119571208953857, 'learning_rate': 0.0034927815596144775, 'epoch': 7.54}
{'loss': 0.2165, 'grad_norm': 1.879054307937622, 'learning_rate': 0.003492107568915549, 'epoch': 7.54}
{'loss': 0.2209, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18010330200195312, 'eval_runtime': 143.1641, 'eval_samples_per_second': 103.643, 'eval_steps_per_second': 12.957, 'epoch': 7.55}
{'loss': 0.2315, 'grad_norm': 1.4381238222122192, 'learning_rate': 0.003490085596818764, 'epoch': 7.55}
{'loss': 0.2632, 'grad_norm': 1.179527759552002, 'learning_rate': 0.003489425085933814, 'epoch': 7.56}
{'loss': 0.2368, 'grad_norm': 0.7966760993003845, 'learning_rate': 0.003488751095234886, 'epoch': 7.56}
{'loss': 0.2224, 'grad_norm': 1.5192079544067383, 'learning_rate': 0.0034880771045359576, 'epoch': 7.56}
{'loss': 0.2249, 'grad_norm': 0.4940654933452606, 'learning_rate': 0.0034874031138370292, 'epoch': 7.57}
{'loss': 0.2238, 'grad_norm': 1.055570125579834, 'learning_rate': 0.003486729123138101, 'epoch': 7.57}
{'loss': 0.2279, 'grad_norm': 0.566253125667572, 'learning_rate': 0.0034860551324391725, 'epoch': 7.57}
{'loss': 0.2202, 'grad_norm': 1.3869210481643677, 'learning_rate': 0.003485381141740244, 'epoch': 7.58}
{'loss': 0.2447, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1753995567560196, 'eval_runtime': 128.6602, 'eval_samples_per_second': 115.327, 'eval_steps_per_second': 14.418, 'epoch': 7.58}
{'loss': 0.2456, 'grad_norm': 0.6125922799110413, 'learning_rate': 0.003483359169643459, 'epoch': 7.59}
{'loss': 0.2671, 'grad_norm': 0.4230860471725464, 'learning_rate': 0.0034826851789445308, 'epoch': 7.59}
{'loss': 0.2441, 'grad_norm': 0.8039065003395081, 'learning_rate': 0.0034820111882456024, 'epoch': 7.59}
{'loss': 0.2398, 'grad_norm': 0.534013032913208, 'learning_rate': 0.003481337197546674, 'epoch': 7.6}
{'loss': 0.2157, 'grad_norm': 0.9901823401451111, 'learning_rate': 0.0034806632068477457, 'epoch': 7.6}
{'loss': 0.2335, 'grad_norm': 0.7155811190605164, 'learning_rate': 0.0034799892161488173, 'epoch': 7.6}
{'loss': 0.2171, 'grad_norm': 0.8894128203392029, 'learning_rate': 0.003479315225449889, 'epoch': 7.61}
{'loss': 0.2469, 'grad_norm': 1.0908278226852417, 'learning_rate': 0.0034786412347509606, 'epoch': 7.61}
{'loss': 0.2346, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17597994208335876, 'eval_runtime': 126.938, 'eval_samples_per_second': 116.892, 'eval_steps_per_second': 14.613, 'epoch': 7.62}
{'loss': 0.23, 'grad_norm': 0.8192100524902344, 'learning_rate': 0.0034766192626541756, 'epoch': 7.62}
{'loss': 0.2351, 'grad_norm': 0.7022678852081299, 'learning_rate': 0.003475945271955247, 'epoch': 7.62}
{'loss': 0.2516, 'grad_norm': 0.8625194430351257, 'learning_rate': 0.003475271281256319, 'epoch': 7.63}
{'loss': 0.2414, 'grad_norm': 2.2117631435394287, 'learning_rate': 0.00347459729055739, 'epoch': 7.63}
{'loss': 0.2581, 'grad_norm': 1.3153762817382812, 'learning_rate': 0.0034739232998584617, 'epoch': 7.63}
{'loss': 0.2267, 'grad_norm': 1.28855562210083, 'learning_rate': 0.0034732493091595333, 'epoch': 7.64}
{'loss': 0.229, 'grad_norm': 0.453684538602829, 'learning_rate': 0.003472575318460605, 'epoch': 7.64}
{'loss': 0.2306, 'grad_norm': 0.6454076766967773, 'learning_rate': 0.0034719013277616766, 'epoch': 7.64}
{'loss': 0.2243, 'grad_norm

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17367617785930634, 'eval_runtime': 140.033, 'eval_samples_per_second': 105.961, 'eval_steps_per_second': 13.247, 'epoch': 7.65}
{'loss': 0.2701, 'grad_norm': 0.6446446180343628, 'learning_rate': 0.0034698793556648916, 'epoch': 7.65}
{'loss': 0.2432, 'grad_norm': 0.679071307182312, 'learning_rate': 0.003469205364965963, 'epoch': 7.66}
{'loss': 0.2295, 'grad_norm': 0.9339845776557922, 'learning_rate': 0.003468531374267035, 'epoch': 7.66}
{'loss': 0.2147, 'grad_norm': 1.4360568523406982, 'learning_rate': 0.003467857383568107, 'epoch': 7.66}
{'loss': 0.2065, 'grad_norm': 0.396913081407547, 'learning_rate': 0.0034671833928691786, 'epoch': 7.67}
{'loss': 0.2471, 'grad_norm': 0.8892751932144165, 'learning_rate': 0.0034665094021702502, 'epoch': 7.67}
{'loss': 0.2517, 'grad_norm': 0.4252632260322571, 'learning_rate': 0.003465835411471322, 'epoch': 7.67}
{'loss': 0.2407, 'grad_norm': 1.1216894388198853, 'learning_rate': 0.0034651614207723935, 'epoch': 7.68}
{'loss': 0.2316, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1710367500782013, 'eval_runtime': 138.7189, 'eval_samples_per_second': 106.965, 'eval_steps_per_second': 13.372, 'epoch': 7.68}
{'loss': 0.2202, 'grad_norm': 0.5581238865852356, 'learning_rate': 0.0034631394486756084, 'epoch': 7.69}
{'loss': 0.2167, 'grad_norm': 0.6487659215927124, 'learning_rate': 0.00346246545797668, 'epoch': 7.69}
{'loss': 0.2333, 'grad_norm': 0.7732974290847778, 'learning_rate': 0.0034617914672777517, 'epoch': 7.69}
{'loss': 0.236, 'grad_norm': 0.714694082736969, 'learning_rate': 0.0034611174765788234, 'epoch': 7.7}
{'loss': 0.221, 'grad_norm': 0.7910913228988647, 'learning_rate': 0.003460443485879895, 'epoch': 7.7}
{'loss': 0.2333, 'grad_norm': 0.5760221481323242, 'learning_rate': 0.0034597694951809667, 'epoch': 7.7}
{'loss': 0.2404, 'grad_norm': 1.2880849838256836, 'learning_rate': 0.0034590955044820383, 'epoch': 7.71}
{'loss': 0.2261, 'grad_norm': 0.886360764503479, 'learning_rate': 0.00345842151378311, 'epoch': 7.71}
{'loss': 0.223, 'grad_norm':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1772012710571289, 'eval_runtime': 140.1846, 'eval_samples_per_second': 105.846, 'eval_steps_per_second': 13.233, 'epoch': 7.72}
{'loss': 0.2321, 'grad_norm': 1.6718661785125732, 'learning_rate': 0.003456399541686325, 'epoch': 7.72}
{'loss': 0.2299, 'grad_norm': 0.8143854141235352, 'learning_rate': 0.0034557255509873965, 'epoch': 7.72}
{'loss': 0.2318, 'grad_norm': 1.0151320695877075, 'learning_rate': 0.003455051560288468, 'epoch': 7.73}
{'loss': 0.2293, 'grad_norm': 0.8513396978378296, 'learning_rate': 0.00345437756958954, 'epoch': 7.73}
{'loss': 0.2217, 'grad_norm': 0.4949936270713806, 'learning_rate': 0.0034537035788906115, 'epoch': 7.73}
{'loss': 0.229, 'grad_norm': 0.885422945022583, 'learning_rate': 0.0034530295881916827, 'epoch': 7.74}
{'loss': 0.2549, 'grad_norm': 1.184066891670227, 'learning_rate': 0.0034523690773067333, 'epoch': 7.74}
{'loss': 0.2339, 'grad_norm': 2.1914844512939453, 'learning_rate': 0.003451695086607805, 'epoch': 7.74}
{'loss': 0.2345, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17396600544452667, 'eval_runtime': 139.0054, 'eval_samples_per_second': 106.744, 'eval_steps_per_second': 13.345, 'epoch': 7.75}
{'loss': 0.2421, 'grad_norm': 0.7776991128921509, 'learning_rate': 0.00344967311451102, 'epoch': 7.75}
{'loss': 0.2396, 'grad_norm': 0.8345988392829895, 'learning_rate': 0.0034489991238120916, 'epoch': 7.76}
{'loss': 0.2401, 'grad_norm': 0.530731737613678, 'learning_rate': 0.003448325133113163, 'epoch': 7.76}
{'loss': 0.2199, 'grad_norm': 1.1066017150878906, 'learning_rate': 0.003447651142414235, 'epoch': 7.76}
{'loss': 0.2257, 'grad_norm': 0.8603233695030212, 'learning_rate': 0.0034469771517153065, 'epoch': 7.77}
{'loss': 0.241, 'grad_norm': 0.9424822926521301, 'learning_rate': 0.003446303161016378, 'epoch': 7.77}
{'loss': 0.2345, 'grad_norm': 0.919381320476532, 'learning_rate': 0.0034456291703174498, 'epoch': 7.77}
{'loss': 0.2335, 'grad_norm': 1.6800483465194702, 'learning_rate': 0.0034449551796185214, 'epoch': 7.78}
{'loss': 0.2231, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17664049565792084, 'eval_runtime': 138.5025, 'eval_samples_per_second': 107.132, 'eval_steps_per_second': 13.393, 'epoch': 7.78}
{'loss': 0.2331, 'grad_norm': 0.5191672444343567, 'learning_rate': 0.0034429332075217364, 'epoch': 7.79}
{'loss': 0.2226, 'grad_norm': 0.8500193953514099, 'learning_rate': 0.003442259216822808, 'epoch': 7.79}
{'loss': 0.2328, 'grad_norm': 1.1347306966781616, 'learning_rate': 0.0034415852261238796, 'epoch': 7.79}
{'loss': 0.2292, 'grad_norm': 0.9179748296737671, 'learning_rate': 0.0034409112354249513, 'epoch': 7.8}
{'loss': 0.2409, 'grad_norm': 0.8026432394981384, 'learning_rate': 0.003440237244726023, 'epoch': 7.8}
{'loss': 0.2277, 'grad_norm': 0.9473785161972046, 'learning_rate': 0.003439563254027094, 'epoch': 7.8}
{'loss': 0.2206, 'grad_norm': 0.7254909873008728, 'learning_rate': 0.003438889263328166, 'epoch': 7.81}
{'loss': 0.2448, 'grad_norm': 1.1845935583114624, 'learning_rate': 0.0034382152726292374, 'epoch': 7.81}
{'loss': 0.2316, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17345359921455383, 'eval_runtime': 139.7633, 'eval_samples_per_second': 106.165, 'eval_steps_per_second': 13.272, 'epoch': 7.82}
{'loss': 0.246, 'grad_norm': 0.5277560353279114, 'learning_rate': 0.0034361933005324524, 'epoch': 7.82}
{'loss': 0.2159, 'grad_norm': 1.671594262123108, 'learning_rate': 0.003435519309833524, 'epoch': 7.83}
{'loss': 0.2211, 'grad_norm': 0.9424917101860046, 'learning_rate': 0.0034348453191345957, 'epoch': 7.83}
{'loss': 0.2391, 'grad_norm': 0.7269979119300842, 'learning_rate': 0.0034341713284356677, 'epoch': 7.83}
{'loss': 0.2437, 'grad_norm': 0.8418887853622437, 'learning_rate': 0.0034334973377367394, 'epoch': 7.84}
{'loss': 0.2469, 'grad_norm': 0.534713089466095, 'learning_rate': 0.003432823347037811, 'epoch': 7.84}
{'loss': 0.238, 'grad_norm': 0.748799204826355, 'learning_rate': 0.0034321493563388827, 'epoch': 7.84}
{'loss': 0.2458, 'grad_norm': 2.1291022300720215, 'learning_rate': 0.0034314753656399543, 'epoch': 7.85}
{'loss': 0.2278, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17622168362140656, 'eval_runtime': 130.3442, 'eval_samples_per_second': 113.837, 'eval_steps_per_second': 14.232, 'epoch': 7.85}
{'loss': 0.2258, 'grad_norm': 0.5864759683609009, 'learning_rate': 0.0034294533935431692, 'epoch': 7.86}
{'loss': 0.2323, 'grad_norm': 0.9423571228981018, 'learning_rate': 0.003428779402844241, 'epoch': 7.86}
{'loss': 0.2126, 'grad_norm': 0.8440865874290466, 'learning_rate': 0.0034281054121453125, 'epoch': 7.86}
{'loss': 0.2262, 'grad_norm': 1.0493934154510498, 'learning_rate': 0.003427431421446384, 'epoch': 7.87}
{'loss': 0.247, 'grad_norm': 2.946279764175415, 'learning_rate': 0.003426757430747456, 'epoch': 7.87}
{'loss': 0.2392, 'grad_norm': 1.0433590412139893, 'learning_rate': 0.0034260834400485275, 'epoch': 7.87}
{'loss': 0.2329, 'grad_norm': 1.5411325693130493, 'learning_rate': 0.003425409449349599, 'epoch': 7.88}
{'loss': 0.2251, 'grad_norm': 1.1431200504302979, 'learning_rate': 0.0034247354586506708, 'epoch': 7.88}
{'loss': 0.2384, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17634768784046173, 'eval_runtime': 138.105, 'eval_samples_per_second': 107.44, 'eval_steps_per_second': 13.432, 'epoch': 7.89}
{'loss': 0.2329, 'grad_norm': 1.7687363624572754, 'learning_rate': 0.0034227134865538857, 'epoch': 7.89}
{'loss': 0.2223, 'grad_norm': 1.23615562915802, 'learning_rate': 0.0034220394958549573, 'epoch': 7.89}
{'loss': 0.252, 'grad_norm': 1.0145004987716675, 'learning_rate': 0.003421365505156029, 'epoch': 7.9}
{'loss': 0.2213, 'grad_norm': 2.139679431915283, 'learning_rate': 0.0034206915144571006, 'epoch': 7.9}
{'loss': 0.2558, 'grad_norm': 0.8324668407440186, 'learning_rate': 0.0034200175237581723, 'epoch': 7.9}
{'loss': 0.2294, 'grad_norm': 0.7522860169410706, 'learning_rate': 0.003419343533059244, 'epoch': 7.91}
{'loss': 0.2477, 'grad_norm': 1.36674165725708, 'learning_rate': 0.0034186695423603156, 'epoch': 7.91}
{'loss': 0.2235, 'grad_norm': 0.9311223030090332, 'learning_rate': 0.0034179955516613868, 'epoch': 7.91}
{'loss': 0.2258, 'grad_norm'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1790025681257248, 'eval_runtime': 139.3038, 'eval_samples_per_second': 106.515, 'eval_steps_per_second': 13.316, 'epoch': 7.92}
{'loss': 0.2407, 'grad_norm': 0.7046271562576294, 'learning_rate': 0.0034159735795646017, 'epoch': 7.92}
{'loss': 0.2308, 'grad_norm': 1.638602614402771, 'learning_rate': 0.0034152995888656733, 'epoch': 7.93}
{'loss': 0.243, 'grad_norm': 1.5868726968765259, 'learning_rate': 0.003414625598166745, 'epoch': 7.93}
{'loss': 0.2447, 'grad_norm': 0.47327864170074463, 'learning_rate': 0.0034139516074678166, 'epoch': 7.93}
{'loss': 0.2417, 'grad_norm': 1.2249175310134888, 'learning_rate': 0.0034132776167688887, 'epoch': 7.94}
{'loss': 0.2251, 'grad_norm': 0.8372445702552795, 'learning_rate': 0.0034126036260699604, 'epoch': 7.94}
{'loss': 0.2295, 'grad_norm': 1.2152349948883057, 'learning_rate': 0.003411929635371032, 'epoch': 7.94}
{'loss': 0.2204, 'grad_norm': 0.6515630483627319, 'learning_rate': 0.0034112556446721037, 'epoch': 7.95}
{'loss': 0.2305, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17526306211948395, 'eval_runtime': 139.4509, 'eval_samples_per_second': 106.403, 'eval_steps_per_second': 13.302, 'epoch': 7.95}
{'loss': 0.2239, 'grad_norm': 1.1952697038650513, 'learning_rate': 0.0034092336725753186, 'epoch': 7.96}
{'loss': 0.2238, 'grad_norm': 1.6432262659072876, 'learning_rate': 0.0034085596818763902, 'epoch': 7.96}
{'loss': 0.2288, 'grad_norm': 0.5244743824005127, 'learning_rate': 0.003407885691177462, 'epoch': 7.96}
{'loss': 0.2363, 'grad_norm': 2.647294044494629, 'learning_rate': 0.0034072117004785335, 'epoch': 7.97}
{'loss': 0.2156, 'grad_norm': 1.4345431327819824, 'learning_rate': 0.003406537709779605, 'epoch': 7.97}
{'loss': 0.2298, 'grad_norm': 0.46475136280059814, 'learning_rate': 0.003405863719080677, 'epoch': 7.97}
{'loss': 0.2214, 'grad_norm': 2.455730438232422, 'learning_rate': 0.0034051897283817485, 'epoch': 7.98}
{'loss': 0.2295, 'grad_norm': 1.1615543365478516, 'learning_rate': 0.00340451573768282, 'epoch': 7.98}
{'loss': 0.2339, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1734042763710022, 'eval_runtime': 127.8062, 'eval_samples_per_second': 116.098, 'eval_steps_per_second': 14.514, 'epoch': 7.99}
{'loss': 0.2586, 'grad_norm': 0.8265674114227295, 'learning_rate': 0.003402493765586035, 'epoch': 7.99}
{'loss': 0.2364, 'grad_norm': 1.292994737625122, 'learning_rate': 0.0034018197748871067, 'epoch': 7.99}
{'loss': 0.2304, 'grad_norm': 0.5628125667572021, 'learning_rate': 0.0034011457841881783, 'epoch': 8.0}
{'loss': 0.241, 'grad_norm': 2.4615838527679443, 'learning_rate': 0.003400485273303228, 'epoch': 8.0}
{'loss': 0.2219, 'grad_norm': 1.0628842115402222, 'learning_rate': 0.0033998112826043, 'epoch': 8.0}
{'loss': 0.242, 'grad_norm': 0.9400191307067871, 'learning_rate': 0.003399137291905372, 'epoch': 8.01}
{'loss': 0.2176, 'grad_norm': 0.7410746812820435, 'learning_rate': 0.0033984633012064435, 'epoch': 8.01}
{'loss': 0.2269, 'grad_norm': 0.6021957993507385, 'learning_rate': 0.003397789310507515, 'epoch': 8.01}
{'loss': 0.2298, 'grad_norm':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17679652571678162, 'eval_runtime': 136.8347, 'eval_samples_per_second': 108.437, 'eval_steps_per_second': 13.556, 'epoch': 8.02}
{'loss': 0.2216, 'grad_norm': 0.7272449135780334, 'learning_rate': 0.00339576733841073, 'epoch': 8.02}
{'loss': 0.2559, 'grad_norm': 0.7212637662887573, 'learning_rate': 0.0033950933477118017, 'epoch': 8.03}
{'loss': 0.2173, 'grad_norm': 6.432954788208008, 'learning_rate': 0.0033944193570128733, 'epoch': 8.03}
{'loss': 0.2281, 'grad_norm': 0.8645524978637695, 'learning_rate': 0.003393745366313945, 'epoch': 8.03}
{'loss': 0.2292, 'grad_norm': 0.36295783519744873, 'learning_rate': 0.0033930713756150166, 'epoch': 8.04}
{'loss': 0.2153, 'grad_norm': 0.4992622435092926, 'learning_rate': 0.0033923973849160883, 'epoch': 8.04}
{'loss': 0.2394, 'grad_norm': 1.0507712364196777, 'learning_rate': 0.00339172339421716, 'epoch': 8.04}
{'loss': 0.2429, 'grad_norm': 0.9539116621017456, 'learning_rate': 0.0033910494035182316, 'epoch': 8.05}
{'loss': 0.2214, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17949970066547394, 'eval_runtime': 138.6394, 'eval_samples_per_second': 107.026, 'eval_steps_per_second': 13.38, 'epoch': 8.05}
{'loss': 0.2245, 'grad_norm': 0.7499669194221497, 'learning_rate': 0.0033890274314214465, 'epoch': 8.06}
{'loss': 0.2251, 'grad_norm': 1.099010705947876, 'learning_rate': 0.003388353440722518, 'epoch': 8.06}
{'loss': 0.2272, 'grad_norm': 2.2069411277770996, 'learning_rate': 0.00338767945002359, 'epoch': 8.06}
{'loss': 0.2213, 'grad_norm': 0.4729979932308197, 'learning_rate': 0.0033870054593246614, 'epoch': 8.07}
{'loss': 0.229, 'grad_norm': 0.7528103590011597, 'learning_rate': 0.003386331468625733, 'epoch': 8.07}
{'loss': 0.2415, 'grad_norm': 0.560060441493988, 'learning_rate': 0.0033856574779268047, 'epoch': 8.07}
{'loss': 0.2295, 'grad_norm': 1.16139554977417, 'learning_rate': 0.0033849834872278764, 'epoch': 8.08}
{'loss': 0.2264, 'grad_norm': 0.9024038314819336, 'learning_rate': 0.003384309496528948, 'epoch': 8.08}
{'loss': 0.2321, 'grad_nor

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.172504723072052, 'eval_runtime': 139.0055, 'eval_samples_per_second': 106.744, 'eval_steps_per_second': 13.345, 'epoch': 8.09}
{'loss': 0.2265, 'grad_norm': 1.0040748119354248, 'learning_rate': 0.0033822875244321625, 'epoch': 8.09}
{'loss': 0.2115, 'grad_norm': 2.0064098834991455, 'learning_rate': 0.003381613533733234, 'epoch': 8.09}
{'loss': 0.2303, 'grad_norm': 0.7473230957984924, 'learning_rate': 0.003380939543034306, 'epoch': 8.1}
{'loss': 0.217, 'grad_norm': 4.743634223937988, 'learning_rate': 0.0033802655523353774, 'epoch': 8.1}
{'loss': 0.2336, 'grad_norm': 0.6339768767356873, 'learning_rate': 0.00337959156163645, 'epoch': 8.1}
{'loss': 0.2322, 'grad_norm': 3.2638983726501465, 'learning_rate': 0.0033789175709375216, 'epoch': 8.11}
{'loss': 0.2128, 'grad_norm': 1.3116044998168945, 'learning_rate': 0.003378243580238593, 'epoch': 8.11}
{'loss': 0.2198, 'grad_norm': 1.1694828271865845, 'learning_rate': 0.0033775695895396645, 'epoch': 8.11}
{'loss': 0.2186, 'grad_norm

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1723836064338684, 'eval_runtime': 138.1321, 'eval_samples_per_second': 107.419, 'eval_steps_per_second': 13.429, 'epoch': 8.12}
{'loss': 0.2195, 'grad_norm': 0.5440911054611206, 'learning_rate': 0.0033755476174428794, 'epoch': 8.12}
{'loss': 0.2081, 'grad_norm': 1.091858148574829, 'learning_rate': 0.003374873626743951, 'epoch': 8.13}
{'loss': 0.217, 'grad_norm': 0.7500078082084656, 'learning_rate': 0.0033741996360450227, 'epoch': 8.13}
{'loss': 0.2368, 'grad_norm': 1.5821105241775513, 'learning_rate': 0.0033735256453460943, 'epoch': 8.14}
{'loss': 0.2167, 'grad_norm': 1.5042895078659058, 'learning_rate': 0.003372851654647166, 'epoch': 8.14}
{'loss': 0.2202, 'grad_norm': 0.9149352312088013, 'learning_rate': 0.0033721776639482376, 'epoch': 8.14}
{'loss': 0.2164, 'grad_norm': 1.1338653564453125, 'learning_rate': 0.0033715036732493093, 'epoch': 8.15}
{'loss': 0.2246, 'grad_norm': 0.8844495415687561, 'learning_rate': 0.003370829682550381, 'epoch': 8.15}
{'loss': 0.2413, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17038507759571075, 'eval_runtime': 138.9873, 'eval_samples_per_second': 106.758, 'eval_steps_per_second': 13.347, 'epoch': 8.16}
{'loss': 0.2271, 'grad_norm': 0.7991934418678284, 'learning_rate': 0.003368807710453596, 'epoch': 8.16}
{'loss': 0.2271, 'grad_norm': 1.0337567329406738, 'learning_rate': 0.0033681337197546675, 'epoch': 8.16}
{'loss': 0.2413, 'grad_norm': 1.1252970695495605, 'learning_rate': 0.003367459729055739, 'epoch': 8.17}
{'loss': 0.2369, 'grad_norm': 1.3553426265716553, 'learning_rate': 0.0033667857383568108, 'epoch': 8.17}
{'loss': 0.2415, 'grad_norm': 0.8303178548812866, 'learning_rate': 0.0033661117476578824, 'epoch': 8.17}
{'loss': 0.2294, 'grad_norm': 0.8607451319694519, 'learning_rate': 0.003365437756958954, 'epoch': 8.18}
{'loss': 0.2366, 'grad_norm': 0.7907277941703796, 'learning_rate': 0.0033647637662600257, 'epoch': 8.18}
{'loss': 0.221, 'grad_norm': 1.672149896621704, 'learning_rate': 0.0033640897755610973, 'epoch': 8.18}
{'loss': 0.2212, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17601951956748962, 'eval_runtime': 138.1195, 'eval_samples_per_second': 107.429, 'eval_steps_per_second': 13.43, 'epoch': 8.19}
{'loss': 0.2342, 'grad_norm': 0.5525374412536621, 'learning_rate': 0.0033620678034643123, 'epoch': 8.19}
{'loss': 0.2289, 'grad_norm': 0.585186779499054, 'learning_rate': 0.0033613938127653835, 'epoch': 8.2}
{'loss': 0.2294, 'grad_norm': 1.1670517921447754, 'learning_rate': 0.003360719822066455, 'epoch': 8.2}
{'loss': 0.213, 'grad_norm': 0.7115984559059143, 'learning_rate': 0.0033600458313675268, 'epoch': 8.2}
{'loss': 0.2105, 'grad_norm': 0.876983106136322, 'learning_rate': 0.0033593718406685984, 'epoch': 8.21}
{'loss': 0.2346, 'grad_norm': 0.6604961156845093, 'learning_rate': 0.003358697849969671, 'epoch': 8.21}
{'loss': 0.2208, 'grad_norm': 0.8742740750312805, 'learning_rate': 0.0033580238592707426, 'epoch': 8.21}
{'loss': 0.2302, 'grad_norm': 1.5820106267929077, 'learning_rate': 0.0033573498685718142, 'epoch': 8.22}
{'loss': 0.2389, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17460158467292786, 'eval_runtime': 138.6549, 'eval_samples_per_second': 107.014, 'eval_steps_per_second': 13.379, 'epoch': 8.22}
{'loss': 0.2286, 'grad_norm': 0.8796557188034058, 'learning_rate': 0.0033553278964750287, 'epoch': 8.23}
{'loss': 0.2315, 'grad_norm': 0.7634762525558472, 'learning_rate': 0.0033546539057761004, 'epoch': 8.23}
{'loss': 0.2438, 'grad_norm': 1.4596043825149536, 'learning_rate': 0.003353979915077172, 'epoch': 8.23}
{'loss': 0.2325, 'grad_norm': 1.947320580482483, 'learning_rate': 0.0033533059243782437, 'epoch': 8.24}
{'loss': 0.228, 'grad_norm': 0.9662098288536072, 'learning_rate': 0.0033526319336793153, 'epoch': 8.24}
{'loss': 0.2243, 'grad_norm': 1.7798069715499878, 'learning_rate': 0.003351957942980387, 'epoch': 8.24}
{'loss': 0.2384, 'grad_norm': 1.061030387878418, 'learning_rate': 0.0033512839522814586, 'epoch': 8.25}
{'loss': 0.2396, 'grad_norm': 0.5617173314094543, 'learning_rate': 0.0033506099615825302, 'epoch': 8.25}
{'loss': 0.2418, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17034173011779785, 'eval_runtime': 138.9971, 'eval_samples_per_second': 106.75, 'eval_steps_per_second': 13.346, 'epoch': 8.26}
{'loss': 0.2137, 'grad_norm': 0.7822858691215515, 'learning_rate': 0.003348587989485745, 'epoch': 8.26}
{'loss': 0.2262, 'grad_norm': 1.2891532182693481, 'learning_rate': 0.003347913998786817, 'epoch': 8.26}
{'loss': 0.2219, 'grad_norm': 1.978285312652588, 'learning_rate': 0.0033472400080878885, 'epoch': 8.27}
{'loss': 0.2423, 'grad_norm': 1.0154690742492676, 'learning_rate': 0.00334656601738896, 'epoch': 8.27}
{'loss': 0.2326, 'grad_norm': 3.358741521835327, 'learning_rate': 0.0033458920266900317, 'epoch': 8.27}
{'loss': 0.2531, 'grad_norm': 1.2133201360702515, 'learning_rate': 0.0033452180359911034, 'epoch': 8.28}
{'loss': 0.2578, 'grad_norm': 0.8526225090026855, 'learning_rate': 0.003344544045292175, 'epoch': 8.28}
{'loss': 0.2813, 'grad_norm': 2.456704616546631, 'learning_rate': 0.0033438835344072257, 'epoch': 8.28}
{'loss': 0.221, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17838314175605774, 'eval_runtime': 139.6972, 'eval_samples_per_second': 106.215, 'eval_steps_per_second': 13.279, 'epoch': 8.29}
{'loss': 0.2356, 'grad_norm': 0.6704682111740112, 'learning_rate': 0.00334186156231044, 'epoch': 8.29}
{'loss': 0.2391, 'grad_norm': 1.181665062904358, 'learning_rate': 0.003341187571611512, 'epoch': 8.3}
{'loss': 0.2253, 'grad_norm': 1.101203203201294, 'learning_rate': 0.0033405135809125835, 'epoch': 8.3}
{'loss': 0.2535, 'grad_norm': 0.9869935512542725, 'learning_rate': 0.003339839590213655, 'epoch': 8.3}
{'loss': 0.2355, 'grad_norm': 0.9107805490493774, 'learning_rate': 0.0033391655995147268, 'epoch': 8.31}
{'loss': 0.2398, 'grad_norm': 0.8247137069702148, 'learning_rate': 0.0033384916088157984, 'epoch': 8.31}
{'loss': 0.2369, 'grad_norm': 0.5903458595275879, 'learning_rate': 0.00333781761811687, 'epoch': 8.31}
{'loss': 0.2377, 'grad_norm': 0.6317130923271179, 'learning_rate': 0.0033371436274179417, 'epoch': 8.32}
{'loss': 0.22, 'grad_norm'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1793697625398636, 'eval_runtime': 140.5594, 'eval_samples_per_second': 105.564, 'eval_steps_per_second': 13.197, 'epoch': 8.32}
{'loss': 0.2231, 'grad_norm': 1.5896861553192139, 'learning_rate': 0.0033351216553211566, 'epoch': 8.33}
{'loss': 0.2416, 'grad_norm': 1.0208402872085571, 'learning_rate': 0.0033344476646222283, 'epoch': 8.33}
{'loss': 0.2296, 'grad_norm': 1.6599838733673096, 'learning_rate': 0.0033337736739233, 'epoch': 8.33}
{'loss': 0.2287, 'grad_norm': 1.1682777404785156, 'learning_rate': 0.0033330996832243716, 'epoch': 8.34}
{'loss': 0.2094, 'grad_norm': 0.5972185730934143, 'learning_rate': 0.003332425692525443, 'epoch': 8.34}
{'loss': 0.2356, 'grad_norm': 0.9991801381111145, 'learning_rate': 0.003331751701826515, 'epoch': 8.34}
{'loss': 0.2203, 'grad_norm': 0.6297001838684082, 'learning_rate': 0.0033310777111275865, 'epoch': 8.35}
{'loss': 0.2401, 'grad_norm': 1.085899829864502, 'learning_rate': 0.003330403720428658, 'epoch': 8.35}
{'loss': 0.2517, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18339018523693085, 'eval_runtime': 144.5828, 'eval_samples_per_second': 102.626, 'eval_steps_per_second': 12.83, 'epoch': 8.36}
{'loss': 0.2447, 'grad_norm': 1.37571120262146, 'learning_rate': 0.003328381748331873, 'epoch': 8.36}
{'loss': 0.2369, 'grad_norm': 1.1857597827911377, 'learning_rate': 0.0033277077576329447, 'epoch': 8.36}
{'loss': 0.2543, 'grad_norm': 0.5909286737442017, 'learning_rate': 0.0033270337669340164, 'epoch': 8.37}
{'loss': 0.2324, 'grad_norm': 0.9902532696723938, 'learning_rate': 0.0033263597762350876, 'epoch': 8.37}
{'loss': 0.262, 'grad_norm': 1.7183879613876343, 'learning_rate': 0.0033256857855361592, 'epoch': 8.37}
{'loss': 0.2445, 'grad_norm': 1.0984188318252563, 'learning_rate': 0.003325011794837231, 'epoch': 8.38}
{'loss': 0.2355, 'grad_norm': 0.7715409398078918, 'learning_rate': 0.0033243378041383034, 'epoch': 8.38}
{'loss': 0.2351, 'grad_norm': 0.9496986269950867, 'learning_rate': 0.003323663813439375, 'epoch': 8.38}
{'loss': 0.2236, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18006856739521027, 'eval_runtime': 142.9247, 'eval_samples_per_second': 103.817, 'eval_steps_per_second': 12.979, 'epoch': 8.39}
{'loss': 0.2174, 'grad_norm': 1.3258968591690063, 'learning_rate': 0.0033216418413425895, 'epoch': 8.39}
{'loss': 0.2296, 'grad_norm': 0.7566366791725159, 'learning_rate': 0.003320967850643661, 'epoch': 8.4}
{'loss': 0.2498, 'grad_norm': 4.159000873565674, 'learning_rate': 0.003320293859944733, 'epoch': 8.4}
{'loss': 0.2357, 'grad_norm': 1.9388216733932495, 'learning_rate': 0.0033196198692458045, 'epoch': 8.4}
{'loss': 0.2403, 'grad_norm': 4.985267639160156, 'learning_rate': 0.003318945878546876, 'epoch': 8.41}
{'loss': 0.2406, 'grad_norm': 1.5247091054916382, 'learning_rate': 0.0033182718878479477, 'epoch': 8.41}
{'loss': 0.2316, 'grad_norm': 0.9817329049110413, 'learning_rate': 0.0033175978971490194, 'epoch': 8.41}
{'loss': 0.2306, 'grad_norm': 1.7557872533798218, 'learning_rate': 0.003316923906450091, 'epoch': 8.42}
{'loss': 0.2268, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17983056604862213, 'eval_runtime': 143.0245, 'eval_samples_per_second': 103.744, 'eval_steps_per_second': 12.97, 'epoch': 8.42}
{'loss': 0.2371, 'grad_norm': 1.0431383848190308, 'learning_rate': 0.003314901934353306, 'epoch': 8.43}
{'loss': 0.2296, 'grad_norm': 1.3629690408706665, 'learning_rate': 0.0033142279436543776, 'epoch': 8.43}
{'loss': 0.2422, 'grad_norm': 1.9270156621932983, 'learning_rate': 0.0033135539529554493, 'epoch': 8.43}
{'loss': 0.2472, 'grad_norm': 2.3778178691864014, 'learning_rate': 0.003312879962256521, 'epoch': 8.44}
{'loss': 0.217, 'grad_norm': 0.9658756852149963, 'learning_rate': 0.0033122059715575925, 'epoch': 8.44}
{'loss': 0.2352, 'grad_norm': 5.569048881530762, 'learning_rate': 0.003311531980858664, 'epoch': 8.45}
{'loss': 0.2446, 'grad_norm': 1.302196741104126, 'learning_rate': 0.003310857990159736, 'epoch': 8.45}
{'loss': 0.2371, 'grad_norm': 0.5118435025215149, 'learning_rate': 0.0033101839994608075, 'epoch': 8.45}
{'loss': 0.2231, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17686808109283447, 'eval_runtime': 133.9661, 'eval_samples_per_second': 110.759, 'eval_steps_per_second': 13.847, 'epoch': 8.46}
{'loss': 0.2293, 'grad_norm': 0.9966983199119568, 'learning_rate': 0.0033081620273640224, 'epoch': 8.46}
{'loss': 0.2362, 'grad_norm': 0.44120535254478455, 'learning_rate': 0.003307488036665094, 'epoch': 8.47}
{'loss': 0.2383, 'grad_norm': 0.7814953327178955, 'learning_rate': 0.0033068140459661657, 'epoch': 8.47}
{'loss': 0.2315, 'grad_norm': 0.5708937644958496, 'learning_rate': 0.0033061400552672373, 'epoch': 8.47}
{'loss': 0.2337, 'grad_norm': 4.475004196166992, 'learning_rate': 0.003305466064568309, 'epoch': 8.48}
{'loss': 0.2365, 'grad_norm': 1.1723179817199707, 'learning_rate': 0.00330479207386938, 'epoch': 8.48}
{'loss': 0.2325, 'grad_norm': 1.9517791271209717, 'learning_rate': 0.0033041180831704527, 'epoch': 8.48}
{'loss': 0.2337, 'grad_norm': 0.5139723420143127, 'learning_rate': 0.0033034440924715244, 'epoch': 8.49}
{'loss': 0.2582, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1807122379541397, 'eval_runtime': 141.604, 'eval_samples_per_second': 104.785, 'eval_steps_per_second': 13.1, 'epoch': 8.49}
{'loss': 0.2578, 'grad_norm': 0.904076874256134, 'learning_rate': 0.0033014221203747393, 'epoch': 8.5}
{'loss': 0.2388, 'grad_norm': 1.2027713060379028, 'learning_rate': 0.003300748129675811, 'epoch': 8.5}
{'loss': 0.2536, 'grad_norm': 1.1089848279953003, 'learning_rate': 0.003300074138976882, 'epoch': 8.5}
{'loss': 0.2424, 'grad_norm': 0.8779754638671875, 'learning_rate': 0.003299400148277954, 'epoch': 8.51}
{'loss': 0.2331, 'grad_norm': 0.7963498830795288, 'learning_rate': 0.0032987261575790254, 'epoch': 8.51}
{'loss': 0.2523, 'grad_norm': 0.901511549949646, 'learning_rate': 0.003298052166880097, 'epoch': 8.51}
{'loss': 0.2317, 'grad_norm': 2.423959255218506, 'learning_rate': 0.0032973781761811687, 'epoch': 8.52}
{'loss': 0.2219, 'grad_norm': 0.5453101992607117, 'learning_rate': 0.0032967041854822404, 'epoch': 8.52}
{'loss': 0.2239, 'grad_norm':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17469461262226105, 'eval_runtime': 141.9526, 'eval_samples_per_second': 104.528, 'eval_steps_per_second': 13.068, 'epoch': 8.53}
{'loss': 0.2594, 'grad_norm': 1.9322197437286377, 'learning_rate': 0.0032946822133854553, 'epoch': 8.53}
{'loss': 0.2415, 'grad_norm': 2.5369796752929688, 'learning_rate': 0.003294008222686527, 'epoch': 8.53}
{'loss': 0.2249, 'grad_norm': 0.7385730743408203, 'learning_rate': 0.0032933342319875986, 'epoch': 8.54}
{'loss': 0.2162, 'grad_norm': 1.0722564458847046, 'learning_rate': 0.0032926602412886702, 'epoch': 8.54}
{'loss': 0.2559, 'grad_norm': 0.9977332353591919, 'learning_rate': 0.003291986250589742, 'epoch': 8.54}
{'loss': 0.233, 'grad_norm': 1.5223171710968018, 'learning_rate': 0.0032913122598908135, 'epoch': 8.55}
{'loss': 0.2307, 'grad_norm': 0.7961776256561279, 'learning_rate': 0.003290638269191885, 'epoch': 8.55}
{'loss': 0.2511, 'grad_norm': 1.1249815225601196, 'learning_rate': 0.003289964278492957, 'epoch': 8.55}
{'loss': 0.2361, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17929886281490326, 'eval_runtime': 139.3419, 'eval_samples_per_second': 106.486, 'eval_steps_per_second': 13.313, 'epoch': 8.56}
{'loss': 0.2251, 'grad_norm': 1.3898593187332153, 'learning_rate': 0.0032879423063961718, 'epoch': 8.56}
{'loss': 0.2456, 'grad_norm': 0.6301131844520569, 'learning_rate': 0.0032872683156972434, 'epoch': 8.57}
{'loss': 0.225, 'grad_norm': 0.6574632525444031, 'learning_rate': 0.003286594324998315, 'epoch': 8.57}
{'loss': 0.2464, 'grad_norm': 1.9091790914535522, 'learning_rate': 0.0032859203342993867, 'epoch': 8.57}
{'loss': 0.2329, 'grad_norm': 1.4116426706314087, 'learning_rate': 0.0032852463436004583, 'epoch': 8.58}
{'loss': 0.2266, 'grad_norm': 5.806424140930176, 'learning_rate': 0.0032845858327155085, 'epoch': 8.58}
{'loss': 0.2312, 'grad_norm': 0.7459593415260315, 'learning_rate': 0.00328391184201658, 'epoch': 8.58}
{'loss': 0.2282, 'grad_norm': 1.6914914846420288, 'learning_rate': 0.003283237851317652, 'epoch': 8.59}
{'loss': 0.2299, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18225646018981934, 'eval_runtime': 134.2831, 'eval_samples_per_second': 110.498, 'eval_steps_per_second': 13.814, 'epoch': 8.59}
{'loss': 0.2489, 'grad_norm': 1.210221767425537, 'learning_rate': 0.0032812158792208668, 'epoch': 8.6}
{'loss': 0.2401, 'grad_norm': 1.0937379598617554, 'learning_rate': 0.0032805418885219384, 'epoch': 8.6}
{'loss': 0.2231, 'grad_norm': 0.38309529423713684, 'learning_rate': 0.00327986789782301, 'epoch': 8.6}
{'loss': 0.2592, 'grad_norm': 1.3242104053497314, 'learning_rate': 0.0032791939071240817, 'epoch': 8.61}
{'loss': 0.2387, 'grad_norm': 0.8364192843437195, 'learning_rate': 0.0032785199164251533, 'epoch': 8.61}
{'loss': 0.2353, 'grad_norm': 1.7024401426315308, 'learning_rate': 0.003277845925726225, 'epoch': 8.61}
{'loss': 0.2265, 'grad_norm': 0.8015531897544861, 'learning_rate': 0.0032771719350272966, 'epoch': 8.62}
{'loss': 0.2522, 'grad_norm': 1.6122372150421143, 'learning_rate': 0.0032764979443283683, 'epoch': 8.62}
{'loss': 0.2562, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17437104880809784, 'eval_runtime': 143.8858, 'eval_samples_per_second': 103.123, 'eval_steps_per_second': 12.892, 'epoch': 8.63}
{'loss': 0.2305, 'grad_norm': 0.7567517757415771, 'learning_rate': 0.003274475972231583, 'epoch': 8.63}
{'loss': 0.2322, 'grad_norm': 1.1816561222076416, 'learning_rate': 0.003273801981532655, 'epoch': 8.63}
{'loss': 0.2378, 'grad_norm': 2.675818920135498, 'learning_rate': 0.0032731279908337265, 'epoch': 8.64}
{'loss': 0.2347, 'grad_norm': 1.0226924419403076, 'learning_rate': 0.003272454000134798, 'epoch': 8.64}
{'loss': 0.234, 'grad_norm': 0.883342981338501, 'learning_rate': 0.00327178000943587, 'epoch': 8.64}
{'loss': 0.236, 'grad_norm': 1.1139878034591675, 'learning_rate': 0.0032711060187369414, 'epoch': 8.65}
{'loss': 0.2413, 'grad_norm': 1.8670686483383179, 'learning_rate': 0.003270432028038013, 'epoch': 8.65}
{'loss': 0.2535, 'grad_norm': 0.9034669995307922, 'learning_rate': 0.003269758037339085, 'epoch': 8.65}
{'loss': 0.2427, 'grad_nor

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1779460310935974, 'eval_runtime': 135.0256, 'eval_samples_per_second': 109.89, 'eval_steps_per_second': 13.738, 'epoch': 8.66}
{'loss': 0.2426, 'grad_norm': 1.1703555583953857, 'learning_rate': 0.0032677360652423, 'epoch': 8.66}
{'loss': 0.2744, 'grad_norm': 7.2232666015625, 'learning_rate': 0.00326707555435735, 'epoch': 8.67}
{'loss': 0.2418, 'grad_norm': 1.1558557748794556, 'learning_rate': 0.0032664015636584215, 'epoch': 8.67}
{'loss': 0.2324, 'grad_norm': 0.6748431921005249, 'learning_rate': 0.003265727572959493, 'epoch': 8.67}
{'loss': 0.2253, 'grad_norm': 0.9619401693344116, 'learning_rate': 0.003265053582260565, 'epoch': 8.68}
{'loss': 0.2332, 'grad_norm': 0.8925738334655762, 'learning_rate': 0.0032643795915616365, 'epoch': 8.68}
{'loss': 0.2444, 'grad_norm': 0.8159765005111694, 'learning_rate': 0.003263705600862708, 'epoch': 8.68}
{'loss': 0.2346, 'grad_norm': 1.081912875175476, 'learning_rate': 0.0032630316101637797, 'epoch': 8.69}
{'loss': 0.2424, 'grad_norm':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18502581119537354, 'eval_runtime': 142.5265, 'eval_samples_per_second': 104.107, 'eval_steps_per_second': 13.015, 'epoch': 8.69}
{'loss': 0.2391, 'grad_norm': 1.0492489337921143, 'learning_rate': 0.0032610096380669947, 'epoch': 8.7}
{'loss': 0.2394, 'grad_norm': 1.001657247543335, 'learning_rate': 0.0032603356473680663, 'epoch': 8.7}
{'loss': 0.2486, 'grad_norm': 1.6798313856124878, 'learning_rate': 0.003259661656669138, 'epoch': 8.7}
{'loss': 0.2561, 'grad_norm': 1.1797047853469849, 'learning_rate': 0.0032589876659702096, 'epoch': 8.71}
{'loss': 0.2387, 'grad_norm': 0.785088300704956, 'learning_rate': 0.0032583136752712813, 'epoch': 8.71}
{'loss': 0.2286, 'grad_norm': 0.43649592995643616, 'learning_rate': 0.003257639684572353, 'epoch': 8.71}
{'loss': 0.2734, 'grad_norm': 1.5930613279342651, 'learning_rate': 0.0032569656938734245, 'epoch': 8.72}
{'loss': 0.2221, 'grad_norm': 1.2024195194244385, 'learning_rate': 0.0032562917031744966, 'epoch': 8.72}
{'loss': 0.2373, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17876997590065002, 'eval_runtime': 143.7085, 'eval_samples_per_second': 103.251, 'eval_steps_per_second': 12.908, 'epoch': 8.73}
{'loss': 0.2402, 'grad_norm': 1.6232839822769165, 'learning_rate': 0.0032542697310777116, 'epoch': 8.73}
{'loss': 0.2415, 'grad_norm': 0.6814789772033691, 'learning_rate': 0.003253595740378783, 'epoch': 8.73}
{'loss': 0.2363, 'grad_norm': 1.0914829969406128, 'learning_rate': 0.003252921749679855, 'epoch': 8.74}
{'loss': 0.2211, 'grad_norm': 0.8210538029670715, 'learning_rate': 0.0032522477589809265, 'epoch': 8.74}
{'loss': 0.2447, 'grad_norm': 1.324216365814209, 'learning_rate': 0.0032515737682819977, 'epoch': 8.75}
{'loss': 0.2504, 'grad_norm': 1.0570738315582275, 'learning_rate': 0.0032508997775830694, 'epoch': 8.75}
{'loss': 0.2384, 'grad_norm': 0.6707428097724915, 'learning_rate': 0.003250225786884141, 'epoch': 8.75}
{'loss': 0.2416, 'grad_norm': 0.7453262805938721, 'learning_rate': 0.0032495517961852126, 'epoch': 8.76}
{'loss': 0.2302, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1811496764421463, 'eval_runtime': 142.7754, 'eval_samples_per_second': 103.925, 'eval_steps_per_second': 12.992, 'epoch': 8.76}
{'loss': 0.2285, 'grad_norm': 1.0583008527755737, 'learning_rate': 0.0032475298240884276, 'epoch': 8.77}
{'loss': 0.2561, 'grad_norm': 1.3979438543319702, 'learning_rate': 0.0032468558333894992, 'epoch': 8.77}
{'loss': 0.2411, 'grad_norm': 0.8518075346946716, 'learning_rate': 0.003246181842690571, 'epoch': 8.77}
{'loss': 0.2443, 'grad_norm': 0.9057004451751709, 'learning_rate': 0.0032455078519916425, 'epoch': 8.78}
{'loss': 0.2313, 'grad_norm': 0.8364642262458801, 'learning_rate': 0.003244833861292714, 'epoch': 8.78}
{'loss': 0.2479, 'grad_norm': 1.9328197240829468, 'learning_rate': 0.003244159870593786, 'epoch': 8.78}
{'loss': 0.2224, 'grad_norm': 1.0956671237945557, 'learning_rate': 0.0032434858798948574, 'epoch': 8.79}
{'loss': 0.2464, 'grad_norm': 0.6565430760383606, 'learning_rate': 0.003242811889195929, 'epoch': 8.79}
{'loss': 0.2524, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1837746798992157, 'eval_runtime': 144.8108, 'eval_samples_per_second': 102.465, 'eval_steps_per_second': 12.81, 'epoch': 8.8}
{'loss': 0.2553, 'grad_norm': 0.8272700905799866, 'learning_rate': 0.003240789917099144, 'epoch': 8.8}
{'loss': 0.2412, 'grad_norm': 2.9517836570739746, 'learning_rate': 0.0032401159264002157, 'epoch': 8.8}
{'loss': 0.2383, 'grad_norm': 0.6489063501358032, 'learning_rate': 0.0032394419357012873, 'epoch': 8.81}
{'loss': 0.2425, 'grad_norm': 2.7446932792663574, 'learning_rate': 0.003238767945002359, 'epoch': 8.81}
{'loss': 0.2353, 'grad_norm': 1.109372854232788, 'learning_rate': 0.0032380939543034306, 'epoch': 8.81}
{'loss': 0.2349, 'grad_norm': 2.3528807163238525, 'learning_rate': 0.0032374199636045022, 'epoch': 8.82}
{'loss': 0.2403, 'grad_norm': 0.7369974851608276, 'learning_rate': 0.003236745972905574, 'epoch': 8.82}
{'loss': 0.2466, 'grad_norm': 1.9385966062545776, 'learning_rate': 0.003236071982206646, 'epoch': 8.82}
{'loss': 0.2413, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18411920964717865, 'eval_runtime': 143.141, 'eval_samples_per_second': 103.66, 'eval_steps_per_second': 12.959, 'epoch': 8.83}
{'loss': 0.2575, 'grad_norm': 0.8806915879249573, 'learning_rate': 0.003234063489923839, 'epoch': 8.83}
{'loss': 0.2328, 'grad_norm': 1.0238924026489258, 'learning_rate': 0.0032333894992249107, 'epoch': 8.84}
{'loss': 0.2425, 'grad_norm': 0.7443366050720215, 'learning_rate': 0.0032327155085259823, 'epoch': 8.84}
{'loss': 0.2424, 'grad_norm': 0.9901355504989624, 'learning_rate': 0.003232041517827054, 'epoch': 8.84}
{'loss': 0.2288, 'grad_norm': 0.7075634598731995, 'learning_rate': 0.0032313675271281256, 'epoch': 8.85}
{'loss': 0.243, 'grad_norm': 0.7479707598686218, 'learning_rate': 0.0032306935364291973, 'epoch': 8.85}
{'loss': 0.2534, 'grad_norm': 1.2968130111694336, 'learning_rate': 0.003230019545730269, 'epoch': 8.85}
{'loss': 0.2289, 'grad_norm': 1.0620261430740356, 'learning_rate': 0.0032293455550313406, 'epoch': 8.86}
{'loss': 0.2733, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18371085822582245, 'eval_runtime': 144.5094, 'eval_samples_per_second': 102.678, 'eval_steps_per_second': 12.837, 'epoch': 8.86}
{'loss': 0.2413, 'grad_norm': 16.984777450561523, 'learning_rate': 0.0032273235829345555, 'epoch': 8.87}
{'loss': 0.2409, 'grad_norm': 0.9065870642662048, 'learning_rate': 0.003226649592235627, 'epoch': 8.87}
{'loss': 0.2552, 'grad_norm': 0.6724233031272888, 'learning_rate': 0.0032259756015366988, 'epoch': 8.87}
{'loss': 0.2448, 'grad_norm': 2.083954334259033, 'learning_rate': 0.0032253016108377704, 'epoch': 8.88}
{'loss': 0.2467, 'grad_norm': 0.8661379814147949, 'learning_rate': 0.003224627620138842, 'epoch': 8.88}
{'loss': 0.2483, 'grad_norm': 0.8524490594863892, 'learning_rate': 0.0032239536294399137, 'epoch': 8.88}
{'loss': 0.2287, 'grad_norm': 0.8829833269119263, 'learning_rate': 0.0032232796387409854, 'epoch': 8.89}
{'loss': 0.2201, 'grad_norm': 0.4144870936870575, 'learning_rate': 0.0032226056480420574, 'epoch': 8.89}
{'loss': 0.2388, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.180685356259346, 'eval_runtime': 113.6543, 'eval_samples_per_second': 130.554, 'eval_steps_per_second': 16.321, 'epoch': 8.9}
{'loss': 0.2313, 'grad_norm': 0.8527620434761047, 'learning_rate': 0.0032205836759452724, 'epoch': 8.9}
{'loss': 0.2483, 'grad_norm': 1.41742742061615, 'learning_rate': 0.003219909685246344, 'epoch': 8.9}
{'loss': 0.2194, 'grad_norm': 0.5241212248802185, 'learning_rate': 0.0032192356945474157, 'epoch': 8.91}
{'loss': 0.2472, 'grad_norm': 2.5517897605895996, 'learning_rate': 0.0032185617038484873, 'epoch': 8.91}
{'loss': 0.2297, 'grad_norm': 0.8766274452209473, 'learning_rate': 0.003217887713149559, 'epoch': 8.91}
{'loss': 0.2425, 'grad_norm': 2.227201223373413, 'learning_rate': 0.0032172137224506306, 'epoch': 8.92}
{'loss': 0.2477, 'grad_norm': 1.6770601272583008, 'learning_rate': 0.003216539731751702, 'epoch': 8.92}
{'loss': 0.2375, 'grad_norm': 0.8934150338172913, 'learning_rate': 0.0032158657410527734, 'epoch': 8.92}
{'loss': 0.2387, 'grad_nor

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1824551820755005, 'eval_runtime': 113.6831, 'eval_samples_per_second': 130.521, 'eval_steps_per_second': 16.317, 'epoch': 8.93}
{'loss': 0.2251, 'grad_norm': 0.8024017810821533, 'learning_rate': 0.0032138437689559884, 'epoch': 8.93}
{'loss': 0.2347, 'grad_norm': 1.3777697086334229, 'learning_rate': 0.00321316977825706, 'epoch': 8.94}
{'loss': 0.2376, 'grad_norm': 1.187562108039856, 'learning_rate': 0.0032124957875581317, 'epoch': 8.94}
{'loss': 0.2291, 'grad_norm': 1.0975686311721802, 'learning_rate': 0.0032118217968592033, 'epoch': 8.94}
{'loss': 0.2424, 'grad_norm': 1.7210160493850708, 'learning_rate': 0.003211147806160275, 'epoch': 8.95}
{'loss': 0.2652, 'grad_norm': 0.9037501215934753, 'learning_rate': 0.0032104738154613466, 'epoch': 8.95}
{'loss': 0.2668, 'grad_norm': 0.8203192353248596, 'learning_rate': 0.0032097998247624182, 'epoch': 8.95}
{'loss': 0.2405, 'grad_norm': 4.435988903045654, 'learning_rate': 0.00320912583406349, 'epoch': 8.96}
{'loss': 0.2424, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18247480690479279, 'eval_runtime': 142.0667, 'eval_samples_per_second': 104.444, 'eval_steps_per_second': 13.057, 'epoch': 8.96}
{'loss': 0.2467, 'grad_norm': 1.8373903036117554, 'learning_rate': 0.003207103861966705, 'epoch': 8.97}
{'loss': 0.2417, 'grad_norm': 0.7657135725021362, 'learning_rate': 0.0032064433510817555, 'epoch': 8.97}
{'loss': 0.2309, 'grad_norm': 1.252616047859192, 'learning_rate': 0.003205769360382827, 'epoch': 8.97}
{'loss': 0.2527, 'grad_norm': 0.44214746356010437, 'learning_rate': 0.0032050953696838988, 'epoch': 8.98}
{'loss': 0.2305, 'grad_norm': 1.130730390548706, 'learning_rate': 0.0032044213789849704, 'epoch': 8.98}
{'loss': 0.2513, 'grad_norm': 0.8116701245307922, 'learning_rate': 0.003203747388286042, 'epoch': 8.98}
{'loss': 0.2598, 'grad_norm': 0.6739324927330017, 'learning_rate': 0.0032030733975871133, 'epoch': 8.99}
{'loss': 0.2293, 'grad_norm': 0.9960702061653137, 'learning_rate': 0.003202399406888185, 'epoch': 8.99}
{'loss': 0.2411, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1792755275964737, 'eval_runtime': 130.5041, 'eval_samples_per_second': 113.698, 'eval_steps_per_second': 14.214, 'epoch': 9.0}
{'loss': 0.2562, 'grad_norm': 0.5083245038986206, 'learning_rate': 0.0032003774347914, 'epoch': 9.0}
{'loss': 0.2198, 'grad_norm': 3.2277636528015137, 'learning_rate': 0.0031997034440924715, 'epoch': 9.0}
{'loss': 0.2487, 'grad_norm': 0.6976124048233032, 'learning_rate': 0.003199029453393543, 'epoch': 9.01}
{'loss': 0.248, 'grad_norm': 25.17716407775879, 'learning_rate': 0.0031983554626946148, 'epoch': 9.01}
{'loss': 0.246, 'grad_norm': 0.8330141305923462, 'learning_rate': 0.0031976814719956864, 'epoch': 9.01}
{'loss': 0.2449, 'grad_norm': 1.409298300743103, 'learning_rate': 0.003197007481296758, 'epoch': 9.02}
{'loss': 0.2414, 'grad_norm': 0.8299654722213745, 'learning_rate': 0.0031963334905978297, 'epoch': 9.02}
{'loss': 0.2325, 'grad_norm': 0.5604742765426636, 'learning_rate': 0.0031956594998989014, 'epoch': 9.02}
{'loss': 0.2215, 'grad_norm'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18763379752635956, 'eval_runtime': 134.089, 'eval_samples_per_second': 110.658, 'eval_steps_per_second': 13.834, 'epoch': 9.03}
{'loss': 0.2242, 'grad_norm': 3.3313159942626953, 'learning_rate': 0.0031936375278021163, 'epoch': 9.03}
{'loss': 0.2245, 'grad_norm': 1.159868597984314, 'learning_rate': 0.003192963537103188, 'epoch': 9.04}
{'loss': 0.2387, 'grad_norm': 2.416196584701538, 'learning_rate': 0.0031922895464042596, 'epoch': 9.04}
{'loss': 0.2455, 'grad_norm': 1.1389600038528442, 'learning_rate': 0.0031916155557053312, 'epoch': 9.04}
{'loss': 0.2345, 'grad_norm': 0.7929527759552002, 'learning_rate': 0.003190941565006403, 'epoch': 9.05}
{'loss': 0.2522, 'grad_norm': 0.6899548768997192, 'learning_rate': 0.0031902675743074745, 'epoch': 9.05}
{'loss': 0.2365, 'grad_norm': 0.999232292175293, 'learning_rate': 0.003189593583608546, 'epoch': 9.06}
{'loss': 0.2293, 'grad_norm': 1.1634371280670166, 'learning_rate': 0.003188919592909618, 'epoch': 9.06}
{'loss': 0.2406, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18986371159553528, 'eval_runtime': 133.9812, 'eval_samples_per_second': 110.747, 'eval_steps_per_second': 13.845, 'epoch': 9.07}
{'loss': 0.243, 'grad_norm': 3.3360352516174316, 'learning_rate': 0.003186897620812833, 'epoch': 9.07}
{'loss': 0.2296, 'grad_norm': 1.3834521770477295, 'learning_rate': 0.003186223630113905, 'epoch': 9.07}
{'loss': 0.2375, 'grad_norm': 0.846603274345398, 'learning_rate': 0.0031855496394149765, 'epoch': 9.08}
{'loss': 0.2381, 'grad_norm': 1.4637186527252197, 'learning_rate': 0.003184875648716048, 'epoch': 9.08}
{'loss': 0.2292, 'grad_norm': 0.8743205666542053, 'learning_rate': 0.0031842016580171197, 'epoch': 9.08}
{'loss': 0.2404, 'grad_norm': 0.6721209287643433, 'learning_rate': 0.0031835276673181914, 'epoch': 9.09}
{'loss': 0.2298, 'grad_norm': 1.7188825607299805, 'learning_rate': 0.003182853676619263, 'epoch': 9.09}
{'loss': 0.2433, 'grad_norm': 1.0129153728485107, 'learning_rate': 0.0031821796859203347, 'epoch': 9.09}
{'loss': 0.229, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19349175691604614, 'eval_runtime': 144.4935, 'eval_samples_per_second': 102.69, 'eval_steps_per_second': 12.838, 'epoch': 9.1}
{'loss': 0.2642, 'grad_norm': 1.4654080867767334, 'learning_rate': 0.003180157713823549, 'epoch': 9.1}
{'loss': 0.2619, 'grad_norm': 1.2260710000991821, 'learning_rate': 0.003179483723124621, 'epoch': 9.11}
{'loss': 0.2323, 'grad_norm': 1.2108738422393799, 'learning_rate': 0.0031788097324256925, 'epoch': 9.11}
{'loss': 0.2433, 'grad_norm': 1.243584394454956, 'learning_rate': 0.003178135741726764, 'epoch': 9.11}
{'loss': 0.2238, 'grad_norm': 4.009018898010254, 'learning_rate': 0.0031774617510278358, 'epoch': 9.12}
{'loss': 0.2325, 'grad_norm': 0.7492691278457642, 'learning_rate': 0.0031767877603289074, 'epoch': 9.12}
{'loss': 0.2252, 'grad_norm': 0.8631264567375183, 'learning_rate': 0.003176113769629979, 'epoch': 9.12}
{'loss': 0.2391, 'grad_norm': 1.1512552499771118, 'learning_rate': 0.0031754532587450297, 'epoch': 9.13}
{'loss': 0.2433, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1872616857290268, 'eval_runtime': 113.4898, 'eval_samples_per_second': 130.743, 'eval_steps_per_second': 16.345, 'epoch': 9.13}
{'loss': 0.2643, 'grad_norm': 0.9917715191841125, 'learning_rate': 0.0031734312866482446, 'epoch': 9.14}
{'loss': 0.2391, 'grad_norm': 1.766113519668579, 'learning_rate': 0.0031727572959493163, 'epoch': 9.14}
{'loss': 0.2405, 'grad_norm': 1.2028745412826538, 'learning_rate': 0.003172083305250388, 'epoch': 9.14}
{'loss': 0.2467, 'grad_norm': 1.8331974744796753, 'learning_rate': 0.0031714093145514596, 'epoch': 9.15}
{'loss': 0.2408, 'grad_norm': 0.9585544466972351, 'learning_rate': 0.003170735323852531, 'epoch': 9.15}
{'loss': 0.2403, 'grad_norm': 1.0852805376052856, 'learning_rate': 0.003170061333153603, 'epoch': 9.15}
{'loss': 0.2335, 'grad_norm': 0.9607498645782471, 'learning_rate': 0.0031693873424546745, 'epoch': 9.16}
{'loss': 0.2438, 'grad_norm': 0.9512746334075928, 'learning_rate': 0.003168713351755746, 'epoch': 9.16}
{'loss': 0.2609, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18658329546451569, 'eval_runtime': 129.714, 'eval_samples_per_second': 114.39, 'eval_steps_per_second': 14.301, 'epoch': 9.17}
{'loss': 0.2367, 'grad_norm': 0.5883552432060242, 'learning_rate': 0.0031666913796589606, 'epoch': 9.17}
{'loss': 0.2364, 'grad_norm': 1.2385584115982056, 'learning_rate': 0.0031660173889600323, 'epoch': 9.17}
{'loss': 0.2546, 'grad_norm': 0.7209775447845459, 'learning_rate': 0.003165343398261104, 'epoch': 9.18}
{'loss': 0.2445, 'grad_norm': 0.6828511357307434, 'learning_rate': 0.0031646694075621756, 'epoch': 9.18}
{'loss': 0.2393, 'grad_norm': 1.0227255821228027, 'learning_rate': 0.0031639954168632472, 'epoch': 9.18}
{'loss': 0.2333, 'grad_norm': 0.8678941130638123, 'learning_rate': 0.003163321426164319, 'epoch': 9.19}
{'loss': 0.2386, 'grad_norm': 0.7419965863227844, 'learning_rate': 0.0031626474354653905, 'epoch': 9.19}
{'loss': 0.2313, 'grad_norm': 1.7422995567321777, 'learning_rate': 0.003161973444766462, 'epoch': 9.19}
{'loss': 0.2391, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19025486707687378, 'eval_runtime': 130.4414, 'eval_samples_per_second': 113.752, 'eval_steps_per_second': 14.221, 'epoch': 9.2}
{'loss': 0.2402, 'grad_norm': 1.5455659627914429, 'learning_rate': 0.003159951472669677, 'epoch': 9.2}
{'loss': 0.2418, 'grad_norm': 1.4785850048065186, 'learning_rate': 0.0031592774819707487, 'epoch': 9.21}
{'loss': 0.2533, 'grad_norm': 1.0476014614105225, 'learning_rate': 0.0031586034912718204, 'epoch': 9.21}
{'loss': 0.24, 'grad_norm': 0.7580995559692383, 'learning_rate': 0.003157929500572892, 'epoch': 9.21}
{'loss': 0.2359, 'grad_norm': 0.6865663528442383, 'learning_rate': 0.0031572555098739637, 'epoch': 9.22}
{'loss': 0.2567, 'grad_norm': 0.6718227863311768, 'learning_rate': 0.0031565815191750353, 'epoch': 9.22}
{'loss': 0.2579, 'grad_norm': 0.9856902956962585, 'learning_rate': 0.003155907528476107, 'epoch': 9.22}
{'loss': 0.2472, 'grad_norm': 0.9729509353637695, 'learning_rate': 0.0031552335377771786, 'epoch': 9.23}
{'loss': 0.2481, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19382086396217346, 'eval_runtime': 133.3039, 'eval_samples_per_second': 111.31, 'eval_steps_per_second': 13.916, 'epoch': 9.23}
{'loss': 0.2546, 'grad_norm': 0.9520328640937805, 'learning_rate': 0.003153211565680394, 'epoch': 9.24}
{'loss': 0.2434, 'grad_norm': 4.035229682922363, 'learning_rate': 0.0031525375749814656, 'epoch': 9.24}
{'loss': 0.2393, 'grad_norm': 1.5081089735031128, 'learning_rate': 0.0031518635842825373, 'epoch': 9.24}
{'loss': 0.2542, 'grad_norm': 1.4896682500839233, 'learning_rate': 0.003151189593583609, 'epoch': 9.25}
{'loss': 0.24, 'grad_norm': 0.6037952303886414, 'learning_rate': 0.0031505156028846805, 'epoch': 9.25}
{'loss': 0.2568, 'grad_norm': 0.9195990562438965, 'learning_rate': 0.003149841612185752, 'epoch': 9.25}
{'loss': 0.2494, 'grad_norm': 1.0023125410079956, 'learning_rate': 0.003149167621486824, 'epoch': 9.26}
{'loss': 0.243, 'grad_norm': 0.8365137577056885, 'learning_rate': 0.0031484936307878955, 'epoch': 9.26}
{'loss': 0.2415, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19444973766803741, 'eval_runtime': 133.7901, 'eval_samples_per_second': 110.905, 'eval_steps_per_second': 13.865, 'epoch': 9.27}
{'loss': 0.2584, 'grad_norm': 0.5715804696083069, 'learning_rate': 0.00314647165869111, 'epoch': 9.27}
{'loss': 0.2332, 'grad_norm': 0.6684970855712891, 'learning_rate': 0.0031457976679921816, 'epoch': 9.27}
{'loss': 0.2315, 'grad_norm': 5.969181537628174, 'learning_rate': 0.0031451236772932533, 'epoch': 9.28}
{'loss': 0.2336, 'grad_norm': 1.4107915163040161, 'learning_rate': 0.003144449686594325, 'epoch': 9.28}
{'loss': 0.2361, 'grad_norm': 1.201938509941101, 'learning_rate': 0.0031437756958953966, 'epoch': 9.28}
{'loss': 0.2395, 'grad_norm': 0.9832463264465332, 'learning_rate': 0.003143101705196468, 'epoch': 9.29}
{'loss': 0.2561, 'grad_norm': 0.8473612666130066, 'learning_rate': 0.00314242771449754, 'epoch': 9.29}
{'loss': 0.2362, 'grad_norm': 1.1736747026443481, 'learning_rate': 0.0031417537237986115, 'epoch': 9.29}
{'loss': 0.2571, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18198394775390625, 'eval_runtime': 113.9242, 'eval_samples_per_second': 130.245, 'eval_steps_per_second': 16.283, 'epoch': 9.3}
{'loss': 0.2418, 'grad_norm': 1.9323986768722534, 'learning_rate': 0.0031397317517018264, 'epoch': 9.3}
{'loss': 0.2568, 'grad_norm': 2.4163658618927, 'learning_rate': 0.003139057761002898, 'epoch': 9.31}
{'loss': 0.2557, 'grad_norm': 1.6922110319137573, 'learning_rate': 0.0031383837703039697, 'epoch': 9.31}
{'loss': 0.2337, 'grad_norm': 2.008436441421509, 'learning_rate': 0.0031377097796050414, 'epoch': 9.31}
{'loss': 0.2509, 'grad_norm': 1.176047682762146, 'learning_rate': 0.003137035788906113, 'epoch': 9.32}
{'loss': 0.2521, 'grad_norm': 1.6253093481063843, 'learning_rate': 0.0031363617982071846, 'epoch': 9.32}
{'loss': 0.242, 'grad_norm': 0.6050082445144653, 'learning_rate': 0.0031356878075082563, 'epoch': 9.32}
{'loss': 0.2267, 'grad_norm': 0.6080812215805054, 'learning_rate': 0.003135013816809328, 'epoch': 9.33}
{'loss': 0.2462, 'grad_nor

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19244833290576935, 'eval_runtime': 128.4051, 'eval_samples_per_second': 115.556, 'eval_steps_per_second': 14.446, 'epoch': 9.33}
{'loss': 0.2529, 'grad_norm': 5.311291694641113, 'learning_rate': 0.0031330053245265214, 'epoch': 9.34}
{'loss': 0.2455, 'grad_norm': 1.1660563945770264, 'learning_rate': 0.003132331333827593, 'epoch': 9.34}
{'loss': 0.2667, 'grad_norm': 1.37257719039917, 'learning_rate': 0.0031316573431286647, 'epoch': 9.34}
{'loss': 0.2675, 'grad_norm': 0.6215474605560303, 'learning_rate': 0.0031309833524297364, 'epoch': 9.35}
{'loss': 0.2445, 'grad_norm': 0.5083996653556824, 'learning_rate': 0.003130309361730808, 'epoch': 9.35}
{'loss': 0.2635, 'grad_norm': 0.3973661959171295, 'learning_rate': 0.0031296353710318797, 'epoch': 9.35}
{'loss': 0.2433, 'grad_norm': 0.8020521998405457, 'learning_rate': 0.0031289613803329513, 'epoch': 9.36}
{'loss': 0.2527, 'grad_norm': 0.7187360525131226, 'learning_rate': 0.003128287389634023, 'epoch': 9.36}
{'loss': 0.2341, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.186155766248703, 'eval_runtime': 131.0422, 'eval_samples_per_second': 113.231, 'eval_steps_per_second': 14.156, 'epoch': 9.37}
{'loss': 0.2551, 'grad_norm': 0.9181787371635437, 'learning_rate': 0.003126265417537238, 'epoch': 9.37}
{'loss': 0.2301, 'grad_norm': 2.4554951190948486, 'learning_rate': 0.0031255914268383095, 'epoch': 9.38}
{'loss': 0.2667, 'grad_norm': 1.5591822862625122, 'learning_rate': 0.003124917436139381, 'epoch': 9.38}
{'loss': 0.2627, 'grad_norm': 1.1835856437683105, 'learning_rate': 0.003124243445440453, 'epoch': 9.38}
{'loss': 0.2384, 'grad_norm': 1.6801035404205322, 'learning_rate': 0.0031235694547415245, 'epoch': 9.39}
{'loss': 0.2585, 'grad_norm': 1.0173454284667969, 'learning_rate': 0.003122895464042596, 'epoch': 9.39}
{'loss': 0.2483, 'grad_norm': 1.4491723775863647, 'learning_rate': 0.0031222214733436678, 'epoch': 9.39}
{'loss': 0.2321, 'grad_norm': 1.2436238527297974, 'learning_rate': 0.0031215474826447394, 'epoch': 9.4}
{'loss': 0.2423, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19318288564682007, 'eval_runtime': 131.51, 'eval_samples_per_second': 112.828, 'eval_steps_per_second': 14.105, 'epoch': 9.4}
{'loss': 0.2605, 'grad_norm': 0.453095942735672, 'learning_rate': 0.0031195255105479548, 'epoch': 9.41}
{'loss': 0.2466, 'grad_norm': 0.9547697901725769, 'learning_rate': 0.0031188515198490264, 'epoch': 9.41}
{'loss': 0.229, 'grad_norm': 2.456242322921753, 'learning_rate': 0.003118177529150098, 'epoch': 9.41}
{'loss': 0.2564, 'grad_norm': 0.6669135093688965, 'learning_rate': 0.0031175035384511697, 'epoch': 9.42}
{'loss': 0.2365, 'grad_norm': 1.3156152963638306, 'learning_rate': 0.0031168295477522413, 'epoch': 9.42}
{'loss': 0.2333, 'grad_norm': 1.6594384908676147, 'learning_rate': 0.003116155557053313, 'epoch': 9.42}
{'loss': 0.232, 'grad_norm': 10.631477355957031, 'learning_rate': 0.0031154815663543846, 'epoch': 9.43}
{'loss': 0.2408, 'grad_norm': 0.9316551089286804, 'learning_rate': 0.0031148075756554563, 'epoch': 9.43}
{'loss': 0.2493, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18725737929344177, 'eval_runtime': 145.9495, 'eval_samples_per_second': 101.665, 'eval_steps_per_second': 12.71, 'epoch': 9.44}
{'loss': 0.2322, 'grad_norm': 2.15397310256958, 'learning_rate': 0.003112785603558671, 'epoch': 9.44}
{'loss': 0.2507, 'grad_norm': 0.979836106300354, 'learning_rate': 0.003112111612859743, 'epoch': 9.44}
{'loss': 0.2298, 'grad_norm': 1.4439789056777954, 'learning_rate': 0.003111437622160814, 'epoch': 9.45}
{'loss': 0.2353, 'grad_norm': 0.5225386619567871, 'learning_rate': 0.0031107636314618857, 'epoch': 9.45}
{'loss': 0.2199, 'grad_norm': 2.547605037689209, 'learning_rate': 0.0031100896407629574, 'epoch': 9.45}
{'loss': 0.2655, 'grad_norm': 1.8587985038757324, 'learning_rate': 0.0031094291298780076, 'epoch': 9.46}
{'loss': 0.2433, 'grad_norm': 0.7928842306137085, 'learning_rate': 0.0031087551391790792, 'epoch': 9.46}
{'loss': 0.2395, 'grad_norm': 0.9121626615524292, 'learning_rate': 0.003108081148480151, 'epoch': 9.46}
{'loss': 0.2476, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1896032691001892, 'eval_runtime': 145.427, 'eval_samples_per_second': 102.031, 'eval_steps_per_second': 12.756, 'epoch': 9.47}
{'loss': 0.2524, 'grad_norm': 1.1832013130187988, 'learning_rate': 0.0031060591763833662, 'epoch': 9.47}
{'loss': 0.2252, 'grad_norm': 0.645519495010376, 'learning_rate': 0.003105385185684438, 'epoch': 9.48}
{'loss': 0.2396, 'grad_norm': 0.7673089504241943, 'learning_rate': 0.0031047111949855095, 'epoch': 9.48}
{'loss': 0.2447, 'grad_norm': 0.602055013179779, 'learning_rate': 0.003104037204286581, 'epoch': 9.48}
{'loss': 0.2425, 'grad_norm': 45.172367095947266, 'learning_rate': 0.003103363213587653, 'epoch': 9.49}
{'loss': 0.2347, 'grad_norm': 2.0180559158325195, 'learning_rate': 0.0031026892228887245, 'epoch': 9.49}
{'loss': 0.2296, 'grad_norm': 0.5885909199714661, 'learning_rate': 0.003102015232189796, 'epoch': 9.49}
{'loss': 0.2559, 'grad_norm': 1.7164497375488281, 'learning_rate': 0.0031013412414908677, 'epoch': 9.5}
{'loss': 0.2567, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1954885870218277, 'eval_runtime': 145.0561, 'eval_samples_per_second': 102.291, 'eval_steps_per_second': 12.788, 'epoch': 9.5}
{'loss': 0.2259, 'grad_norm': 1.1766959428787231, 'learning_rate': 0.0030993192693940827, 'epoch': 9.51}
{'loss': 0.2649, 'grad_norm': 1.0989446640014648, 'learning_rate': 0.0030986452786951543, 'epoch': 9.51}
{'loss': 0.2602, 'grad_norm': 0.7029325366020203, 'learning_rate': 0.0030979712879962255, 'epoch': 9.51}
{'loss': 0.236, 'grad_norm': 3.9615092277526855, 'learning_rate': 0.003097297297297297, 'epoch': 9.52}
{'loss': 0.2477, 'grad_norm': 1.0814180374145508, 'learning_rate': 0.003096623306598369, 'epoch': 9.52}
{'loss': 0.2479, 'grad_norm': 0.4867172837257385, 'learning_rate': 0.0030959493158994405, 'epoch': 9.52}
{'loss': 0.2418, 'grad_norm': 0.8438450694084167, 'learning_rate': 0.003095275325200512, 'epoch': 9.53}
{'loss': 0.249, 'grad_norm': 0.6061100959777832, 'learning_rate': 0.0030946013345015838, 'epoch': 9.53}
{'loss': 0.241, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1874762922525406, 'eval_runtime': 144.9139, 'eval_samples_per_second': 102.392, 'eval_steps_per_second': 12.801, 'epoch': 9.54}
{'loss': 0.2566, 'grad_norm': 1.53842294216156, 'learning_rate': 0.0030925793624047987, 'epoch': 9.54}
{'loss': 0.2521, 'grad_norm': 3.208649158477783, 'learning_rate': 0.0030919053717058703, 'epoch': 9.54}
{'loss': 0.2467, 'grad_norm': 1.4456119537353516, 'learning_rate': 0.003091231381006942, 'epoch': 9.55}
{'loss': 0.2427, 'grad_norm': 2.8294126987457275, 'learning_rate': 0.0030905573903080136, 'epoch': 9.55}
{'loss': 0.2397, 'grad_norm': 0.6444901823997498, 'learning_rate': 0.0030898833996090853, 'epoch': 9.55}
{'loss': 0.2417, 'grad_norm': 1.1876908540725708, 'learning_rate': 0.003089209408910157, 'epoch': 9.56}
{'loss': 0.2323, 'grad_norm': 4.559939384460449, 'learning_rate': 0.0030885354182112286, 'epoch': 9.56}
{'loss': 0.2408, 'grad_norm': 2.7136318683624268, 'learning_rate': 0.0030878614275123, 'epoch': 9.56}
{'loss': 0.2685, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18963170051574707, 'eval_runtime': 130.176, 'eval_samples_per_second': 113.984, 'eval_steps_per_second': 14.25, 'epoch': 9.57}
{'loss': 0.2321, 'grad_norm': 1.7765388488769531, 'learning_rate': 0.0030858394554155156, 'epoch': 9.57}
{'loss': 0.2437, 'grad_norm': 0.42932426929473877, 'learning_rate': 0.003085165464716587, 'epoch': 9.58}
{'loss': 0.2452, 'grad_norm': 1.0816446542739868, 'learning_rate': 0.003084491474017659, 'epoch': 9.58}
{'loss': 0.2487, 'grad_norm': 1.2705985307693481, 'learning_rate': 0.0030838174833187305, 'epoch': 9.58}
{'loss': 0.2349, 'grad_norm': 2.5624940395355225, 'learning_rate': 0.003083143492619802, 'epoch': 9.59}
{'loss': 0.2405, 'grad_norm': 1.2184513807296753, 'learning_rate': 0.003082469501920874, 'epoch': 9.59}
{'loss': 0.2578, 'grad_norm': 1.8064723014831543, 'learning_rate': 0.0030817955112219454, 'epoch': 9.59}
{'loss': 0.2505, 'grad_norm': 1.013615369796753, 'learning_rate': 0.003081121520523017, 'epoch': 9.6}
{'loss': 0.2194, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19246622920036316, 'eval_runtime': 143.3889, 'eval_samples_per_second': 103.481, 'eval_steps_per_second': 12.937, 'epoch': 9.6}
{'loss': 0.249, 'grad_norm': 2.1940174102783203, 'learning_rate': 0.003079099548426232, 'epoch': 9.61}
{'loss': 0.2377, 'grad_norm': 1.870202898979187, 'learning_rate': 0.0030784255577273037, 'epoch': 9.61}
{'loss': 0.252, 'grad_norm': 0.5932561159133911, 'learning_rate': 0.0030777515670283753, 'epoch': 9.61}
{'loss': 0.2558, 'grad_norm': 5.199904441833496, 'learning_rate': 0.003077077576329447, 'epoch': 9.62}
{'loss': 0.2556, 'grad_norm': 1.1279126405715942, 'learning_rate': 0.003076403585630518, 'epoch': 9.62}
{'loss': 0.2441, 'grad_norm': 0.6320928335189819, 'learning_rate': 0.00307572959493159, 'epoch': 9.62}
{'loss': 0.2359, 'grad_norm': 3.626204490661621, 'learning_rate': 0.0030750556042326615, 'epoch': 9.63}
{'loss': 0.2287, 'grad_norm': 0.8906391263008118, 'learning_rate': 0.003074381613533733, 'epoch': 9.63}
{'loss': 0.2402, 'grad_norm

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18429873883724213, 'eval_runtime': 144.7055, 'eval_samples_per_second': 102.539, 'eval_steps_per_second': 12.819, 'epoch': 9.64}
{'loss': 0.2274, 'grad_norm': 0.8721838593482971, 'learning_rate': 0.003072359641436948, 'epoch': 9.64}
{'loss': 0.2355, 'grad_norm': 1.7574360370635986, 'learning_rate': 0.0030716856507380197, 'epoch': 9.64}
{'loss': 0.2287, 'grad_norm': 1.4646055698394775, 'learning_rate': 0.0030710116600390913, 'epoch': 9.65}
{'loss': 0.2359, 'grad_norm': 1.4930145740509033, 'learning_rate': 0.003070337669340163, 'epoch': 9.65}
{'loss': 0.251, 'grad_norm': 0.75108402967453, 'learning_rate': 0.0030696636786412346, 'epoch': 9.65}
{'loss': 0.2552, 'grad_norm': 1.725415587425232, 'learning_rate': 0.0030689896879423063, 'epoch': 9.66}
{'loss': 0.2433, 'grad_norm': 0.6805700659751892, 'learning_rate': 0.003068315697243378, 'epoch': 9.66}
{'loss': 0.2414, 'grad_norm': 0.6329015493392944, 'learning_rate': 0.0030676417065444495, 'epoch': 9.67}
{'loss': 0.221, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1874687224626541, 'eval_runtime': 144.8647, 'eval_samples_per_second': 102.427, 'eval_steps_per_second': 12.805, 'epoch': 9.67}
{'loss': 0.245, 'grad_norm': 0.6455835103988647, 'learning_rate': 0.003065619734447665, 'epoch': 9.68}
{'loss': 0.2429, 'grad_norm': 1.608701229095459, 'learning_rate': 0.0030649457437487366, 'epoch': 9.68}
{'loss': 0.2528, 'grad_norm': 0.5068097114562988, 'learning_rate': 0.003064271753049808, 'epoch': 9.68}
{'loss': 0.2411, 'grad_norm': 0.8374544382095337, 'learning_rate': 0.00306359776235088, 'epoch': 9.69}
{'loss': 0.2332, 'grad_norm': 1.3124662637710571, 'learning_rate': 0.0030629237716519515, 'epoch': 9.69}
{'loss': 0.2382, 'grad_norm': 1.123705267906189, 'learning_rate': 0.003062249780953023, 'epoch': 9.69}
{'loss': 0.2454, 'grad_norm': 1.334898829460144, 'learning_rate': 0.0030615757902540948, 'epoch': 9.7}
{'loss': 0.2395, 'grad_norm': 1.0207629203796387, 'learning_rate': 0.0030609017995551664, 'epoch': 9.7}
{'loss': 0.2238, 'grad_norm

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18537676334381104, 'eval_runtime': 133.4669, 'eval_samples_per_second': 111.174, 'eval_steps_per_second': 13.899, 'epoch': 9.71}
{'loss': 0.2536, 'grad_norm': 1.3887900114059448, 'learning_rate': 0.0030588798274583814, 'epoch': 9.71}
{'loss': 0.2431, 'grad_norm': 1.5768402814865112, 'learning_rate': 0.003058205836759453, 'epoch': 9.71}
{'loss': 0.2393, 'grad_norm': 1.1938292980194092, 'learning_rate': 0.0030575318460605246, 'epoch': 9.72}
{'loss': 0.2441, 'grad_norm': 1.2351131439208984, 'learning_rate': 0.0030568578553615963, 'epoch': 9.72}
{'loss': 0.2358, 'grad_norm': 1.0979974269866943, 'learning_rate': 0.003056183864662668, 'epoch': 9.72}
{'loss': 0.2224, 'grad_norm': 1.2838668823242188, 'learning_rate': 0.0030555098739637396, 'epoch': 9.73}
{'loss': 0.2682, 'grad_norm': 1.315384864807129, 'learning_rate': 0.003054835883264811, 'epoch': 9.73}
{'loss': 0.2553, 'grad_norm': 0.9237787127494812, 'learning_rate': 0.0030541618925658824, 'epoch': 9.73}
{'loss': 0.2439, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18133962154388428, 'eval_runtime': 143.8426, 'eval_samples_per_second': 103.154, 'eval_steps_per_second': 12.896, 'epoch': 9.74}
{'loss': 0.2411, 'grad_norm': 1.277877688407898, 'learning_rate': 0.0030521399204690974, 'epoch': 9.74}
{'loss': 0.233, 'grad_norm': 1.1323695182800293, 'learning_rate': 0.003051465929770169, 'epoch': 9.75}
{'loss': 0.2183, 'grad_norm': 1.145737648010254, 'learning_rate': 0.0030507919390712407, 'epoch': 9.75}
{'loss': 0.2243, 'grad_norm': 0.6253529787063599, 'learning_rate': 0.0030501179483723123, 'epoch': 9.75}
{'loss': 0.2612, 'grad_norm': 1.7106956243515015, 'learning_rate': 0.003049443957673384, 'epoch': 9.76}
{'loss': 0.2216, 'grad_norm': 0.9593207836151123, 'learning_rate': 0.0030487699669744556, 'epoch': 9.76}
{'loss': 0.258, 'grad_norm': 0.783170759677887, 'learning_rate': 0.0030480959762755272, 'epoch': 9.76}
{'loss': 0.2324, 'grad_norm': 1.2758492231369019, 'learning_rate': 0.003047421985576599, 'epoch': 9.77}
{'loss': 0.2238, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1870637685060501, 'eval_runtime': 133.408, 'eval_samples_per_second': 111.223, 'eval_steps_per_second': 13.905, 'epoch': 9.77}
{'loss': 0.2427, 'grad_norm': 1.1138784885406494, 'learning_rate': 0.003045400013479814, 'epoch': 9.78}
{'loss': 0.2543, 'grad_norm': 1.3745667934417725, 'learning_rate': 0.003044726022780886, 'epoch': 9.78}
{'loss': 0.2543, 'grad_norm': 0.7671724557876587, 'learning_rate': 0.0030440520320819575, 'epoch': 9.78}
{'loss': 0.2201, 'grad_norm': 1.240796685218811, 'learning_rate': 0.003043378041383029, 'epoch': 9.79}
{'loss': 0.234, 'grad_norm': 0.42917802929878235, 'learning_rate': 0.003042704050684101, 'epoch': 9.79}
{'loss': 0.2352, 'grad_norm': 0.5621113777160645, 'learning_rate': 0.0030420300599851725, 'epoch': 9.79}
{'loss': 0.2443, 'grad_norm': 0.7304872274398804, 'learning_rate': 0.003041356069286244, 'epoch': 9.8}
{'loss': 0.2247, 'grad_norm': 0.5529336333274841, 'learning_rate': 0.0030406820785873158, 'epoch': 9.8}
{'loss': 0.2588, 'grad_no

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1795898675918579, 'eval_runtime': 131.5096, 'eval_samples_per_second': 112.828, 'eval_steps_per_second': 14.105, 'epoch': 9.81}
{'loss': 0.2094, 'grad_norm': 1.1907533407211304, 'learning_rate': 0.0030386601064905307, 'epoch': 9.81}
{'loss': 0.2292, 'grad_norm': 2.802567481994629, 'learning_rate': 0.0030379861157916023, 'epoch': 9.81}
{'loss': 0.2427, 'grad_norm': 3.9247078895568848, 'learning_rate': 0.003037312125092674, 'epoch': 9.82}
{'loss': 0.2364, 'grad_norm': 0.7829582095146179, 'learning_rate': 0.0030366381343937456, 'epoch': 9.82}
{'loss': 0.2414, 'grad_norm': 0.8889865279197693, 'learning_rate': 0.0030359641436948173, 'epoch': 9.82}
{'loss': 0.2444, 'grad_norm': 0.9311465620994568, 'learning_rate': 0.003035303632809867, 'epoch': 9.83}
{'loss': 0.251, 'grad_norm': 5.442630290985107, 'learning_rate': 0.0030346296421109387, 'epoch': 9.83}
{'loss': 0.2385, 'grad_norm': 1.3384265899658203, 'learning_rate': 0.0030339556514120103, 'epoch': 9.83}
{'loss': 0.2589, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18303139507770538, 'eval_runtime': 134.191, 'eval_samples_per_second': 110.574, 'eval_steps_per_second': 13.824, 'epoch': 9.84}
{'loss': 0.2679, 'grad_norm': 1.1552741527557373, 'learning_rate': 0.0030319336793152257, 'epoch': 9.84}
{'loss': 0.2392, 'grad_norm': 1.023069143295288, 'learning_rate': 0.0030312596886162974, 'epoch': 9.85}
{'loss': 0.255, 'grad_norm': 0.996536910533905, 'learning_rate': 0.003030585697917369, 'epoch': 9.85}
{'loss': 0.2461, 'grad_norm': 1.0184303522109985, 'learning_rate': 0.0030299117072184406, 'epoch': 9.85}
{'loss': 0.2368, 'grad_norm': 0.58716881275177, 'learning_rate': 0.0030292377165195123, 'epoch': 9.86}
{'loss': 0.2512, 'grad_norm': 1.289322853088379, 'learning_rate': 0.003028563725820584, 'epoch': 9.86}
{'loss': 0.2418, 'grad_norm': 1.153808832168579, 'learning_rate': 0.0030278897351216556, 'epoch': 9.86}
{'loss': 0.2483, 'grad_norm': 1.49931800365448, 'learning_rate': 0.0030272157444227272, 'epoch': 9.87}
{'loss': 0.25, 'grad_norm':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18639056384563446, 'eval_runtime': 146.0115, 'eval_samples_per_second': 101.622, 'eval_steps_per_second': 12.704, 'epoch': 9.87}
{'loss': 0.2541, 'grad_norm': 0.4838249683380127, 'learning_rate': 0.003025193772325942, 'epoch': 9.88}
{'loss': 0.2531, 'grad_norm': 0.6907455921173096, 'learning_rate': 0.003024519781627014, 'epoch': 9.88}
{'loss': 0.2353, 'grad_norm': 0.6802646517753601, 'learning_rate': 0.0030238457909280854, 'epoch': 9.88}
{'loss': 0.2557, 'grad_norm': 0.9343869686126709, 'learning_rate': 0.003023171800229157, 'epoch': 9.89}
{'loss': 0.2436, 'grad_norm': 3.5994365215301514, 'learning_rate': 0.0030224978095302287, 'epoch': 9.89}
{'loss': 0.2444, 'grad_norm': 1.2783620357513428, 'learning_rate': 0.0030218238188313004, 'epoch': 9.89}
{'loss': 0.2316, 'grad_norm': 1.5362013578414917, 'learning_rate': 0.003021149828132372, 'epoch': 9.9}
{'loss': 0.2425, 'grad_norm': 1.312972068786621, 'learning_rate': 0.0030204758374334437, 'epoch': 9.9}
{'loss': 0.277, 'grad_

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18598148226737976, 'eval_runtime': 145.1652, 'eval_samples_per_second': 102.215, 'eval_steps_per_second': 12.779, 'epoch': 9.91}
{'loss': 0.2344, 'grad_norm': 1.157365322113037, 'learning_rate': 0.003018453865336658, 'epoch': 9.91}
{'loss': 0.2521, 'grad_norm': 0.47583961486816406, 'learning_rate': 0.00301777987463773, 'epoch': 9.91}
{'loss': 0.2589, 'grad_norm': 1.0467778444290161, 'learning_rate': 0.0030171058839388015, 'epoch': 9.92}
{'loss': 0.2367, 'grad_norm': 1.1109516620635986, 'learning_rate': 0.003016431893239873, 'epoch': 9.92}
{'loss': 0.2626, 'grad_norm': 1.2312309741973877, 'learning_rate': 0.0030157579025409447, 'epoch': 9.92}
{'loss': 0.2644, 'grad_norm': 1.1507785320281982, 'learning_rate': 0.0030150839118420164, 'epoch': 9.93}
{'loss': 0.2508, 'grad_norm': 4.485255241394043, 'learning_rate': 0.003014409921143088, 'epoch': 9.93}
{'loss': 0.2512, 'grad_norm': 17.951208114624023, 'learning_rate': 0.0030137359304441597, 'epoch': 9.93}
{'loss': 0.2407, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18510453402996063, 'eval_runtime': 134.8411, 'eval_samples_per_second': 110.041, 'eval_steps_per_second': 13.757, 'epoch': 9.94}
{'loss': 0.251, 'grad_norm': 5.9616546630859375, 'learning_rate': 0.0030117274381613536, 'epoch': 9.94}
{'loss': 0.2424, 'grad_norm': 0.5289196372032166, 'learning_rate': 0.0030110534474624253, 'epoch': 9.95}
{'loss': 0.2522, 'grad_norm': 1.1312642097473145, 'learning_rate': 0.003010379456763497, 'epoch': 9.95}
{'loss': 0.2539, 'grad_norm': 1.9363954067230225, 'learning_rate': 0.0030097054660645686, 'epoch': 9.95}
{'loss': 0.2478, 'grad_norm': 2.1510751247406006, 'learning_rate': 0.00300903147536564, 'epoch': 9.96}
{'loss': 0.2247, 'grad_norm': 1.491112470626831, 'learning_rate': 0.003008357484666712, 'epoch': 9.96}
{'loss': 0.2337, 'grad_norm': 3.4971747398376465, 'learning_rate': 0.0030076834939677835, 'epoch': 9.96}
{'loss': 0.2489, 'grad_norm': 0.3811156451702118, 'learning_rate': 0.003007009503268855, 'epoch': 9.97}
{'loss': 0.2466, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18654674291610718, 'eval_runtime': 133.7854, 'eval_samples_per_second': 110.909, 'eval_steps_per_second': 13.865, 'epoch': 9.98}
{'loss': 0.2549, 'grad_norm': 1.52390456199646, 'learning_rate': 0.0030049875311720696, 'epoch': 9.98}
{'loss': 0.2353, 'grad_norm': 1.1641358137130737, 'learning_rate': 0.0030043135404731413, 'epoch': 9.98}
{'loss': 0.2264, 'grad_norm': 2.9084932804107666, 'learning_rate': 0.003003639549774213, 'epoch': 9.99}
{'loss': 0.2561, 'grad_norm': 0.609321117401123, 'learning_rate': 0.0030029655590752846, 'epoch': 9.99}
{'loss': 0.2487, 'grad_norm': 2.3926947116851807, 'learning_rate': 0.003002291568376356, 'epoch': 9.99}
{'loss': 0.2296, 'grad_norm': 1.980239748954773, 'learning_rate': 0.003001617577677428, 'epoch': 10.0}
{'loss': 0.2743, 'grad_norm': 0.7032347321510315, 'learning_rate': 0.0030009435869784995, 'epoch': 10.0}
{'loss': 0.256, 'grad_norm': 3.0353009700775146, 'learning_rate': 0.003000269596279571, 'epoch': 10.0}
{'loss': 0.2213, 'grad_n

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18648381531238556, 'eval_runtime': 145.8568, 'eval_samples_per_second': 101.73, 'eval_steps_per_second': 12.718, 'epoch': 10.01}
{'loss': 0.2401, 'grad_norm': 0.548761248588562, 'learning_rate': 0.002998247624182786, 'epoch': 10.01}
{'loss': 0.2417, 'grad_norm': 4.402185916900635, 'learning_rate': 0.002997573633483858, 'epoch': 10.02}
{'loss': 0.2182, 'grad_norm': 1.8621972799301147, 'learning_rate': 0.00299689964278493, 'epoch': 10.02}
{'loss': 0.2279, 'grad_norm': 0.6489925384521484, 'learning_rate': 0.0029962256520860014, 'epoch': 10.02}
{'loss': 0.2471, 'grad_norm': 1.7362115383148193, 'learning_rate': 0.002995551661387073, 'epoch': 10.03}
{'loss': 0.2427, 'grad_norm': 1.7442219257354736, 'learning_rate': 0.0029948776706881447, 'epoch': 10.03}
{'loss': 0.2425, 'grad_norm': 2.631657123565674, 'learning_rate': 0.0029942036799892164, 'epoch': 10.03}
{'loss': 0.2464, 'grad_norm': 1.0585302114486694, 'learning_rate': 0.002993529689290288, 'epoch': 10.04}
{'loss': 0.2548,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18386933207511902, 'eval_runtime': 133.9775, 'eval_samples_per_second': 110.75, 'eval_steps_per_second': 13.846, 'epoch': 10.04}
{'loss': 0.2531, 'grad_norm': 0.9409483671188354, 'learning_rate': 0.002991507717193503, 'epoch': 10.05}
{'loss': 0.2256, 'grad_norm': 0.9800334572792053, 'learning_rate': 0.0029908337264945746, 'epoch': 10.05}
{'loss': 0.2402, 'grad_norm': 1.2030575275421143, 'learning_rate': 0.0029901597357956462, 'epoch': 10.05}
{'loss': 0.2252, 'grad_norm': 2.1123435497283936, 'learning_rate': 0.002989485745096718, 'epoch': 10.06}
{'loss': 0.2331, 'grad_norm': 1.900213360786438, 'learning_rate': 0.0029888117543977895, 'epoch': 10.06}
{'loss': 0.2233, 'grad_norm': 2.6041183471679688, 'learning_rate': 0.002988137763698861, 'epoch': 10.06}
{'loss': 0.2408, 'grad_norm': 0.9583372473716736, 'learning_rate': 0.002987463772999933, 'epoch': 10.07}
{'loss': 0.234, 'grad_norm': 0.5422173142433167, 'learning_rate': 0.0029867897823010045, 'epoch': 10.07}
{'loss': 0.22

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18960914015769958, 'eval_runtime': 146.0188, 'eval_samples_per_second': 101.617, 'eval_steps_per_second': 12.704, 'epoch': 10.08}
{'loss': 0.2222, 'grad_norm': 0.9434563517570496, 'learning_rate': 0.002984767810204219, 'epoch': 10.08}
{'loss': 0.2309, 'grad_norm': 0.6074128746986389, 'learning_rate': 0.0029840938195052906, 'epoch': 10.08}
{'loss': 0.2348, 'grad_norm': 0.50336092710495, 'learning_rate': 0.0029834198288063623, 'epoch': 10.09}
{'loss': 0.2535, 'grad_norm': 0.5987609028816223, 'learning_rate': 0.002982745838107434, 'epoch': 10.09}
{'loss': 0.2334, 'grad_norm': 0.5569708347320557, 'learning_rate': 0.0029820718474085055, 'epoch': 10.09}
{'loss': 0.2293, 'grad_norm': 2.0297796726226807, 'learning_rate': 0.002981397856709577, 'epoch': 10.1}
{'loss': 0.2165, 'grad_norm': 6.835159778594971, 'learning_rate': 0.002980723866010649, 'epoch': 10.1}
{'loss': 0.2298, 'grad_norm': 0.7321134805679321, 'learning_rate': 0.0029800498753117205, 'epoch': 10.1}
{'loss': 0.2393,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1908608376979828, 'eval_runtime': 146.0584, 'eval_samples_per_second': 101.589, 'eval_steps_per_second': 12.7, 'epoch': 10.11}
{'loss': 0.2411, 'grad_norm': 1.6106889247894287, 'learning_rate': 0.0029780279032149354, 'epoch': 10.11}
{'loss': 0.2424, 'grad_norm': 1.215251088142395, 'learning_rate': 0.002977367392329986, 'epoch': 10.12}
{'loss': 0.2357, 'grad_norm': 1.3108800649642944, 'learning_rate': 0.0029766934016310577, 'epoch': 10.12}
{'loss': 0.2379, 'grad_norm': 0.7254031896591187, 'learning_rate': 0.0029760194109321294, 'epoch': 10.12}
{'loss': 0.2397, 'grad_norm': 0.7612498998641968, 'learning_rate': 0.002975345420233201, 'epoch': 10.13}
{'loss': 0.229, 'grad_norm': 1.6146647930145264, 'learning_rate': 0.0029746714295342726, 'epoch': 10.13}
{'loss': 0.2345, 'grad_norm': 1.165833830833435, 'learning_rate': 0.0029739974388353443, 'epoch': 10.13}
{'loss': 0.2525, 'grad_norm': 1.1883591413497925, 'learning_rate': 0.002973323448136416, 'epoch': 10.14}
{'loss': 0.2353

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18396040797233582, 'eval_runtime': 145.1196, 'eval_samples_per_second': 102.247, 'eval_steps_per_second': 12.783, 'epoch': 10.14}
{'loss': 0.2389, 'grad_norm': 3.0217068195343018, 'learning_rate': 0.0029713014760396304, 'epoch': 10.15}
{'loss': 0.245, 'grad_norm': 1.5062350034713745, 'learning_rate': 0.002970627485340702, 'epoch': 10.15}
{'loss': 0.2469, 'grad_norm': 1.0365402698516846, 'learning_rate': 0.0029699534946417737, 'epoch': 10.15}
{'loss': 0.2288, 'grad_norm': 0.926825225353241, 'learning_rate': 0.0029692795039428454, 'epoch': 10.16}
{'loss': 0.2335, 'grad_norm': 0.6189046502113342, 'learning_rate': 0.002968605513243917, 'epoch': 10.16}
{'loss': 0.2222, 'grad_norm': 0.8824419379234314, 'learning_rate': 0.0029679315225449887, 'epoch': 10.16}
{'loss': 0.2208, 'grad_norm': 0.7007511854171753, 'learning_rate': 0.0029672575318460603, 'epoch': 10.17}
{'loss': 0.2265, 'grad_norm': 1.8891043663024902, 'learning_rate': 0.002966583541147132, 'epoch': 10.17}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18664216995239258, 'eval_runtime': 144.5449, 'eval_samples_per_second': 102.653, 'eval_steps_per_second': 12.833, 'epoch': 10.18}
{'loss': 0.234, 'grad_norm': 0.6206331849098206, 'learning_rate': 0.002964561569050347, 'epoch': 10.18}
{'loss': 0.2338, 'grad_norm': 2.9667224884033203, 'learning_rate': 0.002963887578351419, 'epoch': 10.18}
{'loss': 0.2115, 'grad_norm': 1.1665006875991821, 'learning_rate': 0.0029632135876524906, 'epoch': 10.19}
{'loss': 0.2282, 'grad_norm': 1.4053235054016113, 'learning_rate': 0.0029625395969535622, 'epoch': 10.19}
{'loss': 0.2357, 'grad_norm': 3.7063896656036377, 'learning_rate': 0.002961865606254634, 'epoch': 10.19}
{'loss': 0.2469, 'grad_norm': 1.036037564277649, 'learning_rate': 0.0029611916155557055, 'epoch': 10.2}
{'loss': 0.2207, 'grad_norm': 2.199300527572632, 'learning_rate': 0.002960517624856777, 'epoch': 10.2}
{'loss': 0.2303, 'grad_norm': 1.7508846521377563, 'learning_rate': 0.002959843634157849, 'epoch': 10.2}
{'loss': 0.2294, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1868918389081955, 'eval_runtime': 134.4474, 'eval_samples_per_second': 110.363, 'eval_steps_per_second': 13.797, 'epoch': 10.21}
{'loss': 0.2481, 'grad_norm': 1.502030849456787, 'learning_rate': 0.0029578216620610638, 'epoch': 10.21}
{'loss': 0.2356, 'grad_norm': 0.33191680908203125, 'learning_rate': 0.0029571476713621354, 'epoch': 10.22}
{'loss': 0.2507, 'grad_norm': 1.2650235891342163, 'learning_rate': 0.002956473680663207, 'epoch': 10.22}
{'loss': 0.2373, 'grad_norm': 0.712113082408905, 'learning_rate': 0.0029557996899642787, 'epoch': 10.22}
{'loss': 0.2201, 'grad_norm': 2.558980941772461, 'learning_rate': 0.0029551256992653503, 'epoch': 10.23}
{'loss': 0.2354, 'grad_norm': 0.7860667109489441, 'learning_rate': 0.002954451708566422, 'epoch': 10.23}
{'loss': 0.2223, 'grad_norm': 3.297856569290161, 'learning_rate': 0.0029537777178674936, 'epoch': 10.23}
{'loss': 0.2439, 'grad_norm': 0.6502307653427124, 'learning_rate': 0.0029531037271685653, 'epoch': 10.24}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18871749937534332, 'eval_runtime': 134.3325, 'eval_samples_per_second': 110.457, 'eval_steps_per_second': 13.809, 'epoch': 10.24}
{'loss': 0.2399, 'grad_norm': 0.933714747428894, 'learning_rate': 0.00295108175507178, 'epoch': 10.25}
{'loss': 0.216, 'grad_norm': 1.3279037475585938, 'learning_rate': 0.002950407764372852, 'epoch': 10.25}
{'loss': 0.2238, 'grad_norm': 1.1690443754196167, 'learning_rate': 0.002949733773673923, 'epoch': 10.25}
{'loss': 0.2346, 'grad_norm': 1.369547963142395, 'learning_rate': 0.0029490597829749947, 'epoch': 10.26}
{'loss': 0.2474, 'grad_norm': 1.113834261894226, 'learning_rate': 0.0029483857922760663, 'epoch': 10.26}
{'loss': 0.2682, 'grad_norm': 1.6119946241378784, 'learning_rate': 0.002947711801577138, 'epoch': 10.26}
{'loss': 0.2332, 'grad_norm': 0.9489905834197998, 'learning_rate': 0.0029470378108782096, 'epoch': 10.27}
{'loss': 0.2347, 'grad_norm': 0.7801390290260315, 'learning_rate': 0.0029463638201792813, 'epoch': 10.27}
{'loss': 0.2285

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18835532665252686, 'eval_runtime': 129.9271, 'eval_samples_per_second': 114.203, 'eval_steps_per_second': 14.277, 'epoch': 10.28}
{'loss': 0.2362, 'grad_norm': 1.3344863653182983, 'learning_rate': 0.002944341848082496, 'epoch': 10.28}
{'loss': 0.2215, 'grad_norm': 1.3226054906845093, 'learning_rate': 0.002943667857383568, 'epoch': 10.29}
{'loss': 0.2356, 'grad_norm': 3.0106568336486816, 'learning_rate': 0.0029430073464986185, 'epoch': 10.29}
{'loss': 0.2459, 'grad_norm': 2.4106099605560303, 'learning_rate': 0.00294233335579969, 'epoch': 10.29}
{'loss': 0.2563, 'grad_norm': 2.533768892288208, 'learning_rate': 0.002941659365100762, 'epoch': 10.3}
{'loss': 0.2362, 'grad_norm': 2.6104016304016113, 'learning_rate': 0.0029409853744018334, 'epoch': 10.3}
{'loss': 0.2444, 'grad_norm': 1.2157140970230103, 'learning_rate': 0.002940311383702905, 'epoch': 10.3}
{'loss': 0.2346, 'grad_norm': 1.0856177806854248, 'learning_rate': 0.0029396373930039767, 'epoch': 10.31}
{'loss': 0.2324,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1926470696926117, 'eval_runtime': 131.2212, 'eval_samples_per_second': 113.076, 'eval_steps_per_second': 14.136, 'epoch': 10.31}
{'loss': 0.2244, 'grad_norm': 0.9551621079444885, 'learning_rate': 0.0029376154209071917, 'epoch': 10.32}
{'loss': 0.2477, 'grad_norm': 2.252333879470825, 'learning_rate': 0.0029369414302082633, 'epoch': 10.32}
{'loss': 0.2293, 'grad_norm': 2.129894733428955, 'learning_rate': 0.0029362674395093345, 'epoch': 10.32}
{'loss': 0.2201, 'grad_norm': 2.3006956577301025, 'learning_rate': 0.002935593448810406, 'epoch': 10.33}
{'loss': 0.2244, 'grad_norm': 1.3109890222549438, 'learning_rate': 0.002934919458111478, 'epoch': 10.33}
{'loss': 0.2409, 'grad_norm': 2.2677412033081055, 'learning_rate': 0.0029342454674125495, 'epoch': 10.33}
{'loss': 0.2362, 'grad_norm': 1.1960389614105225, 'learning_rate': 0.002933571476713621, 'epoch': 10.34}
{'loss': 0.2447, 'grad_norm': 1.7191740274429321, 'learning_rate': 0.0029328974860146927, 'epoch': 10.34}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1868114471435547, 'eval_runtime': 134.0579, 'eval_samples_per_second': 110.684, 'eval_steps_per_second': 13.837, 'epoch': 10.35}
{'loss': 0.2431, 'grad_norm': 0.8709052801132202, 'learning_rate': 0.0029308755139179077, 'epoch': 10.35}
{'loss': 0.2585, 'grad_norm': 3.648113250732422, 'learning_rate': 0.0029302015232189793, 'epoch': 10.35}
{'loss': 0.2507, 'grad_norm': 7.769336223602295, 'learning_rate': 0.0029295275325200514, 'epoch': 10.36}
{'loss': 0.2508, 'grad_norm': 0.9329966306686401, 'learning_rate': 0.002928853541821123, 'epoch': 10.36}
{'loss': 0.258, 'grad_norm': 2.0178136825561523, 'learning_rate': 0.0029281795511221947, 'epoch': 10.36}
{'loss': 0.2626, 'grad_norm': 0.8942159414291382, 'learning_rate': 0.0029275055604232663, 'epoch': 10.37}
{'loss': 0.2367, 'grad_norm': 0.878900945186615, 'learning_rate': 0.002926831569724338, 'epoch': 10.37}
{'loss': 0.2348, 'grad_norm': 0.9107781648635864, 'learning_rate': 0.0029261575790254096, 'epoch': 10.37}
{'loss': 0.23

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1838385909795761, 'eval_runtime': 144.4527, 'eval_samples_per_second': 102.719, 'eval_steps_per_second': 12.842, 'epoch': 10.38}
{'loss': 0.2355, 'grad_norm': 1.4406170845031738, 'learning_rate': 0.0029241356069286246, 'epoch': 10.38}
{'loss': 0.237, 'grad_norm': 0.9182289838790894, 'learning_rate': 0.002923461616229696, 'epoch': 10.39}
{'loss': 0.2381, 'grad_norm': 1.003687858581543, 'learning_rate': 0.002922787625530768, 'epoch': 10.39}
{'loss': 0.2298, 'grad_norm': 1.7471925020217896, 'learning_rate': 0.0029221136348318395, 'epoch': 10.39}
{'loss': 0.2402, 'grad_norm': 2.275698661804199, 'learning_rate': 0.002921439644132911, 'epoch': 10.4}
{'loss': 0.2298, 'grad_norm': 1.4228639602661133, 'learning_rate': 0.002920765653433983, 'epoch': 10.4}
{'loss': 0.2489, 'grad_norm': 1.283459186553955, 'learning_rate': 0.0029200916627350544, 'epoch': 10.4}
{'loss': 0.2525, 'grad_norm': 2.434657335281372, 'learning_rate': 0.002919417672036126, 'epoch': 10.41}
{'loss': 0.2325, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18507923185825348, 'eval_runtime': 144.3105, 'eval_samples_per_second': 102.82, 'eval_steps_per_second': 12.854, 'epoch': 10.41}
{'loss': 0.2531, 'grad_norm': 1.100205898284912, 'learning_rate': 0.002917395699939341, 'epoch': 10.42}
{'loss': 0.2277, 'grad_norm': 1.960038661956787, 'learning_rate': 0.0029167217092404127, 'epoch': 10.42}
{'loss': 0.2487, 'grad_norm': 1.8649864196777344, 'learning_rate': 0.0029160477185414843, 'epoch': 10.42}
{'loss': 0.2646, 'grad_norm': 1.6330069303512573, 'learning_rate': 0.0029153737278425555, 'epoch': 10.43}
{'loss': 0.2308, 'grad_norm': 0.8661006093025208, 'learning_rate': 0.002914699737143627, 'epoch': 10.43}
{'loss': 0.256, 'grad_norm': 4.756529808044434, 'learning_rate': 0.002914025746444699, 'epoch': 10.43}
{'loss': 0.2365, 'grad_norm': 1.8586397171020508, 'learning_rate': 0.0029133517557457704, 'epoch': 10.44}
{'loss': 0.2395, 'grad_norm': 0.4360284209251404, 'learning_rate': 0.002912677765046842, 'epoch': 10.44}
{'loss': 0.2332

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1902657449245453, 'eval_runtime': 133.4933, 'eval_samples_per_second': 111.152, 'eval_steps_per_second': 13.896, 'epoch': 10.45}
{'loss': 0.2418, 'grad_norm': 2.0871775150299072, 'learning_rate': 0.002910655792950057, 'epoch': 10.45}
{'loss': 0.2282, 'grad_norm': 2.1395821571350098, 'learning_rate': 0.0029099818022511287, 'epoch': 10.45}
{'loss': 0.2314, 'grad_norm': 1.1925760507583618, 'learning_rate': 0.0029093078115522003, 'epoch': 10.46}
{'loss': 0.2501, 'grad_norm': 1.8348517417907715, 'learning_rate': 0.0029086338208532724, 'epoch': 10.46}
{'loss': 0.2486, 'grad_norm': 0.563724160194397, 'learning_rate': 0.002907959830154344, 'epoch': 10.46}
{'loss': 0.2605, 'grad_norm': 0.7187872529029846, 'learning_rate': 0.0029072858394554157, 'epoch': 10.47}
{'loss': 0.2391, 'grad_norm': 0.631698489189148, 'learning_rate': 0.0029066118487564873, 'epoch': 10.47}
{'loss': 0.2264, 'grad_norm': 0.7953957319259644, 'learning_rate': 0.002905937858057559, 'epoch': 10.47}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1841350495815277, 'eval_runtime': 145.9423, 'eval_samples_per_second': 101.67, 'eval_steps_per_second': 12.711, 'epoch': 10.48}
{'loss': 0.2586, 'grad_norm': 7.742636680603027, 'learning_rate': 0.002903915885960774, 'epoch': 10.48}
{'loss': 0.2453, 'grad_norm': 2.9948740005493164, 'learning_rate': 0.0029032418952618455, 'epoch': 10.49}
{'loss': 0.2331, 'grad_norm': 0.892970621585846, 'learning_rate': 0.002902567904562917, 'epoch': 10.49}
{'loss': 0.2425, 'grad_norm': 0.5720393657684326, 'learning_rate': 0.002901893913863989, 'epoch': 10.49}
{'loss': 0.2399, 'grad_norm': 2.1923911571502686, 'learning_rate': 0.0029012199231650605, 'epoch': 10.5}
{'loss': 0.2315, 'grad_norm': 0.975493311882019, 'learning_rate': 0.002900545932466132, 'epoch': 10.5}
{'loss': 0.2294, 'grad_norm': 0.4328884482383728, 'learning_rate': 0.0028998719417672038, 'epoch': 10.5}
{'loss': 0.2294, 'grad_norm': 1.3072823286056519, 'learning_rate': 0.0028991979510682754, 'epoch': 10.51}
{'loss': 0.2384, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18031811714172363, 'eval_runtime': 133.7142, 'eval_samples_per_second': 110.968, 'eval_steps_per_second': 13.873, 'epoch': 10.51}
{'loss': 0.2218, 'grad_norm': 1.41066312789917, 'learning_rate': 0.0028971759789714903, 'epoch': 10.52}
{'loss': 0.2489, 'grad_norm': 1.0164448022842407, 'learning_rate': 0.002896501988272562, 'epoch': 10.52}
{'loss': 0.2177, 'grad_norm': 0.6509981751441956, 'learning_rate': 0.0028958279975736336, 'epoch': 10.52}
{'loss': 0.2295, 'grad_norm': 1.6733816862106323, 'learning_rate': 0.0028951540068747053, 'epoch': 10.53}
{'loss': 0.2341, 'grad_norm': 0.9591581225395203, 'learning_rate': 0.002894480016175777, 'epoch': 10.53}
{'loss': 0.2221, 'grad_norm': 1.886420488357544, 'learning_rate': 0.002893806025476848, 'epoch': 10.53}
{'loss': 0.2365, 'grad_norm': 0.6515183448791504, 'learning_rate': 0.0028931320347779198, 'epoch': 10.54}
{'loss': 0.2337, 'grad_norm': 1.1562449932098389, 'learning_rate': 0.0028924580440789914, 'epoch': 10.54}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17912985384464264, 'eval_runtime': 144.035, 'eval_samples_per_second': 103.017, 'eval_steps_per_second': 12.879, 'epoch': 10.55}
{'loss': 0.2149, 'grad_norm': 0.8965316414833069, 'learning_rate': 0.0028904360719822064, 'epoch': 10.55}
{'loss': 0.2283, 'grad_norm': 0.7584818005561829, 'learning_rate': 0.002889762081283278, 'epoch': 10.55}
{'loss': 0.2344, 'grad_norm': 0.7742428779602051, 'learning_rate': 0.0028890880905843496, 'epoch': 10.56}
{'loss': 0.2337, 'grad_norm': 3.0674383640289307, 'learning_rate': 0.0028884140998854213, 'epoch': 10.56}
{'loss': 0.2231, 'grad_norm': 0.9416771531105042, 'learning_rate': 0.0028877401091864934, 'epoch': 10.56}
{'loss': 0.2414, 'grad_norm': 1.3203754425048828, 'learning_rate': 0.002887066118487565, 'epoch': 10.57}
{'loss': 0.2534, 'grad_norm': 0.9009436964988708, 'learning_rate': 0.0028863921277886367, 'epoch': 10.57}
{'loss': 0.2256, 'grad_norm': 0.4014400541782379, 'learning_rate': 0.0028857181370897083, 'epoch': 10.57}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18055535852909088, 'eval_runtime': 144.453, 'eval_samples_per_second': 102.719, 'eval_steps_per_second': 12.842, 'epoch': 10.58}
{'loss': 0.2298, 'grad_norm': 2.006201982498169, 'learning_rate': 0.0028836961649929232, 'epoch': 10.59}
{'loss': 0.2397, 'grad_norm': 1.6498854160308838, 'learning_rate': 0.002883022174293995, 'epoch': 10.59}
{'loss': 0.2382, 'grad_norm': 2.754930019378662, 'learning_rate': 0.0028823481835950665, 'epoch': 10.59}
{'loss': 0.2448, 'grad_norm': 1.999725341796875, 'learning_rate': 0.002881674192896138, 'epoch': 10.6}
{'loss': 0.2405, 'grad_norm': 0.8534011840820312, 'learning_rate': 0.00288100020219721, 'epoch': 10.6}
{'loss': 0.2458, 'grad_norm': 3.2041025161743164, 'learning_rate': 0.0028803262114982815, 'epoch': 10.6}
{'loss': 0.2337, 'grad_norm': 2.819737672805786, 'learning_rate': 0.002879652220799353, 'epoch': 10.61}
{'loss': 0.2471, 'grad_norm': 0.7857862710952759, 'learning_rate': 0.0028789782301004247, 'epoch': 10.61}
{'loss': 0.2383, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1862144023180008, 'eval_runtime': 134.1019, 'eval_samples_per_second': 110.647, 'eval_steps_per_second': 13.833, 'epoch': 10.62}
{'loss': 0.2268, 'grad_norm': 0.9983498454093933, 'learning_rate': 0.002876969737817618, 'epoch': 10.62}
{'loss': 0.2314, 'grad_norm': 0.7711131572723389, 'learning_rate': 0.0028762957471186895, 'epoch': 10.62}
{'loss': 0.2214, 'grad_norm': 0.7687808275222778, 'learning_rate': 0.002875621756419761, 'epoch': 10.63}
{'loss': 0.2483, 'grad_norm': 1.8814070224761963, 'learning_rate': 0.002874947765720833, 'epoch': 10.63}
{'loss': 0.2532, 'grad_norm': 3.8877604007720947, 'learning_rate': 0.002874273775021905, 'epoch': 10.63}
{'loss': 0.2527, 'grad_norm': 1.5178065299987793, 'learning_rate': 0.002873613264136955, 'epoch': 10.64}
{'loss': 0.2377, 'grad_norm': 1.852561116218567, 'learning_rate': 0.0028729392734380267, 'epoch': 10.64}
{'loss': 0.2294, 'grad_norm': 3.2069387435913086, 'learning_rate': 0.0028722652827390983, 'epoch': 10.64}
{'loss': 0.25

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19531680643558502, 'eval_runtime': 124.878, 'eval_samples_per_second': 118.82, 'eval_steps_per_second': 14.854, 'epoch': 10.65}
{'loss': 0.2484, 'grad_norm': 1.1356667280197144, 'learning_rate': 0.0028702433106423133, 'epoch': 10.65}
{'loss': 0.2285, 'grad_norm': 1.748558521270752, 'learning_rate': 0.002869569319943385, 'epoch': 10.66}
{'loss': 0.2544, 'grad_norm': 0.8594344854354858, 'learning_rate': 0.0028688953292444566, 'epoch': 10.66}
{'loss': 0.2453, 'grad_norm': 1.2783560752868652, 'learning_rate': 0.002868221338545528, 'epoch': 10.66}
{'loss': 0.2387, 'grad_norm': 1.240891456604004, 'learning_rate': 0.0028675473478466, 'epoch': 10.67}
{'loss': 0.2331, 'grad_norm': 2.668895959854126, 'learning_rate': 0.002866873357147671, 'epoch': 10.67}
{'loss': 0.2304, 'grad_norm': 0.7336021065711975, 'learning_rate': 0.0028661993664487427, 'epoch': 10.67}
{'loss': 0.2381, 'grad_norm': 2.0020785331726074, 'learning_rate': 0.0028655253757498144, 'epoch': 10.68}
{'loss': 0.2228, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18519189953804016, 'eval_runtime': 124.6559, 'eval_samples_per_second': 119.032, 'eval_steps_per_second': 14.881, 'epoch': 10.68}
{'loss': 0.2319, 'grad_norm': 1.419264316558838, 'learning_rate': 0.0028635034036530293, 'epoch': 10.69}
{'loss': 0.2146, 'grad_norm': 1.496492862701416, 'learning_rate': 0.002862829412954101, 'epoch': 10.69}
{'loss': 0.2499, 'grad_norm': 0.5372675061225891, 'learning_rate': 0.0028621554222551726, 'epoch': 10.69}
{'loss': 0.2241, 'grad_norm': 9.165303230285645, 'learning_rate': 0.0028614814315562447, 'epoch': 10.7}
{'loss': 0.2375, 'grad_norm': 0.8862960934638977, 'learning_rate': 0.0028608074408573163, 'epoch': 10.7}
{'loss': 0.232, 'grad_norm': 1.2255587577819824, 'learning_rate': 0.002860133450158388, 'epoch': 10.7}
{'loss': 0.2301, 'grad_norm': 0.6718996167182922, 'learning_rate': 0.0028594594594594596, 'epoch': 10.71}
{'loss': 0.2556, 'grad_norm': 0.9215998649597168, 'learning_rate': 0.0028587854687605312, 'epoch': 10.71}
{'loss': 0.2427

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1901174783706665, 'eval_runtime': 115.3576, 'eval_samples_per_second': 128.626, 'eval_steps_per_second': 16.08, 'epoch': 10.72}
{'loss': 0.243, 'grad_norm': 1.2409958839416504, 'learning_rate': 0.002856763496663746, 'epoch': 10.72}
{'loss': 0.2387, 'grad_norm': 8.031184196472168, 'learning_rate': 0.0028561029857787964, 'epoch': 10.72}
{'loss': 0.2239, 'grad_norm': 1.202379584312439, 'learning_rate': 0.002855428995079868, 'epoch': 10.73}
{'loss': 0.2431, 'grad_norm': 1.125427484512329, 'learning_rate': 0.0028547550043809397, 'epoch': 10.73}
{'loss': 0.2637, 'grad_norm': 1.8391060829162598, 'learning_rate': 0.0028540810136820113, 'epoch': 10.73}
{'loss': 0.2285, 'grad_norm': 0.8061392307281494, 'learning_rate': 0.0028534070229830825, 'epoch': 10.74}
{'loss': 0.2485, 'grad_norm': 2.88460111618042, 'learning_rate': 0.002852733032284154, 'epoch': 10.74}
{'loss': 0.2453, 'grad_norm': 0.8594827651977539, 'learning_rate': 0.002852059041585226, 'epoch': 10.74}
{'loss': 0.2269, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18447843194007874, 'eval_runtime': 116.2909, 'eval_samples_per_second': 127.594, 'eval_steps_per_second': 15.951, 'epoch': 10.75}
{'loss': 0.2443, 'grad_norm': 2.3412303924560547, 'learning_rate': 0.0028500370694884408, 'epoch': 10.75}
{'loss': 0.2252, 'grad_norm': 0.584148645401001, 'learning_rate': 0.0028493630787895124, 'epoch': 10.76}
{'loss': 0.2403, 'grad_norm': 1.3306443691253662, 'learning_rate': 0.002848689088090584, 'epoch': 10.76}
{'loss': 0.2531, 'grad_norm': 2.1887569427490234, 'learning_rate': 0.002848015097391656, 'epoch': 10.76}
{'loss': 0.2372, 'grad_norm': 1.132842779159546, 'learning_rate': 0.0028473411066927278, 'epoch': 10.77}
{'loss': 0.2516, 'grad_norm': 1.2669367790222168, 'learning_rate': 0.0028466671159937994, 'epoch': 10.77}
{'loss': 0.2584, 'grad_norm': 0.9389966726303101, 'learning_rate': 0.002845993125294871, 'epoch': 10.77}
{'loss': 0.251, 'grad_norm': 1.2166824340820312, 'learning_rate': 0.0028453191345959427, 'epoch': 10.78}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.20251652598381042, 'eval_runtime': 115.5317, 'eval_samples_per_second': 128.432, 'eval_steps_per_second': 16.056, 'epoch': 10.78}
{'loss': 0.2325, 'grad_norm': 1.3430380821228027, 'learning_rate': 0.0028432971624991576, 'epoch': 10.79}
{'loss': 0.2482, 'grad_norm': 6.973324298858643, 'learning_rate': 0.0028426231718002293, 'epoch': 10.79}
{'loss': 0.2482, 'grad_norm': 1.779370665550232, 'learning_rate': 0.002841949181101301, 'epoch': 10.79}
{'loss': 0.2226, 'grad_norm': 1.3959431648254395, 'learning_rate': 0.0028412751904023726, 'epoch': 10.8}
{'loss': 0.2425, 'grad_norm': 1.9719085693359375, 'learning_rate': 0.002840601199703444, 'epoch': 10.8}
{'loss': 0.2598, 'grad_norm': 0.7206600904464722, 'learning_rate': 0.002839927209004516, 'epoch': 10.8}
{'loss': 0.2361, 'grad_norm': 11.07465648651123, 'learning_rate': 0.0028392532183055875, 'epoch': 10.81}
{'loss': 0.2402, 'grad_norm': 1.25699782371521, 'learning_rate': 0.002838579227606659, 'epoch': 10.81}
{'loss': 0.2464, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.20308949053287506, 'eval_runtime': 119.077, 'eval_samples_per_second': 124.608, 'eval_steps_per_second': 15.578, 'epoch': 10.82}
{'loss': 0.2497, 'grad_norm': 2.102506399154663, 'learning_rate': 0.002836557255509874, 'epoch': 10.82}
{'loss': 0.2567, 'grad_norm': 0.7553040981292725, 'learning_rate': 0.0028358832648109457, 'epoch': 10.82}
{'loss': 0.2557, 'grad_norm': 3.3357880115509033, 'learning_rate': 0.0028352092741120174, 'epoch': 10.83}
{'loss': 0.2514, 'grad_norm': 2.261115550994873, 'learning_rate': 0.002834535283413089, 'epoch': 10.83}
{'loss': 0.2592, 'grad_norm': 1.1581391096115112, 'learning_rate': 0.0028338612927141607, 'epoch': 10.83}
{'loss': 0.2671, 'grad_norm': 1.213476300239563, 'learning_rate': 0.0028331873020152323, 'epoch': 10.84}
{'loss': 0.2364, 'grad_norm': 1.1647591590881348, 'learning_rate': 0.002832513311316304, 'epoch': 10.84}
{'loss': 0.2598, 'grad_norm': 1.6849967241287231, 'learning_rate': 0.002831839320617375, 'epoch': 10.84}
{'loss': 0.258

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18716862797737122, 'eval_runtime': 118.6753, 'eval_samples_per_second': 125.03, 'eval_steps_per_second': 15.631, 'epoch': 10.85}
{'loss': 0.2343, 'grad_norm': 1.8972193002700806, 'learning_rate': 0.00282981734852059, 'epoch': 10.85}
{'loss': 0.2468, 'grad_norm': 0.9146802425384521, 'learning_rate': 0.0028291433578216617, 'epoch': 10.86}
{'loss': 0.2473, 'grad_norm': 0.5045368671417236, 'learning_rate': 0.0028284693671227334, 'epoch': 10.86}
{'loss': 0.229, 'grad_norm': 3.0415804386138916, 'learning_rate': 0.002827795376423806, 'epoch': 10.86}
{'loss': 0.2571, 'grad_norm': 1.6866374015808105, 'learning_rate': 0.002827121385724877, 'epoch': 10.87}
{'loss': 0.2234, 'grad_norm': 0.8165278434753418, 'learning_rate': 0.0028264473950259487, 'epoch': 10.87}
{'loss': 0.2372, 'grad_norm': 2.381696939468384, 'learning_rate': 0.0028257734043270204, 'epoch': 10.87}
{'loss': 0.2617, 'grad_norm': 0.8287113308906555, 'learning_rate': 0.002825099413628092, 'epoch': 10.88}
{'loss': 0.241

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18772973120212555, 'eval_runtime': 114.9561, 'eval_samples_per_second': 129.075, 'eval_steps_per_second': 16.137, 'epoch': 10.88}
{'loss': 0.2257, 'grad_norm': 2.0620789527893066, 'learning_rate': 0.0028230909213452855, 'epoch': 10.89}
{'loss': 0.2449, 'grad_norm': 0.9298616051673889, 'learning_rate': 0.002822416930646357, 'epoch': 10.89}
{'loss': 0.2382, 'grad_norm': 1.9285081624984741, 'learning_rate': 0.002821742939947429, 'epoch': 10.9}
{'loss': 0.2336, 'grad_norm': 3.2536160945892334, 'learning_rate': 0.0028210689492485005, 'epoch': 10.9}
{'loss': 0.2402, 'grad_norm': 1.6135305166244507, 'learning_rate': 0.002820394958549572, 'epoch': 10.9}
{'loss': 0.2461, 'grad_norm': 0.8240268230438232, 'learning_rate': 0.0028197209678506438, 'epoch': 10.91}
{'loss': 0.2426, 'grad_norm': 2.2456119060516357, 'learning_rate': 0.0028190469771517154, 'epoch': 10.91}
{'loss': 0.261, 'grad_norm': 0.9675031900405884, 'learning_rate': 0.0028183729864527866, 'epoch': 10.91}
{'loss': 0.25

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18151666224002838, 'eval_runtime': 119.7543, 'eval_samples_per_second': 123.904, 'eval_steps_per_second': 15.49, 'epoch': 10.92}
{'loss': 0.2288, 'grad_norm': 2.036174774169922, 'learning_rate': 0.0028163510143560016, 'epoch': 10.92}
{'loss': 0.2459, 'grad_norm': 0.9559862017631531, 'learning_rate': 0.002815677023657073, 'epoch': 10.93}
{'loss': 0.2295, 'grad_norm': 0.6644739508628845, 'learning_rate': 0.002815003032958145, 'epoch': 10.93}
{'loss': 0.2458, 'grad_norm': 1.4834949970245361, 'learning_rate': 0.0028143290422592174, 'epoch': 10.93}
{'loss': 0.2002, 'grad_norm': 0.6865067481994629, 'learning_rate': 0.0028136550515602886, 'epoch': 10.94}
{'loss': 0.232, 'grad_norm': 2.0473577976226807, 'learning_rate': 0.00281298106086136, 'epoch': 10.94}
{'loss': 0.2743, 'grad_norm': 5.457726001739502, 'learning_rate': 0.002812307070162432, 'epoch': 10.94}
{'loss': 0.2255, 'grad_norm': 1.7405664920806885, 'learning_rate': 0.0028116330794635035, 'epoch': 10.95}
{'loss': 0.2297

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1870434582233429, 'eval_runtime': 119.1887, 'eval_samples_per_second': 124.492, 'eval_steps_per_second': 15.564, 'epoch': 10.95}
{'loss': 0.2413, 'grad_norm': 1.1679800748825073, 'learning_rate': 0.0028096111073667184, 'epoch': 10.96}
{'loss': 0.2459, 'grad_norm': 1.104006290435791, 'learning_rate': 0.00280893711666779, 'epoch': 10.96}
{'loss': 0.2487, 'grad_norm': 1.2688641548156738, 'learning_rate': 0.0028082631259688617, 'epoch': 10.96}
{'loss': 0.2313, 'grad_norm': 1.804229974746704, 'learning_rate': 0.0028075891352699334, 'epoch': 10.97}
{'loss': 0.238, 'grad_norm': 1.2081159353256226, 'learning_rate': 0.002806915144571005, 'epoch': 10.97}
{'loss': 0.2385, 'grad_norm': 1.279984474182129, 'learning_rate': 0.0028062411538720767, 'epoch': 10.97}
{'loss': 0.2533, 'grad_norm': 2.0720245838165283, 'learning_rate': 0.0028055671631731483, 'epoch': 10.98}
{'loss': 0.2319, 'grad_norm': 7.291346549987793, 'learning_rate': 0.00280489317247422, 'epoch': 10.98}
{'loss': 0.2469, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18906471133232117, 'eval_runtime': 119.6518, 'eval_samples_per_second': 124.01, 'eval_steps_per_second': 15.503, 'epoch': 10.99}
{'loss': 0.2384, 'grad_norm': 1.0219638347625732, 'learning_rate': 0.002802871200377435, 'epoch': 10.99}
{'loss': 0.2475, 'grad_norm': 1.401237964630127, 'learning_rate': 0.0028021972096785065, 'epoch': 10.99}
{'loss': 0.2431, 'grad_norm': 1.2394894361495972, 'learning_rate': 0.002801523218979578, 'epoch': 11.0}
{'loss': 0.2376, 'grad_norm': 1.2396284341812134, 'learning_rate': 0.00280084922828065, 'epoch': 11.0}
{'loss': 0.2314, 'grad_norm': 1.5718910694122314, 'learning_rate': 0.0028001752375817215, 'epoch': 11.0}
{'loss': 0.2435, 'grad_norm': 1.5110950469970703, 'learning_rate': 0.002799501246882793, 'epoch': 11.01}
{'loss': 0.2453, 'grad_norm': 4.941938877105713, 'learning_rate': 0.0027988272561838647, 'epoch': 11.01}
{'loss': 0.2409, 'grad_norm': 1.1930270195007324, 'learning_rate': 0.0027981532654849364, 'epoch': 11.01}
{'loss': 0.2427, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1871189922094345, 'eval_runtime': 115.6515, 'eval_samples_per_second': 128.299, 'eval_steps_per_second': 16.04, 'epoch': 11.02}
{'loss': 0.2173, 'grad_norm': 4.377479553222656, 'learning_rate': 0.002796131293388151, 'epoch': 11.02}
{'loss': 0.2314, 'grad_norm': 0.8295943140983582, 'learning_rate': 0.0027954573026892225, 'epoch': 11.03}
{'loss': 0.2312, 'grad_norm': 1.364842414855957, 'learning_rate': 0.002794783311990294, 'epoch': 11.03}
{'loss': 0.2258, 'grad_norm': 0.6796011924743652, 'learning_rate': 0.002794109321291366, 'epoch': 11.03}
{'loss': 0.2301, 'grad_norm': 1.9560739994049072, 'learning_rate': 0.0027934353305924383, 'epoch': 11.04}
{'loss': 0.209, 'grad_norm': 0.6822243332862854, 'learning_rate': 0.00279276133989351, 'epoch': 11.04}
{'loss': 0.2257, 'grad_norm': 1.0318288803100586, 'learning_rate': 0.002792087349194581, 'epoch': 11.04}
{'loss': 0.2325, 'grad_norm': 0.7857730388641357, 'learning_rate': 0.002791413358495653, 'epoch': 11.05}
{'loss': 0.2302, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1909802407026291, 'eval_runtime': 120.2745, 'eval_samples_per_second': 123.368, 'eval_steps_per_second': 15.423, 'epoch': 11.05}
{'loss': 0.2346, 'grad_norm': 1.0784788131713867, 'learning_rate': 0.0027893913863988678, 'epoch': 11.06}
{'loss': 0.2064, 'grad_norm': 2.0165061950683594, 'learning_rate': 0.0027887173956999394, 'epoch': 11.06}
{'loss': 0.2427, 'grad_norm': 2.677748680114746, 'learning_rate': 0.002788043405001011, 'epoch': 11.06}
{'loss': 0.2499, 'grad_norm': 3.1401805877685547, 'learning_rate': 0.0027873694143020827, 'epoch': 11.07}
{'loss': 0.2436, 'grad_norm': 1.665604591369629, 'learning_rate': 0.0027866954236031543, 'epoch': 11.07}
{'loss': 0.2417, 'grad_norm': 2.5900063514709473, 'learning_rate': 0.002786021432904226, 'epoch': 11.07}
{'loss': 0.2377, 'grad_norm': 1.1959387063980103, 'learning_rate': 0.0027853474422052976, 'epoch': 11.08}
{'loss': 0.2363, 'grad_norm': 1.7567729949951172, 'learning_rate': 0.0027846734515063693, 'epoch': 11.08}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1878284215927124, 'eval_runtime': 119.5904, 'eval_samples_per_second': 124.073, 'eval_steps_per_second': 15.511, 'epoch': 11.09}
{'loss': 0.2252, 'grad_norm': 0.8297015428543091, 'learning_rate': 0.002782651479409584, 'epoch': 11.09}
{'loss': 0.2278, 'grad_norm': 1.8163650035858154, 'learning_rate': 0.002781977488710656, 'epoch': 11.09}
{'loss': 0.2232, 'grad_norm': 1.0473440885543823, 'learning_rate': 0.0027813034980117275, 'epoch': 11.1}
{'loss': 0.2327, 'grad_norm': 0.8385627865791321, 'learning_rate': 0.002780629507312799, 'epoch': 11.1}
{'loss': 0.2223, 'grad_norm': 1.3619860410690308, 'learning_rate': 0.002779955516613871, 'epoch': 11.1}
{'loss': 0.2225, 'grad_norm': 1.3019351959228516, 'learning_rate': 0.0027792815259149424, 'epoch': 11.11}
{'loss': 0.2194, 'grad_norm': 0.9653856754302979, 'learning_rate': 0.002778607535216014, 'epoch': 11.11}
{'loss': 0.2413, 'grad_norm': 1.6405904293060303, 'learning_rate': 0.0027779335445170857, 'epoch': 11.11}
{'loss': 0.2148

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1829184591770172, 'eval_runtime': 115.8896, 'eval_samples_per_second': 128.036, 'eval_steps_per_second': 16.007, 'epoch': 11.12}
{'loss': 0.2341, 'grad_norm': 2.6280956268310547, 'learning_rate': 0.0027759115724203007, 'epoch': 11.12}
{'loss': 0.2313, 'grad_norm': 0.872620165348053, 'learning_rate': 0.002775237581721372, 'epoch': 11.13}
{'loss': 0.2217, 'grad_norm': 1.5991629362106323, 'learning_rate': 0.0027745635910224435, 'epoch': 11.13}
{'loss': 0.2348, 'grad_norm': 3.369201421737671, 'learning_rate': 0.002773889600323515, 'epoch': 11.13}
{'loss': 0.2408, 'grad_norm': 0.838153600692749, 'learning_rate': 0.002773215609624587, 'epoch': 11.14}
{'loss': 0.2237, 'grad_norm': 0.4692055284976959, 'learning_rate': 0.0027725416189256593, 'epoch': 11.14}
{'loss': 0.2372, 'grad_norm': 1.1835213899612427, 'learning_rate': 0.002771867628226731, 'epoch': 11.14}
{'loss': 0.2362, 'grad_norm': 0.9355441927909851, 'learning_rate': 0.0027711936375278026, 'epoch': 11.15}
{'loss': 0.231

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18674878776073456, 'eval_runtime': 115.0934, 'eval_samples_per_second': 128.921, 'eval_steps_per_second': 16.117, 'epoch': 11.15}
{'loss': 0.2456, 'grad_norm': 11.090271949768066, 'learning_rate': 0.002769171665431017, 'epoch': 11.16}
{'loss': 0.2338, 'grad_norm': 0.8176330327987671, 'learning_rate': 0.0027684976747320887, 'epoch': 11.16}
{'loss': 0.2413, 'grad_norm': 1.492053747177124, 'learning_rate': 0.0027678236840331604, 'epoch': 11.16}
{'loss': 0.2486, 'grad_norm': 1.6517497301101685, 'learning_rate': 0.0027671631731482106, 'epoch': 11.17}
{'loss': 0.2618, 'grad_norm': 1.8461425304412842, 'learning_rate': 0.0027664891824492823, 'epoch': 11.17}
{'loss': 0.2484, 'grad_norm': 2.6383883953094482, 'learning_rate': 0.002765815191750354, 'epoch': 11.17}
{'loss': 0.244, 'grad_norm': 1.4304813146591187, 'learning_rate': 0.0027651412010514255, 'epoch': 11.18}
{'loss': 0.2271, 'grad_norm': 6.440594673156738, 'learning_rate': 0.002764467210352497, 'epoch': 11.18}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1868869811296463, 'eval_runtime': 120.3905, 'eval_samples_per_second': 123.249, 'eval_steps_per_second': 15.408, 'epoch': 11.19}
{'loss': 0.2524, 'grad_norm': 0.9974067211151123, 'learning_rate': 0.002762445238255712, 'epoch': 11.19}
{'loss': 0.242, 'grad_norm': 2.7916107177734375, 'learning_rate': 0.0027617712475567833, 'epoch': 11.19}
{'loss': 0.231, 'grad_norm': 1.7311426401138306, 'learning_rate': 0.002761097256857855, 'epoch': 11.2}
{'loss': 0.2382, 'grad_norm': 0.7397637367248535, 'learning_rate': 0.0027604232661589266, 'epoch': 11.2}
{'loss': 0.2363, 'grad_norm': 1.417242169380188, 'learning_rate': 0.002759749275459999, 'epoch': 11.21}
{'loss': 0.2375, 'grad_norm': 2.3394901752471924, 'learning_rate': 0.0027590752847610708, 'epoch': 11.21}
{'loss': 0.2444, 'grad_norm': 0.9560505747795105, 'learning_rate': 0.0027584012940621424, 'epoch': 11.21}
{'loss': 0.2525, 'grad_norm': 19.142839431762695, 'learning_rate': 0.002757727303363214, 'epoch': 11.22}
{'loss': 0.2348,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19190891087055206, 'eval_runtime': 119.6904, 'eval_samples_per_second': 123.97, 'eval_steps_per_second': 15.498, 'epoch': 11.22}
{'loss': 0.2492, 'grad_norm': 2.1226449012756348, 'learning_rate': 0.0027557053312664286, 'epoch': 11.23}
{'loss': 0.2418, 'grad_norm': 1.4321545362472534, 'learning_rate': 0.0027550313405675, 'epoch': 11.23}
{'loss': 0.2379, 'grad_norm': 1.3529564142227173, 'learning_rate': 0.002754357349868572, 'epoch': 11.23}
{'loss': 0.2446, 'grad_norm': 0.607749879360199, 'learning_rate': 0.0027536833591696435, 'epoch': 11.24}
{'loss': 0.2471, 'grad_norm': 1.6530646085739136, 'learning_rate': 0.002753009368470715, 'epoch': 11.24}
{'loss': 0.2507, 'grad_norm': 5.3582329750061035, 'learning_rate': 0.002752335377771787, 'epoch': 11.24}
{'loss': 0.2278, 'grad_norm': 1.7747209072113037, 'learning_rate': 0.0027516613870728584, 'epoch': 11.25}
{'loss': 0.2344, 'grad_norm': 1.608941674232483, 'learning_rate': 0.00275098739637393, 'epoch': 11.25}
{'loss': 0.2161, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1865265667438507, 'eval_runtime': 117.7018, 'eval_samples_per_second': 126.064, 'eval_steps_per_second': 15.76, 'epoch': 11.26}
{'loss': 0.2328, 'grad_norm': 2.113582134246826, 'learning_rate': 0.002748965424277145, 'epoch': 11.26}
{'loss': 0.2306, 'grad_norm': 2.499882698059082, 'learning_rate': 0.0027482914335782167, 'epoch': 11.26}
{'loss': 0.2318, 'grad_norm': 0.6321253180503845, 'learning_rate': 0.0027476174428792883, 'epoch': 11.27}
{'loss': 0.2132, 'grad_norm': 1.403798222541809, 'learning_rate': 0.00274694345218036, 'epoch': 11.27}
{'loss': 0.2214, 'grad_norm': 1.199869990348816, 'learning_rate': 0.0027462694614814316, 'epoch': 11.27}
{'loss': 0.2682, 'grad_norm': 1.1890753507614136, 'learning_rate': 0.0027455954707825032, 'epoch': 11.28}
{'loss': 0.2482, 'grad_norm': 3.5244638919830322, 'learning_rate': 0.002744921480083575, 'epoch': 11.28}
{'loss': 0.2429, 'grad_norm': 1.1114846467971802, 'learning_rate': 0.0027442474893846465, 'epoch': 11.28}
{'loss': 0.24, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18544737994670868, 'eval_runtime': 123.0967, 'eval_samples_per_second': 120.539, 'eval_steps_per_second': 15.069, 'epoch': 11.29}
{'loss': 0.2531, 'grad_norm': 1.6049365997314453, 'learning_rate': 0.0027422255172878615, 'epoch': 11.29}
{'loss': 0.2432, 'grad_norm': 1.5614655017852783, 'learning_rate': 0.002741551526588933, 'epoch': 11.3}
{'loss': 0.2431, 'grad_norm': 2.5989878177642822, 'learning_rate': 0.0027408775358900048, 'epoch': 11.3}
{'loss': 0.2398, 'grad_norm': 1.261003851890564, 'learning_rate': 0.002740217025005055, 'epoch': 11.3}
{'loss': 0.2468, 'grad_norm': 0.992539644241333, 'learning_rate': 0.0027395430343061266, 'epoch': 11.31}
{'loss': 0.2388, 'grad_norm': 2.01977801322937, 'learning_rate': 0.0027388690436071983, 'epoch': 11.31}
{'loss': 0.2263, 'grad_norm': 3.2961513996124268, 'learning_rate': 0.00273819505290827, 'epoch': 11.31}
{'loss': 0.2274, 'grad_norm': 1.5633337497711182, 'learning_rate': 0.0027375210622093415, 'epoch': 11.32}
{'loss': 0.2365, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19497233629226685, 'eval_runtime': 125.2971, 'eval_samples_per_second': 118.423, 'eval_steps_per_second': 14.805, 'epoch': 11.32}
{'loss': 0.2392, 'grad_norm': 1.8634686470031738, 'learning_rate': 0.002735512569926535, 'epoch': 11.33}
{'loss': 0.2245, 'grad_norm': 1.5226054191589355, 'learning_rate': 0.0027348385792276063, 'epoch': 11.33}
{'loss': 0.2413, 'grad_norm': 0.4933198094367981, 'learning_rate': 0.002734164588528678, 'epoch': 11.33}
{'loss': 0.2326, 'grad_norm': 27.669206619262695, 'learning_rate': 0.0027334905978297496, 'epoch': 11.34}
{'loss': 0.2248, 'grad_norm': 0.8379998803138733, 'learning_rate': 0.002732816607130822, 'epoch': 11.34}
{'loss': 0.2331, 'grad_norm': 2.7601754665374756, 'learning_rate': 0.0027321426164318937, 'epoch': 11.34}
{'loss': 0.2536, 'grad_norm': 0.8213338851928711, 'learning_rate': 0.0027314686257329654, 'epoch': 11.35}
{'loss': 0.2442, 'grad_norm': 1.191893219947815, 'learning_rate': 0.002730794635034037, 'epoch': 11.35}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18974344432353973, 'eval_runtime': 123.2484, 'eval_samples_per_second': 120.391, 'eval_steps_per_second': 15.051, 'epoch': 11.36}
{'loss': 0.2388, 'grad_norm': 3.6842052936553955, 'learning_rate': 0.0027287726629372515, 'epoch': 11.36}
{'loss': 0.2601, 'grad_norm': 1.631545901298523, 'learning_rate': 0.002728098672238323, 'epoch': 11.36}
{'loss': 0.2425, 'grad_norm': 1.4936703443527222, 'learning_rate': 0.002727424681539395, 'epoch': 11.37}
{'loss': 0.2221, 'grad_norm': 0.6861472129821777, 'learning_rate': 0.0027267506908404664, 'epoch': 11.37}
{'loss': 0.2293, 'grad_norm': 3.3114068508148193, 'learning_rate': 0.002726076700141538, 'epoch': 11.37}
{'loss': 0.254, 'grad_norm': 3.5033321380615234, 'learning_rate': 0.0027254027094426097, 'epoch': 11.38}
{'loss': 0.2278, 'grad_norm': 1.5512313842773438, 'learning_rate': 0.0027247287187436814, 'epoch': 11.38}
{'loss': 0.251, 'grad_norm': 1.1519696712493896, 'learning_rate': 0.002724054728044753, 'epoch': 11.38}
{'loss': 0.25

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18802757561206818, 'eval_runtime': 123.9645, 'eval_samples_per_second': 119.696, 'eval_steps_per_second': 14.964, 'epoch': 11.39}
{'loss': 0.2366, 'grad_norm': 1.2898633480072021, 'learning_rate': 0.002722032755947968, 'epoch': 11.39}
{'loss': 0.2607, 'grad_norm': 1.6682806015014648, 'learning_rate': 0.0027213587652490396, 'epoch': 11.4}
{'loss': 0.2422, 'grad_norm': 1.1076706647872925, 'learning_rate': 0.0027206847745501112, 'epoch': 11.4}
{'loss': 0.2368, 'grad_norm': 1.7588132619857788, 'learning_rate': 0.002720010783851183, 'epoch': 11.4}
{'loss': 0.2316, 'grad_norm': 0.8613729476928711, 'learning_rate': 0.0027193367931522545, 'epoch': 11.41}
{'loss': 0.2248, 'grad_norm': 10.0059232711792, 'learning_rate': 0.002718662802453326, 'epoch': 11.41}
{'loss': 0.2327, 'grad_norm': 0.8031389713287354, 'learning_rate': 0.002717988811754398, 'epoch': 11.41}
{'loss': 0.2257, 'grad_norm': 0.5382717251777649, 'learning_rate': 0.0027173148210554695, 'epoch': 11.42}
{'loss': 0.2684

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19597531855106354, 'eval_runtime': 126.111, 'eval_samples_per_second': 117.658, 'eval_steps_per_second': 14.709, 'epoch': 11.42}
{'loss': 0.2478, 'grad_norm': 1.706581473350525, 'learning_rate': 0.0027152928489586844, 'epoch': 11.43}
{'loss': 0.2263, 'grad_norm': 0.849953830242157, 'learning_rate': 0.002714618858259756, 'epoch': 11.43}
{'loss': 0.2258, 'grad_norm': 1.6831196546554565, 'learning_rate': 0.0027139448675608277, 'epoch': 11.43}
{'loss': 0.2292, 'grad_norm': 1.1567519903182983, 'learning_rate': 0.002713270876861899, 'epoch': 11.44}
{'loss': 0.2431, 'grad_norm': 1.1275951862335205, 'learning_rate': 0.0027125968861629705, 'epoch': 11.44}
{'loss': 0.2583, 'grad_norm': 0.9314549565315247, 'learning_rate': 0.002711922895464043, 'epoch': 11.44}
{'loss': 0.2465, 'grad_norm': 1.2355446815490723, 'learning_rate': 0.0027112489047651147, 'epoch': 11.45}
{'loss': 0.2429, 'grad_norm': 0.8945373892784119, 'learning_rate': 0.0027105749140661863, 'epoch': 11.45}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1876935362815857, 'eval_runtime': 121.7372, 'eval_samples_per_second': 121.886, 'eval_steps_per_second': 15.238, 'epoch': 11.46}
{'loss': 0.2331, 'grad_norm': 3.0079925060272217, 'learning_rate': 0.002708552941969401, 'epoch': 11.46}
{'loss': 0.2353, 'grad_norm': 2.4831771850585938, 'learning_rate': 0.0027078789512704725, 'epoch': 11.46}
{'loss': 0.2456, 'grad_norm': 1.1552714109420776, 'learning_rate': 0.002707204960571544, 'epoch': 11.47}
{'loss': 0.2462, 'grad_norm': 1.145127534866333, 'learning_rate': 0.0027065309698726158, 'epoch': 11.47}
{'loss': 0.2332, 'grad_norm': 0.9872623085975647, 'learning_rate': 0.0027058569791736874, 'epoch': 11.47}
{'loss': 0.2275, 'grad_norm': 0.795560359954834, 'learning_rate': 0.002705182988474759, 'epoch': 11.48}
{'loss': 0.2429, 'grad_norm': 0.7322848439216614, 'learning_rate': 0.0027045089977758307, 'epoch': 11.48}
{'loss': 0.2408, 'grad_norm': 9.132538795471191, 'learning_rate': 0.0027038350070769024, 'epoch': 11.48}
{'loss': 0.23

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18742148578166962, 'eval_runtime': 117.1163, 'eval_samples_per_second': 126.695, 'eval_steps_per_second': 15.839, 'epoch': 11.49}
{'loss': 0.2575, 'grad_norm': 1.441652774810791, 'learning_rate': 0.0027018130349801173, 'epoch': 11.49}
{'loss': 0.2253, 'grad_norm': 0.9758480191230774, 'learning_rate': 0.002701139044281189, 'epoch': 11.5}
{'loss': 0.2223, 'grad_norm': 0.531055212020874, 'learning_rate': 0.0027004650535822606, 'epoch': 11.5}
{'loss': 0.232, 'grad_norm': 2.057438850402832, 'learning_rate': 0.0026997910628833322, 'epoch': 11.51}
{'loss': 0.2445, 'grad_norm': 1.570893406867981, 'learning_rate': 0.002699117072184404, 'epoch': 11.51}
{'loss': 0.257, 'grad_norm': 0.818753182888031, 'learning_rate': 0.0026984430814854755, 'epoch': 11.51}
{'loss': 0.2453, 'grad_norm': 3.1037542819976807, 'learning_rate': 0.002697769090786547, 'epoch': 11.52}
{'loss': 0.2387, 'grad_norm': 1.483412265777588, 'learning_rate': 0.002697095100087619, 'epoch': 11.52}
{'loss': 0.2441, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.20131343603134155, 'eval_runtime': 120.0099, 'eval_samples_per_second': 123.64, 'eval_steps_per_second': 15.457, 'epoch': 11.53}
{'loss': 0.2327, 'grad_norm': 0.9769986271858215, 'learning_rate': 0.0026950731279908337, 'epoch': 11.53}
{'loss': 0.2444, 'grad_norm': 8.4127197265625, 'learning_rate': 0.0026943991372919054, 'epoch': 11.53}
{'loss': 0.2434, 'grad_norm': 1.0822091102600098, 'learning_rate': 0.002693725146592977, 'epoch': 11.54}
{'loss': 0.2354, 'grad_norm': 1.37119460105896, 'learning_rate': 0.0026930511558940487, 'epoch': 11.54}
{'loss': 0.2559, 'grad_norm': 1.3939553499221802, 'learning_rate': 0.0026923771651951203, 'epoch': 11.54}
{'loss': 0.2385, 'grad_norm': 1.418782353401184, 'learning_rate': 0.0026917031744961915, 'epoch': 11.55}
{'loss': 0.2484, 'grad_norm': 0.8447251915931702, 'learning_rate': 0.002691029183797264, 'epoch': 11.55}
{'loss': 0.2389, 'grad_norm': 3.9465301036834717, 'learning_rate': 0.0026903551930983357, 'epoch': 11.55}
{'loss': 0.2445

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.20912110805511475, 'eval_runtime': 121.5898, 'eval_samples_per_second': 122.033, 'eval_steps_per_second': 15.256, 'epoch': 11.56}
{'loss': 0.2749, 'grad_norm': 2.872542381286621, 'learning_rate': 0.0026883332210015506, 'epoch': 11.56}
{'loss': 0.2424, 'grad_norm': 0.560195803642273, 'learning_rate': 0.0026876592303026223, 'epoch': 11.57}
{'loss': 0.2574, 'grad_norm': 1.8119735717773438, 'learning_rate': 0.0026869852396036935, 'epoch': 11.57}
{'loss': 0.2465, 'grad_norm': 0.8714796900749207, 'learning_rate': 0.002686311248904765, 'epoch': 11.57}
{'loss': 0.2426, 'grad_norm': 1.7742054462432861, 'learning_rate': 0.0026856372582058368, 'epoch': 11.58}
{'loss': 0.2465, 'grad_norm': 1.4670133590698242, 'learning_rate': 0.0026849632675069084, 'epoch': 11.58}
{'loss': 0.2322, 'grad_norm': 0.8273276686668396, 'learning_rate': 0.00268428927680798, 'epoch': 11.58}
{'loss': 0.2367, 'grad_norm': 1.1750775575637817, 'learning_rate': 0.0026836152861090517, 'epoch': 11.59}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19339342415332794, 'eval_runtime': 116.3157, 'eval_samples_per_second': 127.567, 'eval_steps_per_second': 15.948, 'epoch': 11.59}
{'loss': 0.2631, 'grad_norm': 2.637822151184082, 'learning_rate': 0.002681606793826245, 'epoch': 11.6}
{'loss': 0.2726, 'grad_norm': 3.107269763946533, 'learning_rate': 0.002680932803127317, 'epoch': 11.6}
{'loss': 0.2693, 'grad_norm': 6.023456573486328, 'learning_rate': 0.0026802588124283885, 'epoch': 11.6}
{'loss': 0.263, 'grad_norm': 2.6948564052581787, 'learning_rate': 0.00267958482172946, 'epoch': 11.61}
{'loss': 0.2702, 'grad_norm': 2.4022347927093506, 'learning_rate': 0.0026789108310305318, 'epoch': 11.61}
{'loss': 0.232, 'grad_norm': 0.740725576877594, 'learning_rate': 0.002678236840331604, 'epoch': 11.61}
{'loss': 0.2448, 'grad_norm': 3.0811805725097656, 'learning_rate': 0.0026775628496326755, 'epoch': 11.62}
{'loss': 0.2433, 'grad_norm': 0.7520292401313782, 'learning_rate': 0.002676888858933747, 'epoch': 11.62}
{'loss': 0.2319, 'gra

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18885716795921326, 'eval_runtime': 118.0873, 'eval_samples_per_second': 125.653, 'eval_steps_per_second': 15.709, 'epoch': 11.63}
{'loss': 0.2405, 'grad_norm': 11.76760482788086, 'learning_rate': 0.002674866886836962, 'epoch': 11.63}
{'loss': 0.2544, 'grad_norm': 2.435495376586914, 'learning_rate': 0.0026741928961380337, 'epoch': 11.63}
{'loss': 0.2468, 'grad_norm': 0.5985289812088013, 'learning_rate': 0.002673518905439105, 'epoch': 11.64}
{'loss': 0.2463, 'grad_norm': 1.3855540752410889, 'learning_rate': 0.0026728449147401766, 'epoch': 11.64}
{'loss': 0.2279, 'grad_norm': 1.8748170137405396, 'learning_rate': 0.0026721709240412482, 'epoch': 11.64}
{'loss': 0.2587, 'grad_norm': 1.3357820510864258, 'learning_rate': 0.00267149693334232, 'epoch': 11.65}
{'loss': 0.246, 'grad_norm': 1.7288974523544312, 'learning_rate': 0.0026708229426433915, 'epoch': 11.65}
{'loss': 0.2409, 'grad_norm': 0.7311052083969116, 'learning_rate': 0.002670148951944463, 'epoch': 11.65}
{'loss': 0.244

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1909068524837494, 'eval_runtime': 119.2843, 'eval_samples_per_second': 124.392, 'eval_steps_per_second': 15.551, 'epoch': 11.66}
{'loss': 0.2281, 'grad_norm': 0.7495649456977844, 'learning_rate': 0.002668126979847678, 'epoch': 11.66}
{'loss': 0.2431, 'grad_norm': 1.3861172199249268, 'learning_rate': 0.0026674529891487497, 'epoch': 11.67}
{'loss': 0.2524, 'grad_norm': 1.263973593711853, 'learning_rate': 0.0026667789984498214, 'epoch': 11.67}
{'loss': 0.2339, 'grad_norm': 1.044858694076538, 'learning_rate': 0.002666105007750893, 'epoch': 11.67}
{'loss': 0.2395, 'grad_norm': 2.2179524898529053, 'learning_rate': 0.0026654310170519647, 'epoch': 11.68}
{'loss': 0.2336, 'grad_norm': 3.7497544288635254, 'learning_rate': 0.0026647570263530363, 'epoch': 11.68}
{'loss': 0.2298, 'grad_norm': 1.882187008857727, 'learning_rate': 0.002664083035654108, 'epoch': 11.68}
{'loss': 0.2415, 'grad_norm': 0.8025297522544861, 'learning_rate': 0.0026634090449551796, 'epoch': 11.69}
{'loss': 0.22

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1864778995513916, 'eval_runtime': 115.9701, 'eval_samples_per_second': 127.947, 'eval_steps_per_second': 15.995, 'epoch': 11.69}
{'loss': 0.231, 'grad_norm': 1.1674119234085083, 'learning_rate': 0.0026613870728583945, 'epoch': 11.7}
{'loss': 0.2391, 'grad_norm': 1.1687724590301514, 'learning_rate': 0.002660713082159466, 'epoch': 11.7}
{'loss': 0.2179, 'grad_norm': 0.8122562170028687, 'learning_rate': 0.002660039091460538, 'epoch': 11.7}
{'loss': 0.2281, 'grad_norm': 2.3609344959259033, 'learning_rate': 0.0026593651007616095, 'epoch': 11.71}
{'loss': 0.2327, 'grad_norm': 1.6515995264053345, 'learning_rate': 0.002658691110062681, 'epoch': 11.71}
{'loss': 0.2315, 'grad_norm': 0.6483649015426636, 'learning_rate': 0.0026580171193637528, 'epoch': 11.71}
{'loss': 0.2508, 'grad_norm': 1.148851990699768, 'learning_rate': 0.002657343128664825, 'epoch': 11.72}
{'loss': 0.2563, 'grad_norm': 2.3433406352996826, 'learning_rate': 0.0026566691379658965, 'epoch': 11.72}
{'loss': 0.2412,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19180002808570862, 'eval_runtime': 118.0007, 'eval_samples_per_second': 125.745, 'eval_steps_per_second': 15.72, 'epoch': 11.73}
{'loss': 0.2454, 'grad_norm': 1.1365152597427368, 'learning_rate': 0.0026546471658691114, 'epoch': 11.73}
{'loss': 0.2351, 'grad_norm': 0.6751976609230042, 'learning_rate': 0.002653973175170183, 'epoch': 11.73}
{'loss': 0.2441, 'grad_norm': 1.2111644744873047, 'learning_rate': 0.0026532991844712547, 'epoch': 11.74}
{'loss': 0.2375, 'grad_norm': 0.8019168972969055, 'learning_rate': 0.0026526251937723263, 'epoch': 11.74}
{'loss': 0.2692, 'grad_norm': 1.1548268795013428, 'learning_rate': 0.002651964682887376, 'epoch': 11.74}
{'loss': 0.2898, 'grad_norm': 16.145065307617188, 'learning_rate': 0.0026512906921884478, 'epoch': 11.75}
{'loss': 0.2848, 'grad_norm': 2.5929763317108154, 'learning_rate': 0.0026506167014895194, 'epoch': 11.75}
{'loss': 0.2573, 'grad_norm': 2.6796188354492188, 'learning_rate': 0.002649942710790591, 'epoch': 11.75}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.195242241024971, 'eval_runtime': 116.888, 'eval_samples_per_second': 126.942, 'eval_steps_per_second': 15.87, 'epoch': 11.76}
{'loss': 0.2518, 'grad_norm': 1.237598180770874, 'learning_rate': 0.002647920738693806, 'epoch': 11.76}
{'loss': 0.2435, 'grad_norm': 3.0611889362335205, 'learning_rate': 0.0026472467479948776, 'epoch': 11.77}
{'loss': 0.2412, 'grad_norm': 0.9691588878631592, 'learning_rate': 0.0026465727572959493, 'epoch': 11.77}
{'loss': 0.2398, 'grad_norm': 2.502377986907959, 'learning_rate': 0.002645898766597021, 'epoch': 11.77}
{'loss': 0.2298, 'grad_norm': 1.8071002960205078, 'learning_rate': 0.0026452247758980926, 'epoch': 11.78}
{'loss': 0.2464, 'grad_norm': 5.178555965423584, 'learning_rate': 0.0026445507851991642, 'epoch': 11.78}
{'loss': 0.2409, 'grad_norm': 2.147418737411499, 'learning_rate': 0.0026438767945002363, 'epoch': 11.78}
{'loss': 0.2322, 'grad_norm': 2.42889666557312, 'learning_rate': 0.002643202803801308, 'epoch': 11.79}
{'loss': 0.2358, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19422559440135956, 'eval_runtime': 113.5968, 'eval_samples_per_second': 130.62, 'eval_steps_per_second': 16.33, 'epoch': 11.79}
{'loss': 0.2247, 'grad_norm': 1.8637181520462036, 'learning_rate': 0.002641180831704523, 'epoch': 11.8}
{'loss': 0.2701, 'grad_norm': 1.91107976436615, 'learning_rate': 0.0026405068410055945, 'epoch': 11.8}
{'loss': 0.2501, 'grad_norm': 1.1576592922210693, 'learning_rate': 0.002639832850306666, 'epoch': 11.8}
{'loss': 0.2392, 'grad_norm': 0.6717824935913086, 'learning_rate': 0.002639158859607738, 'epoch': 11.81}
{'loss': 0.2288, 'grad_norm': 1.4602636098861694, 'learning_rate': 0.002638484868908809, 'epoch': 11.81}
{'loss': 0.2397, 'grad_norm': 1.3737661838531494, 'learning_rate': 0.0026378108782098807, 'epoch': 11.82}
{'loss': 0.2391, 'grad_norm': 2.6425230503082275, 'learning_rate': 0.0026371368875109523, 'epoch': 11.82}
{'loss': 0.2537, 'grad_norm': 1.181017279624939, 'learning_rate': 0.002636462896812024, 'epoch': 11.82}
{'loss': 0.2324, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1916343718767166, 'eval_runtime': 118.1378, 'eval_samples_per_second': 125.599, 'eval_steps_per_second': 15.702, 'epoch': 11.83}
{'loss': 0.2443, 'grad_norm': 0.49377408623695374, 'learning_rate': 0.002634440924715239, 'epoch': 11.83}
{'loss': 0.2258, 'grad_norm': 6.281994819641113, 'learning_rate': 0.0026337669340163105, 'epoch': 11.84}
{'loss': 0.2358, 'grad_norm': 2.1021318435668945, 'learning_rate': 0.002633092943317382, 'epoch': 11.84}
{'loss': 0.2474, 'grad_norm': 1.5396307706832886, 'learning_rate': 0.002632418952618454, 'epoch': 11.84}
{'loss': 0.2626, 'grad_norm': 1.378808856010437, 'learning_rate': 0.0026317449619195255, 'epoch': 11.85}
{'loss': 0.251, 'grad_norm': 3.6809327602386475, 'learning_rate': 0.002631070971220597, 'epoch': 11.85}
{'loss': 0.2662, 'grad_norm': 1.6863064765930176, 'learning_rate': 0.0026303969805216688, 'epoch': 11.85}
{'loss': 0.2387, 'grad_norm': 3.0050058364868164, 'learning_rate': 0.0026297229898227404, 'epoch': 11.86}
{'loss': 0.25

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19264182448387146, 'eval_runtime': 118.3339, 'eval_samples_per_second': 125.391, 'eval_steps_per_second': 15.676, 'epoch': 11.86}
{'loss': 0.2401, 'grad_norm': 1.0100573301315308, 'learning_rate': 0.0026277144975399343, 'epoch': 11.87}
{'loss': 0.2355, 'grad_norm': 2.0814621448516846, 'learning_rate': 0.002627040506841006, 'epoch': 11.87}
{'loss': 0.2449, 'grad_norm': 2.1795899868011475, 'learning_rate': 0.0026263665161420776, 'epoch': 11.87}
{'loss': 0.2706, 'grad_norm': 1.2934927940368652, 'learning_rate': 0.0026256925254431493, 'epoch': 11.88}
{'loss': 0.2334, 'grad_norm': 1.652735710144043, 'learning_rate': 0.0026250185347442205, 'epoch': 11.88}
{'loss': 0.2642, 'grad_norm': 0.8318471908569336, 'learning_rate': 0.002624344544045292, 'epoch': 11.88}
{'loss': 0.2512, 'grad_norm': 2.486694574356079, 'learning_rate': 0.0026236705533463638, 'epoch': 11.89}
{'loss': 0.2641, 'grad_norm': 3.0346779823303223, 'learning_rate': 0.0026229965626474354, 'epoch': 11.89}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19724424183368683, 'eval_runtime': 117.9241, 'eval_samples_per_second': 125.827, 'eval_steps_per_second': 15.73, 'epoch': 11.9}
{'loss': 0.245, 'grad_norm': 3.8683149814605713, 'learning_rate': 0.0026209745905506504, 'epoch': 11.9}
{'loss': 0.2399, 'grad_norm': 1.1311657428741455, 'learning_rate': 0.002620300599851722, 'epoch': 11.9}
{'loss': 0.2511, 'grad_norm': 0.6107925176620483, 'learning_rate': 0.0026196266091527936, 'epoch': 11.91}
{'loss': 0.2389, 'grad_norm': 3.9896676540374756, 'learning_rate': 0.0026189526184538653, 'epoch': 11.91}
{'loss': 0.2341, 'grad_norm': 1.1090832948684692, 'learning_rate': 0.002618278627754937, 'epoch': 11.91}
{'loss': 0.2446, 'grad_norm': 3.13128924369812, 'learning_rate': 0.0026176046370560086, 'epoch': 11.92}
{'loss': 0.2406, 'grad_norm': 1.5126948356628418, 'learning_rate': 0.0026169306463570802, 'epoch': 11.92}
{'loss': 0.242, 'grad_norm': 1.1934484243392944, 'learning_rate': 0.002616256655658152, 'epoch': 11.92}
{'loss': 0.2574, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1948188841342926, 'eval_runtime': 115.4605, 'eval_samples_per_second': 128.512, 'eval_steps_per_second': 16.066, 'epoch': 11.93}
{'loss': 0.2526, 'grad_norm': 1.8293073177337646, 'learning_rate': 0.002614234683561367, 'epoch': 11.93}
{'loss': 0.2318, 'grad_norm': 3.7714948654174805, 'learning_rate': 0.0026135606928624384, 'epoch': 11.94}
{'loss': 0.2302, 'grad_norm': 2.9588961601257324, 'learning_rate': 0.00261288670216351, 'epoch': 11.94}
{'loss': 0.2605, 'grad_norm': 3.297941207885742, 'learning_rate': 0.0026122127114645817, 'epoch': 11.94}
{'loss': 0.2331, 'grad_norm': 1.6865506172180176, 'learning_rate': 0.0026115387207656534, 'epoch': 11.95}
{'loss': 0.2552, 'grad_norm': 40.66938400268555, 'learning_rate': 0.002610864730066725, 'epoch': 11.95}
{'loss': 0.2615, 'grad_norm': 2.533095598220825, 'learning_rate': 0.002610190739367797, 'epoch': 11.95}
{'loss': 0.2583, 'grad_norm': 1.369895339012146, 'learning_rate': 0.0026095167486688687, 'epoch': 11.96}
{'loss': 0.2517,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19259953498840332, 'eval_runtime': 118.8102, 'eval_samples_per_second': 124.888, 'eval_steps_per_second': 15.613, 'epoch': 11.96}
{'loss': 0.2565, 'grad_norm': 2.3847572803497314, 'learning_rate': 0.0026074947765720837, 'epoch': 11.97}
{'loss': 0.2337, 'grad_norm': 0.8300678730010986, 'learning_rate': 0.0026068207858731553, 'epoch': 11.97}
{'loss': 0.2464, 'grad_norm': 0.8187049627304077, 'learning_rate': 0.002606146795174227, 'epoch': 11.97}
{'loss': 0.2293, 'grad_norm': 1.1211072206497192, 'learning_rate': 0.0026054728044752986, 'epoch': 11.98}
{'loss': 0.2461, 'grad_norm': 2.610960006713867, 'learning_rate': 0.0026047988137763703, 'epoch': 11.98}
{'loss': 0.2641, 'grad_norm': 0.8013555407524109, 'learning_rate': 0.002604124823077442, 'epoch': 11.98}
{'loss': 0.2387, 'grad_norm': 5.340555191040039, 'learning_rate': 0.002603450832378513, 'epoch': 11.99}
{'loss': 0.2353, 'grad_norm': 2.310814619064331, 'learning_rate': 0.0026027768416795848, 'epoch': 11.99}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19369807839393616, 'eval_runtime': 118.5782, 'eval_samples_per_second': 125.133, 'eval_steps_per_second': 15.644, 'epoch': 12.0}
{'loss': 0.2427, 'grad_norm': 7.221120834350586, 'learning_rate': 0.0026007548695827997, 'epoch': 12.0}
{'loss': 0.2365, 'grad_norm': 2.3007125854492188, 'learning_rate': 0.0026000808788838713, 'epoch': 12.0}
{'loss': 0.2219, 'grad_norm': 2.166687488555908, 'learning_rate': 0.002599406888184943, 'epoch': 12.01}
{'loss': 0.2258, 'grad_norm': 17.54030990600586, 'learning_rate': 0.0025987328974860146, 'epoch': 12.01}
{'loss': 0.2418, 'grad_norm': 1.108891487121582, 'learning_rate': 0.0025980589067870863, 'epoch': 12.01}
{'loss': 0.223, 'grad_norm': 1.9609639644622803, 'learning_rate': 0.002597384916088158, 'epoch': 12.02}
{'loss': 0.2315, 'grad_norm': 1.0581392049789429, 'learning_rate': 0.0025967109253892296, 'epoch': 12.02}
{'loss': 0.2537, 'grad_norm': 2.8639984130859375, 'learning_rate': 0.002596036934690301, 'epoch': 12.02}
{'loss': 0.2309, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.20195014774799347, 'eval_runtime': 118.0601, 'eval_samples_per_second': 125.682, 'eval_steps_per_second': 15.712, 'epoch': 12.03}
{'loss': 0.2236, 'grad_norm': 0.8244600892066956, 'learning_rate': 0.002594014962593516, 'epoch': 12.03}
{'loss': 0.2517, 'grad_norm': 0.9226170182228088, 'learning_rate': 0.0025933409718945878, 'epoch': 12.04}
{'loss': 0.2239, 'grad_norm': 0.7099222540855408, 'learning_rate': 0.0025926669811956594, 'epoch': 12.04}
{'loss': 0.2281, 'grad_norm': 0.764970064163208, 'learning_rate': 0.002591992990496731, 'epoch': 12.04}
{'loss': 0.2337, 'grad_norm': 0.4937221109867096, 'learning_rate': 0.0025913189997978027, 'epoch': 12.05}
{'loss': 0.2273, 'grad_norm': 1.3089789152145386, 'learning_rate': 0.0025906450090988744, 'epoch': 12.05}
{'loss': 0.2566, 'grad_norm': 0.6417973637580872, 'learning_rate': 0.002589971018399946, 'epoch': 12.05}
{'loss': 0.2342, 'grad_norm': 0.7421697974205017, 'learning_rate': 0.002589297027701018, 'epoch': 12.06}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1967199593782425, 'eval_runtime': 116.338, 'eval_samples_per_second': 127.542, 'eval_steps_per_second': 15.945, 'epoch': 12.06}
{'loss': 0.2212, 'grad_norm': 0.8948003649711609, 'learning_rate': 0.002587275055604233, 'epoch': 12.07}
{'loss': 0.2537, 'grad_norm': 4.9604010581970215, 'learning_rate': 0.0025866010649053047, 'epoch': 12.07}
{'loss': 0.2358, 'grad_norm': 2.119105339050293, 'learning_rate': 0.0025859270742063763, 'epoch': 12.07}
{'loss': 0.2509, 'grad_norm': 1.2332041263580322, 'learning_rate': 0.002585253083507448, 'epoch': 12.08}
{'loss': 0.2438, 'grad_norm': 2.195662260055542, 'learning_rate': 0.0025845790928085196, 'epoch': 12.08}
{'loss': 0.2368, 'grad_norm': 2.7870068550109863, 'learning_rate': 0.0025839051021095912, 'epoch': 12.08}
{'loss': 0.2463, 'grad_norm': 0.9572916626930237, 'learning_rate': 0.002583231111410663, 'epoch': 12.09}
{'loss': 0.2344, 'grad_norm': 4.650426387786865, 'learning_rate': 0.0025825571207117345, 'epoch': 12.09}
{'loss': 0.243

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18355494737625122, 'eval_runtime': 118.5653, 'eval_samples_per_second': 125.146, 'eval_steps_per_second': 15.645, 'epoch': 12.1}
{'loss': 0.2258, 'grad_norm': 1.5538710355758667, 'learning_rate': 0.002580535148614949, 'epoch': 12.1}
{'loss': 0.246, 'grad_norm': 1.4379628896713257, 'learning_rate': 0.0025798611579160207, 'epoch': 12.1}
{'loss': 0.2096, 'grad_norm': 0.9980248808860779, 'learning_rate': 0.0025791871672170923, 'epoch': 12.11}
{'loss': 0.2329, 'grad_norm': 0.31120723485946655, 'learning_rate': 0.002578513176518164, 'epoch': 12.11}
{'loss': 0.2148, 'grad_norm': 0.6076260209083557, 'learning_rate': 0.0025778391858192356, 'epoch': 12.11}
{'loss': 0.2161, 'grad_norm': 3.298588514328003, 'learning_rate': 0.0025771651951203072, 'epoch': 12.12}
{'loss': 0.2295, 'grad_norm': 1.1055201292037964, 'learning_rate': 0.002576491204421379, 'epoch': 12.12}
{'loss': 0.2372, 'grad_norm': 1.4663867950439453, 'learning_rate': 0.0025758172137224505, 'epoch': 12.13}
{'loss': 0.23

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18978117406368256, 'eval_runtime': 114.9854, 'eval_samples_per_second': 129.042, 'eval_steps_per_second': 16.132, 'epoch': 12.13}
{'loss': 0.2166, 'grad_norm': 0.6734588146209717, 'learning_rate': 0.0025737952416256655, 'epoch': 12.14}
{'loss': 0.2308, 'grad_norm': 1.8824598789215088, 'learning_rate': 0.002573121250926737, 'epoch': 12.14}
{'loss': 0.2378, 'grad_norm': 1.3711063861846924, 'learning_rate': 0.0025724472602278088, 'epoch': 12.14}
{'loss': 0.2372, 'grad_norm': 0.3083944320678711, 'learning_rate': 0.0025717732695288804, 'epoch': 12.15}
{'loss': 0.2261, 'grad_norm': 0.4959423840045929, 'learning_rate': 0.002571099278829952, 'epoch': 12.15}
{'loss': 0.2257, 'grad_norm': 1.0344531536102295, 'learning_rate': 0.0025704252881310237, 'epoch': 12.15}
{'loss': 0.2198, 'grad_norm': 1.8008289337158203, 'learning_rate': 0.0025697512974320953, 'epoch': 12.16}
{'loss': 0.2379, 'grad_norm': 4.686614513397217, 'learning_rate': 0.002569077306733167, 'epoch': 12.16}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19486024975776672, 'eval_runtime': 116.5996, 'eval_samples_per_second': 127.256, 'eval_steps_per_second': 15.909, 'epoch': 12.17}
{'loss': 0.2215, 'grad_norm': 2.072087049484253, 'learning_rate': 0.0025670553346363824, 'epoch': 12.17}
{'loss': 0.243, 'grad_norm': 15.898877143859863, 'learning_rate': 0.002566381343937454, 'epoch': 12.17}
{'loss': 0.2354, 'grad_norm': 1.8712594509124756, 'learning_rate': 0.0025657073532385256, 'epoch': 12.18}
{'loss': 0.2365, 'grad_norm': 1.3805971145629883, 'learning_rate': 0.0025650333625395973, 'epoch': 12.18}
{'loss': 0.2394, 'grad_norm': 13.733054161071777, 'learning_rate': 0.002564359371840669, 'epoch': 12.18}
{'loss': 0.2427, 'grad_norm': 1.1739866733551025, 'learning_rate': 0.0025636853811417406, 'epoch': 12.19}
{'loss': 0.2349, 'grad_norm': 2.4250893592834473, 'learning_rate': 0.0025630248702567904, 'epoch': 12.19}
{'loss': 0.2377, 'grad_norm': 12.28669548034668, 'learning_rate': 0.002562350879557862, 'epoch': 12.19}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18794669210910797, 'eval_runtime': 119.9947, 'eval_samples_per_second': 123.655, 'eval_steps_per_second': 15.459, 'epoch': 12.2}
{'loss': 0.2275, 'grad_norm': 2.85573148727417, 'learning_rate': 0.002560328907461077, 'epoch': 12.2}
{'loss': 0.2344, 'grad_norm': 7.8657755851745605, 'learning_rate': 0.0025596549167621486, 'epoch': 12.21}
{'loss': 0.2382, 'grad_norm': 9.768640518188477, 'learning_rate': 0.0025589809260632202, 'epoch': 12.21}
{'loss': 0.2286, 'grad_norm': 1.0466598272323608, 'learning_rate': 0.002558306935364292, 'epoch': 12.21}
{'loss': 0.2401, 'grad_norm': 2.1031742095947266, 'learning_rate': 0.0025576329446653635, 'epoch': 12.22}
{'loss': 0.244, 'grad_norm': 7.898294925689697, 'learning_rate': 0.002556958953966435, 'epoch': 12.22}
{'loss': 0.2528, 'grad_norm': 2.3496968746185303, 'learning_rate': 0.002556284963267507, 'epoch': 12.22}
{'loss': 0.2502, 'grad_norm': 1.6435832977294922, 'learning_rate': 0.0025556109725685784, 'epoch': 12.23}
{'loss': 0.2393, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19731731712818146, 'eval_runtime': 118.5275, 'eval_samples_per_second': 125.186, 'eval_steps_per_second': 15.65, 'epoch': 12.23}
{'loss': 0.2337, 'grad_norm': 10.277436256408691, 'learning_rate': 0.002553589000471794, 'epoch': 12.24}
{'loss': 0.2428, 'grad_norm': 13.386384963989258, 'learning_rate': 0.0025529150097728655, 'epoch': 12.24}
{'loss': 0.2493, 'grad_norm': 1.311133861541748, 'learning_rate': 0.002552241019073937, 'epoch': 12.24}
{'loss': 0.2351, 'grad_norm': 0.40436628460884094, 'learning_rate': 0.0025515670283750088, 'epoch': 12.25}
{'loss': 0.2398, 'grad_norm': 1.0543043613433838, 'learning_rate': 0.0025508930376760804, 'epoch': 12.25}
{'loss': 0.2361, 'grad_norm': 1.4484363794326782, 'learning_rate': 0.002550219046977152, 'epoch': 12.25}
{'loss': 0.235, 'grad_norm': 1.0704801082611084, 'learning_rate': 0.0025495450562782237, 'epoch': 12.26}
{'loss': 0.2468, 'grad_norm': 3.5413174629211426, 'learning_rate': 0.0025488710655792953, 'epoch': 12.26}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18910345435142517, 'eval_runtime': 117.7403, 'eval_samples_per_second': 126.023, 'eval_steps_per_second': 15.755, 'epoch': 12.27}
{'loss': 0.2362, 'grad_norm': 10.39675235748291, 'learning_rate': 0.00254684909348251, 'epoch': 12.27}
{'loss': 0.2236, 'grad_norm': 2.1096343994140625, 'learning_rate': 0.0025461751027835815, 'epoch': 12.27}
{'loss': 0.2334, 'grad_norm': 0.9184442758560181, 'learning_rate': 0.002545501112084653, 'epoch': 12.28}
{'loss': 0.2409, 'grad_norm': 2.8157451152801514, 'learning_rate': 0.0025448271213857248, 'epoch': 12.28}
{'loss': 0.2482, 'grad_norm': 0.4560320973396301, 'learning_rate': 0.0025441531306867964, 'epoch': 12.28}
{'loss': 0.2388, 'grad_norm': 16.080209732055664, 'learning_rate': 0.002543479139987868, 'epoch': 12.29}
{'loss': 0.2356, 'grad_norm': 1.9690133333206177, 'learning_rate': 0.0025428051492889397, 'epoch': 12.29}
{'loss': 0.2426, 'grad_norm': 0.620742917060852, 'learning_rate': 0.0025421311585900113, 'epoch': 12.29}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18753685057163239, 'eval_runtime': 120.1563, 'eval_samples_per_second': 123.489, 'eval_steps_per_second': 15.438, 'epoch': 12.3}
{'loss': 0.2313, 'grad_norm': 1.2438300848007202, 'learning_rate': 0.0025401091864932263, 'epoch': 12.3}
{'loss': 0.2329, 'grad_norm': 0.38927847146987915, 'learning_rate': 0.002539435195794298, 'epoch': 12.31}
{'loss': 0.2352, 'grad_norm': 1.187968373298645, 'learning_rate': 0.0025387612050953696, 'epoch': 12.31}
{'loss': 0.2342, 'grad_norm': 0.8080899715423584, 'learning_rate': 0.002538087214396441, 'epoch': 12.31}
{'loss': 0.2516, 'grad_norm': 1.7123762369155884, 'learning_rate': 0.002537413223697513, 'epoch': 12.32}
{'loss': 0.2591, 'grad_norm': 1.1156443357467651, 'learning_rate': 0.0025367392329985845, 'epoch': 12.32}
{'loss': 0.2583, 'grad_norm': 1.379787564277649, 'learning_rate': 0.002536065242299656, 'epoch': 12.32}
{'loss': 0.2292, 'grad_norm': 2.0415265560150146, 'learning_rate': 0.002535391251600728, 'epoch': 12.33}
{'loss': 0.241

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18440033495426178, 'eval_runtime': 119.8636, 'eval_samples_per_second': 123.791, 'eval_steps_per_second': 15.476, 'epoch': 12.33}
{'loss': 0.2332, 'grad_norm': 3.560790538787842, 'learning_rate': 0.002533369279503943, 'epoch': 12.34}
{'loss': 0.2456, 'grad_norm': 1.0503801107406616, 'learning_rate': 0.002532695288805015, 'epoch': 12.34}
{'loss': 0.2395, 'grad_norm': 4.815451145172119, 'learning_rate': 0.0025320212981060864, 'epoch': 12.34}
{'loss': 0.2569, 'grad_norm': 1.3042064905166626, 'learning_rate': 0.002531347307407158, 'epoch': 12.35}
{'loss': 0.2462, 'grad_norm': 3.769472599029541, 'learning_rate': 0.0025306733167082297, 'epoch': 12.35}
{'loss': 0.2471, 'grad_norm': 2.5872700214385986, 'learning_rate': 0.0025299993260093014, 'epoch': 12.35}
{'loss': 0.2369, 'grad_norm': 1.2694107294082642, 'learning_rate': 0.002529325335310373, 'epoch': 12.36}
{'loss': 0.2345, 'grad_norm': 1.0775046348571777, 'learning_rate': 0.0025286513446114447, 'epoch': 12.36}
{'loss': 0.25

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1846403032541275, 'eval_runtime': 121.463, 'eval_samples_per_second': 122.161, 'eval_steps_per_second': 15.272, 'epoch': 12.37}
{'loss': 0.2289, 'grad_norm': 1.0693793296813965, 'learning_rate': 0.0025266293725146596, 'epoch': 12.37}
{'loss': 0.2194, 'grad_norm': 2.842214584350586, 'learning_rate': 0.0025259553818157312, 'epoch': 12.37}
{'loss': 0.2481, 'grad_norm': 2.007267475128174, 'learning_rate': 0.0025252813911168025, 'epoch': 12.38}
{'loss': 0.2312, 'grad_norm': 1.357208490371704, 'learning_rate': 0.002524607400417874, 'epoch': 12.38}
{'loss': 0.2492, 'grad_norm': 0.923742949962616, 'learning_rate': 0.0025239334097189457, 'epoch': 12.38}
{'loss': 0.2378, 'grad_norm': 1.2887550592422485, 'learning_rate': 0.0025232594190200174, 'epoch': 12.39}
{'loss': 0.2462, 'grad_norm': 1.2506481409072876, 'learning_rate': 0.002522585428321089, 'epoch': 12.39}
{'loss': 0.2246, 'grad_norm': 4.029144287109375, 'learning_rate': 0.0025219114376221607, 'epoch': 12.39}
{'loss': 0.2385

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18607883155345917, 'eval_runtime': 121.8441, 'eval_samples_per_second': 121.779, 'eval_steps_per_second': 15.224, 'epoch': 12.4}
{'loss': 0.237, 'grad_norm': 0.8805263042449951, 'learning_rate': 0.0025199029453393546, 'epoch': 12.4}
{'loss': 0.2453, 'grad_norm': 2.3888516426086426, 'learning_rate': 0.0025192289546404263, 'epoch': 12.41}
{'loss': 0.2283, 'grad_norm': 0.7597665786743164, 'learning_rate': 0.002518554963941498, 'epoch': 12.41}
{'loss': 0.2131, 'grad_norm': 2.649636745452881, 'learning_rate': 0.0025178809732425696, 'epoch': 12.41}
{'loss': 0.2332, 'grad_norm': 0.7154116034507751, 'learning_rate': 0.002517206982543641, 'epoch': 12.42}
{'loss': 0.2407, 'grad_norm': 0.6972815990447998, 'learning_rate': 0.002516532991844713, 'epoch': 12.42}
{'loss': 0.2274, 'grad_norm': 1.9832855463027954, 'learning_rate': 0.0025158590011457845, 'epoch': 12.43}
{'loss': 0.2296, 'grad_norm': 1.1495109796524048, 'learning_rate': 0.002515185010446856, 'epoch': 12.43}
{'loss': 0.249

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.19067534804344177, 'eval_runtime': 121.1335, 'eval_samples_per_second': 122.493, 'eval_steps_per_second': 15.314, 'epoch': 12.44}
{'loss': 0.2158, 'grad_norm': 2.585907459259033, 'learning_rate': 0.002513163038350071, 'epoch': 12.44}
{'loss': 0.2479, 'grad_norm': 1.7370647192001343, 'learning_rate': 0.0025124890476511427, 'epoch': 12.44}
{'loss': 0.2272, 'grad_norm': 0.7369493246078491, 'learning_rate': 0.002511815056952214, 'epoch': 12.45}
{'loss': 0.2254, 'grad_norm': 1.712684988975525, 'learning_rate': 0.0025111410662532856, 'epoch': 12.45}
{'loss': 0.2373, 'grad_norm': 1.3070467710494995, 'learning_rate': 0.002510467075554357, 'epoch': 12.45}
{'loss': 0.2286, 'grad_norm': 4.909420490264893, 'learning_rate': 0.002509793084855429, 'epoch': 12.46}
{'loss': 0.2211, 'grad_norm': 1.1408796310424805, 'learning_rate': 0.0025091190941565005, 'epoch': 12.46}
{'loss': 0.2296, 'grad_norm': 0.9649248123168945, 'learning_rate': 0.002508445103457572, 'epoch': 12.46}
{'loss': 0.223

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18555505573749542, 'eval_runtime': 121.1182, 'eval_samples_per_second': 122.508, 'eval_steps_per_second': 15.316, 'epoch': 12.47}
{'loss': 0.2278, 'grad_norm': 1.2410645484924316, 'learning_rate': 0.002506423131360787, 'epoch': 12.47}
{'loss': 0.2403, 'grad_norm': 0.9422169327735901, 'learning_rate': 0.0025057491406618587, 'epoch': 12.48}
{'loss': 0.2234, 'grad_norm': 0.8389899730682373, 'learning_rate': 0.0025050751499629304, 'epoch': 12.48}
{'loss': 0.2306, 'grad_norm': 1.6481950283050537, 'learning_rate': 0.002504401159264002, 'epoch': 12.48}
{'loss': 0.2269, 'grad_norm': 7.911318302154541, 'learning_rate': 0.0025037271685650737, 'epoch': 12.49}
{'loss': 0.2248, 'grad_norm': 2.5744686126708984, 'learning_rate': 0.0025030531778661453, 'epoch': 12.49}
{'loss': 0.2432, 'grad_norm': 4.910346508026123, 'learning_rate': 0.002502379187167217, 'epoch': 12.49}
{'loss': 0.2278, 'grad_norm': 5.971579551696777, 'learning_rate': 0.0025017051964682886, 'epoch': 12.5}
{'loss': 0.22

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1819724291563034, 'eval_runtime': 121.0956, 'eval_samples_per_second': 122.531, 'eval_steps_per_second': 15.318, 'epoch': 12.5}
{'loss': 0.2118, 'grad_norm': 1.4244858026504517, 'learning_rate': 0.0024996967041854825, 'epoch': 12.51}
{'loss': 0.2107, 'grad_norm': 1.150460958480835, 'learning_rate': 0.002499022713486554, 'epoch': 12.51}
{'loss': 0.2144, 'grad_norm': 1.2408753633499146, 'learning_rate': 0.0024983487227876254, 'epoch': 12.51}
{'loss': 0.2348, 'grad_norm': 0.7160784602165222, 'learning_rate': 0.002497674732088697, 'epoch': 12.52}
{'loss': 0.2576, 'grad_norm': 0.6352437138557434, 'learning_rate': 0.0024970007413897687, 'epoch': 12.52}
{'loss': 0.2204, 'grad_norm': 1.482624888420105, 'learning_rate': 0.0024963267506908403, 'epoch': 12.52}
{'loss': 0.2317, 'grad_norm': 0.9045298099517822, 'learning_rate': 0.002495652759991912, 'epoch': 12.53}
{'loss': 0.2103, 'grad_norm': 1.0234825611114502, 'learning_rate': 0.0024949787692929836, 'epoch': 12.53}
{'loss': 0.22

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1805412322282791, 'eval_runtime': 121.9871, 'eval_samples_per_second': 121.636, 'eval_steps_per_second': 15.207, 'epoch': 12.54}
{'loss': 0.2365, 'grad_norm': 0.8880529403686523, 'learning_rate': 0.0024929567971961985, 'epoch': 12.54}
{'loss': 0.2254, 'grad_norm': 2.5634658336639404, 'learning_rate': 0.0024922828064972706, 'epoch': 12.54}
{'loss': 0.2392, 'grad_norm': 2.1848480701446533, 'learning_rate': 0.0024916088157983423, 'epoch': 12.55}
{'loss': 0.2389, 'grad_norm': 0.8220115303993225, 'learning_rate': 0.002490934825099414, 'epoch': 12.55}
{'loss': 0.2234, 'grad_norm': 1.6270246505737305, 'learning_rate': 0.0024902608344004856, 'epoch': 12.55}
{'loss': 0.2052, 'grad_norm': 2.098562240600586, 'learning_rate': 0.002489586843701557, 'epoch': 12.56}
{'loss': 0.2196, 'grad_norm': 1.046135425567627, 'learning_rate': 0.002488912853002629, 'epoch': 12.56}
{'loss': 0.2227, 'grad_norm': 1.7926397323608398, 'learning_rate': 0.0024882388623037005, 'epoch': 12.56}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18278582394123077, 'eval_runtime': 120.3677, 'eval_samples_per_second': 123.272, 'eval_steps_per_second': 15.411, 'epoch': 12.57}
{'loss': 0.2357, 'grad_norm': 0.951317310333252, 'learning_rate': 0.002486216890206915, 'epoch': 12.57}
{'loss': 0.2422, 'grad_norm': 10.709985733032227, 'learning_rate': 0.0024855428995079866, 'epoch': 12.58}
{'loss': 0.2235, 'grad_norm': 1.5484658479690552, 'learning_rate': 0.0024848689088090583, 'epoch': 12.58}
{'loss': 0.2238, 'grad_norm': 0.8221204280853271, 'learning_rate': 0.0024842083979241085, 'epoch': 12.58}
{'loss': 0.217, 'grad_norm': 0.701421856880188, 'learning_rate': 0.00248353440722518, 'epoch': 12.59}
{'loss': 0.2619, 'grad_norm': 3.7706198692321777, 'learning_rate': 0.002482860416526252, 'epoch': 12.59}
{'loss': 0.2289, 'grad_norm': 0.5490912199020386, 'learning_rate': 0.0024821864258273234, 'epoch': 12.59}
{'loss': 0.2354, 'grad_norm': 1.7592253684997559, 'learning_rate': 0.002481512435128395, 'epoch': 12.6}
{'loss': 0.2379

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1861981451511383, 'eval_runtime': 125.7047, 'eval_samples_per_second': 118.039, 'eval_steps_per_second': 14.757, 'epoch': 12.6}
{'loss': 0.2367, 'grad_norm': 0.4728311002254486, 'learning_rate': 0.00247949046303161, 'epoch': 12.61}
{'loss': 0.2244, 'grad_norm': 1.781641960144043, 'learning_rate': 0.002478816472332682, 'epoch': 12.61}
{'loss': 0.2242, 'grad_norm': 1.6769498586654663, 'learning_rate': 0.0024781424816337537, 'epoch': 12.61}
{'loss': 0.2366, 'grad_norm': 1.6477636098861694, 'learning_rate': 0.0024774684909348254, 'epoch': 12.62}
{'loss': 0.2135, 'grad_norm': 1.1855539083480835, 'learning_rate': 0.002476794500235897, 'epoch': 12.62}
{'loss': 0.241, 'grad_norm': 0.7839359045028687, 'learning_rate': 0.0024761205095369687, 'epoch': 12.62}
{'loss': 0.238, 'grad_norm': 2.5836710929870605, 'learning_rate': 0.0024754465188380403, 'epoch': 12.63}
{'loss': 0.2328, 'grad_norm': 1.2436378002166748, 'learning_rate': 0.002474772528139112, 'epoch': 12.63}
{'loss': 0.2129,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1790294498205185, 'eval_runtime': 121.4896, 'eval_samples_per_second': 122.134, 'eval_steps_per_second': 15.269, 'epoch': 12.64}
{'loss': 0.2112, 'grad_norm': 0.5561147928237915, 'learning_rate': 0.0024727505560423265, 'epoch': 12.64}
{'loss': 0.2223, 'grad_norm': 0.9035787582397461, 'learning_rate': 0.002472076565343398, 'epoch': 12.64}
{'loss': 0.2298, 'grad_norm': 0.6093860864639282, 'learning_rate': 0.0024714025746444697, 'epoch': 12.65}
{'loss': 0.1986, 'grad_norm': 1.5459315776824951, 'learning_rate': 0.0024707285839455414, 'epoch': 12.65}
{'loss': 0.2446, 'grad_norm': 6.300859451293945, 'learning_rate': 0.002470054593246613, 'epoch': 12.65}
{'loss': 0.2089, 'grad_norm': 0.5078232288360596, 'learning_rate': 0.0024693806025476847, 'epoch': 12.66}
{'loss': 0.2088, 'grad_norm': 0.8224647045135498, 'learning_rate': 0.0024687066118487568, 'epoch': 12.66}
{'loss': 0.1924, 'grad_norm': 1.5212767124176025, 'learning_rate': 0.0024680326211498284, 'epoch': 12.66}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18193767964839935, 'eval_runtime': 120.7562, 'eval_samples_per_second': 122.876, 'eval_steps_per_second': 15.362, 'epoch': 12.67}
{'loss': 0.2179, 'grad_norm': 0.2656707167625427, 'learning_rate': 0.0024660106490530433, 'epoch': 12.67}
{'loss': 0.2365, 'grad_norm': 0.6714993119239807, 'learning_rate': 0.002465336658354115, 'epoch': 12.68}
{'loss': 0.2267, 'grad_norm': 0.636075496673584, 'learning_rate': 0.0024646626676551866, 'epoch': 12.68}
{'loss': 0.2153, 'grad_norm': 0.8431538343429565, 'learning_rate': 0.0024639886769562583, 'epoch': 12.68}
{'loss': 0.223, 'grad_norm': 0.7918905019760132, 'learning_rate': 0.0024633146862573295, 'epoch': 12.69}
{'loss': 0.2234, 'grad_norm': 1.3709417581558228, 'learning_rate': 0.002462640695558401, 'epoch': 12.69}
{'loss': 0.2398, 'grad_norm': 3.169429302215576, 'learning_rate': 0.0024619667048594728, 'epoch': 12.69}
{'loss': 0.2241, 'grad_norm': 1.0796235799789429, 'learning_rate': 0.0024612927141605444, 'epoch': 12.7}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1812259554862976, 'eval_runtime': 120.1947, 'eval_samples_per_second': 123.45, 'eval_steps_per_second': 15.433, 'epoch': 12.7}
{'loss': 0.2215, 'grad_norm': 1.5868207216262817, 'learning_rate': 0.0024592707420637593, 'epoch': 12.71}
{'loss': 0.2338, 'grad_norm': 1.1397439241409302, 'learning_rate': 0.0024585967513648314, 'epoch': 12.71}
{'loss': 0.2466, 'grad_norm': 0.49449220299720764, 'learning_rate': 0.002457922760665903, 'epoch': 12.71}
{'loss': 0.2518, 'grad_norm': 1.4533782005310059, 'learning_rate': 0.0024572487699669747, 'epoch': 12.72}
{'loss': 0.2145, 'grad_norm': 1.646970510482788, 'learning_rate': 0.0024565747792680464, 'epoch': 12.72}
{'loss': 0.2094, 'grad_norm': 2.0969913005828857, 'learning_rate': 0.002455900788569118, 'epoch': 12.72}
{'loss': 0.2286, 'grad_norm': 12.073562622070312, 'learning_rate': 0.0024552267978701896, 'epoch': 12.73}
{'loss': 0.2307, 'grad_norm': 0.6660903096199036, 'learning_rate': 0.0024545528071712613, 'epoch': 12.73}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.18483811616897583, 'eval_runtime': 120.0453, 'eval_samples_per_second': 123.603, 'eval_steps_per_second': 15.453, 'epoch': 12.74}
{'loss': 0.2396, 'grad_norm': 2.4493257999420166, 'learning_rate': 0.002452530835074476, 'epoch': 12.74}
{'loss': 0.2085, 'grad_norm': 0.45439982414245605, 'learning_rate': 0.0024518568443755474, 'epoch': 12.75}
{'loss': 0.2229, 'grad_norm': 1.2726892232894897, 'learning_rate': 0.002451182853676619, 'epoch': 12.75}
{'loss': 0.2408, 'grad_norm': 1.0532925128936768, 'learning_rate': 0.0024505088629776907, 'epoch': 12.75}
{'loss': 0.2138, 'grad_norm': 1.0076271295547485, 'learning_rate': 0.0024498348722787624, 'epoch': 12.76}
{'loss': 0.2259, 'grad_norm': 3.479072093963623, 'learning_rate': 0.002449160881579834, 'epoch': 12.76}
{'loss': 0.2444, 'grad_norm': 0.8989623188972473, 'learning_rate': 0.0024484868908809057, 'epoch': 12.76}
{'loss': 0.2297, 'grad_norm': 0.57668536901474, 'learning_rate': 0.0024478129001819777, 'epoch': 12.77}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1786693036556244, 'eval_runtime': 120.5661, 'eval_samples_per_second': 123.069, 'eval_steps_per_second': 15.386, 'epoch': 12.77}
{'loss': 0.2223, 'grad_norm': 1.6277694702148438, 'learning_rate': 0.0024457909280851927, 'epoch': 12.78}
{'loss': 0.2177, 'grad_norm': 0.7064570188522339, 'learning_rate': 0.0024451169373862643, 'epoch': 12.78}
{'loss': 0.2297, 'grad_norm': 1.3996385335922241, 'learning_rate': 0.002444442946687336, 'epoch': 12.78}
{'loss': 0.2183, 'grad_norm': 1.156060814857483, 'learning_rate': 0.0024437689559884076, 'epoch': 12.79}
{'loss': 0.2299, 'grad_norm': 0.38472267985343933, 'learning_rate': 0.0024430949652894792, 'epoch': 12.79}
{'loss': 0.2314, 'grad_norm': 0.9276692867279053, 'learning_rate': 0.002442420974590551, 'epoch': 12.79}
{'loss': 0.2193, 'grad_norm': 1.5281450748443604, 'learning_rate': 0.002441746983891622, 'epoch': 12.8}
{'loss': 0.2184, 'grad_norm': 2.537790298461914, 'learning_rate': 0.0024410729931926937, 'epoch': 12.8}
{'loss': 0.22

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17724178731441498, 'eval_runtime': 120.8001, 'eval_samples_per_second': 122.831, 'eval_steps_per_second': 15.356, 'epoch': 12.81}
{'loss': 0.2146, 'grad_norm': 0.38567888736724854, 'learning_rate': 0.0024390510210959087, 'epoch': 12.81}
{'loss': 0.2205, 'grad_norm': 12.171497344970703, 'learning_rate': 0.0024383770303969803, 'epoch': 12.81}
{'loss': 0.2283, 'grad_norm': 0.6771290302276611, 'learning_rate': 0.0024377030396980524, 'epoch': 12.82}
{'loss': 0.2207, 'grad_norm': 0.9589434862136841, 'learning_rate': 0.002437029048999124, 'epoch': 12.82}
{'loss': 0.2238, 'grad_norm': 0.9194017052650452, 'learning_rate': 0.0024363550583001957, 'epoch': 12.82}
{'loss': 0.2055, 'grad_norm': 0.6253204345703125, 'learning_rate': 0.0024356810676012673, 'epoch': 12.83}
{'loss': 0.236, 'grad_norm': 1.0760849714279175, 'learning_rate': 0.002435007076902339, 'epoch': 12.83}
{'loss': 0.2166, 'grad_norm': 1.1854212284088135, 'learning_rate': 0.0024343330862034106, 'epoch': 12.83}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17419885098934174, 'eval_runtime': 119.2752, 'eval_samples_per_second': 124.401, 'eval_steps_per_second': 15.552, 'epoch': 12.84}
{'loss': 0.2178, 'grad_norm': 1.822392225265503, 'learning_rate': 0.0024323111141066256, 'epoch': 12.84}
{'loss': 0.2347, 'grad_norm': 1.0005848407745361, 'learning_rate': 0.002431637123407697, 'epoch': 12.85}
{'loss': 0.221, 'grad_norm': 1.610761046409607, 'learning_rate': 0.0024309631327087684, 'epoch': 12.85}
{'loss': 0.2158, 'grad_norm': 0.5239952206611633, 'learning_rate': 0.00243028914200984, 'epoch': 12.85}
{'loss': 0.2257, 'grad_norm': 0.8207476139068604, 'learning_rate': 0.0024296151513109117, 'epoch': 12.86}
{'loss': 0.2466, 'grad_norm': 2.636472702026367, 'learning_rate': 0.0024289411606119833, 'epoch': 12.86}
{'loss': 0.2208, 'grad_norm': 0.4771345257759094, 'learning_rate': 0.002428267169913055, 'epoch': 12.86}
{'loss': 0.2176, 'grad_norm': 0.8737149834632874, 'learning_rate': 0.002427593179214127, 'epoch': 12.87}
{'loss': 0.2141

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17679423093795776, 'eval_runtime': 120.5498, 'eval_samples_per_second': 123.086, 'eval_steps_per_second': 15.388, 'epoch': 12.87}
{'loss': 0.2297, 'grad_norm': 0.8796955943107605, 'learning_rate': 0.002425571207117342, 'epoch': 12.88}
{'loss': 0.2174, 'grad_norm': 0.42762404680252075, 'learning_rate': 0.0024248972164184136, 'epoch': 12.88}
{'loss': 0.2177, 'grad_norm': 2.279567241668701, 'learning_rate': 0.0024242232257194853, 'epoch': 12.88}
{'loss': 0.2188, 'grad_norm': 3.144784450531006, 'learning_rate': 0.002423549235020557, 'epoch': 12.89}
{'loss': 0.2179, 'grad_norm': 1.2246359586715698, 'learning_rate': 0.0024228752443216286, 'epoch': 12.89}
{'loss': 0.2193, 'grad_norm': 1.5247466564178467, 'learning_rate': 0.0024222012536227002, 'epoch': 12.89}
{'loss': 0.2335, 'grad_norm': 0.7959116101264954, 'learning_rate': 0.002421527262923772, 'epoch': 12.9}
{'loss': 0.2261, 'grad_norm': 0.4960501492023468, 'learning_rate': 0.0024208532722248435, 'epoch': 12.9}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17796987295150757, 'eval_runtime': 120.45, 'eval_samples_per_second': 123.188, 'eval_steps_per_second': 15.401, 'epoch': 12.91}
{'loss': 0.2239, 'grad_norm': 1.463942050933838, 'learning_rate': 0.002418831300128058, 'epoch': 12.91}
{'loss': 0.2266, 'grad_norm': 1.2790064811706543, 'learning_rate': 0.0024181573094291297, 'epoch': 12.91}
{'loss': 0.2216, 'grad_norm': 1.4135996103286743, 'learning_rate': 0.0024174833187302013, 'epoch': 12.92}
{'loss': 0.2102, 'grad_norm': 0.9945687055587769, 'learning_rate': 0.0024168093280312734, 'epoch': 12.92}
{'loss': 0.2264, 'grad_norm': 0.7266904711723328, 'learning_rate': 0.002416135337332345, 'epoch': 12.92}
{'loss': 0.207, 'grad_norm': 0.9892997145652771, 'learning_rate': 0.0024154613466334167, 'epoch': 12.93}
{'loss': 0.2214, 'grad_norm': 0.38315701484680176, 'learning_rate': 0.0024147873559344883, 'epoch': 12.93}
{'loss': 0.2152, 'grad_norm': 6.21948766708374, 'learning_rate': 0.00241411336523556, 'epoch': 12.93}
{'loss': 0.2112

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17435523867607117, 'eval_runtime': 141.004, 'eval_samples_per_second': 105.231, 'eval_steps_per_second': 13.156, 'epoch': 12.94}
{'loss': 0.2094, 'grad_norm': 1.4613873958587646, 'learning_rate': 0.002412091393138775, 'epoch': 12.94}
{'loss': 0.2052, 'grad_norm': 1.5862815380096436, 'learning_rate': 0.0024114174024398465, 'epoch': 12.95}
{'loss': 0.2133, 'grad_norm': 0.5917919874191284, 'learning_rate': 0.002410743411740918, 'epoch': 12.95}
{'loss': 0.2202, 'grad_norm': 1.261049509048462, 'learning_rate': 0.00241006942104199, 'epoch': 12.95}
{'loss': 0.2151, 'grad_norm': 1.1138428449630737, 'learning_rate': 0.002409395430343061, 'epoch': 12.96}
{'loss': 0.2396, 'grad_norm': 2.5749573707580566, 'learning_rate': 0.0024087214396441327, 'epoch': 12.96}
{'loss': 0.2269, 'grad_norm': 1.06855046749115, 'learning_rate': 0.0024080474489452043, 'epoch': 12.96}
{'loss': 0.2177, 'grad_norm': 0.7245985865592957, 'learning_rate': 0.002407373458246276, 'epoch': 12.97}
{'loss': 0.2069,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17932628095149994, 'eval_runtime': 140.514, 'eval_samples_per_second': 105.598, 'eval_steps_per_second': 13.202, 'epoch': 12.97}
{'loss': 0.2096, 'grad_norm': 1.4089322090148926, 'learning_rate': 0.0024053514861494913, 'epoch': 12.98}
{'loss': 0.2322, 'grad_norm': 0.79795902967453, 'learning_rate': 0.002404677495450563, 'epoch': 12.98}
{'loss': 0.2137, 'grad_norm': 0.4358276426792145, 'learning_rate': 0.0024040035047516346, 'epoch': 12.98}
{'loss': 0.2265, 'grad_norm': 0.6118777394294739, 'learning_rate': 0.0024033295140527063, 'epoch': 12.99}
{'loss': 0.2252, 'grad_norm': 1.2187609672546387, 'learning_rate': 0.002402655523353778, 'epoch': 12.99}
{'loss': 0.2251, 'grad_norm': 0.5596573948860168, 'learning_rate': 0.0024019815326548496, 'epoch': 12.99}
{'loss': 0.2081, 'grad_norm': 0.5179810523986816, 'learning_rate': 0.002401307541955921, 'epoch': 13.0}
{'loss': 0.1965, 'grad_norm': 1.4538427591323853, 'learning_rate': 0.002400633551256993, 'epoch': 13.0}
{'loss': 0.2209

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17455781996250153, 'eval_runtime': 140.5368, 'eval_samples_per_second': 105.581, 'eval_steps_per_second': 13.199, 'epoch': 13.01}
{'loss': 0.1932, 'grad_norm': 0.6056166887283325, 'learning_rate': 0.0023986115791602074, 'epoch': 13.01}
{'loss': 0.2021, 'grad_norm': 0.8265321850776672, 'learning_rate': 0.002397937588461279, 'epoch': 13.01}
{'loss': 0.1975, 'grad_norm': 1.3470162153244019, 'learning_rate': 0.0023972635977623506, 'epoch': 13.02}
{'loss': 0.2021, 'grad_norm': 0.9492993950843811, 'learning_rate': 0.0023965896070634223, 'epoch': 13.02}
{'loss': 0.1957, 'grad_norm': 0.9401949644088745, 'learning_rate': 0.0023959156163644944, 'epoch': 13.02}
{'loss': 0.1955, 'grad_norm': 1.479204535484314, 'learning_rate': 0.002395241625665566, 'epoch': 13.03}
{'loss': 0.2037, 'grad_norm': 0.6918882727622986, 'learning_rate': 0.0023945676349666377, 'epoch': 13.03}
{'loss': 0.2082, 'grad_norm': 1.6358143091201782, 'learning_rate': 0.0023938936442677093, 'epoch': 13.03}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17598038911819458, 'eval_runtime': 140.3816, 'eval_samples_per_second': 105.698, 'eval_steps_per_second': 13.214, 'epoch': 13.04}
{'loss': 0.2056, 'grad_norm': 0.7782531380653381, 'learning_rate': 0.002391885151984903, 'epoch': 13.05}
{'loss': 0.2014, 'grad_norm': 0.8055775165557861, 'learning_rate': 0.0023912111612859745, 'epoch': 13.05}
{'loss': 0.1981, 'grad_norm': 2.56198787689209, 'learning_rate': 0.002390537170587046, 'epoch': 13.05}
{'loss': 0.2027, 'grad_norm': 1.1579582691192627, 'learning_rate': 0.0023898631798881177, 'epoch': 13.06}
{'loss': 0.2053, 'grad_norm': 0.9419169425964355, 'learning_rate': 0.0023891891891891894, 'epoch': 13.06}
{'loss': 0.2092, 'grad_norm': 0.9290434122085571, 'learning_rate': 0.002388515198490261, 'epoch': 13.06}
{'loss': 0.1943, 'grad_norm': 1.9573264122009277, 'learning_rate': 0.0023878412077913327, 'epoch': 13.07}
{'loss': 0.2044, 'grad_norm': 1.0325584411621094, 'learning_rate': 0.0023871672170924043, 'epoch': 13.07}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17872627079486847, 'eval_runtime': 141.0988, 'eval_samples_per_second': 105.16, 'eval_steps_per_second': 13.147, 'epoch': 13.08}
{'loss': 0.2118, 'grad_norm': 0.5906582474708557, 'learning_rate': 0.002385145244995619, 'epoch': 13.08}
{'loss': 0.2202, 'grad_norm': 1.312896490097046, 'learning_rate': 0.0023844712542966905, 'epoch': 13.08}
{'loss': 0.2294, 'grad_norm': 1.1664119958877563, 'learning_rate': 0.002383797263597762, 'epoch': 13.09}
{'loss': 0.1997, 'grad_norm': 0.8747386932373047, 'learning_rate': 0.002383123272898834, 'epoch': 13.09}
{'loss': 0.1998, 'grad_norm': 1.0669947862625122, 'learning_rate': 0.002382449282199906, 'epoch': 13.09}
{'loss': 0.217, 'grad_norm': 1.7248682975769043, 'learning_rate': 0.0023817752915009775, 'epoch': 13.1}
{'loss': 0.2106, 'grad_norm': 0.9259088039398193, 'learning_rate': 0.002381101300802049, 'epoch': 13.1}
{'loss': 0.2274, 'grad_norm': 0.5885108113288879, 'learning_rate': 0.0023804273101031208, 'epoch': 13.1}
{'loss': 0.2105, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17411395907402039, 'eval_runtime': 141.1774, 'eval_samples_per_second': 105.102, 'eval_steps_per_second': 13.139, 'epoch': 13.11}
{'loss': 0.2015, 'grad_norm': 2.4649300575256348, 'learning_rate': 0.0023784053380063357, 'epoch': 13.11}
{'loss': 0.197, 'grad_norm': 3.681858777999878, 'learning_rate': 0.0023777313473074073, 'epoch': 13.12}
{'loss': 0.2311, 'grad_norm': 5.734799861907959, 'learning_rate': 0.002377057356608479, 'epoch': 13.12}
{'loss': 0.2099, 'grad_norm': 1.4349477291107178, 'learning_rate': 0.0023763833659095506, 'epoch': 13.12}
{'loss': 0.2033, 'grad_norm': 0.6066792607307434, 'learning_rate': 0.0023757093752106223, 'epoch': 13.13}
{'loss': 0.2024, 'grad_norm': 0.4824449121952057, 'learning_rate': 0.002375035384511694, 'epoch': 13.13}
{'loss': 0.2099, 'grad_norm': 0.9426419734954834, 'learning_rate': 0.002374361393812765, 'epoch': 13.13}
{'loss': 0.2118, 'grad_norm': 0.7236343026161194, 'learning_rate': 0.0023736874031138368, 'epoch': 13.14}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17459723353385925, 'eval_runtime': 141.5768, 'eval_samples_per_second': 104.805, 'eval_steps_per_second': 13.102, 'epoch': 13.14}
{'loss': 0.1959, 'grad_norm': 0.6485840082168579, 'learning_rate': 0.002371665431017052, 'epoch': 13.15}
{'loss': 0.2044, 'grad_norm': 0.6924037337303162, 'learning_rate': 0.002370991440318124, 'epoch': 13.15}
{'loss': 0.198, 'grad_norm': 1.1512258052825928, 'learning_rate': 0.0023703174496191954, 'epoch': 13.15}
{'loss': 0.2276, 'grad_norm': 1.1551247835159302, 'learning_rate': 0.002369643458920267, 'epoch': 13.16}
{'loss': 0.2332, 'grad_norm': 1.3752912282943726, 'learning_rate': 0.0023689694682213387, 'epoch': 13.16}
{'loss': 0.1935, 'grad_norm': 0.21218064427375793, 'learning_rate': 0.0023682954775224104, 'epoch': 13.16}
{'loss': 0.2108, 'grad_norm': 0.644010603427887, 'learning_rate': 0.002367621486823482, 'epoch': 13.17}
{'loss': 0.1947, 'grad_norm': 0.6424219608306885, 'learning_rate': 0.0023669474961245537, 'epoch': 13.17}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17256760597229004, 'eval_runtime': 140.3571, 'eval_samples_per_second': 105.716, 'eval_steps_per_second': 13.216, 'epoch': 13.18}
{'loss': 0.2033, 'grad_norm': 1.2583872079849243, 'learning_rate': 0.0023649255240277686, 'epoch': 13.18}
{'loss': 0.1998, 'grad_norm': 0.6314787268638611, 'learning_rate': 0.002364265013142819, 'epoch': 13.18}
{'loss': 0.1977, 'grad_norm': 0.43440330028533936, 'learning_rate': 0.0023635910224438905, 'epoch': 13.19}
{'loss': 0.1924, 'grad_norm': 0.6083366870880127, 'learning_rate': 0.002362917031744962, 'epoch': 13.19}
{'loss': 0.228, 'grad_norm': 1.333455204963684, 'learning_rate': 0.0023622430410460337, 'epoch': 13.19}
{'loss': 0.2035, 'grad_norm': 2.0093038082122803, 'learning_rate': 0.0023615690503471054, 'epoch': 13.2}
{'loss': 0.2162, 'grad_norm': 0.6622193455696106, 'learning_rate': 0.0023608950596481766, 'epoch': 13.2}
{'loss': 0.2124, 'grad_norm': 0.512261688709259, 'learning_rate': 0.0023602210689492482, 'epoch': 13.2}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17592792212963104, 'eval_runtime': 140.7885, 'eval_samples_per_second': 105.392, 'eval_steps_per_second': 13.176, 'epoch': 13.21}
{'loss': 0.2173, 'grad_norm': 4.126906871795654, 'learning_rate': 0.0023581990968524636, 'epoch': 13.21}
{'loss': 0.2292, 'grad_norm': 0.7871801853179932, 'learning_rate': 0.0023575251061535353, 'epoch': 13.22}
{'loss': 0.2129, 'grad_norm': 0.3495216965675354, 'learning_rate': 0.002356851115454607, 'epoch': 13.22}
{'loss': 0.1916, 'grad_norm': 0.4807872176170349, 'learning_rate': 0.0023561771247556785, 'epoch': 13.22}
{'loss': 0.2179, 'grad_norm': 0.5810027718544006, 'learning_rate': 0.00235550313405675, 'epoch': 13.23}
{'loss': 0.2084, 'grad_norm': 1.1482981443405151, 'learning_rate': 0.002354829143357822, 'epoch': 13.23}
{'loss': 0.2017, 'grad_norm': 3.6765592098236084, 'learning_rate': 0.0023541551526588935, 'epoch': 13.23}
{'loss': 0.2077, 'grad_norm': 0.9129931926727295, 'learning_rate': 0.002353481161959965, 'epoch': 13.24}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.176656574010849, 'eval_runtime': 141.2728, 'eval_samples_per_second': 105.031, 'eval_steps_per_second': 13.131, 'epoch': 13.24}
{'loss': 0.2141, 'grad_norm': 1.7515623569488525, 'learning_rate': 0.00235145918986318, 'epoch': 13.25}
{'loss': 0.1986, 'grad_norm': 0.47722598910331726, 'learning_rate': 0.0023507851991642517, 'epoch': 13.25}
{'loss': 0.2321, 'grad_norm': 0.7073723673820496, 'learning_rate': 0.002350111208465323, 'epoch': 13.25}
{'loss': 0.2091, 'grad_norm': 1.1584627628326416, 'learning_rate': 0.0023494372177663946, 'epoch': 13.26}
{'loss': 0.2002, 'grad_norm': 1.492374062538147, 'learning_rate': 0.0023487632270674666, 'epoch': 13.26}
{'loss': 0.228, 'grad_norm': 3.0177204608917236, 'learning_rate': 0.0023480892363685383, 'epoch': 13.26}
{'loss': 0.207, 'grad_norm': 0.807462751865387, 'learning_rate': 0.00234741524566961, 'epoch': 13.27}
{'loss': 0.1935, 'grad_norm': 0.9367269277572632, 'learning_rate': 0.0023467412549706816, 'epoch': 13.27}
{'loss': 0.2017,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17444667220115662, 'eval_runtime': 141.2665, 'eval_samples_per_second': 105.035, 'eval_steps_per_second': 13.131, 'epoch': 13.28}
{'loss': 0.2249, 'grad_norm': 4.449483871459961, 'learning_rate': 0.0023447192828738965, 'epoch': 13.28}
{'loss': 0.1997, 'grad_norm': 0.7696052193641663, 'learning_rate': 0.002344045292174968, 'epoch': 13.28}
{'loss': 0.2006, 'grad_norm': 0.9118871092796326, 'learning_rate': 0.00234337130147604, 'epoch': 13.29}
{'loss': 0.2083, 'grad_norm': 0.452557235956192, 'learning_rate': 0.0023426973107771114, 'epoch': 13.29}
{'loss': 0.2117, 'grad_norm': 1.4011064767837524, 'learning_rate': 0.002342023320078183, 'epoch': 13.29}
{'loss': 0.2038, 'grad_norm': 0.5298222303390503, 'learning_rate': 0.0023413493293792547, 'epoch': 13.3}
{'loss': 0.2061, 'grad_norm': 0.8465543985366821, 'learning_rate': 0.0023406753386803264, 'epoch': 13.3}
{'loss': 0.2232, 'grad_norm': 0.8625167012214661, 'learning_rate': 0.002340001347981398, 'epoch': 13.3}
{'loss': 0.209, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17439167201519012, 'eval_runtime': 140.6111, 'eval_samples_per_second': 105.525, 'eval_steps_per_second': 13.192, 'epoch': 13.31}
{'loss': 0.221, 'grad_norm': 0.559981644153595, 'learning_rate': 0.002337979375884613, 'epoch': 13.31}
{'loss': 0.2005, 'grad_norm': 0.9661580324172974, 'learning_rate': 0.0023373053851856846, 'epoch': 13.32}
{'loss': 0.2127, 'grad_norm': 1.2858368158340454, 'learning_rate': 0.0023366313944867562, 'epoch': 13.32}
{'loss': 0.2081, 'grad_norm': 1.3714467287063599, 'learning_rate': 0.002335957403787828, 'epoch': 13.32}
{'loss': 0.2065, 'grad_norm': 1.6826387643814087, 'learning_rate': 0.0023352834130888995, 'epoch': 13.33}
{'loss': 0.209, 'grad_norm': 1.6061259508132935, 'learning_rate': 0.002334609422389971, 'epoch': 13.33}
{'loss': 0.2145, 'grad_norm': 4.3864617347717285, 'learning_rate': 0.002333935431691043, 'epoch': 13.33}
{'loss': 0.2107, 'grad_norm': 0.4443115293979645, 'learning_rate': 0.0023332614409921145, 'epoch': 13.34}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16912096738815308, 'eval_runtime': 140.4802, 'eval_samples_per_second': 105.623, 'eval_steps_per_second': 13.205, 'epoch': 13.35}
{'loss': 0.1992, 'grad_norm': 0.8823214173316956, 'learning_rate': 0.0023312394688953294, 'epoch': 13.35}
{'loss': 0.1936, 'grad_norm': 0.644443154335022, 'learning_rate': 0.002330565478196401, 'epoch': 13.35}
{'loss': 0.1938, 'grad_norm': 1.381481647491455, 'learning_rate': 0.0023298914874974727, 'epoch': 13.36}
{'loss': 0.2258, 'grad_norm': 1.0986623764038086, 'learning_rate': 0.0023292174967985443, 'epoch': 13.36}
{'loss': 0.2019, 'grad_norm': 0.6817885041236877, 'learning_rate': 0.0023285435060996155, 'epoch': 13.36}
{'loss': 0.2118, 'grad_norm': 0.8758466839790344, 'learning_rate': 0.0023278695154006876, 'epoch': 13.37}
{'loss': 0.2054, 'grad_norm': 0.7944085597991943, 'learning_rate': 0.0023271955247017593, 'epoch': 13.37}
{'loss': 0.2171, 'grad_norm': 1.112735390663147, 'learning_rate': 0.002326521534002831, 'epoch': 13.37}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1719997227191925, 'eval_runtime': 121.0258, 'eval_samples_per_second': 122.602, 'eval_steps_per_second': 15.327, 'epoch': 13.38}
{'loss': 0.2037, 'grad_norm': 0.5627480745315552, 'learning_rate': 0.002324499561906046, 'epoch': 13.38}
{'loss': 0.213, 'grad_norm': 0.4854508340358734, 'learning_rate': 0.0023238255712071175, 'epoch': 13.39}
{'loss': 0.2005, 'grad_norm': 0.6440971493721008, 'learning_rate': 0.002323151580508189, 'epoch': 13.39}
{'loss': 0.2063, 'grad_norm': 0.7460055351257324, 'learning_rate': 0.0023224775898092608, 'epoch': 13.39}
{'loss': 0.2061, 'grad_norm': 0.8478468060493469, 'learning_rate': 0.0023218035991103324, 'epoch': 13.4}
{'loss': 0.2108, 'grad_norm': 0.43926042318344116, 'learning_rate': 0.002321129608411404, 'epoch': 13.4}
{'loss': 0.2098, 'grad_norm': 2.2911622524261475, 'learning_rate': 0.0023204556177124757, 'epoch': 13.4}
{'loss': 0.1854, 'grad_norm': 3.4327876567840576, 'learning_rate': 0.0023197816270135473, 'epoch': 13.41}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16903315484523773, 'eval_runtime': 109.9877, 'eval_samples_per_second': 134.906, 'eval_steps_per_second': 16.866, 'epoch': 13.41}
{'loss': 0.1901, 'grad_norm': 2.3586037158966064, 'learning_rate': 0.002317773134730741, 'epoch': 13.42}
{'loss': 0.1956, 'grad_norm': 1.2561510801315308, 'learning_rate': 0.0023170991440318125, 'epoch': 13.42}
{'loss': 0.1985, 'grad_norm': 1.0345783233642578, 'learning_rate': 0.002316425153332884, 'epoch': 13.42}
{'loss': 0.2039, 'grad_norm': 0.6915850043296814, 'learning_rate': 0.002315751162633956, 'epoch': 13.43}
{'loss': 0.2099, 'grad_norm': 1.0243967771530151, 'learning_rate': 0.0023150771719350274, 'epoch': 13.43}
{'loss': 0.2092, 'grad_norm': 0.7422544360160828, 'learning_rate': 0.002314403181236099, 'epoch': 13.43}
{'loss': 0.2172, 'grad_norm': 0.7527123689651489, 'learning_rate': 0.0023137291905371707, 'epoch': 13.44}
{'loss': 0.2008, 'grad_norm': 0.7444288730621338, 'learning_rate': 0.0023130551998382424, 'epoch': 13.44}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17015571892261505, 'eval_runtime': 115.0447, 'eval_samples_per_second': 128.976, 'eval_steps_per_second': 16.124, 'epoch': 13.45}
{'loss': 0.2109, 'grad_norm': 0.5434398651123047, 'learning_rate': 0.0023110332277414573, 'epoch': 13.45}
{'loss': 0.1975, 'grad_norm': 0.799776554107666, 'learning_rate': 0.002310359237042529, 'epoch': 13.45}
{'loss': 0.2091, 'grad_norm': 0.5842708349227905, 'learning_rate': 0.0023096852463436006, 'epoch': 13.46}
{'loss': 0.2125, 'grad_norm': 0.7117392420768738, 'learning_rate': 0.0023090112556446722, 'epoch': 13.46}
{'loss': 0.1887, 'grad_norm': 1.3862230777740479, 'learning_rate': 0.002308337264945744, 'epoch': 13.46}
{'loss': 0.2038, 'grad_norm': 0.729158341884613, 'learning_rate': 0.0023076632742468155, 'epoch': 13.47}
{'loss': 0.2271, 'grad_norm': 0.48131057620048523, 'learning_rate': 0.002306989283547887, 'epoch': 13.47}
{'loss': 0.2056, 'grad_norm': 1.0003466606140137, 'learning_rate': 0.002306315292848959, 'epoch': 13.47}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17054979503154755, 'eval_runtime': 110.6069, 'eval_samples_per_second': 134.151, 'eval_steps_per_second': 16.771, 'epoch': 13.48}
{'loss': 0.1825, 'grad_norm': 0.42695948481559753, 'learning_rate': 0.0023042933207521737, 'epoch': 13.48}
{'loss': 0.2163, 'grad_norm': 1.5021227598190308, 'learning_rate': 0.0023036193300532454, 'epoch': 13.49}
{'loss': 0.2117, 'grad_norm': 1.1213219165802002, 'learning_rate': 0.002302945339354317, 'epoch': 13.49}
{'loss': 0.2004, 'grad_norm': 0.9166211485862732, 'learning_rate': 0.0023022713486553887, 'epoch': 13.49}
{'loss': 0.204, 'grad_norm': 1.3093287944793701, 'learning_rate': 0.0023015973579564603, 'epoch': 13.5}
{'loss': 0.2219, 'grad_norm': 1.0067169666290283, 'learning_rate': 0.002300923367257532, 'epoch': 13.5}
{'loss': 0.1961, 'grad_norm': 0.6137840747833252, 'learning_rate': 0.0023002493765586036, 'epoch': 13.5}
{'loss': 0.1864, 'grad_norm': 4.687392711639404, 'learning_rate': 0.0022995753858596753, 'epoch': 13.51}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17097125947475433, 'eval_runtime': 110.2069, 'eval_samples_per_second': 134.638, 'eval_steps_per_second': 16.832, 'epoch': 13.51}
{'loss': 0.204, 'grad_norm': 0.9468851089477539, 'learning_rate': 0.00229755341376289, 'epoch': 13.52}
{'loss': 0.2001, 'grad_norm': 1.7015578746795654, 'learning_rate': 0.002296879423063962, 'epoch': 13.52}
{'loss': 0.2175, 'grad_norm': 1.5811878442764282, 'learning_rate': 0.0022962054323650335, 'epoch': 13.52}
{'loss': 0.2138, 'grad_norm': 1.0510343313217163, 'learning_rate': 0.002295531441666105, 'epoch': 13.53}
{'loss': 0.2038, 'grad_norm': 0.9539995193481445, 'learning_rate': 0.0022948574509671768, 'epoch': 13.53}
{'loss': 0.1867, 'grad_norm': 3.036102533340454, 'learning_rate': 0.0022941834602682484, 'epoch': 13.53}
{'loss': 0.2209, 'grad_norm': 3.7794902324676514, 'learning_rate': 0.00229350946956932, 'epoch': 13.54}
{'loss': 0.2236, 'grad_norm': 0.3590995669364929, 'learning_rate': 0.0022928354788703917, 'epoch': 13.54}
{'loss': 0.205

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17080014944076538, 'eval_runtime': 110.5848, 'eval_samples_per_second': 134.178, 'eval_steps_per_second': 16.774, 'epoch': 13.55}
{'loss': 0.2044, 'grad_norm': 0.5066397786140442, 'learning_rate': 0.0022908135067736066, 'epoch': 13.55}
{'loss': 0.2078, 'grad_norm': 0.6644055843353271, 'learning_rate': 0.0022901395160746783, 'epoch': 13.55}
{'loss': 0.1991, 'grad_norm': 0.348318874835968, 'learning_rate': 0.00228946552537575, 'epoch': 13.56}
{'loss': 0.2, 'grad_norm': 1.3249015808105469, 'learning_rate': 0.0022887915346768216, 'epoch': 13.56}
{'loss': 0.2132, 'grad_norm': 0.7251036763191223, 'learning_rate': 0.002288117543977893, 'epoch': 13.56}
{'loss': 0.2146, 'grad_norm': 3.783698081970215, 'learning_rate': 0.002287443553278965, 'epoch': 13.57}
{'loss': 0.2002, 'grad_norm': 0.494695782661438, 'learning_rate': 0.0022867695625800365, 'epoch': 13.57}
{'loss': 0.1919, 'grad_norm': 0.4376664459705353, 'learning_rate': 0.002286095571881108, 'epoch': 13.57}
{'loss': 0.21, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16943058371543884, 'eval_runtime': 110.7511, 'eval_samples_per_second': 133.976, 'eval_steps_per_second': 16.749, 'epoch': 13.58}
{'loss': 0.1997, 'grad_norm': 0.6980324387550354, 'learning_rate': 0.002284073599784323, 'epoch': 13.58}
{'loss': 0.2126, 'grad_norm': 1.434672474861145, 'learning_rate': 0.0022833996090853947, 'epoch': 13.59}
{'loss': 0.2063, 'grad_norm': 0.6830605268478394, 'learning_rate': 0.0022827256183864664, 'epoch': 13.59}
{'loss': 0.2172, 'grad_norm': 0.4736716151237488, 'learning_rate': 0.002282051627687538, 'epoch': 13.59}
{'loss': 0.196, 'grad_norm': 18.294084548950195, 'learning_rate': 0.0022813776369886097, 'epoch': 13.6}
{'loss': 0.185, 'grad_norm': 1.1418914794921875, 'learning_rate': 0.0022807036462896813, 'epoch': 13.6}
{'loss': 0.2181, 'grad_norm': 0.6370829343795776, 'learning_rate': 0.002280029655590753, 'epoch': 13.6}
{'loss': 0.2254, 'grad_norm': 0.831572949886322, 'learning_rate': 0.0022793556648918246, 'epoch': 13.61}
{'loss': 0.2015,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17207956314086914, 'eval_runtime': 109.7721, 'eval_samples_per_second': 135.171, 'eval_steps_per_second': 16.899, 'epoch': 13.61}
{'loss': 0.2147, 'grad_norm': 0.7877727746963501, 'learning_rate': 0.0022773336927950395, 'epoch': 13.62}
{'loss': 0.1941, 'grad_norm': 1.3419992923736572, 'learning_rate': 0.002276659702096111, 'epoch': 13.62}
{'loss': 0.2112, 'grad_norm': 1.0086034536361694, 'learning_rate': 0.002275985711397183, 'epoch': 13.62}
{'loss': 0.2004, 'grad_norm': 0.6529802083969116, 'learning_rate': 0.0022753117206982545, 'epoch': 13.63}
{'loss': 0.2152, 'grad_norm': 0.8331454396247864, 'learning_rate': 0.002274637729999326, 'epoch': 13.63}
{'loss': 0.1876, 'grad_norm': 0.7233706116676331, 'learning_rate': 0.0022739637393003977, 'epoch': 13.63}
{'loss': 0.2268, 'grad_norm': 2.369410991668701, 'learning_rate': 0.0022732897486014694, 'epoch': 13.64}
{'loss': 0.1994, 'grad_norm': 0.4738880395889282, 'learning_rate': 0.002272615757902541, 'epoch': 13.64}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16671806573867798, 'eval_runtime': 110.1875, 'eval_samples_per_second': 134.661, 'eval_steps_per_second': 16.835, 'epoch': 13.65}
{'loss': 0.2358, 'grad_norm': 0.4081543982028961, 'learning_rate': 0.002270593785805756, 'epoch': 13.65}
{'loss': 0.2137, 'grad_norm': 0.39991703629493713, 'learning_rate': 0.0022699197951068276, 'epoch': 13.66}
{'loss': 0.2046, 'grad_norm': 0.5789415240287781, 'learning_rate': 0.0022692458044078993, 'epoch': 13.66}
{'loss': 0.2032, 'grad_norm': 0.5308570265769958, 'learning_rate': 0.002268571813708971, 'epoch': 13.66}
{'loss': 0.1978, 'grad_norm': 0.8499075770378113, 'learning_rate': 0.0022678978230100426, 'epoch': 13.67}
{'loss': 0.2011, 'grad_norm': 0.3373563587665558, 'learning_rate': 0.002267223832311114, 'epoch': 13.67}
{'loss': 0.2106, 'grad_norm': 1.50533127784729, 'learning_rate': 0.002266549841612186, 'epoch': 13.67}
{'loss': 0.2022, 'grad_norm': 0.42993900179862976, 'learning_rate': 0.0022658758509132575, 'epoch': 13.68}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16822050511837006, 'eval_runtime': 110.4323, 'eval_samples_per_second': 134.363, 'eval_steps_per_second': 16.798, 'epoch': 13.68}
{'loss': 0.2028, 'grad_norm': 0.5615295767784119, 'learning_rate': 0.0022638538788164724, 'epoch': 13.69}
{'loss': 0.1965, 'grad_norm': 1.694907784461975, 'learning_rate': 0.002263179888117544, 'epoch': 13.69}
{'loss': 0.2066, 'grad_norm': 1.071823000907898, 'learning_rate': 0.0022625058974186157, 'epoch': 13.69}
{'loss': 0.2043, 'grad_norm': 0.7771857976913452, 'learning_rate': 0.0022618319067196874, 'epoch': 13.7}
{'loss': 0.2271, 'grad_norm': 1.347055196762085, 'learning_rate': 0.002261157916020759, 'epoch': 13.7}
{'loss': 0.2167, 'grad_norm': 1.2265597581863403, 'learning_rate': 0.002260497405135809, 'epoch': 13.7}
{'loss': 0.1965, 'grad_norm': 0.4350528120994568, 'learning_rate': 0.002259823414436881, 'epoch': 13.71}
{'loss': 0.2075, 'grad_norm': 1.6460717916488647, 'learning_rate': 0.0022591494237379525, 'epoch': 13.71}
{'loss': 0.1979,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1690247505903244, 'eval_runtime': 109.9999, 'eval_samples_per_second': 134.891, 'eval_steps_per_second': 16.864, 'epoch': 13.72}
{'loss': 0.2027, 'grad_norm': 1.0090593099594116, 'learning_rate': 0.0022571274516411674, 'epoch': 13.72}
{'loss': 0.2094, 'grad_norm': 0.5953518152236938, 'learning_rate': 0.002256453460942239, 'epoch': 13.72}
{'loss': 0.2175, 'grad_norm': 1.0684518814086914, 'learning_rate': 0.0022557794702433107, 'epoch': 13.73}
{'loss': 0.2177, 'grad_norm': 1.3833376169204712, 'learning_rate': 0.0022551054795443824, 'epoch': 13.73}
{'loss': 0.2097, 'grad_norm': 0.8519824743270874, 'learning_rate': 0.0022544449686594326, 'epoch': 13.73}
{'loss': 0.2134, 'grad_norm': 3.2864925861358643, 'learning_rate': 0.0022537709779605042, 'epoch': 13.74}
{'loss': 0.2078, 'grad_norm': 0.9791646599769592, 'learning_rate': 0.002253096987261576, 'epoch': 13.74}
{'loss': 0.2003, 'grad_norm': 1.3222370147705078, 'learning_rate': 0.0022524229965626475, 'epoch': 13.74}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16730834543704987, 'eval_runtime': 110.2114, 'eval_samples_per_second': 134.632, 'eval_steps_per_second': 16.831, 'epoch': 13.75}
{'loss': 0.2, 'grad_norm': 0.6146664023399353, 'learning_rate': 0.0022504010244658625, 'epoch': 13.75}
{'loss': 0.2051, 'grad_norm': 0.7844080924987793, 'learning_rate': 0.002249727033766934, 'epoch': 13.76}
{'loss': 0.2052, 'grad_norm': 0.6431314945220947, 'learning_rate': 0.0022490530430680057, 'epoch': 13.76}
{'loss': 0.2149, 'grad_norm': 0.4305075407028198, 'learning_rate': 0.0022483790523690774, 'epoch': 13.76}
{'loss': 0.1901, 'grad_norm': 0.7630133032798767, 'learning_rate': 0.002247705061670149, 'epoch': 13.77}
{'loss': 0.1993, 'grad_norm': 0.7668625116348267, 'learning_rate': 0.0022470310709712207, 'epoch': 13.77}
{'loss': 0.193, 'grad_norm': 1.7759513854980469, 'learning_rate': 0.0022463570802722923, 'epoch': 13.77}
{'loss': 0.1998, 'grad_norm': 0.7728680968284607, 'learning_rate': 0.002245683089573364, 'epoch': 13.78}
{'loss': 0.2,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16699442267417908, 'eval_runtime': 134.5284, 'eval_samples_per_second': 110.296, 'eval_steps_per_second': 13.789, 'epoch': 13.78}
{'loss': 0.2093, 'grad_norm': 1.2181766033172607, 'learning_rate': 0.002243661117476579, 'epoch': 13.79}
{'loss': 0.2193, 'grad_norm': 0.7552391886711121, 'learning_rate': 0.0022429871267776505, 'epoch': 13.79}
{'loss': 0.2112, 'grad_norm': 1.1371901035308838, 'learning_rate': 0.002242313136078722, 'epoch': 13.79}
{'loss': 0.2118, 'grad_norm': 0.4593566656112671, 'learning_rate': 0.002241639145379794, 'epoch': 13.8}
{'loss': 0.2023, 'grad_norm': 0.8219836950302124, 'learning_rate': 0.0022409651546808655, 'epoch': 13.8}
{'loss': 0.217, 'grad_norm': 1.6119557619094849, 'learning_rate': 0.002240291163981937, 'epoch': 13.8}
{'loss': 0.2324, 'grad_norm': 2.9258556365966797, 'learning_rate': 0.0022396171732830088, 'epoch': 13.81}
{'loss': 0.1973, 'grad_norm': 1.0879669189453125, 'learning_rate': 0.0022389431825840804, 'epoch': 13.81}
{'loss': 0.204

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16955064237117767, 'eval_runtime': 131.4291, 'eval_samples_per_second': 112.897, 'eval_steps_per_second': 14.114, 'epoch': 13.82}
{'loss': 0.1913, 'grad_norm': 0.6722365021705627, 'learning_rate': 0.0022369212104872954, 'epoch': 13.82}
{'loss': 0.2142, 'grad_norm': 0.4481671154499054, 'learning_rate': 0.002236247219788367, 'epoch': 13.82}
{'loss': 0.1853, 'grad_norm': 0.85906583070755, 'learning_rate': 0.0022355732290894386, 'epoch': 13.83}
{'loss': 0.2107, 'grad_norm': 1.3452575206756592, 'learning_rate': 0.0022348992383905103, 'epoch': 13.83}
{'loss': 0.2036, 'grad_norm': 0.929419219493866, 'learning_rate': 0.002234225247691582, 'epoch': 13.83}
{'loss': 0.207, 'grad_norm': 0.5949977040290833, 'learning_rate': 0.0022335512569926536, 'epoch': 13.84}
{'loss': 0.2247, 'grad_norm': 0.736526370048523, 'learning_rate': 0.0022328772662937252, 'epoch': 13.84}
{'loss': 0.2169, 'grad_norm': 3.3519489765167236, 'learning_rate': 0.002232203275594797, 'epoch': 13.84}
{'loss': 0.203

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17098988592624664, 'eval_runtime': 134.2404, 'eval_samples_per_second': 110.533, 'eval_steps_per_second': 13.818, 'epoch': 13.85}
{'loss': 0.2014, 'grad_norm': 10.475016593933105, 'learning_rate': 0.002230181303498012, 'epoch': 13.85}
{'loss': 0.2265, 'grad_norm': 11.387484550476074, 'learning_rate': 0.0022295073127990834, 'epoch': 13.86}
{'loss': 0.2379, 'grad_norm': 1.3221107721328735, 'learning_rate': 0.002228833322100155, 'epoch': 13.86}
{'loss': 0.2256, 'grad_norm': 3.1051177978515625, 'learning_rate': 0.0022281593314012267, 'epoch': 13.86}
{'loss': 0.2106, 'grad_norm': 3.7224631309509277, 'learning_rate': 0.0022274853407022984, 'epoch': 13.87}
{'loss': 0.1967, 'grad_norm': 0.616553544998169, 'learning_rate': 0.00222681135000337, 'epoch': 13.87}
{'loss': 0.2071, 'grad_norm': 1.037414312362671, 'learning_rate': 0.0022261373593044417, 'epoch': 13.87}
{'loss': 0.204, 'grad_norm': 0.9965186715126038, 'learning_rate': 0.0022254633686055133, 'epoch': 13.88}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16440975666046143, 'eval_runtime': 133.7936, 'eval_samples_per_second': 110.902, 'eval_steps_per_second': 13.865, 'epoch': 13.88}
{'loss': 0.2153, 'grad_norm': 0.8500659465789795, 'learning_rate': 0.0022234413965087282, 'epoch': 13.89}
{'loss': 0.2038, 'grad_norm': 0.5824446678161621, 'learning_rate': 0.0022227674058098, 'epoch': 13.89}
{'loss': 0.1962, 'grad_norm': 0.9902926683425903, 'learning_rate': 0.0022220934151108715, 'epoch': 13.89}
{'loss': 0.2027, 'grad_norm': 0.6511533260345459, 'learning_rate': 0.002221419424411943, 'epoch': 13.9}
{'loss': 0.198, 'grad_norm': 1.6024677753448486, 'learning_rate': 0.002220745433713015, 'epoch': 13.9}
{'loss': 0.2106, 'grad_norm': 3.544811725616455, 'learning_rate': 0.0022200714430140865, 'epoch': 13.9}
{'loss': 0.2048, 'grad_norm': 1.0371441841125488, 'learning_rate': 0.002219397452315158, 'epoch': 13.91}
{'loss': 0.2185, 'grad_norm': 0.6337457895278931, 'learning_rate': 0.0022187234616162298, 'epoch': 13.91}
{'loss': 0.2266, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1680344045162201, 'eval_runtime': 133.9944, 'eval_samples_per_second': 110.736, 'eval_steps_per_second': 13.844, 'epoch': 13.92}
{'loss': 0.2054, 'grad_norm': 0.2533816695213318, 'learning_rate': 0.0022167014895194447, 'epoch': 13.92}
{'loss': 0.1927, 'grad_norm': 0.4208093285560608, 'learning_rate': 0.0022160274988205163, 'epoch': 13.92}
{'loss': 0.2212, 'grad_norm': 0.9369223117828369, 'learning_rate': 0.002215353508121588, 'epoch': 13.93}
{'loss': 0.1943, 'grad_norm': 0.7447982430458069, 'learning_rate': 0.0022146795174226596, 'epoch': 13.93}
{'loss': 0.1951, 'grad_norm': 0.8409410715103149, 'learning_rate': 0.0022140055267237313, 'epoch': 13.93}
{'loss': 0.2009, 'grad_norm': 6.261013984680176, 'learning_rate': 0.002213331536024803, 'epoch': 13.94}
{'loss': 0.2079, 'grad_norm': 0.4014177620410919, 'learning_rate': 0.0022126575453258746, 'epoch': 13.94}
{'loss': 0.1975, 'grad_norm': 0.8691202998161316, 'learning_rate': 0.002211983554626946, 'epoch': 13.94}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16781267523765564, 'eval_runtime': 132.8405, 'eval_samples_per_second': 111.698, 'eval_steps_per_second': 13.964, 'epoch': 13.95}
{'loss': 0.2215, 'grad_norm': 1.003869891166687, 'learning_rate': 0.002209961582530161, 'epoch': 13.95}
{'loss': 0.202, 'grad_norm': 0.7550878524780273, 'learning_rate': 0.0022092875918312328, 'epoch': 13.96}
{'loss': 0.2149, 'grad_norm': 0.7897244691848755, 'learning_rate': 0.0022086136011323044, 'epoch': 13.96}
{'loss': 0.1976, 'grad_norm': 1.1611864566802979, 'learning_rate': 0.002207939610433376, 'epoch': 13.97}
{'loss': 0.2049, 'grad_norm': 0.7939391732215881, 'learning_rate': 0.0022072656197344477, 'epoch': 13.97}
{'loss': 0.205, 'grad_norm': 1.5596569776535034, 'learning_rate': 0.0022065916290355194, 'epoch': 13.97}
{'loss': 0.2105, 'grad_norm': 0.4997867941856384, 'learning_rate': 0.002205917638336591, 'epoch': 13.98}
{'loss': 0.2002, 'grad_norm': 1.7373075485229492, 'learning_rate': 0.0022052436476376626, 'epoch': 13.98}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16627420485019684, 'eval_runtime': 133.1364, 'eval_samples_per_second': 111.45, 'eval_steps_per_second': 13.933, 'epoch': 13.99}
{'loss': 0.1885, 'grad_norm': 0.9051886200904846, 'learning_rate': 0.0022032216755408776, 'epoch': 13.99}
{'loss': 0.2051, 'grad_norm': 0.506118893623352, 'learning_rate': 0.0022025476848419492, 'epoch': 13.99}
{'loss': 0.2033, 'grad_norm': 0.59691321849823, 'learning_rate': 0.002201873694143021, 'epoch': 14.0}
{'loss': 0.2052, 'grad_norm': 1.5314750671386719, 'learning_rate': 0.0022011997034440925, 'epoch': 14.0}
{'loss': 0.192, 'grad_norm': 0.6102790832519531, 'learning_rate': 0.002200525712745164, 'epoch': 14.0}
{'loss': 0.1934, 'grad_norm': 0.8850330710411072, 'learning_rate': 0.002199851722046236, 'epoch': 14.01}
{'loss': 0.1666, 'grad_norm': 0.7415297031402588, 'learning_rate': 0.0021991777313473074, 'epoch': 14.01}
{'loss': 0.1914, 'grad_norm': 0.8241333961486816, 'learning_rate': 0.002198503740648379, 'epoch': 14.01}
{'loss': 0.1881, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1663399636745453, 'eval_runtime': 133.2864, 'eval_samples_per_second': 111.324, 'eval_steps_per_second': 13.917, 'epoch': 14.02}
{'loss': 0.1751, 'grad_norm': 0.5948359966278076, 'learning_rate': 0.0021964952483655726, 'epoch': 14.02}
{'loss': 0.1947, 'grad_norm': 2.7748069763183594, 'learning_rate': 0.0021958212576666442, 'epoch': 14.03}
{'loss': 0.1892, 'grad_norm': 0.35617929697036743, 'learning_rate': 0.002195147266967716, 'epoch': 14.03}
{'loss': 0.175, 'grad_norm': 0.6294859051704407, 'learning_rate': 0.0021944732762687875, 'epoch': 14.03}
{'loss': 0.2, 'grad_norm': 0.4680739939212799, 'learning_rate': 0.002193799285569859, 'epoch': 14.04}
{'loss': 0.1901, 'grad_norm': 0.6345781087875366, 'learning_rate': 0.002193125294870931, 'epoch': 14.04}
{'loss': 0.1804, 'grad_norm': 0.3658854067325592, 'learning_rate': 0.0021924513041720025, 'epoch': 14.04}
{'loss': 0.1865, 'grad_norm': 1.0118451118469238, 'learning_rate': 0.002191777313473074, 'epoch': 14.05}
{'loss': 0.183

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1662425547838211, 'eval_runtime': 133.2965, 'eval_samples_per_second': 111.316, 'eval_steps_per_second': 13.916, 'epoch': 14.05}
{'loss': 0.1818, 'grad_norm': 0.5401224493980408, 'learning_rate': 0.002189755341376289, 'epoch': 14.06}
{'loss': 0.2025, 'grad_norm': 0.5284070372581482, 'learning_rate': 0.0021890813506773607, 'epoch': 14.06}
{'loss': 0.1826, 'grad_norm': 0.6706703901290894, 'learning_rate': 0.0021884073599784323, 'epoch': 14.06}
{'loss': 0.1794, 'grad_norm': 0.6590485572814941, 'learning_rate': 0.002187733369279504, 'epoch': 14.07}
{'loss': 0.1932, 'grad_norm': 0.6587409973144531, 'learning_rate': 0.0021870593785805756, 'epoch': 14.07}
{'loss': 0.1961, 'grad_norm': 0.5233494639396667, 'learning_rate': 0.0021863853878816473, 'epoch': 14.07}
{'loss': 0.1906, 'grad_norm': 0.6935263276100159, 'learning_rate': 0.002185711397182719, 'epoch': 14.08}
{'loss': 0.2125, 'grad_norm': 1.066391944885254, 'learning_rate': 0.0021850374064837906, 'epoch': 14.08}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16771353781223297, 'eval_runtime': 134.5463, 'eval_samples_per_second': 110.282, 'eval_steps_per_second': 13.787, 'epoch': 14.09}
{'loss': 0.2074, 'grad_norm': 1.2643077373504639, 'learning_rate': 0.0021830154343870055, 'epoch': 14.09}
{'loss': 0.1901, 'grad_norm': 0.6491382122039795, 'learning_rate': 0.002182341443688077, 'epoch': 14.09}
{'loss': 0.1897, 'grad_norm': 0.5904355645179749, 'learning_rate': 0.0021816674529891488, 'epoch': 14.1}
{'loss': 0.2023, 'grad_norm': 1.4451136589050293, 'learning_rate': 0.0021809934622902204, 'epoch': 14.1}
{'loss': 0.1898, 'grad_norm': 0.510072648525238, 'learning_rate': 0.002180319471591292, 'epoch': 14.1}
{'loss': 0.1906, 'grad_norm': 0.9031052589416504, 'learning_rate': 0.0021796454808923637, 'epoch': 14.11}
{'loss': 0.1943, 'grad_norm': 0.5523892045021057, 'learning_rate': 0.0021789714901934354, 'epoch': 14.11}
{'loss': 0.203, 'grad_norm': 0.6505874991416931, 'learning_rate': 0.002178297499494507, 'epoch': 14.11}
{'loss': 0.196

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16599494218826294, 'eval_runtime': 134.1641, 'eval_samples_per_second': 110.596, 'eval_steps_per_second': 13.826, 'epoch': 14.12}
{'loss': 0.1799, 'grad_norm': 0.9120011925697327, 'learning_rate': 0.002176275527397722, 'epoch': 14.12}
{'loss': 0.1938, 'grad_norm': 0.7391086220741272, 'learning_rate': 0.0021756015366987936, 'epoch': 14.13}
{'loss': 0.1881, 'grad_norm': 1.4946346282958984, 'learning_rate': 0.0021749275459998652, 'epoch': 14.13}
{'loss': 0.2237, 'grad_norm': 0.8364036083221436, 'learning_rate': 0.0021742670351149154, 'epoch': 14.13}
{'loss': 0.198, 'grad_norm': 1.0761257410049438, 'learning_rate': 0.002173593044415987, 'epoch': 14.14}
{'loss': 0.1811, 'grad_norm': 0.9325773119926453, 'learning_rate': 0.0021729190537170587, 'epoch': 14.14}
{'loss': 0.1844, 'grad_norm': 0.453349232673645, 'learning_rate': 0.0021722450630181304, 'epoch': 14.14}
{'loss': 0.1892, 'grad_norm': 0.7236975431442261, 'learning_rate': 0.002171571072319202, 'epoch': 14.15}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16767702996730804, 'eval_runtime': 132.7999, 'eval_samples_per_second': 111.732, 'eval_steps_per_second': 13.968, 'epoch': 14.15}
{'loss': 0.1774, 'grad_norm': 0.8540838956832886, 'learning_rate': 0.002169549100222417, 'epoch': 14.16}
{'loss': 0.2072, 'grad_norm': 1.1428933143615723, 'learning_rate': 0.0021688751095234886, 'epoch': 14.16}
{'loss': 0.1977, 'grad_norm': 0.8485060334205627, 'learning_rate': 0.0021682011188245602, 'epoch': 14.16}
{'loss': 0.1818, 'grad_norm': 0.4349731206893921, 'learning_rate': 0.002167527128125632, 'epoch': 14.17}
{'loss': 0.1936, 'grad_norm': 0.6990554928779602, 'learning_rate': 0.0021668531374267035, 'epoch': 14.17}
{'loss': 0.1835, 'grad_norm': 1.2698711156845093, 'learning_rate': 0.002166179146727775, 'epoch': 14.17}
{'loss': 0.2008, 'grad_norm': 0.8802477121353149, 'learning_rate': 0.002165505156028847, 'epoch': 14.18}
{'loss': 0.1874, 'grad_norm': 0.5370802283287048, 'learning_rate': 0.0021648311653299185, 'epoch': 14.18}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16693982481956482, 'eval_runtime': 135.1992, 'eval_samples_per_second': 109.749, 'eval_steps_per_second': 13.72, 'epoch': 14.19}
{'loss': 0.1908, 'grad_norm': 1.130976676940918, 'learning_rate': 0.0021628091932331334, 'epoch': 14.19}
{'loss': 0.1984, 'grad_norm': 1.2706685066223145, 'learning_rate': 0.002162135202534205, 'epoch': 14.19}
{'loss': 0.2101, 'grad_norm': 0.9344169497489929, 'learning_rate': 0.0021614612118352767, 'epoch': 14.2}
{'loss': 0.2016, 'grad_norm': 0.519068717956543, 'learning_rate': 0.0021607872211363483, 'epoch': 14.2}
{'loss': 0.2104, 'grad_norm': 1.336992621421814, 'learning_rate': 0.00216011323043742, 'epoch': 14.2}
{'loss': 0.1739, 'grad_norm': 1.0271811485290527, 'learning_rate': 0.0021594392397384916, 'epoch': 14.21}
{'loss': 0.1888, 'grad_norm': 0.6664884686470032, 'learning_rate': 0.0021587652490395633, 'epoch': 14.21}
{'loss': 0.1867, 'grad_norm': 0.856857180595398, 'learning_rate': 0.002158091258340635, 'epoch': 14.21}
{'loss': 0.1905, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1658698320388794, 'eval_runtime': 123.674, 'eval_samples_per_second': 119.977, 'eval_steps_per_second': 14.999, 'epoch': 14.22}
{'loss': 0.1887, 'grad_norm': 1.2046128511428833, 'learning_rate': 0.00215606928624385, 'epoch': 14.22}
{'loss': 0.1919, 'grad_norm': 0.5642728209495544, 'learning_rate': 0.0021553952955449215, 'epoch': 14.23}
{'loss': 0.1901, 'grad_norm': 1.4590442180633545, 'learning_rate': 0.002154721304845993, 'epoch': 14.23}
{'loss': 0.1781, 'grad_norm': 0.753978967666626, 'learning_rate': 0.0021540473141470648, 'epoch': 14.23}
{'loss': 0.1929, 'grad_norm': 0.9816645979881287, 'learning_rate': 0.0021533733234481364, 'epoch': 14.24}
{'loss': 0.1886, 'grad_norm': 0.7351034283638, 'learning_rate': 0.002152699332749208, 'epoch': 14.24}
{'loss': 0.2, 'grad_norm': 1.0822008848190308, 'learning_rate': 0.0021520253420502797, 'epoch': 14.24}
{'loss': 0.1872, 'grad_norm': 1.9541146755218506, 'learning_rate': 0.0021513513513513514, 'epoch': 14.25}
{'loss': 0.2023, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1655532717704773, 'eval_runtime': 131.3751, 'eval_samples_per_second': 112.944, 'eval_steps_per_second': 14.12, 'epoch': 14.25}
{'loss': 0.1877, 'grad_norm': 0.658052384853363, 'learning_rate': 0.0021493293792545663, 'epoch': 14.26}
{'loss': 0.2153, 'grad_norm': 1.883954644203186, 'learning_rate': 0.002148655388555638, 'epoch': 14.26}
{'loss': 0.1744, 'grad_norm': 2.9884095191955566, 'learning_rate': 0.0021479813978567096, 'epoch': 14.27}
{'loss': 0.204, 'grad_norm': 0.4643242061138153, 'learning_rate': 0.0021473074071577812, 'epoch': 14.27}
{'loss': 0.1979, 'grad_norm': 1.2014482021331787, 'learning_rate': 0.002146633416458853, 'epoch': 14.27}
{'loss': 0.1991, 'grad_norm': 0.6036058664321899, 'learning_rate': 0.0021459594257599245, 'epoch': 14.28}
{'loss': 0.1821, 'grad_norm': 1.934370994567871, 'learning_rate': 0.002145285435060996, 'epoch': 14.28}
{'loss': 0.1913, 'grad_norm': 2.3232622146606445, 'learning_rate': 0.002144611444362068, 'epoch': 14.28}
{'loss': 0.185, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16472041606903076, 'eval_runtime': 124.9003, 'eval_samples_per_second': 118.799, 'eval_steps_per_second': 14.852, 'epoch': 14.29}
{'loss': 0.1875, 'grad_norm': 0.792296826839447, 'learning_rate': 0.0021425894722652827, 'epoch': 14.29}
{'loss': 0.1928, 'grad_norm': 1.0037833452224731, 'learning_rate': 0.0021419154815663544, 'epoch': 14.3}
{'loss': 0.1884, 'grad_norm': 0.7706697583198547, 'learning_rate': 0.002141241490867426, 'epoch': 14.3}
{'loss': 0.2045, 'grad_norm': 0.9291124939918518, 'learning_rate': 0.0021405675001684977, 'epoch': 14.3}
{'loss': 0.2029, 'grad_norm': 1.0389653444290161, 'learning_rate': 0.0021398935094695693, 'epoch': 14.31}
{'loss': 0.1899, 'grad_norm': 0.5494163036346436, 'learning_rate': 0.002139219518770641, 'epoch': 14.31}
{'loss': 0.1947, 'grad_norm': 2.222910165786743, 'learning_rate': 0.0021385455280717126, 'epoch': 14.31}
{'loss': 0.2066, 'grad_norm': 0.9170531034469604, 'learning_rate': 0.0021378715373727842, 'epoch': 14.32}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16572445631027222, 'eval_runtime': 137.9837, 'eval_samples_per_second': 107.534, 'eval_steps_per_second': 13.444, 'epoch': 14.32}
{'loss': 0.205, 'grad_norm': 0.7618184089660645, 'learning_rate': 0.002135849565275999, 'epoch': 14.33}
{'loss': 0.1981, 'grad_norm': 0.567265510559082, 'learning_rate': 0.002135175574577071, 'epoch': 14.33}
{'loss': 0.1884, 'grad_norm': 1.1256738901138306, 'learning_rate': 0.0021345015838781425, 'epoch': 14.33}
{'loss': 0.1786, 'grad_norm': 0.9263577461242676, 'learning_rate': 0.002133827593179214, 'epoch': 14.34}
{'loss': 0.1938, 'grad_norm': 1.2237365245819092, 'learning_rate': 0.0021331536024802858, 'epoch': 14.34}
{'loss': 0.1887, 'grad_norm': 0.7346927523612976, 'learning_rate': 0.0021324796117813574, 'epoch': 14.34}
{'loss': 0.1901, 'grad_norm': 0.32273200154304504, 'learning_rate': 0.002131805621082429, 'epoch': 14.35}
{'loss': 0.199, 'grad_norm': 0.4732957184314728, 'learning_rate': 0.0021311316303835007, 'epoch': 14.35}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16501140594482422, 'eval_runtime': 124.0364, 'eval_samples_per_second': 119.626, 'eval_steps_per_second': 14.955, 'epoch': 14.36}
{'loss': 0.202, 'grad_norm': 1.305282711982727, 'learning_rate': 0.0021291096582867156, 'epoch': 14.36}
{'loss': 0.1953, 'grad_norm': 0.4466100037097931, 'learning_rate': 0.0021284356675877873, 'epoch': 14.36}
{'loss': 0.1917, 'grad_norm': 0.6132956147193909, 'learning_rate': 0.002127761676888859, 'epoch': 14.37}
{'loss': 0.1792, 'grad_norm': 2.811706066131592, 'learning_rate': 0.0021270876861899306, 'epoch': 14.37}
{'loss': 0.2165, 'grad_norm': 1.4462249279022217, 'learning_rate': 0.002126413695491002, 'epoch': 14.37}
{'loss': 0.2009, 'grad_norm': 1.0124015808105469, 'learning_rate': 0.002125739704792074, 'epoch': 14.38}
{'loss': 0.1916, 'grad_norm': 1.5722765922546387, 'learning_rate': 0.0021250657140931455, 'epoch': 14.38}
{'loss': 0.1993, 'grad_norm': 0.798524022102356, 'learning_rate': 0.002124391723394217, 'epoch': 14.38}
{'loss': 0.210

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16889216005802155, 'eval_runtime': 139.9591, 'eval_samples_per_second': 106.017, 'eval_steps_per_second': 13.254, 'epoch': 14.39}
{'loss': 0.1981, 'grad_norm': 0.7939949035644531, 'learning_rate': 0.002122369751297432, 'epoch': 14.39}
{'loss': 0.2135, 'grad_norm': 1.6140540838241577, 'learning_rate': 0.0021216957605985037, 'epoch': 14.4}
{'loss': 0.2085, 'grad_norm': 0.5534228682518005, 'learning_rate': 0.0021210217698995754, 'epoch': 14.4}
{'loss': 0.1947, 'grad_norm': 1.1108578443527222, 'learning_rate': 0.002120347779200647, 'epoch': 14.4}
{'loss': 0.2052, 'grad_norm': 0.8054220080375671, 'learning_rate': 0.0021196737885017186, 'epoch': 14.41}
{'loss': 0.1991, 'grad_norm': 0.9677844047546387, 'learning_rate': 0.0021189997978027903, 'epoch': 14.41}
{'loss': 0.2096, 'grad_norm': 0.512092649936676, 'learning_rate': 0.002118325807103862, 'epoch': 14.41}
{'loss': 0.2006, 'grad_norm': 3.375703811645508, 'learning_rate': 0.0021176518164049336, 'epoch': 14.42}
{'loss': 0.201

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16946443915367126, 'eval_runtime': 139.4068, 'eval_samples_per_second': 106.437, 'eval_steps_per_second': 13.306, 'epoch': 14.42}
{'loss': 0.2164, 'grad_norm': 0.7084609866142273, 'learning_rate': 0.0021156298443081485, 'epoch': 14.43}
{'loss': 0.1927, 'grad_norm': 0.528372585773468, 'learning_rate': 0.0021149693334231987, 'epoch': 14.43}
{'loss': 0.201, 'grad_norm': 2.2835545539855957, 'learning_rate': 0.0021142953427242704, 'epoch': 14.43}
{'loss': 0.199, 'grad_norm': 0.9619613885879517, 'learning_rate': 0.002113621352025342, 'epoch': 14.44}
{'loss': 0.1985, 'grad_norm': 0.8094123601913452, 'learning_rate': 0.0021129473613264137, 'epoch': 14.44}
{'loss': 0.2037, 'grad_norm': 0.689734697341919, 'learning_rate': 0.0021122733706274853, 'epoch': 14.44}
{'loss': 0.2054, 'grad_norm': 0.6639296412467957, 'learning_rate': 0.002111599379928557, 'epoch': 14.45}
{'loss': 0.2181, 'grad_norm': 1.656415343284607, 'learning_rate': 0.0021109253892296286, 'epoch': 14.45}
{'loss': 0.20

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.17063046991825104, 'eval_runtime': 124.4611, 'eval_samples_per_second': 119.218, 'eval_steps_per_second': 14.904, 'epoch': 14.46}
{'loss': 0.1867, 'grad_norm': 0.7658302783966064, 'learning_rate': 0.0021089034171328435, 'epoch': 14.46}
{'loss': 0.1805, 'grad_norm': 0.8027178645133972, 'learning_rate': 0.002108229426433915, 'epoch': 14.46}
{'loss': 0.1927, 'grad_norm': 0.6388896107673645, 'learning_rate': 0.002107555435734987, 'epoch': 14.47}
{'loss': 0.2139, 'grad_norm': 1.329906940460205, 'learning_rate': 0.0021068814450360585, 'epoch': 14.47}
{'loss': 0.2052, 'grad_norm': 0.5590242147445679, 'learning_rate': 0.00210620745433713, 'epoch': 14.47}
{'loss': 0.2054, 'grad_norm': 1.5720173120498657, 'learning_rate': 0.0021055334636382018, 'epoch': 14.48}
{'loss': 0.1952, 'grad_norm': 0.5760037302970886, 'learning_rate': 0.0021048594729392734, 'epoch': 14.48}
{'loss': 0.1838, 'grad_norm': 1.3052003383636475, 'learning_rate': 0.002104185482240345, 'epoch': 14.48}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16339761018753052, 'eval_runtime': 123.6797, 'eval_samples_per_second': 119.971, 'eval_steps_per_second': 14.998, 'epoch': 14.49}
{'loss': 0.1897, 'grad_norm': 0.8326614499092102, 'learning_rate': 0.00210216351014356, 'epoch': 14.49}
{'loss': 0.1812, 'grad_norm': 1.0129680633544922, 'learning_rate': 0.0021014895194446316, 'epoch': 14.5}
{'loss': 0.1874, 'grad_norm': 2.940329074859619, 'learning_rate': 0.0021008155287457033, 'epoch': 14.5}
{'loss': 0.1938, 'grad_norm': 1.4524497985839844, 'learning_rate': 0.002100141538046775, 'epoch': 14.5}
{'loss': 0.2191, 'grad_norm': 5.557592868804932, 'learning_rate': 0.0020994675473478466, 'epoch': 14.51}
{'loss': 0.1951, 'grad_norm': 0.7184818983078003, 'learning_rate': 0.002098793556648918, 'epoch': 14.51}
{'loss': 0.1946, 'grad_norm': 0.9907131791114807, 'learning_rate': 0.00209811956594999, 'epoch': 14.51}
{'loss': 0.1937, 'grad_norm': 0.3526242673397064, 'learning_rate': 0.0020974455752510615, 'epoch': 14.52}
{'loss': 0.2265, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16461679339408875, 'eval_runtime': 139.3876, 'eval_samples_per_second': 106.451, 'eval_steps_per_second': 13.308, 'epoch': 14.52}
{'loss': 0.2024, 'grad_norm': 1.4286038875579834, 'learning_rate': 0.0020954236031542764, 'epoch': 14.53}
{'loss': 0.2158, 'grad_norm': 0.957980215549469, 'learning_rate': 0.002094749612455348, 'epoch': 14.53}
{'loss': 0.1897, 'grad_norm': 0.7045586109161377, 'learning_rate': 0.0020940756217564197, 'epoch': 14.53}
{'loss': 0.1999, 'grad_norm': 1.6326888799667358, 'learning_rate': 0.00209341511087147, 'epoch': 14.54}
{'loss': 0.209, 'grad_norm': 2.5813283920288086, 'learning_rate': 0.0020927411201725416, 'epoch': 14.54}
{'loss': 0.188, 'grad_norm': 2.020540237426758, 'learning_rate': 0.0020920671294736132, 'epoch': 14.54}
{'loss': 0.2085, 'grad_norm': 3.5573644638061523, 'learning_rate': 0.002091393138774685, 'epoch': 14.55}
{'loss': 0.1947, 'grad_norm': 1.771781086921692, 'learning_rate': 0.0020907191480757565, 'epoch': 14.55}
{'loss': 0.1882

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1650361269712448, 'eval_runtime': 124.0849, 'eval_samples_per_second': 119.579, 'eval_steps_per_second': 14.949, 'epoch': 14.56}
{'loss': 0.1986, 'grad_norm': 1.5541322231292725, 'learning_rate': 0.0020886971759789714, 'epoch': 14.56}
{'loss': 0.2064, 'grad_norm': 1.1832386255264282, 'learning_rate': 0.002088023185280043, 'epoch': 14.56}
{'loss': 0.2006, 'grad_norm': 1.3470969200134277, 'learning_rate': 0.0020873491945811147, 'epoch': 14.57}
{'loss': 0.1907, 'grad_norm': 1.0621135234832764, 'learning_rate': 0.0020866752038821864, 'epoch': 14.57}
{'loss': 0.2016, 'grad_norm': 2.5627546310424805, 'learning_rate': 0.002086001213183258, 'epoch': 14.58}
{'loss': 0.2002, 'grad_norm': 2.582453727722168, 'learning_rate': 0.0020853272224843297, 'epoch': 14.58}
{'loss': 0.1806, 'grad_norm': 0.6114706993103027, 'learning_rate': 0.0020846532317854013, 'epoch': 14.58}
{'loss': 0.2092, 'grad_norm': 0.6839767098426819, 'learning_rate': 0.002083979241086473, 'epoch': 14.59}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1633388251066208, 'eval_runtime': 124.1952, 'eval_samples_per_second': 119.473, 'eval_steps_per_second': 14.936, 'epoch': 14.59}
{'loss': 0.1908, 'grad_norm': 0.6554729342460632, 'learning_rate': 0.002081957268989688, 'epoch': 14.6}
{'loss': 0.1887, 'grad_norm': 0.9842514395713806, 'learning_rate': 0.0020812832782907595, 'epoch': 14.6}
{'loss': 0.21, 'grad_norm': 0.9576395750045776, 'learning_rate': 0.002080609287591831, 'epoch': 14.6}
{'loss': 0.1997, 'grad_norm': 0.7822532653808594, 'learning_rate': 0.002079935296892903, 'epoch': 14.61}
{'loss': 0.2086, 'grad_norm': 1.2932424545288086, 'learning_rate': 0.0020792613061939745, 'epoch': 14.61}
{'loss': 0.205, 'grad_norm': 1.7435169219970703, 'learning_rate': 0.002078587315495046, 'epoch': 14.61}
{'loss': 0.1955, 'grad_norm': 0.7908026576042175, 'learning_rate': 0.0020779133247961178, 'epoch': 14.62}
{'loss': 0.2069, 'grad_norm': 0.5818520784378052, 'learning_rate': 0.0020772393340971894, 'epoch': 14.62}
{'loss': 0.1972, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16309133172035217, 'eval_runtime': 123.5131, 'eval_samples_per_second': 120.133, 'eval_steps_per_second': 15.019, 'epoch': 14.63}
{'loss': 0.192, 'grad_norm': 1.2771015167236328, 'learning_rate': 0.0020752173620004043, 'epoch': 14.63}
{'loss': 0.1816, 'grad_norm': 1.2686238288879395, 'learning_rate': 0.002074543371301476, 'epoch': 14.63}
{'loss': 0.1843, 'grad_norm': 3.7746031284332275, 'learning_rate': 0.0020738693806025476, 'epoch': 14.64}
{'loss': 0.2158, 'grad_norm': 0.49647292494773865, 'learning_rate': 0.0020731953899036193, 'epoch': 14.64}
{'loss': 0.1966, 'grad_norm': 0.9407914280891418, 'learning_rate': 0.002072521399204691, 'epoch': 14.64}
{'loss': 0.1932, 'grad_norm': 0.6009613871574402, 'learning_rate': 0.0020718474085057626, 'epoch': 14.65}
{'loss': 0.209, 'grad_norm': 0.46712788939476013, 'learning_rate': 0.002071173417806834, 'epoch': 14.65}
{'loss': 0.2136, 'grad_norm': 4.013754844665527, 'learning_rate': 0.002070499427107906, 'epoch': 14.65}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16852456331253052, 'eval_runtime': 139.8832, 'eval_samples_per_second': 106.074, 'eval_steps_per_second': 13.261, 'epoch': 14.66}
{'loss': 0.2085, 'grad_norm': 1.263174057006836, 'learning_rate': 0.002068477455011121, 'epoch': 14.66}
{'loss': 0.1968, 'grad_norm': 1.1623867750167847, 'learning_rate': 0.0020678034643121924, 'epoch': 14.67}
{'loss': 0.1942, 'grad_norm': 0.7769956588745117, 'learning_rate': 0.002067129473613264, 'epoch': 14.67}
{'loss': 0.1954, 'grad_norm': 1.3453724384307861, 'learning_rate': 0.0020664554829143357, 'epoch': 14.67}
{'loss': 0.173, 'grad_norm': 0.734195351600647, 'learning_rate': 0.0020657814922154074, 'epoch': 14.68}
{'loss': 0.2083, 'grad_norm': 2.546260356903076, 'learning_rate': 0.002065107501516479, 'epoch': 14.68}
{'loss': 0.2091, 'grad_norm': 0.5488759875297546, 'learning_rate': 0.0020644335108175507, 'epoch': 14.68}
{'loss': 0.1887, 'grad_norm': 0.7582145929336548, 'learning_rate': 0.0020637595201186223, 'epoch': 14.69}
{'loss': 0.20

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16548900306224823, 'eval_runtime': 123.7318, 'eval_samples_per_second': 119.921, 'eval_steps_per_second': 14.992, 'epoch': 14.69}
{'loss': 0.1842, 'grad_norm': 0.7349487543106079, 'learning_rate': 0.0020617375480218372, 'epoch': 14.7}
{'loss': 0.1837, 'grad_norm': 1.2704542875289917, 'learning_rate': 0.002061063557322909, 'epoch': 14.7}
{'loss': 0.2064, 'grad_norm': 1.955412745475769, 'learning_rate': 0.0020603895666239805, 'epoch': 14.7}
{'loss': 0.1862, 'grad_norm': 0.5356597900390625, 'learning_rate': 0.002059715575925052, 'epoch': 14.71}
{'loss': 0.1956, 'grad_norm': 0.5198425650596619, 'learning_rate': 0.0020590415852261242, 'epoch': 14.71}
{'loss': 0.1972, 'grad_norm': 1.2962560653686523, 'learning_rate': 0.002058367594527196, 'epoch': 14.71}
{'loss': 0.2153, 'grad_norm': 0.7539029717445374, 'learning_rate': 0.002057693603828267, 'epoch': 14.72}
{'loss': 0.193, 'grad_norm': 0.8488211035728455, 'learning_rate': 0.0020570196131293387, 'epoch': 14.72}
{'loss': 0.1951

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16265477240085602, 'eval_runtime': 124.9435, 'eval_samples_per_second': 118.758, 'eval_steps_per_second': 14.847, 'epoch': 14.73}
{'loss': 0.2017, 'grad_norm': 0.47693389654159546, 'learning_rate': 0.0020549976410325537, 'epoch': 14.73}
{'loss': 0.1982, 'grad_norm': 1.5682286024093628, 'learning_rate': 0.0020543236503336253, 'epoch': 14.73}
{'loss': 0.1919, 'grad_norm': 0.7691118121147156, 'learning_rate': 0.002053649659634697, 'epoch': 14.74}
{'loss': 0.1861, 'grad_norm': 1.2711514234542847, 'learning_rate': 0.0020529756689357686, 'epoch': 14.74}
{'loss': 0.1912, 'grad_norm': 1.3698621988296509, 'learning_rate': 0.0020523016782368403, 'epoch': 14.74}
{'loss': 0.1957, 'grad_norm': 1.0361298322677612, 'learning_rate': 0.002051627687537912, 'epoch': 14.75}
{'loss': 0.214, 'grad_norm': 3.38273549079895, 'learning_rate': 0.0020509536968389835, 'epoch': 14.75}
{'loss': 0.2106, 'grad_norm': 0.7967314720153809, 'learning_rate': 0.002050279706140055, 'epoch': 14.75}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16947945952415466, 'eval_runtime': 122.9145, 'eval_samples_per_second': 120.718, 'eval_steps_per_second': 15.092, 'epoch': 14.76}
{'loss': 0.1913, 'grad_norm': 1.9478927850723267, 'learning_rate': 0.0020482577340432706, 'epoch': 14.76}
{'loss': 0.2019, 'grad_norm': 2.126290798187256, 'learning_rate': 0.002047583743344342, 'epoch': 14.77}
{'loss': 0.2015, 'grad_norm': 1.2637526988983154, 'learning_rate': 0.0020469097526454134, 'epoch': 14.77}
{'loss': 0.2142, 'grad_norm': 0.3715627193450928, 'learning_rate': 0.002046235761946485, 'epoch': 14.77}
{'loss': 0.1862, 'grad_norm': 1.807557225227356, 'learning_rate': 0.0020455617712475567, 'epoch': 14.78}
{'loss': 0.1973, 'grad_norm': 8.522318840026855, 'learning_rate': 0.0020448877805486283, 'epoch': 14.78}
{'loss': 0.2046, 'grad_norm': 0.39234286546707153, 'learning_rate': 0.0020442272696636786, 'epoch': 14.78}
{'loss': 0.1895, 'grad_norm': 0.71071457862854, 'learning_rate': 0.00204355327896475, 'epoch': 14.79}
{'loss': 0.191

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16213731467723846, 'eval_runtime': 124.7417, 'eval_samples_per_second': 118.95, 'eval_steps_per_second': 14.871, 'epoch': 14.79}
{'loss': 0.1859, 'grad_norm': 0.560038685798645, 'learning_rate': 0.002041531306867965, 'epoch': 14.8}
{'loss': 0.1932, 'grad_norm': 0.6426265835762024, 'learning_rate': 0.002040857316169037, 'epoch': 14.8}
{'loss': 0.2011, 'grad_norm': 1.3927315473556519, 'learning_rate': 0.0020401833254701084, 'epoch': 14.8}
{'loss': 0.1949, 'grad_norm': 0.646324872970581, 'learning_rate': 0.00203950933477118, 'epoch': 14.81}
{'loss': 0.1815, 'grad_norm': 0.4266411364078522, 'learning_rate': 0.0020388353440722517, 'epoch': 14.81}
{'loss': 0.2051, 'grad_norm': 1.1706188917160034, 'learning_rate': 0.0020381613533733234, 'epoch': 14.81}
{'loss': 0.2041, 'grad_norm': 0.9530718326568604, 'learning_rate': 0.002037487362674395, 'epoch': 14.82}
{'loss': 0.1993, 'grad_norm': 1.176758885383606, 'learning_rate': 0.0020368268517894452, 'epoch': 14.82}
{'loss': 0.2123, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1657954305410385, 'eval_runtime': 133.7927, 'eval_samples_per_second': 110.903, 'eval_steps_per_second': 13.865, 'epoch': 14.83}
{'loss': 0.2145, 'grad_norm': 1.1940535306930542, 'learning_rate': 0.00203480487969266, 'epoch': 14.83}
{'loss': 0.2161, 'grad_norm': 1.0492278337478638, 'learning_rate': 0.002034130888993732, 'epoch': 14.83}
{'loss': 0.2052, 'grad_norm': 14.744515419006348, 'learning_rate': 0.0020334568982948035, 'epoch': 14.84}
{'loss': 0.2025, 'grad_norm': 3.6014115810394287, 'learning_rate': 0.002032782907595875, 'epoch': 14.84}
{'loss': 0.202, 'grad_norm': 5.436100482940674, 'learning_rate': 0.002032108916896947, 'epoch': 14.84}
{'loss': 0.2001, 'grad_norm': 1.1293904781341553, 'learning_rate': 0.002031434926198019, 'epoch': 14.85}
{'loss': 0.183, 'grad_norm': 0.6287887692451477, 'learning_rate': 0.00203076093549909, 'epoch': 14.85}
{'loss': 0.19, 'grad_norm': 0.8355227112770081, 'learning_rate': 0.0020300869448001617, 'epoch': 14.85}
{'loss': 0.1904, 'gr

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16455690562725067, 'eval_runtime': 136.9049, 'eval_samples_per_second': 108.382, 'eval_steps_per_second': 13.55, 'epoch': 14.86}
{'loss': 0.1862, 'grad_norm': 0.848208487033844, 'learning_rate': 0.0020280649727033766, 'epoch': 14.86}
{'loss': 0.1979, 'grad_norm': 0.6215055584907532, 'learning_rate': 0.0020273909820044483, 'epoch': 14.87}
{'loss': 0.1945, 'grad_norm': 0.7745224833488464, 'learning_rate': 0.00202671699130552, 'epoch': 14.87}
{'loss': 0.1909, 'grad_norm': 1.1491632461547852, 'learning_rate': 0.0020260430006065915, 'epoch': 14.87}
{'loss': 0.2145, 'grad_norm': 0.8415196537971497, 'learning_rate': 0.002025369009907663, 'epoch': 14.88}
{'loss': 0.1997, 'grad_norm': 0.7002787590026855, 'learning_rate': 0.002024695019208735, 'epoch': 14.88}
{'loss': 0.1912, 'grad_norm': 0.8993040919303894, 'learning_rate': 0.0020240210285098065, 'epoch': 14.89}
{'loss': 0.1854, 'grad_norm': 6.895497798919678, 'learning_rate': 0.002023347037810878, 'epoch': 14.89}
{'loss': 0.193

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16218379139900208, 'eval_runtime': 136.9097, 'eval_samples_per_second': 108.378, 'eval_steps_per_second': 13.549, 'epoch': 14.9}
{'loss': 0.1873, 'grad_norm': 0.4971499741077423, 'learning_rate': 0.0020213250657140935, 'epoch': 14.9}
{'loss': 0.1959, 'grad_norm': 0.6042268872261047, 'learning_rate': 0.002020651075015165, 'epoch': 14.9}
{'loss': 0.185, 'grad_norm': 2.153886556625366, 'learning_rate': 0.0020199770843162363, 'epoch': 14.91}
{'loss': 0.1957, 'grad_norm': 0.7052049040794373, 'learning_rate': 0.002019303093617308, 'epoch': 14.91}
{'loss': 0.2121, 'grad_norm': 0.574795663356781, 'learning_rate': 0.0020186291029183796, 'epoch': 14.91}
{'loss': 0.1855, 'grad_norm': 0.8635181188583374, 'learning_rate': 0.0020179551122194513, 'epoch': 14.92}
{'loss': 0.1777, 'grad_norm': 1.0832111835479736, 'learning_rate': 0.002017281121520523, 'epoch': 14.92}
{'loss': 0.2087, 'grad_norm': 0.6108076572418213, 'learning_rate': 0.0020166071308215946, 'epoch': 14.92}
{'loss': 0.1952

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1588355451822281, 'eval_runtime': 153.1071, 'eval_samples_per_second': 96.913, 'eval_steps_per_second': 12.116, 'epoch': 14.93}
{'loss': 0.1942, 'grad_norm': 1.0120872259140015, 'learning_rate': 0.0020145851587248095, 'epoch': 14.93}
{'loss': 0.1919, 'grad_norm': 0.5634039640426636, 'learning_rate': 0.002013911168025881, 'epoch': 14.94}
{'loss': 0.1959, 'grad_norm': 0.8246233463287354, 'learning_rate': 0.002013237177326953, 'epoch': 14.94}
{'loss': 0.1861, 'grad_norm': 1.0917036533355713, 'learning_rate': 0.0020125631866280244, 'epoch': 14.94}
{'loss': 0.2081, 'grad_norm': 1.459808349609375, 'learning_rate': 0.002011889195929096, 'epoch': 14.95}
{'loss': 0.2031, 'grad_norm': 0.8091724514961243, 'learning_rate': 0.002011215205230168, 'epoch': 14.95}
{'loss': 0.1891, 'grad_norm': 0.8780566453933716, 'learning_rate': 0.00201054121453124, 'epoch': 14.95}
{'loss': 0.202, 'grad_norm': 1.140264630317688, 'learning_rate': 0.0020098672238323114, 'epoch': 14.96}
{'loss': 0.1835, 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16378554701805115, 'eval_runtime': 151.1026, 'eval_samples_per_second': 98.198, 'eval_steps_per_second': 12.276, 'epoch': 14.96}
{'loss': 0.1983, 'grad_norm': 0.8347470164299011, 'learning_rate': 0.002007845251735526, 'epoch': 14.97}
{'loss': 0.1898, 'grad_norm': 1.4177566766738892, 'learning_rate': 0.0020071712610365976, 'epoch': 14.97}
{'loss': 0.197, 'grad_norm': 0.5933719277381897, 'learning_rate': 0.0020064972703376692, 'epoch': 14.97}
{'loss': 0.1956, 'grad_norm': 1.1868621110916138, 'learning_rate': 0.002005823279638741, 'epoch': 14.98}
{'loss': 0.2096, 'grad_norm': 0.717094361782074, 'learning_rate': 0.0020051492889398125, 'epoch': 14.98}
{'loss': 0.1838, 'grad_norm': 0.3978978991508484, 'learning_rate': 0.002004475298240884, 'epoch': 14.98}
{'loss': 0.2142, 'grad_norm': 0.6804729104042053, 'learning_rate': 0.002003801307541956, 'epoch': 14.99}
{'loss': 0.2025, 'grad_norm': 0.4103628396987915, 'learning_rate': 0.0020031273168430275, 'epoch': 14.99}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1594056636095047, 'eval_runtime': 138.5334, 'eval_samples_per_second': 107.108, 'eval_steps_per_second': 13.39, 'epoch': 15.0}
{'loss': 0.2128, 'grad_norm': 0.5249440670013428, 'learning_rate': 0.002001105344746243, 'epoch': 15.0}
{'loss': 0.1836, 'grad_norm': 0.8428579568862915, 'learning_rate': 0.0020004313540473145, 'epoch': 15.0}
{'loss': 0.1735, 'grad_norm': 0.6775878667831421, 'learning_rate': 0.001999757363348386, 'epoch': 15.01}
{'loss': 0.1769, 'grad_norm': 0.9751831293106079, 'learning_rate': 0.0019990833726494578, 'epoch': 15.01}
{'loss': 0.1909, 'grad_norm': 1.1812752485275269, 'learning_rate': 0.001998409381950529, 'epoch': 15.01}
{'loss': 0.1788, 'grad_norm': 0.3735264241695404, 'learning_rate': 0.0019977353912516006, 'epoch': 15.02}
{'loss': 0.1812, 'grad_norm': 1.067530632019043, 'learning_rate': 0.0019970614005526723, 'epoch': 15.02}
{'loss': 0.1844, 'grad_norm': 0.9997179508209229, 'learning_rate': 0.001996387409853744, 'epoch': 15.02}
{'loss': 0.1968,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16486598551273346, 'eval_runtime': 131.5702, 'eval_samples_per_second': 112.776, 'eval_steps_per_second': 14.099, 'epoch': 15.03}
{'loss': 0.1853, 'grad_norm': 0.20234550535678864, 'learning_rate': 0.001994365437756959, 'epoch': 15.03}
{'loss': 0.1932, 'grad_norm': 0.8585432171821594, 'learning_rate': 0.0019936914470580305, 'epoch': 15.04}
{'loss': 0.1811, 'grad_norm': 1.896860957145691, 'learning_rate': 0.001993017456359102, 'epoch': 15.04}
{'loss': 0.187, 'grad_norm': 1.785478115081787, 'learning_rate': 0.0019923434656601738, 'epoch': 15.04}
{'loss': 0.1713, 'grad_norm': 0.640398383140564, 'learning_rate': 0.0019916694749612454, 'epoch': 15.05}
{'loss': 0.1598, 'grad_norm': 0.29926538467407227, 'learning_rate': 0.0019909954842623175, 'epoch': 15.05}
{'loss': 0.1803, 'grad_norm': 0.966969907283783, 'learning_rate': 0.001990321493563389, 'epoch': 15.05}
{'loss': 0.1902, 'grad_norm': 0.47710633277893066, 'learning_rate': 0.0019896475028644608, 'epoch': 15.06}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16025538742542267, 'eval_runtime': 125.5158, 'eval_samples_per_second': 118.216, 'eval_steps_per_second': 14.779, 'epoch': 15.06}
{'loss': 0.1772, 'grad_norm': 4.767093181610107, 'learning_rate': 0.0019876255307676753, 'epoch': 15.07}
{'loss': 0.1787, 'grad_norm': 1.1573799848556519, 'learning_rate': 0.001986951540068747, 'epoch': 15.07}
{'loss': 0.1759, 'grad_norm': 0.6534596681594849, 'learning_rate': 0.0019862775493698186, 'epoch': 15.07}
{'loss': 0.1792, 'grad_norm': 0.5932478308677673, 'learning_rate': 0.00198560355867089, 'epoch': 15.08}
{'loss': 0.1737, 'grad_norm': 0.3891542851924896, 'learning_rate': 0.001984929567971962, 'epoch': 15.08}
{'loss': 0.1743, 'grad_norm': 4.833717346191406, 'learning_rate': 0.0019842555772730335, 'epoch': 15.08}
{'loss': 0.1847, 'grad_norm': 0.28796401619911194, 'learning_rate': 0.001983581586574105, 'epoch': 15.09}
{'loss': 0.1846, 'grad_norm': 0.3429415822029114, 'learning_rate': 0.001982907595875177, 'epoch': 15.09}
{'loss': 0.20

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15911872684955597, 'eval_runtime': 132.238, 'eval_samples_per_second': 112.207, 'eval_steps_per_second': 14.028, 'epoch': 15.1}
{'loss': 0.1785, 'grad_norm': 0.4357880651950836, 'learning_rate': 0.0019808856237783917, 'epoch': 15.1}
{'loss': 0.1689, 'grad_norm': 1.2891688346862793, 'learning_rate': 0.001980211633079464, 'epoch': 15.1}
{'loss': 0.1895, 'grad_norm': 0.7226392030715942, 'learning_rate': 0.0019795376423805354, 'epoch': 15.11}
{'loss': 0.1739, 'grad_norm': 0.7148640155792236, 'learning_rate': 0.0019788771314955852, 'epoch': 15.11}
{'loss': 0.1701, 'grad_norm': 0.9818695187568665, 'learning_rate': 0.001978203140796657, 'epoch': 15.11}
{'loss': 0.1747, 'grad_norm': 0.6867231726646423, 'learning_rate': 0.001977529150097729, 'epoch': 15.12}
{'loss': 0.1761, 'grad_norm': 0.47694796323776245, 'learning_rate': 0.0019768551593988006, 'epoch': 15.12}
{'loss': 0.1866, 'grad_norm': 0.7312054634094238, 'learning_rate': 0.0019761811686998722, 'epoch': 15.12}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16117802262306213, 'eval_runtime': 133.5581, 'eval_samples_per_second': 111.098, 'eval_steps_per_second': 13.889, 'epoch': 15.13}
{'loss': 0.1737, 'grad_norm': 0.8496211171150208, 'learning_rate': 0.0019741591966030867, 'epoch': 15.13}
{'loss': 0.1948, 'grad_norm': 0.7606781125068665, 'learning_rate': 0.0019734852059041584, 'epoch': 15.14}
{'loss': 0.1829, 'grad_norm': 0.43899762630462646, 'learning_rate': 0.00197281121520523, 'epoch': 15.14}
{'loss': 0.2012, 'grad_norm': 3.113233804702759, 'learning_rate': 0.0019721372245063017, 'epoch': 15.14}
{'loss': 0.1734, 'grad_norm': 0.6142327785491943, 'learning_rate': 0.0019714632338073733, 'epoch': 15.15}
{'loss': 0.1745, 'grad_norm': 5.256779193878174, 'learning_rate': 0.001970789243108445, 'epoch': 15.15}
{'loss': 0.18, 'grad_norm': 0.27101486921310425, 'learning_rate': 0.0019701152524095166, 'epoch': 15.15}
{'loss': 0.1744, 'grad_norm': 0.7758269906044006, 'learning_rate': 0.0019694412617105883, 'epoch': 15.16}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16383063793182373, 'eval_runtime': 135.8962, 'eval_samples_per_second': 109.186, 'eval_steps_per_second': 13.65, 'epoch': 15.16}
{'loss': 0.182, 'grad_norm': 1.156564474105835, 'learning_rate': 0.0019674192896138036, 'epoch': 15.17}
{'loss': 0.1985, 'grad_norm': 3.1906425952911377, 'learning_rate': 0.0019667452989148753, 'epoch': 15.17}
{'loss': 0.1784, 'grad_norm': 0.48129594326019287, 'learning_rate': 0.001966071308215947, 'epoch': 15.17}
{'loss': 0.1902, 'grad_norm': 2.959059476852417, 'learning_rate': 0.0019653973175170186, 'epoch': 15.18}
{'loss': 0.1966, 'grad_norm': 0.5763266086578369, 'learning_rate': 0.00196472332681809, 'epoch': 15.18}
{'loss': 0.1916, 'grad_norm': 1.017869472503662, 'learning_rate': 0.001964049336119162, 'epoch': 15.19}
{'loss': 0.1909, 'grad_norm': 0.5060833692550659, 'learning_rate': 0.001963375345420233, 'epoch': 15.19}
{'loss': 0.1838, 'grad_norm': 1.0613125562667847, 'learning_rate': 0.0019627013547213047, 'epoch': 15.19}
{'loss': 0.1731

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1604340821504593, 'eval_runtime': 133.3905, 'eval_samples_per_second': 111.237, 'eval_steps_per_second': 13.907, 'epoch': 15.2}
{'loss': 0.1845, 'grad_norm': 1.4301844835281372, 'learning_rate': 0.0019606793826245196, 'epoch': 15.2}
{'loss': 0.1864, 'grad_norm': 3.134854555130005, 'learning_rate': 0.0019600053919255913, 'epoch': 15.21}
{'loss': 0.2043, 'grad_norm': 4.422494888305664, 'learning_rate': 0.001959331401226663, 'epoch': 15.21}
{'loss': 0.1833, 'grad_norm': 1.093657374382019, 'learning_rate': 0.0019586574105277346, 'epoch': 15.21}
{'loss': 0.1806, 'grad_norm': 1.0244258642196655, 'learning_rate': 0.001957983419828806, 'epoch': 15.22}
{'loss': 0.1865, 'grad_norm': 0.8217487931251526, 'learning_rate': 0.001957309429129878, 'epoch': 15.22}
{'loss': 0.1754, 'grad_norm': 0.923288106918335, 'learning_rate': 0.00195663543843095, 'epoch': 15.22}
{'loss': 0.1895, 'grad_norm': 0.6970086097717285, 'learning_rate': 0.0019559614477320216, 'epoch': 15.23}
{'loss': 0.1992, '

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1640884280204773, 'eval_runtime': 134.2006, 'eval_samples_per_second': 110.566, 'eval_steps_per_second': 13.823, 'epoch': 15.23}
{'loss': 0.1923, 'grad_norm': 1.6189522743225098, 'learning_rate': 0.0019539394756352365, 'epoch': 15.24}
{'loss': 0.1791, 'grad_norm': 2.8213887214660645, 'learning_rate': 0.001953265484936308, 'epoch': 15.24}
{'loss': 0.1827, 'grad_norm': 0.7576891779899597, 'learning_rate': 0.0019525914942373796, 'epoch': 15.24}
{'loss': 0.1759, 'grad_norm': 4.8641228675842285, 'learning_rate': 0.0019519175035384512, 'epoch': 15.25}
{'loss': 0.1705, 'grad_norm': 0.708992063999176, 'learning_rate': 0.0019512435128395229, 'epoch': 15.25}
{'loss': 0.1793, 'grad_norm': 0.8988856077194214, 'learning_rate': 0.0019505695221405945, 'epoch': 15.25}
{'loss': 0.1802, 'grad_norm': 0.7123992443084717, 'learning_rate': 0.0019498955314416662, 'epoch': 15.26}
{'loss': 0.1899, 'grad_norm': 0.8194879293441772, 'learning_rate': 0.0019492215407427378, 'epoch': 15.26}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1637800931930542, 'eval_runtime': 135.8608, 'eval_samples_per_second': 109.215, 'eval_steps_per_second': 13.654, 'epoch': 15.27}
{'loss': 0.1884, 'grad_norm': 0.5014209151268005, 'learning_rate': 0.0019471995686459525, 'epoch': 15.27}
{'loss': 0.1961, 'grad_norm': 0.5283305644989014, 'learning_rate': 0.0019465255779470246, 'epoch': 15.27}
{'loss': 0.1857, 'grad_norm': 2.8619134426116943, 'learning_rate': 0.001945851587248096, 'epoch': 15.28}
{'loss': 0.1846, 'grad_norm': 0.9411094784736633, 'learning_rate': 0.001945191076363146, 'epoch': 15.28}
{'loss': 0.1822, 'grad_norm': 1.0752222537994385, 'learning_rate': 0.0019445170856642177, 'epoch': 15.28}
{'loss': 0.1932, 'grad_norm': 1.2023744583129883, 'learning_rate': 0.0019438430949652893, 'epoch': 15.29}
{'loss': 0.1906, 'grad_norm': 2.3773305416107178, 'learning_rate': 0.0019431691042663612, 'epoch': 15.29}
{'loss': 0.1859, 'grad_norm': 0.5351672768592834, 'learning_rate': 0.0019424951135674328, 'epoch': 15.29}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16154372692108154, 'eval_runtime': 134.8481, 'eval_samples_per_second': 110.035, 'eval_steps_per_second': 13.756, 'epoch': 15.3}
{'loss': 0.1953, 'grad_norm': 0.41502171754837036, 'learning_rate': 0.0019404731414706478, 'epoch': 15.3}
{'loss': 0.1851, 'grad_norm': 0.7074177861213684, 'learning_rate': 0.0019397991507717194, 'epoch': 15.31}
{'loss': 0.1851, 'grad_norm': 1.5694047212600708, 'learning_rate': 0.001939125160072791, 'epoch': 15.31}
{'loss': 0.1922, 'grad_norm': 1.155737280845642, 'learning_rate': 0.0019384511693738627, 'epoch': 15.31}
{'loss': 0.1807, 'grad_norm': 2.7066545486450195, 'learning_rate': 0.0019377771786749343, 'epoch': 15.32}
{'loss': 0.188, 'grad_norm': 0.837805449962616, 'learning_rate': 0.001937103187976006, 'epoch': 15.32}
{'loss': 0.1789, 'grad_norm': 0.38744300603866577, 'learning_rate': 0.0019364291972770776, 'epoch': 15.32}
{'loss': 0.1752, 'grad_norm': 0.27748310565948486, 'learning_rate': 0.0019357552065781493, 'epoch': 15.33}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16141308844089508, 'eval_runtime': 134.6451, 'eval_samples_per_second': 110.201, 'eval_steps_per_second': 13.777, 'epoch': 15.33}
{'loss': 0.1733, 'grad_norm': 0.9744824171066284, 'learning_rate': 0.001933733234481364, 'epoch': 15.34}
{'loss': 0.1813, 'grad_norm': 2.7827441692352295, 'learning_rate': 0.001933059243782436, 'epoch': 15.34}
{'loss': 0.1891, 'grad_norm': 0.4227255582809448, 'learning_rate': 0.0019323852530835075, 'epoch': 15.34}
{'loss': 0.1691, 'grad_norm': 1.8540124893188477, 'learning_rate': 0.0019317112623845791, 'epoch': 15.35}
{'loss': 0.1726, 'grad_norm': 1.596339464187622, 'learning_rate': 0.0019310372716856508, 'epoch': 15.35}
{'loss': 0.1794, 'grad_norm': 0.8791779279708862, 'learning_rate': 0.0019303632809867224, 'epoch': 15.35}
{'loss': 0.1888, 'grad_norm': 0.8542743921279907, 'learning_rate': 0.001929689290287794, 'epoch': 15.36}
{'loss': 0.1733, 'grad_norm': 0.5613666772842407, 'learning_rate': 0.0019290152995888657, 'epoch': 15.36}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15960262715816498, 'eval_runtime': 135.3445, 'eval_samples_per_second': 109.631, 'eval_steps_per_second': 13.706, 'epoch': 15.37}
{'loss': 0.1702, 'grad_norm': 0.9848719239234924, 'learning_rate': 0.0019269933274920807, 'epoch': 15.37}
{'loss': 0.1823, 'grad_norm': 1.2956463098526, 'learning_rate': 0.0019263193367931523, 'epoch': 15.37}
{'loss': 0.1947, 'grad_norm': 0.7835023403167725, 'learning_rate': 0.001925645346094224, 'epoch': 15.38}
{'loss': 0.1829, 'grad_norm': 1.5616495609283447, 'learning_rate': 0.0019249713553952956, 'epoch': 15.38}
{'loss': 0.1888, 'grad_norm': 1.839317798614502, 'learning_rate': 0.0019242973646963672, 'epoch': 15.38}
{'loss': 0.1917, 'grad_norm': 2.485060930252075, 'learning_rate': 0.0019236233739974387, 'epoch': 15.39}
{'loss': 0.1901, 'grad_norm': 1.4406254291534424, 'learning_rate': 0.0019229493832985107, 'epoch': 15.39}
{'loss': 0.1717, 'grad_norm': 0.5281134843826294, 'learning_rate': 0.0019222753925995824, 'epoch': 15.39}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.16021354496479034, 'eval_runtime': 134.4738, 'eval_samples_per_second': 110.341, 'eval_steps_per_second': 13.795, 'epoch': 15.4}
{'loss': 0.1789, 'grad_norm': 0.4461996853351593, 'learning_rate': 0.001920253420502797, 'epoch': 15.4}
{'loss': 0.1846, 'grad_norm': 0.6892366409301758, 'learning_rate': 0.0019195794298038687, 'epoch': 15.41}
{'loss': 0.1714, 'grad_norm': 3.070817708969116, 'learning_rate': 0.0019189054391049404, 'epoch': 15.41}
{'loss': 0.1967, 'grad_norm': 0.8566656708717346, 'learning_rate': 0.001918231448406012, 'epoch': 15.41}
{'loss': 0.1752, 'grad_norm': 1.4168660640716553, 'learning_rate': 0.0019175709375210623, 'epoch': 15.42}
{'loss': 0.2012, 'grad_norm': 3.7894506454467773, 'learning_rate': 0.001916896946822134, 'epoch': 15.42}
{'loss': 0.1857, 'grad_norm': 0.3227631449699402, 'learning_rate': 0.0019162229561232055, 'epoch': 15.42}
{'loss': 0.1886, 'grad_norm': 0.9232255816459656, 'learning_rate': 0.0019155489654242772, 'epoch': 15.43}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15839062631130219, 'eval_runtime': 135.8225, 'eval_samples_per_second': 109.245, 'eval_steps_per_second': 13.658, 'epoch': 15.43}
{'loss': 0.1748, 'grad_norm': 0.7959828972816467, 'learning_rate': 0.0019135269933274921, 'epoch': 15.44}
{'loss': 0.1788, 'grad_norm': 1.3854378461837769, 'learning_rate': 0.0019128530026285638, 'epoch': 15.44}
{'loss': 0.1729, 'grad_norm': 0.5960840582847595, 'learning_rate': 0.0019121790119296354, 'epoch': 15.44}
{'loss': 0.1835, 'grad_norm': 1.380325198173523, 'learning_rate': 0.001911505021230707, 'epoch': 15.45}
{'loss': 0.1907, 'grad_norm': 1.0057854652404785, 'learning_rate': 0.0019108310305317787, 'epoch': 15.45}
{'loss': 0.201, 'grad_norm': 1.5829323530197144, 'learning_rate': 0.0019101570398328501, 'epoch': 15.45}
{'loss': 0.1855, 'grad_norm': 0.7030873894691467, 'learning_rate': 0.0019094830491339222, 'epoch': 15.46}
{'loss': 0.1868, 'grad_norm': 0.8172399401664734, 'learning_rate': 0.0019088225382489722, 'epoch': 15.46}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15659372508525848, 'eval_runtime': 134.6948, 'eval_samples_per_second': 110.16, 'eval_steps_per_second': 13.772, 'epoch': 15.47}
{'loss': 0.1812, 'grad_norm': 2.006990671157837, 'learning_rate': 0.0019068005661521874, 'epoch': 15.47}
{'loss': 0.1807, 'grad_norm': 0.9643667936325073, 'learning_rate': 0.001906126575453259, 'epoch': 15.47}
{'loss': 0.1894, 'grad_norm': 0.605560839176178, 'learning_rate': 0.0019054525847543304, 'epoch': 15.48}
{'loss': 0.1671, 'grad_norm': 0.7965711355209351, 'learning_rate': 0.001904778594055402, 'epoch': 15.48}
{'loss': 0.1854, 'grad_norm': 0.6461179852485657, 'learning_rate': 0.0019041046033564737, 'epoch': 15.48}
{'loss': 0.1906, 'grad_norm': 1.3368650674819946, 'learning_rate': 0.0019034306126575454, 'epoch': 15.49}
{'loss': 0.1968, 'grad_norm': 0.6278208494186401, 'learning_rate': 0.001902756621958617, 'epoch': 15.49}
{'loss': 0.1677, 'grad_norm': 0.8632678389549255, 'learning_rate': 0.0019020826312596887, 'epoch': 15.5}
{'loss': 0.18

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15449310839176178, 'eval_runtime': 135.3257, 'eval_samples_per_second': 109.647, 'eval_steps_per_second': 13.708, 'epoch': 15.5}
{'loss': 0.1864, 'grad_norm': 0.4653755724430084, 'learning_rate': 0.0019000606591629036, 'epoch': 15.51}
{'loss': 0.1773, 'grad_norm': 0.5973993539810181, 'learning_rate': 0.0018993866684639752, 'epoch': 15.51}
{'loss': 0.1682, 'grad_norm': 0.5257254838943481, 'learning_rate': 0.0018987126777650469, 'epoch': 15.51}
{'loss': 0.182, 'grad_norm': 0.461919903755188, 'learning_rate': 0.0018980386870661185, 'epoch': 15.52}
{'loss': 0.1837, 'grad_norm': 0.4124242663383484, 'learning_rate': 0.0018973646963671902, 'epoch': 15.52}
{'loss': 0.1777, 'grad_norm': 1.8490043878555298, 'learning_rate': 0.0018966907056682616, 'epoch': 15.52}
{'loss': 0.1795, 'grad_norm': 1.9843844175338745, 'learning_rate': 0.0018960167149693337, 'epoch': 15.53}
{'loss': 0.1689, 'grad_norm': 0.5658676624298096, 'learning_rate': 0.0018953427242704053, 'epoch': 15.53}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15506382286548615, 'eval_runtime': 134.4348, 'eval_samples_per_second': 110.373, 'eval_steps_per_second': 13.799, 'epoch': 15.54}
{'loss': 0.1888, 'grad_norm': 0.7321832776069641, 'learning_rate': 0.00189332075217362, 'epoch': 15.54}
{'loss': 0.1786, 'grad_norm': 0.9181588888168335, 'learning_rate': 0.0018926467614746917, 'epoch': 15.54}
{'loss': 0.1766, 'grad_norm': 0.5080434083938599, 'learning_rate': 0.0018919727707757633, 'epoch': 15.55}
{'loss': 0.18, 'grad_norm': 0.5511878728866577, 'learning_rate': 0.001891298780076835, 'epoch': 15.55}
{'loss': 0.1903, 'grad_norm': 0.41116365790367126, 'learning_rate': 0.0018906247893779066, 'epoch': 15.55}
{'loss': 0.2071, 'grad_norm': 1.467831015586853, 'learning_rate': 0.0018899507986789783, 'epoch': 15.56}
{'loss': 0.1804, 'grad_norm': 0.6971535682678223, 'learning_rate': 0.00188927680798005, 'epoch': 15.56}
{'loss': 0.1843, 'grad_norm': 0.9033337235450745, 'learning_rate': 0.0018886028172811215, 'epoch': 15.56}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15497907996177673, 'eval_runtime': 135.7106, 'eval_samples_per_second': 109.336, 'eval_steps_per_second': 13.669, 'epoch': 15.57}
{'loss': 0.1756, 'grad_norm': 0.33691027760505676, 'learning_rate': 0.0018865808451843365, 'epoch': 15.57}
{'loss': 0.1952, 'grad_norm': 1.1939117908477783, 'learning_rate': 0.0018859068544854083, 'epoch': 15.58}
{'loss': 0.1772, 'grad_norm': 0.5969815850257874, 'learning_rate': 0.00188523286378648, 'epoch': 15.58}
{'loss': 0.1785, 'grad_norm': 0.848385214805603, 'learning_rate': 0.0018845588730875516, 'epoch': 15.58}
{'loss': 0.1849, 'grad_norm': 1.5916513204574585, 'learning_rate': 0.001883884882388623, 'epoch': 15.59}
{'loss': 0.1885, 'grad_norm': 0.20858602225780487, 'learning_rate': 0.0018832108916896947, 'epoch': 15.59}
{'loss': 0.1898, 'grad_norm': 0.687150239944458, 'learning_rate': 0.0018825369009907663, 'epoch': 15.59}
{'loss': 0.1808, 'grad_norm': 0.6931441426277161, 'learning_rate': 0.001881862910291838, 'epoch': 15.6}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15810079872608185, 'eval_runtime': 135.3354, 'eval_samples_per_second': 109.639, 'eval_steps_per_second': 13.707, 'epoch': 15.6}
{'loss': 0.1681, 'grad_norm': 0.6617739796638489, 'learning_rate': 0.001879840938195053, 'epoch': 15.61}
{'loss': 0.1788, 'grad_norm': 0.3001983165740967, 'learning_rate': 0.0018791669474961246, 'epoch': 15.61}
{'loss': 0.166, 'grad_norm': 1.0540046691894531, 'learning_rate': 0.0018784929567971962, 'epoch': 15.61}
{'loss': 0.1758, 'grad_norm': 0.44068869948387146, 'learning_rate': 0.0018778189660982679, 'epoch': 15.62}
{'loss': 0.1891, 'grad_norm': 2.086167097091675, 'learning_rate': 0.0018771449753993395, 'epoch': 15.62}
{'loss': 0.1796, 'grad_norm': 1.0557976961135864, 'learning_rate': 0.0018764709847004111, 'epoch': 15.62}
{'loss': 0.1914, 'grad_norm': 0.431810200214386, 'learning_rate': 0.0018757969940014828, 'epoch': 15.63}
{'loss': 0.1655, 'grad_norm': 0.41915300488471985, 'learning_rate': 0.0018751230033025547, 'epoch': 15.63}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15715010464191437, 'eval_runtime': 135.2978, 'eval_samples_per_second': 109.669, 'eval_steps_per_second': 13.71, 'epoch': 15.64}
{'loss': 0.1824, 'grad_norm': 0.35567542910575867, 'learning_rate': 0.0018731010312057694, 'epoch': 15.64}
{'loss': 0.1722, 'grad_norm': 0.32403627038002014, 'learning_rate': 0.001872427040506841, 'epoch': 15.64}
{'loss': 0.182, 'grad_norm': 0.3614056408405304, 'learning_rate': 0.0018717530498079127, 'epoch': 15.65}
{'loss': 0.1954, 'grad_norm': 0.7789223790168762, 'learning_rate': 0.0018710790591089843, 'epoch': 15.65}
{'loss': 0.1784, 'grad_norm': 1.0975112915039062, 'learning_rate': 0.001870405068410056, 'epoch': 15.65}
{'loss': 0.1788, 'grad_norm': 1.0350308418273926, 'learning_rate': 0.0018697310777111276, 'epoch': 15.66}
{'loss': 0.2131, 'grad_norm': 1.0580675601959229, 'learning_rate': 0.0018690570870121992, 'epoch': 15.66}
{'loss': 0.1785, 'grad_norm': 0.4045785963535309, 'learning_rate': 0.0018683830963132709, 'epoch': 15.66}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1536617875099182, 'eval_runtime': 134.964, 'eval_samples_per_second': 109.94, 'eval_steps_per_second': 13.744, 'epoch': 15.67}
{'loss': 0.1748, 'grad_norm': 1.383777379989624, 'learning_rate': 0.0018663611242164858, 'epoch': 15.67}
{'loss': 0.2033, 'grad_norm': 0.8214462995529175, 'learning_rate': 0.0018656871335175575, 'epoch': 15.68}
{'loss': 0.1814, 'grad_norm': 0.4549223780632019, 'learning_rate': 0.0018650131428186293, 'epoch': 15.68}
{'loss': 0.194, 'grad_norm': 0.6162031292915344, 'learning_rate': 0.001864339152119701, 'epoch': 15.68}
{'loss': 0.1758, 'grad_norm': 0.9386715292930603, 'learning_rate': 0.0018636651614207726, 'epoch': 15.69}
{'loss': 0.187, 'grad_norm': 0.5525248050689697, 'learning_rate': 0.0018629911707218443, 'epoch': 15.69}
{'loss': 0.1881, 'grad_norm': 0.7409088611602783, 'learning_rate': 0.0018623171800229157, 'epoch': 15.69}
{'loss': 0.1867, 'grad_norm': 0.8080754280090332, 'learning_rate': 0.0018616431893239873, 'epoch': 15.7}
{'loss': 0.174

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.158217653632164, 'eval_runtime': 129.9585, 'eval_samples_per_second': 114.175, 'eval_steps_per_second': 14.274, 'epoch': 15.7}
{'loss': 0.1807, 'grad_norm': 0.9822527766227722, 'learning_rate': 0.0018596212172272023, 'epoch': 15.71}
{'loss': 0.1832, 'grad_norm': 0.33890536427497864, 'learning_rate': 0.001858947226528274, 'epoch': 15.71}
{'loss': 0.1862, 'grad_norm': 1.2378466129302979, 'learning_rate': 0.0018582732358293455, 'epoch': 15.71}
{'loss': 0.1812, 'grad_norm': 1.2359081506729126, 'learning_rate': 0.0018575992451304172, 'epoch': 15.72}
{'loss': 0.1832, 'grad_norm': 0.8361824750900269, 'learning_rate': 0.0018569252544314888, 'epoch': 15.72}
{'loss': 0.1825, 'grad_norm': 0.8788602948188782, 'learning_rate': 0.0018562512637325605, 'epoch': 15.72}
{'loss': 0.1842, 'grad_norm': 0.8085162043571472, 'learning_rate': 0.0018555772730336321, 'epoch': 15.73}
{'loss': 0.2008, 'grad_norm': 0.912729799747467, 'learning_rate': 0.001854903282334704, 'epoch': 15.73}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15650588274002075, 'eval_runtime': 129.5373, 'eval_samples_per_second': 114.546, 'eval_steps_per_second': 14.32, 'epoch': 15.74}
{'loss': 0.1686, 'grad_norm': 0.7796416282653809, 'learning_rate': 0.001852881310237919, 'epoch': 15.74}
{'loss': 0.188, 'grad_norm': 0.3113498389720917, 'learning_rate': 0.0018522073195389906, 'epoch': 15.74}
{'loss': 0.1852, 'grad_norm': 2.018317222595215, 'learning_rate': 0.001851533328840062, 'epoch': 15.75}
{'loss': 0.1968, 'grad_norm': 0.6456571221351624, 'learning_rate': 0.0018508593381411336, 'epoch': 15.75}
{'loss': 0.1681, 'grad_norm': 0.9008424878120422, 'learning_rate': 0.0018501853474422053, 'epoch': 15.75}
{'loss': 0.1735, 'grad_norm': 0.8768948316574097, 'learning_rate': 0.001849511356743277, 'epoch': 15.76}
{'loss': 0.179, 'grad_norm': 0.402152419090271, 'learning_rate': 0.0018488373660443486, 'epoch': 15.76}
{'loss': 0.1897, 'grad_norm': 0.6284052133560181, 'learning_rate': 0.0018481633753454202, 'epoch': 15.76}
{'loss': 0.179

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15610675513744354, 'eval_runtime': 132.9827, 'eval_samples_per_second': 111.578, 'eval_steps_per_second': 13.949, 'epoch': 15.77}
{'loss': 0.1891, 'grad_norm': 0.7879393696784973, 'learning_rate': 0.0018461414032486351, 'epoch': 15.77}
{'loss': 0.1849, 'grad_norm': 1.7662678956985474, 'learning_rate': 0.0018454674125497068, 'epoch': 15.78}
{'loss': 0.1935, 'grad_norm': 1.1855217218399048, 'learning_rate': 0.0018447934218507784, 'epoch': 15.78}
{'loss': 0.1917, 'grad_norm': 0.6868121027946472, 'learning_rate': 0.0018441194311518503, 'epoch': 15.78}
{'loss': 0.1932, 'grad_norm': 1.14478600025177, 'learning_rate': 0.001843445440452922, 'epoch': 15.79}
{'loss': 0.1844, 'grad_norm': 0.36965590715408325, 'learning_rate': 0.0018427714497539936, 'epoch': 15.79}
{'loss': 0.18, 'grad_norm': 0.5696253180503845, 'learning_rate': 0.0018420974590550652, 'epoch': 15.79}
{'loss': 0.1951, 'grad_norm': 1.194885015487671, 'learning_rate': 0.0018414369481701155, 'epoch': 15.8}
{'loss': 0.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15429338812828064, 'eval_runtime': 130.0005, 'eval_samples_per_second': 114.138, 'eval_steps_per_second': 14.269, 'epoch': 15.81}
{'loss': 0.1714, 'grad_norm': 0.28031978011131287, 'learning_rate': 0.0018394149760733304, 'epoch': 15.81}
{'loss': 0.1736, 'grad_norm': 2.4143998622894287, 'learning_rate': 0.001838740985374402, 'epoch': 15.81}
{'loss': 0.1801, 'grad_norm': 5.799238681793213, 'learning_rate': 0.0018380669946754735, 'epoch': 15.82}
{'loss': 0.1909, 'grad_norm': 0.7511565685272217, 'learning_rate': 0.001837393003976545, 'epoch': 15.82}
{'loss': 0.1633, 'grad_norm': 0.874825656414032, 'learning_rate': 0.0018367190132776167, 'epoch': 15.82}
{'loss': 0.195, 'grad_norm': 1.0185579061508179, 'learning_rate': 0.0018360450225786884, 'epoch': 15.83}
{'loss': 0.178, 'grad_norm': 0.3282555937767029, 'learning_rate': 0.00183537103187976, 'epoch': 15.83}
{'loss': 0.1717, 'grad_norm': 0.7654815316200256, 'learning_rate': 0.0018346970411808317, 'epoch': 15.83}
{'loss': 0.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1543622612953186, 'eval_runtime': 129.6059, 'eval_samples_per_second': 114.486, 'eval_steps_per_second': 14.313, 'epoch': 15.84}
{'loss': 0.1749, 'grad_norm': 0.8425560593605042, 'learning_rate': 0.0018326750690840466, 'epoch': 15.84}
{'loss': 0.1819, 'grad_norm': 0.4724865257740021, 'learning_rate': 0.0018320010783851183, 'epoch': 15.85}
{'loss': 0.1809, 'grad_norm': 0.5871222615242004, 'learning_rate': 0.0018313270876861901, 'epoch': 15.85}
{'loss': 0.1799, 'grad_norm': 0.40926000475883484, 'learning_rate': 0.0018306530969872618, 'epoch': 15.85}
{'loss': 0.1654, 'grad_norm': 0.8092575669288635, 'learning_rate': 0.0018299791062883334, 'epoch': 15.86}
{'loss': 0.177, 'grad_norm': 1.0594643354415894, 'learning_rate': 0.001829305115589405, 'epoch': 15.86}
{'loss': 0.1899, 'grad_norm': 0.8745706677436829, 'learning_rate': 0.0018286311248904767, 'epoch': 15.86}
{'loss': 0.1722, 'grad_norm': 0.6659957766532898, 'learning_rate': 0.0018279571341915483, 'epoch': 15.87}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15249036252498627, 'eval_runtime': 126.4616, 'eval_samples_per_second': 117.332, 'eval_steps_per_second': 14.668, 'epoch': 15.87}
{'loss': 0.1802, 'grad_norm': 0.915878415107727, 'learning_rate': 0.001825935162094763, 'epoch': 15.88}
{'loss': 0.1773, 'grad_norm': 0.7071446180343628, 'learning_rate': 0.0018252611713958347, 'epoch': 15.88}
{'loss': 0.1893, 'grad_norm': 3.2632625102996826, 'learning_rate': 0.0018245871806969063, 'epoch': 15.88}
{'loss': 0.1771, 'grad_norm': 1.0564961433410645, 'learning_rate': 0.001823913189997978, 'epoch': 15.89}
{'loss': 0.1689, 'grad_norm': 0.647495687007904, 'learning_rate': 0.0018232391992990496, 'epoch': 15.89}
{'loss': 0.1771, 'grad_norm': 0.3355029821395874, 'learning_rate': 0.0018225652086001213, 'epoch': 15.89}
{'loss': 0.179, 'grad_norm': 0.44711992144584656, 'learning_rate': 0.001821891217901193, 'epoch': 15.9}
{'loss': 0.1885, 'grad_norm': 1.1127654314041138, 'learning_rate': 0.0018212172272022646, 'epoch': 15.9}
{'loss': 0.18

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1549132615327835, 'eval_runtime': 128.0606, 'eval_samples_per_second': 115.867, 'eval_steps_per_second': 14.485, 'epoch': 15.91}
{'loss': 0.1978, 'grad_norm': 1.6600425243377686, 'learning_rate': 0.0018191952551054797, 'epoch': 15.91}
{'loss': 0.1816, 'grad_norm': 0.7800061702728271, 'learning_rate': 0.0018185212644065514, 'epoch': 15.91}
{'loss': 0.1833, 'grad_norm': 0.9643028974533081, 'learning_rate': 0.001817847273707623, 'epoch': 15.92}
{'loss': 0.1938, 'grad_norm': 0.44764357805252075, 'learning_rate': 0.0018171732830086947, 'epoch': 15.92}
{'loss': 0.1843, 'grad_norm': 0.7593810558319092, 'learning_rate': 0.001816499292309766, 'epoch': 15.92}
{'loss': 0.1795, 'grad_norm': 0.622900128364563, 'learning_rate': 0.0018158253016108377, 'epoch': 15.93}
{'loss': 0.2081, 'grad_norm': 0.7977319359779358, 'learning_rate': 0.0018151513109119094, 'epoch': 15.93}
{'loss': 0.1899, 'grad_norm': 1.2107479572296143, 'learning_rate': 0.001814477320212981, 'epoch': 15.93}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15439768135547638, 'eval_runtime': 129.8319, 'eval_samples_per_second': 114.286, 'eval_steps_per_second': 14.288, 'epoch': 15.94}
{'loss': 0.1743, 'grad_norm': 0.9445996284484863, 'learning_rate': 0.001812455348116196, 'epoch': 15.94}
{'loss': 0.1868, 'grad_norm': 1.667235016822815, 'learning_rate': 0.0018117813574172676, 'epoch': 15.95}
{'loss': 0.2033, 'grad_norm': 0.6307090520858765, 'learning_rate': 0.0018111073667183392, 'epoch': 15.95}
{'loss': 0.1743, 'grad_norm': 0.4768342077732086, 'learning_rate': 0.001810433376019411, 'epoch': 15.95}
{'loss': 0.2024, 'grad_norm': 0.37614119052886963, 'learning_rate': 0.0018097593853204827, 'epoch': 15.96}
{'loss': 0.1845, 'grad_norm': 0.9216046929359436, 'learning_rate': 0.0018090853946215544, 'epoch': 15.96}
{'loss': 0.1834, 'grad_norm': 1.0677992105484009, 'learning_rate': 0.001808411403922626, 'epoch': 15.96}
{'loss': 0.1947, 'grad_norm': 0.29015272855758667, 'learning_rate': 0.0018077374132236977, 'epoch': 15.97}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1546339988708496, 'eval_runtime': 129.5999, 'eval_samples_per_second': 114.491, 'eval_steps_per_second': 14.313, 'epoch': 15.97}
{'loss': 0.1745, 'grad_norm': 0.8288854956626892, 'learning_rate': 0.0018057154411269124, 'epoch': 15.98}
{'loss': 0.1887, 'grad_norm': 0.8962545990943909, 'learning_rate': 0.001805041450427984, 'epoch': 15.98}
{'loss': 0.1807, 'grad_norm': 1.76116943359375, 'learning_rate': 0.0018043674597290557, 'epoch': 15.98}
{'loss': 0.1893, 'grad_norm': 0.8960683941841125, 'learning_rate': 0.0018036934690301273, 'epoch': 15.99}
{'loss': 0.1763, 'grad_norm': 0.7492014169692993, 'learning_rate': 0.001803019478331199, 'epoch': 15.99}
{'loss': 0.1958, 'grad_norm': 0.7781439423561096, 'learning_rate': 0.0018023454876322706, 'epoch': 15.99}
{'loss': 0.1717, 'grad_norm': 1.1719088554382324, 'learning_rate': 0.0018016714969333423, 'epoch': 16.0}
{'loss': 0.1869, 'grad_norm': 0.8070252537727356, 'learning_rate': 0.001800997506234414, 'epoch': 16.0}
{'loss': 0.186

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15553563833236694, 'eval_runtime': 127.6953, 'eval_samples_per_second': 116.199, 'eval_steps_per_second': 14.527, 'epoch': 16.01}
{'loss': 0.1759, 'grad_norm': 0.717200517654419, 'learning_rate': 0.001798975534137629, 'epoch': 16.01}
{'loss': 0.1793, 'grad_norm': 0.7491726875305176, 'learning_rate': 0.0017983015434387007, 'epoch': 16.01}
{'loss': 0.1564, 'grad_norm': 1.5669481754302979, 'learning_rate': 0.0017976275527397723, 'epoch': 16.02}
{'loss': 0.166, 'grad_norm': 0.9034635424613953, 'learning_rate': 0.001796953562040844, 'epoch': 16.02}
{'loss': 0.1667, 'grad_norm': 1.4222452640533447, 'learning_rate': 0.0017962795713419156, 'epoch': 16.02}
{'loss': 0.1607, 'grad_norm': 0.305208683013916, 'learning_rate': 0.0017956055806429873, 'epoch': 16.03}
{'loss': 0.1593, 'grad_norm': 0.4773087799549103, 'learning_rate': 0.0017949315899440587, 'epoch': 16.03}
{'loss': 0.1642, 'grad_norm': 1.711230754852295, 'learning_rate': 0.0017942575992451304, 'epoch': 16.03}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15359996259212494, 'eval_runtime': 127.6603, 'eval_samples_per_second': 116.23, 'eval_steps_per_second': 14.531, 'epoch': 16.04}
{'loss': 0.1746, 'grad_norm': 0.522003173828125, 'learning_rate': 0.0017922356271483453, 'epoch': 16.04}
{'loss': 0.1719, 'grad_norm': 0.947329580783844, 'learning_rate': 0.001791561636449417, 'epoch': 16.05}
{'loss': 0.1498, 'grad_norm': 0.4512820541858673, 'learning_rate': 0.0017908876457504886, 'epoch': 16.05}
{'loss': 0.1666, 'grad_norm': 0.9679560661315918, 'learning_rate': 0.0017902136550515602, 'epoch': 16.05}
{'loss': 0.1675, 'grad_norm': 0.7198535203933716, 'learning_rate': 0.001789539664352632, 'epoch': 16.06}
{'loss': 0.1621, 'grad_norm': 0.9452289342880249, 'learning_rate': 0.0017888656736537037, 'epoch': 16.06}
{'loss': 0.1598, 'grad_norm': 0.323475182056427, 'learning_rate': 0.0017881916829547754, 'epoch': 16.06}
{'loss': 0.1826, 'grad_norm': 0.4391971230506897, 'learning_rate': 0.001787517692255847, 'epoch': 16.07}
{'loss': 0.17

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15544113516807556, 'eval_runtime': 131.9847, 'eval_samples_per_second': 112.422, 'eval_steps_per_second': 14.055, 'epoch': 16.07}
{'loss': 0.1701, 'grad_norm': 0.8397523164749146, 'learning_rate': 0.001785495720159062, 'epoch': 16.08}
{'loss': 0.1759, 'grad_norm': 0.631049394607544, 'learning_rate': 0.0017848217294601336, 'epoch': 16.08}
{'loss': 0.162, 'grad_norm': 0.7478287816047668, 'learning_rate': 0.001784147738761205, 'epoch': 16.08}
{'loss': 0.157, 'grad_norm': 0.5791503190994263, 'learning_rate': 0.0017834737480622767, 'epoch': 16.09}
{'loss': 0.1726, 'grad_norm': 1.1662943363189697, 'learning_rate': 0.0017827997573633483, 'epoch': 16.09}
{'loss': 0.1672, 'grad_norm': 0.6970946788787842, 'learning_rate': 0.00178212576666442, 'epoch': 16.09}
{'loss': 0.1755, 'grad_norm': 0.6446568369865417, 'learning_rate': 0.0017814517759654916, 'epoch': 16.1}
{'loss': 0.1802, 'grad_norm': 0.20499961078166962, 'learning_rate': 0.0017807777852665632, 'epoch': 16.1}
{'loss': 0.163

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15802203118801117, 'eval_runtime': 128.8488, 'eval_samples_per_second': 115.158, 'eval_steps_per_second': 14.397, 'epoch': 16.11}
{'loss': 0.1794, 'grad_norm': 1.0029399394989014, 'learning_rate': 0.0017787692929837568, 'epoch': 16.11}
{'loss': 0.1639, 'grad_norm': 0.466939777135849, 'learning_rate': 0.0017780953022848284, 'epoch': 16.12}
{'loss': 0.1768, 'grad_norm': 0.6226419806480408, 'learning_rate': 0.0017774213115859, 'epoch': 16.12}
{'loss': 0.1892, 'grad_norm': 1.2052580118179321, 'learning_rate': 0.0017767473208869717, 'epoch': 16.12}
{'loss': 0.1668, 'grad_norm': 0.5769985318183899, 'learning_rate': 0.0017760733301880435, 'epoch': 16.13}
{'loss': 0.177, 'grad_norm': 1.2712326049804688, 'learning_rate': 0.0017753993394891152, 'epoch': 16.13}
{'loss': 0.1689, 'grad_norm': 0.7490783333778381, 'learning_rate': 0.0017747253487901868, 'epoch': 16.13}
{'loss': 0.1683, 'grad_norm': 1.5983850955963135, 'learning_rate': 0.0017740513580912585, 'epoch': 16.14}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15507495403289795, 'eval_runtime': 129.3986, 'eval_samples_per_second': 114.669, 'eval_steps_per_second': 14.336, 'epoch': 16.14}
{'loss': 0.1726, 'grad_norm': 1.364176869392395, 'learning_rate': 0.0017720293859944734, 'epoch': 16.15}
{'loss': 0.1631, 'grad_norm': 0.46775344014167786, 'learning_rate': 0.001771355395295545, 'epoch': 16.15}
{'loss': 0.1919, 'grad_norm': 0.6866433024406433, 'learning_rate': 0.0017706814045966165, 'epoch': 16.15}
{'loss': 0.1747, 'grad_norm': 0.8536155223846436, 'learning_rate': 0.0017700074138976881, 'epoch': 16.16}
{'loss': 0.1726, 'grad_norm': 0.6226808428764343, 'learning_rate': 0.0017693334231987598, 'epoch': 16.16}
{'loss': 0.1564, 'grad_norm': 0.42220768332481384, 'learning_rate': 0.0017686594324998314, 'epoch': 16.16}
{'loss': 0.1726, 'grad_norm': 0.760195255279541, 'learning_rate': 0.001767985441800903, 'epoch': 16.17}
{'loss': 0.1777, 'grad_norm': 0.5515087842941284, 'learning_rate': 0.0017673114511019747, 'epoch': 16.17}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15838958323001862, 'eval_runtime': 131.3027, 'eval_samples_per_second': 113.006, 'eval_steps_per_second': 14.128, 'epoch': 16.18}
{'loss': 0.175, 'grad_norm': 2.5785961151123047, 'learning_rate': 0.0017653029588191682, 'epoch': 16.18}
{'loss': 0.1722, 'grad_norm': 0.49102210998535156, 'learning_rate': 0.0017646289681202399, 'epoch': 16.18}
{'loss': 0.1863, 'grad_norm': 0.33210262656211853, 'learning_rate': 0.0017639549774213115, 'epoch': 16.19}
{'loss': 0.1846, 'grad_norm': 0.8752245903015137, 'learning_rate': 0.0017632809867223832, 'epoch': 16.19}
{'loss': 0.1777, 'grad_norm': 0.5748376250267029, 'learning_rate': 0.001762606996023455, 'epoch': 16.19}
{'loss': 0.1736, 'grad_norm': 0.6822319626808167, 'learning_rate': 0.0017619330053245267, 'epoch': 16.2}
{'loss': 0.1695, 'grad_norm': 0.47550129890441895, 'learning_rate': 0.0017612590146255983, 'epoch': 16.2}
{'loss': 0.1728, 'grad_norm': 8.979353904724121, 'learning_rate': 0.00176058502392667, 'epoch': 16.2}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1520351618528366, 'eval_runtime': 131.1915, 'eval_samples_per_second': 113.102, 'eval_steps_per_second': 14.14, 'epoch': 16.21}
{'loss': 0.1805, 'grad_norm': 0.626747727394104, 'learning_rate': 0.0017585630518298849, 'epoch': 16.21}
{'loss': 0.1632, 'grad_norm': 0.5024641752243042, 'learning_rate': 0.0017578890611309565, 'epoch': 16.22}
{'loss': 0.171, 'grad_norm': 0.6173661947250366, 'learning_rate': 0.001757215070432028, 'epoch': 16.22}
{'loss': 0.1716, 'grad_norm': 0.340265154838562, 'learning_rate': 0.0017565410797330996, 'epoch': 16.22}
{'loss': 0.1545, 'grad_norm': 0.8769816160202026, 'learning_rate': 0.0017558670890341712, 'epoch': 16.23}
{'loss': 0.169, 'grad_norm': 0.9448477625846863, 'learning_rate': 0.0017551930983352429, 'epoch': 16.23}
{'loss': 0.168, 'grad_norm': 0.8653897047042847, 'learning_rate': 0.0017545191076363145, 'epoch': 16.23}
{'loss': 0.1572, 'grad_norm': 1.1318564414978027, 'learning_rate': 0.0017538451169373862, 'epoch': 16.24}
{'loss': 0.179

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15555651485919952, 'eval_runtime': 130.2044, 'eval_samples_per_second': 113.959, 'eval_steps_per_second': 14.247, 'epoch': 16.24}
{'loss': 0.1688, 'grad_norm': 1.741013526916504, 'learning_rate': 0.0017518231448406013, 'epoch': 16.25}
{'loss': 0.1675, 'grad_norm': 0.6784295439720154, 'learning_rate': 0.001751149154141673, 'epoch': 16.25}
{'loss': 0.1763, 'grad_norm': 0.839205801486969, 'learning_rate': 0.0017504751634427446, 'epoch': 16.25}
{'loss': 0.1674, 'grad_norm': 7.265964984893799, 'learning_rate': 0.0017498011727438163, 'epoch': 16.26}
{'loss': 0.1673, 'grad_norm': 0.8834999203681946, 'learning_rate': 0.001749127182044888, 'epoch': 16.26}
{'loss': 0.1688, 'grad_norm': 0.47717583179473877, 'learning_rate': 0.0017484531913459595, 'epoch': 16.26}
{'loss': 0.173, 'grad_norm': 0.8394137620925903, 'learning_rate': 0.0017477792006470312, 'epoch': 16.27}
{'loss': 0.1842, 'grad_norm': 1.7242226600646973, 'learning_rate': 0.0017471052099481028, 'epoch': 16.27}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15058675408363342, 'eval_runtime': 129.2523, 'eval_samples_per_second': 114.799, 'eval_steps_per_second': 14.352, 'epoch': 16.28}
{'loss': 0.1676, 'grad_norm': 0.9687600135803223, 'learning_rate': 0.0017450832378513176, 'epoch': 16.28}
{'loss': 0.169, 'grad_norm': 1.2502392530441284, 'learning_rate': 0.0017444092471523892, 'epoch': 16.28}
{'loss': 0.181, 'grad_norm': 0.4844713807106018, 'learning_rate': 0.0017437352564534608, 'epoch': 16.29}
{'loss': 0.1753, 'grad_norm': 0.4116767346858978, 'learning_rate': 0.0017430612657545325, 'epoch': 16.29}
{'loss': 0.1957, 'grad_norm': 0.5884854793548584, 'learning_rate': 0.0017423872750556044, 'epoch': 16.29}
{'loss': 0.172, 'grad_norm': 2.0014750957489014, 'learning_rate': 0.001741713284356676, 'epoch': 16.3}
{'loss': 0.1604, 'grad_norm': 1.539204478263855, 'learning_rate': 0.0017410392936577476, 'epoch': 16.3}
{'loss': 0.1734, 'grad_norm': 0.471623033285141, 'learning_rate': 0.0017403653029588193, 'epoch': 16.3}
{'loss': 0.1695

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1572912186384201, 'eval_runtime': 131.9167, 'eval_samples_per_second': 112.48, 'eval_steps_per_second': 14.062, 'epoch': 16.31}
{'loss': 0.1763, 'grad_norm': 0.5343551635742188, 'learning_rate': 0.0017383433308620342, 'epoch': 16.31}
{'loss': 0.1841, 'grad_norm': 1.1590279340744019, 'learning_rate': 0.0017376693401631059, 'epoch': 16.32}
{'loss': 0.1748, 'grad_norm': 0.4388534426689148, 'learning_rate': 0.0017369953494641775, 'epoch': 16.32}
{'loss': 0.1822, 'grad_norm': 1.5164530277252197, 'learning_rate': 0.0017363213587652492, 'epoch': 16.32}
{'loss': 0.1713, 'grad_norm': 0.540765106678009, 'learning_rate': 0.0017356473680663206, 'epoch': 16.33}
{'loss': 0.1832, 'grad_norm': 0.8404514789581299, 'learning_rate': 0.0017349733773673922, 'epoch': 16.33}
{'loss': 0.1748, 'grad_norm': 3.9920008182525635, 'learning_rate': 0.0017342993866684639, 'epoch': 16.33}
{'loss': 0.169, 'grad_norm': 0.7990090250968933, 'learning_rate': 0.0017336253959695355, 'epoch': 16.34}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15114493668079376, 'eval_runtime': 133.8206, 'eval_samples_per_second': 110.88, 'eval_steps_per_second': 13.862, 'epoch': 16.34}
{'loss': 0.1937, 'grad_norm': 0.29839450120925903, 'learning_rate': 0.0017316034238727507, 'epoch': 16.35}
{'loss': 0.1718, 'grad_norm': 0.9524158239364624, 'learning_rate': 0.0017309294331738223, 'epoch': 16.35}
{'loss': 0.1829, 'grad_norm': 1.290139079093933, 'learning_rate': 0.001730255442474894, 'epoch': 16.35}
{'loss': 0.1672, 'grad_norm': 0.7523496747016907, 'learning_rate': 0.0017295814517759656, 'epoch': 16.36}
{'loss': 0.1653, 'grad_norm': 0.707237958908081, 'learning_rate': 0.0017289074610770372, 'epoch': 16.36}
{'loss': 0.1713, 'grad_norm': 0.39925694465637207, 'learning_rate': 0.0017282334703781089, 'epoch': 16.36}
{'loss': 0.174, 'grad_norm': 0.692589282989502, 'learning_rate': 0.0017275594796791805, 'epoch': 16.37}
{'loss': 0.1699, 'grad_norm': 1.082047939300537, 'learning_rate': 0.0017268854889802522, 'epoch': 16.37}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15171080827713013, 'eval_runtime': 137.9165, 'eval_samples_per_second': 107.587, 'eval_steps_per_second': 13.45, 'epoch': 16.38}
{'loss': 0.1729, 'grad_norm': 1.0268512964248657, 'learning_rate': 0.0017248635168834669, 'epoch': 16.38}
{'loss': 0.1626, 'grad_norm': 0.47852012515068054, 'learning_rate': 0.0017241895261845385, 'epoch': 16.38}
{'loss': 0.1678, 'grad_norm': 0.7008140683174133, 'learning_rate': 0.0017235155354856102, 'epoch': 16.39}
{'loss': 0.1618, 'grad_norm': 0.4564369320869446, 'learning_rate': 0.0017228415447866818, 'epoch': 16.39}
{'loss': 0.1738, 'grad_norm': 0.6466422080993652, 'learning_rate': 0.0017221675540877535, 'epoch': 16.39}
{'loss': 0.1784, 'grad_norm': 0.4710679352283478, 'learning_rate': 0.0017214935633888253, 'epoch': 16.4}
{'loss': 0.1723, 'grad_norm': 0.1948780119419098, 'learning_rate': 0.001720819572689897, 'epoch': 16.4}
{'loss': 0.1711, 'grad_norm': 0.4785688519477844, 'learning_rate': 0.0017201455819909686, 'epoch': 16.4}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15222211182117462, 'eval_runtime': 131.8943, 'eval_samples_per_second': 112.499, 'eval_steps_per_second': 14.064, 'epoch': 16.41}
{'loss': 0.1893, 'grad_norm': 1.7273731231689453, 'learning_rate': 0.0017181236098941836, 'epoch': 16.42}
{'loss': 0.1751, 'grad_norm': 0.48761889338493347, 'learning_rate': 0.0017174496191952552, 'epoch': 16.42}
{'loss': 0.16, 'grad_norm': 1.3909481763839722, 'learning_rate': 0.0017167756284963268, 'epoch': 16.42}
{'loss': 0.1748, 'grad_norm': 1.5273545980453491, 'learning_rate': 0.0017161016377973985, 'epoch': 16.43}
{'loss': 0.1705, 'grad_norm': 0.47583895921707153, 'learning_rate': 0.0017154276470984701, 'epoch': 16.43}
{'loss': 0.1673, 'grad_norm': 0.7478035092353821, 'learning_rate': 0.0017147536563995418, 'epoch': 16.43}
{'loss': 0.1693, 'grad_norm': 0.45800548791885376, 'learning_rate': 0.0017140796657006132, 'epoch': 16.44}
{'loss': 0.1587, 'grad_norm': 0.837895929813385, 'learning_rate': 0.0017134056750016848, 'epoch': 16.44}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15298159420490265, 'eval_runtime': 133.0604, 'eval_samples_per_second': 111.513, 'eval_steps_per_second': 13.941, 'epoch': 16.45}
{'loss': 0.1593, 'grad_norm': 0.39306607842445374, 'learning_rate': 0.0017113837029049, 'epoch': 16.45}
{'loss': 0.1747, 'grad_norm': 0.8543105125427246, 'learning_rate': 0.0017107097122059716, 'epoch': 16.45}
{'loss': 0.162, 'grad_norm': 3.177166700363159, 'learning_rate': 0.0017100357215070433, 'epoch': 16.46}
{'loss': 0.1816, 'grad_norm': 0.8981807231903076, 'learning_rate': 0.001709361730808115, 'epoch': 16.46}
{'loss': 0.1638, 'grad_norm': 0.3101937472820282, 'learning_rate': 0.0017086877401091866, 'epoch': 16.46}
{'loss': 0.1773, 'grad_norm': 0.7939195036888123, 'learning_rate': 0.0017080137494102582, 'epoch': 16.47}
{'loss': 0.1808, 'grad_norm': 0.443901002407074, 'learning_rate': 0.0017073397587113299, 'epoch': 16.47}
{'loss': 0.1714, 'grad_norm': 1.4276793003082275, 'learning_rate': 0.0017066657680124015, 'epoch': 16.47}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1497805416584015, 'eval_runtime': 132.9234, 'eval_samples_per_second': 111.628, 'eval_steps_per_second': 13.955, 'epoch': 16.48}
{'loss': 0.1599, 'grad_norm': 0.3844369053840637, 'learning_rate': 0.0017046437959156164, 'epoch': 16.48}
{'loss': 0.1542, 'grad_norm': 0.34053686261177063, 'learning_rate': 0.001703969805216688, 'epoch': 16.49}
{'loss': 0.1796, 'grad_norm': 0.5256639122962952, 'learning_rate': 0.0017032958145177595, 'epoch': 16.49}
{'loss': 0.1632, 'grad_norm': 1.4464091062545776, 'learning_rate': 0.0017026218238188312, 'epoch': 16.49}
{'loss': 0.1586, 'grad_norm': 0.3178713619709015, 'learning_rate': 0.0017019478331199028, 'epoch': 16.5}
{'loss': 0.1661, 'grad_norm': 0.7473522424697876, 'learning_rate': 0.0017012738424209744, 'epoch': 16.5}
{'loss': 0.1758, 'grad_norm': 0.6122080087661743, 'learning_rate': 0.0017005998517220463, 'epoch': 16.5}
{'loss': 0.1711, 'grad_norm': 1.721982479095459, 'learning_rate': 0.001699925861023118, 'epoch': 16.51}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15122570097446442, 'eval_runtime': 130.5776, 'eval_samples_per_second': 113.634, 'eval_steps_per_second': 14.206, 'epoch': 16.51}
{'loss': 0.1648, 'grad_norm': 0.5726364254951477, 'learning_rate': 0.0016979038889263329, 'epoch': 16.52}
{'loss': 0.1747, 'grad_norm': 1.4055835008621216, 'learning_rate': 0.0016972298982274045, 'epoch': 16.52}
{'loss': 0.1782, 'grad_norm': 0.48879730701446533, 'learning_rate': 0.0016965559075284762, 'epoch': 16.52}
{'loss': 0.1651, 'grad_norm': 0.49085187911987305, 'learning_rate': 0.0016958819168295478, 'epoch': 16.53}
{'loss': 0.1574, 'grad_norm': 0.36555203795433044, 'learning_rate': 0.0016952079261306195, 'epoch': 16.53}
{'loss': 0.174, 'grad_norm': 0.47313547134399414, 'learning_rate': 0.0016945339354316911, 'epoch': 16.53}
{'loss': 0.1883, 'grad_norm': 0.7744823098182678, 'learning_rate': 0.0016938599447327628, 'epoch': 16.54}
{'loss': 0.181, 'grad_norm': 1.0767343044281006, 'learning_rate': 0.0016931859540338344, 'epoch': 16.54}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1496441662311554, 'eval_runtime': 124.0583, 'eval_samples_per_second': 119.605, 'eval_steps_per_second': 14.953, 'epoch': 16.55}
{'loss': 0.1751, 'grad_norm': 0.8914143443107605, 'learning_rate': 0.0016911639819370491, 'epoch': 16.55}
{'loss': 0.1701, 'grad_norm': 1.0490671396255493, 'learning_rate': 0.001690489991238121, 'epoch': 16.55}
{'loss': 0.173, 'grad_norm': 0.8184574246406555, 'learning_rate': 0.0016898160005391926, 'epoch': 16.56}
{'loss': 0.1719, 'grad_norm': 0.8503045439720154, 'learning_rate': 0.0016891420098402643, 'epoch': 16.56}
{'loss': 0.1657, 'grad_norm': 0.3509991765022278, 'learning_rate': 0.001688468019141336, 'epoch': 16.56}
{'loss': 0.1715, 'grad_norm': 0.9645649790763855, 'learning_rate': 0.0016877940284424076, 'epoch': 16.57}
{'loss': 0.1556, 'grad_norm': 0.41370171308517456, 'learning_rate': 0.0016871200377434792, 'epoch': 16.57}
{'loss': 0.1587, 'grad_norm': 1.6839019060134888, 'learning_rate': 0.0016864460470445508, 'epoch': 16.57}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1505609005689621, 'eval_runtime': 122.1239, 'eval_samples_per_second': 121.5, 'eval_steps_per_second': 15.189, 'epoch': 16.58}
{'loss': 0.1689, 'grad_norm': 0.8932522535324097, 'learning_rate': 0.0016844240749477658, 'epoch': 16.58}
{'loss': 0.1581, 'grad_norm': 0.6127438545227051, 'learning_rate': 0.0016837500842488374, 'epoch': 16.59}
{'loss': 0.1685, 'grad_norm': 0.6447153687477112, 'learning_rate': 0.001683076093549909, 'epoch': 16.59}
{'loss': 0.1723, 'grad_norm': 2.4833250045776367, 'learning_rate': 0.0016824021028509807, 'epoch': 16.59}
{'loss': 0.1501, 'grad_norm': 0.40006837248802185, 'learning_rate': 0.0016817281121520521, 'epoch': 16.6}
{'loss': 0.1755, 'grad_norm': 0.6392324566841125, 'learning_rate': 0.0016810541214531238, 'epoch': 16.6}
{'loss': 0.1642, 'grad_norm': 0.5098994970321655, 'learning_rate': 0.0016803801307541954, 'epoch': 16.6}
{'loss': 0.1757, 'grad_norm': 2.562840223312378, 'learning_rate': 0.0016797061400552673, 'epoch': 16.61}
{'loss': 0.16

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1518235206604004, 'eval_runtime': 121.7138, 'eval_samples_per_second': 121.909, 'eval_steps_per_second': 15.241, 'epoch': 16.61}
{'loss': 0.1834, 'grad_norm': 1.644991397857666, 'learning_rate': 0.0016776976477724606, 'epoch': 16.62}
{'loss': 0.1745, 'grad_norm': 0.866631269454956, 'learning_rate': 0.0016770236570735324, 'epoch': 16.62}
{'loss': 0.1749, 'grad_norm': 0.4356675446033478, 'learning_rate': 0.001676349666374604, 'epoch': 16.62}
{'loss': 0.1634, 'grad_norm': 0.4990490674972534, 'learning_rate': 0.0016756756756756757, 'epoch': 16.63}
{'loss': 0.1538, 'grad_norm': 0.7826480269432068, 'learning_rate': 0.0016750016849767474, 'epoch': 16.63}
{'loss': 0.1754, 'grad_norm': 0.7223023772239685, 'learning_rate': 0.001674327694277819, 'epoch': 16.63}
{'loss': 0.1668, 'grad_norm': 0.5977064371109009, 'learning_rate': 0.0016736537035788907, 'epoch': 16.64}
{'loss': 0.1822, 'grad_norm': 0.827117383480072, 'learning_rate': 0.0016729797128799623, 'epoch': 16.64}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.15181462466716766, 'eval_runtime': 120.8614, 'eval_samples_per_second': 122.769, 'eval_steps_per_second': 15.348, 'epoch': 16.65}
{'loss': 0.163, 'grad_norm': 1.3095884323120117, 'learning_rate': 0.0016709577407831772, 'epoch': 16.65}
{'loss': 0.172, 'grad_norm': 0.5339731574058533, 'learning_rate': 0.0016702837500842489, 'epoch': 16.65}
{'loss': 0.169, 'grad_norm': 0.471489280462265, 'learning_rate': 0.0016696097593853205, 'epoch': 16.66}
{'loss': 0.171, 'grad_norm': 0.45247235894203186, 'learning_rate': 0.0016689357686863922, 'epoch': 16.66}
{'loss': 0.1721, 'grad_norm': 0.22132261097431183, 'learning_rate': 0.0016682617779874636, 'epoch': 16.66}
{'loss': 0.1919, 'grad_norm': 2.5183122158050537, 'learning_rate': 0.0016675877872885353, 'epoch': 16.67}
{'loss': 0.1738, 'grad_norm': 2.749805450439453, 'learning_rate': 0.0016669137965896073, 'epoch': 16.67}
{'loss': 0.1843, 'grad_norm': 1.0463716983795166, 'learning_rate': 0.0016662398058906788, 'epoch': 16.67}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1498774290084839, 'eval_runtime': 121.4486, 'eval_samples_per_second': 122.175, 'eval_steps_per_second': 15.274, 'epoch': 16.68}
{'loss': 0.1614, 'grad_norm': 0.6648808121681213, 'learning_rate': 0.001664231313607872, 'epoch': 16.68}
{'loss': 0.1805, 'grad_norm': 0.6351071000099182, 'learning_rate': 0.001663557322908944, 'epoch': 16.69}
{'loss': 0.1703, 'grad_norm': 0.5302991271018982, 'learning_rate': 0.0016628833322100156, 'epoch': 16.69}
{'loss': 0.1717, 'grad_norm': 0.5509522557258606, 'learning_rate': 0.0016622093415110872, 'epoch': 16.69}
{'loss': 0.1599, 'grad_norm': 0.703788161277771, 'learning_rate': 0.0016615353508121588, 'epoch': 16.7}
{'loss': 0.1689, 'grad_norm': 0.6360177993774414, 'learning_rate': 0.0016608613601132305, 'epoch': 16.7}
{'loss': 0.1717, 'grad_norm': 0.2762170732021332, 'learning_rate': 0.0016601873694143021, 'epoch': 16.7}
{'loss': 0.1637, 'grad_norm': 0.38106825947761536, 'learning_rate': 0.0016595133787153738, 'epoch': 16.71}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1474877893924713, 'eval_runtime': 121.4549, 'eval_samples_per_second': 122.169, 'eval_steps_per_second': 15.273, 'epoch': 16.71}
{'loss': 0.1547, 'grad_norm': 1.2165383100509644, 'learning_rate': 0.0016574914066185887, 'epoch': 16.72}
{'loss': 0.1635, 'grad_norm': 0.39464709162712097, 'learning_rate': 0.0016568174159196604, 'epoch': 16.72}
{'loss': 0.1701, 'grad_norm': 0.6021538972854614, 'learning_rate': 0.001656143425220732, 'epoch': 16.73}
{'loss': 0.1771, 'grad_norm': 0.6774787306785583, 'learning_rate': 0.0016554694345218036, 'epoch': 16.73}
{'loss': 0.171, 'grad_norm': 0.4981919825077057, 'learning_rate': 0.001654795443822875, 'epoch': 16.73}
{'loss': 0.1652, 'grad_norm': 1.275814414024353, 'learning_rate': 0.0016541214531239467, 'epoch': 16.74}
{'loss': 0.1515, 'grad_norm': 0.5554139018058777, 'learning_rate': 0.0016534474624250188, 'epoch': 16.74}
{'loss': 0.1889, 'grad_norm': 0.976684033870697, 'learning_rate': 0.0016527734717260902, 'epoch': 16.74}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1494036316871643, 'eval_runtime': 122.1562, 'eval_samples_per_second': 121.467, 'eval_steps_per_second': 15.185, 'epoch': 16.75}
{'loss': 0.1755, 'grad_norm': 0.4762208163738251, 'learning_rate': 0.0016507514996293052, 'epoch': 16.75}
{'loss': 0.1796, 'grad_norm': 0.9581435322761536, 'learning_rate': 0.0016500775089303768, 'epoch': 16.76}
{'loss': 0.1706, 'grad_norm': 1.55287504196167, 'learning_rate': 0.0016494035182314484, 'epoch': 16.76}
{'loss': 0.1795, 'grad_norm': 0.7828378677368164, 'learning_rate': 0.00164872952753252, 'epoch': 16.76}
{'loss': 0.1796, 'grad_norm': 0.3885413706302643, 'learning_rate': 0.0016480555368335917, 'epoch': 16.77}
{'loss': 0.1774, 'grad_norm': 0.5488983392715454, 'learning_rate': 0.0016473815461346634, 'epoch': 16.77}
{'loss': 0.176, 'grad_norm': 0.4402502179145813, 'learning_rate': 0.001646707555435735, 'epoch': 16.77}
{'loss': 0.1563, 'grad_norm': 0.5299108624458313, 'learning_rate': 0.0016460335647368067, 'epoch': 16.78}
{'loss': 0.15

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14690302312374115, 'eval_runtime': 122.6313, 'eval_samples_per_second': 120.997, 'eval_steps_per_second': 15.127, 'epoch': 16.78}
{'loss': 0.1636, 'grad_norm': 0.6925548315048218, 'learning_rate': 0.0016440115926400214, 'epoch': 16.79}
{'loss': 0.165, 'grad_norm': 0.8578088283538818, 'learning_rate': 0.0016433376019410935, 'epoch': 16.79}
{'loss': 0.1767, 'grad_norm': 0.5517407059669495, 'learning_rate': 0.001642663611242165, 'epoch': 16.79}
{'loss': 0.1563, 'grad_norm': 0.8816754221916199, 'learning_rate': 0.0016419896205432365, 'epoch': 16.8}
{'loss': 0.1766, 'grad_norm': 0.7812462449073792, 'learning_rate': 0.0016413156298443082, 'epoch': 16.8}
{'loss': 0.1894, 'grad_norm': 0.41102612018585205, 'learning_rate': 0.0016406416391453798, 'epoch': 16.8}
{'loss': 0.1766, 'grad_norm': 1.0166347026824951, 'learning_rate': 0.0016399676484464515, 'epoch': 16.81}
{'loss': 0.1637, 'grad_norm': 0.22785326838493347, 'learning_rate': 0.0016392936577475231, 'epoch': 16.81}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14570404589176178, 'eval_runtime': 117.3984, 'eval_samples_per_second': 126.39, 'eval_steps_per_second': 15.801, 'epoch': 16.82}
{'loss': 0.1526, 'grad_norm': 0.7089113593101501, 'learning_rate': 0.001637271685650738, 'epoch': 16.82}
{'loss': 0.1684, 'grad_norm': 0.37849098443984985, 'learning_rate': 0.0016365976949518097, 'epoch': 16.82}
{'loss': 0.1723, 'grad_norm': 0.47246330976486206, 'learning_rate': 0.0016359237042528813, 'epoch': 16.83}
{'loss': 0.1742, 'grad_norm': 0.7941517233848572, 'learning_rate': 0.001635249713553953, 'epoch': 16.83}
{'loss': 0.1749, 'grad_norm': 0.6130066514015198, 'learning_rate': 0.0016345757228550246, 'epoch': 16.83}
{'loss': 0.1855, 'grad_norm': 0.36543339490890503, 'learning_rate': 0.0016339017321560963, 'epoch': 16.84}
{'loss': 0.1664, 'grad_norm': 0.5459388494491577, 'learning_rate': 0.0016332277414571677, 'epoch': 16.84}
{'loss': 0.175, 'grad_norm': 0.31984439492225647, 'learning_rate': 0.0016325537507582398, 'epoch': 16.84}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14664985239505768, 'eval_runtime': 117.9854, 'eval_samples_per_second': 125.761, 'eval_steps_per_second': 15.722, 'epoch': 16.85}
{'loss': 0.1693, 'grad_norm': 0.5600833296775818, 'learning_rate': 0.0016305317786614545, 'epoch': 16.85}
{'loss': 0.1649, 'grad_norm': 0.2535388469696045, 'learning_rate': 0.0016298577879625261, 'epoch': 16.86}
{'loss': 0.1563, 'grad_norm': 0.4114919900894165, 'learning_rate': 0.0016291837972635978, 'epoch': 16.86}
{'loss': 0.1686, 'grad_norm': 0.3959083557128906, 'learning_rate': 0.0016285098065646694, 'epoch': 16.86}
{'loss': 0.1625, 'grad_norm': 10.744880676269531, 'learning_rate': 0.001627835815865741, 'epoch': 16.87}
{'loss': 0.1735, 'grad_norm': 0.49172577261924744, 'learning_rate': 0.0016271618251668127, 'epoch': 16.87}
{'loss': 0.1621, 'grad_norm': 0.740187406539917, 'learning_rate': 0.0016264878344678844, 'epoch': 16.87}
{'loss': 0.1746, 'grad_norm': 0.6067522764205933, 'learning_rate': 0.001625813843768956, 'epoch': 16.88}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14612986147403717, 'eval_runtime': 118.5699, 'eval_samples_per_second': 125.141, 'eval_steps_per_second': 15.645, 'epoch': 16.88}
{'loss': 0.1734, 'grad_norm': 0.48484522104263306, 'learning_rate': 0.001623791871672171, 'epoch': 16.89}
{'loss': 0.1657, 'grad_norm': 0.6168830990791321, 'learning_rate': 0.0016231178809732426, 'epoch': 16.89}
{'loss': 0.16, 'grad_norm': 0.6434537768363953, 'learning_rate': 0.0016224438902743144, 'epoch': 16.89}
{'loss': 0.1718, 'grad_norm': 0.5398805737495422, 'learning_rate': 0.001621769899575386, 'epoch': 16.9}
{'loss': 0.187, 'grad_norm': 0.5593023300170898, 'learning_rate': 0.0016210959088764577, 'epoch': 16.9}
{'loss': 0.1599, 'grad_norm': 0.4764196276664734, 'learning_rate': 0.0016204219181775292, 'epoch': 16.9}
{'loss': 0.1657, 'grad_norm': 0.5895465612411499, 'learning_rate': 0.0016197479274786008, 'epoch': 16.91}
{'loss': 0.1744, 'grad_norm': 1.2789620161056519, 'learning_rate': 0.0016190739367796724, 'epoch': 16.91}
{'loss': 0.18

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14898324012756348, 'eval_runtime': 119.0359, 'eval_samples_per_second': 124.651, 'eval_steps_per_second': 15.584, 'epoch': 16.92}
{'loss': 0.1631, 'grad_norm': 0.35974574089050293, 'learning_rate': 0.0016170519646828874, 'epoch': 16.92}
{'loss': 0.1727, 'grad_norm': 0.3599031865596771, 'learning_rate': 0.001616377973983959, 'epoch': 16.92}
{'loss': 0.1723, 'grad_norm': 0.44134941697120667, 'learning_rate': 0.0016157039832850307, 'epoch': 16.93}
{'loss': 0.1671, 'grad_norm': 0.45975184440612793, 'learning_rate': 0.0016150299925861023, 'epoch': 16.93}
{'loss': 0.1716, 'grad_norm': 0.7341439723968506, 'learning_rate': 0.001614356001887174, 'epoch': 16.93}
{'loss': 0.1726, 'grad_norm': 0.5597062706947327, 'learning_rate': 0.0016136820111882456, 'epoch': 16.94}
{'loss': 0.1694, 'grad_norm': 0.7527679800987244, 'learning_rate': 0.0016130080204893173, 'epoch': 16.94}
{'loss': 0.1697, 'grad_norm': 0.42599204182624817, 'learning_rate': 0.001612334029790389, 'epoch': 16.94}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1465122252702713, 'eval_runtime': 118.1701, 'eval_samples_per_second': 125.565, 'eval_steps_per_second': 15.698, 'epoch': 16.95}
{'loss': 0.1666, 'grad_norm': 0.424804151058197, 'learning_rate': 0.001610312057693604, 'epoch': 16.95}
{'loss': 0.1677, 'grad_norm': 0.6517810225486755, 'learning_rate': 0.0016096380669946755, 'epoch': 16.96}
{'loss': 0.1718, 'grad_norm': 0.6541807055473328, 'learning_rate': 0.0016089640762957471, 'epoch': 16.96}
{'loss': 0.1795, 'grad_norm': 1.9379085302352905, 'learning_rate': 0.0016082900855968188, 'epoch': 16.96}
{'loss': 0.176, 'grad_norm': 0.558892548084259, 'learning_rate': 0.0016076160948978904, 'epoch': 16.97}
{'loss': 0.1732, 'grad_norm': 0.5287560820579529, 'learning_rate': 0.001606942104198962, 'epoch': 16.97}
{'loss': 0.1662, 'grad_norm': 0.5624717473983765, 'learning_rate': 0.0016062815933140123, 'epoch': 16.97}
{'loss': 0.1808, 'grad_norm': 1.2305690050125122, 'learning_rate': 0.001605607602615084, 'epoch': 16.98}
{'loss': 0.17

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1479959338903427, 'eval_runtime': 117.2695, 'eval_samples_per_second': 126.529, 'eval_steps_per_second': 15.818, 'epoch': 16.98}
{'loss': 0.1707, 'grad_norm': 0.5932003855705261, 'learning_rate': 0.0016035856305182988, 'epoch': 16.99}
{'loss': 0.1608, 'grad_norm': 0.5438950061798096, 'learning_rate': 0.0016029116398193705, 'epoch': 16.99}
{'loss': 0.1702, 'grad_norm': 0.5500024557113647, 'learning_rate': 0.0016022376491204421, 'epoch': 16.99}
{'loss': 0.1698, 'grad_norm': 1.4245634078979492, 'learning_rate': 0.0016015636584215138, 'epoch': 17.0}
{'loss': 0.1603, 'grad_norm': 0.7949338555335999, 'learning_rate': 0.0016008896677225854, 'epoch': 17.0}
{'loss': 0.1654, 'grad_norm': 0.5299862623214722, 'learning_rate': 0.001600215677023657, 'epoch': 17.0}
{'loss': 0.1476, 'grad_norm': 0.3567749261856079, 'learning_rate': 0.0015995416863247287, 'epoch': 17.01}
{'loss': 0.1411, 'grad_norm': 0.5781984329223633, 'learning_rate': 0.0015988676956258006, 'epoch': 17.01}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1478826105594635, 'eval_runtime': 117.2181, 'eval_samples_per_second': 126.585, 'eval_steps_per_second': 15.825, 'epoch': 17.02}
{'loss': 0.1588, 'grad_norm': 0.3754090964794159, 'learning_rate': 0.0015968457235290155, 'epoch': 17.02}
{'loss': 0.1478, 'grad_norm': 0.3896631896495819, 'learning_rate': 0.001596171732830087, 'epoch': 17.03}
{'loss': 0.1466, 'grad_norm': 0.48527365922927856, 'learning_rate': 0.0015955112219451374, 'epoch': 17.03}
{'loss': 0.1582, 'grad_norm': 0.9631724953651428, 'learning_rate': 0.001594837231246209, 'epoch': 17.03}
{'loss': 0.1588, 'grad_norm': 0.7665274739265442, 'learning_rate': 0.0015941632405472807, 'epoch': 17.04}
{'loss': 0.1444, 'grad_norm': 0.7246668934822083, 'learning_rate': 0.001593489249848352, 'epoch': 17.04}
{'loss': 0.1501, 'grad_norm': 0.3086738884449005, 'learning_rate': 0.0015928152591494237, 'epoch': 17.04}
{'loss': 0.1577, 'grad_norm': 0.8488091826438904, 'learning_rate': 0.0015921412684504954, 'epoch': 17.05}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14621524512767792, 'eval_runtime': 117.6474, 'eval_samples_per_second': 126.123, 'eval_steps_per_second': 15.767, 'epoch': 17.05}
{'loss': 0.1624, 'grad_norm': 0.6000578999519348, 'learning_rate': 0.0015901192963537103, 'epoch': 17.06}
{'loss': 0.1552, 'grad_norm': 1.2015780210494995, 'learning_rate': 0.001589445305654782, 'epoch': 17.06}
{'loss': 0.156, 'grad_norm': 0.28850528597831726, 'learning_rate': 0.0015887713149558536, 'epoch': 17.06}
{'loss': 0.148, 'grad_norm': 1.0474112033843994, 'learning_rate': 0.0015880973242569252, 'epoch': 17.07}
{'loss': 0.1495, 'grad_norm': 0.5005858540534973, 'learning_rate': 0.001587423333557997, 'epoch': 17.07}
{'loss': 0.1589, 'grad_norm': 1.7384027242660522, 'learning_rate': 0.0015867493428590685, 'epoch': 17.07}
{'loss': 0.1637, 'grad_norm': 0.629396378993988, 'learning_rate': 0.0015860753521601402, 'epoch': 17.08}
{'loss': 0.1506, 'grad_norm': 0.9542579650878906, 'learning_rate': 0.001585401361461212, 'epoch': 17.08}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14664290845394135, 'eval_runtime': 118.0322, 'eval_samples_per_second': 125.711, 'eval_steps_per_second': 15.716, 'epoch': 17.09}
{'loss': 0.1521, 'grad_norm': 1.6081870794296265, 'learning_rate': 0.001583379389364427, 'epoch': 17.09}
{'loss': 0.1611, 'grad_norm': 0.7153937816619873, 'learning_rate': 0.0015827053986654984, 'epoch': 17.09}
{'loss': 0.1577, 'grad_norm': 0.3915128707885742, 'learning_rate': 0.00158203140796657, 'epoch': 17.1}
{'loss': 0.1392, 'grad_norm': 0.40121904015541077, 'learning_rate': 0.0015813574172676417, 'epoch': 17.1}
{'loss': 0.1495, 'grad_norm': 0.5026094913482666, 'learning_rate': 0.0015806834265687133, 'epoch': 17.1}
{'loss': 0.1541, 'grad_norm': 0.8809375762939453, 'learning_rate': 0.001580009435869785, 'epoch': 17.11}
{'loss': 0.1541, 'grad_norm': 0.47403135895729065, 'learning_rate': 0.0015793354451708566, 'epoch': 17.11}
{'loss': 0.1553, 'grad_norm': 0.2601917088031769, 'learning_rate': 0.0015786614544719283, 'epoch': 17.11}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1451113522052765, 'eval_runtime': 117.8541, 'eval_samples_per_second': 125.901, 'eval_steps_per_second': 15.74, 'epoch': 17.12}
{'loss': 0.1577, 'grad_norm': 1.4319993257522583, 'learning_rate': 0.0015766394823751432, 'epoch': 17.12}
{'loss': 0.1617, 'grad_norm': 0.33359816670417786, 'learning_rate': 0.0015759654916762149, 'epoch': 17.13}
{'loss': 0.1506, 'grad_norm': 0.4708735942840576, 'learning_rate': 0.0015752915009772867, 'epoch': 17.13}
{'loss': 0.1685, 'grad_norm': 0.4912593364715576, 'learning_rate': 0.0015746175102783584, 'epoch': 17.13}
{'loss': 0.1559, 'grad_norm': 0.6574981212615967, 'learning_rate': 0.00157394351957943, 'epoch': 17.14}
{'loss': 0.1423, 'grad_norm': 1.6294832229614258, 'learning_rate': 0.0015732695288805016, 'epoch': 17.14}
{'loss': 0.1535, 'grad_norm': 0.534574568271637, 'learning_rate': 0.0015725955381815733, 'epoch': 17.14}
{'loss': 0.154, 'grad_norm': 0.8597102761268616, 'learning_rate': 0.0015719215474826447, 'epoch': 17.15}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14643315970897675, 'eval_runtime': 117.8928, 'eval_samples_per_second': 125.86, 'eval_steps_per_second': 15.735, 'epoch': 17.15}
{'loss': 0.1612, 'grad_norm': 1.137557029724121, 'learning_rate': 0.0015698995753858597, 'epoch': 17.16}
{'loss': 0.1656, 'grad_norm': 0.8714616894721985, 'learning_rate': 0.0015692255846869313, 'epoch': 17.16}
{'loss': 0.1453, 'grad_norm': 2.1343421936035156, 'learning_rate': 0.001568551593988003, 'epoch': 17.16}
{'loss': 0.1611, 'grad_norm': 0.31588736176490784, 'learning_rate': 0.0015678776032890746, 'epoch': 17.17}
{'loss': 0.1601, 'grad_norm': 0.27765050530433655, 'learning_rate': 0.0015672036125901462, 'epoch': 17.17}
{'loss': 0.1613, 'grad_norm': 0.45507940649986267, 'learning_rate': 0.0015665296218912179, 'epoch': 17.17}
{'loss': 0.173, 'grad_norm': 0.45229339599609375, 'learning_rate': 0.0015658556311922895, 'epoch': 17.18}
{'loss': 0.1601, 'grad_norm': 0.5149205923080444, 'learning_rate': 0.0015651816404933612, 'epoch': 17.18}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14627176523208618, 'eval_runtime': 118.8919, 'eval_samples_per_second': 124.802, 'eval_steps_per_second': 15.602, 'epoch': 17.19}
{'loss': 0.161, 'grad_norm': 0.9591252207756042, 'learning_rate': 0.0015631596683965763, 'epoch': 17.19}
{'loss': 0.1612, 'grad_norm': 1.1438415050506592, 'learning_rate': 0.001562485677697648, 'epoch': 17.19}
{'loss': 0.1513, 'grad_norm': 0.6031561493873596, 'learning_rate': 0.0015618116869987196, 'epoch': 17.2}
{'loss': 0.1632, 'grad_norm': 1.4481929540634155, 'learning_rate': 0.001561137696299791, 'epoch': 17.2}
{'loss': 0.1516, 'grad_norm': 0.5283357501029968, 'learning_rate': 0.0015604637056008627, 'epoch': 17.2}
{'loss': 0.1618, 'grad_norm': 0.5514192581176758, 'learning_rate': 0.0015597897149019343, 'epoch': 17.21}
{'loss': 0.1638, 'grad_norm': 0.44131362438201904, 'learning_rate': 0.001559115724203006, 'epoch': 17.21}
{'loss': 0.1678, 'grad_norm': 0.5443490147590637, 'learning_rate': 0.0015584417335040776, 'epoch': 17.21}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14986328780651093, 'eval_runtime': 117.9862, 'eval_samples_per_second': 125.76, 'eval_steps_per_second': 15.722, 'epoch': 17.22}
{'loss': 0.1538, 'grad_norm': 0.8280914425849915, 'learning_rate': 0.0015564197614072925, 'epoch': 17.22}
{'loss': 0.1666, 'grad_norm': 0.38708505034446716, 'learning_rate': 0.0015557457707083642, 'epoch': 17.23}
{'loss': 0.1539, 'grad_norm': 0.5821760892868042, 'learning_rate': 0.0015550717800094358, 'epoch': 17.23}
{'loss': 0.1525, 'grad_norm': 1.6476874351501465, 'learning_rate': 0.0015543977893105077, 'epoch': 17.23}
{'loss': 0.145, 'grad_norm': 0.38007852435112, 'learning_rate': 0.0015537237986115793, 'epoch': 17.24}
{'loss': 0.1624, 'grad_norm': 1.4711648225784302, 'learning_rate': 0.001553049807912651, 'epoch': 17.24}
{'loss': 0.1687, 'grad_norm': 0.37390416860580444, 'learning_rate': 0.0015523758172137226, 'epoch': 17.24}
{'loss': 0.1758, 'grad_norm': 1.0290677547454834, 'learning_rate': 0.0015517018265147943, 'epoch': 17.25}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14657148718833923, 'eval_runtime': 118.7851, 'eval_samples_per_second': 124.915, 'eval_steps_per_second': 15.616, 'epoch': 17.25}
{'loss': 0.1549, 'grad_norm': 0.6415567398071289, 'learning_rate': 0.001549679854418009, 'epoch': 17.26}
{'loss': 0.1523, 'grad_norm': 0.40430960059165955, 'learning_rate': 0.0015490058637190806, 'epoch': 17.26}
{'loss': 0.154, 'grad_norm': 1.8607934713363647, 'learning_rate': 0.0015483318730201523, 'epoch': 17.26}
{'loss': 0.1609, 'grad_norm': 0.44249752163887024, 'learning_rate': 0.001547657882321224, 'epoch': 17.27}
{'loss': 0.1592, 'grad_norm': 1.6165598630905151, 'learning_rate': 0.0015469838916222956, 'epoch': 17.27}
{'loss': 0.1709, 'grad_norm': 0.34685641527175903, 'learning_rate': 0.0015463099009233672, 'epoch': 17.27}
{'loss': 0.1664, 'grad_norm': 0.9027055501937866, 'learning_rate': 0.0015456359102244389, 'epoch': 17.28}
{'loss': 0.1476, 'grad_norm': 0.24622111022472382, 'learning_rate': 0.0015449619195255105, 'epoch': 17.28}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1441841870546341, 'eval_runtime': 118.659, 'eval_samples_per_second': 125.047, 'eval_steps_per_second': 15.633, 'epoch': 17.29}
{'loss': 0.165, 'grad_norm': 0.7028452157974243, 'learning_rate': 0.0015429399474287256, 'epoch': 17.29}
{'loss': 0.166, 'grad_norm': 1.086719274520874, 'learning_rate': 0.0015422659567297973, 'epoch': 17.29}
{'loss': 0.1598, 'grad_norm': 0.4268893599510193, 'learning_rate': 0.001541591966030869, 'epoch': 17.3}
{'loss': 0.1577, 'grad_norm': 0.43111875653266907, 'learning_rate': 0.0015409179753319406, 'epoch': 17.3}
{'loss': 0.1531, 'grad_norm': 0.41456112265586853, 'learning_rate': 0.0015402439846330122, 'epoch': 17.3}
{'loss': 0.1616, 'grad_norm': 0.32688602805137634, 'learning_rate': 0.0015395699939340837, 'epoch': 17.31}
{'loss': 0.1601, 'grad_norm': 0.2983592450618744, 'learning_rate': 0.0015388960032351553, 'epoch': 17.31}
{'loss': 0.1773, 'grad_norm': 0.345560759305954, 'learning_rate': 0.001538222012536227, 'epoch': 17.31}
{'loss': 0.153

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.144431933760643, 'eval_runtime': 119.123, 'eval_samples_per_second': 124.56, 'eval_steps_per_second': 15.572, 'epoch': 17.32}
{'loss': 0.1693, 'grad_norm': 0.3982420861721039, 'learning_rate': 0.0015362000404394419, 'epoch': 17.32}
{'loss': 0.1439, 'grad_norm': 0.5629703402519226, 'learning_rate': 0.001535539529554492, 'epoch': 17.33}
{'loss': 0.159, 'grad_norm': 0.8947439789772034, 'learning_rate': 0.0015348655388555637, 'epoch': 17.33}
{'loss': 0.1779, 'grad_norm': 0.5027898550033569, 'learning_rate': 0.0015341915481566354, 'epoch': 17.34}
{'loss': 0.1627, 'grad_norm': 0.4158531725406647, 'learning_rate': 0.001533517557457707, 'epoch': 17.34}
{'loss': 0.1674, 'grad_norm': 0.7531002759933472, 'learning_rate': 0.0015328435667587787, 'epoch': 17.34}
{'loss': 0.1521, 'grad_norm': 0.37668314576148987, 'learning_rate': 0.0015321695760598503, 'epoch': 17.35}
{'loss': 0.1659, 'grad_norm': 0.5167381763458252, 'learning_rate': 0.001531495585360922, 'epoch': 17.35}
{'loss': 0.15

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14574593305587769, 'eval_runtime': 119.1924, 'eval_samples_per_second': 124.488, 'eval_steps_per_second': 15.563, 'epoch': 17.36}
{'loss': 0.1621, 'grad_norm': 1.1090514659881592, 'learning_rate': 0.0015294736132641371, 'epoch': 17.36}
{'loss': 0.1524, 'grad_norm': 1.221136212348938, 'learning_rate': 0.0015287996225652088, 'epoch': 17.36}
{'loss': 0.1615, 'grad_norm': 0.38234278559684753, 'learning_rate': 0.0015281256318662804, 'epoch': 17.37}
{'loss': 0.1612, 'grad_norm': 0.3721070885658264, 'learning_rate': 0.001527451641167352, 'epoch': 17.37}
{'loss': 0.1462, 'grad_norm': 0.7421342730522156, 'learning_rate': 0.0015267776504684237, 'epoch': 17.37}
{'loss': 0.1613, 'grad_norm': 0.6222493052482605, 'learning_rate': 0.0015261036597694951, 'epoch': 17.38}
{'loss': 0.1472, 'grad_norm': 0.6912145018577576, 'learning_rate': 0.0015254296690705668, 'epoch': 17.38}
{'loss': 0.1569, 'grad_norm': 0.6549939513206482, 'learning_rate': 0.0015247556783716384, 'epoch': 17.38}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14546774327754974, 'eval_runtime': 118.8345, 'eval_samples_per_second': 124.863, 'eval_steps_per_second': 15.61, 'epoch': 17.39}
{'loss': 0.156, 'grad_norm': 0.6848063468933105, 'learning_rate': 0.0015227337062748533, 'epoch': 17.39}
{'loss': 0.1532, 'grad_norm': 0.32630661129951477, 'learning_rate': 0.001522059715575925, 'epoch': 17.4}
{'loss': 0.1532, 'grad_norm': 0.3431086242198944, 'learning_rate': 0.0015213857248769966, 'epoch': 17.4}
{'loss': 0.1514, 'grad_norm': 0.49333059787750244, 'learning_rate': 0.0015207117341780683, 'epoch': 17.4}
{'loss': 0.1573, 'grad_norm': 0.7831017374992371, 'learning_rate': 0.0015200377434791401, 'epoch': 17.41}
{'loss': 0.1487, 'grad_norm': 0.40755587816238403, 'learning_rate': 0.0015193637527802118, 'epoch': 17.41}
{'loss': 0.1568, 'grad_norm': 2.2030563354492188, 'learning_rate': 0.0015186897620812834, 'epoch': 17.41}
{'loss': 0.1782, 'grad_norm': 1.0799376964569092, 'learning_rate': 0.001518015771382355, 'epoch': 17.42}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14303241670131683, 'eval_runtime': 118.2586, 'eval_samples_per_second': 125.471, 'eval_steps_per_second': 15.686, 'epoch': 17.42}
{'loss': 0.1696, 'grad_norm': 0.48489442467689514, 'learning_rate': 0.00151599379928557, 'epoch': 17.43}
{'loss': 0.1563, 'grad_norm': 1.4174965620040894, 'learning_rate': 0.0015153198085866414, 'epoch': 17.43}
{'loss': 0.1571, 'grad_norm': 0.31974339485168457, 'learning_rate': 0.001514645817887713, 'epoch': 17.43}
{'loss': 0.1437, 'grad_norm': 0.33566516637802124, 'learning_rate': 0.0015139718271887847, 'epoch': 17.44}
{'loss': 0.1557, 'grad_norm': 0.5632612705230713, 'learning_rate': 0.0015132978364898564, 'epoch': 17.44}
{'loss': 0.1575, 'grad_norm': 0.4350000023841858, 'learning_rate': 0.001512623845790928, 'epoch': 17.44}
{'loss': 0.1486, 'grad_norm': 0.28058716654777527, 'learning_rate': 0.0015119498550919997, 'epoch': 17.45}
{'loss': 0.1596, 'grad_norm': 0.32151728868484497, 'learning_rate': 0.0015112758643930713, 'epoch': 17.45}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14298097789287567, 'eval_runtime': 118.3343, 'eval_samples_per_second': 125.391, 'eval_steps_per_second': 15.676, 'epoch': 17.46}
{'loss': 0.1562, 'grad_norm': 0.4439023733139038, 'learning_rate': 0.0015092538922962865, 'epoch': 17.46}
{'loss': 0.1583, 'grad_norm': 0.4756506681442261, 'learning_rate': 0.001508579901597358, 'epoch': 17.46}
{'loss': 0.156, 'grad_norm': 0.8208841681480408, 'learning_rate': 0.0015079059108984297, 'epoch': 17.47}
{'loss': 0.1527, 'grad_norm': 0.5746331810951233, 'learning_rate': 0.0015072319201995014, 'epoch': 17.47}
{'loss': 0.1584, 'grad_norm': 0.4128895103931427, 'learning_rate': 0.001506557929500573, 'epoch': 17.47}
{'loss': 0.1602, 'grad_norm': 0.23336459696292877, 'learning_rate': 0.0015058839388016447, 'epoch': 17.48}
{'loss': 0.166, 'grad_norm': 0.5143693685531616, 'learning_rate': 0.0015052099481027163, 'epoch': 17.48}
{'loss': 0.1544, 'grad_norm': 0.43024295568466187, 'learning_rate': 0.0015045359574037877, 'epoch': 17.48}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1413361132144928, 'eval_runtime': 125.4078, 'eval_samples_per_second': 118.318, 'eval_steps_per_second': 14.792, 'epoch': 17.49}
{'loss': 0.1497, 'grad_norm': 0.5224193930625916, 'learning_rate': 0.0015025139853070027, 'epoch': 17.49}
{'loss': 0.1532, 'grad_norm': 0.7695566415786743, 'learning_rate': 0.0015018399946080743, 'epoch': 17.5}
{'loss': 0.1598, 'grad_norm': 0.37728217244148254, 'learning_rate': 0.001501166003909146, 'epoch': 17.5}
{'loss': 0.1547, 'grad_norm': 0.28887054324150085, 'learning_rate': 0.0015004920132102176, 'epoch': 17.5}
{'loss': 0.1559, 'grad_norm': 1.9930983781814575, 'learning_rate': 0.0014998180225112893, 'epoch': 17.51}
{'loss': 0.1482, 'grad_norm': 0.5226473808288574, 'learning_rate': 0.0014991440318123611, 'epoch': 17.51}
{'loss': 0.1612, 'grad_norm': 0.34466737508773804, 'learning_rate': 0.0014984700411134328, 'epoch': 17.51}
{'loss': 0.1522, 'grad_norm': 0.4103771448135376, 'learning_rate': 0.0014977960504145044, 'epoch': 17.52}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14168715476989746, 'eval_runtime': 113.1078, 'eval_samples_per_second': 131.185, 'eval_steps_per_second': 16.4, 'epoch': 17.52}
{'loss': 0.1467, 'grad_norm': 0.3677919805049896, 'learning_rate': 0.0014957740783177193, 'epoch': 17.53}
{'loss': 0.1695, 'grad_norm': 0.4628698527812958, 'learning_rate': 0.001495100087618791, 'epoch': 17.53}
{'loss': 0.1532, 'grad_norm': 0.638157069683075, 'learning_rate': 0.0014944260969198626, 'epoch': 17.53}
{'loss': 0.1522, 'grad_norm': 1.1493991613388062, 'learning_rate': 0.001493752106220934, 'epoch': 17.54}
{'loss': 0.1501, 'grad_norm': 1.2391067743301392, 'learning_rate': 0.0014930781155220057, 'epoch': 17.54}
{'loss': 0.1537, 'grad_norm': 0.6522811055183411, 'learning_rate': 0.0014924041248230773, 'epoch': 17.54}
{'loss': 0.1547, 'grad_norm': 0.8701185584068298, 'learning_rate': 0.001491730134124149, 'epoch': 17.55}
{'loss': 0.151, 'grad_norm': 0.665765643119812, 'learning_rate': 0.0014910561434252206, 'epoch': 17.55}
{'loss': 0.170

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14405304193496704, 'eval_runtime': 112.7412, 'eval_samples_per_second': 131.611, 'eval_steps_per_second': 16.454, 'epoch': 17.56}
{'loss': 0.1519, 'grad_norm': 0.8183955550193787, 'learning_rate': 0.0014890341713284358, 'epoch': 17.56}
{'loss': 0.1515, 'grad_norm': 0.35016879439353943, 'learning_rate': 0.0014883601806295074, 'epoch': 17.56}
{'loss': 0.1626, 'grad_norm': 3.758965253829956, 'learning_rate': 0.001487686189930579, 'epoch': 17.57}
{'loss': 0.1568, 'grad_norm': 0.3677963614463806, 'learning_rate': 0.0014870121992316507, 'epoch': 17.57}
{'loss': 0.1484, 'grad_norm': 6.106202125549316, 'learning_rate': 0.0014863382085327224, 'epoch': 17.57}
{'loss': 0.1625, 'grad_norm': 0.8730596303939819, 'learning_rate': 0.001485664217833794, 'epoch': 17.58}
{'loss': 0.1461, 'grad_norm': 0.7651599049568176, 'learning_rate': 0.0014849902271348657, 'epoch': 17.58}
{'loss': 0.147, 'grad_norm': 1.7808430194854736, 'learning_rate': 0.0014843162364359373, 'epoch': 17.58}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14306360483169556, 'eval_runtime': 112.7274, 'eval_samples_per_second': 131.627, 'eval_steps_per_second': 16.456, 'epoch': 17.59}
{'loss': 0.1606, 'grad_norm': 0.9956812262535095, 'learning_rate': 0.001482294264339152, 'epoch': 17.59}
{'loss': 0.1608, 'grad_norm': 0.3186195492744446, 'learning_rate': 0.0014816202736402237, 'epoch': 17.6}
{'loss': 0.1566, 'grad_norm': 0.5921797156333923, 'learning_rate': 0.0014809462829412953, 'epoch': 17.6}
{'loss': 0.1564, 'grad_norm': 0.2247718870639801, 'learning_rate': 0.001480272292242367, 'epoch': 17.6}
{'loss': 0.1541, 'grad_norm': 0.3585442006587982, 'learning_rate': 0.0014795983015434386, 'epoch': 17.61}
{'loss': 0.1611, 'grad_norm': 1.074256420135498, 'learning_rate': 0.0014789243108445105, 'epoch': 17.61}
{'loss': 0.1777, 'grad_norm': 0.8227065801620483, 'learning_rate': 0.001478250320145582, 'epoch': 17.61}
{'loss': 0.1683, 'grad_norm': 0.31471580266952515, 'learning_rate': 0.0014775763294466537, 'epoch': 17.62}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14161552488803864, 'eval_runtime': 113.3618, 'eval_samples_per_second': 130.891, 'eval_steps_per_second': 16.364, 'epoch': 17.62}
{'loss': 0.154, 'grad_norm': 0.7823904752731323, 'learning_rate': 0.0014755543573498687, 'epoch': 17.63}
{'loss': 0.1602, 'grad_norm': 0.7985351085662842, 'learning_rate': 0.0014748803666509403, 'epoch': 17.63}
{'loss': 0.1579, 'grad_norm': 0.6504124999046326, 'learning_rate': 0.001474206375952012, 'epoch': 17.63}
{'loss': 0.1572, 'grad_norm': 1.0186824798583984, 'learning_rate': 0.0014735323852530836, 'epoch': 17.64}
{'loss': 0.1562, 'grad_norm': 0.6616096496582031, 'learning_rate': 0.0014728583945541553, 'epoch': 17.64}
{'loss': 0.1558, 'grad_norm': 0.4309725761413574, 'learning_rate': 0.0014721844038552267, 'epoch': 17.65}
{'loss': 0.155, 'grad_norm': 0.3920062482357025, 'learning_rate': 0.0014715104131562983, 'epoch': 17.65}
{'loss': 0.1666, 'grad_norm': 0.3690296709537506, 'learning_rate': 0.00147083642245737, 'epoch': 17.65}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14302882552146912, 'eval_runtime': 112.559, 'eval_samples_per_second': 131.824, 'eval_steps_per_second': 16.48, 'epoch': 17.66}
{'loss': 0.1538, 'grad_norm': 0.9687851667404175, 'learning_rate': 0.001468814450360585, 'epoch': 17.66}
{'loss': 0.1551, 'grad_norm': 0.421413779258728, 'learning_rate': 0.0014681404596616568, 'epoch': 17.67}
{'loss': 0.1735, 'grad_norm': 0.46954378485679626, 'learning_rate': 0.0014674664689627284, 'epoch': 17.67}
{'loss': 0.1673, 'grad_norm': 0.4553682804107666, 'learning_rate': 0.0014667924782638, 'epoch': 17.67}
{'loss': 0.1544, 'grad_norm': 0.4066241681575775, 'learning_rate': 0.0014661184875648717, 'epoch': 17.68}
{'loss': 0.1456, 'grad_norm': 1.1675455570220947, 'learning_rate': 0.0014654444968659433, 'epoch': 17.68}
{'loss': 0.1661, 'grad_norm': 0.33682581782341003, 'learning_rate': 0.001464770506167015, 'epoch': 17.68}
{'loss': 0.1618, 'grad_norm': 2.077894449234009, 'learning_rate': 0.0014640965154680866, 'epoch': 17.69}
{'loss': 0.15

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1429762840270996, 'eval_runtime': 113.425, 'eval_samples_per_second': 130.818, 'eval_steps_per_second': 16.354, 'epoch': 17.69}
{'loss': 0.1517, 'grad_norm': 0.43479639291763306, 'learning_rate': 0.0014620745433713016, 'epoch': 17.7}
{'loss': 0.1517, 'grad_norm': 0.32143235206604004, 'learning_rate': 0.001461400552672373, 'epoch': 17.7}
{'loss': 0.1504, 'grad_norm': 0.37803658843040466, 'learning_rate': 0.0014607265619734446, 'epoch': 17.7}
{'loss': 0.154, 'grad_norm': 0.6409184336662292, 'learning_rate': 0.001460066051088495, 'epoch': 17.71}
{'loss': 0.1518, 'grad_norm': 1.4169641733169556, 'learning_rate': 0.0014593920603895667, 'epoch': 17.71}
{'loss': 0.1563, 'grad_norm': 0.4076785743236542, 'learning_rate': 0.0014587180696906381, 'epoch': 17.71}
{'loss': 0.1491, 'grad_norm': 0.5053032040596008, 'learning_rate': 0.0014580575588056886, 'epoch': 17.72}
{'loss': 0.1582, 'grad_norm': 2.8151016235351562, 'learning_rate': 0.0014573835681067602, 'epoch': 17.72}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14034877717494965, 'eval_runtime': 112.4854, 'eval_samples_per_second': 131.91, 'eval_steps_per_second': 16.491, 'epoch': 17.73}
{'loss': 0.1626, 'grad_norm': 0.4117968678474426, 'learning_rate': 0.001455361596009975, 'epoch': 17.73}
{'loss': 0.1577, 'grad_norm': 0.4906713664531708, 'learning_rate': 0.0014546876053110466, 'epoch': 17.73}
{'loss': 0.1534, 'grad_norm': 1.2451989650726318, 'learning_rate': 0.0014540136146121182, 'epoch': 17.74}
{'loss': 0.1515, 'grad_norm': 0.5299349427223206, 'learning_rate': 0.0014533396239131899, 'epoch': 17.74}
{'loss': 0.1703, 'grad_norm': 0.5603018403053284, 'learning_rate': 0.0014526656332142615, 'epoch': 17.74}
{'loss': 0.1613, 'grad_norm': 0.4651110768318176, 'learning_rate': 0.0014520051223293117, 'epoch': 17.75}
{'loss': 0.1684, 'grad_norm': 1.0611331462860107, 'learning_rate': 0.0014513311316303834, 'epoch': 17.75}
{'loss': 0.1455, 'grad_norm': 0.8306050300598145, 'learning_rate': 0.001450657140931455, 'epoch': 17.75}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1433832347393036, 'eval_runtime': 113.7834, 'eval_samples_per_second': 130.406, 'eval_steps_per_second': 16.303, 'epoch': 17.76}
{'loss': 0.1668, 'grad_norm': 1.3785994052886963, 'learning_rate': 0.0014486351688346702, 'epoch': 17.76}
{'loss': 0.1622, 'grad_norm': 1.5120670795440674, 'learning_rate': 0.0014479611781357418, 'epoch': 17.77}
{'loss': 0.153, 'grad_norm': 0.4903659522533417, 'learning_rate': 0.0014472871874368135, 'epoch': 17.77}
{'loss': 0.1654, 'grad_norm': 0.9229082465171814, 'learning_rate': 0.0014466131967378851, 'epoch': 17.77}
{'loss': 0.1674, 'grad_norm': 0.5799076557159424, 'learning_rate': 0.0014459392060389568, 'epoch': 17.78}
{'loss': 0.1537, 'grad_norm': 0.33121708035469055, 'learning_rate': 0.0014452652153400284, 'epoch': 17.78}
{'loss': 0.1661, 'grad_norm': 0.7672478556632996, 'learning_rate': 0.0014445912246411, 'epoch': 17.78}
{'loss': 0.1521, 'grad_norm': 1.097223162651062, 'learning_rate': 0.0014439172339421717, 'epoch': 17.79}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.14089886844158173, 'eval_runtime': 114.257, 'eval_samples_per_second': 129.865, 'eval_steps_per_second': 16.235, 'epoch': 17.79}
{'loss': 0.149, 'grad_norm': 0.2542850971221924, 'learning_rate': 0.0014418952618453864, 'epoch': 17.8}
{'loss': 0.1621, 'grad_norm': 0.5676073431968689, 'learning_rate': 0.001441221271146458, 'epoch': 17.8}
{'loss': 0.1599, 'grad_norm': 1.5452595949172974, 'learning_rate': 0.0014405472804475297, 'epoch': 17.8}
{'loss': 0.1753, 'grad_norm': 0.6437575817108154, 'learning_rate': 0.0014398732897486013, 'epoch': 17.81}
{'loss': 0.1561, 'grad_norm': 0.34970077872276306, 'learning_rate': 0.0014391992990496732, 'epoch': 17.81}
{'loss': 0.1578, 'grad_norm': 1.0043772459030151, 'learning_rate': 0.0014385253083507449, 'epoch': 17.81}
{'loss': 0.1521, 'grad_norm': 0.8646724224090576, 'learning_rate': 0.0014378513176518165, 'epoch': 17.82}
{'loss': 0.1631, 'grad_norm': 0.9262291789054871, 'learning_rate': 0.0014371773269528881, 'epoch': 17.82}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13984034955501556, 'eval_runtime': 119.0835, 'eval_samples_per_second': 124.602, 'eval_steps_per_second': 15.577, 'epoch': 17.83}
{'loss': 0.1589, 'grad_norm': 0.8793007731437683, 'learning_rate': 0.001435155354856103, 'epoch': 17.83}
{'loss': 0.1602, 'grad_norm': 0.5171692967414856, 'learning_rate': 0.0014344813641571747, 'epoch': 17.83}
{'loss': 0.1539, 'grad_norm': 0.5742290019989014, 'learning_rate': 0.0014338073734582464, 'epoch': 17.84}
{'loss': 0.1502, 'grad_norm': 0.36211255192756653, 'learning_rate': 0.001433133382759318, 'epoch': 17.84}
{'loss': 0.1611, 'grad_norm': 0.7453193664550781, 'learning_rate': 0.0014324593920603897, 'epoch': 17.84}
{'loss': 0.1614, 'grad_norm': 0.41797852516174316, 'learning_rate': 0.001431785401361461, 'epoch': 17.85}
{'loss': 0.1483, 'grad_norm': 1.1933631896972656, 'learning_rate': 0.0014311114106625327, 'epoch': 17.85}
{'loss': 0.1561, 'grad_norm': 0.5162073373794556, 'learning_rate': 0.0014304374199636044, 'epoch': 17.85}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1388770490884781, 'eval_runtime': 109.991, 'eval_samples_per_second': 134.902, 'eval_steps_per_second': 16.865, 'epoch': 17.86}
{'loss': 0.1397, 'grad_norm': 0.4674884080886841, 'learning_rate': 0.0014284154478668195, 'epoch': 17.86}
{'loss': 0.1622, 'grad_norm': 0.5162488222122192, 'learning_rate': 0.0014277414571678912, 'epoch': 17.87}
{'loss': 0.1462, 'grad_norm': 0.48244789242744446, 'learning_rate': 0.0014270674664689628, 'epoch': 17.87}
{'loss': 0.1531, 'grad_norm': 0.3024789094924927, 'learning_rate': 0.0014263934757700345, 'epoch': 17.87}
{'loss': 0.1489, 'grad_norm': 0.46260058879852295, 'learning_rate': 0.001425719485071106, 'epoch': 17.88}
{'loss': 0.1547, 'grad_norm': 0.4591819643974304, 'learning_rate': 0.0014250454943721777, 'epoch': 17.88}
{'loss': 0.153, 'grad_norm': 0.4308803677558899, 'learning_rate': 0.0014243715036732494, 'epoch': 17.88}
{'loss': 0.1567, 'grad_norm': 0.5564300417900085, 'learning_rate': 0.001423697512974321, 'epoch': 17.89}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13921454548835754, 'eval_runtime': 109.8747, 'eval_samples_per_second': 135.045, 'eval_steps_per_second': 16.883, 'epoch': 17.89}
{'loss': 0.1555, 'grad_norm': 0.6131051182746887, 'learning_rate': 0.001421675540877536, 'epoch': 17.9}
{'loss': 0.1516, 'grad_norm': 0.5458870530128479, 'learning_rate': 0.0014210015501786074, 'epoch': 17.9}
{'loss': 0.1577, 'grad_norm': 0.9859593510627747, 'learning_rate': 0.001420327559479679, 'epoch': 17.9}
{'loss': 0.172, 'grad_norm': 0.264854371547699, 'learning_rate': 0.0014196535687807507, 'epoch': 17.91}
{'loss': 0.1408, 'grad_norm': 0.18996329605579376, 'learning_rate': 0.0014189795780818223, 'epoch': 17.91}
{'loss': 0.1533, 'grad_norm': 0.5442513227462769, 'learning_rate': 0.0014183055873828942, 'epoch': 17.91}
{'loss': 0.1562, 'grad_norm': 0.35723042488098145, 'learning_rate': 0.0014176315966839658, 'epoch': 17.92}
{'loss': 0.1525, 'grad_norm': 0.19141888618469238, 'learning_rate': 0.0014169576059850375, 'epoch': 17.92}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1392487734556198, 'eval_runtime': 109.9785, 'eval_samples_per_second': 134.917, 'eval_steps_per_second': 16.867, 'epoch': 17.93}
{'loss': 0.1577, 'grad_norm': 0.30621328949928284, 'learning_rate': 0.0014149356338882524, 'epoch': 17.93}
{'loss': 0.1565, 'grad_norm': 0.5213560461997986, 'learning_rate': 0.001414261643189324, 'epoch': 17.93}
{'loss': 0.1515, 'grad_norm': 0.6906247138977051, 'learning_rate': 0.0014135876524903957, 'epoch': 17.94}
{'loss': 0.1502, 'grad_norm': 0.7482015490531921, 'learning_rate': 0.0014129136617914673, 'epoch': 17.94}
{'loss': 0.1492, 'grad_norm': 0.5347282886505127, 'learning_rate': 0.001412239671092539, 'epoch': 17.95}
{'loss': 0.1645, 'grad_norm': 0.6514574885368347, 'learning_rate': 0.0014115656803936106, 'epoch': 17.95}
{'loss': 0.1502, 'grad_norm': 0.38282063603401184, 'learning_rate': 0.0014108916896946823, 'epoch': 17.95}
{'loss': 0.1704, 'grad_norm': 0.2589752972126007, 'learning_rate': 0.0014102176989957537, 'epoch': 17.96}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1383763700723648, 'eval_runtime': 109.1777, 'eval_samples_per_second': 135.907, 'eval_steps_per_second': 16.991, 'epoch': 17.96}
{'loss': 0.1569, 'grad_norm': 0.5597543716430664, 'learning_rate': 0.0014081957268989686, 'epoch': 17.97}
{'loss': 0.1662, 'grad_norm': 0.7807901501655579, 'learning_rate': 0.0014075217362000405, 'epoch': 17.97}
{'loss': 0.1596, 'grad_norm': 0.6233387589454651, 'learning_rate': 0.0014068477455011121, 'epoch': 17.97}
{'loss': 0.1532, 'grad_norm': 0.7505202293395996, 'learning_rate': 0.0014061737548021838, 'epoch': 17.98}
{'loss': 0.1312, 'grad_norm': 0.6574229598045349, 'learning_rate': 0.0014054997641032554, 'epoch': 17.98}
{'loss': 0.1565, 'grad_norm': 0.45374417304992676, 'learning_rate': 0.001404825773404327, 'epoch': 17.98}
{'loss': 0.161, 'grad_norm': 0.46090152859687805, 'learning_rate': 0.0014041517827053987, 'epoch': 17.99}
{'loss': 0.1638, 'grad_norm': 0.5940102934837341, 'learning_rate': 0.0014034777920064704, 'epoch': 17.99}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1382405310869217, 'eval_runtime': 109.2401, 'eval_samples_per_second': 135.829, 'eval_steps_per_second': 16.981, 'epoch': 18.0}
{'loss': 0.1573, 'grad_norm': 0.35353994369506836, 'learning_rate': 0.0014014558199096853, 'epoch': 18.0}
{'loss': 0.1587, 'grad_norm': 0.4031878113746643, 'learning_rate': 0.001400781829210757, 'epoch': 18.0}
{'loss': 0.1407, 'grad_norm': 0.3338817059993744, 'learning_rate': 0.0014001078385118286, 'epoch': 18.01}
{'loss': 0.1386, 'grad_norm': 0.6872992515563965, 'learning_rate': 0.0013994338478129, 'epoch': 18.01}
{'loss': 0.1215, 'grad_norm': 0.3841627836227417, 'learning_rate': 0.0013987598571139717, 'epoch': 18.01}
{'loss': 0.1393, 'grad_norm': 0.5575289726257324, 'learning_rate': 0.0013980858664150433, 'epoch': 18.02}
{'loss': 0.1297, 'grad_norm': 0.32981136441230774, 'learning_rate': 0.0013974118757161152, 'epoch': 18.02}
{'loss': 0.1325, 'grad_norm': 0.393633097410202, 'learning_rate': 0.0013967378850171868, 'epoch': 18.02}
{'loss': 0.15

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1406891644001007, 'eval_runtime': 108.1258, 'eval_samples_per_second': 137.229, 'eval_steps_per_second': 17.156, 'epoch': 18.03}
{'loss': 0.1312, 'grad_norm': 0.27750349044799805, 'learning_rate': 0.0013947159129204017, 'epoch': 18.03}
{'loss': 0.1309, 'grad_norm': 0.42997902631759644, 'learning_rate': 0.0013940419222214734, 'epoch': 18.04}
{'loss': 0.1411, 'grad_norm': 0.928514838218689, 'learning_rate': 0.001393367931522545, 'epoch': 18.04}
{'loss': 0.1598, 'grad_norm': 0.25434938073158264, 'learning_rate': 0.0013926939408236167, 'epoch': 18.04}
{'loss': 0.1314, 'grad_norm': 1.2093013525009155, 'learning_rate': 0.0013920199501246883, 'epoch': 18.05}
{'loss': 0.1397, 'grad_norm': 0.25968414545059204, 'learning_rate': 0.00139134595942576, 'epoch': 18.05}
{'loss': 0.1412, 'grad_norm': 0.5921885371208191, 'learning_rate': 0.0013906719687268316, 'epoch': 18.05}
{'loss': 0.131, 'grad_norm': 0.5893904566764832, 'learning_rate': 0.0013899979780279033, 'epoch': 18.06}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13789886236190796, 'eval_runtime': 109.4703, 'eval_samples_per_second': 135.544, 'eval_steps_per_second': 16.945, 'epoch': 18.06}
{'loss': 0.1389, 'grad_norm': 0.3355861306190491, 'learning_rate': 0.001387976005931118, 'epoch': 18.07}
{'loss': 0.136, 'grad_norm': 0.7048138976097107, 'learning_rate': 0.00138730201523219, 'epoch': 18.07}
{'loss': 0.1469, 'grad_norm': 0.4742664098739624, 'learning_rate': 0.0013866280245332615, 'epoch': 18.07}
{'loss': 0.157, 'grad_norm': 0.29403504729270935, 'learning_rate': 0.0013859540338343331, 'epoch': 18.08}
{'loss': 0.1436, 'grad_norm': 0.18098069727420807, 'learning_rate': 0.0013852800431354048, 'epoch': 18.08}
{'loss': 0.1403, 'grad_norm': 0.274257093667984, 'learning_rate': 0.0013846060524364764, 'epoch': 18.08}
{'loss': 0.1605, 'grad_norm': 0.5077045559883118, 'learning_rate': 0.001383932061737548, 'epoch': 18.09}
{'loss': 0.153, 'grad_norm': 0.32333919405937195, 'learning_rate': 0.0013832580710386197, 'epoch': 18.09}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1413620561361313, 'eval_runtime': 110.1265, 'eval_samples_per_second': 134.736, 'eval_steps_per_second': 16.844, 'epoch': 18.1}
{'loss': 0.139, 'grad_norm': 0.5476710796356201, 'learning_rate': 0.0013812495787558132, 'epoch': 18.1}
{'loss': 0.1487, 'grad_norm': 0.48573026061058044, 'learning_rate': 0.0013805755880568849, 'epoch': 18.1}
{'loss': 0.1417, 'grad_norm': 0.4000242352485657, 'learning_rate': 0.0013799015973579565, 'epoch': 18.11}
{'loss': 0.148, 'grad_norm': 0.4912096858024597, 'learning_rate': 0.0013792276066590281, 'epoch': 18.11}
{'loss': 0.1267, 'grad_norm': 0.5026943683624268, 'learning_rate': 0.0013785536159600998, 'epoch': 18.11}
{'loss': 0.1432, 'grad_norm': 0.6463003754615784, 'learning_rate': 0.0013778796252611714, 'epoch': 18.12}
{'loss': 0.1405, 'grad_norm': 0.88307124376297, 'learning_rate': 0.001377205634562243, 'epoch': 18.12}
{'loss': 0.1453, 'grad_norm': 0.22770565748214722, 'learning_rate': 0.0013765316438633147, 'epoch': 18.12}
{'loss': 0.15

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1396542340517044, 'eval_runtime': 109.9003, 'eval_samples_per_second': 135.013, 'eval_steps_per_second': 16.879, 'epoch': 18.13}
{'loss': 0.14, 'grad_norm': 0.34925368428230286, 'learning_rate': 0.0013745096717665294, 'epoch': 18.13}
{'loss': 0.1481, 'grad_norm': 0.514832615852356, 'learning_rate': 0.0013738356810676015, 'epoch': 18.14}
{'loss': 0.1573, 'grad_norm': 0.3744882345199585, 'learning_rate': 0.001373161690368673, 'epoch': 18.14}
{'loss': 0.1463, 'grad_norm': 0.561339259147644, 'learning_rate': 0.0013724876996697446, 'epoch': 18.14}
{'loss': 0.1428, 'grad_norm': 0.4093918204307556, 'learning_rate': 0.0013718137089708162, 'epoch': 18.15}
{'loss': 0.1388, 'grad_norm': 0.41859617829322815, 'learning_rate': 0.0013711397182718879, 'epoch': 18.15}
{'loss': 0.1425, 'grad_norm': 0.527857780456543, 'learning_rate': 0.0013704657275729595, 'epoch': 18.15}
{'loss': 0.1423, 'grad_norm': 0.38316094875335693, 'learning_rate': 0.0013697917368740312, 'epoch': 18.16}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13969045877456665, 'eval_runtime': 109.0591, 'eval_samples_per_second': 136.055, 'eval_steps_per_second': 17.009, 'epoch': 18.16}
{'loss': 0.1391, 'grad_norm': 1.2653522491455078, 'learning_rate': 0.001367769764777246, 'epoch': 18.17}
{'loss': 0.1428, 'grad_norm': 0.39253905415534973, 'learning_rate': 0.0013670957740783177, 'epoch': 18.17}
{'loss': 0.1309, 'grad_norm': 0.22315433621406555, 'learning_rate': 0.0013664217833793894, 'epoch': 18.17}
{'loss': 0.1433, 'grad_norm': 0.5920285582542419, 'learning_rate': 0.001365747792680461, 'epoch': 18.18}
{'loss': 0.1388, 'grad_norm': 0.4267924427986145, 'learning_rate': 0.0013650738019815327, 'epoch': 18.18}
{'loss': 0.1388, 'grad_norm': 0.6356369256973267, 'learning_rate': 0.0013643998112826041, 'epoch': 18.18}
{'loss': 0.1364, 'grad_norm': 0.39759543538093567, 'learning_rate': 0.0013637258205836758, 'epoch': 18.19}
{'loss': 0.1323, 'grad_norm': 0.27649080753326416, 'learning_rate': 0.0013630518298847478, 'epoch': 18.19}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13712796568870544, 'eval_runtime': 109.974, 'eval_samples_per_second': 134.923, 'eval_steps_per_second': 16.868, 'epoch': 18.2}
{'loss': 0.1315, 'grad_norm': 0.48874497413635254, 'learning_rate': 0.0013610298577879626, 'epoch': 18.2}
{'loss': 0.139, 'grad_norm': 0.41396090388298035, 'learning_rate': 0.0013603558670890342, 'epoch': 18.2}
{'loss': 0.1403, 'grad_norm': 0.29606035351753235, 'learning_rate': 0.0013596818763901058, 'epoch': 18.21}
{'loss': 0.1513, 'grad_norm': 0.5610312819480896, 'learning_rate': 0.0013590078856911775, 'epoch': 18.21}
{'loss': 0.1288, 'grad_norm': 0.5860660672187805, 'learning_rate': 0.0013583338949922491, 'epoch': 18.21}
{'loss': 0.1453, 'grad_norm': 0.6320937275886536, 'learning_rate': 0.0013576599042933208, 'epoch': 18.22}
{'loss': 0.1406, 'grad_norm': 0.582082211971283, 'learning_rate': 0.0013569859135943924, 'epoch': 18.22}
{'loss': 0.1331, 'grad_norm': 0.51336270570755, 'learning_rate': 0.001356311922895464, 'epoch': 18.22}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1377166509628296, 'eval_runtime': 109.9898, 'eval_samples_per_second': 134.903, 'eval_steps_per_second': 16.865, 'epoch': 18.23}
{'loss': 0.1356, 'grad_norm': 0.42411714792251587, 'learning_rate': 0.001354289950798679, 'epoch': 18.23}
{'loss': 0.1429, 'grad_norm': 0.7179493308067322, 'learning_rate': 0.0013536159600997504, 'epoch': 18.24}
{'loss': 0.1426, 'grad_norm': 0.3996278643608093, 'learning_rate': 0.0013529419694008225, 'epoch': 18.24}
{'loss': 0.1388, 'grad_norm': 0.5409717559814453, 'learning_rate': 0.0013522679787018941, 'epoch': 18.24}
{'loss': 0.1441, 'grad_norm': 1.751953363418579, 'learning_rate': 0.0013515939880029656, 'epoch': 18.25}
{'loss': 0.1685, 'grad_norm': 0.38508525490760803, 'learning_rate': 0.0013509199973040372, 'epoch': 18.25}
{'loss': 0.145, 'grad_norm': 2.684924840927124, 'learning_rate': 0.0013502460066051089, 'epoch': 18.26}
{'loss': 0.1411, 'grad_norm': 0.38276922702789307, 'learning_rate': 0.0013495720159061805, 'epoch': 18.26}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1376778781414032, 'eval_runtime': 109.6605, 'eval_samples_per_second': 135.309, 'eval_steps_per_second': 16.916, 'epoch': 18.27}
{'loss': 0.1532, 'grad_norm': 1.1919020414352417, 'learning_rate': 0.0013475500438093954, 'epoch': 18.27}
{'loss': 0.1384, 'grad_norm': 0.5470892786979675, 'learning_rate': 0.001346876053110467, 'epoch': 18.27}
{'loss': 0.1353, 'grad_norm': 0.3530692756175995, 'learning_rate': 0.0013462020624115387, 'epoch': 18.28}
{'loss': 0.1356, 'grad_norm': 0.33620887994766235, 'learning_rate': 0.0013455280717126104, 'epoch': 18.28}
{'loss': 0.1327, 'grad_norm': 0.8275136351585388, 'learning_rate': 0.001344854081013682, 'epoch': 18.28}
{'loss': 0.1387, 'grad_norm': 0.5697978138923645, 'learning_rate': 0.0013441800903147537, 'epoch': 18.29}
{'loss': 0.151, 'grad_norm': 0.264425128698349, 'learning_rate': 0.0013435060996158253, 'epoch': 18.29}
{'loss': 0.1402, 'grad_norm': 0.5646316409111023, 'learning_rate': 0.0013428321089168972, 'epoch': 18.29}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13837243616580963, 'eval_runtime': 109.6885, 'eval_samples_per_second': 135.274, 'eval_steps_per_second': 16.912, 'epoch': 18.3}
{'loss': 0.1355, 'grad_norm': 1.8500208854675293, 'learning_rate': 0.0013408101368201119, 'epoch': 18.3}
{'loss': 0.1508, 'grad_norm': 0.49313849210739136, 'learning_rate': 0.0013401361461211835, 'epoch': 18.31}
{'loss': 0.1461, 'grad_norm': 0.24654963612556458, 'learning_rate': 0.0013394621554222552, 'epoch': 18.31}
{'loss': 0.1476, 'grad_norm': 0.3804742395877838, 'learning_rate': 0.0013387881647233268, 'epoch': 18.31}
{'loss': 0.1348, 'grad_norm': 0.2997795045375824, 'learning_rate': 0.0013381141740243985, 'epoch': 18.32}
{'loss': 0.1416, 'grad_norm': 0.38921862840652466, 'learning_rate': 0.0013374401833254701, 'epoch': 18.32}
{'loss': 0.1522, 'grad_norm': 0.9126961827278137, 'learning_rate': 0.0013367661926265418, 'epoch': 18.32}
{'loss': 0.1384, 'grad_norm': 0.43684205412864685, 'learning_rate': 0.0013360922019276134, 'epoch': 18.33}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13709209859371185, 'eval_runtime': 109.6977, 'eval_samples_per_second': 135.263, 'eval_steps_per_second': 16.91, 'epoch': 18.33}
{'loss': 0.1468, 'grad_norm': 0.4669623374938965, 'learning_rate': 0.001334083709644807, 'epoch': 18.34}
{'loss': 0.15, 'grad_norm': 0.365451842546463, 'learning_rate': 0.0013334097189458786, 'epoch': 18.34}
{'loss': 0.1368, 'grad_norm': 0.3369881212711334, 'learning_rate': 0.0013327357282469502, 'epoch': 18.34}
{'loss': 0.1484, 'grad_norm': 0.1684153974056244, 'learning_rate': 0.0013320617375480218, 'epoch': 18.35}
{'loss': 0.1475, 'grad_norm': 0.9831857085227966, 'learning_rate': 0.0013313877468490935, 'epoch': 18.35}
{'loss': 0.1406, 'grad_norm': 0.3343401551246643, 'learning_rate': 0.0013307137561501651, 'epoch': 18.35}
{'loss': 0.1429, 'grad_norm': 0.28560134768486023, 'learning_rate': 0.0013300397654512368, 'epoch': 18.36}
{'loss': 0.1406, 'grad_norm': 0.4139436185359955, 'learning_rate': 0.0013293657747523086, 'epoch': 18.36}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13860730826854706, 'eval_runtime': 109.112, 'eval_samples_per_second': 135.989, 'eval_steps_per_second': 17.001, 'epoch': 18.37}
{'loss': 0.1471, 'grad_norm': 2.015810251235962, 'learning_rate': 0.0013273438026555234, 'epoch': 18.37}
{'loss': 0.1488, 'grad_norm': 0.9187847375869751, 'learning_rate': 0.001326669811956595, 'epoch': 18.37}
{'loss': 0.1461, 'grad_norm': 0.6034380197525024, 'learning_rate': 0.0013259958212576666, 'epoch': 18.38}
{'loss': 0.1434, 'grad_norm': 0.44611626863479614, 'learning_rate': 0.0013253218305587383, 'epoch': 18.38}
{'loss': 0.1489, 'grad_norm': 0.419909805059433, 'learning_rate': 0.00132464783985981, 'epoch': 18.38}
{'loss': 0.1438, 'grad_norm': 0.44352987408638, 'learning_rate': 0.0013239738491608816, 'epoch': 18.39}
{'loss': 0.1342, 'grad_norm': 0.3104880750179291, 'learning_rate': 0.0013232998584619532, 'epoch': 18.39}
{'loss': 0.1263, 'grad_norm': 0.5150755047798157, 'learning_rate': 0.0013226258677630249, 'epoch': 18.39}
{'loss': 0.14

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1375485360622406, 'eval_runtime': 109.7856, 'eval_samples_per_second': 135.154, 'eval_steps_per_second': 16.897, 'epoch': 18.4}
{'loss': 0.1416, 'grad_norm': 0.8386992812156677, 'learning_rate': 0.0013206038956662398, 'epoch': 18.4}
{'loss': 0.1502, 'grad_norm': 1.1448670625686646, 'learning_rate': 0.0013199299049673114, 'epoch': 18.41}
{'loss': 0.1467, 'grad_norm': 0.48168137669563293, 'learning_rate': 0.0013192559142683833, 'epoch': 18.41}
{'loss': 0.1345, 'grad_norm': 0.5297510027885437, 'learning_rate': 0.001318581923569455, 'epoch': 18.41}
{'loss': 0.14, 'grad_norm': 0.6965489983558655, 'learning_rate': 0.0013179079328705266, 'epoch': 18.42}
{'loss': 0.156, 'grad_norm': 0.5870245695114136, 'learning_rate': 0.0013172339421715982, 'epoch': 18.42}
{'loss': 0.152, 'grad_norm': 0.5538487434387207, 'learning_rate': 0.0013165599514726697, 'epoch': 18.42}
{'loss': 0.1577, 'grad_norm': 0.27753493189811707, 'learning_rate': 0.0013158859607737413, 'epoch': 18.43}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13909736275672913, 'eval_runtime': 109.895, 'eval_samples_per_second': 135.02, 'eval_steps_per_second': 16.88, 'epoch': 18.43}
{'loss': 0.1429, 'grad_norm': 0.4116799235343933, 'learning_rate': 0.0013138639886769562, 'epoch': 18.44}
{'loss': 0.1394, 'grad_norm': 0.3347427248954773, 'learning_rate': 0.0013132034777920065, 'epoch': 18.44}
{'loss': 0.1434, 'grad_norm': 0.5377881526947021, 'learning_rate': 0.001312529487093078, 'epoch': 18.44}
{'loss': 0.1327, 'grad_norm': 0.461258202791214, 'learning_rate': 0.0013118554963941498, 'epoch': 18.45}
{'loss': 0.1494, 'grad_norm': 0.8686655759811401, 'learning_rate': 0.0013111815056952214, 'epoch': 18.45}
{'loss': 0.1536, 'grad_norm': 0.449471652507782, 'learning_rate': 0.001310507514996293, 'epoch': 18.45}
{'loss': 0.1438, 'grad_norm': 0.3843567669391632, 'learning_rate': 0.0013098335242973647, 'epoch': 18.46}
{'loss': 0.139, 'grad_norm': 0.31596192717552185, 'learning_rate': 0.0013091595335984363, 'epoch': 18.46}
{'loss': 0.14

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13596197962760925, 'eval_runtime': 108.4369, 'eval_samples_per_second': 136.835, 'eval_steps_per_second': 17.107, 'epoch': 18.47}
{'loss': 0.137, 'grad_norm': 1.8200390338897705, 'learning_rate': 0.0013071375615016513, 'epoch': 18.47}
{'loss': 0.1491, 'grad_norm': 0.48883116245269775, 'learning_rate': 0.001306463570802723, 'epoch': 18.47}
{'loss': 0.1462, 'grad_norm': 1.1456965208053589, 'learning_rate': 0.0013057895801037948, 'epoch': 18.48}
{'loss': 0.148, 'grad_norm': 0.9337000250816345, 'learning_rate': 0.0013051155894048664, 'epoch': 18.48}
{'loss': 0.1463, 'grad_norm': 0.33123478293418884, 'learning_rate': 0.001304441598705938, 'epoch': 18.48}
{'loss': 0.1532, 'grad_norm': 0.27712592482566833, 'learning_rate': 0.0013037676080070097, 'epoch': 18.49}
{'loss': 0.1539, 'grad_norm': 0.2865702211856842, 'learning_rate': 0.0013030936173080811, 'epoch': 18.49}
{'loss': 0.1428, 'grad_norm': 0.3861984610557556, 'learning_rate': 0.0013024196266091528, 'epoch': 18.49}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13811659812927246, 'eval_runtime': 109.7489, 'eval_samples_per_second': 135.199, 'eval_steps_per_second': 16.902, 'epoch': 18.5}
{'loss': 0.1526, 'grad_norm': 0.3178453743457794, 'learning_rate': 0.0013003976545123677, 'epoch': 18.5}
{'loss': 0.144, 'grad_norm': 0.47421878576278687, 'learning_rate': 0.0012997236638134394, 'epoch': 18.51}
{'loss': 0.136, 'grad_norm': 0.2517468333244324, 'learning_rate': 0.001299049673114511, 'epoch': 18.51}
{'loss': 0.1443, 'grad_norm': 0.727002739906311, 'learning_rate': 0.0012983756824155826, 'epoch': 18.51}
{'loss': 0.1554, 'grad_norm': 0.7891174554824829, 'learning_rate': 0.0012977016917166543, 'epoch': 18.52}
{'loss': 0.1406, 'grad_norm': 1.5419896841049194, 'learning_rate': 0.001297027701017726, 'epoch': 18.52}
{'loss': 0.1441, 'grad_norm': 6.058634281158447, 'learning_rate': 0.0012963537103187976, 'epoch': 18.52}
{'loss': 0.1375, 'grad_norm': 0.48284780979156494, 'learning_rate': 0.0012956797196198692, 'epoch': 18.53}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13766694068908691, 'eval_runtime': 108.959, 'eval_samples_per_second': 136.18, 'eval_steps_per_second': 17.025, 'epoch': 18.53}
{'loss': 0.1463, 'grad_norm': 0.7759725451469421, 'learning_rate': 0.0012936577475230844, 'epoch': 18.54}
{'loss': 0.1379, 'grad_norm': 0.4152456223964691, 'learning_rate': 0.001292983756824156, 'epoch': 18.54}
{'loss': 0.144, 'grad_norm': 0.7154302000999451, 'learning_rate': 0.0012923097661252274, 'epoch': 18.54}
{'loss': 0.1368, 'grad_norm': 0.42280179262161255, 'learning_rate': 0.001291635775426299, 'epoch': 18.55}
{'loss': 0.1499, 'grad_norm': 0.42165377736091614, 'learning_rate': 0.0012909617847273707, 'epoch': 18.55}
{'loss': 0.1513, 'grad_norm': 0.5069008469581604, 'learning_rate': 0.0012902877940284424, 'epoch': 18.55}
{'loss': 0.1597, 'grad_norm': 0.40041401982307434, 'learning_rate': 0.001289613803329514, 'epoch': 18.56}
{'loss': 0.1363, 'grad_norm': 0.4286438226699829, 'learning_rate': 0.0012889398126305857, 'epoch': 18.56}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13571907579898834, 'eval_runtime': 109.5791, 'eval_samples_per_second': 135.409, 'eval_steps_per_second': 16.928, 'epoch': 18.57}
{'loss': 0.1413, 'grad_norm': 0.3858661651611328, 'learning_rate': 0.0012869178405338006, 'epoch': 18.57}
{'loss': 0.1447, 'grad_norm': 0.5571258068084717, 'learning_rate': 0.0012862438498348722, 'epoch': 18.58}
{'loss': 0.1387, 'grad_norm': 0.4201298654079437, 'learning_rate': 0.0012855698591359439, 'epoch': 18.58}
{'loss': 0.1415, 'grad_norm': 0.6521869897842407, 'learning_rate': 0.0012848958684370158, 'epoch': 18.58}
{'loss': 0.1349, 'grad_norm': 0.5513349175453186, 'learning_rate': 0.0012842218777380874, 'epoch': 18.59}
{'loss': 0.1559, 'grad_norm': 2.3868753910064697, 'learning_rate': 0.001283547887039159, 'epoch': 18.59}
{'loss': 0.1419, 'grad_norm': 0.657649040222168, 'learning_rate': 0.0012828738963402307, 'epoch': 18.59}
{'loss': 0.1439, 'grad_norm': 0.8745298385620117, 'learning_rate': 0.0012821999056413023, 'epoch': 18.6}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13585300743579865, 'eval_runtime': 109.5641, 'eval_samples_per_second': 135.428, 'eval_steps_per_second': 16.931, 'epoch': 18.6}
{'loss': 0.147, 'grad_norm': 0.22732171416282654, 'learning_rate': 0.001280177933544517, 'epoch': 18.61}
{'loss': 0.1561, 'grad_norm': 0.35147249698638916, 'learning_rate': 0.0012795039428455887, 'epoch': 18.61}
{'loss': 0.1406, 'grad_norm': 2.1907784938812256, 'learning_rate': 0.0012788299521466603, 'epoch': 18.61}
{'loss': 0.1296, 'grad_norm': 0.26319587230682373, 'learning_rate': 0.001278155961447732, 'epoch': 18.62}
{'loss': 0.1314, 'grad_norm': 0.31445297598838806, 'learning_rate': 0.0012774819707488036, 'epoch': 18.62}
{'loss': 0.1444, 'grad_norm': 0.43164563179016113, 'learning_rate': 0.0012768079800498753, 'epoch': 18.62}
{'loss': 0.1443, 'grad_norm': 0.2301347255706787, 'learning_rate': 0.001276133989350947, 'epoch': 18.63}
{'loss': 0.1381, 'grad_norm': 0.48073992133140564, 'learning_rate': 0.0012754599986520186, 'epoch': 18.63}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1361616551876068, 'eval_runtime': 109.4157, 'eval_samples_per_second': 135.611, 'eval_steps_per_second': 16.954, 'epoch': 18.64}
{'loss': 0.1446, 'grad_norm': 1.7906303405761719, 'learning_rate': 0.0012734380265552337, 'epoch': 18.64}
{'loss': 0.1356, 'grad_norm': 0.46956920623779297, 'learning_rate': 0.0012727640358563054, 'epoch': 18.64}
{'loss': 0.1397, 'grad_norm': 0.5899258852005005, 'learning_rate': 0.001272090045157377, 'epoch': 18.65}
{'loss': 0.1525, 'grad_norm': 0.8325524926185608, 'learning_rate': 0.0012714160544584486, 'epoch': 18.65}
{'loss': 0.1465, 'grad_norm': 0.6684454083442688, 'learning_rate': 0.00127074206375952, 'epoch': 18.65}
{'loss': 0.1483, 'grad_norm': 0.4670328199863434, 'learning_rate': 0.0012700680730605917, 'epoch': 18.66}
{'loss': 0.1543, 'grad_norm': 0.6616209745407104, 'learning_rate': 0.0012693940823616634, 'epoch': 18.66}
{'loss': 0.1389, 'grad_norm': 0.22293521463871002, 'learning_rate': 0.001268720091662735, 'epoch': 18.66}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13543717563152313, 'eval_runtime': 109.132, 'eval_samples_per_second': 135.964, 'eval_steps_per_second': 16.998, 'epoch': 18.67}
{'loss': 0.1302, 'grad_norm': 0.36766040325164795, 'learning_rate': 0.00126669811956595, 'epoch': 18.67}
{'loss': 0.1376, 'grad_norm': 0.2408071905374527, 'learning_rate': 0.0012660241288670216, 'epoch': 18.68}
{'loss': 0.1378, 'grad_norm': 1.5479365587234497, 'learning_rate': 0.0012653501381680932, 'epoch': 18.68}
{'loss': 0.1328, 'grad_norm': 0.5649616718292236, 'learning_rate': 0.0012646761474691649, 'epoch': 18.68}
{'loss': 0.1283, 'grad_norm': 0.3763197064399719, 'learning_rate': 0.0012640021567702367, 'epoch': 18.69}
{'loss': 0.1426, 'grad_norm': 0.47585242986679077, 'learning_rate': 0.0012633281660713084, 'epoch': 18.69}
{'loss': 0.1283, 'grad_norm': 1.3664227724075317, 'learning_rate': 0.00126265417537238, 'epoch': 18.69}
{'loss': 0.1452, 'grad_norm': 1.8777295351028442, 'learning_rate': 0.0012619801846734517, 'epoch': 18.7}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13642734289169312, 'eval_runtime': 109.9155, 'eval_samples_per_second': 134.995, 'eval_steps_per_second': 16.877, 'epoch': 18.7}
{'loss': 0.1598, 'grad_norm': 0.3856196701526642, 'learning_rate': 0.0012599582125766664, 'epoch': 18.71}
{'loss': 0.1359, 'grad_norm': 0.30089542269706726, 'learning_rate': 0.001259284221877738, 'epoch': 18.71}
{'loss': 0.162, 'grad_norm': 0.8120995163917542, 'learning_rate': 0.0012586102311788097, 'epoch': 18.71}
{'loss': 0.1429, 'grad_norm': 0.38461458683013916, 'learning_rate': 0.0012579362404798813, 'epoch': 18.72}
{'loss': 0.1314, 'grad_norm': 0.6677398681640625, 'learning_rate': 0.001257262249780953, 'epoch': 18.72}
{'loss': 0.1702, 'grad_norm': 0.5678595304489136, 'learning_rate': 0.0012566017388960032, 'epoch': 18.72}
{'loss': 0.1457, 'grad_norm': 0.550324559211731, 'learning_rate': 0.0012559277481970748, 'epoch': 18.73}
{'loss': 0.1426, 'grad_norm': 0.6008590459823608, 'learning_rate': 0.0012552537574981465, 'epoch': 18.73}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1340286284685135, 'eval_runtime': 108.8785, 'eval_samples_per_second': 136.28, 'eval_steps_per_second': 17.037, 'epoch': 18.74}
{'loss': 0.1458, 'grad_norm': 0.3919737935066223, 'learning_rate': 0.00125324526521534, 'epoch': 18.74}
{'loss': 0.1361, 'grad_norm': 0.5494087934494019, 'learning_rate': 0.0012525712745164116, 'epoch': 18.74}
{'loss': 0.1323, 'grad_norm': 0.9025757908821106, 'learning_rate': 0.0012518972838174833, 'epoch': 18.75}
{'loss': 0.1369, 'grad_norm': 0.6929985880851746, 'learning_rate': 0.001251223293118555, 'epoch': 18.75}
{'loss': 0.1451, 'grad_norm': 0.6336584091186523, 'learning_rate': 0.0012505493024196266, 'epoch': 18.75}
{'loss': 0.13, 'grad_norm': 0.38117313385009766, 'learning_rate': 0.0012498753117206984, 'epoch': 18.76}
{'loss': 0.1511, 'grad_norm': 0.6868178844451904, 'learning_rate': 0.0012492013210217698, 'epoch': 18.76}
{'loss': 0.1399, 'grad_norm': 0.5626870393753052, 'learning_rate': 0.0012485273303228415, 'epoch': 18.76}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1340748816728592, 'eval_runtime': 109.1449, 'eval_samples_per_second': 135.948, 'eval_steps_per_second': 16.996, 'epoch': 18.77}
{'loss': 0.144, 'grad_norm': 0.38854527473449707, 'learning_rate': 0.0012465053582260564, 'epoch': 18.77}
{'loss': 0.1395, 'grad_norm': 0.647560715675354, 'learning_rate': 0.001245831367527128, 'epoch': 18.78}
{'loss': 0.1441, 'grad_norm': 0.5542566180229187, 'learning_rate': 0.0012451573768282, 'epoch': 18.78}
{'loss': 0.1378, 'grad_norm': 0.27329501509666443, 'learning_rate': 0.0012444833861292716, 'epoch': 18.78}
{'loss': 0.1512, 'grad_norm': 0.33783596754074097, 'learning_rate': 0.001243809395430343, 'epoch': 18.79}
{'loss': 0.1382, 'grad_norm': 0.37879234552383423, 'learning_rate': 0.0012431354047314146, 'epoch': 18.79}
{'loss': 0.148, 'grad_norm': 0.5902741551399231, 'learning_rate': 0.0012424614140324863, 'epoch': 18.79}
{'loss': 0.1397, 'grad_norm': 1.253355622291565, 'learning_rate': 0.001241787423333558, 'epoch': 18.8}
{'loss': 0.132

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13240362703800201, 'eval_runtime': 109.7392, 'eval_samples_per_second': 135.212, 'eval_steps_per_second': 16.904, 'epoch': 18.8}
{'loss': 0.1487, 'grad_norm': 0.4707096517086029, 'learning_rate': 0.001239765451236773, 'epoch': 18.81}
{'loss': 0.138, 'grad_norm': 1.2239134311676025, 'learning_rate': 0.0012390914605378447, 'epoch': 18.81}
{'loss': 0.1365, 'grad_norm': 0.29882293939590454, 'learning_rate': 0.0012384174698389162, 'epoch': 18.81}
{'loss': 0.1344, 'grad_norm': 0.5670390129089355, 'learning_rate': 0.0012377434791399878, 'epoch': 18.82}
{'loss': 0.1496, 'grad_norm': 0.4788212776184082, 'learning_rate': 0.0012370694884410594, 'epoch': 18.82}
{'loss': 0.1413, 'grad_norm': 0.48585495352745056, 'learning_rate': 0.001236395497742131, 'epoch': 18.82}
{'loss': 0.1651, 'grad_norm': 0.4353715479373932, 'learning_rate': 0.0012357215070432027, 'epoch': 18.83}
{'loss': 0.1433, 'grad_norm': 0.4564191699028015, 'learning_rate': 0.0012350475163442746, 'epoch': 18.83}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13306981325149536, 'eval_runtime': 109.335, 'eval_samples_per_second': 135.711, 'eval_steps_per_second': 16.966, 'epoch': 18.84}
{'loss': 0.1339, 'grad_norm': 0.30654293298721313, 'learning_rate': 0.0012330255442474893, 'epoch': 18.84}
{'loss': 0.1492, 'grad_norm': 0.7058541774749756, 'learning_rate': 0.001232351553548561, 'epoch': 18.84}
{'loss': 0.1371, 'grad_norm': 0.3826114237308502, 'learning_rate': 0.0012316775628496326, 'epoch': 18.85}
{'loss': 0.1515, 'grad_norm': 0.43972495198249817, 'learning_rate': 0.0012310035721507042, 'epoch': 18.85}
{'loss': 0.1456, 'grad_norm': 0.4746919870376587, 'learning_rate': 0.0012303295814517759, 'epoch': 18.85}
{'loss': 0.1239, 'grad_norm': 0.3356774151325226, 'learning_rate': 0.0012296555907528478, 'epoch': 18.86}
{'loss': 0.132, 'grad_norm': 0.3929200768470764, 'learning_rate': 0.0012289816000539194, 'epoch': 18.86}
{'loss': 0.155, 'grad_norm': 0.9298826456069946, 'learning_rate': 0.001228307609354991, 'epoch': 18.86}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13119074702262878, 'eval_runtime': 108.7724, 'eval_samples_per_second': 136.413, 'eval_steps_per_second': 17.054, 'epoch': 18.87}
{'loss': 0.1558, 'grad_norm': 0.32952818274497986, 'learning_rate': 0.0012262856372582058, 'epoch': 18.88}
{'loss': 0.1369, 'grad_norm': 0.3408482074737549, 'learning_rate': 0.0012256116465592774, 'epoch': 18.88}
{'loss': 0.1651, 'grad_norm': 0.35151350498199463, 'learning_rate': 0.0012249376558603493, 'epoch': 18.88}
{'loss': 0.1468, 'grad_norm': 0.4315551817417145, 'learning_rate': 0.001224263665161421, 'epoch': 18.89}
{'loss': 0.1469, 'grad_norm': 0.4325535297393799, 'learning_rate': 0.0012235896744624926, 'epoch': 18.89}
{'loss': 0.1404, 'grad_norm': 0.296223521232605, 'learning_rate': 0.0012229156837635642, 'epoch': 18.89}
{'loss': 0.1285, 'grad_norm': 0.8041638135910034, 'learning_rate': 0.0012222416930646356, 'epoch': 18.9}
{'loss': 0.1426, 'grad_norm': 0.447154700756073, 'learning_rate': 0.0012215677023657073, 'epoch': 18.9}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13193298876285553, 'eval_runtime': 109.5121, 'eval_samples_per_second': 135.492, 'eval_steps_per_second': 16.939, 'epoch': 18.91}
{'loss': 0.1384, 'grad_norm': 0.294244647026062, 'learning_rate': 0.0012195457302689224, 'epoch': 18.91}
{'loss': 0.15, 'grad_norm': 0.4126923382282257, 'learning_rate': 0.001218871739569994, 'epoch': 18.91}
{'loss': 0.1489, 'grad_norm': 0.3970067799091339, 'learning_rate': 0.0012181977488710657, 'epoch': 18.92}
{'loss': 0.1364, 'grad_norm': 0.20638175308704376, 'learning_rate': 0.0012175237581721374, 'epoch': 18.92}
{'loss': 0.147, 'grad_norm': 0.3173986077308655, 'learning_rate': 0.0012168497674732088, 'epoch': 18.92}
{'loss': 0.1429, 'grad_norm': 0.5278152227401733, 'learning_rate': 0.0012161757767742804, 'epoch': 18.93}
{'loss': 0.1374, 'grad_norm': 0.3744717240333557, 'learning_rate': 0.001215501786075352, 'epoch': 18.93}
{'loss': 0.1475, 'grad_norm': 0.4937881529331207, 'learning_rate': 0.0012148277953764237, 'epoch': 18.93}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1330772042274475, 'eval_runtime': 108.8158, 'eval_samples_per_second': 136.359, 'eval_steps_per_second': 17.047, 'epoch': 18.94}
{'loss': 0.1535, 'grad_norm': 0.4952992796897888, 'learning_rate': 0.0012128058232796389, 'epoch': 18.94}
{'loss': 0.1546, 'grad_norm': 0.24017374217510223, 'learning_rate': 0.0012121318325807105, 'epoch': 18.95}
{'loss': 0.1416, 'grad_norm': 1.208335518836975, 'learning_rate': 0.001211457841881782, 'epoch': 18.95}
{'loss': 0.1386, 'grad_norm': 1.4291925430297852, 'learning_rate': 0.0012107838511828536, 'epoch': 18.95}
{'loss': 0.1312, 'grad_norm': 0.25735700130462646, 'learning_rate': 0.0012101098604839252, 'epoch': 18.96}
{'loss': 0.1469, 'grad_norm': 2.6521403789520264, 'learning_rate': 0.001209435869784997, 'epoch': 18.96}
{'loss': 0.1454, 'grad_norm': 0.7370241284370422, 'learning_rate': 0.0012087618790860687, 'epoch': 18.96}
{'loss': 0.1548, 'grad_norm': 0.3899717926979065, 'learning_rate': 0.0012080878883871404, 'epoch': 18.97}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1319071501493454, 'eval_runtime': 109.7057, 'eval_samples_per_second': 135.253, 'eval_steps_per_second': 16.909, 'epoch': 18.97}
{'loss': 0.1404, 'grad_norm': 0.3981519639492035, 'learning_rate': 0.001206065916290355, 'epoch': 18.98}
{'loss': 0.1448, 'grad_norm': 0.4773157238960266, 'learning_rate': 0.0012053919255914267, 'epoch': 18.98}
{'loss': 0.1416, 'grad_norm': 0.33246639370918274, 'learning_rate': 0.0012047179348924984, 'epoch': 18.98}
{'loss': 0.1424, 'grad_norm': 0.34030237793922424, 'learning_rate': 0.0012040439441935702, 'epoch': 18.99}
{'loss': 0.1496, 'grad_norm': 0.20140039920806885, 'learning_rate': 0.0012033699534946419, 'epoch': 18.99}
{'loss': 0.1382, 'grad_norm': 0.8994596600532532, 'learning_rate': 0.0012026959627957135, 'epoch': 18.99}
{'loss': 0.1468, 'grad_norm': 0.21992602944374084, 'learning_rate': 0.0012020219720967852, 'epoch': 19.0}
{'loss': 0.1241, 'grad_norm': 0.334023654460907, 'learning_rate': 0.0012013479813978568, 'epoch': 19.0}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1330101191997528, 'eval_runtime': 109.2755, 'eval_samples_per_second': 135.785, 'eval_steps_per_second': 16.975, 'epoch': 19.01}
{'loss': 0.1363, 'grad_norm': 0.5072428584098816, 'learning_rate': 0.0011993260093010715, 'epoch': 19.01}
{'loss': 0.1282, 'grad_norm': 0.5202721357345581, 'learning_rate': 0.0011986520186021434, 'epoch': 19.01}
{'loss': 0.119, 'grad_norm': 0.496406614780426, 'learning_rate': 0.001197978027903215, 'epoch': 19.02}
{'loss': 0.1255, 'grad_norm': 0.35431110858917236, 'learning_rate': 0.0011973040372042867, 'epoch': 19.02}
{'loss': 0.1288, 'grad_norm': 0.3532690405845642, 'learning_rate': 0.0011966300465053583, 'epoch': 19.02}
{'loss': 0.1215, 'grad_norm': 0.5824213624000549, 'learning_rate': 0.00119595605580643, 'epoch': 19.03}
{'loss': 0.1221, 'grad_norm': 0.19265440106391907, 'learning_rate': 0.0011952820651075014, 'epoch': 19.03}
{'loss': 0.1237, 'grad_norm': 0.3180125653743744, 'learning_rate': 0.001194608074408573, 'epoch': 19.03}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13180646300315857, 'eval_runtime': 108.5764, 'eval_samples_per_second': 136.66, 'eval_steps_per_second': 17.085, 'epoch': 19.04}
{'loss': 0.1373, 'grad_norm': 0.6497321724891663, 'learning_rate': 0.0011925861023117882, 'epoch': 19.04}
{'loss': 0.1211, 'grad_norm': 0.39181897044181824, 'learning_rate': 0.0011919121116128598, 'epoch': 19.05}
{'loss': 0.1358, 'grad_norm': 0.2181994616985321, 'learning_rate': 0.0011912381209139315, 'epoch': 19.05}
{'loss': 0.1336, 'grad_norm': 0.6233472228050232, 'learning_rate': 0.0011905641302150031, 'epoch': 19.05}
{'loss': 0.1244, 'grad_norm': 0.3869023621082306, 'learning_rate': 0.0011898901395160746, 'epoch': 19.06}
{'loss': 0.113, 'grad_norm': 0.39131078124046326, 'learning_rate': 0.0011892161488171462, 'epoch': 19.06}
{'loss': 0.1252, 'grad_norm': 0.6177903413772583, 'learning_rate': 0.001188542158118218, 'epoch': 19.06}
{'loss': 0.1245, 'grad_norm': 0.6188774108886719, 'learning_rate': 0.0011878681674192897, 'epoch': 19.07}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13180974125862122, 'eval_runtime': 109.0636, 'eval_samples_per_second': 136.049, 'eval_steps_per_second': 17.008, 'epoch': 19.07}
{'loss': 0.1275, 'grad_norm': 0.6078664660453796, 'learning_rate': 0.0011858461953225046, 'epoch': 19.08}
{'loss': 0.1388, 'grad_norm': 0.3040061593055725, 'learning_rate': 0.0011851722046235763, 'epoch': 19.08}
{'loss': 0.133, 'grad_norm': 0.5810823440551758, 'learning_rate': 0.0011844982139246477, 'epoch': 19.08}
{'loss': 0.1217, 'grad_norm': 0.20150595903396606, 'learning_rate': 0.0011838242232257194, 'epoch': 19.09}
{'loss': 0.1239, 'grad_norm': 0.43854090571403503, 'learning_rate': 0.0011831502325267912, 'epoch': 19.09}
{'loss': 0.1313, 'grad_norm': 0.29822996258735657, 'learning_rate': 0.0011824762418278629, 'epoch': 19.09}
{'loss': 0.1234, 'grad_norm': 0.283354252576828, 'learning_rate': 0.0011818022511289345, 'epoch': 19.1}
{'loss': 0.1355, 'grad_norm': 0.20961661636829376, 'learning_rate': 0.0011811282604300062, 'epoch': 19.1}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13168774545192719, 'eval_runtime': 109.1974, 'eval_samples_per_second': 135.882, 'eval_steps_per_second': 16.988, 'epoch': 19.11}
{'loss': 0.1213, 'grad_norm': 0.18507622182369232, 'learning_rate': 0.0011791062883332209, 'epoch': 19.11}
{'loss': 0.1271, 'grad_norm': 0.39129772782325745, 'learning_rate': 0.0011784322976342925, 'epoch': 19.11}
{'loss': 0.1224, 'grad_norm': 0.3555184304714203, 'learning_rate': 0.001177771786749343, 'epoch': 19.12}
{'loss': 0.1223, 'grad_norm': 0.3428082764148712, 'learning_rate': 0.0011770977960504146, 'epoch': 19.12}
{'loss': 0.1313, 'grad_norm': 0.4180716872215271, 'learning_rate': 0.001176423805351486, 'epoch': 19.12}
{'loss': 0.1325, 'grad_norm': 0.5099050402641296, 'learning_rate': 0.0011757498146525577, 'epoch': 19.13}
{'loss': 0.1223, 'grad_norm': 0.3865049481391907, 'learning_rate': 0.0011750758239536295, 'epoch': 19.13}
{'loss': 0.1328, 'grad_norm': 0.48679837584495544, 'learning_rate': 0.0011744018332547012, 'epoch': 19.13}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13137976825237274, 'eval_runtime': 109.1775, 'eval_samples_per_second': 135.907, 'eval_steps_per_second': 16.991, 'epoch': 19.14}
{'loss': 0.122, 'grad_norm': 0.3047497272491455, 'learning_rate': 0.0011723798611579161, 'epoch': 19.14}
{'loss': 0.1163, 'grad_norm': 0.5113958716392517, 'learning_rate': 0.0011717058704589878, 'epoch': 19.15}
{'loss': 0.1235, 'grad_norm': 0.22442014515399933, 'learning_rate': 0.0011710318797600592, 'epoch': 19.15}
{'loss': 0.1325, 'grad_norm': 0.23740093410015106, 'learning_rate': 0.0011703578890611308, 'epoch': 19.15}
{'loss': 0.14, 'grad_norm': 0.32532209157943726, 'learning_rate': 0.0011696838983622027, 'epoch': 19.16}
{'loss': 0.1412, 'grad_norm': 0.301996648311615, 'learning_rate': 0.0011690099076632743, 'epoch': 19.16}
{'loss': 0.1352, 'grad_norm': 0.4819083511829376, 'learning_rate': 0.001168335916964346, 'epoch': 19.16}
{'loss': 0.1307, 'grad_norm': 0.36997315287590027, 'learning_rate': 0.0011676619262654176, 'epoch': 19.17}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1305842250585556, 'eval_runtime': 109.2432, 'eval_samples_per_second': 135.825, 'eval_steps_per_second': 16.98, 'epoch': 19.18}
{'loss': 0.1305, 'grad_norm': 0.32806891202926636, 'learning_rate': 0.0011656399541686323, 'epoch': 19.18}
{'loss': 0.1326, 'grad_norm': 0.6230900883674622, 'learning_rate': 0.0011649659634697042, 'epoch': 19.18}
{'loss': 0.1366, 'grad_norm': 0.4614625573158264, 'learning_rate': 0.0011642919727707758, 'epoch': 19.19}
{'loss': 0.1176, 'grad_norm': 0.44145894050598145, 'learning_rate': 0.0011636179820718475, 'epoch': 19.19}
{'loss': 0.1313, 'grad_norm': 0.49907323718070984, 'learning_rate': 0.0011629439913729191, 'epoch': 19.19}
{'loss': 0.1291, 'grad_norm': 0.38538703322410583, 'learning_rate': 0.0011622700006739908, 'epoch': 19.2}
{'loss': 0.116, 'grad_norm': 0.7898298501968384, 'learning_rate': 0.0011615960099750624, 'epoch': 19.2}
{'loss': 0.1193, 'grad_norm': 0.3010863661766052, 'learning_rate': 0.001160922019276134, 'epoch': 19.2}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1311119794845581, 'eval_runtime': 109.773, 'eval_samples_per_second': 135.17, 'eval_steps_per_second': 16.899, 'epoch': 19.21}
{'loss': 0.1261, 'grad_norm': 0.5629522204399109, 'learning_rate': 0.001158900047179349, 'epoch': 19.21}
{'loss': 0.1243, 'grad_norm': 0.2515577971935272, 'learning_rate': 0.0011582260564804206, 'epoch': 19.22}
{'loss': 0.1423, 'grad_norm': 0.5555764436721802, 'learning_rate': 0.0011575520657814923, 'epoch': 19.22}
{'loss': 0.1324, 'grad_norm': 0.6895875930786133, 'learning_rate': 0.001156878075082564, 'epoch': 19.22}
{'loss': 0.1278, 'grad_norm': 0.6381515264511108, 'learning_rate': 0.0011562040843836356, 'epoch': 19.23}
{'loss': 0.1248, 'grad_norm': 0.42005762457847595, 'learning_rate': 0.0011555300936847072, 'epoch': 19.23}
{'loss': 0.1427, 'grad_norm': 0.35088279843330383, 'learning_rate': 0.0011548561029857787, 'epoch': 19.23}
{'loss': 0.1371, 'grad_norm': 0.306008517742157, 'learning_rate': 0.0011541821122868505, 'epoch': 19.24}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1321035921573639, 'eval_runtime': 109.1343, 'eval_samples_per_second': 135.961, 'eval_steps_per_second': 16.997, 'epoch': 19.24}
{'loss': 0.1262, 'grad_norm': 0.2926287353038788, 'learning_rate': 0.0011521601401900654, 'epoch': 19.25}
{'loss': 0.1257, 'grad_norm': 0.4153231680393219, 'learning_rate': 0.001151486149491137, 'epoch': 19.25}
{'loss': 0.1298, 'grad_norm': 0.3015085756778717, 'learning_rate': 0.0011508121587922087, 'epoch': 19.25}
{'loss': 0.1353, 'grad_norm': 0.21034711599349976, 'learning_rate': 0.0011501381680932804, 'epoch': 19.26}
{'loss': 0.1248, 'grad_norm': 0.48786601424217224, 'learning_rate': 0.001149464177394352, 'epoch': 19.26}
{'loss': 0.131, 'grad_norm': 0.5380915403366089, 'learning_rate': 0.0011487901866954237, 'epoch': 19.26}
{'loss': 0.121, 'grad_norm': 0.26474854350090027, 'learning_rate': 0.0011481161959964953, 'epoch': 19.27}
{'loss': 0.1297, 'grad_norm': 0.2930296063423157, 'learning_rate': 0.001147442205297567, 'epoch': 19.27}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13070815801620483, 'eval_runtime': 109.5466, 'eval_samples_per_second': 135.449, 'eval_steps_per_second': 16.933, 'epoch': 19.28}
{'loss': 0.1252, 'grad_norm': 0.8761497735977173, 'learning_rate': 0.001145420233200782, 'epoch': 19.28}
{'loss': 0.133, 'grad_norm': 0.4411731958389282, 'learning_rate': 0.0011447462425018535, 'epoch': 19.28}
{'loss': 0.1359, 'grad_norm': 0.573329508304596, 'learning_rate': 0.0011440722518029252, 'epoch': 19.29}
{'loss': 0.125, 'grad_norm': 0.963677704334259, 'learning_rate': 0.0011433982611039968, 'epoch': 19.29}
{'loss': 0.1205, 'grad_norm': 0.443328320980072, 'learning_rate': 0.0011427242704050685, 'epoch': 19.29}
{'loss': 0.1251, 'grad_norm': 0.31504979729652405, 'learning_rate': 0.0011420502797061401, 'epoch': 19.3}
{'loss': 0.1254, 'grad_norm': 0.5387609004974365, 'learning_rate': 0.0011413762890072118, 'epoch': 19.3}
{'loss': 0.1284, 'grad_norm': 0.4359111487865448, 'learning_rate': 0.0011407022983082834, 'epoch': 19.3}
{'loss': 0.122

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13067686557769775, 'eval_runtime': 109.0429, 'eval_samples_per_second': 136.075, 'eval_steps_per_second': 17.012, 'epoch': 19.31}
{'loss': 0.1318, 'grad_norm': 0.33711355924606323, 'learning_rate': 0.0011386803262114983, 'epoch': 19.31}
{'loss': 0.1329, 'grad_norm': 0.2655830681324005, 'learning_rate': 0.00113800633551257, 'epoch': 19.32}
{'loss': 0.1224, 'grad_norm': 0.44097596406936646, 'learning_rate': 0.0011373323448136416, 'epoch': 19.32}
{'loss': 0.1344, 'grad_norm': 0.3689987361431122, 'learning_rate': 0.0011366583541147133, 'epoch': 19.32}
{'loss': 0.1313, 'grad_norm': 0.644237756729126, 'learning_rate': 0.001135984363415785, 'epoch': 19.33}
{'loss': 0.1254, 'grad_norm': 0.30249446630477905, 'learning_rate': 0.0011353103727168566, 'epoch': 19.33}
{'loss': 0.1297, 'grad_norm': 0.2964405119419098, 'learning_rate': 0.0011346363820179282, 'epoch': 19.33}
{'loss': 0.1286, 'grad_norm': 1.2619327306747437, 'learning_rate': 0.0011339623913189999, 'epoch': 19.34}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13117629289627075, 'eval_runtime': 109.4021, 'eval_samples_per_second': 135.628, 'eval_steps_per_second': 16.956, 'epoch': 19.34}
{'loss': 0.1399, 'grad_norm': 0.38165003061294556, 'learning_rate': 0.0011319404192222148, 'epoch': 19.35}
{'loss': 0.1264, 'grad_norm': 0.7798795700073242, 'learning_rate': 0.0011312664285232864, 'epoch': 19.35}
{'loss': 0.1201, 'grad_norm': 0.2739787697792053, 'learning_rate': 0.001130592437824358, 'epoch': 19.35}
{'loss': 0.1247, 'grad_norm': 0.25640296936035156, 'learning_rate': 0.0011299184471254297, 'epoch': 19.36}
{'loss': 0.1352, 'grad_norm': 0.24714787304401398, 'learning_rate': 0.0011292444564265014, 'epoch': 19.36}
{'loss': 0.1279, 'grad_norm': 0.2581722140312195, 'learning_rate': 0.001128570465727573, 'epoch': 19.36}
{'loss': 0.1353, 'grad_norm': 0.3196701407432556, 'learning_rate': 0.0011278964750286447, 'epoch': 19.37}
{'loss': 0.1297, 'grad_norm': 0.2646350562572479, 'learning_rate': 0.0011272224843297163, 'epoch': 19.37}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1292296051979065, 'eval_runtime': 110.628, 'eval_samples_per_second': 134.125, 'eval_steps_per_second': 16.768, 'epoch': 19.38}
{'loss': 0.121, 'grad_norm': 0.40981951355934143, 'learning_rate': 0.0011252005122329312, 'epoch': 19.38}
{'loss': 0.1274, 'grad_norm': 0.26585090160369873, 'learning_rate': 0.0011245265215340029, 'epoch': 19.38}
{'loss': 0.143, 'grad_norm': 0.32139283418655396, 'learning_rate': 0.0011238525308350745, 'epoch': 19.39}
{'loss': 0.1239, 'grad_norm': 0.43003085255622864, 'learning_rate': 0.0011231785401361462, 'epoch': 19.39}
{'loss': 0.1324, 'grad_norm': 0.24249979853630066, 'learning_rate': 0.0011225045494372178, 'epoch': 19.39}
{'loss': 0.1258, 'grad_norm': 0.2951396107673645, 'learning_rate': 0.0011218305587382895, 'epoch': 19.4}
{'loss': 0.1319, 'grad_norm': 0.37516412138938904, 'learning_rate': 0.001121156568039361, 'epoch': 19.4}
{'loss': 0.1307, 'grad_norm': 0.24365663528442383, 'learning_rate': 0.0011204825773404327, 'epoch': 19.4}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12955214083194733, 'eval_runtime': 109.1175, 'eval_samples_per_second': 135.982, 'eval_steps_per_second': 17.0, 'epoch': 19.41}
{'loss': 0.1374, 'grad_norm': 0.3108065128326416, 'learning_rate': 0.0011184606052436477, 'epoch': 19.41}
{'loss': 0.1194, 'grad_norm': 0.32723140716552734, 'learning_rate': 0.0011177866145447193, 'epoch': 19.42}
{'loss': 0.1327, 'grad_norm': 0.6771302223205566, 'learning_rate': 0.001117112623845791, 'epoch': 19.42}
{'loss': 0.1301, 'grad_norm': 1.0421899557113647, 'learning_rate': 0.0011164386331468626, 'epoch': 19.42}
{'loss': 0.1326, 'grad_norm': 0.18811070919036865, 'learning_rate': 0.0011157646424479343, 'epoch': 19.43}
{'loss': 0.1419, 'grad_norm': 0.42762771248817444, 'learning_rate': 0.001115090651749006, 'epoch': 19.43}
{'loss': 0.1434, 'grad_norm': 0.39009934663772583, 'learning_rate': 0.0011144166610500775, 'epoch': 19.43}
{'loss': 0.133, 'grad_norm': 0.49126824736595154, 'learning_rate': 0.0011137426703511492, 'epoch': 19.44}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.13049617409706116, 'eval_runtime': 108.0602, 'eval_samples_per_second': 137.312, 'eval_steps_per_second': 17.166, 'epoch': 19.44}
{'loss': 0.1181, 'grad_norm': 0.22351209819316864, 'learning_rate': 0.0011117206982543641, 'epoch': 19.45}
{'loss': 0.129, 'grad_norm': nan, 'learning_rate': 0.0011110601873694143, 'epoch': 19.45}
{'loss': 0.1252, 'grad_norm': 0.434871107339859, 'learning_rate': 0.001110386196670486, 'epoch': 19.45}
{'loss': 0.1104, 'grad_norm': 0.6417285203933716, 'learning_rate': 0.0011097122059715576, 'epoch': 19.46}
{'loss': 0.1286, 'grad_norm': 0.28651702404022217, 'learning_rate': 0.0011090382152726293, 'epoch': 19.46}
{'loss': 0.129, 'grad_norm': 0.18152403831481934, 'learning_rate': 0.001108364224573701, 'epoch': 19.46}
{'loss': 0.1243, 'grad_norm': 0.3439631462097168, 'learning_rate': 0.0011076902338747726, 'epoch': 19.47}
{'loss': 0.1376, 'grad_norm': 0.14868879318237305, 'learning_rate': 0.0011070162431758442, 'epoch': 19.47}
{'loss': 0.1224, 'grad

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1298559308052063, 'eval_runtime': 108.9502, 'eval_samples_per_second': 136.191, 'eval_steps_per_second': 17.026, 'epoch': 19.48}
{'loss': 0.1348, 'grad_norm': 0.8762048482894897, 'learning_rate': 0.0011049942710790591, 'epoch': 19.48}
{'loss': 0.1339, 'grad_norm': 0.1801852434873581, 'learning_rate': 0.0011043202803801308, 'epoch': 19.49}
{'loss': 0.1259, 'grad_norm': 0.37250402569770813, 'learning_rate': 0.0011036462896812024, 'epoch': 19.49}
{'loss': 0.1282, 'grad_norm': 0.37906211614608765, 'learning_rate': 0.001102972298982274, 'epoch': 19.49}
{'loss': 0.129, 'grad_norm': 0.4491981863975525, 'learning_rate': 0.0011022983082833457, 'epoch': 19.5}
{'loss': 0.1212, 'grad_norm': 0.11363259702920914, 'learning_rate': 0.0011016243175844174, 'epoch': 19.5}
{'loss': 0.121, 'grad_norm': 0.2355067878961563, 'learning_rate': 0.001100950326885489, 'epoch': 19.5}
{'loss': 0.1344, 'grad_norm': 2.686589479446411, 'learning_rate': 0.0011002763361865607, 'epoch': 19.51}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1280895620584488, 'eval_runtime': 108.2972, 'eval_samples_per_second': 137.012, 'eval_steps_per_second': 17.129, 'epoch': 19.51}
{'loss': 0.1215, 'grad_norm': 0.32022786140441895, 'learning_rate': 0.0010982543640897756, 'epoch': 19.52}
{'loss': 0.1308, 'grad_norm': 0.3000514805316925, 'learning_rate': 0.0010975803733908472, 'epoch': 19.52}
{'loss': 0.1437, 'grad_norm': 0.2291772961616516, 'learning_rate': 0.0010969063826919189, 'epoch': 19.52}
{'loss': 0.1292, 'grad_norm': 0.3424161374568939, 'learning_rate': 0.0010962323919929905, 'epoch': 19.53}
{'loss': 0.13, 'grad_norm': 0.25608551502227783, 'learning_rate': 0.0010955584012940622, 'epoch': 19.53}
{'loss': 0.1294, 'grad_norm': 0.4782172739505768, 'learning_rate': 0.0010948844105951338, 'epoch': 19.53}
{'loss': 0.1443, 'grad_norm': 0.2815346419811249, 'learning_rate': 0.0010942104198962055, 'epoch': 19.54}
{'loss': 0.1262, 'grad_norm': 0.31354451179504395, 'learning_rate': 0.001093536429197277, 'epoch': 19.54}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12833581864833832, 'eval_runtime': 108.6048, 'eval_samples_per_second': 136.624, 'eval_steps_per_second': 17.08, 'epoch': 19.55}
{'loss': 0.1319, 'grad_norm': 0.3857641816139221, 'learning_rate': 0.001091514457100492, 'epoch': 19.55}
{'loss': 0.1239, 'grad_norm': 0.4873597025871277, 'learning_rate': 0.0010908404664015637, 'epoch': 19.55}
{'loss': 0.1286, 'grad_norm': 0.33731600642204285, 'learning_rate': 0.0010901664757026353, 'epoch': 19.56}
{'loss': 0.1326, 'grad_norm': 0.2936704158782959, 'learning_rate': 0.001089492485003707, 'epoch': 19.56}
{'loss': 0.1288, 'grad_norm': 0.30603498220443726, 'learning_rate': 0.0010888184943047786, 'epoch': 19.56}
{'loss': 0.1479, 'grad_norm': 0.5688989162445068, 'learning_rate': 0.0010881445036058503, 'epoch': 19.57}
{'loss': 0.1142, 'grad_norm': 0.6259244084358215, 'learning_rate': 0.001087470512906922, 'epoch': 19.57}
{'loss': 0.1274, 'grad_norm': 0.30623167753219604, 'learning_rate': 0.0010867965222079935, 'epoch': 19.57}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12878289818763733, 'eval_runtime': 108.1842, 'eval_samples_per_second': 137.155, 'eval_steps_per_second': 17.147, 'epoch': 19.58}
{'loss': 0.1189, 'grad_norm': 0.36662375926971436, 'learning_rate': 0.0010847745501112085, 'epoch': 19.58}
{'loss': 0.1219, 'grad_norm': 0.16809602081775665, 'learning_rate': 0.0010841005594122801, 'epoch': 19.59}
{'loss': 0.1218, 'grad_norm': 0.12080226838588715, 'learning_rate': 0.0010834265687133518, 'epoch': 19.59}
{'loss': 0.1209, 'grad_norm': 0.5964083075523376, 'learning_rate': 0.0010827525780144234, 'epoch': 19.59}
{'loss': 0.1288, 'grad_norm': 0.30746427178382874, 'learning_rate': 0.001082078587315495, 'epoch': 19.6}
{'loss': 0.1339, 'grad_norm': 0.27450031042099, 'learning_rate': 0.0010814045966165667, 'epoch': 19.6}
{'loss': 0.1328, 'grad_norm': 0.5135946869850159, 'learning_rate': 0.0010807306059176383, 'epoch': 19.6}
{'loss': 0.125, 'grad_norm': 0.25295183062553406, 'learning_rate': 0.00108005661521871, 'epoch': 19.61}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12694256007671356, 'eval_runtime': 109.3744, 'eval_samples_per_second': 135.662, 'eval_steps_per_second': 16.96, 'epoch': 19.61}
{'loss': 0.139, 'grad_norm': 0.28782299160957336, 'learning_rate': 0.001078034643121925, 'epoch': 19.62}
{'loss': 0.1277, 'grad_norm': 0.271427720785141, 'learning_rate': 0.0010773606524229966, 'epoch': 19.62}
{'loss': 0.1283, 'grad_norm': 0.34898823499679565, 'learning_rate': 0.0010766866617240682, 'epoch': 19.62}
{'loss': 0.1268, 'grad_norm': 0.5324562191963196, 'learning_rate': 0.0010760126710251399, 'epoch': 19.63}
{'loss': 0.1325, 'grad_norm': 0.37336114048957825, 'learning_rate': 0.0010753386803262115, 'epoch': 19.63}
{'loss': 0.1318, 'grad_norm': 0.6668716073036194, 'learning_rate': 0.0010746646896272831, 'epoch': 19.63}
{'loss': 0.1294, 'grad_norm': 0.2896243631839752, 'learning_rate': 0.0010739906989283548, 'epoch': 19.64}
{'loss': 0.1269, 'grad_norm': 0.4183512032032013, 'learning_rate': 0.001073330188043405, 'epoch': 19.64}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12670347094535828, 'eval_runtime': 109.3686, 'eval_samples_per_second': 135.67, 'eval_steps_per_second': 16.961, 'epoch': 19.65}
{'loss': 0.1243, 'grad_norm': 0.416933536529541, 'learning_rate': 0.00107130821594662, 'epoch': 19.65}
{'loss': 0.1239, 'grad_norm': 0.33303385972976685, 'learning_rate': 0.0010706342252476916, 'epoch': 19.65}
{'loss': 0.1343, 'grad_norm': 0.3725225627422333, 'learning_rate': 0.0010699602345487632, 'epoch': 19.66}
{'loss': 0.1282, 'grad_norm': 0.4093255400657654, 'learning_rate': 0.0010692862438498349, 'epoch': 19.66}
{'loss': 0.1336, 'grad_norm': 0.2203555852174759, 'learning_rate': 0.0010686122531509065, 'epoch': 19.66}
{'loss': 0.1318, 'grad_norm': 0.24750767648220062, 'learning_rate': 0.0010679382624519782, 'epoch': 19.67}
{'loss': 0.1379, 'grad_norm': 0.9021008610725403, 'learning_rate': 0.0010672642717530498, 'epoch': 19.67}
{'loss': 0.1248, 'grad_norm': 0.6937311887741089, 'learning_rate': 0.0010665902810541215, 'epoch': 19.67}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12619447708129883, 'eval_runtime': 109.3347, 'eval_samples_per_second': 135.712, 'eval_steps_per_second': 16.966, 'epoch': 19.68}
{'loss': 0.1406, 'grad_norm': 0.3812233507633209, 'learning_rate': 0.0010645683089573364, 'epoch': 19.68}
{'loss': 0.1308, 'grad_norm': 0.39689308404922485, 'learning_rate': 0.001063894318258408, 'epoch': 19.69}
{'loss': 0.1332, 'grad_norm': 0.36763671040534973, 'learning_rate': 0.0010632203275594797, 'epoch': 19.69}
{'loss': 0.1346, 'grad_norm': 0.3534291386604309, 'learning_rate': 0.0010625463368605513, 'epoch': 19.69}
{'loss': 0.127, 'grad_norm': 0.41088855266571045, 'learning_rate': 0.001061872346161623, 'epoch': 19.7}
{'loss': 0.1312, 'grad_norm': 0.5556522011756897, 'learning_rate': 0.0010611983554626946, 'epoch': 19.7}
{'loss': 0.1292, 'grad_norm': 0.5371333360671997, 'learning_rate': 0.0010605243647637663, 'epoch': 19.7}
{'loss': 0.1348, 'grad_norm': 0.3248897194862366, 'learning_rate': 0.001059850374064838, 'epoch': 19.71}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12743885815143585, 'eval_runtime': 108.8821, 'eval_samples_per_second': 136.276, 'eval_steps_per_second': 17.037, 'epoch': 19.71}
{'loss': 0.1474, 'grad_norm': 0.36848393082618713, 'learning_rate': 0.0010578418817820314, 'epoch': 19.72}
{'loss': 0.1191, 'grad_norm': 0.19722634553909302, 'learning_rate': 0.001057167891083103, 'epoch': 19.72}
{'loss': 0.1287, 'grad_norm': 0.39726677536964417, 'learning_rate': 0.0010564939003841747, 'epoch': 19.72}
{'loss': 0.1306, 'grad_norm': 0.18393290042877197, 'learning_rate': 0.0010558199096852463, 'epoch': 19.73}
{'loss': 0.1321, 'grad_norm': 0.28903546929359436, 'learning_rate': 0.001055145918986318, 'epoch': 19.73}
{'loss': 0.13, 'grad_norm': 0.15904352068901062, 'learning_rate': 0.0010544719282873896, 'epoch': 19.73}
{'loss': 0.1365, 'grad_norm': 0.2095395028591156, 'learning_rate': 0.0010537979375884613, 'epoch': 19.74}
{'loss': 0.133, 'grad_norm': 0.6815878748893738, 'learning_rate': 0.001053123946889533, 'epoch': 19.74}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12801805138587952, 'eval_runtime': 110.3173, 'eval_samples_per_second': 134.503, 'eval_steps_per_second': 16.815, 'epoch': 19.75}
{'loss': 0.1269, 'grad_norm': 0.5726743340492249, 'learning_rate': 0.0010511019747927479, 'epoch': 19.75}
{'loss': 0.1458, 'grad_norm': 0.7611799836158752, 'learning_rate': 0.0010504279840938195, 'epoch': 19.75}
{'loss': 0.1378, 'grad_norm': 0.47422125935554504, 'learning_rate': 0.0010497539933948911, 'epoch': 19.76}
{'loss': 0.1339, 'grad_norm': 0.26794537901878357, 'learning_rate': 0.0010490800026959628, 'epoch': 19.76}
{'loss': 0.1376, 'grad_norm': 1.0353249311447144, 'learning_rate': 0.0010484060119970344, 'epoch': 19.76}
{'loss': 0.1407, 'grad_norm': 0.35313504934310913, 'learning_rate': 0.001047732021298106, 'epoch': 19.77}
{'loss': 0.1286, 'grad_norm': 0.3971775770187378, 'learning_rate': 0.0010470580305991777, 'epoch': 19.77}
{'loss': 0.13, 'grad_norm': 0.3710830509662628, 'learning_rate': 0.0010463840399002494, 'epoch': 19.77}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1270304173231125, 'eval_runtime': 109.2578, 'eval_samples_per_second': 135.807, 'eval_steps_per_second': 16.978, 'epoch': 19.78}
{'loss': 0.13, 'grad_norm': 0.47935032844543457, 'learning_rate': 0.0010443620678034643, 'epoch': 19.78}
{'loss': 0.1282, 'grad_norm': 0.4285294711589813, 'learning_rate': 0.001043688077104536, 'epoch': 19.79}
{'loss': 0.1281, 'grad_norm': 0.3813333809375763, 'learning_rate': 0.0010430140864056076, 'epoch': 19.79}
{'loss': 0.1229, 'grad_norm': 0.49262502789497375, 'learning_rate': 0.0010423400957066792, 'epoch': 19.8}
{'loss': 0.1245, 'grad_norm': 0.47178947925567627, 'learning_rate': 0.0010416661050077509, 'epoch': 19.8}
{'loss': 0.1327, 'grad_norm': 0.2795063555240631, 'learning_rate': 0.0010409921143088225, 'epoch': 19.8}
{'loss': 0.1254, 'grad_norm': 0.23150521516799927, 'learning_rate': 0.0010403181236098942, 'epoch': 19.81}
{'loss': 0.1216, 'grad_norm': 0.28066542744636536, 'learning_rate': 0.0010396441329109658, 'epoch': 19.81}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12559591233730316, 'eval_runtime': 109.4241, 'eval_samples_per_second': 135.601, 'eval_steps_per_second': 16.952, 'epoch': 19.82}
{'loss': 0.1272, 'grad_norm': 0.20501527190208435, 'learning_rate': 0.0010376221608141807, 'epoch': 19.82}
{'loss': 0.1183, 'grad_norm': 0.17257437109947205, 'learning_rate': 0.0010369481701152524, 'epoch': 19.82}
{'loss': 0.1311, 'grad_norm': 0.5500542521476746, 'learning_rate': 0.001036274179416324, 'epoch': 19.83}
{'loss': 0.1281, 'grad_norm': 0.4144742488861084, 'learning_rate': 0.0010356001887173957, 'epoch': 19.83}
{'loss': 0.1336, 'grad_norm': 0.2807190716266632, 'learning_rate': 0.0010349261980184673, 'epoch': 19.83}
{'loss': 0.1238, 'grad_norm': 0.7573117613792419, 'learning_rate': 0.001034252207319539, 'epoch': 19.84}
{'loss': 0.1254, 'grad_norm': 0.432578444480896, 'learning_rate': 0.0010335782166206106, 'epoch': 19.84}
{'loss': 0.1377, 'grad_norm': 0.5942961573600769, 'learning_rate': 0.0010329042259216823, 'epoch': 19.84}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12568064033985138, 'eval_runtime': 109.0485, 'eval_samples_per_second': 136.068, 'eval_steps_per_second': 17.011, 'epoch': 19.85}
{'loss': 0.1342, 'grad_norm': 0.23674103617668152, 'learning_rate': 0.0010308822538248972, 'epoch': 19.85}
{'loss': 0.1339, 'grad_norm': 0.2651119530200958, 'learning_rate': 0.0010302082631259688, 'epoch': 19.86}
{'loss': 0.1323, 'grad_norm': 0.6901167631149292, 'learning_rate': 0.0010295342724270405, 'epoch': 19.86}
{'loss': 0.1251, 'grad_norm': 0.37216031551361084, 'learning_rate': 0.0010288602817281121, 'epoch': 19.86}
{'loss': 0.1169, 'grad_norm': 0.3281201422214508, 'learning_rate': 0.0010281862910291838, 'epoch': 19.87}
{'loss': 0.1172, 'grad_norm': 1.0141041278839111, 'learning_rate': 0.0010275123003302554, 'epoch': 19.87}
{'loss': 0.129, 'grad_norm': 0.2189650684595108, 'learning_rate': 0.001026838309631327, 'epoch': 19.87}
{'loss': 0.1312, 'grad_norm': 0.40433064103126526, 'learning_rate': 0.0010261643189323987, 'epoch': 19.88}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12325892597436905, 'eval_runtime': 109.0999, 'eval_samples_per_second': 136.004, 'eval_steps_per_second': 17.003, 'epoch': 19.88}
{'loss': 0.1193, 'grad_norm': 0.45679426193237305, 'learning_rate': 0.0010241423468356136, 'epoch': 19.89}
{'loss': 0.126, 'grad_norm': 0.22579318284988403, 'learning_rate': 0.0010234683561366853, 'epoch': 19.89}
{'loss': 0.1208, 'grad_norm': 0.4693084955215454, 'learning_rate': 0.001022794365437757, 'epoch': 19.89}
{'loss': 0.127, 'grad_norm': 0.38829249143600464, 'learning_rate': 0.0010221203747388286, 'epoch': 19.9}
{'loss': 0.1218, 'grad_norm': 0.3940201997756958, 'learning_rate': 0.0010214463840399004, 'epoch': 19.9}
{'loss': 0.1266, 'grad_norm': 0.48310425877571106, 'learning_rate': 0.0010207723933409719, 'epoch': 19.9}
{'loss': 0.1304, 'grad_norm': 0.32548195123672485, 'learning_rate': 0.0010200984026420435, 'epoch': 19.91}
{'loss': 0.1374, 'grad_norm': 0.38562077283859253, 'learning_rate': 0.0010194244119431151, 'epoch': 19.91}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12529291212558746, 'eval_runtime': 108.9828, 'eval_samples_per_second': 136.15, 'eval_steps_per_second': 17.021, 'epoch': 19.92}
{'loss': 0.1404, 'grad_norm': 0.5416257977485657, 'learning_rate': 0.00101740243984633, 'epoch': 19.92}
{'loss': 0.1157, 'grad_norm': 0.36794042587280273, 'learning_rate': 0.0010167284491474017, 'epoch': 19.92}
{'loss': 0.1329, 'grad_norm': 0.7390943765640259, 'learning_rate': 0.0010160544584484736, 'epoch': 19.93}
{'loss': 0.1395, 'grad_norm': 0.40779992938041687, 'learning_rate': 0.001015380467749545, 'epoch': 19.93}
{'loss': 0.1176, 'grad_norm': 0.2386069893836975, 'learning_rate': 0.0010147064770506167, 'epoch': 19.93}
{'loss': 0.1363, 'grad_norm': 0.5823264122009277, 'learning_rate': 0.0010140324863516883, 'epoch': 19.94}
{'loss': 0.133, 'grad_norm': 0.396062970161438, 'learning_rate': 0.00101335849565276, 'epoch': 19.94}
{'loss': 0.1346, 'grad_norm': 0.4056185185909271, 'learning_rate': 0.0010126845049538316, 'epoch': 19.94}
{'loss': 0.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12561681866645813, 'eval_runtime': 109.1864, 'eval_samples_per_second': 135.896, 'eval_steps_per_second': 16.989, 'epoch': 19.95}
{'loss': 0.1205, 'grad_norm': 0.5886479020118713, 'learning_rate': 0.0010106625328570467, 'epoch': 19.95}
{'loss': 0.1269, 'grad_norm': 0.20179054141044617, 'learning_rate': 0.0010099885421581182, 'epoch': 19.96}
{'loss': 0.1217, 'grad_norm': 0.23732876777648926, 'learning_rate': 0.0010093280312731684, 'epoch': 19.96}
{'loss': 0.127, 'grad_norm': 0.4356885552406311, 'learning_rate': 0.00100865404057424, 'epoch': 19.96}
{'loss': 0.1319, 'grad_norm': 0.3013516962528229, 'learning_rate': 0.001007980049875312, 'epoch': 19.97}
{'loss': 0.1258, 'grad_norm': 0.259162962436676, 'learning_rate': 0.0010073060591763833, 'epoch': 19.97}
{'loss': 0.1167, 'grad_norm': 0.23107601702213287, 'learning_rate': 0.001006632068477455, 'epoch': 19.97}
{'loss': 0.1499, 'grad_norm': 0.6319815516471863, 'learning_rate': 0.0010059580777785266, 'epoch': 19.98}
{'loss': 

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.124271921813488, 'eval_runtime': 109.0282, 'eval_samples_per_second': 136.093, 'eval_steps_per_second': 17.014, 'epoch': 19.98}
{'loss': 0.1265, 'grad_norm': 0.1703057587146759, 'learning_rate': 0.0010039361056817415, 'epoch': 19.99}
{'loss': 0.1259, 'grad_norm': 0.32539278268814087, 'learning_rate': 0.0010032621149828132, 'epoch': 19.99}
{'loss': 0.1268, 'grad_norm': 0.4526696503162384, 'learning_rate': 0.001002588124283885, 'epoch': 19.99}
{'loss': 0.1203, 'grad_norm': 0.40927180647850037, 'learning_rate': 0.0010019141335849565, 'epoch': 20.0}
{'loss': 0.1297, 'grad_norm': 0.24773554503917694, 'learning_rate': 0.0010012401428860281, 'epoch': 20.0}
{'loss': 0.1163, 'grad_norm': 0.4291084110736847, 'learning_rate': 0.0010005661521870998, 'epoch': 20.0}
{'loss': 0.1167, 'grad_norm': 0.3365016579627991, 'learning_rate': 0.0009998921614881714, 'epoch': 20.01}
{'loss': 0.1247, 'grad_norm': 0.6423462629318237, 'learning_rate': 0.000999218170789243, 'epoch': 20.01}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1247888132929802, 'eval_runtime': 108.9932, 'eval_samples_per_second': 136.137, 'eval_steps_per_second': 17.019, 'epoch': 20.02}
{'loss': 0.1068, 'grad_norm': 0.256943941116333, 'learning_rate': 0.0009971961986924582, 'epoch': 20.02}
{'loss': 0.127, 'grad_norm': 0.35635650157928467, 'learning_rate': 0.0009965222079935296, 'epoch': 20.02}
{'loss': 0.1177, 'grad_norm': 1.8116859197616577, 'learning_rate': 0.0009958482172946013, 'epoch': 20.03}
{'loss': 0.1182, 'grad_norm': 0.2507897913455963, 'learning_rate': 0.000995174226595673, 'epoch': 20.03}
{'loss': 0.1047, 'grad_norm': 1.199587345123291, 'learning_rate': 0.0009945002358967446, 'epoch': 20.03}
{'loss': 0.1043, 'grad_norm': 0.7335603833198547, 'learning_rate': 0.0009938262451978162, 'epoch': 20.04}
{'loss': 0.1138, 'grad_norm': 0.16400514543056488, 'learning_rate': 0.0009931522544988879, 'epoch': 20.04}
{'loss': 0.105, 'grad_norm': 0.5175133943557739, 'learning_rate': 0.0009924782637999597, 'epoch': 20.04}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12513363361358643, 'eval_runtime': 108.7549, 'eval_samples_per_second': 136.435, 'eval_steps_per_second': 17.057, 'epoch': 20.05}
{'loss': 0.1023, 'grad_norm': 0.37668749690055847, 'learning_rate': 0.0009904562917031744, 'epoch': 20.05}
{'loss': 0.1114, 'grad_norm': 0.45737484097480774, 'learning_rate': 0.000989782301004246, 'epoch': 20.06}
{'loss': 0.1109, 'grad_norm': 0.2277403026819229, 'learning_rate': 0.0009891083103053177, 'epoch': 20.06}
{'loss': 0.1208, 'grad_norm': 0.2929401397705078, 'learning_rate': 0.0009884343196063894, 'epoch': 20.06}
{'loss': 0.1173, 'grad_norm': 0.5615034699440002, 'learning_rate': 0.000987760328907461, 'epoch': 20.07}
{'loss': 0.1061, 'grad_norm': 0.36089202761650085, 'learning_rate': 0.0009870863382085329, 'epoch': 20.07}
{'loss': 0.1084, 'grad_norm': 0.28183552622795105, 'learning_rate': 0.0009864123475096045, 'epoch': 20.07}
{'loss': 0.1057, 'grad_norm': 0.22283372282981873, 'learning_rate': 0.000985738356810676, 'epoch': 20.08}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12483776360750198, 'eval_runtime': 108.8137, 'eval_samples_per_second': 136.362, 'eval_steps_per_second': 17.047, 'epoch': 20.08}
{'loss': 0.1131, 'grad_norm': 0.3970073461532593, 'learning_rate': 0.0009837163847138909, 'epoch': 20.09}
{'loss': 0.1175, 'grad_norm': 0.16755636036396027, 'learning_rate': 0.0009830423940149625, 'epoch': 20.09}
{'loss': 0.1126, 'grad_norm': 0.3969126343727112, 'learning_rate': 0.0009823684033160342, 'epoch': 20.1}
{'loss': 0.1211, 'grad_norm': 0.2916296720504761, 'learning_rate': 0.000981694412617106, 'epoch': 20.1}
{'loss': 0.1126, 'grad_norm': 0.14161348342895508, 'learning_rate': 0.0009810204219181777, 'epoch': 20.1}
{'loss': 0.1165, 'grad_norm': 0.28795570135116577, 'learning_rate': 0.000980346431219249, 'epoch': 20.11}
{'loss': 0.1082, 'grad_norm': 0.45359155535697937, 'learning_rate': 0.0009796724405203208, 'epoch': 20.11}
{'loss': 0.1016, 'grad_norm': 0.4083435833454132, 'learning_rate': 0.0009789984498213924, 'epoch': 20.11}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12566322088241577, 'eval_runtime': 109.1081, 'eval_samples_per_second': 135.994, 'eval_steps_per_second': 17.001, 'epoch': 20.12}
{'loss': 0.116, 'grad_norm': 0.49484336376190186, 'learning_rate': 0.0009769764777246075, 'epoch': 20.12}
{'loss': 0.1137, 'grad_norm': 0.2794665992259979, 'learning_rate': 0.0009763024870256791, 'epoch': 20.13}
{'loss': 0.1131, 'grad_norm': 0.1411762684583664, 'learning_rate': 0.0009756284963267507, 'epoch': 20.13}
{'loss': 0.1119, 'grad_norm': 0.2626543343067169, 'learning_rate': 0.0009749545056278224, 'epoch': 20.13}
{'loss': 0.1111, 'grad_norm': 0.38174885511398315, 'learning_rate': 0.000974280514928894, 'epoch': 20.14}
{'loss': 0.1164, 'grad_norm': 0.2824332118034363, 'learning_rate': 0.0009736065242299657, 'epoch': 20.14}
{'loss': 0.1228, 'grad_norm': 0.3768221139907837, 'learning_rate': 0.0009729325335310373, 'epoch': 20.14}
{'loss': 0.1206, 'grad_norm': 0.6261202096939087, 'learning_rate': 0.0009722585428321088, 'epoch': 20.15}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12368331849575043, 'eval_runtime': 109.3065, 'eval_samples_per_second': 135.747, 'eval_steps_per_second': 16.971, 'epoch': 20.15}
{'loss': 0.1197, 'grad_norm': 0.28849226236343384, 'learning_rate': 0.0009702365707353239, 'epoch': 20.16}
{'loss': 0.1119, 'grad_norm': 0.314706027507782, 'learning_rate': 0.0009695625800363955, 'epoch': 20.16}
{'loss': 0.1164, 'grad_norm': 0.48685863614082336, 'learning_rate': 0.0009688885893374672, 'epoch': 20.16}
{'loss': 0.1078, 'grad_norm': 0.22169581055641174, 'learning_rate': 0.0009682145986385388, 'epoch': 20.17}
{'loss': 0.1087, 'grad_norm': 0.5091590285301208, 'learning_rate': 0.0009675406079396105, 'epoch': 20.17}
{'loss': 0.1117, 'grad_norm': 0.2052224725484848, 'learning_rate': 0.000966866617240682, 'epoch': 20.17}
{'loss': 0.1317, 'grad_norm': 0.3710053861141205, 'learning_rate': 0.0009661926265417537, 'epoch': 20.18}
{'loss': 0.1048, 'grad_norm': 0.2211318016052246, 'learning_rate': 0.0009655186358428254, 'epoch': 20.18}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12411908060312271, 'eval_runtime': 108.9452, 'eval_samples_per_second': 136.197, 'eval_steps_per_second': 17.027, 'epoch': 20.19}
{'loss': 0.1246, 'grad_norm': 0.3575252592563629, 'learning_rate': 0.0009634966637460403, 'epoch': 20.19}
{'loss': 0.1095, 'grad_norm': 0.3799442946910858, 'learning_rate': 0.000962822673047112, 'epoch': 20.19}
{'loss': 0.1095, 'grad_norm': 0.3105987310409546, 'learning_rate': 0.0009621486823481836, 'epoch': 20.2}
{'loss': 0.1239, 'grad_norm': 0.4452756643295288, 'learning_rate': 0.0009614746916492554, 'epoch': 20.2}
{'loss': 0.118, 'grad_norm': 0.2725725471973419, 'learning_rate': 0.0009608007009503269, 'epoch': 20.2}
{'loss': 0.1161, 'grad_norm': 0.4047905206680298, 'learning_rate': 0.0009601267102513985, 'epoch': 20.21}
{'loss': 0.1036, 'grad_norm': 0.19298481941223145, 'learning_rate': 0.0009594527195524702, 'epoch': 20.21}
{'loss': 0.1147, 'grad_norm': 0.1778416931629181, 'learning_rate': 0.0009587787288535418, 'epoch': 20.21}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1246892511844635, 'eval_runtime': 108.7982, 'eval_samples_per_second': 136.381, 'eval_steps_per_second': 17.05, 'epoch': 20.22}
{'loss': 0.1294, 'grad_norm': 0.42955678701400757, 'learning_rate': 0.0009567567567567568, 'epoch': 20.22}
{'loss': 0.1251, 'grad_norm': 1.3145028352737427, 'learning_rate': 0.0009560827660578285, 'epoch': 20.23}
{'loss': 0.1173, 'grad_norm': 0.2579341232776642, 'learning_rate': 0.0009554087753589001, 'epoch': 20.23}
{'loss': 0.1109, 'grad_norm': 0.8087617754936218, 'learning_rate': 0.0009547347846599717, 'epoch': 20.23}
{'loss': 0.1198, 'grad_norm': 0.32110199332237244, 'learning_rate': 0.0009540607939610434, 'epoch': 20.24}
{'loss': 0.1138, 'grad_norm': 0.4159989058971405, 'learning_rate': 0.0009534002830760937, 'epoch': 20.24}
{'loss': 0.1174, 'grad_norm': 0.2199682593345642, 'learning_rate': 0.0009527262923771652, 'epoch': 20.24}
{'loss': 0.1071, 'grad_norm': 0.1740415245294571, 'learning_rate': 0.0009520523016782369, 'epoch': 20.25}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1243806928396225, 'eval_runtime': 108.9181, 'eval_samples_per_second': 136.231, 'eval_steps_per_second': 17.031, 'epoch': 20.25}
{'loss': 0.1099, 'grad_norm': 0.14942899346351624, 'learning_rate': 0.0009500303295814518, 'epoch': 20.26}
{'loss': 0.1142, 'grad_norm': 0.44028404355049133, 'learning_rate': 0.0009493563388825234, 'epoch': 20.26}
{'loss': 0.1127, 'grad_norm': 0.439179927110672, 'learning_rate': 0.0009486823481835951, 'epoch': 20.26}
{'loss': 0.1118, 'grad_norm': 0.4367283284664154, 'learning_rate': 0.0009480083574846668, 'epoch': 20.27}
{'loss': 0.1162, 'grad_norm': 0.26348578929901123, 'learning_rate': 0.0009473343667857384, 'epoch': 20.27}
{'loss': 0.1124, 'grad_norm': 0.12921251356601715, 'learning_rate': 0.00094666037608681, 'epoch': 20.27}
{'loss': 0.1072, 'grad_norm': 0.3831265866756439, 'learning_rate': 0.0009459863853878817, 'epoch': 20.28}
{'loss': 0.1044, 'grad_norm': 0.23634983599185944, 'learning_rate': 0.0009453123946889533, 'epoch': 20.28}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12549076974391937, 'eval_runtime': 108.8854, 'eval_samples_per_second': 136.272, 'eval_steps_per_second': 17.036, 'epoch': 20.29}
{'loss': 0.1146, 'grad_norm': 0.19319303333759308, 'learning_rate': 0.0009432904225921682, 'epoch': 20.29}
{'loss': 0.109, 'grad_norm': 0.15179865062236786, 'learning_rate': 0.00094261643189324, 'epoch': 20.29}
{'loss': 0.1071, 'grad_norm': 0.3663924038410187, 'learning_rate': 0.0009419424411943115, 'epoch': 20.3}
{'loss': 0.1226, 'grad_norm': 0.40373632311820984, 'learning_rate': 0.0009412684504953832, 'epoch': 20.3}
{'loss': 0.123, 'grad_norm': 0.1498393416404724, 'learning_rate': 0.0009405944597964548, 'epoch': 20.3}
{'loss': 0.1252, 'grad_norm': 0.647527813911438, 'learning_rate': 0.0009399204690975265, 'epoch': 20.31}
{'loss': 0.1237, 'grad_norm': 0.6063115000724792, 'learning_rate': 0.0009392464783985981, 'epoch': 20.31}
{'loss': 0.124, 'grad_norm': 0.24314913153648376, 'learning_rate': 0.0009385724876996698, 'epoch': 20.31}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12355738878250122, 'eval_runtime': 108.6612, 'eval_samples_per_second': 136.553, 'eval_steps_per_second': 17.071, 'epoch': 20.32}
{'loss': 0.113, 'grad_norm': 0.6335926651954651, 'learning_rate': 0.0009365505156028847, 'epoch': 20.32}
{'loss': 0.1229, 'grad_norm': 0.3802933394908905, 'learning_rate': 0.0009358765249039563, 'epoch': 20.33}
{'loss': 0.1156, 'grad_norm': 0.18570567667484283, 'learning_rate': 0.000935202534205028, 'epoch': 20.33}
{'loss': 0.1113, 'grad_norm': 0.3808325231075287, 'learning_rate': 0.0009345285435060996, 'epoch': 20.33}
{'loss': 0.0998, 'grad_norm': 0.1303042620420456, 'learning_rate': 0.0009338545528071713, 'epoch': 20.34}
{'loss': 0.1034, 'grad_norm': 0.44774195551872253, 'learning_rate': 0.0009331805621082429, 'epoch': 20.34}
{'loss': 0.1185, 'grad_norm': 0.6388842463493347, 'learning_rate': 0.0009325065714093147, 'epoch': 20.34}
{'loss': 0.1219, 'grad_norm': 0.6600824594497681, 'learning_rate': 0.0009318325807103863, 'epoch': 20.35}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12382707744836807, 'eval_runtime': 115.3177, 'eval_samples_per_second': 128.671, 'eval_steps_per_second': 16.086, 'epoch': 20.35}
{'loss': 0.1152, 'grad_norm': 0.1780129373073578, 'learning_rate': 0.0009298106086136011, 'epoch': 20.36}
{'loss': 0.1128, 'grad_norm': 0.42009684443473816, 'learning_rate': 0.0009291366179146728, 'epoch': 20.36}
{'loss': 0.1201, 'grad_norm': 0.37245383858680725, 'learning_rate': 0.0009284626272157444, 'epoch': 20.36}
{'loss': 0.1056, 'grad_norm': 0.20383262634277344, 'learning_rate': 0.0009277886365168161, 'epoch': 20.37}
{'loss': 0.1193, 'grad_norm': 0.33391931653022766, 'learning_rate': 0.0009271146458178878, 'epoch': 20.37}
{'loss': 0.124, 'grad_norm': 1.0633740425109863, 'learning_rate': 0.0009264406551189595, 'epoch': 20.37}
{'loss': 0.1017, 'grad_norm': 0.2886177599430084, 'learning_rate': 0.000925766664420031, 'epoch': 20.38}
{'loss': 0.1196, 'grad_norm': 0.8379155993461609, 'learning_rate': 0.0009250926737211026, 'epoch': 20.38}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12391170859336853, 'eval_runtime': 109.3515, 'eval_samples_per_second': 135.691, 'eval_steps_per_second': 16.964, 'epoch': 20.39}
{'loss': 0.1131, 'grad_norm': 0.15832781791687012, 'learning_rate': 0.0009230707016243176, 'epoch': 20.39}
{'loss': 0.1078, 'grad_norm': 0.2836639881134033, 'learning_rate': 0.0009223967109253892, 'epoch': 20.39}
{'loss': 0.1221, 'grad_norm': 0.27673104405403137, 'learning_rate': 0.000921722720226461, 'epoch': 20.4}
{'loss': 0.1188, 'grad_norm': 0.5227608680725098, 'learning_rate': 0.0009210487295275326, 'epoch': 20.4}
{'loss': 0.1312, 'grad_norm': 0.3227880597114563, 'learning_rate': 0.0009203747388286042, 'epoch': 20.41}
{'loss': 0.1113, 'grad_norm': 0.38226833939552307, 'learning_rate': 0.0009197007481296758, 'epoch': 20.41}
{'loss': 0.1185, 'grad_norm': 0.33354076743125916, 'learning_rate': 0.0009190267574307474, 'epoch': 20.41}
{'loss': 0.1129, 'grad_norm': 0.6992115378379822, 'learning_rate': 0.0009183527667318191, 'epoch': 20.42}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12216245383024216, 'eval_runtime': 123.824, 'eval_samples_per_second': 119.831, 'eval_steps_per_second': 14.981, 'epoch': 20.42}
{'loss': 0.1151, 'grad_norm': 0.45653611421585083, 'learning_rate': 0.0009163307946350341, 'epoch': 20.43}
{'loss': 0.1207, 'grad_norm': 0.4712259769439697, 'learning_rate': 0.0009156568039361058, 'epoch': 20.43}
{'loss': 0.118, 'grad_norm': 0.6372783780097961, 'learning_rate': 0.0009149828132371773, 'epoch': 20.43}
{'loss': 0.1151, 'grad_norm': 0.2413807511329651, 'learning_rate': 0.000914308822538249, 'epoch': 20.44}
{'loss': 0.1175, 'grad_norm': 0.4738816022872925, 'learning_rate': 0.0009136348318393206, 'epoch': 20.44}
{'loss': 0.1103, 'grad_norm': 0.26223498582839966, 'learning_rate': 0.0009129743209543709, 'epoch': 20.44}
{'loss': 0.1166, 'grad_norm': 0.8736897110939026, 'learning_rate': 0.0009123003302554425, 'epoch': 20.45}
{'loss': 0.119, 'grad_norm': 0.21169540286064148, 'learning_rate': 0.0009116263395565141, 'epoch': 20.45}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12374505400657654, 'eval_runtime': 118.0921, 'eval_samples_per_second': 125.648, 'eval_steps_per_second': 15.708, 'epoch': 20.46}
{'loss': 0.1126, 'grad_norm': 0.18164527416229248, 'learning_rate': 0.000909604367459729, 'epoch': 20.46}
{'loss': 0.1218, 'grad_norm': 0.24679824709892273, 'learning_rate': 0.0009089303767608008, 'epoch': 20.46}
{'loss': 0.1173, 'grad_norm': 0.23527485132217407, 'learning_rate': 0.0009082563860618724, 'epoch': 20.47}
{'loss': 0.1203, 'grad_norm': 1.4580129384994507, 'learning_rate': 0.0009075823953629441, 'epoch': 20.47}
{'loss': 0.1239, 'grad_norm': 0.6287888288497925, 'learning_rate': 0.0009069084046640156, 'epoch': 20.47}
{'loss': 0.109, 'grad_norm': 0.617021918296814, 'learning_rate': 0.0009062344139650873, 'epoch': 20.48}
{'loss': 0.117, 'grad_norm': 0.5231749415397644, 'learning_rate': 0.0009055604232661589, 'epoch': 20.48}
{'loss': 0.1214, 'grad_norm': 0.3711142838001251, 'learning_rate': 0.0009048864325672306, 'epoch': 20.48}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12158288806676865, 'eval_runtime': 110.2774, 'eval_samples_per_second': 134.552, 'eval_steps_per_second': 16.821, 'epoch': 20.49}
{'loss': 0.1132, 'grad_norm': 0.29757389426231384, 'learning_rate': 0.0009028644604704456, 'epoch': 20.49}
{'loss': 0.1231, 'grad_norm': 0.23499129712581635, 'learning_rate': 0.0009021904697715172, 'epoch': 20.5}
{'loss': 0.1165, 'grad_norm': 0.5002619028091431, 'learning_rate': 0.0009015164790725888, 'epoch': 20.5}
{'loss': 0.1161, 'grad_norm': 0.28342121839523315, 'learning_rate': 0.0009008424883736604, 'epoch': 20.5}
{'loss': 0.1224, 'grad_norm': 0.2850644886493683, 'learning_rate': 0.0009001684976747321, 'epoch': 20.51}
{'loss': 0.1344, 'grad_norm': 0.1432926505804062, 'learning_rate': 0.0008994945069758037, 'epoch': 20.51}
{'loss': 0.1242, 'grad_norm': 0.42780184745788574, 'learning_rate': 0.0008988205162768754, 'epoch': 20.51}
{'loss': 0.1174, 'grad_norm': 0.264026403427124, 'learning_rate': 0.0008981465255779471, 'epoch': 20.52}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1206597313284874, 'eval_runtime': 108.1605, 'eval_samples_per_second': 137.185, 'eval_steps_per_second': 17.15, 'epoch': 20.52}
{'loss': 0.1264, 'grad_norm': 0.3833937346935272, 'learning_rate': 0.0008961245534811619, 'epoch': 20.53}
{'loss': 0.1308, 'grad_norm': 0.17119313776493073, 'learning_rate': 0.0008954505627822336, 'epoch': 20.53}
{'loss': 0.115, 'grad_norm': 0.17844799160957336, 'learning_rate': 0.0008947765720833052, 'epoch': 20.53}
{'loss': 0.116, 'grad_norm': 0.27565982937812805, 'learning_rate': 0.0008941025813843769, 'epoch': 20.54}
{'loss': 0.1126, 'grad_norm': 0.4758616089820862, 'learning_rate': 0.0008934285906854486, 'epoch': 20.54}
{'loss': 0.1173, 'grad_norm': 0.3897905647754669, 'learning_rate': 0.0008927545999865203, 'epoch': 20.54}
{'loss': 0.1122, 'grad_norm': 0.3927834928035736, 'learning_rate': 0.0008920806092875919, 'epoch': 20.55}
{'loss': 0.1084, 'grad_norm': 0.2586449086666107, 'learning_rate': 0.0008914066185886636, 'epoch': 20.55}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12240961939096451, 'eval_runtime': 118.2222, 'eval_samples_per_second': 125.509, 'eval_steps_per_second': 15.691, 'epoch': 20.56}
{'loss': 0.1177, 'grad_norm': 0.3015924394130707, 'learning_rate': 0.0008893846464918784, 'epoch': 20.56}
{'loss': 0.1103, 'grad_norm': 0.7584041357040405, 'learning_rate': 0.00088871065579295, 'epoch': 20.56}
{'loss': 0.129, 'grad_norm': 0.438427209854126, 'learning_rate': 0.0008880366650940218, 'epoch': 20.57}
{'loss': 0.1189, 'grad_norm': 0.4015496075153351, 'learning_rate': 0.0008873626743950934, 'epoch': 20.57}
{'loss': 0.1124, 'grad_norm': 0.3145628571510315, 'learning_rate': 0.0008866886836961651, 'epoch': 20.57}
{'loss': 0.1158, 'grad_norm': 0.5184777975082397, 'learning_rate': 0.0008860146929972367, 'epoch': 20.58}
{'loss': 0.1171, 'grad_norm': 0.4089059829711914, 'learning_rate': 0.0008853407022983082, 'epoch': 20.58}
{'loss': 0.1182, 'grad_norm': 0.6082541346549988, 'learning_rate': 0.0008846667115993799, 'epoch': 20.58}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12130897492170334, 'eval_runtime': 118.5951, 'eval_samples_per_second': 125.115, 'eval_steps_per_second': 15.641, 'epoch': 20.59}
{'loss': 0.1159, 'grad_norm': 0.19112512469291687, 'learning_rate': 0.0008826582193165734, 'epoch': 20.59}
{'loss': 0.1209, 'grad_norm': 0.3734591007232666, 'learning_rate': 0.000881984228617645, 'epoch': 20.6}
{'loss': 0.1178, 'grad_norm': 0.25059595704078674, 'learning_rate': 0.0008813102379187167, 'epoch': 20.6}
{'loss': 0.1153, 'grad_norm': 0.412564754486084, 'learning_rate': 0.0008806362472197883, 'epoch': 20.6}
{'loss': 0.1129, 'grad_norm': 0.454475998878479, 'learning_rate': 0.0008799622565208601, 'epoch': 20.61}
{'loss': 0.1115, 'grad_norm': 0.469564288854599, 'learning_rate': 0.0008792882658219317, 'epoch': 20.61}
{'loss': 0.1176, 'grad_norm': 0.27546268701553345, 'learning_rate': 0.0008786142751230034, 'epoch': 20.61}
{'loss': 0.1148, 'grad_norm': 0.7852115035057068, 'learning_rate': 0.000877940284424075, 'epoch': 20.62}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12165998667478561, 'eval_runtime': 115.2631, 'eval_samples_per_second': 128.732, 'eval_steps_per_second': 16.094, 'epoch': 20.62}
{'loss': 0.1244, 'grad_norm': 0.3486667573451996, 'learning_rate': 0.0008759183123272898, 'epoch': 20.63}
{'loss': 0.1144, 'grad_norm': 0.357465535402298, 'learning_rate': 0.0008752443216283615, 'epoch': 20.63}
{'loss': 0.1057, 'grad_norm': 0.18983598053455353, 'learning_rate': 0.0008745703309294332, 'epoch': 20.63}
{'loss': 0.1142, 'grad_norm': 0.24383588135242462, 'learning_rate': 0.0008738963402305049, 'epoch': 20.64}
{'loss': 0.1204, 'grad_norm': 0.3471269905567169, 'learning_rate': 0.0008732223495315765, 'epoch': 20.64}
{'loss': 0.1088, 'grad_norm': 0.18935713171958923, 'learning_rate': 0.0008725483588326482, 'epoch': 20.64}
{'loss': 0.1154, 'grad_norm': 0.21620063483715057, 'learning_rate': 0.0008718743681337197, 'epoch': 20.65}
{'loss': 0.1093, 'grad_norm': 0.3930160701274872, 'learning_rate': 0.0008712003774347914, 'epoch': 20.65}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12156950682401657, 'eval_runtime': 119.1671, 'eval_samples_per_second': 124.514, 'eval_steps_per_second': 15.566, 'epoch': 20.66}
{'loss': 0.108, 'grad_norm': 0.353837788105011, 'learning_rate': 0.0008691784053380064, 'epoch': 20.66}
{'loss': 0.1186, 'grad_norm': 0.920453667640686, 'learning_rate': 0.000868504414639078, 'epoch': 20.66}
{'loss': 0.107, 'grad_norm': 0.33588144183158875, 'learning_rate': 0.0008678304239401497, 'epoch': 20.67}
{'loss': 0.1141, 'grad_norm': 0.7213058471679688, 'learning_rate': 0.0008671564332412213, 'epoch': 20.67}
{'loss': 0.1137, 'grad_norm': 0.2731098532676697, 'learning_rate': 0.0008664824425422929, 'epoch': 20.67}
{'loss': 0.1332, 'grad_norm': 0.441660612821579, 'learning_rate': 0.0008658084518433645, 'epoch': 20.68}
{'loss': 0.1339, 'grad_norm': 0.36038029193878174, 'learning_rate': 0.0008651344611444362, 'epoch': 20.68}
{'loss': 0.1327, 'grad_norm': 0.229139506816864, 'learning_rate': 0.0008644604704455079, 'epoch': 20.68}
{'loss': 0.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12064307183027267, 'eval_runtime': 118.7547, 'eval_samples_per_second': 124.947, 'eval_steps_per_second': 15.62, 'epoch': 20.69}
{'loss': 0.115, 'grad_norm': 0.298531711101532, 'learning_rate': 0.0008624384983487228, 'epoch': 20.69}
{'loss': 0.1244, 'grad_norm': 0.5054947137832642, 'learning_rate': 0.0008617645076497945, 'epoch': 20.7}
{'loss': 0.11, 'grad_norm': 0.2735608220100403, 'learning_rate': 0.000861090516950866, 'epoch': 20.7}
{'loss': 0.1147, 'grad_norm': 0.26677206158638, 'learning_rate': 0.0008604165262519377, 'epoch': 20.7}
{'loss': 0.1165, 'grad_norm': 0.31607586145401, 'learning_rate': 0.0008597425355530093, 'epoch': 20.71}
{'loss': 0.1197, 'grad_norm': 0.3735918700695038, 'learning_rate': 0.0008590685448540811, 'epoch': 20.71}
{'loss': 0.1194, 'grad_norm': 0.5022308826446533, 'learning_rate': 0.0008583945541551527, 'epoch': 20.72}
{'loss': 0.0989, 'grad_norm': 0.47365349531173706, 'learning_rate': 0.0008577205634562244, 'epoch': 20.72}
{'loss': 0.104, 'g

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.12038572877645493, 'eval_runtime': 119.0028, 'eval_samples_per_second': 124.686, 'eval_steps_per_second': 15.588, 'epoch': 20.73}
{'loss': 0.1113, 'grad_norm': 0.4997863173484802, 'learning_rate': 0.0008556985913594392, 'epoch': 20.73}
{'loss': 0.1124, 'grad_norm': 0.34008878469467163, 'learning_rate': 0.0008550246006605108, 'epoch': 20.73}
{'loss': 0.122, 'grad_norm': 0.3988907039165497, 'learning_rate': 0.0008543506099615825, 'epoch': 20.74}
{'loss': 0.1282, 'grad_norm': 0.39418336749076843, 'learning_rate': 0.0008536766192626542, 'epoch': 20.74}
{'loss': 0.1163, 'grad_norm': 0.20999954640865326, 'learning_rate': 0.0008530026285637259, 'epoch': 20.74}
{'loss': 0.1176, 'grad_norm': 0.16278427839279175, 'learning_rate': 0.0008523286378647975, 'epoch': 20.75}
{'loss': 0.1154, 'grad_norm': 0.4333030581474304, 'learning_rate': 0.0008516681269798476, 'epoch': 20.75}
{'loss': 0.1125, 'grad_norm': 0.3361397981643677, 'learning_rate': 0.0008509941362809194, 'epoch': 20.75}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11983264982700348, 'eval_runtime': 119.2506, 'eval_samples_per_second': 124.427, 'eval_steps_per_second': 15.555, 'epoch': 20.76}
{'loss': 0.1114, 'grad_norm': 0.10447525978088379, 'learning_rate': 0.0008489721641841343, 'epoch': 20.76}
{'loss': 0.1064, 'grad_norm': 0.21756090223789215, 'learning_rate': 0.000848298173485206, 'epoch': 20.77}
{'loss': 0.1084, 'grad_norm': 0.22377978265285492, 'learning_rate': 0.0008476241827862775, 'epoch': 20.77}
{'loss': 0.1162, 'grad_norm': 0.6839290261268616, 'learning_rate': 0.0008469501920873491, 'epoch': 20.77}
{'loss': 0.106, 'grad_norm': 0.253229558467865, 'learning_rate': 0.0008462762013884208, 'epoch': 20.78}
{'loss': 0.1119, 'grad_norm': 0.4646166265010834, 'learning_rate': 0.0008456022106894925, 'epoch': 20.78}
{'loss': 0.1118, 'grad_norm': 0.20275941491127014, 'learning_rate': 0.0008449282199905642, 'epoch': 20.78}
{'loss': 0.1267, 'grad_norm': 0.378316730260849, 'learning_rate': 0.0008442542292916358, 'epoch': 20.79}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11950895935297012, 'eval_runtime': 119.9516, 'eval_samples_per_second': 123.7, 'eval_steps_per_second': 15.465, 'epoch': 20.79}
{'loss': 0.1271, 'grad_norm': 0.8782045245170593, 'learning_rate': 0.0008422322571948506, 'epoch': 20.8}
{'loss': 0.1069, 'grad_norm': 0.14557981491088867, 'learning_rate': 0.0008415582664959223, 'epoch': 20.8}
{'loss': 0.12, 'grad_norm': 0.18033075332641602, 'learning_rate': 0.000840884275796994, 'epoch': 20.8}
{'loss': 0.1178, 'grad_norm': 0.22410251200199127, 'learning_rate': 0.0008402102850980657, 'epoch': 20.81}
{'loss': 0.112, 'grad_norm': 0.20900103449821472, 'learning_rate': 0.0008395362943991373, 'epoch': 20.81}
{'loss': 0.111, 'grad_norm': 0.2569454312324524, 'learning_rate': 0.000838862303700209, 'epoch': 20.81}
{'loss': 0.1098, 'grad_norm': 0.4111512303352356, 'learning_rate': 0.0008381883130012806, 'epoch': 20.82}
{'loss': 0.1007, 'grad_norm': 0.4213999807834625, 'learning_rate': 0.0008375143223023523, 'epoch': 20.82}
{'loss': 0.12

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11866594105958939, 'eval_runtime': 118.1677, 'eval_samples_per_second': 125.567, 'eval_steps_per_second': 15.698, 'epoch': 20.83}
{'loss': 0.113, 'grad_norm': 0.5809901356697083, 'learning_rate': 0.0008354923502055672, 'epoch': 20.83}
{'loss': 0.1188, 'grad_norm': 0.1542302668094635, 'learning_rate': 0.0008348183595066388, 'epoch': 20.83}
{'loss': 0.1133, 'grad_norm': 0.2524048686027527, 'learning_rate': 0.0008341443688077105, 'epoch': 20.84}
{'loss': 0.1171, 'grad_norm': 0.29285144805908203, 'learning_rate': 0.0008334703781087821, 'epoch': 20.84}
{'loss': 0.1143, 'grad_norm': 1.2700151205062866, 'learning_rate': 0.0008327963874098538, 'epoch': 20.84}
{'loss': 0.1188, 'grad_norm': 0.3933987021446228, 'learning_rate': 0.0008321223967109254, 'epoch': 20.85}
{'loss': 0.1187, 'grad_norm': 0.28199177980422974, 'learning_rate': 0.000831448406011997, 'epoch': 20.85}
{'loss': 0.1114, 'grad_norm': 0.5132580399513245, 'learning_rate': 0.0008307744153130686, 'epoch': 20.85}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11904940009117126, 'eval_runtime': 114.1314, 'eval_samples_per_second': 130.008, 'eval_steps_per_second': 16.253, 'epoch': 20.86}
{'loss': 0.1109, 'grad_norm': 0.30697453022003174, 'learning_rate': 0.0008287524432162836, 'epoch': 20.86}
{'loss': 0.1206, 'grad_norm': 0.3816545307636261, 'learning_rate': 0.0008280784525173553, 'epoch': 20.87}
{'loss': 0.1096, 'grad_norm': 0.40507426857948303, 'learning_rate': 0.0008274044618184269, 'epoch': 20.87}
{'loss': 0.1053, 'grad_norm': 0.24199439585208893, 'learning_rate': 0.0008267304711194986, 'epoch': 20.87}
{'loss': 0.1154, 'grad_norm': 1.0557740926742554, 'learning_rate': 0.0008260564804205701, 'epoch': 20.88}
{'loss': 0.1254, 'grad_norm': 0.394502729177475, 'learning_rate': 0.000825382489721642, 'epoch': 20.88}
{'loss': 0.107, 'grad_norm': 0.4830523133277893, 'learning_rate': 0.0008247084990227135, 'epoch': 20.88}
{'loss': 0.126, 'grad_norm': 0.37833869457244873, 'learning_rate': 0.0008240345083237852, 'epoch': 20.89}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11827059090137482, 'eval_runtime': 113.9037, 'eval_samples_per_second': 130.268, 'eval_steps_per_second': 16.286, 'epoch': 20.89}
{'loss': 0.1062, 'grad_norm': 0.35061413049697876, 'learning_rate': 0.0008220125362270001, 'epoch': 20.9}
{'loss': 0.1105, 'grad_norm': 0.3324647545814514, 'learning_rate': 0.0008213385455280717, 'epoch': 20.9}
{'loss': 0.1049, 'grad_norm': 0.25937193632125854, 'learning_rate': 0.0008206645548291433, 'epoch': 20.9}
{'loss': 0.1269, 'grad_norm': 0.2991395890712738, 'learning_rate': 0.0008199905641302151, 'epoch': 20.91}
{'loss': 0.1117, 'grad_norm': 0.36772817373275757, 'learning_rate': 0.0008193165734312867, 'epoch': 20.91}
{'loss': 0.1033, 'grad_norm': 0.2013593167066574, 'learning_rate': 0.0008186425827323583, 'epoch': 20.91}
{'loss': 0.1117, 'grad_norm': 0.15990199148654938, 'learning_rate': 0.00081796859203343, 'epoch': 20.92}
{'loss': 0.113, 'grad_norm': 0.3073864281177521, 'learning_rate': 0.0008172946013345016, 'epoch': 20.92}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11836285889148712, 'eval_runtime': 115.6998, 'eval_samples_per_second': 128.246, 'eval_steps_per_second': 16.033, 'epoch': 20.93}
{'loss': 0.1189, 'grad_norm': 0.4558876156806946, 'learning_rate': 0.0008152726292377164, 'epoch': 20.93}
{'loss': 0.1092, 'grad_norm': 0.42324191331863403, 'learning_rate': 0.0008145986385387883, 'epoch': 20.93}
{'loss': 0.1167, 'grad_norm': 0.2412053793668747, 'learning_rate': 0.0008139246478398598, 'epoch': 20.94}
{'loss': 0.1037, 'grad_norm': 0.30339667201042175, 'learning_rate': 0.0008132506571409315, 'epoch': 20.94}
{'loss': 0.1159, 'grad_norm': 0.3139537274837494, 'learning_rate': 0.0008125766664420031, 'epoch': 20.94}
{'loss': 0.1106, 'grad_norm': 0.14935894310474396, 'learning_rate': 0.0008119026757430748, 'epoch': 20.95}
{'loss': 0.1033, 'grad_norm': 0.32435429096221924, 'learning_rate': 0.0008112286850441464, 'epoch': 20.95}
{'loss': 0.1059, 'grad_norm': 0.7644105553627014, 'learning_rate': 0.000810554694345218, 'epoch': 20.95}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11757875233888626, 'eval_runtime': 130.8757, 'eval_samples_per_second': 113.375, 'eval_steps_per_second': 14.174, 'epoch': 20.96}
{'loss': 0.1107, 'grad_norm': 0.19790083169937134, 'learning_rate': 0.000808532722248433, 'epoch': 20.96}
{'loss': 0.1162, 'grad_norm': 0.5009914636611938, 'learning_rate': 0.0008078587315495046, 'epoch': 20.97}
{'loss': 0.1152, 'grad_norm': 0.2547474205493927, 'learning_rate': 0.0008071847408505763, 'epoch': 20.97}
{'loss': 0.1056, 'grad_norm': 0.2083793431520462, 'learning_rate': 0.0008065107501516479, 'epoch': 20.97}
{'loss': 0.1127, 'grad_norm': 0.3447169065475464, 'learning_rate': 0.0008058367594527196, 'epoch': 20.98}
{'loss': 0.1176, 'grad_norm': 0.14986903965473175, 'learning_rate': 0.0008051627687537912, 'epoch': 20.98}
{'loss': 0.1223, 'grad_norm': 0.29499781131744385, 'learning_rate': 0.000804488778054863, 'epoch': 20.98}
{'loss': 0.128, 'grad_norm': 0.29652953147888184, 'learning_rate': 0.0008038147873559346, 'epoch': 20.99}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11884070932865143, 'eval_runtime': 113.589, 'eval_samples_per_second': 130.629, 'eval_steps_per_second': 16.331, 'epoch': 20.99}
{'loss': 0.1157, 'grad_norm': 0.3687310218811035, 'learning_rate': 0.0008017928152591494, 'epoch': 21.0}
{'loss': 0.1082, 'grad_norm': 0.14485426247119904, 'learning_rate': 0.0008011188245602211, 'epoch': 21.0}
{'loss': 0.1123, 'grad_norm': 0.35314813256263733, 'learning_rate': 0.0008004448338612927, 'epoch': 21.0}
{'loss': 0.0981, 'grad_norm': 0.18316365778446198, 'learning_rate': 0.0007997708431623644, 'epoch': 21.01}
{'loss': 0.0999, 'grad_norm': 0.2667957842350006, 'learning_rate': 0.0007990968524634361, 'epoch': 21.01}
{'loss': 0.1004, 'grad_norm': 0.19758135080337524, 'learning_rate': 0.0007984228617645078, 'epoch': 21.02}
{'loss': 0.0916, 'grad_norm': 0.29346829652786255, 'learning_rate': 0.0007977488710655793, 'epoch': 21.02}
{'loss': 0.0913, 'grad_norm': 0.15272633731365204, 'learning_rate': 0.0007970748803666509, 'epoch': 21.02}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11843346059322357, 'eval_runtime': 114.1355, 'eval_samples_per_second': 130.003, 'eval_steps_per_second': 16.253, 'epoch': 21.03}
{'loss': 0.1016, 'grad_norm': 0.1862913966178894, 'learning_rate': 0.0007950529082698659, 'epoch': 21.03}
{'loss': 0.1065, 'grad_norm': 0.203241229057312, 'learning_rate': 0.0007943789175709375, 'epoch': 21.04}
{'loss': 0.0955, 'grad_norm': 0.20729809999465942, 'learning_rate': 0.0007937049268720093, 'epoch': 21.04}
{'loss': 0.1017, 'grad_norm': 0.38921546936035156, 'learning_rate': 0.0007930309361730809, 'epoch': 21.04}
{'loss': 0.0931, 'grad_norm': 0.26103055477142334, 'learning_rate': 0.0007923569454741524, 'epoch': 21.05}
{'loss': 0.0978, 'grad_norm': 0.331191748380661, 'learning_rate': 0.0007916829547752241, 'epoch': 21.05}
{'loss': 0.1008, 'grad_norm': 0.22184407711029053, 'learning_rate': 0.0007910089640762957, 'epoch': 21.05}
{'loss': 0.0939, 'grad_norm': 0.25474584102630615, 'learning_rate': 0.0007903349733773674, 'epoch': 21.06}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11732977628707886, 'eval_runtime': 112.5694, 'eval_samples_per_second': 131.812, 'eval_steps_per_second': 16.479, 'epoch': 21.06}
{'loss': 0.1036, 'grad_norm': 0.36284247040748596, 'learning_rate': 0.0007883264810945609, 'epoch': 21.07}
{'loss': 0.0993, 'grad_norm': 0.22236168384552002, 'learning_rate': 0.0007876524903956325, 'epoch': 21.07}
{'loss': 0.0919, 'grad_norm': 0.155056893825531, 'learning_rate': 0.0007869784996967042, 'epoch': 21.07}
{'loss': 0.1017, 'grad_norm': 0.46311450004577637, 'learning_rate': 0.0007863045089977758, 'epoch': 21.08}
{'loss': 0.1051, 'grad_norm': 0.354094535112381, 'learning_rate': 0.0007856305182988476, 'epoch': 21.08}
{'loss': 0.0967, 'grad_norm': 0.19362981617450714, 'learning_rate': 0.0007849565275999192, 'epoch': 21.08}
{'loss': 0.1014, 'grad_norm': 0.32052353024482727, 'learning_rate': 0.0007842825369009908, 'epoch': 21.09}
{'loss': 0.1079, 'grad_norm': 0.40859249234199524, 'learning_rate': 0.0007836085462020624, 'epoch': 21.09}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11814402788877487, 'eval_runtime': 113.4173, 'eval_samples_per_second': 130.827, 'eval_steps_per_second': 16.356, 'epoch': 21.1}
{'loss': 0.095, 'grad_norm': 1.1951805353164673, 'learning_rate': 0.0007815865741052773, 'epoch': 21.1}
{'loss': 0.1003, 'grad_norm': 0.3461625576019287, 'learning_rate': 0.0007809125834063491, 'epoch': 21.1}
{'loss': 0.1043, 'grad_norm': 0.2841179370880127, 'learning_rate': 0.0007802385927074207, 'epoch': 21.11}
{'loss': 0.103, 'grad_norm': 0.4488000273704529, 'learning_rate': 0.0007795646020084924, 'epoch': 21.11}
{'loss': 0.092, 'grad_norm': 0.2451358288526535, 'learning_rate': 0.0007788906113095639, 'epoch': 21.11}
{'loss': 0.1025, 'grad_norm': 0.248860701918602, 'learning_rate': 0.0007782166206106356, 'epoch': 21.12}
{'loss': 0.1093, 'grad_norm': 0.1214599683880806, 'learning_rate': 0.0007775426299117072, 'epoch': 21.12}
{'loss': 0.1038, 'grad_norm': 0.2342030256986618, 'learning_rate': 0.0007768686392127788, 'epoch': 21.12}
{'loss': 0.10

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1174030750989914, 'eval_runtime': 114.5343, 'eval_samples_per_second': 129.551, 'eval_steps_per_second': 16.196, 'epoch': 21.13}
{'loss': 0.0999, 'grad_norm': 0.23179547488689423, 'learning_rate': 0.0007748466671159939, 'epoch': 21.13}
{'loss': 0.1071, 'grad_norm': 0.32442718744277954, 'learning_rate': 0.0007741726764170655, 'epoch': 21.14}
{'loss': 0.1017, 'grad_norm': 0.16803765296936035, 'learning_rate': 0.0007734986857181371, 'epoch': 21.14}
{'loss': 0.0969, 'grad_norm': 0.26451873779296875, 'learning_rate': 0.0007728246950192087, 'epoch': 21.14}
{'loss': 0.0976, 'grad_norm': 0.16472873091697693, 'learning_rate': 0.0007721507043202804, 'epoch': 21.15}
{'loss': 0.1057, 'grad_norm': 0.29099854826927185, 'learning_rate': 0.000771476713621352, 'epoch': 21.15}
{'loss': 0.1085, 'grad_norm': 0.256964772939682, 'learning_rate': 0.0007708027229224236, 'epoch': 21.15}
{'loss': 0.1008, 'grad_norm': 0.21317601203918457, 'learning_rate': 0.0007701287322234954, 'epoch': 21.16}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11828433722257614, 'eval_runtime': 114.3017, 'eval_samples_per_second': 129.814, 'eval_steps_per_second': 16.229, 'epoch': 21.16}
{'loss': 0.1005, 'grad_norm': 0.17294852435588837, 'learning_rate': 0.0007681067601267102, 'epoch': 21.17}
{'loss': 0.1044, 'grad_norm': 0.20129276812076569, 'learning_rate': 0.0007674327694277819, 'epoch': 21.17}
{'loss': 0.0947, 'grad_norm': 0.20387253165245056, 'learning_rate': 0.0007667587787288535, 'epoch': 21.17}
{'loss': 0.1058, 'grad_norm': 0.35588890314102173, 'learning_rate': 0.0007660847880299252, 'epoch': 21.18}
{'loss': 0.1049, 'grad_norm': 0.20003527402877808, 'learning_rate': 0.0007654107973309969, 'epoch': 21.18}
{'loss': 0.0928, 'grad_norm': 0.21167071163654327, 'learning_rate': 0.0007647368066320686, 'epoch': 21.18}
{'loss': 0.1071, 'grad_norm': 0.36878272891044617, 'learning_rate': 0.0007640628159331402, 'epoch': 21.19}
{'loss': 0.109, 'grad_norm': 0.23223218321800232, 'learning_rate': 0.0007633888252342118, 'epoch': 21.19}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11809775233268738, 'eval_runtime': 114.9182, 'eval_samples_per_second': 129.118, 'eval_steps_per_second': 16.142, 'epoch': 21.2}
{'loss': 0.0961, 'grad_norm': 0.37140557169914246, 'learning_rate': 0.0007613668531374267, 'epoch': 21.2}
{'loss': 0.1022, 'grad_norm': 0.39805737137794495, 'learning_rate': 0.0007606928624384983, 'epoch': 21.2}
{'loss': 0.1046, 'grad_norm': 0.2522871494293213, 'learning_rate': 0.0007600188717395701, 'epoch': 21.21}
{'loss': 0.0987, 'grad_norm': 0.5955904126167297, 'learning_rate': 0.0007593448810406417, 'epoch': 21.21}
{'loss': 0.1086, 'grad_norm': 0.23967072367668152, 'learning_rate': 0.0007586708903417134, 'epoch': 21.21}
{'loss': 0.1038, 'grad_norm': 0.1920962780714035, 'learning_rate': 0.000757996899642785, 'epoch': 21.22}
{'loss': 0.0946, 'grad_norm': 0.17049692571163177, 'learning_rate': 0.0007573229089438565, 'epoch': 21.22}
{'loss': 0.1006, 'grad_norm': 0.1136060357093811, 'learning_rate': 0.0007566623980589069, 'epoch': 21.22}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11668756604194641, 'eval_runtime': 114.4348, 'eval_samples_per_second': 129.663, 'eval_steps_per_second': 16.21, 'epoch': 21.23}
{'loss': 0.0987, 'grad_norm': 0.15557901561260223, 'learning_rate': 0.0007546404259621217, 'epoch': 21.23}
{'loss': 0.1023, 'grad_norm': 0.40306782722473145, 'learning_rate': 0.0007539664352631933, 'epoch': 21.24}
{'loss': 0.1036, 'grad_norm': 0.23947405815124512, 'learning_rate': 0.000753292444564265, 'epoch': 21.24}
{'loss': 0.1098, 'grad_norm': 0.23503422737121582, 'learning_rate': 0.0007526184538653366, 'epoch': 21.24}
{'loss': 0.0955, 'grad_norm': 0.34002846479415894, 'learning_rate': 0.0007519444631664084, 'epoch': 21.25}
{'loss': 0.1076, 'grad_norm': 0.36886146664619446, 'learning_rate': 0.00075127047246748, 'epoch': 21.25}
{'loss': 0.1046, 'grad_norm': 0.19485877454280853, 'learning_rate': 0.0007505964817685517, 'epoch': 21.25}
{'loss': 0.0961, 'grad_norm': 0.25726982951164246, 'learning_rate': 0.0007499224910696233, 'epoch': 21.26}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11717027425765991, 'eval_runtime': 113.0952, 'eval_samples_per_second': 131.199, 'eval_steps_per_second': 16.402, 'epoch': 21.26}
{'loss': 0.1123, 'grad_norm': 1.0430570840835571, 'learning_rate': 0.0007479005189728381, 'epoch': 21.27}
{'loss': 0.1146, 'grad_norm': 0.2200896292924881, 'learning_rate': 0.0007472265282739098, 'epoch': 21.27}
{'loss': 0.1181, 'grad_norm': 0.8503747582435608, 'learning_rate': 0.0007465525375749815, 'epoch': 21.27}
{'loss': 0.1021, 'grad_norm': 0.28827404975891113, 'learning_rate': 0.0007458785468760532, 'epoch': 21.28}
{'loss': 0.1073, 'grad_norm': 0.23261229693889618, 'learning_rate': 0.0007452045561771248, 'epoch': 21.28}
{'loss': 0.103, 'grad_norm': 0.26308244466781616, 'learning_rate': 0.0007445305654781965, 'epoch': 21.28}
{'loss': 0.0997, 'grad_norm': 0.18493732810020447, 'learning_rate': 0.000743856574779268, 'epoch': 21.29}
{'loss': 0.1027, 'grad_norm': 0.4264149069786072, 'learning_rate': 0.0007431825840803397, 'epoch': 21.29}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11832499504089355, 'eval_runtime': 113.5502, 'eval_samples_per_second': 130.673, 'eval_steps_per_second': 16.336, 'epoch': 21.3}
{'loss': 0.0983, 'grad_norm': 0.17102143168449402, 'learning_rate': 0.0007411606119835547, 'epoch': 21.3}
{'loss': 0.1067, 'grad_norm': 0.6284322738647461, 'learning_rate': 0.0007404866212846263, 'epoch': 21.3}
{'loss': 0.1091, 'grad_norm': 0.43429598212242126, 'learning_rate': 0.000739812630585698, 'epoch': 21.31}
{'loss': 0.1237, 'grad_norm': 0.15264834463596344, 'learning_rate': 0.0007391386398867696, 'epoch': 21.31}
{'loss': 0.0942, 'grad_norm': 0.38413357734680176, 'learning_rate': 0.0007384646491878412, 'epoch': 21.31}
{'loss': 0.1065, 'grad_norm': 0.38654398918151855, 'learning_rate': 0.0007377906584889128, 'epoch': 21.32}
{'loss': 0.0925, 'grad_norm': 0.3133307695388794, 'learning_rate': 0.0007371166677899845, 'epoch': 21.32}
{'loss': 0.0946, 'grad_norm': 0.13321268558502197, 'learning_rate': 0.0007364426770910562, 'epoch': 21.33}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11644835770130157, 'eval_runtime': 113.2186, 'eval_samples_per_second': 131.056, 'eval_steps_per_second': 16.384, 'epoch': 21.33}
{'loss': 0.096, 'grad_norm': 0.6244296431541443, 'learning_rate': 0.0007344207049942711, 'epoch': 21.34}
{'loss': 0.0978, 'grad_norm': 0.2531474828720093, 'learning_rate': 0.0007337467142953428, 'epoch': 21.34}
{'loss': 0.0955, 'grad_norm': 0.335312157869339, 'learning_rate': 0.0007330727235964143, 'epoch': 21.34}
{'loss': 0.1014, 'grad_norm': 0.12642963230609894, 'learning_rate': 0.000732398732897486, 'epoch': 21.35}
{'loss': 0.0992, 'grad_norm': 0.16448797285556793, 'learning_rate': 0.0007317247421985576, 'epoch': 21.35}
{'loss': 0.0996, 'grad_norm': 0.22755694389343262, 'learning_rate': 0.0007310507514996294, 'epoch': 21.35}
{'loss': 0.1022, 'grad_norm': 0.16411472856998444, 'learning_rate': 0.000730376760800701, 'epoch': 21.36}
{'loss': 0.1024, 'grad_norm': 0.26832517981529236, 'learning_rate': 0.0007297027701017726, 'epoch': 21.36}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11679384112358093, 'eval_runtime': 113.4334, 'eval_samples_per_second': 130.808, 'eval_steps_per_second': 16.353, 'epoch': 21.37}
{'loss': 0.1017, 'grad_norm': 0.2617802321910858, 'learning_rate': 0.0007276807980049875, 'epoch': 21.37}
{'loss': 0.1014, 'grad_norm': 0.46573054790496826, 'learning_rate': 0.0007270068073060591, 'epoch': 21.37}
{'loss': 0.1086, 'grad_norm': 0.25678396224975586, 'learning_rate': 0.0007263328166071308, 'epoch': 21.38}
{'loss': 0.1015, 'grad_norm': 0.394624799489975, 'learning_rate': 0.0007256588259082025, 'epoch': 21.38}
{'loss': 0.0989, 'grad_norm': 0.39564284682273865, 'learning_rate': 0.0007249848352092742, 'epoch': 21.38}
{'loss': 0.1042, 'grad_norm': 0.2148483395576477, 'learning_rate': 0.0007243108445103458, 'epoch': 21.39}
{'loss': 0.1114, 'grad_norm': 0.2655905485153198, 'learning_rate': 0.0007236368538114174, 'epoch': 21.39}
{'loss': 0.0996, 'grad_norm': 0.12296175211668015, 'learning_rate': 0.0007229628631124891, 'epoch': 21.39}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11605284363031387, 'eval_runtime': 112.2796, 'eval_samples_per_second': 132.152, 'eval_steps_per_second': 16.521, 'epoch': 21.4}
{'loss': 0.108, 'grad_norm': 0.3405400216579437, 'learning_rate': 0.000720940891015704, 'epoch': 21.4}
{'loss': 0.1085, 'grad_norm': 0.37290385365486145, 'learning_rate': 0.0007202669003167757, 'epoch': 21.41}
{'loss': 0.1008, 'grad_norm': 0.37594854831695557, 'learning_rate': 0.0007195929096178473, 'epoch': 21.41}
{'loss': 0.1084, 'grad_norm': 0.2076152116060257, 'learning_rate': 0.000718918918918919, 'epoch': 21.41}
{'loss': 0.1125, 'grad_norm': 0.2535611093044281, 'learning_rate': 0.0007182449282199906, 'epoch': 21.42}
{'loss': 0.108, 'grad_norm': 0.4512520134449005, 'learning_rate': 0.0007175709375210623, 'epoch': 21.42}
{'loss': 0.1089, 'grad_norm': 0.3779473304748535, 'learning_rate': 0.0007168969468221338, 'epoch': 21.42}
{'loss': 0.1004, 'grad_norm': 0.2531367540359497, 'learning_rate': 0.0007162229561232054, 'epoch': 21.43}
{'loss': 0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11609623581171036, 'eval_runtime': 115.2795, 'eval_samples_per_second': 128.713, 'eval_steps_per_second': 16.091, 'epoch': 21.43}
{'loss': 0.1105, 'grad_norm': 0.37242498993873596, 'learning_rate': 0.0007142144638403989, 'epoch': 21.44}
{'loss': 0.105, 'grad_norm': 0.3794102072715759, 'learning_rate': 0.0007135404731414706, 'epoch': 21.44}
{'loss': 0.1062, 'grad_norm': 0.5168179273605347, 'learning_rate': 0.0007128664824425423, 'epoch': 21.44}
{'loss': 0.0941, 'grad_norm': 0.24381417036056519, 'learning_rate': 0.000712192491743614, 'epoch': 21.45}
{'loss': 0.1082, 'grad_norm': 0.22835791110992432, 'learning_rate': 0.0007115185010446856, 'epoch': 21.45}
{'loss': 0.1029, 'grad_norm': 0.23317646980285645, 'learning_rate': 0.0007108445103457573, 'epoch': 21.45}
{'loss': 0.1088, 'grad_norm': 0.3779642581939697, 'learning_rate': 0.0007101705196468289, 'epoch': 21.46}
{'loss': 0.1032, 'grad_norm': 0.2299070805311203, 'learning_rate': 0.0007094965289479006, 'epoch': 21.46}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.115984708070755, 'eval_runtime': 114.7501, 'eval_samples_per_second': 129.307, 'eval_steps_per_second': 16.166, 'epoch': 21.47}
{'loss': 0.1144, 'grad_norm': 0.2972567081451416, 'learning_rate': 0.0007074745568511155, 'epoch': 21.47}
{'loss': 0.101, 'grad_norm': 0.3988162875175476, 'learning_rate': 0.0007068005661521871, 'epoch': 21.47}
{'loss': 0.0988, 'grad_norm': 0.24416989088058472, 'learning_rate': 0.0007061265754532588, 'epoch': 21.48}
{'loss': 0.1125, 'grad_norm': 0.40901416540145874, 'learning_rate': 0.0007054525847543304, 'epoch': 21.48}
{'loss': 0.1045, 'grad_norm': 0.33698770403862, 'learning_rate': 0.0007047785940554021, 'epoch': 21.48}
{'loss': 0.101, 'grad_norm': 0.20957709848880768, 'learning_rate': 0.0007041046033564737, 'epoch': 21.49}
{'loss': 0.0979, 'grad_norm': 0.20131969451904297, 'learning_rate': 0.0007034306126575453, 'epoch': 21.49}
{'loss': 0.0985, 'grad_norm': 0.18473811447620392, 'learning_rate': 0.0007027566219586169, 'epoch': 21.49}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11560797691345215, 'eval_runtime': 114.6407, 'eval_samples_per_second': 129.43, 'eval_steps_per_second': 16.181, 'epoch': 21.5}
{'loss': 0.0951, 'grad_norm': 0.19005043804645538, 'learning_rate': 0.0007007346498618319, 'epoch': 21.5}
{'loss': 0.1054, 'grad_norm': 0.34852951765060425, 'learning_rate': 0.0007000606591629036, 'epoch': 21.51}
{'loss': 0.0968, 'grad_norm': 0.3143690526485443, 'learning_rate': 0.0006993866684639752, 'epoch': 21.51}
{'loss': 0.1059, 'grad_norm': 0.2546669542789459, 'learning_rate': 0.0006987126777650469, 'epoch': 21.51}
{'loss': 0.0885, 'grad_norm': 0.26667946577072144, 'learning_rate': 0.0006980386870661184, 'epoch': 21.52}
{'loss': 0.1075, 'grad_norm': 0.2740173637866974, 'learning_rate': 0.0006973646963671902, 'epoch': 21.52}
{'loss': 0.0997, 'grad_norm': 0.3021445572376251, 'learning_rate': 0.0006967041854822404, 'epoch': 21.52}
{'loss': 0.1037, 'grad_norm': 0.43974465131759644, 'learning_rate': 0.000696030194783312, 'epoch': 21.53}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11564067006111145, 'eval_runtime': 115.0309, 'eval_samples_per_second': 128.991, 'eval_steps_per_second': 16.126, 'epoch': 21.53}
{'loss': 0.1062, 'grad_norm': 0.2726534605026245, 'learning_rate': 0.000694008222686527, 'epoch': 21.54}
{'loss': 0.1013, 'grad_norm': 0.1798020452260971, 'learning_rate': 0.0006933342319875986, 'epoch': 21.54}
{'loss': 0.104, 'grad_norm': 0.37226995825767517, 'learning_rate': 0.0006926602412886702, 'epoch': 21.54}
{'loss': 0.1037, 'grad_norm': 0.18976235389709473, 'learning_rate': 0.0006919862505897419, 'epoch': 21.55}
{'loss': 0.1062, 'grad_norm': 0.27609848976135254, 'learning_rate': 0.0006913122598908135, 'epoch': 21.55}
{'loss': 0.1058, 'grad_norm': 0.3007168769836426, 'learning_rate': 0.0006906382691918852, 'epoch': 21.55}
{'loss': 0.1085, 'grad_norm': 0.31056565046310425, 'learning_rate': 0.0006899642784929567, 'epoch': 21.56}
{'loss': 0.0931, 'grad_norm': 0.36624616384506226, 'learning_rate': 0.0006892902877940285, 'epoch': 21.56}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11455973982810974, 'eval_runtime': 113.854, 'eval_samples_per_second': 130.325, 'eval_steps_per_second': 16.293, 'epoch': 21.57}
{'loss': 0.1071, 'grad_norm': 0.7531586289405823, 'learning_rate': 0.0006872683156972434, 'epoch': 21.57}
{'loss': 0.0972, 'grad_norm': 0.33821308612823486, 'learning_rate': 0.000686594324998315, 'epoch': 21.57}
{'loss': 0.111, 'grad_norm': 0.3945505619049072, 'learning_rate': 0.0006859203342993867, 'epoch': 21.58}
{'loss': 0.1012, 'grad_norm': 0.21248972415924072, 'learning_rate': 0.0006852463436004583, 'epoch': 21.58}
{'loss': 0.0964, 'grad_norm': 0.29177430272102356, 'learning_rate': 0.0006845723529015299, 'epoch': 21.58}
{'loss': 0.1007, 'grad_norm': 0.1566220074892044, 'learning_rate': 0.0006838983622026016, 'epoch': 21.59}
{'loss': 0.0994, 'grad_norm': 0.36497360467910767, 'learning_rate': 0.0006832243715036733, 'epoch': 21.59}
{'loss': 0.1036, 'grad_norm': 0.339709997177124, 'learning_rate': 0.0006825503808047449, 'epoch': 21.59}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11504658311605453, 'eval_runtime': 114.5475, 'eval_samples_per_second': 129.536, 'eval_steps_per_second': 16.194, 'epoch': 21.6}
{'loss': 0.0962, 'grad_norm': 0.2238706797361374, 'learning_rate': 0.0006805284087079599, 'epoch': 21.6}
{'loss': 0.1017, 'grad_norm': 0.15496234595775604, 'learning_rate': 0.0006798544180090315, 'epoch': 21.61}
{'loss': 0.1139, 'grad_norm': 0.16809774935245514, 'learning_rate': 0.000679180427310103, 'epoch': 21.61}
{'loss': 0.1089, 'grad_norm': 0.15625658631324768, 'learning_rate': 0.0006785064366111748, 'epoch': 21.61}
{'loss': 0.1004, 'grad_norm': 0.26270490884780884, 'learning_rate': 0.0006778324459122464, 'epoch': 21.62}
{'loss': 0.0902, 'grad_norm': 0.9011049270629883, 'learning_rate': 0.0006771584552133181, 'epoch': 21.62}
{'loss': 0.1034, 'grad_norm': 0.1573106199502945, 'learning_rate': 0.0006764844645143897, 'epoch': 21.62}
{'loss': 0.1004, 'grad_norm': 0.22302867472171783, 'learning_rate': 0.0006758104738154614, 'epoch': 21.63}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11442207545042038, 'eval_runtime': 115.5588, 'eval_samples_per_second': 128.402, 'eval_steps_per_second': 16.052, 'epoch': 21.64}
{'loss': 0.1013, 'grad_norm': 0.2266813963651657, 'learning_rate': 0.0006737885017186762, 'epoch': 21.64}
{'loss': 0.0936, 'grad_norm': 0.3109208643436432, 'learning_rate': 0.0006731145110197479, 'epoch': 21.64}
{'loss': 0.0945, 'grad_norm': 0.12855882942676544, 'learning_rate': 0.0006724405203208196, 'epoch': 21.65}
{'loss': 0.103, 'grad_norm': 0.3285503685474396, 'learning_rate': 0.0006717665296218912, 'epoch': 21.65}
{'loss': 0.1044, 'grad_norm': 0.450908362865448, 'learning_rate': 0.0006710925389229629, 'epoch': 21.65}
{'loss': 0.1172, 'grad_norm': 0.30156823992729187, 'learning_rate': 0.0006704185482240345, 'epoch': 21.66}
{'loss': 0.1051, 'grad_norm': 0.45152583718299866, 'learning_rate': 0.0006697445575251062, 'epoch': 21.66}
{'loss': 0.1099, 'grad_norm': 0.8201965689659119, 'learning_rate': 0.0006690705668261778, 'epoch': 21.66}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11415969580411911, 'eval_runtime': 114.4774, 'eval_samples_per_second': 129.615, 'eval_steps_per_second': 16.204, 'epoch': 21.67}
{'loss': 0.1071, 'grad_norm': 0.23130223155021667, 'learning_rate': 0.0006670485947293927, 'epoch': 21.67}
{'loss': 0.0971, 'grad_norm': 0.27050259709358215, 'learning_rate': 0.0006663746040304644, 'epoch': 21.68}
{'loss': 0.0968, 'grad_norm': 0.3262215852737427, 'learning_rate': 0.000665700613331536, 'epoch': 21.68}
{'loss': 0.0956, 'grad_norm': 0.29285556077957153, 'learning_rate': 0.0006650266226326077, 'epoch': 21.68}
{'loss': 0.1011, 'grad_norm': 0.37198299169540405, 'learning_rate': 0.0006643526319336793, 'epoch': 21.69}
{'loss': 0.0993, 'grad_norm': 0.19083058834075928, 'learning_rate': 0.000663678641234751, 'epoch': 21.69}
{'loss': 0.1148, 'grad_norm': 0.2966381013393402, 'learning_rate': 0.0006630046505358227, 'epoch': 21.69}
{'loss': 0.1036, 'grad_norm': 0.16496919095516205, 'learning_rate': 0.0006623306598368943, 'epoch': 21.7}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11527550965547562, 'eval_runtime': 116.0326, 'eval_samples_per_second': 127.878, 'eval_steps_per_second': 15.987, 'epoch': 21.7}
{'loss': 0.1023, 'grad_norm': 0.19466201961040497, 'learning_rate': 0.0006603086877401092, 'epoch': 21.71}
{'loss': 0.1023, 'grad_norm': 0.2543949484825134, 'learning_rate': 0.0006596346970411808, 'epoch': 21.71}
{'loss': 0.104, 'grad_norm': 0.2025282382965088, 'learning_rate': 0.0006589607063422525, 'epoch': 21.71}
{'loss': 0.0983, 'grad_norm': 0.4338078498840332, 'learning_rate': 0.0006582867156433241, 'epoch': 21.72}
{'loss': 0.1045, 'grad_norm': 0.1575244963169098, 'learning_rate': 0.0006576127249443959, 'epoch': 21.72}
{'loss': 0.1071, 'grad_norm': 0.3205619752407074, 'learning_rate': 0.0006569387342454674, 'epoch': 21.72}
{'loss': 0.1, 'grad_norm': 0.312850683927536, 'learning_rate': 0.000656264743546539, 'epoch': 21.73}
{'loss': 0.1094, 'grad_norm': 0.2451123148202896, 'learning_rate': 0.0006555907528476107, 'epoch': 21.73}
{'loss': 0.0

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11359647661447525, 'eval_runtime': 114.0542, 'eval_samples_per_second': 130.096, 'eval_steps_per_second': 16.264, 'epoch': 21.74}
{'loss': 0.0965, 'grad_norm': 0.4507293105125427, 'learning_rate': 0.0006535687807508256, 'epoch': 21.74}
{'loss': 0.0985, 'grad_norm': 2.626924991607666, 'learning_rate': 0.0006528947900518974, 'epoch': 21.74}
{'loss': 0.1056, 'grad_norm': 0.299805223941803, 'learning_rate': 0.000652220799352969, 'epoch': 21.75}
{'loss': 0.0918, 'grad_norm': 0.2244979292154312, 'learning_rate': 0.0006515468086540406, 'epoch': 21.75}
{'loss': 0.1039, 'grad_norm': 0.2330847829580307, 'learning_rate': 0.0006508728179551122, 'epoch': 21.75}
{'loss': 0.1047, 'grad_norm': 0.1765354871749878, 'learning_rate': 0.0006501988272561839, 'epoch': 21.76}
{'loss': 0.0988, 'grad_norm': 0.19351588189601898, 'learning_rate': 0.0006495248365572555, 'epoch': 21.76}
{'loss': 0.0983, 'grad_norm': 0.3336809277534485, 'learning_rate': 0.0006488508458583271, 'epoch': 21.76}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11360851675271988, 'eval_runtime': 113.858, 'eval_samples_per_second': 130.32, 'eval_steps_per_second': 16.292, 'epoch': 21.77}
{'loss': 0.118, 'grad_norm': 0.3042502701282501, 'learning_rate': 0.0006468288737615422, 'epoch': 21.77}
{'loss': 0.1022, 'grad_norm': 0.5234335660934448, 'learning_rate': 0.0006461548830626137, 'epoch': 21.78}
{'loss': 0.1105, 'grad_norm': 0.3240080773830414, 'learning_rate': 0.0006454808923636854, 'epoch': 21.78}
{'loss': 0.0969, 'grad_norm': 0.22952744364738464, 'learning_rate': 0.000644806901664757, 'epoch': 21.78}
{'loss': 0.1007, 'grad_norm': 0.1314481496810913, 'learning_rate': 0.0006441329109658287, 'epoch': 21.79}
{'loss': 0.1001, 'grad_norm': 0.2639652490615845, 'learning_rate': 0.0006434589202669003, 'epoch': 21.79}
{'loss': 0.0998, 'grad_norm': 0.16162100434303284, 'learning_rate': 0.0006427849295679719, 'epoch': 21.79}
{'loss': 0.1051, 'grad_norm': 0.20370535552501678, 'learning_rate': 0.0006421109388690437, 'epoch': 21.8}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11380159854888916, 'eval_runtime': 114.8073, 'eval_samples_per_second': 129.243, 'eval_steps_per_second': 16.158, 'epoch': 21.8}
{'loss': 0.0972, 'grad_norm': 0.24893303215503693, 'learning_rate': 0.0006400889667722585, 'epoch': 21.81}
{'loss': 0.0962, 'grad_norm': 0.3576286733150482, 'learning_rate': 0.0006394149760733302, 'epoch': 21.81}
{'loss': 0.1037, 'grad_norm': 0.2805693447589874, 'learning_rate': 0.0006387409853744018, 'epoch': 21.81}
{'loss': 0.1013, 'grad_norm': 0.1502130925655365, 'learning_rate': 0.0006380669946754735, 'epoch': 21.82}
{'loss': 0.0998, 'grad_norm': 0.24783150851726532, 'learning_rate': 0.0006373930039765452, 'epoch': 21.82}
{'loss': 0.0886, 'grad_norm': 0.29734480381011963, 'learning_rate': 0.0006367190132776169, 'epoch': 21.82}
{'loss': 0.0996, 'grad_norm': 0.2488355040550232, 'learning_rate': 0.0006360450225786885, 'epoch': 21.83}
{'loss': 0.0969, 'grad_norm': 0.3058561682701111, 'learning_rate': 0.00063537103187976, 'epoch': 21.83}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11332088708877563, 'eval_runtime': 115.3649, 'eval_samples_per_second': 128.618, 'eval_steps_per_second': 16.079, 'epoch': 21.84}
{'loss': 0.0992, 'grad_norm': 0.29881522059440613, 'learning_rate': 0.000633349059782975, 'epoch': 21.84}
{'loss': 0.1144, 'grad_norm': 0.30761492252349854, 'learning_rate': 0.0006326750690840466, 'epoch': 21.84}
{'loss': 0.0968, 'grad_norm': 0.7738552093505859, 'learning_rate': 0.0006320010783851184, 'epoch': 21.85}
{'loss': 0.1187, 'grad_norm': 0.39586353302001953, 'learning_rate': 0.00063132708768619, 'epoch': 21.85}
{'loss': 0.0971, 'grad_norm': 0.16853131353855133, 'learning_rate': 0.0006306530969872617, 'epoch': 21.85}
{'loss': 0.1103, 'grad_norm': 0.20177559554576874, 'learning_rate': 0.0006299925861023118, 'epoch': 21.86}
{'loss': 0.1041, 'grad_norm': 0.20704668760299683, 'learning_rate': 0.0006293185954033835, 'epoch': 21.86}
{'loss': 0.0971, 'grad_norm': 0.21950510144233704, 'learning_rate': 0.0006286446047044552, 'epoch': 21.86}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1130499467253685, 'eval_runtime': 115.7813, 'eval_samples_per_second': 128.155, 'eval_steps_per_second': 16.022, 'epoch': 21.87}
{'loss': 0.0952, 'grad_norm': 0.0940176472067833, 'learning_rate': 0.00062662263260767, 'epoch': 21.87}
{'loss': 0.1104, 'grad_norm': 0.34431061148643494, 'learning_rate': 0.0006259486419087416, 'epoch': 21.88}
{'loss': 0.1109, 'grad_norm': 0.18235284090042114, 'learning_rate': 0.0006252746512098133, 'epoch': 21.88}
{'loss': 0.0979, 'grad_norm': 0.16062471270561218, 'learning_rate': 0.0006246006605108849, 'epoch': 21.88}
{'loss': 0.0983, 'grad_norm': 1.0112768411636353, 'learning_rate': 0.0006239266698119566, 'epoch': 21.89}
{'loss': 0.1017, 'grad_norm': 0.23477141559123993, 'learning_rate': 0.0006232526791130282, 'epoch': 21.89}
{'loss': 0.0955, 'grad_norm': 0.28065773844718933, 'learning_rate': 0.0006225786884141, 'epoch': 21.89}
{'loss': 0.0941, 'grad_norm': 0.3134150207042694, 'learning_rate': 0.0006219046977151715, 'epoch': 21.9}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11193335801362991, 'eval_runtime': 114.7622, 'eval_samples_per_second': 129.293, 'eval_steps_per_second': 16.164, 'epoch': 21.9}
{'loss': 0.1012, 'grad_norm': 0.6160566210746765, 'learning_rate': 0.0006198827256183865, 'epoch': 21.91}
{'loss': 0.0963, 'grad_norm': 0.30852484703063965, 'learning_rate': 0.0006192087349194581, 'epoch': 21.91}
{'loss': 0.1005, 'grad_norm': 0.4607914388179779, 'learning_rate': 0.0006185347442205297, 'epoch': 21.91}
{'loss': 0.0965, 'grad_norm': 0.49638235569000244, 'learning_rate': 0.0006178607535216014, 'epoch': 21.92}
{'loss': 0.1009, 'grad_norm': 0.1012103259563446, 'learning_rate': 0.0006171867628226731, 'epoch': 21.92}
{'loss': 0.1001, 'grad_norm': 0.2537725269794464, 'learning_rate': 0.0006165127721237447, 'epoch': 21.92}
{'loss': 0.1046, 'grad_norm': 0.2136455476284027, 'learning_rate': 0.0006158387814248163, 'epoch': 21.93}
{'loss': 0.1009, 'grad_norm': 0.2475750744342804, 'learning_rate': 0.0006151647907258879, 'epoch': 21.93}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11206365376710892, 'eval_runtime': 114.9062, 'eval_samples_per_second': 129.131, 'eval_steps_per_second': 16.144, 'epoch': 21.94}
{'loss': 0.0954, 'grad_norm': 0.12866516411304474, 'learning_rate': 0.0006131428186291029, 'epoch': 21.94}
{'loss': 0.0976, 'grad_norm': 0.35838863253593445, 'learning_rate': 0.0006124688279301746, 'epoch': 21.95}
{'loss': 0.0939, 'grad_norm': 0.25928181409835815, 'learning_rate': 0.0006117948372312463, 'epoch': 21.95}
{'loss': 0.0956, 'grad_norm': 0.34037914872169495, 'learning_rate': 0.0006111208465323178, 'epoch': 21.95}
{'loss': 0.0985, 'grad_norm': 0.2946838140487671, 'learning_rate': 0.0006104468558333895, 'epoch': 21.96}
{'loss': 0.1096, 'grad_norm': 0.21010707318782806, 'learning_rate': 0.0006097728651344612, 'epoch': 21.96}
{'loss': 0.0964, 'grad_norm': 0.3310239017009735, 'learning_rate': 0.0006090988744355329, 'epoch': 21.96}
{'loss': 0.1022, 'grad_norm': 0.23817960917949677, 'learning_rate': 0.0006084248837366044, 'epoch': 21.97}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1122983917593956, 'eval_runtime': 115.3642, 'eval_samples_per_second': 128.619, 'eval_steps_per_second': 16.08, 'epoch': 21.97}
{'loss': 0.1041, 'grad_norm': 0.48789986968040466, 'learning_rate': 0.0006064029116398194, 'epoch': 21.98}
{'loss': 0.0901, 'grad_norm': 0.29629606008529663, 'learning_rate': 0.000605728920940891, 'epoch': 21.98}
{'loss': 0.0961, 'grad_norm': 0.498353511095047, 'learning_rate': 0.0006050549302419626, 'epoch': 21.98}
{'loss': 0.1139, 'grad_norm': 0.48662638664245605, 'learning_rate': 0.0006043809395430344, 'epoch': 21.99}
{'loss': 0.1026, 'grad_norm': 0.265656977891922, 'learning_rate': 0.000603706948844106, 'epoch': 21.99}
{'loss': 0.1007, 'grad_norm': 0.32304465770721436, 'learning_rate': 0.0006030329581451775, 'epoch': 21.99}
{'loss': 0.1035, 'grad_norm': 0.28088364005088806, 'learning_rate': 0.0006023589674462492, 'epoch': 22.0}
{'loss': 0.1018, 'grad_norm': 0.16849841177463531, 'learning_rate': 0.0006016849767473209, 'epoch': 22.0}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11326725035905838, 'eval_runtime': 114.8535, 'eval_samples_per_second': 129.191, 'eval_steps_per_second': 16.151, 'epoch': 22.01}
{'loss': 0.0902, 'grad_norm': 0.25890225172042847, 'learning_rate': 0.0005996630046505358, 'epoch': 22.01}
{'loss': 0.0835, 'grad_norm': 0.21473944187164307, 'learning_rate': 0.0005989890139516075, 'epoch': 22.01}
{'loss': 0.0932, 'grad_norm': 1.1803457736968994, 'learning_rate': 0.0005983150232526792, 'epoch': 22.02}
{'loss': 0.0885, 'grad_norm': 0.2487955391407013, 'learning_rate': 0.0005976410325537507, 'epoch': 22.02}
{'loss': 0.0966, 'grad_norm': 0.24617339670658112, 'learning_rate': 0.0005969670418548223, 'epoch': 22.02}
{'loss': 0.0969, 'grad_norm': 0.2214450240135193, 'learning_rate': 0.0005962930511558941, 'epoch': 22.03}
{'loss': 0.0832, 'grad_norm': 0.6403951644897461, 'learning_rate': 0.0005956190604569657, 'epoch': 22.03}
{'loss': 0.0885, 'grad_norm': 0.15940383076667786, 'learning_rate': 0.0005949450697580373, 'epoch': 22.03}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11257101595401764, 'eval_runtime': 114.4939, 'eval_samples_per_second': 129.596, 'eval_steps_per_second': 16.202, 'epoch': 22.04}
{'loss': 0.0876, 'grad_norm': 0.11402378976345062, 'learning_rate': 0.0005929230976612523, 'epoch': 22.04}
{'loss': 0.0885, 'grad_norm': 0.41070330142974854, 'learning_rate': 0.0005922491069623239, 'epoch': 22.05}
{'loss': 0.0855, 'grad_norm': 0.1453186720609665, 'learning_rate': 0.0005915751162633956, 'epoch': 22.05}
{'loss': 0.089, 'grad_norm': 0.28285425901412964, 'learning_rate': 0.0005909011255644673, 'epoch': 22.05}
{'loss': 0.0906, 'grad_norm': 0.317941814661026, 'learning_rate': 0.0005902271348655389, 'epoch': 22.06}
{'loss': 0.089, 'grad_norm': 0.5004223585128784, 'learning_rate': 0.0005895531441666104, 'epoch': 22.06}
{'loss': 0.0844, 'grad_norm': 0.1911303550004959, 'learning_rate': 0.0005888791534676822, 'epoch': 22.06}
{'loss': 0.0919, 'grad_norm': 0.2130235880613327, 'learning_rate': 0.0005882051627687538, 'epoch': 22.07}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11287888884544373, 'eval_runtime': 114.7191, 'eval_samples_per_second': 129.342, 'eval_steps_per_second': 16.17, 'epoch': 22.07}
{'loss': 0.0891, 'grad_norm': 0.21645765006542206, 'learning_rate': 0.0005861831906719688, 'epoch': 22.08}
{'loss': 0.0886, 'grad_norm': 0.1342182755470276, 'learning_rate': 0.0005855091999730404, 'epoch': 22.08}
{'loss': 0.09, 'grad_norm': 0.21177025139331818, 'learning_rate': 0.0005848352092741121, 'epoch': 22.08}
{'loss': 0.0811, 'grad_norm': 0.40066924691200256, 'learning_rate': 0.0005841612185751836, 'epoch': 22.09}
{'loss': 0.0881, 'grad_norm': 0.15609461069107056, 'learning_rate': 0.0005834872278762553, 'epoch': 22.09}
{'loss': 0.0905, 'grad_norm': 0.16910205781459808, 'learning_rate': 0.000582813237177327, 'epoch': 22.09}
{'loss': 0.088, 'grad_norm': 0.0993993729352951, 'learning_rate': 0.0005821392464783986, 'epoch': 22.1}
{'loss': 0.0872, 'grad_norm': 0.16622775793075562, 'learning_rate': 0.0005814652557794702, 'epoch': 22.1}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11345074325799942, 'eval_runtime': 114.6105, 'eval_samples_per_second': 129.465, 'eval_steps_per_second': 16.185, 'epoch': 22.11}
{'loss': 0.0912, 'grad_norm': 0.1951538473367691, 'learning_rate': 0.0005794432836826852, 'epoch': 22.11}
{'loss': 0.1092, 'grad_norm': 0.4277075529098511, 'learning_rate': 0.0005787827727977353, 'epoch': 22.11}
{'loss': 0.0902, 'grad_norm': 0.14143748581409454, 'learning_rate': 0.0005781087820988071, 'epoch': 22.12}
{'loss': 0.0836, 'grad_norm': 0.18809303641319275, 'learning_rate': 0.0005774347913998787, 'epoch': 22.12}
{'loss': 0.0916, 'grad_norm': 0.5880783796310425, 'learning_rate': 0.0005767608007009504, 'epoch': 22.12}
{'loss': 0.0853, 'grad_norm': 0.26128655672073364, 'learning_rate': 0.0005760868100020219, 'epoch': 22.13}
{'loss': 0.0889, 'grad_norm': 0.22187566757202148, 'learning_rate': 0.0005754128193030937, 'epoch': 22.13}
{'loss': 0.0912, 'grad_norm': 0.15137642621994019, 'learning_rate': 0.0005747388286041653, 'epoch': 22.13}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1129690557718277, 'eval_runtime': 114.1229, 'eval_samples_per_second': 130.018, 'eval_steps_per_second': 16.254, 'epoch': 22.14}
{'loss': 0.1043, 'grad_norm': 0.37262293696403503, 'learning_rate': 0.0005727168565073802, 'epoch': 22.14}
{'loss': 0.091, 'grad_norm': 0.2316439002752304, 'learning_rate': 0.0005720428658084519, 'epoch': 22.15}
{'loss': 0.0821, 'grad_norm': 0.23278041183948517, 'learning_rate': 0.0005713688751095235, 'epoch': 22.15}
{'loss': 0.0923, 'grad_norm': 0.248801127076149, 'learning_rate': 0.0005706948844105952, 'epoch': 22.15}
{'loss': 0.0953, 'grad_norm': 0.243932843208313, 'learning_rate': 0.0005700208937116668, 'epoch': 22.16}
{'loss': 0.0901, 'grad_norm': 0.2365567833185196, 'learning_rate': 0.0005693469030127385, 'epoch': 22.16}
{'loss': 0.0857, 'grad_norm': 0.14803346991539001, 'learning_rate': 0.0005686729123138101, 'epoch': 22.16}
{'loss': 0.0878, 'grad_norm': 0.34638211131095886, 'learning_rate': 0.0005679989216148817, 'epoch': 22.17}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11239967495203018, 'eval_runtime': 115.6243, 'eval_samples_per_second': 128.329, 'eval_steps_per_second': 16.043, 'epoch': 22.17}
{'loss': 0.0845, 'grad_norm': 0.2158324420452118, 'learning_rate': 0.0005659769495180967, 'epoch': 22.18}
{'loss': 0.0933, 'grad_norm': 0.34346115589141846, 'learning_rate': 0.0005653029588191683, 'epoch': 22.18}
{'loss': 0.0888, 'grad_norm': 0.2837756276130676, 'learning_rate': 0.00056462896812024, 'epoch': 22.18}
{'loss': 0.0834, 'grad_norm': 0.3493037819862366, 'learning_rate': 0.0005639549774213116, 'epoch': 22.19}
{'loss': 0.0883, 'grad_norm': 0.1220364198088646, 'learning_rate': 0.0005632809867223833, 'epoch': 22.19}
{'loss': 0.0828, 'grad_norm': 0.16813531517982483, 'learning_rate': 0.0005626069960234549, 'epoch': 22.19}
{'loss': 0.085, 'grad_norm': 0.20478543639183044, 'learning_rate': 0.0005619330053245265, 'epoch': 22.2}
{'loss': 0.0854, 'grad_norm': 0.3933413028717041, 'learning_rate': 0.0005612590146255982, 'epoch': 22.2}
{'loss':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1129361018538475, 'eval_runtime': 113.8727, 'eval_samples_per_second': 130.303, 'eval_steps_per_second': 16.29, 'epoch': 22.21}
{'loss': 0.0895, 'grad_norm': 0.7073060870170593, 'learning_rate': 0.0005592370425288131, 'epoch': 22.21}
{'loss': 0.0881, 'grad_norm': 0.2863774299621582, 'learning_rate': 0.0005585630518298848, 'epoch': 22.21}
{'loss': 0.0998, 'grad_norm': 0.16198620200157166, 'learning_rate': 0.0005578890611309564, 'epoch': 22.22}
{'loss': 0.0847, 'grad_norm': 0.14408759772777557, 'learning_rate': 0.0005572150704320281, 'epoch': 22.22}
{'loss': 0.0896, 'grad_norm': 0.11766818165779114, 'learning_rate': 0.0005565410797330997, 'epoch': 22.22}
{'loss': 0.0902, 'grad_norm': 0.11593527346849442, 'learning_rate': 0.0005558670890341713, 'epoch': 22.23}
{'loss': 0.0893, 'grad_norm': 0.7669000625610352, 'learning_rate': 0.000555193098335243, 'epoch': 22.23}
{'loss': 0.0859, 'grad_norm': 0.38541099429130554, 'learning_rate': 0.0005545191076363146, 'epoch': 22.23}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11119597405195236, 'eval_runtime': 114.4669, 'eval_samples_per_second': 129.627, 'eval_steps_per_second': 16.206, 'epoch': 22.24}
{'loss': 0.0973, 'grad_norm': 0.963769257068634, 'learning_rate': 0.0005524971355395296, 'epoch': 22.25}
{'loss': 0.0895, 'grad_norm': 0.3440135419368744, 'learning_rate': 0.0005518231448406012, 'epoch': 22.25}
{'loss': 0.081, 'grad_norm': 0.17084942758083344, 'learning_rate': 0.0005511491541416729, 'epoch': 22.25}
{'loss': 0.0831, 'grad_norm': 0.2669301927089691, 'learning_rate': 0.0005504751634427445, 'epoch': 22.26}
{'loss': 0.0864, 'grad_norm': 0.6645658016204834, 'learning_rate': 0.0005498011727438161, 'epoch': 22.26}
{'loss': 0.0879, 'grad_norm': 0.2836618721485138, 'learning_rate': 0.0005491271820448878, 'epoch': 22.26}
{'loss': 0.0879, 'grad_norm': 0.18565213680267334, 'learning_rate': 0.0005484531913459594, 'epoch': 22.27}
{'loss': 0.0895, 'grad_norm': 0.2757725715637207, 'learning_rate': 0.0005477792006470311, 'epoch': 22.27}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11173876374959946, 'eval_runtime': 113.6425, 'eval_samples_per_second': 130.567, 'eval_steps_per_second': 16.323, 'epoch': 22.28}
{'loss': 0.0946, 'grad_norm': 0.20255517959594727, 'learning_rate': 0.000545757228550246, 'epoch': 22.28}
{'loss': 0.0866, 'grad_norm': 0.19665759801864624, 'learning_rate': 0.0005450832378513177, 'epoch': 22.28}
{'loss': 0.0877, 'grad_norm': 0.3276474177837372, 'learning_rate': 0.0005444092471523893, 'epoch': 22.29}
{'loss': 0.0938, 'grad_norm': 0.37089741230010986, 'learning_rate': 0.000543735256453461, 'epoch': 22.29}
{'loss': 0.0964, 'grad_norm': 0.3396863043308258, 'learning_rate': 0.0005430612657545326, 'epoch': 22.29}
{'loss': 0.0841, 'grad_norm': 0.22117149829864502, 'learning_rate': 0.0005423872750556042, 'epoch': 22.3}
{'loss': 0.0868, 'grad_norm': 0.3385302722454071, 'learning_rate': 0.0005417132843566759, 'epoch': 22.3}
{'loss': 0.0893, 'grad_norm': 0.18114812672138214, 'learning_rate': 0.0005410392936577475, 'epoch': 22.3}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11157019436359406, 'eval_runtime': 114.4248, 'eval_samples_per_second': 129.675, 'eval_steps_per_second': 16.212, 'epoch': 22.31}
{'loss': 0.0828, 'grad_norm': 0.12702205777168274, 'learning_rate': 0.0005390173215609625, 'epoch': 22.31}
{'loss': 0.0832, 'grad_norm': 0.2591005563735962, 'learning_rate': 0.0005383433308620341, 'epoch': 22.32}
{'loss': 0.0906, 'grad_norm': 0.29260462522506714, 'learning_rate': 0.0005376693401631058, 'epoch': 22.32}
{'loss': 0.0943, 'grad_norm': 0.2740839421749115, 'learning_rate': 0.0005369953494641774, 'epoch': 22.32}
{'loss': 0.0882, 'grad_norm': 0.10288350284099579, 'learning_rate': 0.000536321358765249, 'epoch': 22.33}
{'loss': 0.0871, 'grad_norm': 0.15765085816383362, 'learning_rate': 0.0005356473680663207, 'epoch': 22.33}
{'loss': 0.0882, 'grad_norm': 0.5785002112388611, 'learning_rate': 0.0005349733773673923, 'epoch': 22.33}
{'loss': 0.0875, 'grad_norm': 0.3245235085487366, 'learning_rate': 0.000534299386668464, 'epoch': 22.34}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11137626320123672, 'eval_runtime': 112.9888, 'eval_samples_per_second': 131.323, 'eval_steps_per_second': 16.418, 'epoch': 22.34}
{'loss': 0.0825, 'grad_norm': 0.25595515966415405, 'learning_rate': 0.0005322908943856575, 'epoch': 22.35}
{'loss': 0.0909, 'grad_norm': 0.11189881712198257, 'learning_rate': 0.0005316169036867291, 'epoch': 22.35}
{'loss': 0.0915, 'grad_norm': 0.29802101850509644, 'learning_rate': 0.0005309429129878008, 'epoch': 22.35}
{'loss': 0.0821, 'grad_norm': 0.3328300714492798, 'learning_rate': 0.0005302689222888724, 'epoch': 22.36}
{'loss': 0.0911, 'grad_norm': 0.11620448529720306, 'learning_rate': 0.0005295949315899441, 'epoch': 22.36}
{'loss': 0.0857, 'grad_norm': 0.6066513657569885, 'learning_rate': 0.0005289209408910157, 'epoch': 22.36}
{'loss': 0.095, 'grad_norm': 0.32050439715385437, 'learning_rate': 0.0005282469501920873, 'epoch': 22.37}
{'loss': 0.0896, 'grad_norm': 0.18777695298194885, 'learning_rate': 0.000527572959493159, 'epoch': 22.37}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11175871640443802, 'eval_runtime': 115.4829, 'eval_samples_per_second': 128.487, 'eval_steps_per_second': 16.063, 'epoch': 22.38}
{'loss': 0.081, 'grad_norm': 0.30868059396743774, 'learning_rate': 0.0005255509873963739, 'epoch': 22.38}
{'loss': 0.0999, 'grad_norm': 0.18187996745109558, 'learning_rate': 0.0005248769966974456, 'epoch': 22.38}
{'loss': 0.0911, 'grad_norm': 0.12698717415332794, 'learning_rate': 0.0005242030059985172, 'epoch': 22.39}
{'loss': 0.0862, 'grad_norm': 0.2920110821723938, 'learning_rate': 0.0005235290152995889, 'epoch': 22.39}
{'loss': 0.0885, 'grad_norm': 0.2775733470916748, 'learning_rate': 0.0005228550246006605, 'epoch': 22.39}
{'loss': 0.0903, 'grad_norm': 0.32331007719039917, 'learning_rate': 0.0005221810339017322, 'epoch': 22.4}
{'loss': 0.0871, 'grad_norm': 0.14860500395298004, 'learning_rate': 0.0005215070432028038, 'epoch': 22.4}
{'loss': 0.0867, 'grad_norm': 0.13242267072200775, 'learning_rate': 0.0005208330525038754, 'epoch': 22.4}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1109485849738121, 'eval_runtime': 114.6997, 'eval_samples_per_second': 129.364, 'eval_steps_per_second': 16.173, 'epoch': 22.41}
{'loss': 0.095, 'grad_norm': 1.0641387701034546, 'learning_rate': 0.0005188110804070904, 'epoch': 22.41}
{'loss': 0.0901, 'grad_norm': 0.3882087171077728, 'learning_rate': 0.000518137089708162, 'epoch': 22.42}
{'loss': 0.0859, 'grad_norm': 0.19169792532920837, 'learning_rate': 0.0005174630990092337, 'epoch': 22.42}
{'loss': 0.0931, 'grad_norm': 0.14519183337688446, 'learning_rate': 0.0005167891083103053, 'epoch': 22.42}
{'loss': 0.0868, 'grad_norm': 0.2545163631439209, 'learning_rate': 0.000516115117611377, 'epoch': 22.43}
{'loss': 0.0895, 'grad_norm': 0.3115673065185547, 'learning_rate': 0.0005154411269124486, 'epoch': 22.43}
{'loss': 0.0863, 'grad_norm': 0.12790578603744507, 'learning_rate': 0.0005147671362135202, 'epoch': 22.43}
{'loss': 0.0857, 'grad_norm': 0.29186370968818665, 'learning_rate': 0.0005140931455145919, 'epoch': 22.44}
{'loss

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11019404977560043, 'eval_runtime': 114.576, 'eval_samples_per_second': 129.504, 'eval_steps_per_second': 16.19, 'epoch': 22.44}
{'loss': 0.0916, 'grad_norm': 0.3913935422897339, 'learning_rate': 0.0005120711734178068, 'epoch': 22.45}
{'loss': 0.0901, 'grad_norm': 0.19836358726024628, 'learning_rate': 0.0005113971827188785, 'epoch': 22.45}
{'loss': 0.0826, 'grad_norm': 0.1520533710718155, 'learning_rate': 0.0005107231920199502, 'epoch': 22.45}
{'loss': 0.0888, 'grad_norm': 0.19033098220825195, 'learning_rate': 0.0005100492013210218, 'epoch': 22.46}
{'loss': 0.0881, 'grad_norm': 0.22098292410373688, 'learning_rate': 0.0005093752106220934, 'epoch': 22.46}
{'loss': 0.0849, 'grad_norm': 0.4037404954433441, 'learning_rate': 0.000508701219923165, 'epoch': 22.46}
{'loss': 0.0935, 'grad_norm': 0.31329625844955444, 'learning_rate': 0.0005080272292242368, 'epoch': 22.47}
{'loss': 0.0924, 'grad_norm': 0.2787735164165497, 'learning_rate': 0.0005073532385253083, 'epoch': 22.47}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11002635210752487, 'eval_runtime': 115.111, 'eval_samples_per_second': 128.902, 'eval_steps_per_second': 16.115, 'epoch': 22.48}
{'loss': 0.0899, 'grad_norm': 0.22092674672603607, 'learning_rate': 0.0005053312664285234, 'epoch': 22.48}
{'loss': 0.0895, 'grad_norm': 0.18887989223003387, 'learning_rate': 0.0005046572757295949, 'epoch': 22.48}
{'loss': 0.0884, 'grad_norm': 0.21618732810020447, 'learning_rate': 0.0005039832850306666, 'epoch': 22.49}
{'loss': 0.0914, 'grad_norm': 0.16224579513072968, 'learning_rate': 0.0005033092943317382, 'epoch': 22.49}
{'loss': 0.0853, 'grad_norm': 0.13737407326698303, 'learning_rate': 0.00050263530363281, 'epoch': 22.49}
{'loss': 0.0968, 'grad_norm': 0.18134349584579468, 'learning_rate': 0.0005019613129338815, 'epoch': 22.5}
{'loss': 0.0867, 'grad_norm': 0.19265839457511902, 'learning_rate': 0.0005012873222349531, 'epoch': 22.5}
{'loss': 0.0965, 'grad_norm': 0.22109493613243103, 'learning_rate': 0.0005006133315360248, 'epoch': 22.5}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1099819466471672, 'eval_runtime': 114.5018, 'eval_samples_per_second': 129.587, 'eval_steps_per_second': 16.201, 'epoch': 22.51}
{'loss': 0.0933, 'grad_norm': 0.30205458402633667, 'learning_rate': 0.0004985913594392397, 'epoch': 22.51}
{'loss': 0.0918, 'grad_norm': 0.20604707300662994, 'learning_rate': 0.0004979173687403114, 'epoch': 22.52}
{'loss': 0.0899, 'grad_norm': 0.2513278126716614, 'learning_rate': 0.0004972433780413831, 'epoch': 22.52}
{'loss': 0.0939, 'grad_norm': 0.15317435562610626, 'learning_rate': 0.0004965693873424546, 'epoch': 22.52}
{'loss': 0.0953, 'grad_norm': 0.12104260176420212, 'learning_rate': 0.0004958953966435263, 'epoch': 22.53}
{'loss': 0.0831, 'grad_norm': 0.3809291422367096, 'learning_rate': 0.0004952214059445979, 'epoch': 22.53}
{'loss': 0.0902, 'grad_norm': 0.25386592745780945, 'learning_rate': 0.0004945474152456697, 'epoch': 22.53}
{'loss': 0.0795, 'grad_norm': 0.23908691108226776, 'learning_rate': 0.0004938734245467412, 'epoch': 22.54}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10972224920988083, 'eval_runtime': 114.2103, 'eval_samples_per_second': 129.918, 'eval_steps_per_second': 16.242, 'epoch': 22.54}
{'loss': 0.0832, 'grad_norm': 0.17688587307929993, 'learning_rate': 0.0004918514524499563, 'epoch': 22.55}
{'loss': 0.0811, 'grad_norm': 0.22716175019741058, 'learning_rate': 0.0004911774617510278, 'epoch': 22.55}
{'loss': 0.0881, 'grad_norm': 0.09682715684175491, 'learning_rate': 0.0004905034710520994, 'epoch': 22.56}
{'loss': 0.0874, 'grad_norm': 0.5471765398979187, 'learning_rate': 0.0004898294803531712, 'epoch': 22.56}
{'loss': 0.0868, 'grad_norm': 0.14268840849399567, 'learning_rate': 0.0004891554896542428, 'epoch': 22.56}
{'loss': 0.0928, 'grad_norm': 0.31612613797187805, 'learning_rate': 0.000488494978769293, 'epoch': 22.57}
{'loss': 0.0848, 'grad_norm': 0.5027391910552979, 'learning_rate': 0.00048782098807036465, 'epoch': 22.57}
{'loss': 0.0968, 'grad_norm': 0.18468160927295685, 'learning_rate': 0.00048714699737143624, 'epoch': 22.57}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.11022310703992844, 'eval_runtime': 114.9485, 'eval_samples_per_second': 129.084, 'eval_steps_per_second': 16.138, 'epoch': 22.58}
{'loss': 0.0907, 'grad_norm': 0.24913443624973297, 'learning_rate': 0.00048512502527465123, 'epoch': 22.58}
{'loss': 0.0852, 'grad_norm': 0.23518459498882294, 'learning_rate': 0.0004844510345757229, 'epoch': 22.59}
{'loss': 0.0937, 'grad_norm': 0.13030116260051727, 'learning_rate': 0.0004837770438767945, 'epoch': 22.59}
{'loss': 0.0888, 'grad_norm': 0.23262391984462738, 'learning_rate': 0.00048310305317786616, 'epoch': 22.59}
{'loss': 0.0952, 'grad_norm': 0.20174401998519897, 'learning_rate': 0.0004824290624789378, 'epoch': 22.6}
{'loss': 0.0961, 'grad_norm': 0.2672138214111328, 'learning_rate': 0.00048175507178000945, 'epoch': 22.6}
{'loss': 0.0918, 'grad_norm': 0.26155367493629456, 'learning_rate': 0.0004810810810810811, 'epoch': 22.6}
{'loss': 0.0938, 'grad_norm': 0.2179303616285324, 'learning_rate': 0.00048040709038215274, 'epoch': 22.61}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10879024118185043, 'eval_runtime': 113.627, 'eval_samples_per_second': 130.585, 'eval_steps_per_second': 16.325, 'epoch': 22.61}
{'loss': 0.1035, 'grad_norm': 0.1742255836725235, 'learning_rate': 0.0004783851182853677, 'epoch': 22.62}
{'loss': 0.0936, 'grad_norm': 0.32237866520881653, 'learning_rate': 0.0004777111275864393, 'epoch': 22.62}
{'loss': 0.0964, 'grad_norm': 0.3762410879135132, 'learning_rate': 0.00047703713688751096, 'epoch': 22.62}
{'loss': 0.089, 'grad_norm': 2.207871437072754, 'learning_rate': 0.0004763631461885826, 'epoch': 22.63}
{'loss': 0.0943, 'grad_norm': 0.15730082988739014, 'learning_rate': 0.00047568915548965425, 'epoch': 22.63}
{'loss': 0.0884, 'grad_norm': 0.2544022798538208, 'learning_rate': 0.0004750151647907259, 'epoch': 22.63}
{'loss': 0.095, 'grad_norm': 0.8755616545677185, 'learning_rate': 0.00047434117409179754, 'epoch': 22.64}
{'loss': 0.097, 'grad_norm': 0.17199404537677765, 'learning_rate': 0.0004736671833928692, 'epoch': 22.64}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10832522064447403, 'eval_runtime': 115.5334, 'eval_samples_per_second': 128.43, 'eval_steps_per_second': 16.056, 'epoch': 22.65}
{'loss': 0.095, 'grad_norm': 0.27429553866386414, 'learning_rate': 0.0004716452112960841, 'epoch': 22.65}
{'loss': 0.0815, 'grad_norm': 0.48425185680389404, 'learning_rate': 0.00047097122059715576, 'epoch': 22.65}
{'loss': 0.0882, 'grad_norm': 0.1773615926504135, 'learning_rate': 0.0004702972298982274, 'epoch': 22.66}
{'loss': 0.0968, 'grad_norm': 0.25168517231941223, 'learning_rate': 0.00046962323919929905, 'epoch': 22.66}
{'loss': 0.0855, 'grad_norm': 0.2251061350107193, 'learning_rate': 0.0004689492485003707, 'epoch': 22.66}
{'loss': 0.0945, 'grad_norm': 0.24011945724487305, 'learning_rate': 0.00046827525780144234, 'epoch': 22.67}
{'loss': 0.0872, 'grad_norm': 0.15246376395225525, 'learning_rate': 0.000467601267102514, 'epoch': 22.67}
{'loss': 0.0944, 'grad_norm': 0.19126692414283752, 'learning_rate': 0.00046692727640358563, 'epoch': 22.67}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10843430459499359, 'eval_runtime': 114.7879, 'eval_samples_per_second': 129.265, 'eval_steps_per_second': 16.16, 'epoch': 22.68}
{'loss': 0.0901, 'grad_norm': 0.14178457856178284, 'learning_rate': 0.00046490530430680056, 'epoch': 22.68}
{'loss': 0.0917, 'grad_norm': 0.19098132848739624, 'learning_rate': 0.0004642313136078722, 'epoch': 22.69}
{'loss': 0.091, 'grad_norm': 0.18676699697971344, 'learning_rate': 0.0004635573229089439, 'epoch': 22.69}
{'loss': 0.0889, 'grad_norm': 0.24214966595172882, 'learning_rate': 0.0004628833322100155, 'epoch': 22.69}
{'loss': 0.0838, 'grad_norm': 0.13443204760551453, 'learning_rate': 0.00046220934151108714, 'epoch': 22.7}
{'loss': 0.0845, 'grad_norm': 0.3657955527305603, 'learning_rate': 0.0004615353508121588, 'epoch': 22.7}
{'loss': 0.0885, 'grad_norm': 0.22798822820186615, 'learning_rate': 0.0004608613601132305, 'epoch': 22.7}
{'loss': 0.0887, 'grad_norm': 0.3406496047973633, 'learning_rate': 0.0004601873694143021, 'epoch': 22.71}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10873761028051376, 'eval_runtime': 114.4454, 'eval_samples_per_second': 129.651, 'eval_steps_per_second': 16.209, 'epoch': 22.71}
{'loss': 0.088, 'grad_norm': 0.24535085260868073, 'learning_rate': 0.00045816539731751706, 'epoch': 22.72}
{'loss': 0.085, 'grad_norm': 0.16647620499134064, 'learning_rate': 0.00045749140661858865, 'epoch': 22.72}
{'loss': 0.0888, 'grad_norm': 0.15582703053951263, 'learning_rate': 0.0004568174159196603, 'epoch': 22.72}
{'loss': 0.0823, 'grad_norm': 0.3120558261871338, 'learning_rate': 0.00045614342522073194, 'epoch': 22.73}
{'loss': 0.0905, 'grad_norm': 0.3563220500946045, 'learning_rate': 0.00045546943452180364, 'epoch': 22.73}
{'loss': 0.0915, 'grad_norm': 0.1872323751449585, 'learning_rate': 0.00045479544382287523, 'epoch': 22.73}
{'loss': 0.096, 'grad_norm': 0.2070731669664383, 'learning_rate': 0.0004541214531239469, 'epoch': 22.74}
{'loss': 0.0849, 'grad_norm': 0.27479514479637146, 'learning_rate': 0.0004534474624250185, 'epoch': 22.74}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1084914356470108, 'eval_runtime': 115.6736, 'eval_samples_per_second': 128.275, 'eval_steps_per_second': 16.036, 'epoch': 22.75}
{'loss': 0.0906, 'grad_norm': 0.14138273894786835, 'learning_rate': 0.00045142549032823346, 'epoch': 22.75}
{'loss': 0.0868, 'grad_norm': 0.2853981554508209, 'learning_rate': 0.00045075149962930515, 'epoch': 22.75}
{'loss': 0.0943, 'grad_norm': 0.17026358842849731, 'learning_rate': 0.0004500775089303768, 'epoch': 22.76}
{'loss': 0.0865, 'grad_norm': 0.304840624332428, 'learning_rate': 0.0004494035182314484, 'epoch': 22.76}
{'loss': 0.0885, 'grad_norm': 0.19989679753780365, 'learning_rate': 0.00044872952753252003, 'epoch': 22.76}
{'loss': 0.0946, 'grad_norm': 0.10530945658683777, 'learning_rate': 0.00044805553683359173, 'epoch': 22.77}
{'loss': 0.0913, 'grad_norm': 0.19899064302444458, 'learning_rate': 0.0004473815461346634, 'epoch': 22.77}
{'loss': 0.0825, 'grad_norm': 0.13404619693756104, 'learning_rate': 0.00044670755543573497, 'epoch': 22.7

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10871000587940216, 'eval_runtime': 115.8613, 'eval_samples_per_second': 128.067, 'eval_steps_per_second': 16.011, 'epoch': 22.78}
{'loss': 0.0977, 'grad_norm': 0.257106214761734, 'learning_rate': 0.00044468558333894995, 'epoch': 22.78}
{'loss': 0.0944, 'grad_norm': 0.20708869397640228, 'learning_rate': 0.00044401159264002154, 'epoch': 22.79}
{'loss': 0.0829, 'grad_norm': 0.1340995728969574, 'learning_rate': 0.0004433376019410932, 'epoch': 22.79}
{'loss': 0.0873, 'grad_norm': 0.19123001396656036, 'learning_rate': 0.0004426636112421649, 'epoch': 22.79}
{'loss': 0.0808, 'grad_norm': 0.20100046694278717, 'learning_rate': 0.00044198962054323653, 'epoch': 22.8}
{'loss': 0.0894, 'grad_norm': 0.19611045718193054, 'learning_rate': 0.0004413156298443081, 'epoch': 22.8}
{'loss': 0.0817, 'grad_norm': 0.35654497146606445, 'learning_rate': 0.00044064163914537977, 'epoch': 22.8}
{'loss': 0.0882, 'grad_norm': 0.2604723572731018, 'learning_rate': 0.00043996764844645147, 'epoch': 22.81}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10861320048570633, 'eval_runtime': 118.9227, 'eval_samples_per_second': 124.77, 'eval_steps_per_second': 15.598, 'epoch': 22.81}
{'loss': 0.0883, 'grad_norm': 0.20918790996074677, 'learning_rate': 0.00043794567634966635, 'epoch': 22.82}
{'loss': 0.0936, 'grad_norm': 0.11605560034513474, 'learning_rate': 0.00043727168565073804, 'epoch': 22.82}
{'loss': 0.0887, 'grad_norm': 0.1375378668308258, 'learning_rate': 0.0004365976949518097, 'epoch': 22.82}
{'loss': 0.0871, 'grad_norm': 0.2553926706314087, 'learning_rate': 0.0004359237042528813, 'epoch': 22.83}
{'loss': 0.082, 'grad_norm': 0.07371743768453598, 'learning_rate': 0.0004352497135539529, 'epoch': 22.83}
{'loss': 0.0807, 'grad_norm': 0.1638660579919815, 'learning_rate': 0.0004345757228550246, 'epoch': 22.83}
{'loss': 0.0873, 'grad_norm': 0.34251558780670166, 'learning_rate': 0.00043390173215609627, 'epoch': 22.84}
{'loss': 0.0985, 'grad_norm': 0.26266926527023315, 'learning_rate': 0.00043324122127114643, 'epoch': 22.84}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10737288743257523, 'eval_runtime': 112.8773, 'eval_samples_per_second': 131.453, 'eval_steps_per_second': 16.434, 'epoch': 22.85}
{'loss': 0.081, 'grad_norm': 0.3628472685813904, 'learning_rate': 0.0004312192491743614, 'epoch': 22.85}
{'loss': 0.0965, 'grad_norm': 0.1796242594718933, 'learning_rate': 0.000430545258475433, 'epoch': 22.86}
{'loss': 0.0819, 'grad_norm': 0.17454807460308075, 'learning_rate': 0.00042987126777650466, 'epoch': 22.86}
{'loss': 0.0873, 'grad_norm': 0.37932848930358887, 'learning_rate': 0.00042919727707757635, 'epoch': 22.86}
{'loss': 0.0932, 'grad_norm': 0.2526133954524994, 'learning_rate': 0.000428523286378648, 'epoch': 22.87}
{'loss': 0.0875, 'grad_norm': 0.21013621985912323, 'learning_rate': 0.0004278492956797196, 'epoch': 22.87}
{'loss': 0.0946, 'grad_norm': 0.17330306768417358, 'learning_rate': 0.00042717530498079123, 'epoch': 22.87}
{'loss': 0.0911, 'grad_norm': 0.10857120156288147, 'learning_rate': 0.00042650131428186293, 'epoch': 22.88}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10770121961832047, 'eval_runtime': 116.7283, 'eval_samples_per_second': 127.116, 'eval_steps_per_second': 15.892, 'epoch': 22.88}
{'loss': 0.094, 'grad_norm': 0.11671475321054459, 'learning_rate': 0.00042447934218507787, 'epoch': 22.89}
{'loss': 0.0885, 'grad_norm': 0.23543496429920197, 'learning_rate': 0.0004238053514861495, 'epoch': 22.89}
{'loss': 0.0884, 'grad_norm': 0.19650371372699738, 'learning_rate': 0.00042313136078722116, 'epoch': 22.89}
{'loss': 0.0876, 'grad_norm': 0.15134640038013458, 'learning_rate': 0.00042245737008829275, 'epoch': 22.9}
{'loss': 0.0894, 'grad_norm': 0.16520069539546967, 'learning_rate': 0.00042178337938936444, 'epoch': 22.9}
{'loss': 0.0839, 'grad_norm': 0.30933335423469543, 'learning_rate': 0.0004211093886904361, 'epoch': 22.9}
{'loss': 0.0923, 'grad_norm': 0.15525037050247192, 'learning_rate': 0.00042043539799150773, 'epoch': 22.91}
{'loss': 0.0865, 'grad_norm': 0.13903413712978363, 'learning_rate': 0.0004197614072925793, 'epoch': 22.9

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10736463218927383, 'eval_runtime': 113.5684, 'eval_samples_per_second': 130.653, 'eval_steps_per_second': 16.334, 'epoch': 22.92}
{'loss': 0.0925, 'grad_norm': 0.247928649187088, 'learning_rate': 0.0004177394351957943, 'epoch': 22.92}
{'loss': 0.0879, 'grad_norm': 0.32188817858695984, 'learning_rate': 0.0004170654444968659, 'epoch': 22.92}
{'loss': 0.0905, 'grad_norm': 0.3094976842403412, 'learning_rate': 0.0004163914537979376, 'epoch': 22.93}
{'loss': 0.0835, 'grad_norm': 0.18814924359321594, 'learning_rate': 0.00041571746309900924, 'epoch': 22.93}
{'loss': 0.091, 'grad_norm': 0.15835243463516235, 'learning_rate': 0.0004150434724000809, 'epoch': 22.93}
{'loss': 0.0836, 'grad_norm': 0.23439139127731323, 'learning_rate': 0.0004143694817011525, 'epoch': 22.94}
{'loss': 0.0988, 'grad_norm': 0.28979605436325073, 'learning_rate': 0.0004136954910022242, 'epoch': 22.94}
{'loss': 0.0866, 'grad_norm': 0.19973540306091309, 'learning_rate': 0.0004130215003032958, 'epoch': 22.94}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10766240209341049, 'eval_runtime': 114.5487, 'eval_samples_per_second': 129.534, 'eval_steps_per_second': 16.194, 'epoch': 22.95}
{'loss': 0.0914, 'grad_norm': 0.1517769992351532, 'learning_rate': 0.00041099952820651076, 'epoch': 22.95}
{'loss': 0.0869, 'grad_norm': 0.10379289835691452, 'learning_rate': 0.0004103255375075824, 'epoch': 22.96}
{'loss': 0.0926, 'grad_norm': 0.14733850955963135, 'learning_rate': 0.00040965154680865405, 'epoch': 22.96}
{'loss': 0.0834, 'grad_norm': 0.19528943300247192, 'learning_rate': 0.00040897755610972564, 'epoch': 22.96}
{'loss': 0.0833, 'grad_norm': 0.1621474325656891, 'learning_rate': 0.00040830356541079733, 'epoch': 22.97}
{'loss': 0.0894, 'grad_norm': 0.1397787183523178, 'learning_rate': 0.000407629574711869, 'epoch': 22.97}
{'loss': 0.0837, 'grad_norm': 0.6398265957832336, 'learning_rate': 0.0004069555840129406, 'epoch': 22.97}
{'loss': 0.0829, 'grad_norm': 0.08396992087364197, 'learning_rate': 0.0004062950731279908, 'epoch': 22.98}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10655076801776886, 'eval_runtime': 114.5783, 'eval_samples_per_second': 129.501, 'eval_steps_per_second': 16.19, 'epoch': 22.98}
{'loss': 0.0906, 'grad_norm': 0.3356580138206482, 'learning_rate': 0.0004042731010312058, 'epoch': 22.99}
{'loss': 0.0772, 'grad_norm': 0.13949160277843475, 'learning_rate': 0.00040359911033227737, 'epoch': 22.99}
{'loss': 0.0828, 'grad_norm': 0.12971815466880798, 'learning_rate': 0.00040292511963334907, 'epoch': 22.99}
{'loss': 0.0884, 'grad_norm': 0.13609197735786438, 'learning_rate': 0.0004022511289344207, 'epoch': 23.0}
{'loss': 0.1024, 'grad_norm': 0.22543323040008545, 'learning_rate': 0.00040157713823549236, 'epoch': 23.0}
{'loss': 0.0768, 'grad_norm': 0.279988557100296, 'learning_rate': 0.00040090314753656395, 'epoch': 23.0}
{'loss': 0.0727, 'grad_norm': 0.17568761110305786, 'learning_rate': 0.00040022915683763564, 'epoch': 23.01}
{'loss': 0.0799, 'grad_norm': 0.19442473351955414, 'learning_rate': 0.0003995551661387073, 'epoch': 23.01}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10727784037590027, 'eval_runtime': 114.7692, 'eval_samples_per_second': 129.286, 'eval_steps_per_second': 16.163, 'epoch': 23.02}
{'loss': 0.071, 'grad_norm': 0.17561009526252747, 'learning_rate': 0.0003975331940419222, 'epoch': 23.02}
{'loss': 0.0776, 'grad_norm': 0.2625569701194763, 'learning_rate': 0.00039685920334299387, 'epoch': 23.02}
{'loss': 0.083, 'grad_norm': 0.35754331946372986, 'learning_rate': 0.0003961852126440655, 'epoch': 23.03}
{'loss': 0.0773, 'grad_norm': 0.12482598423957825, 'learning_rate': 0.0003955112219451372, 'epoch': 23.03}
{'loss': 0.0803, 'grad_norm': 0.2102137953042984, 'learning_rate': 0.0003948372312462088, 'epoch': 23.03}
{'loss': 0.0807, 'grad_norm': 0.23745502531528473, 'learning_rate': 0.00039416324054728045, 'epoch': 23.04}
{'loss': 0.0774, 'grad_norm': 0.23973852396011353, 'learning_rate': 0.0003934892498483521, 'epoch': 23.04}
{'loss': 0.0744, 'grad_norm': 0.11755844205617905, 'learning_rate': 0.0003928152591494238, 'epoch': 23.04}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10744713246822357, 'eval_runtime': 114.7926, 'eval_samples_per_second': 129.259, 'eval_steps_per_second': 16.16, 'epoch': 23.05}
{'loss': 0.079, 'grad_norm': 0.12480009347200394, 'learning_rate': 0.00039079328705263867, 'epoch': 23.05}
{'loss': 0.0698, 'grad_norm': 0.20991823077201843, 'learning_rate': 0.00039011929635371037, 'epoch': 23.06}
{'loss': 0.072, 'grad_norm': 0.26355987787246704, 'learning_rate': 0.00038944530565478196, 'epoch': 23.06}
{'loss': 0.0855, 'grad_norm': 0.2781948745250702, 'learning_rate': 0.0003887713149558536, 'epoch': 23.06}
{'loss': 0.0718, 'grad_norm': 0.13342851400375366, 'learning_rate': 0.00038809732425692525, 'epoch': 23.07}
{'loss': 0.083, 'grad_norm': 0.2926868200302124, 'learning_rate': 0.00038742333355799695, 'epoch': 23.07}
{'loss': 0.0784, 'grad_norm': 0.17903511226177216, 'learning_rate': 0.00038674934285906854, 'epoch': 23.07}
{'loss': 0.0785, 'grad_norm': 0.236882284283638, 'learning_rate': 0.0003860753521601402, 'epoch': 23.08}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10775753110647202, 'eval_runtime': 114.4817, 'eval_samples_per_second': 129.61, 'eval_steps_per_second': 16.203, 'epoch': 23.08}
{'loss': 0.0736, 'grad_norm': 0.15154099464416504, 'learning_rate': 0.0003840533800633551, 'epoch': 23.09}
{'loss': 0.0777, 'grad_norm': 0.12782205641269684, 'learning_rate': 0.00038337938936442676, 'epoch': 23.09}
{'loss': 0.0718, 'grad_norm': 0.165190190076828, 'learning_rate': 0.00038270539866549846, 'epoch': 23.09}
{'loss': 0.0749, 'grad_norm': 0.16721349954605103, 'learning_rate': 0.0003820314079665701, 'epoch': 23.1}
{'loss': 0.0791, 'grad_norm': 0.15287798643112183, 'learning_rate': 0.0003813574172676417, 'epoch': 23.1}
{'loss': 0.0772, 'grad_norm': 0.20334455370903015, 'learning_rate': 0.00038068342656871334, 'epoch': 23.1}
{'loss': 0.0786, 'grad_norm': 0.1702386438846588, 'learning_rate': 0.00038000943586978503, 'epoch': 23.11}
{'loss': 0.0854, 'grad_norm': 0.1183563694357872, 'learning_rate': 0.0003793354451708567, 'epoch': 23.11}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10693184286355972, 'eval_runtime': 115.5661, 'eval_samples_per_second': 128.394, 'eval_steps_per_second': 16.051, 'epoch': 23.12}
{'loss': 0.0703, 'grad_norm': 0.23393528163433075, 'learning_rate': 0.0003773134730740716, 'epoch': 23.12}
{'loss': 0.0701, 'grad_norm': 0.13438200950622559, 'learning_rate': 0.00037663948237514326, 'epoch': 23.12}
{'loss': 0.0764, 'grad_norm': 0.1134929358959198, 'learning_rate': 0.00037596549167621485, 'epoch': 23.13}
{'loss': 0.0803, 'grad_norm': 0.10477932542562485, 'learning_rate': 0.0003752915009772865, 'epoch': 23.13}
{'loss': 0.0772, 'grad_norm': 0.1652885228395462, 'learning_rate': 0.0003746175102783582, 'epoch': 23.13}
{'loss': 0.0724, 'grad_norm': 0.17917637526988983, 'learning_rate': 0.00037394351957942984, 'epoch': 23.14}
{'loss': 0.0853, 'grad_norm': 0.3856094181537628, 'learning_rate': 0.0003732695288805014, 'epoch': 23.14}
{'loss': 0.0798, 'grad_norm': 0.12378149479627609, 'learning_rate': 0.00037259553818157307, 'epoch': 23.1

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10752779245376587, 'eval_runtime': 115.5009, 'eval_samples_per_second': 128.467, 'eval_steps_per_second': 16.06, 'epoch': 23.15}
{'loss': 0.0732, 'grad_norm': 0.11791045218706131, 'learning_rate': 0.000370573566084788, 'epoch': 23.15}
{'loss': 0.0737, 'grad_norm': 0.08075764030218124, 'learning_rate': 0.00036989957538585965, 'epoch': 23.16}
{'loss': 0.0893, 'grad_norm': 0.15893346071243286, 'learning_rate': 0.00036922558468693135, 'epoch': 23.16}
{'loss': 0.0864, 'grad_norm': 0.13306103646755219, 'learning_rate': 0.000368551593988003, 'epoch': 23.17}
{'loss': 0.0748, 'grad_norm': 0.17372044920921326, 'learning_rate': 0.0003678776032890746, 'epoch': 23.17}
{'loss': 0.0794, 'grad_norm': 0.21546250581741333, 'learning_rate': 0.0003672036125901462, 'epoch': 23.17}
{'loss': 0.077, 'grad_norm': 0.11016833782196045, 'learning_rate': 0.0003665296218912179, 'epoch': 23.18}
{'loss': 0.0838, 'grad_norm': 0.09431932121515274, 'learning_rate': 0.00036585563119228957, 'epoch': 23.18}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10689540952444077, 'eval_runtime': 113.8984, 'eval_samples_per_second': 130.274, 'eval_steps_per_second': 16.286, 'epoch': 23.19}
{'loss': 0.0762, 'grad_norm': 0.14222213625907898, 'learning_rate': 0.0003638336590955045, 'epoch': 23.19}
{'loss': 0.0878, 'grad_norm': 0.25627028942108154, 'learning_rate': 0.00036315966839657615, 'epoch': 23.19}
{'loss': 0.0837, 'grad_norm': 0.28459644317626953, 'learning_rate': 0.00036248567769764774, 'epoch': 23.2}
{'loss': 0.0831, 'grad_norm': 0.2718462646007538, 'learning_rate': 0.00036181168699871944, 'epoch': 23.2}
{'loss': 0.0705, 'grad_norm': 0.1320836842060089, 'learning_rate': 0.0003611376962997911, 'epoch': 23.2}
{'loss': 0.0814, 'grad_norm': 0.31880247592926025, 'learning_rate': 0.0003604637056008627, 'epoch': 23.21}
{'loss': 0.0804, 'grad_norm': 0.2816691994667053, 'learning_rate': 0.0003597897149019343, 'epoch': 23.21}
{'loss': 0.0787, 'grad_norm': 0.17339393496513367, 'learning_rate': 0.000359115724203006, 'epoch': 23.21}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10654991865158081, 'eval_runtime': 114.5801, 'eval_samples_per_second': 129.499, 'eval_steps_per_second': 16.19, 'epoch': 23.22}
{'loss': 0.0769, 'grad_norm': 0.13693909347057343, 'learning_rate': 0.0003570937521062209, 'epoch': 23.22}
{'loss': 0.0743, 'grad_norm': 0.09836044162511826, 'learning_rate': 0.0003564197614072926, 'epoch': 23.23}
{'loss': 0.0794, 'grad_norm': 0.1757238805294037, 'learning_rate': 0.00035574577070836424, 'epoch': 23.23}
{'loss': 0.0761, 'grad_norm': 0.1364113986492157, 'learning_rate': 0.0003550717800094359, 'epoch': 23.23}
{'loss': 0.0756, 'grad_norm': 0.16569483280181885, 'learning_rate': 0.00035439778931050747, 'epoch': 23.24}
{'loss': 0.0741, 'grad_norm': 0.23180420696735382, 'learning_rate': 0.00035372379861157917, 'epoch': 23.24}
{'loss': 0.0804, 'grad_norm': 0.15422193706035614, 'learning_rate': 0.0003530498079126508, 'epoch': 23.24}
{'loss': 0.0761, 'grad_norm': 0.32862022519111633, 'learning_rate': 0.00035237581721372246, 'epoch': 23.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10613866150379181, 'eval_runtime': 112.9791, 'eval_samples_per_second': 131.334, 'eval_steps_per_second': 16.419, 'epoch': 23.25}
{'loss': 0.0777, 'grad_norm': 0.15337909758090973, 'learning_rate': 0.0003503538451169374, 'epoch': 23.26}
{'loss': 0.0766, 'grad_norm': 0.20358219742774963, 'learning_rate': 0.00034967985441800904, 'epoch': 23.26}
{'loss': 0.0797, 'grad_norm': 0.12946121394634247, 'learning_rate': 0.00034900586371908074, 'epoch': 23.26}
{'loss': 0.0718, 'grad_norm': 0.22436633706092834, 'learning_rate': 0.00034833187302015233, 'epoch': 23.27}
{'loss': 0.082, 'grad_norm': 0.19674566388130188, 'learning_rate': 0.00034765788232122397, 'epoch': 23.27}
{'loss': 0.0838, 'grad_norm': 0.43482306599617004, 'learning_rate': 0.0003469838916222956, 'epoch': 23.27}
{'loss': 0.0758, 'grad_norm': 0.17162734270095825, 'learning_rate': 0.0003463099009233673, 'epoch': 23.28}
{'loss': 0.0782, 'grad_norm': 0.15004825592041016, 'learning_rate': 0.0003456359102244389, 'epoch': 23

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10638631135225296, 'eval_runtime': 115.4751, 'eval_samples_per_second': 128.495, 'eval_steps_per_second': 16.064, 'epoch': 23.29}
{'loss': 0.0741, 'grad_norm': 0.23539264500141144, 'learning_rate': 0.0003436139381276539, 'epoch': 23.29}
{'loss': 0.0822, 'grad_norm': 0.16212789714336395, 'learning_rate': 0.0003429399474287255, 'epoch': 23.29}
{'loss': 0.081, 'grad_norm': 0.17057131230831146, 'learning_rate': 0.00034226595672979713, 'epoch': 23.3}
{'loss': 0.0728, 'grad_norm': 0.10749121010303497, 'learning_rate': 0.00034160544584484735, 'epoch': 23.3}
{'loss': 0.0824, 'grad_norm': 0.1549326479434967, 'learning_rate': 0.00034093145514591894, 'epoch': 23.3}
{'loss': 0.0747, 'grad_norm': 0.14685943722724915, 'learning_rate': 0.00034025746444699064, 'epoch': 23.31}
{'loss': 0.0753, 'grad_norm': 0.1670037806034088, 'learning_rate': 0.0003395834737480623, 'epoch': 23.31}
{'loss': 0.079, 'grad_norm': 0.17691224813461304, 'learning_rate': 0.0003389094830491339, 'epoch': 23.31}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10565710067749023, 'eval_runtime': 113.7663, 'eval_samples_per_second': 130.425, 'eval_steps_per_second': 16.305, 'epoch': 23.32}
{'loss': 0.078, 'grad_norm': 0.2294507920742035, 'learning_rate': 0.00033688751095234886, 'epoch': 23.32}
{'loss': 0.0805, 'grad_norm': 0.17640256881713867, 'learning_rate': 0.0003362135202534205, 'epoch': 23.33}
{'loss': 0.0774, 'grad_norm': 0.18929046392440796, 'learning_rate': 0.0003355395295544922, 'epoch': 23.33}
{'loss': 0.0748, 'grad_norm': 0.2573564648628235, 'learning_rate': 0.0003348655388555638, 'epoch': 23.33}
{'loss': 0.0789, 'grad_norm': 0.17657019197940826, 'learning_rate': 0.00033419154815663544, 'epoch': 23.34}
{'loss': 0.0717, 'grad_norm': 0.1571972519159317, 'learning_rate': 0.0003335175574577071, 'epoch': 23.34}
{'loss': 0.0779, 'grad_norm': 0.1664719581604004, 'learning_rate': 0.0003328435667587788, 'epoch': 23.34}
{'loss': 0.081, 'grad_norm': 0.35692569613456726, 'learning_rate': 0.00033216957605985037, 'epoch': 23.35}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1062319204211235, 'eval_runtime': 115.8422, 'eval_samples_per_second': 128.088, 'eval_steps_per_second': 16.013, 'epoch': 23.35}
{'loss': 0.0796, 'grad_norm': 0.18321950733661652, 'learning_rate': 0.00033014760396306536, 'epoch': 23.36}
{'loss': 0.075, 'grad_norm': 0.1452350914478302, 'learning_rate': 0.00032947361326413695, 'epoch': 23.36}
{'loss': 0.0813, 'grad_norm': 0.4145810604095459, 'learning_rate': 0.0003287996225652086, 'epoch': 23.36}
{'loss': 0.0812, 'grad_norm': 0.10301722586154938, 'learning_rate': 0.00032812563186628024, 'epoch': 23.37}
{'loss': 0.0781, 'grad_norm': 0.18944837152957916, 'learning_rate': 0.00032745164116735194, 'epoch': 23.37}
{'loss': 0.0867, 'grad_norm': 0.15611520409584045, 'learning_rate': 0.00032677765046842353, 'epoch': 23.37}
{'loss': 0.0752, 'grad_norm': 0.18966205418109894, 'learning_rate': 0.00032610365976949517, 'epoch': 23.38}
{'loss': 0.0755, 'grad_norm': 0.1376737654209137, 'learning_rate': 0.0003254296690705668, 'epoch': 23.3

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10608556121587753, 'eval_runtime': 114.8761, 'eval_samples_per_second': 129.165, 'eval_steps_per_second': 16.148, 'epoch': 23.39}
{'loss': 0.0725, 'grad_norm': 0.20823121070861816, 'learning_rate': 0.00032340769697378175, 'epoch': 23.39}
{'loss': 0.0814, 'grad_norm': 0.14052419364452362, 'learning_rate': 0.00032273370627485345, 'epoch': 23.39}
{'loss': 0.0816, 'grad_norm': 0.23934870958328247, 'learning_rate': 0.0003220597155759251, 'epoch': 23.4}
{'loss': 0.0785, 'grad_norm': 0.15891391038894653, 'learning_rate': 0.0003213857248769967, 'epoch': 23.4}
{'loss': 0.0777, 'grad_norm': 0.13946226239204407, 'learning_rate': 0.00032071173417806833, 'epoch': 23.4}
{'loss': 0.072, 'grad_norm': 0.18738365173339844, 'learning_rate': 0.00032003774347914003, 'epoch': 23.41}
{'loss': 0.0802, 'grad_norm': 0.1654881238937378, 'learning_rate': 0.00031936375278021167, 'epoch': 23.41}
{'loss': 0.0827, 'grad_norm': 0.28311312198638916, 'learning_rate': 0.00031868976208128326, 'epoch': 23.4

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10562731325626373, 'eval_runtime': 115.053, 'eval_samples_per_second': 128.967, 'eval_steps_per_second': 16.123, 'epoch': 23.42}
{'loss': 0.0766, 'grad_norm': 0.17667992413043976, 'learning_rate': 0.00031666778998449825, 'epoch': 23.42}
{'loss': 0.0735, 'grad_norm': 0.15221820771694183, 'learning_rate': 0.00031599379928556984, 'epoch': 23.43}
{'loss': 0.0787, 'grad_norm': 0.2757130563259125, 'learning_rate': 0.0003153198085866415, 'epoch': 23.43}
{'loss': 0.0874, 'grad_norm': 0.3438750207424164, 'learning_rate': 0.0003146458178877132, 'epoch': 23.43}
{'loss': 0.0829, 'grad_norm': 0.22466659545898438, 'learning_rate': 0.00031397182718878483, 'epoch': 23.44}
{'loss': 0.0758, 'grad_norm': 0.25654706358909607, 'learning_rate': 0.0003132978364898564, 'epoch': 23.44}
{'loss': 0.0799, 'grad_norm': 0.20462578535079956, 'learning_rate': 0.00031262384579092806, 'epoch': 23.44}
{'loss': 0.0856, 'grad_norm': 0.21543781459331512, 'learning_rate': 0.0003119498550919997, 'epoch': 23.4

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10579847544431686, 'eval_runtime': 114.323, 'eval_samples_per_second': 129.79, 'eval_steps_per_second': 16.226, 'epoch': 23.45}
{'loss': 0.0764, 'grad_norm': 0.14398017525672913, 'learning_rate': 0.0003099278829952147, 'epoch': 23.46}
{'loss': 0.0792, 'grad_norm': 0.18728581070899963, 'learning_rate': 0.0003092538922962863, 'epoch': 23.46}
{'loss': 0.0779, 'grad_norm': 0.3535238206386566, 'learning_rate': 0.000308579901597358, 'epoch': 23.46}
{'loss': 0.0745, 'grad_norm': 0.13789556920528412, 'learning_rate': 0.0003079059108984296, 'epoch': 23.47}
{'loss': 0.0874, 'grad_norm': 0.2453508973121643, 'learning_rate': 0.0003072319201995013, 'epoch': 23.47}
{'loss': 0.0805, 'grad_norm': 0.15153148770332336, 'learning_rate': 0.0003065579295005729, 'epoch': 23.48}
{'loss': 0.0743, 'grad_norm': 0.22401383519172668, 'learning_rate': 0.00030588393880164456, 'epoch': 23.48}
{'loss': 0.0791, 'grad_norm': 0.191707581281662, 'learning_rate': 0.0003052099481027162, 'epoch': 23.48}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10564713180065155, 'eval_runtime': 114.6193, 'eval_samples_per_second': 129.455, 'eval_steps_per_second': 16.184, 'epoch': 23.49}
{'loss': 0.0779, 'grad_norm': 0.1354331225156784, 'learning_rate': 0.00030318797600593114, 'epoch': 23.49}
{'loss': 0.0742, 'grad_norm': 0.15105444192886353, 'learning_rate': 0.0003025139853070028, 'epoch': 23.5}
{'loss': 0.0815, 'grad_norm': 0.20196448266506195, 'learning_rate': 0.00030183999460807443, 'epoch': 23.5}
{'loss': 0.0798, 'grad_norm': 0.1464524269104004, 'learning_rate': 0.0003011660039091461, 'epoch': 23.5}
{'loss': 0.0803, 'grad_norm': 0.1180809885263443, 'learning_rate': 0.0003004920132102177, 'epoch': 23.51}
{'loss': 0.0754, 'grad_norm': 0.08317885547876358, 'learning_rate': 0.00029981802251128936, 'epoch': 23.51}
{'loss': 0.0692, 'grad_norm': 0.09381198137998581, 'learning_rate': 0.000299144031812361, 'epoch': 23.51}
{'loss': 0.0847, 'grad_norm': 0.13883191347122192, 'learning_rate': 0.00029847004111343265, 'epoch': 23.52}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1055125817656517, 'eval_runtime': 114.7181, 'eval_samples_per_second': 129.343, 'eval_steps_per_second': 16.17, 'epoch': 23.52}
{'loss': 0.0783, 'grad_norm': 0.15313060581684113, 'learning_rate': 0.0002964480690166476, 'epoch': 23.53}
{'loss': 0.0731, 'grad_norm': 0.15560702979564667, 'learning_rate': 0.00029577407831771923, 'epoch': 23.53}
{'loss': 0.0744, 'grad_norm': 0.1204834133386612, 'learning_rate': 0.0002951000876187909, 'epoch': 23.53}
{'loss': 0.0735, 'grad_norm': 0.08256572484970093, 'learning_rate': 0.0002944260969198625, 'epoch': 23.54}
{'loss': 0.0789, 'grad_norm': 0.1478583663702011, 'learning_rate': 0.00029375210622093416, 'epoch': 23.54}
{'loss': 0.0841, 'grad_norm': 0.1674409806728363, 'learning_rate': 0.0002930781155220058, 'epoch': 23.54}
{'loss': 0.0775, 'grad_norm': 0.12868624925613403, 'learning_rate': 0.00029240412482307745, 'epoch': 23.55}
{'loss': 0.0785, 'grad_norm': 0.226303830742836, 'learning_rate': 0.0002917301341241491, 'epoch': 23.55}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10543625056743622, 'eval_runtime': 114.6183, 'eval_samples_per_second': 129.456, 'eval_steps_per_second': 16.184, 'epoch': 23.56}
{'loss': 0.0774, 'grad_norm': 0.14755398035049438, 'learning_rate': 0.00028970816202736403, 'epoch': 23.56}
{'loss': 0.0786, 'grad_norm': 0.20179951190948486, 'learning_rate': 0.0002890341713284357, 'epoch': 23.56}
{'loss': 0.0724, 'grad_norm': 0.1721339076757431, 'learning_rate': 0.0002883601806295073, 'epoch': 23.57}
{'loss': 0.0826, 'grad_norm': 0.14607040584087372, 'learning_rate': 0.00028768618993057896, 'epoch': 23.57}
{'loss': 0.0855, 'grad_norm': 0.21479883790016174, 'learning_rate': 0.0002870121992316506, 'epoch': 23.57}
{'loss': 0.0784, 'grad_norm': 0.12460722774267197, 'learning_rate': 0.00028633820853272225, 'epoch': 23.58}
{'loss': 0.0767, 'grad_norm': 0.30913934111595154, 'learning_rate': 0.0002856776976477725, 'epoch': 23.58}
{'loss': 0.0766, 'grad_norm': 0.2323443591594696, 'learning_rate': 0.0002850037069488441, 'epoch': 23.5

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10478043556213379, 'eval_runtime': 115.1568, 'eval_samples_per_second': 128.85, 'eval_steps_per_second': 16.108, 'epoch': 23.59}
{'loss': 0.0808, 'grad_norm': 0.2466917634010315, 'learning_rate': 0.00028298173485205905, 'epoch': 23.59}
{'loss': 0.0798, 'grad_norm': 0.24831382930278778, 'learning_rate': 0.0002823077441531307, 'epoch': 23.6}
{'loss': 0.0768, 'grad_norm': 0.2320926934480667, 'learning_rate': 0.00028163375345420234, 'epoch': 23.6}
{'loss': 0.0765, 'grad_norm': 0.15609605610370636, 'learning_rate': 0.000280959762755274, 'epoch': 23.6}
{'loss': 0.0745, 'grad_norm': 0.13982927799224854, 'learning_rate': 0.00028028577205634563, 'epoch': 23.61}
{'loss': 0.0795, 'grad_norm': 0.16259407997131348, 'learning_rate': 0.0002796117813574173, 'epoch': 23.61}
{'loss': 0.0815, 'grad_norm': 0.20800448954105377, 'learning_rate': 0.0002789377906584889, 'epoch': 23.61}
{'loss': 0.0756, 'grad_norm': 0.07477889955043793, 'learning_rate': 0.00027826379995956056, 'epoch': 23.62}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10499357432126999, 'eval_runtime': 114.2004, 'eval_samples_per_second': 129.929, 'eval_steps_per_second': 16.243, 'epoch': 23.62}
{'loss': 0.0768, 'grad_norm': 0.21436765789985657, 'learning_rate': 0.0002762418278627755, 'epoch': 23.63}
{'loss': 0.0754, 'grad_norm': 0.23080171644687653, 'learning_rate': 0.00027556783716384714, 'epoch': 23.63}
{'loss': 0.074, 'grad_norm': 0.14699359238147736, 'learning_rate': 0.0002748938464649188, 'epoch': 23.63}
{'loss': 0.0801, 'grad_norm': 0.17592298984527588, 'learning_rate': 0.000274233335579969, 'epoch': 23.64}
{'loss': 0.0805, 'grad_norm': 0.18721133470535278, 'learning_rate': 0.00027355934488104065, 'epoch': 23.64}
{'loss': 0.0774, 'grad_norm': 0.1550886183977127, 'learning_rate': 0.0002728853541821123, 'epoch': 23.64}
{'loss': 0.0772, 'grad_norm': 0.228648841381073, 'learning_rate': 0.00027221136348318394, 'epoch': 23.65}
{'loss': 0.0837, 'grad_norm': 0.15826542675495148, 'learning_rate': 0.0002715373727842556, 'epoch': 23.65}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10446266829967499, 'eval_runtime': 115.4131, 'eval_samples_per_second': 128.564, 'eval_steps_per_second': 16.073, 'epoch': 23.66}
{'loss': 0.0752, 'grad_norm': 0.26798900961875916, 'learning_rate': 0.0002695154006874705, 'epoch': 23.66}
{'loss': 0.0856, 'grad_norm': 0.18140971660614014, 'learning_rate': 0.00026884140998854216, 'epoch': 23.66}
{'loss': 0.0768, 'grad_norm': 0.1271597146987915, 'learning_rate': 0.0002681674192896138, 'epoch': 23.67}
{'loss': 0.0709, 'grad_norm': 0.11287107318639755, 'learning_rate': 0.00026749342859068545, 'epoch': 23.67}
{'loss': 0.0788, 'grad_norm': 0.23784087598323822, 'learning_rate': 0.0002668194378917571, 'epoch': 23.67}
{'loss': 0.0693, 'grad_norm': 0.12821464240550995, 'learning_rate': 0.00026614544719282874, 'epoch': 23.68}
{'loss': 0.0671, 'grad_norm': 0.19458474218845367, 'learning_rate': 0.0002654714564939004, 'epoch': 23.68}
{'loss': 0.0738, 'grad_norm': 0.3404933512210846, 'learning_rate': 0.00026479746579497203, 'epoch': 23.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10468532890081406, 'eval_runtime': 115.4165, 'eval_samples_per_second': 128.56, 'eval_steps_per_second': 16.072, 'epoch': 23.69}
{'loss': 0.0778, 'grad_norm': 0.25115591287612915, 'learning_rate': 0.00026277549369818696, 'epoch': 23.69}
{'loss': 0.0783, 'grad_norm': 0.13987183570861816, 'learning_rate': 0.0002621015029992586, 'epoch': 23.7}
{'loss': 0.0673, 'grad_norm': 0.14439037442207336, 'learning_rate': 0.00026142751230033025, 'epoch': 23.7}
{'loss': 0.0761, 'grad_norm': 0.21400022506713867, 'learning_rate': 0.0002607535216014019, 'epoch': 23.7}
{'loss': 0.0796, 'grad_norm': 0.13233831524848938, 'learning_rate': 0.00026007953090247354, 'epoch': 23.71}
{'loss': 0.0756, 'grad_norm': 0.17981888353824615, 'learning_rate': 0.0002594055402035452, 'epoch': 23.71}
{'loss': 0.0811, 'grad_norm': 0.11598040163516998, 'learning_rate': 0.00025873154950461683, 'epoch': 23.71}
{'loss': 0.0745, 'grad_norm': 0.17557930946350098, 'learning_rate': 0.0002580575588056885, 'epoch': 23.72

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1039753258228302, 'eval_runtime': 114.2127, 'eval_samples_per_second': 129.916, 'eval_steps_per_second': 16.242, 'epoch': 23.72}
{'loss': 0.0798, 'grad_norm': 0.13377588987350464, 'learning_rate': 0.0002560355867089034, 'epoch': 23.73}
{'loss': 0.0764, 'grad_norm': 0.08588036894798279, 'learning_rate': 0.0002553615960099751, 'epoch': 23.73}
{'loss': 0.0744, 'grad_norm': 0.20549996197223663, 'learning_rate': 0.0002546876053110467, 'epoch': 23.73}
{'loss': 0.0722, 'grad_norm': 0.18741285800933838, 'learning_rate': 0.0002540136146121184, 'epoch': 23.74}
{'loss': 0.0814, 'grad_norm': 0.19453351199626923, 'learning_rate': 0.00025333962391319, 'epoch': 23.74}
{'loss': 0.069, 'grad_norm': 0.1664222925901413, 'learning_rate': 0.0002526656332142617, 'epoch': 23.74}
{'loss': 0.0783, 'grad_norm': 0.16460563242435455, 'learning_rate': 0.0002519916425153333, 'epoch': 23.75}
{'loss': 0.0778, 'grad_norm': 0.26806798577308655, 'learning_rate': 0.000251317651816405, 'epoch': 23.75}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10377392917871475, 'eval_runtime': 115.5759, 'eval_samples_per_second': 128.383, 'eval_steps_per_second': 16.05, 'epoch': 23.76}
{'loss': 0.0713, 'grad_norm': 0.15876224637031555, 'learning_rate': 0.00024929567971961985, 'epoch': 23.76}
{'loss': 0.0748, 'grad_norm': 0.28335627913475037, 'learning_rate': 0.00024862168902069155, 'epoch': 23.76}
{'loss': 0.0745, 'grad_norm': 0.3031444847583771, 'learning_rate': 0.00024794769832176314, 'epoch': 23.77}
{'loss': 0.0741, 'grad_norm': 0.2765166759490967, 'learning_rate': 0.00024727370762283484, 'epoch': 23.77}
{'loss': 0.0791, 'grad_norm': 0.1941620260477066, 'learning_rate': 0.00024659971692390643, 'epoch': 23.78}
{'loss': 0.0759, 'grad_norm': 0.21739153563976288, 'learning_rate': 0.00024592572622497813, 'epoch': 23.78}
{'loss': 0.0771, 'grad_norm': 0.24254904687404633, 'learning_rate': 0.0002452517355260497, 'epoch': 23.78}
{'loss': 0.0738, 'grad_norm': 0.19182799756526947, 'learning_rate': 0.0002445777448271214, 'epoch': 23.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10383142530918121, 'eval_runtime': 115.7159, 'eval_samples_per_second': 128.228, 'eval_steps_per_second': 16.031, 'epoch': 23.79}
{'loss': 0.08, 'grad_norm': 0.2334878295660019, 'learning_rate': 0.00024255577273033633, 'epoch': 23.8}
{'loss': 0.0749, 'grad_norm': 0.2188096046447754, 'learning_rate': 0.00024188178203140797, 'epoch': 23.8}
{'loss': 0.0763, 'grad_norm': 0.11507835239171982, 'learning_rate': 0.0002412212711464582, 'epoch': 23.8}
{'loss': 0.0771, 'grad_norm': 0.3968583047389984, 'learning_rate': 0.00024054728044752984, 'epoch': 23.81}
{'loss': 0.0762, 'grad_norm': 0.14461612701416016, 'learning_rate': 0.00023987328974860148, 'epoch': 23.81}
{'loss': 0.079, 'grad_norm': 0.17876030504703522, 'learning_rate': 0.00023919929904967312, 'epoch': 23.81}
{'loss': 0.0692, 'grad_norm': 0.07692383974790573, 'learning_rate': 0.00023852530835074477, 'epoch': 23.82}
{'loss': 0.0781, 'grad_norm': 0.1991884410381317, 'learning_rate': 0.00023785131765181641, 'epoch': 23.82}
{

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10368091613054276, 'eval_runtime': 116.1325, 'eval_samples_per_second': 127.768, 'eval_steps_per_second': 15.973, 'epoch': 23.83}
{'loss': 0.0748, 'grad_norm': 0.11730083078145981, 'learning_rate': 0.00023584282536900992, 'epoch': 23.83}
{'loss': 0.0741, 'grad_norm': 0.1822267770767212, 'learning_rate': 0.00023516883467008157, 'epoch': 23.83}
{'loss': 0.0743, 'grad_norm': 0.11491961777210236, 'learning_rate': 0.0002344948439711532, 'epoch': 23.84}
{'loss': 0.0745, 'grad_norm': 0.15089289844036102, 'learning_rate': 0.00023382085327222486, 'epoch': 23.84}
{'loss': 0.0725, 'grad_norm': 0.08964744210243225, 'learning_rate': 0.00023314686257329647, 'epoch': 23.84}
{'loss': 0.0748, 'grad_norm': 0.34249722957611084, 'learning_rate': 0.00023247287187436815, 'epoch': 23.85}
{'loss': 0.0762, 'grad_norm': 0.25010210275650024, 'learning_rate': 0.00023179888117543976, 'epoch': 23.85}
{'loss': 0.0755, 'grad_norm': 0.24845294654369354, 'learning_rate': 0.00023112489047651144, 'epoch':

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10375655442476273, 'eval_runtime': 113.4182, 'eval_samples_per_second': 130.826, 'eval_steps_per_second': 16.355, 'epoch': 23.86}
{'loss': 0.0771, 'grad_norm': 0.37457606196403503, 'learning_rate': 0.00022910291837972634, 'epoch': 23.86}
{'loss': 0.0821, 'grad_norm': 0.22517815232276917, 'learning_rate': 0.000228428927680798, 'epoch': 23.87}
{'loss': 0.0759, 'grad_norm': 0.26762962341308594, 'learning_rate': 0.00022775493698186963, 'epoch': 23.87}
{'loss': 0.0748, 'grad_norm': 0.14738252758979797, 'learning_rate': 0.0002270809462829413, 'epoch': 23.87}
{'loss': 0.0791, 'grad_norm': 0.1468963325023651, 'learning_rate': 0.00022640695558401292, 'epoch': 23.88}
{'loss': 0.0755, 'grad_norm': 0.1301659196615219, 'learning_rate': 0.0002257329648850846, 'epoch': 23.88}
{'loss': 0.0717, 'grad_norm': 0.15781405568122864, 'learning_rate': 0.0002250589741861562, 'epoch': 23.88}
{'loss': 0.0721, 'grad_norm': 0.13048885762691498, 'learning_rate': 0.00022438498348722788, 'epoch': 23.8

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10372474044561386, 'eval_runtime': 114.6055, 'eval_samples_per_second': 129.47, 'eval_steps_per_second': 16.186, 'epoch': 23.89}
{'loss': 0.0796, 'grad_norm': 0.1322227269411087, 'learning_rate': 0.0002223630113904428, 'epoch': 23.9}
{'loss': 0.0788, 'grad_norm': 0.20438195765018463, 'learning_rate': 0.00022168902069151446, 'epoch': 23.9}
{'loss': 0.0732, 'grad_norm': 0.19453127682209015, 'learning_rate': 0.00022101502999258613, 'epoch': 23.9}
{'loss': 0.0803, 'grad_norm': 0.26835954189300537, 'learning_rate': 0.00022034103929365775, 'epoch': 23.91}
{'loss': 0.0842, 'grad_norm': 0.13323937356472015, 'learning_rate': 0.00021966704859472942, 'epoch': 23.91}
{'loss': 0.0765, 'grad_norm': 0.18474844098091125, 'learning_rate': 0.00021899305789580104, 'epoch': 23.91}
{'loss': 0.0776, 'grad_norm': 0.14495021104812622, 'learning_rate': 0.0002183190671968727, 'epoch': 23.92}
{'loss': 0.0782, 'grad_norm': 0.3225270211696625, 'learning_rate': 0.00021764507649794433, 'epoch': 23.92

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10273738950490952, 'eval_runtime': 114.4059, 'eval_samples_per_second': 129.696, 'eval_steps_per_second': 16.214, 'epoch': 23.93}
{'loss': 0.0769, 'grad_norm': 0.17325419187545776, 'learning_rate': 0.00021562310440115929, 'epoch': 23.93}
{'loss': 0.0802, 'grad_norm': 0.22957399487495422, 'learning_rate': 0.0002149491137022309, 'epoch': 23.93}
{'loss': 0.0749, 'grad_norm': 0.11558805406093597, 'learning_rate': 0.00021427512300330258, 'epoch': 23.94}
{'loss': 0.0724, 'grad_norm': 0.18649181723594666, 'learning_rate': 0.0002136011323043742, 'epoch': 23.94}
{'loss': 0.0816, 'grad_norm': 0.19108837842941284, 'learning_rate': 0.00021292714160544586, 'epoch': 23.94}
{'loss': 0.0748, 'grad_norm': 0.164182648062706, 'learning_rate': 0.00021225315090651748, 'epoch': 23.95}
{'loss': 0.0694, 'grad_norm': 0.13350537419319153, 'learning_rate': 0.00021157916020758915, 'epoch': 23.95}
{'loss': 0.0729, 'grad_norm': 0.06057148426771164, 'learning_rate': 0.00021090516950866077, 'epoch': 2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10315866023302078, 'eval_runtime': 115.7615, 'eval_samples_per_second': 128.177, 'eval_steps_per_second': 16.024, 'epoch': 23.96}
{'loss': 0.0765, 'grad_norm': 0.22789430618286133, 'learning_rate': 0.00020888319741187573, 'epoch': 23.96}
{'loss': 0.0794, 'grad_norm': 0.3166031241416931, 'learning_rate': 0.00020820920671294735, 'epoch': 23.97}
{'loss': 0.0697, 'grad_norm': 0.13272200524806976, 'learning_rate': 0.00020753521601401902, 'epoch': 23.97}
{'loss': 0.0733, 'grad_norm': 0.18496505916118622, 'learning_rate': 0.00020686122531509064, 'epoch': 23.97}
{'loss': 0.0709, 'grad_norm': 0.0914149284362793, 'learning_rate': 0.0002061872346161623, 'epoch': 23.98}
{'loss': 0.074, 'grad_norm': 0.15658986568450928, 'learning_rate': 0.00020551324391723393, 'epoch': 23.98}
{'loss': 0.0812, 'grad_norm': 0.12796540558338165, 'learning_rate': 0.0002048392532183056, 'epoch': 23.98}
{'loss': 0.0776, 'grad_norm': 0.17290349304676056, 'learning_rate': 0.00020416526251937724, 'epoch': 23

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1028180718421936, 'eval_runtime': 114.7539, 'eval_samples_per_second': 129.303, 'eval_steps_per_second': 16.165, 'epoch': 23.99}
{'loss': 0.0772, 'grad_norm': 0.20533868670463562, 'learning_rate': 0.00020214329042259218, 'epoch': 24.0}
{'loss': 0.0763, 'grad_norm': 0.14037619531154633, 'learning_rate': 0.00020146929972366382, 'epoch': 24.0}
{'loss': 0.072, 'grad_norm': 0.22620175778865814, 'learning_rate': 0.00020079530902473547, 'epoch': 24.0}
{'loss': 0.0644, 'grad_norm': 0.11536067724227905, 'learning_rate': 0.0002001213183258071, 'epoch': 24.01}
{'loss': 0.0613, 'grad_norm': 0.12197902053594589, 'learning_rate': 0.00019944732762687875, 'epoch': 24.01}
{'loss': 0.0626, 'grad_norm': 0.0861361026763916, 'learning_rate': 0.0001987733369279504, 'epoch': 24.01}
{'loss': 0.0694, 'grad_norm': 0.17347882688045502, 'learning_rate': 0.00019809934622902204, 'epoch': 24.02}
{'loss': 0.0654, 'grad_norm': 0.15605655312538147, 'learning_rate': 0.0001974253555300937, 'epoch': 24.02}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10320861637592316, 'eval_runtime': 113.8786, 'eval_samples_per_second': 130.297, 'eval_steps_per_second': 16.289, 'epoch': 24.03}
{'loss': 0.0675, 'grad_norm': 0.17256101965904236, 'learning_rate': 0.00019540338343330862, 'epoch': 24.03}
{'loss': 0.0692, 'grad_norm': 0.19944456219673157, 'learning_rate': 0.00019472939273438027, 'epoch': 24.03}
{'loss': 0.0635, 'grad_norm': 0.10076058655977249, 'learning_rate': 0.0001940554020354519, 'epoch': 24.04}
{'loss': 0.0685, 'grad_norm': 0.18119153380393982, 'learning_rate': 0.00019338141133652356, 'epoch': 24.04}
{'loss': 0.0699, 'grad_norm': 0.09431243687868118, 'learning_rate': 0.0001927074206375952, 'epoch': 24.04}
{'loss': 0.0605, 'grad_norm': 0.15242667496204376, 'learning_rate': 0.00019203342993866684, 'epoch': 24.05}
{'loss': 0.0754, 'grad_norm': 0.1455245018005371, 'learning_rate': 0.0001913594392397385, 'epoch': 24.05}
{'loss': 0.0671, 'grad_norm': 0.12295985221862793, 'learning_rate': 0.00019068544854081013, 'epoch': 2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10291705280542374, 'eval_runtime': 114.2525, 'eval_samples_per_second': 129.87, 'eval_steps_per_second': 16.236, 'epoch': 24.06}
{'loss': 0.0689, 'grad_norm': 0.14497920870780945, 'learning_rate': 0.00018866347644402507, 'epoch': 24.06}
{'loss': 0.0688, 'grad_norm': 0.26227280497550964, 'learning_rate': 0.0001879894857450967, 'epoch': 24.07}
{'loss': 0.0695, 'grad_norm': 0.1786837875843048, 'learning_rate': 0.00018731549504616838, 'epoch': 24.07}
{'loss': 0.0669, 'grad_norm': 0.1710677146911621, 'learning_rate': 0.00018664150434724, 'epoch': 24.07}
{'loss': 0.0653, 'grad_norm': 0.22837117314338684, 'learning_rate': 0.00018596751364831167, 'epoch': 24.08}
{'loss': 0.0721, 'grad_norm': 0.4351421296596527, 'learning_rate': 0.0001852935229493833, 'epoch': 24.08}
{'loss': 0.0634, 'grad_norm': 0.12309440970420837, 'learning_rate': 0.00018461953225045496, 'epoch': 24.09}
{'loss': 0.0717, 'grad_norm': 0.19665400683879852, 'learning_rate': 0.00018394554155152658, 'epoch': 24.09}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10324811935424805, 'eval_runtime': 116.0436, 'eval_samples_per_second': 127.866, 'eval_steps_per_second': 15.985, 'epoch': 24.1}
{'loss': 0.0622, 'grad_norm': 0.16637611389160156, 'learning_rate': 0.00018192356945474154, 'epoch': 24.1}
{'loss': 0.0726, 'grad_norm': 0.12180597335100174, 'learning_rate': 0.00018124957875581316, 'epoch': 24.1}
{'loss': 0.0665, 'grad_norm': 0.0962841808795929, 'learning_rate': 0.00018057558805688483, 'epoch': 24.11}
{'loss': 0.066, 'grad_norm': 0.1604727953672409, 'learning_rate': 0.00017990159735795645, 'epoch': 24.11}
{'loss': 0.0597, 'grad_norm': 0.12440109252929688, 'learning_rate': 0.00017922760665902812, 'epoch': 24.11}
{'loss': 0.0606, 'grad_norm': 0.14977248013019562, 'learning_rate': 0.00017855361596009974, 'epoch': 24.12}
{'loss': 0.0659, 'grad_norm': 0.2008916735649109, 'learning_rate': 0.0001778796252611714, 'epoch': 24.12}
{'loss': 0.069, 'grad_norm': 0.26550644636154175, 'learning_rate': 0.00017720563456224302, 'epoch': 24.12}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10312633216381073, 'eval_runtime': 114.9897, 'eval_samples_per_second': 129.038, 'eval_steps_per_second': 16.132, 'epoch': 24.13}
{'loss': 0.0668, 'grad_norm': 0.3131330609321594, 'learning_rate': 0.00017518366246545798, 'epoch': 24.13}
{'loss': 0.0677, 'grad_norm': 0.10590684413909912, 'learning_rate': 0.0001745096717665296, 'epoch': 24.14}
{'loss': 0.0667, 'grad_norm': 0.12451394647359848, 'learning_rate': 0.00017383568106760127, 'epoch': 24.14}
{'loss': 0.0703, 'grad_norm': 0.11115125566720963, 'learning_rate': 0.0001731616903686729, 'epoch': 24.14}
{'loss': 0.0674, 'grad_norm': 0.19318567216396332, 'learning_rate': 0.00017248769966974456, 'epoch': 24.15}
{'loss': 0.0681, 'grad_norm': 0.1340680867433548, 'learning_rate': 0.00017181370897081618, 'epoch': 24.15}
{'loss': 0.0697, 'grad_norm': 0.19486819207668304, 'learning_rate': 0.00017113971827188785, 'epoch': 24.15}
{'loss': 0.0628, 'grad_norm': 0.13302043080329895, 'learning_rate': 0.00017046572757295947, 'epoch': 2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10290194302797318, 'eval_runtime': 115.6573, 'eval_samples_per_second': 128.293, 'eval_steps_per_second': 16.039, 'epoch': 24.16}
{'loss': 0.0697, 'grad_norm': 0.26635587215423584, 'learning_rate': 0.00016844375547617443, 'epoch': 24.17}
{'loss': 0.0667, 'grad_norm': 0.18601667881011963, 'learning_rate': 0.0001677697647772461, 'epoch': 24.17}
{'loss': 0.0733, 'grad_norm': 0.17423522472381592, 'learning_rate': 0.00016709577407831772, 'epoch': 24.17}
{'loss': 0.0693, 'grad_norm': 0.09195372462272644, 'learning_rate': 0.0001664217833793894, 'epoch': 24.18}
{'loss': 0.066, 'grad_norm': 0.1479652374982834, 'learning_rate': 0.000165747792680461, 'epoch': 24.18}
{'loss': 0.0677, 'grad_norm': 0.1708798110485077, 'learning_rate': 0.00016507380198153268, 'epoch': 24.18}
{'loss': 0.0666, 'grad_norm': 0.09465160220861435, 'learning_rate': 0.0001643998112826043, 'epoch': 24.19}
{'loss': 0.0625, 'grad_norm': 0.10855366289615631, 'learning_rate': 0.00016372582058367597, 'epoch': 24.19

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10300828516483307, 'eval_runtime': 115.4291, 'eval_samples_per_second': 128.546, 'eval_steps_per_second': 16.07, 'epoch': 24.2}
{'loss': 0.0671, 'grad_norm': 0.21769779920578003, 'learning_rate': 0.00016170384848689088, 'epoch': 24.2}
{'loss': 0.06, 'grad_norm': 0.1874062418937683, 'learning_rate': 0.00016102985778796255, 'epoch': 24.2}
{'loss': 0.0688, 'grad_norm': 0.08224810659885406, 'learning_rate': 0.00016035586708903416, 'epoch': 24.21}
{'loss': 0.0634, 'grad_norm': 0.10889936983585358, 'learning_rate': 0.00015968187639010584, 'epoch': 24.21}
{'loss': 0.0701, 'grad_norm': 0.2041960209608078, 'learning_rate': 0.00015900788569117745, 'epoch': 24.21}
{'loss': 0.068, 'grad_norm': 0.22134758532047272, 'learning_rate': 0.00015833389499224913, 'epoch': 24.22}
{'loss': 0.0676, 'grad_norm': 0.15160943567752838, 'learning_rate': 0.00015765990429332074, 'epoch': 24.22}
{'loss': 0.0664, 'grad_norm': 0.15558473765850067, 'learning_rate': 0.00015698591359439241, 'epoch': 24.22}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10267408937215805, 'eval_runtime': 114.8536, 'eval_samples_per_second': 129.191, 'eval_steps_per_second': 16.151, 'epoch': 24.23}
{'loss': 0.068, 'grad_norm': 0.3286450207233429, 'learning_rate': 0.00015496394149760735, 'epoch': 24.23}
{'loss': 0.0681, 'grad_norm': 0.21506816148757935, 'learning_rate': 0.000154289950798679, 'epoch': 24.24}
{'loss': 0.0651, 'grad_norm': 0.09645278751850128, 'learning_rate': 0.00015361596009975064, 'epoch': 24.24}
{'loss': 0.0635, 'grad_norm': 0.2145954668521881, 'learning_rate': 0.00015294196940082228, 'epoch': 24.24}
{'loss': 0.0668, 'grad_norm': 0.16091227531433105, 'learning_rate': 0.00015226797870189393, 'epoch': 24.25}
{'loss': 0.0708, 'grad_norm': 0.2001967430114746, 'learning_rate': 0.00015160746781694415, 'epoch': 24.25}
{'loss': 0.0701, 'grad_norm': 0.22920002043247223, 'learning_rate': 0.0001509334771180158, 'epoch': 24.25}
{'loss': 0.066, 'grad_norm': 0.1878974735736847, 'learning_rate': 0.00015025948641908744, 'epoch': 24.26}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10284525901079178, 'eval_runtime': 113.3687, 'eval_samples_per_second': 130.883, 'eval_steps_per_second': 16.363, 'epoch': 24.26}
{'loss': 0.0652, 'grad_norm': 0.11778196692466736, 'learning_rate': 0.00014823751432230237, 'epoch': 24.27}
{'loss': 0.0621, 'grad_norm': 0.12710116803646088, 'learning_rate': 0.000147563523623374, 'epoch': 24.27}
{'loss': 0.0705, 'grad_norm': 0.12612754106521606, 'learning_rate': 0.00014688953292444566, 'epoch': 24.27}
{'loss': 0.0639, 'grad_norm': 0.13807037472724915, 'learning_rate': 0.0001462155422255173, 'epoch': 24.28}
{'loss': 0.068, 'grad_norm': 0.12590935826301575, 'learning_rate': 0.00014554155152658895, 'epoch': 24.28}
{'loss': 0.0754, 'grad_norm': 0.1736632138490677, 'learning_rate': 0.0001448675608276606, 'epoch': 24.28}
{'loss': 0.0665, 'grad_norm': 0.16018052399158478, 'learning_rate': 0.00014419357012873224, 'epoch': 24.29}
{'loss': 0.0632, 'grad_norm': 0.3492111563682556, 'learning_rate': 0.00014351957942980388, 'epoch': 24.2

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1026262417435646, 'eval_runtime': 115.5399, 'eval_samples_per_second': 128.423, 'eval_steps_per_second': 16.055, 'epoch': 24.3}
{'loss': 0.0657, 'grad_norm': 0.288169264793396, 'learning_rate': 0.00014149760733301881, 'epoch': 24.3}
{'loss': 0.0703, 'grad_norm': 0.1431078165769577, 'learning_rate': 0.00014082361663409046, 'epoch': 24.3}
{'loss': 0.0664, 'grad_norm': 0.2218140810728073, 'learning_rate': 0.0001401496259351621, 'epoch': 24.31}
{'loss': 0.0611, 'grad_norm': 0.12975198030471802, 'learning_rate': 0.00013947563523623375, 'epoch': 24.31}
{'loss': 0.0726, 'grad_norm': 0.18995901942253113, 'learning_rate': 0.0001388016445373054, 'epoch': 24.31}
{'loss': 0.0636, 'grad_norm': 0.09713658690452576, 'learning_rate': 0.00013812765383837704, 'epoch': 24.32}
{'loss': 0.0674, 'grad_norm': 0.11448714882135391, 'learning_rate': 0.00013745366313944868, 'epoch': 24.32}
{'loss': 0.0692, 'grad_norm': 0.07973810285329819, 'learning_rate': 0.00013677967244052033, 'epoch': 24.32}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10261614620685577, 'eval_runtime': 115.7045, 'eval_samples_per_second': 128.24, 'eval_steps_per_second': 16.032, 'epoch': 24.33}
{'loss': 0.0662, 'grad_norm': 0.1398826241493225, 'learning_rate': 0.00013475770034373526, 'epoch': 24.33}
{'loss': 0.0693, 'grad_norm': 0.2476007044315338, 'learning_rate': 0.0001340837096448069, 'epoch': 24.34}
{'loss': 0.0665, 'grad_norm': 0.1897793710231781, 'learning_rate': 0.00013340971894587855, 'epoch': 24.34}
{'loss': 0.0672, 'grad_norm': 0.1506803333759308, 'learning_rate': 0.0001327357282469502, 'epoch': 24.34}
{'loss': 0.0751, 'grad_norm': 0.20252864062786102, 'learning_rate': 0.00013206173754802184, 'epoch': 24.35}
{'loss': 0.0678, 'grad_norm': 0.12149802595376968, 'learning_rate': 0.00013138774684909348, 'epoch': 24.35}
{'loss': 0.0664, 'grad_norm': 0.10792812705039978, 'learning_rate': 0.00013071375615016513, 'epoch': 24.35}
{'loss': 0.065, 'grad_norm': 0.19217179715633392, 'learning_rate': 0.00013003976545123677, 'epoch': 24.36

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10235412418842316, 'eval_runtime': 115.1399, 'eval_samples_per_second': 128.869, 'eval_steps_per_second': 16.111, 'epoch': 24.36}
{'loss': 0.0634, 'grad_norm': 0.3307294249534607, 'learning_rate': 0.0001280177933544517, 'epoch': 24.37}
{'loss': 0.0657, 'grad_norm': 0.21988530457019806, 'learning_rate': 0.00012734380265552335, 'epoch': 24.37}
{'loss': 0.0663, 'grad_norm': 0.12477949261665344, 'learning_rate': 0.000126669811956595, 'epoch': 24.37}
{'loss': 0.0676, 'grad_norm': 0.19049879908561707, 'learning_rate': 0.00012599582125766664, 'epoch': 24.38}
{'loss': 0.069, 'grad_norm': 0.09008191525936127, 'learning_rate': 0.00012532183055873828, 'epoch': 24.38}
{'loss': 0.0749, 'grad_norm': 0.1945047676563263, 'learning_rate': 0.00012464783985980993, 'epoch': 24.38}
{'loss': 0.0712, 'grad_norm': 0.21793463826179504, 'learning_rate': 0.00012397384916088157, 'epoch': 24.39}
{'loss': 0.0675, 'grad_norm': 0.07919497042894363, 'learning_rate': 0.0001233133382759318, 'epoch': 24.3

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10248417407274246, 'eval_runtime': 114.6115, 'eval_samples_per_second': 129.463, 'eval_steps_per_second': 16.185, 'epoch': 24.4}
{'loss': 0.0677, 'grad_norm': 0.10319732874631882, 'learning_rate': 0.00012129136617914674, 'epoch': 24.4}
{'loss': 0.0668, 'grad_norm': 0.13289868831634521, 'learning_rate': 0.00012061737548021838, 'epoch': 24.41}
{'loss': 0.0636, 'grad_norm': 0.1686558574438095, 'learning_rate': 0.00011994338478129003, 'epoch': 24.41}
{'loss': 0.0641, 'grad_norm': 0.14829225838184357, 'learning_rate': 0.00011926939408236167, 'epoch': 24.41}
{'loss': 0.0679, 'grad_norm': 0.20002350211143494, 'learning_rate': 0.00011859540338343332, 'epoch': 24.42}
{'loss': 0.0654, 'grad_norm': 0.16560585796833038, 'learning_rate': 0.00011792141268450496, 'epoch': 24.42}
{'loss': 0.0683, 'grad_norm': 0.08424520492553711, 'learning_rate': 0.0001172474219855766, 'epoch': 24.42}
{'loss': 0.0645, 'grad_norm': 0.2641221284866333, 'learning_rate': 0.00011657343128664824, 'epoch': 24

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10210242867469788, 'eval_runtime': 115.0641, 'eval_samples_per_second': 128.954, 'eval_steps_per_second': 16.121, 'epoch': 24.43}
{'loss': 0.0683, 'grad_norm': 0.12382154166698456, 'learning_rate': 0.00011455145918986317, 'epoch': 24.44}
{'loss': 0.0694, 'grad_norm': 0.18834252655506134, 'learning_rate': 0.00011387746849093482, 'epoch': 24.44}
{'loss': 0.0662, 'grad_norm': 0.1907159686088562, 'learning_rate': 0.00011320347779200646, 'epoch': 24.44}
{'loss': 0.0711, 'grad_norm': 0.20654602348804474, 'learning_rate': 0.0001125294870930781, 'epoch': 24.45}
{'loss': 0.0735, 'grad_norm': 0.08786880970001221, 'learning_rate': 0.00011185549639414975, 'epoch': 24.45}
{'loss': 0.0731, 'grad_norm': 0.2182614654302597, 'learning_rate': 0.0001111815056952214, 'epoch': 24.45}
{'loss': 0.0689, 'grad_norm': 0.3316729664802551, 'learning_rate': 0.00011050751499629307, 'epoch': 24.46}
{'loss': 0.0637, 'grad_norm': 0.13708792626857758, 'learning_rate': 0.00010983352429736471, 'epoch': 24

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1019507423043251, 'eval_runtime': 116.272, 'eval_samples_per_second': 127.615, 'eval_steps_per_second': 15.954, 'epoch': 24.47}
{'loss': 0.0684, 'grad_norm': 0.188104510307312, 'learning_rate': 0.00010781155220057964, 'epoch': 24.47}
{'loss': 0.0715, 'grad_norm': 0.27746185660362244, 'learning_rate': 0.00010713756150165129, 'epoch': 24.47}
{'loss': 0.0639, 'grad_norm': 0.13573944568634033, 'learning_rate': 0.00010646357080272293, 'epoch': 24.48}
{'loss': 0.0631, 'grad_norm': 0.11905623972415924, 'learning_rate': 0.00010578958010379458, 'epoch': 24.48}
{'loss': 0.0654, 'grad_norm': 0.20922768115997314, 'learning_rate': 0.00010511558940486622, 'epoch': 24.48}
{'loss': 0.0694, 'grad_norm': 0.18930059671401978, 'learning_rate': 0.00010444159870593787, 'epoch': 24.49}
{'loss': 0.0651, 'grad_norm': 0.14629042148590088, 'learning_rate': 0.00010376760800700951, 'epoch': 24.49}
{'loss': 0.0692, 'grad_norm': 0.1526259034872055, 'learning_rate': 0.00010309361730808115, 'epoch': 24

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.1019764095544815, 'eval_runtime': 115.8949, 'eval_samples_per_second': 128.03, 'eval_steps_per_second': 16.006, 'epoch': 24.5}
{'loss': 0.0663, 'grad_norm': 0.1732972413301468, 'learning_rate': 0.00010107164521129609, 'epoch': 24.5}
{'loss': 0.0664, 'grad_norm': 0.11033493280410767, 'learning_rate': 0.00010039765451236773, 'epoch': 24.51}
{'loss': 0.0676, 'grad_norm': 0.14832569658756256, 'learning_rate': 9.972366381343938e-05, 'epoch': 24.51}
{'loss': 0.0625, 'grad_norm': 0.21019569039344788, 'learning_rate': 9.904967311451102e-05, 'epoch': 24.51}
{'loss': 0.0703, 'grad_norm': 0.13334129750728607, 'learning_rate': 9.837568241558267e-05, 'epoch': 24.52}
{'loss': 0.0692, 'grad_norm': 0.21461670100688934, 'learning_rate': 9.770169171665431e-05, 'epoch': 24.52}
{'loss': 0.0718, 'grad_norm': 0.17163074016571045, 'learning_rate': 9.702770101772596e-05, 'epoch': 24.52}
{'loss': 0.0596, 'grad_norm': 0.25906381011009216, 'learning_rate': 9.63537103187976e-05, 'epoch': 24.53}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10192707926034927, 'eval_runtime': 114.1618, 'eval_samples_per_second': 129.973, 'eval_steps_per_second': 16.249, 'epoch': 24.53}
{'loss': 0.0634, 'grad_norm': 0.16652803122997284, 'learning_rate': 9.433173822201253e-05, 'epoch': 24.54}
{'loss': 0.0658, 'grad_norm': 0.09926801174879074, 'learning_rate': 9.365774752308419e-05, 'epoch': 24.54}
{'loss': 0.0658, 'grad_norm': 0.16481555998325348, 'learning_rate': 9.298375682415584e-05, 'epoch': 24.54}
{'loss': 0.0676, 'grad_norm': 0.16238868236541748, 'learning_rate': 9.230976612522748e-05, 'epoch': 24.55}
{'loss': 0.0715, 'grad_norm': 0.21858879923820496, 'learning_rate': 9.163577542629913e-05, 'epoch': 24.55}
{'loss': 0.0644, 'grad_norm': 0.13717637956142426, 'learning_rate': 9.096178472737077e-05, 'epoch': 24.55}
{'loss': 0.0776, 'grad_norm': 0.2885657250881195, 'learning_rate': 9.028779402844241e-05, 'epoch': 24.56}
{'loss': 0.064, 'grad_norm': 0.23901090025901794, 'learning_rate': 8.961380332951406e-05, 'epoch': 24.56}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10186176002025604, 'eval_runtime': 114.829, 'eval_samples_per_second': 129.218, 'eval_steps_per_second': 16.154, 'epoch': 24.57}
{'loss': 0.0575, 'grad_norm': 0.06549271196126938, 'learning_rate': 8.760531104670755e-05, 'epoch': 24.57}
{'loss': 0.0659, 'grad_norm': 0.08655685186386108, 'learning_rate': 8.69313203477792e-05, 'epoch': 24.57}
{'loss': 0.0707, 'grad_norm': 0.09135913103818893, 'learning_rate': 8.625732964885084e-05, 'epoch': 24.58}
{'loss': 0.0682, 'grad_norm': 0.14874032139778137, 'learning_rate': 8.558333894992249e-05, 'epoch': 24.58}
{'loss': 0.0667, 'grad_norm': 0.23903986811637878, 'learning_rate': 8.490934825099415e-05, 'epoch': 24.58}
{'loss': 0.0643, 'grad_norm': 0.09058652818202972, 'learning_rate': 8.423535755206579e-05, 'epoch': 24.59}
{'loss': 0.0676, 'grad_norm': 0.23190338909626007, 'learning_rate': 8.356136685313744e-05, 'epoch': 24.59}
{'loss': 0.0601, 'grad_norm': 0.10914262384176254, 'learning_rate': 8.288737615420908e-05, 'epoch': 24.59}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10178922116756439, 'eval_runtime': 115.0806, 'eval_samples_per_second': 128.936, 'eval_steps_per_second': 16.119, 'epoch': 24.6}
{'loss': 0.0714, 'grad_norm': 0.1946115791797638, 'learning_rate': 8.086540405742401e-05, 'epoch': 24.6}
{'loss': 0.067, 'grad_norm': 0.14932461082935333, 'learning_rate': 8.019141335849566e-05, 'epoch': 24.61}
{'loss': 0.062, 'grad_norm': 0.20868147909641266, 'learning_rate': 7.95174226595673e-05, 'epoch': 24.61}
{'loss': 0.0685, 'grad_norm': 0.11033312976360321, 'learning_rate': 7.884343196063895e-05, 'epoch': 24.61}
{'loss': 0.0648, 'grad_norm': 0.22791317105293274, 'learning_rate': 7.816944126171059e-05, 'epoch': 24.62}
{'loss': 0.0697, 'grad_norm': 0.17429503798484802, 'learning_rate': 7.749545056278224e-05, 'epoch': 24.62}
{'loss': 0.0672, 'grad_norm': 0.18730312585830688, 'learning_rate': 7.682145986385388e-05, 'epoch': 24.62}
{'loss': 0.0656, 'grad_norm': 0.12945611774921417, 'learning_rate': 7.614746916492553e-05, 'epoch': 24.63}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10149320214986801, 'eval_runtime': 114.931, 'eval_samples_per_second': 129.104, 'eval_steps_per_second': 16.14, 'epoch': 24.63}
{'loss': 0.0626, 'grad_norm': 0.16420502960681915, 'learning_rate': 7.412549706814046e-05, 'epoch': 24.64}
{'loss': 0.0681, 'grad_norm': 0.3384275436401367, 'learning_rate': 7.34515063692121e-05, 'epoch': 24.64}
{'loss': 0.0657, 'grad_norm': 0.14960579574108124, 'learning_rate': 7.277751567028375e-05, 'epoch': 24.64}
{'loss': 0.0693, 'grad_norm': 0.06894893944263458, 'learning_rate': 7.21035249713554e-05, 'epoch': 24.65}
{'loss': 0.0613, 'grad_norm': 0.1495635211467743, 'learning_rate': 7.142953427242705e-05, 'epoch': 24.65}
{'loss': 0.0659, 'grad_norm': 0.1929125040769577, 'learning_rate': 7.07555435734987e-05, 'epoch': 24.65}
{'loss': 0.0729, 'grad_norm': 0.28915077447891235, 'learning_rate': 7.008155287457034e-05, 'epoch': 24.66}
{'loss': 0.0709, 'grad_norm': 0.1407209038734436, 'learning_rate': 6.940756217564198e-05, 'epoch': 24.66}
{'loss'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10140116512775421, 'eval_runtime': 114.2478, 'eval_samples_per_second': 129.876, 'eval_steps_per_second': 16.237, 'epoch': 24.67}
{'loss': 0.0681, 'grad_norm': 0.2543336749076843, 'learning_rate': 6.738559007885692e-05, 'epoch': 24.67}
{'loss': 0.0701, 'grad_norm': 0.24969267845153809, 'learning_rate': 6.671159937992856e-05, 'epoch': 24.67}
{'loss': 0.0601, 'grad_norm': 0.10825323313474655, 'learning_rate': 6.60376086810002e-05, 'epoch': 24.68}
{'loss': 0.0675, 'grad_norm': 0.1662541925907135, 'learning_rate': 6.536361798207185e-05, 'epoch': 24.68}
{'loss': 0.0621, 'grad_norm': 0.14221039414405823, 'learning_rate': 6.46896272831435e-05, 'epoch': 24.68}
{'loss': 0.0712, 'grad_norm': 0.12355700880289078, 'learning_rate': 6.401563658421514e-05, 'epoch': 24.69}
{'loss': 0.0623, 'grad_norm': 0.16057655215263367, 'learning_rate': 6.334164588528678e-05, 'epoch': 24.69}
{'loss': 0.0663, 'grad_norm': 0.16846565902233124, 'learning_rate': 6.266765518635843e-05, 'epoch': 24.7}
{'l

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10137802362442017, 'eval_runtime': 114.1403, 'eval_samples_per_second': 129.998, 'eval_steps_per_second': 16.252, 'epoch': 24.7}
{'loss': 0.065, 'grad_norm': 0.1933698058128357, 'learning_rate': 6.064568308957337e-05, 'epoch': 24.71}
{'loss': 0.0686, 'grad_norm': 0.14310796558856964, 'learning_rate': 5.9971692390645014e-05, 'epoch': 24.71}
{'loss': 0.0645, 'grad_norm': 0.19659815728664398, 'learning_rate': 5.929770169171666e-05, 'epoch': 24.71}
{'loss': 0.0706, 'grad_norm': nan, 'learning_rate': 5.8637190806766865e-05, 'epoch': 24.72}
{'loss': 0.0646, 'grad_norm': 0.12371014058589935, 'learning_rate': 5.796320010783851e-05, 'epoch': 24.72}
{'loss': 0.067, 'grad_norm': 0.11204257607460022, 'learning_rate': 5.7289209408910154e-05, 'epoch': 24.72}
{'loss': 0.0674, 'grad_norm': 0.19472405314445496, 'learning_rate': 5.66152187099818e-05, 'epoch': 24.73}
{'loss': 0.0631, 'grad_norm': 0.12586723268032074, 'learning_rate': 5.595470782503201e-05, 'epoch': 24.73}
{'loss': 0.0636,

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10118652880191803, 'eval_runtime': 113.6021, 'eval_samples_per_second': 130.614, 'eval_steps_per_second': 16.329, 'epoch': 24.74}
{'loss': 0.0616, 'grad_norm': 0.32815611362457275, 'learning_rate': 5.393273572824695e-05, 'epoch': 24.74}
{'loss': 0.0639, 'grad_norm': 0.20053425431251526, 'learning_rate': 5.32587450293186e-05, 'epoch': 24.74}
{'loss': 0.0595, 'grad_norm': 0.1122308149933815, 'learning_rate': 5.258475433039024e-05, 'epoch': 24.75}
{'loss': 0.067, 'grad_norm': 0.15966573357582092, 'learning_rate': 5.1910763631461886e-05, 'epoch': 24.75}
{'loss': 0.0689, 'grad_norm': 0.20891571044921875, 'learning_rate': 5.123677293253353e-05, 'epoch': 24.75}
{'loss': 0.0644, 'grad_norm': 0.13615015149116516, 'learning_rate': 5.0562782233605175e-05, 'epoch': 24.76}
{'loss': 0.072, 'grad_norm': 0.1484389305114746, 'learning_rate': 4.988879153467682e-05, 'epoch': 24.76}
{'loss': 0.067, 'grad_norm': 0.2756299078464508, 'learning_rate': 4.9214800835748464e-05, 'epoch': 24.76}
{'

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10099378228187561, 'eval_runtime': 114.4792, 'eval_samples_per_second': 129.613, 'eval_steps_per_second': 16.204, 'epoch': 24.77}
{'loss': 0.0797, 'grad_norm': 0.15753445029258728, 'learning_rate': 4.71928287389634e-05, 'epoch': 24.77}
{'loss': 0.0643, 'grad_norm': 0.14255264401435852, 'learning_rate': 4.651883804003505e-05, 'epoch': 24.78}
{'loss': 0.0652, 'grad_norm': 0.20898957550525665, 'learning_rate': 4.5844847341106694e-05, 'epoch': 24.78}
{'loss': 0.066, 'grad_norm': 0.14991682767868042, 'learning_rate': 4.517085664217834e-05, 'epoch': 24.78}
{'loss': 0.0669, 'grad_norm': 0.19514679908752441, 'learning_rate': 4.449686594324998e-05, 'epoch': 24.79}
{'loss': 0.0686, 'grad_norm': 0.09772185236215591, 'learning_rate': 4.382287524432163e-05, 'epoch': 24.79}
{'loss': 0.0679, 'grad_norm': 0.11006057262420654, 'learning_rate': 4.314888454539327e-05, 'epoch': 24.79}
{'loss': 0.0751, 'grad_norm': 0.10015047341585159, 'learning_rate': 4.2474893846464916e-05, 'epoch': 24.8}

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10122864693403244, 'eval_runtime': 115.585, 'eval_samples_per_second': 128.373, 'eval_steps_per_second': 16.049, 'epoch': 24.8}
{'loss': 0.0657, 'grad_norm': 0.13712456822395325, 'learning_rate': 4.045292174967985e-05, 'epoch': 24.81}
{'loss': 0.0672, 'grad_norm': 0.3197021484375, 'learning_rate': 3.9778931050751495e-05, 'epoch': 24.81}
{'loss': 0.0736, 'grad_norm': 0.1497645527124405, 'learning_rate': 3.910494035182314e-05, 'epoch': 24.81}
{'loss': 0.0662, 'grad_norm': 0.09232280403375626, 'learning_rate': 3.843094965289479e-05, 'epoch': 24.82}
{'loss': 0.064, 'grad_norm': 0.47725895047187805, 'learning_rate': 3.7756958953966435e-05, 'epoch': 24.82}
{'loss': 0.0705, 'grad_norm': 0.12341862916946411, 'learning_rate': 3.708296825503808e-05, 'epoch': 24.82}
{'loss': 0.0686, 'grad_norm': 0.126971036195755, 'learning_rate': 3.6408977556109724e-05, 'epoch': 24.83}
{'loss': 0.063, 'grad_norm': 0.08467085659503937, 'learning_rate': 3.5734986857181375e-05, 'epoch': 24.83}
{'los

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10099855065345764, 'eval_runtime': 114.625, 'eval_samples_per_second': 129.448, 'eval_steps_per_second': 16.183, 'epoch': 24.84}
{'loss': 0.0643, 'grad_norm': 0.2148778885602951, 'learning_rate': 3.371301476039631e-05, 'epoch': 24.84}
{'loss': 0.0687, 'grad_norm': 0.08289719372987747, 'learning_rate': 3.3039024061467953e-05, 'epoch': 24.84}
{'loss': 0.0656, 'grad_norm': 0.1607101559638977, 'learning_rate': 3.23650333625396e-05, 'epoch': 24.85}
{'loss': 0.0702, 'grad_norm': 0.23297978937625885, 'learning_rate': 3.169104266361124e-05, 'epoch': 24.85}
{'loss': 0.065, 'grad_norm': 0.2866992652416229, 'learning_rate': 3.101705196468289e-05, 'epoch': 24.85}
{'loss': 0.0635, 'grad_norm': 0.276924192905426, 'learning_rate': 3.0343061265754535e-05, 'epoch': 24.86}
{'loss': 0.0649, 'grad_norm': 0.1283879429101944, 'learning_rate': 2.966907056682618e-05, 'epoch': 24.86}
{'loss': 0.0666, 'grad_norm': 0.17609542608261108, 'learning_rate': 2.8995079867897824e-05, 'epoch': 24.86}
{'lo

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10085994005203247, 'eval_runtime': 112.0967, 'eval_samples_per_second': 132.368, 'eval_steps_per_second': 16.548, 'epoch': 24.87}
{'loss': 0.0615, 'grad_norm': 0.12431658059358597, 'learning_rate': 2.697310777111276e-05, 'epoch': 24.87}
{'loss': 0.0685, 'grad_norm': 0.20226716995239258, 'learning_rate': 2.631259688616297e-05, 'epoch': 24.88}
{'loss': 0.0667, 'grad_norm': 0.19758495688438416, 'learning_rate': 2.5638606187234616e-05, 'epoch': 24.88}
{'loss': 0.0717, 'grad_norm': 0.19480668008327484, 'learning_rate': 2.496461548830626e-05, 'epoch': 24.88}
{'loss': 0.0654, 'grad_norm': 0.13288994133472443, 'learning_rate': 2.4290624789377905e-05, 'epoch': 24.89}
{'loss': 0.0691, 'grad_norm': 0.11801322549581528, 'learning_rate': 2.361663409044955e-05, 'epoch': 24.89}
{'loss': 0.0637, 'grad_norm': 0.1622370183467865, 'learning_rate': 2.29426433915212e-05, 'epoch': 24.89}
{'loss': 0.0733, 'grad_norm': 0.35155847668647766, 'learning_rate': 2.2268652692592845e-05, 'epoch': 24.9

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10086240619421005, 'eval_runtime': 115.1823, 'eval_samples_per_second': 128.822, 'eval_steps_per_second': 16.105, 'epoch': 24.9}
{'loss': 0.0684, 'grad_norm': 0.09091783314943314, 'learning_rate': 2.024668059580778e-05, 'epoch': 24.91}
{'loss': 0.0672, 'grad_norm': 0.15432892739772797, 'learning_rate': 1.9572689896879423e-05, 'epoch': 24.91}
{'loss': 0.0638, 'grad_norm': 0.09828750044107437, 'learning_rate': 1.8898699197951068e-05, 'epoch': 24.91}
{'loss': 0.0667, 'grad_norm': 0.08261490613222122, 'learning_rate': 1.8224708499022712e-05, 'epoch': 24.92}
{'loss': 0.068, 'grad_norm': 0.21806585788726807, 'learning_rate': 1.755071780009436e-05, 'epoch': 24.92}
{'loss': 0.065, 'grad_norm': 0.16857951879501343, 'learning_rate': 1.6876727101166005e-05, 'epoch': 24.92}
{'loss': 0.0641, 'grad_norm': 0.11158452183008194, 'learning_rate': 1.620273640223765e-05, 'epoch': 24.93}
{'loss': 0.0624, 'grad_norm': 0.18090152740478516, 'learning_rate': 1.5528745703309294e-05, 'epoch': 24.

  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10070682317018509, 'eval_runtime': 115.9915, 'eval_samples_per_second': 127.923, 'eval_steps_per_second': 15.993, 'epoch': 24.94}
{'loss': 0.0641, 'grad_norm': 0.14086204767227173, 'learning_rate': 1.350677360652423e-05, 'epoch': 24.94}
{'loss': 0.0626, 'grad_norm': 0.17239634692668915, 'learning_rate': 1.2832782907595875e-05, 'epoch': 24.94}
{'loss': 0.07, 'grad_norm': 0.1363804191350937, 'learning_rate': 1.215879220866752e-05, 'epoch': 24.95}
{'loss': 0.0726, 'grad_norm': 0.2705315053462982, 'learning_rate': 1.1484801509739168e-05, 'epoch': 24.95}
{'loss': 0.0651, 'grad_norm': 0.10311974585056305, 'learning_rate': 1.081081081081081e-05, 'epoch': 24.95}
{'loss': 0.0627, 'grad_norm': 0.12426916509866714, 'learning_rate': 1.0136820111882455e-05, 'epoch': 24.96}
{'loss': 0.064, 'grad_norm': 0.19132398068904877, 'learning_rate': 9.462829412954101e-06, 'epoch': 24.96}
{'loss': 0.0649, 'grad_norm': 0.14011375606060028, 'learning_rate': 8.788838714025747e-06, 'epoch': 24.96}


  0%|          | 0/1855 [00:00<?, ?it/s]

{'eval_loss': 0.10061448812484741, 'eval_runtime': 115.118, 'eval_samples_per_second': 128.894, 'eval_steps_per_second': 16.114, 'epoch': 24.97}
{'loss': 0.0633, 'grad_norm': 0.15928258001804352, 'learning_rate': 6.766866617240683e-06, 'epoch': 24.97}
{'loss': 0.0631, 'grad_norm': 0.11446952074766159, 'learning_rate': 6.092875918312327e-06, 'epoch': 24.98}
{'loss': 0.0591, 'grad_norm': 0.2394760549068451, 'learning_rate': 5.4188852193839725e-06, 'epoch': 24.98}
{'loss': 0.0693, 'grad_norm': 0.10038024187088013, 'learning_rate': 4.744894520455618e-06, 'epoch': 24.98}
{'loss': 0.0658, 'grad_norm': 0.4259592294692993, 'learning_rate': 4.070903821527263e-06, 'epoch': 24.99}
{'loss': 0.0588, 'grad_norm': 0.1539471298456192, 'learning_rate': 3.3969131225989086e-06, 'epoch': 24.99}
{'loss': 0.0729, 'grad_norm': 0.13003739714622498, 'learning_rate': 2.7229224236705536e-06, 'epoch': 24.99}
{'loss': 0.0607, 'grad_norm': 0.20308712124824524, 'learning_rate': 2.0489317247421985e-06, 'epoch': 25.0}

('./sql-training-1741960267\\tokenizer_config.json',
 './sql-training-1741960267\\special_tokens_map.json',
 './sql-training-1741960267\\spiece.model',
 './sql-training-1741960267\\added_tokens.json',
 './sql-training-1741960267\\tokenizer.json')

In [41]:
import time
import os
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, Trainer, TrainingArguments
from datasets import load_dataset, DatasetDict, interleave_datasets

# Load tokenizer and model
model_name = 't5-small'
tokenizer = AutoTokenizer.from_pretrained(model_name)

saved_model_path = 'C:/Users/gshan/OneDrive/Desktop/hugging/sql-training-1741960267'

# Load model from checkpoint if exists
if os.path.exists(saved_model_path):
    finetuned_model = AutoModelForSeq2SeqLM.from_pretrained(saved_model_path)
    print(f"Resuming from saved model at: {saved_model_path}")
else:
    finetuned_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
    print("Starting from scratch.")

# Enable gradient checkpointing
finetuned_model.gradient_checkpointing_enable()

output_dir = f'./sql-training-{str(int(time.time()))}'

# Load existing datasets
dataset_scc_train = load_dataset("b-mc2/sql-create-context", split='train[:80%]')
dataset_scc_test = load_dataset("b-mc2/sql-create-context", split='train[-20%:-10%]')
dataset_scc_val = load_dataset("b-mc2/sql-create-context", split='train[-10%:]')

dataset_tts_train = load_dataset("Clinton/Text-to-sql-v1", split='train[:80%]').remove_columns(['source', 'text']).rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_test = load_dataset("Clinton/Text-to-sql-v1", split='train[-20%:-10%]').remove_columns(['source', 'text']).rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})
dataset_tts_val = load_dataset("Clinton/Text-to-sql-v1", split='train[-10%:]').remove_columns(['source', 'text']).rename_columns({'instruction': 'question', 'input': 'context', 'response': 'answer'})

dataset_ks_train = load_dataset("knowrohit07/know_sql", split='validation[:80%]')
dataset_ks_test = load_dataset("knowrohit07/know_sql", split='validation[-20%:-10%]')
dataset_ks_val = load_dataset("knowrohit07/know_sql", split='validation[-10%:]')

# Load WikiSQL dataset
dataset_wikisql = load_dataset("wikisql", trust_remote_code=True)
print(dataset_wikisql['train'][0])  # Print first sample to inspect its structure


# Extract only human-readable SQL
def extract_human_readable(example):
    if 'sql' in example and isinstance(example['sql'], dict):
        example['answer'] = example['sql'].get('human_readable', "")
    return example


dataset_wikisql_train = dataset_wikisql['train'].map(extract_human_readable)
dataset_wikisql_test = dataset_wikisql['test'].map(extract_human_readable)
dataset_wikisql_val = dataset_wikisql['validation'].map(extract_human_readable)


# Now interleave will work!
dataset = DatasetDict({
    'train': interleave_datasets([dataset_scc_train, dataset_tts_train, dataset_ks_train, dataset_wikisql_train]),
    'test': interleave_datasets([dataset_scc_test, dataset_tts_test, dataset_ks_test, dataset_wikisql_test]),
    'validation': interleave_datasets([dataset_scc_val, dataset_tts_val, dataset_ks_val, dataset_wikisql_val])
})

# Preprocess function
def preprocess_function(examples):
    inputs = examples['question']
    
    # Handle WikiSQL SQL extraction
    if isinstance(examples['answer'], dict):  
        targets = examples['answer']['human_readable']
    else:
        targets = examples['answer']
    
    model_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=128)
    labels = tokenizer(targets, padding="max_length", truncation=True, max_length=128).input_ids
    model_inputs["labels"] = labels
    return model_inputs

# Tokenize dataset
tokenized_datasets = dataset.map(preprocess_function, batched=True)

# Training settings
training_args = TrainingArguments(
    output_dir=output_dir,
    learning_rate=3e-4,
    num_train_epochs=10,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    weight_decay=0.01,
    logging_steps=100,
    evaluation_strategy='steps',
    eval_steps=1000,
    save_steps=1000,
    save_total_limit=10,
    fp16=True,
    gradient_accumulation_steps=2,
)

# Trainer
trainer = Trainer(
    model=finetuned_model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['validation'],
)

# Train model
trainer.train()

# Save model
finetuned_model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)


Resuming from saved model at: C:/Users/gshan/OneDrive/Desktop/hugging/sql-training-1741960267
{'phase': 1, 'question': 'Tell me what the notes are for South Australia ', 'table': {'header': ['State/territory', 'Text/background colour', 'Format', 'Current slogan', 'Current series', 'Notes'], 'page_title': '', 'page_id': '', 'types': ['text', 'text', 'text', 'text', 'text', 'text'], 'id': '1-1000181-1', 'section_title': '', 'caption': '', 'rows': [['Australian Capital Territory', 'blue/white', 'Yaa·nna', 'ACT · CELEBRATION OF A CENTURY 2013', 'YIL·00A', 'Slogan screenprinted on plate'], ['New South Wales', 'black/yellow', 'aa·nn·aa', 'NEW SOUTH WALES', 'BX·99·HI', 'No slogan on current series'], ['New South Wales', 'black/white', 'aaa·nna', 'NSW', 'CPX·12A', 'Optional white slimline series'], ['Northern Territory', 'ochre/white', 'Ca·nn·aa', 'NT · OUTBACK AUSTRALIA', 'CB·06·ZZ', 'New series began in June 2011'], ['Queensland', 'maroon/white', 'nnn·aaa', 'QUEENSLAND · SUNSHINE STATE', '99

Map:   0%|          | 0/56355 [00:00<?, ? examples/s]

Map:   0%|          | 0/15878 [00:00<?, ? examples/s]

Map:   0%|          | 0/8421 [00:00<?, ? examples/s]

Map:   0%|          | 0/158260 [00:00<?, ? examples/s]

Map:   0%|          | 0/19780 [00:00<?, ? examples/s]

Map:   0%|          | 0/19784 [00:00<?, ? examples/s]



  0%|          | 0/197820 [00:00<?, ?it/s]

`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...


{'loss': 0.1239, 'grad_norm': 0.6972482204437256, 'learning_rate': 0.0002998483469821049, 'epoch': 0.01}
{'loss': 0.0989, 'grad_norm': 1.3572193384170532, 'learning_rate': 0.0002996966939642099, 'epoch': 0.01}
{'loss': 0.0951, 'grad_norm': 0.34026098251342773, 'learning_rate': 0.00029954504094631477, 'epoch': 0.02}
{'loss': 0.093, 'grad_norm': 0.8909619450569153, 'learning_rate': 0.00029939338792841976, 'epoch': 0.02}
{'loss': 0.0899, 'grad_norm': 0.5701994299888611, 'learning_rate': 0.0002992417349105247, 'epoch': 0.03}
{'loss': 0.0923, 'grad_norm': 0.5431182980537415, 'learning_rate': 0.0002990900818926296, 'epoch': 0.03}
{'loss': 0.0854, 'grad_norm': 0.19641831517219543, 'learning_rate': 0.00029893842887473456, 'epoch': 0.04}
{'loss': 0.0835, 'grad_norm': 0.4144972562789917, 'learning_rate': 0.00029878677585683954, 'epoch': 0.04}
{'loss': 0.0881, 'grad_norm': 0.6343569755554199, 'learning_rate': 0.0002986351228389445, 'epoch': 0.05}
{'loss': 0.0861, 'grad_norm': 0.5599891543388367, 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.11063938587903976, 'eval_runtime': 336.1651, 'eval_samples_per_second': 58.852, 'eval_steps_per_second': 14.713, 'epoch': 0.05}
{'loss': 0.0915, 'grad_norm': 0.629114031791687, 'learning_rate': 0.00029833181680315434, 'epoch': 0.06}
{'loss': 0.0909, 'grad_norm': 0.23156139254570007, 'learning_rate': 0.0002981801637852593, 'epoch': 0.06}
{'loss': 0.0898, 'grad_norm': 0.23059941828250885, 'learning_rate': 0.00029802851076736426, 'epoch': 0.07}
{'loss': 0.0833, 'grad_norm': 0.18760037422180176, 'learning_rate': 0.0002978768577494692, 'epoch': 0.07}
{'loss': 0.0897, 'grad_norm': 0.2866458296775818, 'learning_rate': 0.00029772520473157413, 'epoch': 0.08}
{'loss': 0.0894, 'grad_norm': 0.41592538356781006, 'learning_rate': 0.00029757355171367906, 'epoch': 0.08}
{'loss': 0.0974, 'grad_norm': 0.3477771282196045, 'learning_rate': 0.00029742189869578405, 'epoch': 0.09}
{'loss': 0.0892, 'grad_norm': 0.5352734327316284, 'learning_rate': 0.000297270245677889, 'epoch': 0.09}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10860511660575867, 'eval_runtime': 322.9535, 'eval_samples_per_second': 61.26, 'eval_steps_per_second': 15.315, 'epoch': 0.1}
{'loss': 0.0869, 'grad_norm': 0.27180853486061096, 'learning_rate': 0.0002968152866242038, 'epoch': 0.11}
{'loss': 0.0837, 'grad_norm': 0.2204841673374176, 'learning_rate': 0.00029666363360630877, 'epoch': 0.11}
{'loss': 0.0882, 'grad_norm': 0.30682140588760376, 'learning_rate': 0.0002965119805884137, 'epoch': 0.12}
{'loss': 0.0851, 'grad_norm': 0.4143933355808258, 'learning_rate': 0.00029636032757051863, 'epoch': 0.12}
{'loss': 0.0906, 'grad_norm': 0.6109581589698792, 'learning_rate': 0.00029620867455262356, 'epoch': 0.13}
{'loss': 0.0857, 'grad_norm': 0.4276639521121979, 'learning_rate': 0.0002960570215347285, 'epoch': 0.13}
{'loss': 0.0817, 'grad_norm': 0.20883475244045258, 'learning_rate': 0.0002959053685168335, 'epoch': 0.14}
{'loss': 0.0841, 'grad_norm': 0.6407501697540283, 'learning_rate': 0.00029575523202911736, 'epoch': 0.14}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10780864208936691, 'eval_runtime': 321.8256, 'eval_samples_per_second': 61.474, 'eval_steps_per_second': 15.369, 'epoch': 0.15}
{'loss': 0.0857, 'grad_norm': 0.38212454319000244, 'learning_rate': 0.00029530027297543216, 'epoch': 0.16}
{'loss': 0.0853, 'grad_norm': 0.7283198237419128, 'learning_rate': 0.00029514861995753714, 'epoch': 0.16}
{'loss': 0.0866, 'grad_norm': 0.365616112947464, 'learning_rate': 0.0002949969669396421, 'epoch': 0.17}
{'loss': 0.0839, 'grad_norm': 0.5111672878265381, 'learning_rate': 0.000294845313921747, 'epoch': 0.17}
{'loss': 0.0886, 'grad_norm': 0.2679081857204437, 'learning_rate': 0.00029469366090385194, 'epoch': 0.18}
{'loss': 0.0871, 'grad_norm': 0.4616738259792328, 'learning_rate': 0.00029454200788595693, 'epoch': 0.18}
{'loss': 0.0838, 'grad_norm': 0.6468717455863953, 'learning_rate': 0.00029439035486806186, 'epoch': 0.19}
{'loss': 0.0861, 'grad_norm': 0.3427707552909851, 'learning_rate': 0.0002942387018501668, 'epoch': 0.19}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10714264214038849, 'eval_runtime': 319.799, 'eval_samples_per_second': 61.864, 'eval_steps_per_second': 15.466, 'epoch': 0.2}
{'loss': 0.0892, 'grad_norm': 0.49172043800354004, 'learning_rate': 0.00029378374279648165, 'epoch': 0.21}
{'loss': 0.0914, 'grad_norm': 0.48045557737350464, 'learning_rate': 0.0002936336063087655, 'epoch': 0.21}
{'loss': 0.0842, 'grad_norm': 0.6287020444869995, 'learning_rate': 0.00029348195329087045, 'epoch': 0.22}
{'loss': 0.0856, 'grad_norm': 1.2619060277938843, 'learning_rate': 0.0002933303002729754, 'epoch': 0.22}
{'loss': 0.0901, 'grad_norm': 0.46045830845832825, 'learning_rate': 0.0002931786472550803, 'epoch': 0.23}
{'loss': 0.0843, 'grad_norm': 1.7077343463897705, 'learning_rate': 0.0002930269942371853, 'epoch': 0.23}
{'loss': 0.0785, 'grad_norm': 0.21075256168842316, 'learning_rate': 0.00029287534121929024, 'epoch': 0.24}
{'loss': 0.085, 'grad_norm': 0.3993091285228729, 'learning_rate': 0.00029272368820139517, 'epoch': 0.24}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10554570704698563, 'eval_runtime': 284.3027, 'eval_samples_per_second': 69.588, 'eval_steps_per_second': 17.397, 'epoch': 0.25}
{'loss': 0.0786, 'grad_norm': 0.46905815601348877, 'learning_rate': 0.00029226872914771, 'epoch': 0.26}
{'loss': 0.0854, 'grad_norm': 0.3617459237575531, 'learning_rate': 0.00029211707612981496, 'epoch': 0.26}
{'loss': 0.0867, 'grad_norm': 1.1305357217788696, 'learning_rate': 0.0002919654231119199, 'epoch': 0.27}
{'loss': 0.0875, 'grad_norm': 0.4850640594959259, 'learning_rate': 0.0002918137700940248, 'epoch': 0.27}
{'loss': 0.0798, 'grad_norm': 0.5803349018096924, 'learning_rate': 0.0002916621170761298, 'epoch': 0.28}
{'loss': 0.0942, 'grad_norm': 0.4001436233520508, 'learning_rate': 0.00029151046405823474, 'epoch': 0.28}
{'loss': 0.0858, 'grad_norm': 0.2761179804801941, 'learning_rate': 0.0002913588110403397, 'epoch': 0.29}
{'loss': 0.0873, 'grad_norm': 0.40691077709198, 'learning_rate': 0.0002912071580224446, 'epoch': 0.29}
{'loss': 0.0862, 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10503078997135162, 'eval_runtime': 366.2082, 'eval_samples_per_second': 54.024, 'eval_steps_per_second': 13.506, 'epoch': 0.3}
{'loss': 0.0833, 'grad_norm': 0.4655151069164276, 'learning_rate': 0.00029075219896875946, 'epoch': 0.31}
{'loss': 0.0797, 'grad_norm': 0.20420537889003754, 'learning_rate': 0.0002906005459508644, 'epoch': 0.31}
{'loss': 0.0817, 'grad_norm': 0.2978692948818207, 'learning_rate': 0.0002904488929329693, 'epoch': 0.32}
{'loss': 0.0822, 'grad_norm': 0.9753022193908691, 'learning_rate': 0.0002902972399150743, 'epoch': 0.32}
{'loss': 0.0896, 'grad_norm': 0.486214280128479, 'learning_rate': 0.0002901455868971792, 'epoch': 0.33}
{'loss': 0.0857, 'grad_norm': 0.3696300685405731, 'learning_rate': 0.0002899939338792842, 'epoch': 0.33}
{'loss': 0.082, 'grad_norm': 0.4017859697341919, 'learning_rate': 0.0002898422808613891, 'epoch': 0.34}
{'loss': 0.0851, 'grad_norm': 0.47475665807724, 'learning_rate': 0.00028969062784349405, 'epoch': 0.34}
{'loss': 0.0776, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10405533015727997, 'eval_runtime': 287.7347, 'eval_samples_per_second': 68.758, 'eval_steps_per_second': 17.189, 'epoch': 0.35}
{'loss': 0.0802, 'grad_norm': 0.32438725233078003, 'learning_rate': 0.0002892356687898089, 'epoch': 0.36}
{'loss': 0.0904, 'grad_norm': 0.4455922842025757, 'learning_rate': 0.00028908401577191383, 'epoch': 0.36}
{'loss': 0.0888, 'grad_norm': 0.26270392537117004, 'learning_rate': 0.00028893236275401876, 'epoch': 0.37}
{'loss': 0.0848, 'grad_norm': 0.18618792295455933, 'learning_rate': 0.0002887807097361237, 'epoch': 0.37}
{'loss': 0.0918, 'grad_norm': 0.5030561685562134, 'learning_rate': 0.0002886290567182287, 'epoch': 0.38}
{'loss': 0.0836, 'grad_norm': 0.2973063588142395, 'learning_rate': 0.0002884774037003336, 'epoch': 0.38}
{'loss': 0.0822, 'grad_norm': 0.23612762987613678, 'learning_rate': 0.00028832575068243855, 'epoch': 0.39}
{'loss': 0.0818, 'grad_norm': 0.4920267164707184, 'learning_rate': 0.0002881740976645435, 'epoch': 0.39}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10428488254547119, 'eval_runtime': 286.95, 'eval_samples_per_second': 68.946, 'eval_steps_per_second': 17.236, 'epoch': 0.4}
{'loss': 0.0865, 'grad_norm': 0.46274009346961975, 'learning_rate': 0.00028771913861085833, 'epoch': 0.41}
{'loss': 0.0872, 'grad_norm': 0.4926414489746094, 'learning_rate': 0.00028756748559296327, 'epoch': 0.41}
{'loss': 0.0813, 'grad_norm': 0.2928330898284912, 'learning_rate': 0.0002874158325750682, 'epoch': 0.42}
{'loss': 0.0845, 'grad_norm': 0.2999550700187683, 'learning_rate': 0.0002872641795571732, 'epoch': 0.42}
{'loss': 0.0805, 'grad_norm': 0.26945069432258606, 'learning_rate': 0.0002871125265392781, 'epoch': 0.43}
{'loss': 0.0882, 'grad_norm': 0.4243208169937134, 'learning_rate': 0.00028696087352138305, 'epoch': 0.43}
{'loss': 0.0846, 'grad_norm': 0.5474749207496643, 'learning_rate': 0.000286810737033667, 'epoch': 0.44}
{'loss': 0.0855, 'grad_norm': 0.3019903898239136, 'learning_rate': 0.00028665908401577186, 'epoch': 0.44}
{'loss': 0.089

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10310577601194382, 'eval_runtime': 287.1806, 'eval_samples_per_second': 68.89, 'eval_steps_per_second': 17.223, 'epoch': 0.45}
{'loss': 0.0849, 'grad_norm': 0.3814740777015686, 'learning_rate': 0.0002862041249620867, 'epoch': 0.46}
{'loss': 0.0834, 'grad_norm': 0.42295655608177185, 'learning_rate': 0.00028605247194419164, 'epoch': 0.47}
{'loss': 0.0795, 'grad_norm': 0.46381714940071106, 'learning_rate': 0.0002859008189262966, 'epoch': 0.47}
{'loss': 0.0772, 'grad_norm': 0.2558308243751526, 'learning_rate': 0.00028574916590840156, 'epoch': 0.48}
{'loss': 0.0812, 'grad_norm': 0.4666707515716553, 'learning_rate': 0.0002855975128905065, 'epoch': 0.48}
{'loss': 0.085, 'grad_norm': 1.933079481124878, 'learning_rate': 0.00028544585987261143, 'epoch': 0.49}
{'loss': 0.0893, 'grad_norm': 0.44093480706214905, 'learning_rate': 0.00028529420685471636, 'epoch': 0.49}
{'loss': 0.0826, 'grad_norm': 0.30863791704177856, 'learning_rate': 0.00028514255383682135, 'epoch': 0.5}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.1023479551076889, 'eval_runtime': 288.5218, 'eval_samples_per_second': 68.57, 'eval_steps_per_second': 17.143, 'epoch': 0.51}
{'loss': 0.0797, 'grad_norm': 0.41580384969711304, 'learning_rate': 0.00028468759478313615, 'epoch': 0.51}
{'loss': 0.081, 'grad_norm': 0.3566589653491974, 'learning_rate': 0.0002845359417652411, 'epoch': 0.52}
{'loss': 0.0813, 'grad_norm': 0.6270090341567993, 'learning_rate': 0.00028438428874734607, 'epoch': 0.52}
{'loss': 0.0824, 'grad_norm': 0.21742741763591766, 'learning_rate': 0.000284232635729451, 'epoch': 0.53}
{'loss': 0.0825, 'grad_norm': 0.32126402854919434, 'learning_rate': 0.00028408098271155593, 'epoch': 0.53}
{'loss': 0.0837, 'grad_norm': 0.3430218994617462, 'learning_rate': 0.00028392932969366087, 'epoch': 0.54}
{'loss': 0.0799, 'grad_norm': 0.3724536597728729, 'learning_rate': 0.00028377919320594474, 'epoch': 0.54}
{'loss': 0.0795, 'grad_norm': 0.6460044384002686, 'learning_rate': 0.00028362754018804973, 'epoch': 0.55}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10221963375806808, 'eval_runtime': 286.9383, 'eval_samples_per_second': 68.949, 'eval_steps_per_second': 17.237, 'epoch': 0.56}
{'loss': 0.0812, 'grad_norm': 0.4620436429977417, 'learning_rate': 0.0002831725811343645, 'epoch': 0.56}
{'loss': 0.0887, 'grad_norm': 0.48794418573379517, 'learning_rate': 0.0002830209281164695, 'epoch': 0.57}
{'loss': 0.0845, 'grad_norm': 0.6490429043769836, 'learning_rate': 0.00028286927509857445, 'epoch': 0.57}
{'loss': 0.0806, 'grad_norm': 0.21775154769420624, 'learning_rate': 0.0002827176220806794, 'epoch': 0.58}
{'loss': 0.0847, 'grad_norm': 0.22880390286445618, 'learning_rate': 0.0002825659690627843, 'epoch': 0.58}
{'loss': 0.0879, 'grad_norm': 0.5623679757118225, 'learning_rate': 0.00028241431604488924, 'epoch': 0.59}
{'loss': 0.0802, 'grad_norm': 0.33072367310523987, 'learning_rate': 0.00028226266302699423, 'epoch': 0.59}
{'loss': 0.0807, 'grad_norm': 0.2286118119955063, 'learning_rate': 0.00028211101000909916, 'epoch': 0.6}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10150671005249023, 'eval_runtime': 288.2661, 'eval_samples_per_second': 68.631, 'eval_steps_per_second': 17.158, 'epoch': 0.61}
{'loss': 0.0827, 'grad_norm': 0.4469766318798065, 'learning_rate': 0.000281656050955414, 'epoch': 0.61}
{'loss': 0.0843, 'grad_norm': 0.28533267974853516, 'learning_rate': 0.00028150439793751895, 'epoch': 0.62}
{'loss': 0.0832, 'grad_norm': 0.8424987196922302, 'learning_rate': 0.0002813527449196239, 'epoch': 0.62}
{'loss': 0.083, 'grad_norm': 0.4129275381565094, 'learning_rate': 0.0002812010919017288, 'epoch': 0.63}
{'loss': 0.0841, 'grad_norm': 0.34137678146362305, 'learning_rate': 0.00028104943888383375, 'epoch': 0.63}
{'loss': 0.0829, 'grad_norm': 0.4591568112373352, 'learning_rate': 0.00028089778586593873, 'epoch': 0.64}
{'loss': 0.0841, 'grad_norm': 0.5463851690292358, 'learning_rate': 0.0002807461328480436, 'epoch': 0.64}
{'loss': 0.0853, 'grad_norm': 0.504351019859314, 'learning_rate': 0.0002805944798301486, 'epoch': 0.65}
{'loss': 0.081

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.1014431044459343, 'eval_runtime': 370.5765, 'eval_samples_per_second': 53.387, 'eval_steps_per_second': 13.347, 'epoch': 0.66}
{'loss': 0.0824, 'grad_norm': 0.3329542279243469, 'learning_rate': 0.0002801410373066424, 'epoch': 0.66}
{'loss': 0.0793, 'grad_norm': 0.42159831523895264, 'learning_rate': 0.00027998938428874733, 'epoch': 0.67}
{'loss': 0.0801, 'grad_norm': 0.5007779002189636, 'learning_rate': 0.00027983773127085226, 'epoch': 0.67}
{'loss': 0.0818, 'grad_norm': 0.2371620535850525, 'learning_rate': 0.0002796860782529572, 'epoch': 0.68}
{'loss': 0.0822, 'grad_norm': 0.43053752183914185, 'learning_rate': 0.0002795344252350622, 'epoch': 0.68}
{'loss': 0.0816, 'grad_norm': 0.7526234984397888, 'learning_rate': 0.0002793827722171671, 'epoch': 0.69}
{'loss': 0.0829, 'grad_norm': 0.43891867995262146, 'learning_rate': 0.00027923111919927205, 'epoch': 0.69}
{'loss': 0.0837, 'grad_norm': 0.35946545004844666, 'learning_rate': 0.000279079466181377, 'epoch': 0.7}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10097083449363708, 'eval_runtime': 287.4797, 'eval_samples_per_second': 68.819, 'eval_steps_per_second': 17.205, 'epoch': 0.71}
{'loss': 0.0797, 'grad_norm': 0.3965109884738922, 'learning_rate': 0.00027862450712769183, 'epoch': 0.71}
{'loss': 0.0898, 'grad_norm': 0.4951540231704712, 'learning_rate': 0.00027847285410979676, 'epoch': 0.72}
{'loss': 0.0862, 'grad_norm': 0.7325894236564636, 'learning_rate': 0.0002783212010919017, 'epoch': 0.72}
{'loss': 0.0805, 'grad_norm': 0.37290823459625244, 'learning_rate': 0.00027816954807400663, 'epoch': 0.73}
{'loss': 0.087, 'grad_norm': 0.3458169102668762, 'learning_rate': 0.0002780178950561116, 'epoch': 0.73}
{'loss': 0.0799, 'grad_norm': 0.4097956120967865, 'learning_rate': 0.00027786624203821655, 'epoch': 0.74}
{'loss': 0.0904, 'grad_norm': 0.50118488073349, 'learning_rate': 0.0002777145890203215, 'epoch': 0.74}
{'loss': 0.0791, 'grad_norm': 0.66270512342453, 'learning_rate': 0.0002775629360024264, 'epoch': 0.75}
{'loss': 0.0798,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10029631108045578, 'eval_runtime': 286.729, 'eval_samples_per_second': 68.999, 'eval_steps_per_second': 17.25, 'epoch': 0.76}
{'loss': 0.0808, 'grad_norm': 1.351538896560669, 'learning_rate': 0.00027710797694874127, 'epoch': 0.76}
{'loss': 0.0833, 'grad_norm': 0.4034728705883026, 'learning_rate': 0.0002769563239308462, 'epoch': 0.77}
{'loss': 0.0867, 'grad_norm': 0.28239211440086365, 'learning_rate': 0.00027680467091295113, 'epoch': 0.77}
{'loss': 0.0836, 'grad_norm': 0.30965709686279297, 'learning_rate': 0.00027665301789505607, 'epoch': 0.78}
{'loss': 0.0788, 'grad_norm': 0.9073730707168579, 'learning_rate': 0.000276501364877161, 'epoch': 0.78}
{'loss': 0.0819, 'grad_norm': 0.5204377174377441, 'learning_rate': 0.000276349711859266, 'epoch': 0.79}
{'loss': 0.0881, 'grad_norm': 0.2899729311466217, 'learning_rate': 0.00027619957537154986, 'epoch': 0.79}
{'loss': 0.0828, 'grad_norm': 0.3801783323287964, 'learning_rate': 0.0002760479223536548, 'epoch': 0.8}
{'loss': 0.0813,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.10018497705459595, 'eval_runtime': 287.171, 'eval_samples_per_second': 68.893, 'eval_steps_per_second': 17.223, 'epoch': 0.81}
{'loss': 0.0847, 'grad_norm': 0.3747895061969757, 'learning_rate': 0.00027559296329996964, 'epoch': 0.81}
{'loss': 0.0787, 'grad_norm': 0.1907908171415329, 'learning_rate': 0.0002754413102820746, 'epoch': 0.82}
{'loss': 0.0831, 'grad_norm': 0.611848771572113, 'learning_rate': 0.00027528965726417956, 'epoch': 0.82}
{'loss': 0.0822, 'grad_norm': 0.379119336605072, 'learning_rate': 0.0002751380042462845, 'epoch': 0.83}
{'loss': 0.0775, 'grad_norm': 0.2949307858943939, 'learning_rate': 0.00027498635122838943, 'epoch': 0.83}
{'loss': 0.0908, 'grad_norm': 0.4901881814002991, 'learning_rate': 0.00027483469821049436, 'epoch': 0.84}
{'loss': 0.0875, 'grad_norm': 0.47508007287979126, 'learning_rate': 0.0002746830451925993, 'epoch': 0.84}
{'loss': 0.0774, 'grad_norm': 0.5764361619949341, 'learning_rate': 0.0002745313921747043, 'epoch': 0.85}
{'loss': 0.078

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09980490058660507, 'eval_runtime': 287.0168, 'eval_samples_per_second': 68.93, 'eval_steps_per_second': 17.232, 'epoch': 0.86}
{'loss': 0.087, 'grad_norm': 0.24349719285964966, 'learning_rate': 0.0002740764331210191, 'epoch': 0.86}
{'loss': 0.0813, 'grad_norm': 0.3732900321483612, 'learning_rate': 0.00027392478010312407, 'epoch': 0.87}
{'loss': 0.086, 'grad_norm': 0.2714771032333374, 'learning_rate': 0.00027377312708522895, 'epoch': 0.87}
{'loss': 0.0791, 'grad_norm': 0.23848780989646912, 'learning_rate': 0.00027362147406733393, 'epoch': 0.88}
{'loss': 0.0819, 'grad_norm': 0.20553863048553467, 'learning_rate': 0.00027346982104943887, 'epoch': 0.88}
{'loss': 0.0821, 'grad_norm': 0.6878117322921753, 'learning_rate': 0.0002733181680315438, 'epoch': 0.89}
{'loss': 0.0825, 'grad_norm': 0.28144896030426025, 'learning_rate': 0.00027316651501364873, 'epoch': 0.89}
{'loss': 0.0789, 'grad_norm': 0.41776350140571594, 'learning_rate': 0.00027301486199575366, 'epoch': 0.9}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0998663604259491, 'eval_runtime': 288.3627, 'eval_samples_per_second': 68.608, 'eval_steps_per_second': 17.152, 'epoch': 0.91}
{'loss': 0.0855, 'grad_norm': 0.9652226567268372, 'learning_rate': 0.0002725599029420685, 'epoch': 0.91}
{'loss': 0.0816, 'grad_norm': 0.32644131779670715, 'learning_rate': 0.00027240824992417345, 'epoch': 0.92}
{'loss': 0.0764, 'grad_norm': 0.257461279630661, 'learning_rate': 0.00027225659690627844, 'epoch': 0.93}
{'loss': 0.0835, 'grad_norm': 0.5366211533546448, 'learning_rate': 0.00027210494388838337, 'epoch': 0.93}
{'loss': 0.0835, 'grad_norm': 0.41301390528678894, 'learning_rate': 0.0002719532908704883, 'epoch': 0.94}
{'loss': 0.0807, 'grad_norm': 0.40387848019599915, 'learning_rate': 0.00027180163785259324, 'epoch': 0.94}
{'loss': 0.0894, 'grad_norm': 0.4064106345176697, 'learning_rate': 0.0002716515013648771, 'epoch': 0.95}
{'loss': 0.0774, 'grad_norm': 0.2229039967060089, 'learning_rate': 0.0002714998483469821, 'epoch': 0.95}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0988571047782898, 'eval_runtime': 352.2966, 'eval_samples_per_second': 56.157, 'eval_steps_per_second': 14.039, 'epoch': 0.96}
{'loss': 0.0802, 'grad_norm': 0.47268107533454895, 'learning_rate': 0.0002710448892932969, 'epoch': 0.97}
{'loss': 0.0842, 'grad_norm': 0.3589629828929901, 'learning_rate': 0.00027089323627540183, 'epoch': 0.97}
{'loss': 0.0771, 'grad_norm': 3.091994524002075, 'learning_rate': 0.0002707415832575068, 'epoch': 0.98}
{'loss': 0.0774, 'grad_norm': 0.5109319686889648, 'learning_rate': 0.00027058993023961175, 'epoch': 0.98}
{'loss': 0.0821, 'grad_norm': 0.2755267918109894, 'learning_rate': 0.0002704382772217167, 'epoch': 0.99}
{'loss': 0.0806, 'grad_norm': 0.47893181443214417, 'learning_rate': 0.0002702866242038216, 'epoch': 0.99}
{'loss': 0.08, 'grad_norm': 0.36110907793045044, 'learning_rate': 0.0002701349711859266, 'epoch': 1.0}
{'loss': 0.0767, 'grad_norm': 0.3658459186553955, 'learning_rate': 0.00026998331816803153, 'epoch': 1.0}
{'loss': 0.0702,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09936167299747467, 'eval_runtime': 357.2371, 'eval_samples_per_second': 55.381, 'eval_steps_per_second': 13.845, 'epoch': 1.01}
{'loss': 0.0782, 'grad_norm': 0.3881179690361023, 'learning_rate': 0.00026952835911434633, 'epoch': 1.02}
{'loss': 0.075, 'grad_norm': 0.33873486518859863, 'learning_rate': 0.0002693767060964513, 'epoch': 1.02}
{'loss': 0.0699, 'grad_norm': 0.45166826248168945, 'learning_rate': 0.00026922505307855625, 'epoch': 1.03}
{'loss': 0.074, 'grad_norm': 0.40932580828666687, 'learning_rate': 0.0002690734000606612, 'epoch': 1.03}
{'loss': 0.0733, 'grad_norm': 0.25707006454467773, 'learning_rate': 0.0002689217470427661, 'epoch': 1.04}
{'loss': 0.0766, 'grad_norm': 0.6587148904800415, 'learning_rate': 0.00026877009402487105, 'epoch': 1.04}
{'loss': 0.0697, 'grad_norm': 0.7942625880241394, 'learning_rate': 0.00026861844100697604, 'epoch': 1.05}
{'loss': 0.072, 'grad_norm': 0.6919219493865967, 'learning_rate': 0.00026846678798908097, 'epoch': 1.05}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09956680238246918, 'eval_runtime': 325.3348, 'eval_samples_per_second': 60.811, 'eval_steps_per_second': 15.203, 'epoch': 1.06}
{'loss': 0.0755, 'grad_norm': 1.29787278175354, 'learning_rate': 0.0002680118289353958, 'epoch': 1.07}
{'loss': 0.0707, 'grad_norm': 0.3815569579601288, 'learning_rate': 0.0002678601759175007, 'epoch': 1.07}
{'loss': 0.0718, 'grad_norm': 0.276161253452301, 'learning_rate': 0.0002677085228996057, 'epoch': 1.08}
{'loss': 0.0737, 'grad_norm': 0.34880468249320984, 'learning_rate': 0.0002675568698817106, 'epoch': 1.08}
{'loss': 0.0803, 'grad_norm': 0.4326828718185425, 'learning_rate': 0.00026740521686381555, 'epoch': 1.09}
{'loss': 0.0726, 'grad_norm': 0.44380080699920654, 'learning_rate': 0.00026725356384592054, 'epoch': 1.09}
{'loss': 0.0686, 'grad_norm': 0.27675479650497437, 'learning_rate': 0.0002671019108280254, 'epoch': 1.1}
{'loss': 0.0759, 'grad_norm': 0.4072694480419159, 'learning_rate': 0.0002669502578101304, 'epoch': 1.1}
{'loss': 0.0728,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09949754923582077, 'eval_runtime': 327.1932, 'eval_samples_per_second': 60.466, 'eval_steps_per_second': 15.116, 'epoch': 1.11}
{'loss': 0.0721, 'grad_norm': 0.6650486588478088, 'learning_rate': 0.0002664968152866242, 'epoch': 1.12}
{'loss': 0.0688, 'grad_norm': 0.24964158236980438, 'learning_rate': 0.00026634516226872913, 'epoch': 1.12}
{'loss': 0.0765, 'grad_norm': 0.20554281771183014, 'learning_rate': 0.00026619350925083407, 'epoch': 1.13}
{'loss': 0.0708, 'grad_norm': 1.1691690683364868, 'learning_rate': 0.000266041856232939, 'epoch': 1.13}
{'loss': 0.0748, 'grad_norm': 0.6418821811676025, 'learning_rate': 0.000265890203215044, 'epoch': 1.14}
{'loss': 0.0699, 'grad_norm': 0.3982613980770111, 'learning_rate': 0.0002657385501971489, 'epoch': 1.14}
{'loss': 0.0718, 'grad_norm': 0.8498508334159851, 'learning_rate': 0.00026558689717925385, 'epoch': 1.15}
{'loss': 0.0712, 'grad_norm': 0.45008260011672974, 'learning_rate': 0.0002654352441613588, 'epoch': 1.15}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09896951913833618, 'eval_runtime': 351.7153, 'eval_samples_per_second': 56.25, 'eval_steps_per_second': 14.063, 'epoch': 1.16}
{'loss': 0.0765, 'grad_norm': 0.20286759734153748, 'learning_rate': 0.0002649802851076736, 'epoch': 1.17}
{'loss': 0.0709, 'grad_norm': 0.22719766199588776, 'learning_rate': 0.00026482863208977857, 'epoch': 1.17}
{'loss': 0.0737, 'grad_norm': 0.4213200807571411, 'learning_rate': 0.0002646769790718835, 'epoch': 1.18}
{'loss': 0.0721, 'grad_norm': 0.5737893581390381, 'learning_rate': 0.0002645253260539885, 'epoch': 1.18}
{'loss': 0.0714, 'grad_norm': 0.4893808364868164, 'learning_rate': 0.00026437367303609337, 'epoch': 1.19}
{'loss': 0.075, 'grad_norm': 0.4605332911014557, 'learning_rate': 0.00026422202001819835, 'epoch': 1.19}
{'loss': 0.0751, 'grad_norm': 0.4628751873970032, 'learning_rate': 0.0002640703670003033, 'epoch': 1.2}
{'loss': 0.0739, 'grad_norm': 0.2968938648700714, 'learning_rate': 0.0002639187139824082, 'epoch': 1.2}
{'loss': 0.0723

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0985913947224617, 'eval_runtime': 327.6808, 'eval_samples_per_second': 60.376, 'eval_steps_per_second': 15.094, 'epoch': 1.21}
{'loss': 0.0709, 'grad_norm': 0.22783155739307404, 'learning_rate': 0.00026346375492872307, 'epoch': 1.22}
{'loss': 0.0704, 'grad_norm': 0.4874059855937958, 'learning_rate': 0.000263312101910828, 'epoch': 1.22}
{'loss': 0.0707, 'grad_norm': 0.6049305200576782, 'learning_rate': 0.0002631619654231119, 'epoch': 1.23}
{'loss': 0.0724, 'grad_norm': 0.30797630548477173, 'learning_rate': 0.00026301031240521687, 'epoch': 1.23}
{'loss': 0.0781, 'grad_norm': 0.5229498744010925, 'learning_rate': 0.00026285865938732175, 'epoch': 1.24}
{'loss': 0.0708, 'grad_norm': 0.37709131836891174, 'learning_rate': 0.00026270700636942673, 'epoch': 1.24}
{'loss': 0.0755, 'grad_norm': 0.27338021993637085, 'learning_rate': 0.00026255535335153166, 'epoch': 1.25}
{'loss': 0.0744, 'grad_norm': 0.3702864348888397, 'learning_rate': 0.0002624037003336366, 'epoch': 1.25}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09889864176511765, 'eval_runtime': 288.1408, 'eval_samples_per_second': 68.661, 'eval_steps_per_second': 17.165, 'epoch': 1.26}
{'loss': 0.0791, 'grad_norm': 0.332348108291626, 'learning_rate': 0.00026194874127995145, 'epoch': 1.27}
{'loss': 0.0755, 'grad_norm': 0.28400295972824097, 'learning_rate': 0.0002617970882620564, 'epoch': 1.27}
{'loss': 0.0732, 'grad_norm': 0.27574485540390015, 'learning_rate': 0.00026164543524416137, 'epoch': 1.28}
{'loss': 0.0768, 'grad_norm': 0.2759280502796173, 'learning_rate': 0.00026149378222626625, 'epoch': 1.28}
{'loss': 0.0724, 'grad_norm': 0.2817954421043396, 'learning_rate': 0.00026134212920837124, 'epoch': 1.29}
{'loss': 0.075, 'grad_norm': 0.5997423529624939, 'learning_rate': 0.00026119047619047617, 'epoch': 1.29}
{'loss': 0.0754, 'grad_norm': 0.3933640122413635, 'learning_rate': 0.0002610388231725811, 'epoch': 1.3}
{'loss': 0.0757, 'grad_norm': 0.43464329838752747, 'learning_rate': 0.00026088717015468603, 'epoch': 1.3}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09901781380176544, 'eval_runtime': 288.1574, 'eval_samples_per_second': 68.657, 'eval_steps_per_second': 17.164, 'epoch': 1.31}
{'loss': 0.0754, 'grad_norm': 0.2049804925918579, 'learning_rate': 0.0002604322111010009, 'epoch': 1.32}
{'loss': 0.0758, 'grad_norm': 0.38635310530662537, 'learning_rate': 0.0002602805580831058, 'epoch': 1.32}
{'loss': 0.0724, 'grad_norm': 0.22868703305721283, 'learning_rate': 0.00026012890506521075, 'epoch': 1.33}
{'loss': 0.0767, 'grad_norm': 0.25008729100227356, 'learning_rate': 0.00025997725204731574, 'epoch': 1.33}
{'loss': 0.0699, 'grad_norm': 0.2590944170951843, 'learning_rate': 0.00025982559902942067, 'epoch': 1.34}
{'loss': 0.0715, 'grad_norm': 0.23237216472625732, 'learning_rate': 0.0002596739460115256, 'epoch': 1.34}
{'loss': 0.0697, 'grad_norm': 0.5007335543632507, 'learning_rate': 0.00025952229299363054, 'epoch': 1.35}
{'loss': 0.0756, 'grad_norm': 0.578769326210022, 'learning_rate': 0.00025937063997573547, 'epoch': 1.35}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.098836749792099, 'eval_runtime': 325.305, 'eval_samples_per_second': 60.817, 'eval_steps_per_second': 15.204, 'epoch': 1.36}
{'loss': 0.0709, 'grad_norm': 0.33068645000457764, 'learning_rate': 0.0002589156809220503, 'epoch': 1.37}
{'loss': 0.071, 'grad_norm': 0.3200649619102478, 'learning_rate': 0.00025876402790415526, 'epoch': 1.37}
{'loss': 0.0723, 'grad_norm': 0.45893874764442444, 'learning_rate': 0.00025861237488626024, 'epoch': 1.38}
{'loss': 0.0795, 'grad_norm': 0.22445333003997803, 'learning_rate': 0.0002584607218683652, 'epoch': 1.39}
{'loss': 0.0733, 'grad_norm': 0.6527634859085083, 'learning_rate': 0.0002583090688504701, 'epoch': 1.39}
{'loss': 0.076, 'grad_norm': 0.492996484041214, 'learning_rate': 0.00025815741583257504, 'epoch': 1.4}
{'loss': 0.0729, 'grad_norm': 0.3585416078567505, 'learning_rate': 0.00025800576281468, 'epoch': 1.4}
{'loss': 0.0757, 'grad_norm': 0.45942968130111694, 'learning_rate': 0.00025785410979678496, 'epoch': 1.41}
{'loss': 0.0755, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09938456863164902, 'eval_runtime': 326.6389, 'eval_samples_per_second': 60.568, 'eval_steps_per_second': 15.142, 'epoch': 1.42}
{'loss': 0.0761, 'grad_norm': 0.31871625781059265, 'learning_rate': 0.00025739915074309976, 'epoch': 1.42}
{'loss': 0.0741, 'grad_norm': 0.2339257448911667, 'learning_rate': 0.00025724749772520475, 'epoch': 1.43}
{'loss': 0.0749, 'grad_norm': 0.3568494915962219, 'learning_rate': 0.0002570973612374886, 'epoch': 1.43}
{'loss': 0.0704, 'grad_norm': 0.26536431908607483, 'learning_rate': 0.00025694570821959355, 'epoch': 1.44}
{'loss': 0.0727, 'grad_norm': 0.36498644948005676, 'learning_rate': 0.0002567940552016985, 'epoch': 1.44}
{'loss': 0.0744, 'grad_norm': 0.27013498544692993, 'learning_rate': 0.0002566424021838034, 'epoch': 1.45}
{'loss': 0.0773, 'grad_norm': 0.4228367209434509, 'learning_rate': 0.0002564907491659084, 'epoch': 1.45}
{'loss': 0.0761, 'grad_norm': 0.18791528046131134, 'learning_rate': 0.00025633909614801334, 'epoch': 1.46}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09820422530174255, 'eval_runtime': 380.7706, 'eval_samples_per_second': 51.958, 'eval_steps_per_second': 12.989, 'epoch': 1.47}
{'loss': 0.0743, 'grad_norm': 0.5205687880516052, 'learning_rate': 0.00025588413709432814, 'epoch': 1.47}
{'loss': 0.0758, 'grad_norm': 0.3178185224533081, 'learning_rate': 0.0002557324840764331, 'epoch': 1.48}
{'loss': 0.0735, 'grad_norm': 0.4592171013355255, 'learning_rate': 0.000255580831058538, 'epoch': 1.48}
{'loss': 0.0696, 'grad_norm': 0.28471335768699646, 'learning_rate': 0.000255429178040643, 'epoch': 1.49}
{'loss': 0.0746, 'grad_norm': 0.32645949721336365, 'learning_rate': 0.0002552775250227479, 'epoch': 1.49}
{'loss': 0.0722, 'grad_norm': 0.2149510532617569, 'learning_rate': 0.0002551258720048529, 'epoch': 1.5}
{'loss': 0.0699, 'grad_norm': 0.34246206283569336, 'learning_rate': 0.00025497421898695784, 'epoch': 1.5}
{'loss': 0.0716, 'grad_norm': 0.6131591796875, 'learning_rate': 0.0002548225659690628, 'epoch': 1.51}
{'loss': 0.0727, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09811712801456451, 'eval_runtime': 383.7076, 'eval_samples_per_second': 51.56, 'eval_steps_per_second': 12.89, 'epoch': 1.52}
{'loss': 0.0752, 'grad_norm': 0.4364089369773865, 'learning_rate': 0.0002543676069153776, 'epoch': 1.52}
{'loss': 0.0702, 'grad_norm': 0.9301714301109314, 'learning_rate': 0.0002542159538974825, 'epoch': 1.53}
{'loss': 0.0764, 'grad_norm': 0.5163729190826416, 'learning_rate': 0.0002540643008795875, 'epoch': 1.53}
{'loss': 0.0764, 'grad_norm': 0.2447453886270523, 'learning_rate': 0.00025391416439187137, 'epoch': 1.54}
{'loss': 0.0779, 'grad_norm': 0.7062402963638306, 'learning_rate': 0.0002537625113739763, 'epoch': 1.54}
{'loss': 0.071, 'grad_norm': 0.3551272749900818, 'learning_rate': 0.0002536108583560813, 'epoch': 1.55}
{'loss': 0.0682, 'grad_norm': 0.21286241710186005, 'learning_rate': 0.0002534592053381862, 'epoch': 1.55}
{'loss': 0.0725, 'grad_norm': 0.1814853549003601, 'learning_rate': 0.00025330755232029115, 'epoch': 1.56}
{'loss': 0.0749,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0980234369635582, 'eval_runtime': 378.8809, 'eval_samples_per_second': 52.217, 'eval_steps_per_second': 13.054, 'epoch': 1.57}
{'loss': 0.0726, 'grad_norm': 0.365960031747818, 'learning_rate': 0.000252852593266606, 'epoch': 1.57}
{'loss': 0.073, 'grad_norm': 0.2762569785118103, 'learning_rate': 0.00025270094024871094, 'epoch': 1.58}
{'loss': 0.0729, 'grad_norm': 0.5103726983070374, 'learning_rate': 0.00025254928723081587, 'epoch': 1.58}
{'loss': 0.0755, 'grad_norm': 0.38975417613983154, 'learning_rate': 0.0002523976342129208, 'epoch': 1.59}
{'loss': 0.0741, 'grad_norm': 0.34946176409721375, 'learning_rate': 0.0002522459811950258, 'epoch': 1.59}
{'loss': 0.0742, 'grad_norm': 0.46304434537887573, 'learning_rate': 0.00025209432817713067, 'epoch': 1.6}
{'loss': 0.0743, 'grad_norm': 0.46564456820487976, 'learning_rate': 0.00025194267515923566, 'epoch': 1.6}
{'loss': 0.0738, 'grad_norm': 0.42473044991493225, 'learning_rate': 0.0002517910221413406, 'epoch': 1.61}
{'loss': 0.07

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0980970710515976, 'eval_runtime': 376.7067, 'eval_samples_per_second': 52.518, 'eval_steps_per_second': 13.13, 'epoch': 1.62}
{'loss': 0.079, 'grad_norm': 0.35099005699157715, 'learning_rate': 0.00025133606308765544, 'epoch': 1.62}
{'loss': 0.0719, 'grad_norm': 0.3068920373916626, 'learning_rate': 0.0002511844100697604, 'epoch': 1.63}
{'loss': 0.0693, 'grad_norm': 0.5448665618896484, 'learning_rate': 0.0002510327570518653, 'epoch': 1.63}
{'loss': 0.0741, 'grad_norm': 0.3668864071369171, 'learning_rate': 0.0002508811040339703, 'epoch': 1.64}
{'loss': 0.0704, 'grad_norm': 0.29280149936676025, 'learning_rate': 0.00025073096754625417, 'epoch': 1.64}
{'loss': 0.0751, 'grad_norm': 0.31563013792037964, 'learning_rate': 0.0002505793145283591, 'epoch': 1.65}
{'loss': 0.0724, 'grad_norm': 0.5827651023864746, 'learning_rate': 0.00025042766151046403, 'epoch': 1.65}
{'loss': 0.0718, 'grad_norm': 0.3706512749195099, 'learning_rate': 0.00025027600849256897, 'epoch': 1.66}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0979989767074585, 'eval_runtime': 379.6945, 'eval_samples_per_second': 52.105, 'eval_steps_per_second': 13.026, 'epoch': 1.67}
{'loss': 0.0792, 'grad_norm': 0.4207356572151184, 'learning_rate': 0.0002498210494388838, 'epoch': 1.67}
{'loss': 0.078, 'grad_norm': 0.38161882758140564, 'learning_rate': 0.00024966939642098875, 'epoch': 1.68}
{'loss': 0.0757, 'grad_norm': 0.4230775535106659, 'learning_rate': 0.0002495177434030937, 'epoch': 1.68}
{'loss': 0.071, 'grad_norm': 0.14347727596759796, 'learning_rate': 0.00024936609038519867, 'epoch': 1.69}
{'loss': 0.072, 'grad_norm': 0.3929672837257385, 'learning_rate': 0.00024921443736730355, 'epoch': 1.69}
{'loss': 0.0716, 'grad_norm': 0.31628483533859253, 'learning_rate': 0.00024906278434940854, 'epoch': 1.7}
{'loss': 0.0769, 'grad_norm': 0.40119683742523193, 'learning_rate': 0.00024891113133151347, 'epoch': 1.7}
{'loss': 0.0731, 'grad_norm': 0.27505433559417725, 'learning_rate': 0.00024875947831361846, 'epoch': 1.71}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09725134819746017, 'eval_runtime': 348.5781, 'eval_samples_per_second': 56.756, 'eval_steps_per_second': 14.189, 'epoch': 1.72}
{'loss': 0.0733, 'grad_norm': 1.9637877941131592, 'learning_rate': 0.00024830451925993326, 'epoch': 1.72}
{'loss': 0.0768, 'grad_norm': 0.5699719786643982, 'learning_rate': 0.0002481528662420382, 'epoch': 1.73}
{'loss': 0.0751, 'grad_norm': 0.6025975346565247, 'learning_rate': 0.0002480012132241431, 'epoch': 1.73}
{'loss': 0.0793, 'grad_norm': 0.3329055905342102, 'learning_rate': 0.00024784956020624805, 'epoch': 1.74}
{'loss': 0.0735, 'grad_norm': 0.17262957990169525, 'learning_rate': 0.00024769790718835304, 'epoch': 1.74}
{'loss': 0.0708, 'grad_norm': 1.1408931016921997, 'learning_rate': 0.000247546254170458, 'epoch': 1.75}
{'loss': 0.0812, 'grad_norm': 0.33102431893348694, 'learning_rate': 0.0002473946011525629, 'epoch': 1.75}
{'loss': 0.0807, 'grad_norm': 0.6216120719909668, 'learning_rate': 0.00024724446466484684, 'epoch': 1.76}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09732620418071747, 'eval_runtime': 373.8071, 'eval_samples_per_second': 52.926, 'eval_steps_per_second': 13.231, 'epoch': 1.77}
{'loss': 0.0742, 'grad_norm': 1.2556300163269043, 'learning_rate': 0.00024678950561116163, 'epoch': 1.77}
{'loss': 0.0769, 'grad_norm': 0.3488636910915375, 'learning_rate': 0.0002466378525932666, 'epoch': 1.78}
{'loss': 0.0748, 'grad_norm': 0.4362245202064514, 'learning_rate': 0.0002464861995753715, 'epoch': 1.78}
{'loss': 0.0764, 'grad_norm': 0.6129857301712036, 'learning_rate': 0.0002463345465574765, 'epoch': 1.79}
{'loss': 0.076, 'grad_norm': 0.3279414474964142, 'learning_rate': 0.0002461828935395814, 'epoch': 1.79}
{'loss': 0.0722, 'grad_norm': 0.45973482728004456, 'learning_rate': 0.00024603124052168635, 'epoch': 1.8}
{'loss': 0.0708, 'grad_norm': 0.30979394912719727, 'learning_rate': 0.00024587958750379134, 'epoch': 1.8}
{'loss': 0.0698, 'grad_norm': 0.29614362120628357, 'learning_rate': 0.0002457279344858962, 'epoch': 1.81}
{'loss': 0.07

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09669046103954315, 'eval_runtime': 337.0353, 'eval_samples_per_second': 58.7, 'eval_steps_per_second': 14.675, 'epoch': 1.82}
{'loss': 0.0748, 'grad_norm': 0.25518599152565, 'learning_rate': 0.00024527297543221107, 'epoch': 1.82}
{'loss': 0.0721, 'grad_norm': 0.5082095861434937, 'learning_rate': 0.000245121322414316, 'epoch': 1.83}
{'loss': 0.0714, 'grad_norm': 0.438300758600235, 'learning_rate': 0.000244969669396421, 'epoch': 1.83}
{'loss': 0.0778, 'grad_norm': 0.35615742206573486, 'learning_rate': 0.0002448180163785259, 'epoch': 1.84}
{'loss': 0.0749, 'grad_norm': 0.6080300211906433, 'learning_rate': 0.00024466636336063086, 'epoch': 1.85}
{'loss': 0.0727, 'grad_norm': 0.3257460594177246, 'learning_rate': 0.0002445147103427358, 'epoch': 1.85}
{'loss': 0.0711, 'grad_norm': 0.2845211923122406, 'learning_rate': 0.0002443630573248407, 'epoch': 1.86}
{'loss': 0.0733, 'grad_norm': 0.2650785744190216, 'learning_rate': 0.0002442114043069457, 'epoch': 1.86}
{'loss': 0.0716, 'gr

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09670667350292206, 'eval_runtime': 323.425, 'eval_samples_per_second': 61.17, 'eval_steps_per_second': 15.293, 'epoch': 1.87}
{'loss': 0.075, 'grad_norm': 0.29446175694465637, 'learning_rate': 0.00024375796178343947, 'epoch': 1.88}
{'loss': 0.074, 'grad_norm': 0.3570672571659088, 'learning_rate': 0.0002436063087655444, 'epoch': 1.88}
{'loss': 0.0733, 'grad_norm': 0.3640771508216858, 'learning_rate': 0.00024345465574764934, 'epoch': 1.89}
{'loss': 0.0699, 'grad_norm': 0.33268678188323975, 'learning_rate': 0.0002433030027297543, 'epoch': 1.89}
{'loss': 0.0708, 'grad_norm': 0.3598884046077728, 'learning_rate': 0.00024315134971185926, 'epoch': 1.9}
{'loss': 0.077, 'grad_norm': 0.5791612863540649, 'learning_rate': 0.00024299969669396417, 'epoch': 1.9}
{'loss': 0.0731, 'grad_norm': 0.5254408121109009, 'learning_rate': 0.00024284804367606913, 'epoch': 1.91}
{'loss': 0.0729, 'grad_norm': 0.48134514689445496, 'learning_rate': 0.00024269639065817409, 'epoch': 1.91}
{'loss': 0.073

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09641661494970322, 'eval_runtime': 276.6457, 'eval_samples_per_second': 71.514, 'eval_steps_per_second': 17.878, 'epoch': 1.92}
{'loss': 0.0702, 'grad_norm': 0.31116753816604614, 'learning_rate': 0.0002422414316044889, 'epoch': 1.93}
{'loss': 0.0738, 'grad_norm': 0.3816644549369812, 'learning_rate': 0.00024208977858659384, 'epoch': 1.93}
{'loss': 0.0709, 'grad_norm': 0.27709272503852844, 'learning_rate': 0.0002419381255686988, 'epoch': 1.94}
{'loss': 0.0746, 'grad_norm': 1.3240156173706055, 'learning_rate': 0.00024178647255080376, 'epoch': 1.94}
{'loss': 0.0747, 'grad_norm': 0.2502650320529938, 'learning_rate': 0.00024163481953290867, 'epoch': 1.95}
{'loss': 0.0706, 'grad_norm': 0.33513158559799194, 'learning_rate': 0.00024148316651501363, 'epoch': 1.95}
{'loss': 0.0744, 'grad_norm': 0.19840316474437714, 'learning_rate': 0.0002413315134971186, 'epoch': 1.96}
{'loss': 0.0779, 'grad_norm': 0.29662269353866577, 'learning_rate': 0.00024117986047922352, 'epoch': 1.96}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09646296501159668, 'eval_runtime': 351.8363, 'eval_samples_per_second': 56.231, 'eval_steps_per_second': 14.058, 'epoch': 1.97}
{'loss': 0.0732, 'grad_norm': 0.3794555366039276, 'learning_rate': 0.0002407264179557173, 'epoch': 1.98}
{'loss': 0.0762, 'grad_norm': 0.280976265668869, 'learning_rate': 0.00024057476493782225, 'epoch': 1.98}
{'loss': 0.0715, 'grad_norm': 0.6583414673805237, 'learning_rate': 0.00024042311191992718, 'epoch': 1.99}
{'loss': 0.0716, 'grad_norm': 0.31494566798210144, 'learning_rate': 0.00024027145890203214, 'epoch': 1.99}
{'loss': 0.0726, 'grad_norm': 0.3041662573814392, 'learning_rate': 0.00024011980588413707, 'epoch': 2.0}
{'loss': 0.0726, 'grad_norm': 0.36543044447898865, 'learning_rate': 0.000239968152866242, 'epoch': 2.0}
{'loss': 0.0693, 'grad_norm': 0.31643757224082947, 'learning_rate': 0.00023981649984834697, 'epoch': 2.01}
{'loss': 0.0627, 'grad_norm': 0.4468275308609009, 'learning_rate': 0.00023966484683045193, 'epoch': 2.01}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09689793735742569, 'eval_runtime': 352.7567, 'eval_samples_per_second': 56.084, 'eval_steps_per_second': 14.021, 'epoch': 2.02}
{'loss': 0.0724, 'grad_norm': 0.30915549397468567, 'learning_rate': 0.00023920988777676675, 'epoch': 2.03}
{'loss': 0.0681, 'grad_norm': 0.5768367052078247, 'learning_rate': 0.00023905823475887169, 'epoch': 2.03}
{'loss': 0.0659, 'grad_norm': 0.30074408650398254, 'learning_rate': 0.00023890658174097662, 'epoch': 2.04}
{'loss': 0.0625, 'grad_norm': 0.3540814220905304, 'learning_rate': 0.00023875492872308155, 'epoch': 2.04}
{'loss': 0.0674, 'grad_norm': 0.3994563817977905, 'learning_rate': 0.0002386032757051865, 'epoch': 2.05}
{'loss': 0.0622, 'grad_norm': 0.4696301519870758, 'learning_rate': 0.00023845162268729147, 'epoch': 2.05}
{'loss': 0.0661, 'grad_norm': 0.3744763433933258, 'learning_rate': 0.00023829996966939638, 'epoch': 2.06}
{'loss': 0.0677, 'grad_norm': 0.5234074592590332, 'learning_rate': 0.00023814831665150134, 'epoch': 2.06}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09703941643238068, 'eval_runtime': 324.814, 'eval_samples_per_second': 60.909, 'eval_steps_per_second': 15.227, 'epoch': 2.07}
{'loss': 0.0657, 'grad_norm': 0.5634976029396057, 'learning_rate': 0.0002376933575978162, 'epoch': 2.08}
{'loss': 0.0636, 'grad_norm': 0.28639253973960876, 'learning_rate': 0.00023754170457992112, 'epoch': 2.08}
{'loss': 0.0718, 'grad_norm': 0.434467077255249, 'learning_rate': 0.000237391568092205, 'epoch': 2.09}
{'loss': 0.064, 'grad_norm': 0.4192724823951721, 'learning_rate': 0.00023723991507430996, 'epoch': 2.09}
{'loss': 0.0703, 'grad_norm': 0.8126155138015747, 'learning_rate': 0.0002370882620564149, 'epoch': 2.1}
{'loss': 0.0664, 'grad_norm': 0.3344306945800781, 'learning_rate': 0.00023693660903851985, 'epoch': 2.1}
{'loss': 0.0657, 'grad_norm': 0.7679035663604736, 'learning_rate': 0.00023678647255080375, 'epoch': 2.11}
{'loss': 0.0687, 'grad_norm': 0.4961528480052948, 'learning_rate': 0.00023663481953290868, 'epoch': 2.11}
{'loss': 0.0657,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09682245552539825, 'eval_runtime': 323.7432, 'eval_samples_per_second': 61.11, 'eval_steps_per_second': 15.278, 'epoch': 2.12}
{'loss': 0.0653, 'grad_norm': 0.26052260398864746, 'learning_rate': 0.0002361798604792235, 'epoch': 2.13}
{'loss': 0.0669, 'grad_norm': 0.30533239245414734, 'learning_rate': 0.00023602820746132847, 'epoch': 2.13}
{'loss': 0.071, 'grad_norm': 0.2785387933254242, 'learning_rate': 0.00023587655444343343, 'epoch': 2.14}
{'loss': 0.0679, 'grad_norm': 0.34045302867889404, 'learning_rate': 0.00023572490142553833, 'epoch': 2.14}
{'loss': 0.0712, 'grad_norm': 0.4303598999977112, 'learning_rate': 0.00023557476493782226, 'epoch': 2.15}
{'loss': 0.0664, 'grad_norm': 0.45260941982269287, 'learning_rate': 0.00023542311191992717, 'epoch': 2.15}
{'loss': 0.0636, 'grad_norm': 0.22165901958942413, 'learning_rate': 0.00023527145890203213, 'epoch': 2.16}
{'loss': 0.0678, 'grad_norm': 0.258394330739975, 'learning_rate': 0.0002351198058841371, 'epoch': 2.16}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09715571999549866, 'eval_runtime': 357.8569, 'eval_samples_per_second': 55.285, 'eval_steps_per_second': 13.821, 'epoch': 2.17}
{'loss': 0.0671, 'grad_norm': 0.23755766451358795, 'learning_rate': 0.00023466484683045191, 'epoch': 2.18}
{'loss': 0.0721, 'grad_norm': 0.20649071037769318, 'learning_rate': 0.00023451319381255685, 'epoch': 2.18}
{'loss': 0.0619, 'grad_norm': 0.4804680347442627, 'learning_rate': 0.0002343615407946618, 'epoch': 2.19}
{'loss': 0.0638, 'grad_norm': 0.37574517726898193, 'learning_rate': 0.0002342098877767667, 'epoch': 2.19}
{'loss': 0.0696, 'grad_norm': 0.23501233756542206, 'learning_rate': 0.00023405823475887167, 'epoch': 2.2}
{'loss': 0.0676, 'grad_norm': 0.3966684937477112, 'learning_rate': 0.00023390658174097663, 'epoch': 2.2}
{'loss': 0.0653, 'grad_norm': 0.39733874797821045, 'learning_rate': 0.0002337549287230816, 'epoch': 2.21}
{'loss': 0.0684, 'grad_norm': 0.44140225648880005, 'learning_rate': 0.0002336032757051865, 'epoch': 2.21}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09692928194999695, 'eval_runtime': 349.5303, 'eval_samples_per_second': 56.602, 'eval_steps_per_second': 14.15, 'epoch': 2.22}
{'loss': 0.0675, 'grad_norm': 0.2866416573524475, 'learning_rate': 0.00023314831665150135, 'epoch': 2.23}
{'loss': 0.0711, 'grad_norm': 0.398947149515152, 'learning_rate': 0.00023299666363360628, 'epoch': 2.23}
{'loss': 0.0676, 'grad_norm': 0.2322658896446228, 'learning_rate': 0.00023284501061571122, 'epoch': 2.24}
{'loss': 0.0655, 'grad_norm': 0.25311872363090515, 'learning_rate': 0.00023269335759781618, 'epoch': 2.24}
{'loss': 0.0651, 'grad_norm': 0.743147075176239, 'learning_rate': 0.00023254170457992114, 'epoch': 2.25}
{'loss': 0.0678, 'grad_norm': 0.20488013327121735, 'learning_rate': 0.00023239005156202607, 'epoch': 2.25}
{'loss': 0.0718, 'grad_norm': 0.26118192076683044, 'learning_rate': 0.000232238398544131, 'epoch': 2.26}
{'loss': 0.0617, 'grad_norm': 0.22734591364860535, 'learning_rate': 0.00023208674552623596, 'epoch': 2.26}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09708179533481598, 'eval_runtime': 386.8985, 'eval_samples_per_second': 51.135, 'eval_steps_per_second': 12.784, 'epoch': 2.27}
{'loss': 0.0673, 'grad_norm': 1.0056040287017822, 'learning_rate': 0.00023163178647255079, 'epoch': 2.28}
{'loss': 0.0656, 'grad_norm': 0.2806098461151123, 'learning_rate': 0.00023148013345465572, 'epoch': 2.28}
{'loss': 0.067, 'grad_norm': 0.3825457990169525, 'learning_rate': 0.00023132848043676068, 'epoch': 2.29}
{'loss': 0.0668, 'grad_norm': 0.284953773021698, 'learning_rate': 0.00023117682741886564, 'epoch': 2.29}
{'loss': 0.0687, 'grad_norm': 0.3613649308681488, 'learning_rate': 0.00023102517440097054, 'epoch': 2.3}
{'loss': 0.068, 'grad_norm': 0.3137960433959961, 'learning_rate': 0.0002308735213830755, 'epoch': 2.31}
{'loss': 0.07, 'grad_norm': 0.33877286314964294, 'learning_rate': 0.00023072186836518046, 'epoch': 2.31}
{'loss': 0.0662, 'grad_norm': 0.6277543306350708, 'learning_rate': 0.0002305702153472854, 'epoch': 2.32}
{'loss': 0.0687

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09672152996063232, 'eval_runtime': 388.7533, 'eval_samples_per_second': 50.891, 'eval_steps_per_second': 12.723, 'epoch': 2.33}
{'loss': 0.0675, 'grad_norm': 0.6487195491790771, 'learning_rate': 0.00023011525629360022, 'epoch': 2.33}
{'loss': 0.0663, 'grad_norm': 0.21874044835567474, 'learning_rate': 0.00022996360327570518, 'epoch': 2.34}
{'loss': 0.0677, 'grad_norm': 0.20746630430221558, 'learning_rate': 0.0002298119502578101, 'epoch': 2.34}
{'loss': 0.0652, 'grad_norm': 0.21149103343486786, 'learning_rate': 0.00022966029723991505, 'epoch': 2.35}
{'loss': 0.0682, 'grad_norm': 0.280119389295578, 'learning_rate': 0.00022950864422202, 'epoch': 2.35}
{'loss': 0.0659, 'grad_norm': 0.3763137459754944, 'learning_rate': 0.00022935699120412494, 'epoch': 2.36}
{'loss': 0.0693, 'grad_norm': 0.5845850110054016, 'learning_rate': 0.00022920533818622987, 'epoch': 2.36}
{'loss': 0.0677, 'grad_norm': 0.16451869904994965, 'learning_rate': 0.00022905368516833483, 'epoch': 2.37}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09658233076334, 'eval_runtime': 350.5374, 'eval_samples_per_second': 56.439, 'eval_steps_per_second': 14.11, 'epoch': 2.38}
{'loss': 0.0676, 'grad_norm': 0.41751521825790405, 'learning_rate': 0.00022859872611464969, 'epoch': 2.38}
{'loss': 0.073, 'grad_norm': 0.3737042248249054, 'learning_rate': 0.0002284470730967546, 'epoch': 2.39}
{'loss': 0.0739, 'grad_norm': 0.33676567673683167, 'learning_rate': 0.00022829542007885955, 'epoch': 2.39}
{'loss': 0.0675, 'grad_norm': 0.2457697093486786, 'learning_rate': 0.0002281437670609645, 'epoch': 2.4}
{'loss': 0.0718, 'grad_norm': 0.24029242992401123, 'learning_rate': 0.00022799211404306944, 'epoch': 2.4}
{'loss': 0.0683, 'grad_norm': 0.15646955370903015, 'learning_rate': 0.00022784046102517438, 'epoch': 2.41}
{'loss': 0.0718, 'grad_norm': 0.4532914459705353, 'learning_rate': 0.0002276888080072793, 'epoch': 2.41}
{'loss': 0.0637, 'grad_norm': 0.1752386838197708, 'learning_rate': 0.00022753715498938427, 'epoch': 2.42}
{'loss': 0.064

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09653569012880325, 'eval_runtime': 288.7216, 'eval_samples_per_second': 68.523, 'eval_steps_per_second': 17.131, 'epoch': 2.43}
{'loss': 0.0692, 'grad_norm': 0.30755922198295593, 'learning_rate': 0.0002270821959356991, 'epoch': 2.43}
{'loss': 0.0685, 'grad_norm': 0.2420092225074768, 'learning_rate': 0.00022693054291780405, 'epoch': 2.44}
{'loss': 0.0701, 'grad_norm': 0.303271621465683, 'learning_rate': 0.000226778889899909, 'epoch': 2.44}
{'loss': 0.0683, 'grad_norm': 0.2924953103065491, 'learning_rate': 0.00022662723688201392, 'epoch': 2.45}
{'loss': 0.066, 'grad_norm': 0.3642576336860657, 'learning_rate': 0.00022647558386411888, 'epoch': 2.45}
{'loss': 0.0668, 'grad_norm': 0.3547747731208801, 'learning_rate': 0.0002263239308462238, 'epoch': 2.46}
{'loss': 0.0714, 'grad_norm': 0.597610592842102, 'learning_rate': 0.00022617379435850771, 'epoch': 2.46}
{'loss': 0.0722, 'grad_norm': 0.40306368470191956, 'learning_rate': 0.00022602214134061267, 'epoch': 2.47}
{'loss': 0.07

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0961398258805275, 'eval_runtime': 388.3704, 'eval_samples_per_second': 50.941, 'eval_steps_per_second': 12.735, 'epoch': 2.48}
{'loss': 0.0716, 'grad_norm': 0.3530629277229309, 'learning_rate': 0.00022556869881710644, 'epoch': 2.48}
{'loss': 0.0705, 'grad_norm': 0.30184558033943176, 'learning_rate': 0.00022541704579921137, 'epoch': 2.49}
{'loss': 0.0689, 'grad_norm': 0.40238088369369507, 'learning_rate': 0.00022526539278131633, 'epoch': 2.49}
{'loss': 0.0668, 'grad_norm': 0.43663713335990906, 'learning_rate': 0.00022511373976342127, 'epoch': 2.5}
{'loss': 0.0692, 'grad_norm': 0.30455881357192993, 'learning_rate': 0.00022496208674552623, 'epoch': 2.5}
{'loss': 0.067, 'grad_norm': 0.5213901996612549, 'learning_rate': 0.00022481043372763113, 'epoch': 2.51}
{'loss': 0.0673, 'grad_norm': 0.7623369693756104, 'learning_rate': 0.0002246587807097361, 'epoch': 2.51}
{'loss': 0.0686, 'grad_norm': 0.6426764726638794, 'learning_rate': 0.00022450864422202, 'epoch': 2.52}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09609739482402802, 'eval_runtime': 390.3074, 'eval_samples_per_second': 50.688, 'eval_steps_per_second': 12.672, 'epoch': 2.53}
{'loss': 0.0665, 'grad_norm': 0.1957194060087204, 'learning_rate': 0.00022405368516833485, 'epoch': 2.53}
{'loss': 0.0637, 'grad_norm': 0.27230021357536316, 'learning_rate': 0.00022390203215043975, 'epoch': 2.54}
{'loss': 0.0671, 'grad_norm': 0.4606338143348694, 'learning_rate': 0.0002237503791325447, 'epoch': 2.54}
{'loss': 0.0674, 'grad_norm': 0.28519681096076965, 'learning_rate': 0.00022359872611464967, 'epoch': 2.55}
{'loss': 0.0679, 'grad_norm': 0.1951310932636261, 'learning_rate': 0.0002234470730967546, 'epoch': 2.55}
{'loss': 0.0782, 'grad_norm': 0.2617538273334503, 'learning_rate': 0.00022329542007885957, 'epoch': 2.56}
{'loss': 0.0705, 'grad_norm': 0.20391839742660522, 'learning_rate': 0.0002231437670609645, 'epoch': 2.56}
{'loss': 0.0718, 'grad_norm': 0.2661629915237427, 'learning_rate': 0.00022299211404306943, 'epoch': 2.57}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09595310688018799, 'eval_runtime': 339.4185, 'eval_samples_per_second': 58.288, 'eval_steps_per_second': 14.572, 'epoch': 2.58}
{'loss': 0.0714, 'grad_norm': 0.24226954579353333, 'learning_rate': 0.00022253715498938426, 'epoch': 2.58}
{'loss': 0.0678, 'grad_norm': 0.2926456928253174, 'learning_rate': 0.00022238550197148922, 'epoch': 2.59}
{'loss': 0.0677, 'grad_norm': 0.37723371386528015, 'learning_rate': 0.00022223384895359418, 'epoch': 2.59}
{'loss': 0.0679, 'grad_norm': 0.3110775351524353, 'learning_rate': 0.0002220821959356991, 'epoch': 2.6}
{'loss': 0.0721, 'grad_norm': 0.38069653511047363, 'learning_rate': 0.00022193054291780404, 'epoch': 2.6}
{'loss': 0.0664, 'grad_norm': 0.577919602394104, 'learning_rate': 0.00022177888989990897, 'epoch': 2.61}
{'loss': 0.0712, 'grad_norm': 1.0304839611053467, 'learning_rate': 0.00022162723688201393, 'epoch': 2.61}
{'loss': 0.0656, 'grad_norm': 0.4290093779563904, 'learning_rate': 0.0002214755838641189, 'epoch': 2.62}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09602723270654678, 'eval_runtime': 327.0427, 'eval_samples_per_second': 60.494, 'eval_steps_per_second': 15.123, 'epoch': 2.63}
{'loss': 0.0691, 'grad_norm': 0.45627880096435547, 'learning_rate': 0.00022102062481043372, 'epoch': 2.63}
{'loss': 0.0672, 'grad_norm': 0.2897607684135437, 'learning_rate': 0.00022086897179253865, 'epoch': 2.64}
{'loss': 0.0701, 'grad_norm': 0.3600826561450958, 'learning_rate': 0.00022071731877464358, 'epoch': 2.64}
{'loss': 0.0677, 'grad_norm': 0.32331204414367676, 'learning_rate': 0.00022056566575674854, 'epoch': 2.65}
{'loss': 0.067, 'grad_norm': 0.49861446022987366, 'learning_rate': 0.00022041401273885348, 'epoch': 2.65}
{'loss': 0.0733, 'grad_norm': 0.27421826124191284, 'learning_rate': 0.00022026235972095844, 'epoch': 2.66}
{'loss': 0.067, 'grad_norm': 0.34365665912628174, 'learning_rate': 0.00022011070670306334, 'epoch': 2.66}
{'loss': 0.071, 'grad_norm': 0.25802841782569885, 'learning_rate': 0.0002199590536851683, 'epoch': 2.67}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09583531320095062, 'eval_runtime': 322.5291, 'eval_samples_per_second': 61.34, 'eval_steps_per_second': 15.335, 'epoch': 2.68}
{'loss': 0.0693, 'grad_norm': 0.22856061160564423, 'learning_rate': 0.00021950409463148316, 'epoch': 2.68}
{'loss': 0.0732, 'grad_norm': 0.4117937386035919, 'learning_rate': 0.0002193524416135881, 'epoch': 2.69}
{'loss': 0.0707, 'grad_norm': 0.16710028052330017, 'learning_rate': 0.00021920078859569302, 'epoch': 2.69}
{'loss': 0.0686, 'grad_norm': 0.30192044377326965, 'learning_rate': 0.00021904913557779798, 'epoch': 2.7}
{'loss': 0.071, 'grad_norm': 0.322422057390213, 'learning_rate': 0.00021889748255990294, 'epoch': 2.7}
{'loss': 0.0706, 'grad_norm': 0.3319088816642761, 'learning_rate': 0.00021874582954200785, 'epoch': 2.71}
{'loss': 0.066, 'grad_norm': 0.3145905137062073, 'learning_rate': 0.0002185941765241128, 'epoch': 2.71}
{'loss': 0.0668, 'grad_norm': 0.41192978620529175, 'learning_rate': 0.0002184440400363967, 'epoch': 2.72}
{'loss': 0.06

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09546791017055511, 'eval_runtime': 325.9146, 'eval_samples_per_second': 60.703, 'eval_steps_per_second': 15.176, 'epoch': 2.73}
{'loss': 0.0715, 'grad_norm': 0.26523104310035706, 'learning_rate': 0.00021798908098271156, 'epoch': 2.73}
{'loss': 0.0713, 'grad_norm': 0.29829105734825134, 'learning_rate': 0.00021783742796481647, 'epoch': 2.74}
{'loss': 0.0747, 'grad_norm': 0.20155641436576843, 'learning_rate': 0.00021768577494692143, 'epoch': 2.74}
{'loss': 0.0706, 'grad_norm': 0.48439672589302063, 'learning_rate': 0.00021753412192902639, 'epoch': 2.75}
{'loss': 0.0687, 'grad_norm': 0.358749121427536, 'learning_rate': 0.00021738246891113132, 'epoch': 2.75}
{'loss': 0.0656, 'grad_norm': 0.7808550596237183, 'learning_rate': 0.00021723081589323625, 'epoch': 2.76}
{'loss': 0.0708, 'grad_norm': 0.5663530826568604, 'learning_rate': 0.00021707916287534118, 'epoch': 2.77}
{'loss': 0.0678, 'grad_norm': 0.3169771134853363, 'learning_rate': 0.00021692750985744614, 'epoch': 2.77}
{'los

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09574924409389496, 'eval_runtime': 352.2556, 'eval_samples_per_second': 56.164, 'eval_steps_per_second': 14.041, 'epoch': 2.78}
{'loss': 0.072, 'grad_norm': 0.9830684661865234, 'learning_rate': 0.00021647255080376097, 'epoch': 2.79}
{'loss': 0.0694, 'grad_norm': 0.2620413601398468, 'learning_rate': 0.00021632089778586593, 'epoch': 2.79}
{'loss': 0.07, 'grad_norm': 0.31741830706596375, 'learning_rate': 0.00021616924476797086, 'epoch': 2.8}
{'loss': 0.0727, 'grad_norm': 0.2470955103635788, 'learning_rate': 0.0002160175917500758, 'epoch': 2.8}
{'loss': 0.0681, 'grad_norm': 0.31877753138542175, 'learning_rate': 0.00021586593873218075, 'epoch': 2.81}
{'loss': 0.0686, 'grad_norm': 0.25296497344970703, 'learning_rate': 0.0002157142857142857, 'epoch': 2.81}
{'loss': 0.067, 'grad_norm': 0.29550492763519287, 'learning_rate': 0.00021556263269639065, 'epoch': 2.82}
{'loss': 0.0682, 'grad_norm': 0.5953019857406616, 'learning_rate': 0.0002154109796784956, 'epoch': 2.82}
{'loss': 0.06

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09474198520183563, 'eval_runtime': 350.5023, 'eval_samples_per_second': 56.445, 'eval_steps_per_second': 14.111, 'epoch': 2.83}
{'loss': 0.0711, 'grad_norm': 0.3466297686100006, 'learning_rate': 0.00021495602062481043, 'epoch': 2.84}
{'loss': 0.0694, 'grad_norm': 0.4490560293197632, 'learning_rate': 0.00021480436760691537, 'epoch': 2.84}
{'loss': 0.0644, 'grad_norm': 0.3537779152393341, 'learning_rate': 0.0002146527145890203, 'epoch': 2.85}
{'loss': 0.07, 'grad_norm': 0.5316339731216431, 'learning_rate': 0.00021450106157112523, 'epoch': 2.85}
{'loss': 0.0718, 'grad_norm': 0.26003384590148926, 'learning_rate': 0.0002143494085532302, 'epoch': 2.86}
{'loss': 0.0689, 'grad_norm': 0.24264724552631378, 'learning_rate': 0.00021419775553533515, 'epoch': 2.86}
{'loss': 0.0651, 'grad_norm': 0.2505599856376648, 'learning_rate': 0.00021404610251744006, 'epoch': 2.87}
{'loss': 0.071, 'grad_norm': 0.49209949374198914, 'learning_rate': 0.00021389444949954502, 'epoch': 2.87}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09510334581136703, 'eval_runtime': 380.0784, 'eval_samples_per_second': 52.052, 'eval_steps_per_second': 13.013, 'epoch': 2.88}
{'loss': 0.0666, 'grad_norm': 0.7390382289886475, 'learning_rate': 0.00021343949044585984, 'epoch': 2.89}
{'loss': 0.0698, 'grad_norm': 0.26025453209877014, 'learning_rate': 0.0002132878374279648, 'epoch': 2.89}
{'loss': 0.073, 'grad_norm': 0.1631433218717575, 'learning_rate': 0.00021313618441006973, 'epoch': 2.9}
{'loss': 0.0716, 'grad_norm': 0.27317890524864197, 'learning_rate': 0.0002129845313921747, 'epoch': 2.9}
{'loss': 0.0729, 'grad_norm': 0.4005012810230255, 'learning_rate': 0.00021283287837427963, 'epoch': 2.91}
{'loss': 0.0695, 'grad_norm': 0.5126516819000244, 'learning_rate': 0.00021268122535638456, 'epoch': 2.91}
{'loss': 0.0654, 'grad_norm': 0.34413012862205505, 'learning_rate': 0.00021252957233848952, 'epoch': 2.92}
{'loss': 0.0661, 'grad_norm': 0.2823711335659027, 'learning_rate': 0.00021237791932059448, 'epoch': 2.92}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09477628022432327, 'eval_runtime': 376.3312, 'eval_samples_per_second': 52.571, 'eval_steps_per_second': 13.143, 'epoch': 2.93}
{'loss': 0.0672, 'grad_norm': 0.2825213074684143, 'learning_rate': 0.00021192447679708822, 'epoch': 2.94}
{'loss': 0.0711, 'grad_norm': 0.2663295865058899, 'learning_rate': 0.00021177282377919318, 'epoch': 2.94}
{'loss': 0.0666, 'grad_norm': 0.1576731652021408, 'learning_rate': 0.00021162117076129814, 'epoch': 2.95}
{'loss': 0.0669, 'grad_norm': 0.6058528423309326, 'learning_rate': 0.00021146951774340307, 'epoch': 2.95}
{'loss': 0.0668, 'grad_norm': 0.35371318459510803, 'learning_rate': 0.00021131786472550803, 'epoch': 2.96}
{'loss': 0.0728, 'grad_norm': 0.39133739471435547, 'learning_rate': 0.00021116621170761297, 'epoch': 2.96}
{'loss': 0.0676, 'grad_norm': 0.369586706161499, 'learning_rate': 0.0002110145586897179, 'epoch': 2.97}
{'loss': 0.0666, 'grad_norm': 0.36718276143074036, 'learning_rate': 0.00021086290567182286, 'epoch': 2.97}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09499140083789825, 'eval_runtime': 345.1651, 'eval_samples_per_second': 57.317, 'eval_steps_per_second': 14.329, 'epoch': 2.98}
{'loss': 0.0738, 'grad_norm': 0.460330069065094, 'learning_rate': 0.00021040794661813768, 'epoch': 2.99}
{'loss': 0.068, 'grad_norm': 0.4843224585056305, 'learning_rate': 0.00021025629360024264, 'epoch': 2.99}
{'loss': 0.0679, 'grad_norm': 0.3696550130844116, 'learning_rate': 0.00021010464058234758, 'epoch': 3.0}
{'loss': 0.0667, 'grad_norm': 0.22458688914775848, 'learning_rate': 0.0002099529875644525, 'epoch': 3.0}
{'loss': 0.058, 'grad_norm': 0.3020235002040863, 'learning_rate': 0.00020980133454655744, 'epoch': 3.01}
{'loss': 0.0642, 'grad_norm': 0.4491954743862152, 'learning_rate': 0.0002096496815286624, 'epoch': 3.01}
{'loss': 0.0597, 'grad_norm': 0.26319047808647156, 'learning_rate': 0.00020949802851076736, 'epoch': 3.02}
{'loss': 0.0647, 'grad_norm': 0.3494146764278412, 'learning_rate': 0.00020934637549287227, 'epoch': 3.02}
{'loss': 0.06

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0953509733080864, 'eval_runtime': 380.4177, 'eval_samples_per_second': 52.006, 'eval_steps_per_second': 13.001, 'epoch': 3.03}
{'loss': 0.0572, 'grad_norm': 0.28482785820961, 'learning_rate': 0.00020889141643918712, 'epoch': 3.04}
{'loss': 0.0606, 'grad_norm': 0.372522234916687, 'learning_rate': 0.00020874127995147102, 'epoch': 3.04}
{'loss': 0.0605, 'grad_norm': 0.26839810609817505, 'learning_rate': 0.00020858962693357598, 'epoch': 3.05}
{'loss': 0.0643, 'grad_norm': 0.15042153000831604, 'learning_rate': 0.0002084379739156809, 'epoch': 3.05}
{'loss': 0.0663, 'grad_norm': 0.361862450838089, 'learning_rate': 0.00020828632089778585, 'epoch': 3.06}
{'loss': 0.0608, 'grad_norm': 0.3209451735019684, 'learning_rate': 0.00020813618441006972, 'epoch': 3.06}
{'loss': 0.062, 'grad_norm': 0.3271685540676117, 'learning_rate': 0.00020798453139217468, 'epoch': 3.07}
{'loss': 0.0633, 'grad_norm': 0.3291815519332886, 'learning_rate': 0.00020783287837427964, 'epoch': 3.07}
{'loss': 0.06

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09563201665878296, 'eval_runtime': 371.7937, 'eval_samples_per_second': 53.212, 'eval_steps_per_second': 13.303, 'epoch': 3.08}
{'loss': 0.0651, 'grad_norm': 0.6255730390548706, 'learning_rate': 0.00020737791932059447, 'epoch': 3.09}
{'loss': 0.059, 'grad_norm': 0.23834188282489777, 'learning_rate': 0.0002072262663026994, 'epoch': 3.09}
{'loss': 0.063, 'grad_norm': 0.2147577404975891, 'learning_rate': 0.00020707461328480436, 'epoch': 3.1}
{'loss': 0.0615, 'grad_norm': 0.14081311225891113, 'learning_rate': 0.00020692296026690926, 'epoch': 3.1}
{'loss': 0.0607, 'grad_norm': 0.3802931010723114, 'learning_rate': 0.00020677130724901422, 'epoch': 3.11}
{'loss': 0.0661, 'grad_norm': 0.27172762155532837, 'learning_rate': 0.00020661965423111918, 'epoch': 3.11}
{'loss': 0.0623, 'grad_norm': 0.6908695101737976, 'learning_rate': 0.00020646800121322414, 'epoch': 3.12}
{'loss': 0.0627, 'grad_norm': 0.318846732378006, 'learning_rate': 0.00020631634819532908, 'epoch': 3.12}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09546930342912674, 'eval_runtime': 347.32, 'eval_samples_per_second': 56.962, 'eval_steps_per_second': 14.24, 'epoch': 3.13}
{'loss': 0.0595, 'grad_norm': 0.43060967326164246, 'learning_rate': 0.0002058613891416439, 'epoch': 3.14}
{'loss': 0.0639, 'grad_norm': 0.3184962570667267, 'learning_rate': 0.00020570973612374886, 'epoch': 3.14}
{'loss': 0.0626, 'grad_norm': 0.4054194986820221, 'learning_rate': 0.00020555808310585377, 'epoch': 3.15}
{'loss': 0.0615, 'grad_norm': 0.21840941905975342, 'learning_rate': 0.00020540643008795873, 'epoch': 3.15}
{'loss': 0.0617, 'grad_norm': 1.0632885694503784, 'learning_rate': 0.0002052547770700637, 'epoch': 3.16}
{'loss': 0.0631, 'grad_norm': 0.42376959323883057, 'learning_rate': 0.00020510312405216862, 'epoch': 3.16}
{'loss': 0.0656, 'grad_norm': 0.4311105012893677, 'learning_rate': 0.00020495147103427355, 'epoch': 3.17}
{'loss': 0.0656, 'grad_norm': 0.2701779901981354, 'learning_rate': 0.0002047998180163785, 'epoch': 3.17}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09527291357517242, 'eval_runtime': 320.5517, 'eval_samples_per_second': 61.719, 'eval_steps_per_second': 15.43, 'epoch': 3.18}
{'loss': 0.0697, 'grad_norm': 0.24806280434131622, 'learning_rate': 0.00020434485896269334, 'epoch': 3.19}
{'loss': 0.064, 'grad_norm': 0.2224026471376419, 'learning_rate': 0.00020419320594479827, 'epoch': 3.19}
{'loss': 0.0636, 'grad_norm': 0.20957645773887634, 'learning_rate': 0.00020404155292690323, 'epoch': 3.2}
{'loss': 0.0646, 'grad_norm': 0.32971668243408203, 'learning_rate': 0.0002038898999090082, 'epoch': 3.2}
{'loss': 0.0644, 'grad_norm': 0.30894771218299866, 'learning_rate': 0.0002037382468911131, 'epoch': 3.21}
{'loss': 0.0631, 'grad_norm': 0.3553183674812317, 'learning_rate': 0.00020358659387321806, 'epoch': 3.21}
{'loss': 0.0612, 'grad_norm': 0.45467543601989746, 'learning_rate': 0.000203434940855323, 'epoch': 3.22}
{'loss': 0.0645, 'grad_norm': 0.6511009335517883, 'learning_rate': 0.00020328328783742795, 'epoch': 3.23}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0956897884607315, 'eval_runtime': 321.4532, 'eval_samples_per_second': 61.546, 'eval_steps_per_second': 15.386, 'epoch': 3.24}
{'loss': 0.0691, 'grad_norm': 0.21836739778518677, 'learning_rate': 0.00020282832878374277, 'epoch': 3.24}
{'loss': 0.0658, 'grad_norm': 0.23269438743591309, 'learning_rate': 0.00020267667576584773, 'epoch': 3.25}
{'loss': 0.0615, 'grad_norm': 0.1549939513206482, 'learning_rate': 0.00020252502274795267, 'epoch': 3.25}
{'loss': 0.0677, 'grad_norm': 0.5379250049591064, 'learning_rate': 0.0002023733697300576, 'epoch': 3.26}
{'loss': 0.0654, 'grad_norm': 0.30029600858688354, 'learning_rate': 0.00020222171671216256, 'epoch': 3.26}
{'loss': 0.07, 'grad_norm': 0.332186758518219, 'learning_rate': 0.00020207158022444643, 'epoch': 3.27}
{'loss': 0.0642, 'grad_norm': 0.7380937933921814, 'learning_rate': 0.0002019199272065514, 'epoch': 3.27}
{'loss': 0.0627, 'grad_norm': 0.17063236236572266, 'learning_rate': 0.00020176827418865635, 'epoch': 3.28}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0955217257142067, 'eval_runtime': 325.5933, 'eval_samples_per_second': 60.763, 'eval_steps_per_second': 15.191, 'epoch': 3.29}
{'loss': 0.064, 'grad_norm': 0.33096709847450256, 'learning_rate': 0.00020131331513497115, 'epoch': 3.29}
{'loss': 0.0658, 'grad_norm': 0.476235568523407, 'learning_rate': 0.0002011616621170761, 'epoch': 3.3}
{'loss': 0.0639, 'grad_norm': 0.44822871685028076, 'learning_rate': 0.00020101000909918107, 'epoch': 3.3}
{'loss': 0.0647, 'grad_norm': 0.19802667200565338, 'learning_rate': 0.00020085835608128598, 'epoch': 3.31}
{'loss': 0.0719, 'grad_norm': 0.3546465039253235, 'learning_rate': 0.00020070670306339094, 'epoch': 3.31}
{'loss': 0.0649, 'grad_norm': 0.5002040863037109, 'learning_rate': 0.0002005550500454959, 'epoch': 3.32}
{'loss': 0.0649, 'grad_norm': 0.2647167146205902, 'learning_rate': 0.00020040339702760083, 'epoch': 3.32}
{'loss': 0.0614, 'grad_norm': 0.56211256980896, 'learning_rate': 0.00020025174400970576, 'epoch': 3.33}
{'loss': 0.063

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09505356103181839, 'eval_runtime': 348.2634, 'eval_samples_per_second': 56.808, 'eval_steps_per_second': 14.202, 'epoch': 3.34}
{'loss': 0.0662, 'grad_norm': 0.5472812056541443, 'learning_rate': 0.00019979678495602062, 'epoch': 3.34}
{'loss': 0.0641, 'grad_norm': 0.4191496968269348, 'learning_rate': 0.00019964513193812552, 'epoch': 3.35}
{'loss': 0.0641, 'grad_norm': 0.20768733322620392, 'learning_rate': 0.00019949347892023048, 'epoch': 3.35}
{'loss': 0.0615, 'grad_norm': 0.22357864677906036, 'learning_rate': 0.00019934182590233544, 'epoch': 3.36}
{'loss': 0.0636, 'grad_norm': 0.7181053757667542, 'learning_rate': 0.0001991901728844404, 'epoch': 3.36}
{'loss': 0.0662, 'grad_norm': 0.42573094367980957, 'learning_rate': 0.00019903851986654533, 'epoch': 3.37}
{'loss': 0.0663, 'grad_norm': 0.14216874539852142, 'learning_rate': 0.00019888686684865027, 'epoch': 3.37}
{'loss': 0.0678, 'grad_norm': 0.2620880603790283, 'learning_rate': 0.0001987352138307552, 'epoch': 3.38}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09531269967556, 'eval_runtime': 346.0805, 'eval_samples_per_second': 57.166, 'eval_steps_per_second': 14.291, 'epoch': 3.39}
{'loss': 0.0616, 'grad_norm': 0.3534477651119232, 'learning_rate': 0.000198281771307249, 'epoch': 3.39}
{'loss': 0.0661, 'grad_norm': 0.2695716917514801, 'learning_rate': 0.00019813011828935395, 'epoch': 3.4}
{'loss': 0.0696, 'grad_norm': 0.38380056619644165, 'learning_rate': 0.0001979784652714589, 'epoch': 3.4}
{'loss': 0.0651, 'grad_norm': 0.291307270526886, 'learning_rate': 0.00019782681225356382, 'epoch': 3.41}
{'loss': 0.065, 'grad_norm': 0.45341986417770386, 'learning_rate': 0.00019767515923566878, 'epoch': 3.41}
{'loss': 0.0632, 'grad_norm': 0.17157165706157684, 'learning_rate': 0.00019752350621777374, 'epoch': 3.42}
{'loss': 0.0625, 'grad_norm': 0.3038445711135864, 'learning_rate': 0.00019737185319987865, 'epoch': 3.42}
{'loss': 0.0623, 'grad_norm': 0.28981995582580566, 'learning_rate': 0.0001972202001819836, 'epoch': 3.43}
{'loss': 0.0632

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09484947472810745, 'eval_runtime': 343.7211, 'eval_samples_per_second': 57.558, 'eval_steps_per_second': 14.39, 'epoch': 3.44}
{'loss': 0.0621, 'grad_norm': 0.29195404052734375, 'learning_rate': 0.00019676524112829843, 'epoch': 3.44}
{'loss': 0.068, 'grad_norm': 0.5879286527633667, 'learning_rate': 0.00019661358811040336, 'epoch': 3.45}
{'loss': 0.0633, 'grad_norm': 0.34661364555358887, 'learning_rate': 0.00019646193509250832, 'epoch': 3.45}
{'loss': 0.0632, 'grad_norm': 0.23873469233512878, 'learning_rate': 0.00019631028207461328, 'epoch': 3.46}
{'loss': 0.0609, 'grad_norm': 0.4877958595752716, 'learning_rate': 0.0001961586290567182, 'epoch': 3.46}
{'loss': 0.0643, 'grad_norm': 0.2566026449203491, 'learning_rate': 0.00019600697603882315, 'epoch': 3.47}
{'loss': 0.0658, 'grad_norm': 0.12885653972625732, 'learning_rate': 0.0001958553230209281, 'epoch': 3.47}
{'loss': 0.0644, 'grad_norm': 0.20743557810783386, 'learning_rate': 0.00019570367000303304, 'epoch': 3.48}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09511695057153702, 'eval_runtime': 373.4619, 'eval_samples_per_second': 52.975, 'eval_steps_per_second': 13.244, 'epoch': 3.49}
{'loss': 0.0654, 'grad_norm': 0.7890855669975281, 'learning_rate': 0.0001952502274795268, 'epoch': 3.49}
{'loss': 0.0638, 'grad_norm': 0.23095689713954926, 'learning_rate': 0.00019509857446163177, 'epoch': 3.5}
{'loss': 0.0619, 'grad_norm': 0.22716474533081055, 'learning_rate': 0.0001949469214437367, 'epoch': 3.5}
{'loss': 0.0621, 'grad_norm': 0.31326088309288025, 'learning_rate': 0.00019479526842584166, 'epoch': 3.51}
{'loss': 0.067, 'grad_norm': 0.3157227039337158, 'learning_rate': 0.0001946436154079466, 'epoch': 3.51}
{'loss': 0.0673, 'grad_norm': 0.2933160066604614, 'learning_rate': 0.00019449196239005153, 'epoch': 3.52}
{'loss': 0.0642, 'grad_norm': 0.4466652274131775, 'learning_rate': 0.0001943403093721565, 'epoch': 3.52}
{'loss': 0.0604, 'grad_norm': 0.5668758749961853, 'learning_rate': 0.00019418865635426145, 'epoch': 3.53}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09519844502210617, 'eval_runtime': 372.2861, 'eval_samples_per_second': 53.142, 'eval_steps_per_second': 13.285, 'epoch': 3.54}
{'loss': 0.06, 'grad_norm': 0.3090631067752838, 'learning_rate': 0.00019373521383075524, 'epoch': 3.54}
{'loss': 0.0604, 'grad_norm': 0.6754662990570068, 'learning_rate': 0.00019358356081286015, 'epoch': 3.55}
{'loss': 0.0648, 'grad_norm': 0.26151737570762634, 'learning_rate': 0.0001934319077949651, 'epoch': 3.55}
{'loss': 0.064, 'grad_norm': 0.30290117859840393, 'learning_rate': 0.00019328025477707007, 'epoch': 3.56}
{'loss': 0.0608, 'grad_norm': 0.3096497356891632, 'learning_rate': 0.000193128601759175, 'epoch': 3.56}
{'loss': 0.0682, 'grad_norm': 0.4134385287761688, 'learning_rate': 0.00019297694874127993, 'epoch': 3.57}
{'loss': 0.0633, 'grad_norm': 0.3422046899795532, 'learning_rate': 0.00019282529572338486, 'epoch': 3.57}
{'loss': 0.0628, 'grad_norm': 0.3114767372608185, 'learning_rate': 0.00019267364270548982, 'epoch': 3.58}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09440045058727264, 'eval_runtime': 345.0906, 'eval_samples_per_second': 57.33, 'eval_steps_per_second': 14.332, 'epoch': 3.59}
{'loss': 0.0658, 'grad_norm': 0.24930346012115479, 'learning_rate': 0.00019221868365180465, 'epoch': 3.59}
{'loss': 0.0635, 'grad_norm': 0.29115602374076843, 'learning_rate': 0.0001920670306339096, 'epoch': 3.6}
{'loss': 0.0653, 'grad_norm': 0.38471612334251404, 'learning_rate': 0.00019191537761601454, 'epoch': 3.6}
{'loss': 0.0651, 'grad_norm': 0.2050003856420517, 'learning_rate': 0.00019176372459811948, 'epoch': 3.61}
{'loss': 0.0702, 'grad_norm': 0.37140414118766785, 'learning_rate': 0.00019161207158022444, 'epoch': 3.61}
{'loss': 0.0616, 'grad_norm': 0.21067260205745697, 'learning_rate': 0.00019146041856232937, 'epoch': 3.62}
{'loss': 0.0669, 'grad_norm': 0.2851932942867279, 'learning_rate': 0.00019130876554443433, 'epoch': 3.62}
{'loss': 0.0667, 'grad_norm': 0.47855594754219055, 'learning_rate': 0.00019115711252653923, 'epoch': 3.63}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09456933289766312, 'eval_runtime': 370.307, 'eval_samples_per_second': 53.426, 'eval_steps_per_second': 13.356, 'epoch': 3.64}
{'loss': 0.0643, 'grad_norm': 0.9349759817123413, 'learning_rate': 0.0001907021534728541, 'epoch': 3.64}
{'loss': 0.0617, 'grad_norm': 0.3325828015804291, 'learning_rate': 0.00019055050045495902, 'epoch': 3.65}
{'loss': 0.0593, 'grad_norm': 0.19641630351543427, 'learning_rate': 0.00019040036396724295, 'epoch': 3.65}
{'loss': 0.0623, 'grad_norm': 0.2908228039741516, 'learning_rate': 0.00019024871094934785, 'epoch': 3.66}
{'loss': 0.0657, 'grad_norm': 0.7829278707504272, 'learning_rate': 0.0001900970579314528, 'epoch': 3.66}
{'loss': 0.0639, 'grad_norm': 0.23911021649837494, 'learning_rate': 0.00018994540491355777, 'epoch': 3.67}
{'loss': 0.0633, 'grad_norm': 0.3018890619277954, 'learning_rate': 0.0001897937518956627, 'epoch': 3.67}
{'loss': 0.0634, 'grad_norm': 0.36462637782096863, 'learning_rate': 0.00018964209887776767, 'epoch': 3.68}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09445667266845703, 'eval_runtime': 366.5074, 'eval_samples_per_second': 53.98, 'eval_steps_per_second': 13.495, 'epoch': 3.69}
{'loss': 0.0635, 'grad_norm': 0.44474148750305176, 'learning_rate': 0.0001891871398240825, 'epoch': 3.7}
{'loss': 0.0625, 'grad_norm': 0.24336068332195282, 'learning_rate': 0.00018903548680618745, 'epoch': 3.7}
{'loss': 0.065, 'grad_norm': 0.22272518277168274, 'learning_rate': 0.00018888383378829236, 'epoch': 3.71}
{'loss': 0.0637, 'grad_norm': 0.454642653465271, 'learning_rate': 0.00018873218077039732, 'epoch': 3.71}
{'loss': 0.0642, 'grad_norm': 0.4546777009963989, 'learning_rate': 0.00018858052775250228, 'epoch': 3.72}
{'loss': 0.0701, 'grad_norm': 0.3424645662307739, 'learning_rate': 0.0001884288747346072, 'epoch': 3.72}
{'loss': 0.0633, 'grad_norm': 0.5754787921905518, 'learning_rate': 0.00018827722171671214, 'epoch': 3.73}
{'loss': 0.0619, 'grad_norm': 0.13616766035556793, 'learning_rate': 0.00018812556869881707, 'epoch': 3.73}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09435832500457764, 'eval_runtime': 365.8904, 'eval_samples_per_second': 54.071, 'eval_steps_per_second': 13.518, 'epoch': 3.74}
{'loss': 0.0647, 'grad_norm': 0.5016500949859619, 'learning_rate': 0.0001876706096451319, 'epoch': 3.75}
{'loss': 0.0623, 'grad_norm': 0.5614951848983765, 'learning_rate': 0.00018751895662723686, 'epoch': 3.75}
{'loss': 0.0625, 'grad_norm': 0.33932262659072876, 'learning_rate': 0.00018736730360934182, 'epoch': 3.76}
{'loss': 0.0614, 'grad_norm': 0.24804705381393433, 'learning_rate': 0.00018721565059144675, 'epoch': 3.76}
{'loss': 0.0642, 'grad_norm': 0.3705052137374878, 'learning_rate': 0.00018706399757355169, 'epoch': 3.77}
{'loss': 0.0676, 'grad_norm': 0.3606862723827362, 'learning_rate': 0.00018691234455565665, 'epoch': 3.77}
{'loss': 0.0626, 'grad_norm': 0.4932889938354492, 'learning_rate': 0.00018676069153776158, 'epoch': 3.78}
{'loss': 0.0658, 'grad_norm': 0.23260314762592316, 'learning_rate': 0.00018660903851986654, 'epoch': 3.78}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09428124874830246, 'eval_runtime': 340.4324, 'eval_samples_per_second': 58.114, 'eval_steps_per_second': 14.529, 'epoch': 3.79}
{'loss': 0.0684, 'grad_norm': 0.2850469946861267, 'learning_rate': 0.00018615407946618136, 'epoch': 3.8}
{'loss': 0.0685, 'grad_norm': 0.30836912989616394, 'learning_rate': 0.00018600242644828632, 'epoch': 3.8}
{'loss': 0.0625, 'grad_norm': 0.5797480344772339, 'learning_rate': 0.00018585077343039126, 'epoch': 3.81}
{'loss': 0.0672, 'grad_norm': 0.2486703246831894, 'learning_rate': 0.0001856991204124962, 'epoch': 3.81}
{'loss': 0.0621, 'grad_norm': 0.7307230234146118, 'learning_rate': 0.00018554746739460112, 'epoch': 3.82}
{'loss': 0.068, 'grad_norm': 0.22596660256385803, 'learning_rate': 0.00018539581437670608, 'epoch': 3.82}
{'loss': 0.0651, 'grad_norm': 0.21291424334049225, 'learning_rate': 0.00018524416135881104, 'epoch': 3.83}
{'loss': 0.0663, 'grad_norm': 0.32439690828323364, 'learning_rate': 0.00018509250834091595, 'epoch': 3.83}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09413822740316391, 'eval_runtime': 342.8693, 'eval_samples_per_second': 57.701, 'eval_steps_per_second': 14.425, 'epoch': 3.84}
{'loss': 0.0665, 'grad_norm': 0.2028384804725647, 'learning_rate': 0.0001846375492872308, 'epoch': 3.85}
{'loss': 0.0654, 'grad_norm': 0.5969414114952087, 'learning_rate': 0.00018448589626933573, 'epoch': 3.85}
{'loss': 0.0675, 'grad_norm': 0.5712049603462219, 'learning_rate': 0.0001843342432514407, 'epoch': 3.86}
{'loss': 0.0645, 'grad_norm': 0.3632064759731293, 'learning_rate': 0.00018418259023354563, 'epoch': 3.86}
{'loss': 0.0682, 'grad_norm': 0.5181877613067627, 'learning_rate': 0.00018403093721565058, 'epoch': 3.87}
{'loss': 0.0633, 'grad_norm': 0.3675788342952728, 'learning_rate': 0.00018387928419775552, 'epoch': 3.87}
{'loss': 0.0651, 'grad_norm': 0.5339866876602173, 'learning_rate': 0.00018372763117986045, 'epoch': 3.88}
{'loss': 0.0655, 'grad_norm': 0.45036837458610535, 'learning_rate': 0.0001835759781619654, 'epoch': 3.88}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09412240982055664, 'eval_runtime': 339.9074, 'eval_samples_per_second': 58.204, 'eval_steps_per_second': 14.551, 'epoch': 3.89}
{'loss': 0.0712, 'grad_norm': 0.23937149345874786, 'learning_rate': 0.0001831225356384592, 'epoch': 3.9}
{'loss': 0.0631, 'grad_norm': 0.18037404119968414, 'learning_rate': 0.0001829708826205641, 'epoch': 3.9}
{'loss': 0.068, 'grad_norm': 0.29423922300338745, 'learning_rate': 0.00018281922960266907, 'epoch': 3.91}
{'loss': 0.0618, 'grad_norm': 0.4664250910282135, 'learning_rate': 0.00018266757658477403, 'epoch': 3.91}
{'loss': 0.0648, 'grad_norm': 0.2981923222541809, 'learning_rate': 0.00018251592356687896, 'epoch': 3.92}
{'loss': 0.0641, 'grad_norm': 0.4382360577583313, 'learning_rate': 0.0001823642705489839, 'epoch': 3.92}
{'loss': 0.0652, 'grad_norm': 0.39585286378860474, 'learning_rate': 0.00018221261753108886, 'epoch': 3.93}
{'loss': 0.0658, 'grad_norm': 0.26802992820739746, 'learning_rate': 0.0001820609645131938, 'epoch': 3.93}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09395983815193176, 'eval_runtime': 341.0843, 'eval_samples_per_second': 58.003, 'eval_steps_per_second': 14.501, 'epoch': 3.94}
{'loss': 0.0619, 'grad_norm': 0.34878167510032654, 'learning_rate': 0.00018160600545950861, 'epoch': 3.95}
{'loss': 0.0642, 'grad_norm': 0.47565406560897827, 'learning_rate': 0.00018145435244161357, 'epoch': 3.95}
{'loss': 0.0679, 'grad_norm': 0.2211758941411972, 'learning_rate': 0.00018130269942371853, 'epoch': 3.96}
{'loss': 0.0681, 'grad_norm': 0.3329921364784241, 'learning_rate': 0.00018115104640582347, 'epoch': 3.96}
{'loss': 0.0692, 'grad_norm': 0.3256388008594513, 'learning_rate': 0.0001809993933879284, 'epoch': 3.97}
{'loss': 0.0624, 'grad_norm': 0.3559004068374634, 'learning_rate': 0.00018084774037003333, 'epoch': 3.97}
{'loss': 0.0639, 'grad_norm': 0.28075626492500305, 'learning_rate': 0.0001806960873521383, 'epoch': 3.98}
{'loss': 0.0674, 'grad_norm': 0.41456854343414307, 'learning_rate': 0.00018054443433424325, 'epoch': 3.98}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09412374347448349, 'eval_runtime': 366.8983, 'eval_samples_per_second': 53.922, 'eval_steps_per_second': 13.481, 'epoch': 3.99}
{'loss': 0.0648, 'grad_norm': 0.41651707887649536, 'learning_rate': 0.00018009099181073702, 'epoch': 4.0}
{'loss': 0.0585, 'grad_norm': 0.3330836594104767, 'learning_rate': 0.00017993933879284195, 'epoch': 4.0}
{'loss': 0.0594, 'grad_norm': 0.3460630774497986, 'learning_rate': 0.0001797876857749469, 'epoch': 4.01}
{'loss': 0.0615, 'grad_norm': 0.26172372698783875, 'learning_rate': 0.00017963603275705187, 'epoch': 4.01}
{'loss': 0.0582, 'grad_norm': 0.2616397738456726, 'learning_rate': 0.00017948437973915678, 'epoch': 4.02}
{'loss': 0.0571, 'grad_norm': 0.2931847870349884, 'learning_rate': 0.00017933272672126174, 'epoch': 4.02}
{'loss': 0.0607, 'grad_norm': 0.3505682349205017, 'learning_rate': 0.0001791810737033667, 'epoch': 4.03}
{'loss': 0.0629, 'grad_norm': 0.38975805044174194, 'learning_rate': 0.00017902942068547163, 'epoch': 4.03}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09426674991846085, 'eval_runtime': 365.9387, 'eval_samples_per_second': 54.064, 'eval_steps_per_second': 13.516, 'epoch': 4.04}
{'loss': 0.0554, 'grad_norm': 0.2984221577644348, 'learning_rate': 0.00017857446163178646, 'epoch': 4.05}
{'loss': 0.0562, 'grad_norm': 0.1841268688440323, 'learning_rate': 0.00017842280861389142, 'epoch': 4.05}
{'loss': 0.0595, 'grad_norm': 0.25326773524284363, 'learning_rate': 0.00017827115559599632, 'epoch': 4.06}
{'loss': 0.0605, 'grad_norm': 0.24845653772354126, 'learning_rate': 0.00017811950257810128, 'epoch': 4.06}
{'loss': 0.06, 'grad_norm': 0.23844629526138306, 'learning_rate': 0.00017796784956020624, 'epoch': 4.07}
{'loss': 0.0583, 'grad_norm': 0.37414875626564026, 'learning_rate': 0.00017781619654231117, 'epoch': 4.07}
{'loss': 0.0549, 'grad_norm': 0.3571435213088989, 'learning_rate': 0.00017766454352441613, 'epoch': 4.08}
{'loss': 0.0572, 'grad_norm': 0.21608980000019073, 'learning_rate': 0.00017751289050652107, 'epoch': 4.08}
{'los

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09459131211042404, 'eval_runtime': 344.4952, 'eval_samples_per_second': 57.429, 'eval_steps_per_second': 14.357, 'epoch': 4.09}
{'loss': 0.0631, 'grad_norm': 0.5424825549125671, 'learning_rate': 0.00017705793145283592, 'epoch': 4.1}
{'loss': 0.0574, 'grad_norm': 0.21949675679206848, 'learning_rate': 0.00017690627843494082, 'epoch': 4.1}
{'loss': 0.0599, 'grad_norm': 0.28911253809928894, 'learning_rate': 0.00017675462541704578, 'epoch': 4.11}
{'loss': 0.0627, 'grad_norm': 0.3422572612762451, 'learning_rate': 0.00017660297239915074, 'epoch': 4.11}
{'loss': 0.0555, 'grad_norm': 0.25201690196990967, 'learning_rate': 0.00017645131938125568, 'epoch': 4.12}
{'loss': 0.0562, 'grad_norm': 0.29710814356803894, 'learning_rate': 0.0001762996663633606, 'epoch': 4.12}
{'loss': 0.0636, 'grad_norm': 0.33898138999938965, 'learning_rate': 0.00017614801334546554, 'epoch': 4.13}
{'loss': 0.0584, 'grad_norm': 0.3184663653373718, 'learning_rate': 0.0001759963603275705, 'epoch': 4.13}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09429782629013062, 'eval_runtime': 339.3698, 'eval_samples_per_second': 58.296, 'eval_steps_per_second': 14.574, 'epoch': 4.15}
{'loss': 0.0617, 'grad_norm': 0.3610204756259918, 'learning_rate': 0.00017554140127388533, 'epoch': 4.15}
{'loss': 0.0621, 'grad_norm': 0.25229060649871826, 'learning_rate': 0.0001753897482559903, 'epoch': 4.16}
{'loss': 0.0564, 'grad_norm': 0.23868225514888763, 'learning_rate': 0.00017523809523809522, 'epoch': 4.16}
{'loss': 0.0571, 'grad_norm': 0.3128940165042877, 'learning_rate': 0.00017508795875037912, 'epoch': 4.17}
{'loss': 0.0576, 'grad_norm': 0.3099101185798645, 'learning_rate': 0.00017493630573248408, 'epoch': 4.17}
{'loss': 0.0579, 'grad_norm': 0.2101610153913498, 'learning_rate': 0.000174784652714589, 'epoch': 4.18}
{'loss': 0.0572, 'grad_norm': 0.5660998225212097, 'learning_rate': 0.00017463299969669395, 'epoch': 4.18}
{'loss': 0.0597, 'grad_norm': 0.5818299055099487, 'learning_rate': 0.0001744813466787989, 'epoch': 4.19}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09468801319599152, 'eval_runtime': 372.3846, 'eval_samples_per_second': 53.128, 'eval_steps_per_second': 13.282, 'epoch': 4.2}
{'loss': 0.0608, 'grad_norm': 0.3640056550502777, 'learning_rate': 0.0001740263876251137, 'epoch': 4.2}
{'loss': 0.0606, 'grad_norm': 0.7958115339279175, 'learning_rate': 0.00017387473460721867, 'epoch': 4.21}
{'loss': 0.0607, 'grad_norm': 0.6324487924575806, 'learning_rate': 0.00017372308158932363, 'epoch': 4.21}
{'loss': 0.0644, 'grad_norm': 0.49607786536216736, 'learning_rate': 0.00017357142857142859, 'epoch': 4.22}
{'loss': 0.0583, 'grad_norm': 0.27902209758758545, 'learning_rate': 0.0001734197755535335, 'epoch': 4.22}
{'loss': 0.0613, 'grad_norm': 0.24636590480804443, 'learning_rate': 0.00017326812253563845, 'epoch': 4.23}
{'loss': 0.0557, 'grad_norm': 0.19392338395118713, 'learning_rate': 0.00017311646951774338, 'epoch': 4.23}
{'loss': 0.0602, 'grad_norm': 0.37723588943481445, 'learning_rate': 0.00017296481649984834, 'epoch': 4.24}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09470794349908829, 'eval_runtime': 366.317, 'eval_samples_per_second': 54.008, 'eval_steps_per_second': 13.502, 'epoch': 4.25}
{'loss': 0.059, 'grad_norm': 0.4263973832130432, 'learning_rate': 0.00017250985744616317, 'epoch': 4.25}
{'loss': 0.0625, 'grad_norm': 0.27592161297798157, 'learning_rate': 0.00017235820442826813, 'epoch': 4.26}
{'loss': 0.0588, 'grad_norm': 0.3139277398586273, 'learning_rate': 0.00017220655141037303, 'epoch': 4.26}
{'loss': 0.059, 'grad_norm': 0.3567241430282593, 'learning_rate': 0.000172054898392478, 'epoch': 4.27}
{'loss': 0.0572, 'grad_norm': 0.2722984552383423, 'learning_rate': 0.00017190476190476187, 'epoch': 4.27}
{'loss': 0.0618, 'grad_norm': 0.3008308410644531, 'learning_rate': 0.00017175310888686683, 'epoch': 4.28}
{'loss': 0.0626, 'grad_norm': 0.3827860951423645, 'learning_rate': 0.0001716014558689718, 'epoch': 4.28}
{'loss': 0.0586, 'grad_norm': 0.2244030237197876, 'learning_rate': 0.00017144980285107672, 'epoch': 4.29}
{'loss': 0.05

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09441672265529633, 'eval_runtime': 365.9531, 'eval_samples_per_second': 54.062, 'eval_steps_per_second': 13.515, 'epoch': 4.3}
{'loss': 0.0596, 'grad_norm': 0.26269692182540894, 'learning_rate': 0.00017099484379739155, 'epoch': 4.3}
{'loss': 0.0607, 'grad_norm': 0.48986122012138367, 'learning_rate': 0.0001708431907794965, 'epoch': 4.31}
{'loss': 0.0616, 'grad_norm': 0.33315011858940125, 'learning_rate': 0.00017069153776160144, 'epoch': 4.31}
{'loss': 0.0602, 'grad_norm': 0.30723708868026733, 'learning_rate': 0.00017053988474370637, 'epoch': 4.32}
{'loss': 0.0612, 'grad_norm': 0.26286688446998596, 'learning_rate': 0.00017038823172581133, 'epoch': 4.32}
{'loss': 0.0584, 'grad_norm': 0.257480651140213, 'learning_rate': 0.0001702365787079163, 'epoch': 4.33}
{'loss': 0.0629, 'grad_norm': 0.39695078134536743, 'learning_rate': 0.0001700849256900212, 'epoch': 4.33}
{'loss': 0.0585, 'grad_norm': 0.7398686408996582, 'learning_rate': 0.00016993327267212616, 'epoch': 4.34}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09430181980133057, 'eval_runtime': 371.5312, 'eval_samples_per_second': 53.25, 'eval_steps_per_second': 13.312, 'epoch': 4.35}
{'loss': 0.0589, 'grad_norm': 0.2500559687614441, 'learning_rate': 0.00016947983014861995, 'epoch': 4.35}
{'loss': 0.0624, 'grad_norm': 0.3865750730037689, 'learning_rate': 0.00016932817713072488, 'epoch': 4.36}
{'loss': 0.0621, 'grad_norm': 0.45953238010406494, 'learning_rate': 0.00016917652411282982, 'epoch': 4.36}
{'loss': 0.0601, 'grad_norm': 0.257839173078537, 'learning_rate': 0.00016902487109493478, 'epoch': 4.37}
{'loss': 0.0607, 'grad_norm': 0.46939021348953247, 'learning_rate': 0.0001688732180770397, 'epoch': 4.37}
{'loss': 0.0618, 'grad_norm': 0.28768160939216614, 'learning_rate': 0.00016872156505914467, 'epoch': 4.38}
{'loss': 0.06, 'grad_norm': 0.3575340509414673, 'learning_rate': 0.00016856991204124963, 'epoch': 4.38}
{'loss': 0.058, 'grad_norm': 0.2129598706960678, 'learning_rate': 0.00016841825902335454, 'epoch': 4.39}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0945717841386795, 'eval_runtime': 340.9233, 'eval_samples_per_second': 58.031, 'eval_steps_per_second': 14.508, 'epoch': 4.4}
{'loss': 0.0638, 'grad_norm': 0.21366550028324127, 'learning_rate': 0.0001679632999696694, 'epoch': 4.4}
{'loss': 0.0583, 'grad_norm': 0.318373441696167, 'learning_rate': 0.00016781164695177432, 'epoch': 4.41}
{'loss': 0.061, 'grad_norm': 0.2469315379858017, 'learning_rate': 0.00016765999393387925, 'epoch': 4.41}
{'loss': 0.0636, 'grad_norm': 0.24919608235359192, 'learning_rate': 0.00016750834091598421, 'epoch': 4.42}
{'loss': 0.0614, 'grad_norm': 0.20437344908714294, 'learning_rate': 0.00016735668789808917, 'epoch': 4.42}
{'loss': 0.0624, 'grad_norm': 0.5164308547973633, 'learning_rate': 0.00016720503488019408, 'epoch': 4.43}
{'loss': 0.06, 'grad_norm': 0.39218512177467346, 'learning_rate': 0.00016705338186229904, 'epoch': 4.43}
{'loss': 0.0651, 'grad_norm': 0.6532688140869141, 'learning_rate': 0.000166901728844404, 'epoch': 4.44}
{'loss': 0.060

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0940479040145874, 'eval_runtime': 288.6004, 'eval_samples_per_second': 68.552, 'eval_steps_per_second': 17.138, 'epoch': 4.45}
{'loss': 0.0616, 'grad_norm': 0.28944987058639526, 'learning_rate': 0.00016644676979071882, 'epoch': 4.45}
{'loss': 0.0566, 'grad_norm': 0.3585726320743561, 'learning_rate': 0.00016629511677282376, 'epoch': 4.46}
{'loss': 0.0623, 'grad_norm': 0.18377643823623657, 'learning_rate': 0.00016614346375492872, 'epoch': 4.46}
{'loss': 0.0611, 'grad_norm': 0.5937693119049072, 'learning_rate': 0.00016599181073703365, 'epoch': 4.47}
{'loss': 0.056, 'grad_norm': 0.3973727822303772, 'learning_rate': 0.00016584015771913858, 'epoch': 4.47}
{'loss': 0.0589, 'grad_norm': 0.4247486889362335, 'learning_rate': 0.00016568850470124354, 'epoch': 4.48}
{'loss': 0.0563, 'grad_norm': 0.25929197669029236, 'learning_rate': 0.0001655368516833485, 'epoch': 4.48}
{'loss': 0.0601, 'grad_norm': 0.5084043741226196, 'learning_rate': 0.00016538519866545344, 'epoch': 4.49}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09414041042327881, 'eval_runtime': 344.4068, 'eval_samples_per_second': 57.444, 'eval_steps_per_second': 14.361, 'epoch': 4.5}
{'loss': 0.0589, 'grad_norm': 0.5586352348327637, 'learning_rate': 0.00016493023961176826, 'epoch': 4.5}
{'loss': 0.0617, 'grad_norm': 0.19797863066196442, 'learning_rate': 0.00016477858659387322, 'epoch': 4.51}
{'loss': 0.0638, 'grad_norm': 0.25659969449043274, 'learning_rate': 0.00016462693357597813, 'epoch': 4.51}
{'loss': 0.0618, 'grad_norm': 0.37627822160720825, 'learning_rate': 0.00016447528055808309, 'epoch': 4.52}
{'loss': 0.0583, 'grad_norm': 0.24194663763046265, 'learning_rate': 0.00016432362754018805, 'epoch': 4.52}
{'loss': 0.0608, 'grad_norm': 0.399938702583313, 'learning_rate': 0.000164171974522293, 'epoch': 4.53}
{'loss': 0.0623, 'grad_norm': 0.24237488210201263, 'learning_rate': 0.0001640203215043979, 'epoch': 4.53}
{'loss': 0.0585, 'grad_norm': 0.30253681540489197, 'learning_rate': 0.00016386866848650287, 'epoch': 4.54}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09372774511575699, 'eval_runtime': 337.5024, 'eval_samples_per_second': 58.619, 'eval_steps_per_second': 14.655, 'epoch': 4.55}
{'loss': 0.0625, 'grad_norm': 0.3153060972690582, 'learning_rate': 0.0001634137094328177, 'epoch': 4.55}
{'loss': 0.0618, 'grad_norm': 0.4599134027957916, 'learning_rate': 0.00016326205641492263, 'epoch': 4.56}
{'loss': 0.0629, 'grad_norm': 0.5259862542152405, 'learning_rate': 0.0001631104033970276, 'epoch': 4.56}
{'loss': 0.0647, 'grad_norm': 0.4794628620147705, 'learning_rate': 0.00016295875037913255, 'epoch': 4.57}
{'loss': 0.0567, 'grad_norm': 0.2208600491285324, 'learning_rate': 0.00016280709736123745, 'epoch': 4.57}
{'loss': 0.0584, 'grad_norm': 0.2539854347705841, 'learning_rate': 0.00016265544434334241, 'epoch': 4.58}
{'loss': 0.0629, 'grad_norm': 0.29908016324043274, 'learning_rate': 0.00016250379132544737, 'epoch': 4.58}
{'loss': 0.061, 'grad_norm': 0.46889033913612366, 'learning_rate': 0.0001623521383075523, 'epoch': 4.59}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09349431842565536, 'eval_runtime': 343.9726, 'eval_samples_per_second': 57.516, 'eval_steps_per_second': 14.379, 'epoch': 4.6}
{'loss': 0.0592, 'grad_norm': 0.2616218626499176, 'learning_rate': 0.00016189717925386713, 'epoch': 4.61}
{'loss': 0.0619, 'grad_norm': 0.3030650019645691, 'learning_rate': 0.0001617455262359721, 'epoch': 4.61}
{'loss': 0.0645, 'grad_norm': 0.4868916869163513, 'learning_rate': 0.00016159387321807705, 'epoch': 4.62}
{'loss': 0.0583, 'grad_norm': 0.30265456438064575, 'learning_rate': 0.00016144222020018196, 'epoch': 4.62}
{'loss': 0.063, 'grad_norm': 0.32916706800460815, 'learning_rate': 0.00016129056718228692, 'epoch': 4.63}
{'loss': 0.0583, 'grad_norm': 0.26570969820022583, 'learning_rate': 0.00016113891416439185, 'epoch': 4.63}
{'loss': 0.0654, 'grad_norm': 0.6104602813720703, 'learning_rate': 0.00016098877767667575, 'epoch': 4.64}
{'loss': 0.0595, 'grad_norm': 0.4101980924606323, 'learning_rate': 0.0001608371246587807, 'epoch': 4.64}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09353028237819672, 'eval_runtime': 370.8492, 'eval_samples_per_second': 53.348, 'eval_steps_per_second': 13.337, 'epoch': 4.65}
{'loss': 0.0597, 'grad_norm': 0.27348190546035767, 'learning_rate': 0.00016038216560509554, 'epoch': 4.66}
{'loss': 0.063, 'grad_norm': 0.3529454171657562, 'learning_rate': 0.00016023051258720047, 'epoch': 4.66}
{'loss': 0.0633, 'grad_norm': 0.2199641466140747, 'learning_rate': 0.00016007885956930543, 'epoch': 4.67}
{'loss': 0.0627, 'grad_norm': 0.6082504987716675, 'learning_rate': 0.00015992720655141034, 'epoch': 4.67}
{'loss': 0.0641, 'grad_norm': 0.20953349769115448, 'learning_rate': 0.0001597755535335153, 'epoch': 4.68}
{'loss': 0.0618, 'grad_norm': 0.341594934463501, 'learning_rate': 0.00015962390051562026, 'epoch': 4.68}
{'loss': 0.0627, 'grad_norm': 0.3017778992652893, 'learning_rate': 0.00015947224749772522, 'epoch': 4.69}
{'loss': 0.0582, 'grad_norm': 0.26536834239959717, 'learning_rate': 0.00015932059447983012, 'epoch': 4.69}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09364425390958786, 'eval_runtime': 355.5413, 'eval_samples_per_second': 55.645, 'eval_steps_per_second': 13.911, 'epoch': 4.7}
{'loss': 0.059, 'grad_norm': 0.2260318249464035, 'learning_rate': 0.00015886563542614497, 'epoch': 4.71}
{'loss': 0.0573, 'grad_norm': 0.37996983528137207, 'learning_rate': 0.0001587139824082499, 'epoch': 4.71}
{'loss': 0.0622, 'grad_norm': 0.31227195262908936, 'learning_rate': 0.00015856232939035484, 'epoch': 4.72}
{'loss': 0.0608, 'grad_norm': 0.29596877098083496, 'learning_rate': 0.0001584106763724598, 'epoch': 4.72}
{'loss': 0.0647, 'grad_norm': 0.37933799624443054, 'learning_rate': 0.00015825902335456476, 'epoch': 4.73}
{'loss': 0.0586, 'grad_norm': 0.13339750468730927, 'learning_rate': 0.00015810737033666967, 'epoch': 4.73}
{'loss': 0.0638, 'grad_norm': 0.9651303887367249, 'learning_rate': 0.00015795571731877463, 'epoch': 4.74}
{'loss': 0.0652, 'grad_norm': 0.5529686808586121, 'learning_rate': 0.00015780406430087958, 'epoch': 4.74}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09345714002847672, 'eval_runtime': 362.2655, 'eval_samples_per_second': 54.612, 'eval_steps_per_second': 13.653, 'epoch': 4.75}
{'loss': 0.0619, 'grad_norm': 0.4986638128757477, 'learning_rate': 0.00015735062177737335, 'epoch': 4.76}
{'loss': 0.0589, 'grad_norm': 0.22306880354881287, 'learning_rate': 0.0001571989687594783, 'epoch': 4.76}
{'loss': 0.058, 'grad_norm': 0.3172021508216858, 'learning_rate': 0.00015704731574158324, 'epoch': 4.77}
{'loss': 0.0627, 'grad_norm': 0.2622605860233307, 'learning_rate': 0.00015689566272368818, 'epoch': 4.77}
{'loss': 0.0655, 'grad_norm': 0.39113786816596985, 'learning_rate': 0.00015674400970579314, 'epoch': 4.78}
{'loss': 0.0591, 'grad_norm': 0.4604141414165497, 'learning_rate': 0.0001565923566878981, 'epoch': 4.78}
{'loss': 0.0603, 'grad_norm': 0.188088521361351, 'learning_rate': 0.000156440703670003, 'epoch': 4.79}
{'loss': 0.0629, 'grad_norm': 0.23125220835208893, 'learning_rate': 0.00015628905065210796, 'epoch': 4.79}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09354446083307266, 'eval_runtime': 365.311, 'eval_samples_per_second': 54.157, 'eval_steps_per_second': 13.539, 'epoch': 4.8}
{'loss': 0.0607, 'grad_norm': 0.4840564727783203, 'learning_rate': 0.0001558340915984228, 'epoch': 4.81}
{'loss': 0.0611, 'grad_norm': 0.2596747875213623, 'learning_rate': 0.00015568243858052775, 'epoch': 4.81}
{'loss': 0.0668, 'grad_norm': 0.25729018449783325, 'learning_rate': 0.00015553078556263268, 'epoch': 4.82}
{'loss': 0.0601, 'grad_norm': 0.2325955331325531, 'learning_rate': 0.00015537913254473764, 'epoch': 4.82}
{'loss': 0.0646, 'grad_norm': 0.34717562794685364, 'learning_rate': 0.00015522747952684255, 'epoch': 4.83}
{'loss': 0.0578, 'grad_norm': 0.43732330203056335, 'learning_rate': 0.0001550758265089475, 'epoch': 4.83}
{'loss': 0.06, 'grad_norm': 0.2777223587036133, 'learning_rate': 0.00015492417349105247, 'epoch': 4.84}
{'loss': 0.0626, 'grad_norm': 0.26519909501075745, 'learning_rate': 0.00015477252047315743, 'epoch': 4.84}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09323756396770477, 'eval_runtime': 365.2162, 'eval_samples_per_second': 54.171, 'eval_steps_per_second': 13.543, 'epoch': 4.85}
{'loss': 0.0578, 'grad_norm': 0.3814299702644348, 'learning_rate': 0.00015431756141947222, 'epoch': 4.86}
{'loss': 0.0611, 'grad_norm': 0.34306928515434265, 'learning_rate': 0.00015416590840157718, 'epoch': 4.86}
{'loss': 0.0617, 'grad_norm': 0.28289443254470825, 'learning_rate': 0.00015401425538368212, 'epoch': 4.87}
{'loss': 0.0631, 'grad_norm': 0.4468829035758972, 'learning_rate': 0.00015386411889596602, 'epoch': 4.87}
{'loss': 0.0635, 'grad_norm': 0.16657614707946777, 'learning_rate': 0.00015371246587807095, 'epoch': 4.88}
{'loss': 0.0621, 'grad_norm': 0.407378613948822, 'learning_rate': 0.00015356081286017588, 'epoch': 4.88}
{'loss': 0.0604, 'grad_norm': 0.3432096838951111, 'learning_rate': 0.00015340915984228084, 'epoch': 4.89}
{'loss': 0.0643, 'grad_norm': 0.4791308641433716, 'learning_rate': 0.0001532575068243858, 'epoch': 4.89}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0929778516292572, 'eval_runtime': 371.7395, 'eval_samples_per_second': 53.22, 'eval_steps_per_second': 13.305, 'epoch': 4.9}
{'loss': 0.0608, 'grad_norm': 0.3764576017856598, 'learning_rate': 0.00015280406430087957, 'epoch': 4.91}
{'loss': 0.0592, 'grad_norm': 0.2799644470214844, 'learning_rate': 0.0001526524112829845, 'epoch': 4.91}
{'loss': 0.0626, 'grad_norm': 0.21454104781150818, 'learning_rate': 0.00015250075826508946, 'epoch': 4.92}
{'loss': 0.0638, 'grad_norm': 0.3724521994590759, 'learning_rate': 0.00015234910524719442, 'epoch': 4.92}
{'loss': 0.056, 'grad_norm': 0.3368934988975525, 'learning_rate': 0.00015219745222929936, 'epoch': 4.93}
{'loss': 0.0592, 'grad_norm': 0.34889888763427734, 'learning_rate': 0.0001520457992114043, 'epoch': 4.93}
{'loss': 0.0598, 'grad_norm': 0.201150581240654, 'learning_rate': 0.00015189414619350925, 'epoch': 4.94}
{'loss': 0.0581, 'grad_norm': 0.1864141970872879, 'learning_rate': 0.00015174249317561418, 'epoch': 4.94}
{'loss': 0.06

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09284244477748871, 'eval_runtime': 371.8912, 'eval_samples_per_second': 53.198, 'eval_steps_per_second': 13.3, 'epoch': 4.95}
{'loss': 0.0557, 'grad_norm': 0.1369086652994156, 'learning_rate': 0.000151287534121929, 'epoch': 4.96}
{'loss': 0.0641, 'grad_norm': 0.2763507068157196, 'learning_rate': 0.00015113588110403397, 'epoch': 4.96}
{'loss': 0.0603, 'grad_norm': 0.24578385055065155, 'learning_rate': 0.00015098422808613893, 'epoch': 4.97}
{'loss': 0.0647, 'grad_norm': 0.27397698163986206, 'learning_rate': 0.00015083257506824383, 'epoch': 4.97}
{'loss': 0.0656, 'grad_norm': 0.784745454788208, 'learning_rate': 0.0001506809220503488, 'epoch': 4.98}
{'loss': 0.0589, 'grad_norm': 0.2215413600206375, 'learning_rate': 0.00015052926903245373, 'epoch': 4.98}
{'loss': 0.062, 'grad_norm': 0.42531734704971313, 'learning_rate': 0.00015037761601455869, 'epoch': 4.99}
{'loss': 0.061, 'grad_norm': 0.267053484916687, 'learning_rate': 0.00015022596299666362, 'epoch': 4.99}
{'loss': 0.059

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.093335822224617, 'eval_runtime': 374.6824, 'eval_samples_per_second': 52.802, 'eval_steps_per_second': 13.201, 'epoch': 5.0}
{'loss': 0.0536, 'grad_norm': 0.18550202250480652, 'learning_rate': 0.00014977100394297844, 'epoch': 5.01}
{'loss': 0.0585, 'grad_norm': 0.2379560023546219, 'learning_rate': 0.0001496193509250834, 'epoch': 5.01}
{'loss': 0.0543, 'grad_norm': 0.4048466682434082, 'learning_rate': 0.00014946769790718834, 'epoch': 5.02}
{'loss': 0.0542, 'grad_norm': 0.279286652803421, 'learning_rate': 0.0001493160448892933, 'epoch': 5.02}
{'loss': 0.0542, 'grad_norm': 0.3963720500469208, 'learning_rate': 0.00014916439187139823, 'epoch': 5.03}
{'loss': 0.0581, 'grad_norm': 0.22848844528198242, 'learning_rate': 0.00014901273885350316, 'epoch': 5.03}
{'loss': 0.0561, 'grad_norm': 0.2796873152256012, 'learning_rate': 0.00014886108583560812, 'epoch': 5.04}
{'loss': 0.0557, 'grad_norm': 0.25439172983169556, 'learning_rate': 0.00014870943281771305, 'epoch': 5.04}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09338551759719849, 'eval_runtime': 369.5384, 'eval_samples_per_second': 53.537, 'eval_steps_per_second': 13.384, 'epoch': 5.05}
{'loss': 0.0565, 'grad_norm': 0.24390514194965363, 'learning_rate': 0.0001482544737640279, 'epoch': 5.06}
{'loss': 0.0568, 'grad_norm': 0.31645604968070984, 'learning_rate': 0.00014810433727631178, 'epoch': 5.07}
{'loss': 0.0574, 'grad_norm': 0.34070953726768494, 'learning_rate': 0.00014795268425841674, 'epoch': 5.07}
{'loss': 0.0546, 'grad_norm': 0.4039376974105835, 'learning_rate': 0.00014780103124052167, 'epoch': 5.08}
{'loss': 0.0566, 'grad_norm': 0.35745471715927124, 'learning_rate': 0.00014764937822262663, 'epoch': 5.08}
{'loss': 0.0534, 'grad_norm': 0.20469053089618683, 'learning_rate': 0.00014749772520473157, 'epoch': 5.09}
{'loss': 0.0569, 'grad_norm': 0.30173972249031067, 'learning_rate': 0.0001473460721868365, 'epoch': 5.09}
{'loss': 0.0566, 'grad_norm': 0.44646379351615906, 'learning_rate': 0.00014719441916894146, 'epoch': 5.1}
{'lo

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09376592189073563, 'eval_runtime': 336.1036, 'eval_samples_per_second': 58.863, 'eval_steps_per_second': 14.716, 'epoch': 5.11}
{'loss': 0.0582, 'grad_norm': 0.17964483797550201, 'learning_rate': 0.00014673946011525629, 'epoch': 5.11}
{'loss': 0.0568, 'grad_norm': 0.32394903898239136, 'learning_rate': 0.00014658780709736122, 'epoch': 5.12}
{'loss': 0.0545, 'grad_norm': 0.26002252101898193, 'learning_rate': 0.00014643615407946618, 'epoch': 5.12}
{'loss': 0.0541, 'grad_norm': 0.28581953048706055, 'learning_rate': 0.0001462845010615711, 'epoch': 5.13}
{'loss': 0.0568, 'grad_norm': 0.2959047853946686, 'learning_rate': 0.00014613284804367607, 'epoch': 5.13}
{'loss': 0.0562, 'grad_norm': 0.3392121493816376, 'learning_rate': 0.000145981195025781, 'epoch': 5.14}
{'loss': 0.056, 'grad_norm': 0.23356717824935913, 'learning_rate': 0.00014582954200788594, 'epoch': 5.14}
{'loss': 0.0591, 'grad_norm': 0.39434927701950073, 'learning_rate': 0.00014567788898999087, 'epoch': 5.15}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09375108778476715, 'eval_runtime': 370.3309, 'eval_samples_per_second': 53.422, 'eval_steps_per_second': 13.356, 'epoch': 5.16}
{'loss': 0.0572, 'grad_norm': 0.26327162981033325, 'learning_rate': 0.00014522292993630572, 'epoch': 5.16}
{'loss': 0.0561, 'grad_norm': 0.2607792019844055, 'learning_rate': 0.00014507127691841065, 'epoch': 5.17}
{'loss': 0.0591, 'grad_norm': 0.36741459369659424, 'learning_rate': 0.00014491962390051561, 'epoch': 5.17}
{'loss': 0.0568, 'grad_norm': 0.24870821833610535, 'learning_rate': 0.00014476797088262055, 'epoch': 5.18}
{'loss': 0.0552, 'grad_norm': 0.2859407067298889, 'learning_rate': 0.0001446163178647255, 'epoch': 5.18}
{'loss': 0.0564, 'grad_norm': 0.24162553250789642, 'learning_rate': 0.00014446466484683044, 'epoch': 5.19}
{'loss': 0.058, 'grad_norm': 0.19612720608711243, 'learning_rate': 0.00014431301182893537, 'epoch': 5.19}
{'loss': 0.0588, 'grad_norm': 0.2574901282787323, 'learning_rate': 0.00014416287534121927, 'epoch': 5.2}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09358450770378113, 'eval_runtime': 284.8964, 'eval_samples_per_second': 69.443, 'eval_steps_per_second': 17.361, 'epoch': 5.21}
{'loss': 0.0528, 'grad_norm': 0.24803228676319122, 'learning_rate': 0.0001437079162875341, 'epoch': 5.21}
{'loss': 0.0578, 'grad_norm': 0.29485589265823364, 'learning_rate': 0.00014355626326963906, 'epoch': 5.22}
{'loss': 0.0575, 'grad_norm': 0.20613259077072144, 'learning_rate': 0.000143404610251744, 'epoch': 5.22}
{'loss': 0.0563, 'grad_norm': 0.4230683743953705, 'learning_rate': 0.00014325295723384895, 'epoch': 5.23}
{'loss': 0.056, 'grad_norm': 0.23965051770210266, 'learning_rate': 0.00014310130421595388, 'epoch': 5.23}
{'loss': 0.0574, 'grad_norm': 0.23192046582698822, 'learning_rate': 0.00014294965119805884, 'epoch': 5.24}
{'loss': 0.0569, 'grad_norm': 0.29327037930488586, 'learning_rate': 0.00014279799818016378, 'epoch': 5.24}
{'loss': 0.0547, 'grad_norm': 0.26071760058403015, 'learning_rate': 0.0001426463451622687, 'epoch': 5.25}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09370769560337067, 'eval_runtime': 282.3376, 'eval_samples_per_second': 70.072, 'eval_steps_per_second': 17.518, 'epoch': 5.26}
{'loss': 0.0561, 'grad_norm': 0.2636050581932068, 'learning_rate': 0.00014219138610858354, 'epoch': 5.26}
{'loss': 0.0562, 'grad_norm': 0.2844429910182953, 'learning_rate': 0.0001420397330906885, 'epoch': 5.27}
{'loss': 0.0542, 'grad_norm': 0.23749324679374695, 'learning_rate': 0.00014188808007279343, 'epoch': 5.27}
{'loss': 0.0556, 'grad_norm': 0.26606079936027527, 'learning_rate': 0.0001417364270548984, 'epoch': 5.28}
{'loss': 0.0559, 'grad_norm': 0.18927043676376343, 'learning_rate': 0.00014158477403700332, 'epoch': 5.28}
{'loss': 0.0569, 'grad_norm': 0.21779298782348633, 'learning_rate': 0.00014143312101910828, 'epoch': 5.29}
{'loss': 0.056, 'grad_norm': 0.3322738707065582, 'learning_rate': 0.00014128146800121321, 'epoch': 5.29}
{'loss': 0.0561, 'grad_norm': 0.29163965582847595, 'learning_rate': 0.00014112981498331815, 'epoch': 5.3}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09307844936847687, 'eval_runtime': 351.9945, 'eval_samples_per_second': 56.205, 'eval_steps_per_second': 14.051, 'epoch': 5.31}
{'loss': 0.0553, 'grad_norm': 0.17905080318450928, 'learning_rate': 0.00014067485592963297, 'epoch': 5.31}
{'loss': 0.054, 'grad_norm': 0.21491339802742004, 'learning_rate': 0.00014052320291173793, 'epoch': 5.32}
{'loss': 0.059, 'grad_norm': 0.3854714035987854, 'learning_rate': 0.0001403715498938429, 'epoch': 5.32}
{'loss': 0.0553, 'grad_norm': 0.2676379978656769, 'learning_rate': 0.00014021989687594782, 'epoch': 5.33}
{'loss': 0.0539, 'grad_norm': 0.28094008564949036, 'learning_rate': 0.00014006824385805276, 'epoch': 5.33}
{'loss': 0.0555, 'grad_norm': 0.3040924072265625, 'learning_rate': 0.00013991659084015772, 'epoch': 5.34}
{'loss': 0.0553, 'grad_norm': 0.19990436732769012, 'learning_rate': 0.00013976493782226265, 'epoch': 5.34}
{'loss': 0.0577, 'grad_norm': 0.23460537195205688, 'learning_rate': 0.00013961328480436758, 'epoch': 5.35}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09327351301908493, 'eval_runtime': 349.6691, 'eval_samples_per_second': 56.579, 'eval_steps_per_second': 14.145, 'epoch': 5.36}
{'loss': 0.0545, 'grad_norm': 0.34083572030067444, 'learning_rate': 0.00013915832575068244, 'epoch': 5.36}
{'loss': 0.0578, 'grad_norm': 0.38514822721481323, 'learning_rate': 0.00013900667273278737, 'epoch': 5.37}
{'loss': 0.0577, 'grad_norm': 0.34372836351394653, 'learning_rate': 0.00013885501971489233, 'epoch': 5.37}
{'loss': 0.0577, 'grad_norm': 0.27037370204925537, 'learning_rate': 0.00013870336669699726, 'epoch': 5.38}
{'loss': 0.0603, 'grad_norm': 0.3129212558269501, 'learning_rate': 0.0001385517136791022, 'epoch': 5.38}
{'loss': 0.0582, 'grad_norm': 0.414706826210022, 'learning_rate': 0.0001384015771913861, 'epoch': 5.39}
{'loss': 0.0633, 'grad_norm': 0.4140015244483948, 'learning_rate': 0.00013824992417349106, 'epoch': 5.39}
{'loss': 0.0552, 'grad_norm': 0.5641529560089111, 'learning_rate': 0.000138098271155596, 'epoch': 5.4}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09278402477502823, 'eval_runtime': 326.2389, 'eval_samples_per_second': 60.643, 'eval_steps_per_second': 15.161, 'epoch': 5.41}
{'loss': 0.0569, 'grad_norm': 0.3585950434207916, 'learning_rate': 0.0001376433121019108, 'epoch': 5.41}
{'loss': 0.0568, 'grad_norm': 0.4760560691356659, 'learning_rate': 0.00013749165908401575, 'epoch': 5.42}
{'loss': 0.057, 'grad_norm': 0.24990181624889374, 'learning_rate': 0.0001373400060661207, 'epoch': 5.42}
{'loss': 0.0583, 'grad_norm': 0.28612786531448364, 'learning_rate': 0.00013718835304822564, 'epoch': 5.43}
{'loss': 0.0529, 'grad_norm': 0.316972017288208, 'learning_rate': 0.0001370367000303306, 'epoch': 5.43}
{'loss': 0.0574, 'grad_norm': 0.7795926332473755, 'learning_rate': 0.00013688504701243553, 'epoch': 5.44}
{'loss': 0.0621, 'grad_norm': 0.23516270518302917, 'learning_rate': 0.0001367333939945405, 'epoch': 5.44}
{'loss': 0.0558, 'grad_norm': 0.2641321122646332, 'learning_rate': 0.00013658174097664542, 'epoch': 5.45}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09331505745649338, 'eval_runtime': 376.0502, 'eval_samples_per_second': 52.61, 'eval_steps_per_second': 13.153, 'epoch': 5.46}
{'loss': 0.0586, 'grad_norm': 0.1771106719970703, 'learning_rate': 0.00013612678192296025, 'epoch': 5.46}
{'loss': 0.0536, 'grad_norm': 0.18828895688056946, 'learning_rate': 0.0001359751289050652, 'epoch': 5.47}
{'loss': 0.06, 'grad_norm': 0.14912348985671997, 'learning_rate': 0.00013582347588717014, 'epoch': 5.47}
{'loss': 0.0544, 'grad_norm': 0.32476818561553955, 'learning_rate': 0.0001356718228692751, 'epoch': 5.48}
{'loss': 0.0542, 'grad_norm': 0.22532430291175842, 'learning_rate': 0.00013552016985138003, 'epoch': 5.48}
{'loss': 0.0569, 'grad_norm': 0.44774994254112244, 'learning_rate': 0.00013536851683348497, 'epoch': 5.49}
{'loss': 0.0581, 'grad_norm': 0.3022056221961975, 'learning_rate': 0.00013521686381558993, 'epoch': 5.49}
{'loss': 0.0549, 'grad_norm': 0.6103931665420532, 'learning_rate': 0.00013506521079769486, 'epoch': 5.5}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09333456307649612, 'eval_runtime': 374.8744, 'eval_samples_per_second': 52.775, 'eval_steps_per_second': 13.194, 'epoch': 5.51}
{'loss': 0.0598, 'grad_norm': 0.392571359872818, 'learning_rate': 0.00013461025174400969, 'epoch': 5.51}
{'loss': 0.0578, 'grad_norm': 0.341306209564209, 'learning_rate': 0.00013445859872611465, 'epoch': 5.52}
{'loss': 0.0601, 'grad_norm': 0.2922995984554291, 'learning_rate': 0.00013430694570821958, 'epoch': 5.53}
{'loss': 0.0553, 'grad_norm': 0.2673807144165039, 'learning_rate': 0.00013415529269032454, 'epoch': 5.53}
{'loss': 0.0547, 'grad_norm': 0.3817801773548126, 'learning_rate': 0.00013400363967242947, 'epoch': 5.54}
{'loss': 0.0618, 'grad_norm': 0.28449609875679016, 'learning_rate': 0.0001338519866545344, 'epoch': 5.54}
{'loss': 0.0586, 'grad_norm': 0.33319881558418274, 'learning_rate': 0.00013370033363663936, 'epoch': 5.55}
{'loss': 0.0571, 'grad_norm': 0.26577046513557434, 'learning_rate': 0.0001335486806187443, 'epoch': 5.55}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09331515431404114, 'eval_runtime': 372.3592, 'eval_samples_per_second': 53.131, 'eval_steps_per_second': 13.283, 'epoch': 5.56}
{'loss': 0.063, 'grad_norm': 0.38919031620025635, 'learning_rate': 0.00013309372156505912, 'epoch': 5.57}
{'loss': 0.0577, 'grad_norm': 0.306964248418808, 'learning_rate': 0.00013294206854716408, 'epoch': 5.57}
{'loss': 0.0578, 'grad_norm': 0.36345890164375305, 'learning_rate': 0.00013279041552926904, 'epoch': 5.58}
{'loss': 0.0585, 'grad_norm': 0.17759153246879578, 'learning_rate': 0.00013263876251137397, 'epoch': 5.58}
{'loss': 0.0564, 'grad_norm': 0.36074647307395935, 'learning_rate': 0.0001324871094934789, 'epoch': 5.59}
{'loss': 0.0551, 'grad_norm': 0.43535131216049194, 'learning_rate': 0.00013233545647558384, 'epoch': 5.59}
{'loss': 0.0579, 'grad_norm': 0.30953285098075867, 'learning_rate': 0.0001321838034576888, 'epoch': 5.6}
{'loss': 0.0588, 'grad_norm': 0.27754926681518555, 'learning_rate': 0.0001320336669699727, 'epoch': 5.6}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09316225349903107, 'eval_runtime': 368.4776, 'eval_samples_per_second': 53.691, 'eval_steps_per_second': 13.423, 'epoch': 5.61}
{'loss': 0.0568, 'grad_norm': 0.37052467465400696, 'learning_rate': 0.00013157870791628753, 'epoch': 5.62}
{'loss': 0.0545, 'grad_norm': 0.3253936767578125, 'learning_rate': 0.00013142705489839246, 'epoch': 5.62}
{'loss': 0.0558, 'grad_norm': 0.43805432319641113, 'learning_rate': 0.00013127540188049742, 'epoch': 5.63}
{'loss': 0.0558, 'grad_norm': 0.3344554305076599, 'learning_rate': 0.00013112374886260235, 'epoch': 5.63}
{'loss': 0.0564, 'grad_norm': 0.21236123144626617, 'learning_rate': 0.0001309720958447073, 'epoch': 5.64}
{'loss': 0.0534, 'grad_norm': 0.22472871840000153, 'learning_rate': 0.00013082044282681224, 'epoch': 5.64}
{'loss': 0.0592, 'grad_norm': 0.27560439705848694, 'learning_rate': 0.00013066878980891718, 'epoch': 5.65}
{'loss': 0.0618, 'grad_norm': 0.41895437240600586, 'learning_rate': 0.00013051713679102214, 'epoch': 5.65}
{'l

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09270241111516953, 'eval_runtime': 368.7535, 'eval_samples_per_second': 53.651, 'eval_steps_per_second': 13.413, 'epoch': 5.66}
{'loss': 0.0573, 'grad_norm': 0.3367600739002228, 'learning_rate': 0.00013006217773733696, 'epoch': 5.67}
{'loss': 0.0587, 'grad_norm': 0.2471698671579361, 'learning_rate': 0.0001299105247194419, 'epoch': 5.67}
{'loss': 0.0592, 'grad_norm': 0.18645110726356506, 'learning_rate': 0.00012975887170154686, 'epoch': 5.68}
{'loss': 0.0585, 'grad_norm': 0.18418611586093903, 'learning_rate': 0.0001296072186836518, 'epoch': 5.68}
{'loss': 0.0573, 'grad_norm': 0.21380777657032013, 'learning_rate': 0.00012945556566575675, 'epoch': 5.69}
{'loss': 0.0592, 'grad_norm': 0.21794500946998596, 'learning_rate': 0.00012930391264786168, 'epoch': 5.69}
{'loss': 0.059, 'grad_norm': 0.2665630877017975, 'learning_rate': 0.00012915225962996661, 'epoch': 5.7}
{'loss': 0.0561, 'grad_norm': 0.25890275835990906, 'learning_rate': 0.00012900060661207157, 'epoch': 5.7}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0927332192659378, 'eval_runtime': 367.8672, 'eval_samples_per_second': 53.78, 'eval_steps_per_second': 13.445, 'epoch': 5.71}
{'loss': 0.0641, 'grad_norm': 0.3753325045108795, 'learning_rate': 0.00012854716408856534, 'epoch': 5.72}
{'loss': 0.0614, 'grad_norm': 0.5138556957244873, 'learning_rate': 0.00012839551107067027, 'epoch': 5.72}
{'loss': 0.0585, 'grad_norm': 0.3523424565792084, 'learning_rate': 0.00012824385805277523, 'epoch': 5.73}
{'loss': 0.0578, 'grad_norm': 0.38273441791534424, 'learning_rate': 0.0001280922050348802, 'epoch': 5.73}
{'loss': 0.0613, 'grad_norm': 0.2358020395040512, 'learning_rate': 0.00012794055201698513, 'epoch': 5.74}
{'loss': 0.0586, 'grad_norm': 0.35323482751846313, 'learning_rate': 0.00012778889899909009, 'epoch': 5.74}
{'loss': 0.0568, 'grad_norm': 0.41358813643455505, 'learning_rate': 0.00012763724598119502, 'epoch': 5.75}
{'loss': 0.0602, 'grad_norm': 0.22461548447608948, 'learning_rate': 0.00012748559296329995, 'epoch': 5.75}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09277443587779999, 'eval_runtime': 369.7238, 'eval_samples_per_second': 53.51, 'eval_steps_per_second': 13.378, 'epoch': 5.76}
{'loss': 0.0588, 'grad_norm': 0.3794099688529968, 'learning_rate': 0.00012703063390961478, 'epoch': 5.77}
{'loss': 0.0613, 'grad_norm': 0.373127281665802, 'learning_rate': 0.00012687898089171974, 'epoch': 5.77}
{'loss': 0.055, 'grad_norm': 0.3787751793861389, 'learning_rate': 0.00012672732787382467, 'epoch': 5.78}
{'loss': 0.0594, 'grad_norm': 0.5190867781639099, 'learning_rate': 0.00012657567485592963, 'epoch': 5.78}
{'loss': 0.0592, 'grad_norm': 0.3235786259174347, 'learning_rate': 0.00012642402183803456, 'epoch': 5.79}
{'loss': 0.0593, 'grad_norm': 0.38146793842315674, 'learning_rate': 0.00012627236882013952, 'epoch': 5.79}
{'loss': 0.0548, 'grad_norm': 0.28036296367645264, 'learning_rate': 0.00012612071580224446, 'epoch': 5.8}
{'loss': 0.0599, 'grad_norm': 0.2118876576423645, 'learning_rate': 0.0001259690627843494, 'epoch': 5.8}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0926915630698204, 'eval_runtime': 368.2685, 'eval_samples_per_second': 53.722, 'eval_steps_per_second': 13.43, 'epoch': 5.81}
{'loss': 0.0602, 'grad_norm': 0.680169403553009, 'learning_rate': 0.00012551562026084318, 'epoch': 5.82}
{'loss': 0.058, 'grad_norm': 0.1822594702243805, 'learning_rate': 0.00012536396724294812, 'epoch': 5.82}
{'loss': 0.0537, 'grad_norm': 0.2576970160007477, 'learning_rate': 0.00012521231422505308, 'epoch': 5.83}
{'loss': 0.0565, 'grad_norm': 0.3472053110599518, 'learning_rate': 0.000125060661207158, 'epoch': 5.83}
{'loss': 0.0608, 'grad_norm': 0.7535152435302734, 'learning_rate': 0.00012490900818926294, 'epoch': 5.84}
{'loss': 0.0593, 'grad_norm': 0.18006020784378052, 'learning_rate': 0.0001247573551713679, 'epoch': 5.84}
{'loss': 0.0597, 'grad_norm': 0.3891446590423584, 'learning_rate': 0.00012460570215347283, 'epoch': 5.85}
{'loss': 0.0572, 'grad_norm': 0.24344824254512787, 'learning_rate': 0.0001244540491355778, 'epoch': 5.85}
{'loss': 0.055

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09228402376174927, 'eval_runtime': 372.4209, 'eval_samples_per_second': 53.123, 'eval_steps_per_second': 13.281, 'epoch': 5.86}
{'loss': 0.0574, 'grad_norm': 0.29805487394332886, 'learning_rate': 0.00012399909008189262, 'epoch': 5.87}
{'loss': 0.0556, 'grad_norm': 0.3009200096130371, 'learning_rate': 0.00012384743706399755, 'epoch': 5.87}
{'loss': 0.0599, 'grad_norm': 0.23811157047748566, 'learning_rate': 0.0001236957840461025, 'epoch': 5.88}
{'loss': 0.06, 'grad_norm': 0.3150995969772339, 'learning_rate': 0.00012354413102820744, 'epoch': 5.88}
{'loss': 0.06, 'grad_norm': 0.23379991948604584, 'learning_rate': 0.0001233924780103124, 'epoch': 5.89}
{'loss': 0.0586, 'grad_norm': 0.23671314120292664, 'learning_rate': 0.00012324082499241734, 'epoch': 5.89}
{'loss': 0.0584, 'grad_norm': 0.19432157278060913, 'learning_rate': 0.0001230891719745223, 'epoch': 5.9}
{'loss': 0.0576, 'grad_norm': 0.4128847122192383, 'learning_rate': 0.00012293751895662723, 'epoch': 5.9}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09237044304609299, 'eval_runtime': 366.9326, 'eval_samples_per_second': 53.917, 'eval_steps_per_second': 13.479, 'epoch': 5.91}
{'loss': 0.0594, 'grad_norm': 0.504216730594635, 'learning_rate': 0.00012248255990294205, 'epoch': 5.92}
{'loss': 0.0629, 'grad_norm': 0.24503293633460999, 'learning_rate': 0.000122330906885047, 'epoch': 5.92}
{'loss': 0.0568, 'grad_norm': 0.9244590401649475, 'learning_rate': 0.00012217925386715195, 'epoch': 5.93}
{'loss': 0.0604, 'grad_norm': 0.28117743134498596, 'learning_rate': 0.00012202760084925688, 'epoch': 5.93}
{'loss': 0.0591, 'grad_norm': 0.24800853431224823, 'learning_rate': 0.00012187594783136184, 'epoch': 5.94}
{'loss': 0.0614, 'grad_norm': 0.37302330136299133, 'learning_rate': 0.00012172429481346677, 'epoch': 5.94}
{'loss': 0.0593, 'grad_norm': 0.23105375468730927, 'learning_rate': 0.00012157264179557172, 'epoch': 5.95}
{'loss': 0.0583, 'grad_norm': 0.5865029096603394, 'learning_rate': 0.00012142098877767667, 'epoch': 5.95}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09241887927055359, 'eval_runtime': 369.2038, 'eval_samples_per_second': 53.586, 'eval_steps_per_second': 13.396, 'epoch': 5.96}
{'loss': 0.0569, 'grad_norm': 0.7481727600097656, 'learning_rate': 0.0001209660297239915, 'epoch': 5.97}
{'loss': 0.0625, 'grad_norm': 0.5634622573852539, 'learning_rate': 0.00012081437670609644, 'epoch': 5.97}
{'loss': 0.06, 'grad_norm': 0.3548162877559662, 'learning_rate': 0.00012066424021838034, 'epoch': 5.98}
{'loss': 0.0554, 'grad_norm': 0.37264156341552734, 'learning_rate': 0.00012051258720048527, 'epoch': 5.99}
{'loss': 0.0603, 'grad_norm': 0.21572737395763397, 'learning_rate': 0.00012036093418259022, 'epoch': 5.99}
{'loss': 0.0585, 'grad_norm': 0.33812519907951355, 'learning_rate': 0.0001202107976948741, 'epoch': 6.0}
{'loss': 0.0611, 'grad_norm': 0.2203385829925537, 'learning_rate': 0.00012005914467697907, 'epoch': 6.0}
{'loss': 0.0527, 'grad_norm': 0.6173072457313538, 'learning_rate': 0.000119907491659084, 'epoch': 6.01}
{'loss': 0.04

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09228083491325378, 'eval_runtime': 370.2758, 'eval_samples_per_second': 53.43, 'eval_steps_per_second': 13.358, 'epoch': 6.02}
{'loss': 0.0533, 'grad_norm': 0.33930453658103943, 'learning_rate': 0.00011945253260539884, 'epoch': 6.02}
{'loss': 0.0507, 'grad_norm': 0.5008247494697571, 'learning_rate': 0.00011930087958750377, 'epoch': 6.03}
{'loss': 0.0557, 'grad_norm': 0.3653421998023987, 'learning_rate': 0.00011914922656960873, 'epoch': 6.03}
{'loss': 0.0536, 'grad_norm': 0.23292900621891022, 'learning_rate': 0.00011899757355171368, 'epoch': 6.04}
{'loss': 0.0504, 'grad_norm': 0.4874272644519806, 'learning_rate': 0.00011884592053381861, 'epoch': 6.04}
{'loss': 0.0531, 'grad_norm': 0.36801987886428833, 'learning_rate': 0.00011869426751592357, 'epoch': 6.05}
{'loss': 0.0556, 'grad_norm': 0.5062217116355896, 'learning_rate': 0.0001185426144980285, 'epoch': 6.05}
{'loss': 0.052, 'grad_norm': 0.4195610582828522, 'learning_rate': 0.00011839096148013345, 'epoch': 6.06}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09255003929138184, 'eval_runtime': 371.9833, 'eval_samples_per_second': 53.185, 'eval_steps_per_second': 13.296, 'epoch': 6.07}
{'loss': 0.0537, 'grad_norm': 0.28862354159355164, 'learning_rate': 0.00011793600242644827, 'epoch': 6.07}
{'loss': 0.0519, 'grad_norm': 0.17691494524478912, 'learning_rate': 0.00011778434940855322, 'epoch': 6.08}
{'loss': 0.0535, 'grad_norm': 0.2210262417793274, 'learning_rate': 0.00011763269639065815, 'epoch': 6.08}
{'loss': 0.0533, 'grad_norm': 0.35741984844207764, 'learning_rate': 0.00011748104337276311, 'epoch': 6.09}
{'loss': 0.0526, 'grad_norm': 0.22785058617591858, 'learning_rate': 0.00011732939035486805, 'epoch': 6.09}
{'loss': 0.0504, 'grad_norm': 0.383756160736084, 'learning_rate': 0.00011717773733697299, 'epoch': 6.1}
{'loss': 0.0533, 'grad_norm': 0.3631933927536011, 'learning_rate': 0.00011702608431907794, 'epoch': 6.1}
{'loss': 0.0525, 'grad_norm': 0.3271279036998749, 'learning_rate': 0.00011687443130118288, 'epoch': 6.11}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09278447180986404, 'eval_runtime': 369.3337, 'eval_samples_per_second': 53.567, 'eval_steps_per_second': 13.392, 'epoch': 6.12}
{'loss': 0.0518, 'grad_norm': 0.16656318306922913, 'learning_rate': 0.00011641947224749771, 'epoch': 6.12}
{'loss': 0.0546, 'grad_norm': 0.2793172299861908, 'learning_rate': 0.00011626781922960266, 'epoch': 6.13}
{'loss': 0.0532, 'grad_norm': 0.26817458868026733, 'learning_rate': 0.00011611616621170759, 'epoch': 6.13}
{'loss': 0.0521, 'grad_norm': 0.475299596786499, 'learning_rate': 0.00011596451319381255, 'epoch': 6.14}
{'loss': 0.0511, 'grad_norm': 0.38335904479026794, 'learning_rate': 0.00011581286017591748, 'epoch': 6.14}
{'loss': 0.0502, 'grad_norm': 0.2278689444065094, 'learning_rate': 0.00011566120715802243, 'epoch': 6.15}
{'loss': 0.0491, 'grad_norm': 0.2967780530452728, 'learning_rate': 0.00011550955414012739, 'epoch': 6.15}
{'loss': 0.0555, 'grad_norm': 0.6566327214241028, 'learning_rate': 0.00011535790112223232, 'epoch': 6.16}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0927942767739296, 'eval_runtime': 373.3993, 'eval_samples_per_second': 52.984, 'eval_steps_per_second': 13.246, 'epoch': 6.17}
{'loss': 0.0544, 'grad_norm': 0.5696110725402832, 'learning_rate': 0.00011490294206854716, 'epoch': 6.17}
{'loss': 0.0545, 'grad_norm': 0.39628520607948303, 'learning_rate': 0.00011475128905065209, 'epoch': 6.18}
{'loss': 0.0536, 'grad_norm': 0.2107933759689331, 'learning_rate': 0.00011459963603275705, 'epoch': 6.18}
{'loss': 0.0538, 'grad_norm': 0.26940783858299255, 'learning_rate': 0.00011444798301486199, 'epoch': 6.19}
{'loss': 0.0578, 'grad_norm': 0.266358345746994, 'learning_rate': 0.00011429632999696693, 'epoch': 6.19}
{'loss': 0.0526, 'grad_norm': 0.31989365816116333, 'learning_rate': 0.00011414467697907186, 'epoch': 6.2}
{'loss': 0.0545, 'grad_norm': 0.21143823862075806, 'learning_rate': 0.00011399302396117682, 'epoch': 6.2}
{'loss': 0.0561, 'grad_norm': 0.18114535510540009, 'learning_rate': 0.00011384137094328176, 'epoch': 6.21}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09241700917482376, 'eval_runtime': 358.951, 'eval_samples_per_second': 55.116, 'eval_steps_per_second': 13.779, 'epoch': 6.22}
{'loss': 0.0544, 'grad_norm': 0.2745760679244995, 'learning_rate': 0.00011338792841977555, 'epoch': 6.22}
{'loss': 0.0575, 'grad_norm': 0.41420048475265503, 'learning_rate': 0.00011323627540188048, 'epoch': 6.23}
{'loss': 0.0535, 'grad_norm': 0.25206226110458374, 'learning_rate': 0.00011308462238398543, 'epoch': 6.23}
{'loss': 0.0521, 'grad_norm': 0.3115646243095398, 'learning_rate': 0.00011293296936609036, 'epoch': 6.24}
{'loss': 0.052, 'grad_norm': 0.312750905752182, 'learning_rate': 0.00011278131634819532, 'epoch': 6.24}
{'loss': 0.0546, 'grad_norm': 0.2960618734359741, 'learning_rate': 0.00011262966333030026, 'epoch': 6.25}
{'loss': 0.0555, 'grad_norm': 0.3901728391647339, 'learning_rate': 0.0001124780103124052, 'epoch': 6.25}
{'loss': 0.0563, 'grad_norm': 0.5884186625480652, 'learning_rate': 0.00011232635729451015, 'epoch': 6.26}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09237180650234222, 'eval_runtime': 374.7491, 'eval_samples_per_second': 52.793, 'eval_steps_per_second': 13.198, 'epoch': 6.27}
{'loss': 0.0494, 'grad_norm': 0.24279654026031494, 'learning_rate': 0.00011187139824082499, 'epoch': 6.27}
{'loss': 0.0565, 'grad_norm': 0.35903555154800415, 'learning_rate': 0.00011171974522292992, 'epoch': 6.28}
{'loss': 0.0515, 'grad_norm': 0.25338634848594666, 'learning_rate': 0.00011156809220503487, 'epoch': 6.28}
{'loss': 0.0529, 'grad_norm': 0.19418008625507355, 'learning_rate': 0.00011141643918713983, 'epoch': 6.29}
{'loss': 0.0549, 'grad_norm': 0.5647417306900024, 'learning_rate': 0.00011126478616924476, 'epoch': 6.29}
{'loss': 0.0512, 'grad_norm': 0.3602372705936432, 'learning_rate': 0.0001111131331513497, 'epoch': 6.3}
{'loss': 0.0537, 'grad_norm': 0.1627431958913803, 'learning_rate': 0.00011096148013345464, 'epoch': 6.3}
{'loss': 0.0558, 'grad_norm': 0.3351084887981415, 'learning_rate': 0.0001108098271155596, 'epoch': 6.31}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09244470298290253, 'eval_runtime': 381.2991, 'eval_samples_per_second': 51.886, 'eval_steps_per_second': 12.971, 'epoch': 6.32}
{'loss': 0.0544, 'grad_norm': 0.27384987473487854, 'learning_rate': 0.00011035638459205337, 'epoch': 6.32}
{'loss': 0.0536, 'grad_norm': 0.32994502782821655, 'learning_rate': 0.00011020473157415833, 'epoch': 6.33}
{'loss': 0.0587, 'grad_norm': 0.19035500288009644, 'learning_rate': 0.00011005307855626326, 'epoch': 6.33}
{'loss': 0.0564, 'grad_norm': 0.2628054618835449, 'learning_rate': 0.0001099014255383682, 'epoch': 6.34}
{'loss': 0.0544, 'grad_norm': 0.18659661710262299, 'learning_rate': 0.00010974977252047315, 'epoch': 6.34}
{'loss': 0.056, 'grad_norm': 0.36142048239707947, 'learning_rate': 0.0001095981195025781, 'epoch': 6.35}
{'loss': 0.0554, 'grad_norm': 0.3480452299118042, 'learning_rate': 0.00010944646648468303, 'epoch': 6.35}
{'loss': 0.0525, 'grad_norm': 0.2288249135017395, 'learning_rate': 0.00010929481346678799, 'epoch': 6.36}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09243989735841751, 'eval_runtime': 380.0268, 'eval_samples_per_second': 52.059, 'eval_steps_per_second': 13.015, 'epoch': 6.37}
{'loss': 0.0545, 'grad_norm': 0.3476015031337738, 'learning_rate': 0.0001088398544131028, 'epoch': 6.37}
{'loss': 0.0549, 'grad_norm': 0.2110636681318283, 'learning_rate': 0.00010868820139520776, 'epoch': 6.38}
{'loss': 0.0541, 'grad_norm': 0.18743155896663666, 'learning_rate': 0.0001085365483773127, 'epoch': 6.38}
{'loss': 0.0547, 'grad_norm': 0.2150031328201294, 'learning_rate': 0.00010838489535941764, 'epoch': 6.39}
{'loss': 0.0525, 'grad_norm': 0.3870231509208679, 'learning_rate': 0.00010823324234152257, 'epoch': 6.39}
{'loss': 0.0527, 'grad_norm': 0.19983944296836853, 'learning_rate': 0.00010808158932362753, 'epoch': 6.4}
{'loss': 0.057, 'grad_norm': 0.612592339515686, 'learning_rate': 0.00010792993630573247, 'epoch': 6.4}
{'loss': 0.0557, 'grad_norm': 0.22597479820251465, 'learning_rate': 0.00010777828328783741, 'epoch': 6.41}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09242274612188339, 'eval_runtime': 339.4786, 'eval_samples_per_second': 58.278, 'eval_steps_per_second': 14.569, 'epoch': 6.42}
{'loss': 0.0539, 'grad_norm': 0.18536721169948578, 'learning_rate': 0.00010732332423415225, 'epoch': 6.42}
{'loss': 0.0533, 'grad_norm': 0.20607726275920868, 'learning_rate': 0.0001071716712162572, 'epoch': 6.43}
{'loss': 0.0513, 'grad_norm': 0.3974629342556, 'learning_rate': 0.00010702001819836214, 'epoch': 6.43}
{'loss': 0.0506, 'grad_norm': 0.344252347946167, 'learning_rate': 0.00010686836518046708, 'epoch': 6.44}
{'loss': 0.0541, 'grad_norm': 0.2712562084197998, 'learning_rate': 0.00010671671216257204, 'epoch': 6.45}
{'loss': 0.0584, 'grad_norm': 0.3313169777393341, 'learning_rate': 0.00010656505914467697, 'epoch': 6.45}
{'loss': 0.0553, 'grad_norm': 0.17708078026771545, 'learning_rate': 0.00010641340612678192, 'epoch': 6.46}
{'loss': 0.0597, 'grad_norm': 0.3117048144340515, 'learning_rate': 0.0001062632696390658, 'epoch': 6.46}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09252313524484634, 'eval_runtime': 371.4712, 'eval_samples_per_second': 53.259, 'eval_steps_per_second': 13.315, 'epoch': 6.47}
{'loss': 0.053, 'grad_norm': 0.35304689407348633, 'learning_rate': 0.00010580831058538064, 'epoch': 6.48}
{'loss': 0.0559, 'grad_norm': 0.22868406772613525, 'learning_rate': 0.00010565665756748558, 'epoch': 6.48}
{'loss': 0.0583, 'grad_norm': 0.1952381730079651, 'learning_rate': 0.00010550500454959054, 'epoch': 6.49}
{'loss': 0.0537, 'grad_norm': 0.7315524816513062, 'learning_rate': 0.00010535335153169547, 'epoch': 6.49}
{'loss': 0.0541, 'grad_norm': 0.2075432687997818, 'learning_rate': 0.00010520169851380042, 'epoch': 6.5}
{'loss': 0.0521, 'grad_norm': 0.33731913566589355, 'learning_rate': 0.00010505004549590536, 'epoch': 6.5}
{'loss': 0.0547, 'grad_norm': 0.27622702717781067, 'learning_rate': 0.00010489839247801031, 'epoch': 6.51}
{'loss': 0.0554, 'grad_norm': 0.3192593455314636, 'learning_rate': 0.00010474673946011524, 'epoch': 6.51}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09277800470590591, 'eval_runtime': 370.4411, 'eval_samples_per_second': 53.407, 'eval_steps_per_second': 13.352, 'epoch': 6.52}
{'loss': 0.0518, 'grad_norm': 0.4666672646999359, 'learning_rate': 0.00010429178040643008, 'epoch': 6.53}
{'loss': 0.052, 'grad_norm': 0.3461562395095825, 'learning_rate': 0.00010414012738853501, 'epoch': 6.53}
{'loss': 0.0546, 'grad_norm': 0.34821248054504395, 'learning_rate': 0.00010398847437063997, 'epoch': 6.54}
{'loss': 0.0542, 'grad_norm': 0.20179380476474762, 'learning_rate': 0.0001038368213527449, 'epoch': 6.54}
{'loss': 0.0553, 'grad_norm': 0.33326804637908936, 'learning_rate': 0.00010368516833484985, 'epoch': 6.55}
{'loss': 0.058, 'grad_norm': 0.4712800681591034, 'learning_rate': 0.00010353351531695478, 'epoch': 6.55}
{'loss': 0.053, 'grad_norm': 0.2843364477157593, 'learning_rate': 0.00010338186229905974, 'epoch': 6.56}
{'loss': 0.0568, 'grad_norm': 0.14101473987102509, 'learning_rate': 0.00010323020928116469, 'epoch': 6.56}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0923059731721878, 'eval_runtime': 328.3498, 'eval_samples_per_second': 60.253, 'eval_steps_per_second': 15.063, 'epoch': 6.57}
{'loss': 0.0555, 'grad_norm': 0.3569963276386261, 'learning_rate': 0.00010277676675765847, 'epoch': 6.58}
{'loss': 0.0555, 'grad_norm': 0.23303528130054474, 'learning_rate': 0.00010262511373976342, 'epoch': 6.58}
{'loss': 0.0535, 'grad_norm': 0.46604251861572266, 'learning_rate': 0.00010247346072186835, 'epoch': 6.59}
{'loss': 0.0546, 'grad_norm': 0.28131020069122314, 'learning_rate': 0.00010232180770397331, 'epoch': 6.59}
{'loss': 0.0514, 'grad_norm': 0.41807615756988525, 'learning_rate': 0.00010217015468607824, 'epoch': 6.6}
{'loss': 0.0551, 'grad_norm': 0.24366559088230133, 'learning_rate': 0.00010201850166818319, 'epoch': 6.6}
{'loss': 0.0559, 'grad_norm': 0.22142158448696136, 'learning_rate': 0.00010186684865028814, 'epoch': 6.61}
{'loss': 0.0541, 'grad_norm': 0.278591126203537, 'learning_rate': 0.00010171519563239308, 'epoch': 6.61}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09245781600475311, 'eval_runtime': 331.0209, 'eval_samples_per_second': 59.767, 'eval_steps_per_second': 14.942, 'epoch': 6.62}
{'loss': 0.0557, 'grad_norm': 0.2759411334991455, 'learning_rate': 0.00010126023657870791, 'epoch': 6.63}
{'loss': 0.0543, 'grad_norm': 0.3563569188117981, 'learning_rate': 0.00010110858356081285, 'epoch': 6.63}
{'loss': 0.0558, 'grad_norm': 0.2831701934337616, 'learning_rate': 0.00010095693054291779, 'epoch': 6.64}
{'loss': 0.0595, 'grad_norm': 0.3153320252895355, 'learning_rate': 0.00010080527752502275, 'epoch': 6.64}
{'loss': 0.0593, 'grad_norm': 0.16795770823955536, 'learning_rate': 0.00010065362450712768, 'epoch': 6.65}
{'loss': 0.0571, 'grad_norm': 0.46453049778938293, 'learning_rate': 0.00010050197148923263, 'epoch': 6.65}
{'loss': 0.0523, 'grad_norm': 0.2723846733570099, 'learning_rate': 0.00010035031847133757, 'epoch': 6.66}
{'loss': 0.0535, 'grad_norm': 0.2692146897315979, 'learning_rate': 0.00010019866545344252, 'epoch': 6.66}
{'loss

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0923658087849617, 'eval_runtime': 365.0438, 'eval_samples_per_second': 54.196, 'eval_steps_per_second': 13.549, 'epoch': 6.67}
{'loss': 0.0552, 'grad_norm': 0.4465770721435547, 'learning_rate': 9.974370639975734e-05, 'epoch': 6.68}
{'loss': 0.0587, 'grad_norm': 0.1655438393354416, 'learning_rate': 9.959205338186229e-05, 'epoch': 6.68}
{'loss': 0.0564, 'grad_norm': 0.2581712603569031, 'learning_rate': 9.944191689414618e-05, 'epoch': 6.69}
{'loss': 0.0528, 'grad_norm': 0.4917420744895935, 'learning_rate': 9.929026387625112e-05, 'epoch': 6.69}
{'loss': 0.0577, 'grad_norm': 0.33577343821525574, 'learning_rate': 9.913861085835607e-05, 'epoch': 6.7}
{'loss': 0.0539, 'grad_norm': 0.4391801655292511, 'learning_rate': 9.898695784046102e-05, 'epoch': 6.7}
{'loss': 0.0539, 'grad_norm': 0.4442668855190277, 'learning_rate': 9.883530482256595e-05, 'epoch': 6.71}
{'loss': 0.0534, 'grad_norm': 0.2610909640789032, 'learning_rate': 9.868365180467091e-05, 'epoch': 6.71}
{'loss': 0.0502, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09245700389146805, 'eval_runtime': 375.7703, 'eval_samples_per_second': 52.649, 'eval_steps_per_second': 13.162, 'epoch': 6.72}
{'loss': 0.0542, 'grad_norm': 0.27961552143096924, 'learning_rate': 9.822869275098575e-05, 'epoch': 6.73}
{'loss': 0.0529, 'grad_norm': 0.2181028574705124, 'learning_rate': 9.807703973309068e-05, 'epoch': 6.73}
{'loss': 0.0539, 'grad_norm': 0.2646386921405792, 'learning_rate': 9.792538671519563e-05, 'epoch': 6.74}
{'loss': 0.0538, 'grad_norm': 0.7311258316040039, 'learning_rate': 9.777373369730056e-05, 'epoch': 6.74}
{'loss': 0.0539, 'grad_norm': 0.45641273260116577, 'learning_rate': 9.762208067940552e-05, 'epoch': 6.75}
{'loss': 0.0538, 'grad_norm': 0.3309051990509033, 'learning_rate': 9.747042766151045e-05, 'epoch': 6.75}
{'loss': 0.0558, 'grad_norm': 0.5222688913345337, 'learning_rate': 9.73187746436154e-05, 'epoch': 6.76}
{'loss': 0.0563, 'grad_norm': 0.3127697706222534, 'learning_rate': 9.716712162572035e-05, 'epoch': 6.76}
{'loss': 0.0578

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09197528660297394, 'eval_runtime': 338.2897, 'eval_samples_per_second': 58.482, 'eval_steps_per_second': 14.621, 'epoch': 6.77}
{'loss': 0.0567, 'grad_norm': 0.44687119126319885, 'learning_rate': 9.671216257203518e-05, 'epoch': 6.78}
{'loss': 0.0554, 'grad_norm': 0.3199895918369293, 'learning_rate': 9.656050955414012e-05, 'epoch': 6.78}
{'loss': 0.056, 'grad_norm': 0.38791733980178833, 'learning_rate': 9.640885653624506e-05, 'epoch': 6.79}
{'loss': 0.0527, 'grad_norm': 0.3896853029727936, 'learning_rate': 9.625720351835e-05, 'epoch': 6.79}
{'loss': 0.0547, 'grad_norm': 0.15691080689430237, 'learning_rate': 9.610555050045496e-05, 'epoch': 6.8}
{'loss': 0.054, 'grad_norm': 0.417190819978714, 'learning_rate': 9.595389748255989e-05, 'epoch': 6.8}
{'loss': 0.0527, 'grad_norm': 0.5178542137145996, 'learning_rate': 9.580376099484379e-05, 'epoch': 6.81}
{'loss': 0.0557, 'grad_norm': 0.34023192524909973, 'learning_rate': 9.565210797694872e-05, 'epoch': 6.81}
{'loss': 0.0576, 'gr

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09196610748767853, 'eval_runtime': 352.1886, 'eval_samples_per_second': 56.174, 'eval_steps_per_second': 14.044, 'epoch': 6.82}
{'loss': 0.0559, 'grad_norm': 0.2155691683292389, 'learning_rate': 9.519714892326356e-05, 'epoch': 6.83}
{'loss': 0.0519, 'grad_norm': 0.22445642948150635, 'learning_rate': 9.50454959053685e-05, 'epoch': 6.83}
{'loss': 0.0569, 'grad_norm': 0.30023136734962463, 'learning_rate': 9.489384288747346e-05, 'epoch': 6.84}
{'loss': 0.0541, 'grad_norm': 0.2870287001132965, 'learning_rate': 9.474218986957839e-05, 'epoch': 6.84}
{'loss': 0.0552, 'grad_norm': 0.5563338994979858, 'learning_rate': 9.459053685168333e-05, 'epoch': 6.85}
{'loss': 0.0545, 'grad_norm': 0.4837925136089325, 'learning_rate': 9.443888383378828e-05, 'epoch': 6.85}
{'loss': 0.0559, 'grad_norm': 0.1479443460702896, 'learning_rate': 9.428723081589323e-05, 'epoch': 6.86}
{'loss': 0.0543, 'grad_norm': 0.3800860643386841, 'learning_rate': 9.413557779799817e-05, 'epoch': 6.86}
{'loss': 0.0599

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09188896417617798, 'eval_runtime': 350.7524, 'eval_samples_per_second': 56.404, 'eval_steps_per_second': 14.101, 'epoch': 6.87}
{'loss': 0.0548, 'grad_norm': 0.24522942304611206, 'learning_rate': 9.3680618744313e-05, 'epoch': 6.88}
{'loss': 0.0573, 'grad_norm': 0.13644030690193176, 'learning_rate': 9.352896572641796e-05, 'epoch': 6.88}
{'loss': 0.0572, 'grad_norm': 0.27292972803115845, 'learning_rate': 9.337731270852289e-05, 'epoch': 6.89}
{'loss': 0.057, 'grad_norm': 0.38709399104118347, 'learning_rate': 9.322565969062784e-05, 'epoch': 6.89}
{'loss': 0.0558, 'grad_norm': 0.23679907619953156, 'learning_rate': 9.307400667273277e-05, 'epoch': 6.9}
{'loss': 0.0541, 'grad_norm': 0.8659075498580933, 'learning_rate': 9.292235365483773e-05, 'epoch': 6.91}
{'loss': 0.0513, 'grad_norm': 0.230201855301857, 'learning_rate': 9.277070063694266e-05, 'epoch': 6.91}
{'loss': 0.0546, 'grad_norm': 0.1523282676935196, 'learning_rate': 9.261904761904761e-05, 'epoch': 6.92}
{'loss': 0.0563,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09176214784383774, 'eval_runtime': 325.2116, 'eval_samples_per_second': 60.834, 'eval_steps_per_second': 15.209, 'epoch': 6.93}
{'loss': 0.0559, 'grad_norm': 0.2491430789232254, 'learning_rate': 9.216408856536244e-05, 'epoch': 6.93}
{'loss': 0.0596, 'grad_norm': 0.2707103490829468, 'learning_rate': 9.201395207764634e-05, 'epoch': 6.94}
{'loss': 0.0547, 'grad_norm': 0.3421541452407837, 'learning_rate': 9.186229905975127e-05, 'epoch': 6.94}
{'loss': 0.0554, 'grad_norm': 0.26697731018066406, 'learning_rate': 9.171064604185623e-05, 'epoch': 6.95}
{'loss': 0.0555, 'grad_norm': 0.2560185194015503, 'learning_rate': 9.155899302396116e-05, 'epoch': 6.95}
{'loss': 0.0531, 'grad_norm': 0.3985135853290558, 'learning_rate': 9.140734000606611e-05, 'epoch': 6.96}
{'loss': 0.0538, 'grad_norm': 0.32764312624931335, 'learning_rate': 9.125568698817105e-05, 'epoch': 6.96}
{'loss': 0.0543, 'grad_norm': 0.28938478231430054, 'learning_rate': 9.1104033970276e-05, 'epoch': 6.97}
{'loss': 0.0556

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09164413809776306, 'eval_runtime': 348.4015, 'eval_samples_per_second': 56.785, 'eval_steps_per_second': 14.196, 'epoch': 6.98}
{'loss': 0.0561, 'grad_norm': 0.37145209312438965, 'learning_rate': 9.064907491659083e-05, 'epoch': 6.98}
{'loss': 0.0523, 'grad_norm': 0.41326719522476196, 'learning_rate': 9.049742189869577e-05, 'epoch': 6.99}
{'loss': 0.0572, 'grad_norm': 0.26033955812454224, 'learning_rate': 9.03457688808007e-05, 'epoch': 6.99}
{'loss': 0.0575, 'grad_norm': 0.27936094999313354, 'learning_rate': 9.019411586290567e-05, 'epoch': 7.0}
{'loss': 0.0539, 'grad_norm': 0.4375443458557129, 'learning_rate': 9.004246284501061e-05, 'epoch': 7.0}
{'loss': 0.0517, 'grad_norm': 0.2888074517250061, 'learning_rate': 8.989080982711554e-05, 'epoch': 7.01}
{'loss': 0.0508, 'grad_norm': 0.179756298661232, 'learning_rate': 8.97391568092205e-05, 'epoch': 7.01}
{'loss': 0.0499, 'grad_norm': 0.2737494111061096, 'learning_rate': 8.958750379132544e-05, 'epoch': 7.02}
{'loss': 0.0529, 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09183884412050247, 'eval_runtime': 333.9592, 'eval_samples_per_second': 59.241, 'eval_steps_per_second': 14.81, 'epoch': 7.03}
{'loss': 0.0515, 'grad_norm': 0.2481309175491333, 'learning_rate': 8.913406126781923e-05, 'epoch': 7.03}
{'loss': 0.0532, 'grad_norm': 0.2938137650489807, 'learning_rate': 8.898240824992416e-05, 'epoch': 7.04}
{'loss': 0.0517, 'grad_norm': 0.5658394694328308, 'learning_rate': 8.883075523202911e-05, 'epoch': 7.04}
{'loss': 0.053, 'grad_norm': 0.24118711054325104, 'learning_rate': 8.867910221413406e-05, 'epoch': 7.05}
{'loss': 0.0532, 'grad_norm': 0.3689306676387787, 'learning_rate': 8.8527449196239e-05, 'epoch': 7.05}
{'loss': 0.0535, 'grad_norm': 0.31376412510871887, 'learning_rate': 8.837579617834394e-05, 'epoch': 7.06}
{'loss': 0.0512, 'grad_norm': 0.22147589921951294, 'learning_rate': 8.82241431604489e-05, 'epoch': 7.06}
{'loss': 0.052, 'grad_norm': 0.21296627819538116, 'learning_rate': 8.807249014255383e-05, 'epoch': 7.07}
{'loss': 0.0516, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0922088697552681, 'eval_runtime': 375.4259, 'eval_samples_per_second': 52.697, 'eval_steps_per_second': 13.174, 'epoch': 7.08}
{'loss': 0.0502, 'grad_norm': 0.47824984788894653, 'learning_rate': 8.761753108886867e-05, 'epoch': 7.08}
{'loss': 0.0491, 'grad_norm': 0.31785863637924194, 'learning_rate': 8.74658780709736e-05, 'epoch': 7.09}
{'loss': 0.0486, 'grad_norm': 0.3118246793746948, 'learning_rate': 8.731422505307855e-05, 'epoch': 7.09}
{'loss': 0.0535, 'grad_norm': 0.2720949947834015, 'learning_rate': 8.716257203518348e-05, 'epoch': 7.1}
{'loss': 0.0519, 'grad_norm': 0.3142666220664978, 'learning_rate': 8.701091901728844e-05, 'epoch': 7.1}
{'loss': 0.0518, 'grad_norm': 0.3396393358707428, 'learning_rate': 8.685926599939337e-05, 'epoch': 7.11}
{'loss': 0.0497, 'grad_norm': 0.2169351428747177, 'learning_rate': 8.670761298149832e-05, 'epoch': 7.11}
{'loss': 0.0506, 'grad_norm': 0.28676679730415344, 'learning_rate': 8.655595996360327e-05, 'epoch': 7.12}
{'loss': 0.0519, 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09213486313819885, 'eval_runtime': 379.4546, 'eval_samples_per_second': 52.138, 'eval_steps_per_second': 13.034, 'epoch': 7.13}
{'loss': 0.0497, 'grad_norm': 0.21833331882953644, 'learning_rate': 8.61010009099181e-05, 'epoch': 7.13}
{'loss': 0.0538, 'grad_norm': 0.3114914298057556, 'learning_rate': 8.594934789202305e-05, 'epoch': 7.14}
{'loss': 0.0545, 'grad_norm': 0.38365402817726135, 'learning_rate': 8.579769487412798e-05, 'epoch': 7.14}
{'loss': 0.0514, 'grad_norm': 0.4378005564212799, 'learning_rate': 8.564604185623294e-05, 'epoch': 7.15}
{'loss': 0.049, 'grad_norm': 0.20049922168254852, 'learning_rate': 8.549438883833788e-05, 'epoch': 7.15}
{'loss': 0.0501, 'grad_norm': 0.4525953531265259, 'learning_rate': 8.534273582044282e-05, 'epoch': 7.16}
{'loss': 0.0489, 'grad_norm': 0.3495270013809204, 'learning_rate': 8.519108280254776e-05, 'epoch': 7.16}
{'loss': 0.0485, 'grad_norm': 0.42237743735313416, 'learning_rate': 8.503942978465271e-05, 'epoch': 7.17}
{'loss': 0.054

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09203428030014038, 'eval_runtime': 377.7145, 'eval_samples_per_second': 52.378, 'eval_steps_per_second': 13.095, 'epoch': 7.18}
{'loss': 0.0527, 'grad_norm': 0.3366192877292633, 'learning_rate': 8.458447073096754e-05, 'epoch': 7.18}
{'loss': 0.0511, 'grad_norm': 0.31677842140197754, 'learning_rate': 8.443281771307249e-05, 'epoch': 7.19}
{'loss': 0.0508, 'grad_norm': 0.2002866417169571, 'learning_rate': 8.428116469517742e-05, 'epoch': 7.19}
{'loss': 0.0529, 'grad_norm': 0.25560086965560913, 'learning_rate': 8.412951167728238e-05, 'epoch': 7.2}
{'loss': 0.0492, 'grad_norm': 0.4418478310108185, 'learning_rate': 8.397785865938731e-05, 'epoch': 7.2}
{'loss': 0.0514, 'grad_norm': 0.31906503438949585, 'learning_rate': 8.382620564149226e-05, 'epoch': 7.21}
{'loss': 0.0511, 'grad_norm': 0.38967669010162354, 'learning_rate': 8.367455262359719e-05, 'epoch': 7.21}
{'loss': 0.0521, 'grad_norm': 0.35985079407691956, 'learning_rate': 8.352289960570215e-05, 'epoch': 7.22}
{'loss': 0.05

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0918596163392067, 'eval_runtime': 380.5359, 'eval_samples_per_second': 51.99, 'eval_steps_per_second': 12.997, 'epoch': 7.23}
{'loss': 0.0519, 'grad_norm': 0.2564469873905182, 'learning_rate': 8.306794055201698e-05, 'epoch': 7.23}
{'loss': 0.0533, 'grad_norm': 0.25910428166389465, 'learning_rate': 8.291628753412192e-05, 'epoch': 7.24}
{'loss': 0.048, 'grad_norm': 0.2153518795967102, 'learning_rate': 8.276463451622686e-05, 'epoch': 7.24}
{'loss': 0.0508, 'grad_norm': 0.19842228293418884, 'learning_rate': 8.261298149833182e-05, 'epoch': 7.25}
{'loss': 0.0518, 'grad_norm': 0.3493786156177521, 'learning_rate': 8.246132848043676e-05, 'epoch': 7.25}
{'loss': 0.0505, 'grad_norm': 0.1347922533750534, 'learning_rate': 8.23096754625417e-05, 'epoch': 7.26}
{'loss': 0.051, 'grad_norm': 0.2346588373184204, 'learning_rate': 8.215802244464665e-05, 'epoch': 7.26}
{'loss': 0.0524, 'grad_norm': 0.38794809579849243, 'learning_rate': 8.200636942675159e-05, 'epoch': 7.27}
{'loss': 0.0536, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09204290062189102, 'eval_runtime': 375.285, 'eval_samples_per_second': 52.717, 'eval_steps_per_second': 13.179, 'epoch': 7.28}
{'loss': 0.0497, 'grad_norm': 0.32719293236732483, 'learning_rate': 8.155141037306643e-05, 'epoch': 7.28}
{'loss': 0.0503, 'grad_norm': 0.4957437217235565, 'learning_rate': 8.139975735517136e-05, 'epoch': 7.29}
{'loss': 0.053, 'grad_norm': 0.4270475506782532, 'learning_rate': 8.124962086745526e-05, 'epoch': 7.29}
{'loss': 0.0529, 'grad_norm': 0.5412340760231018, 'learning_rate': 8.10979678495602e-05, 'epoch': 7.3}
{'loss': 0.0498, 'grad_norm': 0.3540622293949127, 'learning_rate': 8.094631483166515e-05, 'epoch': 7.3}
{'loss': 0.0514, 'grad_norm': 0.3375530540943146, 'learning_rate': 8.079466181377009e-05, 'epoch': 7.31}
{'loss': 0.0494, 'grad_norm': 0.25985485315322876, 'learning_rate': 8.064300879587503e-05, 'epoch': 7.31}
{'loss': 0.0508, 'grad_norm': 0.19537600874900818, 'learning_rate': 8.049135577797997e-05, 'epoch': 7.32}
{'loss': 0.0513, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09196840226650238, 'eval_runtime': 377.5885, 'eval_samples_per_second': 52.396, 'eval_steps_per_second': 13.099, 'epoch': 7.33}
{'loss': 0.0536, 'grad_norm': 0.25586947798728943, 'learning_rate': 8.00363967242948e-05, 'epoch': 7.33}
{'loss': 0.0533, 'grad_norm': 0.18014244735240936, 'learning_rate': 7.988474370639975e-05, 'epoch': 7.34}
{'loss': 0.058, 'grad_norm': 0.2836689054965973, 'learning_rate': 7.97330906885047e-05, 'epoch': 7.34}
{'loss': 0.0538, 'grad_norm': 0.35603222250938416, 'learning_rate': 7.958143767060963e-05, 'epoch': 7.35}
{'loss': 0.0505, 'grad_norm': 0.41416603326797485, 'learning_rate': 7.942978465271459e-05, 'epoch': 7.35}
{'loss': 0.0547, 'grad_norm': 0.3169414699077606, 'learning_rate': 7.927813163481952e-05, 'epoch': 7.36}
{'loss': 0.052, 'grad_norm': 0.1833130121231079, 'learning_rate': 7.912647861692447e-05, 'epoch': 7.37}
{'loss': 0.0525, 'grad_norm': 0.19652581214904785, 'learning_rate': 7.89748255990294e-05, 'epoch': 7.37}
{'loss': 0.0498,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09229175746440887, 'eval_runtime': 345.2763, 'eval_samples_per_second': 57.299, 'eval_steps_per_second': 14.325, 'epoch': 7.38}
{'loss': 0.052, 'grad_norm': 0.4702102839946747, 'learning_rate': 7.851986654534424e-05, 'epoch': 7.39}
{'loss': 0.051, 'grad_norm': 0.29119232296943665, 'learning_rate': 7.83682135274492e-05, 'epoch': 7.39}
{'loss': 0.0502, 'grad_norm': 0.43582984805107117, 'learning_rate': 7.821656050955413e-05, 'epoch': 7.4}
{'loss': 0.0546, 'grad_norm': 0.2380901426076889, 'learning_rate': 7.806490749165908e-05, 'epoch': 7.4}
{'loss': 0.0526, 'grad_norm': 0.35756880044937134, 'learning_rate': 7.791325447376403e-05, 'epoch': 7.41}
{'loss': 0.0531, 'grad_norm': 0.20185229182243347, 'learning_rate': 7.776160145586897e-05, 'epoch': 7.41}
{'loss': 0.0499, 'grad_norm': 0.3156393766403198, 'learning_rate': 7.76099484379739e-05, 'epoch': 7.42}
{'loss': 0.0533, 'grad_norm': 0.3847082853317261, 'learning_rate': 7.745829542007886e-05, 'epoch': 7.42}
{'loss': 0.0496, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09172177314758301, 'eval_runtime': 377.2965, 'eval_samples_per_second': 52.436, 'eval_steps_per_second': 13.109, 'epoch': 7.43}
{'loss': 0.0526, 'grad_norm': 0.33481550216674805, 'learning_rate': 7.700333636639368e-05, 'epoch': 7.44}
{'loss': 0.0564, 'grad_norm': 0.17120400071144104, 'learning_rate': 7.685168334849864e-05, 'epoch': 7.44}
{'loss': 0.0514, 'grad_norm': 0.24536405503749847, 'learning_rate': 7.670003033060357e-05, 'epoch': 7.45}
{'loss': 0.0517, 'grad_norm': 0.26313626766204834, 'learning_rate': 7.654837731270852e-05, 'epoch': 7.45}
{'loss': 0.0552, 'grad_norm': 0.475389689207077, 'learning_rate': 7.639672429481346e-05, 'epoch': 7.46}
{'loss': 0.0523, 'grad_norm': 0.3340545892715454, 'learning_rate': 7.624658780709736e-05, 'epoch': 7.46}
{'loss': 0.0501, 'grad_norm': 0.4526679813861847, 'learning_rate': 7.60949347892023e-05, 'epoch': 7.47}
{'loss': 0.0506, 'grad_norm': 0.6884157657623291, 'learning_rate': 7.594328177130724e-05, 'epoch': 7.47}
{'loss': 0.053

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09191682189702988, 'eval_runtime': 332.9938, 'eval_samples_per_second': 59.413, 'eval_steps_per_second': 14.853, 'epoch': 7.48}
{'loss': 0.0558, 'grad_norm': 0.37991830706596375, 'learning_rate': 7.548832271762207e-05, 'epoch': 7.49}
{'loss': 0.0521, 'grad_norm': 0.25567564368247986, 'learning_rate': 7.533666969972701e-05, 'epoch': 7.49}
{'loss': 0.0528, 'grad_norm': 0.2951085567474365, 'learning_rate': 7.518501668183196e-05, 'epoch': 7.5}
{'loss': 0.052, 'grad_norm': 0.30609312653541565, 'learning_rate': 7.503336366393691e-05, 'epoch': 7.5}
{'loss': 0.0492, 'grad_norm': 0.3092937469482422, 'learning_rate': 7.488171064604185e-05, 'epoch': 7.51}
{'loss': 0.0505, 'grad_norm': 0.23542770743370056, 'learning_rate': 7.47300576281468e-05, 'epoch': 7.51}
{'loss': 0.0508, 'grad_norm': 0.31151288747787476, 'learning_rate': 7.457840461025173e-05, 'epoch': 7.52}
{'loss': 0.0529, 'grad_norm': 0.22110305726528168, 'learning_rate': 7.442675159235668e-05, 'epoch': 7.52}
{'loss': 0.053

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09180688112974167, 'eval_runtime': 321.4482, 'eval_samples_per_second': 61.546, 'eval_steps_per_second': 15.387, 'epoch': 7.53}
{'loss': 0.0514, 'grad_norm': 0.3021303117275238, 'learning_rate': 7.397179253867152e-05, 'epoch': 7.54}
{'loss': 0.0501, 'grad_norm': 0.19237425923347473, 'learning_rate': 7.382013952077645e-05, 'epoch': 7.54}
{'loss': 0.0521, 'grad_norm': 0.19936871528625488, 'learning_rate': 7.36684865028814e-05, 'epoch': 7.55}
{'loss': 0.0502, 'grad_norm': 0.5675169825553894, 'learning_rate': 7.351683348498634e-05, 'epoch': 7.55}
{'loss': 0.0538, 'grad_norm': 0.1965256631374359, 'learning_rate': 7.336518046709129e-05, 'epoch': 7.56}
{'loss': 0.0516, 'grad_norm': 0.32485270500183105, 'learning_rate': 7.321352744919624e-05, 'epoch': 7.56}
{'loss': 0.0513, 'grad_norm': 0.3236330449581146, 'learning_rate': 7.306187443130117e-05, 'epoch': 7.57}
{'loss': 0.0554, 'grad_norm': 0.13345550000667572, 'learning_rate': 7.291022141340611e-05, 'epoch': 7.57}
{'loss': 0.05

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0917135626077652, 'eval_runtime': 326.3982, 'eval_samples_per_second': 60.613, 'eval_steps_per_second': 15.153, 'epoch': 7.58}
{'loss': 0.0498, 'grad_norm': 0.21759825944900513, 'learning_rate': 7.245526235972095e-05, 'epoch': 7.59}
{'loss': 0.0497, 'grad_norm': 0.2722177803516388, 'learning_rate': 7.23036093418259e-05, 'epoch': 7.59}
{'loss': 0.0531, 'grad_norm': 0.24876046180725098, 'learning_rate': 7.215195632393085e-05, 'epoch': 7.6}
{'loss': 0.0556, 'grad_norm': 0.19562239944934845, 'learning_rate': 7.200030330603579e-05, 'epoch': 7.6}
{'loss': 0.0517, 'grad_norm': 0.384917676448822, 'learning_rate': 7.184865028814073e-05, 'epoch': 7.61}
{'loss': 0.053, 'grad_norm': 0.18276767432689667, 'learning_rate': 7.169699727024567e-05, 'epoch': 7.61}
{'loss': 0.0531, 'grad_norm': 0.2108590006828308, 'learning_rate': 7.154534425235062e-05, 'epoch': 7.62}
{'loss': 0.0553, 'grad_norm': 0.39071300625801086, 'learning_rate': 7.139369123445556e-05, 'epoch': 7.62}
{'loss': 0.0538, 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09150098264217377, 'eval_runtime': 335.7076, 'eval_samples_per_second': 58.932, 'eval_steps_per_second': 14.733, 'epoch': 7.63}
{'loss': 0.0474, 'grad_norm': 0.2048303335905075, 'learning_rate': 7.093873218077039e-05, 'epoch': 7.64}
{'loss': 0.0545, 'grad_norm': 0.3241040110588074, 'learning_rate': 7.078707916287534e-05, 'epoch': 7.64}
{'loss': 0.0481, 'grad_norm': 0.38565340638160706, 'learning_rate': 7.063542614498028e-05, 'epoch': 7.65}
{'loss': 0.0536, 'grad_norm': 0.2972742021083832, 'learning_rate': 7.048377312708522e-05, 'epoch': 7.65}
{'loss': 0.0538, 'grad_norm': 0.17293387651443481, 'learning_rate': 7.033363663936912e-05, 'epoch': 7.66}
{'loss': 0.0535, 'grad_norm': 0.18294762074947357, 'learning_rate': 7.018198362147406e-05, 'epoch': 7.66}
{'loss': 0.0504, 'grad_norm': 0.4669873118400574, 'learning_rate': 7.003033060357901e-05, 'epoch': 7.67}
{'loss': 0.05, 'grad_norm': 0.2129376381635666, 'learning_rate': 6.987867758568394e-05, 'epoch': 7.67}
{'loss': 0.0544

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0916004329919815, 'eval_runtime': 323.1364, 'eval_samples_per_second': 61.225, 'eval_steps_per_second': 15.306, 'epoch': 7.68}
{'loss': 0.0502, 'grad_norm': 0.157379150390625, 'learning_rate': 6.942371853199878e-05, 'epoch': 7.69}
{'loss': 0.0492, 'grad_norm': 0.29737624526023865, 'learning_rate': 6.927206551410373e-05, 'epoch': 7.69}
{'loss': 0.0537, 'grad_norm': 0.32258108258247375, 'learning_rate': 6.912041249620866e-05, 'epoch': 7.7}
{'loss': 0.0482, 'grad_norm': 0.19602413475513458, 'learning_rate': 6.896875947831361e-05, 'epoch': 7.7}
{'loss': 0.0517, 'grad_norm': 0.5272085070610046, 'learning_rate': 6.881710646041855e-05, 'epoch': 7.71}
{'loss': 0.0535, 'grad_norm': 0.21067169308662415, 'learning_rate': 6.86654534425235e-05, 'epoch': 7.71}
{'loss': 0.0511, 'grad_norm': 0.37975963950157166, 'learning_rate': 6.851380042462845e-05, 'epoch': 7.72}
{'loss': 0.0513, 'grad_norm': 0.20465388894081116, 'learning_rate': 6.836214740673339e-05, 'epoch': 7.72}
{'loss': 0.0551

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09166457504034042, 'eval_runtime': 321.2504, 'eval_samples_per_second': 61.584, 'eval_steps_per_second': 15.396, 'epoch': 7.73}
{'loss': 0.0521, 'grad_norm': 0.3776211440563202, 'learning_rate': 6.790718835304822e-05, 'epoch': 7.74}
{'loss': 0.0535, 'grad_norm': 0.1895076185464859, 'learning_rate': 6.775553533515316e-05, 'epoch': 7.74}
{'loss': 0.0515, 'grad_norm': 0.16015341877937317, 'learning_rate': 6.760388231725811e-05, 'epoch': 7.75}
{'loss': 0.0523, 'grad_norm': 0.1925058662891388, 'learning_rate': 6.745222929936306e-05, 'epoch': 7.75}
{'loss': 0.0521, 'grad_norm': 0.14505541324615479, 'learning_rate': 6.7300576281468e-05, 'epoch': 7.76}
{'loss': 0.0519, 'grad_norm': 0.27908074855804443, 'learning_rate': 6.714892326357294e-05, 'epoch': 7.76}
{'loss': 0.0515, 'grad_norm': 0.4062592089176178, 'learning_rate': 6.699727024567788e-05, 'epoch': 7.77}
{'loss': 0.0517, 'grad_norm': 0.3110126256942749, 'learning_rate': 6.684561722778283e-05, 'epoch': 7.77}
{'loss': 0.0512

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09180305898189545, 'eval_runtime': 320.9241, 'eval_samples_per_second': 61.647, 'eval_steps_per_second': 15.412, 'epoch': 7.78}
{'loss': 0.0496, 'grad_norm': 0.23466414213180542, 'learning_rate': 6.639065817409765e-05, 'epoch': 7.79}
{'loss': 0.0544, 'grad_norm': 0.49408581852912903, 'learning_rate': 6.62390051562026e-05, 'epoch': 7.79}
{'loss': 0.0519, 'grad_norm': 0.24136601388454437, 'learning_rate': 6.608735213830755e-05, 'epoch': 7.8}
{'loss': 0.0587, 'grad_norm': 0.2318502962589264, 'learning_rate': 6.593569912041249e-05, 'epoch': 7.8}
{'loss': 0.0486, 'grad_norm': 0.6557320356369019, 'learning_rate': 6.578404610251743e-05, 'epoch': 7.81}
{'loss': 0.0552, 'grad_norm': 0.3628959357738495, 'learning_rate': 6.563239308462237e-05, 'epoch': 7.81}
{'loss': 0.0531, 'grad_norm': 0.21887081861495972, 'learning_rate': 6.548074006672732e-05, 'epoch': 7.82}
{'loss': 0.0508, 'grad_norm': 0.29864445328712463, 'learning_rate': 6.532908704883226e-05, 'epoch': 7.83}
{'loss': 0.054

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09161309152841568, 'eval_runtime': 324.7716, 'eval_samples_per_second': 60.917, 'eval_steps_per_second': 15.229, 'epoch': 7.84}
{'loss': 0.0519, 'grad_norm': 0.3616867661476135, 'learning_rate': 6.48741279951471e-05, 'epoch': 7.84}
{'loss': 0.0517, 'grad_norm': 0.358045369386673, 'learning_rate': 6.472247497725205e-05, 'epoch': 7.85}
{'loss': 0.0527, 'grad_norm': 0.22495560348033905, 'learning_rate': 6.457082195935698e-05, 'epoch': 7.85}
{'loss': 0.0498, 'grad_norm': 0.32539066672325134, 'learning_rate': 6.441916894146193e-05, 'epoch': 7.86}
{'loss': 0.0537, 'grad_norm': 0.6036208868026733, 'learning_rate': 6.426903245374583e-05, 'epoch': 7.86}
{'loss': 0.0525, 'grad_norm': 0.23745055496692657, 'learning_rate': 6.411737943585078e-05, 'epoch': 7.87}
{'loss': 0.0534, 'grad_norm': 0.334099143743515, 'learning_rate': 6.396572641795571e-05, 'epoch': 7.87}
{'loss': 0.0523, 'grad_norm': 0.3444618284702301, 'learning_rate': 6.381407340006066e-05, 'epoch': 7.88}
{'loss': 0.0505,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0916527807712555, 'eval_runtime': 327.1575, 'eval_samples_per_second': 60.472, 'eval_steps_per_second': 15.118, 'epoch': 7.89}
{'loss': 0.0515, 'grad_norm': 0.3029947280883789, 'learning_rate': 6.336214740673338e-05, 'epoch': 7.89}
{'loss': 0.0532, 'grad_norm': 0.19762559235095978, 'learning_rate': 6.321049438883833e-05, 'epoch': 7.9}
{'loss': 0.0508, 'grad_norm': 0.25091835856437683, 'learning_rate': 6.305884137094327e-05, 'epoch': 7.9}
{'loss': 0.0523, 'grad_norm': 0.2564958333969116, 'learning_rate': 6.290718835304822e-05, 'epoch': 7.91}
{'loss': 0.0541, 'grad_norm': 0.22236914932727814, 'learning_rate': 6.275553533515316e-05, 'epoch': 7.91}
{'loss': 0.0501, 'grad_norm': 0.16314218938350677, 'learning_rate': 6.260388231725811e-05, 'epoch': 7.92}
{'loss': 0.0509, 'grad_norm': 0.4055269956588745, 'learning_rate': 6.245222929936306e-05, 'epoch': 7.92}
{'loss': 0.0504, 'grad_norm': 0.2689175307750702, 'learning_rate': 6.2300576281468e-05, 'epoch': 7.93}
{'loss': 0.052, '

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09154827892780304, 'eval_runtime': 325.0896, 'eval_samples_per_second': 60.857, 'eval_steps_per_second': 15.214, 'epoch': 7.94}
{'loss': 0.0532, 'grad_norm': 0.4657898247241974, 'learning_rate': 6.184561722778283e-05, 'epoch': 7.94}
{'loss': 0.0499, 'grad_norm': 0.36763179302215576, 'learning_rate': 6.169396420988778e-05, 'epoch': 7.95}
{'loss': 0.0532, 'grad_norm': 0.4445578455924988, 'learning_rate': 6.154231119199272e-05, 'epoch': 7.95}
{'loss': 0.0513, 'grad_norm': 0.2992464005947113, 'learning_rate': 6.139065817409765e-05, 'epoch': 7.96}
{'loss': 0.0534, 'grad_norm': 0.32105231285095215, 'learning_rate': 6.12390051562026e-05, 'epoch': 7.96}
{'loss': 0.0492, 'grad_norm': 0.2957130968570709, 'learning_rate': 6.108735213830755e-05, 'epoch': 7.97}
{'loss': 0.0562, 'grad_norm': 0.18150189518928528, 'learning_rate': 6.0935699120412493e-05, 'epoch': 7.97}
{'loss': 0.0508, 'grad_norm': 0.18872398138046265, 'learning_rate': 6.078404610251743e-05, 'epoch': 7.98}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09140369296073914, 'eval_runtime': 353.3193, 'eval_samples_per_second': 55.995, 'eval_steps_per_second': 13.999, 'epoch': 7.99}
{'loss': 0.0532, 'grad_norm': 0.27908018231391907, 'learning_rate': 6.0329087048832265e-05, 'epoch': 7.99}
{'loss': 0.0517, 'grad_norm': 0.37664932012557983, 'learning_rate': 6.0177434030937205e-05, 'epoch': 8.0}
{'loss': 0.0492, 'grad_norm': 0.21389815211296082, 'learning_rate': 6.002578101304215e-05, 'epoch': 8.0}
{'loss': 0.0497, 'grad_norm': 0.15807762742042542, 'learning_rate': 5.98741279951471e-05, 'epoch': 8.01}
{'loss': 0.0492, 'grad_norm': 0.3491402268409729, 'learning_rate': 5.972247497725204e-05, 'epoch': 8.01}
{'loss': 0.0449, 'grad_norm': 0.20509980618953705, 'learning_rate': 5.957082195935698e-05, 'epoch': 8.02}
{'loss': 0.0526, 'grad_norm': 0.2059686928987503, 'learning_rate': 5.9419168941461936e-05, 'epoch': 8.02}
{'loss': 0.0478, 'grad_norm': 0.242960587143898, 'learning_rate': 5.9267515923566876e-05, 'epoch': 8.03}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09163074940443039, 'eval_runtime': 325.9593, 'eval_samples_per_second': 60.695, 'eval_steps_per_second': 15.174, 'epoch': 8.04}
{'loss': 0.049, 'grad_norm': 0.23656868934631348, 'learning_rate': 5.881255686988171e-05, 'epoch': 8.04}
{'loss': 0.0487, 'grad_norm': 0.30136993527412415, 'learning_rate': 5.8660903851986654e-05, 'epoch': 8.05}
{'loss': 0.0528, 'grad_norm': 0.42609304189682007, 'learning_rate': 5.8509250834091594e-05, 'epoch': 8.05}
{'loss': 0.0476, 'grad_norm': 0.15346798300743103, 'learning_rate': 5.835759781619654e-05, 'epoch': 8.06}
{'loss': 0.0489, 'grad_norm': 0.26744014024734497, 'learning_rate': 5.820594479830148e-05, 'epoch': 8.06}
{'loss': 0.0527, 'grad_norm': 0.21602220833301544, 'learning_rate': 5.8054291780406426e-05, 'epoch': 8.07}
{'loss': 0.0481, 'grad_norm': 0.3103659749031067, 'learning_rate': 5.790263876251137e-05, 'epoch': 8.07}
{'loss': 0.0476, 'grad_norm': 0.24557562172412872, 'learning_rate': 5.775098574461631e-05, 'epoch': 8.08}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09155422449111938, 'eval_runtime': 327.7596, 'eval_samples_per_second': 60.361, 'eval_steps_per_second': 15.09, 'epoch': 8.09}
{'loss': 0.0485, 'grad_norm': 0.40038761496543884, 'learning_rate': 5.7296026690931144e-05, 'epoch': 8.09}
{'loss': 0.0503, 'grad_norm': 0.2525371313095093, 'learning_rate': 5.7144373673036084e-05, 'epoch': 8.1}
{'loss': 0.054, 'grad_norm': 0.42806893587112427, 'learning_rate': 5.699272065514103e-05, 'epoch': 8.1}
{'loss': 0.0492, 'grad_norm': 0.3717213571071625, 'learning_rate': 5.6841067637245976e-05, 'epoch': 8.11}
{'loss': 0.0473, 'grad_norm': 0.46349185705184937, 'learning_rate': 5.6689414619350916e-05, 'epoch': 8.11}
{'loss': 0.0476, 'grad_norm': 0.2507031559944153, 'learning_rate': 5.653776160145586e-05, 'epoch': 8.12}
{'loss': 0.0497, 'grad_norm': 0.4845940172672272, 'learning_rate': 5.63861085835608e-05, 'epoch': 8.12}
{'loss': 0.0503, 'grad_norm': 0.24868084490299225, 'learning_rate': 5.623445556566575e-05, 'epoch': 8.13}
{'loss': 0.05

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09168535470962524, 'eval_runtime': 381.0781, 'eval_samples_per_second': 51.916, 'eval_steps_per_second': 12.979, 'epoch': 8.14}
{'loss': 0.0506, 'grad_norm': 0.2789630889892578, 'learning_rate': 5.578101304215953e-05, 'epoch': 8.14}
{'loss': 0.0502, 'grad_norm': 0.29254838824272156, 'learning_rate': 5.5629360024264475e-05, 'epoch': 8.15}
{'loss': 0.0491, 'grad_norm': 0.21923105418682098, 'learning_rate': 5.5477707006369415e-05, 'epoch': 8.15}
{'loss': 0.0473, 'grad_norm': 0.3714942932128906, 'learning_rate': 5.532605398847437e-05, 'epoch': 8.16}
{'loss': 0.0505, 'grad_norm': 0.30972543358802795, 'learning_rate': 5.5174400970579314e-05, 'epoch': 8.16}
{'loss': 0.0511, 'grad_norm': 0.1268617808818817, 'learning_rate': 5.5022747952684254e-05, 'epoch': 8.17}
{'loss': 0.0492, 'grad_norm': 0.17586499452590942, 'learning_rate': 5.48710949347892e-05, 'epoch': 8.17}
{'loss': 0.0491, 'grad_norm': 0.21724630892276764, 'learning_rate': 5.4719441916894147e-05, 'epoch': 8.18}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09174388647079468, 'eval_runtime': 290.3237, 'eval_samples_per_second': 68.145, 'eval_steps_per_second': 17.036, 'epoch': 8.19}
{'loss': 0.0514, 'grad_norm': 0.24893222749233246, 'learning_rate': 5.426448286320897e-05, 'epoch': 8.19}
{'loss': 0.0502, 'grad_norm': 0.25607064366340637, 'learning_rate': 5.411282984531392e-05, 'epoch': 8.2}
{'loss': 0.0483, 'grad_norm': 0.2115677297115326, 'learning_rate': 5.3961176827418865e-05, 'epoch': 8.2}
{'loss': 0.0513, 'grad_norm': 0.4946734309196472, 'learning_rate': 5.3809523809523804e-05, 'epoch': 8.21}
{'loss': 0.0497, 'grad_norm': 0.18945565819740295, 'learning_rate': 5.365787079162875e-05, 'epoch': 8.21}
{'loss': 0.0479, 'grad_norm': 0.23533451557159424, 'learning_rate': 5.350621777373369e-05, 'epoch': 8.22}
{'loss': 0.0485, 'grad_norm': 0.22570613026618958, 'learning_rate': 5.3354564755838636e-05, 'epoch': 8.22}
{'loss': 0.0503, 'grad_norm': 0.3117789924144745, 'learning_rate': 5.320291173794358e-05, 'epoch': 8.23}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09188444167375565, 'eval_runtime': 360.323, 'eval_samples_per_second': 54.906, 'eval_steps_per_second': 13.727, 'epoch': 8.24}
{'loss': 0.0501, 'grad_norm': 0.226622074842453, 'learning_rate': 5.274795268425841e-05, 'epoch': 8.24}
{'loss': 0.051, 'grad_norm': 0.2018100619316101, 'learning_rate': 5.2596299666363354e-05, 'epoch': 8.25}
{'loss': 0.0461, 'grad_norm': 0.1844904124736786, 'learning_rate': 5.2444646648468294e-05, 'epoch': 8.25}
{'loss': 0.0504, 'grad_norm': 0.2840083837509155, 'learning_rate': 5.229299363057324e-05, 'epoch': 8.26}
{'loss': 0.0526, 'grad_norm': 0.37183040380477905, 'learning_rate': 5.2142857142857135e-05, 'epoch': 8.26}
{'loss': 0.0478, 'grad_norm': 0.2116423398256302, 'learning_rate': 5.199120412496208e-05, 'epoch': 8.27}
{'loss': 0.0476, 'grad_norm': 0.1010136678814888, 'learning_rate': 5.183955110706702e-05, 'epoch': 8.27}
{'loss': 0.0489, 'grad_norm': 0.2644346356391907, 'learning_rate': 5.168789808917197e-05, 'epoch': 8.28}
{'loss': 0.0499

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09134804457426071, 'eval_runtime': 338.2847, 'eval_samples_per_second': 58.483, 'eval_steps_per_second': 14.621, 'epoch': 8.29}
{'loss': 0.0491, 'grad_norm': 0.4193545877933502, 'learning_rate': 5.1232939035486807e-05, 'epoch': 8.3}
{'loss': 0.0519, 'grad_norm': 0.2329838126897812, 'learning_rate': 5.1081286017591746e-05, 'epoch': 8.3}
{'loss': 0.0513, 'grad_norm': 0.13165421783924103, 'learning_rate': 5.092963299969669e-05, 'epoch': 8.31}
{'loss': 0.0465, 'grad_norm': 0.5263564586639404, 'learning_rate': 5.077797998180164e-05, 'epoch': 8.31}
{'loss': 0.0528, 'grad_norm': 0.3783888816833496, 'learning_rate': 5.062632696390658e-05, 'epoch': 8.32}
{'loss': 0.0497, 'grad_norm': 0.20221437513828278, 'learning_rate': 5.0474673946011525e-05, 'epoch': 8.32}
{'loss': 0.0498, 'grad_norm': 0.2940734028816223, 'learning_rate': 5.0323020928116464e-05, 'epoch': 8.33}
{'loss': 0.0505, 'grad_norm': 0.1964109092950821, 'learning_rate': 5.017136791022141e-05, 'epoch': 8.33}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09151364117860794, 'eval_runtime': 328.2852, 'eval_samples_per_second': 60.265, 'eval_steps_per_second': 15.066, 'epoch': 8.34}
{'loss': 0.0509, 'grad_norm': 0.34724223613739014, 'learning_rate': 4.971640885653624e-05, 'epoch': 8.35}
{'loss': 0.0519, 'grad_norm': 0.2743615210056305, 'learning_rate': 4.956627236882014e-05, 'epoch': 8.35}
{'loss': 0.0514, 'grad_norm': 0.36381250619888306, 'learning_rate': 4.941461935092508e-05, 'epoch': 8.36}
{'loss': 0.0473, 'grad_norm': 0.17263400554656982, 'learning_rate': 4.9262966333030024e-05, 'epoch': 8.36}
{'loss': 0.0496, 'grad_norm': 0.37680208683013916, 'learning_rate': 4.911131331513497e-05, 'epoch': 8.37}
{'loss': 0.051, 'grad_norm': 0.5916468501091003, 'learning_rate': 4.895966029723991e-05, 'epoch': 8.37}
{'loss': 0.048, 'grad_norm': 0.19551058113574982, 'learning_rate': 4.8808007279344856e-05, 'epoch': 8.38}
{'loss': 0.0501, 'grad_norm': 0.2543903589248657, 'learning_rate': 4.8656354261449795e-05, 'epoch': 8.38}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09132727980613708, 'eval_runtime': 327.2574, 'eval_samples_per_second': 60.454, 'eval_steps_per_second': 15.113, 'epoch': 8.39}
{'loss': 0.0532, 'grad_norm': 0.34863653779029846, 'learning_rate': 4.820139520776463e-05, 'epoch': 8.4}
{'loss': 0.0504, 'grad_norm': 0.5061965584754944, 'learning_rate': 4.8049742189869574e-05, 'epoch': 8.4}
{'loss': 0.0463, 'grad_norm': 0.1834651231765747, 'learning_rate': 4.7898089171974513e-05, 'epoch': 8.41}
{'loss': 0.0527, 'grad_norm': 0.1677614450454712, 'learning_rate': 4.774643615407946e-05, 'epoch': 8.41}
{'loss': 0.0492, 'grad_norm': 0.14650942385196686, 'learning_rate': 4.7594783136184406e-05, 'epoch': 8.42}
{'loss': 0.0501, 'grad_norm': 0.28476589918136597, 'learning_rate': 4.7443130118289346e-05, 'epoch': 8.42}
{'loss': 0.0484, 'grad_norm': 0.14599613845348358, 'learning_rate': 4.729147710039429e-05, 'epoch': 8.43}
{'loss': 0.0496, 'grad_norm': 0.2908642292022705, 'learning_rate': 4.713982408249923e-05, 'epoch': 8.43}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09142477810382843, 'eval_runtime': 326.3032, 'eval_samples_per_second': 60.631, 'eval_steps_per_second': 15.158, 'epoch': 8.44}
{'loss': 0.0458, 'grad_norm': 0.49069467186927795, 'learning_rate': 4.668486502881407e-05, 'epoch': 8.45}
{'loss': 0.0487, 'grad_norm': 0.3327975273132324, 'learning_rate': 4.653321201091902e-05, 'epoch': 8.45}
{'loss': 0.0484, 'grad_norm': 0.183401957154274, 'learning_rate': 4.6381558993023956e-05, 'epoch': 8.46}
{'loss': 0.0534, 'grad_norm': 0.25427258014678955, 'learning_rate': 4.62299059751289e-05, 'epoch': 8.46}
{'loss': 0.0483, 'grad_norm': 0.17636987566947937, 'learning_rate': 4.607825295723385e-05, 'epoch': 8.47}
{'loss': 0.0504, 'grad_norm': 0.2813490033149719, 'learning_rate': 4.592659993933879e-05, 'epoch': 8.47}
{'loss': 0.0472, 'grad_norm': 0.22285713255405426, 'learning_rate': 4.5774946921443735e-05, 'epoch': 8.48}
{'loss': 0.0504, 'grad_norm': 0.23245440423488617, 'learning_rate': 4.5623293903548674e-05, 'epoch': 8.48}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09128376841545105, 'eval_runtime': 326.1107, 'eval_samples_per_second': 60.667, 'eval_steps_per_second': 15.167, 'epoch': 8.49}
{'loss': 0.0488, 'grad_norm': 0.6987900137901306, 'learning_rate': 4.5168334849863507e-05, 'epoch': 8.5}
{'loss': 0.0507, 'grad_norm': 0.3014523386955261, 'learning_rate': 4.501668183196845e-05, 'epoch': 8.5}
{'loss': 0.0515, 'grad_norm': 0.2780993580818176, 'learning_rate': 4.486502881407339e-05, 'epoch': 8.51}
{'loss': 0.0486, 'grad_norm': 0.23235084116458893, 'learning_rate': 4.471337579617834e-05, 'epoch': 8.51}
{'loss': 0.0511, 'grad_norm': 0.5415387153625488, 'learning_rate': 4.4561722778283285e-05, 'epoch': 8.52}
{'loss': 0.0506, 'grad_norm': 0.5767676830291748, 'learning_rate': 4.441158629056718e-05, 'epoch': 8.52}
{'loss': 0.0501, 'grad_norm': 0.19501927495002747, 'learning_rate': 4.425993327267212e-05, 'epoch': 8.53}
{'loss': 0.05, 'grad_norm': 0.33331817388534546, 'learning_rate': 4.4108280254777066e-05, 'epoch': 8.53}
{'loss': 0.051

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09132809937000275, 'eval_runtime': 324.9541, 'eval_samples_per_second': 60.882, 'eval_steps_per_second': 15.221, 'epoch': 8.54}
{'loss': 0.0535, 'grad_norm': 0.14894510805606842, 'learning_rate': 4.36533212010919e-05, 'epoch': 8.55}
{'loss': 0.0501, 'grad_norm': 0.42142683267593384, 'learning_rate': 4.350166818319684e-05, 'epoch': 8.55}
{'loss': 0.0487, 'grad_norm': 0.3249533772468567, 'learning_rate': 4.3350015165301784e-05, 'epoch': 8.56}
{'loss': 0.047, 'grad_norm': 0.39417436718940735, 'learning_rate': 4.3198362147406724e-05, 'epoch': 8.56}
{'loss': 0.0447, 'grad_norm': 0.22246991097927094, 'learning_rate': 4.304670912951167e-05, 'epoch': 8.57}
{'loss': 0.0526, 'grad_norm': 0.32236021757125854, 'learning_rate': 4.289505611161662e-05, 'epoch': 8.57}
{'loss': 0.0494, 'grad_norm': 0.1698456108570099, 'learning_rate': 4.274340309372156e-05, 'epoch': 8.58}
{'loss': 0.0481, 'grad_norm': 0.4264574646949768, 'learning_rate': 4.259175007582651e-05, 'epoch': 8.58}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09117095917463303, 'eval_runtime': 351.7151, 'eval_samples_per_second': 56.25, 'eval_steps_per_second': 14.063, 'epoch': 8.59}
{'loss': 0.0467, 'grad_norm': 0.6084337830543518, 'learning_rate': 4.213679102214134e-05, 'epoch': 8.6}
{'loss': 0.0507, 'grad_norm': 0.28987303376197815, 'learning_rate': 4.198513800424628e-05, 'epoch': 8.6}
{'loss': 0.0509, 'grad_norm': 0.2064000964164734, 'learning_rate': 4.183348498635123e-05, 'epoch': 8.61}
{'loss': 0.0499, 'grad_norm': 0.28342387080192566, 'learning_rate': 4.1681831968456167e-05, 'epoch': 8.61}
{'loss': 0.0486, 'grad_norm': 0.22040577232837677, 'learning_rate': 4.153017895056111e-05, 'epoch': 8.62}
{'loss': 0.0512, 'grad_norm': 0.31625860929489136, 'learning_rate': 4.137852593266606e-05, 'epoch': 8.62}
{'loss': 0.0527, 'grad_norm': 0.456182599067688, 'learning_rate': 4.1226872914771e-05, 'epoch': 8.63}
{'loss': 0.0502, 'grad_norm': 0.3205804228782654, 'learning_rate': 4.1075219896875945e-05, 'epoch': 8.63}
{'loss': 0.0519,

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09116486459970474, 'eval_runtime': 325.8339, 'eval_samples_per_second': 60.718, 'eval_steps_per_second': 15.18, 'epoch': 8.64}
{'loss': 0.0501, 'grad_norm': 0.2852582633495331, 'learning_rate': 4.062026084319078e-05, 'epoch': 8.65}
{'loss': 0.0509, 'grad_norm': 0.2996339201927185, 'learning_rate': 4.046860782529572e-05, 'epoch': 8.65}
{'loss': 0.0506, 'grad_norm': 0.3179240822792053, 'learning_rate': 4.031695480740066e-05, 'epoch': 8.66}
{'loss': 0.0506, 'grad_norm': 0.3306673467159271, 'learning_rate': 4.01653017895056e-05, 'epoch': 8.66}
{'loss': 0.0493, 'grad_norm': 0.26505768299102783, 'learning_rate': 4.001364877161055e-05, 'epoch': 8.67}
{'loss': 0.0501, 'grad_norm': 0.3815598785877228, 'learning_rate': 3.9861995753715495e-05, 'epoch': 8.67}
{'loss': 0.0481, 'grad_norm': 0.4618964195251465, 'learning_rate': 3.9710342735820435e-05, 'epoch': 8.68}
{'loss': 0.0512, 'grad_norm': 0.3371807336807251, 'learning_rate': 3.955868971792538e-05, 'epoch': 8.68}
{'loss': 0.0486

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09127796441316605, 'eval_runtime': 323.6343, 'eval_samples_per_second': 61.131, 'eval_steps_per_second': 15.283, 'epoch': 8.69}
{'loss': 0.0509, 'grad_norm': 0.2736593186855316, 'learning_rate': 3.910373066424022e-05, 'epoch': 8.7}
{'loss': 0.0517, 'grad_norm': 0.20535847544670105, 'learning_rate': 3.895207764634516e-05, 'epoch': 8.7}
{'loss': 0.0495, 'grad_norm': 0.27597320079803467, 'learning_rate': 3.8800424628450106e-05, 'epoch': 8.71}
{'loss': 0.0501, 'grad_norm': 0.47791898250579834, 'learning_rate': 3.8648771610555046e-05, 'epoch': 8.71}
{'loss': 0.0513, 'grad_norm': 0.2844444215297699, 'learning_rate': 3.849711859265999e-05, 'epoch': 8.72}
{'loss': 0.0502, 'grad_norm': 0.2002919465303421, 'learning_rate': 3.834546557476494e-05, 'epoch': 8.72}
{'loss': 0.0473, 'grad_norm': 0.2762048542499542, 'learning_rate': 3.819381255686988e-05, 'epoch': 8.73}
{'loss': 0.0484, 'grad_norm': 0.4588242471218109, 'learning_rate': 3.8042159538974824e-05, 'epoch': 8.73}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09128667414188385, 'eval_runtime': 326.9454, 'eval_samples_per_second': 60.512, 'eval_steps_per_second': 15.128, 'epoch': 8.75}
{'loss': 0.0516, 'grad_norm': 0.4106394350528717, 'learning_rate': 3.7588717015468605e-05, 'epoch': 8.75}
{'loss': 0.0478, 'grad_norm': 0.348712295293808, 'learning_rate': 3.743706399757355e-05, 'epoch': 8.76}
{'loss': 0.0474, 'grad_norm': 0.259755939245224, 'learning_rate': 3.728541097967849e-05, 'epoch': 8.76}
{'loss': 0.0511, 'grad_norm': 0.20022784173488617, 'learning_rate': 3.713375796178344e-05, 'epoch': 8.77}
{'loss': 0.0499, 'grad_norm': 0.2373892217874527, 'learning_rate': 3.698210494388838e-05, 'epoch': 8.77}
{'loss': 0.049, 'grad_norm': 0.37242862582206726, 'learning_rate': 3.683045192599332e-05, 'epoch': 8.78}
{'loss': 0.0485, 'grad_norm': 0.44083312153816223, 'learning_rate': 3.667879890809827e-05, 'epoch': 8.78}
{'loss': 0.0459, 'grad_norm': 0.22167012095451355, 'learning_rate': 3.652714589020321e-05, 'epoch': 8.79}
{'loss': 0.045

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09135020524263382, 'eval_runtime': 325.2472, 'eval_samples_per_second': 60.828, 'eval_steps_per_second': 15.207, 'epoch': 8.8}
{'loss': 0.0496, 'grad_norm': 0.28735166788101196, 'learning_rate': 3.607218683651805e-05, 'epoch': 8.8}
{'loss': 0.0489, 'grad_norm': 0.20043136179447174, 'learning_rate': 3.592053381862299e-05, 'epoch': 8.81}
{'loss': 0.0485, 'grad_norm': 0.19413694739341736, 'learning_rate': 3.5768880800727934e-05, 'epoch': 8.81}
{'loss': 0.0526, 'grad_norm': 0.24106666445732117, 'learning_rate': 3.5617227782832873e-05, 'epoch': 8.82}
{'loss': 0.0496, 'grad_norm': 0.45573893189430237, 'learning_rate': 3.546557476493782e-05, 'epoch': 8.82}
{'loss': 0.0535, 'grad_norm': 0.166697159409523, 'learning_rate': 3.5313921747042766e-05, 'epoch': 8.83}
{'loss': 0.0496, 'grad_norm': 0.18206243216991425, 'learning_rate': 3.5162268729147706e-05, 'epoch': 8.83}
{'loss': 0.0483, 'grad_norm': 0.3245455324649811, 'learning_rate': 3.501061571125265e-05, 'epoch': 8.84}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09115579724311829, 'eval_runtime': 326.6426, 'eval_samples_per_second': 60.568, 'eval_steps_per_second': 15.142, 'epoch': 8.85}
{'loss': 0.0508, 'grad_norm': 0.2547031342983246, 'learning_rate': 3.455565665756748e-05, 'epoch': 8.85}
{'loss': 0.0477, 'grad_norm': 0.3820216953754425, 'learning_rate': 3.440552016985138e-05, 'epoch': 8.86}
{'loss': 0.0501, 'grad_norm': 0.31937211751937866, 'learning_rate': 3.425386715195632e-05, 'epoch': 8.86}
{'loss': 0.0465, 'grad_norm': 0.2581101059913635, 'learning_rate': 3.4102214134061265e-05, 'epoch': 8.87}
{'loss': 0.0499, 'grad_norm': 0.31894174218177795, 'learning_rate': 3.3950561116166205e-05, 'epoch': 8.87}
{'loss': 0.0482, 'grad_norm': 0.20940732955932617, 'learning_rate': 3.379890809827116e-05, 'epoch': 8.88}
{'loss': 0.0504, 'grad_norm': 0.22292016446590424, 'learning_rate': 3.36472550803761e-05, 'epoch': 8.88}
{'loss': 0.0501, 'grad_norm': 0.23248401284217834, 'learning_rate': 3.3495602062481044e-05, 'epoch': 8.89}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09108138084411621, 'eval_runtime': 326.9347, 'eval_samples_per_second': 60.514, 'eval_steps_per_second': 15.128, 'epoch': 8.9}
{'loss': 0.0518, 'grad_norm': 0.2862781584262848, 'learning_rate': 3.304064300879587e-05, 'epoch': 8.9}
{'loss': 0.0481, 'grad_norm': 0.3667992949485779, 'learning_rate': 3.2888989990900815e-05, 'epoch': 8.91}
{'loss': 0.0524, 'grad_norm': 0.21439605951309204, 'learning_rate': 3.273733697300576e-05, 'epoch': 8.91}
{'loss': 0.0482, 'grad_norm': 0.29724448919296265, 'learning_rate': 3.25856839551107e-05, 'epoch': 8.92}
{'loss': 0.052, 'grad_norm': 0.2642754912376404, 'learning_rate': 3.243403093721565e-05, 'epoch': 8.92}
{'loss': 0.0506, 'grad_norm': 0.2775570750236511, 'learning_rate': 3.228237791932059e-05, 'epoch': 8.93}
{'loss': 0.0468, 'grad_norm': 0.33939579129219055, 'learning_rate': 3.213072490142553e-05, 'epoch': 8.93}
{'loss': 0.0491, 'grad_norm': 0.30536746978759766, 'learning_rate': 3.197907188353048e-05, 'epoch': 8.94}
{'loss': 0.0474

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09104615449905396, 'eval_runtime': 324.2486, 'eval_samples_per_second': 61.015, 'eval_steps_per_second': 15.254, 'epoch': 8.95}
{'loss': 0.052, 'grad_norm': 0.28719422221183777, 'learning_rate': 3.152411282984531e-05, 'epoch': 8.95}
{'loss': 0.0512, 'grad_norm': 0.2901822626590729, 'learning_rate': 3.137397634212921e-05, 'epoch': 8.96}
{'loss': 0.0514, 'grad_norm': 0.23278000950813293, 'learning_rate': 3.122232332423415e-05, 'epoch': 8.96}
{'loss': 0.0488, 'grad_norm': 0.28090745210647583, 'learning_rate': 3.107067030633909e-05, 'epoch': 8.97}
{'loss': 0.0475, 'grad_norm': 0.21475990116596222, 'learning_rate': 3.091901728844404e-05, 'epoch': 8.97}
{'loss': 0.0465, 'grad_norm': 0.2392176389694214, 'learning_rate': 3.076736427054898e-05, 'epoch': 8.98}
{'loss': 0.0474, 'grad_norm': 0.21540354192256927, 'learning_rate': 3.0615711252653925e-05, 'epoch': 8.98}
{'loss': 0.0503, 'grad_norm': 0.4861498773097992, 'learning_rate': 3.0464058234758868e-05, 'epoch': 8.99}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.091158427298069, 'eval_runtime': 326.9774, 'eval_samples_per_second': 60.506, 'eval_steps_per_second': 15.126, 'epoch': 9.0}
{'loss': 0.0504, 'grad_norm': 0.27932724356651306, 'learning_rate': 3.00090991810737e-05, 'epoch': 9.0}
{'loss': 0.0467, 'grad_norm': 0.26869696378707886, 'learning_rate': 2.9857446163178643e-05, 'epoch': 9.01}
{'loss': 0.0478, 'grad_norm': 0.32586556673049927, 'learning_rate': 2.9705793145283586e-05, 'epoch': 9.01}
{'loss': 0.0454, 'grad_norm': 0.2908802330493927, 'learning_rate': 2.9554140127388536e-05, 'epoch': 9.02}
{'loss': 0.047, 'grad_norm': 0.31730616092681885, 'learning_rate': 2.940248710949348e-05, 'epoch': 9.02}
{'loss': 0.0489, 'grad_norm': 0.21552082896232605, 'learning_rate': 2.925083409159842e-05, 'epoch': 9.03}
{'loss': 0.0441, 'grad_norm': 0.429984986782074, 'learning_rate': 2.9099181073703365e-05, 'epoch': 9.03}
{'loss': 0.0469, 'grad_norm': 0.3967234194278717, 'learning_rate': 2.8947528055808308e-05, 'epoch': 9.04}
{'loss': 0.04

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.091210275888443, 'eval_runtime': 327.382, 'eval_samples_per_second': 60.431, 'eval_steps_per_second': 15.108, 'epoch': 9.05}
{'loss': 0.0472, 'grad_norm': 0.3707681894302368, 'learning_rate': 2.849256900212314e-05, 'epoch': 9.05}
{'loss': 0.0491, 'grad_norm': 0.2593562602996826, 'learning_rate': 2.8340915984228083e-05, 'epoch': 9.06}
{'loss': 0.0455, 'grad_norm': 0.2569471597671509, 'learning_rate': 2.8189262966333026e-05, 'epoch': 9.06}
{'loss': 0.0518, 'grad_norm': 0.20335634052753448, 'learning_rate': 2.803760994843797e-05, 'epoch': 9.07}
{'loss': 0.0483, 'grad_norm': 0.4094368517398834, 'learning_rate': 2.7885956930542918e-05, 'epoch': 9.07}
{'loss': 0.0499, 'grad_norm': 0.27455082535743713, 'learning_rate': 2.773430391264786e-05, 'epoch': 9.08}
{'loss': 0.0455, 'grad_norm': 0.3147194981575012, 'learning_rate': 2.7582650894752804e-05, 'epoch': 9.08}
{'loss': 0.0536, 'grad_norm': 0.4546578526496887, 'learning_rate': 2.7430997876857747e-05, 'epoch': 9.09}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09126929193735123, 'eval_runtime': 344.043, 'eval_samples_per_second': 57.504, 'eval_steps_per_second': 14.376, 'epoch': 9.1}
{'loss': 0.0463, 'grad_norm': 0.3789292573928833, 'learning_rate': 2.697603882317258e-05, 'epoch': 9.1}
{'loss': 0.046, 'grad_norm': 0.1634857952594757, 'learning_rate': 2.6824385805277522e-05, 'epoch': 9.11}
{'loss': 0.0456, 'grad_norm': 0.20478332042694092, 'learning_rate': 2.6672732787382465e-05, 'epoch': 9.11}
{'loss': 0.049, 'grad_norm': 0.2575052082538605, 'learning_rate': 2.6521079769487408e-05, 'epoch': 9.12}
{'loss': 0.0492, 'grad_norm': 0.3228970170021057, 'learning_rate': 2.6369426751592354e-05, 'epoch': 9.12}
{'loss': 0.0451, 'grad_norm': 0.36469534039497375, 'learning_rate': 2.6217773733697297e-05, 'epoch': 9.13}
{'loss': 0.0487, 'grad_norm': 0.16897422075271606, 'learning_rate': 2.6066120715802244e-05, 'epoch': 9.13}
{'loss': 0.0481, 'grad_norm': 0.41265156865119934, 'learning_rate': 2.5914467697907187e-05, 'epoch': 9.14}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09117177873849869, 'eval_runtime': 330.1439, 'eval_samples_per_second': 59.925, 'eval_steps_per_second': 14.981, 'epoch': 9.15}
{'loss': 0.0455, 'grad_norm': 0.23822613060474396, 'learning_rate': 2.546102517440097e-05, 'epoch': 9.15}
{'loss': 0.045, 'grad_norm': 0.2291025072336197, 'learning_rate': 2.5309372156505914e-05, 'epoch': 9.16}
{'loss': 0.05, 'grad_norm': 0.30821624398231506, 'learning_rate': 2.5157719138610857e-05, 'epoch': 9.16}
{'loss': 0.0462, 'grad_norm': 0.28626447916030884, 'learning_rate': 2.50060661207158e-05, 'epoch': 9.17}
{'loss': 0.0481, 'grad_norm': 0.3034152388572693, 'learning_rate': 2.4854413102820746e-05, 'epoch': 9.17}
{'loss': 0.0498, 'grad_norm': 0.23879115283489227, 'learning_rate': 2.470276008492569e-05, 'epoch': 9.18}
{'loss': 0.0467, 'grad_norm': 0.144447460770607, 'learning_rate': 2.4551107067030632e-05, 'epoch': 9.18}
{'loss': 0.0497, 'grad_norm': 0.3066498637199402, 'learning_rate': 2.4399454049135575e-05, 'epoch': 9.19}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0912446677684784, 'eval_runtime': 323.896, 'eval_samples_per_second': 61.081, 'eval_steps_per_second': 15.27, 'epoch': 9.2}
{'loss': 0.0488, 'grad_norm': 0.29752466082572937, 'learning_rate': 2.3944494995450407e-05, 'epoch': 9.21}
{'loss': 0.0454, 'grad_norm': 0.42674627900123596, 'learning_rate': 2.3792841977555353e-05, 'epoch': 9.21}
{'loss': 0.0466, 'grad_norm': 0.3060266971588135, 'learning_rate': 2.3641188959660296e-05, 'epoch': 9.22}
{'loss': 0.0476, 'grad_norm': 0.18524380028247833, 'learning_rate': 2.348953594176524e-05, 'epoch': 9.22}
{'loss': 0.0493, 'grad_norm': 0.2509880065917969, 'learning_rate': 2.3337882923870186e-05, 'epoch': 9.23}
{'loss': 0.0465, 'grad_norm': 0.20183910429477692, 'learning_rate': 2.318622990597513e-05, 'epoch': 9.23}
{'loss': 0.0486, 'grad_norm': 0.26042789220809937, 'learning_rate': 2.303457688808007e-05, 'epoch': 9.24}
{'loss': 0.0505, 'grad_norm': 0.42648953199386597, 'learning_rate': 2.2882923870185014e-05, 'epoch': 9.24}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09108395129442215, 'eval_runtime': 321.1802, 'eval_samples_per_second': 61.598, 'eval_steps_per_second': 15.399, 'epoch': 9.25}
{'loss': 0.0486, 'grad_norm': 0.238638237118721, 'learning_rate': 2.2427964816499847e-05, 'epoch': 9.26}
{'loss': 0.049, 'grad_norm': 0.16803979873657227, 'learning_rate': 2.227631179860479e-05, 'epoch': 9.26}
{'loss': 0.0472, 'grad_norm': 0.2518186867237091, 'learning_rate': 2.2124658780709732e-05, 'epoch': 9.27}
{'loss': 0.0467, 'grad_norm': 0.2525237202644348, 'learning_rate': 2.197300576281468e-05, 'epoch': 9.27}
{'loss': 0.0491, 'grad_norm': 0.2686038017272949, 'learning_rate': 2.182286927509857e-05, 'epoch': 9.28}
{'loss': 0.047, 'grad_norm': 0.20847144722938538, 'learning_rate': 2.1671216257203513e-05, 'epoch': 9.28}
{'loss': 0.0491, 'grad_norm': 0.19078369438648224, 'learning_rate': 2.151956323930846e-05, 'epoch': 9.29}
{'loss': 0.0464, 'grad_norm': 0.45002323389053345, 'learning_rate': 2.1367910221413406e-05, 'epoch': 9.29}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09116122871637344, 'eval_runtime': 347.5324, 'eval_samples_per_second': 56.927, 'eval_steps_per_second': 14.232, 'epoch': 9.3}
{'loss': 0.0493, 'grad_norm': 0.17161411046981812, 'learning_rate': 2.0912951167728238e-05, 'epoch': 9.31}
{'loss': 0.0467, 'grad_norm': 0.27996310591697693, 'learning_rate': 2.076129814983318e-05, 'epoch': 9.31}
{'loss': 0.0446, 'grad_norm': 0.2516647279262543, 'learning_rate': 2.0609645131938124e-05, 'epoch': 9.32}
{'loss': 0.048, 'grad_norm': 0.24013765156269073, 'learning_rate': 2.0457992114043067e-05, 'epoch': 9.32}
{'loss': 0.0456, 'grad_norm': 0.28827959299087524, 'learning_rate': 2.030633909614801e-05, 'epoch': 9.33}
{'loss': 0.0485, 'grad_norm': 0.30654510855674744, 'learning_rate': 2.0154686078252956e-05, 'epoch': 9.33}
{'loss': 0.0499, 'grad_norm': 0.2655620574951172, 'learning_rate': 2.00030330603579e-05, 'epoch': 9.34}
{'loss': 0.0461, 'grad_norm': 0.3122529089450836, 'learning_rate': 1.9851380042462842e-05, 'epoch': 9.34}
{'loss': 

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09115555882453918, 'eval_runtime': 353.0152, 'eval_samples_per_second': 56.043, 'eval_steps_per_second': 14.011, 'epoch': 9.35}
{'loss': 0.05, 'grad_norm': 0.3690635859966278, 'learning_rate': 1.9397937518956623e-05, 'epoch': 9.36}
{'loss': 0.0482, 'grad_norm': 0.31157851219177246, 'learning_rate': 1.924628450106157e-05, 'epoch': 9.36}
{'loss': 0.0458, 'grad_norm': 0.1692962348461151, 'learning_rate': 1.9094631483166512e-05, 'epoch': 9.37}
{'loss': 0.051, 'grad_norm': 0.39346104860305786, 'learning_rate': 1.894297846527146e-05, 'epoch': 9.37}
{'loss': 0.0466, 'grad_norm': 0.4695570766925812, 'learning_rate': 1.87913254473764e-05, 'epoch': 9.38}
{'loss': 0.045, 'grad_norm': 0.2186756730079651, 'learning_rate': 1.8639672429481345e-05, 'epoch': 9.38}
{'loss': 0.0509, 'grad_norm': 0.26992490887641907, 'learning_rate': 1.848801941158629e-05, 'epoch': 9.39}
{'loss': 0.0461, 'grad_norm': 0.35413575172424316, 'learning_rate': 1.8336366393691234e-05, 'epoch': 9.39}
{'loss': 0.04

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09114056825637817, 'eval_runtime': 345.5743, 'eval_samples_per_second': 57.25, 'eval_steps_per_second': 14.312, 'epoch': 9.4}
{'loss': 0.048, 'grad_norm': 0.2635277807712555, 'learning_rate': 1.7881407340006063e-05, 'epoch': 9.41}
{'loss': 0.0496, 'grad_norm': 0.22782370448112488, 'learning_rate': 1.772975432211101e-05, 'epoch': 9.41}
{'loss': 0.0493, 'grad_norm': 0.23293602466583252, 'learning_rate': 1.7578101304215952e-05, 'epoch': 9.42}
{'loss': 0.0491, 'grad_norm': 0.26259180903434753, 'learning_rate': 1.7426448286320898e-05, 'epoch': 9.42}
{'loss': 0.0482, 'grad_norm': 0.24118073284626007, 'learning_rate': 1.727479526842584e-05, 'epoch': 9.43}
{'loss': 0.0482, 'grad_norm': 0.2643851339817047, 'learning_rate': 1.7123142250530784e-05, 'epoch': 9.43}
{'loss': 0.0505, 'grad_norm': 0.22276747226715088, 'learning_rate': 1.6971489232635727e-05, 'epoch': 9.44}
{'loss': 0.0478, 'grad_norm': 0.21868672966957092, 'learning_rate': 1.6819836214740673e-05, 'epoch': 9.44}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09107090532779694, 'eval_runtime': 322.6292, 'eval_samples_per_second': 61.321, 'eval_steps_per_second': 15.33, 'epoch': 9.45}
{'loss': 0.0503, 'grad_norm': 0.2718537151813507, 'learning_rate': 1.6364877161055502e-05, 'epoch': 9.46}
{'loss': 0.0479, 'grad_norm': 0.2789176106452942, 'learning_rate': 1.621322414316045e-05, 'epoch': 9.46}
{'loss': 0.0464, 'grad_norm': 0.23627693951129913, 'learning_rate': 1.606157112526539e-05, 'epoch': 9.47}
{'loss': 0.0464, 'grad_norm': 0.19749611616134644, 'learning_rate': 1.5909918107370338e-05, 'epoch': 9.47}
{'loss': 0.0467, 'grad_norm': 0.5422492623329163, 'learning_rate': 1.575826508947528e-05, 'epoch': 9.48}
{'loss': 0.046, 'grad_norm': 0.6445614695549011, 'learning_rate': 1.5606612071580224e-05, 'epoch': 9.48}
{'loss': 0.0462, 'grad_norm': 0.42804041504859924, 'learning_rate': 1.5454959053685166e-05, 'epoch': 9.49}
{'loss': 0.0472, 'grad_norm': 0.35237735509872437, 'learning_rate': 1.530330603579011e-05, 'epoch': 9.49}
{'loss': 0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09102361649274826, 'eval_runtime': 350.5174, 'eval_samples_per_second': 56.442, 'eval_steps_per_second': 14.111, 'epoch': 9.5}
{'loss': 0.0473, 'grad_norm': 0.3166039288043976, 'learning_rate': 1.4848346982104943e-05, 'epoch': 9.51}
{'loss': 0.0464, 'grad_norm': 0.2633896470069885, 'learning_rate': 1.4696693964209886e-05, 'epoch': 9.51}
{'loss': 0.0517, 'grad_norm': 0.28004691004753113, 'learning_rate': 1.4545040946314831e-05, 'epoch': 9.52}
{'loss': 0.0471, 'grad_norm': 0.4494531750679016, 'learning_rate': 1.4393387928419774e-05, 'epoch': 9.52}
{'loss': 0.0464, 'grad_norm': 0.29448235034942627, 'learning_rate': 1.4241734910524717e-05, 'epoch': 9.53}
{'loss': 0.0449, 'grad_norm': 0.31683480739593506, 'learning_rate': 1.4090081892629663e-05, 'epoch': 9.53}
{'loss': 0.0482, 'grad_norm': 0.6121387481689453, 'learning_rate': 1.3938428874734606e-05, 'epoch': 9.54}
{'loss': 0.0468, 'grad_norm': 0.4107661545276642, 'learning_rate': 1.378677585683955e-05, 'epoch': 9.54}
{'loss'

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09104432910680771, 'eval_runtime': 321.3195, 'eval_samples_per_second': 61.571, 'eval_steps_per_second': 15.393, 'epoch': 9.55}
{'loss': 0.0453, 'grad_norm': 0.34020960330963135, 'learning_rate': 1.3331816803154383e-05, 'epoch': 9.56}
{'loss': 0.048, 'grad_norm': 0.25705912709236145, 'learning_rate': 1.3180163785259326e-05, 'epoch': 9.56}
{'loss': 0.0494, 'grad_norm': 0.21219263970851898, 'learning_rate': 1.303002729754322e-05, 'epoch': 9.57}
{'loss': 0.0495, 'grad_norm': 0.20423544943332672, 'learning_rate': 1.2878374279648164e-05, 'epoch': 9.57}
{'loss': 0.0477, 'grad_norm': 0.4569786489009857, 'learning_rate': 1.2726721261753107e-05, 'epoch': 9.58}
{'loss': 0.0493, 'grad_norm': 0.23359926044940948, 'learning_rate': 1.2575068243858053e-05, 'epoch': 9.58}
{'loss': 0.0479, 'grad_norm': 0.30985212326049805, 'learning_rate': 1.2423415225962996e-05, 'epoch': 9.59}
{'loss': 0.0505, 'grad_norm': 0.25305402278900146, 'learning_rate': 1.2271762208067939e-05, 'epoch': 9.59}
{'l

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09100303053855896, 'eval_runtime': 320.7719, 'eval_samples_per_second': 61.676, 'eval_steps_per_second': 15.419, 'epoch': 9.6}
{'loss': 0.0469, 'grad_norm': 0.23151475191116333, 'learning_rate': 1.181680315438277e-05, 'epoch': 9.61}
{'loss': 0.0503, 'grad_norm': 0.272012323141098, 'learning_rate': 1.1665150136487716e-05, 'epoch': 9.61}
{'loss': 0.0447, 'grad_norm': 0.13459981977939606, 'learning_rate': 1.1513497118592659e-05, 'epoch': 9.62}
{'loss': 0.0489, 'grad_norm': 0.37206166982650757, 'learning_rate': 1.1361844100697603e-05, 'epoch': 9.62}
{'loss': 0.0467, 'grad_norm': 0.6876973509788513, 'learning_rate': 1.1210191082802546e-05, 'epoch': 9.63}
{'loss': 0.0484, 'grad_norm': 0.1929476112127304, 'learning_rate': 1.105853806490749e-05, 'epoch': 9.63}
{'loss': 0.0452, 'grad_norm': 0.49745404720306396, 'learning_rate': 1.0906885047012435e-05, 'epoch': 9.64}
{'loss': 0.0485, 'grad_norm': 0.4964512586593628, 'learning_rate': 1.0755232029117378e-05, 'epoch': 9.64}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09100505709648132, 'eval_runtime': 319.4761, 'eval_samples_per_second': 61.926, 'eval_steps_per_second': 15.482, 'epoch': 9.65}
{'loss': 0.0475, 'grad_norm': 0.19767510890960693, 'learning_rate': 1.0300272975432209e-05, 'epoch': 9.66}
{'loss': 0.0464, 'grad_norm': 0.2685855031013489, 'learning_rate': 1.0148619957537154e-05, 'epoch': 9.67}
{'loss': 0.0455, 'grad_norm': 0.35411572456359863, 'learning_rate': 9.996966939642098e-06, 'epoch': 9.67}
{'loss': 0.048, 'grad_norm': 0.21828746795654297, 'learning_rate': 9.846830451925993e-06, 'epoch': 9.68}
{'loss': 0.0493, 'grad_norm': 0.2538500428199768, 'learning_rate': 9.695177434030936e-06, 'epoch': 9.68}
{'loss': 0.0485, 'grad_norm': 0.35576486587524414, 'learning_rate': 9.54352441613588e-06, 'epoch': 9.69}
{'loss': 0.0489, 'grad_norm': 0.41389843821525574, 'learning_rate': 9.391871398240825e-06, 'epoch': 9.69}
{'loss': 0.0481, 'grad_norm': 0.3852148652076721, 'learning_rate': 9.240218380345768e-06, 'epoch': 9.7}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09106162935495377, 'eval_runtime': 289.57, 'eval_samples_per_second': 68.322, 'eval_steps_per_second': 17.08, 'epoch': 9.71}
{'loss': 0.0498, 'grad_norm': 0.17958004772663116, 'learning_rate': 8.785259326660599e-06, 'epoch': 9.71}
{'loss': 0.0493, 'grad_norm': 0.2216491997241974, 'learning_rate': 8.633606308765544e-06, 'epoch': 9.72}
{'loss': 0.0477, 'grad_norm': 0.18326231837272644, 'learning_rate': 8.481953290870488e-06, 'epoch': 9.72}
{'loss': 0.0483, 'grad_norm': 0.2265779972076416, 'learning_rate': 8.330300272975431e-06, 'epoch': 9.73}
{'loss': 0.0479, 'grad_norm': 0.658239483833313, 'learning_rate': 8.178647255080376e-06, 'epoch': 9.73}
{'loss': 0.0493, 'grad_norm': 0.354054719209671, 'learning_rate': 8.026994237185319e-06, 'epoch': 9.74}
{'loss': 0.0478, 'grad_norm': 0.5385158658027649, 'learning_rate': 7.875341219290263e-06, 'epoch': 9.74}
{'loss': 0.0492, 'grad_norm': 0.2155897170305252, 'learning_rate': 7.723688201395208e-06, 'epoch': 9.75}
{'loss': 0.0486, 'g

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.0910029411315918, 'eval_runtime': 328.6671, 'eval_samples_per_second': 60.195, 'eval_steps_per_second': 15.049, 'epoch': 9.76}
{'loss': 0.0471, 'grad_norm': 0.253469854593277, 'learning_rate': 7.268729147710039e-06, 'epoch': 9.76}
{'loss': 0.0459, 'grad_norm': 0.2615490257740021, 'learning_rate': 7.117076129814982e-06, 'epoch': 9.77}
{'loss': 0.0463, 'grad_norm': 0.2282765954732895, 'learning_rate': 6.965423111919927e-06, 'epoch': 9.77}
{'loss': 0.049, 'grad_norm': 0.1896476298570633, 'learning_rate': 6.813770094024871e-06, 'epoch': 9.78}
{'loss': 0.046, 'grad_norm': 0.27972233295440674, 'learning_rate': 6.662117076129814e-06, 'epoch': 9.78}
{'loss': 0.0487, 'grad_norm': 0.1652492731809616, 'learning_rate': 6.510464058234759e-06, 'epoch': 9.79}
{'loss': 0.0469, 'grad_norm': 0.2882300317287445, 'learning_rate': 6.358811040339702e-06, 'epoch': 9.79}
{'loss': 0.0517, 'grad_norm': 0.44445353746414185, 'learning_rate': 6.208674552623597e-06, 'epoch': 9.8}
{'loss': 0.046, 'gr

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09101395308971405, 'eval_runtime': 321.3964, 'eval_samples_per_second': 61.556, 'eval_steps_per_second': 15.389, 'epoch': 9.81}
{'loss': 0.0492, 'grad_norm': 0.34518495202064514, 'learning_rate': 5.753715498938428e-06, 'epoch': 9.81}
{'loss': 0.0487, 'grad_norm': 0.2940996587276459, 'learning_rate': 5.602062481043372e-06, 'epoch': 9.82}
{'loss': 0.0436, 'grad_norm': 0.18484127521514893, 'learning_rate': 5.450409463148317e-06, 'epoch': 9.82}
{'loss': 0.0457, 'grad_norm': 0.16566894948482513, 'learning_rate': 5.29875644525326e-06, 'epoch': 9.83}
{'loss': 0.0481, 'grad_norm': 0.420929878950119, 'learning_rate': 5.1471034273582035e-06, 'epoch': 9.83}
{'loss': 0.0488, 'grad_norm': 0.30595505237579346, 'learning_rate': 4.995450409463148e-06, 'epoch': 9.84}
{'loss': 0.0463, 'grad_norm': 0.6213256120681763, 'learning_rate': 4.843797391568092e-06, 'epoch': 9.84}
{'loss': 0.0463, 'grad_norm': 0.26704996824264526, 'learning_rate': 4.692144373673036e-06, 'epoch': 9.85}
{'loss': 0.0

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09101513773202896, 'eval_runtime': 325.0787, 'eval_samples_per_second': 60.859, 'eval_steps_per_second': 15.215, 'epoch': 9.86}
{'loss': 0.0481, 'grad_norm': 0.4747571647167206, 'learning_rate': 4.237185319987868e-06, 'epoch': 9.86}
{'loss': 0.0464, 'grad_norm': 0.2757128179073334, 'learning_rate': 4.085532302092811e-06, 'epoch': 9.87}
{'loss': 0.0511, 'grad_norm': 0.30714911222457886, 'learning_rate': 3.935395814376706e-06, 'epoch': 9.87}
{'loss': 0.047, 'grad_norm': 0.24186822772026062, 'learning_rate': 3.7837427964816497e-06, 'epoch': 9.88}
{'loss': 0.0483, 'grad_norm': 0.41917285323143005, 'learning_rate': 3.632089778586594e-06, 'epoch': 9.88}
{'loss': 0.0477, 'grad_norm': 0.34957414865493774, 'learning_rate': 3.4804367606915373e-06, 'epoch': 9.89}
{'loss': 0.0474, 'grad_norm': 0.3044803738594055, 'learning_rate': 3.3287837427964815e-06, 'epoch': 9.89}
{'loss': 0.0459, 'grad_norm': 0.315178245306015, 'learning_rate': 3.1771307249014253e-06, 'epoch': 9.9}
{'loss': 0.

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09098351001739502, 'eval_runtime': 319.1258, 'eval_samples_per_second': 61.994, 'eval_steps_per_second': 15.499, 'epoch': 9.91}
{'loss': 0.0501, 'grad_norm': 0.3124983608722687, 'learning_rate': 2.722171671216257e-06, 'epoch': 9.91}
{'loss': 0.0456, 'grad_norm': 0.2137218564748764, 'learning_rate': 2.570518653321201e-06, 'epoch': 9.92}
{'loss': 0.048, 'grad_norm': 0.31599417328834534, 'learning_rate': 2.4188656354261446e-06, 'epoch': 9.92}
{'loss': 0.0508, 'grad_norm': 0.4458782970905304, 'learning_rate': 2.267212617531089e-06, 'epoch': 9.93}
{'loss': 0.0454, 'grad_norm': 0.37171632051467896, 'learning_rate': 2.1155595996360326e-06, 'epoch': 9.93}
{'loss': 0.0469, 'grad_norm': 0.3159734308719635, 'learning_rate': 1.9639065817409764e-06, 'epoch': 9.94}
{'loss': 0.0488, 'grad_norm': 0.31438711285591125, 'learning_rate': 1.8122535638459204e-06, 'epoch': 9.94}
{'loss': 0.0477, 'grad_norm': 0.23791758716106415, 'learning_rate': 1.6606005459508642e-06, 'epoch': 9.95}
{'loss':

  0%|          | 0/4946 [00:00<?, ?it/s]

{'eval_loss': 0.09099285304546356, 'eval_runtime': 328.1256, 'eval_samples_per_second': 60.294, 'eval_steps_per_second': 15.073, 'epoch': 9.96}
{'loss': 0.048, 'grad_norm': 0.18413949012756348, 'learning_rate': 1.205641492265696e-06, 'epoch': 9.96}
{'loss': 0.0474, 'grad_norm': 0.29406967759132385, 'learning_rate': 1.05398847437064e-06, 'epoch': 9.97}
{'loss': 0.0494, 'grad_norm': 0.458466500043869, 'learning_rate': 9.023354564755838e-07, 'epoch': 9.97}
{'loss': 0.0452, 'grad_norm': 0.19074739515781403, 'learning_rate': 7.506824385805277e-07, 'epoch': 9.98}
{'loss': 0.051, 'grad_norm': 0.30365708470344543, 'learning_rate': 5.990294206854716e-07, 'epoch': 9.98}
{'loss': 0.0496, 'grad_norm': 0.14706288278102875, 'learning_rate': 4.4737640279041546e-07, 'epoch': 9.99}
{'loss': 0.0485, 'grad_norm': 0.1880911886692047, 'learning_rate': 2.957233848953594e-07, 'epoch': 9.99}
{'loss': 0.0461, 'grad_norm': 0.13396109640598297, 'learning_rate': 1.440703670003033e-07, 'epoch': 10.0}
{'train_runti

('./sql-training-1742097108\\tokenizer_config.json',
 './sql-training-1742097108\\special_tokens_map.json',
 './sql-training-1742097108\\spiece.model',
 './sql-training-1742097108\\added_tokens.json',
 './sql-training-1742097108\\tokenizer.json')

In [34]:
#index = 0
index = len(dataset['test'])-201

question = dataset['test'][index]['question']
context = dataset['test'][index]['context']
answer = dataset['test'][index]['answer']

prompt = f"""Tables:
{context}

Question:
{question}

Answer:
"""

inputs = tokenizer(prompt, return_tensors='pt')
inputs = inputs.to('cuda')

output = tokenizer.decode(
    finetuned_model.generate(
        inputs["input_ids"], 
        max_new_tokens=200,
    )[0], 
    skip_special_tokens=True
)

dash_line = '-'.join('' for x in range(100))
print(dash_line)
print(f'INPUT PROMPT:\n{prompt}')
print(dash_line)
print(f'BASELINE HUMAN ANSWER:\n{answer}\n')
print(dash_line)
print(f'FINE-TUNED MODEL - ZERO SHOT:\n{output}')

---------------------------------------------------------------------------------------------------
INPUT PROMPT:
Tables:
CREATE TABLE table_name_43 (losses VARCHAR, byes VARCHAR, wins VARCHAR, golden_rivers VARCHAR)

Question:
How many losses did the golden rivers of ultima have when wins were less than 12 and byes larger than 2?

Answer:

---------------------------------------------------------------------------------------------------
BASELINE HUMAN ANSWER:
SELECT COUNT(losses) FROM table_name_43 WHERE wins < 12 AND golden_rivers = "ultima" AND byes > 2

---------------------------------------------------------------------------------------------------
FINE-TUNED MODEL - ZERO SHOT:
SELECT COUNT(losses) FROM table_name_79 WHERE wins > 12 AND golden_rivers__in_l_championship_ = "ultima" AND byes > 2 AND golden_rivers_v_rating__losses > 12 AND golden_rivers__losses_ > 1.4 AND golden_rivers_v_rating__r_) > 2


In [8]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Load the trained model and tokenizer
model_path = "C:/Users/gshan/OneDrive/Desktop/hugging/sql-training-1741960267/"  # Replace with your actual model path
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSeq2SeqLM.from_pretrained(model_path)

# Example input for generating SQL query
input_text = "which all students have their core subject as mathematics" 
inputs = tokenizer(input_text, return_tensors="pt", truncation=True)

# Generate SQL query
output_tokens = model.generate(**inputs, max_length=256)
sql_query = tokenizer.decode(output_tokens[0], skip_special_tokens=True)

# Print the generated SQL query
print("Generated SQL Query:", sql_query)


Generated SQL Query: SELECT students FROM student WHERE eid = (SELECT MIN(core_subject) FROM program_course WHERE program_course.category_code = 'Masmathematics')


In [1]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, Trainer, TrainingArguments
from datasets import load_dataset
import evaluate

# Path to the trained model
saved_model_path = "C:/Users/gshan/OneDrive/Desktop/hugging/sql-training-1736782701/"

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(saved_model_path)
finetuned_model = AutoModelForSeq2SeqLM.from_pretrained(saved_model_path)

# Load the metric for evaluation
metric = evaluate.load("accuracy")

# Define the preprocess function
def preprocess_function(examples):
    inputs = examples["question"]
    targets = examples["answer"]
    model_inputs = tokenizer(inputs, padding="max_length", truncation=True, max_length=128)
    labels = tokenizer(targets, padding="max_length", truncation=True, max_length=128).input_ids
    model_inputs["labels"] = labels
    return model_inputs

# Load the dataset
dataset = load_dataset("b-mc2/sql-create-context")

# Check available splits
print(dataset)

# Split the dataset if 'validation' doesn't exist
if "validation" not in dataset:
    dataset = dataset["train"].train_test_split(test_size=0.2, seed=42)
    tokenized_datasets = {
        "train": dataset["train"].map(preprocess_function, batched=True),
        "validation": dataset["test"].map(preprocess_function, batched=True),
    }
else:
    tokenized_datasets = dataset.map(preprocess_function, batched=True)

# Specify a subset of the validation dataset
subset_size = 500  # Number of examples for evaluation
validation_subset = tokenized_datasets["validation"].shuffle(seed=42).select(range(min(subset_size, len(tokenized_datasets["validation"]))))

# Define a function to compute accuracy
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
    accuracy = metric.compute(predictions=[pred.strip() for pred in decoded_preds], 
                               references=[label.strip() for label in decoded_labels])
    return {"accuracy": accuracy}

# TrainingArguments for evaluation
training_args = TrainingArguments(
    output_dir="./results", 
    per_device_eval_batch_size=8,
)

# Initialize the Trainer
trainer = Trainer(
    model=finetuned_model,
    args=training_args,
    eval_dataset=validation_subset,
    compute_metrics=compute_metrics,
)

# Evaluate the model
results = trainer.evaluate()

# Print accuracy
print(f"Accuracy on subset: {results['eval_accuracy']:.4f}")


DatasetDict({
    train: Dataset({
        features: ['answer', 'question', 'context'],
        num_rows: 78577
    })
})


Passing a tuple of `past_key_values` is deprecated and will be removed in Transformers v4.48.0. You should pass an instance of `EncoderDecoderCache` instead, e.g. `past_key_values=EncoderDecoderCache.from_legacy_cache(past_key_values)`.


  0%|          | 0/63 [00:00<?, ?it/s]

OutOfMemoryError: CUDA out of memory. Tried to allocate 5.52 GiB. GPU 0 has a total capacity of 6.00 GiB of which 0 bytes is free. Of the allocated memory 5.84 GiB is allocated by PyTorch, and 1.40 GiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [10]:
pip install --upgrade pip

Defaulting to user installation because normal site-packages is not writeableNote: you may need to restart the kernel to use updated packages.

Collecting pip
  Downloading pip-25.0.1-py3-none-any.whl.metadata (3.7 kB)
Downloading pip-25.0.1-py3-none-any.whl (1.8 MB)
   ---------------------------------------- 0.0/1.8 MB ? eta -:--:--
   ----- ---------------------------------- 0.3/1.8 MB ? eta -:--:--
   ---------------------- ----------------- 1.0/1.8 MB 3.1 MB/s eta 0:00:01
   ---------------------------------- ----- 1.6/1.8 MB 2.9 MB/s eta 0:00:01
   ---------------------------------------- 1.8/1.8 MB 2.9 MB/s eta 0:00:00
Installing collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.3.1
    Uninstalling pip-24.3.1:
      Successfully uninstalled pip-24.3.1
Successfully installed pip-25.0.1


In [11]:
pip install google-generative-ai

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement google-generative-ai (from versions: none)
ERROR: No matching distribution found for google-generative-ai


In [1]:
import os
api_key = os.environ.get("GOOGLE_API_KEY")
print(api_key)

AIzaSyDdCi1jbGSo-bcY51Uo03rgLh269L04Dxc


In [2]:
pip install -q -U google-generativeai

Note: you may need to restart the kernel to use updated packages.


ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
mysql-connector-python 8.2.0 requires protobuf<=4.21.12,>=4.21.1, but you have protobuf 5.29.4 which is incompatible.


In [2]:
import google.generativeai as genai
import os

GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")

if not GOOGLE_API_KEY:
    raise ValueError("GOOGLE_API_KEY environment variable is not set.")

genai.configure(api_key=GOOGLE_API_KEY)

In [3]:
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("Hello, Gemini!")
print(response.text)

NotFound: 404 models/gemini-pro is not found for API version v1beta, or is not supported for generateContent. Call ListModels to see the list of available models and their supported methods.

In [4]:
import google.generativeai as genai
import os

GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")

if not GOOGLE_API_KEY:
    raise ValueError("GOOGLE_API_KEY environment variable is not set.")

genai.configure(api_key=GOOGLE_API_KEY)

models = genai.list_models()
for model in models:
    print(model)

Model(name='models/chat-bison-001',
      base_model_id='',
      version='001',
      display_name='PaLM 2 Chat (Legacy)',
      description='A legacy text-only model optimized for chat conversations',
      input_token_limit=4096,
      output_token_limit=1024,
      supported_generation_methods=['generateMessage', 'countMessageTokens'],
      temperature=0.25,
      max_temperature=None,
      top_p=0.95,
      top_k=40)
Model(name='models/text-bison-001',
      base_model_id='',
      version='001',
      display_name='PaLM 2 (Legacy)',
      description='A legacy model that understands text and generates text as an output',
      input_token_limit=8196,
      output_token_limit=1024,
      supported_generation_methods=['generateText', 'countTextTokens', 'createTunedTextModel'],
      temperature=0.7,
      max_temperature=None,
      top_p=0.95,
      top_k=40)
Model(name='models/embedding-gecko-001',
      base_model_id='',
      version='001',
      display_name='Embedding Gecko

In [5]:
model = genai.GenerativeModel('gemini-1.5-pro-latest')
response = model.generate_content("Hello, Gemini!")
print(response.text)

Hello there! How can I help you today?



In [12]:
import google.generativeai as genai
import os
import json

GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")

if not GOOGLE_API_KEY:
    raise ValueError("GOOGLE_API_KEY environment variable is not set.")

genai.configure(api_key=GOOGLE_API_KEY)

database_schema_json = {
    "tables": [
        {
            "name": "Customers",
            "columns": [
                {"name": "CustomerID", "type": "INT", "primaryKey": True},
                {"name": "FirstName", "type": "VARCHAR(255)"},
                {"name": "LastName", "type": "VARCHAR(255)"},
                {"name": "State", "type": "VARCHAR(255)"}
            ]
        },
        {
            "name": "Orders",
            "columns": [
                {"name": "OrderID", "type": "INT", "primaryKey": True},
                {"name": "CustomerID", "type": "INT", "foreignKey": "Customers(CustomerID)"},
                {"name": "OrderDate", "type": "DATE"}
            ]
        },
        {
            "name": "Students",
            "columns": [
                {"name": "StudentID", "type": "INT", "primaryKey": True},
                {"name": "Name", "type": "VARCHAR(100)"},
                {"name": "Age", "type": "INT"},
                {"name": "CoreSubject", "type": "VARCHAR(50)"}
            ]
        }
    ]
}
database_schema_string = json.dumps(database_schema_json, indent=4)

def refine_sql_with_gemini(t5_sql, database_schema_string, question):
    model_gemini = genai.GenerativeModel('gemini-1.5-pro-latest') # Change here

    prompt = f"""
    You are an expert SQL developer.
    User question: {question}
    Database Schema:
    {database_schema_string}

    Validate and correct the following SQL query against the provided schema. Optimize the query for performance. Return ONLY the corrected SQL.

    SQL:
    {t5_sql}
    """

    response = model_gemini.generate_content(prompt)

    return response.text.strip()

question = "Which students have Mathematics as their core subject?"
t5_sql = "SELECT student FROM student WHERE Subject = 'Mathematics';"  # Example SQL

refined_sql = refine_sql_with_gemini(t5_sql, database_schema_string, question)
print(refined_sql)

```sql
SELECT Name
FROM Students
WHERE CoreSubject = 'Mathematics';
```
