pip install -q git+https://github.com/huggingface/trl

In [1]:
# The model that you want to train from the Hugging Face hub
model_name = "mistralai/Mistral-7B-Instruct-v0.1"

# The instruction dataset to use
dataset_name = "StarkWizard/cairo-instruct"

# Fine-tuned model name
new_model = "StarkWizard/Mistral-7b-instruct-cairo-PEFT"



import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

hub_name = "StarkWizard/Mistral-7b-instruct-cairo-instruct"

max_steps = 1000 # to tweak to get the best out of the model 
nb_epochs = 6

In [2]:
import wandb
import random

# start a new wandb run to track this script
wandb.init(
    # set the wandb project where this run will be logged
    project="mistral-cairo",
    
    # track hyperparameters and run metadata
    config={

    "epochs": 6,
    }
)

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mpierre-emmanuel-chaut[0m. Use [1m`wandb login --relogin`[0m to force relogin


In [3]:
import torch
from datasets import load_dataset, Dataset
from peft import LoraConfig, AutoPeftModelForCausalLM
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from trl import SFTTrainer
import os
 
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side ="left"
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype="float16",
    bnb_4bit_use_double_quant=True,
)

model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path=model_name,
                                             trust_remote_code=True,
                                             quantization_config=bnb_config,
                                             low_cpu_mem_usage=True,
                                             device_map={"": 0},
                                             )

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [4]:
from datasets import load_dataset, Dataset
from peft import LoraConfig, AutoPeftModelForCausalLM, prepare_model_for_kbit_training, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from trl import SFTTrainer
import os

model.config.use_cache=False
model.config.pretraining_tp=1
model.config.window = 256 
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)


Loading Dataset

In [5]:
from datasets import load_dataset

# Load the dataset
dataset_train = load_dataset(dataset_name, split="train", download_mode='force_redownload',ignore_verifications=True)
dataset_test = load_dataset(dataset_name, split="eval", download_mode='force_redownload',ignore_verifications=True)



Downloading readme:   0%|          | 0.00/531 [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/257k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.42k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/3057 [00:00<?, ? examples/s]

Generating eval split:   0%|          | 0/5 [00:00<?, ? examples/s]

Downloading readme:   0%|          | 0.00/531 [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/257k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.42k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/3057 [00:00<?, ? examples/s]

Generating eval split:   0%|          | 0/5 [00:00<?, ? examples/s]

In [6]:



peft_config = LoraConfig(
    r=16, lora_alpha=16, lora_dropout=0.05, bias="none", task_type="CAUSAL_LM", target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head"
    ],inference_mode = False
)

model = get_peft_model(model, peft_config)
training_arguments = TrainingArguments(
    output_dir=new_model,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=1,
    gradient_checkpointing = True,
    optim="paged_adamw_32bit",
    evaluation_strategy="steps",
    learning_rate=2e-5,
    lr_scheduler_type="cosine",
    warmup_ratio=0.03,
    save_strategy="epoch",
    logging_dir="./logs", 
    logging_steps=5,
    num_train_epochs=nb_epochs,
    fp16=False,
    push_to_hub=True
)

trainer = SFTTrainer(
    model=model,
    train_dataset=dataset_train,
    eval_dataset=dataset_test,
    peft_config=peft_config,
    dataset_text_field="text",
    args=training_arguments,
    tokenizer=tokenizer,
    packing=False,
    max_seq_length=1024,
    neftune_noise_alpha=5
)


Map:   0%|          | 0/3057 [00:00<?, ? examples/s]

Map:   0%|          | 0/5 [00:00<?, ? examples/s]



In [7]:

trainer.train()
trainer.model.push_to_hub(new_model)
tokenizer.push_to_hub(new_model)

  0%|          | 0/18342 [00:00<?, ?it/s]

You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'loss': 4.9341, 'learning_rate': 1.8148820326678768e-07, 'epoch': 0.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.652856349945068, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 0.0}
{'loss': 4.8965, 'learning_rate': 3.6297640653357535e-07, 'epoch': 0.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.652251720428467, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 0.0}
{'loss': 5.4685, 'learning_rate': 5.44464609800363e-07, 'epoch': 0.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.65108060836792, 'eval_runtime': 0.9685, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.0}
{'loss': 5.3506, 'learning_rate': 7.259528130671507e-07, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.6494340896606445, 'eval_runtime': 1.0737, 'eval_samples_per_second': 4.657, 'eval_steps_per_second': 0.931, 'epoch': 0.01}
{'loss': 4.1947, 'learning_rate': 9.074410163339384e-07, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.647012710571289, 'eval_runtime': 1.0606, 'eval_samples_per_second': 4.714, 'eval_steps_per_second': 0.943, 'epoch': 0.01}
{'loss': 5.5862, 'learning_rate': 1.088929219600726e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.644083023071289, 'eval_runtime': 1.0866, 'eval_samples_per_second': 4.601, 'eval_steps_per_second': 0.92, 'epoch': 0.01}
{'loss': 5.6035, 'learning_rate': 1.2704174228675136e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.640868663787842, 'eval_runtime': 1.0069, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 0.01}
{'loss': 5.2439, 'learning_rate': 1.4519056261343014e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.636591911315918, 'eval_runtime': 1.0961, 'eval_samples_per_second': 4.562, 'eval_steps_per_second': 0.912, 'epoch': 0.01}
{'loss': 4.7623, 'learning_rate': 1.633393829401089e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.6312336921691895, 'eval_runtime': 1.0928, 'eval_samples_per_second': 4.575, 'eval_steps_per_second': 0.915, 'epoch': 0.01}
{'loss': 4.2586, 'learning_rate': 1.8148820326678768e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.624281406402588, 'eval_runtime': 1.0414, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 0.02}
{'loss': 5.2987, 'learning_rate': 1.996370235934664e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.616552352905273, 'eval_runtime': 0.9996, 'eval_samples_per_second': 5.002, 'eval_steps_per_second': 1.0, 'epoch': 0.02}
{'loss': 4.2937, 'learning_rate': 2.177858439201452e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.606163024902344, 'eval_runtime': 1.0878, 'eval_samples_per_second': 4.596, 'eval_steps_per_second': 0.919, 'epoch': 0.02}
{'loss': 5.1021, 'learning_rate': 2.35934664246824e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.594254016876221, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 0.02}
{'loss': 4.8426, 'learning_rate': 2.540834845735027e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.58185338973999, 'eval_runtime': 1.0383, 'eval_samples_per_second': 4.815, 'eval_steps_per_second': 0.963, 'epoch': 0.02}
{'loss': 4.8721, 'learning_rate': 2.722323049001815e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.566989421844482, 'eval_runtime': 1.0177, 'eval_samples_per_second': 4.913, 'eval_steps_per_second': 0.983, 'epoch': 0.02}
{'loss': 4.4885, 'learning_rate': 2.903811252268603e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.54803466796875, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 0.03}
{'loss': 4.9311, 'learning_rate': 3.0852994555353906e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.527310371398926, 'eval_runtime': 1.0739, 'eval_samples_per_second': 4.656, 'eval_steps_per_second': 0.931, 'epoch': 0.03}
{'loss': 4.8788, 'learning_rate': 3.266787658802178e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.505593299865723, 'eval_runtime': 1.0251, 'eval_samples_per_second': 4.878, 'eval_steps_per_second': 0.976, 'epoch': 0.03}
{'loss': 4.6723, 'learning_rate': 3.448275862068966e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.4793243408203125, 'eval_runtime': 1.0296, 'eval_samples_per_second': 4.856, 'eval_steps_per_second': 0.971, 'epoch': 0.03}
{'loss': 4.3292, 'learning_rate': 3.6297640653357536e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.447269916534424, 'eval_runtime': 1.0193, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 0.03}
{'loss': 4.4841, 'learning_rate': 3.811252268602541e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.413558006286621, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 0.03}
{'loss': 4.1609, 'learning_rate': 3.992740471869328e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.373170852661133, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 0.04}
{'loss': 4.7475, 'learning_rate': 4.174228675136116e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.32464599609375, 'eval_runtime': 0.9825, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 0.04}
{'loss': 3.482, 'learning_rate': 4.355716878402904e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.260823726654053, 'eval_runtime': 1.0026, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 0.04}
{'loss': 4.4112, 'learning_rate': 4.537205081669692e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.1899285316467285, 'eval_runtime': 1.0097, 'eval_samples_per_second': 4.952, 'eval_steps_per_second': 0.99, 'epoch': 0.04}
{'loss': 4.4469, 'learning_rate': 4.71869328493648e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.110532760620117, 'eval_runtime': 1.0417, 'eval_samples_per_second': 4.8, 'eval_steps_per_second': 0.96, 'epoch': 0.04}
{'loss': 3.9232, 'learning_rate': 4.9001814882032675e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.036159038543701, 'eval_runtime': 1.0168, 'eval_samples_per_second': 4.917, 'eval_steps_per_second': 0.983, 'epoch': 0.04}
{'loss': 3.5501, 'learning_rate': 5.081669691470054e-06, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.9726853370666504, 'eval_runtime': 0.9672, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 0.05}
{'loss': 4.0454, 'learning_rate': 5.263157894736842e-06, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.916710376739502, 'eval_runtime': 1.083, 'eval_samples_per_second': 4.617, 'eval_steps_per_second': 0.923, 'epoch': 0.05}
{'loss': 3.4706, 'learning_rate': 5.44464609800363e-06, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.8631203174591064, 'eval_runtime': 0.9746, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 0.05}
{'loss': 3.9364, 'learning_rate': 5.626134301270419e-06, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.8155906200408936, 'eval_runtime': 1.0662, 'eval_samples_per_second': 4.69, 'eval_steps_per_second': 0.938, 'epoch': 0.05}
{'loss': 3.7126, 'learning_rate': 5.807622504537206e-06, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.7710793018341064, 'eval_runtime': 1.0731, 'eval_samples_per_second': 4.659, 'eval_steps_per_second': 0.932, 'epoch': 0.05}
{'loss': 3.2719, 'learning_rate': 5.9891107078039935e-06, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.702894687652588, 'eval_runtime': 0.9914, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 0.05}
{'loss': 4.2908, 'learning_rate': 6.170598911070781e-06, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.638090133666992, 'eval_runtime': 1.0901, 'eval_samples_per_second': 4.587, 'eval_steps_per_second': 0.917, 'epoch': 0.06}
{'loss': 3.1325, 'learning_rate': 6.352087114337568e-06, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.5780632495880127, 'eval_runtime': 0.9758, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 0.06}
{'loss': 2.7454, 'learning_rate': 6.533575317604356e-06, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.5409598350524902, 'eval_runtime': 1.0682, 'eval_samples_per_second': 4.681, 'eval_steps_per_second': 0.936, 'epoch': 0.06}
{'loss': 3.0395, 'learning_rate': 6.715063520871144e-06, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.528202533721924, 'eval_runtime': 1.0681, 'eval_samples_per_second': 4.681, 'eval_steps_per_second': 0.936, 'epoch': 0.06}
{'loss': 3.0191, 'learning_rate': 6.896551724137932e-06, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.525796413421631, 'eval_runtime': 1.0183, 'eval_samples_per_second': 4.91, 'eval_steps_per_second': 0.982, 'epoch': 0.06}
{'loss': 2.7526, 'learning_rate': 7.0780399274047195e-06, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.499530076980591, 'eval_runtime': 1.0427, 'eval_samples_per_second': 4.795, 'eval_steps_per_second': 0.959, 'epoch': 0.06}
{'loss': 2.763, 'learning_rate': 7.259528130671507e-06, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.474926710128784, 'eval_runtime': 1.0794, 'eval_samples_per_second': 4.632, 'eval_steps_per_second': 0.926, 'epoch': 0.07}
{'loss': 2.8382, 'learning_rate': 7.441016333938294e-06, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.4492249488830566, 'eval_runtime': 0.988, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 0.07}
{'loss': 3.022, 'learning_rate': 7.622504537205082e-06, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.4233803749084473, 'eval_runtime': 1.0602, 'eval_samples_per_second': 4.716, 'eval_steps_per_second': 0.943, 'epoch': 0.07}
{'loss': 3.2209, 'learning_rate': 7.803992740471869e-06, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.412235975265503, 'eval_runtime': 1.0012, 'eval_samples_per_second': 4.994, 'eval_steps_per_second': 0.999, 'epoch': 0.07}
{'loss': 3.0351, 'learning_rate': 7.985480943738657e-06, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.4019057750701904, 'eval_runtime': 1.0723, 'eval_samples_per_second': 4.663, 'eval_steps_per_second': 0.933, 'epoch': 0.07}
{'loss': 2.8304, 'learning_rate': 8.166969147005446e-06, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.3828189373016357, 'eval_runtime': 1.042, 'eval_samples_per_second': 4.798, 'eval_steps_per_second': 0.96, 'epoch': 0.07}
{'loss': 2.7039, 'learning_rate': 8.348457350272232e-06, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.3633885383605957, 'eval_runtime': 1.0635, 'eval_samples_per_second': 4.702, 'eval_steps_per_second': 0.94, 'epoch': 0.08}
{'loss': 2.9601, 'learning_rate': 8.52994555353902e-06, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.3415310382843018, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 0.08}
{'loss': 2.5323, 'learning_rate': 8.711433756805808e-06, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.3347957134246826, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 0.08}
{'loss': 3.4346, 'learning_rate': 8.892921960072596e-06, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.3416225910186768, 'eval_runtime': 1.0848, 'eval_samples_per_second': 4.609, 'eval_steps_per_second': 0.922, 'epoch': 0.08}
{'loss': 2.9674, 'learning_rate': 9.074410163339384e-06, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.335900068283081, 'eval_runtime': 1.0798, 'eval_samples_per_second': 4.631, 'eval_steps_per_second': 0.926, 'epoch': 0.08}
{'loss': 2.6083, 'learning_rate': 9.255898366606171e-06, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.3309407234191895, 'eval_runtime': 1.0022, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 0.08}
{'loss': 3.0898, 'learning_rate': 9.43738656987296e-06, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.2804954051971436, 'eval_runtime': 1.0527, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 0.09}
{'loss': 2.1079, 'learning_rate': 9.618874773139747e-06, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.1693501472473145, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 0.09}
{'loss': 2.1794, 'learning_rate': 9.800362976406535e-06, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.0305283069610596, 'eval_runtime': 0.9689, 'eval_samples_per_second': 5.16, 'eval_steps_per_second': 1.032, 'epoch': 0.09}
{'loss': 2.8455, 'learning_rate': 9.981851179673323e-06, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.952573537826538, 'eval_runtime': 1.1062, 'eval_samples_per_second': 4.52, 'eval_steps_per_second': 0.904, 'epoch': 0.09}
{'loss': 2.8643, 'learning_rate': 1.0163339382940109e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.9322540760040283, 'eval_runtime': 1.0673, 'eval_samples_per_second': 4.685, 'eval_steps_per_second': 0.937, 'epoch': 0.09}
{'loss': 2.7722, 'learning_rate': 1.0344827586206898e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.9315683841705322, 'eval_runtime': 1.0257, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 0.09}
{'loss': 2.4509, 'learning_rate': 1.0526315789473684e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.969487428665161, 'eval_runtime': 1.0151, 'eval_samples_per_second': 4.925, 'eval_steps_per_second': 0.985, 'epoch': 0.09}
{'loss': 2.6051, 'learning_rate': 1.0707803992740474e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.0069007873535156, 'eval_runtime': 1.0794, 'eval_samples_per_second': 4.632, 'eval_steps_per_second': 0.926, 'epoch': 0.1}
{'loss': 2.3227, 'learning_rate': 1.088929219600726e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.012728214263916, 'eval_runtime': 1.0568, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 0.1}
{'loss': 2.5687, 'learning_rate': 1.1070780399274048e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.983106851577759, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 0.1}
{'loss': 2.0117, 'learning_rate': 1.1252268602540837e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.9701898097991943, 'eval_runtime': 0.9719, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 0.1}
{'loss': 2.2778, 'learning_rate': 1.1433756805807623e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.95357608795166, 'eval_runtime': 1.0864, 'eval_samples_per_second': 4.602, 'eval_steps_per_second': 0.92, 'epoch': 0.1}
{'loss': 2.4734, 'learning_rate': 1.1615245009074411e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.9409329891204834, 'eval_runtime': 1.0674, 'eval_samples_per_second': 4.684, 'eval_steps_per_second': 0.937, 'epoch': 0.1}
{'loss': 2.2453, 'learning_rate': 1.1796733212341197e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.9138665199279785, 'eval_runtime': 1.0705, 'eval_samples_per_second': 4.671, 'eval_steps_per_second': 0.934, 'epoch': 0.11}
{'loss': 2.6099, 'learning_rate': 1.1978221415607987e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.8761849403381348, 'eval_runtime': 1.0777, 'eval_samples_per_second': 4.64, 'eval_steps_per_second': 0.928, 'epoch': 0.11}
{'loss': 2.5448, 'learning_rate': 1.2159709618874773e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.8167455196380615, 'eval_runtime': 1.0876, 'eval_samples_per_second': 4.597, 'eval_steps_per_second': 0.919, 'epoch': 0.11}
{'loss': 2.5529, 'learning_rate': 1.2341197822141563e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.743103504180908, 'eval_runtime': 1.06, 'eval_samples_per_second': 4.717, 'eval_steps_per_second': 0.943, 'epoch': 0.11}
{'loss': 2.1, 'learning_rate': 1.252268602540835e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.7343194484710693, 'eval_runtime': 1.0944, 'eval_samples_per_second': 4.569, 'eval_steps_per_second': 0.914, 'epoch': 0.11}
{'loss': 2.1948, 'learning_rate': 1.2704174228675136e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.713064193725586, 'eval_runtime': 0.9879, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 0.11}
{'loss': 2.0884, 'learning_rate': 1.2885662431941926e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.684025287628174, 'eval_runtime': 0.9624, 'eval_samples_per_second': 5.195, 'eval_steps_per_second': 1.039, 'epoch': 0.12}
{'loss': 2.0291, 'learning_rate': 1.3067150635208712e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.655971050262451, 'eval_runtime': 1.0937, 'eval_samples_per_second': 4.572, 'eval_steps_per_second': 0.914, 'epoch': 0.12}
{'loss': 2.1854, 'learning_rate': 1.32486388384755e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.6293954849243164, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 0.12}
{'loss': 1.9477, 'learning_rate': 1.3430127041742288e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.606942653656006, 'eval_runtime': 1.1021, 'eval_samples_per_second': 4.537, 'eval_steps_per_second': 0.907, 'epoch': 0.12}
{'loss': 2.3201, 'learning_rate': 1.3611615245009076e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5869767665863037, 'eval_runtime': 1.0265, 'eval_samples_per_second': 4.871, 'eval_steps_per_second': 0.974, 'epoch': 0.12}
{'loss': 1.9195, 'learning_rate': 1.3793103448275863e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.567674160003662, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.073, 'eval_steps_per_second': 1.015, 'epoch': 0.12}
{'loss': 2.2456, 'learning_rate': 1.3974591651542651e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5464928150177, 'eval_runtime': 0.9879, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 0.13}
{'loss': 2.0454, 'learning_rate': 1.4156079854809439e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5302884578704834, 'eval_runtime': 1.0631, 'eval_samples_per_second': 4.703, 'eval_steps_per_second': 0.941, 'epoch': 0.13}
{'loss': 2.1037, 'learning_rate': 1.4337568058076225e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5114619731903076, 'eval_runtime': 1.0366, 'eval_samples_per_second': 4.824, 'eval_steps_per_second': 0.965, 'epoch': 0.13}
{'loss': 2.0778, 'learning_rate': 1.4519056261343015e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4991681575775146, 'eval_runtime': 0.9962, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 0.13}
{'loss': 2.1679, 'learning_rate': 1.47005444646098e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4839072227478027, 'eval_runtime': 1.0015, 'eval_samples_per_second': 4.992, 'eval_steps_per_second': 0.998, 'epoch': 0.13}
{'loss': 1.999, 'learning_rate': 1.4882032667876588e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.474463701248169, 'eval_runtime': 1.0316, 'eval_samples_per_second': 4.847, 'eval_steps_per_second': 0.969, 'epoch': 0.13}
{'loss': 1.9163, 'learning_rate': 1.5063520871143378e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4733948707580566, 'eval_runtime': 1.0786, 'eval_samples_per_second': 4.636, 'eval_steps_per_second': 0.927, 'epoch': 0.14}
{'loss': 2.0871, 'learning_rate': 1.5245009074410164e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4804794788360596, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 0.14}
{'loss': 2.0486, 'learning_rate': 1.5426497277676954e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.482795000076294, 'eval_runtime': 0.9994, 'eval_samples_per_second': 5.003, 'eval_steps_per_second': 1.001, 'epoch': 0.14}
{'loss': 1.3597, 'learning_rate': 1.5607985480943738e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4787256717681885, 'eval_runtime': 1.0799, 'eval_samples_per_second': 4.63, 'eval_steps_per_second': 0.926, 'epoch': 0.14}
{'loss': 2.2552, 'learning_rate': 1.578947368421053e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.384363889694214, 'eval_runtime': 1.0944, 'eval_samples_per_second': 4.569, 'eval_steps_per_second': 0.914, 'epoch': 0.14}
{'loss': 1.7362, 'learning_rate': 1.5970961887477314e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.340986967086792, 'eval_runtime': 1.0624, 'eval_samples_per_second': 4.706, 'eval_steps_per_second': 0.941, 'epoch': 0.14}
{'loss': 1.7542, 'learning_rate': 1.61524500907441e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.3095922470092773, 'eval_runtime': 1.0669, 'eval_samples_per_second': 4.687, 'eval_steps_per_second': 0.937, 'epoch': 0.15}
{'loss': 2.2648, 'learning_rate': 1.6333938294010893e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.296783685684204, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 0.15}
{'loss': 1.9688, 'learning_rate': 1.6515426497277677e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2965753078460693, 'eval_runtime': 0.9865, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 0.15}
{'loss': 1.7086, 'learning_rate': 1.6696914700544465e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.307577610015869, 'eval_runtime': 0.9944, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 0.15}
{'loss': 1.4761, 'learning_rate': 1.6878402903811253e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.307668447494507, 'eval_runtime': 1.0858, 'eval_samples_per_second': 4.605, 'eval_steps_per_second': 0.921, 'epoch': 0.15}
{'loss': 1.688, 'learning_rate': 1.705989110707804e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2956361770629883, 'eval_runtime': 1.0086, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 0.15}
{'loss': 1.8913, 'learning_rate': 1.7241379310344828e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2782833576202393, 'eval_runtime': 1.0032, 'eval_samples_per_second': 4.984, 'eval_steps_per_second': 0.997, 'epoch': 0.16}
{'loss': 1.6825, 'learning_rate': 1.7422867513611616e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2611312866210938, 'eval_runtime': 1.0217, 'eval_samples_per_second': 4.894, 'eval_steps_per_second': 0.979, 'epoch': 0.16}
{'loss': 1.6774, 'learning_rate': 1.7604355716878404e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.248504400253296, 'eval_runtime': 1.0661, 'eval_samples_per_second': 4.69, 'eval_steps_per_second': 0.938, 'epoch': 0.16}
{'loss': 2.0552, 'learning_rate': 1.7785843920145192e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.242093086242676, 'eval_runtime': 1.087, 'eval_samples_per_second': 4.6, 'eval_steps_per_second': 0.92, 'epoch': 0.16}
{'loss': 1.9882, 'learning_rate': 1.796733212341198e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2421371936798096, 'eval_runtime': 1.0714, 'eval_samples_per_second': 4.667, 'eval_steps_per_second': 0.933, 'epoch': 0.16}
{'loss': 1.8359, 'learning_rate': 1.8148820326678767e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2459909915924072, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 0.16}
{'loss': 1.456, 'learning_rate': 1.8330308529945555e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2521612644195557, 'eval_runtime': 1.0614, 'eval_samples_per_second': 4.711, 'eval_steps_per_second': 0.942, 'epoch': 0.17}
{'loss': 1.7591, 'learning_rate': 1.8511796733212343e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.261993646621704, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 0.17}
{'loss': 1.6623, 'learning_rate': 1.869328493647913e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.263744831085205, 'eval_runtime': 1.0789, 'eval_samples_per_second': 4.634, 'eval_steps_per_second': 0.927, 'epoch': 0.17}
{'loss': 1.7274, 'learning_rate': 1.887477313974592e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.261033773422241, 'eval_runtime': 1.0761, 'eval_samples_per_second': 4.646, 'eval_steps_per_second': 0.929, 'epoch': 0.17}
{'loss': 1.8468, 'learning_rate': 1.9056261343012706e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2623860836029053, 'eval_runtime': 1.075, 'eval_samples_per_second': 4.651, 'eval_steps_per_second': 0.93, 'epoch': 0.17}
{'loss': 1.3019, 'learning_rate': 1.9237749546279494e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2614526748657227, 'eval_runtime': 1.066, 'eval_samples_per_second': 4.69, 'eval_steps_per_second': 0.938, 'epoch': 0.17}
{'loss': 1.5526, 'learning_rate': 1.941923774954628e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2657949924468994, 'eval_runtime': 1.1023, 'eval_samples_per_second': 4.536, 'eval_steps_per_second': 0.907, 'epoch': 0.18}
{'loss': 1.474, 'learning_rate': 1.960072595281307e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2651445865631104, 'eval_runtime': 1.0092, 'eval_samples_per_second': 4.955, 'eval_steps_per_second': 0.991, 'epoch': 0.18}
{'loss': 1.6729, 'learning_rate': 1.9782214156079858e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2661595344543457, 'eval_runtime': 1.0335, 'eval_samples_per_second': 4.838, 'eval_steps_per_second': 0.968, 'epoch': 0.18}
{'loss': 1.4953, 'learning_rate': 1.9963702359346645e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.295743465423584, 'eval_runtime': 1.0443, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 0.18}
{'loss': 1.7964, 'learning_rate': 1.9999997505468487e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.3187646865844727, 'eval_runtime': 1.0829, 'eval_samples_per_second': 4.617, 'eval_steps_per_second': 0.923, 'epoch': 0.18}
{'loss': 1.9333, 'learning_rate': 1.999998737143634e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2878737449645996, 'eval_runtime': 1.0852, 'eval_samples_per_second': 4.607, 'eval_steps_per_second': 0.921, 'epoch': 0.18}
{'loss': 1.8745, 'learning_rate': 1.999996944200324e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.275865077972412, 'eval_runtime': 1.0917, 'eval_samples_per_second': 4.58, 'eval_steps_per_second': 0.916, 'epoch': 0.18}
{'loss': 1.4589, 'learning_rate': 1.9999943717183158e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.254814624786377, 'eval_runtime': 1.0803, 'eval_samples_per_second': 4.628, 'eval_steps_per_second': 0.926, 'epoch': 0.19}
{'loss': 1.5176, 'learning_rate': 1.9999910196996152e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.237517833709717, 'eval_runtime': 1.1043, 'eval_samples_per_second': 4.528, 'eval_steps_per_second': 0.906, 'epoch': 0.19}
{'loss': 1.5337, 'learning_rate': 1.9999868881468347e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.201051950454712, 'eval_runtime': 1.0093, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 0.19}
{'loss': 1.6398, 'learning_rate': 1.9999819770631954e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.162522554397583, 'eval_runtime': 1.0879, 'eval_samples_per_second': 4.596, 'eval_steps_per_second': 0.919, 'epoch': 0.19}
{'loss': 1.5459, 'learning_rate': 1.999976286452526e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1398208141326904, 'eval_runtime': 1.0041, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 0.19}
{'loss': 1.3627, 'learning_rate': 1.999969816319262e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1297826766967773, 'eval_runtime': 0.9964, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 0.19}
{'loss': 1.3964, 'learning_rate': 1.999962566668447e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1293418407440186, 'eval_runtime': 1.0761, 'eval_samples_per_second': 4.646, 'eval_steps_per_second': 0.929, 'epoch': 0.2}
{'loss': 1.7671, 'learning_rate': 1.9999545375057326e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.145514488220215, 'eval_runtime': 1.0253, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 0.2}
{'loss': 1.4759, 'learning_rate': 1.9999457288373786e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1650068759918213, 'eval_runtime': 1.0181, 'eval_samples_per_second': 4.911, 'eval_steps_per_second': 0.982, 'epoch': 0.2}
{'loss': 1.3477, 'learning_rate': 1.9999361406702507e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1833276748657227, 'eval_runtime': 1.0331, 'eval_samples_per_second': 4.84, 'eval_steps_per_second': 0.968, 'epoch': 0.2}
{'loss': 1.5679, 'learning_rate': 1.999925773011824e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1877377033233643, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 0.2}
{'loss': 1.802, 'learning_rate': 1.9999146258701798e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1731462478637695, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 0.2}
{'loss': 1.4705, 'learning_rate': 1.9999026992540083e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.165058135986328, 'eval_runtime': 0.9838, 'eval_samples_per_second': 5.082, 'eval_steps_per_second': 1.016, 'epoch': 0.21}
{'loss': 1.7818, 'learning_rate': 1.9998899931726067e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1552791595458984, 'eval_runtime': 0.9815, 'eval_samples_per_second': 5.094, 'eval_steps_per_second': 1.019, 'epoch': 0.21}
{'loss': 1.5959, 'learning_rate': 1.9998765076358797e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1425883769989014, 'eval_runtime': 0.9695, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 0.21}
{'loss': 1.7782, 'learning_rate': 1.9998622426543402e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1350767612457275, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 0.21}
{'loss': 1.5743, 'learning_rate': 1.9998471982391078e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.125653028488159, 'eval_runtime': 1.0225, 'eval_samples_per_second': 4.89, 'eval_steps_per_second': 0.978, 'epoch': 0.21}
{'loss': 1.6435, 'learning_rate': 1.9998313744019108e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1098382472991943, 'eval_runtime': 0.9597, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 0.21}
{'loss': 1.9023, 'learning_rate': 1.9998147711550843e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0964815616607666, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.22}
{'loss': 1.6099, 'learning_rate': 1.999797388511571e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0897715091705322, 'eval_runtime': 0.9527, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 0.22}
{'loss': 1.5856, 'learning_rate': 1.999779226484922e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.089482545852661, 'eval_runtime': 0.9897, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 0.22}
{'loss': 1.5202, 'learning_rate': 1.9997602850892946e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.093764305114746, 'eval_runtime': 0.9661, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 0.22}
{'loss': 1.5434, 'learning_rate': 1.9997405643394548e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0794641971588135, 'eval_runtime': 0.9442, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 0.22}
{'loss': 1.3054, 'learning_rate': 1.9997200642507754e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0820488929748535, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 0.22}
{'loss': 1.4266, 'learning_rate': 1.9996987848392377e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.09255313873291, 'eval_runtime': 1.0497, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 0.23}
{'loss': 1.7304, 'learning_rate': 1.9996767261214293e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.107029438018799, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 0.23}
{'loss': 1.5534, 'learning_rate': 1.9996538881145462e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.118649959564209, 'eval_runtime': 0.9878, 'eval_samples_per_second': 5.062, 'eval_steps_per_second': 1.012, 'epoch': 0.23}
{'loss': 1.6726, 'learning_rate': 1.9996302708363912e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.113886594772339, 'eval_runtime': 1.0144, 'eval_samples_per_second': 4.929, 'eval_steps_per_second': 0.986, 'epoch': 0.23}
{'loss': 1.7555, 'learning_rate': 1.9996058743053756e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1097846031188965, 'eval_runtime': 0.9399, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 0.23}
{'loss': 1.4893, 'learning_rate': 1.9995806985405167e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1115829944610596, 'eval_runtime': 0.9846, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 0.23}
{'loss': 1.2613, 'learning_rate': 1.9995547435614405e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1080427169799805, 'eval_runtime': 0.9849, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 0.24}
{'loss': 1.5579, 'learning_rate': 1.9995280093883797e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1095187664031982, 'eval_runtime': 0.9891, 'eval_samples_per_second': 5.055, 'eval_steps_per_second': 1.011, 'epoch': 0.24}
{'loss': 1.2083, 'learning_rate': 1.9995004960421753e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.118663787841797, 'eval_runtime': 1.001, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 0.24}
{'loss': 1.6501, 'learning_rate': 1.9994722035442746e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1388940811157227, 'eval_runtime': 1.0553, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 0.24}
{'loss': 1.5177, 'learning_rate': 1.9994431319167325e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1493656635284424, 'eval_runtime': 0.9813, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 0.24}
{'loss': 1.7145, 'learning_rate': 1.999413281182212e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1469805240631104, 'eval_runtime': 0.9841, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 0.24}
{'loss': 1.3706, 'learning_rate': 1.9993826513639826e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1436197757720947, 'eval_runtime': 0.9985, 'eval_samples_per_second': 5.008, 'eval_steps_per_second': 1.002, 'epoch': 0.25}
{'loss': 1.2707, 'learning_rate': 1.999351242485922e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.144223928451538, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 0.25}
{'loss': 1.5963, 'learning_rate': 1.9993190545725147e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.141566038131714, 'eval_runtime': 0.9674, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 0.25}
{'loss': 1.7676, 'learning_rate': 1.9992860876488515e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.137392282485962, 'eval_runtime': 1.0312, 'eval_samples_per_second': 4.849, 'eval_steps_per_second': 0.97, 'epoch': 0.25}
{'loss': 1.2294, 'learning_rate': 1.999252341740633e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.135438919067383, 'eval_runtime': 1.0591, 'eval_samples_per_second': 4.721, 'eval_steps_per_second': 0.944, 'epoch': 0.25}
{'loss': 1.7287, 'learning_rate': 1.9992178168741643e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1334986686706543, 'eval_runtime': 0.9952, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 0.25}
{'loss': 1.5126, 'learning_rate': 1.9991825130763593e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1292898654937744, 'eval_runtime': 0.9795, 'eval_samples_per_second': 5.104, 'eval_steps_per_second': 1.021, 'epoch': 0.26}
{'loss': 1.3005, 'learning_rate': 1.9991464303747392e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1303887367248535, 'eval_runtime': 1.0479, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 0.26}
{'loss': 1.3463, 'learning_rate': 1.9991095687974314e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.137866497039795, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 0.26}
{'loss': 1.584, 'learning_rate': 1.999071928373171e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.146284580230713, 'eval_runtime': 1.0465, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 0.26}
{'loss': 1.7075, 'learning_rate': 1.9990335091313008e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1505706310272217, 'eval_runtime': 1.0216, 'eval_samples_per_second': 4.894, 'eval_steps_per_second': 0.979, 'epoch': 0.26}
{'loss': 1.3208, 'learning_rate': 1.9989943111017695e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.157907247543335, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 0.26}
{'loss': 1.4666, 'learning_rate': 1.9989543343151343e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1566665172576904, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 0.26}
{'loss': 1.9214, 'learning_rate': 1.998913578802558e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.145319938659668, 'eval_runtime': 0.9599, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 0.27}
{'loss': 1.4162, 'learning_rate': 1.9988720445958115e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1377556324005127, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 0.27}
{'loss': 1.4787, 'learning_rate': 1.998829731727273e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1295742988586426, 'eval_runtime': 0.9633, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 0.27}
{'loss': 1.466, 'learning_rate': 1.9987866402299263e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.119953155517578, 'eval_runtime': 0.9399, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 0.27}
{'loss': 1.3372, 'learning_rate': 1.9987427701373633e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1346542835235596, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 0.27}
{'loss': 1.6537, 'learning_rate': 1.9986981214837823e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1493897438049316, 'eval_runtime': 1.0083, 'eval_samples_per_second': 4.959, 'eval_steps_per_second': 0.992, 'epoch': 0.27}
{'loss': 1.5505, 'learning_rate': 1.9986526943039894e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.161280870437622, 'eval_runtime': 0.9793, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 0.28}
{'loss': 1.3701, 'learning_rate': 1.998606488633396e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.166625738143921, 'eval_runtime': 0.992, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 0.28}
{'loss': 1.4417, 'learning_rate': 1.9985595045080225e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.171243906021118, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 0.28}
{'loss': 1.4789, 'learning_rate': 1.9985117419644943e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1782732009887695, 'eval_runtime': 0.997, 'eval_samples_per_second': 5.015, 'eval_steps_per_second': 1.003, 'epoch': 0.28}
{'loss': 1.6587, 'learning_rate': 1.998463201040044e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1747653484344482, 'eval_runtime': 1.0579, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 0.28}
{'loss': 1.5111, 'learning_rate': 1.9984138817725114e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.182447671890259, 'eval_runtime': 0.9874, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 0.28}
{'loss': 1.6445, 'learning_rate': 1.998363784200343e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1850833892822266, 'eval_runtime': 0.9947, 'eval_samples_per_second': 5.027, 'eval_steps_per_second': 1.005, 'epoch': 0.29}
{'loss': 1.2221, 'learning_rate': 1.998312908362592e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1771552562713623, 'eval_runtime': 1.047, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 0.29}
{'loss': 1.5738, 'learning_rate': 1.9982612542989184e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.174423933029175, 'eval_runtime': 1.0571, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 0.29}
{'loss': 1.3389, 'learning_rate': 1.998208822049588e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.174337148666382, 'eval_runtime': 1.0275, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 0.29}
{'loss': 1.4473, 'learning_rate': 1.9981556116554747e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.17804217338562, 'eval_runtime': 1.0155, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 0.29}
{'loss': 1.4489, 'learning_rate': 1.9981016231580574e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1685287952423096, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 0.29}
{'loss': 1.4895, 'learning_rate': 1.998046856599423e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.156219720840454, 'eval_runtime': 1.0144, 'eval_samples_per_second': 4.929, 'eval_steps_per_second': 0.986, 'epoch': 0.3}
{'loss': 1.5895, 'learning_rate': 1.997991312022264e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.149667263031006, 'eval_runtime': 1.0446, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 0.3}
{'loss': 1.2329, 'learning_rate': 1.99793498946988e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1458258628845215, 'eval_runtime': 0.9794, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 0.3}
{'loss': 1.3246, 'learning_rate': 1.9978778889861758e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.136528968811035, 'eval_runtime': 1.0007, 'eval_samples_per_second': 4.996, 'eval_steps_per_second': 0.999, 'epoch': 0.3}
{'loss': 1.6542, 'learning_rate': 1.9978200106156645e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.123823404312134, 'eval_runtime': 0.9532, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 0.3}
{'loss': 1.4063, 'learning_rate': 1.9977613544034644e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1277055740356445, 'eval_runtime': 0.9979, 'eval_samples_per_second': 5.01, 'eval_steps_per_second': 1.002, 'epoch': 0.3}
{'loss': 1.357, 'learning_rate': 1.9977019203953e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1314773559570312, 'eval_runtime': 0.9765, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 0.31}
{'loss': 1.3137, 'learning_rate': 1.9976417086375037e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.134934902191162, 'eval_runtime': 1.0045, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 0.31}
{'loss': 1.3311, 'learning_rate': 1.997580719177012e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1360530853271484, 'eval_runtime': 0.9685, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.31}
{'loss': 1.4903, 'learning_rate': 1.9975189520613688e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.138366937637329, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 0.31}
{'loss': 1.5534, 'learning_rate': 1.9974564073387248e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1383578777313232, 'eval_runtime': 1.0179, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 0.31}
{'loss': 1.3812, 'learning_rate': 1.9973930850578353e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.140092611312866, 'eval_runtime': 1.0444, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 0.31}
{'loss': 1.223, 'learning_rate': 1.9973289852680628e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.148435115814209, 'eval_runtime': 0.9604, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 0.32}
{'loss': 1.5425, 'learning_rate': 1.997264108019376e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.154871702194214, 'eval_runtime': 1.0101, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 0.32}
{'loss': 1.5739, 'learning_rate': 1.9971984533623497e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1697583198547363, 'eval_runtime': 0.9823, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 0.32}
{'loss': 1.5855, 'learning_rate': 1.9971320213481638e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.171149492263794, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 0.32}
{'loss': 1.9537, 'learning_rate': 1.997064812028605e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1558873653411865, 'eval_runtime': 1.044, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 0.32}
{'loss': 1.2335, 'learning_rate': 1.9969968254560654e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.126197099685669, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 0.32}
{'loss': 1.587, 'learning_rate': 1.9969280616835437e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.109623670578003, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 0.33}
{'loss': 1.3797, 'learning_rate': 1.9968585207646444e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1035289764404297, 'eval_runtime': 0.9773, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 0.33}
{'loss': 1.4529, 'learning_rate': 1.9967882027535767e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.101515054702759, 'eval_runtime': 0.9603, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 0.33}
{'loss': 1.5194, 'learning_rate': 1.996717107705157e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0998775959014893, 'eval_runtime': 0.9658, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 0.33}
{'loss': 1.3173, 'learning_rate': 1.9966452356748066e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0979268550872803, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 0.33}
{'loss': 1.1204, 'learning_rate': 1.9965725867185527e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.099238157272339, 'eval_runtime': 0.9685, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.33}
{'loss': 1.3087, 'learning_rate': 1.9964991608930283e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.113060235977173, 'eval_runtime': 1.0175, 'eval_samples_per_second': 4.914, 'eval_steps_per_second': 0.983, 'epoch': 0.34}
{'loss': 1.5296, 'learning_rate': 1.9964249582554714e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.127636194229126, 'eval_runtime': 1.0044, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 0.34}
{'loss': 1.5745, 'learning_rate': 1.9963499788637266e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.133723020553589, 'eval_runtime': 1.0341, 'eval_samples_per_second': 4.835, 'eval_steps_per_second': 0.967, 'epoch': 0.34}
{'loss': 1.2543, 'learning_rate': 1.996274222776243e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1325111389160156, 'eval_runtime': 1.0458, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 0.34}
{'loss': 1.6846, 'learning_rate': 1.9961976900520758e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.130302906036377, 'eval_runtime': 0.9373, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 0.34}
{'loss': 1.5636, 'learning_rate': 1.9961203807508848e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1196534633636475, 'eval_runtime': 0.9694, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 0.34}
{'loss': 1.554, 'learning_rate': 1.9960422949329367e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.119800329208374, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 0.35}
{'loss': 1.9083, 'learning_rate': 1.9959634326591023e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1107027530670166, 'eval_runtime': 1.0088, 'eval_samples_per_second': 4.956, 'eval_steps_per_second': 0.991, 'epoch': 0.35}
{'loss': 1.6407, 'learning_rate': 1.995883793990858e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.073651075363159, 'eval_runtime': 1.0094, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 0.35}
{'loss': 1.921, 'learning_rate': 1.9958033789902846e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0392730236053467, 'eval_runtime': 1.0149, 'eval_samples_per_second': 4.927, 'eval_steps_per_second': 0.985, 'epoch': 0.35}
{'loss': 1.6387, 'learning_rate': 1.99572218772007e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.010812520980835, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 0.35}
{'loss': 1.2732, 'learning_rate': 1.9956402202435057e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9898914098739624, 'eval_runtime': 0.967, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 0.35}
{'loss': 1.5059, 'learning_rate': 1.9955574766244888e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9910528659820557, 'eval_runtime': 0.999, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 0.35}
{'loss': 1.3235, 'learning_rate': 1.995473956927521e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.001336097717285, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 0.36}
{'loss': 1.4529, 'learning_rate': 1.99538966121771e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0151681900024414, 'eval_runtime': 0.9555, 'eval_samples_per_second': 5.233, 'eval_steps_per_second': 1.047, 'epoch': 0.36}
{'loss': 1.1625, 'learning_rate': 1.995304589560767e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.015808343887329, 'eval_runtime': 1.0392, 'eval_samples_per_second': 4.812, 'eval_steps_per_second': 0.962, 'epoch': 0.36}
{'loss': 1.6031, 'learning_rate': 1.9952187420230097e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.012629985809326, 'eval_runtime': 1.0267, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 0.36}
{'loss': 1.3852, 'learning_rate': 1.995132118671359e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.005134344100952, 'eval_runtime': 1.0433, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 0.36}
{'loss': 1.2647, 'learning_rate': 1.9950447195733417e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0023674964904785, 'eval_runtime': 1.0455, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 0.36}
{'loss': 1.2637, 'learning_rate': 1.9949565447970888e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.003765106201172, 'eval_runtime': 1.0553, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 0.37}
{'loss': 1.204, 'learning_rate': 1.9948675944113364e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.000373601913452, 'eval_runtime': 0.9668, 'eval_samples_per_second': 5.172, 'eval_steps_per_second': 1.034, 'epoch': 0.37}
{'loss': 1.3243, 'learning_rate': 1.994777868485425e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.007550001144409, 'eval_runtime': 0.9397, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 0.37}
{'loss': 1.6479, 'learning_rate': 1.9946873670892995e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0125393867492676, 'eval_runtime': 0.9746, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 0.37}
{'loss': 1.097, 'learning_rate': 1.9945960902935095e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.019319772720337, 'eval_runtime': 1.0387, 'eval_samples_per_second': 4.814, 'eval_steps_per_second': 0.963, 'epoch': 0.37}
{'loss': 1.3385, 'learning_rate': 1.994504038169209e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0234670639038086, 'eval_runtime': 0.9588, 'eval_samples_per_second': 5.215, 'eval_steps_per_second': 1.043, 'epoch': 0.37}
{'loss': 1.3639, 'learning_rate': 1.9944112107881566e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0258660316467285, 'eval_runtime': 0.9695, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 0.38}
{'loss': 1.1926, 'learning_rate': 1.9943176082227146e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.024965524673462, 'eval_runtime': 1.03, 'eval_samples_per_second': 4.854, 'eval_steps_per_second': 0.971, 'epoch': 0.38}
{'loss': 1.5067, 'learning_rate': 1.9942232305458503e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0260045528411865, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 0.38}
{'loss': 1.4556, 'learning_rate': 1.9941280778311355e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.021393299102783, 'eval_runtime': 0.9777, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 0.38}
{'loss': 1.5899, 'learning_rate': 1.9940321501527446e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0115342140197754, 'eval_runtime': 1.0284, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 0.38}
{'loss': 1.632, 'learning_rate': 1.993935447585458e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0017738342285156, 'eval_runtime': 0.9444, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 0.38}
{'loss': 1.3316, 'learning_rate': 1.993837970204659e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.002422332763672, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 0.39}
{'loss': 1.5017, 'learning_rate': 1.9937397180863352e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.01145076751709, 'eval_runtime': 0.9729, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 0.39}
{'loss': 1.3036, 'learning_rate': 1.9936406913070784e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.017209768295288, 'eval_runtime': 1.037, 'eval_samples_per_second': 4.821, 'eval_steps_per_second': 0.964, 'epoch': 0.39}
{'loss': 1.5352, 'learning_rate': 1.9935408899440838e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.025780439376831, 'eval_runtime': 1.0389, 'eval_samples_per_second': 4.813, 'eval_steps_per_second': 0.963, 'epoch': 0.39}
{'loss': 1.284, 'learning_rate': 1.9934403140751507e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.035795211791992, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.073, 'eval_steps_per_second': 1.015, 'epoch': 0.39}
{'loss': 1.5476, 'learning_rate': 1.9933389637786818e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0446317195892334, 'eval_runtime': 0.9811, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 0.39}
{'loss': 1.8109, 'learning_rate': 1.9932368391336847e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.045320510864258, 'eval_runtime': 1.0116, 'eval_samples_per_second': 4.943, 'eval_steps_per_second': 0.989, 'epoch': 0.4}
{'loss': 1.3646, 'learning_rate': 1.993133940219769e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0474064350128174, 'eval_runtime': 0.9623, 'eval_samples_per_second': 5.196, 'eval_steps_per_second': 1.039, 'epoch': 0.4}
{'loss': 1.5536, 'learning_rate': 1.993030267117149e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.031247854232788, 'eval_runtime': 0.9694, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 0.4}
{'loss': 1.4281, 'learning_rate': 1.9929258199066418e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0245323181152344, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 0.4}
{'loss': 1.2248, 'learning_rate': 1.9928205986696687e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.020880937576294, 'eval_runtime': 1.0295, 'eval_samples_per_second': 4.857, 'eval_steps_per_second': 0.971, 'epoch': 0.4}
{'loss': 1.6313, 'learning_rate': 1.9927146034882535e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9928910732269287, 'eval_runtime': 0.9757, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 0.4}
{'loss': 1.3393, 'learning_rate': 1.9926078344450243e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.977636694908142, 'eval_runtime': 0.9812, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 0.41}
{'loss': 1.4116, 'learning_rate': 1.9925002916232116e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9775762557983398, 'eval_runtime': 1.0181, 'eval_samples_per_second': 4.911, 'eval_steps_per_second': 0.982, 'epoch': 0.41}
{'loss': 1.5172, 'learning_rate': 1.99239197510665e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9752689599990845, 'eval_runtime': 0.9842, 'eval_samples_per_second': 5.08, 'eval_steps_per_second': 1.016, 'epoch': 0.41}
{'loss': 1.4035, 'learning_rate': 1.9922828849797756e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9699695110321045, 'eval_runtime': 0.9701, 'eval_samples_per_second': 5.154, 'eval_steps_per_second': 1.031, 'epoch': 0.41}
{'loss': 1.5703, 'learning_rate': 1.9921730213276294e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.956319808959961, 'eval_runtime': 1.0191, 'eval_samples_per_second': 4.906, 'eval_steps_per_second': 0.981, 'epoch': 0.41}
{'loss': 1.2441, 'learning_rate': 1.9920623842358545e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9473888874053955, 'eval_runtime': 0.9498, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 0.41}
{'loss': 1.4631, 'learning_rate': 1.9919509737906975e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9283260107040405, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 0.42}
{'loss': 1.1431, 'learning_rate': 1.991838790079007e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9322102069854736, 'eval_runtime': 0.9392, 'eval_samples_per_second': 5.324, 'eval_steps_per_second': 1.065, 'epoch': 0.42}
{'loss': 1.2743, 'learning_rate': 1.9917258331882344e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9417517185211182, 'eval_runtime': 1.0021, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 0.42}
{'loss': 1.5935, 'learning_rate': 1.9916121032064346e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9529361724853516, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 0.42}
{'loss': 1.2823, 'learning_rate': 1.991497600222265e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9601513147354126, 'eval_runtime': 0.9753, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 0.42}
{'loss': 1.8436, 'learning_rate': 1.9913823243249853e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.952440619468689, 'eval_runtime': 1.0054, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 0.42}
{'loss': 1.394, 'learning_rate': 1.9912662756044576e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.945392370223999, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 0.43}
{'loss': 1.2436, 'learning_rate': 1.9911494541511468e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.945406198501587, 'eval_runtime': 0.9474, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 0.43}
{'loss': 1.4662, 'learning_rate': 1.9910318600561197e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9514782428741455, 'eval_runtime': 0.9991, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 0.43}
{'loss': 1.2318, 'learning_rate': 1.9909134934110464e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9541374444961548, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 0.43}
{'loss': 1.6271, 'learning_rate': 1.990794354308198e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9564145803451538, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 0.43}
{'loss': 1.6004, 'learning_rate': 1.9906744428404485e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9614959955215454, 'eval_runtime': 1.0307, 'eval_samples_per_second': 4.851, 'eval_steps_per_second': 0.97, 'epoch': 0.43}
{'loss': 1.4861, 'learning_rate': 1.990553759101274e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.963620901107788, 'eval_runtime': 0.9711, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 0.44}
{'loss': 1.4613, 'learning_rate': 1.990432303184752e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9693899154663086, 'eval_runtime': 0.9745, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 0.44}
{'loss': 1.1152, 'learning_rate': 1.9903100751855625e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9746272563934326, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 0.44}
{'loss': 1.6695, 'learning_rate': 1.9901870751989875e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9804818630218506, 'eval_runtime': 0.9633, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 0.44}
{'loss': 1.2729, 'learning_rate': 1.9900633033209103e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9872543811798096, 'eval_runtime': 0.972, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 0.44}
{'loss': 1.4894, 'learning_rate': 1.9899387596478164e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9920905828475952, 'eval_runtime': 1.0358, 'eval_samples_per_second': 4.827, 'eval_steps_per_second': 0.965, 'epoch': 0.44}
{'loss': 1.5421, 'learning_rate': 1.9898134442767928e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9898767471313477, 'eval_runtime': 0.9861, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 0.44}
{'loss': 1.5064, 'learning_rate': 1.989687357305527e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9793260097503662, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 0.45}
{'loss': 1.5835, 'learning_rate': 1.9895604988323102e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9723904132843018, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 0.45}
{'loss': 1.3376, 'learning_rate': 1.9894328689560337e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9668811559677124, 'eval_runtime': 0.9596, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 0.45}
{'loss': 1.3591, 'learning_rate': 1.989304467776189e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.960925817489624, 'eval_runtime': 1.0117, 'eval_samples_per_second': 4.942, 'eval_steps_per_second': 0.988, 'epoch': 0.45}
{'loss': 1.266, 'learning_rate': 1.989175295392872e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.959981918334961, 'eval_runtime': 0.9547, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 0.45}
{'loss': 1.1868, 'learning_rate': 1.989045351906776e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9657423496246338, 'eval_runtime': 0.943, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 0.45}
{'loss': 1.3555, 'learning_rate': 1.9889146374191985e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.971702218055725, 'eval_runtime': 1.036, 'eval_samples_per_second': 4.826, 'eval_steps_per_second': 0.965, 'epoch': 0.46}
{'loss': 1.5144, 'learning_rate': 1.9887831520320364e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9735262393951416, 'eval_runtime': 0.9991, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 0.46}
{'loss': 1.4454, 'learning_rate': 1.9886508958477877e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9733374118804932, 'eval_runtime': 0.9723, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 0.46}
{'loss': 1.2054, 'learning_rate': 1.988517868969552e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.967339277267456, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 0.46}
{'loss': 1.2496, 'learning_rate': 1.9883840715010293e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9602510929107666, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.46}
{'loss': 1.4591, 'learning_rate': 1.9882495035465196e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.962182641029358, 'eval_runtime': 0.9871, 'eval_samples_per_second': 5.066, 'eval_steps_per_second': 1.013, 'epoch': 0.46}
{'loss': 1.161, 'learning_rate': 1.9881141652109244e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9679958820343018, 'eval_runtime': 0.9909, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 0.47}
{'loss': 1.2581, 'learning_rate': 1.987978056599746e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9720613956451416, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 0.47}
{'loss': 1.5477, 'learning_rate': 1.987841177819086e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9746726751327515, 'eval_runtime': 0.9594, 'eval_samples_per_second': 5.212, 'eval_steps_per_second': 1.042, 'epoch': 0.47}
{'loss': 1.7125, 'learning_rate': 1.987703528975647e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9798171520233154, 'eval_runtime': 1.0352, 'eval_samples_per_second': 4.83, 'eval_steps_per_second': 0.966, 'epoch': 0.47}
{'loss': 1.317, 'learning_rate': 1.9875651101767325e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9885871410369873, 'eval_runtime': 0.9716, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 0.47}
{'loss': 1.2407, 'learning_rate': 1.9874259215302455e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.994145154953003, 'eval_runtime': 1.0314, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 0.47}
{'loss': 1.3655, 'learning_rate': 1.987285963144689e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.994499921798706, 'eval_runtime': 0.9876, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 0.48}
{'loss': 1.3142, 'learning_rate': 1.9871452351291665e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9931405782699585, 'eval_runtime': 0.9396, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 0.48}
{'loss': 1.3943, 'learning_rate': 1.9870037375933807e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.989427924156189, 'eval_runtime': 0.9626, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 0.48}
{'loss': 1.3004, 'learning_rate': 1.9868614706476357e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9877897500991821, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 0.48}
{'loss': 1.4848, 'learning_rate': 1.9867184344028342e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9826219081878662, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 0.48}
{'loss': 1.4923, 'learning_rate': 1.986574628970478e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9757707118988037, 'eval_runtime': 1.0362, 'eval_samples_per_second': 4.825, 'eval_steps_per_second': 0.965, 'epoch': 0.48}
{'loss': 1.3578, 'learning_rate': 1.9864300544626704e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9782921075820923, 'eval_runtime': 1.0471, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 0.49}
{'loss': 1.264, 'learning_rate': 1.9862847109921123e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.976771593093872, 'eval_runtime': 1.0036, 'eval_samples_per_second': 4.982, 'eval_steps_per_second': 0.996, 'epoch': 0.49}
{'loss': 1.2933, 'learning_rate': 1.986138598672106e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.971947431564331, 'eval_runtime': 0.9776, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 0.49}
{'loss': 1.2512, 'learning_rate': 1.9859917176165505e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9674184322357178, 'eval_runtime': 0.9818, 'eval_samples_per_second': 5.093, 'eval_steps_per_second': 1.019, 'epoch': 0.49}
{'loss': 1.6674, 'learning_rate': 1.9858440679399468e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.970381498336792, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 0.49}
{'loss': 1.4308, 'learning_rate': 1.985695649757394e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9745779037475586, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 0.49}
{'loss': 1.5632, 'learning_rate': 1.9855464631845892e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9689162969589233, 'eval_runtime': 1.0171, 'eval_samples_per_second': 4.916, 'eval_steps_per_second': 0.983, 'epoch': 0.5}
{'loss': 1.2281, 'learning_rate': 1.9853965083378302e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.964154839515686, 'eval_runtime': 1.0105, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 0.5}
{'loss': 1.0777, 'learning_rate': 1.9852457853340126e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9593979120254517, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 0.5}
{'loss': 1.3491, 'learning_rate': 1.9850942942906318e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9506728649139404, 'eval_runtime': 0.9657, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 0.5}
{'loss': 1.2524, 'learning_rate': 1.9849420353257806e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9501588344573975, 'eval_runtime': 1.0264, 'eval_samples_per_second': 4.871, 'eval_steps_per_second': 0.974, 'epoch': 0.5}
{'loss': 1.0258, 'learning_rate': 1.9847890085581508e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9488474130630493, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 0.5}
{'loss': 1.0002, 'learning_rate': 1.9846352141070345e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9498827457427979, 'eval_runtime': 0.9851, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 0.51}
{'loss': 1.3762, 'learning_rate': 1.9844806520923196e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.95012629032135, 'eval_runtime': 0.991, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 0.51}
{'loss': 1.2695, 'learning_rate': 1.9843253226344935e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9469850063323975, 'eval_runtime': 1.0192, 'eval_samples_per_second': 4.906, 'eval_steps_per_second': 0.981, 'epoch': 0.51}
{'loss': 1.0972, 'learning_rate': 1.9841692258546424e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9459991455078125, 'eval_runtime': 0.9802, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 0.51}
{'loss': 1.2824, 'learning_rate': 1.98401236187445e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9491651058197021, 'eval_runtime': 0.9898, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 0.51}
{'loss': 1.641, 'learning_rate': 1.9838547308161982e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9526746273040771, 'eval_runtime': 0.9559, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 0.51}
{'loss': 1.135, 'learning_rate': 1.983696332802767e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9606406688690186, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 0.52}
{'loss': 1.2993, 'learning_rate': 1.983537167957634e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9702686071395874, 'eval_runtime': 0.9774, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 0.52}
{'loss': 1.3053, 'learning_rate': 1.9833772364048743e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9737106561660767, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 0.52}
{'loss': 1.2496, 'learning_rate': 1.9832165382691624e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9720605611801147, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 0.52}
{'loss': 1.4418, 'learning_rate': 1.9830550736757676e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9694764614105225, 'eval_runtime': 0.9622, 'eval_samples_per_second': 5.196, 'eval_steps_per_second': 1.039, 'epoch': 0.52}
{'loss': 1.2348, 'learning_rate': 1.9828928427505595e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.969766616821289, 'eval_runtime': 0.9917, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 0.52}
{'loss': 1.1426, 'learning_rate': 1.9827298456200026e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9713857173919678, 'eval_runtime': 1.004, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 0.53}
{'loss': 1.6195, 'learning_rate': 1.9825660824111605e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.969926118850708, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 0.53}
{'loss': 1.2899, 'learning_rate': 1.9824015532516935e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9750959873199463, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 0.53}
{'loss': 1.3188, 'learning_rate': 1.9822362582698584e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9602466821670532, 'eval_runtime': 0.9736, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 0.53}
{'loss': 1.6, 'learning_rate': 1.9820701975945098e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9486846923828125, 'eval_runtime': 0.9608, 'eval_samples_per_second': 5.204, 'eval_steps_per_second': 1.041, 'epoch': 0.53}
{'loss': 1.4985, 'learning_rate': 1.9819033713550985e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9360425472259521, 'eval_runtime': 0.9571, 'eval_samples_per_second': 5.224, 'eval_steps_per_second': 1.045, 'epoch': 0.53}
{'loss': 1.5269, 'learning_rate': 1.9817357796816724e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9280811548233032, 'eval_runtime': 0.9511, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 0.53}
{'loss': 1.2195, 'learning_rate': 1.9815674227048767e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.925889015197754, 'eval_runtime': 0.9816, 'eval_samples_per_second': 5.094, 'eval_steps_per_second': 1.019, 'epoch': 0.54}
{'loss': 1.6601, 'learning_rate': 1.9813983005559515e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9196016788482666, 'eval_runtime': 0.9826, 'eval_samples_per_second': 5.088, 'eval_steps_per_second': 1.018, 'epoch': 0.54}
{'loss': 1.3662, 'learning_rate': 1.9812284133667355e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9162921905517578, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 0.54}
{'loss': 1.1607, 'learning_rate': 1.981057761269662e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9184563159942627, 'eval_runtime': 0.9442, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 0.54}
{'loss': 1.3484, 'learning_rate': 1.980886344397762e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9277737140655518, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 0.54}
{'loss': 1.3315, 'learning_rate': 1.9807141628846616e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9336719512939453, 'eval_runtime': 0.9876, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 0.54}
{'loss': 1.3733, 'learning_rate': 1.9805412168645833e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.941563367843628, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 0.55}
{'loss': 1.2721, 'learning_rate': 1.9803675064723458e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.943549394607544, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 0.55}
{'loss': 1.1058, 'learning_rate': 1.980193031843363e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9468653202056885, 'eval_runtime': 0.9613, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 0.55}
{'loss': 1.2348, 'learning_rate': 1.980017793113646e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9477641582489014, 'eval_runtime': 0.988, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 0.55}
{'loss': 1.23, 'learning_rate': 1.9798417904197998e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9416882991790771, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.55}
{'loss': 1.0822, 'learning_rate': 1.979665023899026e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9419019222259521, 'eval_runtime': 0.9982, 'eval_samples_per_second': 5.009, 'eval_steps_per_second': 1.002, 'epoch': 0.55}
{'loss': 1.6605, 'learning_rate': 1.979487493689121e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.930690050125122, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 0.56}
{'loss': 1.4843, 'learning_rate': 1.979309199928478e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9231231212615967, 'eval_runtime': 0.9497, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 0.56}
{'loss': 1.3497, 'learning_rate': 1.979130142756083e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9255907535552979, 'eval_runtime': 1.0406, 'eval_samples_per_second': 4.805, 'eval_steps_per_second': 0.961, 'epoch': 0.56}
{'loss': 1.4485, 'learning_rate': 1.9789503223115193e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.92705500125885, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 0.56}
{'loss': 1.2296, 'learning_rate': 1.9787697387349633e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9285482168197632, 'eval_runtime': 0.9716, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 0.56}
{'loss': 1.1573, 'learning_rate': 1.9785883921671884e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9384138584136963, 'eval_runtime': 1.0087, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 0.56}
{'loss': 1.0637, 'learning_rate': 1.9784062827495616e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9509445428848267, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 0.57}
{'loss': 1.4643, 'learning_rate': 1.978223410624044e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9600088596343994, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 0.57}
{'loss': 1.1991, 'learning_rate': 1.9780397759331925e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9631341695785522, 'eval_runtime': 1.0364, 'eval_samples_per_second': 4.824, 'eval_steps_per_second': 0.965, 'epoch': 0.57}
{'loss': 1.0963, 'learning_rate': 1.9778553788201575e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9667332172393799, 'eval_runtime': 0.991, 'eval_samples_per_second': 5.045, 'eval_steps_per_second': 1.009, 'epoch': 0.57}
{'loss': 1.4244, 'learning_rate': 1.9776702194286846e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9757153987884521, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 0.57}
{'loss': 1.4319, 'learning_rate': 1.9774842979031127e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9743783473968506, 'eval_runtime': 1.0167, 'eval_samples_per_second': 4.918, 'eval_steps_per_second': 0.984, 'epoch': 0.57}
{'loss': 1.5487, 'learning_rate': 1.9772976143883755e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9672969579696655, 'eval_runtime': 0.9736, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 0.58}
{'loss': 1.5064, 'learning_rate': 1.97711016903e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9613659381866455, 'eval_runtime': 0.9551, 'eval_samples_per_second': 5.235, 'eval_steps_per_second': 1.047, 'epoch': 0.58}
{'loss': 1.4717, 'learning_rate': 1.9769219619741084e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9410817623138428, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 0.58}
{'loss': 1.655, 'learning_rate': 1.9767329933674154e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9264713525772095, 'eval_runtime': 1.0087, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 0.58}
{'loss': 1.1721, 'learning_rate': 1.9765432633572296e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.922973871231079, 'eval_runtime': 0.9659, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 0.58}
{'loss': 1.2845, 'learning_rate': 1.9763527720914538e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9300119876861572, 'eval_runtime': 0.9744, 'eval_samples_per_second': 5.132, 'eval_steps_per_second': 1.026, 'epoch': 0.58}
{'loss': 1.2455, 'learning_rate': 1.9761615197185833e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.934173345565796, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 0.59}
{'loss': 1.4388, 'learning_rate': 1.975969506387707e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9337422847747803, 'eval_runtime': 1.0209, 'eval_samples_per_second': 4.898, 'eval_steps_per_second': 0.98, 'epoch': 0.59}
{'loss': 1.2857, 'learning_rate': 1.9757767322485083e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.927626609802246, 'eval_runtime': 0.9504, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 0.59}
{'loss': 1.7863, 'learning_rate': 1.975583197451261e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.92424738407135, 'eval_runtime': 0.9846, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 0.59}
{'loss': 1.1739, 'learning_rate': 1.975388902146835e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9205127954483032, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 0.59}
{'loss': 1.4614, 'learning_rate': 1.97519384648669e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9226834774017334, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 0.59}
{'loss': 1.2686, 'learning_rate': 1.974998030622881e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9190819263458252, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 0.6}
{'loss': 0.9265, 'learning_rate': 1.9748014547080542e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9107129573822021, 'eval_runtime': 0.9372, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 0.6}
{'loss': 1.4841, 'learning_rate': 1.9746041188954486e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9028650522232056, 'eval_runtime': 0.9931, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 0.6}
{'loss': 1.1158, 'learning_rate': 1.974406023338895e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9044225215911865, 'eval_runtime': 1.0557, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 0.6}
{'loss': 1.3532, 'learning_rate': 1.974207168192818e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9086601734161377, 'eval_runtime': 0.9901, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 0.6}
{'loss': 1.2233, 'learning_rate': 1.9740075536122324e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.912248969078064, 'eval_runtime': 0.959, 'eval_samples_per_second': 5.214, 'eval_steps_per_second': 1.043, 'epoch': 0.6}
{'loss': 1.4632, 'learning_rate': 1.973807179752747e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9213855266571045, 'eval_runtime': 1.0005, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 0.61}
{'loss': 1.2655, 'learning_rate': 1.9736060467705606e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9225594997406006, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 0.61}
{'loss': 1.1981, 'learning_rate': 1.9734041548224646e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9220348596572876, 'eval_runtime': 1.0093, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 0.61}
{'loss': 1.3784, 'learning_rate': 1.973201504065843e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9229748249053955, 'eval_runtime': 1.0072, 'eval_samples_per_second': 4.964, 'eval_steps_per_second': 0.993, 'epoch': 0.61}
{'loss': 1.4073, 'learning_rate': 1.9729980946586696e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9148820638656616, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 0.61}
{'loss': 1.5235, 'learning_rate': 1.97279392675951e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9086697101593018, 'eval_runtime': 0.9436, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 0.61}
{'loss': 1.4677, 'learning_rate': 1.972589000527523e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9056422710418701, 'eval_runtime': 1.0031, 'eval_samples_per_second': 4.984, 'eval_steps_per_second': 0.997, 'epoch': 0.61}
{'loss': 1.2321, 'learning_rate': 1.9723833161224552e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9013397693634033, 'eval_runtime': 1.0425, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 0.62}
{'loss': 1.216, 'learning_rate': 1.9721768737046472e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9009841680526733, 'eval_runtime': 1.027, 'eval_samples_per_second': 4.868, 'eval_steps_per_second': 0.974, 'epoch': 0.62}
{'loss': 1.1037, 'learning_rate': 1.971969673435029e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9068949222564697, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 0.62}
{'loss': 1.3006, 'learning_rate': 1.9717617154751214e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9120677709579468, 'eval_runtime': 0.9476, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 0.62}
{'loss': 1.2566, 'learning_rate': 1.971552999987037e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9110714197158813, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.62}
{'loss': 1.2474, 'learning_rate': 1.9713435271334776e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9066345691680908, 'eval_runtime': 0.9801, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 0.62}
{'loss': 1.5176, 'learning_rate': 1.9711332970777356e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9010381698608398, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 0.63}
{'loss': 1.3813, 'learning_rate': 1.9709223099836945e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8934818506240845, 'eval_runtime': 0.9709, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 0.63}
{'loss': 1.3939, 'learning_rate': 1.9707105660158272e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.877971887588501, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 0.63}
{'loss': 1.3231, 'learning_rate': 1.9704980653391966e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.866127371788025, 'eval_runtime': 1.047, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 0.63}
{'loss': 1.3884, 'learning_rate': 1.9702848081194564e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8629385232925415, 'eval_runtime': 1.0103, 'eval_samples_per_second': 4.949, 'eval_steps_per_second': 0.99, 'epoch': 0.63}
{'loss': 1.2715, 'learning_rate': 1.9700707945228483e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.859052300453186, 'eval_runtime': 1.0418, 'eval_samples_per_second': 4.799, 'eval_steps_per_second': 0.96, 'epoch': 0.63}
{'loss': 1.1033, 'learning_rate': 1.9698560247162058e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8605434894561768, 'eval_runtime': 0.9489, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 0.64}
{'loss': 1.171, 'learning_rate': 1.9696404988669498e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8632053136825562, 'eval_runtime': 0.9638, 'eval_samples_per_second': 5.188, 'eval_steps_per_second': 1.038, 'epoch': 0.64}
{'loss': 1.2781, 'learning_rate': 1.969424217143092e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8701541423797607, 'eval_runtime': 1.0331, 'eval_samples_per_second': 4.84, 'eval_steps_per_second': 0.968, 'epoch': 0.64}
{'loss': 1.3541, 'learning_rate': 1.9692071797132334e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8792574405670166, 'eval_runtime': 1.024, 'eval_samples_per_second': 4.883, 'eval_steps_per_second': 0.977, 'epoch': 0.64}
{'loss': 1.2836, 'learning_rate': 1.9689893867465625e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8867523670196533, 'eval_runtime': 0.9629, 'eval_samples_per_second': 5.193, 'eval_steps_per_second': 1.039, 'epoch': 0.64}
{'loss': 1.1888, 'learning_rate': 1.9687708384128588e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.890843152999878, 'eval_runtime': 0.9616, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 0.64}
{'loss': 1.8578, 'learning_rate': 1.9685515348824892e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8857495784759521, 'eval_runtime': 1.0104, 'eval_samples_per_second': 4.949, 'eval_steps_per_second': 0.99, 'epoch': 0.65}
{'loss': 1.1223, 'learning_rate': 1.96833147632641e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8713061809539795, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 0.65}
{'loss': 1.2552, 'learning_rate': 1.968110662916166e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.85941481590271, 'eval_runtime': 1.0129, 'eval_samples_per_second': 4.936, 'eval_steps_per_second': 0.987, 'epoch': 0.65}
{'loss': 1.4524, 'learning_rate': 1.9678890948238902e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8583405017852783, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 0.65}
{'loss': 1.2707, 'learning_rate': 1.9676667722223036e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8554141521453857, 'eval_runtime': 0.9688, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 0.65}
{'loss': 1.154, 'learning_rate': 1.9674436952847167e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.847256064414978, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 0.65}
{'loss': 1.5338, 'learning_rate': 1.9672198641850263e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8372888565063477, 'eval_runtime': 1.0449, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 0.66}
{'loss': 1.238, 'learning_rate': 1.9669952790977186e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8339464664459229, 'eval_runtime': 0.9824, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 0.66}
{'loss': 1.0549, 'learning_rate': 1.966769940197866e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.835907220840454, 'eval_runtime': 0.9543, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 0.66}
{'loss': 1.1281, 'learning_rate': 1.9665438476611308e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8320690393447876, 'eval_runtime': 1.0578, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 0.66}
{'loss': 1.347, 'learning_rate': 1.96631700166376e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8291419744491577, 'eval_runtime': 1.0223, 'eval_samples_per_second': 4.891, 'eval_steps_per_second': 0.978, 'epoch': 0.66}
{'loss': 1.3543, 'learning_rate': 1.9660894023825902e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8301069736480713, 'eval_runtime': 0.9738, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 0.66}
{'loss': 1.1802, 'learning_rate': 1.9658610499950446e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8384453058242798, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 0.67}
{'loss': 1.1885, 'learning_rate': 1.965631944679132e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.851444959640503, 'eval_runtime': 1.03, 'eval_samples_per_second': 4.854, 'eval_steps_per_second': 0.971, 'epoch': 0.67}
{'loss': 1.0938, 'learning_rate': 1.9654020866134513e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8632409572601318, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 0.67}
{'loss': 1.357, 'learning_rate': 1.965171475977185e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8721458911895752, 'eval_runtime': 0.9375, 'eval_samples_per_second': 5.333, 'eval_steps_per_second': 1.067, 'epoch': 0.67}
{'loss': 1.1483, 'learning_rate': 1.9649401129501032e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8813908100128174, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 0.67}
{'loss': 1.3256, 'learning_rate': 1.964707997712564e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8911960124969482, 'eval_runtime': 0.9678, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 0.67}
{'loss': 1.4381, 'learning_rate': 1.96447513044551e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8979766368865967, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 0.68}
{'loss': 1.2121, 'learning_rate': 1.9642415113304715e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.905893087387085, 'eval_runtime': 1.0208, 'eval_samples_per_second': 4.898, 'eval_steps_per_second': 0.98, 'epoch': 0.68}
{'loss': 1.2039, 'learning_rate': 1.9640071405495633e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9110193252563477, 'eval_runtime': 1.0543, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 0.68}
{'loss': 1.199, 'learning_rate': 1.963772018285488e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9097181558609009, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 0.68}
{'loss': 1.5717, 'learning_rate': 1.9635361447215326e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9048879146575928, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 0.68}
{'loss': 1.4233, 'learning_rate': 1.96329952004157e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8998607397079468, 'eval_runtime': 0.9548, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 0.68}
{'loss': 1.2446, 'learning_rate': 1.963062144430059e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8980671167373657, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 0.69}
{'loss': 1.4229, 'learning_rate': 1.9628240180720438e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9011304378509521, 'eval_runtime': 0.9532, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 0.69}
{'loss': 1.3171, 'learning_rate': 1.9625851411531537e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8928165435791016, 'eval_runtime': 0.9868, 'eval_samples_per_second': 5.067, 'eval_steps_per_second': 1.013, 'epoch': 0.69}
{'loss': 1.5953, 'learning_rate': 1.962345513859603e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8781282901763916, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 0.69}
{'loss': 1.4642, 'learning_rate': 1.9621051363781908e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.868283987045288, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.69}
{'loss': 1.4094, 'learning_rate': 1.9618640088963018e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.859217882156372, 'eval_runtime': 0.984, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 0.69}
{'loss': 1.4352, 'learning_rate': 1.961622131601904e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8500980138778687, 'eval_runtime': 0.9606, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 0.7}
{'loss': 1.2126, 'learning_rate': 1.9613795046835513e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8437843322753906, 'eval_runtime': 0.9553, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 0.7}
{'loss': 1.3356, 'learning_rate': 1.961136128330381e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8338340520858765, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 0.7}
{'loss': 1.2249, 'learning_rate': 1.9608920027321152e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8300777673721313, 'eval_runtime': 1.0347, 'eval_samples_per_second': 4.832, 'eval_steps_per_second': 0.966, 'epoch': 0.7}
{'loss': 1.2422, 'learning_rate': 1.96064712807906e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.827537178993225, 'eval_runtime': 0.9511, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 0.7}
{'loss': 1.2807, 'learning_rate': 1.9604015045621044e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8319556713104248, 'eval_runtime': 0.9807, 'eval_samples_per_second': 5.098, 'eval_steps_per_second': 1.02, 'epoch': 0.7}
{'loss': 1.1792, 'learning_rate': 1.960155132372723e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8364810943603516, 'eval_runtime': 0.9768, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 0.7}
{'loss': 1.2465, 'learning_rate': 1.9599080117029726e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8456871509552002, 'eval_runtime': 1.0195, 'eval_samples_per_second': 4.904, 'eval_steps_per_second': 0.981, 'epoch': 0.71}
{'loss': 1.3579, 'learning_rate': 1.9596601427454937e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8526079654693604, 'eval_runtime': 0.9687, 'eval_samples_per_second': 5.162, 'eval_steps_per_second': 1.032, 'epoch': 0.71}
{'loss': 1.3809, 'learning_rate': 1.959411525693511e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8563416004180908, 'eval_runtime': 0.9727, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 0.71}
{'loss': 1.2829, 'learning_rate': 1.959162160740831e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8615858554840088, 'eval_runtime': 1.0278, 'eval_samples_per_second': 4.865, 'eval_steps_per_second': 0.973, 'epoch': 0.71}
{'loss': 1.3689, 'learning_rate': 1.9589120480818446e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8712142705917358, 'eval_runtime': 0.973, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 0.71}
{'loss': 1.3498, 'learning_rate': 1.958661187911524e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.878257155418396, 'eval_runtime': 0.9727, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 0.71}
{'loss': 0.92, 'learning_rate': 1.958409580425426e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.890462875366211, 'eval_runtime': 1.0135, 'eval_samples_per_second': 4.933, 'eval_steps_per_second': 0.987, 'epoch': 0.72}
{'loss': 1.4311, 'learning_rate': 1.9581572258196885e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.896104097366333, 'eval_runtime': 0.9414, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 0.72}
{'loss': 1.2024, 'learning_rate': 1.957904124291032e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9057931900024414, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 0.72}
{'loss': 1.2453, 'learning_rate': 1.95765027603676e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.907488465309143, 'eval_runtime': 0.9633, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 0.72}
{'loss': 1.058, 'learning_rate': 1.9573956812547572e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9062929153442383, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 0.72}
{'loss': 1.3898, 'learning_rate': 1.9571403401434913e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9022340774536133, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 0.72}
{'loss': 0.9823, 'learning_rate': 1.9568842529020105e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9033100605010986, 'eval_runtime': 1.044, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 0.73}
{'loss': 1.4544, 'learning_rate': 1.956627419729946e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.902429223060608, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 0.73}
{'loss': 0.8874, 'learning_rate': 1.956369840827509e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9033100605010986, 'eval_runtime': 1.0542, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 0.73}
{'loss': 1.0147, 'learning_rate': 1.956111516395494e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8915780782699585, 'eval_runtime': 0.9876, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 0.73}
{'loss': 1.2623, 'learning_rate': 1.9558524466352744e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8776872158050537, 'eval_runtime': 1.0263, 'eval_samples_per_second': 4.872, 'eval_steps_per_second': 0.974, 'epoch': 0.73}
{'loss': 0.9901, 'learning_rate': 1.9555926317488062e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8711707592010498, 'eval_runtime': 1.0295, 'eval_samples_per_second': 4.857, 'eval_steps_per_second': 0.971, 'epoch': 0.73}
{'loss': 1.0062, 'learning_rate': 1.9553320719386257e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8665536642074585, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 0.74}
{'loss': 1.2204, 'learning_rate': 1.95507076740785e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8572094440460205, 'eval_runtime': 0.961, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 0.74}
{'loss': 1.2076, 'learning_rate': 1.9548087183601765e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8499647378921509, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 0.74}
{'loss': 1.1451, 'learning_rate': 1.9545459249998836e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8495073318481445, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 0.74}
{'loss': 0.9734, 'learning_rate': 1.9542823875318293e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8536498546600342, 'eval_runtime': 1.01, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 0.74}
{'loss': 1.1137, 'learning_rate': 1.954018106161452e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8611476421356201, 'eval_runtime': 0.9499, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 0.74}
{'loss': 1.2875, 'learning_rate': 1.9537530810947696e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8608253002166748, 'eval_runtime': 0.9439, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 0.75}
{'loss': 1.027, 'learning_rate': 1.9534873125383805e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8645378351211548, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 0.75}
{'loss': 1.3453, 'learning_rate': 1.9532208006994616e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.869468092918396, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 0.75}
{'loss': 1.1007, 'learning_rate': 1.9529535457857706e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8766582012176514, 'eval_runtime': 1.0347, 'eval_samples_per_second': 4.832, 'eval_steps_per_second': 0.966, 'epoch': 0.75}
{'loss': 1.5156, 'learning_rate': 1.952685548005643e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8836807012557983, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.75}
{'loss': 1.1955, 'learning_rate': 1.952416807567994e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8836467266082764, 'eval_runtime': 1.0577, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 0.75}
{'loss': 1.27, 'learning_rate': 1.9521473246823184e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8795455694198608, 'eval_runtime': 1.0431, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 0.76}
{'loss': 1.4369, 'learning_rate': 1.9518770995586888e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8659718036651611, 'eval_runtime': 0.9625, 'eval_samples_per_second': 5.195, 'eval_steps_per_second': 1.039, 'epoch': 0.76}
{'loss': 1.3351, 'learning_rate': 1.951606132407757e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8456424474716187, 'eval_runtime': 0.9555, 'eval_samples_per_second': 5.233, 'eval_steps_per_second': 1.047, 'epoch': 0.76}
{'loss': 1.3636, 'learning_rate': 1.951334423440753e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8350107669830322, 'eval_runtime': 1.0046, 'eval_samples_per_second': 4.977, 'eval_steps_per_second': 0.995, 'epoch': 0.76}
{'loss': 1.3791, 'learning_rate': 1.951061972869485e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.828550100326538, 'eval_runtime': 0.9832, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 0.76}
{'loss': 1.1085, 'learning_rate': 1.9507887809063392e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8260562419891357, 'eval_runtime': 1.0515, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 0.76}
{'loss': 1.7048, 'learning_rate': 1.9505148477642803e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8229957818984985, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 0.77}
{'loss': 1.3126, 'learning_rate': 1.9502401736568505e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8215713500976562, 'eval_runtime': 1.0325, 'eval_samples_per_second': 4.843, 'eval_steps_per_second': 0.969, 'epoch': 0.77}
{'loss': 1.4151, 'learning_rate': 1.949964758798169e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8299223184585571, 'eval_runtime': 0.9927, 'eval_samples_per_second': 5.037, 'eval_steps_per_second': 1.007, 'epoch': 0.77}
{'loss': 1.2363, 'learning_rate': 1.9496886034029337e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.832641839981079, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 0.77}
{'loss': 1.3633, 'learning_rate': 1.9494117076864188e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8321338891983032, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 0.77}
{'loss': 1.1095, 'learning_rate': 1.949134071864476e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8357532024383545, 'eval_runtime': 0.9426, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 0.77}
{'loss': 1.4095, 'learning_rate': 1.948855696153533e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.839808702468872, 'eval_runtime': 0.9751, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 0.78}
{'loss': 1.0494, 'learning_rate': 1.9485765807705963e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.836398720741272, 'eval_runtime': 0.9937, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 0.78}
{'loss': 1.3129, 'learning_rate': 1.9482967259332472e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8328559398651123, 'eval_runtime': 0.9428, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 0.78}
{'loss': 1.5698, 'learning_rate': 1.9480161318596437e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8318744897842407, 'eval_runtime': 0.9847, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 0.78}
{'loss': 1.1835, 'learning_rate': 1.947734798768521e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8302675485610962, 'eval_runtime': 0.9619, 'eval_samples_per_second': 5.198, 'eval_steps_per_second': 1.04, 'epoch': 0.78}
{'loss': 1.1888, 'learning_rate': 1.94745272687919e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8254388570785522, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 0.78}
{'loss': 1.2266, 'learning_rate': 1.9471699164115367e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8244911432266235, 'eval_runtime': 0.9758, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 0.79}
{'loss': 1.0984, 'learning_rate': 1.9468863675860238e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8245670795440674, 'eval_runtime': 0.971, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 0.79}
{'loss': 1.0937, 'learning_rate': 1.946602080623689e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.824315071105957, 'eval_runtime': 1.0369, 'eval_samples_per_second': 4.822, 'eval_steps_per_second': 0.964, 'epoch': 0.79}
{'loss': 1.3175, 'learning_rate': 1.9463170557461458e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8271839618682861, 'eval_runtime': 1.0103, 'eval_samples_per_second': 4.949, 'eval_steps_per_second': 0.99, 'epoch': 0.79}
{'loss': 1.4572, 'learning_rate': 1.9460312931755832e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.826859712600708, 'eval_runtime': 1.0302, 'eval_samples_per_second': 4.853, 'eval_steps_per_second': 0.971, 'epoch': 0.79}
{'loss': 1.2888, 'learning_rate': 1.9457447931347643e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8180558681488037, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 0.79}
{'loss': 1.2343, 'learning_rate': 1.945457555847028e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8108375072479248, 'eval_runtime': 1.0246, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 0.79}
{'loss': 1.3712, 'learning_rate': 1.945169581536287e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8070995807647705, 'eval_runtime': 1.0003, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 0.8}
{'loss': 1.1431, 'learning_rate': 1.9448808704270302e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8055598735809326, 'eval_runtime': 0.9898, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 0.8}
{'loss': 1.1181, 'learning_rate': 1.9445914227443184e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.808830976486206, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 0.8}
{'loss': 1.3468, 'learning_rate': 1.9443012387137892e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8118155002593994, 'eval_runtime': 0.9494, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 0.8}
{'loss': 1.1564, 'learning_rate': 1.9440103185616522e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8173186779022217, 'eval_runtime': 1.0399, 'eval_samples_per_second': 4.808, 'eval_steps_per_second': 0.962, 'epoch': 0.8}
{'loss': 1.4631, 'learning_rate': 1.9437186625146916e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8238738775253296, 'eval_runtime': 0.9995, 'eval_samples_per_second': 5.003, 'eval_steps_per_second': 1.001, 'epoch': 0.8}
{'loss': 1.1686, 'learning_rate': 1.943426270800266e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.822534203529358, 'eval_runtime': 1.0442, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 0.81}
{'loss': 1.1038, 'learning_rate': 1.943133143646306e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.821295976638794, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 0.81}
{'loss': 1.201, 'learning_rate': 1.942839281281317e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8247486352920532, 'eval_runtime': 1.0321, 'eval_samples_per_second': 4.845, 'eval_steps_per_second': 0.969, 'epoch': 0.81}
{'loss': 1.057, 'learning_rate': 1.9425446839343756e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8303505182266235, 'eval_runtime': 0.9507, 'eval_samples_per_second': 5.259, 'eval_steps_per_second': 1.052, 'epoch': 0.81}
{'loss': 1.2161, 'learning_rate': 1.9422493518351336e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8387410640716553, 'eval_runtime': 0.973, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 0.81}
{'loss': 1.2829, 'learning_rate': 1.9419532852138144e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8424934148788452, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.81}
{'loss': 1.1692, 'learning_rate': 1.9416564843012134e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8477513790130615, 'eval_runtime': 1.0146, 'eval_samples_per_second': 4.928, 'eval_steps_per_second': 0.986, 'epoch': 0.82}
{'loss': 1.4663, 'learning_rate': 1.9413589493286997e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8499581813812256, 'eval_runtime': 0.9897, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 0.82}
{'loss': 1.5496, 'learning_rate': 1.941060680528214e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8472379446029663, 'eval_runtime': 1.0061, 'eval_samples_per_second': 4.97, 'eval_steps_per_second': 0.994, 'epoch': 0.82}
{'loss': 0.9161, 'learning_rate': 1.940761678132269e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8455909490585327, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 0.82}
{'loss': 1.3501, 'learning_rate': 1.9404619423739486e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.842768907546997, 'eval_runtime': 1.0165, 'eval_samples_per_second': 4.919, 'eval_steps_per_second': 0.984, 'epoch': 0.82}
{'loss': 1.2884, 'learning_rate': 1.9401614734869108e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.841416597366333, 'eval_runtime': 1.022, 'eval_samples_per_second': 4.893, 'eval_steps_per_second': 0.979, 'epoch': 0.82}
{'loss': 1.1566, 'learning_rate': 1.939860271705382e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.844628095626831, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 0.83}
{'loss': 1.3892, 'learning_rate': 1.939558337264162e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.843727469444275, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 0.83}
{'loss': 1.211, 'learning_rate': 1.939255670398621e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8447883129119873, 'eval_runtime': 0.9605, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 0.83}
{'loss': 0.9156, 'learning_rate': 1.9389522713447003e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8485454320907593, 'eval_runtime': 1.046, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 0.83}
{'loss': 1.5089, 'learning_rate': 1.9386481403389114e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.848915457725525, 'eval_runtime': 0.9595, 'eval_samples_per_second': 5.211, 'eval_steps_per_second': 1.042, 'epoch': 0.83}
{'loss': 1.1621, 'learning_rate': 1.9383432776183377e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.848017930984497, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 0.83}
{'loss': 1.3868, 'learning_rate': 1.9380376834206316e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8442846536636353, 'eval_runtime': 1.0527, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 0.84}
{'loss': 1.5574, 'learning_rate': 1.9377313579840172e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8417761325836182, 'eval_runtime': 1.0264, 'eval_samples_per_second': 4.871, 'eval_steps_per_second': 0.974, 'epoch': 0.84}
{'loss': 1.4586, 'learning_rate': 1.9374243015472865e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7999660968780518, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 0.84}
{'loss': 1.1863, 'learning_rate': 1.9371165143498033e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7780864238739014, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 0.84}
{'loss': 1.5482, 'learning_rate': 1.9368079966315008e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7683985233306885, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 0.84}
{'loss': 1.2215, 'learning_rate': 1.9364987486328804e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7658441066741943, 'eval_runtime': 1.0068, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 0.84}
{'loss': 1.2805, 'learning_rate': 1.9361887705950143e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7722831964492798, 'eval_runtime': 1.0316, 'eval_samples_per_second': 4.847, 'eval_steps_per_second': 0.969, 'epoch': 0.85}
{'loss': 0.8886, 'learning_rate': 1.9358780627595425e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.777836561203003, 'eval_runtime': 0.9585, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 0.85}
{'loss': 1.2319, 'learning_rate': 1.935566625368675e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7760788202285767, 'eval_runtime': 0.9621, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 0.85}
{'loss': 1.3995, 'learning_rate': 1.9352544586651897e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.766344428062439, 'eval_runtime': 1.0442, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 0.85}
{'loss': 1.2641, 'learning_rate': 1.9349415628924334e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7643747329711914, 'eval_runtime': 0.9538, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 0.85}
{'loss': 1.1626, 'learning_rate': 1.9346279382943217e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7635332345962524, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 0.85}
{'loss': 1.3707, 'learning_rate': 1.9343135851153373e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7629907131195068, 'eval_runtime': 0.9754, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 0.86}
{'loss': 1.5498, 'learning_rate': 1.9339985036005314e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7580101490020752, 'eval_runtime': 0.983, 'eval_samples_per_second': 5.086, 'eval_steps_per_second': 1.017, 'epoch': 0.86}
{'loss': 1.2485, 'learning_rate': 1.9336826939955235e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7545887231826782, 'eval_runtime': 0.9723, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 0.86}
{'loss': 1.254, 'learning_rate': 1.9333661565464997e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7509565353393555, 'eval_runtime': 1.0154, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 0.86}
{'loss': 1.2515, 'learning_rate': 1.933048891500214e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7478965520858765, 'eval_runtime': 0.9696, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 0.86}
{'loss': 1.1853, 'learning_rate': 1.932730899103988e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7438137531280518, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 0.86}
{'loss': 1.385, 'learning_rate': 1.9324121796057093e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7478090524673462, 'eval_runtime': 0.9565, 'eval_samples_per_second': 5.227, 'eval_steps_per_second': 1.045, 'epoch': 0.87}
{'loss': 0.8085, 'learning_rate': 1.932092733253833e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7570173740386963, 'eval_runtime': 1.0072, 'eval_samples_per_second': 4.964, 'eval_steps_per_second': 0.993, 'epoch': 0.87}
{'loss': 1.417, 'learning_rate': 1.931772560297381e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7608258724212646, 'eval_runtime': 1.0306, 'eval_samples_per_second': 4.851, 'eval_steps_per_second': 0.97, 'epoch': 0.87}
{'loss': 0.9452, 'learning_rate': 1.9314516609859405e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.762411117553711, 'eval_runtime': 0.9998, 'eval_samples_per_second': 5.001, 'eval_steps_per_second': 1.0, 'epoch': 0.87}
{'loss': 0.8621, 'learning_rate': 1.931130035569666e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7661399841308594, 'eval_runtime': 0.9873, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 0.87}
{'loss': 1.5018, 'learning_rate': 1.930807684299278e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7768110036849976, 'eval_runtime': 0.989, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 0.87}
{'loss': 1.1071, 'learning_rate': 1.9304846074260626e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.782207727432251, 'eval_runtime': 1.0098, 'eval_samples_per_second': 4.951, 'eval_steps_per_second': 0.99, 'epoch': 0.88}
{'loss': 1.1718, 'learning_rate': 1.9301608052018713e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7811403274536133, 'eval_runtime': 1.0304, 'eval_samples_per_second': 4.852, 'eval_steps_per_second': 0.97, 'epoch': 0.88}
{'loss': 1.4493, 'learning_rate': 1.929836277879121e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.777965784072876, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 0.88}
{'loss': 1.2183, 'learning_rate': 1.929511025710795e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7784345149993896, 'eval_runtime': 1.0432, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 0.88}
{'loss': 1.23, 'learning_rate': 1.9291850489504393e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7789570093154907, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 0.88}
{'loss': 1.1631, 'learning_rate': 1.9288583478521672e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.775395154953003, 'eval_runtime': 1.0114, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 0.88}
{'loss': 1.3706, 'learning_rate': 1.9285309226706553e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7763831615447998, 'eval_runtime': 1.0432, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 0.88}
{'loss': 1.165, 'learning_rate': 1.9282027736611452e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7804815769195557, 'eval_runtime': 1.0524, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 0.89}
{'loss': 1.1703, 'learning_rate': 1.9278739010794424e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7780468463897705, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 0.89}
{'loss': 1.2615, 'learning_rate': 1.927544305181916e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7757585048675537, 'eval_runtime': 1.0338, 'eval_samples_per_second': 4.837, 'eval_steps_per_second': 0.967, 'epoch': 0.89}
{'loss': 1.2402, 'learning_rate': 1.9272139862255005e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7687947750091553, 'eval_runtime': 1.0555, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 0.89}
{'loss': 1.0872, 'learning_rate': 1.926882944467693e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.762174367904663, 'eval_runtime': 0.9976, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 0.89}
{'loss': 0.9965, 'learning_rate': 1.9265511801665534e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7685056924819946, 'eval_runtime': 1.0049, 'eval_samples_per_second': 4.975, 'eval_steps_per_second': 0.995, 'epoch': 0.89}
{'loss': 1.0313, 'learning_rate': 1.9262186935807064e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7807486057281494, 'eval_runtime': 0.9528, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 0.9}
{'loss': 1.1597, 'learning_rate': 1.9258854849693383e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7856760025024414, 'eval_runtime': 0.9987, 'eval_samples_per_second': 5.007, 'eval_steps_per_second': 1.001, 'epoch': 0.9}
{'loss': 1.1821, 'learning_rate': 1.9255515545921994e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7846033573150635, 'eval_runtime': 1.0049, 'eval_samples_per_second': 4.976, 'eval_steps_per_second': 0.995, 'epoch': 0.9}
{'loss': 1.236, 'learning_rate': 1.925216902709602e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7876087427139282, 'eval_runtime': 0.9586, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 0.9}
{'loss': 1.4941, 'learning_rate': 1.9248815295824206e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7885138988494873, 'eval_runtime': 1.0447, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 0.9}
{'loss': 1.2961, 'learning_rate': 1.924545435472093e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.791628122329712, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 0.9}
{'loss': 0.9567, 'learning_rate': 1.924208620640618e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.792224645614624, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 0.91}
{'loss': 1.1265, 'learning_rate': 1.9238710853505563e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.789853811264038, 'eval_runtime': 0.9848, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 0.91}
{'loss': 1.2212, 'learning_rate': 1.9235328298650314e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7896010875701904, 'eval_runtime': 0.9833, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 0.91}
{'loss': 1.2764, 'learning_rate': 1.9231938544477263e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7886966466903687, 'eval_runtime': 0.9414, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 0.91}
{'loss': 1.4672, 'learning_rate': 1.9228541593628868e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7879377603530884, 'eval_runtime': 1.0017, 'eval_samples_per_second': 4.992, 'eval_steps_per_second': 0.998, 'epoch': 0.91}
{'loss': 1.5689, 'learning_rate': 1.922513744875319e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7931894063949585, 'eval_runtime': 0.9992, 'eval_samples_per_second': 5.004, 'eval_steps_per_second': 1.001, 'epoch': 0.91}
{'loss': 1.3266, 'learning_rate': 1.922172611250391e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8002369403839111, 'eval_runtime': 1.0041, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 0.92}
{'loss': 1.3062, 'learning_rate': 1.921830758754029e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.804283857345581, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 0.92}
{'loss': 1.1744, 'learning_rate': 1.9214881876527217e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8024885654449463, 'eval_runtime': 1.0053, 'eval_samples_per_second': 4.974, 'eval_steps_per_second': 0.995, 'epoch': 0.92}
{'loss': 0.938, 'learning_rate': 1.921144898213517e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8000481128692627, 'eval_runtime': 0.9997, 'eval_samples_per_second': 5.001, 'eval_steps_per_second': 1.0, 'epoch': 0.92}
{'loss': 1.3436, 'learning_rate': 1.920800890704024e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7984163761138916, 'eval_runtime': 1.015, 'eval_samples_per_second': 4.926, 'eval_steps_per_second': 0.985, 'epoch': 0.92}
{'loss': 1.081, 'learning_rate': 1.9204561653924095e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8042713403701782, 'eval_runtime': 0.9405, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 0.92}
{'loss': 1.4364, 'learning_rate': 1.920110722547402e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8092235326766968, 'eval_runtime': 0.9397, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 0.93}
{'loss': 1.0796, 'learning_rate': 1.919764562438288e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.816433310508728, 'eval_runtime': 1.0351, 'eval_samples_per_second': 4.83, 'eval_steps_per_second': 0.966, 'epoch': 0.93}
{'loss': 1.1228, 'learning_rate': 1.9194176853349134e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8222965002059937, 'eval_runtime': 1.0285, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 0.93}
{'loss': 1.2271, 'learning_rate': 1.9190700915076834e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8276653289794922, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 0.93}
{'loss': 1.1541, 'learning_rate': 1.918721781227562e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8342068195343018, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 0.93}
{'loss': 1.0908, 'learning_rate': 1.9183727547660703e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.842749834060669, 'eval_runtime': 0.953, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 0.93}
{'loss': 1.4527, 'learning_rate': 1.9180230123952896e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.845374345779419, 'eval_runtime': 0.9844, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 0.94}
{'loss': 1.3525, 'learning_rate': 1.9176725543878585e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8424932956695557, 'eval_runtime': 0.9937, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 0.94}
{'loss': 1.1261, 'learning_rate': 1.917321381016973e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8378245830535889, 'eval_runtime': 1.0182, 'eval_samples_per_second': 4.911, 'eval_steps_per_second': 0.982, 'epoch': 0.94}
{'loss': 1.0577, 'learning_rate': 1.9169694925563876e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.840599775314331, 'eval_runtime': 0.9592, 'eval_samples_per_second': 5.213, 'eval_steps_per_second': 1.043, 'epoch': 0.94}
{'loss': 1.4311, 'learning_rate': 1.9166168892804133e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8456010818481445, 'eval_runtime': 0.9818, 'eval_samples_per_second': 5.093, 'eval_steps_per_second': 1.019, 'epoch': 0.94}
{'loss': 1.2908, 'learning_rate': 1.916263571463919e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8486320972442627, 'eval_runtime': 0.9518, 'eval_samples_per_second': 5.253, 'eval_steps_per_second': 1.051, 'epoch': 0.94}
{'loss': 1.2575, 'learning_rate': 1.9159095393823307e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.846287488937378, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 0.95}
{'loss': 1.0705, 'learning_rate': 1.915554793311631e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.839376449584961, 'eval_runtime': 0.9746, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 0.95}
{'loss': 0.9025, 'learning_rate': 1.9151993335283586e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.839531660079956, 'eval_runtime': 0.9849, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 0.95}
{'loss': 1.1451, 'learning_rate': 1.914843160309609e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8304523229599, 'eval_runtime': 0.9843, 'eval_samples_per_second': 5.08, 'eval_steps_per_second': 1.016, 'epoch': 0.95}
{'loss': 1.1377, 'learning_rate': 1.9144862739330346e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8289144039154053, 'eval_runtime': 1.03, 'eval_samples_per_second': 4.854, 'eval_steps_per_second': 0.971, 'epoch': 0.95}
{'loss': 1.4121, 'learning_rate': 1.9141286746768425e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8251034021377563, 'eval_runtime': 1.0055, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 0.95}
{'loss': 0.907, 'learning_rate': 1.9137703628197953e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.815792441368103, 'eval_runtime': 1.0255, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 0.96}
{'loss': 1.2244, 'learning_rate': 1.913411338641213e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8026431798934937, 'eval_runtime': 0.954, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 0.96}
{'loss': 1.0538, 'learning_rate': 1.9130516024209692e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7957299947738647, 'eval_runtime': 0.9474, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 0.96}
{'loss': 1.1282, 'learning_rate': 1.912691154439493e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7898387908935547, 'eval_runtime': 1.0572, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 0.96}
{'loss': 1.1546, 'learning_rate': 1.9123299949777686e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.790500283241272, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 0.96}
{'loss': 1.1658, 'learning_rate': 1.911968124317334e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7885410785675049, 'eval_runtime': 1.0127, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 0.96}
{'loss': 0.957, 'learning_rate': 1.9116055427402835e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7916724681854248, 'eval_runtime': 1.0553, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 0.96}
{'loss': 1.1374, 'learning_rate': 1.9112422505292633e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7955653667449951, 'eval_runtime': 0.9523, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 0.97}
{'loss': 1.231, 'learning_rate': 1.9108782479674748e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7921110391616821, 'eval_runtime': 1.0446, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 0.97}
{'loss': 1.3384, 'learning_rate': 1.910513535338673e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7873910665512085, 'eval_runtime': 0.9962, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 0.97}
{'loss': 1.3505, 'learning_rate': 1.9101481129271666e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7869408130645752, 'eval_runtime': 0.9761, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 0.97}
{'loss': 1.1333, 'learning_rate': 1.909781981017817e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7892835140228271, 'eval_runtime': 0.9805, 'eval_samples_per_second': 5.099, 'eval_steps_per_second': 1.02, 'epoch': 0.97}
{'loss': 1.0195, 'learning_rate': 1.9094151398960396e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.794786810874939, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 0.97}
{'loss': 1.1253, 'learning_rate': 1.9090475898478013e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8007900714874268, 'eval_runtime': 1.0268, 'eval_samples_per_second': 4.869, 'eval_steps_per_second': 0.974, 'epoch': 0.98}
{'loss': 1.213, 'learning_rate': 1.908679331159623e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8027126789093018, 'eval_runtime': 0.9731, 'eval_samples_per_second': 5.138, 'eval_steps_per_second': 1.028, 'epoch': 0.98}
{'loss': 1.2706, 'learning_rate': 1.908310364118578e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8012683391571045, 'eval_runtime': 0.9977, 'eval_samples_per_second': 5.011, 'eval_steps_per_second': 1.002, 'epoch': 0.98}
{'loss': 1.3847, 'learning_rate': 1.90794068901229e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7944282293319702, 'eval_runtime': 0.9606, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 0.98}
{'loss': 1.1335, 'learning_rate': 1.9075703061289372e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7907040119171143, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 0.98}
{'loss': 1.3645, 'learning_rate': 1.9071992157572473e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7845032215118408, 'eval_runtime': 0.9816, 'eval_samples_per_second': 5.094, 'eval_steps_per_second': 1.019, 'epoch': 0.98}
{'loss': 0.9875, 'learning_rate': 1.906827418186501e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7722915410995483, 'eval_runtime': 0.9863, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 0.99}
{'loss': 1.3221, 'learning_rate': 1.9064549137065297e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7647554874420166, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 0.99}
{'loss': 1.2236, 'learning_rate': 1.906081702607716e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.763152837753296, 'eval_runtime': 0.9792, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 0.99}
{'loss': 1.0247, 'learning_rate': 1.9057077851809933e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7651777267456055, 'eval_runtime': 0.9738, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 0.99}
{'loss': 1.125, 'learning_rate': 1.9053331617178452e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7696380615234375, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 0.99}
{'loss': 1.0295, 'learning_rate': 1.9049578325103064e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7720181941986084, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 0.99}
{'loss': 1.4997, 'learning_rate': 1.9045817978509614e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7764381170272827, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 1.0}
{'loss': 0.9459, 'learning_rate': 1.904205058032945e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7815555334091187, 'eval_runtime': 0.9487, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 1.0}
{'loss': 1.1673, 'learning_rate': 1.9038276133499404e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.785478949546814, 'eval_runtime': 1.0272, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 1.0}




{'loss': 1.4081, 'learning_rate': 1.9034494640961824e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7836406230926514, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 1.0}
{'loss': 1.2558, 'learning_rate': 1.903070610566453e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7861993312835693, 'eval_runtime': 0.9694, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 1.0}
{'loss': 0.6897, 'learning_rate': 1.9026910530560848e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.793628454208374, 'eval_runtime': 0.9567, 'eval_samples_per_second': 5.226, 'eval_steps_per_second': 1.045, 'epoch': 1.0}
{'loss': 1.097, 'learning_rate': 1.902310791860958e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.79464852809906, 'eval_runtime': 0.9666, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 1.01}
{'loss': 0.8947, 'learning_rate': 1.9019298272775018e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.791860580444336, 'eval_runtime': 0.9664, 'eval_samples_per_second': 5.174, 'eval_steps_per_second': 1.035, 'epoch': 1.01}
{'loss': 1.0275, 'learning_rate': 1.901548159602694e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7933647632598877, 'eval_runtime': 1.0577, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 1.01}
{'loss': 0.788, 'learning_rate': 1.90116578913406e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7981570959091187, 'eval_runtime': 0.9916, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 1.01}
{'loss': 0.892, 'learning_rate': 1.9007827161696735e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7733970880508423, 'eval_runtime': 0.9998, 'eval_samples_per_second': 5.001, 'eval_steps_per_second': 1.0, 'epoch': 1.01}
{'loss': 1.2834, 'learning_rate': 1.900398941008155e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7554638385772705, 'eval_runtime': 0.9762, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 1.01}
{'loss': 1.1778, 'learning_rate': 1.9000144639486743e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7410223484039307, 'eval_runtime': 0.9442, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 1.02}
{'loss': 0.7961, 'learning_rate': 1.8996292852909456e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7326654195785522, 'eval_runtime': 0.9787, 'eval_samples_per_second': 5.109, 'eval_steps_per_second': 1.022, 'epoch': 1.02}
{'loss': 1.2055, 'learning_rate': 1.8992434053352326e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7258926630020142, 'eval_runtime': 0.9536, 'eval_samples_per_second': 5.243, 'eval_steps_per_second': 1.049, 'epoch': 1.02}
{'loss': 0.9109, 'learning_rate': 1.898856824382344e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7214359045028687, 'eval_runtime': 0.971, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 1.02}
{'loss': 0.9599, 'learning_rate': 1.8984695427336356e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7230265140533447, 'eval_runtime': 0.9988, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 1.02}
{'loss': 1.0519, 'learning_rate': 1.89808156069101e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.723321557044983, 'eval_runtime': 0.9671, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 1.02}
{'loss': 1.111, 'learning_rate': 1.8976928785569138e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7216837406158447, 'eval_runtime': 0.9726, 'eval_samples_per_second': 5.141, 'eval_steps_per_second': 1.028, 'epoch': 1.03}
{'loss': 1.2413, 'learning_rate': 1.8973034966343415e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7208772897720337, 'eval_runtime': 1.0038, 'eval_samples_per_second': 4.981, 'eval_steps_per_second': 0.996, 'epoch': 1.03}
{'loss': 1.14, 'learning_rate': 1.8969134152268325e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.720200538635254, 'eval_runtime': 0.9464, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 1.03}
{'loss': 0.9792, 'learning_rate': 1.896522634638471e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7230116128921509, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.03}
{'loss': 1.0002, 'learning_rate': 1.8961311551738865e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7303123474121094, 'eval_runtime': 0.9394, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 1.03}
{'loss': 0.8843, 'learning_rate': 1.8957389771382536e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7370926141738892, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 1.03}
{'loss': 1.327, 'learning_rate': 1.8953461008372908e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7364501953125, 'eval_runtime': 1.0454, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 1.04}
{'loss': 1.1274, 'learning_rate': 1.8949525265772614e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7337086200714111, 'eval_runtime': 1.0196, 'eval_samples_per_second': 4.904, 'eval_steps_per_second': 0.981, 'epoch': 1.04}
{'loss': 0.8168, 'learning_rate': 1.894558254664973e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.735391616821289, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 1.04}
{'loss': 0.838, 'learning_rate': 1.8941632854077764e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7344095706939697, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.04}
{'loss': 1.1025, 'learning_rate': 1.893767619113567e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.735764503479004, 'eval_runtime': 0.964, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 1.04}
{'loss': 0.8938, 'learning_rate': 1.8933712560907817e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7388384342193604, 'eval_runtime': 1.0361, 'eval_samples_per_second': 4.826, 'eval_steps_per_second': 0.965, 'epoch': 1.04}
{'loss': 1.2845, 'learning_rate': 1.892974196648403e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7465893030166626, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 1.05}
{'loss': 0.996, 'learning_rate': 1.892576441095954e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7540886402130127, 'eval_runtime': 1.0557, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 1.05}
{'loss': 0.8753, 'learning_rate': 1.8921779897435028e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7572898864746094, 'eval_runtime': 0.9915, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 1.05}
{'loss': 0.8056, 'learning_rate': 1.891778842901657e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.762450933456421, 'eval_runtime': 1.0017, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 1.05}
{'loss': 1.1594, 'learning_rate': 1.8913790008815693e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7623586654663086, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 1.05}
{'loss': 1.2105, 'learning_rate': 1.8909784639949325e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7614341974258423, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 1.05}
{'loss': 1.0653, 'learning_rate': 1.8905772325539815e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7672439813613892, 'eval_runtime': 0.9639, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 1.05}
{'loss': 1.0817, 'learning_rate': 1.890175306871493e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7720638513565063, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 1.06}
{'loss': 1.0845, 'learning_rate': 1.8897726872607838e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7779182195663452, 'eval_runtime': 0.9845, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 1.06}
{'loss': 1.0999, 'learning_rate': 1.889369374035713e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7779449224472046, 'eval_runtime': 1.016, 'eval_samples_per_second': 4.921, 'eval_steps_per_second': 0.984, 'epoch': 1.06}
{'loss': 1.2195, 'learning_rate': 1.8889653675106802e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.774021863937378, 'eval_runtime': 0.9813, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 1.06}
{'loss': 0.9018, 'learning_rate': 1.888560668000624e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7747371196746826, 'eval_runtime': 1.014, 'eval_samples_per_second': 4.931, 'eval_steps_per_second': 0.986, 'epoch': 1.06}
{'loss': 0.7021, 'learning_rate': 1.8881552758210254e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7794320583343506, 'eval_runtime': 0.954, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 1.06}
{'loss': 0.998, 'learning_rate': 1.8877491912879034e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7678279876708984, 'eval_runtime': 0.9557, 'eval_samples_per_second': 5.232, 'eval_steps_per_second': 1.046, 'epoch': 1.07}
{'loss': 0.886, 'learning_rate': 1.8873424147178182e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7696218490600586, 'eval_runtime': 0.9839, 'eval_samples_per_second': 5.082, 'eval_steps_per_second': 1.016, 'epoch': 1.07}
{'loss': 1.0475, 'learning_rate': 1.8869349464278687e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7706267833709717, 'eval_runtime': 1.0042, 'eval_samples_per_second': 4.979, 'eval_steps_per_second': 0.996, 'epoch': 1.07}
{'loss': 1.0389, 'learning_rate': 1.886526786735693e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7674976587295532, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 1.07}
{'loss': 1.172, 'learning_rate': 1.8861179359594686e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7600858211517334, 'eval_runtime': 0.9841, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 1.07}
{'loss': 0.9145, 'learning_rate': 1.885708394417911e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7464851140975952, 'eval_runtime': 1.018, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 1.07}
{'loss': 1.1788, 'learning_rate': 1.8852981624302752e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.728013277053833, 'eval_runtime': 0.9382, 'eval_samples_per_second': 5.329, 'eval_steps_per_second': 1.066, 'epoch': 1.08}
{'loss': 1.0394, 'learning_rate': 1.8848872403163538e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7091352939605713, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 1.08}
{'loss': 0.9085, 'learning_rate': 1.884475628396477e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6957813501358032, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 1.08}
{'loss': 1.2717, 'learning_rate': 1.8840633269915134e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6902430057525635, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 1.08}
{'loss': 1.0735, 'learning_rate': 1.8836503364228694e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6880207061767578, 'eval_runtime': 0.9846, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 1.08}
{'loss': 1.2085, 'learning_rate': 1.8832366570124873e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6854255199432373, 'eval_runtime': 1.0272, 'eval_samples_per_second': 4.868, 'eval_steps_per_second': 0.974, 'epoch': 1.08}
{'loss': 0.9338, 'learning_rate': 1.882822289082848e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6903148889541626, 'eval_runtime': 0.967, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 1.09}
{'loss': 0.8682, 'learning_rate': 1.882407232956968e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6954290866851807, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.09}
{'loss': 1.1733, 'learning_rate': 1.8819914889584e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6975858211517334, 'eval_runtime': 1.0468, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 1.09}
{'loss': 0.9742, 'learning_rate': 1.8815750574112345e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6924831867218018, 'eval_runtime': 0.981, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 1.09}
{'loss': 0.9449, 'learning_rate': 1.8811579386400964e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.693058967590332, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 1.09}
{'loss': 0.8841, 'learning_rate': 1.880740132970147e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6968940496444702, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 1.09}
{'loss': 0.8753, 'learning_rate': 1.8803216407270836e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6967414617538452, 'eval_runtime': 1.0564, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 1.1}
{'loss': 1.1156, 'learning_rate': 1.879902462237137e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6988102197647095, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 1.1}
{'loss': 0.909, 'learning_rate': 1.8794825978270745e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7080761194229126, 'eval_runtime': 0.9935, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 1.1}
{'loss': 0.9847, 'learning_rate': 1.8790620478241982e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7111256122589111, 'eval_runtime': 0.9757, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 1.1}
{'loss': 1.1509, 'learning_rate': 1.8786408125563434e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7185169458389282, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 1.1}
{'loss': 1.0985, 'learning_rate': 1.8782188923518804e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7196311950683594, 'eval_runtime': 0.9762, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 1.1}
{'loss': 1.0282, 'learning_rate': 1.877796287539714e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7112200260162354, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.11}
{'loss': 1.1446, 'learning_rate': 1.8773729984492814e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7017295360565186, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 1.11}
{'loss': 1.1722, 'learning_rate': 1.8769490254105537e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6948668956756592, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 1.11}
{'loss': 1.0876, 'learning_rate': 1.8765243687540355e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.69098699092865, 'eval_runtime': 0.9849, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 1.11}
{'loss': 1.1886, 'learning_rate': 1.8760990288107643e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6865103244781494, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 1.11}
{'loss': 1.0981, 'learning_rate': 1.8756730059123098e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6791794300079346, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 1.11}
{'loss': 1.274, 'learning_rate': 1.8752463003907745e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.67172110080719, 'eval_runtime': 1.0395, 'eval_samples_per_second': 4.81, 'eval_steps_per_second': 0.962, 'epoch': 1.12}
{'loss': 0.9135, 'learning_rate': 1.874818912578793e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6655809879302979, 'eval_runtime': 1.0317, 'eval_samples_per_second': 4.846, 'eval_steps_per_second': 0.969, 'epoch': 1.12}
{'loss': 0.8084, 'learning_rate': 1.874390842809531e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6642820835113525, 'eval_runtime': 0.9953, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 1.12}
{'loss': 0.9277, 'learning_rate': 1.873962091416688e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6638431549072266, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 1.12}
{'loss': 1.0564, 'learning_rate': 1.8735326587344912e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.662554383277893, 'eval_runtime': 0.9409, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 1.12}
{'loss': 1.0393, 'learning_rate': 1.8731025450977027e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6592295169830322, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 1.12}
{'loss': 1.0396, 'learning_rate': 1.872671750841613e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6625341176986694, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 1.13}
{'loss': 0.9358, 'learning_rate': 1.8722402763020443e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6655561923980713, 'eval_runtime': 0.9963, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 1.13}
{'loss': 1.1029, 'learning_rate': 1.8718081218153482e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6673800945281982, 'eval_runtime': 0.9875, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 1.13}
{'loss': 0.7065, 'learning_rate': 1.8713752877184073e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6746917963027954, 'eval_runtime': 0.9925, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 1.13}
{'loss': 0.9869, 'learning_rate': 1.8709417743486335e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.687330961227417, 'eval_runtime': 0.9988, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 1.13}
{'loss': 0.9564, 'learning_rate': 1.870507582043968e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7000118494033813, 'eval_runtime': 1.0245, 'eval_samples_per_second': 4.881, 'eval_steps_per_second': 0.976, 'epoch': 1.13}
{'loss': 0.9935, 'learning_rate': 1.870072711142882e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7058624029159546, 'eval_runtime': 0.9945, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 1.14}
{'loss': 1.1461, 'learning_rate': 1.869637161984375e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7018892765045166, 'eval_runtime': 1.0213, 'eval_samples_per_second': 4.896, 'eval_steps_per_second': 0.979, 'epoch': 1.14}
{'loss': 1.2774, 'learning_rate': 1.869200934907975e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6960588693618774, 'eval_runtime': 1.0439, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 1.14}
{'loss': 0.8338, 'learning_rate': 1.86876403025374e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6916711330413818, 'eval_runtime': 0.9483, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 1.14}
{'loss': 0.8824, 'learning_rate': 1.8683264483622544e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6846345663070679, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 1.14}
{'loss': 0.8933, 'learning_rate': 1.867888189574631e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6841087341308594, 'eval_runtime': 1.0131, 'eval_samples_per_second': 4.935, 'eval_steps_per_second': 0.987, 'epoch': 1.14}
{'loss': 1.0595, 'learning_rate': 1.867449254232511e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6831836700439453, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 1.14}
{'loss': 1.4186, 'learning_rate': 1.8670096426780625e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6787598133087158, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.15}
{'loss': 1.2692, 'learning_rate': 1.866569355253981e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.677887201309204, 'eval_runtime': 0.9681, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 1.15}
{'loss': 0.9065, 'learning_rate': 1.866128392303488e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683099389076233, 'eval_runtime': 0.9825, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 1.15}
{'loss': 1.1268, 'learning_rate': 1.8656867541703324e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6905453205108643, 'eval_runtime': 1.0245, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 1.15}
{'loss': 1.0381, 'learning_rate': 1.86524444119879e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6940791606903076, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 1.15}
{'loss': 0.8079, 'learning_rate': 1.864801453733661e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6972116231918335, 'eval_runtime': 0.9618, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 1.15}
{'loss': 0.8251, 'learning_rate': 1.8643577921202726e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.697717308998108, 'eval_runtime': 1.0093, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 1.16}
{'loss': 1.0717, 'learning_rate': 1.8639134567044772e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6969045400619507, 'eval_runtime': 0.9812, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 1.16}
{'loss': 1.0223, 'learning_rate': 1.863468447832653e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6983413696289062, 'eval_runtime': 0.9916, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 1.16}
{'loss': 0.859, 'learning_rate': 1.863022765851702e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7004066705703735, 'eval_runtime': 1.0453, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 1.16}
{'loss': 1.0254, 'learning_rate': 1.8625764111090525e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.703287124633789, 'eval_runtime': 1.0285, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 1.16}
{'loss': 0.9899, 'learning_rate': 1.8621293839526556e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7113192081451416, 'eval_runtime': 1.0543, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 1.16}
{'loss': 1.0599, 'learning_rate': 1.8616816847309874e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7156298160552979, 'eval_runtime': 1.0451, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 1.17}
{'loss': 1.2032, 'learning_rate': 1.861233313793048e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7156951427459717, 'eval_runtime': 0.9558, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 1.17}
{'loss': 0.9035, 'learning_rate': 1.860784271488361e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7143895626068115, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 1.17}
{'loss': 1.0149, 'learning_rate': 1.860334558166973e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7062628269195557, 'eval_runtime': 0.9874, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 1.17}
{'loss': 0.7762, 'learning_rate': 1.8598841741794546e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.70549738407135, 'eval_runtime': 1.0394, 'eval_samples_per_second': 4.811, 'eval_steps_per_second': 0.962, 'epoch': 1.17}
{'loss': 1.0921, 'learning_rate': 1.8594331198768984e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7067760229110718, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 1.17}
{'loss': 1.1436, 'learning_rate': 1.8589813956109197e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7025439739227295, 'eval_runtime': 1.0001, 'eval_samples_per_second': 5.0, 'eval_steps_per_second': 1.0, 'epoch': 1.18}
{'loss': 1.1532, 'learning_rate': 1.8585290017336558e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6985830068588257, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 1.18}
{'loss': 1.0265, 'learning_rate': 1.8580759385977665e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6975370645523071, 'eval_runtime': 0.9418, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 1.18}
{'loss': 1.0642, 'learning_rate': 1.8576222065564335e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695905089378357, 'eval_runtime': 1.0207, 'eval_samples_per_second': 4.899, 'eval_steps_per_second': 0.98, 'epoch': 1.18}
{'loss': 1.105, 'learning_rate': 1.8571678059633593e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6947343349456787, 'eval_runtime': 0.9917, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 1.18}
{'loss': 1.0992, 'learning_rate': 1.8567127371727677e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6945044994354248, 'eval_runtime': 0.9941, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 1.18}
{'loss': 1.0691, 'learning_rate': 1.8562570005394037e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6940838098526, 'eval_runtime': 1.0577, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 1.19}
{'loss': 1.0883, 'learning_rate': 1.8558005964185323e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6913725137710571, 'eval_runtime': 1.0144, 'eval_samples_per_second': 4.929, 'eval_steps_per_second': 0.986, 'epoch': 1.19}
{'loss': 0.8806, 'learning_rate': 1.85534352516594e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6833689212799072, 'eval_runtime': 0.9472, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 1.19}
{'loss': 1.0803, 'learning_rate': 1.854885787137932e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675792932510376, 'eval_runtime': 0.962, 'eval_samples_per_second': 5.198, 'eval_steps_per_second': 1.04, 'epoch': 1.19}
{'loss': 0.9358, 'learning_rate': 1.8544273826913347e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.667769432067871, 'eval_runtime': 0.9552, 'eval_samples_per_second': 5.235, 'eval_steps_per_second': 1.047, 'epoch': 1.19}
{'loss': 0.6794, 'learning_rate': 1.853968312183492e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6672546863555908, 'eval_runtime': 1.0002, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 1.19}
{'loss': 0.8257, 'learning_rate': 1.8535085759722692e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6739976406097412, 'eval_runtime': 0.9935, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 1.2}
{'loss': 1.0432, 'learning_rate': 1.853048174416049e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6779584884643555, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.2}
{'loss': 1.1564, 'learning_rate': 1.852587107873734e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6798337697982788, 'eval_runtime': 0.9399, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 1.2}
{'loss': 1.2819, 'learning_rate': 1.8521253767047436e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6788454055786133, 'eval_runtime': 0.958, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 1.2}
{'loss': 0.8855, 'learning_rate': 1.8516629812690167e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6780246496200562, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 1.2}
{'loss': 0.7377, 'learning_rate': 1.8511999219270093e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6809241771697998, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 1.2}
{'loss': 0.7947, 'learning_rate': 1.8507361990396958e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6798559427261353, 'eval_runtime': 0.9911, 'eval_samples_per_second': 5.045, 'eval_steps_per_second': 1.009, 'epoch': 1.21}
{'loss': 1.2572, 'learning_rate': 1.8502718129685665e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6750831604003906, 'eval_runtime': 0.9976, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 1.21}
{'loss': 0.7956, 'learning_rate': 1.8498067640756302e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6720168590545654, 'eval_runtime': 1.0583, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 1.21}
{'loss': 1.0182, 'learning_rate': 1.849341052723411e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6661182641983032, 'eval_runtime': 1.0015, 'eval_samples_per_second': 4.992, 'eval_steps_per_second': 0.998, 'epoch': 1.21}
{'loss': 0.9924, 'learning_rate': 1.84887467927495e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.662533164024353, 'eval_runtime': 1.0393, 'eval_samples_per_second': 4.811, 'eval_steps_per_second': 0.962, 'epoch': 1.21}
{'loss': 0.8056, 'learning_rate': 1.8484076440938046e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6596386432647705, 'eval_runtime': 0.977, 'eval_samples_per_second': 5.118, 'eval_steps_per_second': 1.024, 'epoch': 1.21}
{'loss': 0.9625, 'learning_rate': 1.847939947544048e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6536810398101807, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 1.22}
{'loss': 0.9088, 'learning_rate': 1.847471589990269e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6505855321884155, 'eval_runtime': 0.9973, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 1.22}
{'loss': 0.9462, 'learning_rate': 1.8470025717975714e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6509249210357666, 'eval_runtime': 0.9574, 'eval_samples_per_second': 5.222, 'eval_steps_per_second': 1.044, 'epoch': 1.22}
{'loss': 1.038, 'learning_rate': 1.846532893331574e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6544301509857178, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 1.22}
{'loss': 1.0671, 'learning_rate': 1.8460625549584106e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.659644365310669, 'eval_runtime': 1.0079, 'eval_samples_per_second': 4.961, 'eval_steps_per_second': 0.992, 'epoch': 1.22}
{'loss': 0.9252, 'learning_rate': 1.8455915570447293e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6616847515106201, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.22}
{'loss': 0.7108, 'learning_rate': 1.845119899957692e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6632215976715088, 'eval_runtime': 0.9429, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 1.23}
{'loss': 1.2142, 'learning_rate': 1.8446475840649756e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6642433404922485, 'eval_runtime': 0.9882, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 1.23}
{'loss': 1.0633, 'learning_rate': 1.844174609734769e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6653554439544678, 'eval_runtime': 1.0471, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 1.23}
{'loss': 0.9791, 'learning_rate': 1.843700977335775e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6677844524383545, 'eval_runtime': 0.9607, 'eval_samples_per_second': 5.204, 'eval_steps_per_second': 1.041, 'epoch': 1.23}
{'loss': 0.8754, 'learning_rate': 1.8432266872372104e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6690202951431274, 'eval_runtime': 0.9783, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 1.23}
{'loss': 0.8294, 'learning_rate': 1.8427517398088032e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6786458492279053, 'eval_runtime': 0.9407, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 1.23}
{'loss': 1.2751, 'learning_rate': 1.8422761354207944e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6899268627166748, 'eval_runtime': 1.0045, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 1.23}
{'loss': 1.0051, 'learning_rate': 1.841799874443937e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6951243877410889, 'eval_runtime': 0.9549, 'eval_samples_per_second': 5.236, 'eval_steps_per_second': 1.047, 'epoch': 1.24}
{'loss': 0.8558, 'learning_rate': 1.8413229572494967e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7033765316009521, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 1.24}
{'loss': 0.839, 'learning_rate': 1.8408453842092492e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.711534857749939, 'eval_runtime': 0.9673, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 1.24}
{'loss': 0.6898, 'learning_rate': 1.840367155695483e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7175287008285522, 'eval_runtime': 1.0571, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 1.24}
{'loss': 0.6849, 'learning_rate': 1.8398882720809963e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.728684425354004, 'eval_runtime': 1.0507, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 1.24}
{'loss': 1.1201, 'learning_rate': 1.8394087337390992e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7303756475448608, 'eval_runtime': 1.0176, 'eval_samples_per_second': 4.914, 'eval_steps_per_second': 0.983, 'epoch': 1.24}
{'loss': 1.0983, 'learning_rate': 1.8389285410436106e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7296310663223267, 'eval_runtime': 1.0189, 'eval_samples_per_second': 4.907, 'eval_steps_per_second': 0.981, 'epoch': 1.25}
{'loss': 1.1673, 'learning_rate': 1.8384476943688613e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7298002243041992, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 1.25}
{'loss': 1.1643, 'learning_rate': 1.837966194089691e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.726039171218872, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 1.25}
{'loss': 0.9453, 'learning_rate': 1.837484040581448e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7249624729156494, 'eval_runtime': 0.9853, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 1.25}
{'loss': 1.0884, 'learning_rate': 1.837001234219992e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7215850353240967, 'eval_runtime': 0.9441, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 1.25}
{'loss': 0.8959, 'learning_rate': 1.8365177753816896e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7182490825653076, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 1.25}
{'loss': 0.9597, 'learning_rate': 1.8360336644434172e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7207790613174438, 'eval_runtime': 1.0592, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 1.26}
{'loss': 0.9505, 'learning_rate': 1.835548901782559e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7204678058624268, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 1.26}
{'loss': 1.1844, 'learning_rate': 1.8350634877770072e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7266833782196045, 'eval_runtime': 0.9953, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 1.26}
{'loss': 0.8884, 'learning_rate': 1.8345774228051626e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7342945337295532, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 1.26}
{'loss': 0.6854, 'learning_rate': 1.834090707245932e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.73959219455719, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 1.26}
{'loss': 1.0061, 'learning_rate': 1.833603341478731e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.750365972518921, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 1.26}
{'loss': 0.94, 'learning_rate': 1.8331153258834803e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7533009052276611, 'eval_runtime': 0.9611, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 1.27}
{'loss': 0.7255, 'learning_rate': 1.8326266608406088e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7561848163604736, 'eval_runtime': 1.0015, 'eval_samples_per_second': 4.993, 'eval_steps_per_second': 0.999, 'epoch': 1.27}
{'loss': 0.8909, 'learning_rate': 1.832137346731051e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.759090781211853, 'eval_runtime': 0.9462, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 1.27}
{'loss': 1.1558, 'learning_rate': 1.831647383936247e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7594785690307617, 'eval_runtime': 1.0036, 'eval_samples_per_second': 4.982, 'eval_steps_per_second': 0.996, 'epoch': 1.27}
{'loss': 1.0523, 'learning_rate': 1.8311567728381428e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7567474842071533, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.27}
{'loss': 1.0398, 'learning_rate': 1.8306655138191906e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.755821943283081, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 1.27}
{'loss': 0.9253, 'learning_rate': 1.8301736072623466e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7562930583953857, 'eval_runtime': 0.9428, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 1.28}
{'loss': 1.0322, 'learning_rate': 1.8296810535510717e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7576500177383423, 'eval_runtime': 1.0328, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 1.28}
{'loss': 0.9725, 'learning_rate': 1.8291878530693324e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7599214315414429, 'eval_runtime': 0.9749, 'eval_samples_per_second': 5.129, 'eval_steps_per_second': 1.026, 'epoch': 1.28}
{'loss': 1.172, 'learning_rate': 1.8286940062015987e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7616469860076904, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 1.28}
{'loss': 0.9784, 'learning_rate': 1.828199513332844e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7629029750823975, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 1.28}
{'loss': 1.0144, 'learning_rate': 1.8277043748485464e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7567980289459229, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 1.28}
{'loss': 0.993, 'learning_rate': 1.8272085911346864e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7514158487319946, 'eval_runtime': 0.9379, 'eval_samples_per_second': 5.331, 'eval_steps_per_second': 1.066, 'epoch': 1.29}
{'loss': 1.004, 'learning_rate': 1.8267121625777476e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7493047714233398, 'eval_runtime': 1.0068, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 1.29}
{'loss': 0.9406, 'learning_rate': 1.826215089564717e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.750128984451294, 'eval_runtime': 1.0006, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 1.29}
{'loss': 0.9727, 'learning_rate': 1.8257173724830828e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7523250579833984, 'eval_runtime': 1.0439, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 1.29}
{'loss': 1.23, 'learning_rate': 1.825219011720836e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.752920389175415, 'eval_runtime': 1.0415, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 1.29}
{'loss': 1.0364, 'learning_rate': 1.82472000766647e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7503541707992554, 'eval_runtime': 0.9571, 'eval_samples_per_second': 5.224, 'eval_steps_per_second': 1.045, 'epoch': 1.29}
{'loss': 0.8865, 'learning_rate': 1.8242203607089782e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7461611032485962, 'eval_runtime': 0.9602, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 1.3}
{'loss': 0.9442, 'learning_rate': 1.8237200712378563e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7469364404678345, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.994, 'eval_steps_per_second': 0.999, 'epoch': 1.3}
{'loss': 0.991, 'learning_rate': 1.8232191396431003e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7396314144134521, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 1.3}
{'loss': 1.3045, 'learning_rate': 1.8227175663152068e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7280193567276, 'eval_runtime': 0.9443, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 1.3}
{'loss': 1.0974, 'learning_rate': 1.8222153516451734e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7173572778701782, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 1.3}
{'loss': 1.0721, 'learning_rate': 1.8217124960244967e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7096198797225952, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 1.3}
{'loss': 1.2357, 'learning_rate': 1.8212089998451726e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7044187784194946, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.31}
{'loss': 0.7985, 'learning_rate': 1.8207048634996987e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.706459403038025, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 1.31}
{'loss': 0.8044, 'learning_rate': 1.8202000873810687e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7100579738616943, 'eval_runtime': 0.9866, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 1.31}
{'loss': 1.0059, 'learning_rate': 1.8196946718827763e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7086910009384155, 'eval_runtime': 1.0219, 'eval_samples_per_second': 4.893, 'eval_steps_per_second': 0.979, 'epoch': 1.31}
{'loss': 0.9112, 'learning_rate': 1.8191886173988146e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7135311365127563, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 1.31}
{'loss': 0.9163, 'learning_rate': 1.818681924323673e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.722394585609436, 'eval_runtime': 0.9715, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 1.31}
{'loss': 1.3405, 'learning_rate': 1.81817459305234e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7297780513763428, 'eval_runtime': 1.0209, 'eval_samples_per_second': 4.898, 'eval_steps_per_second': 0.98, 'epoch': 1.32}
{'loss': 0.9869, 'learning_rate': 1.817666623980301e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7339837551116943, 'eval_runtime': 0.9921, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 1.32}
{'loss': 0.9114, 'learning_rate': 1.8171580175035387e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7263683080673218, 'eval_runtime': 0.9511, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 1.32}
{'loss': 1.4703, 'learning_rate': 1.816648774018533e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7079025506973267, 'eval_runtime': 1.0185, 'eval_samples_per_second': 4.909, 'eval_steps_per_second': 0.982, 'epoch': 1.32}
{'loss': 0.9203, 'learning_rate': 1.81613889392226e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6938482522964478, 'eval_runtime': 0.9972, 'eval_samples_per_second': 5.014, 'eval_steps_per_second': 1.003, 'epoch': 1.32}
{'loss': 0.7629, 'learning_rate': 1.8156283776121918e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.686784029006958, 'eval_runtime': 0.9798, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 1.32}
{'loss': 1.0501, 'learning_rate': 1.815117225486297e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6834051609039307, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 1.32}
{'loss': 0.9805, 'learning_rate': 1.8146054379430404e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.682112455368042, 'eval_runtime': 1.0582, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 1.33}
{'loss': 1.1329, 'learning_rate': 1.8140930153813804e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6847069263458252, 'eval_runtime': 1.0445, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 1.33}
{'loss': 0.8773, 'learning_rate': 1.8135799582007726e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6873314380645752, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 1.33}
{'loss': 1.0702, 'learning_rate': 1.8130662668011648e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6893022060394287, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 1.33}
{'loss': 1.235, 'learning_rate': 1.8125519415830012e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6911283731460571, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 1.33}
{'loss': 1.1973, 'learning_rate': 1.8120369829472195e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6910492181777954, 'eval_runtime': 0.9945, 'eval_samples_per_second': 5.027, 'eval_steps_per_second': 1.005, 'epoch': 1.33}
{'loss': 1.1492, 'learning_rate': 1.8115213912952512e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6890785694122314, 'eval_runtime': 1.047, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 1.34}
{'loss': 1.1131, 'learning_rate': 1.8110051670290206e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6880439519882202, 'eval_runtime': 0.9621, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 1.34}
{'loss': 1.2511, 'learning_rate': 1.8104883105509467e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.688675880432129, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 1.34}
{'loss': 1.1261, 'learning_rate': 1.8099708222639396e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680131196975708, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 1.34}
{'loss': 0.9884, 'learning_rate': 1.8094527025714028e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.677243947982788, 'eval_runtime': 0.988, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 1.34}
{'loss': 1.1592, 'learning_rate': 1.8089339518772318e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.67660653591156, 'eval_runtime': 1.0484, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 1.34}
{'loss': 0.9699, 'learning_rate': 1.8084145705858144e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675182580947876, 'eval_runtime': 1.0576, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 1.35}
{'loss': 0.7281, 'learning_rate': 1.8078945591020295e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674501657485962, 'eval_runtime': 0.9989, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 1.35}
{'loss': 1.2575, 'learning_rate': 1.8073739178312473e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6736977100372314, 'eval_runtime': 0.9397, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 1.35}
{'loss': 0.7053, 'learning_rate': 1.8068526471793292e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6712690591812134, 'eval_runtime': 0.9898, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 1.35}
{'loss': 0.8518, 'learning_rate': 1.806330747552627e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6773468255996704, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 1.35}
{'loss': 0.9158, 'learning_rate': 1.805808219357983e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6834938526153564, 'eval_runtime': 0.9933, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 1.35}
{'loss': 1.0248, 'learning_rate': 1.8052850630027288e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.686071753501892, 'eval_runtime': 0.9518, 'eval_samples_per_second': 5.253, 'eval_steps_per_second': 1.051, 'epoch': 1.36}
{'loss': 0.9115, 'learning_rate': 1.8047612788946876e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.686882734298706, 'eval_runtime': 1.0441, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 1.36}
{'loss': 0.8936, 'learning_rate': 1.8042368674421694e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.684033751487732, 'eval_runtime': 0.9791, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 1.36}
{'loss': 0.8062, 'learning_rate': 1.803711829053975e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6825683116912842, 'eval_runtime': 0.9896, 'eval_samples_per_second': 5.053, 'eval_steps_per_second': 1.011, 'epoch': 1.36}
{'loss': 0.9696, 'learning_rate': 1.8031861641393937e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6828008890151978, 'eval_runtime': 1.0154, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 1.36}
{'loss': 1.1496, 'learning_rate': 1.8026598731082017e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6816562414169312, 'eval_runtime': 0.9903, 'eval_samples_per_second': 5.049, 'eval_steps_per_second': 1.01, 'epoch': 1.36}
{'loss': 1.1762, 'learning_rate': 1.8021329563706656e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680582046508789, 'eval_runtime': 0.967, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 1.37}
{'loss': 0.8452, 'learning_rate': 1.8016054143375386e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6793543100357056, 'eval_runtime': 0.9817, 'eval_samples_per_second': 5.093, 'eval_steps_per_second': 1.019, 'epoch': 1.37}
{'loss': 1.0, 'learning_rate': 1.8010772474200608e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6796706914901733, 'eval_runtime': 0.9672, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 1.37}
{'loss': 0.8738, 'learning_rate': 1.8005484560299605e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6830484867095947, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 1.37}
{'loss': 0.794, 'learning_rate': 1.800019040579452e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6851810216903687, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 1.37}
{'loss': 0.9612, 'learning_rate': 1.7994890014812365e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6810615062713623, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 1.37}
{'loss': 0.8422, 'learning_rate': 1.7989583391485013e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6718496084213257, 'eval_runtime': 1.0229, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 1.38}
{'loss': 1.0342, 'learning_rate': 1.7984270539949193e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6664119958877563, 'eval_runtime': 0.9517, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 1.38}
{'loss': 0.9205, 'learning_rate': 1.7978951464346495e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.662520170211792, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 1.38}
{'loss': 0.8549, 'learning_rate': 1.797362616882335e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6609735488891602, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 1.38}
{'loss': 1.2462, 'learning_rate': 1.7968294657531052e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.655987024307251, 'eval_runtime': 1.0003, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 1.38}
{'loss': 0.8936, 'learning_rate': 1.7962956934625733e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6523492336273193, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.38}
{'loss': 0.9587, 'learning_rate': 1.7957613004268363e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6511361598968506, 'eval_runtime': 0.9995, 'eval_samples_per_second': 5.003, 'eval_steps_per_second': 1.001, 'epoch': 1.39}
{'loss': 0.8752, 'learning_rate': 1.7952262870624753e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6520363092422485, 'eval_runtime': 0.985, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 1.39}
{'loss': 0.8983, 'learning_rate': 1.7946906537865558e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6588294506072998, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 1.39}
{'loss': 1.0869, 'learning_rate': 1.7941544010166257e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.663766622543335, 'eval_runtime': 0.9529, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 1.39}
{'loss': 0.8078, 'learning_rate': 1.793617529170716e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6694824695587158, 'eval_runtime': 1.0382, 'eval_samples_per_second': 4.816, 'eval_steps_per_second': 0.963, 'epoch': 1.39}
{'loss': 0.7603, 'learning_rate': 1.7930800386673405e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676854133605957, 'eval_runtime': 0.9631, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 1.39}
{'loss': 1.4249, 'learning_rate': 1.7925419299254953e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6789929866790771, 'eval_runtime': 1.0472, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 1.4}
{'loss': 0.8066, 'learning_rate': 1.7920032033646573e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6810495853424072, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 1.4}
{'loss': 1.1095, 'learning_rate': 1.7914638594047876e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6805760860443115, 'eval_runtime': 0.9383, 'eval_samples_per_second': 5.329, 'eval_steps_per_second': 1.066, 'epoch': 1.4}
{'loss': 1.1797, 'learning_rate': 1.7909238984663257e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.679176688194275, 'eval_runtime': 1.01, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 1.4}
{'loss': 0.9174, 'learning_rate': 1.7903833209701935e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6779342889785767, 'eval_runtime': 0.9944, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 1.4}
{'loss': 1.072, 'learning_rate': 1.789842127337794e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.679448127746582, 'eval_runtime': 1.0098, 'eval_samples_per_second': 4.951, 'eval_steps_per_second': 0.99, 'epoch': 1.4}
{'loss': 0.9439, 'learning_rate': 1.789300317991009e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6837600469589233, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 1.4}
{'loss': 1.1671, 'learning_rate': 1.788757893352202e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6855404376983643, 'eval_runtime': 0.9525, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 1.41}
{'loss': 1.0595, 'learning_rate': 1.7882148538442145e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6829274892807007, 'eval_runtime': 0.9989, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 1.41}
{'loss': 1.036, 'learning_rate': 1.7876711998903686e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680728554725647, 'eval_runtime': 0.9812, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 1.41}
{'loss': 0.878, 'learning_rate': 1.7871269319144652e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.678781270980835, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.41}
{'loss': 0.7887, 'learning_rate': 1.7865820503407824e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6777397394180298, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 1.41}
{'loss': 0.86, 'learning_rate': 1.786036555594079e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6819740533828735, 'eval_runtime': 0.9765, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 1.41}
{'loss': 1.1784, 'learning_rate': 1.7854904480995897e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6831958293914795, 'eval_runtime': 0.9959, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 1.42}
{'loss': 1.0441, 'learning_rate': 1.7849437282830285e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6753807067871094, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 1.42}
{'loss': 0.7497, 'learning_rate': 1.7843963965705854e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.669489860534668, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.42}
{'loss': 0.8889, 'learning_rate': 1.783848453388928e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6696112155914307, 'eval_runtime': 0.9743, 'eval_samples_per_second': 5.132, 'eval_steps_per_second': 1.026, 'epoch': 1.42}
{'loss': 1.3176, 'learning_rate': 1.7832998991652007e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6712499856948853, 'eval_runtime': 0.9546, 'eval_samples_per_second': 5.238, 'eval_steps_per_second': 1.048, 'epoch': 1.42}
{'loss': 1.1155, 'learning_rate': 1.782750734327024e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6754430532455444, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 1.42}
{'loss': 1.0004, 'learning_rate': 1.7822009593024942e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6780685186386108, 'eval_runtime': 0.9712, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 1.43}
{'loss': 0.9192, 'learning_rate': 1.7816505745201838e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6822229623794556, 'eval_runtime': 0.9548, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 1.43}
{'loss': 1.039, 'learning_rate': 1.78109958040914e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6889206171035767, 'eval_runtime': 0.9543, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 1.43}
{'loss': 1.0755, 'learning_rate': 1.7805479773988865e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694537878036499, 'eval_runtime': 0.9522, 'eval_samples_per_second': 5.251, 'eval_steps_per_second': 1.05, 'epoch': 1.43}
{'loss': 1.023, 'learning_rate': 1.779995765919419e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6955397129058838, 'eval_runtime': 1.0444, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 1.43}
{'loss': 1.1009, 'learning_rate': 1.77944294640121e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6956150531768799, 'eval_runtime': 1.0213, 'eval_samples_per_second': 4.896, 'eval_steps_per_second': 0.979, 'epoch': 1.43}
{'loss': 1.3013, 'learning_rate': 1.7788895192752042e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6941391229629517, 'eval_runtime': 1.0568, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 1.44}
{'loss': 1.0474, 'learning_rate': 1.7783354849728214e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692878007888794, 'eval_runtime': 0.9582, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 1.44}
{'loss': 1.2962, 'learning_rate': 1.777780843925954e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6858680248260498, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 1.44}
{'loss': 0.9971, 'learning_rate': 1.7772255965669676e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6838610172271729, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.44}
{'loss': 0.9477, 'learning_rate': 1.7766697433287e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6820433139801025, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.44}
{'loss': 1.0905, 'learning_rate': 1.776113284644462e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6818864345550537, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.44}
{'loss': 0.9904, 'learning_rate': 1.7755562209480358e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.678067922592163, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.45}
{'loss': 0.8994, 'learning_rate': 1.7749985526736756e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6819887161254883, 'eval_runtime': 0.963, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 1.45}
{'loss': 1.1104, 'learning_rate': 1.7744402802561062e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6898062229156494, 'eval_runtime': 0.9578, 'eval_samples_per_second': 5.22, 'eval_steps_per_second': 1.044, 'epoch': 1.45}
{'loss': 1.0202, 'learning_rate': 1.7738814041305245e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6941940784454346, 'eval_runtime': 0.9708, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 1.45}
{'loss': 0.9108, 'learning_rate': 1.773321924732597e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6905514001846313, 'eval_runtime': 0.9829, 'eval_samples_per_second': 5.087, 'eval_steps_per_second': 1.017, 'epoch': 1.45}
{'loss': 1.2914, 'learning_rate': 1.772761842498461e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6902519464492798, 'eval_runtime': 0.9873, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 1.45}
{'loss': 0.8571, 'learning_rate': 1.772201157864724e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6922247409820557, 'eval_runtime': 0.9515, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 1.46}
{'loss': 1.1041, 'learning_rate': 1.7716398712684618e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6884772777557373, 'eval_runtime': 1.0559, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 1.46}
{'loss': 1.0657, 'learning_rate': 1.7710779831472213e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.685765266418457, 'eval_runtime': 1.0073, 'eval_samples_per_second': 4.964, 'eval_steps_per_second': 0.993, 'epoch': 1.46}
{'loss': 1.1007, 'learning_rate': 1.770515493939017e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6847779750823975, 'eval_runtime': 0.9665, 'eval_samples_per_second': 5.174, 'eval_steps_per_second': 1.035, 'epoch': 1.46}
{'loss': 0.7945, 'learning_rate': 1.769952404082332e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6859840154647827, 'eval_runtime': 0.9806, 'eval_samples_per_second': 5.099, 'eval_steps_per_second': 1.02, 'epoch': 1.46}
{'loss': 0.8233, 'learning_rate': 1.7693887140161186e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6892576217651367, 'eval_runtime': 1.0055, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 1.46}
{'loss': 1.1007, 'learning_rate': 1.7688244241797957e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6900489330291748, 'eval_runtime': 0.9996, 'eval_samples_per_second': 5.002, 'eval_steps_per_second': 1.0, 'epoch': 1.47}
{'loss': 1.1337, 'learning_rate': 1.7682595350132513e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6907999515533447, 'eval_runtime': 0.9474, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 1.47}
{'loss': 1.0065, 'learning_rate': 1.7676940469568387e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.690192461013794, 'eval_runtime': 1.0442, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 1.47}
{'loss': 0.9096, 'learning_rate': 1.7671279604513798e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.698833703994751, 'eval_runtime': 0.9923, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 1.47}
{'loss': 0.7825, 'learning_rate': 1.766561275938162e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7095142602920532, 'eval_runtime': 0.9499, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 1.47}
{'loss': 1.2259, 'learning_rate': 1.7659939938589393e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7211196422576904, 'eval_runtime': 0.9872, 'eval_samples_per_second': 5.065, 'eval_steps_per_second': 1.013, 'epoch': 1.47}
{'loss': 0.8966, 'learning_rate': 1.7654261146559314e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7231485843658447, 'eval_runtime': 0.9658, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 1.48}
{'loss': 1.1982, 'learning_rate': 1.764857638771823e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7243388891220093, 'eval_runtime': 0.9941, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 1.48}
{'loss': 1.0304, 'learning_rate': 1.764288566649765e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7294270992279053, 'eval_runtime': 1.0484, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 1.48}
{'loss': 0.9091, 'learning_rate': 1.7637188987333718e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.727113962173462, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 1.48}
{'loss': 1.0409, 'learning_rate': 1.7631486354667234e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7347018718719482, 'eval_runtime': 0.9952, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 1.48}
{'loss': 1.1969, 'learning_rate': 1.762577777294364e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.746830701828003, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 1.48}
{'loss': 0.7699, 'learning_rate': 1.7620063246613002e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.756338357925415, 'eval_runtime': 0.9977, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 1.49}
{'loss': 0.7302, 'learning_rate': 1.761434278013003e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7596607208251953, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.49}
{'loss': 0.9141, 'learning_rate': 1.7608616377954063e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7579143047332764, 'eval_runtime': 0.9724, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 1.49}
{'loss': 0.7379, 'learning_rate': 1.7602884044549068e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.756329894065857, 'eval_runtime': 1.0247, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 1.49}
{'loss': 1.1512, 'learning_rate': 1.759714578438363e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7622044086456299, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 1.49}
{'loss': 1.1929, 'learning_rate': 1.7591401601930965e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7645761966705322, 'eval_runtime': 1.0389, 'eval_samples_per_second': 4.813, 'eval_steps_per_second': 0.963, 'epoch': 1.49}
{'loss': 1.24, 'learning_rate': 1.7585651501668893e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.760629415512085, 'eval_runtime': 0.9606, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 1.49}
{'loss': 1.0984, 'learning_rate': 1.7579895488079856e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7528473138809204, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.5}
{'loss': 0.9605, 'learning_rate': 1.7574133565650905e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7412036657333374, 'eval_runtime': 0.9936, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 1.5}
{'loss': 0.8766, 'learning_rate': 1.7568365738873694e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7372385263442993, 'eval_runtime': 0.9542, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 1.5}
{'loss': 0.9963, 'learning_rate': 1.756259201224448e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.735440969467163, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.5}
{'loss': 1.0573, 'learning_rate': 1.755681239026412e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7232816219329834, 'eval_runtime': 1.0302, 'eval_samples_per_second': 4.853, 'eval_steps_per_second': 0.971, 'epoch': 1.5}
{'loss': 1.0444, 'learning_rate': 1.7551026877438065e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7138996124267578, 'eval_runtime': 1.0008, 'eval_samples_per_second': 4.996, 'eval_steps_per_second': 0.999, 'epoch': 1.5}
{'loss': 1.2153, 'learning_rate': 1.7545235478276366e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.70651376247406, 'eval_runtime': 0.9703, 'eval_samples_per_second': 5.153, 'eval_steps_per_second': 1.031, 'epoch': 1.51}
{'loss': 1.0953, 'learning_rate': 1.753943819729365e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7000192403793335, 'eval_runtime': 0.9695, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 1.51}
{'loss': 1.2427, 'learning_rate': 1.7533635039009137e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.698791742324829, 'eval_runtime': 1.0189, 'eval_samples_per_second': 4.907, 'eval_steps_per_second': 0.981, 'epoch': 1.51}
{'loss': 1.0392, 'learning_rate': 1.7527826007946632e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6983516216278076, 'eval_runtime': 0.9453, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 1.51}
{'loss': 1.0116, 'learning_rate': 1.752201110863451e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6961063146591187, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 1.51}
{'loss': 0.8202, 'learning_rate': 1.7516190345605722e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6965621709823608, 'eval_runtime': 0.9833, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 1.51}
{'loss': 0.7624, 'learning_rate': 1.7510363723397795e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7011539936065674, 'eval_runtime': 1.0269, 'eval_samples_per_second': 4.869, 'eval_steps_per_second': 0.974, 'epoch': 1.52}
{'loss': 0.8792, 'learning_rate': 1.7504531246552815e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7072579860687256, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 1.52}
{'loss': 0.873, 'learning_rate': 1.7498692919617447e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7146975994110107, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 1.52}
{'loss': 1.1753, 'learning_rate': 1.7492848747142898e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7188093662261963, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 1.52}
{'loss': 1.2019, 'learning_rate': 1.7486998733684948e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7144666910171509, 'eval_runtime': 1.0173, 'eval_samples_per_second': 4.915, 'eval_steps_per_second': 0.983, 'epoch': 1.52}
{'loss': 0.8602, 'learning_rate': 1.7481142883803914e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7085378170013428, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 1.52}
{'loss': 1.0708, 'learning_rate': 1.7475281202064676e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7062864303588867, 'eval_runtime': 1.0573, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 1.53}
{'loss': 0.9367, 'learning_rate': 1.7469413693036657e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7048776149749756, 'eval_runtime': 0.9979, 'eval_samples_per_second': 5.011, 'eval_steps_per_second': 1.002, 'epoch': 1.53}
{'loss': 0.9396, 'learning_rate': 1.746354036129382e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6990944147109985, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 1.53}
{'loss': 0.9711, 'learning_rate': 1.745766121141467e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6950304508209229, 'eval_runtime': 1.0592, 'eval_samples_per_second': 4.721, 'eval_steps_per_second': 0.944, 'epoch': 1.53}
{'loss': 0.971, 'learning_rate': 1.745177624798224e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6910550594329834, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 1.53}
{'loss': 0.9815, 'learning_rate': 1.744588547558411e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6860144138336182, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 1.53}
{'loss': 0.9694, 'learning_rate': 1.743998889881237e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6825077533721924, 'eval_runtime': 1.0238, 'eval_samples_per_second': 4.884, 'eval_steps_per_second': 0.977, 'epoch': 1.54}
{'loss': 0.8331, 'learning_rate': 1.743408652226365e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6821949481964111, 'eval_runtime': 0.9451, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 1.54}
{'loss': 0.9603, 'learning_rate': 1.7428178350539093e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6849273443222046, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.54}
{'loss': 1.1036, 'learning_rate': 1.742226438824436e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6873314380645752, 'eval_runtime': 0.964, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 1.54}
{'loss': 0.8981, 'learning_rate': 1.741634463998963e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6914846897125244, 'eval_runtime': 0.9625, 'eval_samples_per_second': 5.195, 'eval_steps_per_second': 1.039, 'epoch': 1.54}
{'loss': 1.1322, 'learning_rate': 1.7410419110389593e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6951488256454468, 'eval_runtime': 1.0087, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 1.54}
{'loss': 1.0244, 'learning_rate': 1.7404487804063434e-05, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6948829889297485, 'eval_runtime': 0.9757, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 1.55}
{'loss': 0.9259, 'learning_rate': 1.7398550725634853e-05, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695591688156128, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.55}
{'loss': 0.874, 'learning_rate': 1.739260787973205e-05, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6974494457244873, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 1.55}
{'loss': 0.9291, 'learning_rate': 1.738665927098772e-05, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7006118297576904, 'eval_runtime': 1.0182, 'eval_samples_per_second': 4.911, 'eval_steps_per_second': 0.982, 'epoch': 1.55}
{'loss': 1.1007, 'learning_rate': 1.738070490403904e-05, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6991832256317139, 'eval_runtime': 1.0239, 'eval_samples_per_second': 4.883, 'eval_steps_per_second': 0.977, 'epoch': 1.55}
{'loss': 1.2717, 'learning_rate': 1.7374744783527684e-05, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6965004205703735, 'eval_runtime': 0.9683, 'eval_samples_per_second': 5.164, 'eval_steps_per_second': 1.033, 'epoch': 1.55}
{'loss': 0.8181, 'learning_rate': 1.736877891409982e-05, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6915264129638672, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 1.56}
{'loss': 1.1747, 'learning_rate': 1.7362807300406074e-05, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6870044469833374, 'eval_runtime': 1.0247, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 1.56}
{'loss': 1.1255, 'learning_rate': 1.735682994710158e-05, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.682567834854126, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 1.56}
{'loss': 0.9226, 'learning_rate': 1.735084685884592e-05, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6778762340545654, 'eval_runtime': 0.9961, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 1.56}
{'loss': 1.0671, 'learning_rate': 1.734485804030316e-05, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772692203521729, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 1.56}
{'loss': 1.0031, 'learning_rate': 1.7338863496141834e-05, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.673868179321289, 'eval_runtime': 1.0273, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 1.56}
{'loss': 0.8543, 'learning_rate': 1.7332863231034928e-05, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6747795343399048, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 1.57}
{'loss': 1.111, 'learning_rate': 1.73268572496599e-05, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6745964288711548, 'eval_runtime': 0.9596, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 1.57}
{'loss': 0.9169, 'learning_rate': 1.7320845556698657e-05, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6714637279510498, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 1.57}
{'loss': 0.9322, 'learning_rate': 1.731482815683756e-05, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6733243465423584, 'eval_runtime': 1.0272, 'eval_samples_per_second': 4.868, 'eval_steps_per_second': 0.974, 'epoch': 1.57}
{'loss': 1.0396, 'learning_rate': 1.7308805054767422e-05, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6717817783355713, 'eval_runtime': 0.954, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 1.57}
{'loss': 0.7398, 'learning_rate': 1.73027762551835e-05, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.671673059463501, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 1.57}
{'loss': 0.9308, 'learning_rate': 1.7296741762785484e-05, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.672480583190918, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 1.58}
{'loss': 0.7108, 'learning_rate': 1.7290701582277515e-05, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675731897354126, 'eval_runtime': 0.9938, 'eval_samples_per_second': 5.031, 'eval_steps_per_second': 1.006, 'epoch': 1.58}
{'loss': 0.8915, 'learning_rate': 1.7284655718368162e-05, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6840378046035767, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 1.58}
{'loss': 1.0072, 'learning_rate': 1.727860417577042e-05, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6893621683120728, 'eval_runtime': 0.9922, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 1.58}
{'loss': 0.8944, 'learning_rate': 1.7272546959201716e-05, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6867259740829468, 'eval_runtime': 0.9605, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 1.58}
{'loss': 0.7198, 'learning_rate': 1.7266484073383903e-05, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6830756664276123, 'eval_runtime': 0.9689, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 1.58}
{'loss': 0.9723, 'learning_rate': 1.7260415523043247e-05, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6800094842910767, 'eval_runtime': 0.9883, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 1.58}
{'loss': 0.824, 'learning_rate': 1.725434131291043e-05, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6775459051132202, 'eval_runtime': 1.0155, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 1.59}
{'loss': 1.4431, 'learning_rate': 1.724826144772055e-05, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674654245376587, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 1.59}
{'loss': 1.1823, 'learning_rate': 1.7242175932213115e-05, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6689460277557373, 'eval_runtime': 1.0138, 'eval_samples_per_second': 4.932, 'eval_steps_per_second': 0.986, 'epoch': 1.59}
{'loss': 0.8847, 'learning_rate': 1.723608477113203e-05, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6623022556304932, 'eval_runtime': 1.0075, 'eval_samples_per_second': 4.963, 'eval_steps_per_second': 0.993, 'epoch': 1.59}
{'loss': 1.2919, 'learning_rate': 1.722998796922561e-05, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6547253131866455, 'eval_runtime': 0.9973, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 1.59}
{'loss': 1.2484, 'learning_rate': 1.7223885531246557e-05, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6444051265716553, 'eval_runtime': 0.9406, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 1.59}
{'loss': 0.9065, 'learning_rate': 1.7217777461951973e-05, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.635946273803711, 'eval_runtime': 1.0399, 'eval_samples_per_second': 4.808, 'eval_steps_per_second': 0.962, 'epoch': 1.6}
{'loss': 1.0496, 'learning_rate': 1.7211663766103352e-05, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6334927082061768, 'eval_runtime': 0.9865, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 1.6}
{'loss': 0.8977, 'learning_rate': 1.7205544448466568e-05, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6331136226654053, 'eval_runtime': 0.9985, 'eval_samples_per_second': 5.008, 'eval_steps_per_second': 1.002, 'epoch': 1.6}
{'loss': 1.0324, 'learning_rate': 1.7199419513811882e-05, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6372082233428955, 'eval_runtime': 0.992, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 1.6}
{'loss': 1.0794, 'learning_rate': 1.7193288966913934e-05, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6397345066070557, 'eval_runtime': 1.0437, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 1.6}
{'loss': 1.2816, 'learning_rate': 1.7187152812551736e-05, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6411949396133423, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 1.6}
{'loss': 0.7636, 'learning_rate': 1.7181011055508668e-05, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6436841487884521, 'eval_runtime': 1.0564, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 1.61}
{'loss': 1.0283, 'learning_rate': 1.717486370057249e-05, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6446571350097656, 'eval_runtime': 0.9451, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 1.61}
{'loss': 0.8711, 'learning_rate': 1.716871075253531e-05, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6465911865234375, 'eval_runtime': 1.0002, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 1.61}
{'loss': 1.1688, 'learning_rate': 1.7162552216193606e-05, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6441724300384521, 'eval_runtime': 1.0568, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 1.61}
{'loss': 1.1097, 'learning_rate': 1.7156388096348213e-05, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6423782110214233, 'eval_runtime': 0.9582, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 1.61}
{'loss': 0.8627, 'learning_rate': 1.7150218397804317e-05, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.643200159072876, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 1.61}
{'loss': 1.0457, 'learning_rate': 1.7144043125371442e-05, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.645831823348999, 'eval_runtime': 0.9866, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 1.62}
{'loss': 1.001, 'learning_rate': 1.713786228386348e-05, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6474117040634155, 'eval_runtime': 0.9678, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 1.62}
{'loss': 0.9536, 'learning_rate': 1.713167587809864e-05, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6530910730361938, 'eval_runtime': 0.9423, 'eval_samples_per_second': 5.306, 'eval_steps_per_second': 1.061, 'epoch': 1.62}
{'loss': 1.0168, 'learning_rate': 1.712548391289948e-05, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6547276973724365, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 1.62}
{'loss': 0.8561, 'learning_rate': 1.71192863930929e-05, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6553525924682617, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 1.62}
{'loss': 1.0545, 'learning_rate': 1.711308332351011e-05, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6571509838104248, 'eval_runtime': 0.9924, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 1.62}
{'loss': 0.8305, 'learning_rate': 1.7106874708986664e-05, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.660210371017456, 'eval_runtime': 0.9763, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 1.63}
{'loss': 0.8511, 'learning_rate': 1.7100660554362435e-05, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6551214456558228, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 1.63}
{'loss': 0.9809, 'learning_rate': 1.709444086448161e-05, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6526939868927002, 'eval_runtime': 1.0431, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 1.63}
{'loss': 1.2431, 'learning_rate': 1.708821564419268e-05, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6506564617156982, 'eval_runtime': 1.0138, 'eval_samples_per_second': 4.932, 'eval_steps_per_second': 0.986, 'epoch': 1.63}
{'loss': 0.9962, 'learning_rate': 1.7081984898348483e-05, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6488078832626343, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 1.63}
{'loss': 1.1209, 'learning_rate': 1.7075748631806122e-05, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6466968059539795, 'eval_runtime': 0.9433, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 1.63}
{'loss': 0.833, 'learning_rate': 1.706950684942703e-05, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6504952907562256, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 1.64}
{'loss': 1.0235, 'learning_rate': 1.7063259556076938e-05, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.653153419494629, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 1.64}
{'loss': 0.8618, 'learning_rate': 1.7057006756625857e-05, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6525640487670898, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 1.64}
{'loss': 1.181, 'learning_rate': 1.705074845594811e-05, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6515706777572632, 'eval_runtime': 0.9583, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 1.64}
{'loss': 1.0807, 'learning_rate': 1.7044484658922297e-05, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6528022289276123, 'eval_runtime': 0.9986, 'eval_samples_per_second': 5.007, 'eval_steps_per_second': 1.001, 'epoch': 1.64}
{'loss': 1.0451, 'learning_rate': 1.7038215370431303e-05, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.652014136314392, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 1.64}
{'loss': 1.0441, 'learning_rate': 1.7031940595362296e-05, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.652841567993164, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.65}
{'loss': 1.1322, 'learning_rate': 1.7025660338606722e-05, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6541664600372314, 'eval_runtime': 1.0315, 'eval_samples_per_second': 4.847, 'eval_steps_per_second': 0.969, 'epoch': 1.65}
{'loss': 1.0232, 'learning_rate': 1.70193746050603e-05, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6539793014526367, 'eval_runtime': 1.0438, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 1.65}
{'loss': 1.0989, 'learning_rate': 1.7013083399623018e-05, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6544077396392822, 'eval_runtime': 1.0374, 'eval_samples_per_second': 4.82, 'eval_steps_per_second': 0.964, 'epoch': 1.65}
{'loss': 0.9587, 'learning_rate': 1.7006786727199127e-05, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6555248498916626, 'eval_runtime': 0.9643, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 1.65}
{'loss': 0.9725, 'learning_rate': 1.7000484592697143e-05, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.657721757888794, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 1.65}
{'loss': 0.845, 'learning_rate': 1.6994177001029837e-05, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6553786993026733, 'eval_runtime': 1.0429, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 1.66}
{'loss': 1.0167, 'learning_rate': 1.6987863957114236e-05, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.650347352027893, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 1.66}
{'loss': 0.935, 'learning_rate': 1.698154546587162e-05, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6515823602676392, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.66}
{'loss': 1.1071, 'learning_rate': 1.697522153222751e-05, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6531484127044678, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 1.66}
{'loss': 0.958, 'learning_rate': 1.6968892161111678e-05, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6539806127548218, 'eval_runtime': 1.0398, 'eval_samples_per_second': 4.809, 'eval_steps_per_second': 0.962, 'epoch': 1.66}
{'loss': 1.0598, 'learning_rate': 1.6962557357458117e-05, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.655517816543579, 'eval_runtime': 1.0585, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 1.66}
{'loss': 1.0058, 'learning_rate': 1.6956217126205075e-05, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6571353673934937, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 1.67}
{'loss': 0.989, 'learning_rate': 1.6949871472295023e-05, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6598796844482422, 'eval_runtime': 0.9396, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 1.67}
{'loss': 1.1168, 'learning_rate': 1.6943520400674654e-05, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6653516292572021, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.994, 'eval_steps_per_second': 0.999, 'epoch': 1.67}
{'loss': 0.9716, 'learning_rate': 1.6937163916294896e-05, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.667893409729004, 'eval_runtime': 0.9713, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 1.67}
{'loss': 0.8461, 'learning_rate': 1.6930802024110887e-05, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6716907024383545, 'eval_runtime': 1.0518, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 1.67}
{'loss': 0.8685, 'learning_rate': 1.6924434729081976e-05, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6756751537322998, 'eval_runtime': 0.9981, 'eval_samples_per_second': 5.009, 'eval_steps_per_second': 1.002, 'epoch': 1.67}
{'loss': 1.1675, 'learning_rate': 1.691806203617174e-05, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6795517206192017, 'eval_runtime': 0.9393, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 1.67}
{'loss': 0.845, 'learning_rate': 1.6911683950347954e-05, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6837495565414429, 'eval_runtime': 1.043, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 1.68}
{'loss': 0.9939, 'learning_rate': 1.6905300476582592e-05, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6830589771270752, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.68}
{'loss': 1.2425, 'learning_rate': 1.689891161985184e-05, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6836497783660889, 'eval_runtime': 0.9764, 'eval_samples_per_second': 5.121, 'eval_steps_per_second': 1.024, 'epoch': 1.68}
{'loss': 0.9589, 'learning_rate': 1.6892517385136077e-05, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6833879947662354, 'eval_runtime': 1.0005, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 1.68}
{'loss': 0.9632, 'learning_rate': 1.6886117777419864e-05, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6844823360443115, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 1.68}
{'loss': 1.2037, 'learning_rate': 1.6879712801691958e-05, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6825075149536133, 'eval_runtime': 0.9377, 'eval_samples_per_second': 5.332, 'eval_steps_per_second': 1.066, 'epoch': 1.68}
{'loss': 1.1236, 'learning_rate': 1.687330246294531e-05, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.681016206741333, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 1.69}
{'loss': 1.1387, 'learning_rate': 1.686688676617703e-05, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762983798980713, 'eval_runtime': 1.001, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 1.69}
{'loss': 1.1753, 'learning_rate': 1.686046571638842e-05, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6773216724395752, 'eval_runtime': 0.946, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 1.69}
{'loss': 0.8753, 'learning_rate': 1.6854039318584966e-05, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.67599618434906, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.69}
{'loss': 1.0978, 'learning_rate': 1.6847607577776295e-05, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6752336025238037, 'eval_runtime': 0.9812, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 1.69}
{'loss': 1.1064, 'learning_rate': 1.6841170498976215e-05, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.67180597782135, 'eval_runtime': 0.9991, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 1.69}
{'loss': 1.0561, 'learning_rate': 1.6834728087202696e-05, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6712610721588135, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 1.7}
{'loss': 0.97, 'learning_rate': 1.682828034747786e-05, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757014989852905, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 1.7}
{'loss': 1.1813, 'learning_rate': 1.6821827284827987e-05, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6807187795639038, 'eval_runtime': 0.9671, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 1.7}
{'loss': 0.8681, 'learning_rate': 1.6815368904283505e-05, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6859642267227173, 'eval_runtime': 1.0598, 'eval_samples_per_second': 4.718, 'eval_steps_per_second': 0.944, 'epoch': 1.7}
{'loss': 0.9424, 'learning_rate': 1.6808905210878987e-05, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6717355251312256, 'eval_runtime': 0.9444, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 1.7}
{'loss': 0.9275, 'learning_rate': 1.680243620965315e-05, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6530367136001587, 'eval_runtime': 1.0148, 'eval_samples_per_second': 4.927, 'eval_steps_per_second': 0.985, 'epoch': 1.7}
{'loss': 0.8262, 'learning_rate': 1.6795961905648837e-05, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6381051540374756, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 1.71}
{'loss': 0.9979, 'learning_rate': 1.678948230391304e-05, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6341803073883057, 'eval_runtime': 1.0154, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 1.71}
{'loss': 1.1438, 'learning_rate': 1.6782997409496876e-05, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6294704675674438, 'eval_runtime': 0.9813, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 1.71}
{'loss': 1.1089, 'learning_rate': 1.6776507227455584e-05, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.629732370376587, 'eval_runtime': 0.9573, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 1.71}
{'loss': 0.979, 'learning_rate': 1.6770011762848532e-05, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6308002471923828, 'eval_runtime': 0.9569, 'eval_samples_per_second': 5.225, 'eval_steps_per_second': 1.045, 'epoch': 1.71}
{'loss': 1.0472, 'learning_rate': 1.6763511020739195e-05, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6292425394058228, 'eval_runtime': 1.0328, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 1.71}
{'loss': 0.7973, 'learning_rate': 1.675700500619517e-05, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6307573318481445, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.72}
{'loss': 0.9695, 'learning_rate': 1.675049372428817e-05, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6266262531280518, 'eval_runtime': 0.9861, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 1.72}
{'loss': 0.8758, 'learning_rate': 1.6743977180093995e-05, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6222641468048096, 'eval_runtime': 1.0308, 'eval_samples_per_second': 4.851, 'eval_steps_per_second': 0.97, 'epoch': 1.72}
{'loss': 1.2068, 'learning_rate': 1.673745537869257e-05, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6155189275741577, 'eval_runtime': 0.9969, 'eval_samples_per_second': 5.016, 'eval_steps_per_second': 1.003, 'epoch': 1.72}
{'loss': 0.9711, 'learning_rate': 1.6730928325167898e-05, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.60952627658844, 'eval_runtime': 1.0437, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 1.72}
{'loss': 0.9324, 'learning_rate': 1.672439602460809e-05, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6062049865722656, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 1.72}
{'loss': 0.9095, 'learning_rate': 1.6717858482105346e-05, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6016652584075928, 'eval_runtime': 0.9668, 'eval_samples_per_second': 5.172, 'eval_steps_per_second': 1.034, 'epoch': 1.73}
{'loss': 0.8598, 'learning_rate': 1.671131570275594e-05, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5953620672225952, 'eval_runtime': 1.0341, 'eval_samples_per_second': 4.835, 'eval_steps_per_second': 0.967, 'epoch': 1.73}
{'loss': 0.82, 'learning_rate': 1.6704767691660246e-05, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.594591736793518, 'eval_runtime': 1.0274, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 1.73}
{'loss': 0.9654, 'learning_rate': 1.66982144539227e-05, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.59578537940979, 'eval_runtime': 1.0078, 'eval_samples_per_second': 4.961, 'eval_steps_per_second': 0.992, 'epoch': 1.73}
{'loss': 0.8736, 'learning_rate': 1.6691655994651825e-05, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.597813367843628, 'eval_runtime': 0.9387, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 1.73}
{'loss': 1.0045, 'learning_rate': 1.668509231896021e-05, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6005604267120361, 'eval_runtime': 0.975, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 1.73}
{'loss': 1.3883, 'learning_rate': 1.667852343196451e-05, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6019785404205322, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 1.74}
{'loss': 0.8057, 'learning_rate': 1.6671949338785436e-05, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6013902425765991, 'eval_runtime': 0.9482, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 1.74}
{'loss': 0.8977, 'learning_rate': 1.666537004454777e-05, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5760776996612549, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 1.74}
{'loss': 1.1709, 'learning_rate': 1.6658785554380343e-05, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5576781034469604, 'eval_runtime': 0.9693, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 1.74}
{'loss': 0.95, 'learning_rate': 1.6652195873416027e-05, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5506407022476196, 'eval_runtime': 1.0295, 'eval_samples_per_second': 4.857, 'eval_steps_per_second': 0.971, 'epoch': 1.74}
{'loss': 0.7652, 'learning_rate': 1.6645601006791756e-05, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5509823560714722, 'eval_runtime': 0.9786, 'eval_samples_per_second': 5.109, 'eval_steps_per_second': 1.022, 'epoch': 1.74}
{'loss': 1.0161, 'learning_rate': 1.6639000959648503e-05, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5491746664047241, 'eval_runtime': 1.0518, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 1.75}
{'loss': 1.2014, 'learning_rate': 1.6632395737131266e-05, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5467756986618042, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 1.75}
{'loss': 0.9535, 'learning_rate': 1.6625785344389097e-05, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5476692914962769, 'eval_runtime': 0.9612, 'eval_samples_per_second': 5.202, 'eval_steps_per_second': 1.04, 'epoch': 1.75}
{'loss': 0.9637, 'learning_rate': 1.661916978657506e-05, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5500826835632324, 'eval_runtime': 0.976, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 1.75}
{'loss': 1.2504, 'learning_rate': 1.6612549068846257e-05, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5493311882019043, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 1.75}
{'loss': 1.2724, 'learning_rate': 1.660592319636382e-05, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5469565391540527, 'eval_runtime': 1.016, 'eval_samples_per_second': 4.921, 'eval_steps_per_second': 0.984, 'epoch': 1.75}
{'loss': 0.7844, 'learning_rate': 1.659929217429287e-05, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5452547073364258, 'eval_runtime': 1.0436, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 1.75}
{'loss': 1.0001, 'learning_rate': 1.6592656007802574e-05, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5467467308044434, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 1.76}
{'loss': 0.9813, 'learning_rate': 1.6586014702066093e-05, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5482697486877441, 'eval_runtime': 0.981, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 1.76}
{'loss': 1.0285, 'learning_rate': 1.6579368262260596e-05, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5509454011917114, 'eval_runtime': 0.989, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 1.76}
{'loss': 0.7711, 'learning_rate': 1.6572716693567255e-05, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.551286220550537, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 1.76}
{'loss': 1.0469, 'learning_rate': 1.656606000117125e-05, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.549826741218567, 'eval_runtime': 0.9888, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 1.76}
{'loss': 1.2759, 'learning_rate': 1.6559398190261737e-05, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.548545241355896, 'eval_runtime': 0.9707, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 1.76}
{'loss': 0.7956, 'learning_rate': 1.6552731266031873e-05, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.550547480583191, 'eval_runtime': 0.9868, 'eval_samples_per_second': 5.067, 'eval_steps_per_second': 1.013, 'epoch': 1.77}
{'loss': 0.8678, 'learning_rate': 1.65460592336788e-05, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5503727197647095, 'eval_runtime': 1.0256, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 1.77}
{'loss': 1.0458, 'learning_rate': 1.6539382098403643e-05, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.549234390258789, 'eval_runtime': 0.9807, 'eval_samples_per_second': 5.098, 'eval_steps_per_second': 1.02, 'epoch': 1.77}
{'loss': 0.7962, 'learning_rate': 1.6532699865411505e-05, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5556625127792358, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.77}
{'loss': 1.0274, 'learning_rate': 1.6526012539911452e-05, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.560550570487976, 'eval_runtime': 1.0438, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 1.77}
{'loss': 1.0462, 'learning_rate': 1.651932012711654e-05, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.560352087020874, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 1.77}
{'loss': 1.2729, 'learning_rate': 1.651262263224377e-05, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5539518594741821, 'eval_runtime': 1.0208, 'eval_samples_per_second': 4.898, 'eval_steps_per_second': 0.98, 'epoch': 1.78}
{'loss': 0.8427, 'learning_rate': 1.650592006051412e-05, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.549439787864685, 'eval_runtime': 0.971, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 1.78}
{'loss': 1.1141, 'learning_rate': 1.6499212417152524e-05, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.54544997215271, 'eval_runtime': 1.0065, 'eval_samples_per_second': 4.968, 'eval_steps_per_second': 0.994, 'epoch': 1.78}
{'loss': 0.8329, 'learning_rate': 1.6492499707387855e-05, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5443174839019775, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 1.78}
{'loss': 1.1156, 'learning_rate': 1.6485781936452954e-05, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5431305170059204, 'eval_runtime': 0.9482, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 1.78}
{'loss': 1.0732, 'learning_rate': 1.6479059109584597e-05, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.540679931640625, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 1.78}
{'loss': 1.1151, 'learning_rate': 1.6472331232023503e-05, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5290886163711548, 'eval_runtime': 1.0251, 'eval_samples_per_second': 4.878, 'eval_steps_per_second': 0.976, 'epoch': 1.79}
{'loss': 1.0184, 'learning_rate': 1.6465598309014328e-05, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5238778591156006, 'eval_runtime': 1.0404, 'eval_samples_per_second': 4.806, 'eval_steps_per_second': 0.961, 'epoch': 1.79}
{'loss': 0.9334, 'learning_rate': 1.6458860345805666e-05, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5235294103622437, 'eval_runtime': 1.0285, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 1.79}
{'loss': 0.8809, 'learning_rate': 1.645211734765003e-05, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5306332111358643, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 1.79}
{'loss': 1.1714, 'learning_rate': 1.644536931980387e-05, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5349570512771606, 'eval_runtime': 0.9786, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 1.79}
{'loss': 0.9822, 'learning_rate': 1.6438616267527553e-05, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5269883871078491, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.184, 'eval_steps_per_second': 1.037, 'epoch': 1.79}
{'loss': 0.8249, 'learning_rate': 1.6431858196085352e-05, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5227714776992798, 'eval_runtime': 0.9982, 'eval_samples_per_second': 5.009, 'eval_steps_per_second': 1.002, 'epoch': 1.8}
{'loss': 1.06, 'learning_rate': 1.6425095110745468e-05, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5218472480773926, 'eval_runtime': 0.9871, 'eval_samples_per_second': 5.065, 'eval_steps_per_second': 1.013, 'epoch': 1.8}
{'loss': 0.8643, 'learning_rate': 1.6418327016780003e-05, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5194915533065796, 'eval_runtime': 1.0253, 'eval_samples_per_second': 4.877, 'eval_steps_per_second': 0.975, 'epoch': 1.8}
{'loss': 0.903, 'learning_rate': 1.641155391946496e-05, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5213221311569214, 'eval_runtime': 1.0143, 'eval_samples_per_second': 4.929, 'eval_steps_per_second': 0.986, 'epoch': 1.8}
{'loss': 0.7997, 'learning_rate': 1.640477582408025e-05, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5252351760864258, 'eval_runtime': 0.9935, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 1.8}
{'loss': 0.8114, 'learning_rate': 1.6397992735909678e-05, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5261290073394775, 'eval_runtime': 0.9666, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 1.8}
{'loss': 1.2633, 'learning_rate': 1.6391204660240933e-05, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5256222486495972, 'eval_runtime': 0.9697, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 1.81}
{'loss': 0.9272, 'learning_rate': 1.638441160236561e-05, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5213932991027832, 'eval_runtime': 0.946, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 1.81}
{'loss': 1.048, 'learning_rate': 1.637761356757917e-05, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5203477144241333, 'eval_runtime': 1.0045, 'eval_samples_per_second': 4.977, 'eval_steps_per_second': 0.995, 'epoch': 1.81}
{'loss': 0.7359, 'learning_rate': 1.6370810561180957e-05, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5213282108306885, 'eval_runtime': 0.9716, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 1.81}
{'loss': 0.8352, 'learning_rate': 1.6364002588474202e-05, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5181841850280762, 'eval_runtime': 1.0246, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 1.81}
{'loss': 0.632, 'learning_rate': 1.6357189654765995e-05, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5133205652236938, 'eval_runtime': 0.9797, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 1.81}
{'loss': 0.9817, 'learning_rate': 1.6350371765367295e-05, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5129234790802002, 'eval_runtime': 1.0325, 'eval_samples_per_second': 4.843, 'eval_steps_per_second': 0.969, 'epoch': 1.82}
{'loss': 0.8927, 'learning_rate': 1.6343548925592934e-05, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5184975862503052, 'eval_runtime': 1.0093, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 1.82}
{'loss': 1.1254, 'learning_rate': 1.6336721140761592e-05, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5251402854919434, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 1.82}
{'loss': 1.127, 'learning_rate': 1.6329888416195803e-05, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.526107907295227, 'eval_runtime': 0.9392, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 1.82}
{'loss': 0.7027, 'learning_rate': 1.6323050757221962e-05, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.529023289680481, 'eval_runtime': 1.0555, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 1.82}
{'loss': 0.874, 'learning_rate': 1.6316208169170308e-05, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5283901691436768, 'eval_runtime': 1.0342, 'eval_samples_per_second': 4.835, 'eval_steps_per_second': 0.967, 'epoch': 1.82}
{'loss': 0.8595, 'learning_rate': 1.6309360657374912e-05, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.529740810394287, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 1.83}
{'loss': 0.8328, 'learning_rate': 1.6302508227173698e-05, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5349578857421875, 'eval_runtime': 0.9432, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 1.83}
{'loss': 1.0873, 'learning_rate': 1.6295650883908415e-05, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5401926040649414, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 1.83}
{'loss': 0.9529, 'learning_rate': 1.6288788632924637e-05, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.544304370880127, 'eval_runtime': 1.0268, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 1.83}
{'loss': 0.8027, 'learning_rate': 1.6281921479571777e-05, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5480575561523438, 'eval_runtime': 1.0031, 'eval_samples_per_second': 4.985, 'eval_steps_per_second': 0.997, 'epoch': 1.83}
{'loss': 0.8728, 'learning_rate': 1.627504942920306e-05, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5551562309265137, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 1.83}
{'loss': 1.0084, 'learning_rate': 1.6268172487175534e-05, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5642387866973877, 'eval_runtime': 1.0448, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 1.84}
{'loss': 0.9968, 'learning_rate': 1.626129065885006e-05, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5630066394805908, 'eval_runtime': 1.0109, 'eval_samples_per_second': 4.946, 'eval_steps_per_second': 0.989, 'epoch': 1.84}
{'loss': 0.805, 'learning_rate': 1.6254403949591303e-05, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5606297254562378, 'eval_runtime': 0.9904, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 1.84}
{'loss': 0.8329, 'learning_rate': 1.624751236476773e-05, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.561359167098999, 'eval_runtime': 1.0045, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 1.84}
{'loss': 0.8629, 'learning_rate': 1.624061590975163e-05, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5649890899658203, 'eval_runtime': 0.9835, 'eval_samples_per_second': 5.084, 'eval_steps_per_second': 1.017, 'epoch': 1.84}
{'loss': 0.9786, 'learning_rate': 1.6233714589919056e-05, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5702840089797974, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 1.84}
{'loss': 0.9842, 'learning_rate': 1.6226808410649878e-05, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5731432437896729, 'eval_runtime': 1.0458, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 1.84}
{'loss': 1.0847, 'learning_rate': 1.6219897377327745e-05, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5706132650375366, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.85}
{'loss': 0.8316, 'learning_rate': 1.6212981495340097e-05, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5671899318695068, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 1.85}
{'loss': 1.0331, 'learning_rate': 1.620606077007814e-05, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5660176277160645, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 1.85}
{'loss': 0.8032, 'learning_rate': 1.619913520693687e-05, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.556222677230835, 'eval_runtime': 0.9862, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 1.85}
{'loss': 0.9487, 'learning_rate': 1.6192204811315043e-05, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.54452383518219, 'eval_runtime': 1.0165, 'eval_samples_per_second': 4.919, 'eval_steps_per_second': 0.984, 'epoch': 1.85}
{'loss': 0.7112, 'learning_rate': 1.618526958861519e-05, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5404132604599, 'eval_runtime': 0.9929, 'eval_samples_per_second': 5.036, 'eval_steps_per_second': 1.007, 'epoch': 1.85}
{'loss': 0.8431, 'learning_rate': 1.6178329544243602e-05, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5400667190551758, 'eval_runtime': 0.9821, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 1.86}
{'loss': 0.9436, 'learning_rate': 1.6171384683610326e-05, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5361247062683105, 'eval_runtime': 1.0257, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 1.86}
{'loss': 1.0334, 'learning_rate': 1.6164435012129166e-05, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.533903956413269, 'eval_runtime': 1.0553, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 1.86}
{'loss': 0.9982, 'learning_rate': 1.615748053521768e-05, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5329508781433105, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 1.86}
{'loss': 0.819, 'learning_rate': 1.6150521258297173e-05, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5338482856750488, 'eval_runtime': 0.9988, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 1.86}
{'loss': 0.9289, 'learning_rate': 1.6143557186792674e-05, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5325661897659302, 'eval_runtime': 0.9866, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 1.86}
{'loss': 1.1202, 'learning_rate': 1.613658832613297e-05, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5317890644073486, 'eval_runtime': 1.0042, 'eval_samples_per_second': 4.979, 'eval_steps_per_second': 0.996, 'epoch': 1.87}
{'loss': 0.9548, 'learning_rate': 1.612961468175058e-05, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.531218409538269, 'eval_runtime': 0.9492, 'eval_samples_per_second': 5.268, 'eval_steps_per_second': 1.054, 'epoch': 1.87}
{'loss': 0.7437, 'learning_rate': 1.6122636259081733e-05, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5291497707366943, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 1.87}
{'loss': 1.2228, 'learning_rate': 1.611565306356641e-05, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5280754566192627, 'eval_runtime': 0.9964, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 1.87}
{'loss': 1.044, 'learning_rate': 1.6108665100648288e-05, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5212152004241943, 'eval_runtime': 1.0107, 'eval_samples_per_second': 4.947, 'eval_steps_per_second': 0.989, 'epoch': 1.87}
{'loss': 1.133, 'learning_rate': 1.6101672375774778e-05, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.522592544555664, 'eval_runtime': 1.0064, 'eval_samples_per_second': 4.968, 'eval_steps_per_second': 0.994, 'epoch': 1.87}
{'loss': 1.0284, 'learning_rate': 1.6094674894396993e-05, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5271958112716675, 'eval_runtime': 1.0364, 'eval_samples_per_second': 4.824, 'eval_steps_per_second': 0.965, 'epoch': 1.88}
{'loss': 0.9677, 'learning_rate': 1.608767266196976e-05, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5323050022125244, 'eval_runtime': 1.0457, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 1.88}
{'loss': 0.8378, 'learning_rate': 1.60806656839516e-05, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.533919334411621, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 1.88}
{'loss': 1.0313, 'learning_rate': 1.607365396580475e-05, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5338635444641113, 'eval_runtime': 0.9991, 'eval_samples_per_second': 5.004, 'eval_steps_per_second': 1.001, 'epoch': 1.88}
{'loss': 0.8799, 'learning_rate': 1.6066637512995124e-05, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5358622074127197, 'eval_runtime': 0.9715, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 1.88}
{'loss': 0.9666, 'learning_rate': 1.605961633099234e-05, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.543323278427124, 'eval_runtime': 0.9598, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 1.88}
{'loss': 0.9805, 'learning_rate': 1.6052590425269695e-05, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5543400049209595, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 1.89}
{'loss': 0.7166, 'learning_rate': 1.6045559801304175e-05, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5639030933380127, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 1.89}
{'loss': 1.0353, 'learning_rate': 1.6038524464576434e-05, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5737543106079102, 'eval_runtime': 1.0594, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 1.89}
{'loss': 0.9836, 'learning_rate': 1.603148442057081e-05, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5794482231140137, 'eval_runtime': 0.9621, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 1.89}
{'loss': 0.9441, 'learning_rate': 1.602443967477531e-05, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.582373857498169, 'eval_runtime': 0.9654, 'eval_samples_per_second': 5.179, 'eval_steps_per_second': 1.036, 'epoch': 1.89}
{'loss': 1.1629, 'learning_rate': 1.6017390232681597e-05, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5820996761322021, 'eval_runtime': 1.0273, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 1.89}
{'loss': 0.7531, 'learning_rate': 1.6010336099785004e-05, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5820177793502808, 'eval_runtime': 1.0204, 'eval_samples_per_second': 4.9, 'eval_steps_per_second': 0.98, 'epoch': 1.9}
{'loss': 0.9691, 'learning_rate': 1.6003277281584516e-05, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5804654359817505, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.9}
{'loss': 1.104, 'learning_rate': 1.599621378358277e-05, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5761067867279053, 'eval_runtime': 0.9673, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 1.9}
{'loss': 1.0354, 'learning_rate': 1.5989145611286055e-05, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5664281845092773, 'eval_runtime': 1.0179, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 1.9}
{'loss': 1.2673, 'learning_rate': 1.5982072770204302e-05, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5622670650482178, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 1.9}
{'loss': 0.9631, 'learning_rate': 1.5974995265851077e-05, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5635249614715576, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 1.9}
{'loss': 1.0207, 'learning_rate': 1.596791310374359e-05, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.55912446975708, 'eval_runtime': 1.0198, 'eval_samples_per_second': 4.903, 'eval_steps_per_second': 0.981, 'epoch': 1.91}
{'loss': 0.7879, 'learning_rate': 1.5960826289402683e-05, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.559372901916504, 'eval_runtime': 0.9609, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 1.91}
{'loss': 0.9761, 'learning_rate': 1.5953734828352804e-05, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5577141046524048, 'eval_runtime': 0.9936, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 1.91}
{'loss': 0.8049, 'learning_rate': 1.594663872612205e-05, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5536319017410278, 'eval_runtime': 1.0327, 'eval_samples_per_second': 4.842, 'eval_steps_per_second': 0.968, 'epoch': 1.91}
{'loss': 1.0699, 'learning_rate': 1.593953798824212e-05, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5537711381912231, 'eval_runtime': 1.0126, 'eval_samples_per_second': 4.938, 'eval_steps_per_second': 0.988, 'epoch': 1.91}
{'loss': 0.9165, 'learning_rate': 1.5932432620248333e-05, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5522931814193726, 'eval_runtime': 0.9424, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 1.91}
{'loss': 1.073, 'learning_rate': 1.592532262767961e-05, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.55642569065094, 'eval_runtime': 0.9762, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 1.92}
{'loss': 0.98, 'learning_rate': 1.591820801607849e-05, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5603833198547363, 'eval_runtime': 0.9989, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 1.92}
{'loss': 0.996, 'learning_rate': 1.5911088790991097e-05, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5600016117095947, 'eval_runtime': 0.9601, 'eval_samples_per_second': 5.208, 'eval_steps_per_second': 1.042, 'epoch': 1.92}
{'loss': 0.8494, 'learning_rate': 1.5903964957967165e-05, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5594507455825806, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 1.92}
{'loss': 0.698, 'learning_rate': 1.5896836522560014e-05, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5621942281723022, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 1.92}
{'loss': 0.9323, 'learning_rate': 1.5889703490326553e-05, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5672014951705933, 'eval_runtime': 1.0581, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 1.92}
{'loss': 0.8237, 'learning_rate': 1.5882565866827264e-05, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5725659132003784, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 1.93}
{'loss': 0.9218, 'learning_rate': 1.5875423657626233e-05, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.572372317314148, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 1.93}
{'loss': 0.904, 'learning_rate': 1.5868276868291092e-05, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5662623643875122, 'eval_runtime': 1.0037, 'eval_samples_per_second': 4.982, 'eval_steps_per_second': 0.996, 'epoch': 1.93}
{'loss': 0.9832, 'learning_rate': 1.5861125504393068e-05, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5574655532836914, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.93}
{'loss': 0.944, 'learning_rate': 1.585396957150694e-05, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5555813312530518, 'eval_runtime': 0.9866, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 1.93}
{'loss': 0.7988, 'learning_rate': 1.584680907521104e-05, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5564824342727661, 'eval_runtime': 0.9749, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 1.93}
{'loss': 0.9729, 'learning_rate': 1.5839644021087285e-05, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5604034662246704, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 1.93}
{'loss': 1.145, 'learning_rate': 1.583247441472112e-05, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5573956966400146, 'eval_runtime': 1.0291, 'eval_samples_per_second': 4.859, 'eval_steps_per_second': 0.972, 'epoch': 1.94}
{'loss': 1.2189, 'learning_rate': 1.5825300261701548e-05, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5528900623321533, 'eval_runtime': 1.0586, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 1.94}
{'loss': 0.8711, 'learning_rate': 1.5818121567621123e-05, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.548197627067566, 'eval_runtime': 1.058, 'eval_samples_per_second': 4.726, 'eval_steps_per_second': 0.945, 'epoch': 1.94}
{'loss': 0.8318, 'learning_rate': 1.5810938338075927e-05, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5481082201004028, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 1.94}
{'loss': 1.0182, 'learning_rate': 1.580375057866558e-05, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5476062297821045, 'eval_runtime': 0.9557, 'eval_samples_per_second': 5.232, 'eval_steps_per_second': 1.046, 'epoch': 1.94}
{'loss': 1.0205, 'learning_rate': 1.579655829499324e-05, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5472499132156372, 'eval_runtime': 0.9801, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 1.94}
{'loss': 0.7305, 'learning_rate': 1.5789361492665585e-05, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5504071712493896, 'eval_runtime': 1.0062, 'eval_samples_per_second': 4.969, 'eval_steps_per_second': 0.994, 'epoch': 1.95}
{'loss': 0.9612, 'learning_rate': 1.5782160177292815e-05, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5558127164840698, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 1.95}
{'loss': 1.0441, 'learning_rate': 1.577495435448866e-05, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.560081124305725, 'eval_runtime': 0.9603, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 1.95}
{'loss': 1.0334, 'learning_rate': 1.5767744029870348e-05, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5615543127059937, 'eval_runtime': 0.9763, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 1.95}
{'loss': 0.7644, 'learning_rate': 1.5760529209058626e-05, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5576545000076294, 'eval_runtime': 0.9719, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 1.95}
{'loss': 0.7824, 'learning_rate': 1.5753309897677743e-05, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5552366971969604, 'eval_runtime': 1.0195, 'eval_samples_per_second': 4.904, 'eval_steps_per_second': 0.981, 'epoch': 1.95}
{'loss': 1.1035, 'learning_rate': 1.5746086101355447e-05, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5509697198867798, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 1.96}
{'loss': 0.8134, 'learning_rate': 1.5738857825722986e-05, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5511276721954346, 'eval_runtime': 0.971, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 1.96}
{'loss': 0.7317, 'learning_rate': 1.5731625076415096e-05, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.551009178161621, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 1.96}
{'loss': 1.0715, 'learning_rate': 1.5724387859070006e-05, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.550714135169983, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 1.96}
{'loss': 0.8315, 'learning_rate': 1.571714617932942e-05, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5540227890014648, 'eval_runtime': 1.0024, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 1.96}
{'loss': 0.8071, 'learning_rate': 1.5709900042838525e-05, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.553778052330017, 'eval_runtime': 0.9525, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 1.96}
{'loss': 1.1089, 'learning_rate': 1.5702649455245984e-05, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5536938905715942, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 1.97}
{'loss': 1.09, 'learning_rate': 1.5695394422203927e-05, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5523608922958374, 'eval_runtime': 1.0559, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 1.97}
{'loss': 0.879, 'learning_rate': 1.5688134949367954e-05, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5503404140472412, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 1.97}
{'loss': 1.0799, 'learning_rate': 1.5680871042397114e-05, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5499114990234375, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 1.97}
{'loss': 1.1003, 'learning_rate': 1.567360270695393e-05, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5511901378631592, 'eval_runtime': 1.0333, 'eval_samples_per_second': 4.839, 'eval_steps_per_second': 0.968, 'epoch': 1.97}
{'loss': 0.9293, 'learning_rate': 1.5666329948704357e-05, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.548924207687378, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 1.97}
{'loss': 0.8317, 'learning_rate': 1.565905277331782e-05, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5463862419128418, 'eval_runtime': 1.0278, 'eval_samples_per_second': 4.865, 'eval_steps_per_second': 0.973, 'epoch': 1.98}
{'loss': 0.6663, 'learning_rate': 1.5651771186467173e-05, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5369336605072021, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.98}
{'loss': 0.9733, 'learning_rate': 1.564448519382871e-05, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5352694988250732, 'eval_runtime': 0.9731, 'eval_samples_per_second': 5.138, 'eval_steps_per_second': 1.028, 'epoch': 1.98}
{'loss': 0.858, 'learning_rate': 1.5637194801082162e-05, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5388240814208984, 'eval_runtime': 0.9627, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 1.98}
{'loss': 0.8351, 'learning_rate': 1.5629900013910687e-05, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5441367626190186, 'eval_runtime': 0.9577, 'eval_samples_per_second': 5.221, 'eval_steps_per_second': 1.044, 'epoch': 1.98}
{'loss': 1.0743, 'learning_rate': 1.562260083800088e-05, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5461453199386597, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 1.98}
{'loss': 1.2158, 'learning_rate': 1.561529727904274e-05, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5479371547698975, 'eval_runtime': 0.9707, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 1.99}
{'loss': 0.9541, 'learning_rate': 1.5607989342729693e-05, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5454577207565308, 'eval_runtime': 1.0376, 'eval_samples_per_second': 4.819, 'eval_steps_per_second': 0.964, 'epoch': 1.99}
{'loss': 0.9351, 'learning_rate': 1.5600677034758578e-05, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.547116994857788, 'eval_runtime': 1.0024, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 1.99}
{'loss': 0.9603, 'learning_rate': 1.5593360360829638e-05, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5474191904067993, 'eval_runtime': 0.9665, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 1.99}
{'loss': 1.0622, 'learning_rate': 1.558603932664652e-05, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.549330234527588, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.99}
{'loss': 1.0655, 'learning_rate': 1.5578713937916275e-05, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.541996955871582, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 1.99}
{'loss': 0.7552, 'learning_rate': 1.5571384200349338e-05, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.537637710571289, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 2.0}
{'loss': 1.1656, 'learning_rate': 1.5564050119659544e-05, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.533825159072876, 'eval_runtime': 0.9479, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 2.0}
{'loss': 1.0144, 'learning_rate': 1.5556711701564112e-05, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5333188772201538, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 2.0}




{'loss': 0.8709, 'learning_rate': 1.5549368951783638e-05, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5383696556091309, 'eval_runtime': 0.9368, 'eval_samples_per_second': 5.337, 'eval_steps_per_second': 1.067, 'epoch': 2.0}
{'loss': 0.7311, 'learning_rate': 1.5542021876042096e-05, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5449652671813965, 'eval_runtime': 0.9883, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 2.0}
{'loss': 0.7035, 'learning_rate': 1.5534670480066836e-05, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.552344799041748, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 2.0}
{'loss': 0.8269, 'learning_rate': 1.552731476958857e-05, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5591405630111694, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 2.01}
{'loss': 0.958, 'learning_rate': 1.551995475034138e-05, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5663974285125732, 'eval_runtime': 1.0518, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.01}
{'loss': 0.8666, 'learning_rate': 1.55125904280627e-05, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5698755979537964, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.01}
{'loss': 0.8291, 'learning_rate': 1.550522180849333e-05, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5655747652053833, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 2.01}
{'loss': 0.8265, 'learning_rate': 1.5497848897377398e-05, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5587104558944702, 'eval_runtime': 0.946, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 2.01}
{'loss': 0.7705, 'learning_rate': 1.54904717004624e-05, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5520975589752197, 'eval_runtime': 0.9963, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 2.01}
{'loss': 0.7745, 'learning_rate': 1.5483090223499164e-05, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.546714186668396, 'eval_runtime': 1.0333, 'eval_samples_per_second': 4.839, 'eval_steps_per_second': 0.968, 'epoch': 2.02}
{'loss': 0.737, 'learning_rate': 1.5475704472241853e-05, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.540711522102356, 'eval_runtime': 1.0068, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 2.02}
{'loss': 0.7141, 'learning_rate': 1.5468314452447962e-05, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.536787509918213, 'eval_runtime': 0.9481, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 2.02}
{'loss': 0.6214, 'learning_rate': 1.5460920169878317e-05, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.538300633430481, 'eval_runtime': 0.9889, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 2.02}
{'loss': 0.703, 'learning_rate': 1.5453521630297065e-05, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5183238983154297, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 2.02}
{'loss': 0.611, 'learning_rate': 1.5446118839471667e-05, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5073094367980957, 'eval_runtime': 1.0463, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 2.02}
{'loss': 0.7606, 'learning_rate': 1.5438711803172912e-05, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.502962589263916, 'eval_runtime': 0.9867, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 2.02}
{'loss': 0.5732, 'learning_rate': 1.543130052717488e-05, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5073907375335693, 'eval_runtime': 1.0261, 'eval_samples_per_second': 4.873, 'eval_steps_per_second': 0.975, 'epoch': 2.03}
{'loss': 0.7504, 'learning_rate': 1.542388501725497e-05, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5108188390731812, 'eval_runtime': 1.0242, 'eval_samples_per_second': 4.882, 'eval_steps_per_second': 0.976, 'epoch': 2.03}
{'loss': 0.9299, 'learning_rate': 1.541646527919388e-05, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5101499557495117, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 2.03}
{'loss': 0.7883, 'learning_rate': 1.540904131877559e-05, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5088313817977905, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 2.03}
{'loss': 0.6007, 'learning_rate': 1.540161314178739e-05, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5110002756118774, 'eval_runtime': 0.9464, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 2.03}
{'loss': 0.5986, 'learning_rate': 1.5394180754019847e-05, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5114446878433228, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 2.03}
{'loss': 0.6782, 'learning_rate': 1.5386744161266813e-05, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5159039497375488, 'eval_runtime': 0.9878, 'eval_samples_per_second': 5.062, 'eval_steps_per_second': 1.012, 'epoch': 2.04}
{'loss': 0.6074, 'learning_rate': 1.5379303369325415e-05, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5177572965621948, 'eval_runtime': 1.0054, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 2.04}
{'loss': 0.7256, 'learning_rate': 1.537185838399606e-05, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5197460651397705, 'eval_runtime': 0.9499, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 2.04}
{'loss': 0.5935, 'learning_rate': 1.536440921108242e-05, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5239006280899048, 'eval_runtime': 0.9658, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 2.04}
{'loss': 0.7416, 'learning_rate': 1.5356955856391427e-05, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5259076356887817, 'eval_runtime': 0.9924, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 2.04}
{'loss': 0.8648, 'learning_rate': 1.5349498325733283e-05, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.524887204170227, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 2.04}
{'loss': 0.754, 'learning_rate': 1.5342036624921432e-05, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5173996686935425, 'eval_runtime': 1.0199, 'eval_samples_per_second': 4.903, 'eval_steps_per_second': 0.981, 'epoch': 2.05}
{'loss': 0.564, 'learning_rate': 1.5334570759772584e-05, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.513691782951355, 'eval_runtime': 0.9631, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 2.05}
{'loss': 0.9106, 'learning_rate': 1.5327100736106682e-05, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.515671968460083, 'eval_runtime': 0.9863, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 2.05}
{'loss': 0.7, 'learning_rate': 1.5319626559746916e-05, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.517182469367981, 'eval_runtime': 0.9619, 'eval_samples_per_second': 5.198, 'eval_steps_per_second': 1.04, 'epoch': 2.05}
{'loss': 0.8777, 'learning_rate': 1.531214823651972e-05, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5186333656311035, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 2.05}
{'loss': 0.9005, 'learning_rate': 1.530466577225475e-05, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5150017738342285, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 2.05}
{'loss': 0.6233, 'learning_rate': 1.529717917278489e-05, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.514570951461792, 'eval_runtime': 0.9728, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 2.06}
{'loss': 0.6715, 'learning_rate': 1.5289688443946262e-05, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5189744234085083, 'eval_runtime': 1.0274, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 2.06}
{'loss': 0.5699, 'learning_rate': 1.5282193591578187e-05, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5225684642791748, 'eval_runtime': 0.9627, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 2.06}
{'loss': 1.0133, 'learning_rate': 1.5274694621523217e-05, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5232831239700317, 'eval_runtime': 0.9545, 'eval_samples_per_second': 5.238, 'eval_steps_per_second': 1.048, 'epoch': 2.06}
{'loss': 0.7172, 'learning_rate': 1.5267191539627103e-05, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5227643251419067, 'eval_runtime': 1.039, 'eval_samples_per_second': 4.812, 'eval_steps_per_second': 0.962, 'epoch': 2.06}
{'loss': 0.5047, 'learning_rate': 1.525968435173881e-05, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5194517374038696, 'eval_runtime': 0.9621, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 2.06}
{'loss': 0.6451, 'learning_rate': 1.5252173063710492e-05, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5193780660629272, 'eval_runtime': 1.0326, 'eval_samples_per_second': 4.842, 'eval_steps_per_second': 0.968, 'epoch': 2.07}
{'loss': 0.69, 'learning_rate': 1.5244657681397512e-05, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5156420469284058, 'eval_runtime': 1.0019, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 2.07}
{'loss': 0.6306, 'learning_rate': 1.523713821065842e-05, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5140951871871948, 'eval_runtime': 1.0066, 'eval_samples_per_second': 4.967, 'eval_steps_per_second': 0.993, 'epoch': 2.07}
{'loss': 0.7623, 'learning_rate': 1.5229614657354947e-05, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5141700506210327, 'eval_runtime': 0.9492, 'eval_samples_per_second': 5.268, 'eval_steps_per_second': 1.054, 'epoch': 2.07}
{'loss': 0.7887, 'learning_rate': 1.5222087027352021e-05, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.517526388168335, 'eval_runtime': 0.9487, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 2.07}
{'loss': 0.5845, 'learning_rate': 1.521455532651773e-05, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.523293137550354, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 2.07}
{'loss': 1.059, 'learning_rate': 1.5207019560723348e-05, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.523652195930481, 'eval_runtime': 0.9805, 'eval_samples_per_second': 5.1, 'eval_steps_per_second': 1.02, 'epoch': 2.08}
{'loss': 0.5909, 'learning_rate': 1.5199479735843315e-05, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.520890474319458, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 2.08}
{'loss': 0.7491, 'learning_rate': 1.5191935857755234e-05, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5229185819625854, 'eval_runtime': 1.0391, 'eval_samples_per_second': 4.812, 'eval_steps_per_second': 0.962, 'epoch': 2.08}
{'loss': 0.6809, 'learning_rate': 1.518438793233986e-05, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.529678225517273, 'eval_runtime': 1.0105, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 2.08}
{'loss': 0.798, 'learning_rate': 1.5176835965481122e-05, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.533787488937378, 'eval_runtime': 1.0166, 'eval_samples_per_second': 4.919, 'eval_steps_per_second': 0.984, 'epoch': 2.08}
{'loss': 0.5946, 'learning_rate': 1.5169279963066083e-05, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5351921319961548, 'eval_runtime': 1.0163, 'eval_samples_per_second': 4.92, 'eval_steps_per_second': 0.984, 'epoch': 2.08}
{'loss': 0.6194, 'learning_rate': 1.5161719930984959e-05, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.534621238708496, 'eval_runtime': 0.9533, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 2.09}
{'loss': 0.6642, 'learning_rate': 1.5154155875131107e-05, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.536431908607483, 'eval_runtime': 1.052, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.09}
{'loss': 0.6956, 'learning_rate': 1.5146587801401015e-05, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5419108867645264, 'eval_runtime': 0.9631, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 2.09}
{'loss': 0.7148, 'learning_rate': 1.513901571569431e-05, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5495648384094238, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 2.09}
{'loss': 0.6939, 'learning_rate': 1.5131439623913741e-05, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5522055625915527, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 2.09}
{'loss': 0.6787, 'learning_rate': 1.5123859531965189e-05, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5476754903793335, 'eval_runtime': 0.9958, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 2.09}
{'loss': 0.6398, 'learning_rate': 1.511627544575764e-05, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5445871353149414, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 2.1}
{'loss': 0.5278, 'learning_rate': 1.5108687371203205e-05, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5399255752563477, 'eval_runtime': 1.0055, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 2.1}
{'loss': 0.6026, 'learning_rate': 1.51010953142171e-05, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5380909442901611, 'eval_runtime': 0.9766, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 2.1}
{'loss': 0.7345, 'learning_rate': 1.5093499280717643e-05, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5425770282745361, 'eval_runtime': 1.0165, 'eval_samples_per_second': 4.919, 'eval_steps_per_second': 0.984, 'epoch': 2.1}
{'loss': 0.5695, 'learning_rate': 1.5085899276626257e-05, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5492111444473267, 'eval_runtime': 1.0339, 'eval_samples_per_second': 4.836, 'eval_steps_per_second': 0.967, 'epoch': 2.1}
{'loss': 0.9152, 'learning_rate': 1.5078295307867454e-05, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.54935622215271, 'eval_runtime': 0.9604, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 2.1}
{'loss': 0.8069, 'learning_rate': 1.507068738036884e-05, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5433473587036133, 'eval_runtime': 0.95, 'eval_samples_per_second': 5.263, 'eval_steps_per_second': 1.053, 'epoch': 2.11}
{'loss': 0.6995, 'learning_rate': 1.5063075500061111e-05, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5406781435012817, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 2.11}
{'loss': 0.8803, 'learning_rate': 1.5055459672878036e-05, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.538901925086975, 'eval_runtime': 0.9814, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 2.11}
{'loss': 1.0727, 'learning_rate': 1.5047839904756467e-05, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5371496677398682, 'eval_runtime': 1.0127, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 2.11}
{'loss': 0.7832, 'learning_rate': 1.5040216201636328e-05, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5351155996322632, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.792, 'eval_steps_per_second': 0.958, 'epoch': 2.11}
{'loss': 0.596, 'learning_rate': 1.503258856946061e-05, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5350768566131592, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 2.11}
{'loss': 0.7582, 'learning_rate': 1.5024957014175359e-05, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5350450277328491, 'eval_runtime': 0.991, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 2.11}
{'loss': 0.637, 'learning_rate': 1.5017321541729693e-05, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5361607074737549, 'eval_runtime': 0.9475, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 2.12}
{'loss': 0.7547, 'learning_rate': 1.5009682158075769e-05, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.542025089263916, 'eval_runtime': 1.0328, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 2.12}
{'loss': 0.5967, 'learning_rate': 1.5002038869168805e-05, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.552086591720581, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 2.12}
{'loss': 0.7865, 'learning_rate': 1.4994391680967061e-05, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5595279932022095, 'eval_runtime': 1.0384, 'eval_samples_per_second': 4.815, 'eval_steps_per_second': 0.963, 'epoch': 2.12}
{'loss': 0.8354, 'learning_rate': 1.4986740599431833e-05, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5591142177581787, 'eval_runtime': 1.0466, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 2.12}
{'loss': 0.7313, 'learning_rate': 1.4979085630527447e-05, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5552574396133423, 'eval_runtime': 1.0547, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 2.12}
{'loss': 0.7036, 'learning_rate': 1.4971426780221273e-05, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5448007583618164, 'eval_runtime': 1.0312, 'eval_samples_per_second': 4.849, 'eval_steps_per_second': 0.97, 'epoch': 2.13}
{'loss': 0.5828, 'learning_rate': 1.4963764054483697e-05, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5330363512039185, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 2.13}
{'loss': 0.5747, 'learning_rate': 1.4956097459288128e-05, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.528788685798645, 'eval_runtime': 0.9856, 'eval_samples_per_second': 5.073, 'eval_steps_per_second': 1.015, 'epoch': 2.13}
{'loss': 0.7949, 'learning_rate': 1.4948427000610995e-05, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5306450128555298, 'eval_runtime': 1.0317, 'eval_samples_per_second': 4.846, 'eval_steps_per_second': 0.969, 'epoch': 2.13}
{'loss': 0.7182, 'learning_rate': 1.4940752684431732e-05, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5310449600219727, 'eval_runtime': 1.0095, 'eval_samples_per_second': 4.953, 'eval_steps_per_second': 0.991, 'epoch': 2.13}
{'loss': 0.8098, 'learning_rate': 1.4933074516732781e-05, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5307693481445312, 'eval_runtime': 1.0524, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 2.13}
{'loss': 0.8739, 'learning_rate': 1.4925392503499599e-05, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.526991605758667, 'eval_runtime': 1.0234, 'eval_samples_per_second': 4.886, 'eval_steps_per_second': 0.977, 'epoch': 2.14}
{'loss': 0.5762, 'learning_rate': 1.4917706650720623e-05, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5219367742538452, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 2.14}
{'loss': 0.55, 'learning_rate': 1.4910016964387292e-05, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5216526985168457, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 2.14}
{'loss': 0.8592, 'learning_rate': 1.4902323450494032e-05, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5227776765823364, 'eval_runtime': 0.976, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 2.14}
{'loss': 0.5989, 'learning_rate': 1.4894626115038258e-05, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5218849182128906, 'eval_runtime': 0.9792, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 2.14}
{'loss': 0.7493, 'learning_rate': 1.4886924964020351e-05, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5225878953933716, 'eval_runtime': 0.9464, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 2.14}
{'loss': 0.7014, 'learning_rate': 1.4879220003443685e-05, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5273743867874146, 'eval_runtime': 0.9771, 'eval_samples_per_second': 5.117, 'eval_steps_per_second': 1.023, 'epoch': 2.15}
{'loss': 0.7907, 'learning_rate': 1.4871511239314585e-05, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5320326089859009, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 2.15}
{'loss': 1.0982, 'learning_rate': 1.4863798677642348e-05, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5299025774002075, 'eval_runtime': 1.0547, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 2.15}
{'loss': 0.7516, 'learning_rate': 1.485608232443924e-05, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5266399383544922, 'eval_runtime': 1.0413, 'eval_samples_per_second': 4.802, 'eval_steps_per_second': 0.96, 'epoch': 2.15}
{'loss': 0.6279, 'learning_rate': 1.484836218572047e-05, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5246914625167847, 'eval_runtime': 1.0212, 'eval_samples_per_second': 4.896, 'eval_steps_per_second': 0.979, 'epoch': 2.15}
{'loss': 0.5944, 'learning_rate': 1.4840638267504206e-05, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5273219347000122, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 2.15}
{'loss': 0.9338, 'learning_rate': 1.4832910575811558e-05, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5314526557922363, 'eval_runtime': 0.9645, 'eval_samples_per_second': 5.184, 'eval_steps_per_second': 1.037, 'epoch': 2.16}
{'loss': 0.6141, 'learning_rate': 1.4825179116666584e-05, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5379102230072021, 'eval_runtime': 0.982, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 2.16}
{'loss': 1.0074, 'learning_rate': 1.4817443896096264e-05, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5412092208862305, 'eval_runtime': 0.9764, 'eval_samples_per_second': 5.121, 'eval_steps_per_second': 1.024, 'epoch': 2.16}
{'loss': 0.8346, 'learning_rate': 1.480970492013053e-05, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5401350259780884, 'eval_runtime': 0.9894, 'eval_samples_per_second': 5.053, 'eval_steps_per_second': 1.011, 'epoch': 2.16}
{'loss': 0.8845, 'learning_rate': 1.4801962194802226e-05, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5383318662643433, 'eval_runtime': 1.0237, 'eval_samples_per_second': 4.884, 'eval_steps_per_second': 0.977, 'epoch': 2.16}
{'loss': 0.6949, 'learning_rate': 1.4794215726147125e-05, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.53383469581604, 'eval_runtime': 1.052, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.16}
{'loss': 0.6543, 'learning_rate': 1.4786465520203922e-05, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5336112976074219, 'eval_runtime': 0.9509, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 2.17}
{'loss': 0.5095, 'learning_rate': 1.4778711583014214e-05, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5402398109436035, 'eval_runtime': 0.9671, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 2.17}
{'loss': 0.862, 'learning_rate': 1.4770953920622517e-05, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5458297729492188, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 2.17}
{'loss': 0.7746, 'learning_rate': 1.476319253907625e-05, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5491200685501099, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 2.17}
{'loss': 1.2008, 'learning_rate': 1.4755427444425726e-05, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5461573600769043, 'eval_runtime': 0.9754, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 2.17}
{'loss': 0.782, 'learning_rate': 1.4747658642724155e-05, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5417588949203491, 'eval_runtime': 0.9551, 'eval_samples_per_second': 5.235, 'eval_steps_per_second': 1.047, 'epoch': 2.17}
{'loss': 0.7834, 'learning_rate': 1.4739886140027637e-05, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.533288836479187, 'eval_runtime': 0.9672, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 2.18}
{'loss': 0.55, 'learning_rate': 1.473210994239516e-05, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.525619387626648, 'eval_runtime': 1.029, 'eval_samples_per_second': 4.859, 'eval_steps_per_second': 0.972, 'epoch': 2.18}
{'loss': 0.6036, 'learning_rate': 1.4724330055888583e-05, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.522925615310669, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 2.18}
{'loss': 0.6456, 'learning_rate': 1.4716546486572653e-05, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5215102434158325, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 2.18}
{'loss': 0.7495, 'learning_rate': 1.4708759240514985e-05, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.518082618713379, 'eval_runtime': 0.9959, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 2.18}
{'loss': 0.7384, 'learning_rate': 1.4700968323786048e-05, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5147451162338257, 'eval_runtime': 1.0418, 'eval_samples_per_second': 4.799, 'eval_steps_per_second': 0.96, 'epoch': 2.18}
{'loss': 0.9231, 'learning_rate': 1.4693173742459191e-05, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5134385824203491, 'eval_runtime': 0.999, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 2.19}
{'loss': 0.9223, 'learning_rate': 1.46853755026106e-05, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.512984037399292, 'eval_runtime': 1.0233, 'eval_samples_per_second': 4.886, 'eval_steps_per_second': 0.977, 'epoch': 2.19}
{'loss': 0.5844, 'learning_rate': 1.4677573610319332e-05, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4959636926651, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 2.19}
{'loss': 0.6265, 'learning_rate': 1.4669768071667279e-05, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.474804162979126, 'eval_runtime': 0.9982, 'eval_samples_per_second': 5.009, 'eval_steps_per_second': 1.002, 'epoch': 2.19}
{'loss': 0.8032, 'learning_rate': 1.466195889273918e-05, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4643794298171997, 'eval_runtime': 1.0249, 'eval_samples_per_second': 4.879, 'eval_steps_per_second': 0.976, 'epoch': 2.19}
{'loss': 0.7284, 'learning_rate': 1.4654146079622612e-05, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4619927406311035, 'eval_runtime': 0.9393, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 2.19}
{'loss': 0.7993, 'learning_rate': 1.4646329638407979e-05, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4632714986801147, 'eval_runtime': 1.0091, 'eval_samples_per_second': 4.955, 'eval_steps_per_second': 0.991, 'epoch': 2.19}
{'loss': 0.7886, 'learning_rate': 1.4638509575188524e-05, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.462603211402893, 'eval_runtime': 1.0405, 'eval_samples_per_second': 4.805, 'eval_steps_per_second': 0.961, 'epoch': 2.2}
{'loss': 0.701, 'learning_rate': 1.4630685896060301e-05, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4600214958190918, 'eval_runtime': 0.9572, 'eval_samples_per_second': 5.224, 'eval_steps_per_second': 1.045, 'epoch': 2.2}
{'loss': 0.9171, 'learning_rate': 1.4622858607122197e-05, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.459349513053894, 'eval_runtime': 1.0055, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 2.2}
{'loss': 0.6962, 'learning_rate': 1.46150277144759e-05, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.45928955078125, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 2.2}
{'loss': 0.6282, 'learning_rate': 1.4607193224225914e-05, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.459326148033142, 'eval_runtime': 0.9542, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 2.2}
{'loss': 0.9573, 'learning_rate': 1.4599355142479544e-05, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4499444961547852, 'eval_runtime': 1.0434, 'eval_samples_per_second': 4.792, 'eval_steps_per_second': 0.958, 'epoch': 2.2}
{'loss': 0.7764, 'learning_rate': 1.45915134753469e-05, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444038987159729, 'eval_runtime': 1.0493, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 2.21}
{'loss': 0.6707, 'learning_rate': 1.4583668228940881e-05, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4440062046051025, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 2.21}
{'loss': 0.6952, 'learning_rate': 1.4575819409377184e-05, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4450756311416626, 'eval_runtime': 0.9948, 'eval_samples_per_second': 5.026, 'eval_steps_per_second': 1.005, 'epoch': 2.21}
{'loss': 0.8848, 'learning_rate': 1.4567967022774276e-05, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4438464641571045, 'eval_runtime': 0.9909, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 2.21}
{'loss': 0.9931, 'learning_rate': 1.4560111075253424e-05, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4470778703689575, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 2.21}
{'loss': 0.8276, 'learning_rate': 1.4552251572938661e-05, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4504200220108032, 'eval_runtime': 0.9885, 'eval_samples_per_second': 5.058, 'eval_steps_per_second': 1.012, 'epoch': 2.21}
{'loss': 0.6537, 'learning_rate': 1.4544388521956789e-05, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4518046379089355, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 2.22}
{'loss': 0.8284, 'learning_rate': 1.4536521928437379e-05, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.451220989227295, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 2.22}
{'loss': 0.6699, 'learning_rate': 1.4528651798512767e-05, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.454969048500061, 'eval_runtime': 0.9786, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 2.22}
{'loss': 0.6956, 'learning_rate': 1.4520778138318039e-05, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.463687777519226, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.22}
{'loss': 0.4948, 'learning_rate': 1.4512900953991038e-05, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4755136966705322, 'eval_runtime': 1.0515, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 2.22}
{'loss': 0.7246, 'learning_rate': 1.4505020251672353e-05, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4903732538223267, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 2.22}
{'loss': 0.8052, 'learning_rate': 1.4497136037505315e-05, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4961246252059937, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 2.23}
{'loss': 0.7244, 'learning_rate': 1.4489248317635993e-05, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.496728539466858, 'eval_runtime': 1.0345, 'eval_samples_per_second': 4.833, 'eval_steps_per_second': 0.967, 'epoch': 2.23}
{'loss': 0.7816, 'learning_rate': 1.448135709821319e-05, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4953337907791138, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 2.23}
{'loss': 0.8149, 'learning_rate': 1.4473462385388435e-05, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4945077896118164, 'eval_runtime': 0.9656, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 2.23}
{'loss': 0.8393, 'learning_rate': 1.4465564185315976e-05, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.493779182434082, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 2.23}
{'loss': 0.8079, 'learning_rate': 1.4457662504152794e-05, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4918378591537476, 'eval_runtime': 0.9912, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 2.23}
{'loss': 0.5387, 'learning_rate': 1.4449757348058566e-05, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4894914627075195, 'eval_runtime': 1.0448, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 2.24}
{'loss': 0.6852, 'learning_rate': 1.4441848723195686e-05, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4885979890823364, 'eval_runtime': 0.968, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 2.24}
{'loss': 0.7338, 'learning_rate': 1.443393663572926e-05, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4864132404327393, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.291, 'eval_steps_per_second': 1.058, 'epoch': 2.24}
{'loss': 0.7121, 'learning_rate': 1.4426021091827079e-05, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4864046573638916, 'eval_runtime': 1.0259, 'eval_samples_per_second': 4.874, 'eval_steps_per_second': 0.975, 'epoch': 2.24}
{'loss': 0.9401, 'learning_rate': 1.4418102097659632e-05, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.483689308166504, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 2.24}
{'loss': 0.5785, 'learning_rate': 1.4410179659400107e-05, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4773563146591187, 'eval_runtime': 1.0083, 'eval_samples_per_second': 4.959, 'eval_steps_per_second': 0.992, 'epoch': 2.24}
{'loss': 0.5917, 'learning_rate': 1.4402253783224369e-05, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4775699377059937, 'eval_runtime': 0.9902, 'eval_samples_per_second': 5.049, 'eval_steps_per_second': 1.01, 'epoch': 2.25}
{'loss': 0.5666, 'learning_rate': 1.4394324475310957e-05, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4782805442810059, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 2.25}
{'loss': 0.5987, 'learning_rate': 1.4386391741841097e-05, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4812376499176025, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 2.25}
{'loss': 0.9543, 'learning_rate': 1.4378455588998685e-05, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4842249155044556, 'eval_runtime': 1.0202, 'eval_samples_per_second': 4.901, 'eval_steps_per_second': 0.98, 'epoch': 2.25}
{'loss': 0.9301, 'learning_rate': 1.4370516022970271e-05, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4865543842315674, 'eval_runtime': 0.9617, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 2.25}
{'loss': 0.5766, 'learning_rate': 1.4362573049945079e-05, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4863396883010864, 'eval_runtime': 0.9601, 'eval_samples_per_second': 5.208, 'eval_steps_per_second': 1.042, 'epoch': 2.25}
{'loss': 0.466, 'learning_rate': 1.4354626676114977e-05, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4943231344223022, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 2.26}
{'loss': 0.6087, 'learning_rate': 1.4346676907674493e-05, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5007094144821167, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 2.26}
{'loss': 0.5038, 'learning_rate': 1.4338723750820796e-05, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.506945013999939, 'eval_runtime': 0.9689, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 2.26}
{'loss': 0.6729, 'learning_rate': 1.4330767211753702e-05, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5093982219696045, 'eval_runtime': 0.967, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 2.26}
{'loss': 0.6553, 'learning_rate': 1.4322807296675657e-05, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5063724517822266, 'eval_runtime': 1.0403, 'eval_samples_per_second': 4.806, 'eval_steps_per_second': 0.961, 'epoch': 2.26}
{'loss': 0.601, 'learning_rate': 1.4314844011791745e-05, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5061596632003784, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 2.26}
{'loss': 0.8874, 'learning_rate': 1.430687736330967e-05, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5044643878936768, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 2.27}
{'loss': 0.8551, 'learning_rate': 1.4298907357439764e-05, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.50545072555542, 'eval_runtime': 0.9548, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 2.27}
{'loss': 0.5191, 'learning_rate': 1.4290934000394974e-05, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5074156522750854, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 2.27}
{'loss': 0.4549, 'learning_rate': 1.4282957298390857e-05, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5144751071929932, 'eval_runtime': 1.0582, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 2.27}
{'loss': 0.795, 'learning_rate': 1.427497725764558e-05, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5173791646957397, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 2.27}
{'loss': 0.7016, 'learning_rate': 1.4266993884379919e-05, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5165109634399414, 'eval_runtime': 0.962, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 2.27}
{'loss': 0.6889, 'learning_rate': 1.4259007184817233e-05, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5164281129837036, 'eval_runtime': 0.9916, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 2.28}
{'loss': 0.8881, 'learning_rate': 1.4251017165183484e-05, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5074387788772583, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 2.28}
{'loss': 0.6519, 'learning_rate': 1.4243023831707228e-05, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4984731674194336, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 2.28}
{'loss': 0.8184, 'learning_rate': 1.423502719061959e-05, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4973405599594116, 'eval_runtime': 1.0065, 'eval_samples_per_second': 4.968, 'eval_steps_per_second': 0.994, 'epoch': 2.28}
{'loss': 0.7487, 'learning_rate': 1.4227027248154279e-05, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4971054792404175, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 2.28}
{'loss': 0.9371, 'learning_rate': 1.4219024010547582e-05, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4973756074905396, 'eval_runtime': 1.0003, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 2.28}
{'loss': 0.5984, 'learning_rate': 1.4211017484038355e-05, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4945950508117676, 'eval_runtime': 1.0188, 'eval_samples_per_second': 4.908, 'eval_steps_per_second': 0.982, 'epoch': 2.28}
{'loss': 0.5867, 'learning_rate': 1.4203007674868004e-05, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4969013929367065, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 2.29}
{'loss': 0.447, 'learning_rate': 1.4194994589280516e-05, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4981156587600708, 'eval_runtime': 0.9876, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 2.29}
{'loss': 0.8705, 'learning_rate': 1.4186978233522413e-05, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5007739067077637, 'eval_runtime': 1.0247, 'eval_samples_per_second': 4.879, 'eval_steps_per_second': 0.976, 'epoch': 2.29}
{'loss': 1.0036, 'learning_rate': 1.4178958613842772e-05, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4996626377105713, 'eval_runtime': 0.9745, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 2.29}
{'loss': 0.6192, 'learning_rate': 1.4170935736493222e-05, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.500167727470398, 'eval_runtime': 1.0189, 'eval_samples_per_second': 4.907, 'eval_steps_per_second': 0.981, 'epoch': 2.29}
{'loss': 0.7023, 'learning_rate': 1.4162909607727924e-05, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5014642477035522, 'eval_runtime': 1.0268, 'eval_samples_per_second': 4.869, 'eval_steps_per_second': 0.974, 'epoch': 2.29}
{'loss': 0.8134, 'learning_rate': 1.4154880233803571e-05, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5020833015441895, 'eval_runtime': 0.9813, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 2.3}
{'loss': 0.5942, 'learning_rate': 1.4146847620979398e-05, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5024598836898804, 'eval_runtime': 0.9711, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 2.3}
{'loss': 1.0992, 'learning_rate': 1.413881177551715e-05, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5039023160934448, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 2.3}
{'loss': 0.5976, 'learning_rate': 1.4130772703681097e-05, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.501936435699463, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 2.3}
{'loss': 0.6555, 'learning_rate': 1.412273041173803e-05, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5032635927200317, 'eval_runtime': 1.0572, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 2.3}
{'loss': 0.7713, 'learning_rate': 1.4114684905957248e-05, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.505748987197876, 'eval_runtime': 0.9818, 'eval_samples_per_second': 5.093, 'eval_steps_per_second': 1.019, 'epoch': 2.3}
{'loss': 0.6523, 'learning_rate': 1.4106636192610547e-05, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.511263132095337, 'eval_runtime': 1.0298, 'eval_samples_per_second': 4.855, 'eval_steps_per_second': 0.971, 'epoch': 2.31}
{'loss': 0.8867, 'learning_rate': 1.4098584277972234e-05, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.513770580291748, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 2.31}
{'loss': 0.712, 'learning_rate': 1.4090529168319105e-05, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5150359869003296, 'eval_runtime': 1.0087, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 2.31}
{'loss': 0.6621, 'learning_rate': 1.408247086993045e-05, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5154612064361572, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 2.31}
{'loss': 0.7181, 'learning_rate': 1.4074409389088047e-05, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5170185565948486, 'eval_runtime': 0.9409, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 2.31}
{'loss': 0.5811, 'learning_rate': 1.4066344732076144e-05, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5143779516220093, 'eval_runtime': 0.9585, 'eval_samples_per_second': 5.217, 'eval_steps_per_second': 1.043, 'epoch': 2.31}
{'loss': 0.6804, 'learning_rate': 1.4058276905181478e-05, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5116126537322998, 'eval_runtime': 1.0073, 'eval_samples_per_second': 4.964, 'eval_steps_per_second': 0.993, 'epoch': 2.32}
{'loss': 0.7536, 'learning_rate': 1.405020591469325e-05, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5075266361236572, 'eval_runtime': 0.9673, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 2.32}
{'loss': 0.6217, 'learning_rate': 1.404213176690313e-05, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5032727718353271, 'eval_runtime': 0.9593, 'eval_samples_per_second': 5.212, 'eval_steps_per_second': 1.042, 'epoch': 2.32}
{'loss': 0.8772, 'learning_rate': 1.4034054468105243e-05, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5018795728683472, 'eval_runtime': 1.013, 'eval_samples_per_second': 4.936, 'eval_steps_per_second': 0.987, 'epoch': 2.32}
{'loss': 0.7003, 'learning_rate': 1.4025974024596181e-05, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.501365065574646, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 2.32}
{'loss': 0.7812, 'learning_rate': 1.4017890442674981e-05, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5005433559417725, 'eval_runtime': 0.9869, 'eval_samples_per_second': 5.066, 'eval_steps_per_second': 1.013, 'epoch': 2.32}
{'loss': 0.8162, 'learning_rate': 1.4009803728643123e-05, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5031408071517944, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 2.33}
{'loss': 0.5285, 'learning_rate': 1.4001713888804535e-05, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5111435651779175, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 2.33}
{'loss': 0.7751, 'learning_rate': 1.3993620929465581e-05, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5163850784301758, 'eval_runtime': 0.988, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 2.33}
{'loss': 0.7498, 'learning_rate': 1.3985524856935055e-05, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5180076360702515, 'eval_runtime': 0.9498, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 2.33}
{'loss': 0.6428, 'learning_rate': 1.3977425677524176e-05, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5162168741226196, 'eval_runtime': 0.982, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 2.33}
{'loss': 0.5539, 'learning_rate': 1.396932339754659e-05, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5162229537963867, 'eval_runtime': 1.0175, 'eval_samples_per_second': 4.914, 'eval_steps_per_second': 0.983, 'epoch': 2.33}
{'loss': 0.5121, 'learning_rate': 1.3961218023318355e-05, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5162221193313599, 'eval_runtime': 1.0493, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 2.34}
{'loss': 0.7226, 'learning_rate': 1.3953109561157943e-05, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5159319639205933, 'eval_runtime': 1.0576, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 2.34}
{'loss': 0.8283, 'learning_rate': 1.3944998017386235e-05, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5060714483261108, 'eval_runtime': 0.9744, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 2.34}
{'loss': 0.7039, 'learning_rate': 1.393688339832651e-05, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4976979494094849, 'eval_runtime': 1.0393, 'eval_samples_per_second': 4.811, 'eval_steps_per_second': 0.962, 'epoch': 2.34}
{'loss': 0.6444, 'learning_rate': 1.3928765710304446e-05, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4939360618591309, 'eval_runtime': 0.9901, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 2.34}
{'loss': 0.8237, 'learning_rate': 1.3920644959648121e-05, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4963328838348389, 'eval_runtime': 1.0231, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 2.34}
{'loss': 0.7836, 'learning_rate': 1.3912521152687987e-05, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.503116488456726, 'eval_runtime': 0.9655, 'eval_samples_per_second': 5.179, 'eval_steps_per_second': 1.036, 'epoch': 2.35}
{'loss': 0.9505, 'learning_rate': 1.390439429575689e-05, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.505141258239746, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 2.35}
{'loss': 0.7618, 'learning_rate': 1.3896264395190046e-05, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4995924234390259, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 2.35}
{'loss': 0.7979, 'learning_rate': 1.3888131457325046e-05, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4963295459747314, 'eval_runtime': 0.9744, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 2.35}
{'loss': 0.5669, 'learning_rate': 1.3879995488501852e-05, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4961576461791992, 'eval_runtime': 1.0116, 'eval_samples_per_second': 4.943, 'eval_steps_per_second': 0.989, 'epoch': 2.35}
{'loss': 0.6388, 'learning_rate': 1.3871856495062783e-05, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4986639022827148, 'eval_runtime': 0.9858, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 2.35}
{'loss': 0.8259, 'learning_rate': 1.3863714483352517e-05, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.500935673713684, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 2.36}
{'loss': 0.6662, 'learning_rate': 1.3855569459718094e-05, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.506868600845337, 'eval_runtime': 0.9654, 'eval_samples_per_second': 5.179, 'eval_steps_per_second': 1.036, 'epoch': 2.36}
{'loss': 0.6213, 'learning_rate': 1.384742143050889e-05, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.512328028678894, 'eval_runtime': 1.0049, 'eval_samples_per_second': 4.975, 'eval_steps_per_second': 0.995, 'epoch': 2.36}
{'loss': 0.5702, 'learning_rate': 1.3839270402076626e-05, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5193742513656616, 'eval_runtime': 1.0441, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 2.36}
{'loss': 0.8321, 'learning_rate': 1.3831116380775366e-05, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.523095965385437, 'eval_runtime': 0.9606, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 2.36}
{'loss': 0.7439, 'learning_rate': 1.3822959372961506e-05, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.524857759475708, 'eval_runtime': 0.9968, 'eval_samples_per_second': 5.016, 'eval_steps_per_second': 1.003, 'epoch': 2.36}
{'loss': 0.6057, 'learning_rate': 1.3814799384993767e-05, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5238559246063232, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 2.37}
{'loss': 0.8963, 'learning_rate': 1.3806636423233193e-05, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.519196629524231, 'eval_runtime': 0.9835, 'eval_samples_per_second': 5.084, 'eval_steps_per_second': 1.017, 'epoch': 2.37}
{'loss': 0.8029, 'learning_rate': 1.3798470494043152e-05, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5160845518112183, 'eval_runtime': 0.9937, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 2.37}
{'loss': 0.6927, 'learning_rate': 1.3790301603789319e-05, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5154070854187012, 'eval_runtime': 0.9712, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 2.37}
{'loss': 0.6909, 'learning_rate': 1.378212975883968e-05, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5224653482437134, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 2.37}
{'loss': 0.7305, 'learning_rate': 1.3773954965564525e-05, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5209524631500244, 'eval_runtime': 1.0329, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 2.37}
{'loss': 1.0077, 'learning_rate': 1.3765777230336437e-05, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5174452066421509, 'eval_runtime': 0.971, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 2.37}
{'loss': 0.6136, 'learning_rate': 1.37575965595303e-05, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5167737007141113, 'eval_runtime': 0.9439, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 2.38}
{'loss': 0.6132, 'learning_rate': 1.3749412959523284e-05, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5173349380493164, 'eval_runtime': 1.0488, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 2.38}
{'loss': 0.7153, 'learning_rate': 1.3741226436694837e-05, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5149637460708618, 'eval_runtime': 0.9911, 'eval_samples_per_second': 5.045, 'eval_steps_per_second': 1.009, 'epoch': 2.38}
{'loss': 0.6629, 'learning_rate': 1.3733036997426697e-05, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5070748329162598, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 2.38}
{'loss': 0.7245, 'learning_rate': 1.3724844648102862e-05, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5014278888702393, 'eval_runtime': 0.9916, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 2.38}
{'loss': 0.7335, 'learning_rate': 1.3716649395109605e-05, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5015878677368164, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 2.38}
{'loss': 0.9809, 'learning_rate': 1.3708451244835468e-05, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5020344257354736, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 2.39}
{'loss': 0.7667, 'learning_rate': 1.3700250203671237e-05, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5027228593826294, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 2.39}
{'loss': 0.5429, 'learning_rate': 1.3692046278009969e-05, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5064915418624878, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 2.39}
{'loss': 0.7305, 'learning_rate': 1.3683839474246958e-05, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5080053806304932, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.39}
{'loss': 1.1646, 'learning_rate': 1.3675629798779745e-05, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5069496631622314, 'eval_runtime': 0.9656, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 2.39}
{'loss': 0.9758, 'learning_rate': 1.3667417258008105e-05, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5051931142807007, 'eval_runtime': 0.9589, 'eval_samples_per_second': 5.214, 'eval_steps_per_second': 1.043, 'epoch': 2.39}
{'loss': 0.9715, 'learning_rate': 1.3659201858334056e-05, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5004709959030151, 'eval_runtime': 1.0316, 'eval_samples_per_second': 4.847, 'eval_steps_per_second': 0.969, 'epoch': 2.4}
{'loss': 1.0483, 'learning_rate': 1.3650983606161841e-05, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.496908187866211, 'eval_runtime': 1.0326, 'eval_samples_per_second': 4.842, 'eval_steps_per_second': 0.968, 'epoch': 2.4}
{'loss': 0.6194, 'learning_rate': 1.364276250789792e-05, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4986191987991333, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 2.4}
{'loss': 0.738, 'learning_rate': 1.3634538569950978e-05, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.503044605255127, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 2.4}
{'loss': 0.6958, 'learning_rate': 1.3626311798731915e-05, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5054701566696167, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 2.4}
{'loss': 0.7807, 'learning_rate': 1.3618082200653833e-05, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5070738792419434, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 2.4}
{'loss': 0.9098, 'learning_rate': 1.360984978213205e-05, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.503905177116394, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.41}
{'loss': 0.6548, 'learning_rate': 1.3601614549584064e-05, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4978712797164917, 'eval_runtime': 1.0246, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 2.41}
{'loss': 0.6857, 'learning_rate': 1.3593376509429582e-05, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.494006633758545, 'eval_runtime': 1.0561, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 2.41}
{'loss': 0.5961, 'learning_rate': 1.3585135668090499e-05, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4917137622833252, 'eval_runtime': 0.9586, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 2.41}
{'loss': 0.6882, 'learning_rate': 1.3576892031990881e-05, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4927071332931519, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 2.41}
{'loss': 0.6168, 'learning_rate': 1.3568645607556983e-05, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4942055940628052, 'eval_runtime': 1.0518, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.41}
{'loss': 0.6387, 'learning_rate': 1.3560396401217239e-05, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4927023649215698, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 2.42}
{'loss': 0.9463, 'learning_rate': 1.3552144419402237e-05, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4914296865463257, 'eval_runtime': 0.9622, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 2.42}
{'loss': 0.5785, 'learning_rate': 1.3543889668544736e-05, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.486984372138977, 'eval_runtime': 0.9692, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 2.42}
{'loss': 0.8659, 'learning_rate': 1.3535632155079656e-05, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.484634518623352, 'eval_runtime': 0.9577, 'eval_samples_per_second': 5.221, 'eval_steps_per_second': 1.044, 'epoch': 2.42}
{'loss': 0.5819, 'learning_rate': 1.352737188544407e-05, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4830410480499268, 'eval_runtime': 0.9938, 'eval_samples_per_second': 5.031, 'eval_steps_per_second': 1.006, 'epoch': 2.42}
{'loss': 0.6053, 'learning_rate': 1.3519108866077191e-05, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.481682300567627, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 2.42}
{'loss': 0.8174, 'learning_rate': 1.3510843103420384e-05, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4797998666763306, 'eval_runtime': 0.9504, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 2.43}
{'loss': 0.7274, 'learning_rate': 1.3502574603917155e-05, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4777956008911133, 'eval_runtime': 0.9993, 'eval_samples_per_second': 5.003, 'eval_steps_per_second': 1.001, 'epoch': 2.43}
{'loss': 0.6149, 'learning_rate': 1.3494303374013136e-05, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4827221632003784, 'eval_runtime': 1.0049, 'eval_samples_per_second': 4.976, 'eval_steps_per_second': 0.995, 'epoch': 2.43}
{'loss': 0.6335, 'learning_rate': 1.3486029420156091e-05, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.490018606185913, 'eval_runtime': 1.0005, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 2.43}
{'loss': 0.7179, 'learning_rate': 1.3477752748795908e-05, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4975016117095947, 'eval_runtime': 0.9776, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 2.43}
{'loss': 0.6097, 'learning_rate': 1.3469473366384587e-05, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.498396396636963, 'eval_runtime': 1.0073, 'eval_samples_per_second': 4.964, 'eval_steps_per_second': 0.993, 'epoch': 2.43}
{'loss': 0.4537, 'learning_rate': 1.3461191279376251e-05, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.500372290611267, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 2.44}
{'loss': 1.0305, 'learning_rate': 1.3452906494227127e-05, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.496417760848999, 'eval_runtime': 0.9697, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 2.44}
{'loss': 0.5811, 'learning_rate': 1.3444619017395546e-05, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4959003925323486, 'eval_runtime': 0.9398, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 2.44}
{'loss': 0.7307, 'learning_rate': 1.3436328855341936e-05, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.492016315460205, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 2.44}
{'loss': 0.8068, 'learning_rate': 1.3428036014528818e-05, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4868969917297363, 'eval_runtime': 0.9778, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 2.44}
{'loss': 0.7007, 'learning_rate': 1.3419740501420802e-05, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4821041822433472, 'eval_runtime': 0.9692, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 2.44}
{'loss': 0.6039, 'learning_rate': 1.3411442322484583e-05, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.480339765548706, 'eval_runtime': 1.0448, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 2.45}
{'loss': 0.9067, 'learning_rate': 1.3403141484188931e-05, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4798811674118042, 'eval_runtime': 0.9961, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 2.45}
{'loss': 0.7285, 'learning_rate': 1.339483799300469e-05, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4829543828964233, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.45}
{'loss': 0.7025, 'learning_rate': 1.3386531855404775e-05, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4850101470947266, 'eval_runtime': 0.9597, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 2.45}
{'loss': 0.6706, 'learning_rate': 1.3378223077864157e-05, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4854873418807983, 'eval_runtime': 0.9556, 'eval_samples_per_second': 5.232, 'eval_steps_per_second': 1.046, 'epoch': 2.45}
{'loss': 0.8431, 'learning_rate': 1.3369911666859873e-05, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4824336767196655, 'eval_runtime': 1.0286, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 2.45}
{'loss': 0.8053, 'learning_rate': 1.336159762887101e-05, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.481169581413269, 'eval_runtime': 1.0147, 'eval_samples_per_second': 4.927, 'eval_steps_per_second': 0.985, 'epoch': 2.46}
{'loss': 0.765, 'learning_rate': 1.33532809703787e-05, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.481004238128662, 'eval_runtime': 1.0034, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 2.46}
{'loss': 0.6298, 'learning_rate': 1.3344961697866119e-05, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.483746886253357, 'eval_runtime': 1.0457, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 2.46}
{'loss': 0.6783, 'learning_rate': 1.3336639817818485e-05, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4851162433624268, 'eval_runtime': 0.9599, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 2.46}
{'loss': 0.9071, 'learning_rate': 1.332831533672304e-05, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4848905801773071, 'eval_runtime': 0.9704, 'eval_samples_per_second': 5.153, 'eval_steps_per_second': 1.031, 'epoch': 2.46}
{'loss': 0.7653, 'learning_rate': 1.3319988261069066e-05, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4829785823822021, 'eval_runtime': 0.9959, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 2.46}
{'loss': 0.7929, 'learning_rate': 1.3311658597347857e-05, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4772214889526367, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 2.46}
{'loss': 0.7939, 'learning_rate': 1.3303326352052727e-05, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4707154035568237, 'eval_runtime': 1.0193, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 2.47}
{'loss': 0.7614, 'learning_rate': 1.3294991531679004e-05, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.469357967376709, 'eval_runtime': 0.9646, 'eval_samples_per_second': 5.184, 'eval_steps_per_second': 1.037, 'epoch': 2.47}
{'loss': 0.4364, 'learning_rate': 1.3286654142724025e-05, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4716767072677612, 'eval_runtime': 0.9533, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 2.47}
{'loss': 0.5767, 'learning_rate': 1.3278314191687125e-05, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4727303981781006, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 2.47}
{'loss': 0.5711, 'learning_rate': 1.3269971685069638e-05, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4745539426803589, 'eval_runtime': 1.0082, 'eval_samples_per_second': 4.959, 'eval_steps_per_second': 0.992, 'epoch': 2.47}
{'loss': 1.0576, 'learning_rate': 1.3261626629374894e-05, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4738354682922363, 'eval_runtime': 1.0103, 'eval_samples_per_second': 4.949, 'eval_steps_per_second': 0.99, 'epoch': 2.47}
{'loss': 0.6984, 'learning_rate': 1.3253279031108203e-05, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4735862016677856, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 2.48}
{'loss': 0.9479, 'learning_rate': 1.324492889677686e-05, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4743168354034424, 'eval_runtime': 0.9883, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 2.48}
{'loss': 0.8821, 'learning_rate': 1.3236576232890146e-05, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4723384380340576, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 2.48}
{'loss': 0.9746, 'learning_rate': 1.3228221045959297e-05, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4717758893966675, 'eval_runtime': 0.9856, 'eval_samples_per_second': 5.073, 'eval_steps_per_second': 1.015, 'epoch': 2.48}
{'loss': 0.7355, 'learning_rate': 1.3219863342497524e-05, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4715193510055542, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.48}
{'loss': 0.5541, 'learning_rate': 1.3211503129020005e-05, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4708189964294434, 'eval_runtime': 0.9547, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 2.48}
{'loss': 0.7763, 'learning_rate': 1.3203140412043868e-05, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.465341329574585, 'eval_runtime': 1.0414, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 2.49}
{'loss': 0.7679, 'learning_rate': 1.3194775198088195e-05, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4587713479995728, 'eval_runtime': 1.0009, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 2.49}
{'loss': 0.5869, 'learning_rate': 1.3186407493674014e-05, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4577410221099854, 'eval_runtime': 0.9854, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 2.49}
{'loss': 0.5036, 'learning_rate': 1.3178037305324294e-05, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4604929685592651, 'eval_runtime': 0.9677, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 2.49}
{'loss': 0.7216, 'learning_rate': 1.3169664639563936e-05, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4655029773712158, 'eval_runtime': 0.9741, 'eval_samples_per_second': 5.133, 'eval_steps_per_second': 1.027, 'epoch': 2.49}
{'loss': 0.773, 'learning_rate': 1.3161289502919789e-05, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4697479009628296, 'eval_runtime': 1.0399, 'eval_samples_per_second': 4.808, 'eval_steps_per_second': 0.962, 'epoch': 2.49}
{'loss': 0.625, 'learning_rate': 1.3152911901920602e-05, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4727468490600586, 'eval_runtime': 0.9897, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 2.5}
{'loss': 0.6279, 'learning_rate': 1.3144531843097065e-05, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4744194746017456, 'eval_runtime': 0.9538, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 2.5}
{'loss': 0.6623, 'learning_rate': 1.3136149332981784e-05, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4755445718765259, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 2.5}
{'loss': 0.6837, 'learning_rate': 1.3127764378109263e-05, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4740827083587646, 'eval_runtime': 0.9948, 'eval_samples_per_second': 5.026, 'eval_steps_per_second': 1.005, 'epoch': 2.5}
{'loss': 0.6016, 'learning_rate': 1.311937698501592e-05, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4724081754684448, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 2.5}
{'loss': 0.7721, 'learning_rate': 1.3110987160240072e-05, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.470253825187683, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 2.5}
{'loss': 0.8079, 'learning_rate': 1.3102594910321934e-05, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4660117626190186, 'eval_runtime': 0.9431, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 2.51}
{'loss': 0.7841, 'learning_rate': 1.3094200241803606e-05, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4652663469314575, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 2.51}
{'loss': 0.7736, 'learning_rate': 1.308580316122908e-05, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4661478996276855, 'eval_runtime': 0.9994, 'eval_samples_per_second': 5.003, 'eval_steps_per_second': 1.001, 'epoch': 2.51}
{'loss': 0.6181, 'learning_rate': 1.3077403675144229e-05, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4692457914352417, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.51}
{'loss': 0.6234, 'learning_rate': 1.306900179009679e-05, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4725068807601929, 'eval_runtime': 1.0006, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 2.51}
{'loss': 0.7781, 'learning_rate': 1.306059751263638e-05, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.476561427116394, 'eval_runtime': 1.0449, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 2.51}
{'loss': 0.8091, 'learning_rate': 1.305219084931448e-05, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.477176308631897, 'eval_runtime': 0.9521, 'eval_samples_per_second': 5.251, 'eval_steps_per_second': 1.05, 'epoch': 2.52}
{'loss': 0.7349, 'learning_rate': 1.3043781806684428e-05, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4792848825454712, 'eval_runtime': 0.945, 'eval_samples_per_second': 5.291, 'eval_steps_per_second': 1.058, 'epoch': 2.52}
{'loss': 0.5922, 'learning_rate': 1.3035370391301419e-05, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4805446863174438, 'eval_runtime': 1.0174, 'eval_samples_per_second': 4.915, 'eval_steps_per_second': 0.983, 'epoch': 2.52}
{'loss': 0.6949, 'learning_rate': 1.3026956609722498e-05, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.479260802268982, 'eval_runtime': 1.0247, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 2.52}
{'loss': 0.6427, 'learning_rate': 1.3018540468506551e-05, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4821072816848755, 'eval_runtime': 1.0202, 'eval_samples_per_second': 4.901, 'eval_steps_per_second': 0.98, 'epoch': 2.52}
{'loss': 0.5253, 'learning_rate': 1.3010121974214307e-05, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4861347675323486, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 2.52}
{'loss': 0.8782, 'learning_rate': 1.3001701133408328e-05, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4853715896606445, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 2.53}
{'loss': 0.8311, 'learning_rate': 1.2993277952653008e-05, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4829148054122925, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.53}
{'loss': 0.7392, 'learning_rate': 1.2984852438514558e-05, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4819608926773071, 'eval_runtime': 1.0371, 'eval_samples_per_second': 4.821, 'eval_steps_per_second': 0.964, 'epoch': 2.53}
{'loss': 0.9529, 'learning_rate': 1.297642459756101e-05, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4849309921264648, 'eval_runtime': 0.952, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 2.53}
{'loss': 0.8228, 'learning_rate': 1.2967994436362218e-05, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4873313903808594, 'eval_runtime': 1.0434, 'eval_samples_per_second': 4.792, 'eval_steps_per_second': 0.958, 'epoch': 2.53}
{'loss': 0.7937, 'learning_rate': 1.2959561961489842e-05, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4908173084259033, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 2.53}
{'loss': 0.6867, 'learning_rate': 1.2951127179517335e-05, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4933505058288574, 'eval_runtime': 0.9695, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 2.54}
{'loss': 0.4813, 'learning_rate': 1.2942690097019958e-05, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4920986890792847, 'eval_runtime': 1.0487, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 2.54}
{'loss': 0.6726, 'learning_rate': 1.2934250720574768e-05, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4973121881484985, 'eval_runtime': 0.9648, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 2.54}
{'loss': 0.7112, 'learning_rate': 1.2925809056760601e-05, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4994254112243652, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 2.54}
{'loss': 0.5581, 'learning_rate': 1.2917365112158077e-05, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4989219903945923, 'eval_runtime': 1.0131, 'eval_samples_per_second': 4.935, 'eval_steps_per_second': 0.987, 'epoch': 2.54}
{'loss': 0.8113, 'learning_rate': 1.2908918893349607e-05, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4959148168563843, 'eval_runtime': 1.0128, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 2.54}
{'loss': 1.0184, 'learning_rate': 1.2900470406919359e-05, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4940508604049683, 'eval_runtime': 0.9511, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 2.54}
{'loss': 0.5254, 'learning_rate': 1.2892019659453276e-05, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.490332007408142, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 2.55}
{'loss': 0.6534, 'learning_rate': 1.2883566657539068e-05, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4867315292358398, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 2.55}
{'loss': 0.7852, 'learning_rate': 1.2875111407766192e-05, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4770092964172363, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 2.55}
{'loss': 0.8859, 'learning_rate': 1.2866653916725862e-05, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4655297994613647, 'eval_runtime': 1.0352, 'eval_samples_per_second': 4.83, 'eval_steps_per_second': 0.966, 'epoch': 2.55}
{'loss': 0.5221, 'learning_rate': 1.2858194191011043e-05, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4550522565841675, 'eval_runtime': 0.9573, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 2.55}
{'loss': 0.8243, 'learning_rate': 1.2849732237216435e-05, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4507735967636108, 'eval_runtime': 0.9905, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 2.55}
{'loss': 0.6756, 'learning_rate': 1.284126806193848e-05, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4507977962493896, 'eval_runtime': 0.9443, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 2.56}
{'loss': 0.7273, 'learning_rate': 1.2832801671775357e-05, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4528752565383911, 'eval_runtime': 0.9767, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 2.56}
{'loss': 0.8256, 'learning_rate': 1.2824333073326955e-05, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.45280921459198, 'eval_runtime': 0.9699, 'eval_samples_per_second': 5.155, 'eval_steps_per_second': 1.031, 'epoch': 2.56}
{'loss': 0.5494, 'learning_rate': 1.2815862273194898e-05, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4553276300430298, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.56}
{'loss': 0.7285, 'learning_rate': 1.2807389277982526e-05, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4570125341415405, 'eval_runtime': 0.9727, 'eval_samples_per_second': 5.141, 'eval_steps_per_second': 1.028, 'epoch': 2.56}
{'loss': 0.6651, 'learning_rate': 1.2798914094294881e-05, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4580680131912231, 'eval_runtime': 1.0039, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 2.56}
{'loss': 0.6232, 'learning_rate': 1.279043672873872e-05, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.460452675819397, 'eval_runtime': 1.0228, 'eval_samples_per_second': 4.889, 'eval_steps_per_second': 0.978, 'epoch': 2.57}
{'loss': 0.6176, 'learning_rate': 1.27819571879225e-05, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4645236730575562, 'eval_runtime': 0.9802, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 2.57}
{'loss': 0.652, 'learning_rate': 1.2773475478456368e-05, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4681172370910645, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 2.57}
{'loss': 0.6632, 'learning_rate': 1.2764991606952164e-05, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4719064235687256, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 2.57}
{'loss': 0.6003, 'learning_rate': 1.275650558002342e-05, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4793177843093872, 'eval_runtime': 0.9858, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 2.57}
{'loss': 0.5901, 'learning_rate': 1.2748017404285338e-05, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4882631301879883, 'eval_runtime': 0.949, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 2.57}
{'loss': 0.8552, 'learning_rate': 1.2739527086354797e-05, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4917619228363037, 'eval_runtime': 0.9526, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 2.58}
{'loss': 0.8135, 'learning_rate': 1.2731034632850352e-05, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4915896654129028, 'eval_runtime': 0.9866, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 2.58}
{'loss': 0.8172, 'learning_rate': 1.2722540050392225e-05, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4888685941696167, 'eval_runtime': 0.9924, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 2.58}
{'loss': 0.5739, 'learning_rate': 1.271404334560228e-05, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4884746074676514, 'eval_runtime': 1.027, 'eval_samples_per_second': 4.868, 'eval_steps_per_second': 0.974, 'epoch': 2.58}
{'loss': 0.679, 'learning_rate': 1.2705544525104058e-05, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4878135919570923, 'eval_runtime': 0.9989, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 2.58}
{'loss': 0.9173, 'learning_rate': 1.2697043595522736e-05, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4863041639328003, 'eval_runtime': 1.0154, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 2.58}
{'loss': 0.7624, 'learning_rate': 1.2688540563485133e-05, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4825481176376343, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 2.59}
{'loss': 0.9168, 'learning_rate': 1.2680035435619717e-05, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4767112731933594, 'eval_runtime': 0.9482, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 2.59}
{'loss': 0.6117, 'learning_rate': 1.2671528218556581e-05, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4706541299819946, 'eval_runtime': 1.044, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 2.59}
{'loss': 0.8625, 'learning_rate': 1.2663018918927454e-05, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4672034978866577, 'eval_runtime': 1.0232, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 2.59}
{'loss': 0.7405, 'learning_rate': 1.2654507543365684e-05, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4669098854064941, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 2.59}
{'loss': 0.7497, 'learning_rate': 1.2645994098506233e-05, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.465551733970642, 'eval_runtime': 0.939, 'eval_samples_per_second': 5.325, 'eval_steps_per_second': 1.065, 'epoch': 2.59}
{'loss': 0.5975, 'learning_rate': 1.2637478590985686e-05, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.468550682067871, 'eval_runtime': 1.0154, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 2.6}
{'loss': 0.8552, 'learning_rate': 1.262896102744223e-05, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4718949794769287, 'eval_runtime': 0.9785, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 2.6}
{'loss': 0.818, 'learning_rate': 1.2620441414515657e-05, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4777153730392456, 'eval_runtime': 1.0463, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 2.6}
{'loss': 0.8896, 'learning_rate': 1.261191975884735e-05, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4781733751296997, 'eval_runtime': 0.9418, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 2.6}
{'loss': 0.6742, 'learning_rate': 1.2603396067080294e-05, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4780489206314087, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 2.6}
{'loss': 0.7443, 'learning_rate': 1.2594870345859056e-05, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4764665365219116, 'eval_runtime': 1.0106, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 2.6}
{'loss': 0.6576, 'learning_rate': 1.2586342601829784e-05, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4764058589935303, 'eval_runtime': 0.9863, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 2.61}
{'loss': 0.8263, 'learning_rate': 1.2577812841640208e-05, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4772629737854004, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 2.61}
{'loss': 0.6109, 'learning_rate': 1.256928107193963e-05, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.478163242340088, 'eval_runtime': 0.9844, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 2.61}
{'loss': 0.7004, 'learning_rate': 1.2560747299378903e-05, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4762485027313232, 'eval_runtime': 1.0583, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 2.61}
{'loss': 0.8142, 'learning_rate': 1.2552211530610466e-05, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.475135326385498, 'eval_runtime': 1.0369, 'eval_samples_per_second': 4.822, 'eval_steps_per_second': 0.964, 'epoch': 2.61}
{'loss': 0.628, 'learning_rate': 1.2543673772288291e-05, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4753996133804321, 'eval_runtime': 1.0278, 'eval_samples_per_second': 4.865, 'eval_steps_per_second': 0.973, 'epoch': 2.61}
{'loss': 0.9285, 'learning_rate': 1.2535134031067918e-05, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4774843454360962, 'eval_runtime': 1.0054, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 2.62}
{'loss': 0.6799, 'learning_rate': 1.2526592313606425e-05, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4823317527770996, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.62}
{'loss': 0.805, 'learning_rate': 1.2518048626562432e-05, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4849992990493774, 'eval_runtime': 0.9535, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 2.62}
{'loss': 0.7598, 'learning_rate': 1.250950297659609e-05, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.486480951309204, 'eval_runtime': 1.0314, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 2.62}
{'loss': 0.69, 'learning_rate': 1.2500955370369088e-05, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4831609725952148, 'eval_runtime': 1.0456, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 2.62}
{'loss': 0.52, 'learning_rate': 1.2492405814544636e-05, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.481953740119934, 'eval_runtime': 1.0178, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 2.62}
{'loss': 0.8353, 'learning_rate': 1.2483854315787462e-05, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4829484224319458, 'eval_runtime': 0.9886, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 2.63}
{'loss': 0.9204, 'learning_rate': 1.2475300880763812e-05, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4830764532089233, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 2.63}
{'loss': 0.7273, 'learning_rate': 1.2466745516141443e-05, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4934699535369873, 'eval_runtime': 0.995, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 2.63}
{'loss': 0.7649, 'learning_rate': 1.2458188228589606e-05, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5042169094085693, 'eval_runtime': 0.9552, 'eval_samples_per_second': 5.235, 'eval_steps_per_second': 1.047, 'epoch': 2.63}
{'loss': 0.6442, 'learning_rate': 1.2449629024779064e-05, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.511561632156372, 'eval_runtime': 0.9471, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 2.63}
{'loss': 0.6669, 'learning_rate': 1.2441067911382067e-05, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.514019250869751, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 2.63}
{'loss': 0.8296, 'learning_rate': 1.2432504895072352e-05, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5140634775161743, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 2.63}
{'loss': 1.172, 'learning_rate': 1.2423939982525144e-05, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.511932373046875, 'eval_runtime': 1.0224, 'eval_samples_per_second': 4.89, 'eval_steps_per_second': 0.978, 'epoch': 2.64}
{'loss': 0.7833, 'learning_rate': 1.2415373180417145e-05, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.509573221206665, 'eval_runtime': 0.9681, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 2.64}
{'loss': 0.6058, 'learning_rate': 1.2406804495426527e-05, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5095834732055664, 'eval_runtime': 0.953, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 2.64}
{'loss': 0.8573, 'learning_rate': 1.2398233934232936e-05, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5102369785308838, 'eval_runtime': 0.9466, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 2.64}
{'loss': 0.7176, 'learning_rate': 1.2389661503517471e-05, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.510638952255249, 'eval_runtime': 1.0051, 'eval_samples_per_second': 4.975, 'eval_steps_per_second': 0.995, 'epoch': 2.64}
{'loss': 0.6689, 'learning_rate': 1.2381087209962697e-05, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5121593475341797, 'eval_runtime': 0.9767, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 2.64}
{'loss': 0.8576, 'learning_rate': 1.2372511060252627e-05, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.512175440788269, 'eval_runtime': 0.9827, 'eval_samples_per_second': 5.088, 'eval_steps_per_second': 1.018, 'epoch': 2.65}
{'loss': 0.7187, 'learning_rate': 1.2363933061072721e-05, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5131886005401611, 'eval_runtime': 0.9405, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 2.65}
{'loss': 0.916, 'learning_rate': 1.2355353219109885e-05, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5153100490570068, 'eval_runtime': 1.0568, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 2.65}
{'loss': 0.8681, 'learning_rate': 1.2346771541052459e-05, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.518303394317627, 'eval_runtime': 1.0555, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 2.65}
{'loss': 0.7813, 'learning_rate': 1.2338188033590208e-05, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5200645923614502, 'eval_runtime': 1.0157, 'eval_samples_per_second': 4.923, 'eval_steps_per_second': 0.985, 'epoch': 2.65}
{'loss': 0.6884, 'learning_rate': 1.2329602703414332e-05, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5261045694351196, 'eval_runtime': 0.9405, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 2.65}
{'loss': 0.9369, 'learning_rate': 1.232101555721745e-05, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5265494585037231, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 2.66}
{'loss': 0.8767, 'learning_rate': 1.2312426601693595e-05, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5262870788574219, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.66}
{'loss': 0.5617, 'learning_rate': 1.2303835843538206e-05, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.528018593788147, 'eval_runtime': 1.023, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 2.66}
{'loss': 0.6862, 'learning_rate': 1.2295243289448134e-05, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5305808782577515, 'eval_runtime': 0.9708, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 2.66}
{'loss': 0.8924, 'learning_rate': 1.2286648946121633e-05, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5289877653121948, 'eval_runtime': 1.0239, 'eval_samples_per_second': 4.883, 'eval_steps_per_second': 0.977, 'epoch': 2.66}
{'loss': 0.7074, 'learning_rate': 1.227805282025834e-05, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5281089544296265, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 2.66}
{'loss': 0.7153, 'learning_rate': 1.2269454918559292e-05, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5249751806259155, 'eval_runtime': 0.9372, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 2.67}
{'loss': 0.6114, 'learning_rate': 1.2260855247726906e-05, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5242223739624023, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 2.67}
{'loss': 0.7129, 'learning_rate': 1.2252253814464975e-05, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5256924629211426, 'eval_runtime': 1.0043, 'eval_samples_per_second': 4.979, 'eval_steps_per_second': 0.996, 'epoch': 2.67}
{'loss': 1.1453, 'learning_rate': 1.2243650625478679e-05, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5297683477401733, 'eval_runtime': 0.998, 'eval_samples_per_second': 5.01, 'eval_steps_per_second': 1.002, 'epoch': 2.67}
{'loss': 0.7565, 'learning_rate': 1.2235045687474548e-05, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5322898626327515, 'eval_runtime': 0.9423, 'eval_samples_per_second': 5.306, 'eval_steps_per_second': 1.061, 'epoch': 2.67}
{'loss': 0.7422, 'learning_rate': 1.2226439007160485e-05, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5376062393188477, 'eval_runtime': 1.0237, 'eval_samples_per_second': 4.884, 'eval_steps_per_second': 0.977, 'epoch': 2.67}
{'loss': 0.725, 'learning_rate': 1.2217830591245755e-05, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5434517860412598, 'eval_runtime': 1.0479, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 2.68}
{'loss': 0.6572, 'learning_rate': 1.2209220446440973e-05, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5462061166763306, 'eval_runtime': 0.9864, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 2.68}
{'loss': 0.8373, 'learning_rate': 1.2200608579458095e-05, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.544473648071289, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 2.68}
{'loss': 0.7485, 'learning_rate': 1.219199499701043e-05, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5420703887939453, 'eval_runtime': 1.0453, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 2.68}
{'loss': 0.671, 'learning_rate': 1.218337970581262e-05, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5372323989868164, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.68}
{'loss': 0.5897, 'learning_rate': 1.217476271258063e-05, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5350435972213745, 'eval_runtime': 0.9548, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 2.68}
{'loss': 0.8404, 'learning_rate': 1.216614402403177e-05, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5336074829101562, 'eval_runtime': 1.0431, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 2.69}
{'loss': 0.6608, 'learning_rate': 1.2157523646884657e-05, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.534170150756836, 'eval_runtime': 0.9694, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 2.69}
{'loss': 0.9096, 'learning_rate': 1.2148901587859228e-05, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.532466173171997, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.69}
{'loss': 0.6286, 'learning_rate': 1.2140277853676737e-05, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.530460238456726, 'eval_runtime': 0.9701, 'eval_samples_per_second': 5.154, 'eval_steps_per_second': 1.031, 'epoch': 2.69}
{'loss': 0.7116, 'learning_rate': 1.2131652451059737e-05, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5269509553909302, 'eval_runtime': 0.9521, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 2.69}
{'loss': 0.6935, 'learning_rate': 1.212302538673208e-05, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5271081924438477, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.69}
{'loss': 0.8409, 'learning_rate': 1.2114396667418919e-05, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5245130062103271, 'eval_runtime': 1.0484, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 2.7}
{'loss': 0.8923, 'learning_rate': 1.21057662998467e-05, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5198206901550293, 'eval_runtime': 1.0221, 'eval_samples_per_second': 4.892, 'eval_steps_per_second': 0.978, 'epoch': 2.7}
{'loss': 0.6692, 'learning_rate': 1.209713429074314e-05, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5194604396820068, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 2.7}
{'loss': 0.6306, 'learning_rate': 1.2088500646837255e-05, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5221225023269653, 'eval_runtime': 1.0276, 'eval_samples_per_second': 4.865, 'eval_steps_per_second': 0.973, 'epoch': 2.7}
{'loss': 0.7761, 'learning_rate': 1.2079865374859318e-05, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5292949676513672, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 2.7}
{'loss': 0.7242, 'learning_rate': 1.207122848154088e-05, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5331313610076904, 'eval_runtime': 0.9457, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 2.7}
{'loss': 1.2462, 'learning_rate': 1.2062589973614756e-05, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5290659666061401, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 2.71}
{'loss': 0.6618, 'learning_rate': 1.2053949857815015e-05, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5232504606246948, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 2.71}
{'loss': 0.6024, 'learning_rate': 1.2045308140876981e-05, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5206577777862549, 'eval_runtime': 1.0313, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 2.71}
{'loss': 0.7893, 'learning_rate': 1.2036664829537232e-05, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5189013481140137, 'eval_runtime': 0.9657, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 2.71}
{'loss': 0.8351, 'learning_rate': 1.2028019930533583e-05, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5146008729934692, 'eval_runtime': 0.9503, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 2.71}
{'loss': 0.6518, 'learning_rate': 1.2019373450605085e-05, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.511062502861023, 'eval_runtime': 1.0187, 'eval_samples_per_second': 4.908, 'eval_steps_per_second': 0.982, 'epoch': 2.71}
{'loss': 0.6915, 'learning_rate': 1.2010725396492028e-05, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5086934566497803, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 2.72}
{'loss': 0.9356, 'learning_rate': 1.2002075774935923e-05, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5079749822616577, 'eval_runtime': 0.9783, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 2.72}
{'loss': 0.7499, 'learning_rate': 1.1993424592679506e-05, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5088303089141846, 'eval_runtime': 0.9815, 'eval_samples_per_second': 5.094, 'eval_steps_per_second': 1.019, 'epoch': 2.72}
{'loss': 0.7953, 'learning_rate': 1.1984771856466727e-05, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.509814977645874, 'eval_runtime': 1.0007, 'eval_samples_per_second': 4.996, 'eval_steps_per_second': 0.999, 'epoch': 2.72}
{'loss': 0.703, 'learning_rate': 1.1976117573042756e-05, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.50746488571167, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 2.72}
{'loss': 0.7527, 'learning_rate': 1.1967461749153952e-05, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5069055557250977, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.72}
{'loss': 1.0549, 'learning_rate': 1.1958804391547896e-05, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5063589811325073, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.72}
{'loss': 0.6847, 'learning_rate': 1.1950145506973347e-05, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5069512128829956, 'eval_runtime': 0.9547, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 2.73}
{'loss': 0.7985, 'learning_rate': 1.194148510218026e-05, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5036094188690186, 'eval_runtime': 0.9889, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 2.73}
{'loss': 0.848, 'learning_rate': 1.1932823183919784e-05, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4992636442184448, 'eval_runtime': 0.9556, 'eval_samples_per_second': 5.232, 'eval_steps_per_second': 1.046, 'epoch': 2.73}
{'loss': 0.6693, 'learning_rate': 1.1924159758944234e-05, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4978351593017578, 'eval_runtime': 0.9822, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 2.73}
{'loss': 0.7163, 'learning_rate': 1.1915494834007103e-05, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.497446060180664, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 2.73}
{'loss': 0.6265, 'learning_rate': 1.1906828415863068e-05, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5001540184020996, 'eval_runtime': 0.9584, 'eval_samples_per_second': 5.217, 'eval_steps_per_second': 1.043, 'epoch': 2.73}
{'loss': 0.9718, 'learning_rate': 1.1898160511267946e-05, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5005768537521362, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.74}
{'loss': 0.7201, 'learning_rate': 1.188949112697873e-05, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.504158854484558, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 2.74}
{'loss': 0.8445, 'learning_rate': 1.1880820269753559e-05, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5055875778198242, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 2.74}
{'loss': 1.0128, 'learning_rate': 1.1872147946351724e-05, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5051876306533813, 'eval_runtime': 1.0208, 'eval_samples_per_second': 4.898, 'eval_steps_per_second': 0.98, 'epoch': 2.74}
{'loss': 0.8584, 'learning_rate': 1.1863474163533654e-05, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.498659610748291, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 2.74}
{'loss': 0.7979, 'learning_rate': 1.1854798928060924e-05, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4921506643295288, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 2.74}
{'loss': 0.6394, 'learning_rate': 1.1846122246696237e-05, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4893441200256348, 'eval_runtime': 0.9721, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 2.75}
{'loss': 0.5874, 'learning_rate': 1.1837444126203415e-05, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4917300939559937, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 2.75}
{'loss': 0.8112, 'learning_rate': 1.1828764573347418e-05, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4952222108840942, 'eval_runtime': 1.052, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.75}
{'loss': 0.7033, 'learning_rate': 1.182008359489431e-05, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4976714849472046, 'eval_runtime': 0.9963, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 2.75}
{'loss': 0.714, 'learning_rate': 1.1811401197611268e-05, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4988598823547363, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 2.75}
{'loss': 0.6855, 'learning_rate': 1.180271738826658e-05, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4992446899414062, 'eval_runtime': 0.955, 'eval_samples_per_second': 5.236, 'eval_steps_per_second': 1.047, 'epoch': 2.75}
{'loss': 0.5908, 'learning_rate': 1.1794032173629633e-05, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5029493570327759, 'eval_runtime': 0.9612, 'eval_samples_per_second': 5.202, 'eval_steps_per_second': 1.04, 'epoch': 2.76}
{'loss': 0.8356, 'learning_rate': 1.1785345560470909e-05, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5031726360321045, 'eval_runtime': 0.9865, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 2.76}
{'loss': 0.6906, 'learning_rate': 1.1776657555561979e-05, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4839226007461548, 'eval_runtime': 1.015, 'eval_samples_per_second': 4.926, 'eval_steps_per_second': 0.985, 'epoch': 2.76}
{'loss': 0.8218, 'learning_rate': 1.1767968165675496e-05, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.469078540802002, 'eval_runtime': 1.0493, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 2.76}
{'loss': 0.8462, 'learning_rate': 1.17592773975852e-05, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4656370878219604, 'eval_runtime': 0.9607, 'eval_samples_per_second': 5.204, 'eval_steps_per_second': 1.041, 'epoch': 2.76}
{'loss': 0.8427, 'learning_rate': 1.1750585258065905e-05, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4633665084838867, 'eval_runtime': 0.9452, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 2.76}
{'loss': 1.0285, 'learning_rate': 1.1741891753893484e-05, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4610010385513306, 'eval_runtime': 0.9542, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 2.77}
{'loss': 0.6431, 'learning_rate': 1.1733196891844882e-05, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4592008590698242, 'eval_runtime': 1.0208, 'eval_samples_per_second': 4.898, 'eval_steps_per_second': 0.98, 'epoch': 2.77}
{'loss': 0.7922, 'learning_rate': 1.1724500678698108e-05, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4622242450714111, 'eval_runtime': 1.0291, 'eval_samples_per_second': 4.859, 'eval_steps_per_second': 0.972, 'epoch': 2.77}
{'loss': 0.5558, 'learning_rate': 1.1715803121232208e-05, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4649144411087036, 'eval_runtime': 1.0346, 'eval_samples_per_second': 4.833, 'eval_steps_per_second': 0.967, 'epoch': 2.77}
{'loss': 0.4746, 'learning_rate': 1.1707104226227292e-05, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4669462442398071, 'eval_runtime': 0.9863, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 2.77}
{'loss': 0.4416, 'learning_rate': 1.1698404000464503e-05, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4639824628829956, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 2.77}
{'loss': 0.8639, 'learning_rate': 1.1689702450726024e-05, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4618324041366577, 'eval_runtime': 1.0474, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 2.78}
{'loss': 0.8725, 'learning_rate': 1.1680999583795075e-05, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4587702751159668, 'eval_runtime': 1.0036, 'eval_samples_per_second': 4.982, 'eval_steps_per_second': 0.996, 'epoch': 2.78}
{'loss': 0.6722, 'learning_rate': 1.167229540645589e-05, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4597817659378052, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 2.78}
{'loss': 0.8497, 'learning_rate': 1.1663589925493739e-05, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4590157270431519, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 2.78}
{'loss': 0.8592, 'learning_rate': 1.1654883147694902e-05, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4568705558776855, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 2.78}
{'loss': 0.7601, 'learning_rate': 1.1646175079846669e-05, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4548853635787964, 'eval_runtime': 0.9484, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 2.78}
{'loss': 1.018, 'learning_rate': 1.1637465728737333e-05, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4516277313232422, 'eval_runtime': 1.0585, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 2.79}
{'loss': 0.4481, 'learning_rate': 1.16287551011562e-05, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4464681148529053, 'eval_runtime': 0.9665, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 2.79}
{'loss': 0.7663, 'learning_rate': 1.1620043203893551e-05, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436246156692505, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 2.79}
{'loss': 0.5553, 'learning_rate': 1.1611330043740677e-05, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443737268447876, 'eval_runtime': 1.0157, 'eval_samples_per_second': 4.923, 'eval_steps_per_second': 0.985, 'epoch': 2.79}
{'loss': 0.5992, 'learning_rate': 1.1602615627489835e-05, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4418367147445679, 'eval_runtime': 0.9792, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 2.79}
{'loss': 1.0522, 'learning_rate': 1.1593899961934281e-05, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4393579959869385, 'eval_runtime': 1.0161, 'eval_samples_per_second': 4.921, 'eval_steps_per_second': 0.984, 'epoch': 2.79}
{'loss': 0.5655, 'learning_rate': 1.1585183053868225e-05, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439271092414856, 'eval_runtime': 0.966, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 2.8}
{'loss': 0.7829, 'learning_rate': 1.1576464910086862e-05, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4371562004089355, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 2.8}
{'loss': 0.6558, 'learning_rate': 1.156774553738634e-05, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4341920614242554, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.8}
{'loss': 0.8346, 'learning_rate': 1.1559024942563765e-05, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4341837167739868, 'eval_runtime': 0.9615, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 2.8}
{'loss': 1.0639, 'learning_rate': 1.155030313241721e-05, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4322447776794434, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 2.8}
{'loss': 0.6921, 'learning_rate': 1.154158011374567e-05, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4284909963607788, 'eval_runtime': 0.9967, 'eval_samples_per_second': 5.017, 'eval_steps_per_second': 1.003, 'epoch': 2.8}
{'loss': 0.4474, 'learning_rate': 1.1532855893349101e-05, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4294615983963013, 'eval_runtime': 0.9919, 'eval_samples_per_second': 5.041, 'eval_steps_per_second': 1.008, 'epoch': 2.81}
{'loss': 1.0814, 'learning_rate': 1.15241304780284e-05, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4342169761657715, 'eval_runtime': 0.9439, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 2.81}
{'loss': 0.9561, 'learning_rate': 1.1515403874585379e-05, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4379006624221802, 'eval_runtime': 0.9998, 'eval_samples_per_second': 5.001, 'eval_steps_per_second': 1.0, 'epoch': 2.81}
{'loss': 0.6909, 'learning_rate': 1.1506676089822781e-05, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4422162771224976, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 2.81}
{'loss': 1.0073, 'learning_rate': 1.1497947130544278e-05, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4472174644470215, 'eval_runtime': 1.0399, 'eval_samples_per_second': 4.808, 'eval_steps_per_second': 0.962, 'epoch': 2.81}
{'loss': 0.6816, 'learning_rate': 1.1489217003554452e-05, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4509869813919067, 'eval_runtime': 1.0036, 'eval_samples_per_second': 4.982, 'eval_steps_per_second': 0.996, 'epoch': 2.81}
{'loss': 0.7263, 'learning_rate': 1.1480485715658793e-05, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4523152112960815, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 2.81}
{'loss': 0.8832, 'learning_rate': 1.1471753273663701e-05, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4503494501113892, 'eval_runtime': 0.9539, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 2.82}
{'loss': 0.5427, 'learning_rate': 1.1463019684376472e-05, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4543641805648804, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 2.82}
{'loss': 0.8132, 'learning_rate': 1.1454284954605299e-05, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4593771696090698, 'eval_runtime': 0.9752, 'eval_samples_per_second': 5.127, 'eval_steps_per_second': 1.025, 'epoch': 2.82}
{'loss': 0.937, 'learning_rate': 1.1445549091159263e-05, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4628297090530396, 'eval_runtime': 0.9852, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 2.82}
{'loss': 0.5989, 'learning_rate': 1.1436812100848327e-05, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4665849208831787, 'eval_runtime': 0.957, 'eval_samples_per_second': 5.225, 'eval_steps_per_second': 1.045, 'epoch': 2.82}
{'loss': 0.6745, 'learning_rate': 1.1428073990483331e-05, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.468892216682434, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 2.82}
{'loss': 0.8484, 'learning_rate': 1.1419334766875994e-05, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.468018889427185, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 2.83}
{'loss': 0.8488, 'learning_rate': 1.1410594436838902e-05, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4693207740783691, 'eval_runtime': 1.0164, 'eval_samples_per_second': 4.919, 'eval_steps_per_second': 0.984, 'epoch': 2.83}
{'loss': 0.98, 'learning_rate': 1.1401853007185497e-05, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4672893285751343, 'eval_runtime': 1.0209, 'eval_samples_per_second': 4.897, 'eval_steps_per_second': 0.979, 'epoch': 2.83}
{'loss': 0.5963, 'learning_rate': 1.1393110484730088e-05, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4656238555908203, 'eval_runtime': 0.9997, 'eval_samples_per_second': 5.002, 'eval_steps_per_second': 1.0, 'epoch': 2.83}
{'loss': 0.7999, 'learning_rate': 1.1384366876287825e-05, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4637646675109863, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.113, 'eval_steps_per_second': 1.023, 'epoch': 2.83}
{'loss': 0.641, 'learning_rate': 1.137562218867471e-05, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.460739016532898, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 2.83}
{'loss': 0.9134, 'learning_rate': 1.1366876428707592e-05, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4571056365966797, 'eval_runtime': 0.9803, 'eval_samples_per_second': 5.1, 'eval_steps_per_second': 1.02, 'epoch': 2.84}
{'loss': 0.766, 'learning_rate': 1.1358129603204144e-05, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4567605257034302, 'eval_runtime': 1.0454, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 2.84}
{'loss': 0.5903, 'learning_rate': 1.1349381718982877e-05, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4454443454742432, 'eval_runtime': 0.9793, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 2.84}
{'loss': 0.6819, 'learning_rate': 1.134063278286313e-05, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4374630451202393, 'eval_runtime': 0.9821, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 2.84}
{'loss': 0.5608, 'learning_rate': 1.1331882801665058e-05, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4355524778366089, 'eval_runtime': 1.0412, 'eval_samples_per_second': 4.802, 'eval_steps_per_second': 0.96, 'epoch': 2.84}
{'loss': 0.7135, 'learning_rate': 1.1323131782209622e-05, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4363378286361694, 'eval_runtime': 0.94, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 2.84}
{'loss': 0.6578, 'learning_rate': 1.1314379731318611e-05, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4357413053512573, 'eval_runtime': 1.0069, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 2.85}
{'loss': 0.6186, 'learning_rate': 1.1305626655814606e-05, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.434291124343872, 'eval_runtime': 0.9736, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 2.85}
{'loss': 0.6436, 'learning_rate': 1.1296872562520984e-05, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4345848560333252, 'eval_runtime': 1.018, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 2.85}
{'loss': 0.6942, 'learning_rate': 1.1288117458261925e-05, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4374136924743652, 'eval_runtime': 1.0543, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 2.85}
{'loss': 0.659, 'learning_rate': 1.1279361349862392e-05, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441524624824524, 'eval_runtime': 1.0518, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.85}
{'loss': 0.7051, 'learning_rate': 1.1270604244148129e-05, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444220781326294, 'eval_runtime': 0.995, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 2.85}
{'loss': 0.7725, 'learning_rate': 1.1261846147945663e-05, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442483901977539, 'eval_runtime': 0.9589, 'eval_samples_per_second': 5.214, 'eval_steps_per_second': 1.043, 'epoch': 2.86}
{'loss': 0.6059, 'learning_rate': 1.125308706808229e-05, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4414563179016113, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 2.86}
{'loss': 0.9921, 'learning_rate': 1.1244327011386065e-05, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398847818374634, 'eval_runtime': 1.0307, 'eval_samples_per_second': 4.851, 'eval_steps_per_second': 0.97, 'epoch': 2.86}
{'loss': 0.7077, 'learning_rate': 1.123556598468582e-05, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396216869354248, 'eval_runtime': 1.0142, 'eval_samples_per_second': 4.93, 'eval_steps_per_second': 0.986, 'epoch': 2.86}
{'loss': 0.8247, 'learning_rate': 1.1226803994811134e-05, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402230978012085, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 2.86}
{'loss': 0.831, 'learning_rate': 1.1218041048592333e-05, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404289722442627, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 2.86}
{'loss': 0.9792, 'learning_rate': 1.12092771528605e-05, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383180141448975, 'eval_runtime': 0.9669, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 2.87}
{'loss': 0.7689, 'learning_rate': 1.1200512314447451e-05, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406256675720215, 'eval_runtime': 0.967, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 2.87}
{'loss': 0.6754, 'learning_rate': 1.1191746540185732e-05, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4440165758132935, 'eval_runtime': 0.9938, 'eval_samples_per_second': 5.031, 'eval_steps_per_second': 1.006, 'epoch': 2.87}
{'loss': 0.929, 'learning_rate': 1.1182979836908632e-05, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4441765546798706, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 2.87}
{'loss': 0.7745, 'learning_rate': 1.117421221145015e-05, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4448744058609009, 'eval_runtime': 0.9929, 'eval_samples_per_second': 5.036, 'eval_steps_per_second': 1.007, 'epoch': 2.87}
{'loss': 0.6967, 'learning_rate': 1.1165443670645013e-05, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4407333135604858, 'eval_runtime': 1.0339, 'eval_samples_per_second': 4.836, 'eval_steps_per_second': 0.967, 'epoch': 2.87}
{'loss': 0.7043, 'learning_rate': 1.1156674221328655e-05, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4362541437149048, 'eval_runtime': 0.9983, 'eval_samples_per_second': 5.009, 'eval_steps_per_second': 1.002, 'epoch': 2.88}
{'loss': 0.579, 'learning_rate': 1.114790387033723e-05, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.433186650276184, 'eval_runtime': 0.9669, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 2.88}
{'loss': 0.6153, 'learning_rate': 1.1139132624507579e-05, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4351726770401, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 2.88}
{'loss': 0.5166, 'learning_rate': 1.1130360490677252e-05, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390026330947876, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 2.88}
{'loss': 0.6137, 'learning_rate': 1.112158747568449e-05, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4426294565200806, 'eval_runtime': 1.0568, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 2.88}
{'loss': 0.472, 'learning_rate': 1.1112813586368213e-05, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4478451013565063, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 2.88}
{'loss': 0.5485, 'learning_rate': 1.1104038829568029e-05, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4532772302627563, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 2.89}
{'loss': 0.7606, 'learning_rate': 1.1095263212124227e-05, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4563502073287964, 'eval_runtime': 1.0199, 'eval_samples_per_second': 4.902, 'eval_steps_per_second': 0.98, 'epoch': 2.89}
{'loss': 0.5256, 'learning_rate': 1.1086486740877755e-05, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4582570791244507, 'eval_runtime': 0.9559, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 2.89}
{'loss': 0.6018, 'learning_rate': 1.1077709422670237e-05, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4575926065444946, 'eval_runtime': 1.0126, 'eval_samples_per_second': 4.938, 'eval_steps_per_second': 0.988, 'epoch': 2.89}
{'loss': 0.7754, 'learning_rate': 1.1068931264343955e-05, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4551985263824463, 'eval_runtime': 1.0407, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 2.89}
{'loss': 0.7993, 'learning_rate': 1.1060152272741832e-05, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4568641185760498, 'eval_runtime': 1.0062, 'eval_samples_per_second': 4.969, 'eval_steps_per_second': 0.994, 'epoch': 2.89}
{'loss': 0.7971, 'learning_rate': 1.105137245470747e-05, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4597519636154175, 'eval_runtime': 1.0194, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 2.89}
{'loss': 0.7109, 'learning_rate': 1.1042591817085085e-05, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4587255716323853, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 2.9}
{'loss': 0.8113, 'learning_rate': 1.1033810366719547e-05, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.455489158630371, 'eval_runtime': 1.0338, 'eval_samples_per_second': 4.837, 'eval_steps_per_second': 0.967, 'epoch': 2.9}
{'loss': 0.5846, 'learning_rate': 1.1025028110456361e-05, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.456168532371521, 'eval_runtime': 0.9697, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 2.9}
{'loss': 0.6303, 'learning_rate': 1.1016245055141656e-05, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4569522142410278, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 2.9}
{'loss': 0.56, 'learning_rate': 1.1007461207622181e-05, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.456344485282898, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.9}
{'loss': 0.7147, 'learning_rate': 1.099867657474531e-05, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4571408033370972, 'eval_runtime': 1.0446, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 2.9}
{'loss': 0.7465, 'learning_rate': 1.0989891163359023e-05, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4547749757766724, 'eval_runtime': 0.9739, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 2.91}
{'loss': 0.742, 'learning_rate': 1.098110498031191e-05, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444008231163025, 'eval_runtime': 0.9924, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 2.91}
{'loss': 0.8694, 'learning_rate': 1.0972318032453157e-05, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440056562423706, 'eval_runtime': 1.0014, 'eval_samples_per_second': 4.993, 'eval_steps_per_second': 0.999, 'epoch': 2.91}
{'loss': 0.5382, 'learning_rate': 1.0963530326632559e-05, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4405182600021362, 'eval_runtime': 0.9604, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 2.91}
{'loss': 0.8907, 'learning_rate': 1.0954741869700487e-05, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.43732750415802, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 2.91}
{'loss': 0.6908, 'learning_rate': 1.094595266850791e-05, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4346164464950562, 'eval_runtime': 0.9445, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 2.91}
{'loss': 0.5927, 'learning_rate': 1.0937162729906365e-05, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4311244487762451, 'eval_runtime': 0.9521, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 2.92}
{'loss': 0.8676, 'learning_rate': 1.0928372060747972e-05, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4300966262817383, 'eval_runtime': 0.9761, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 2.92}
{'loss': 0.6867, 'learning_rate': 1.0919580667885423e-05, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4280061721801758, 'eval_runtime': 1.0247, 'eval_samples_per_second': 4.879, 'eval_steps_per_second': 0.976, 'epoch': 2.92}
{'loss': 0.7781, 'learning_rate': 1.0910788558171965e-05, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.424588680267334, 'eval_runtime': 1.0395, 'eval_samples_per_second': 4.81, 'eval_steps_per_second': 0.962, 'epoch': 2.92}
{'loss': 0.6576, 'learning_rate': 1.090199573846141e-05, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4197980165481567, 'eval_runtime': 0.976, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 2.92}
{'loss': 0.7794, 'learning_rate': 1.0893202215608125e-05, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4131288528442383, 'eval_runtime': 1.0533, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 2.92}
{'loss': 0.803, 'learning_rate': 1.0884407996467021e-05, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.410437822341919, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.93}
{'loss': 0.8826, 'learning_rate': 1.0875613087893551e-05, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4084045886993408, 'eval_runtime': 0.9896, 'eval_samples_per_second': 5.053, 'eval_steps_per_second': 1.011, 'epoch': 2.93}
{'loss': 0.6412, 'learning_rate': 1.0866817496743709e-05, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.406340479850769, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 2.93}
{'loss': 0.7254, 'learning_rate': 1.0858021229874018e-05, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4061204195022583, 'eval_runtime': 1.0586, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 2.93}
{'loss': 1.0791, 'learning_rate': 1.0849224294141532e-05, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.410056471824646, 'eval_runtime': 0.9477, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 2.93}
{'loss': 0.8493, 'learning_rate': 1.0840426696403821e-05, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4133952856063843, 'eval_runtime': 0.9433, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 2.93}
{'loss': 0.7667, 'learning_rate': 1.0831628443518975e-05, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4153591394424438, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.94}
{'loss': 0.8445, 'learning_rate': 1.0822829542345594e-05, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4163283109664917, 'eval_runtime': 1.0082, 'eval_samples_per_second': 4.959, 'eval_steps_per_second': 0.992, 'epoch': 2.94}
{'loss': 0.6111, 'learning_rate': 1.0814029999742785e-05, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181174039840698, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 2.94}
{'loss': 0.76, 'learning_rate': 1.0805229822570152e-05, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4213228225708008, 'eval_runtime': 0.9544, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 2.94}
{'loss': 0.5901, 'learning_rate': 1.0796429017687791e-05, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4227186441421509, 'eval_runtime': 1.0587, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 2.94}
{'loss': 0.6345, 'learning_rate': 1.078762759195629e-05, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4252339601516724, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 2.94}
{'loss': 0.9484, 'learning_rate': 1.0778825552236731e-05, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426875114440918, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 2.95}
{'loss': 0.7965, 'learning_rate': 1.0770022905390656e-05, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4280987977981567, 'eval_runtime': 0.9985, 'eval_samples_per_second': 5.007, 'eval_steps_per_second': 1.001, 'epoch': 2.95}
{'loss': 0.4526, 'learning_rate': 1.0761219658280095e-05, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4320303201675415, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 2.95}
{'loss': 0.8758, 'learning_rate': 1.075241581776754e-05, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.435458779335022, 'eval_runtime': 0.9846, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 2.95}
{'loss': 0.6265, 'learning_rate': 1.0743611390715946e-05, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.434050440788269, 'eval_runtime': 0.9484, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 2.95}
{'loss': 0.5967, 'learning_rate': 1.0734806383988725e-05, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4298433065414429, 'eval_runtime': 0.9753, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 2.95}
{'loss': 0.6717, 'learning_rate': 1.0726000804449742e-05, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4250885248184204, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 2.96}
{'loss': 0.8202, 'learning_rate': 1.0717194658963303e-05, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4180573225021362, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 2.96}
{'loss': 0.5273, 'learning_rate': 1.0708387954394172e-05, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4120285511016846, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 2.96}
{'loss': 0.8817, 'learning_rate': 1.0699580697607528e-05, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4076846837997437, 'eval_runtime': 1.0448, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 2.96}
{'loss': 0.9477, 'learning_rate': 1.0690772895468988e-05, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.403466820716858, 'eval_runtime': 0.9598, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 2.96}
{'loss': 0.5985, 'learning_rate': 1.0681964554844604e-05, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4042842388153076, 'eval_runtime': 0.9849, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 2.96}
{'loss': 0.7583, 'learning_rate': 1.0673155682600831e-05, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4045904874801636, 'eval_runtime': 1.0299, 'eval_samples_per_second': 4.855, 'eval_steps_per_second': 0.971, 'epoch': 2.97}
{'loss': 0.8976, 'learning_rate': 1.066434628560455e-05, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4046859741210938, 'eval_runtime': 1.0256, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 2.97}
{'loss': 0.8525, 'learning_rate': 1.0655536370723048e-05, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4068100452423096, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 2.97}
{'loss': 0.8343, 'learning_rate': 1.0646725944824017e-05, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4092624187469482, 'eval_runtime': 1.023, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 2.97}
{'loss': 0.7954, 'learning_rate': 1.0637915014775542e-05, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.412906289100647, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 2.97}
{'loss': 0.7821, 'learning_rate': 1.062910358744611e-05, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4155124425888062, 'eval_runtime': 1.0331, 'eval_samples_per_second': 4.84, 'eval_steps_per_second': 0.968, 'epoch': 2.97}
{'loss': 0.7075, 'learning_rate': 1.0620291669704588e-05, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4160959720611572, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 2.98}
{'loss': 0.8553, 'learning_rate': 1.0611479268420225e-05, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.416489839553833, 'eval_runtime': 1.0271, 'eval_samples_per_second': 4.868, 'eval_steps_per_second': 0.974, 'epoch': 2.98}
{'loss': 0.7738, 'learning_rate': 1.0602666390462657e-05, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417589545249939, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 2.98}
{'loss': 0.7028, 'learning_rate': 1.0593853042701875e-05, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4194929599761963, 'eval_runtime': 1.045, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 2.98}
{'loss': 0.9139, 'learning_rate': 1.0585039232008251e-05, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.419481873512268, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 2.98}
{'loss': 0.4923, 'learning_rate': 1.0576224965252517e-05, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423171043395996, 'eval_runtime': 0.9903, 'eval_samples_per_second': 5.049, 'eval_steps_per_second': 1.01, 'epoch': 2.98}
{'loss': 0.6381, 'learning_rate': 1.056741024930575e-05, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4335904121398926, 'eval_runtime': 1.0338, 'eval_samples_per_second': 4.837, 'eval_steps_per_second': 0.967, 'epoch': 2.98}
{'loss': 0.7241, 'learning_rate': 1.0558595091039381e-05, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443376898765564, 'eval_runtime': 1.0406, 'eval_samples_per_second': 4.805, 'eval_steps_per_second': 0.961, 'epoch': 2.99}
{'loss': 0.703, 'learning_rate': 1.0549779497325194e-05, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4489907026290894, 'eval_runtime': 1.0128, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 2.99}
{'loss': 0.7391, 'learning_rate': 1.0540963475035304e-05, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4521653652191162, 'eval_runtime': 0.9722, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 2.99}
{'loss': 0.5002, 'learning_rate': 1.053214703104216e-05, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4551477432250977, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 2.99}
{'loss': 0.6505, 'learning_rate': 1.0523330172218546e-05, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4583535194396973, 'eval_runtime': 0.9661, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 2.99}
{'loss': 0.744, 'learning_rate': 1.0514512905437567e-05, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4599196910858154, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 2.99}
{'loss': 0.6335, 'learning_rate': 1.0505695237572638e-05, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.460106611251831, 'eval_runtime': 1.0555, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 3.0}
{'loss': 0.7306, 'learning_rate': 1.0496877175497498e-05, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4524511098861694, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 3.0}
{'loss': 0.6511, 'learning_rate': 1.048805872608619e-05, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4499471187591553, 'eval_runtime': 1.0471, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 3.0}




{'loss': 0.4474, 'learning_rate': 1.0479239896213054e-05, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4514673948287964, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 3.0}
{'loss': 0.3373, 'learning_rate': 1.047042069275273e-05, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4554654359817505, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 3.0}
{'loss': 0.5064, 'learning_rate': 1.0461601122580154e-05, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.457460641860962, 'eval_runtime': 0.9716, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 3.0}
{'loss': 0.735, 'learning_rate': 1.0452781192570537e-05, 'epoch': 3.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.458777666091919, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 3.01}
{'loss': 0.6531, 'learning_rate': 1.0443960909599384e-05, 'epoch': 3.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4610639810562134, 'eval_runtime': 0.9674, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 3.01}
{'loss': 0.4391, 'learning_rate': 1.0435140280542464e-05, 'epoch': 3.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4652272462844849, 'eval_runtime': 0.992, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 3.01}
{'loss': 0.609, 'learning_rate': 1.0426319312275817e-05, 'epoch': 3.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4680043458938599, 'eval_runtime': 1.0581, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 3.01}
{'loss': 0.4843, 'learning_rate': 1.0417498011675756e-05, 'epoch': 3.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4733891487121582, 'eval_runtime': 0.9457, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 3.01}
{'loss': 0.5444, 'learning_rate': 1.0408676385618839e-05, 'epoch': 3.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.477138876914978, 'eval_runtime': 1.0471, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 3.01}
{'loss': 0.5942, 'learning_rate': 1.0399854440981894e-05, 'epoch': 3.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4764747619628906, 'eval_runtime': 0.9496, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 3.02}
{'loss': 0.736, 'learning_rate': 1.0391032184641987e-05, 'epoch': 3.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4764699935913086, 'eval_runtime': 0.997, 'eval_samples_per_second': 5.015, 'eval_steps_per_second': 1.003, 'epoch': 3.02}
{'loss': 0.7413, 'learning_rate': 1.0382209623476427e-05, 'epoch': 3.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4765598773956299, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 3.02}
{'loss': 0.6229, 'learning_rate': 1.0373386764362765e-05, 'epoch': 3.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4705954790115356, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 3.02}
{'loss': 0.4074, 'learning_rate': 1.0364563614178782e-05, 'epoch': 3.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4713537693023682, 'eval_runtime': 0.9808, 'eval_samples_per_second': 5.098, 'eval_steps_per_second': 1.02, 'epoch': 3.02}
{'loss': 0.4438, 'learning_rate': 1.0355740179802485e-05, 'epoch': 3.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4730353355407715, 'eval_runtime': 0.9842, 'eval_samples_per_second': 5.08, 'eval_steps_per_second': 1.016, 'epoch': 3.02}
{'loss': 0.4995, 'learning_rate': 1.0346916468112102e-05, 'epoch': 3.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4759234189987183, 'eval_runtime': 0.9899, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 3.03}
{'loss': 0.5301, 'learning_rate': 1.0338092485986082e-05, 'epoch': 3.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4741847515106201, 'eval_runtime': 0.956, 'eval_samples_per_second': 5.23, 'eval_steps_per_second': 1.046, 'epoch': 3.03}
{'loss': 0.5069, 'learning_rate': 1.0329268240303083e-05, 'epoch': 3.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4861046075820923, 'eval_runtime': 1.0009, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 3.03}
{'loss': 0.7747, 'learning_rate': 1.032044373794196e-05, 'epoch': 3.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4723789691925049, 'eval_runtime': 0.9917, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 3.03}
{'loss': 0.5868, 'learning_rate': 1.0311618985781781e-05, 'epoch': 3.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4652693271636963, 'eval_runtime': 0.9647, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 3.03}
{'loss': 0.4714, 'learning_rate': 1.0302793990701805e-05, 'epoch': 3.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4656116962432861, 'eval_runtime': 0.9518, 'eval_samples_per_second': 5.253, 'eval_steps_per_second': 1.051, 'epoch': 3.03}
{'loss': 0.5907, 'learning_rate': 1.029396875958147e-05, 'epoch': 3.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4652466773986816, 'eval_runtime': 1.0608, 'eval_samples_per_second': 4.714, 'eval_steps_per_second': 0.943, 'epoch': 3.04}
{'loss': 0.4377, 'learning_rate': 1.0285143299300413e-05, 'epoch': 3.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4695181846618652, 'eval_runtime': 1.0115, 'eval_samples_per_second': 4.943, 'eval_steps_per_second': 0.989, 'epoch': 3.04}
{'loss': 0.5448, 'learning_rate': 1.0276317616738438e-05, 'epoch': 3.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4747788906097412, 'eval_runtime': 1.0268, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 3.04}
{'loss': 0.3488, 'learning_rate': 1.0267491718775528e-05, 'epoch': 3.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.476647973060608, 'eval_runtime': 0.9384, 'eval_samples_per_second': 5.328, 'eval_steps_per_second': 1.066, 'epoch': 3.04}
{'loss': 0.4199, 'learning_rate': 1.025866561229184e-05, 'epoch': 3.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4783579111099243, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 3.04}
{'loss': 0.3328, 'learning_rate': 1.024983930416768e-05, 'epoch': 3.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4813437461853027, 'eval_runtime': 0.9618, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 3.04}
{'loss': 0.4128, 'learning_rate': 1.0241012801283517e-05, 'epoch': 3.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4871413707733154, 'eval_runtime': 0.9577, 'eval_samples_per_second': 5.221, 'eval_steps_per_second': 1.044, 'epoch': 3.05}
{'loss': 0.4391, 'learning_rate': 1.0232186110519975e-05, 'epoch': 3.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4913290739059448, 'eval_runtime': 0.9937, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 3.05}
{'loss': 0.4287, 'learning_rate': 1.0223359238757824e-05, 'epoch': 3.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.493714451789856, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 3.05}
{'loss': 0.3612, 'learning_rate': 1.0214532192877967e-05, 'epoch': 3.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.498289942741394, 'eval_runtime': 1.0372, 'eval_samples_per_second': 4.821, 'eval_steps_per_second': 0.964, 'epoch': 3.05}
{'loss': 0.72, 'learning_rate': 1.0205704979761452e-05, 'epoch': 3.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4997940063476562, 'eval_runtime': 1.0286, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 3.05}
{'loss': 0.5155, 'learning_rate': 1.0196877606289459e-05, 'epoch': 3.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.495079517364502, 'eval_runtime': 0.9727, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 3.05}
{'loss': 0.6125, 'learning_rate': 1.0188050079343282e-05, 'epoch': 3.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4861905574798584, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 3.06}
{'loss': 0.5837, 'learning_rate': 1.0179222405804343e-05, 'epoch': 3.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4802625179290771, 'eval_runtime': 0.9617, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 3.06}
{'loss': 0.5067, 'learning_rate': 1.0170394592554179e-05, 'epoch': 3.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4811495542526245, 'eval_runtime': 0.9486, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 3.06}
{'loss': 0.6877, 'learning_rate': 1.0161566646474425e-05, 'epoch': 3.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4817043542861938, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 3.06}
{'loss': 0.6462, 'learning_rate': 1.0152738574446836e-05, 'epoch': 3.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4796926975250244, 'eval_runtime': 1.0238, 'eval_samples_per_second': 4.884, 'eval_steps_per_second': 0.977, 'epoch': 3.06}
{'loss': 0.5306, 'learning_rate': 1.0143910383353255e-05, 'epoch': 3.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.478167176246643, 'eval_runtime': 1.01, 'eval_samples_per_second': 4.951, 'eval_steps_per_second': 0.99, 'epoch': 3.06}
{'loss': 0.6534, 'learning_rate': 1.0135082080075613e-05, 'epoch': 3.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4786162376403809, 'eval_runtime': 1.0468, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 3.07}
{'loss': 0.9172, 'learning_rate': 1.0126253671495946e-05, 'epoch': 3.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.470943808555603, 'eval_runtime': 0.9697, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 3.07}
{'loss': 0.7749, 'learning_rate': 1.0117425164496356e-05, 'epoch': 3.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4658838510513306, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 3.07}
{'loss': 0.4921, 'learning_rate': 1.0108596565959024e-05, 'epoch': 3.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4637997150421143, 'eval_runtime': 0.9751, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 3.07}
{'loss': 0.4948, 'learning_rate': 1.0099767882766207e-05, 'epoch': 3.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4625550508499146, 'eval_runtime': 0.9879, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 3.07}
{'loss': 0.5984, 'learning_rate': 1.0090939121800228e-05, 'epoch': 3.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4653047323226929, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 3.07}
{'loss': 0.5951, 'learning_rate': 1.0082110289943466e-05, 'epoch': 3.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4664372205734253, 'eval_runtime': 0.9396, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 3.07}
{'loss': 0.4569, 'learning_rate': 1.0073281394078362e-05, 'epoch': 3.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4637106657028198, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 3.08}
{'loss': 0.6218, 'learning_rate': 1.00644524410874e-05, 'epoch': 3.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4656449556350708, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 3.08}
{'loss': 0.5916, 'learning_rate': 1.0055623437853113e-05, 'epoch': 3.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4683940410614014, 'eval_runtime': 1.0339, 'eval_samples_per_second': 4.836, 'eval_steps_per_second': 0.967, 'epoch': 3.08}
{'loss': 0.7051, 'learning_rate': 1.0046794391258073e-05, 'epoch': 3.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4693024158477783, 'eval_runtime': 0.9835, 'eval_samples_per_second': 5.084, 'eval_steps_per_second': 1.017, 'epoch': 3.08}
{'loss': 0.46, 'learning_rate': 1.0037965308184881e-05, 'epoch': 3.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4698598384857178, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 3.08}
{'loss': 0.4203, 'learning_rate': 1.0029136195516169e-05, 'epoch': 3.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.472208857536316, 'eval_runtime': 1.0291, 'eval_samples_per_second': 4.859, 'eval_steps_per_second': 0.972, 'epoch': 3.08}
{'loss': 0.5859, 'learning_rate': 1.0020307060134598e-05, 'epoch': 3.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4716463088989258, 'eval_runtime': 0.993, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 3.09}
{'loss': 0.5471, 'learning_rate': 1.001147790892284e-05, 'epoch': 3.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4733362197875977, 'eval_runtime': 0.948, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 3.09}
{'loss': 0.6169, 'learning_rate': 1.0002648748763579e-05, 'epoch': 3.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4754853248596191, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 3.09}
{'loss': 0.4506, 'learning_rate': 9.99381958653951e-06, 'epoch': 3.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.478753685951233, 'eval_runtime': 1.0463, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 3.09}
{'loss': 0.3437, 'learning_rate': 9.984990429133328e-06, 'epoch': 3.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4795169830322266, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 3.09}
{'loss': 0.5911, 'learning_rate': 9.976161283427725e-06, 'epoch': 3.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4786288738250732, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 3.09}
{'loss': 0.7397, 'learning_rate': 9.967332156305378e-06, 'epoch': 3.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.47860848903656, 'eval_runtime': 1.0066, 'eval_samples_per_second': 4.967, 'eval_steps_per_second': 0.993, 'epoch': 3.1}
{'loss': 0.5398, 'learning_rate': 9.958503054648956e-06, 'epoch': 3.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4774353504180908, 'eval_runtime': 0.9888, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 3.1}
{'loss': 0.7344, 'learning_rate': 9.94967398534111e-06, 'epoch': 3.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4764667749404907, 'eval_runtime': 1.041, 'eval_samples_per_second': 4.803, 'eval_steps_per_second': 0.961, 'epoch': 3.1}
{'loss': 0.6876, 'learning_rate': 9.940844955264458e-06, 'epoch': 3.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4768017530441284, 'eval_runtime': 1.0343, 'eval_samples_per_second': 4.834, 'eval_steps_per_second': 0.967, 'epoch': 3.1}
{'loss': 0.3953, 'learning_rate': 9.932015971301593e-06, 'epoch': 3.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.478270411491394, 'eval_runtime': 1.0542, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 3.1}
{'loss': 0.4454, 'learning_rate': 9.923187040335077e-06, 'epoch': 3.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.480215072631836, 'eval_runtime': 1.0441, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 3.1}
{'loss': 0.7465, 'learning_rate': 9.914358169247413e-06, 'epoch': 3.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.478119969367981, 'eval_runtime': 0.9904, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 3.11}
{'loss': 0.4759, 'learning_rate': 9.905529364921075e-06, 'epoch': 3.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4747501611709595, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 3.11}
{'loss': 0.6678, 'learning_rate': 9.896700634238479e-06, 'epoch': 3.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.473965048789978, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 3.11}
{'loss': 0.4924, 'learning_rate': 9.88787198408198e-06, 'epoch': 3.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4744153022766113, 'eval_runtime': 0.9896, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 3.11}
{'loss': 0.5937, 'learning_rate': 9.879043421333875e-06, 'epoch': 3.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4745515584945679, 'eval_runtime': 0.9388, 'eval_samples_per_second': 5.326, 'eval_steps_per_second': 1.065, 'epoch': 3.11}
{'loss': 0.8073, 'learning_rate': 9.8702149528764e-06, 'epoch': 3.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4753400087356567, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 3.11}
{'loss': 0.4689, 'learning_rate': 9.861386585591692e-06, 'epoch': 3.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4777239561080933, 'eval_runtime': 1.0041, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 3.12}
{'loss': 0.3845, 'learning_rate': 9.852558326361838e-06, 'epoch': 3.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4839205741882324, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 3.12}
{'loss': 0.5268, 'learning_rate': 9.843730182068828e-06, 'epoch': 3.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4864095449447632, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 3.12}
{'loss': 0.4585, 'learning_rate': 9.834902159594557e-06, 'epoch': 3.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4883439540863037, 'eval_runtime': 0.9776, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 3.12}
{'loss': 0.4294, 'learning_rate': 9.826074265820834e-06, 'epoch': 3.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4873337745666504, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 3.12}
{'loss': 0.5909, 'learning_rate': 9.817246507629368e-06, 'epoch': 3.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4826539754867554, 'eval_runtime': 1.0084, 'eval_samples_per_second': 4.958, 'eval_steps_per_second': 0.992, 'epoch': 3.12}
{'loss': 0.688, 'learning_rate': 9.808418891901756e-06, 'epoch': 3.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4778465032577515, 'eval_runtime': 0.9748, 'eval_samples_per_second': 5.129, 'eval_steps_per_second': 1.026, 'epoch': 3.13}
{'loss': 0.5727, 'learning_rate': 9.799591425519489e-06, 'epoch': 3.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4720884561538696, 'eval_runtime': 1.0344, 'eval_samples_per_second': 4.834, 'eval_steps_per_second': 0.967, 'epoch': 3.13}
{'loss': 0.6568, 'learning_rate': 9.79076411536394e-06, 'epoch': 3.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.468609094619751, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 3.13}
{'loss': 0.5744, 'learning_rate': 9.781936968316355e-06, 'epoch': 3.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4722448587417603, 'eval_runtime': 1.0229, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 3.13}
{'loss': 0.5107, 'learning_rate': 9.773109991257861e-06, 'epoch': 3.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4743458032608032, 'eval_runtime': 1.0039, 'eval_samples_per_second': 4.981, 'eval_steps_per_second': 0.996, 'epoch': 3.13}
{'loss': 0.4081, 'learning_rate': 9.764283191069453e-06, 'epoch': 3.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4774421453475952, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.184, 'eval_steps_per_second': 1.037, 'epoch': 3.13}
{'loss': 0.5934, 'learning_rate': 9.755456574631977e-06, 'epoch': 3.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4795366525650024, 'eval_runtime': 0.9799, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 3.14}
{'loss': 0.5978, 'learning_rate': 9.746630148826148e-06, 'epoch': 3.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4830378293991089, 'eval_runtime': 0.9609, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 3.14}
{'loss': 0.515, 'learning_rate': 9.73780392053253e-06, 'epoch': 3.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4873316287994385, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 3.14}
{'loss': 0.5133, 'learning_rate': 9.728977896631524e-06, 'epoch': 3.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4899982213974, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 3.14}
{'loss': 0.4384, 'learning_rate': 9.72015208400338e-06, 'epoch': 3.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4918326139450073, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 3.14}
{'loss': 0.5151, 'learning_rate': 9.711326489528186e-06, 'epoch': 3.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4927585124969482, 'eval_runtime': 0.9671, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 3.14}
{'loss': 0.4549, 'learning_rate': 9.702501120085848e-06, 'epoch': 3.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4905773401260376, 'eval_runtime': 0.9756, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 3.15}
{'loss': 0.456, 'learning_rate': 9.69367598255611e-06, 'epoch': 3.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4891966581344604, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 3.15}
{'loss': 0.3682, 'learning_rate': 9.68485108381853e-06, 'epoch': 3.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.493231177330017, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 3.15}
{'loss': 0.5046, 'learning_rate': 9.676026430752474e-06, 'epoch': 3.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4954674243927002, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 3.15}
{'loss': 0.5593, 'learning_rate': 9.667202030237125e-06, 'epoch': 3.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4993407726287842, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 3.15}
{'loss': 0.468, 'learning_rate': 9.658377889151467e-06, 'epoch': 3.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5017043352127075, 'eval_runtime': 1.0002, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 3.15}
{'loss': 0.5537, 'learning_rate': 9.649554014374274e-06, 'epoch': 3.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.505094289779663, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 3.16}
{'loss': 0.6573, 'learning_rate': 9.640730412784123e-06, 'epoch': 3.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.506827473640442, 'eval_runtime': 0.9439, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 3.16}
{'loss': 0.546, 'learning_rate': 9.631907091259376e-06, 'epoch': 3.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5036123991012573, 'eval_runtime': 0.9935, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 3.16}
{'loss': 0.6783, 'learning_rate': 9.623084056678172e-06, 'epoch': 3.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4975076913833618, 'eval_runtime': 0.988, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 3.16}
{'loss': 0.6024, 'learning_rate': 9.61426131591843e-06, 'epoch': 3.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4924794435501099, 'eval_runtime': 1.0014, 'eval_samples_per_second': 4.993, 'eval_steps_per_second': 0.999, 'epoch': 3.16}
{'loss': 0.6169, 'learning_rate': 9.605438875857841e-06, 'epoch': 3.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4877053499221802, 'eval_runtime': 0.9875, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 3.16}
{'loss': 0.4227, 'learning_rate': 9.596616743373854e-06, 'epoch': 3.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4839897155761719, 'eval_runtime': 1.0166, 'eval_samples_per_second': 4.918, 'eval_steps_per_second': 0.984, 'epoch': 3.16}
{'loss': 0.6191, 'learning_rate': 9.587794925343685e-06, 'epoch': 3.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.476933240890503, 'eval_runtime': 0.9956, 'eval_samples_per_second': 5.022, 'eval_steps_per_second': 1.004, 'epoch': 3.17}
{'loss': 0.5, 'learning_rate': 9.578973428644308e-06, 'epoch': 3.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4690792560577393, 'eval_runtime': 1.0497, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 3.17}
{'loss': 0.5513, 'learning_rate': 9.570152260152438e-06, 'epoch': 3.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.462805151939392, 'eval_runtime': 0.9939, 'eval_samples_per_second': 5.031, 'eval_steps_per_second': 1.006, 'epoch': 3.17}
{'loss': 0.4277, 'learning_rate': 9.561331426744537e-06, 'epoch': 3.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4609593152999878, 'eval_runtime': 1.0415, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 3.17}
{'loss': 0.9271, 'learning_rate': 9.552510935296816e-06, 'epoch': 3.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4590522050857544, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 3.17}
{'loss': 0.5979, 'learning_rate': 9.543690792685198e-06, 'epoch': 3.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4602525234222412, 'eval_runtime': 1.0425, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 3.17}
{'loss': 0.6686, 'learning_rate': 9.534871005785353e-06, 'epoch': 3.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.454923152923584, 'eval_runtime': 0.9392, 'eval_samples_per_second': 5.324, 'eval_steps_per_second': 1.065, 'epoch': 3.18}
{'loss': 0.3999, 'learning_rate': 9.526051581472671e-06, 'epoch': 3.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4475972652435303, 'eval_runtime': 1.0375, 'eval_samples_per_second': 4.819, 'eval_steps_per_second': 0.964, 'epoch': 3.18}
{'loss': 0.4658, 'learning_rate': 9.517232526622247e-06, 'epoch': 3.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4435358047485352, 'eval_runtime': 0.9988, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 3.18}
{'loss': 0.4832, 'learning_rate': 9.5084138481089e-06, 'epoch': 3.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442515254020691, 'eval_runtime': 0.9709, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 3.18}
{'loss': 0.4969, 'learning_rate': 9.499595552807157e-06, 'epoch': 3.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436826705932617, 'eval_runtime': 1.0488, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 3.18}
{'loss': 0.5765, 'learning_rate': 9.490777647591233e-06, 'epoch': 3.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4425181150436401, 'eval_runtime': 1.0005, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 3.18}
{'loss': 0.6717, 'learning_rate': 9.481960139335052e-06, 'epoch': 3.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4433629512786865, 'eval_runtime': 0.9843, 'eval_samples_per_second': 5.08, 'eval_steps_per_second': 1.016, 'epoch': 3.19}
{'loss': 0.4279, 'learning_rate': 9.473143034912227e-06, 'epoch': 3.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.446102261543274, 'eval_runtime': 1.0231, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 3.19}
{'loss': 0.6396, 'learning_rate': 9.464326341196047e-06, 'epoch': 3.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4521338939666748, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 3.19}
{'loss': 0.5277, 'learning_rate': 9.455510065059488e-06, 'epoch': 3.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4577723741531372, 'eval_runtime': 0.9654, 'eval_samples_per_second': 5.179, 'eval_steps_per_second': 1.036, 'epoch': 3.19}
{'loss': 0.3186, 'learning_rate': 9.446694213375203e-06, 'epoch': 3.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4598667621612549, 'eval_runtime': 0.9552, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 3.19}
{'loss': 0.5777, 'learning_rate': 9.437878793015508e-06, 'epoch': 3.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4601026773452759, 'eval_runtime': 0.9601, 'eval_samples_per_second': 5.208, 'eval_steps_per_second': 1.042, 'epoch': 3.19}
{'loss': 0.6481, 'learning_rate': 9.429063810852385e-06, 'epoch': 3.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4584908485412598, 'eval_runtime': 0.9977, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 3.2}
{'loss': 0.6264, 'learning_rate': 9.42024927375748e-06, 'epoch': 3.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4574719667434692, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 3.2}
{'loss': 0.4292, 'learning_rate': 9.411435188602079e-06, 'epoch': 3.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.457549810409546, 'eval_runtime': 1.0054, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 3.2}
{'loss': 0.7049, 'learning_rate': 9.402621562257124e-06, 'epoch': 3.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4568208456039429, 'eval_runtime': 0.9509, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 3.2}
{'loss': 0.8649, 'learning_rate': 9.393808401593206e-06, 'epoch': 3.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4551581144332886, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 3.2}
{'loss': 0.706, 'learning_rate': 9.384995713480538e-06, 'epoch': 3.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4514892101287842, 'eval_runtime': 1.0507, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 3.2}
{'loss': 0.5524, 'learning_rate': 9.376183504788977e-06, 'epoch': 3.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.450713038444519, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 3.21}
{'loss': 0.5223, 'learning_rate': 9.367371782388004e-06, 'epoch': 3.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.448975920677185, 'eval_runtime': 0.9602, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 3.21}
{'loss': 0.5498, 'learning_rate': 9.35856055314671e-06, 'epoch': 3.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4483857154846191, 'eval_runtime': 0.9864, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 3.21}
{'loss': 0.5845, 'learning_rate': 9.349749823933817e-06, 'epoch': 3.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4486829042434692, 'eval_runtime': 1.0275, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 3.21}
{'loss': 0.4755, 'learning_rate': 9.340939601617652e-06, 'epoch': 3.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4496268033981323, 'eval_runtime': 1.0409, 'eval_samples_per_second': 4.803, 'eval_steps_per_second': 0.961, 'epoch': 3.21}
{'loss': 0.5269, 'learning_rate': 9.332129893066138e-06, 'epoch': 3.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4456626176834106, 'eval_runtime': 0.9928, 'eval_samples_per_second': 5.036, 'eval_steps_per_second': 1.007, 'epoch': 3.21}
{'loss': 0.5848, 'learning_rate': 9.323320705146808e-06, 'epoch': 3.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4444782733917236, 'eval_runtime': 0.9681, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 3.22}
{'loss': 0.7043, 'learning_rate': 9.314512044726789e-06, 'epoch': 3.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4416100978851318, 'eval_runtime': 1.0006, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 3.22}
{'loss': 0.6747, 'learning_rate': 9.305703918672788e-06, 'epoch': 3.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4380985498428345, 'eval_runtime': 1.0308, 'eval_samples_per_second': 4.851, 'eval_steps_per_second': 0.97, 'epoch': 3.22}
{'loss': 0.4527, 'learning_rate': 9.296896333851104e-06, 'epoch': 3.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4353032112121582, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 3.22}
{'loss': 0.5252, 'learning_rate': 9.288089297127618e-06, 'epoch': 3.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4344879388809204, 'eval_runtime': 1.0261, 'eval_samples_per_second': 4.873, 'eval_steps_per_second': 0.975, 'epoch': 3.22}
{'loss': 0.5515, 'learning_rate': 9.279282815367762e-06, 'epoch': 3.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4360977411270142, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 3.22}
{'loss': 1.0345, 'learning_rate': 9.270476895436562e-06, 'epoch': 3.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.434894323348999, 'eval_runtime': 0.9845, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 3.23}
{'loss': 0.4941, 'learning_rate': 9.261671544198591e-06, 'epoch': 3.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4336422681808472, 'eval_runtime': 0.9544, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 3.23}
{'loss': 0.5496, 'learning_rate': 9.252866768517982e-06, 'epoch': 3.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4332228899002075, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 3.23}
{'loss': 0.574, 'learning_rate': 9.244062575258417e-06, 'epoch': 3.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4346338510513306, 'eval_runtime': 0.9965, 'eval_samples_per_second': 5.017, 'eval_steps_per_second': 1.003, 'epoch': 3.23}
{'loss': 0.5721, 'learning_rate': 9.235258971283134e-06, 'epoch': 3.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.436842679977417, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 3.23}
{'loss': 0.6717, 'learning_rate': 9.226455963454894e-06, 'epoch': 3.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4371826648712158, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 3.23}
{'loss': 0.5242, 'learning_rate': 9.217653558636008e-06, 'epoch': 3.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4376740455627441, 'eval_runtime': 0.9696, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 3.24}
{'loss': 0.6767, 'learning_rate': 9.208851763688314e-06, 'epoch': 3.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4578320980072021, 'eval_runtime': 0.9382, 'eval_samples_per_second': 5.329, 'eval_steps_per_second': 1.066, 'epoch': 3.24}
{'loss': 0.3985, 'learning_rate': 9.20005058547317e-06, 'epoch': 3.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4788987636566162, 'eval_runtime': 0.9767, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 3.24}
{'loss': 0.4935, 'learning_rate': 9.191250030851453e-06, 'epoch': 3.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.485479712486267, 'eval_runtime': 0.9751, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 3.24}
{'loss': 0.4769, 'learning_rate': 9.182450106683566e-06, 'epoch': 3.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.488134503364563, 'eval_runtime': 1.0124, 'eval_samples_per_second': 4.939, 'eval_steps_per_second': 0.988, 'epoch': 3.24}
{'loss': 0.6969, 'learning_rate': 9.173650819829401e-06, 'epoch': 3.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4911116361618042, 'eval_runtime': 0.9917, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 3.24}
{'loss': 0.524, 'learning_rate': 9.16485217714837e-06, 'epoch': 3.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4914475679397583, 'eval_runtime': 0.9971, 'eval_samples_per_second': 5.015, 'eval_steps_per_second': 1.003, 'epoch': 3.25}
{'loss': 0.4396, 'learning_rate': 9.15605418549938e-06, 'epoch': 3.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4913972616195679, 'eval_runtime': 1.0347, 'eval_samples_per_second': 4.832, 'eval_steps_per_second': 0.966, 'epoch': 3.25}
{'loss': 0.6081, 'learning_rate': 9.147256851740815e-06, 'epoch': 3.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.489703893661499, 'eval_runtime': 1.0433, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 3.25}
{'loss': 0.4089, 'learning_rate': 9.138460182730566e-06, 'epoch': 3.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4853339195251465, 'eval_runtime': 1.0318, 'eval_samples_per_second': 4.846, 'eval_steps_per_second': 0.969, 'epoch': 3.25}
{'loss': 0.5364, 'learning_rate': 9.129664185326e-06, 'epoch': 3.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4810236692428589, 'eval_runtime': 0.9572, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 3.25}
{'loss': 0.4977, 'learning_rate': 9.120868866383952e-06, 'epoch': 3.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4799659252166748, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 3.25}
{'loss': 0.4052, 'learning_rate': 9.112074232760736e-06, 'epoch': 3.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4789577722549438, 'eval_runtime': 1.0451, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 3.25}
{'loss': 0.6206, 'learning_rate': 9.103280291312137e-06, 'epoch': 3.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4783601760864258, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 3.26}
{'loss': 0.596, 'learning_rate': 9.094487048893385e-06, 'epoch': 3.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.478635549545288, 'eval_runtime': 1.0412, 'eval_samples_per_second': 4.802, 'eval_steps_per_second': 0.96, 'epoch': 3.26}
{'loss': 0.5796, 'learning_rate': 9.085694512359176e-06, 'epoch': 3.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.475926399230957, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 3.26}
{'loss': 0.5828, 'learning_rate': 9.076902688563657e-06, 'epoch': 3.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4778143167495728, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 3.26}
{'loss': 0.468, 'learning_rate': 9.068111584360411e-06, 'epoch': 3.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4797487258911133, 'eval_runtime': 1.0153, 'eval_samples_per_second': 4.925, 'eval_steps_per_second': 0.985, 'epoch': 3.26}
{'loss': 0.5342, 'learning_rate': 9.059321206602466e-06, 'epoch': 3.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4823287725448608, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 3.26}
{'loss': 0.394, 'learning_rate': 9.050531562142288e-06, 'epoch': 3.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.485467553138733, 'eval_runtime': 1.0204, 'eval_samples_per_second': 4.9, 'eval_steps_per_second': 0.98, 'epoch': 3.27}
{'loss': 0.4092, 'learning_rate': 9.041742657831759e-06, 'epoch': 3.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.487644076347351, 'eval_runtime': 0.9999, 'eval_samples_per_second': 5.001, 'eval_steps_per_second': 1.0, 'epoch': 3.27}
{'loss': 0.4128, 'learning_rate': 9.032954500522193e-06, 'epoch': 3.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.487223744392395, 'eval_runtime': 1.0029, 'eval_samples_per_second': 4.986, 'eval_steps_per_second': 0.997, 'epoch': 3.27}
{'loss': 0.5455, 'learning_rate': 9.024167097064323e-06, 'epoch': 3.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4843919277191162, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 3.27}
{'loss': 0.5855, 'learning_rate': 9.015380454308285e-06, 'epoch': 3.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4816384315490723, 'eval_runtime': 0.981, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 3.27}
{'loss': 0.3782, 'learning_rate': 9.00659457910363e-06, 'epoch': 3.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.486315131187439, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 3.27}
{'loss': 0.4584, 'learning_rate': 8.997809478299314e-06, 'epoch': 3.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4928677082061768, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 3.28}
{'loss': 0.5655, 'learning_rate': 8.989025158743676e-06, 'epoch': 3.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4985431432724, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.058, 'eval_steps_per_second': 1.012, 'epoch': 3.28}
{'loss': 0.5481, 'learning_rate': 8.980241627284459e-06, 'epoch': 3.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5032089948654175, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 3.28}
{'loss': 0.3137, 'learning_rate': 8.971458890768788e-06, 'epoch': 3.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5092827081680298, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 3.28}
{'loss': 0.3892, 'learning_rate': 8.962676956043161e-06, 'epoch': 3.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5132408142089844, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 3.28}
{'loss': 0.4716, 'learning_rate': 8.95389582995346e-06, 'epoch': 3.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5158617496490479, 'eval_runtime': 0.9497, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 3.28}
{'loss': 0.5639, 'learning_rate': 8.945115519344934e-06, 'epoch': 3.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5145421028137207, 'eval_runtime': 0.9839, 'eval_samples_per_second': 5.082, 'eval_steps_per_second': 1.016, 'epoch': 3.29}
{'loss': 0.4162, 'learning_rate': 8.936336031062195e-06, 'epoch': 3.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5105273723602295, 'eval_runtime': 0.9396, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 3.29}
{'loss': 0.4056, 'learning_rate': 8.927557371949216e-06, 'epoch': 3.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5056517124176025, 'eval_runtime': 1.0329, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 3.29}
{'loss': 0.4943, 'learning_rate': 8.918779548849324e-06, 'epoch': 3.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.503292441368103, 'eval_runtime': 1.0423, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 3.29}
{'loss': 0.3905, 'learning_rate': 8.910002568605187e-06, 'epoch': 3.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.501372218132019, 'eval_runtime': 0.9462, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 3.29}
{'loss': 0.4058, 'learning_rate': 8.901226438058825e-06, 'epoch': 3.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.498205304145813, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 3.29}
{'loss': 0.5111, 'learning_rate': 8.892451164051597e-06, 'epoch': 3.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4986319541931152, 'eval_runtime': 0.9823, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 3.3}
{'loss': 0.4336, 'learning_rate': 8.883676753424179e-06, 'epoch': 3.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4996041059494019, 'eval_runtime': 0.9921, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 3.3}
{'loss': 0.5376, 'learning_rate': 8.874903213016593e-06, 'epoch': 3.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5026137828826904, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 3.3}
{'loss': 0.5936, 'learning_rate': 8.86613054966817e-06, 'epoch': 3.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5046436786651611, 'eval_runtime': 0.9747, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 3.3}
{'loss': 0.5999, 'learning_rate': 8.857358770217563e-06, 'epoch': 3.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5050643682479858, 'eval_runtime': 1.0493, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 3.3}
{'loss': 0.5205, 'learning_rate': 8.848587881502734e-06, 'epoch': 3.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5009287595748901, 'eval_runtime': 0.9859, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 3.3}
{'loss': 0.4227, 'learning_rate': 8.839817890360957e-06, 'epoch': 3.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.497155785560608, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 3.31}
{'loss': 0.6409, 'learning_rate': 8.83104880362879e-06, 'epoch': 3.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4951865673065186, 'eval_runtime': 1.0431, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 3.31}
{'loss': 0.6853, 'learning_rate': 8.8222806281421e-06, 'epoch': 3.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4982961416244507, 'eval_runtime': 1.0236, 'eval_samples_per_second': 4.885, 'eval_steps_per_second': 0.977, 'epoch': 3.31}
{'loss': 0.4501, 'learning_rate': 8.813513370736045e-06, 'epoch': 3.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5002856254577637, 'eval_runtime': 0.9388, 'eval_samples_per_second': 5.326, 'eval_steps_per_second': 1.065, 'epoch': 3.31}
{'loss': 0.5882, 'learning_rate': 8.804747038245055e-06, 'epoch': 3.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.499715805053711, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 3.31}
{'loss': 0.5466, 'learning_rate': 8.79598163750285e-06, 'epoch': 3.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.49689519405365, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 3.31}
{'loss': 0.4828, 'learning_rate': 8.787217175342425e-06, 'epoch': 3.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4921842813491821, 'eval_runtime': 1.003, 'eval_samples_per_second': 4.985, 'eval_steps_per_second': 0.997, 'epoch': 3.32}
{'loss': 0.5545, 'learning_rate': 8.778453658596028e-06, 'epoch': 3.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4882419109344482, 'eval_runtime': 0.9795, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 3.32}
{'loss': 0.425, 'learning_rate': 8.769691094095186e-06, 'epoch': 3.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4859378337860107, 'eval_runtime': 0.9953, 'eval_samples_per_second': 5.023, 'eval_steps_per_second': 1.005, 'epoch': 3.32}
{'loss': 0.5527, 'learning_rate': 8.760929488670679e-06, 'epoch': 3.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4852873086929321, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 3.32}
{'loss': 0.5899, 'learning_rate': 8.752168849152535e-06, 'epoch': 3.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4870054721832275, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 3.32}
{'loss': 0.6053, 'learning_rate': 8.743409182370034e-06, 'epoch': 3.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4853874444961548, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 3.32}
{'loss': 0.4707, 'learning_rate': 8.7346504951517e-06, 'epoch': 3.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4827226400375366, 'eval_runtime': 1.0568, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 3.33}
{'loss': 0.5031, 'learning_rate': 8.72589279432528e-06, 'epoch': 3.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4830384254455566, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 3.33}
{'loss': 0.5517, 'learning_rate': 8.71713608671777e-06, 'epoch': 3.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4837098121643066, 'eval_runtime': 1.0357, 'eval_samples_per_second': 4.828, 'eval_steps_per_second': 0.966, 'epoch': 3.33}
{'loss': 0.5008, 'learning_rate': 8.708380379155383e-06, 'epoch': 3.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4872242212295532, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 3.33}
{'loss': 0.6384, 'learning_rate': 8.699625678463549e-06, 'epoch': 3.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4924449920654297, 'eval_runtime': 0.9765, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 3.33}
{'loss': 0.2931, 'learning_rate': 8.690871991466914e-06, 'epoch': 3.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4953335523605347, 'eval_runtime': 1.0055, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 3.33}
{'loss': 0.3981, 'learning_rate': 8.682119324989345e-06, 'epoch': 3.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4962694644927979, 'eval_runtime': 0.9493, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 3.33}
{'loss': 0.8364, 'learning_rate': 8.6733676858539e-06, 'epoch': 3.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4951924085617065, 'eval_runtime': 1.0533, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 3.34}
{'loss': 0.5286, 'learning_rate': 8.664617080882839e-06, 'epoch': 3.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4917945861816406, 'eval_runtime': 1.0052, 'eval_samples_per_second': 4.974, 'eval_steps_per_second': 0.995, 'epoch': 3.34}
{'loss': 0.4851, 'learning_rate': 8.655867516897627e-06, 'epoch': 3.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4860438108444214, 'eval_runtime': 0.9441, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 3.34}
{'loss': 0.6543, 'learning_rate': 8.647119000718898e-06, 'epoch': 3.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4778943061828613, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 3.34}
{'loss': 0.5474, 'learning_rate': 8.638371539166486e-06, 'epoch': 3.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4701104164123535, 'eval_runtime': 0.9963, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 3.34}
{'loss': 0.5316, 'learning_rate': 8.629625139059396e-06, 'epoch': 3.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4665091037750244, 'eval_runtime': 0.9815, 'eval_samples_per_second': 5.094, 'eval_steps_per_second': 1.019, 'epoch': 3.34}
{'loss': 0.376, 'learning_rate': 8.620879807215804e-06, 'epoch': 3.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4646871089935303, 'eval_runtime': 1.0067, 'eval_samples_per_second': 4.967, 'eval_steps_per_second': 0.993, 'epoch': 3.35}
{'loss': 0.7772, 'learning_rate': 8.612135550453054e-06, 'epoch': 3.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4668841361999512, 'eval_runtime': 1.0557, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 3.35}
{'loss': 0.535, 'learning_rate': 8.603392375587663e-06, 'epoch': 3.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4685204029083252, 'eval_runtime': 0.9613, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 3.35}
{'loss': 0.5415, 'learning_rate': 8.594650289435282e-06, 'epoch': 3.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4684550762176514, 'eval_runtime': 0.9434, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 3.35}
{'loss': 0.5206, 'learning_rate': 8.585909298810733e-06, 'epoch': 3.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4690625667572021, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 3.35}
{'loss': 0.5522, 'learning_rate': 8.57716941052798e-06, 'epoch': 3.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4720585346221924, 'eval_runtime': 0.9523, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 3.35}
{'loss': 0.4197, 'learning_rate': 8.56843063140012e-06, 'epoch': 3.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4784709215164185, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 3.36}
{'loss': 0.3803, 'learning_rate': 8.55969296823939e-06, 'epoch': 3.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.482366919517517, 'eval_runtime': 1.0099, 'eval_samples_per_second': 4.951, 'eval_steps_per_second': 0.99, 'epoch': 3.36}
{'loss': 0.4767, 'learning_rate': 8.55095642785716e-06, 'epoch': 3.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.486310362815857, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 3.36}
{'loss': 0.5639, 'learning_rate': 8.542221017063921e-06, 'epoch': 3.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.48756742477417, 'eval_runtime': 0.9703, 'eval_samples_per_second': 5.153, 'eval_steps_per_second': 1.031, 'epoch': 3.36}
{'loss': 0.6193, 'learning_rate': 8.533486742669285e-06, 'epoch': 3.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4888681173324585, 'eval_runtime': 1.0234, 'eval_samples_per_second': 4.886, 'eval_steps_per_second': 0.977, 'epoch': 3.36}
{'loss': 0.7329, 'learning_rate': 8.52475361148198e-06, 'epoch': 3.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4892616271972656, 'eval_runtime': 0.9716, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 3.36}
{'loss': 0.4476, 'learning_rate': 8.516021630309837e-06, 'epoch': 3.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4890105724334717, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 3.37}
{'loss': 0.5001, 'learning_rate': 8.507290805959791e-06, 'epoch': 3.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4882949590682983, 'eval_runtime': 0.9803, 'eval_samples_per_second': 5.1, 'eval_steps_per_second': 1.02, 'epoch': 3.37}
{'loss': 0.518, 'learning_rate': 8.498561145237889e-06, 'epoch': 3.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4871163368225098, 'eval_runtime': 0.9502, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 3.37}
{'loss': 0.5881, 'learning_rate': 8.489832654949248e-06, 'epoch': 3.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4878852367401123, 'eval_runtime': 0.9647, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 3.37}
{'loss': 0.5894, 'learning_rate': 8.481105341898091e-06, 'epoch': 3.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4869738817214966, 'eval_runtime': 0.9525, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 3.37}
{'loss': 0.4339, 'learning_rate': 8.472379212887721e-06, 'epoch': 3.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4841198921203613, 'eval_runtime': 0.9467, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 3.37}
{'loss': 0.4699, 'learning_rate': 8.463654274720506e-06, 'epoch': 3.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.482327938079834, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 3.38}
{'loss': 0.5291, 'learning_rate': 8.454930534197896e-06, 'epoch': 3.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4810938835144043, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 3.38}
{'loss': 0.4381, 'learning_rate': 8.446207998120408e-06, 'epoch': 3.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4868688583374023, 'eval_runtime': 1.0387, 'eval_samples_per_second': 4.814, 'eval_steps_per_second': 0.963, 'epoch': 3.38}
{'loss': 0.6689, 'learning_rate': 8.437486673287613e-06, 'epoch': 3.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4886078834533691, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 3.38}
{'loss': 0.4874, 'learning_rate': 8.428766566498147e-06, 'epoch': 3.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4905346632003784, 'eval_runtime': 1.001, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 3.38}
{'loss': 0.4594, 'learning_rate': 8.420047684549691e-06, 'epoch': 3.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4914199113845825, 'eval_runtime': 0.9398, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 3.38}
{'loss': 0.6604, 'learning_rate': 8.411330034238966e-06, 'epoch': 3.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4876984357833862, 'eval_runtime': 0.9611, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 3.39}
{'loss': 0.5739, 'learning_rate': 8.402613622361741e-06, 'epoch': 3.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4815783500671387, 'eval_runtime': 1.0204, 'eval_samples_per_second': 4.9, 'eval_steps_per_second': 0.98, 'epoch': 3.39}
{'loss': 0.5905, 'learning_rate': 8.393898455712823e-06, 'epoch': 3.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4738447666168213, 'eval_runtime': 0.9656, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 3.39}
{'loss': 0.5228, 'learning_rate': 8.385184541086033e-06, 'epoch': 3.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4729293584823608, 'eval_runtime': 1.0125, 'eval_samples_per_second': 4.938, 'eval_steps_per_second': 0.988, 'epoch': 3.39}
{'loss': 0.4542, 'learning_rate': 8.376471885274231e-06, 'epoch': 3.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4748594760894775, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 3.39}
{'loss': 0.6424, 'learning_rate': 8.36776049506929e-06, 'epoch': 3.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4791383743286133, 'eval_runtime': 0.9646, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 3.39}
{'loss': 0.4193, 'learning_rate': 8.359050377262094e-06, 'epoch': 3.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.485753059387207, 'eval_runtime': 0.9437, 'eval_samples_per_second': 5.298, 'eval_steps_per_second': 1.06, 'epoch': 3.4}
{'loss': 0.5815, 'learning_rate': 8.35034153864254e-06, 'epoch': 3.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4922231435775757, 'eval_runtime': 0.9987, 'eval_samples_per_second': 5.007, 'eval_steps_per_second': 1.001, 'epoch': 3.4}
{'loss': 0.6073, 'learning_rate': 8.34163398599953e-06, 'epoch': 3.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.497439980506897, 'eval_runtime': 0.9549, 'eval_samples_per_second': 5.236, 'eval_steps_per_second': 1.047, 'epoch': 3.4}
{'loss': 0.7043, 'learning_rate': 8.332927726120946e-06, 'epoch': 3.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5037661790847778, 'eval_runtime': 1.0277, 'eval_samples_per_second': 4.865, 'eval_steps_per_second': 0.973, 'epoch': 3.4}
{'loss': 0.6503, 'learning_rate': 8.324222765793684e-06, 'epoch': 3.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5040642023086548, 'eval_runtime': 1.0313, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 3.4}
{'loss': 0.5145, 'learning_rate': 8.31551911180362e-06, 'epoch': 3.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5052145719528198, 'eval_runtime': 0.9722, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 3.4}
{'loss': 0.5957, 'learning_rate': 8.306816770935606e-06, 'epoch': 3.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.503946304321289, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 3.41}
{'loss': 0.488, 'learning_rate': 8.298115749973475e-06, 'epoch': 3.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5027960538864136, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 3.41}
{'loss': 0.608, 'learning_rate': 8.289416055700032e-06, 'epoch': 3.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4979215860366821, 'eval_runtime': 1.0069, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 3.41}
{'loss': 0.5844, 'learning_rate': 8.280717694897043e-06, 'epoch': 3.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.49390709400177, 'eval_runtime': 1.0559, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 3.41}
{'loss': 0.4136, 'learning_rate': 8.272020674345238e-06, 'epoch': 3.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4923710823059082, 'eval_runtime': 0.9577, 'eval_samples_per_second': 5.221, 'eval_steps_per_second': 1.044, 'epoch': 3.41}
{'loss': 0.5412, 'learning_rate': 8.263325000824308e-06, 'epoch': 3.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4890440702438354, 'eval_runtime': 0.9419, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 3.41}
{'loss': 0.6016, 'learning_rate': 8.254630681112879e-06, 'epoch': 3.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4855585098266602, 'eval_runtime': 0.9453, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 3.42}
{'loss': 0.429, 'learning_rate': 8.245937721988532e-06, 'epoch': 3.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4835416078567505, 'eval_runtime': 1.02, 'eval_samples_per_second': 4.902, 'eval_steps_per_second': 0.98, 'epoch': 3.42}
{'loss': 0.6024, 'learning_rate': 8.23724613022779e-06, 'epoch': 3.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4810781478881836, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 3.42}
{'loss': 0.6205, 'learning_rate': 8.228555912606103e-06, 'epoch': 3.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4774224758148193, 'eval_runtime': 0.9599, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 3.42}
{'loss': 0.268, 'learning_rate': 8.219867075897852e-06, 'epoch': 3.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4761725664138794, 'eval_runtime': 1.0238, 'eval_samples_per_second': 4.884, 'eval_steps_per_second': 0.977, 'epoch': 3.42}
{'loss': 0.4555, 'learning_rate': 8.211179626876348e-06, 'epoch': 3.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4753912687301636, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 3.42}
{'loss': 0.6194, 'learning_rate': 8.202493572313805e-06, 'epoch': 3.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4744551181793213, 'eval_runtime': 0.9388, 'eval_samples_per_second': 5.326, 'eval_steps_per_second': 1.065, 'epoch': 3.42}
{'loss': 0.5889, 'learning_rate': 8.193808918981365e-06, 'epoch': 3.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4748598337173462, 'eval_runtime': 1.0437, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 3.43}
{'loss': 0.5866, 'learning_rate': 8.185125673649073e-06, 'epoch': 3.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4758340120315552, 'eval_runtime': 1.0087, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 3.43}
{'loss': 0.4606, 'learning_rate': 8.176443843085871e-06, 'epoch': 3.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4801565408706665, 'eval_runtime': 0.9892, 'eval_samples_per_second': 5.054, 'eval_steps_per_second': 1.011, 'epoch': 3.43}
{'loss': 0.45, 'learning_rate': 8.167763434059605e-06, 'epoch': 3.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.485203504562378, 'eval_runtime': 0.9406, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 3.43}
{'loss': 0.4307, 'learning_rate': 8.159084453337016e-06, 'epoch': 3.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4867122173309326, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 3.43}
{'loss': 0.508, 'learning_rate': 8.150406907683717e-06, 'epoch': 3.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4846482276916504, 'eval_runtime': 1.0275, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 3.43}
{'loss': 0.4915, 'learning_rate': 8.141730803864214e-06, 'epoch': 3.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4826884269714355, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 3.44}
{'loss': 0.4964, 'learning_rate': 8.13305614864189e-06, 'epoch': 3.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4845740795135498, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 3.44}
{'loss': 0.4152, 'learning_rate': 8.124382948778991e-06, 'epoch': 3.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4831830263137817, 'eval_runtime': 0.9592, 'eval_samples_per_second': 5.213, 'eval_steps_per_second': 1.043, 'epoch': 3.44}
{'loss': 0.4124, 'learning_rate': 8.11571121103663e-06, 'epoch': 3.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4841872453689575, 'eval_runtime': 1.0274, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 3.44}
{'loss': 0.4341, 'learning_rate': 8.107040942174793e-06, 'epoch': 3.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4874762296676636, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 3.44}
{'loss': 0.5262, 'learning_rate': 8.098372148952301e-06, 'epoch': 3.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.49154531955719, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 3.44}
{'loss': 0.5054, 'learning_rate': 8.089704838126835e-06, 'epoch': 3.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.492621898651123, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 3.45}
{'loss': 0.7206, 'learning_rate': 8.08103901645493e-06, 'epoch': 3.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4947079420089722, 'eval_runtime': 0.9507, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 3.45}
{'loss': 0.6089, 'learning_rate': 8.072374690691939e-06, 'epoch': 3.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4950973987579346, 'eval_runtime': 0.9402, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 3.45}
{'loss': 0.4608, 'learning_rate': 8.063711867592064e-06, 'epoch': 3.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.497510552406311, 'eval_runtime': 0.9419, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 3.45}
{'loss': 0.531, 'learning_rate': 8.055050553908331e-06, 'epoch': 3.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4985333681106567, 'eval_runtime': 1.0457, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 3.45}
{'loss': 0.382, 'learning_rate': 8.04639075639259e-06, 'epoch': 3.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4988672733306885, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 3.45}
{'loss': 0.5971, 'learning_rate': 8.037732481795507e-06, 'epoch': 3.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4987462759017944, 'eval_runtime': 1.0389, 'eval_samples_per_second': 4.813, 'eval_steps_per_second': 0.963, 'epoch': 3.46}
{'loss': 0.5009, 'learning_rate': 8.029075736866569e-06, 'epoch': 3.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4946789741516113, 'eval_runtime': 0.9388, 'eval_samples_per_second': 5.326, 'eval_steps_per_second': 1.065, 'epoch': 3.46}
{'loss': 0.86, 'learning_rate': 8.020420528354057e-06, 'epoch': 3.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.488633632659912, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 3.46}
{'loss': 0.4491, 'learning_rate': 8.011766863005063e-06, 'epoch': 3.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4841073751449585, 'eval_runtime': 1.018, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 3.46}
{'loss': 0.4912, 'learning_rate': 8.00311474756548e-06, 'epoch': 3.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4832508563995361, 'eval_runtime': 0.9693, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 3.46}
{'loss': 0.4449, 'learning_rate': 7.994464188779979e-06, 'epoch': 3.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4847407341003418, 'eval_runtime': 1.017, 'eval_samples_per_second': 4.916, 'eval_steps_per_second': 0.983, 'epoch': 3.46}
{'loss': 0.4653, 'learning_rate': 7.985815193392032e-06, 'epoch': 3.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.486868143081665, 'eval_runtime': 1.0457, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 3.47}
{'loss': 0.4452, 'learning_rate': 7.977167768143887e-06, 'epoch': 3.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.488599419593811, 'eval_runtime': 1.0314, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 3.47}
{'loss': 0.5128, 'learning_rate': 7.968521919776563e-06, 'epoch': 3.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4902477264404297, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 3.47}
{'loss': 0.5968, 'learning_rate': 7.959877655029855e-06, 'epoch': 3.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4881341457366943, 'eval_runtime': 0.9559, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 3.47}
{'loss': 0.6489, 'learning_rate': 7.951234980642328e-06, 'epoch': 3.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4867969751358032, 'eval_runtime': 0.9939, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 3.47}
{'loss': 0.5046, 'learning_rate': 7.942593903351292e-06, 'epoch': 3.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4858283996582031, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 3.47}
{'loss': 0.3576, 'learning_rate': 7.933954429892827e-06, 'epoch': 3.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4821364879608154, 'eval_runtime': 0.9676, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 3.48}
{'loss': 0.4736, 'learning_rate': 7.92531656700176e-06, 'epoch': 3.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4798376560211182, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 3.48}
{'loss': 0.5566, 'learning_rate': 7.916680321411655e-06, 'epoch': 3.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4760416746139526, 'eval_runtime': 0.9925, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 3.48}
{'loss': 0.4592, 'learning_rate': 7.90804569985482e-06, 'epoch': 3.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4767097234725952, 'eval_runtime': 1.0424, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 3.48}
{'loss': 0.5336, 'learning_rate': 7.899412709062307e-06, 'epoch': 3.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4776991605758667, 'eval_runtime': 0.9393, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 3.48}
{'loss': 0.4678, 'learning_rate': 7.890781355763874e-06, 'epoch': 3.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4796199798583984, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 3.48}
{'loss': 0.5748, 'learning_rate': 7.882151646688022e-06, 'epoch': 3.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4833414554595947, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 3.49}
{'loss': 0.5336, 'learning_rate': 7.873523588561965e-06, 'epoch': 3.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4848471879959106, 'eval_runtime': 0.9962, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 3.49}
{'loss': 0.5288, 'learning_rate': 7.864897188111623e-06, 'epoch': 3.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4844539165496826, 'eval_runtime': 0.9681, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 3.49}
{'loss': 0.5493, 'learning_rate': 7.856272452061634e-06, 'epoch': 3.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4856212139129639, 'eval_runtime': 0.9754, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 3.49}
{'loss': 0.6314, 'learning_rate': 7.847649387135338e-06, 'epoch': 3.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4869033098220825, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 3.49}
{'loss': 0.367, 'learning_rate': 7.839028000054758e-06, 'epoch': 3.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4912456274032593, 'eval_runtime': 1.037, 'eval_samples_per_second': 4.822, 'eval_steps_per_second': 0.964, 'epoch': 3.49}
{'loss': 0.6039, 'learning_rate': 7.830408297540625e-06, 'epoch': 3.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4959518909454346, 'eval_runtime': 1.0005, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 3.5}
{'loss': 0.4507, 'learning_rate': 7.821790286312357e-06, 'epoch': 3.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4970722198486328, 'eval_runtime': 0.956, 'eval_samples_per_second': 5.23, 'eval_steps_per_second': 1.046, 'epoch': 3.5}
{'loss': 0.5586, 'learning_rate': 7.813173973088036e-06, 'epoch': 3.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4986070394515991, 'eval_runtime': 1.0226, 'eval_samples_per_second': 4.889, 'eval_steps_per_second': 0.978, 'epoch': 3.5}
{'loss': 0.609, 'learning_rate': 7.804559364584439e-06, 'epoch': 3.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.494145393371582, 'eval_runtime': 0.9612, 'eval_samples_per_second': 5.202, 'eval_steps_per_second': 1.04, 'epoch': 3.5}
{'loss': 0.4785, 'learning_rate': 7.795946467517006e-06, 'epoch': 3.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4880374670028687, 'eval_runtime': 0.9899, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 3.5}
{'loss': 0.5872, 'learning_rate': 7.787335288599846e-06, 'epoch': 3.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4787806272506714, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 3.5}
{'loss': 0.6481, 'learning_rate': 7.778725834545722e-06, 'epoch': 3.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4699119329452515, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 3.51}
{'loss': 0.3996, 'learning_rate': 7.770118112066067e-06, 'epoch': 3.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.469464898109436, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 3.51}
{'loss': 0.5327, 'learning_rate': 7.761512127870941e-06, 'epoch': 3.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4705663919448853, 'eval_runtime': 0.9481, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 3.51}
{'loss': 0.5256, 'learning_rate': 7.752907888669068e-06, 'epoch': 3.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4705874919891357, 'eval_runtime': 0.9795, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 3.51}
{'loss': 0.8536, 'learning_rate': 7.744305401167811e-06, 'epoch': 3.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4684147834777832, 'eval_runtime': 0.9812, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 3.51}
{'loss': 0.4316, 'learning_rate': 7.735704672073154e-06, 'epoch': 3.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4667080640792847, 'eval_runtime': 1.0375, 'eval_samples_per_second': 4.819, 'eval_steps_per_second': 0.964, 'epoch': 3.51}
{'loss': 0.5809, 'learning_rate': 7.727105708089725e-06, 'epoch': 3.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4670889377593994, 'eval_runtime': 1.0223, 'eval_samples_per_second': 4.891, 'eval_steps_per_second': 0.978, 'epoch': 3.51}
{'loss': 0.5522, 'learning_rate': 7.71850851592077e-06, 'epoch': 3.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4683036804199219, 'eval_runtime': 0.9573, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 3.52}
{'loss': 0.3944, 'learning_rate': 7.709913102268143e-06, 'epoch': 3.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.468643307685852, 'eval_runtime': 1.0416, 'eval_samples_per_second': 4.8, 'eval_steps_per_second': 0.96, 'epoch': 3.52}
{'loss': 0.4775, 'learning_rate': 7.701319473832334e-06, 'epoch': 3.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4680343866348267, 'eval_runtime': 0.9463, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 3.52}
{'loss': 0.4578, 'learning_rate': 7.692727637312427e-06, 'epoch': 3.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4678575992584229, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 3.52}
{'loss': 0.5084, 'learning_rate': 7.684137599406107e-06, 'epoch': 3.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4674710035324097, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 3.52}
{'loss': 0.5971, 'learning_rate': 7.675549366809663e-06, 'epoch': 3.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4663610458374023, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 3.52}
{'loss': 0.5092, 'learning_rate': 7.666962946217982e-06, 'epoch': 3.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.466086506843567, 'eval_runtime': 0.9809, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 3.53}
{'loss': 0.6393, 'learning_rate': 7.65837834432452e-06, 'epoch': 3.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4645402431488037, 'eval_runtime': 0.9691, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 3.53}
{'loss': 0.6845, 'learning_rate': 7.649795567821334e-06, 'epoch': 3.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4642022848129272, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.792, 'eval_steps_per_second': 0.958, 'epoch': 3.53}
{'loss': 0.6191, 'learning_rate': 7.641214623399053e-06, 'epoch': 3.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4631553888320923, 'eval_runtime': 1.0328, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 3.53}
{'loss': 0.6276, 'learning_rate': 7.63263551774687e-06, 'epoch': 3.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4638994932174683, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 3.53}
{'loss': 0.4569, 'learning_rate': 7.62405825755255e-06, 'epoch': 3.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4646813869476318, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 3.53}
{'loss': 0.3758, 'learning_rate': 7.6154828495024245e-06, 'epoch': 3.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4685026407241821, 'eval_runtime': 0.9808, 'eval_samples_per_second': 5.098, 'eval_steps_per_second': 1.02, 'epoch': 3.54}
{'loss': 0.4518, 'learning_rate': 7.6069093002813736e-06, 'epoch': 3.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4731626510620117, 'eval_runtime': 1.0421, 'eval_samples_per_second': 4.798, 'eval_steps_per_second': 0.96, 'epoch': 3.54}
{'loss': 0.7286, 'learning_rate': 7.5983376165728296e-06, 'epoch': 3.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4760502576828003, 'eval_runtime': 1.0576, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 3.54}
{'loss': 0.5396, 'learning_rate': 7.58976780505878e-06, 'epoch': 3.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4774821996688843, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 3.54}
{'loss': 0.4103, 'learning_rate': 7.5811998724197335e-06, 'epoch': 3.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4795770645141602, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 3.54}
{'loss': 0.4331, 'learning_rate': 7.572633825334751e-06, 'epoch': 3.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.480135202407837, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 3.54}
{'loss': 0.432, 'learning_rate': 7.56406967048142e-06, 'epoch': 3.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4832788705825806, 'eval_runtime': 0.9833, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 3.55}
{'loss': 0.5839, 'learning_rate': 7.555507414535847e-06, 'epoch': 3.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4859193563461304, 'eval_runtime': 1.0299, 'eval_samples_per_second': 4.855, 'eval_steps_per_second': 0.971, 'epoch': 3.55}
{'loss': 0.5532, 'learning_rate': 7.546947064172665e-06, 'epoch': 3.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4864284992218018, 'eval_runtime': 0.9578, 'eval_samples_per_second': 5.22, 'eval_steps_per_second': 1.044, 'epoch': 3.55}
{'loss': 0.4526, 'learning_rate': 7.538388626065023e-06, 'epoch': 3.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4867030382156372, 'eval_runtime': 1.0445, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 3.55}
{'loss': 0.5483, 'learning_rate': 7.529832106884565e-06, 'epoch': 3.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4862726926803589, 'eval_runtime': 0.9702, 'eval_samples_per_second': 5.154, 'eval_steps_per_second': 1.031, 'epoch': 3.55}
{'loss': 0.4393, 'learning_rate': 7.521277513301455e-06, 'epoch': 3.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4841716289520264, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 3.55}
{'loss': 0.547, 'learning_rate': 7.512724851984353e-06, 'epoch': 3.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4815688133239746, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 3.56}
{'loss': 0.738, 'learning_rate': 7.504174129600402e-06, 'epoch': 3.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4801629781723022, 'eval_runtime': 0.989, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 3.56}
{'loss': 0.5438, 'learning_rate': 7.495625352815247e-06, 'epoch': 3.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4791998863220215, 'eval_runtime': 1.0075, 'eval_samples_per_second': 4.963, 'eval_steps_per_second': 0.993, 'epoch': 3.56}
{'loss': 0.5871, 'learning_rate': 7.487078528293011e-06, 'epoch': 3.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4818353652954102, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 3.56}
{'loss': 0.4781, 'learning_rate': 7.47853366269629e-06, 'epoch': 3.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4852573871612549, 'eval_runtime': 1.0026, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 3.56}
{'loss': 0.521, 'learning_rate': 7.4699907626861625e-06, 'epoch': 3.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.489969253540039, 'eval_runtime': 0.9554, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 3.56}
{'loss': 0.5059, 'learning_rate': 7.461449834922172e-06, 'epoch': 3.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4930237531661987, 'eval_runtime': 0.9418, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 3.57}
{'loss': 0.5047, 'learning_rate': 7.452910886062315e-06, 'epoch': 3.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4934654235839844, 'eval_runtime': 0.9618, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 3.57}
{'loss': 0.4302, 'learning_rate': 7.4443739227630576e-06, 'epoch': 3.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4937310218811035, 'eval_runtime': 0.982, 'eval_samples_per_second': 5.092, 'eval_steps_per_second': 1.018, 'epoch': 3.57}
{'loss': 0.7019, 'learning_rate': 7.435838951679313e-06, 'epoch': 3.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4942772388458252, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 3.57}
{'loss': 0.518, 'learning_rate': 7.427305979464441e-06, 'epoch': 3.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4935798645019531, 'eval_runtime': 1.0295, 'eval_samples_per_second': 4.857, 'eval_steps_per_second': 0.971, 'epoch': 3.57}
{'loss': 0.484, 'learning_rate': 7.418775012770245e-06, 'epoch': 3.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.495998740196228, 'eval_runtime': 1.006, 'eval_samples_per_second': 4.97, 'eval_steps_per_second': 0.994, 'epoch': 3.57}
{'loss': 0.5578, 'learning_rate': 7.410246058246966e-06, 'epoch': 3.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.502420425415039, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 3.58}
{'loss': 0.443, 'learning_rate': 7.4017191225432695e-06, 'epoch': 3.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5039775371551514, 'eval_runtime': 1.0218, 'eval_samples_per_second': 4.893, 'eval_steps_per_second': 0.979, 'epoch': 3.58}
{'loss': 0.554, 'learning_rate': 7.393194212306254e-06, 'epoch': 3.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5023694038391113, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 3.58}
{'loss': 0.4883, 'learning_rate': 7.384671334181439e-06, 'epoch': 3.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4969230890274048, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 3.58}
{'loss': 0.564, 'learning_rate': 7.376150494812755e-06, 'epoch': 3.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4920183420181274, 'eval_runtime': 1.0148, 'eval_samples_per_second': 4.927, 'eval_steps_per_second': 0.985, 'epoch': 3.58}
{'loss': 0.6008, 'learning_rate': 7.36763170084255e-06, 'epoch': 3.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4896479845046997, 'eval_runtime': 1.0212, 'eval_samples_per_second': 4.896, 'eval_steps_per_second': 0.979, 'epoch': 3.58}
{'loss': 0.6806, 'learning_rate': 7.359114958911575e-06, 'epoch': 3.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4860200881958008, 'eval_runtime': 1.0167, 'eval_samples_per_second': 4.918, 'eval_steps_per_second': 0.984, 'epoch': 3.59}
{'loss': 0.5665, 'learning_rate': 7.350600275658974e-06, 'epoch': 3.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.484446406364441, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 3.59}
{'loss': 0.791, 'learning_rate': 7.342087657722295e-06, 'epoch': 3.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4839203357696533, 'eval_runtime': 0.9589, 'eval_samples_per_second': 5.214, 'eval_steps_per_second': 1.043, 'epoch': 3.59}
{'loss': 0.555, 'learning_rate': 7.333577111737478e-06, 'epoch': 3.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4835318326950073, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 3.59}
{'loss': 0.4621, 'learning_rate': 7.325068644338835e-06, 'epoch': 3.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4853585958480835, 'eval_runtime': 0.9852, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 3.59}
{'loss': 0.4664, 'learning_rate': 7.31656226215907e-06, 'epoch': 3.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4895092248916626, 'eval_runtime': 0.982, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 3.59}
{'loss': 0.4729, 'learning_rate': 7.308057971829261e-06, 'epoch': 3.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4917187690734863, 'eval_runtime': 1.0209, 'eval_samples_per_second': 4.898, 'eval_steps_per_second': 0.98, 'epoch': 3.6}
{'loss': 0.3088, 'learning_rate': 7.299555779978847e-06, 'epoch': 3.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4945461750030518, 'eval_runtime': 0.9701, 'eval_samples_per_second': 5.154, 'eval_steps_per_second': 1.031, 'epoch': 3.6}
{'loss': 0.6656, 'learning_rate': 7.291055693235633e-06, 'epoch': 3.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4937576055526733, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 3.6}
{'loss': 0.7063, 'learning_rate': 7.2825577182257975e-06, 'epoch': 3.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4914662837982178, 'eval_runtime': 1.0193, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 3.6}
{'loss': 0.6077, 'learning_rate': 7.274061861573848e-06, 'epoch': 3.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4950827360153198, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 3.6}
{'loss': 0.447, 'learning_rate': 7.2655681299026596e-06, 'epoch': 3.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.501364827156067, 'eval_runtime': 0.9391, 'eval_samples_per_second': 5.324, 'eval_steps_per_second': 1.065, 'epoch': 3.6}
{'loss': 0.4109, 'learning_rate': 7.257076529833447e-06, 'epoch': 3.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.508599877357483, 'eval_runtime': 0.952, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 3.6}
{'loss': 0.4056, 'learning_rate': 7.248587067985755e-06, 'epoch': 3.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5121970176696777, 'eval_runtime': 0.9711, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 3.61}
{'loss': 0.6125, 'learning_rate': 7.240099750977474e-06, 'epoch': 3.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5145889520645142, 'eval_runtime': 1.0243, 'eval_samples_per_second': 4.881, 'eval_steps_per_second': 0.976, 'epoch': 3.61}
{'loss': 0.6168, 'learning_rate': 7.231614585424818e-06, 'epoch': 3.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5158848762512207, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 3.61}
{'loss': 0.5179, 'learning_rate': 7.223131577942313e-06, 'epoch': 3.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5153557062149048, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 3.61}
{'loss': 0.4084, 'learning_rate': 7.214650735142818e-06, 'epoch': 3.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5119022130966187, 'eval_runtime': 0.9842, 'eval_samples_per_second': 5.08, 'eval_steps_per_second': 1.016, 'epoch': 3.61}
{'loss': 0.5436, 'learning_rate': 7.2061720636374996e-06, 'epoch': 3.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5070387125015259, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 3.61}
{'loss': 0.6883, 'learning_rate': 7.1976955700358265e-06, 'epoch': 3.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5008111000061035, 'eval_runtime': 1.0542, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 3.62}
{'loss': 0.6627, 'learning_rate': 7.189221260945574e-06, 'epoch': 3.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4947513341903687, 'eval_runtime': 1.0302, 'eval_samples_per_second': 4.854, 'eval_steps_per_second': 0.971, 'epoch': 3.62}
{'loss': 0.6892, 'learning_rate': 7.1807491429728185e-06, 'epoch': 3.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4897150993347168, 'eval_runtime': 0.9607, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 3.62}
{'loss': 0.5515, 'learning_rate': 7.1722792227219196e-06, 'epoch': 3.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4874536991119385, 'eval_runtime': 0.9499, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 3.62}
{'loss': 0.6661, 'learning_rate': 7.163811506795528e-06, 'epoch': 3.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4865366220474243, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 3.62}
{'loss': 0.5803, 'learning_rate': 7.155346001794583e-06, 'epoch': 3.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.486457347869873, 'eval_runtime': 0.9532, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 3.62}
{'loss': 0.6679, 'learning_rate': 7.1468827143182835e-06, 'epoch': 3.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.487860083580017, 'eval_runtime': 0.9933, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 3.63}
{'loss': 0.5454, 'learning_rate': 7.1384216509641154e-06, 'epoch': 3.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.490040898323059, 'eval_runtime': 0.9922, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 3.63}
{'loss': 0.4098, 'learning_rate': 7.129962818327827e-06, 'epoch': 3.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4922977685928345, 'eval_runtime': 0.9624, 'eval_samples_per_second': 5.195, 'eval_steps_per_second': 1.039, 'epoch': 3.63}
{'loss': 0.6553, 'learning_rate': 7.121506223003419e-06, 'epoch': 3.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4952857494354248, 'eval_runtime': 1.0433, 'eval_samples_per_second': 4.792, 'eval_steps_per_second': 0.958, 'epoch': 3.63}
{'loss': 0.5274, 'learning_rate': 7.113051871583161e-06, 'epoch': 3.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4969956874847412, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 3.63}
{'loss': 0.5125, 'learning_rate': 7.104599770657567e-06, 'epoch': 3.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4980756044387817, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 3.63}
{'loss': 0.4674, 'learning_rate': 7.0961499268153935e-06, 'epoch': 3.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.500247836112976, 'eval_runtime': 0.9955, 'eval_samples_per_second': 5.023, 'eval_steps_per_second': 1.005, 'epoch': 3.64}
{'loss': 0.5453, 'learning_rate': 7.0877023466436414e-06, 'epoch': 3.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5026113986968994, 'eval_runtime': 0.9776, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 3.64}
{'loss': 0.5548, 'learning_rate': 7.079257036727549e-06, 'epoch': 3.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5101102590560913, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 3.64}
{'loss': 0.6741, 'learning_rate': 7.070814003650579e-06, 'epoch': 3.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5118381977081299, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 3.64}
{'loss': 0.6365, 'learning_rate': 7.062373253994426e-06, 'epoch': 3.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5113710165023804, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 3.64}
{'loss': 0.5695, 'learning_rate': 7.053934794339001e-06, 'epoch': 3.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.509448528289795, 'eval_runtime': 1.0438, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 3.64}
{'loss': 0.4264, 'learning_rate': 7.045498631262426e-06, 'epoch': 3.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5108215808868408, 'eval_runtime': 1.0243, 'eval_samples_per_second': 4.881, 'eval_steps_per_second': 0.976, 'epoch': 3.65}
{'loss': 0.5364, 'learning_rate': 7.037064771341038e-06, 'epoch': 3.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5113946199417114, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 3.65}
{'loss': 0.6852, 'learning_rate': 7.028633221149384e-06, 'epoch': 3.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5107624530792236, 'eval_runtime': 0.9529, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 3.65}
{'loss': 0.428, 'learning_rate': 7.020203987260194e-06, 'epoch': 3.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5108036994934082, 'eval_runtime': 1.0572, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 3.65}
{'loss': 0.5131, 'learning_rate': 7.011777076244405e-06, 'epoch': 3.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5096850395202637, 'eval_runtime': 1.0421, 'eval_samples_per_second': 4.798, 'eval_steps_per_second': 0.96, 'epoch': 3.65}
{'loss': 0.5162, 'learning_rate': 7.0033524946711436e-06, 'epoch': 3.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5071156024932861, 'eval_runtime': 0.9962, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 3.65}
{'loss': 0.5549, 'learning_rate': 6.994930249107714e-06, 'epoch': 3.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.5008349418640137, 'eval_runtime': 0.9693, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 3.66}
{'loss': 0.6675, 'learning_rate': 6.986510346119604e-06, 'epoch': 3.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4954631328582764, 'eval_runtime': 0.9813, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 3.66}
{'loss': 0.5298, 'learning_rate': 6.9780927922704765e-06, 'epoch': 3.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4911903142929077, 'eval_runtime': 1.0258, 'eval_samples_per_second': 4.874, 'eval_steps_per_second': 0.975, 'epoch': 3.66}
{'loss': 0.6419, 'learning_rate': 6.969677594122155e-06, 'epoch': 3.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.488021731376648, 'eval_runtime': 0.9498, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 3.66}
{'loss': 0.4135, 'learning_rate': 6.961264758234634e-06, 'epoch': 3.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4874483346939087, 'eval_runtime': 0.9573, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 3.66}
{'loss': 0.3946, 'learning_rate': 6.952854291166067e-06, 'epoch': 3.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.488615870475769, 'eval_runtime': 1.0183, 'eval_samples_per_second': 4.91, 'eval_steps_per_second': 0.982, 'epoch': 3.66}
{'loss': 0.4562, 'learning_rate': 6.9444461994727565e-06, 'epoch': 3.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4899256229400635, 'eval_runtime': 0.981, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 3.67}
{'loss': 0.7101, 'learning_rate': 6.936040489709155e-06, 'epoch': 3.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4886115789413452, 'eval_runtime': 0.9922, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 3.67}
{'loss': 0.4396, 'learning_rate': 6.927637168427863e-06, 'epoch': 3.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.487862467765808, 'eval_runtime': 0.9492, 'eval_samples_per_second': 5.268, 'eval_steps_per_second': 1.054, 'epoch': 3.67}
{'loss': 0.6448, 'learning_rate': 6.919236242179608e-06, 'epoch': 3.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4863051176071167, 'eval_runtime': 0.9603, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 3.67}
{'loss': 0.4611, 'learning_rate': 6.91083771751326e-06, 'epoch': 3.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4835419654846191, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 3.67}
{'loss': 0.5013, 'learning_rate': 6.902441600975819e-06, 'epoch': 3.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4818525314331055, 'eval_runtime': 0.9922, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 3.67}
{'loss': 0.4803, 'learning_rate': 6.8940478991123926e-06, 'epoch': 3.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4792581796646118, 'eval_runtime': 0.9597, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 3.68}
{'loss': 0.4374, 'learning_rate': 6.885656618466223e-06, 'epoch': 3.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4773492813110352, 'eval_runtime': 0.9765, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 3.68}
{'loss': 0.4693, 'learning_rate': 6.877267765578659e-06, 'epoch': 3.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4792178869247437, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 3.68}
{'loss': 0.5152, 'learning_rate': 6.868881346989151e-06, 'epoch': 3.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.480509877204895, 'eval_runtime': 1.0419, 'eval_samples_per_second': 4.799, 'eval_steps_per_second': 0.96, 'epoch': 3.68}
{'loss': 0.31, 'learning_rate': 6.860497369235259e-06, 'epoch': 3.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4825748205184937, 'eval_runtime': 0.9777, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 3.68}
{'loss': 0.5853, 'learning_rate': 6.852115838852645e-06, 'epoch': 3.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4852702617645264, 'eval_runtime': 1.0247, 'eval_samples_per_second': 4.879, 'eval_steps_per_second': 0.976, 'epoch': 3.68}
{'loss': 0.4464, 'learning_rate': 6.843736762375044e-06, 'epoch': 3.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4870920181274414, 'eval_runtime': 1.0171, 'eval_samples_per_second': 4.916, 'eval_steps_per_second': 0.983, 'epoch': 3.68}
{'loss': 0.5513, 'learning_rate': 6.835360146334297e-06, 'epoch': 3.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4889907836914062, 'eval_runtime': 0.962, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 3.69}
{'loss': 0.6543, 'learning_rate': 6.826985997260321e-06, 'epoch': 3.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4876316785812378, 'eval_runtime': 1.0474, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 3.69}
{'loss': 0.5827, 'learning_rate': 6.818614321681108e-06, 'epoch': 3.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4863851070404053, 'eval_runtime': 0.9553, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 3.69}
{'loss': 0.6167, 'learning_rate': 6.810245126122721e-06, 'epoch': 3.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4866122007369995, 'eval_runtime': 1.043, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 3.69}
{'loss': 0.6527, 'learning_rate': 6.801878417109298e-06, 'epoch': 3.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.487054705619812, 'eval_runtime': 1.0561, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 3.69}
{'loss': 0.5108, 'learning_rate': 6.793514201163023e-06, 'epoch': 3.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4881772994995117, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 3.69}
{'loss': 0.4906, 'learning_rate': 6.785152484804152e-06, 'epoch': 3.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4904265403747559, 'eval_runtime': 0.9409, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 3.7}
{'loss': 0.6702, 'learning_rate': 6.776793274550988e-06, 'epoch': 3.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4900771379470825, 'eval_runtime': 0.9603, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 3.7}
{'loss': 0.6593, 'learning_rate': 6.768436576919873e-06, 'epoch': 3.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4847047328948975, 'eval_runtime': 0.986, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 3.7}
{'loss': 0.51, 'learning_rate': 6.760082398425199e-06, 'epoch': 3.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.473976731300354, 'eval_runtime': 0.986, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 3.7}
{'loss': 0.6765, 'learning_rate': 6.751730745579397e-06, 'epoch': 3.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.465768814086914, 'eval_runtime': 0.9441, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 3.7}
{'loss': 0.5646, 'learning_rate': 6.743381624892913e-06, 'epoch': 3.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4597327709197998, 'eval_runtime': 0.9832, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 3.7}
{'loss': 0.6161, 'learning_rate': 6.735035042874235e-06, 'epoch': 3.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4527194499969482, 'eval_runtime': 0.9915, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 3.71}
{'loss': 0.5287, 'learning_rate': 6.726691006029871e-06, 'epoch': 3.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4473837614059448, 'eval_runtime': 0.9896, 'eval_samples_per_second': 5.053, 'eval_steps_per_second': 1.011, 'epoch': 3.71}
{'loss': 0.6725, 'learning_rate': 6.718349520864329e-06, 'epoch': 3.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4444624185562134, 'eval_runtime': 0.9451, 'eval_samples_per_second': 5.291, 'eval_steps_per_second': 1.058, 'epoch': 3.71}
{'loss': 0.7957, 'learning_rate': 6.710010593880148e-06, 'epoch': 3.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4430389404296875, 'eval_runtime': 1.043, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 3.71}
{'loss': 0.8401, 'learning_rate': 6.701674231577864e-06, 'epoch': 3.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399999380111694, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 3.71}
{'loss': 0.3783, 'learning_rate': 6.69334044045601e-06, 'epoch': 3.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441511631011963, 'eval_runtime': 0.9688, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 3.71}
{'loss': 0.5714, 'learning_rate': 6.68500922701112e-06, 'epoch': 3.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4438778162002563, 'eval_runtime': 0.9591, 'eval_samples_per_second': 5.213, 'eval_steps_per_second': 1.043, 'epoch': 3.72}
{'loss': 0.5064, 'learning_rate': 6.676680597737722e-06, 'epoch': 3.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4484531879425049, 'eval_runtime': 1.0471, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 3.72}
{'loss': 0.5988, 'learning_rate': 6.668354559128316e-06, 'epoch': 3.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4515657424926758, 'eval_runtime': 0.9919, 'eval_samples_per_second': 5.041, 'eval_steps_per_second': 1.008, 'epoch': 3.72}
{'loss': 0.7773, 'learning_rate': 6.660031117673397e-06, 'epoch': 3.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4524503946304321, 'eval_runtime': 0.9964, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 3.72}
{'loss': 0.5082, 'learning_rate': 6.651710279861428e-06, 'epoch': 3.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.450716495513916, 'eval_runtime': 0.9915, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 3.72}
{'loss': 0.5428, 'learning_rate': 6.643392052178843e-06, 'epoch': 3.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4489301443099976, 'eval_runtime': 1.0167, 'eval_samples_per_second': 4.918, 'eval_steps_per_second': 0.984, 'epoch': 3.72}
{'loss': 0.6326, 'learning_rate': 6.635076441110043e-06, 'epoch': 3.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4487308263778687, 'eval_runtime': 1.0323, 'eval_samples_per_second': 4.843, 'eval_steps_per_second': 0.969, 'epoch': 3.73}
{'loss': 0.653, 'learning_rate': 6.626763453137392e-06, 'epoch': 3.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.447237253189087, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 3.73}
{'loss': 0.5739, 'learning_rate': 6.618453094741199e-06, 'epoch': 3.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4477506875991821, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 3.73}
{'loss': 0.473, 'learning_rate': 6.610145372399732e-06, 'epoch': 3.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4494880437850952, 'eval_runtime': 1.0088, 'eval_samples_per_second': 4.956, 'eval_steps_per_second': 0.991, 'epoch': 3.73}
{'loss': 0.4898, 'learning_rate': 6.601840292589208e-06, 'epoch': 3.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4562174081802368, 'eval_runtime': 0.9968, 'eval_samples_per_second': 5.016, 'eval_steps_per_second': 1.003, 'epoch': 3.73}
{'loss': 0.5577, 'learning_rate': 6.593537861783768e-06, 'epoch': 3.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4616090059280396, 'eval_runtime': 0.9383, 'eval_samples_per_second': 5.329, 'eval_steps_per_second': 1.066, 'epoch': 3.73}
{'loss': 0.72, 'learning_rate': 6.585238086455503e-06, 'epoch': 3.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.463384985923767, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 3.74}
{'loss': 0.4063, 'learning_rate': 6.57694097307443e-06, 'epoch': 3.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4652775526046753, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 3.74}
{'loss': 0.7535, 'learning_rate': 6.568646528108486e-06, 'epoch': 3.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4672645330429077, 'eval_runtime': 1.01, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 3.74}
{'loss': 0.4079, 'learning_rate': 6.560354758023533e-06, 'epoch': 3.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4687507152557373, 'eval_runtime': 1.0081, 'eval_samples_per_second': 4.96, 'eval_steps_per_second': 0.992, 'epoch': 3.74}
{'loss': 0.7525, 'learning_rate': 6.552065669283351e-06, 'epoch': 3.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4677108526229858, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 3.74}
{'loss': 0.3931, 'learning_rate': 6.543779268349619e-06, 'epoch': 3.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4600192308425903, 'eval_runtime': 0.9789, 'eval_samples_per_second': 5.108, 'eval_steps_per_second': 1.022, 'epoch': 3.74}
{'loss': 0.5229, 'learning_rate': 6.535495561681928e-06, 'epoch': 3.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4563971757888794, 'eval_runtime': 0.9609, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 3.75}
{'loss': 0.7964, 'learning_rate': 6.527214555737771e-06, 'epoch': 3.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4526288509368896, 'eval_runtime': 0.9584, 'eval_samples_per_second': 5.217, 'eval_steps_per_second': 1.043, 'epoch': 3.75}
{'loss': 0.3882, 'learning_rate': 6.518936256972528e-06, 'epoch': 3.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4475300312042236, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 3.75}
{'loss': 0.5557, 'learning_rate': 6.510660671839475e-06, 'epoch': 3.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4324897527694702, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 3.75}
{'loss': 0.3373, 'learning_rate': 6.502387806789775e-06, 'epoch': 3.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4232845306396484, 'eval_runtime': 1.0232, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 3.75}
{'loss': 0.3906, 'learning_rate': 6.494117668272459e-06, 'epoch': 3.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4195481538772583, 'eval_runtime': 0.971, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 3.75}
{'loss': 0.5616, 'learning_rate': 6.485850262734441e-06, 'epoch': 3.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4160289764404297, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 3.76}
{'loss': 0.4304, 'learning_rate': 6.477585596620506e-06, 'epoch': 3.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.414499044418335, 'eval_runtime': 1.0474, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 3.76}
{'loss': 0.5709, 'learning_rate': 6.469323676373299e-06, 'epoch': 3.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.413586139678955, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 3.76}
{'loss': 0.6838, 'learning_rate': 6.461064508433327e-06, 'epoch': 3.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.405527114868164, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 3.76}
{'loss': 0.5086, 'learning_rate': 6.452808099238954e-06, 'epoch': 3.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3947302103042603, 'eval_runtime': 1.002, 'eval_samples_per_second': 4.99, 'eval_steps_per_second': 0.998, 'epoch': 3.76}
{'loss': 0.729, 'learning_rate': 6.444554455226383e-06, 'epoch': 3.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3881028890609741, 'eval_runtime': 1.0373, 'eval_samples_per_second': 4.82, 'eval_steps_per_second': 0.964, 'epoch': 3.76}
{'loss': 0.514, 'learning_rate': 6.4363035828296715e-06, 'epoch': 3.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3862292766571045, 'eval_runtime': 0.9479, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 3.77}
{'loss': 0.5176, 'learning_rate': 6.428055488480719e-06, 'epoch': 3.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.389775037765503, 'eval_runtime': 1.0479, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 3.77}
{'loss': 0.381, 'learning_rate': 6.419810178609245e-06, 'epoch': 3.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.392912745475769, 'eval_runtime': 0.9621, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 3.77}
{'loss': 0.832, 'learning_rate': 6.41156765964281e-06, 'epoch': 3.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3958497047424316, 'eval_runtime': 0.9865, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 3.77}
{'loss': 0.5383, 'learning_rate': 6.4033279380068005e-06, 'epoch': 3.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.396963119506836, 'eval_runtime': 0.9414, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 3.77}
{'loss': 0.5166, 'learning_rate': 6.395091020124413e-06, 'epoch': 3.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3992645740509033, 'eval_runtime': 0.9723, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 3.77}
{'loss': 0.5539, 'learning_rate': 6.386856912416666e-06, 'epoch': 3.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4010640382766724, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 3.77}
{'loss': 0.3682, 'learning_rate': 6.378625621302386e-06, 'epoch': 3.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.404275894165039, 'eval_runtime': 0.974, 'eval_samples_per_second': 5.133, 'eval_steps_per_second': 1.027, 'epoch': 3.78}
{'loss': 0.683, 'learning_rate': 6.370397153198198e-06, 'epoch': 3.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4093704223632812, 'eval_runtime': 0.9652, 'eval_samples_per_second': 5.18, 'eval_steps_per_second': 1.036, 'epoch': 3.78}
{'loss': 0.4213, 'learning_rate': 6.362171514518534e-06, 'epoch': 3.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4152579307556152, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 3.78}
{'loss': 0.5559, 'learning_rate': 6.353948711675617e-06, 'epoch': 3.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4185796976089478, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 3.78}
{'loss': 0.5195, 'learning_rate': 6.345728751079458e-06, 'epoch': 3.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181954860687256, 'eval_runtime': 0.9603, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 3.78}
{'loss': 0.518, 'learning_rate': 6.337511639137857e-06, 'epoch': 3.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4168193340301514, 'eval_runtime': 1.0259, 'eval_samples_per_second': 4.874, 'eval_steps_per_second': 0.975, 'epoch': 3.78}
{'loss': 0.599, 'learning_rate': 6.3292973822563915e-06, 'epoch': 3.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.414522647857666, 'eval_runtime': 1.0527, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 3.79}
{'loss': 0.4613, 'learning_rate': 6.321085986838405e-06, 'epoch': 3.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4106674194335938, 'eval_runtime': 0.9963, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 3.79}
{'loss': 0.4849, 'learning_rate': 6.312877459285023e-06, 'epoch': 3.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4051146507263184, 'eval_runtime': 0.9599, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 3.79}
{'loss': 0.4383, 'learning_rate': 6.304671805995132e-06, 'epoch': 3.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.399937629699707, 'eval_runtime': 1.0001, 'eval_samples_per_second': 5.0, 'eval_steps_per_second': 1.0, 'epoch': 3.79}
{'loss': 0.5349, 'learning_rate': 6.296469033365369e-06, 'epoch': 3.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3992894887924194, 'eval_runtime': 0.9708, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 3.79}
{'loss': 0.6363, 'learning_rate': 6.288269147790136e-06, 'epoch': 3.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3987685441970825, 'eval_runtime': 0.9901, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 3.79}
{'loss': 0.5463, 'learning_rate': 6.28007215566158e-06, 'epoch': 3.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.399579405784607, 'eval_runtime': 0.9407, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 3.8}
{'loss': 0.5883, 'learning_rate': 6.271878063369595e-06, 'epoch': 3.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4032169580459595, 'eval_runtime': 0.9783, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 3.8}
{'loss': 0.5372, 'learning_rate': 6.263686877301811e-06, 'epoch': 3.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4040966033935547, 'eval_runtime': 0.9431, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 3.8}
{'loss': 0.7277, 'learning_rate': 6.255498603843597e-06, 'epoch': 3.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4040700197219849, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 3.8}
{'loss': 0.4635, 'learning_rate': 6.247313249378042e-06, 'epoch': 3.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4043704271316528, 'eval_runtime': 1.0283, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 3.8}
{'loss': 0.5176, 'learning_rate': 6.23913082028597e-06, 'epoch': 3.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4040762186050415, 'eval_runtime': 0.9773, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 3.8}
{'loss': 0.5046, 'learning_rate': 6.230951322945922e-06, 'epoch': 3.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4037648439407349, 'eval_runtime': 0.9501, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 3.81}
{'loss': 0.4433, 'learning_rate': 6.22277476373415e-06, 'epoch': 3.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4022608995437622, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 3.81}
{'loss': 0.2852, 'learning_rate': 6.214601149024617e-06, 'epoch': 3.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4004348516464233, 'eval_runtime': 1.0287, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 3.81}
{'loss': 0.511, 'learning_rate': 6.206430485188997e-06, 'epoch': 3.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3981362581253052, 'eval_runtime': 0.9598, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 3.81}
{'loss': 0.4126, 'learning_rate': 6.198262778596651e-06, 'epoch': 3.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.396728754043579, 'eval_runtime': 1.0311, 'eval_samples_per_second': 4.849, 'eval_steps_per_second': 0.97, 'epoch': 3.81}
{'loss': 0.5993, 'learning_rate': 6.190098035614644e-06, 'epoch': 3.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3992270231246948, 'eval_runtime': 1.0507, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 3.81}
{'loss': 0.7279, 'learning_rate': 6.181936262607731e-06, 'epoch': 3.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4014925956726074, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 3.82}
{'loss': 0.5389, 'learning_rate': 6.173777465938349e-06, 'epoch': 3.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4029879570007324, 'eval_runtime': 1.0424, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 3.82}
{'loss': 0.5906, 'learning_rate': 6.165621651966611e-06, 'epoch': 3.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4042965173721313, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 3.82}
{'loss': 0.6231, 'learning_rate': 6.157468827050315e-06, 'epoch': 3.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4014471769332886, 'eval_runtime': 0.9668, 'eval_samples_per_second': 5.172, 'eval_steps_per_second': 1.034, 'epoch': 3.82}
{'loss': 0.834, 'learning_rate': 6.1493189975449165e-06, 'epoch': 3.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3993351459503174, 'eval_runtime': 1.0307, 'eval_samples_per_second': 4.851, 'eval_steps_per_second': 0.97, 'epoch': 3.82}
{'loss': 0.3909, 'learning_rate': 6.141172169803546e-06, 'epoch': 3.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3987245559692383, 'eval_runtime': 0.9443, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 3.82}
{'loss': 0.3918, 'learning_rate': 6.133028350176995e-06, 'epoch': 3.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3974460363388062, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 3.83}
{'loss': 0.5777, 'learning_rate': 6.124887545013696e-06, 'epoch': 3.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.3961122035980225, 'eval_runtime': 1.0582, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 3.83}
{'loss': 0.5184, 'learning_rate': 6.116749760659746e-06, 'epoch': 3.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.397804617881775, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 3.83}
{'loss': 0.6912, 'learning_rate': 6.108615003458882e-06, 'epoch': 3.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.401727557182312, 'eval_runtime': 0.938, 'eval_samples_per_second': 5.33, 'eval_steps_per_second': 1.066, 'epoch': 3.83}
{'loss': 0.5065, 'learning_rate': 6.1004832797524815e-06, 'epoch': 3.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4042285680770874, 'eval_runtime': 0.9771, 'eval_samples_per_second': 5.117, 'eval_steps_per_second': 1.023, 'epoch': 3.83}
{'loss': 0.6696, 'learning_rate': 6.092354595879557e-06, 'epoch': 3.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4059913158416748, 'eval_runtime': 0.9626, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 3.83}
{'loss': 0.3606, 'learning_rate': 6.084228958176754e-06, 'epoch': 3.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.407466173171997, 'eval_runtime': 0.9721, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 3.84}
{'loss': 0.5174, 'learning_rate': 6.076106372978336e-06, 'epoch': 3.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4098478555679321, 'eval_runtime': 0.9795, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 3.84}
{'loss': 0.5736, 'learning_rate': 6.067986846616192e-06, 'epoch': 3.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.409472107887268, 'eval_runtime': 0.9493, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 3.84}
{'loss': 0.5803, 'learning_rate': 6.0598703854198325e-06, 'epoch': 3.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4094796180725098, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 3.84}
{'loss': 0.705, 'learning_rate': 6.051756995716366e-06, 'epoch': 3.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4063060283660889, 'eval_runtime': 1.0133, 'eval_samples_per_second': 4.934, 'eval_steps_per_second': 0.987, 'epoch': 3.84}
{'loss': 0.6013, 'learning_rate': 6.043646683830515e-06, 'epoch': 3.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.40652596950531, 'eval_runtime': 0.9747, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 3.84}
{'loss': 0.5596, 'learning_rate': 6.035539456084606e-06, 'epoch': 3.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4092410802841187, 'eval_runtime': 0.989, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 3.85}
{'loss': 0.4653, 'learning_rate': 6.027435318798547e-06, 'epoch': 3.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.410893201828003, 'eval_runtime': 0.9479, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 3.85}
{'loss': 0.3983, 'learning_rate': 6.01933427828985e-06, 'epoch': 3.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4127683639526367, 'eval_runtime': 0.9897, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 3.85}
{'loss': 0.5911, 'learning_rate': 6.011236340873614e-06, 'epoch': 3.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4110536575317383, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 3.85}
{'loss': 0.4263, 'learning_rate': 6.003141512862505e-06, 'epoch': 3.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4086732864379883, 'eval_runtime': 0.965, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 3.85}
{'loss': 0.5295, 'learning_rate': 5.9950498005667764e-06, 'epoch': 3.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4073641300201416, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 3.85}
{'loss': 0.4828, 'learning_rate': 5.986961210294257e-06, 'epoch': 3.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4065896272659302, 'eval_runtime': 0.9953, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 3.86}
{'loss': 0.4777, 'learning_rate': 5.978875748350325e-06, 'epoch': 3.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4060035943984985, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 3.86}
{'loss': 0.7009, 'learning_rate': 5.970793421037937e-06, 'epoch': 3.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4059529304504395, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 3.86}
{'loss': 0.5266, 'learning_rate': 5.962714234657603e-06, 'epoch': 3.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.405809998512268, 'eval_runtime': 1.0427, 'eval_samples_per_second': 4.795, 'eval_steps_per_second': 0.959, 'epoch': 3.86}
{'loss': 0.5669, 'learning_rate': 5.954638195507369e-06, 'epoch': 3.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4074634313583374, 'eval_runtime': 1.0394, 'eval_samples_per_second': 4.811, 'eval_steps_per_second': 0.962, 'epoch': 3.86}
{'loss': 0.5137, 'learning_rate': 5.946565309882846e-06, 'epoch': 3.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4092141389846802, 'eval_runtime': 0.9503, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 3.86}
{'loss': 0.6081, 'learning_rate': 5.938495584077182e-06, 'epoch': 3.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4111442565917969, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 3.86}
{'loss': 0.4593, 'learning_rate': 5.930429024381053e-06, 'epoch': 3.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4117355346679688, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 3.87}
{'loss': 0.7408, 'learning_rate': 5.922365637082681e-06, 'epoch': 3.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4111377000808716, 'eval_runtime': 0.9841, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 3.87}
{'loss': 0.4304, 'learning_rate': 5.914305428467806e-06, 'epoch': 3.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.413569688796997, 'eval_runtime': 0.9491, 'eval_samples_per_second': 5.268, 'eval_steps_per_second': 1.054, 'epoch': 3.87}
{'loss': 0.4426, 'learning_rate': 5.9062484048196875e-06, 'epoch': 3.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4147050380706787, 'eval_runtime': 0.9912, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 3.87}
{'loss': 0.4683, 'learning_rate': 5.898194572419109e-06, 'epoch': 3.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4156121015548706, 'eval_runtime': 0.9797, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 3.87}
{'loss': 0.3899, 'learning_rate': 5.890143937544368e-06, 'epoch': 3.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181288480758667, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 3.87}
{'loss': 0.4264, 'learning_rate': 5.882096506471257e-06, 'epoch': 3.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4205832481384277, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 3.88}
{'loss': 0.5776, 'learning_rate': 5.874052285473082e-06, 'epoch': 3.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4225082397460938, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 3.88}
{'loss': 0.4632, 'learning_rate': 5.866011280820648e-06, 'epoch': 3.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4242085218429565, 'eval_runtime': 0.9659, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 3.88}
{'loss': 0.6133, 'learning_rate': 5.857973498782243e-06, 'epoch': 3.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4124624729156494, 'eval_runtime': 1.0305, 'eval_samples_per_second': 4.852, 'eval_steps_per_second': 0.97, 'epoch': 3.88}
{'loss': 0.4438, 'learning_rate': 5.84993894562365e-06, 'epoch': 3.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4093353748321533, 'eval_runtime': 0.9613, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 3.88}
{'loss': 0.4816, 'learning_rate': 5.841907627608139e-06, 'epoch': 3.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.408764362335205, 'eval_runtime': 1.0109, 'eval_samples_per_second': 4.946, 'eval_steps_per_second': 0.989, 'epoch': 3.88}
{'loss': 0.4787, 'learning_rate': 5.833879550996442e-06, 'epoch': 3.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.407562017440796, 'eval_runtime': 0.9378, 'eval_samples_per_second': 5.332, 'eval_steps_per_second': 1.066, 'epoch': 3.89}
{'loss': 0.5388, 'learning_rate': 5.825854722046778e-06, 'epoch': 3.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4087343215942383, 'eval_runtime': 0.9758, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 3.89}
{'loss': 0.434, 'learning_rate': 5.81783314701484e-06, 'epoch': 3.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4113816022872925, 'eval_runtime': 0.9699, 'eval_samples_per_second': 5.155, 'eval_steps_per_second': 1.031, 'epoch': 3.89}
{'loss': 0.4828, 'learning_rate': 5.8098148321537605e-06, 'epoch': 3.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4131579399108887, 'eval_runtime': 0.9697, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 3.89}
{'loss': 0.4536, 'learning_rate': 5.801799783714157e-06, 'epoch': 3.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.414137840270996, 'eval_runtime': 0.9512, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 3.89}
{'loss': 0.4408, 'learning_rate': 5.793788007944083e-06, 'epoch': 3.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4140491485595703, 'eval_runtime': 1.0339, 'eval_samples_per_second': 4.836, 'eval_steps_per_second': 0.967, 'epoch': 3.89}
{'loss': 0.6243, 'learning_rate': 5.785779511089045e-06, 'epoch': 3.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.414807677268982, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 3.9}
{'loss': 0.7541, 'learning_rate': 5.777774299392003e-06, 'epoch': 3.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4124755859375, 'eval_runtime': 0.985, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 3.9}
{'loss': 0.5169, 'learning_rate': 5.769772379093343e-06, 'epoch': 3.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4093836545944214, 'eval_runtime': 0.9997, 'eval_samples_per_second': 5.002, 'eval_steps_per_second': 1.0, 'epoch': 3.9}
{'loss': 0.4484, 'learning_rate': 5.761773756430893e-06, 'epoch': 3.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.408956527709961, 'eval_runtime': 1.0443, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 3.9}
{'loss': 0.2968, 'learning_rate': 5.753778437639903e-06, 'epoch': 3.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.413057565689087, 'eval_runtime': 0.9456, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 3.9}
{'loss': 0.566, 'learning_rate': 5.745786428953063e-06, 'epoch': 3.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4169443845748901, 'eval_runtime': 0.9874, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 3.9}
{'loss': 0.4855, 'learning_rate': 5.737797736600456e-06, 'epoch': 3.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420393943786621, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 3.91}
{'loss': 0.6223, 'learning_rate': 5.729812366809612e-06, 'epoch': 3.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4217453002929688, 'eval_runtime': 1.0204, 'eval_samples_per_second': 4.9, 'eval_steps_per_second': 0.98, 'epoch': 3.91}
{'loss': 0.6431, 'learning_rate': 5.721830325805447e-06, 'epoch': 3.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4212303161621094, 'eval_runtime': 1.046, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 3.91}
{'loss': 0.6831, 'learning_rate': 5.713851619810285e-06, 'epoch': 3.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420231819152832, 'eval_runtime': 1.0242, 'eval_samples_per_second': 4.882, 'eval_steps_per_second': 0.976, 'epoch': 3.91}
{'loss': 0.4512, 'learning_rate': 5.705876255043865e-06, 'epoch': 3.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4171454906463623, 'eval_runtime': 0.9954, 'eval_samples_per_second': 5.023, 'eval_steps_per_second': 1.005, 'epoch': 3.91}
{'loss': 0.4695, 'learning_rate': 5.697904237723309e-06, 'epoch': 3.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.412295937538147, 'eval_runtime': 1.004, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 3.91}
{'loss': 0.494, 'learning_rate': 5.689935574063128e-06, 'epoch': 3.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.409712314605713, 'eval_runtime': 1.0413, 'eval_samples_per_second': 4.802, 'eval_steps_per_second': 0.96, 'epoch': 3.92}
{'loss': 0.5485, 'learning_rate': 5.681970270275222e-06, 'epoch': 3.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4087045192718506, 'eval_runtime': 0.997, 'eval_samples_per_second': 5.015, 'eval_steps_per_second': 1.003, 'epoch': 3.92}
{'loss': 0.5583, 'learning_rate': 5.674008332568879e-06, 'epoch': 3.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4056442975997925, 'eval_runtime': 0.9573, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 3.92}
{'loss': 0.744, 'learning_rate': 5.666049767150754e-06, 'epoch': 3.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4047951698303223, 'eval_runtime': 0.9914, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 3.92}
{'loss': 0.5745, 'learning_rate': 5.658094580224869e-06, 'epoch': 3.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4057488441467285, 'eval_runtime': 0.9583, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 3.92}
{'loss': 0.4412, 'learning_rate': 5.650142777992633e-06, 'epoch': 3.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4056960344314575, 'eval_runtime': 1.0256, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 3.92}
{'loss': 0.8875, 'learning_rate': 5.642194366652786e-06, 'epoch': 3.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4069178104400635, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 3.93}
{'loss': 0.4372, 'learning_rate': 5.634249352401455e-06, 'epoch': 3.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4072070121765137, 'eval_runtime': 1.0271, 'eval_samples_per_second': 4.868, 'eval_steps_per_second': 0.974, 'epoch': 3.93}
{'loss': 0.5838, 'learning_rate': 5.626307741432098e-06, 'epoch': 3.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4087146520614624, 'eval_runtime': 0.9442, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 3.93}
{'loss': 0.4237, 'learning_rate': 5.618369539935524e-06, 'epoch': 3.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4127578735351562, 'eval_runtime': 0.9841, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 3.93}
{'loss': 0.4567, 'learning_rate': 5.610434754099896e-06, 'epoch': 3.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4158580303192139, 'eval_runtime': 0.9502, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 3.93}
{'loss': 0.5963, 'learning_rate': 5.6025033901107e-06, 'epoch': 3.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4170689582824707, 'eval_runtime': 0.9658, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 3.93}
{'loss': 0.5773, 'learning_rate': 5.594575454150762e-06, 'epoch': 3.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4182958602905273, 'eval_runtime': 0.9766, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 3.94}
{'loss': 0.7052, 'learning_rate': 5.586650952400229e-06, 'epoch': 3.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4206808805465698, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 3.94}
{'loss': 0.4713, 'learning_rate': 5.578729891036587e-06, 'epoch': 3.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4273983240127563, 'eval_runtime': 0.9862, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 3.94}
{'loss': 0.4233, 'learning_rate': 5.570812276234611e-06, 'epoch': 3.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4332257509231567, 'eval_runtime': 0.9922, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 3.94}
{'loss': 0.4189, 'learning_rate': 5.562898114166424e-06, 'epoch': 3.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4344693422317505, 'eval_runtime': 0.939, 'eval_samples_per_second': 5.325, 'eval_steps_per_second': 1.065, 'epoch': 3.94}
{'loss': 0.5642, 'learning_rate': 5.5549874110014335e-06, 'epoch': 3.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4327261447906494, 'eval_runtime': 1.0247, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 3.94}
{'loss': 0.5078, 'learning_rate': 5.547080172906353e-06, 'epoch': 3.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4320902824401855, 'eval_runtime': 0.9763, 'eval_samples_per_second': 5.121, 'eval_steps_per_second': 1.024, 'epoch': 3.95}
{'loss': 0.522, 'learning_rate': 5.539176406045208e-06, 'epoch': 3.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4303791522979736, 'eval_runtime': 1.0108, 'eval_samples_per_second': 4.947, 'eval_steps_per_second': 0.989, 'epoch': 3.95}
{'loss': 0.6046, 'learning_rate': 5.531276116579305e-06, 'epoch': 3.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4283579587936401, 'eval_runtime': 0.981, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 3.95}
{'loss': 0.4786, 'learning_rate': 5.523379310667245e-06, 'epoch': 3.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4288758039474487, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 3.95}
{'loss': 0.5707, 'learning_rate': 5.515485994464908e-06, 'epoch': 3.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4285438060760498, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 3.95}
{'loss': 0.4358, 'learning_rate': 5.507596174125468e-06, 'epoch': 3.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.428287386894226, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 3.95}
{'loss': 0.6317, 'learning_rate': 5.499709855799358e-06, 'epoch': 3.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4277113676071167, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 3.95}
{'loss': 0.7214, 'learning_rate': 5.491827045634284e-06, 'epoch': 3.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4251818656921387, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 3.96}
{'loss': 0.685, 'learning_rate': 5.483947749775231e-06, 'epoch': 3.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4233125448226929, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 3.96}
{'loss': 0.4025, 'learning_rate': 5.47607197436442e-06, 'epoch': 3.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4235098361968994, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 3.96}
{'loss': 0.7289, 'learning_rate': 5.4681997255413525e-06, 'epoch': 3.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4239150285720825, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 3.96}
{'loss': 0.5875, 'learning_rate': 5.460331009442764e-06, 'epoch': 3.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4250844717025757, 'eval_runtime': 1.0248, 'eval_samples_per_second': 4.879, 'eval_steps_per_second': 0.976, 'epoch': 3.96}
{'loss': 0.4778, 'learning_rate': 5.452465832202645e-06, 'epoch': 3.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.425180435180664, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 3.96}
{'loss': 0.6288, 'learning_rate': 5.444604199952219e-06, 'epoch': 3.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.42411470413208, 'eval_runtime': 1.0487, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 3.97}
{'loss': 0.6521, 'learning_rate': 5.436746118819959e-06, 'epoch': 3.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4246331453323364, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 3.97}
{'loss': 0.7759, 'learning_rate': 5.428891594931558e-06, 'epoch': 3.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4248192310333252, 'eval_runtime': 0.958, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 3.97}
{'loss': 0.4743, 'learning_rate': 5.421040634409938e-06, 'epoch': 3.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4236748218536377, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 3.97}
{'loss': 0.7053, 'learning_rate': 5.413193243375253e-06, 'epoch': 3.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4187898635864258, 'eval_runtime': 0.9716, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 3.97}
{'loss': 0.5259, 'learning_rate': 5.405349427944855e-06, 'epoch': 3.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4151819944381714, 'eval_runtime': 1.0445, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 3.97}
{'loss': 0.476, 'learning_rate': 5.39750919423333e-06, 'epoch': 3.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4135733842849731, 'eval_runtime': 1.0049, 'eval_samples_per_second': 4.976, 'eval_steps_per_second': 0.995, 'epoch': 3.98}
{'loss': 0.6949, 'learning_rate': 5.389672548352458e-06, 'epoch': 3.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4113781452178955, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 3.98}
{'loss': 0.7049, 'learning_rate': 5.381839496411225e-06, 'epoch': 3.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4096683263778687, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 3.98}
{'loss': 0.4795, 'learning_rate': 5.374010044515823e-06, 'epoch': 3.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4097368717193604, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 3.98}
{'loss': 0.6373, 'learning_rate': 5.366184198769626e-06, 'epoch': 3.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4095017910003662, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 3.98}
{'loss': 0.4782, 'learning_rate': 5.358361965273205e-06, 'epoch': 3.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4088679552078247, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 3.98}
{'loss': 0.598, 'learning_rate': 5.350543350124305e-06, 'epoch': 3.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4081451892852783, 'eval_runtime': 0.943, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 3.99}
{'loss': 0.4338, 'learning_rate': 5.34272835941787e-06, 'epoch': 3.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4076341390609741, 'eval_runtime': 1.0279, 'eval_samples_per_second': 4.864, 'eval_steps_per_second': 0.973, 'epoch': 3.99}
{'loss': 0.5494, 'learning_rate': 5.334916999245998e-06, 'epoch': 3.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4091447591781616, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 3.99}
{'loss': 0.5467, 'learning_rate': 5.3271092756979645e-06, 'epoch': 3.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.41182279586792, 'eval_runtime': 0.9526, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 3.99}
{'loss': 0.5089, 'learning_rate': 5.319305194860221e-06, 'epoch': 3.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4128109216690063, 'eval_runtime': 1.0188, 'eval_samples_per_second': 4.908, 'eval_steps_per_second': 0.982, 'epoch': 3.99}
{'loss': 0.4241, 'learning_rate': 5.311504762816354e-06, 'epoch': 3.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.415086269378662, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 3.99}
{'loss': 0.4287, 'learning_rate': 5.303707985647132e-06, 'epoch': 4.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4168137311935425, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 4.0}
{'loss': 0.614, 'learning_rate': 5.295914869430459e-06, 'epoch': 4.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181232452392578, 'eval_runtime': 0.9648, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 4.0}
{'loss': 0.5992, 'learning_rate': 5.28812542024139e-06, 'epoch': 4.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4176080226898193, 'eval_runtime': 1.0156, 'eval_samples_per_second': 4.923, 'eval_steps_per_second': 0.985, 'epoch': 4.0}




{'loss': 0.6087, 'learning_rate': 5.280339644152115e-06, 'epoch': 4.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4175199270248413, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 4.0}
{'loss': 0.461, 'learning_rate': 5.2725575472319765e-06, 'epoch': 4.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4177639484405518, 'eval_runtime': 1.0487, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 4.0}
{'loss': 0.4121, 'learning_rate': 5.264779135547433e-06, 'epoch': 4.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.418809175491333, 'eval_runtime': 0.9864, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 4.0}
{'loss': 0.4818, 'learning_rate': 5.257004415162075e-06, 'epoch': 4.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423051357269287, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 4.01}
{'loss': 0.362, 'learning_rate': 5.2492333921366235e-06, 'epoch': 4.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4302810430526733, 'eval_runtime': 0.9545, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 4.01}
{'loss': 0.3395, 'learning_rate': 5.241466072528898e-06, 'epoch': 4.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4392739534378052, 'eval_runtime': 0.9414, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 4.01}
{'loss': 0.5572, 'learning_rate': 5.233702462393853e-06, 'epoch': 4.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4453303813934326, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 4.01}
{'loss': 0.4199, 'learning_rate': 5.2259425677835395e-06, 'epoch': 4.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4465724229812622, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 4.01}
{'loss': 0.6247, 'learning_rate': 5.218186394747109e-06, 'epoch': 4.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4448962211608887, 'eval_runtime': 0.9837, 'eval_samples_per_second': 5.083, 'eval_steps_per_second': 1.017, 'epoch': 4.01}
{'loss': 0.3456, 'learning_rate': 5.210433949330824e-06, 'epoch': 4.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4444892406463623, 'eval_runtime': 1.0079, 'eval_samples_per_second': 4.961, 'eval_steps_per_second': 0.992, 'epoch': 4.02}
{'loss': 0.4033, 'learning_rate': 5.202685237578034e-06, 'epoch': 4.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4444873332977295, 'eval_runtime': 1.0182, 'eval_samples_per_second': 4.911, 'eval_steps_per_second': 0.982, 'epoch': 4.02}
{'loss': 0.5412, 'learning_rate': 5.194940265529173e-06, 'epoch': 4.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444591760635376, 'eval_runtime': 0.9458, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 4.02}
{'loss': 0.4852, 'learning_rate': 5.187199039221764e-06, 'epoch': 4.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4423867464065552, 'eval_runtime': 1.0543, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 4.02}
{'loss': 0.263, 'learning_rate': 5.1794615646904225e-06, 'epoch': 4.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441255807876587, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 4.02}
{'loss': 0.3609, 'learning_rate': 5.171727847966811e-06, 'epoch': 4.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4422239065170288, 'eval_runtime': 0.9578, 'eval_samples_per_second': 5.221, 'eval_steps_per_second': 1.044, 'epoch': 4.02}
{'loss': 0.5901, 'learning_rate': 5.163997895079692e-06, 'epoch': 4.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4419898986816406, 'eval_runtime': 0.9517, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 4.03}
{'loss': 0.6328, 'learning_rate': 5.1562717120548775e-06, 'epoch': 4.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4392331838607788, 'eval_runtime': 0.9639, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 4.03}
{'loss': 0.4604, 'learning_rate': 5.14854930491524e-06, 'epoch': 4.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4374605417251587, 'eval_runtime': 1.056, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 4.03}
{'loss': 0.4187, 'learning_rate': 5.140830679680721e-06, 'epoch': 4.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439045786857605, 'eval_runtime': 0.9862, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 4.03}
{'loss': 0.4812, 'learning_rate': 5.133115842368304e-06, 'epoch': 4.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399431943893433, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 4.03}
{'loss': 0.2877, 'learning_rate': 5.125404798992019e-06, 'epoch': 4.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4432162046432495, 'eval_runtime': 1.0377, 'eval_samples_per_second': 4.819, 'eval_steps_per_second': 0.964, 'epoch': 4.03}
{'loss': 0.4707, 'learning_rate': 5.117697555562937e-06, 'epoch': 4.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4474263191223145, 'eval_runtime': 0.9381, 'eval_samples_per_second': 5.33, 'eval_steps_per_second': 1.066, 'epoch': 4.04}
{'loss': 0.4502, 'learning_rate': 5.109994118089181e-06, 'epoch': 4.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4505304098129272, 'eval_runtime': 0.9932, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 4.04}
{'loss': 0.4731, 'learning_rate': 5.102294492575892e-06, 'epoch': 4.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4527891874313354, 'eval_runtime': 0.9663, 'eval_samples_per_second': 5.174, 'eval_steps_per_second': 1.035, 'epoch': 4.04}
{'loss': 0.3357, 'learning_rate': 5.09459868502524e-06, 'epoch': 4.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4547817707061768, 'eval_runtime': 0.9489, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 4.04}
{'loss': 0.4651, 'learning_rate': 5.086906701436436e-06, 'epoch': 4.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4556548595428467, 'eval_runtime': 1.0246, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 4.04}
{'loss': 0.4427, 'learning_rate': 5.07921854780568e-06, 'epoch': 4.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4564684629440308, 'eval_runtime': 0.9864, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 4.04}
{'loss': 0.441, 'learning_rate': 5.071534230126216e-06, 'epoch': 4.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4581835269927979, 'eval_runtime': 1.0037, 'eval_samples_per_second': 4.982, 'eval_steps_per_second': 0.996, 'epoch': 4.04}
{'loss': 0.2295, 'learning_rate': 5.063853754388281e-06, 'epoch': 4.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.461722731590271, 'eval_runtime': 1.0077, 'eval_samples_per_second': 4.962, 'eval_steps_per_second': 0.992, 'epoch': 4.05}
{'loss': 0.3209, 'learning_rate': 5.056177126579118e-06, 'epoch': 4.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4618641138076782, 'eval_runtime': 0.9407, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 4.05}
{'loss': 0.3639, 'learning_rate': 5.048504352682983e-06, 'epoch': 4.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.461816668510437, 'eval_runtime': 1.0402, 'eval_samples_per_second': 4.807, 'eval_steps_per_second': 0.961, 'epoch': 4.05}
{'loss': 0.3224, 'learning_rate': 5.040835438681111e-06, 'epoch': 4.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4630733728408813, 'eval_runtime': 1.0155, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 4.05}
{'loss': 0.3282, 'learning_rate': 5.0331703905517385e-06, 'epoch': 4.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4648628234863281, 'eval_runtime': 0.9442, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 4.05}
{'loss': 0.4739, 'learning_rate': 5.025509214270081e-06, 'epoch': 4.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.467464804649353, 'eval_runtime': 0.9969, 'eval_samples_per_second': 5.016, 'eval_steps_per_second': 1.003, 'epoch': 4.05}
{'loss': 0.398, 'learning_rate': 5.01785191580835e-06, 'epoch': 4.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.468862771987915, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 4.06}
{'loss': 0.4135, 'learning_rate': 5.01019850113571e-06, 'epoch': 4.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4704806804656982, 'eval_runtime': 1.0119, 'eval_samples_per_second': 4.941, 'eval_steps_per_second': 0.988, 'epoch': 4.06}
{'loss': 0.4335, 'learning_rate': 5.002548976218326e-06, 'epoch': 4.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4698331356048584, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 4.06}
{'loss': 0.3366, 'learning_rate': 4.994903347019309e-06, 'epoch': 4.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4688493013381958, 'eval_runtime': 1.0312, 'eval_samples_per_second': 4.849, 'eval_steps_per_second': 0.97, 'epoch': 4.06}
{'loss': 0.4314, 'learning_rate': 4.987261619498739e-06, 'epoch': 4.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4685254096984863, 'eval_runtime': 0.9924, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 4.06}
{'loss': 0.3473, 'learning_rate': 4.9796237996136645e-06, 'epoch': 4.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4650958776474, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 4.06}
{'loss': 0.3604, 'learning_rate': 4.971989893318076e-06, 'epoch': 4.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4626221656799316, 'eval_runtime': 0.961, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 4.07}
{'loss': 0.5628, 'learning_rate': 4.964359906562916e-06, 'epoch': 4.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4601941108703613, 'eval_runtime': 0.9739, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 4.07}
{'loss': 0.3881, 'learning_rate': 4.95673384529607e-06, 'epoch': 4.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4591948986053467, 'eval_runtime': 0.9768, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 4.07}
{'loss': 0.4412, 'learning_rate': 4.949111715462373e-06, 'epoch': 4.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4581668376922607, 'eval_runtime': 1.0071, 'eval_samples_per_second': 4.965, 'eval_steps_per_second': 0.993, 'epoch': 4.07}
{'loss': 0.4474, 'learning_rate': 4.941493523003585e-06, 'epoch': 4.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4599254131317139, 'eval_runtime': 1.0191, 'eval_samples_per_second': 4.906, 'eval_steps_per_second': 0.981, 'epoch': 4.07}
{'loss': 0.3427, 'learning_rate': 4.9338792738583976e-06, 'epoch': 4.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4604414701461792, 'eval_runtime': 0.9761, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 4.07}
{'loss': 0.2911, 'learning_rate': 4.926268973962438e-06, 'epoch': 4.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.462437391281128, 'eval_runtime': 0.9708, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 4.08}
{'loss': 0.4818, 'learning_rate': 4.9186626292482364e-06, 'epoch': 4.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4643290042877197, 'eval_runtime': 1.0325, 'eval_samples_per_second': 4.842, 'eval_steps_per_second': 0.968, 'epoch': 4.08}
{'loss': 0.4333, 'learning_rate': 4.91106024564526e-06, 'epoch': 4.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4638428688049316, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 4.08}
{'loss': 0.4447, 'learning_rate': 4.903461829079878e-06, 'epoch': 4.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4624202251434326, 'eval_runtime': 0.939, 'eval_samples_per_second': 5.325, 'eval_steps_per_second': 1.065, 'epoch': 4.08}
{'loss': 0.582, 'learning_rate': 4.895867385475365e-06, 'epoch': 4.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4620361328125, 'eval_runtime': 0.9602, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 4.08}
{'loss': 0.2833, 'learning_rate': 4.8882769207519e-06, 'epoch': 4.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4591182470321655, 'eval_runtime': 0.9672, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 4.08}
{'loss': 0.4165, 'learning_rate': 4.880690440826568e-06, 'epoch': 4.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4564449787139893, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 4.09}
{'loss': 0.3691, 'learning_rate': 4.8731079516133405e-06, 'epoch': 4.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4554991722106934, 'eval_runtime': 1.0214, 'eval_samples_per_second': 4.895, 'eval_steps_per_second': 0.979, 'epoch': 4.09}
{'loss': 0.4377, 'learning_rate': 4.865529459023074e-06, 'epoch': 4.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4521455764770508, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 4.09}
{'loss': 0.4369, 'learning_rate': 4.857954968963526e-06, 'epoch': 4.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4520745277404785, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 4.09}
{'loss': 0.4894, 'learning_rate': 4.850384487339308e-06, 'epoch': 4.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4516615867614746, 'eval_runtime': 0.9962, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 4.09}
{'loss': 0.3778, 'learning_rate': 4.842818020051933e-06, 'epoch': 4.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.451050043106079, 'eval_runtime': 1.031, 'eval_samples_per_second': 4.85, 'eval_steps_per_second': 0.97, 'epoch': 4.09}
{'loss': 0.535, 'learning_rate': 4.835255572999768e-06, 'epoch': 4.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4516305923461914, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 4.1}
{'loss': 0.3896, 'learning_rate': 4.827697152078048e-06, 'epoch': 4.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4516222476959229, 'eval_runtime': 1.0547, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 4.1}
{'loss': 0.4486, 'learning_rate': 4.820142763178881e-06, 'epoch': 4.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.453504204750061, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 4.1}
{'loss': 0.3519, 'learning_rate': 4.81259241219122e-06, 'epoch': 4.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4554334878921509, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 4.1}
{'loss': 0.343, 'learning_rate': 4.805046105000872e-06, 'epoch': 4.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.455867886543274, 'eval_runtime': 1.043, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 4.1}
{'loss': 0.4547, 'learning_rate': 4.79750384749049e-06, 'epoch': 4.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4556868076324463, 'eval_runtime': 0.9758, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 4.1}
{'loss': 0.2665, 'learning_rate': 4.7899656455395825e-06, 'epoch': 4.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4554840326309204, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 4.11}
{'loss': 0.2804, 'learning_rate': 4.782431505024483e-06, 'epoch': 4.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4557939767837524, 'eval_runtime': 1.0297, 'eval_samples_per_second': 4.856, 'eval_steps_per_second': 0.971, 'epoch': 4.11}
{'loss': 0.4664, 'learning_rate': 4.7749014318183605e-06, 'epoch': 4.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4556647539138794, 'eval_runtime': 0.9628, 'eval_samples_per_second': 5.193, 'eval_steps_per_second': 1.039, 'epoch': 4.11}
{'loss': 0.335, 'learning_rate': 4.767375431791226e-06, 'epoch': 4.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.456769585609436, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 4.11}
{'loss': 0.5144, 'learning_rate': 4.759853510809892e-06, 'epoch': 4.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4590433835983276, 'eval_runtime': 1.0132, 'eval_samples_per_second': 4.935, 'eval_steps_per_second': 0.987, 'epoch': 4.11}
{'loss': 0.6133, 'learning_rate': 4.752335674738015e-06, 'epoch': 4.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4618144035339355, 'eval_runtime': 0.9975, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 4.11}
{'loss': 0.41, 'learning_rate': 4.744821929436055e-06, 'epoch': 4.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4655661582946777, 'eval_runtime': 0.9676, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 4.12}
{'loss': 0.4162, 'learning_rate': 4.737312280761284e-06, 'epoch': 4.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4665312767028809, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 4.12}
{'loss': 0.4522, 'learning_rate': 4.729806734567778e-06, 'epoch': 4.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4670121669769287, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.792, 'eval_steps_per_second': 0.958, 'epoch': 4.12}
{'loss': 0.3459, 'learning_rate': 4.7223052967064266e-06, 'epoch': 4.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4688091278076172, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 4.12}
{'loss': 0.5589, 'learning_rate': 4.714807973024904e-06, 'epoch': 4.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4700192213058472, 'eval_runtime': 0.973, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 4.12}
{'loss': 0.3945, 'learning_rate': 4.707314769367679e-06, 'epoch': 4.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4710458517074585, 'eval_runtime': 1.0101, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 4.12}
{'loss': 0.3499, 'learning_rate': 4.6998256915760235e-06, 'epoch': 4.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4726083278656006, 'eval_runtime': 0.9652, 'eval_samples_per_second': 5.18, 'eval_steps_per_second': 1.036, 'epoch': 4.12}
{'loss': 0.4739, 'learning_rate': 4.6923407454879645e-06, 'epoch': 4.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4726966619491577, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 4.13}
{'loss': 0.4337, 'learning_rate': 4.684859936938337e-06, 'epoch': 4.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.471825122833252, 'eval_runtime': 0.9385, 'eval_samples_per_second': 5.328, 'eval_steps_per_second': 1.066, 'epoch': 4.13}
{'loss': 0.3659, 'learning_rate': 4.677383271758736e-06, 'epoch': 4.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4716100692749023, 'eval_runtime': 0.9686, 'eval_samples_per_second': 5.162, 'eval_steps_per_second': 1.032, 'epoch': 4.13}
{'loss': 0.5474, 'learning_rate': 4.669910755777525e-06, 'epoch': 4.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4712666273117065, 'eval_runtime': 0.9849, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 4.13}
{'loss': 0.523, 'learning_rate': 4.662442394819844e-06, 'epoch': 4.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4657378196716309, 'eval_runtime': 0.9707, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 4.13}
{'loss': 0.2935, 'learning_rate': 4.654978194707583e-06, 'epoch': 4.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4626489877700806, 'eval_runtime': 0.9499, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 4.13}
{'loss': 0.4631, 'learning_rate': 4.647518161259394e-06, 'epoch': 4.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.460296630859375, 'eval_runtime': 0.9532, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 4.14}
{'loss': 0.3391, 'learning_rate': 4.6400623002906745e-06, 'epoch': 4.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4601668119430542, 'eval_runtime': 1.0046, 'eval_samples_per_second': 4.977, 'eval_steps_per_second': 0.995, 'epoch': 4.14}
{'loss': 0.592, 'learning_rate': 4.632610617613587e-06, 'epoch': 4.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4568153619766235, 'eval_runtime': 1.004, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 4.14}
{'loss': 0.4383, 'learning_rate': 4.625163119037007e-06, 'epoch': 4.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4554764032363892, 'eval_runtime': 1.0488, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 4.14}
{'loss': 0.3035, 'learning_rate': 4.617719810366578e-06, 'epoch': 4.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4522268772125244, 'eval_runtime': 0.9719, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 4.14}
{'loss': 0.3467, 'learning_rate': 4.6102806974046635e-06, 'epoch': 4.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4495441913604736, 'eval_runtime': 0.943, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 4.14}
{'loss': 0.3337, 'learning_rate': 4.60284578595035e-06, 'epoch': 4.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4495083093643188, 'eval_runtime': 0.9913, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 4.15}
{'loss': 0.4352, 'learning_rate': 4.595415081799467e-06, 'epoch': 4.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.451406478881836, 'eval_runtime': 1.0034, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 4.15}
{'loss': 0.3867, 'learning_rate': 4.587988590744547e-06, 'epoch': 4.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.458946943283081, 'eval_runtime': 1.0012, 'eval_samples_per_second': 4.994, 'eval_steps_per_second': 0.999, 'epoch': 4.15}
{'loss': 0.6618, 'learning_rate': 4.580566318574848e-06, 'epoch': 4.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4633458852767944, 'eval_runtime': 0.9753, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 4.15}
{'loss': 0.5796, 'learning_rate': 4.573148271076331e-06, 'epoch': 4.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4646297693252563, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 4.15}
{'loss': 0.4887, 'learning_rate': 4.565734454031675e-06, 'epoch': 4.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4630117416381836, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 4.15}
{'loss': 0.2649, 'learning_rate': 4.558324873220252e-06, 'epoch': 4.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4596991539001465, 'eval_runtime': 1.0136, 'eval_samples_per_second': 4.933, 'eval_steps_per_second': 0.987, 'epoch': 4.16}
{'loss': 0.2751, 'learning_rate': 4.5509195344181326e-06, 'epoch': 4.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4574717283248901, 'eval_runtime': 0.965, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 4.16}
{'loss': 0.4385, 'learning_rate': 4.543518443398091e-06, 'epoch': 4.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4563205242156982, 'eval_runtime': 0.9428, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 4.16}
{'loss': 0.3366, 'learning_rate': 4.536121605929569e-06, 'epoch': 4.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4578748941421509, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 4.16}
{'loss': 0.3859, 'learning_rate': 4.5287290277787145e-06, 'epoch': 4.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4568684101104736, 'eval_runtime': 1.056, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 4.16}
{'loss': 0.4228, 'learning_rate': 4.5213407147083435e-06, 'epoch': 4.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4482659101486206, 'eval_runtime': 0.9796, 'eval_samples_per_second': 5.104, 'eval_steps_per_second': 1.021, 'epoch': 4.16}
{'loss': 0.3864, 'learning_rate': 4.513956672477946e-06, 'epoch': 4.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4415258169174194, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 4.17}
{'loss': 0.4, 'learning_rate': 4.506576906843692e-06, 'epoch': 4.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4380863904953003, 'eval_runtime': 0.9536, 'eval_samples_per_second': 5.243, 'eval_steps_per_second': 1.049, 'epoch': 4.17}
{'loss': 0.4049, 'learning_rate': 4.499201423558411e-06, 'epoch': 4.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.435792088508606, 'eval_runtime': 1.0609, 'eval_samples_per_second': 4.713, 'eval_steps_per_second': 0.943, 'epoch': 4.17}
{'loss': 0.4119, 'learning_rate': 4.491830228371593e-06, 'epoch': 4.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.433837652206421, 'eval_runtime': 1.0527, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 4.17}
{'loss': 0.3741, 'learning_rate': 4.484463327029385e-06, 'epoch': 4.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4327694177627563, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 4.17}
{'loss': 0.2797, 'learning_rate': 4.4771007252745995e-06, 'epoch': 4.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.433882236480713, 'eval_runtime': 1.0408, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 4.17}
{'loss': 0.3567, 'learning_rate': 4.469742428846672e-06, 'epoch': 4.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.435642957687378, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 4.18}
{'loss': 0.4547, 'learning_rate': 4.462388443481709e-06, 'epoch': 4.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4375869035720825, 'eval_runtime': 1.0497, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 4.18}
{'loss': 0.2372, 'learning_rate': 4.455038774912439e-06, 'epoch': 4.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4377665519714355, 'eval_runtime': 1.0463, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 4.18}
{'loss': 0.4148, 'learning_rate': 4.447693428868228e-06, 'epoch': 4.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438847541809082, 'eval_runtime': 1.0147, 'eval_samples_per_second': 4.928, 'eval_steps_per_second': 0.986, 'epoch': 4.18}
{'loss': 0.4369, 'learning_rate': 4.440352411075083e-06, 'epoch': 4.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439442753791809, 'eval_runtime': 0.966, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 4.18}
{'loss': 0.3805, 'learning_rate': 4.433015727255624e-06, 'epoch': 4.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396755695343018, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 4.18}
{'loss': 0.3879, 'learning_rate': 4.425683383129098e-06, 'epoch': 4.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396837949752808, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 4.19}
{'loss': 0.5242, 'learning_rate': 4.418355384411365e-06, 'epoch': 4.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396027326583862, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 4.19}
{'loss': 0.3891, 'learning_rate': 4.411031736814907e-06, 'epoch': 4.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4421334266662598, 'eval_runtime': 0.9572, 'eval_samples_per_second': 5.224, 'eval_steps_per_second': 1.045, 'epoch': 4.19}
{'loss': 0.39, 'learning_rate': 4.403712446048806e-06, 'epoch': 4.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4423011541366577, 'eval_runtime': 0.9551, 'eval_samples_per_second': 5.235, 'eval_steps_per_second': 1.047, 'epoch': 4.19}
{'loss': 0.333, 'learning_rate': 4.396397517818746e-06, 'epoch': 4.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4407480955123901, 'eval_runtime': 1.0231, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 4.19}
{'loss': 0.3748, 'learning_rate': 4.389086957827024e-06, 'epoch': 4.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4295588731765747, 'eval_runtime': 1.0274, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 4.19}
{'loss': 0.5077, 'learning_rate': 4.381780771772509e-06, 'epoch': 4.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4233262538909912, 'eval_runtime': 0.9823, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 4.2}
{'loss': 0.581, 'learning_rate': 4.374478965350683e-06, 'epoch': 4.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4195574522018433, 'eval_runtime': 0.9949, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 4.2}
{'loss': 0.4075, 'learning_rate': 4.367181544253599e-06, 'epoch': 4.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181544780731201, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 4.2}
{'loss': 0.4327, 'learning_rate': 4.359888514169899e-06, 'epoch': 4.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.418203592300415, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 4.2}
{'loss': 0.4668, 'learning_rate': 4.352599880784795e-06, 'epoch': 4.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4194656610488892, 'eval_runtime': 0.9796, 'eval_samples_per_second': 5.104, 'eval_steps_per_second': 1.021, 'epoch': 4.2}
{'loss': 0.5946, 'learning_rate': 4.345315649780083e-06, 'epoch': 4.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4224441051483154, 'eval_runtime': 0.9723, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 4.2}
{'loss': 0.4288, 'learning_rate': 4.338035826834117e-06, 'epoch': 4.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423892855644226, 'eval_runtime': 1.0114, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 4.21}
{'loss': 0.4306, 'learning_rate': 4.3307604176218145e-06, 'epoch': 4.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4246670007705688, 'eval_runtime': 0.948, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 4.21}
{'loss': 0.3677, 'learning_rate': 4.323489427814667e-06, 'epoch': 4.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4248958826065063, 'eval_runtime': 1.0585, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 4.21}
{'loss': 0.6106, 'learning_rate': 4.316222863080693e-06, 'epoch': 4.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.425421953201294, 'eval_runtime': 1.0039, 'eval_samples_per_second': 4.981, 'eval_steps_per_second': 0.996, 'epoch': 4.21}
{'loss': 0.4193, 'learning_rate': 4.308960729084492e-06, 'epoch': 4.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4258264303207397, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 4.21}
{'loss': 0.5166, 'learning_rate': 4.3017030314871925e-06, 'epoch': 4.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4249169826507568, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 4.21}
{'loss': 0.3436, 'learning_rate': 4.294449775946462e-06, 'epoch': 4.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4247771501541138, 'eval_runtime': 0.9619, 'eval_samples_per_second': 5.198, 'eval_steps_per_second': 1.04, 'epoch': 4.21}
{'loss': 0.3648, 'learning_rate': 4.287200968116519e-06, 'epoch': 4.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4233880043029785, 'eval_runtime': 0.9654, 'eval_samples_per_second': 5.179, 'eval_steps_per_second': 1.036, 'epoch': 4.22}
{'loss': 0.3769, 'learning_rate': 4.2799566136481045e-06, 'epoch': 4.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4221535921096802, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 4.22}
{'loss': 0.3433, 'learning_rate': 4.272716718188489e-06, 'epoch': 4.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4213939905166626, 'eval_runtime': 0.9617, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 4.22}
{'loss': 0.4889, 'learning_rate': 4.265481287381465e-06, 'epoch': 4.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4219510555267334, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 4.22}
{'loss': 0.4348, 'learning_rate': 4.25825032686736e-06, 'epoch': 4.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4236891269683838, 'eval_runtime': 1.0036, 'eval_samples_per_second': 4.982, 'eval_steps_per_second': 0.996, 'epoch': 4.22}
{'loss': 0.4946, 'learning_rate': 4.25102384228299e-06, 'epoch': 4.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4239445924758911, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 4.22}
{'loss': 0.4189, 'learning_rate': 4.243801839261706e-06, 'epoch': 4.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4241793155670166, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 4.23}
{'loss': 0.4311, 'learning_rate': 4.236584323433353e-06, 'epoch': 4.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423944115638733, 'eval_runtime': 0.9617, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 4.23}
{'loss': 0.4066, 'learning_rate': 4.229371300424279e-06, 'epoch': 4.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4243749380111694, 'eval_runtime': 1.0105, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 4.23}
{'loss': 0.3971, 'learning_rate': 4.222162775857338e-06, 'epoch': 4.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423734426498413, 'eval_runtime': 1.0375, 'eval_samples_per_second': 4.819, 'eval_steps_per_second': 0.964, 'epoch': 4.23}
{'loss': 0.4176, 'learning_rate': 4.214958755351867e-06, 'epoch': 4.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4238877296447754, 'eval_runtime': 1.0417, 'eval_samples_per_second': 4.8, 'eval_steps_per_second': 0.96, 'epoch': 4.23}
{'loss': 0.4514, 'learning_rate': 4.207759244523696e-06, 'epoch': 4.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4238919019699097, 'eval_runtime': 0.9851, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 4.23}
{'loss': 0.4039, 'learning_rate': 4.2005642489851366e-06, 'epoch': 4.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4232680797576904, 'eval_runtime': 0.9386, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 4.24}
{'loss': 0.4827, 'learning_rate': 4.19337377434499e-06, 'epoch': 4.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.424167275428772, 'eval_runtime': 0.9507, 'eval_samples_per_second': 5.259, 'eval_steps_per_second': 1.052, 'epoch': 4.24}
{'loss': 0.3242, 'learning_rate': 4.186187826208523e-06, 'epoch': 4.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4237810373306274, 'eval_runtime': 0.9613, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 4.24}
{'loss': 0.2406, 'learning_rate': 4.179006410177474e-06, 'epoch': 4.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4243849515914917, 'eval_runtime': 1.0553, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 4.24}
{'loss': 0.4581, 'learning_rate': 4.171829531850062e-06, 'epoch': 4.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4253195524215698, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 4.24}
{'loss': 0.2972, 'learning_rate': 4.164657196820945e-06, 'epoch': 4.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4269311428070068, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 4.24}
{'loss': 0.4233, 'learning_rate': 4.157489410681263e-06, 'epoch': 4.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4286742210388184, 'eval_runtime': 0.9395, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 4.25}
{'loss': 0.3386, 'learning_rate': 4.150326179018596e-06, 'epoch': 4.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4305492639541626, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 4.25}
{'loss': 0.5327, 'learning_rate': 4.143167507416974e-06, 'epoch': 4.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4316965341567993, 'eval_runtime': 1.0133, 'eval_samples_per_second': 4.934, 'eval_steps_per_second': 0.987, 'epoch': 4.25}
{'loss': 0.4388, 'learning_rate': 4.136013401456883e-06, 'epoch': 4.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4318257570266724, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 4.25}
{'loss': 0.549, 'learning_rate': 4.128863866715239e-06, 'epoch': 4.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4294735193252563, 'eval_runtime': 1.0334, 'eval_samples_per_second': 4.839, 'eval_steps_per_second': 0.968, 'epoch': 4.25}
{'loss': 0.4122, 'learning_rate': 4.121718908765398e-06, 'epoch': 4.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4267780780792236, 'eval_runtime': 0.9853, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 4.25}
{'loss': 0.3336, 'learning_rate': 4.114578533177143e-06, 'epoch': 4.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4247535467147827, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 4.26}
{'loss': 0.3468, 'learning_rate': 4.107442745516703e-06, 'epoch': 4.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4232407808303833, 'eval_runtime': 1.0009, 'eval_samples_per_second': 4.996, 'eval_steps_per_second': 0.999, 'epoch': 4.26}
{'loss': 0.3416, 'learning_rate': 4.100311551346703e-06, 'epoch': 4.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4241455793380737, 'eval_runtime': 0.9725, 'eval_samples_per_second': 5.141, 'eval_steps_per_second': 1.028, 'epoch': 4.26}
{'loss': 0.3392, 'learning_rate': 4.093184956226211e-06, 'epoch': 4.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4258358478546143, 'eval_runtime': 0.9726, 'eval_samples_per_second': 5.141, 'eval_steps_per_second': 1.028, 'epoch': 4.26}
{'loss': 0.3202, 'learning_rate': 4.086062965710699e-06, 'epoch': 4.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426822543144226, 'eval_runtime': 1.0068, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 4.26}
{'loss': 0.4051, 'learning_rate': 4.078945585352047e-06, 'epoch': 4.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4274414777755737, 'eval_runtime': 0.9748, 'eval_samples_per_second': 5.129, 'eval_steps_per_second': 1.026, 'epoch': 4.26}
{'loss': 0.3682, 'learning_rate': 4.071832820698551e-06, 'epoch': 4.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4288254976272583, 'eval_runtime': 1.0341, 'eval_samples_per_second': 4.835, 'eval_steps_per_second': 0.967, 'epoch': 4.27}
{'loss': 0.3291, 'learning_rate': 4.064724677294902e-06, 'epoch': 4.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4304289817810059, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 4.27}
{'loss': 0.3634, 'learning_rate': 4.057621160682189e-06, 'epoch': 4.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.433353304862976, 'eval_runtime': 0.9391, 'eval_samples_per_second': 5.324, 'eval_steps_per_second': 1.065, 'epoch': 4.27}
{'loss': 0.3472, 'learning_rate': 4.05052227639789e-06, 'epoch': 4.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.435085415840149, 'eval_runtime': 1.0471, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 4.27}
{'loss': 0.5595, 'learning_rate': 4.043428029975886e-06, 'epoch': 4.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4337921142578125, 'eval_runtime': 0.9929, 'eval_samples_per_second': 5.036, 'eval_steps_per_second': 1.007, 'epoch': 4.27}
{'loss': 0.3122, 'learning_rate': 4.03633842694643e-06, 'epoch': 4.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4329229593276978, 'eval_runtime': 1.0336, 'eval_samples_per_second': 4.838, 'eval_steps_per_second': 0.968, 'epoch': 4.27}
{'loss': 0.2932, 'learning_rate': 4.029253472836153e-06, 'epoch': 4.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4325971603393555, 'eval_runtime': 0.9471, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 4.28}
{'loss': 0.4711, 'learning_rate': 4.022173173168081e-06, 'epoch': 4.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4338018894195557, 'eval_runtime': 0.9529, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 4.28}
{'loss': 0.2706, 'learning_rate': 4.015097533461582e-06, 'epoch': 4.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4364871978759766, 'eval_runtime': 0.9983, 'eval_samples_per_second': 5.008, 'eval_steps_per_second': 1.002, 'epoch': 4.28}
{'loss': 0.3518, 'learning_rate': 4.008026559232421e-06, 'epoch': 4.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400107860565186, 'eval_runtime': 1.0169, 'eval_samples_per_second': 4.917, 'eval_steps_per_second': 0.983, 'epoch': 4.28}
{'loss': 0.3998, 'learning_rate': 4.000960255992706e-06, 'epoch': 4.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443784475326538, 'eval_runtime': 1.0269, 'eval_samples_per_second': 4.869, 'eval_steps_per_second': 0.974, 'epoch': 4.28}
{'loss': 0.5114, 'learning_rate': 3.993898629250914e-06, 'epoch': 4.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4486570358276367, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 4.28}
{'loss': 0.4289, 'learning_rate': 3.9868416845118685e-06, 'epoch': 4.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4490779638290405, 'eval_runtime': 0.9386, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 4.29}
{'loss': 0.4754, 'learning_rate': 3.979789427276753e-06, 'epoch': 4.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.447597622871399, 'eval_runtime': 0.949, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 4.29}
{'loss': 0.4186, 'learning_rate': 3.972741863043091e-06, 'epoch': 4.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4455510377883911, 'eval_runtime': 1.0524, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 4.29}
{'loss': 0.5008, 'learning_rate': 3.9656989973047435e-06, 'epoch': 4.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4432380199432373, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 4.29}
{'loss': 0.4222, 'learning_rate': 3.958660835551924e-06, 'epoch': 4.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442326307296753, 'eval_runtime': 0.9867, 'eval_samples_per_second': 5.067, 'eval_steps_per_second': 1.013, 'epoch': 4.29}
{'loss': 0.5349, 'learning_rate': 3.951627383271155e-06, 'epoch': 4.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4392695426940918, 'eval_runtime': 0.9875, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 4.29}
{'loss': 0.6834, 'learning_rate': 3.944598645945312e-06, 'epoch': 4.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4369888305664062, 'eval_runtime': 1.0198, 'eval_samples_per_second': 4.903, 'eval_steps_per_second': 0.981, 'epoch': 4.3}
{'loss': 0.507, 'learning_rate': 3.937574629053581e-06, 'epoch': 4.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4346201419830322, 'eval_runtime': 1.0215, 'eval_samples_per_second': 4.895, 'eval_steps_per_second': 0.979, 'epoch': 4.3}
{'loss': 0.3421, 'learning_rate': 3.930555338071468e-06, 'epoch': 4.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4328303337097168, 'eval_runtime': 0.9428, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 4.3}
{'loss': 0.4297, 'learning_rate': 3.923540778470806e-06, 'epoch': 4.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4320895671844482, 'eval_runtime': 1.0007, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 4.3}
{'loss': 0.4802, 'learning_rate': 3.916530955719728e-06, 'epoch': 4.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4297581911087036, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 4.3}
{'loss': 0.3808, 'learning_rate': 3.9095258752826815e-06, 'epoch': 4.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.427229404449463, 'eval_runtime': 0.9913, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 4.3}
{'loss': 0.4935, 'learning_rate': 3.902525542620407e-06, 'epoch': 4.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.424383282661438, 'eval_runtime': 0.9799, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 4.3}
{'loss': 0.417, 'learning_rate': 3.895529963189961e-06, 'epoch': 4.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.421757698059082, 'eval_runtime': 0.9798, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 4.31}
{'loss': 0.5235, 'learning_rate': 3.888539142444681e-06, 'epoch': 4.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4184998273849487, 'eval_runtime': 0.9989, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 4.31}
{'loss': 0.3851, 'learning_rate': 3.8815530858341955e-06, 'epoch': 4.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4161698818206787, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 4.31}
{'loss': 0.3741, 'learning_rate': 3.874571798804433e-06, 'epoch': 4.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4166756868362427, 'eval_runtime': 1.0413, 'eval_samples_per_second': 4.802, 'eval_steps_per_second': 0.96, 'epoch': 4.31}
{'loss': 0.5403, 'learning_rate': 3.86759528679758e-06, 'epoch': 4.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4194703102111816, 'eval_runtime': 1.0324, 'eval_samples_per_second': 4.843, 'eval_steps_per_second': 0.969, 'epoch': 4.31}
{'loss': 0.389, 'learning_rate': 3.8606235552521235e-06, 'epoch': 4.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4219485521316528, 'eval_runtime': 1.0279, 'eval_samples_per_second': 4.864, 'eval_steps_per_second': 0.973, 'epoch': 4.31}
{'loss': 0.4801, 'learning_rate': 3.853656609602812e-06, 'epoch': 4.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4245965480804443, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 4.32}
{'loss': 0.446, 'learning_rate': 3.846694455280665e-06, 'epoch': 4.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426100254058838, 'eval_runtime': 1.03, 'eval_samples_per_second': 4.854, 'eval_steps_per_second': 0.971, 'epoch': 4.32}
{'loss': 0.3976, 'learning_rate': 3.8397370977129655e-06, 'epoch': 4.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4281483888626099, 'eval_runtime': 1.0119, 'eval_samples_per_second': 4.941, 'eval_steps_per_second': 0.988, 'epoch': 4.32}
{'loss': 0.3529, 'learning_rate': 3.832784542323266e-06, 'epoch': 4.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4301434755325317, 'eval_runtime': 0.9522, 'eval_samples_per_second': 5.251, 'eval_steps_per_second': 1.05, 'epoch': 4.32}
{'loss': 0.4523, 'learning_rate': 3.825836794531366e-06, 'epoch': 4.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4308435916900635, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.291, 'eval_steps_per_second': 1.058, 'epoch': 4.32}
{'loss': 0.4826, 'learning_rate': 3.818893859753315e-06, 'epoch': 4.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.432031273841858, 'eval_runtime': 1.0185, 'eval_samples_per_second': 4.909, 'eval_steps_per_second': 0.982, 'epoch': 4.32}
{'loss': 0.4857, 'learning_rate': 3.81195574340143e-06, 'epoch': 4.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4328463077545166, 'eval_runtime': 0.9776, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 4.33}
{'loss': 0.4533, 'learning_rate': 3.8050224508842405e-06, 'epoch': 4.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.431139349937439, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 4.33}
{'loss': 0.4775, 'learning_rate': 3.7980939876065438e-06, 'epoch': 4.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4280521869659424, 'eval_runtime': 1.0079, 'eval_samples_per_second': 4.961, 'eval_steps_per_second': 0.992, 'epoch': 4.33}
{'loss': 0.445, 'learning_rate': 3.7911703589693594e-06, 'epoch': 4.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4276403188705444, 'eval_runtime': 1.058, 'eval_samples_per_second': 4.726, 'eval_steps_per_second': 0.945, 'epoch': 4.33}
{'loss': 0.4002, 'learning_rate': 3.7842515703699347e-06, 'epoch': 4.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4277276992797852, 'eval_runtime': 0.9688, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 4.33}
{'loss': 0.6016, 'learning_rate': 3.777337627201759e-06, 'epoch': 4.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.431005597114563, 'eval_runtime': 0.9682, 'eval_samples_per_second': 5.164, 'eval_steps_per_second': 1.033, 'epoch': 4.33}
{'loss': 0.4124, 'learning_rate': 3.77042853485453e-06, 'epoch': 4.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4337958097457886, 'eval_runtime': 1.0332, 'eval_samples_per_second': 4.839, 'eval_steps_per_second': 0.968, 'epoch': 4.34}
{'loss': 0.2919, 'learning_rate': 3.7635242987141706e-06, 'epoch': 4.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4355411529541016, 'eval_runtime': 0.9529, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 4.34}
{'loss': 0.3127, 'learning_rate': 3.7566249241628107e-06, 'epoch': 4.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.435073971748352, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 4.34}
{'loss': 0.3601, 'learning_rate': 3.7497304165788086e-06, 'epoch': 4.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4363222122192383, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 4.34}
{'loss': 0.5291, 'learning_rate': 3.7428407813367007e-06, 'epoch': 4.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390734434127808, 'eval_runtime': 0.9898, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 4.34}
{'loss': 0.3607, 'learning_rate': 3.735956023807252e-06, 'epoch': 4.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399728775024414, 'eval_runtime': 1.0139, 'eval_samples_per_second': 4.931, 'eval_steps_per_second': 0.986, 'epoch': 4.34}
{'loss': 0.3392, 'learning_rate': 3.7290761493574113e-06, 'epoch': 4.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439131259918213, 'eval_runtime': 0.9984, 'eval_samples_per_second': 5.008, 'eval_steps_per_second': 1.002, 'epoch': 4.35}
{'loss': 0.4681, 'learning_rate': 3.7222011633503174e-06, 'epoch': 4.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4382356405258179, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 4.35}
{'loss': 0.3737, 'learning_rate': 3.715331071145314e-06, 'epoch': 4.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4389878511428833, 'eval_runtime': 0.9788, 'eval_samples_per_second': 5.108, 'eval_steps_per_second': 1.022, 'epoch': 4.35}
{'loss': 0.4572, 'learning_rate': 3.7084658780979143e-06, 'epoch': 4.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401094913482666, 'eval_runtime': 1.017, 'eval_samples_per_second': 4.917, 'eval_steps_per_second': 0.983, 'epoch': 4.35}
{'loss': 0.5613, 'learning_rate': 3.7016055895598203e-06, 'epoch': 4.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4424254894256592, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 4.35}
{'loss': 0.3937, 'learning_rate': 3.6947502108789045e-06, 'epoch': 4.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443022608757019, 'eval_runtime': 1.0279, 'eval_samples_per_second': 4.864, 'eval_steps_per_second': 0.973, 'epoch': 4.35}
{'loss': 0.3058, 'learning_rate': 3.687899747399223e-06, 'epoch': 4.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4427955150604248, 'eval_runtime': 1.0453, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 4.36}
{'loss': 0.387, 'learning_rate': 3.6810542044609897e-06, 'epoch': 4.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4418500661849976, 'eval_runtime': 1.0437, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 4.36}
{'loss': 0.4825, 'learning_rate': 3.6742135874005837e-06, 'epoch': 4.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4408239126205444, 'eval_runtime': 0.9464, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 4.36}
{'loss': 0.3256, 'learning_rate': 3.6673779015505575e-06, 'epoch': 4.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4412102699279785, 'eval_runtime': 0.9543, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 4.36}
{'loss': 0.393, 'learning_rate': 3.660547152239594e-06, 'epoch': 4.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4425132274627686, 'eval_runtime': 0.9836, 'eval_samples_per_second': 5.083, 'eval_steps_per_second': 1.017, 'epoch': 4.36}
{'loss': 0.5298, 'learning_rate': 3.6537213447925545e-06, 'epoch': 4.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4426469802856445, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 4.36}
{'loss': 0.4747, 'learning_rate': 3.646900484530432e-06, 'epoch': 4.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4411206245422363, 'eval_runtime': 1.0323, 'eval_samples_per_second': 4.844, 'eval_steps_per_second': 0.969, 'epoch': 4.37}
{'loss': 0.3946, 'learning_rate': 3.640084576770365e-06, 'epoch': 4.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383596181869507, 'eval_runtime': 0.9995, 'eval_samples_per_second': 5.003, 'eval_steps_per_second': 1.001, 'epoch': 4.37}
{'loss': 0.382, 'learning_rate': 3.6332736268256397e-06, 'epoch': 4.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.436631202697754, 'eval_runtime': 1.0096, 'eval_samples_per_second': 4.952, 'eval_steps_per_second': 0.99, 'epoch': 4.37}
{'loss': 0.5543, 'learning_rate': 3.6264676400056673e-06, 'epoch': 4.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4338948726654053, 'eval_runtime': 0.9968, 'eval_samples_per_second': 5.016, 'eval_steps_per_second': 1.003, 'epoch': 4.37}
{'loss': 0.414, 'learning_rate': 3.619666621615996e-06, 'epoch': 4.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4306644201278687, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 4.37}
{'loss': 0.4531, 'learning_rate': 3.612870576958294e-06, 'epoch': 4.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4301142692565918, 'eval_runtime': 0.9704, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 4.37}
{'loss': 0.3547, 'learning_rate': 3.6060795113303682e-06, 'epoch': 4.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.429897665977478, 'eval_runtime': 0.9697, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 4.38}
{'loss': 0.4268, 'learning_rate': 3.5992934300261184e-06, 'epoch': 4.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4289493560791016, 'eval_runtime': 1.0579, 'eval_samples_per_second': 4.726, 'eval_steps_per_second': 0.945, 'epoch': 4.38}
{'loss': 0.3239, 'learning_rate': 3.5925123383355864e-06, 'epoch': 4.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4279594421386719, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 4.38}
{'loss': 0.4088, 'learning_rate': 3.585736241544906e-06, 'epoch': 4.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4269189834594727, 'eval_runtime': 0.9528, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 4.38}
{'loss': 0.6634, 'learning_rate': 3.5789651449363205e-06, 'epoch': 4.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4250751733779907, 'eval_runtime': 0.9594, 'eval_samples_per_second': 5.212, 'eval_steps_per_second': 1.042, 'epoch': 4.38}
{'loss': 0.3307, 'learning_rate': 3.5721990537881846e-06, 'epoch': 4.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4233592748641968, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 4.38}
{'loss': 0.3761, 'learning_rate': 3.565437973374941e-06, 'epoch': 4.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4241511821746826, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 4.39}
{'loss': 0.4117, 'learning_rate': 3.55868190896713e-06, 'epoch': 4.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4258595705032349, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 4.39}
{'loss': 0.3792, 'learning_rate': 3.5519308658313767e-06, 'epoch': 4.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4269105195999146, 'eval_runtime': 0.9696, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 4.39}
{'loss': 0.4088, 'learning_rate': 3.545184849230405e-06, 'epoch': 4.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4268999099731445, 'eval_runtime': 0.9745, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 4.39}
{'loss': 0.6494, 'learning_rate': 3.5384438644230067e-06, 'epoch': 4.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4257159233093262, 'eval_runtime': 0.9442, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 4.39}
{'loss': 0.3468, 'learning_rate': 3.5317079166640555e-06, 'epoch': 4.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4263018369674683, 'eval_runtime': 0.9878, 'eval_samples_per_second': 5.062, 'eval_steps_per_second': 1.012, 'epoch': 4.39}
{'loss': 0.4485, 'learning_rate': 3.524977011204508e-06, 'epoch': 4.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4260923862457275, 'eval_runtime': 0.9648, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 4.39}
{'loss': 0.4001, 'learning_rate': 3.5182511532913666e-06, 'epoch': 4.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4275373220443726, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 4.4}
{'loss': 0.4433, 'learning_rate': 3.5115303481677266e-06, 'epoch': 4.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4282885789871216, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 4.4}
{'loss': 0.4381, 'learning_rate': 3.504814601072727e-06, 'epoch': 4.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4302304983139038, 'eval_runtime': 1.009, 'eval_samples_per_second': 4.955, 'eval_steps_per_second': 0.991, 'epoch': 4.4}
{'loss': 0.456, 'learning_rate': 3.498103917241569e-06, 'epoch': 4.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4320061206817627, 'eval_runtime': 0.9797, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 4.4}
{'loss': 0.3914, 'learning_rate': 3.491398301905502e-06, 'epoch': 4.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.432187557220459, 'eval_runtime': 1.012, 'eval_samples_per_second': 4.941, 'eval_steps_per_second': 0.988, 'epoch': 4.4}
{'loss': 0.4694, 'learning_rate': 3.4846977602918352e-06, 'epoch': 4.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.430493712425232, 'eval_runtime': 0.9958, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 4.4}
{'loss': 0.7097, 'learning_rate': 3.478002297623915e-06, 'epoch': 4.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.429056167602539, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 4.41}
{'loss': 0.368, 'learning_rate': 3.4713119191211243e-06, 'epoch': 4.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.428017020225525, 'eval_runtime': 0.9498, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 4.41}
{'loss': 0.4489, 'learning_rate': 3.4646266299988985e-06, 'epoch': 4.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4281325340270996, 'eval_runtime': 0.9622, 'eval_samples_per_second': 5.196, 'eval_steps_per_second': 1.039, 'epoch': 4.41}
{'loss': 0.3328, 'learning_rate': 3.457946435468682e-06, 'epoch': 4.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4295032024383545, 'eval_runtime': 1.0547, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 4.41}
{'loss': 0.4097, 'learning_rate': 3.4512713407379704e-06, 'epoch': 4.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4304407835006714, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 4.41}
{'loss': 0.3936, 'learning_rate': 3.4446013510102706e-06, 'epoch': 4.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4300068616867065, 'eval_runtime': 0.9914, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 4.41}
{'loss': 0.3885, 'learning_rate': 3.4379364714851114e-06, 'epoch': 4.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4293943643569946, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 4.42}
{'loss': 0.5813, 'learning_rate': 3.4312767073580455e-06, 'epoch': 4.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4314323663711548, 'eval_runtime': 0.9471, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 4.42}
{'loss': 0.3418, 'learning_rate': 3.424622063820631e-06, 'epoch': 4.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4337775707244873, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 4.42}
{'loss': 0.4289, 'learning_rate': 3.417972546060434e-06, 'epoch': 4.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4353622198104858, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 4.42}
{'loss': 0.4403, 'learning_rate': 3.4113281592610247e-06, 'epoch': 4.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4360690116882324, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 4.42}
{'loss': 0.3168, 'learning_rate': 3.404688908601982e-06, 'epoch': 4.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4365142583847046, 'eval_runtime': 0.9925, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 4.42}
{'loss': 0.3882, 'learning_rate': 3.398054799258871e-06, 'epoch': 4.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4381623268127441, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 4.43}
{'loss': 0.6191, 'learning_rate': 3.3914258364032495e-06, 'epoch': 4.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4388412237167358, 'eval_runtime': 1.0534, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 4.43}
{'loss': 0.3518, 'learning_rate': 3.384802025202675e-06, 'epoch': 4.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400495290756226, 'eval_runtime': 0.9823, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 4.43}
{'loss': 0.3495, 'learning_rate': 3.378183370820669e-06, 'epoch': 4.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4411920309066772, 'eval_runtime': 1.0012, 'eval_samples_per_second': 4.994, 'eval_steps_per_second': 0.999, 'epoch': 4.43}
{'loss': 0.4955, 'learning_rate': 3.3715698784167527e-06, 'epoch': 4.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404568672180176, 'eval_runtime': 0.9844, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 4.43}
{'loss': 0.3489, 'learning_rate': 3.3649615531464106e-06, 'epoch': 4.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404350519180298, 'eval_runtime': 0.9633, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 4.43}
{'loss': 0.3809, 'learning_rate': 3.3583584001611126e-06, 'epoch': 4.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440260887145996, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 4.44}
{'loss': 0.466, 'learning_rate': 3.3517604246082737e-06, 'epoch': 4.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4414435625076294, 'eval_runtime': 0.9787, 'eval_samples_per_second': 5.109, 'eval_steps_per_second': 1.022, 'epoch': 4.44}
{'loss': 0.3427, 'learning_rate': 3.3451676316312976e-06, 'epoch': 4.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441677451133728, 'eval_runtime': 1.0049, 'eval_samples_per_second': 4.976, 'eval_steps_per_second': 0.995, 'epoch': 4.44}
{'loss': 0.2809, 'learning_rate': 3.3385800263695332e-06, 'epoch': 4.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4425193071365356, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 4.44}
{'loss': 0.4453, 'learning_rate': 3.3319976139582875e-06, 'epoch': 4.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4432512521743774, 'eval_runtime': 1.0463, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 4.44}
{'loss': 0.3302, 'learning_rate': 3.325420399528827e-06, 'epoch': 4.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4452544450759888, 'eval_runtime': 1.0005, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 4.44}
{'loss': 0.509, 'learning_rate': 3.3188483882083566e-06, 'epoch': 4.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445164442062378, 'eval_runtime': 0.9918, 'eval_samples_per_second': 5.041, 'eval_steps_per_second': 1.008, 'epoch': 4.45}
{'loss': 0.4052, 'learning_rate': 3.3122815851200305e-06, 'epoch': 4.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4449875354766846, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 4.45}
{'loss': 0.5906, 'learning_rate': 3.3057199953829387e-06, 'epoch': 4.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4435724020004272, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 4.45}
{'loss': 0.3045, 'learning_rate': 3.299163624112115e-06, 'epoch': 4.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4417680501937866, 'eval_runtime': 1.023, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 4.45}
{'loss': 0.3558, 'learning_rate': 3.2926124764185164e-06, 'epoch': 4.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398589134216309, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 4.45}
{'loss': 0.4093, 'learning_rate': 3.28606655740903e-06, 'epoch': 4.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4392298460006714, 'eval_runtime': 1.0124, 'eval_samples_per_second': 4.939, 'eval_steps_per_second': 0.988, 'epoch': 4.45}
{'loss': 0.4695, 'learning_rate': 3.2795258721864776e-06, 'epoch': 4.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4369598627090454, 'eval_runtime': 1.035, 'eval_samples_per_second': 4.831, 'eval_steps_per_second': 0.966, 'epoch': 4.46}
{'loss': 0.3453, 'learning_rate': 3.272990425849578e-06, 'epoch': 4.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4351146221160889, 'eval_runtime': 0.954, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 4.46}
{'loss': 0.2922, 'learning_rate': 3.266460223492992e-06, 'epoch': 4.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4336975812911987, 'eval_runtime': 0.9536, 'eval_samples_per_second': 5.243, 'eval_steps_per_second': 1.049, 'epoch': 4.46}
{'loss': 0.3854, 'learning_rate': 3.2599352702072763e-06, 'epoch': 4.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4333912134170532, 'eval_runtime': 1.002, 'eval_samples_per_second': 4.99, 'eval_steps_per_second': 0.998, 'epoch': 4.46}
{'loss': 0.3337, 'learning_rate': 3.2534155710788993e-06, 'epoch': 4.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4322078227996826, 'eval_runtime': 0.9815, 'eval_samples_per_second': 5.094, 'eval_steps_per_second': 1.019, 'epoch': 4.46}
{'loss': 0.3507, 'learning_rate': 3.246901131190233e-06, 'epoch': 4.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.428916096687317, 'eval_runtime': 1.0352, 'eval_samples_per_second': 4.83, 'eval_steps_per_second': 0.966, 'epoch': 4.46}
{'loss': 0.3331, 'learning_rate': 3.240391955619555e-06, 'epoch': 4.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426255226135254, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 4.47}
{'loss': 0.4773, 'learning_rate': 3.233888049441033e-06, 'epoch': 4.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4238567352294922, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 4.47}
{'loss': 0.283, 'learning_rate': 3.2273894177247267e-06, 'epoch': 4.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4221644401550293, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 4.47}
{'loss': 0.3946, 'learning_rate': 3.220896065536594e-06, 'epoch': 4.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4194060564041138, 'eval_runtime': 1.0315, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 4.47}
{'loss': 0.2872, 'learning_rate': 3.214407997938459e-06, 'epoch': 4.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4175498485565186, 'eval_runtime': 0.9932, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 4.47}
{'loss': 0.3156, 'learning_rate': 3.2079252199880452e-06, 'epoch': 4.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4162412881851196, 'eval_runtime': 1.0493, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 4.47}
{'loss': 0.4641, 'learning_rate': 3.201447736738941e-06, 'epoch': 4.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4168130159378052, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 4.47}
{'loss': 0.3168, 'learning_rate': 3.194975553240609e-06, 'epoch': 4.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4175748825073242, 'eval_runtime': 0.9406, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 4.48}
{'loss': 0.3168, 'learning_rate': 3.1885086745383864e-06, 'epoch': 4.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4180887937545776, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 4.48}
{'loss': 0.3182, 'learning_rate': 3.182047105673469e-06, 'epoch': 4.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4189950227737427, 'eval_runtime': 0.9698, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 4.48}
{'loss': 0.4014, 'learning_rate': 3.1755908516829157e-06, 'epoch': 4.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4196040630340576, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 4.48}
{'loss': 0.4742, 'learning_rate': 3.169139917599637e-06, 'epoch': 4.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4197739362716675, 'eval_runtime': 0.9748, 'eval_samples_per_second': 5.129, 'eval_steps_per_second': 1.026, 'epoch': 4.48}
{'loss': 0.3607, 'learning_rate': 3.1626943084524087e-06, 'epoch': 4.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4190871715545654, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 4.48}
{'loss': 0.4098, 'learning_rate': 3.156254029265844e-06, 'epoch': 4.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417337417602539, 'eval_runtime': 0.9419, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 4.49}
{'loss': 0.4203, 'learning_rate': 3.1498190850604015e-06, 'epoch': 4.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4151806831359863, 'eval_runtime': 0.9602, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 4.49}
{'loss': 0.3082, 'learning_rate': 3.1433894808523945e-06, 'epoch': 4.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4130644798278809, 'eval_runtime': 1.031, 'eval_samples_per_second': 4.85, 'eval_steps_per_second': 0.97, 'epoch': 4.49}
{'loss': 0.3706, 'learning_rate': 3.1369652216539515e-06, 'epoch': 4.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4124473333358765, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 4.49}
{'loss': 0.3954, 'learning_rate': 3.1305463124730563e-06, 'epoch': 4.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4127172231674194, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 4.49}
{'loss': 0.2726, 'learning_rate': 3.124132758313507e-06, 'epoch': 4.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4125163555145264, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 4.49}
{'loss': 0.3891, 'learning_rate': 3.1177245641749343e-06, 'epoch': 4.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4118934869766235, 'eval_runtime': 0.9394, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 4.5}
{'loss': 0.4814, 'learning_rate': 3.1113217350527858e-06, 'epoch': 4.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4123306274414062, 'eval_runtime': 0.9958, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 4.5}
{'loss': 0.3129, 'learning_rate': 3.104924275938335e-06, 'epoch': 4.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4127938747406006, 'eval_runtime': 0.9497, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 4.5}
{'loss': 0.4391, 'learning_rate': 3.0985321918186616e-06, 'epoch': 4.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4127085208892822, 'eval_runtime': 0.9615, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 4.5}
{'loss': 0.5817, 'learning_rate': 3.0921454876766543e-06, 'epoch': 4.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4128997325897217, 'eval_runtime': 0.9453, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 4.5}
{'loss': 0.4693, 'learning_rate': 3.085764168491021e-06, 'epoch': 4.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4126747846603394, 'eval_runtime': 1.0283, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 4.5}
{'loss': 0.3102, 'learning_rate': 3.0793882392362497e-06, 'epoch': 4.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4117519855499268, 'eval_runtime': 1.0045, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 4.51}
{'loss': 0.387, 'learning_rate': 3.073017704882648e-06, 'epoch': 4.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4109925031661987, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 4.51}
{'loss': 0.5372, 'learning_rate': 3.066652570396308e-06, 'epoch': 4.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4099467992782593, 'eval_runtime': 0.9535, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 4.51}
{'loss': 0.4949, 'learning_rate': 3.0602928407391074e-06, 'epoch': 4.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4106768369674683, 'eval_runtime': 0.9496, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 4.51}
{'loss': 0.4166, 'learning_rate': 3.0539385208687243e-06, 'epoch': 4.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4114965200424194, 'eval_runtime': 0.9991, 'eval_samples_per_second': 5.004, 'eval_steps_per_second': 1.001, 'epoch': 4.51}
{'loss': 0.3829, 'learning_rate': 3.0475896157386097e-06, 'epoch': 4.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4114984273910522, 'eval_runtime': 1.0293, 'eval_samples_per_second': 4.858, 'eval_steps_per_second': 0.972, 'epoch': 4.51}
{'loss': 0.315, 'learning_rate': 3.0412461302979956e-06, 'epoch': 4.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4122737646102905, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 4.52}
{'loss': 0.4013, 'learning_rate': 3.0349080694918855e-06, 'epoch': 4.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4133070707321167, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 4.52}
{'loss': 0.4155, 'learning_rate': 3.0285754382610676e-06, 'epoch': 4.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4151252508163452, 'eval_runtime': 0.9994, 'eval_samples_per_second': 5.003, 'eval_steps_per_second': 1.001, 'epoch': 4.52}
{'loss': 0.4982, 'learning_rate': 3.0222482415420774e-06, 'epoch': 4.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4179800748825073, 'eval_runtime': 1.0629, 'eval_samples_per_second': 4.704, 'eval_steps_per_second': 0.941, 'epoch': 4.52}
{'loss': 0.2929, 'learning_rate': 3.015926484267232e-06, 'epoch': 4.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4210772514343262, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 4.52}
{'loss': 0.4913, 'learning_rate': 3.0096101713645987e-06, 'epoch': 4.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4223397970199585, 'eval_runtime': 0.9755, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 4.52}
{'loss': 0.328, 'learning_rate': 3.003299307758e-06, 'epoch': 4.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4227476119995117, 'eval_runtime': 0.9657, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 4.53}
{'loss': 0.5241, 'learning_rate': 2.9969938983670176e-06, 'epoch': 4.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4227547645568848, 'eval_runtime': 0.9424, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 4.53}
{'loss': 0.313, 'learning_rate': 2.9906939481069774e-06, 'epoch': 4.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4218512773513794, 'eval_runtime': 0.9985, 'eval_samples_per_second': 5.007, 'eval_steps_per_second': 1.001, 'epoch': 4.53}
{'loss': 0.3076, 'learning_rate': 2.9843994618889473e-06, 'epoch': 4.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4194402694702148, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 4.53}
{'loss': 0.3718, 'learning_rate': 2.978110444619734e-06, 'epoch': 4.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4172190427780151, 'eval_runtime': 0.9556, 'eval_samples_per_second': 5.232, 'eval_steps_per_second': 1.046, 'epoch': 4.53}
{'loss': 0.4746, 'learning_rate': 2.971826901201893e-06, 'epoch': 4.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4151595830917358, 'eval_runtime': 0.9494, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 4.53}
{'loss': 0.3827, 'learning_rate': 2.9655488365337006e-06, 'epoch': 4.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.413798451423645, 'eval_runtime': 1.0195, 'eval_samples_per_second': 4.904, 'eval_steps_per_second': 0.981, 'epoch': 4.54}
{'loss': 0.5448, 'learning_rate': 2.9592762555091627e-06, 'epoch': 4.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4145573377609253, 'eval_runtime': 1.0022, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 4.54}
{'loss': 0.3962, 'learning_rate': 2.9530091630180234e-06, 'epoch': 4.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4156476259231567, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 4.54}
{'loss': 0.4126, 'learning_rate': 2.9467475639457266e-06, 'epoch': 4.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4163843393325806, 'eval_runtime': 0.9822, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 4.54}
{'loss': 0.2933, 'learning_rate': 2.940491463173455e-06, 'epoch': 4.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4164059162139893, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 4.54}
{'loss': 0.3057, 'learning_rate': 2.934240865578093e-06, 'epoch': 4.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417326807975769, 'eval_runtime': 0.943, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 4.54}
{'loss': 0.4056, 'learning_rate': 2.927995776032235e-06, 'epoch': 4.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4192878007888794, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 4.55}
{'loss': 0.2711, 'learning_rate': 2.921756199404192e-06, 'epoch': 4.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4212287664413452, 'eval_runtime': 0.9725, 'eval_samples_per_second': 5.141, 'eval_steps_per_second': 1.028, 'epoch': 4.55}
{'loss': 0.3373, 'learning_rate': 2.9155221405579657e-06, 'epoch': 4.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.422215223312378, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 4.55}
{'loss': 0.3416, 'learning_rate': 2.9092936043532626e-06, 'epoch': 4.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4235481023788452, 'eval_runtime': 1.0045, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 4.55}
{'loss': 0.449, 'learning_rate': 2.9030705956454784e-06, 'epoch': 4.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.424120545387268, 'eval_runtime': 0.9426, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 4.55}
{'loss': 0.3406, 'learning_rate': 2.896853119285714e-06, 'epoch': 4.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4252593517303467, 'eval_runtime': 0.9802, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 4.55}
{'loss': 0.3214, 'learning_rate': 2.8906411801207346e-06, 'epoch': 4.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4251407384872437, 'eval_runtime': 1.0254, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 4.56}
{'loss': 0.4635, 'learning_rate': 2.8844347829930106e-06, 'epoch': 4.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4241633415222168, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 4.56}
{'loss': 0.3652, 'learning_rate': 2.8782339327406825e-06, 'epoch': 4.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4243216514587402, 'eval_runtime': 0.9659, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 4.56}
{'loss': 0.3631, 'learning_rate': 2.8720386341975636e-06, 'epoch': 4.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4245874881744385, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 4.56}
{'loss': 0.4291, 'learning_rate': 2.8658488921931494e-06, 'epoch': 4.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4245191812515259, 'eval_runtime': 1.0038, 'eval_samples_per_second': 4.981, 'eval_steps_per_second': 0.996, 'epoch': 4.56}
{'loss': 0.5532, 'learning_rate': 2.8596647115525953e-06, 'epoch': 4.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.425206184387207, 'eval_runtime': 1.0202, 'eval_samples_per_second': 4.901, 'eval_steps_per_second': 0.98, 'epoch': 4.56}
{'loss': 0.3397, 'learning_rate': 2.853486097096725e-06, 'epoch': 4.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4276978969573975, 'eval_runtime': 1.0226, 'eval_samples_per_second': 4.89, 'eval_steps_per_second': 0.978, 'epoch': 4.56}
{'loss': 0.4521, 'learning_rate': 2.847313053642018e-06, 'epoch': 4.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4298478364944458, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 4.57}
{'loss': 0.4284, 'learning_rate': 2.841145586000621e-06, 'epoch': 4.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4296560287475586, 'eval_runtime': 1.0446, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 4.57}
{'loss': 0.2754, 'learning_rate': 2.834983698980327e-06, 'epoch': 4.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.429455280303955, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 4.57}
{'loss': 0.4034, 'learning_rate': 2.828827397384576e-06, 'epoch': 4.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4297285079956055, 'eval_runtime': 1.0233, 'eval_samples_per_second': 4.886, 'eval_steps_per_second': 0.977, 'epoch': 4.57}
{'loss': 0.4327, 'learning_rate': 2.8226766860124675e-06, 'epoch': 4.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4297857284545898, 'eval_runtime': 1.0193, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 4.57}
{'loss': 0.3675, 'learning_rate': 2.8165315696587203e-06, 'epoch': 4.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4282779693603516, 'eval_runtime': 0.9584, 'eval_samples_per_second': 5.217, 'eval_steps_per_second': 1.043, 'epoch': 4.57}
{'loss': 0.3487, 'learning_rate': 2.8103920531137164e-06, 'epoch': 4.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4268187284469604, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 4.58}
{'loss': 0.3912, 'learning_rate': 2.8042581411634563e-06, 'epoch': 4.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4252194166183472, 'eval_runtime': 1.0333, 'eval_samples_per_second': 4.839, 'eval_steps_per_second': 0.968, 'epoch': 4.58}
{'loss': 0.3865, 'learning_rate': 2.7981298385895773e-06, 'epoch': 4.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4235941171646118, 'eval_runtime': 1.0259, 'eval_samples_per_second': 4.874, 'eval_steps_per_second': 0.975, 'epoch': 4.58}
{'loss': 0.3543, 'learning_rate': 2.7920071501693393e-06, 'epoch': 4.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4244602918624878, 'eval_runtime': 0.9522, 'eval_samples_per_second': 5.251, 'eval_steps_per_second': 1.05, 'epoch': 4.58}
{'loss': 0.488, 'learning_rate': 2.785890080675635e-06, 'epoch': 4.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.425554871559143, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 4.58}
{'loss': 0.349, 'learning_rate': 2.7797786348769707e-06, 'epoch': 4.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4250651597976685, 'eval_runtime': 0.999, 'eval_samples_per_second': 5.005, 'eval_steps_per_second': 1.001, 'epoch': 4.58}
{'loss': 0.3898, 'learning_rate': 2.7736728175374638e-06, 'epoch': 4.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423170566558838, 'eval_runtime': 1.0457, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 4.59}
{'loss': 0.3733, 'learning_rate': 2.7675726334168606e-06, 'epoch': 4.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4209811687469482, 'eval_runtime': 0.9522, 'eval_samples_per_second': 5.251, 'eval_steps_per_second': 1.05, 'epoch': 4.59}
{'loss': 0.621, 'learning_rate': 2.7614780872704915e-06, 'epoch': 4.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4200607538223267, 'eval_runtime': 1.0438, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 4.59}
{'loss': 0.2873, 'learning_rate': 2.7553891838493163e-06, 'epoch': 4.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4201250076293945, 'eval_runtime': 0.9633, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 4.59}
{'loss': 0.37, 'learning_rate': 2.749305927899881e-06, 'epoch': 4.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420584797859192, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 4.59}
{'loss': 0.4464, 'learning_rate': 2.743228324164332e-06, 'epoch': 4.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4212387800216675, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 4.59}
{'loss': 0.3556, 'learning_rate': 2.7371563773804155e-06, 'epoch': 4.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4230533838272095, 'eval_runtime': 1.0313, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 4.6}
{'loss': 0.5767, 'learning_rate': 2.731090092281462e-06, 'epoch': 4.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4236301183700562, 'eval_runtime': 0.9611, 'eval_samples_per_second': 5.202, 'eval_steps_per_second': 1.04, 'epoch': 4.6}
{'loss': 0.2612, 'learning_rate': 2.7250294735963877e-06, 'epoch': 4.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4233649969100952, 'eval_runtime': 1.0216, 'eval_samples_per_second': 4.894, 'eval_steps_per_second': 0.979, 'epoch': 4.6}
{'loss': 0.3122, 'learning_rate': 2.7189745260496936e-06, 'epoch': 4.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4255871772766113, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 4.6}
{'loss': 0.5017, 'learning_rate': 2.712925254361467e-06, 'epoch': 4.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.42613685131073, 'eval_runtime': 0.9374, 'eval_samples_per_second': 5.334, 'eval_steps_per_second': 1.067, 'epoch': 4.6}
{'loss': 0.2809, 'learning_rate': 2.7068816632473526e-06, 'epoch': 4.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4256430864334106, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 4.6}
{'loss': 0.3757, 'learning_rate': 2.7008437574185866e-06, 'epoch': 4.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4260159730911255, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 4.61}
{'loss': 0.4089, 'learning_rate': 2.694811541581962e-06, 'epoch': 4.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4258582592010498, 'eval_runtime': 0.9843, 'eval_samples_per_second': 5.08, 'eval_steps_per_second': 1.016, 'epoch': 4.61}
{'loss': 0.3941, 'learning_rate': 2.688785020439835e-06, 'epoch': 4.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4253169298171997, 'eval_runtime': 0.9592, 'eval_samples_per_second': 5.213, 'eval_steps_per_second': 1.043, 'epoch': 4.61}
{'loss': 0.4466, 'learning_rate': 2.682764198690133e-06, 'epoch': 4.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4257205724716187, 'eval_runtime': 1.0191, 'eval_samples_per_second': 4.906, 'eval_steps_per_second': 0.981, 'epoch': 4.61}
{'loss': 0.3556, 'learning_rate': 2.6767490810263306e-06, 'epoch': 4.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4259436130523682, 'eval_runtime': 0.9868, 'eval_samples_per_second': 5.067, 'eval_steps_per_second': 1.013, 'epoch': 4.61}
{'loss': 0.4098, 'learning_rate': 2.67073967213746e-06, 'epoch': 4.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426086664199829, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 4.61}
{'loss': 0.4091, 'learning_rate': 2.6647359767080994e-06, 'epoch': 4.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4264090061187744, 'eval_runtime': 0.9705, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 4.62}
{'loss': 0.489, 'learning_rate': 2.6587379994183804e-06, 'epoch': 4.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426806092262268, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.984, 'eval_steps_per_second': 0.997, 'epoch': 4.62}
{'loss': 0.2447, 'learning_rate': 2.6527457449439707e-06, 'epoch': 4.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4260361194610596, 'eval_runtime': 1.0146, 'eval_samples_per_second': 4.928, 'eval_steps_per_second': 0.986, 'epoch': 4.62}
{'loss': 0.2655, 'learning_rate': 2.6467592179560753e-06, 'epoch': 4.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4244074821472168, 'eval_runtime': 1.0379, 'eval_samples_per_second': 4.817, 'eval_steps_per_second': 0.963, 'epoch': 4.62}
{'loss': 0.288, 'learning_rate': 2.6407784231214484e-06, 'epoch': 4.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4234135150909424, 'eval_runtime': 1.0398, 'eval_samples_per_second': 4.809, 'eval_steps_per_second': 0.962, 'epoch': 4.62}
{'loss': 0.3515, 'learning_rate': 2.634803365102352e-06, 'epoch': 4.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4229379892349243, 'eval_runtime': 0.9638, 'eval_samples_per_second': 5.188, 'eval_steps_per_second': 1.038, 'epoch': 4.62}
{'loss': 0.471, 'learning_rate': 2.6288340485565976e-06, 'epoch': 4.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.424198031425476, 'eval_runtime': 1.0493, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 4.63}
{'loss': 0.4009, 'learning_rate': 2.6228704781375113e-06, 'epoch': 4.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.424630045890808, 'eval_runtime': 0.9617, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 4.63}
{'loss': 0.4851, 'learning_rate': 2.6169126584939365e-06, 'epoch': 4.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4267226457595825, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 4.63}
{'loss': 0.5061, 'learning_rate': 2.6109605942702464e-06, 'epoch': 4.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4278205633163452, 'eval_runtime': 0.9934, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 4.63}
{'loss': 0.4183, 'learning_rate': 2.6050142901063158e-06, 'epoch': 4.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4278936386108398, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 4.63}
{'loss': 0.3708, 'learning_rate': 2.5990737506375317e-06, 'epoch': 4.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4270167350769043, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 4.63}
{'loss': 0.4636, 'learning_rate': 2.5931389804947873e-06, 'epoch': 4.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426440954208374, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 4.64}
{'loss': 0.4137, 'learning_rate': 2.5872099843044886e-06, 'epoch': 4.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4256737232208252, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 4.64}
{'loss': 0.4123, 'learning_rate': 2.5812867666885177e-06, 'epoch': 4.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4253647327423096, 'eval_runtime': 0.984, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 4.64}
{'loss': 0.4742, 'learning_rate': 2.575369332264278e-06, 'epoch': 4.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4245436191558838, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 4.64}
{'loss': 0.2948, 'learning_rate': 2.5694576856446487e-06, 'epoch': 4.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4249587059020996, 'eval_runtime': 0.9731, 'eval_samples_per_second': 5.138, 'eval_steps_per_second': 1.028, 'epoch': 4.64}
{'loss': 0.4328, 'learning_rate': 2.563551831437997e-06, 'epoch': 4.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4271533489227295, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 4.64}
{'loss': 0.4998, 'learning_rate': 2.5576517742481856e-06, 'epoch': 4.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4259402751922607, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 4.65}
{'loss': 0.5382, 'learning_rate': 2.5517575186745492e-06, 'epoch': 4.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4249037504196167, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 4.65}
{'loss': 0.375, 'learning_rate': 2.5458690693119004e-06, 'epoch': 4.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4247959852218628, 'eval_runtime': 1.0533, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 4.65}
{'loss': 0.5904, 'learning_rate': 2.539986430750526e-06, 'epoch': 4.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4259324073791504, 'eval_runtime': 0.9708, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 4.65}
{'loss': 0.22, 'learning_rate': 2.5341096075761906e-06, 'epoch': 4.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4276024103164673, 'eval_runtime': 0.9779, 'eval_samples_per_second': 5.113, 'eval_steps_per_second': 1.023, 'epoch': 4.65}
{'loss': 0.4342, 'learning_rate': 2.5282386043701158e-06, 'epoch': 4.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4278501272201538, 'eval_runtime': 0.9502, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 4.65}
{'loss': 0.4527, 'learning_rate': 2.522373425708986e-06, 'epoch': 4.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426641821861267, 'eval_runtime': 0.9947, 'eval_samples_per_second': 5.026, 'eval_steps_per_second': 1.005, 'epoch': 4.65}
{'loss': 0.6084, 'learning_rate': 2.5165140761649577e-06, 'epoch': 4.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.42509925365448, 'eval_runtime': 1.0053, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 4.66}
{'loss': 0.3283, 'learning_rate': 2.5106605603056243e-06, 'epoch': 4.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4230512380599976, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 4.66}
{'loss': 0.3227, 'learning_rate': 2.50481288269405e-06, 'epoch': 4.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4204200506210327, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 4.66}
{'loss': 0.5135, 'learning_rate': 2.4989710478887364e-06, 'epoch': 4.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417431354522705, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 4.66}
{'loss': 0.427, 'learning_rate': 2.493135060443633e-06, 'epoch': 4.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.415482759475708, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 4.66}
{'loss': 0.3867, 'learning_rate': 2.4873049249081315e-06, 'epoch': 4.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4127140045166016, 'eval_runtime': 0.9595, 'eval_samples_per_second': 5.211, 'eval_steps_per_second': 1.042, 'epoch': 4.66}
{'loss': 0.3921, 'learning_rate': 2.4814806458270644e-06, 'epoch': 4.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4114665985107422, 'eval_runtime': 0.9429, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 4.67}
{'loss': 0.2799, 'learning_rate': 2.475662227740697e-06, 'epoch': 4.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4116332530975342, 'eval_runtime': 0.9629, 'eval_samples_per_second': 5.193, 'eval_steps_per_second': 1.039, 'epoch': 4.67}
{'loss': 0.2566, 'learning_rate': 2.46984967518472e-06, 'epoch': 4.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.411952018737793, 'eval_runtime': 1.0524, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 4.67}
{'loss': 0.38, 'learning_rate': 2.4640429926902663e-06, 'epoch': 4.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4125126600265503, 'eval_runtime': 1.0105, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 4.67}
{'loss': 0.2669, 'learning_rate': 2.4582421847838724e-06, 'epoch': 4.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4125436544418335, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 4.67}
{'loss': 0.3717, 'learning_rate': 2.4524472559875134e-06, 'epoch': 4.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4128661155700684, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 4.67}
{'loss': 0.5023, 'learning_rate': 2.446658210818573e-06, 'epoch': 4.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4119585752487183, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 4.68}
{'loss': 0.3859, 'learning_rate': 2.440875053789846e-06, 'epoch': 4.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4103344678878784, 'eval_runtime': 0.9867, 'eval_samples_per_second': 5.067, 'eval_steps_per_second': 1.013, 'epoch': 4.68}
{'loss': 0.3477, 'learning_rate': 2.4350977894095486e-06, 'epoch': 4.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4104483127593994, 'eval_runtime': 0.9986, 'eval_samples_per_second': 5.007, 'eval_steps_per_second': 1.001, 'epoch': 4.68}
{'loss': 0.3474, 'learning_rate': 2.4293264221812897e-06, 'epoch': 4.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4117860794067383, 'eval_runtime': 0.9858, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 4.68}
{'loss': 0.4924, 'learning_rate': 2.4235609566040897e-06, 'epoch': 4.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4134050607681274, 'eval_runtime': 1.0241, 'eval_samples_per_second': 4.882, 'eval_steps_per_second': 0.976, 'epoch': 4.68}
{'loss': 0.6526, 'learning_rate': 2.4178013971723613e-06, 'epoch': 4.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4142706394195557, 'eval_runtime': 1.0088, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 4.68}
{'loss': 0.3532, 'learning_rate': 2.412047748375924e-06, 'epoch': 4.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4145197868347168, 'eval_runtime': 1.032, 'eval_samples_per_second': 4.845, 'eval_steps_per_second': 0.969, 'epoch': 4.69}
{'loss': 0.3077, 'learning_rate': 2.4063000146999817e-06, 'epoch': 4.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4144930839538574, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 4.69}
{'loss': 0.349, 'learning_rate': 2.400558200625124e-06, 'epoch': 4.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4148576259613037, 'eval_runtime': 0.9771, 'eval_samples_per_second': 5.117, 'eval_steps_per_second': 1.023, 'epoch': 4.69}
{'loss': 0.3795, 'learning_rate': 2.3948223106273403e-06, 'epoch': 4.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4166569709777832, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 4.69}
{'loss': 0.6423, 'learning_rate': 2.3890923491779818e-06, 'epoch': 4.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4185857772827148, 'eval_runtime': 1.0035, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 4.69}
{'loss': 0.4809, 'learning_rate': 2.3833683207437976e-06, 'epoch': 4.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4195884466171265, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 4.69}
{'loss': 0.3247, 'learning_rate': 2.3776502297868977e-06, 'epoch': 4.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4208334684371948, 'eval_runtime': 1.0441, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 4.7}
{'loss': 0.4292, 'learning_rate': 2.3719380807647706e-06, 'epoch': 4.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4223263263702393, 'eval_runtime': 0.9949, 'eval_samples_per_second': 5.026, 'eval_steps_per_second': 1.005, 'epoch': 4.7}
{'loss': 0.4504, 'learning_rate': 2.3662318781302696e-06, 'epoch': 4.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4235605001449585, 'eval_runtime': 0.9377, 'eval_samples_per_second': 5.332, 'eval_steps_per_second': 1.066, 'epoch': 4.7}
{'loss': 0.355, 'learning_rate': 2.360531626331618e-06, 'epoch': 4.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.425020456314087, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 4.7}
{'loss': 0.3892, 'learning_rate': 2.3548373298123928e-06, 'epoch': 4.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4259318113327026, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 4.7}
{'loss': 0.434, 'learning_rate': 2.349148993011531e-06, 'epoch': 4.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.424852967262268, 'eval_runtime': 1.0298, 'eval_samples_per_second': 4.855, 'eval_steps_per_second': 0.971, 'epoch': 4.7}
{'loss': 0.3518, 'learning_rate': 2.343466620363333e-06, 'epoch': 4.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4228298664093018, 'eval_runtime': 1.0245, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 4.71}
{'loss': 0.5578, 'learning_rate': 2.337790216297429e-06, 'epoch': 4.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4217299222946167, 'eval_runtime': 1.0226, 'eval_samples_per_second': 4.89, 'eval_steps_per_second': 0.978, 'epoch': 4.71}
{'loss': 0.3553, 'learning_rate': 2.3321197852388177e-06, 'epoch': 4.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420831322669983, 'eval_runtime': 1.0074, 'eval_samples_per_second': 4.963, 'eval_steps_per_second': 0.993, 'epoch': 4.71}
{'loss': 0.4665, 'learning_rate': 2.326455331607833e-06, 'epoch': 4.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4206537008285522, 'eval_runtime': 1.0318, 'eval_samples_per_second': 4.846, 'eval_steps_per_second': 0.969, 'epoch': 4.71}
{'loss': 0.3524, 'learning_rate': 2.3207968598201435e-06, 'epoch': 4.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4206414222717285, 'eval_runtime': 1.0044, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 4.71}
{'loss': 0.3893, 'learning_rate': 2.3151443742867663e-06, 'epoch': 4.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4177541732788086, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 4.71}
{'loss': 0.3193, 'learning_rate': 2.3094978794140455e-06, 'epoch': 4.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.41225004196167, 'eval_runtime': 1.0074, 'eval_samples_per_second': 4.963, 'eval_steps_per_second': 0.993, 'epoch': 4.72}
{'loss': 0.566, 'learning_rate': 2.3038573796036534e-06, 'epoch': 4.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4082659482955933, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 4.72}
{'loss': 0.3933, 'learning_rate': 2.2982228792525894e-06, 'epoch': 4.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4047480821609497, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 4.72}
{'loss': 0.2887, 'learning_rate': 2.292594382753186e-06, 'epoch': 4.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4028240442276, 'eval_runtime': 1.0089, 'eval_samples_per_second': 4.956, 'eval_steps_per_second': 0.991, 'epoch': 4.72}
{'loss': 0.3506, 'learning_rate': 2.2869718944930776e-06, 'epoch': 4.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4025853872299194, 'eval_runtime': 0.9854, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 4.72}
{'loss': 0.4807, 'learning_rate': 2.281355418855231e-06, 'epoch': 4.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4023497104644775, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 4.72}
{'loss': 0.4542, 'learning_rate': 2.2757449602179193e-06, 'epoch': 4.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4022798538208008, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 4.73}
{'loss': 0.3728, 'learning_rate': 2.2701405229547204e-06, 'epoch': 4.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4036874771118164, 'eval_runtime': 0.966, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 4.73}
{'loss': 0.3515, 'learning_rate': 2.26454211143453e-06, 'epoch': 4.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4049203395843506, 'eval_runtime': 1.0554, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 4.73}
{'loss': 0.5883, 'learning_rate': 2.2589497300215378e-06, 'epoch': 4.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4054299592971802, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 4.73}
{'loss': 0.4762, 'learning_rate': 2.2533633830752345e-06, 'epoch': 4.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4061115980148315, 'eval_runtime': 1.0006, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 4.73}
{'loss': 0.2596, 'learning_rate': 2.2477830749504024e-06, 'epoch': 4.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4059357643127441, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 4.73}
{'loss': 0.4745, 'learning_rate': 2.2422088099971297e-06, 'epoch': 4.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4070687294006348, 'eval_runtime': 0.958, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 4.74}
{'loss': 0.4767, 'learning_rate': 2.236640592560779e-06, 'epoch': 4.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4074047803878784, 'eval_runtime': 0.9831, 'eval_samples_per_second': 5.086, 'eval_steps_per_second': 1.017, 'epoch': 4.74}
{'loss': 0.4242, 'learning_rate': 2.2310784269820043e-06, 'epoch': 4.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4076541662216187, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 4.74}
{'loss': 0.4365, 'learning_rate': 2.2255223175967488e-06, 'epoch': 4.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4074918031692505, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 4.74}
{'loss': 0.4061, 'learning_rate': 2.219972268736217e-06, 'epoch': 4.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.407041311264038, 'eval_runtime': 1.0281, 'eval_samples_per_second': 4.863, 'eval_steps_per_second': 0.973, 'epoch': 4.74}
{'loss': 0.4164, 'learning_rate': 2.2144282847269093e-06, 'epoch': 4.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4069404602050781, 'eval_runtime': 1.037, 'eval_samples_per_second': 4.821, 'eval_steps_per_second': 0.964, 'epoch': 4.74}
{'loss': 0.4847, 'learning_rate': 2.208890369890586e-06, 'epoch': 4.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4072439670562744, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 4.74}
{'loss': 0.4066, 'learning_rate': 2.203358528544276e-06, 'epoch': 4.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4072247743606567, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 4.75}
{'loss': 0.4385, 'learning_rate': 2.1978327650002817e-06, 'epoch': 4.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4064897298812866, 'eval_runtime': 0.9389, 'eval_samples_per_second': 5.325, 'eval_steps_per_second': 1.065, 'epoch': 4.75}
{'loss': 0.3072, 'learning_rate': 2.192313083566162e-06, 'epoch': 4.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4062379598617554, 'eval_runtime': 0.9569, 'eval_samples_per_second': 5.225, 'eval_steps_per_second': 1.045, 'epoch': 4.75}
{'loss': 0.4458, 'learning_rate': 2.186799488544733e-06, 'epoch': 4.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4063550233840942, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 4.75}
{'loss': 0.4551, 'learning_rate': 2.1812919842340686e-06, 'epoch': 4.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.407543659210205, 'eval_runtime': 0.943, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 4.75}
{'loss': 0.3796, 'learning_rate': 2.1757905749274997e-06, 'epoch': 4.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.409026861190796, 'eval_runtime': 1.0385, 'eval_samples_per_second': 4.815, 'eval_steps_per_second': 0.963, 'epoch': 4.75}
{'loss': 0.3226, 'learning_rate': 2.1702952649135923e-06, 'epoch': 4.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4100775718688965, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 4.76}
{'loss': 0.4162, 'learning_rate': 2.1648060584761733e-06, 'epoch': 4.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4104889631271362, 'eval_runtime': 1.0241, 'eval_samples_per_second': 4.882, 'eval_steps_per_second': 0.976, 'epoch': 4.76}
{'loss': 0.6538, 'learning_rate': 2.1593229598943022e-06, 'epoch': 4.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4106703996658325, 'eval_runtime': 0.9886, 'eval_samples_per_second': 5.058, 'eval_steps_per_second': 1.012, 'epoch': 4.76}
{'loss': 0.4347, 'learning_rate': 2.1538459734422777e-06, 'epoch': 4.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.410798192024231, 'eval_runtime': 0.9459, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 4.76}
{'loss': 0.2768, 'learning_rate': 2.1483751033896394e-06, 'epoch': 4.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4124091863632202, 'eval_runtime': 1.0422, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 4.76}
{'loss': 0.3171, 'learning_rate': 2.142910354001154e-06, 'epoch': 4.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4137903451919556, 'eval_runtime': 0.9439, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 4.76}
{'loss': 0.5211, 'learning_rate': 2.137451729536818e-06, 'epoch': 4.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4152151346206665, 'eval_runtime': 1.0557, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 4.77}
{'loss': 0.4465, 'learning_rate': 2.1319992342518492e-06, 'epoch': 4.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4162780046463013, 'eval_runtime': 1.0576, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 4.77}
{'loss': 0.4052, 'learning_rate': 2.126552872396699e-06, 'epoch': 4.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4167907238006592, 'eval_runtime': 0.9698, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 4.77}
{'loss': 0.3044, 'learning_rate': 2.1211126482170272e-06, 'epoch': 4.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4174028635025024, 'eval_runtime': 1.0515, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 4.77}
{'loss': 0.3634, 'learning_rate': 2.1156785659537083e-06, 'epoch': 4.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4184638261795044, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 4.77}
{'loss': 0.5341, 'learning_rate': 2.1102506298428417e-06, 'epoch': 4.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181262254714966, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 4.77}
{'loss': 0.3515, 'learning_rate': 2.104828844115715e-06, 'epoch': 4.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4186128377914429, 'eval_runtime': 0.9598, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 4.78}
{'loss': 0.4983, 'learning_rate': 2.099413212998841e-06, 'epoch': 4.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4193637371063232, 'eval_runtime': 0.9785, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 4.78}
{'loss': 0.5132, 'learning_rate': 2.0940037407139245e-06, 'epoch': 4.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4191545248031616, 'eval_runtime': 0.9826, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 4.78}
{'loss': 0.539, 'learning_rate': 2.088600431477872e-06, 'epoch': 4.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4176634550094604, 'eval_runtime': 1.0412, 'eval_samples_per_second': 4.802, 'eval_steps_per_second': 0.96, 'epoch': 4.78}
{'loss': 0.449, 'learning_rate': 2.0832032895027807e-06, 'epoch': 4.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4171481132507324, 'eval_runtime': 1.0072, 'eval_samples_per_second': 4.964, 'eval_steps_per_second': 0.993, 'epoch': 4.78}
{'loss': 0.453, 'learning_rate': 2.077812318995951e-06, 'epoch': 4.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4162847995758057, 'eval_runtime': 0.9397, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 4.78}
{'loss': 0.3686, 'learning_rate': 2.0724275241598637e-06, 'epoch': 4.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4156579971313477, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 4.79}
{'loss': 0.5246, 'learning_rate': 2.067048909192183e-06, 'epoch': 4.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4158079624176025, 'eval_runtime': 0.9395, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 4.79}
{'loss': 0.259, 'learning_rate': 2.061676478285769e-06, 'epoch': 4.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4168137311935425, 'eval_runtime': 0.9457, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 4.79}
{'loss': 0.3999, 'learning_rate': 2.0563102356286434e-06, 'epoch': 4.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4178156852722168, 'eval_runtime': 0.9817, 'eval_samples_per_second': 5.093, 'eval_steps_per_second': 1.019, 'epoch': 4.79}
{'loss': 0.3549, 'learning_rate': 2.050950185404018e-06, 'epoch': 4.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417534589767456, 'eval_runtime': 1.0114, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 4.79}
{'loss': 0.4645, 'learning_rate': 2.0455963317902714e-06, 'epoch': 4.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4170501232147217, 'eval_runtime': 1.0174, 'eval_samples_per_second': 4.914, 'eval_steps_per_second': 0.983, 'epoch': 4.79}
{'loss': 0.4846, 'learning_rate': 2.040248678960949e-06, 'epoch': 4.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4167548418045044, 'eval_runtime': 0.9484, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 4.8}
{'loss': 0.4189, 'learning_rate': 2.0349072310847718e-06, 'epoch': 4.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4155945777893066, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 4.8}
{'loss': 0.3409, 'learning_rate': 2.029571992325614e-06, 'epoch': 4.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.415124773979187, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 4.8}
{'loss': 0.6745, 'learning_rate': 2.0242429668425147e-06, 'epoch': 4.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4153022766113281, 'eval_runtime': 0.9445, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 4.8}
{'loss': 0.5136, 'learning_rate': 2.0189201587896646e-06, 'epoch': 4.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.414819359779358, 'eval_runtime': 1.0399, 'eval_samples_per_second': 4.808, 'eval_steps_per_second': 0.962, 'epoch': 4.8}
{'loss': 0.3829, 'learning_rate': 2.013603572316417e-06, 'epoch': 4.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4138840436935425, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 4.8}
{'loss': 0.4573, 'learning_rate': 2.0082932115672672e-06, 'epoch': 4.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4135295152664185, 'eval_runtime': 1.0295, 'eval_samples_per_second': 4.857, 'eval_steps_per_second': 0.971, 'epoch': 4.81}
{'loss': 0.4115, 'learning_rate': 2.0029890806818564e-06, 'epoch': 4.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4126033782958984, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 4.81}
{'loss': 0.4337, 'learning_rate': 1.9976911837949796e-06, 'epoch': 4.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4124951362609863, 'eval_runtime': 1.0346, 'eval_samples_per_second': 4.833, 'eval_steps_per_second': 0.967, 'epoch': 4.81}
{'loss': 0.3387, 'learning_rate': 1.992399525036556e-06, 'epoch': 4.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.413109540939331, 'eval_runtime': 0.965, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 4.81}
{'loss': 0.3932, 'learning_rate': 1.987114108531658e-06, 'epoch': 4.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4136860370635986, 'eval_runtime': 0.9711, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 4.81}
{'loss': 0.3063, 'learning_rate': 1.9818349384004832e-06, 'epoch': 4.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4147541522979736, 'eval_runtime': 0.9982, 'eval_samples_per_second': 5.009, 'eval_steps_per_second': 1.002, 'epoch': 4.81}
{'loss': 0.4848, 'learning_rate': 1.97656201875836e-06, 'epoch': 4.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4152652025222778, 'eval_runtime': 0.9535, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 4.82}
{'loss': 0.3735, 'learning_rate': 1.9712953537157454e-06, 'epoch': 4.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4160394668579102, 'eval_runtime': 0.9585, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 4.82}
{'loss': 0.6204, 'learning_rate': 1.9660349473782236e-06, 'epoch': 4.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4171525239944458, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 4.82}
{'loss': 0.4009, 'learning_rate': 1.960780803846497e-06, 'epoch': 4.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4187047481536865, 'eval_runtime': 0.9746, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 4.82}
{'loss': 0.2974, 'learning_rate': 1.9555329272163837e-06, 'epoch': 4.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4194881916046143, 'eval_runtime': 1.0199, 'eval_samples_per_second': 4.903, 'eval_steps_per_second': 0.981, 'epoch': 4.82}
{'loss': 0.2908, 'learning_rate': 1.9502913215788254e-06, 'epoch': 4.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4198921918869019, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 4.82}
{'loss': 0.5404, 'learning_rate': 1.9450559910198607e-06, 'epoch': 4.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4205138683319092, 'eval_runtime': 0.9407, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 4.82}
{'loss': 0.3318, 'learning_rate': 1.9398269396206503e-06, 'epoch': 4.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4204083681106567, 'eval_runtime': 0.9553, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 4.83}
{'loss': 0.3925, 'learning_rate': 1.9346041714574538e-06, 'epoch': 4.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4207966327667236, 'eval_runtime': 1.056, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 4.83}
{'loss': 0.4283, 'learning_rate': 1.9293876906016294e-06, 'epoch': 4.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4207298755645752, 'eval_runtime': 0.9793, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 4.83}
{'loss': 0.3806, 'learning_rate': 1.9241775011196453e-06, 'epoch': 4.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4206472635269165, 'eval_runtime': 0.9539, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 4.83}
{'loss': 0.3429, 'learning_rate': 1.9189736070730547e-06, 'epoch': 4.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420665979385376, 'eval_runtime': 1.0408, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 4.83}
{'loss': 0.3063, 'learning_rate': 1.9137760125185057e-06, 'epoch': 4.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4219255447387695, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 4.83}
{'loss': 0.3108, 'learning_rate': 1.9085847215077367e-06, 'epoch': 4.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4230440855026245, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 4.84}
{'loss': 0.4144, 'learning_rate': 1.9033997380875779e-06, 'epoch': 4.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4233014583587646, 'eval_runtime': 0.9452, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 4.84}
{'loss': 0.3698, 'learning_rate': 1.8982210662999268e-06, 'epoch': 4.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423358678817749, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 4.84}
{'loss': 0.3928, 'learning_rate': 1.8930487101817796e-06, 'epoch': 4.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4240164756774902, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 4.84}
{'loss': 0.4445, 'learning_rate': 1.8878826737651967e-06, 'epoch': 4.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4249619245529175, 'eval_runtime': 0.9372, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 4.84}
{'loss': 0.384, 'learning_rate': 1.8827229610773135e-06, 'epoch': 4.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4251817464828491, 'eval_runtime': 0.9385, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 4.84}
{'loss': 0.4282, 'learning_rate': 1.8775695761403434e-06, 'epoch': 4.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4244109392166138, 'eval_runtime': 1.0228, 'eval_samples_per_second': 4.889, 'eval_steps_per_second': 0.978, 'epoch': 4.85}
{'loss': 0.4079, 'learning_rate': 1.8724225229715587e-06, 'epoch': 4.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4235566854476929, 'eval_runtime': 0.9891, 'eval_samples_per_second': 5.055, 'eval_steps_per_second': 1.011, 'epoch': 4.85}
{'loss': 0.3416, 'learning_rate': 1.8672818055832998e-06, 'epoch': 4.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4226611852645874, 'eval_runtime': 0.9571, 'eval_samples_per_second': 5.224, 'eval_steps_per_second': 1.045, 'epoch': 4.85}
{'loss': 0.4183, 'learning_rate': 1.8621474279829622e-06, 'epoch': 4.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4216135740280151, 'eval_runtime': 1.0407, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 4.85}
{'loss': 0.4671, 'learning_rate': 1.857019394173012e-06, 'epoch': 4.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4208564758300781, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 4.85}
{'loss': 0.3691, 'learning_rate': 1.8518977081509582e-06, 'epoch': 4.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420084834098816, 'eval_runtime': 0.9729, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 4.85}
{'loss': 0.2715, 'learning_rate': 1.8467823739093637e-06, 'epoch': 4.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.419824242591858, 'eval_runtime': 1.0243, 'eval_samples_per_second': 4.882, 'eval_steps_per_second': 0.976, 'epoch': 4.86}
{'loss': 0.5692, 'learning_rate': 1.8416733954358478e-06, 'epoch': 4.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4197930097579956, 'eval_runtime': 1.0089, 'eval_samples_per_second': 4.956, 'eval_steps_per_second': 0.991, 'epoch': 4.86}
{'loss': 0.3503, 'learning_rate': 1.8365707767130613e-06, 'epoch': 4.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4191558361053467, 'eval_runtime': 1.0813, 'eval_samples_per_second': 4.624, 'eval_steps_per_second': 0.925, 'epoch': 4.86}
{'loss': 0.3754, 'learning_rate': 1.8314745217187102e-06, 'epoch': 4.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181464910507202, 'eval_runtime': 1.0836, 'eval_samples_per_second': 4.614, 'eval_steps_per_second': 0.923, 'epoch': 4.86}
{'loss': 0.3511, 'learning_rate': 1.8263846344255332e-06, 'epoch': 4.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417041301727295, 'eval_runtime': 1.0705, 'eval_samples_per_second': 4.671, 'eval_steps_per_second': 0.934, 'epoch': 4.86}
{'loss': 0.3239, 'learning_rate': 1.8213011188013053e-06, 'epoch': 4.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4159513711929321, 'eval_runtime': 0.9936, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 4.86}
{'loss': 0.2326, 'learning_rate': 1.8162239788088375e-06, 'epoch': 4.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4152544736862183, 'eval_runtime': 1.1021, 'eval_samples_per_second': 4.537, 'eval_steps_per_second': 0.907, 'epoch': 4.87}
{'loss': 0.4248, 'learning_rate': 1.81115321840597e-06, 'epoch': 4.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4151744842529297, 'eval_runtime': 1.0135, 'eval_samples_per_second': 4.933, 'eval_steps_per_second': 0.987, 'epoch': 4.87}
{'loss': 0.3363, 'learning_rate': 1.8060888415455667e-06, 'epoch': 4.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.415701985359192, 'eval_runtime': 1.0598, 'eval_samples_per_second': 4.718, 'eval_steps_per_second': 0.944, 'epoch': 4.87}
{'loss': 0.386, 'learning_rate': 1.801030852175516e-06, 'epoch': 4.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4161993265151978, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 4.87}
{'loss': 0.4309, 'learning_rate': 1.7959792542387356e-06, 'epoch': 4.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.416416883468628, 'eval_runtime': 1.0781, 'eval_samples_per_second': 4.638, 'eval_steps_per_second': 0.928, 'epoch': 4.87}
{'loss': 0.5378, 'learning_rate': 1.7909340516731433e-06, 'epoch': 4.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4163473844528198, 'eval_runtime': 1.0884, 'eval_samples_per_second': 4.594, 'eval_steps_per_second': 0.919, 'epoch': 4.87}
{'loss': 0.4059, 'learning_rate': 1.7858952484116898e-06, 'epoch': 4.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.416969656944275, 'eval_runtime': 1.0993, 'eval_samples_per_second': 4.548, 'eval_steps_per_second': 0.91, 'epoch': 4.88}
{'loss': 0.2778, 'learning_rate': 1.7808628483823264e-06, 'epoch': 4.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417340874671936, 'eval_runtime': 0.9866, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 4.88}
{'loss': 0.4644, 'learning_rate': 1.7758368555080118e-06, 'epoch': 4.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4174699783325195, 'eval_runtime': 1.1066, 'eval_samples_per_second': 4.519, 'eval_steps_per_second': 0.904, 'epoch': 4.88}
{'loss': 0.3915, 'learning_rate': 1.7708172737067219e-06, 'epoch': 4.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4173576831817627, 'eval_runtime': 0.993, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 4.88}
{'loss': 0.3955, 'learning_rate': 1.7658041068914223e-06, 'epoch': 4.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4170995950698853, 'eval_runtime': 0.988, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 4.88}
{'loss': 0.2557, 'learning_rate': 1.7607973589700822e-06, 'epoch': 4.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4170267581939697, 'eval_runtime': 0.9811, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 4.88}
{'loss': 0.3472, 'learning_rate': 1.7557970338456664e-06, 'epoch': 4.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4169081449508667, 'eval_runtime': 1.0856, 'eval_samples_per_second': 4.606, 'eval_steps_per_second': 0.921, 'epoch': 4.89}
{'loss': 0.5789, 'learning_rate': 1.750803135416137e-06, 'epoch': 4.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4162729978561401, 'eval_runtime': 0.9764, 'eval_samples_per_second': 5.121, 'eval_steps_per_second': 1.024, 'epoch': 4.89}
{'loss': 0.3256, 'learning_rate': 1.745815667574442e-06, 'epoch': 4.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4163376092910767, 'eval_runtime': 0.9779, 'eval_samples_per_second': 5.113, 'eval_steps_per_second': 1.023, 'epoch': 4.89}
{'loss': 0.5984, 'learning_rate': 1.7408346342085147e-06, 'epoch': 4.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4167882204055786, 'eval_runtime': 1.0401, 'eval_samples_per_second': 4.807, 'eval_steps_per_second': 0.961, 'epoch': 4.89}
{'loss': 0.3964, 'learning_rate': 1.7358600392012815e-06, 'epoch': 4.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4161792993545532, 'eval_runtime': 1.0876, 'eval_samples_per_second': 4.597, 'eval_steps_per_second': 0.919, 'epoch': 4.89}
{'loss': 0.3998, 'learning_rate': 1.7308918864306345e-06, 'epoch': 4.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4152802228927612, 'eval_runtime': 1.0479, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 4.89}
{'loss': 0.4639, 'learning_rate': 1.7259301797694606e-06, 'epoch': 4.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4146780967712402, 'eval_runtime': 1.0065, 'eval_samples_per_second': 4.968, 'eval_steps_per_second': 0.994, 'epoch': 4.9}
{'loss': 0.3293, 'learning_rate': 1.720974923085611e-06, 'epoch': 4.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4152686595916748, 'eval_runtime': 1.0839, 'eval_samples_per_second': 4.613, 'eval_steps_per_second': 0.923, 'epoch': 4.9}
{'loss': 0.4092, 'learning_rate': 1.7160261202419116e-06, 'epoch': 4.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4158345460891724, 'eval_runtime': 0.9814, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 4.9}
{'loss': 0.3406, 'learning_rate': 1.7110837750961562e-06, 'epoch': 4.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4158549308776855, 'eval_runtime': 1.0951, 'eval_samples_per_second': 4.566, 'eval_steps_per_second': 0.913, 'epoch': 4.9}
{'loss': 0.2911, 'learning_rate': 1.7061478915011098e-06, 'epoch': 4.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4160109758377075, 'eval_runtime': 1.004, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 4.9}
{'loss': 0.3668, 'learning_rate': 1.7012184733044945e-06, 'epoch': 4.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4158579111099243, 'eval_runtime': 1.094, 'eval_samples_per_second': 4.57, 'eval_steps_per_second': 0.914, 'epoch': 4.9}
{'loss': 0.4346, 'learning_rate': 1.696295524348991e-06, 'epoch': 4.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.415460228919983, 'eval_runtime': 0.9793, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 4.91}
{'loss': 0.3531, 'learning_rate': 1.691379048472248e-06, 'epoch': 4.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4151686429977417, 'eval_runtime': 1.0805, 'eval_samples_per_second': 4.628, 'eval_steps_per_second': 0.926, 'epoch': 4.91}
{'loss': 0.3846, 'learning_rate': 1.6864690495068515e-06, 'epoch': 4.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4143555164337158, 'eval_runtime': 1.0061, 'eval_samples_per_second': 4.97, 'eval_steps_per_second': 0.994, 'epoch': 4.91}
{'loss': 0.5863, 'learning_rate': 1.6815655312803536e-06, 'epoch': 4.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4134690761566162, 'eval_runtime': 1.0431, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 4.91}
{'loss': 0.4666, 'learning_rate': 1.676668497615246e-06, 'epoch': 4.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.412580132484436, 'eval_runtime': 1.0935, 'eval_samples_per_second': 4.573, 'eval_steps_per_second': 0.915, 'epoch': 4.91}
{'loss': 0.4371, 'learning_rate': 1.6717779523289657e-06, 'epoch': 4.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4121707677841187, 'eval_runtime': 1.0693, 'eval_samples_per_second': 4.676, 'eval_steps_per_second': 0.935, 'epoch': 4.91}


wandb: Network error (SSLError), entering retry loop.


{'loss': 0.433, 'learning_rate': 1.6668938992338979e-06, 'epoch': 4.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4124759435653687, 'eval_runtime': 1.0857, 'eval_samples_per_second': 4.605, 'eval_steps_per_second': 0.921, 'epoch': 4.91}
{'loss': 0.4084, 'learning_rate': 1.6620163421373613e-06, 'epoch': 4.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4138773679733276, 'eval_runtime': 1.0321, 'eval_samples_per_second': 4.845, 'eval_steps_per_second': 0.969, 'epoch': 4.92}
{'loss': 0.3788, 'learning_rate': 1.6571452848416104e-06, 'epoch': 4.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.41513192653656, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 4.92}
{'loss': 0.4258, 'learning_rate': 1.6522807311438327e-06, 'epoch': 4.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4163234233856201, 'eval_runtime': 1.0262, 'eval_samples_per_second': 4.873, 'eval_steps_per_second': 0.975, 'epoch': 4.92}
{'loss': 0.3379, 'learning_rate': 1.647422684836153e-06, 'epoch': 4.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417014718055725, 'eval_runtime': 1.0783, 'eval_samples_per_second': 4.637, 'eval_steps_per_second': 0.927, 'epoch': 4.92}
{'loss': 0.3823, 'learning_rate': 1.642571149705614e-06, 'epoch': 4.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417779564857483, 'eval_runtime': 0.9771, 'eval_samples_per_second': 5.117, 'eval_steps_per_second': 1.023, 'epoch': 4.92}
{'loss': 0.4244, 'learning_rate': 1.6377261295341873e-06, 'epoch': 4.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.418414831161499, 'eval_runtime': 0.9771, 'eval_samples_per_second': 5.117, 'eval_steps_per_second': 1.023, 'epoch': 4.92}
{'loss': 0.473, 'learning_rate': 1.6328876280987694e-06, 'epoch': 4.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4180551767349243, 'eval_runtime': 1.0644, 'eval_samples_per_second': 4.697, 'eval_steps_per_second': 0.939, 'epoch': 4.93}
{'loss': 0.3995, 'learning_rate': 1.628055649171162e-06, 'epoch': 4.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4179389476776123, 'eval_runtime': 1.0695, 'eval_samples_per_second': 4.675, 'eval_steps_per_second': 0.935, 'epoch': 4.93}
{'loss': 0.4451, 'learning_rate': 1.6232301965180996e-06, 'epoch': 4.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417784571647644, 'eval_runtime': 1.0163, 'eval_samples_per_second': 4.92, 'eval_steps_per_second': 0.984, 'epoch': 4.93}
{'loss': 0.4122, 'learning_rate': 1.618411273901217e-06, 'epoch': 4.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4183404445648193, 'eval_runtime': 0.9834, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 4.93}
{'loss': 0.4539, 'learning_rate': 1.6135988850770624e-06, 'epoch': 4.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4185677766799927, 'eval_runtime': 1.0179, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 4.93}
{'loss': 0.4508, 'learning_rate': 1.6087930337970891e-06, 'epoch': 4.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4181790351867676, 'eval_runtime': 1.0848, 'eval_samples_per_second': 4.609, 'eval_steps_per_second': 0.922, 'epoch': 4.93}
{'loss': 0.4874, 'learning_rate': 1.6039937238076607e-06, 'epoch': 4.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4177072048187256, 'eval_runtime': 1.0176, 'eval_samples_per_second': 4.913, 'eval_steps_per_second': 0.983, 'epoch': 4.94}
{'loss': 0.3045, 'learning_rate': 1.5992009588500322e-06, 'epoch': 4.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.416075587272644, 'eval_runtime': 0.9591, 'eval_samples_per_second': 5.213, 'eval_steps_per_second': 1.043, 'epoch': 4.94}
{'loss': 0.389, 'learning_rate': 1.5944147426603607e-06, 'epoch': 4.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4147084951400757, 'eval_runtime': 1.0824, 'eval_samples_per_second': 4.619, 'eval_steps_per_second': 0.924, 'epoch': 4.94}
{'loss': 0.5882, 'learning_rate': 1.5896350789697034e-06, 'epoch': 4.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4148825407028198, 'eval_runtime': 1.0883, 'eval_samples_per_second': 4.594, 'eval_steps_per_second': 0.919, 'epoch': 4.94}
{'loss': 0.366, 'learning_rate': 1.584861971503996e-06, 'epoch': 4.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4149726629257202, 'eval_runtime': 0.9861, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 4.94}
{'loss': 0.3938, 'learning_rate': 1.5800954239840794e-06, 'epoch': 4.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4149692058563232, 'eval_runtime': 1.0723, 'eval_samples_per_second': 4.663, 'eval_steps_per_second': 0.933, 'epoch': 4.94}
{'loss': 0.4902, 'learning_rate': 1.5753354401256694e-06, 'epoch': 4.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4148813486099243, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 4.95}
{'loss': 0.4584, 'learning_rate': 1.5705820236393688e-06, 'epoch': 4.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4146779775619507, 'eval_runtime': 1.0747, 'eval_samples_per_second': 4.653, 'eval_steps_per_second': 0.931, 'epoch': 4.95}
{'loss': 0.3825, 'learning_rate': 1.5658351782306636e-06, 'epoch': 4.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4144179821014404, 'eval_runtime': 1.0664, 'eval_samples_per_second': 4.689, 'eval_steps_per_second': 0.938, 'epoch': 4.95}
{'loss': 0.5819, 'learning_rate': 1.5610949075999126e-06, 'epoch': 4.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4144059419631958, 'eval_runtime': 1.0769, 'eval_samples_per_second': 4.643, 'eval_steps_per_second': 0.929, 'epoch': 4.95}
{'loss': 0.3601, 'learning_rate': 1.5563612154423535e-06, 'epoch': 4.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4148643016815186, 'eval_runtime': 1.0691, 'eval_samples_per_second': 4.677, 'eval_steps_per_second': 0.935, 'epoch': 4.95}
{'loss': 0.5184, 'learning_rate': 1.5516341054480887e-06, 'epoch': 4.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4156107902526855, 'eval_runtime': 1.0655, 'eval_samples_per_second': 4.693, 'eval_steps_per_second': 0.939, 'epoch': 4.95}
{'loss': 0.3383, 'learning_rate': 1.546913581302104e-06, 'epoch': 4.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4158236980438232, 'eval_runtime': 1.0255, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 4.96}
{'loss': 0.397, 'learning_rate': 1.5421996466842315e-06, 'epoch': 4.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4156588315963745, 'eval_runtime': 1.0411, 'eval_samples_per_second': 4.802, 'eval_steps_per_second': 0.96, 'epoch': 4.96}
{'loss': 0.4893, 'learning_rate': 1.5374923052691848e-06, 'epoch': 4.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4158244132995605, 'eval_runtime': 0.9882, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 4.96}
{'loss': 0.5306, 'learning_rate': 1.5327915607265254e-06, 'epoch': 4.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4150797128677368, 'eval_runtime': 1.0795, 'eval_samples_per_second': 4.632, 'eval_steps_per_second': 0.926, 'epoch': 4.96}
{'loss': 0.729, 'learning_rate': 1.5280974167206764e-06, 'epoch': 4.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.414756178855896, 'eval_runtime': 1.094, 'eval_samples_per_second': 4.57, 'eval_steps_per_second': 0.914, 'epoch': 4.96}
{'loss': 0.3928, 'learning_rate': 1.5234098769109195e-06, 'epoch': 4.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4159719944000244, 'eval_runtime': 1.0228, 'eval_samples_per_second': 4.889, 'eval_steps_per_second': 0.978, 'epoch': 4.96}
{'loss': 0.4754, 'learning_rate': 1.518728944951383e-06, 'epoch': 4.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.417409896850586, 'eval_runtime': 1.0298, 'eval_samples_per_second': 4.855, 'eval_steps_per_second': 0.971, 'epoch': 4.97}
{'loss': 0.5057, 'learning_rate': 1.514054624491046e-06, 'epoch': 4.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4184978008270264, 'eval_runtime': 1.0895, 'eval_samples_per_second': 4.589, 'eval_steps_per_second': 0.918, 'epoch': 4.97}
{'loss': 0.4319, 'learning_rate': 1.5093869191737298e-06, 'epoch': 4.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.418982982635498, 'eval_runtime': 0.9578, 'eval_samples_per_second': 5.22, 'eval_steps_per_second': 1.044, 'epoch': 4.97}
{'loss': 0.3372, 'learning_rate': 1.5047258326381075e-06, 'epoch': 4.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4193390607833862, 'eval_runtime': 1.0787, 'eval_samples_per_second': 4.635, 'eval_steps_per_second': 0.927, 'epoch': 4.97}
{'loss': 0.3145, 'learning_rate': 1.500071368517686e-06, 'epoch': 4.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420174479484558, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 4.97}
{'loss': 0.4051, 'learning_rate': 1.495423530440807e-06, 'epoch': 4.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4216079711914062, 'eval_runtime': 1.0003, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 4.97}
{'loss': 0.4086, 'learning_rate': 1.4907823220306605e-06, 'epoch': 4.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.422749638557434, 'eval_runtime': 1.0904, 'eval_samples_per_second': 4.585, 'eval_steps_per_second': 0.917, 'epoch': 4.98}
{'loss': 0.4856, 'learning_rate': 1.4861477469052487e-06, 'epoch': 4.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.423643946647644, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 4.98}
{'loss': 0.357, 'learning_rate': 1.4815198086774207e-06, 'epoch': 4.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4248374700546265, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 4.98}
{'loss': 0.4216, 'learning_rate': 1.4768985109548417e-06, 'epoch': 4.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4243189096450806, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 4.98}
{'loss': 0.5199, 'learning_rate': 1.4722838573400023e-06, 'epoch': 4.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4232057332992554, 'eval_runtime': 0.9794, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 4.98}
{'loss': 0.5908, 'learning_rate': 1.4676758514302137e-06, 'epoch': 4.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4219669103622437, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 4.98}
{'loss': 0.3739, 'learning_rate': 1.4630744968176102e-06, 'epoch': 4.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4210067987442017, 'eval_runtime': 0.9867, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 4.99}
{'loss': 0.4242, 'learning_rate': 1.458479797089134e-06, 'epoch': 4.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4202841520309448, 'eval_runtime': 0.9758, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 4.99}
{'loss': 0.4553, 'learning_rate': 1.453891755826541e-06, 'epoch': 4.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4195842742919922, 'eval_runtime': 0.9909, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 4.99}
{'loss': 0.3329, 'learning_rate': 1.449310376606402e-06, 'epoch': 4.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4197555780410767, 'eval_runtime': 0.9733, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 4.99}
{'loss': 0.3241, 'learning_rate': 1.444735663000084e-06, 'epoch': 4.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420064091682434, 'eval_runtime': 1.0041, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 4.99}
{'loss': 0.4839, 'learning_rate': 1.4401676185737713e-06, 'epoch': 4.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420170545578003, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 4.99}
{'loss': 0.4206, 'learning_rate': 1.4356062468884368e-06, 'epoch': 5.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4201750755310059, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 5.0}
{'loss': 0.2371, 'learning_rate': 1.4310515514998569e-06, 'epoch': 5.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.420973300933838, 'eval_runtime': 1.0224, 'eval_samples_per_second': 4.89, 'eval_steps_per_second': 0.978, 'epoch': 5.0}
{'loss': 0.5557, 'learning_rate': 1.4265035359586088e-06, 'epoch': 5.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.421730875968933, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 5.0}
{'loss': 0.4015, 'learning_rate': 1.4219622038100544e-06, 'epoch': 5.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4218332767486572, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 5.0}




{'loss': 0.411, 'learning_rate': 1.4174275585943486e-06, 'epoch': 5.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4222588539123535, 'eval_runtime': 1.0003, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 5.0}
{'loss': 0.3789, 'learning_rate': 1.4128996038464315e-06, 'epoch': 5.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4227293729782104, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 5.0}
{'loss': 0.4904, 'learning_rate': 1.4083783430960352e-06, 'epoch': 5.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4239568710327148, 'eval_runtime': 0.9538, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 5.0}
{'loss': 0.4352, 'learning_rate': 1.4038637798676635e-06, 'epoch': 5.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4247791767120361, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 5.01}
{'loss': 0.2651, 'learning_rate': 1.3993559176806036e-06, 'epoch': 5.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4268256425857544, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 5.01}
{'loss': 0.5527, 'learning_rate': 1.3948547600489271e-06, 'epoch': 5.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4284456968307495, 'eval_runtime': 0.96, 'eval_samples_per_second': 5.208, 'eval_steps_per_second': 1.042, 'epoch': 5.01}
{'loss': 0.3688, 'learning_rate': 1.39036031048146e-06, 'epoch': 5.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4303234815597534, 'eval_runtime': 1.0265, 'eval_samples_per_second': 4.871, 'eval_steps_per_second': 0.974, 'epoch': 5.01}
{'loss': 0.3375, 'learning_rate': 1.385872572481818e-06, 'epoch': 5.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.431677222251892, 'eval_runtime': 0.9802, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 5.01}
{'loss': 0.2952, 'learning_rate': 1.3813915495483744e-06, 'epoch': 5.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4332929849624634, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 5.01}
{'loss': 0.2904, 'learning_rate': 1.3769172451742718e-06, 'epoch': 5.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4341657161712646, 'eval_runtime': 1.0097, 'eval_samples_per_second': 4.952, 'eval_steps_per_second': 0.99, 'epoch': 5.02}
{'loss': 0.5662, 'learning_rate': 1.3724496628474104e-06, 'epoch': 5.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4348198175430298, 'eval_runtime': 0.9931, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 5.02}
{'loss': 0.2482, 'learning_rate': 1.3679888060504608e-06, 'epoch': 5.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4355933666229248, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 5.02}
{'loss': 0.2388, 'learning_rate': 1.3635346782608406e-06, 'epoch': 5.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.436398983001709, 'eval_runtime': 1.0313, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 5.02}
{'loss': 0.3817, 'learning_rate': 1.359087282950723e-06, 'epoch': 5.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.43654203414917, 'eval_runtime': 1.0123, 'eval_samples_per_second': 4.939, 'eval_steps_per_second': 0.988, 'epoch': 5.02}
{'loss': 0.309, 'learning_rate': 1.3546466235870425e-06, 'epoch': 5.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.436561107635498, 'eval_runtime': 0.9733, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 5.02}
{'loss': 0.2515, 'learning_rate': 1.350212703631466e-06, 'epoch': 5.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4366369247436523, 'eval_runtime': 1.0195, 'eval_samples_per_second': 4.904, 'eval_steps_per_second': 0.981, 'epoch': 5.03}
{'loss': 0.4523, 'learning_rate': 1.345785526540424e-06, 'epoch': 5.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4363315105438232, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 5.03}
{'loss': 0.4018, 'learning_rate': 1.3413650957650792e-06, 'epoch': 5.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4361830949783325, 'eval_runtime': 0.9835, 'eval_samples_per_second': 5.084, 'eval_steps_per_second': 1.017, 'epoch': 5.03}
{'loss': 0.3305, 'learning_rate': 1.3369514147513386e-06, 'epoch': 5.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4365506172180176, 'eval_runtime': 0.9792, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 5.03}
{'loss': 0.35, 'learning_rate': 1.3325444869398495e-06, 'epoch': 5.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438484787940979, 'eval_runtime': 0.9701, 'eval_samples_per_second': 5.154, 'eval_steps_per_second': 1.031, 'epoch': 5.03}
{'loss': 0.2779, 'learning_rate': 1.3281443157659945e-06, 'epoch': 5.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394477605819702, 'eval_runtime': 1.0203, 'eval_samples_per_second': 4.901, 'eval_steps_per_second': 0.98, 'epoch': 5.03}
{'loss': 0.3558, 'learning_rate': 1.3237509046598852e-06, 'epoch': 5.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400991201400757, 'eval_runtime': 1.0451, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 5.04}
{'loss': 0.4088, 'learning_rate': 1.319364257046365e-06, 'epoch': 5.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4413377046585083, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 5.04}
{'loss': 0.2689, 'learning_rate': 1.3149843763450122e-06, 'epoch': 5.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442437767982483, 'eval_runtime': 0.9863, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 5.04}
{'loss': 0.3573, 'learning_rate': 1.3106112659701154e-06, 'epoch': 5.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4426398277282715, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 5.04}
{'loss': 0.436, 'learning_rate': 1.306244929330699e-06, 'epoch': 5.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4424259662628174, 'eval_runtime': 0.9424, 'eval_samples_per_second': 5.306, 'eval_steps_per_second': 1.061, 'epoch': 5.04}
{'loss': 0.3113, 'learning_rate': 1.3018853698305011e-06, 'epoch': 5.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4420422315597534, 'eval_runtime': 1.0368, 'eval_samples_per_second': 4.823, 'eval_steps_per_second': 0.965, 'epoch': 5.04}
{'loss': 0.295, 'learning_rate': 1.2975325908679747e-06, 'epoch': 5.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4416604042053223, 'eval_runtime': 1.0423, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 5.05}
{'loss': 0.3549, 'learning_rate': 1.2931865958362933e-06, 'epoch': 5.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4412540197372437, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 5.05}
{'loss': 0.2838, 'learning_rate': 1.2888473881233377e-06, 'epoch': 5.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4413689374923706, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 5.05}
{'loss': 0.4172, 'learning_rate': 1.2845149711116977e-06, 'epoch': 5.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441035270690918, 'eval_runtime': 0.988, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 5.05}
{'loss': 0.2808, 'learning_rate': 1.28018934817867e-06, 'epoch': 5.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441064476966858, 'eval_runtime': 0.9847, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 5.05}
{'loss': 0.274, 'learning_rate': 1.2758705226962564e-06, 'epoch': 5.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4405559301376343, 'eval_runtime': 0.9608, 'eval_samples_per_second': 5.204, 'eval_steps_per_second': 1.041, 'epoch': 5.05}
{'loss': 0.3332, 'learning_rate': 1.271558498031159e-06, 'epoch': 5.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440832257270813, 'eval_runtime': 1.0027, 'eval_samples_per_second': 4.986, 'eval_steps_per_second': 0.997, 'epoch': 5.06}
{'loss': 0.3501, 'learning_rate': 1.2672532775447755e-06, 'epoch': 5.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4414418935775757, 'eval_runtime': 1.0497, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 5.06}
{'loss': 0.3553, 'learning_rate': 1.262954864593209e-06, 'epoch': 5.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4417685270309448, 'eval_runtime': 1.0235, 'eval_samples_per_second': 4.885, 'eval_steps_per_second': 0.977, 'epoch': 5.06}
{'loss': 0.4567, 'learning_rate': 1.2586632625272389e-06, 'epoch': 5.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4419242143630981, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 5.06}
{'loss': 0.4154, 'learning_rate': 1.2543784746923538e-06, 'epoch': 5.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4412117004394531, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 5.06}
{'loss': 0.3569, 'learning_rate': 1.2501005044287183e-06, 'epoch': 5.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395450353622437, 'eval_runtime': 1.0014, 'eval_samples_per_second': 4.993, 'eval_steps_per_second': 0.999, 'epoch': 5.06}
{'loss': 0.3579, 'learning_rate': 1.245829355071184e-06, 'epoch': 5.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4382432699203491, 'eval_runtime': 0.9573, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 5.07}
{'loss': 0.3679, 'learning_rate': 1.241565029949292e-06, 'epoch': 5.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4328837394714355, 'eval_runtime': 0.9883, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 5.07}
{'loss': 0.3166, 'learning_rate': 1.2373075323872563e-06, 'epoch': 5.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.429946780204773, 'eval_runtime': 1.035, 'eval_samples_per_second': 4.831, 'eval_steps_per_second': 0.966, 'epoch': 5.07}
{'loss': 0.504, 'learning_rate': 1.233056865703971e-06, 'epoch': 5.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4283698797225952, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 5.07}
{'loss': 0.2536, 'learning_rate': 1.2288130332130044e-06, 'epoch': 5.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4275966882705688, 'eval_runtime': 0.9375, 'eval_samples_per_second': 5.334, 'eval_steps_per_second': 1.067, 'epoch': 5.07}
{'loss': 0.3256, 'learning_rate': 1.2245760382226034e-06, 'epoch': 5.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4269922971725464, 'eval_runtime': 1.0151, 'eval_samples_per_second': 4.926, 'eval_steps_per_second': 0.985, 'epoch': 5.07}
{'loss': 0.509, 'learning_rate': 1.220345884035672e-06, 'epoch': 5.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426876425743103, 'eval_runtime': 1.0246, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 5.08}
{'loss': 0.4208, 'learning_rate': 1.2161225739497938e-06, 'epoch': 5.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426985502243042, 'eval_runtime': 0.9574, 'eval_samples_per_second': 5.222, 'eval_steps_per_second': 1.044, 'epoch': 5.08}
{'loss': 0.4207, 'learning_rate': 1.2119061112572128e-06, 'epoch': 5.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.427278995513916, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 5.08}
{'loss': 0.3148, 'learning_rate': 1.2076964992448325e-06, 'epoch': 5.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4271281957626343, 'eval_runtime': 1.0064, 'eval_samples_per_second': 4.968, 'eval_steps_per_second': 0.994, 'epoch': 5.08}
{'loss': 0.3197, 'learning_rate': 1.2034937411942205e-06, 'epoch': 5.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4274535179138184, 'eval_runtime': 0.9879, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 5.08}
{'loss': 0.3212, 'learning_rate': 1.199297840381599e-06, 'epoch': 5.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.427941918373108, 'eval_runtime': 1.0267, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 5.08}
{'loss': 0.2538, 'learning_rate': 1.1951088000778455e-06, 'epoch': 5.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4286847114562988, 'eval_runtime': 0.9388, 'eval_samples_per_second': 5.326, 'eval_steps_per_second': 1.065, 'epoch': 5.09}
{'loss': 0.2613, 'learning_rate': 1.1909266235484852e-06, 'epoch': 5.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4288963079452515, 'eval_runtime': 1.0225, 'eval_samples_per_second': 4.89, 'eval_steps_per_second': 0.978, 'epoch': 5.09}
{'loss': 0.4649, 'learning_rate': 1.1867513140537013e-06, 'epoch': 5.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4284424781799316, 'eval_runtime': 0.9814, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 5.09}
{'loss': 0.3959, 'learning_rate': 1.182582874848317e-06, 'epoch': 5.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4276801347732544, 'eval_runtime': 1.0162, 'eval_samples_per_second': 4.92, 'eval_steps_per_second': 0.984, 'epoch': 5.09}
{'loss': 0.4858, 'learning_rate': 1.178421309181801e-06, 'epoch': 5.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.426632285118103, 'eval_runtime': 1.0057, 'eval_samples_per_second': 4.972, 'eval_steps_per_second': 0.994, 'epoch': 5.09}
{'loss': 0.3228, 'learning_rate': 1.1742666202982688e-06, 'epoch': 5.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.425535798072815, 'eval_runtime': 1.0576, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 5.09}
{'loss': 0.274, 'learning_rate': 1.1701188114364648e-06, 'epoch': 5.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4258921146392822, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 5.09}
{'loss': 0.3369, 'learning_rate': 1.1659778858297821e-06, 'epoch': 5.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4266564846038818, 'eval_runtime': 0.9661, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 5.1}
{'loss': 0.278, 'learning_rate': 1.1618438467062388e-06, 'epoch': 5.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.427384853363037, 'eval_runtime': 0.9438, 'eval_samples_per_second': 5.298, 'eval_steps_per_second': 1.06, 'epoch': 5.1}
{'loss': 0.2624, 'learning_rate': 1.1577166972884902e-06, 'epoch': 5.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4282301664352417, 'eval_runtime': 0.9933, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 5.1}
{'loss': 0.433, 'learning_rate': 1.153596440793815e-06, 'epoch': 5.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4290733337402344, 'eval_runtime': 0.9722, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 5.1}
{'loss': 0.2481, 'learning_rate': 1.1494830804341273e-06, 'epoch': 5.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4298253059387207, 'eval_runtime': 0.9918, 'eval_samples_per_second': 5.041, 'eval_steps_per_second': 1.008, 'epoch': 5.1}
{'loss': 0.3819, 'learning_rate': 1.145376619415959e-06, 'epoch': 5.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4302843809127808, 'eval_runtime': 0.9535, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 5.1}
{'loss': 0.2963, 'learning_rate': 1.1412770609404632e-06, 'epoch': 5.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4308829307556152, 'eval_runtime': 0.9758, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 5.11}
{'loss': 0.3683, 'learning_rate': 1.1371844082034189e-06, 'epoch': 5.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4308035373687744, 'eval_runtime': 1.0527, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 5.11}
{'loss': 0.2581, 'learning_rate': 1.133098664395209e-06, 'epoch': 5.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4310399293899536, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 5.11}
{'loss': 0.3308, 'learning_rate': 1.1290198327008472e-06, 'epoch': 5.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4316802024841309, 'eval_runtime': 0.9494, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 5.11}
{'loss': 0.3463, 'learning_rate': 1.1249479162999456e-06, 'epoch': 5.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.431929349899292, 'eval_runtime': 1.0393, 'eval_samples_per_second': 4.811, 'eval_steps_per_second': 0.962, 'epoch': 5.11}
{'loss': 0.2782, 'learning_rate': 1.120882918366729e-06, 'epoch': 5.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.432530164718628, 'eval_runtime': 0.9709, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 5.11}
{'loss': 0.3165, 'learning_rate': 1.1168248420700345e-06, 'epoch': 5.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.433660864830017, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 5.12}
{'loss': 0.3109, 'learning_rate': 1.1127736905732978e-06, 'epoch': 5.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.434467077255249, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 5.12}
{'loss': 0.3947, 'learning_rate': 1.1087294670345561e-06, 'epoch': 5.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4357073307037354, 'eval_runtime': 1.0438, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 5.12}
{'loss': 0.4173, 'learning_rate': 1.1046921746064487e-06, 'epoch': 5.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4365910291671753, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 5.12}
{'loss': 0.3466, 'learning_rate': 1.1006618164362125e-06, 'epoch': 5.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4369666576385498, 'eval_runtime': 1.0594, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 5.12}
{'loss': 0.2617, 'learning_rate': 1.0966383956656767e-06, 'epoch': 5.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4371479749679565, 'eval_runtime': 1.0001, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 5.12}
{'loss': 0.3511, 'learning_rate': 1.0926219154312602e-06, 'epoch': 5.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4376596212387085, 'eval_runtime': 0.982, 'eval_samples_per_second': 5.092, 'eval_steps_per_second': 1.018, 'epoch': 5.13}
{'loss': 0.5094, 'learning_rate': 1.0886123788639802e-06, 'epoch': 5.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4378821849822998, 'eval_runtime': 1.0046, 'eval_samples_per_second': 4.977, 'eval_steps_per_second': 0.995, 'epoch': 5.13}
{'loss': 0.6276, 'learning_rate': 1.084609789089427e-06, 'epoch': 5.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.437720537185669, 'eval_runtime': 0.9676, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 5.13}
{'loss': 0.1945, 'learning_rate': 1.0806141492277911e-06, 'epoch': 5.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4380048513412476, 'eval_runtime': 1.0118, 'eval_samples_per_second': 4.942, 'eval_steps_per_second': 0.988, 'epoch': 5.13}
{'loss': 0.3672, 'learning_rate': 1.0766254623938354e-06, 'epoch': 5.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4378628730773926, 'eval_runtime': 1.0456, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 5.13}
{'loss': 0.4709, 'learning_rate': 1.072643731696904e-06, 'epoch': 5.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.437532663345337, 'eval_runtime': 0.9974, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 5.13}
{'loss': 0.3049, 'learning_rate': 1.0686689602409196e-06, 'epoch': 5.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4374386072158813, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 5.14}
{'loss': 0.3273, 'learning_rate': 1.064701151124381e-06, 'epoch': 5.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4375042915344238, 'eval_runtime': 0.9792, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 5.14}
{'loss': 0.2934, 'learning_rate': 1.0607403074403587e-06, 'epoch': 5.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4369784593582153, 'eval_runtime': 0.9458, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 5.14}
{'loss': 0.3075, 'learning_rate': 1.056786432276491e-06, 'epoch': 5.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4370768070220947, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 5.14}
{'loss': 0.4019, 'learning_rate': 1.0528395287149917e-06, 'epoch': 5.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4371224641799927, 'eval_runtime': 1.0328, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 5.14}
{'loss': 0.3479, 'learning_rate': 1.0488995998326247e-06, 'epoch': 5.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4373831748962402, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 5.14}
{'loss': 0.3161, 'learning_rate': 1.0449666487007348e-06, 'epoch': 5.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438032627105713, 'eval_runtime': 0.9658, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 5.15}
{'loss': 0.3152, 'learning_rate': 1.0410406783852145e-06, 'epoch': 5.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4384211301803589, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 5.15}
{'loss': 0.3497, 'learning_rate': 1.03712169194652e-06, 'epoch': 5.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383888244628906, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 5.15}
{'loss': 0.3672, 'learning_rate': 1.033209692439664e-06, 'epoch': 5.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383925199508667, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 5.15}
{'loss': 0.3742, 'learning_rate': 1.0293046829142085e-06, 'epoch': 5.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4382457733154297, 'eval_runtime': 1.017, 'eval_samples_per_second': 4.917, 'eval_steps_per_second': 0.983, 'epoch': 5.15}
{'loss': 0.3671, 'learning_rate': 1.0254066664142703e-06, 'epoch': 5.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4381455183029175, 'eval_runtime': 1.0442, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 5.15}
{'loss': 0.5702, 'learning_rate': 1.0215156459785113e-06, 'epoch': 5.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4381433725357056, 'eval_runtime': 0.9822, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 5.16}
{'loss': 0.3043, 'learning_rate': 1.0176316246401464e-06, 'epoch': 5.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383924007415771, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 5.16}
{'loss': 0.2123, 'learning_rate': 1.0137546054269231e-06, 'epoch': 5.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383207559585571, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 5.16}
{'loss': 0.3556, 'learning_rate': 1.0098845913611422e-06, 'epoch': 5.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4378021955490112, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 5.16}
{'loss': 0.3809, 'learning_rate': 1.0060215854596378e-06, 'epoch': 5.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4375954866409302, 'eval_runtime': 1.0351, 'eval_samples_per_second': 4.831, 'eval_steps_per_second': 0.966, 'epoch': 5.16}
{'loss': 0.2629, 'learning_rate': 1.0021655907337792e-06, 'epoch': 5.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4376145601272583, 'eval_runtime': 1.0338, 'eval_samples_per_second': 4.837, 'eval_steps_per_second': 0.967, 'epoch': 5.16}
{'loss': 0.3325, 'learning_rate': 9.98316610189476e-07, 'epoch': 5.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4372735023498535, 'eval_runtime': 0.9839, 'eval_samples_per_second': 5.082, 'eval_steps_per_second': 1.016, 'epoch': 5.17}
{'loss': 0.3946, 'learning_rate': 9.944746468271648e-07, 'epoch': 5.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4368795156478882, 'eval_runtime': 1.0254, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 5.17}
{'loss': 0.4943, 'learning_rate': 9.906397036418147e-07, 'epoch': 5.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4367462396621704, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 5.17}
{'loss': 0.2745, 'learning_rate': 9.868117836229196e-07, 'epoch': 5.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.436902403831482, 'eval_runtime': 0.9742, 'eval_samples_per_second': 5.132, 'eval_steps_per_second': 1.026, 'epoch': 5.17}
{'loss': 0.3298, 'learning_rate': 9.829908897545027e-07, 'epoch': 5.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4369702339172363, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 5.17}
{'loss': 0.2401, 'learning_rate': 9.791770250151078e-07, 'epoch': 5.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4373277425765991, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 5.17}
{'loss': 0.4929, 'learning_rate': 9.753701923777958e-07, 'epoch': 5.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.437910556793213, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 5.18}
{'loss': 0.2934, 'learning_rate': 9.715703948101552e-07, 'epoch': 5.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4385336637496948, 'eval_runtime': 1.0542, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 5.18}
{'loss': 0.4022, 'learning_rate': 9.677776352742775e-07, 'epoch': 5.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438891053199768, 'eval_runtime': 1.0158, 'eval_samples_per_second': 4.922, 'eval_steps_per_second': 0.984, 'epoch': 5.18}
{'loss': 0.2819, 'learning_rate': 9.639919167267785e-07, 'epoch': 5.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390556812286377, 'eval_runtime': 0.9656, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 5.18}
{'loss': 0.2997, 'learning_rate': 9.602132421187814e-07, 'epoch': 5.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438812494277954, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 5.18}
{'loss': 0.3473, 'learning_rate': 9.564416143959142e-07, 'epoch': 5.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4382171630859375, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 5.18}
{'loss': 0.413, 'learning_rate': 9.526770364983218e-07, 'epoch': 5.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4379231929779053, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 5.18}
{'loss': 0.3917, 'learning_rate': 9.489195113606442e-07, 'epoch': 5.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4378242492675781, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 5.19}
{'loss': 0.3507, 'learning_rate': 9.451690419120274e-07, 'epoch': 5.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4376897811889648, 'eval_runtime': 1.029, 'eval_samples_per_second': 4.859, 'eval_steps_per_second': 0.972, 'epoch': 5.19}
{'loss': 0.4205, 'learning_rate': 9.414256310761127e-07, 'epoch': 5.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.436950922012329, 'eval_runtime': 1.0095, 'eval_samples_per_second': 4.953, 'eval_steps_per_second': 0.991, 'epoch': 5.19}
{'loss': 0.1836, 'learning_rate': 9.376892817710503e-07, 'epoch': 5.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4365586042404175, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 5.19}
{'loss': 0.2678, 'learning_rate': 9.339599969094692e-07, 'epoch': 5.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4368934631347656, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 5.19}
{'loss': 0.3813, 'learning_rate': 9.302377793985063e-07, 'epoch': 5.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4371901750564575, 'eval_runtime': 1.0488, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 5.19}
{'loss': 0.2661, 'learning_rate': 9.265226321397814e-07, 'epoch': 5.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4379998445510864, 'eval_runtime': 0.9384, 'eval_samples_per_second': 5.328, 'eval_steps_per_second': 1.066, 'epoch': 5.2}
{'loss': 0.3128, 'learning_rate': 9.228145580294012e-07, 'epoch': 5.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438852310180664, 'eval_runtime': 0.993, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 5.2}
{'loss': 0.2698, 'learning_rate': 9.19113559957967e-07, 'epoch': 5.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.43960440158844, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 5.2}
{'loss': 0.4827, 'learning_rate': 9.154196408105565e-07, 'epoch': 5.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401668310165405, 'eval_runtime': 0.9755, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 5.2}
{'loss': 0.2912, 'learning_rate': 9.117328034667316e-07, 'epoch': 5.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44089674949646, 'eval_runtime': 0.9913, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 5.2}
{'loss': 0.262, 'learning_rate': 9.080530508005315e-07, 'epoch': 5.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4416377544403076, 'eval_runtime': 1.0515, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 5.2}
{'loss': 0.2482, 'learning_rate': 9.043803856804789e-07, 'epoch': 5.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4422003030776978, 'eval_runtime': 0.9804, 'eval_samples_per_second': 5.1, 'eval_steps_per_second': 1.02, 'epoch': 5.21}
{'loss': 0.4164, 'learning_rate': 9.007148109695629e-07, 'epoch': 5.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442320704460144, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 5.21}
{'loss': 0.4989, 'learning_rate': 8.97056329525251e-07, 'epoch': 5.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442889928817749, 'eval_runtime': 0.9624, 'eval_samples_per_second': 5.196, 'eval_steps_per_second': 1.039, 'epoch': 5.21}
{'loss': 0.5258, 'learning_rate': 8.93404944199483e-07, 'epoch': 5.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436997175216675, 'eval_runtime': 1.0197, 'eval_samples_per_second': 4.904, 'eval_steps_per_second': 0.981, 'epoch': 5.21}
{'loss': 0.3703, 'learning_rate': 8.897606578386575e-07, 'epoch': 5.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444254994392395, 'eval_runtime': 1.0437, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 5.21}
{'loss': 0.2949, 'learning_rate': 8.861234732836499e-07, 'epoch': 5.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4445655345916748, 'eval_runtime': 0.9616, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 5.21}
{'loss': 0.3836, 'learning_rate': 8.824933933697943e-07, 'epoch': 5.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4446446895599365, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 5.22}
{'loss': 0.3196, 'learning_rate': 8.788704209268862e-07, 'epoch': 5.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444793939590454, 'eval_runtime': 0.9744, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 5.22}
{'loss': 0.2496, 'learning_rate': 8.752545587791805e-07, 'epoch': 5.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4447736740112305, 'eval_runtime': 0.9728, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 5.22}
{'loss': 0.6158, 'learning_rate': 8.716458097453928e-07, 'epoch': 5.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444887638092041, 'eval_runtime': 0.9895, 'eval_samples_per_second': 5.053, 'eval_steps_per_second': 1.011, 'epoch': 5.22}
{'loss': 0.2638, 'learning_rate': 8.680441766386916e-07, 'epoch': 5.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4451830387115479, 'eval_runtime': 1.0155, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 5.22}
{'loss': 0.5327, 'learning_rate': 8.644496622666932e-07, 'epoch': 5.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445038914680481, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 5.22}
{'loss': 0.2801, 'learning_rate': 8.608622694314761e-07, 'epoch': 5.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4450576305389404, 'eval_runtime': 0.9665, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 5.23}
{'loss': 0.278, 'learning_rate': 8.572820009295535e-07, 'epoch': 5.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4452687501907349, 'eval_runtime': 1.0246, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 5.23}
{'loss': 0.4068, 'learning_rate': 8.537088595518961e-07, 'epoch': 5.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4454957246780396, 'eval_runtime': 0.9481, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 5.23}
{'loss': 0.3371, 'learning_rate': 8.501428480839136e-07, 'epoch': 5.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4457932710647583, 'eval_runtime': 1.0284, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 5.23}
{'loss': 0.376, 'learning_rate': 8.465839693054556e-07, 'epoch': 5.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4457120895385742, 'eval_runtime': 1.0472, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 5.23}
{'loss': 0.481, 'learning_rate': 8.430322259908197e-07, 'epoch': 5.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4455286264419556, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 5.23}
{'loss': 0.3956, 'learning_rate': 8.394876209087322e-07, 'epoch': 5.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4456127882003784, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 5.24}
{'loss': 0.3378, 'learning_rate': 8.359501568223583e-07, 'epoch': 5.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4456582069396973, 'eval_runtime': 0.9916, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 5.24}
{'loss': 0.3351, 'learning_rate': 8.324198364892965e-07, 'epoch': 5.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4451056718826294, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 5.24}
{'loss': 0.4448, 'learning_rate': 8.28896662661578e-07, 'epoch': 5.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4443262815475464, 'eval_runtime': 1.0318, 'eval_samples_per_second': 4.846, 'eval_steps_per_second': 0.969, 'epoch': 5.24}
{'loss': 0.6133, 'learning_rate': 8.253806380856622e-07, 'epoch': 5.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4437565803527832, 'eval_runtime': 1.0096, 'eval_samples_per_second': 4.952, 'eval_steps_per_second': 0.99, 'epoch': 5.24}
{'loss': 0.3606, 'learning_rate': 8.2187176550243e-07, 'epoch': 5.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4430187940597534, 'eval_runtime': 0.9676, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 5.24}
{'loss': 0.2719, 'learning_rate': 8.18370047647199e-07, 'epoch': 5.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4426259994506836, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 5.25}
{'loss': 0.3043, 'learning_rate': 8.148754872496944e-07, 'epoch': 5.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4424289464950562, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 5.25}
{'loss': 0.3748, 'learning_rate': 8.113880870340762e-07, 'epoch': 5.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4421509504318237, 'eval_runtime': 0.9528, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 5.25}
{'loss': 0.3614, 'learning_rate': 8.079078497189119e-07, 'epoch': 5.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4418729543685913, 'eval_runtime': 0.9798, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 5.25}
{'loss': 0.2417, 'learning_rate': 8.044347780171913e-07, 'epoch': 5.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4420448541641235, 'eval_runtime': 0.9769, 'eval_samples_per_second': 5.118, 'eval_steps_per_second': 1.024, 'epoch': 5.25}
{'loss': 0.2448, 'learning_rate': 8.009688746363142e-07, 'epoch': 5.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4421976804733276, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 5.25}
{'loss': 0.3296, 'learning_rate': 7.975101422780984e-07, 'epoch': 5.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4423896074295044, 'eval_runtime': 1.0105, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 5.26}
{'loss': 0.252, 'learning_rate': 7.940585836387649e-07, 'epoch': 5.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4424633979797363, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 5.26}
{'loss': 0.2848, 'learning_rate': 7.906142014089458e-07, 'epoch': 5.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4432718753814697, 'eval_runtime': 0.9917, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 5.26}
{'loss': 0.3714, 'learning_rate': 7.871769982736821e-07, 'epoch': 5.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4442269802093506, 'eval_runtime': 1.0063, 'eval_samples_per_second': 4.969, 'eval_steps_per_second': 0.994, 'epoch': 5.26}
{'loss': 0.4368, 'learning_rate': 7.837469769124084e-07, 'epoch': 5.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44424569606781, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 5.26}
{'loss': 0.318, 'learning_rate': 7.803241399989725e-07, 'epoch': 5.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4446616172790527, 'eval_runtime': 0.9439, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 5.26}
{'loss': 0.3454, 'learning_rate': 7.769084902016144e-07, 'epoch': 5.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4455206394195557, 'eval_runtime': 1.0404, 'eval_samples_per_second': 4.806, 'eval_steps_per_second': 0.961, 'epoch': 5.26}
{'loss': 0.2355, 'learning_rate': 7.735000301829732e-07, 'epoch': 5.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4458022117614746, 'eval_runtime': 0.9847, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 5.27}
{'loss': 0.2948, 'learning_rate': 7.700987626000844e-07, 'epoch': 5.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4458285570144653, 'eval_runtime': 0.9865, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 5.27}
{'loss': 0.262, 'learning_rate': 7.667046901043751e-07, 'epoch': 5.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4467253684997559, 'eval_runtime': 1.0387, 'eval_samples_per_second': 4.814, 'eval_steps_per_second': 0.963, 'epoch': 5.27}
{'loss': 0.2784, 'learning_rate': 7.633178153416653e-07, 'epoch': 5.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4476635456085205, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 5.27}
{'loss': 0.369, 'learning_rate': 7.599381409521612e-07, 'epoch': 5.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4477750062942505, 'eval_runtime': 0.989, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 5.27}
{'loss': 0.5023, 'learning_rate': 7.565656695704615e-07, 'epoch': 5.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4477633237838745, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 5.27}
{'loss': 0.3718, 'learning_rate': 7.532004038255403e-07, 'epoch': 5.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4475321769714355, 'eval_runtime': 0.9412, 'eval_samples_per_second': 5.312, 'eval_steps_per_second': 1.062, 'epoch': 5.28}
{'loss': 0.3487, 'learning_rate': 7.498423463407645e-07, 'epoch': 5.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.447231650352478, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 5.28}
{'loss': 0.557, 'learning_rate': 7.464914997338779e-07, 'epoch': 5.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4472951889038086, 'eval_runtime': 1.0425, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 5.28}
{'loss': 0.298, 'learning_rate': 7.431478666170012e-07, 'epoch': 5.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4473786354064941, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 5.28}
{'loss': 0.3858, 'learning_rate': 7.398114495966357e-07, 'epoch': 5.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4474456310272217, 'eval_runtime': 0.9379, 'eval_samples_per_second': 5.331, 'eval_steps_per_second': 1.066, 'epoch': 5.28}
{'loss': 0.5546, 'learning_rate': 7.364822512736547e-07, 'epoch': 5.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4473577737808228, 'eval_runtime': 1.0334, 'eval_samples_per_second': 4.838, 'eval_steps_per_second': 0.968, 'epoch': 5.28}
{'loss': 0.3647, 'learning_rate': 7.331602742433053e-07, 'epoch': 5.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4472782611846924, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 5.29}
{'loss': 0.3424, 'learning_rate': 7.298455210952026e-07, 'epoch': 5.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4471136331558228, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 5.29}
{'loss': 0.3902, 'learning_rate': 7.265379944133377e-07, 'epoch': 5.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4466400146484375, 'eval_runtime': 0.9467, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 5.29}
{'loss': 0.3812, 'learning_rate': 7.232376967760601e-07, 'epoch': 5.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4463902711868286, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 5.29}
{'loss': 0.3485, 'learning_rate': 7.199446307560865e-07, 'epoch': 5.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4461236000061035, 'eval_runtime': 0.9399, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 5.29}
{'loss': 0.4389, 'learning_rate': 7.166587989205032e-07, 'epoch': 5.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445941686630249, 'eval_runtime': 1.0425, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 5.29}
{'loss': 0.3034, 'learning_rate': 7.133802038307425e-07, 'epoch': 5.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4457014799118042, 'eval_runtime': 0.9886, 'eval_samples_per_second': 5.058, 'eval_steps_per_second': 1.012, 'epoch': 5.3}
{'loss': 0.4119, 'learning_rate': 7.101088480426088e-07, 'epoch': 5.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4449681043624878, 'eval_runtime': 0.9936, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 5.3}
{'loss': 0.3246, 'learning_rate': 7.06844734106259e-07, 'epoch': 5.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4443590641021729, 'eval_runtime': 1.0145, 'eval_samples_per_second': 4.929, 'eval_steps_per_second': 0.986, 'epoch': 5.3}
{'loss': 0.3132, 'learning_rate': 7.035878645662009e-07, 'epoch': 5.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444765329360962, 'eval_runtime': 0.9599, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 5.3}
{'loss': 0.3829, 'learning_rate': 7.003382419613014e-07, 'epoch': 5.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44461190700531, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 5.3}
{'loss': 0.288, 'learning_rate': 6.970958688247731e-07, 'epoch': 5.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4446709156036377, 'eval_runtime': 0.9833, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 5.3}
{'loss': 0.4443, 'learning_rate': 6.938607476841797e-07, 'epoch': 5.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4449011087417603, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 5.31}
{'loss': 0.3525, 'learning_rate': 6.906328810614283e-07, 'epoch': 5.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4453173875808716, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 5.31}
{'loss': 0.3271, 'learning_rate': 6.874122714727793e-07, 'epoch': 5.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445656180381775, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 5.31}
{'loss': 0.4096, 'learning_rate': 6.841989214288236e-07, 'epoch': 5.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4460335969924927, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 5.31}
{'loss': 0.307, 'learning_rate': 6.809928334345039e-07, 'epoch': 5.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4459952116012573, 'eval_runtime': 0.9553, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 5.31}
{'loss': 0.2805, 'learning_rate': 6.777940099890968e-07, 'epoch': 5.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4460970163345337, 'eval_runtime': 0.9853, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 5.31}
{'loss': 0.3649, 'learning_rate': 6.746024535862151e-07, 'epoch': 5.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4457166194915771, 'eval_runtime': 0.9704, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 5.32}
{'loss': 0.3095, 'learning_rate': 6.714181667138098e-07, 'epoch': 5.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445330023765564, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 5.32}
{'loss': 0.3994, 'learning_rate': 6.68241151854162e-07, 'epoch': 5.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445143222808838, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 5.32}
{'loss': 0.3595, 'learning_rate': 6.650714114838864e-07, 'epoch': 5.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4451590776443481, 'eval_runtime': 0.9521, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 5.32}
{'loss': 0.2946, 'learning_rate': 6.619089480739238e-07, 'epoch': 5.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4450799226760864, 'eval_runtime': 0.9526, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 5.32}
{'loss': 0.3799, 'learning_rate': 6.58753764089547e-07, 'epoch': 5.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4452579021453857, 'eval_runtime': 1.0178, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 5.32}
{'loss': 0.3612, 'learning_rate': 6.556058619903516e-07, 'epoch': 5.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445542812347412, 'eval_runtime': 0.9527, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 5.33}
{'loss': 0.4757, 'learning_rate': 6.524652442302526e-07, 'epoch': 5.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4458746910095215, 'eval_runtime': 0.9903, 'eval_samples_per_second': 5.049, 'eval_steps_per_second': 1.01, 'epoch': 5.33}
{'loss': 0.424, 'learning_rate': 6.493319132574971e-07, 'epoch': 5.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4457744359970093, 'eval_runtime': 0.9835, 'eval_samples_per_second': 5.084, 'eval_steps_per_second': 1.017, 'epoch': 5.33}
{'loss': 0.3606, 'learning_rate': 6.46205871514638e-07, 'epoch': 5.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4456416368484497, 'eval_runtime': 0.9826, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 5.33}
{'loss': 0.3439, 'learning_rate': 6.430871214385593e-07, 'epoch': 5.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445412516593933, 'eval_runtime': 0.9953, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 5.33}
{'loss': 0.4481, 'learning_rate': 6.399756654604516e-07, 'epoch': 5.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4448649883270264, 'eval_runtime': 1.0586, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 5.33}
{'loss': 0.4492, 'learning_rate': 6.368715060058228e-07, 'epoch': 5.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4443402290344238, 'eval_runtime': 1.0156, 'eval_samples_per_second': 4.923, 'eval_steps_per_second': 0.985, 'epoch': 5.34}
{'loss': 0.5109, 'learning_rate': 6.337746454944927e-07, 'epoch': 5.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4438949823379517, 'eval_runtime': 0.9827, 'eval_samples_per_second': 5.088, 'eval_steps_per_second': 1.018, 'epoch': 5.34}
{'loss': 0.2612, 'learning_rate': 6.306850863405934e-07, 'epoch': 5.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436177015304565, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 5.34}
{'loss': 0.5465, 'learning_rate': 6.276028309525606e-07, 'epoch': 5.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4435415267944336, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 5.34}
{'loss': 0.2317, 'learning_rate': 6.245278817331402e-07, 'epoch': 5.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436564445495605, 'eval_runtime': 1.0163, 'eval_samples_per_second': 4.92, 'eval_steps_per_second': 0.984, 'epoch': 5.34}
{'loss': 0.3046, 'learning_rate': 6.214602410793824e-07, 'epoch': 5.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4438170194625854, 'eval_runtime': 0.9493, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 5.34}
{'loss': 0.3031, 'learning_rate': 6.183999113826366e-07, 'epoch': 5.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4437636137008667, 'eval_runtime': 1.0589, 'eval_samples_per_second': 4.722, 'eval_steps_per_second': 0.944, 'epoch': 5.35}
{'loss': 0.2951, 'learning_rate': 6.15346895028558e-07, 'epoch': 5.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4438778162002563, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 5.35}
{'loss': 0.3742, 'learning_rate': 6.123011943970969e-07, 'epoch': 5.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4442399740219116, 'eval_runtime': 0.961, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 5.35}
{'loss': 0.5713, 'learning_rate': 6.092628118625011e-07, 'epoch': 5.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444261074066162, 'eval_runtime': 1.0068, 'eval_samples_per_second': 4.966, 'eval_steps_per_second': 0.993, 'epoch': 5.35}
{'loss': 0.3409, 'learning_rate': 6.062317497933168e-07, 'epoch': 5.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4440903663635254, 'eval_runtime': 0.9657, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 5.35}
{'loss': 0.4955, 'learning_rate': 6.032080105523807e-07, 'epoch': 5.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4441603422164917, 'eval_runtime': 0.9977, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 5.35}
{'loss': 0.2902, 'learning_rate': 6.001915964968219e-07, 'epoch': 5.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4441940784454346, 'eval_runtime': 0.9723, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 5.35}
{'loss': 0.3546, 'learning_rate': 5.97182509978057e-07, 'epoch': 5.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4446157217025757, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 5.36}
{'loss': 0.2468, 'learning_rate': 5.941807533417954e-07, 'epoch': 5.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4451977014541626, 'eval_runtime': 0.97, 'eval_samples_per_second': 5.155, 'eval_steps_per_second': 1.031, 'epoch': 5.36}
{'loss': 0.2144, 'learning_rate': 5.911863289280284e-07, 'epoch': 5.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4457728862762451, 'eval_runtime': 1.0259, 'eval_samples_per_second': 4.874, 'eval_steps_per_second': 0.975, 'epoch': 5.36}
{'loss': 0.3629, 'learning_rate': 5.881992390710334e-07, 'epoch': 5.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4462817907333374, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 5.36}
{'loss': 0.4535, 'learning_rate': 5.852194860993699e-07, 'epoch': 5.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.446506142616272, 'eval_runtime': 0.97, 'eval_samples_per_second': 5.155, 'eval_steps_per_second': 1.031, 'epoch': 5.36}
{'loss': 0.324, 'learning_rate': 5.822470723358742e-07, 'epoch': 5.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4467487335205078, 'eval_runtime': 1.0095, 'eval_samples_per_second': 4.953, 'eval_steps_per_second': 0.991, 'epoch': 5.36}
{'loss': 0.2714, 'learning_rate': 5.792820000976695e-07, 'epoch': 5.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4467428922653198, 'eval_runtime': 0.9741, 'eval_samples_per_second': 5.133, 'eval_steps_per_second': 1.027, 'epoch': 5.37}
{'loss': 0.2612, 'learning_rate': 5.763242716961504e-07, 'epoch': 5.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4468382596969604, 'eval_runtime': 0.9658, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 5.37}
{'loss': 0.2846, 'learning_rate': 5.733738894369867e-07, 'epoch': 5.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.446747899055481, 'eval_runtime': 1.0335, 'eval_samples_per_second': 4.838, 'eval_steps_per_second': 0.968, 'epoch': 5.37}
{'loss': 0.2643, 'learning_rate': 5.704308556201221e-07, 'epoch': 5.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.446828842163086, 'eval_runtime': 1.0465, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 5.37}
{'loss': 0.3447, 'learning_rate': 5.674951725397737e-07, 'epoch': 5.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4465410709381104, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 5.37}
{'loss': 0.49, 'learning_rate': 5.645668424844264e-07, 'epoch': 5.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4463553428649902, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 5.37}
{'loss': 0.2766, 'learning_rate': 5.61645867736833e-07, 'epoch': 5.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4462504386901855, 'eval_runtime': 0.971, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 5.38}
{'loss': 0.3688, 'learning_rate': 5.587322505740179e-07, 'epoch': 5.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.445824384689331, 'eval_runtime': 0.9507, 'eval_samples_per_second': 5.259, 'eval_steps_per_second': 1.052, 'epoch': 5.38}
{'loss': 0.2851, 'learning_rate': 5.558259932672572e-07, 'epoch': 5.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4454114437103271, 'eval_runtime': 0.9607, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 5.38}
{'loss': 0.2784, 'learning_rate': 5.529270980821045e-07, 'epoch': 5.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44515061378479, 'eval_runtime': 1.0199, 'eval_samples_per_second': 4.902, 'eval_steps_per_second': 0.98, 'epoch': 5.38}
{'loss': 0.3005, 'learning_rate': 5.500355672783653e-07, 'epoch': 5.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4450304508209229, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 5.38}
{'loss': 0.3062, 'learning_rate': 5.471514031101055e-07, 'epoch': 5.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.444708228111267, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 5.38}
{'loss': 0.5295, 'learning_rate': 5.442746078256523e-07, 'epoch': 5.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4442917108535767, 'eval_runtime': 0.9821, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 5.39}
{'loss': 0.2478, 'learning_rate': 5.414051836675849e-07, 'epoch': 5.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4439209699630737, 'eval_runtime': 0.9514, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 5.39}
{'loss': 0.3057, 'learning_rate': 5.385431328727364e-07, 'epoch': 5.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436261653900146, 'eval_runtime': 1.0454, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 5.39}
{'loss': 0.3599, 'learning_rate': 5.356884576721922e-07, 'epoch': 5.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4435478448867798, 'eval_runtime': 1.0265, 'eval_samples_per_second': 4.871, 'eval_steps_per_second': 0.974, 'epoch': 5.39}
{'loss': 0.2957, 'learning_rate': 5.32841160291292e-07, 'epoch': 5.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436802864074707, 'eval_runtime': 0.9767, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 5.39}
{'loss': 0.3418, 'learning_rate': 5.300012429496171e-07, 'epoch': 5.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443811058998108, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 5.39}
{'loss': 0.3914, 'learning_rate': 5.271687078610033e-07, 'epoch': 5.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443766713142395, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 5.4}
{'loss': 0.3197, 'learning_rate': 5.243435572335265e-07, 'epoch': 5.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4437988996505737, 'eval_runtime': 0.9538, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 5.4}
{'loss': 0.2505, 'learning_rate': 5.215257932695062e-07, 'epoch': 5.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4438408613204956, 'eval_runtime': 0.9725, 'eval_samples_per_second': 5.141, 'eval_steps_per_second': 1.028, 'epoch': 5.4}
{'loss': 0.3371, 'learning_rate': 5.187154181655086e-07, 'epoch': 5.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4438321590423584, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 5.4}
{'loss': 0.3019, 'learning_rate': 5.159124341123334e-07, 'epoch': 5.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4437702894210815, 'eval_runtime': 1.0487, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 5.4}
{'loss': 0.4271, 'learning_rate': 5.13116843295024e-07, 'epoch': 5.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4436646699905396, 'eval_runtime': 0.9729, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 5.4}
{'loss': 0.2904, 'learning_rate': 5.10328647892856e-07, 'epoch': 5.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4435960054397583, 'eval_runtime': 1.044, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 5.41}
{'loss': 0.3734, 'learning_rate': 5.075478500793441e-07, 'epoch': 5.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4434421062469482, 'eval_runtime': 0.9821, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 5.41}
{'loss': 0.5049, 'learning_rate': 5.047744520222342e-07, 'epoch': 5.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443170428276062, 'eval_runtime': 0.9962, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 5.41}
{'loss': 0.4141, 'learning_rate': 5.020084558835026e-07, 'epoch': 5.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44290292263031, 'eval_runtime': 1.0564, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 5.41}
{'loss': 0.4886, 'learning_rate': 4.992498638193611e-07, 'epoch': 5.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4427216053009033, 'eval_runtime': 0.9751, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 5.41}
{'loss': 0.3401, 'learning_rate': 4.964986779802395e-07, 'epoch': 5.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4427306652069092, 'eval_runtime': 0.9592, 'eval_samples_per_second': 5.212, 'eval_steps_per_second': 1.042, 'epoch': 5.41}
{'loss': 0.4055, 'learning_rate': 4.937549005108044e-07, 'epoch': 5.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4427826404571533, 'eval_runtime': 1.0484, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 5.42}
{'loss': 0.3528, 'learning_rate': 4.910185335499418e-07, 'epoch': 5.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44304621219635, 'eval_runtime': 0.9788, 'eval_samples_per_second': 5.108, 'eval_steps_per_second': 1.022, 'epoch': 5.42}
{'loss': 0.4331, 'learning_rate': 4.88289579230763e-07, 'epoch': 5.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.443034291267395, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 5.42}
{'loss': 0.4377, 'learning_rate': 4.855680396805962e-07, 'epoch': 5.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442684531211853, 'eval_runtime': 0.9667, 'eval_samples_per_second': 5.172, 'eval_steps_per_second': 1.034, 'epoch': 5.42}
{'loss': 0.2607, 'learning_rate': 4.828539170209989e-07, 'epoch': 5.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442365050315857, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 5.42}
{'loss': 0.223, 'learning_rate': 4.801472133677376e-07, 'epoch': 5.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4422765970230103, 'eval_runtime': 0.9842, 'eval_samples_per_second': 5.08, 'eval_steps_per_second': 1.016, 'epoch': 5.42}
{'loss': 0.2122, 'learning_rate': 4.774479308308e-07, 'epoch': 5.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4420630931854248, 'eval_runtime': 1.0291, 'eval_samples_per_second': 4.859, 'eval_steps_per_second': 0.972, 'epoch': 5.43}
{'loss': 0.2463, 'learning_rate': 4.7475607151438954e-07, 'epoch': 5.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4420472383499146, 'eval_runtime': 0.9608, 'eval_samples_per_second': 5.204, 'eval_steps_per_second': 1.041, 'epoch': 5.43}
{'loss': 0.4194, 'learning_rate': 4.7207163751691655e-07, 'epoch': 5.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4418540000915527, 'eval_runtime': 1.0518, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 5.43}
{'loss': 0.3112, 'learning_rate': 4.6939463093101156e-07, 'epoch': 5.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441771388053894, 'eval_runtime': 1.0097, 'eval_samples_per_second': 4.952, 'eval_steps_per_second': 0.99, 'epoch': 5.43}
{'loss': 0.2757, 'learning_rate': 4.6672505384350977e-07, 'epoch': 5.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4418525695800781, 'eval_runtime': 1.018, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 5.43}
{'loss': 0.3216, 'learning_rate': 4.6406290833545533e-07, 'epoch': 5.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4419467449188232, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 5.43}
{'loss': 0.3575, 'learning_rate': 4.6140819648210264e-07, 'epoch': 5.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4419832229614258, 'eval_runtime': 1.028, 'eval_samples_per_second': 4.864, 'eval_steps_per_second': 0.973, 'epoch': 5.44}
{'loss': 0.2368, 'learning_rate': 4.5876092035290645e-07, 'epoch': 5.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442223072052002, 'eval_runtime': 0.9414, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 5.44}
{'loss': 0.2761, 'learning_rate': 4.5612108201152917e-07, 'epoch': 5.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.442273736000061, 'eval_runtime': 0.9565, 'eval_samples_per_second': 5.228, 'eval_steps_per_second': 1.046, 'epoch': 5.44}
{'loss': 0.4867, 'learning_rate': 4.534886835158292e-07, 'epoch': 5.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4421956539154053, 'eval_runtime': 1.028, 'eval_samples_per_second': 4.864, 'eval_steps_per_second': 0.973, 'epoch': 5.44}
{'loss': 0.3131, 'learning_rate': 4.5086372691787393e-07, 'epoch': 5.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4422000646591187, 'eval_runtime': 0.9386, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 5.44}
{'loss': 0.4558, 'learning_rate': 4.482462142639232e-07, 'epoch': 5.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4421766996383667, 'eval_runtime': 0.962, 'eval_samples_per_second': 5.198, 'eval_steps_per_second': 1.04, 'epoch': 5.44}
{'loss': 0.3891, 'learning_rate': 4.4563614759443376e-07, 'epoch': 5.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4420902729034424, 'eval_runtime': 1.0081, 'eval_samples_per_second': 4.96, 'eval_steps_per_second': 0.992, 'epoch': 5.44}
{'loss': 0.4433, 'learning_rate': 4.430335289440635e-07, 'epoch': 5.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4418189525604248, 'eval_runtime': 0.9915, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 5.45}
{'loss': 0.404, 'learning_rate': 4.404383603416562e-07, 'epoch': 5.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4414902925491333, 'eval_runtime': 0.9466, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 5.45}
{'loss': 0.363, 'learning_rate': 4.3785064381025697e-07, 'epoch': 5.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4413660764694214, 'eval_runtime': 0.9845, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 5.45}
{'loss': 0.3873, 'learning_rate': 4.3527038136709446e-07, 'epoch': 5.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4413923025131226, 'eval_runtime': 0.9927, 'eval_samples_per_second': 5.037, 'eval_steps_per_second': 1.007, 'epoch': 5.45}
{'loss': 0.4675, 'learning_rate': 4.3269757502358954e-07, 'epoch': 5.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4411685466766357, 'eval_runtime': 1.0273, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 5.45}
{'loss': 0.3933, 'learning_rate': 4.301322267853492e-07, 'epoch': 5.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4408081769943237, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 5.45}
{'loss': 0.3803, 'learning_rate': 4.2757433865217023e-07, 'epoch': 5.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401843547821045, 'eval_runtime': 0.9564, 'eval_samples_per_second': 5.228, 'eval_steps_per_second': 1.046, 'epoch': 5.46}
{'loss': 0.3146, 'learning_rate': 4.250239126180311e-07, 'epoch': 5.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397119283676147, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 5.46}
{'loss': 0.3602, 'learning_rate': 4.224809506710914e-07, 'epoch': 5.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4392954111099243, 'eval_runtime': 1.0071, 'eval_samples_per_second': 4.965, 'eval_steps_per_second': 0.993, 'epoch': 5.46}
{'loss': 0.3356, 'learning_rate': 4.1994545479369875e-07, 'epoch': 5.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4387809038162231, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 5.46}
{'loss': 0.3498, 'learning_rate': 4.1741742696237096e-07, 'epoch': 5.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4384520053863525, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 5.46}
{'loss': 0.3956, 'learning_rate': 4.1489686914781393e-07, 'epoch': 5.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438472032546997, 'eval_runtime': 0.9778, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 5.46}
{'loss': 0.3446, 'learning_rate': 4.123837833149036e-07, 'epoch': 5.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383854866027832, 'eval_runtime': 1.0313, 'eval_samples_per_second': 4.848, 'eval_steps_per_second': 0.97, 'epoch': 5.47}
{'loss': 0.3469, 'learning_rate': 4.0987817142269294e-07, 'epoch': 5.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4382277727127075, 'eval_runtime': 0.9542, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 5.47}
{'loss': 0.3478, 'learning_rate': 4.0738003542441285e-07, 'epoch': 5.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4381790161132812, 'eval_runtime': 0.9443, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 5.47}
{'loss': 0.3413, 'learning_rate': 4.048893772674611e-07, 'epoch': 5.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4380234479904175, 'eval_runtime': 0.9926, 'eval_samples_per_second': 5.037, 'eval_steps_per_second': 1.007, 'epoch': 5.47}
{'loss': 0.2669, 'learning_rate': 4.0240619889340693e-07, 'epoch': 5.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438297986984253, 'eval_runtime': 1.0555, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 5.47}
{'loss': 0.2683, 'learning_rate': 3.9993050223799066e-07, 'epoch': 5.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438690185546875, 'eval_runtime': 1.0273, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 5.47}
{'loss': 0.3188, 'learning_rate': 3.9746228923112083e-07, 'epoch': 5.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4389777183532715, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 5.48}
{'loss': 0.216, 'learning_rate': 3.9500156179686835e-07, 'epoch': 5.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4391143321990967, 'eval_runtime': 0.9703, 'eval_samples_per_second': 5.153, 'eval_steps_per_second': 1.031, 'epoch': 5.48}
{'loss': 0.317, 'learning_rate': 3.9254832185347315e-07, 'epoch': 5.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390134811401367, 'eval_runtime': 0.9811, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 5.48}
{'loss': 0.3373, 'learning_rate': 3.9010257131333664e-07, 'epoch': 5.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438985824584961, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 5.48}
{'loss': 0.3922, 'learning_rate': 3.8766431208302034e-07, 'epoch': 5.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4393447637557983, 'eval_runtime': 1.0132, 'eval_samples_per_second': 4.935, 'eval_steps_per_second': 0.987, 'epoch': 5.48}
{'loss': 0.2992, 'learning_rate': 3.852335460632495e-07, 'epoch': 5.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396718740463257, 'eval_runtime': 0.9392, 'eval_samples_per_second': 5.324, 'eval_steps_per_second': 1.065, 'epoch': 5.48}
{'loss': 0.4121, 'learning_rate': 3.828102751489049e-07, 'epoch': 5.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398205280303955, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 5.49}
{'loss': 0.3603, 'learning_rate': 3.8039450122902554e-07, 'epoch': 5.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440029263496399, 'eval_runtime': 0.9583, 'eval_samples_per_second': 5.217, 'eval_steps_per_second': 1.043, 'epoch': 5.49}
{'loss': 0.3422, 'learning_rate': 3.7798622618680616e-07, 'epoch': 5.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401240348815918, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 5.49}
{'loss': 0.2423, 'learning_rate': 3.7558545189959717e-07, 'epoch': 5.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400933980941772, 'eval_runtime': 0.972, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 5.49}
{'loss': 0.3845, 'learning_rate': 3.731921802389005e-07, 'epoch': 5.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396635293960571, 'eval_runtime': 0.9772, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 5.49}
{'loss': 0.2755, 'learning_rate': 3.7080641307036926e-07, 'epoch': 5.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4393794536590576, 'eval_runtime': 0.9858, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 5.49}
{'loss': 0.3818, 'learning_rate': 3.684281522538091e-07, 'epoch': 5.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4392238855361938, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 5.5}
{'loss': 0.3251, 'learning_rate': 3.660573996431671e-07, 'epoch': 5.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4391722679138184, 'eval_runtime': 0.9934, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 5.5}
{'loss': 0.2672, 'learning_rate': 3.636941570865471e-07, 'epoch': 5.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4391155242919922, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 5.5}
{'loss': 0.3521, 'learning_rate': 3.613384264261921e-07, 'epoch': 5.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390780925750732, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 5.5}
{'loss': 0.2646, 'learning_rate': 3.589902094984898e-07, 'epoch': 5.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4387998580932617, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 5.5}
{'loss': 0.2384, 'learning_rate': 3.566495081339738e-07, 'epoch': 5.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.43857741355896, 'eval_runtime': 1.0372, 'eval_samples_per_second': 4.82, 'eval_steps_per_second': 0.964, 'epoch': 5.5}
{'loss': 0.3437, 'learning_rate': 3.5431632415731553e-07, 'epoch': 5.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438721776008606, 'eval_runtime': 1.0312, 'eval_samples_per_second': 4.849, 'eval_steps_per_second': 0.97, 'epoch': 5.51}
{'loss': 0.3683, 'learning_rate': 3.5199065938732903e-07, 'epoch': 5.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4389809370040894, 'eval_runtime': 0.9384, 'eval_samples_per_second': 5.328, 'eval_steps_per_second': 1.066, 'epoch': 5.51}
{'loss': 0.4597, 'learning_rate': 3.496725156369629e-07, 'epoch': 5.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390472173690796, 'eval_runtime': 0.9896, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 5.51}
{'loss': 0.3057, 'learning_rate': 3.473618947133095e-07, 'epoch': 5.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4393223524093628, 'eval_runtime': 1.0292, 'eval_samples_per_second': 4.858, 'eval_steps_per_second': 0.972, 'epoch': 5.51}
{'loss': 0.2673, 'learning_rate': 3.4505879841758907e-07, 'epoch': 5.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396040439605713, 'eval_runtime': 0.9974, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 5.51}
{'loss': 0.3389, 'learning_rate': 3.427632285451621e-07, 'epoch': 5.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396755695343018, 'eval_runtime': 1.0202, 'eval_samples_per_second': 4.901, 'eval_steps_per_second': 0.98, 'epoch': 5.51}
{'loss': 0.3461, 'learning_rate': 3.404751868855183e-07, 'epoch': 5.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396923780441284, 'eval_runtime': 1.0327, 'eval_samples_per_second': 4.842, 'eval_steps_per_second': 0.968, 'epoch': 5.52}
{'loss': 0.2582, 'learning_rate': 3.3819467522227865e-07, 'epoch': 5.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395946264266968, 'eval_runtime': 1.0429, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 5.52}
{'loss': 0.246, 'learning_rate': 3.3592169533320006e-07, 'epoch': 5.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439624309539795, 'eval_runtime': 0.9377, 'eval_samples_per_second': 5.332, 'eval_steps_per_second': 1.066, 'epoch': 5.52}
{'loss': 0.3628, 'learning_rate': 3.336562489901607e-07, 'epoch': 5.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395700693130493, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 5.52}
{'loss': 0.2252, 'learning_rate': 3.3139833795916896e-07, 'epoch': 5.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439578652381897, 'eval_runtime': 0.9869, 'eval_samples_per_second': 5.067, 'eval_steps_per_second': 1.013, 'epoch': 5.52}
{'loss': 0.4377, 'learning_rate': 3.291479640003592e-07, 'epoch': 5.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395204782485962, 'eval_runtime': 0.9844, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 5.52}
{'loss': 0.336, 'learning_rate': 3.2690512886799253e-07, 'epoch': 5.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395570755004883, 'eval_runtime': 0.9463, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 5.53}
{'loss': 0.3404, 'learning_rate': 3.246698343104493e-07, 'epoch': 5.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395458698272705, 'eval_runtime': 0.9498, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 5.53}
{'loss': 0.3734, 'learning_rate': 3.224420820702323e-07, 'epoch': 5.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396812915802002, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 5.53}
{'loss': 0.3914, 'learning_rate': 3.202218738839702e-07, 'epoch': 5.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400337934494019, 'eval_runtime': 0.9677, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 5.53}
{'loss': 0.3285, 'learning_rate': 3.180092114824007e-07, 'epoch': 5.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440365195274353, 'eval_runtime': 0.9685, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 5.53}
{'loss': 0.2532, 'learning_rate': 3.158040965903897e-07, 'epoch': 5.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4405417442321777, 'eval_runtime': 1.0555, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 5.53}
{'loss': 0.3142, 'learning_rate': 3.1360653092691316e-07, 'epoch': 5.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404832124710083, 'eval_runtime': 0.9629, 'eval_samples_per_second': 5.193, 'eval_steps_per_second': 1.039, 'epoch': 5.53}
{'loss': 0.3934, 'learning_rate': 3.1141651620506306e-07, 'epoch': 5.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406192302703857, 'eval_runtime': 0.986, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 5.54}
{'loss': 0.4386, 'learning_rate': 3.09234054132046e-07, 'epoch': 5.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4408751726150513, 'eval_runtime': 1.0578, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 5.54}
{'loss': 0.2463, 'learning_rate': 3.070591464091821e-07, 'epoch': 5.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4413174390792847, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 5.54}
{'loss': 0.4311, 'learning_rate': 3.0489179473190076e-07, 'epoch': 5.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441515326499939, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 5.54}
{'loss': 0.3853, 'learning_rate': 3.027320007897405e-07, 'epoch': 5.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441577672958374, 'eval_runtime': 1.0221, 'eval_samples_per_second': 4.892, 'eval_steps_per_second': 0.978, 'epoch': 5.54}
{'loss': 0.3732, 'learning_rate': 3.005797662663523e-07, 'epoch': 5.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4416683912277222, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 5.54}
{'loss': 0.3718, 'learning_rate': 2.9843509283948636e-07, 'epoch': 5.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4416694641113281, 'eval_runtime': 1.0484, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 5.55}
{'loss': 0.321, 'learning_rate': 2.9629798218100857e-07, 'epoch': 5.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4413037300109863, 'eval_runtime': 1.0101, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 5.55}
{'loss': 0.4468, 'learning_rate': 2.9416843595688304e-07, 'epoch': 5.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4409278631210327, 'eval_runtime': 0.989, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 5.55}
{'loss': 0.4807, 'learning_rate': 2.920464558271774e-07, 'epoch': 5.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440543532371521, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 5.55}
{'loss': 0.2507, 'learning_rate': 2.8993204344606285e-07, 'epoch': 5.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404079914093018, 'eval_runtime': 0.9959, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 5.55}
{'loss': 0.2461, 'learning_rate': 2.8782520046181206e-07, 'epoch': 5.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402531385421753, 'eval_runtime': 0.9722, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 5.55}
{'loss': 0.2941, 'learning_rate': 2.857259285167946e-07, 'epoch': 5.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402029514312744, 'eval_runtime': 1.0231, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 5.56}
{'loss': 0.3235, 'learning_rate': 2.836342292474781e-07, 'epoch': 5.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4403119087219238, 'eval_runtime': 0.9984, 'eval_samples_per_second': 5.008, 'eval_steps_per_second': 1.002, 'epoch': 5.56}
{'loss': 0.4762, 'learning_rate': 2.815501042844293e-07, 'epoch': 5.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4403270483016968, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 5.56}
{'loss': 0.3108, 'learning_rate': 2.794735552523098e-07, 'epoch': 5.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4403656721115112, 'eval_runtime': 1.0455, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 5.56}
{'loss': 0.3409, 'learning_rate': 2.7740458376987247e-07, 'epoch': 5.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404616355895996, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 5.56}
{'loss': 0.4258, 'learning_rate': 2.7534319144997043e-07, 'epoch': 5.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406459331512451, 'eval_runtime': 0.9627, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 5.56}
{'loss': 0.3757, 'learning_rate': 2.732893798995373e-07, 'epoch': 5.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4408842325210571, 'eval_runtime': 0.9891, 'eval_samples_per_second': 5.055, 'eval_steps_per_second': 1.011, 'epoch': 5.57}
{'loss': 0.3145, 'learning_rate': 2.7124315071960894e-07, 'epoch': 5.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4410254955291748, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 5.57}
{'loss': 0.3146, 'learning_rate': 2.692045055053016e-07, 'epoch': 5.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4411296844482422, 'eval_runtime': 0.992, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 5.57}
{'loss': 0.3628, 'learning_rate': 2.6717344584582527e-07, 'epoch': 5.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441283941268921, 'eval_runtime': 1.017, 'eval_samples_per_second': 4.916, 'eval_steps_per_second': 0.983, 'epoch': 5.57}
{'loss': 0.5266, 'learning_rate': 2.6514997332447225e-07, 'epoch': 5.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4414094686508179, 'eval_runtime': 0.9497, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 5.57}
{'loss': 0.2454, 'learning_rate': 2.6313408951862404e-07, 'epoch': 5.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4414925575256348, 'eval_runtime': 0.9768, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 5.57}
{'loss': 0.2391, 'learning_rate': 2.6112579599974484e-07, 'epoch': 5.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4415616989135742, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 5.58}
{'loss': 0.2939, 'learning_rate': 2.5912509433338005e-07, 'epoch': 5.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.441486120223999, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 5.58}
{'loss': 0.371, 'learning_rate': 2.5713198607916325e-07, 'epoch': 5.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4412035942077637, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 5.58}
{'loss': 0.4487, 'learning_rate': 2.551464727907982e-07, 'epoch': 5.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4410008192062378, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 5.58}
{'loss': 0.3104, 'learning_rate': 2.5316855601607905e-07, 'epoch': 5.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406777620315552, 'eval_runtime': 0.9648, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 5.58}
{'loss': 0.2906, 'learning_rate': 2.511982372968702e-07, 'epoch': 5.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440500259399414, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 5.58}
{'loss': 0.2936, 'learning_rate': 2.492355181691164e-07, 'epoch': 5.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404504299163818, 'eval_runtime': 1.0017, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 5.59}
{'loss': 0.3465, 'learning_rate': 2.472804001628404e-07, 'epoch': 5.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402800798416138, 'eval_runtime': 1.0013, 'eval_samples_per_second': 4.994, 'eval_steps_per_second': 0.999, 'epoch': 5.59}
{'loss': 0.2655, 'learning_rate': 2.4533288480213413e-07, 'epoch': 5.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440077304840088, 'eval_runtime': 0.9658, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 5.59}
{'loss': 0.2027, 'learning_rate': 2.4339297360516766e-07, 'epoch': 5.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439918875694275, 'eval_runtime': 1.013, 'eval_samples_per_second': 4.936, 'eval_steps_per_second': 0.987, 'epoch': 5.59}
{'loss': 0.3667, 'learning_rate': 2.414606680841791e-07, 'epoch': 5.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398219585418701, 'eval_runtime': 0.9922, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 5.59}
{'loss': 0.253, 'learning_rate': 2.395359697454835e-07, 'epoch': 5.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398013353347778, 'eval_runtime': 1.0205, 'eval_samples_per_second': 4.9, 'eval_steps_per_second': 0.98, 'epoch': 5.59}
{'loss': 0.3373, 'learning_rate': 2.3761888008945856e-07, 'epoch': 5.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439733624458313, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 5.6}
{'loss': 0.1987, 'learning_rate': 2.3570940061055758e-07, 'epoch': 5.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396915435791016, 'eval_runtime': 1.0414, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 5.6}
{'loss': 0.3083, 'learning_rate': 2.338075327972955e-07, 'epoch': 5.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396275281906128, 'eval_runtime': 1.0335, 'eval_samples_per_second': 4.838, 'eval_steps_per_second': 0.968, 'epoch': 5.6}
{'loss': 0.2224, 'learning_rate': 2.319132781322575e-07, 'epoch': 5.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396151304244995, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 5.6}
{'loss': 0.3113, 'learning_rate': 2.3002663809209457e-07, 'epoch': 5.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396170377731323, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 5.6}
{'loss': 0.2612, 'learning_rate': 2.2814761414751808e-07, 'epoch': 5.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395768642425537, 'eval_runtime': 1.0091, 'eval_samples_per_second': 4.955, 'eval_steps_per_second': 0.991, 'epoch': 5.6}
{'loss': 0.4747, 'learning_rate': 2.2627620776330516e-07, 'epoch': 5.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394350051879883, 'eval_runtime': 0.9621, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 5.61}
{'loss': 0.4128, 'learning_rate': 2.2441242039829337e-07, 'epoch': 5.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4393162727355957, 'eval_runtime': 1.0419, 'eval_samples_per_second': 4.799, 'eval_steps_per_second': 0.96, 'epoch': 5.61}
{'loss': 0.2123, 'learning_rate': 2.2255625350538267e-07, 'epoch': 5.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439038872718811, 'eval_runtime': 0.9399, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 5.61}
{'loss': 0.2874, 'learning_rate': 2.207077085315301e-07, 'epoch': 5.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4387530088424683, 'eval_runtime': 1.0463, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 5.61}
{'loss': 0.4224, 'learning_rate': 2.1886678691775188e-07, 'epoch': 5.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4384360313415527, 'eval_runtime': 0.989, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 5.61}
{'loss': 0.2993, 'learning_rate': 2.1703349009912555e-07, 'epoch': 5.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4382075071334839, 'eval_runtime': 0.9621, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 5.61}
{'loss': 0.3726, 'learning_rate': 2.15207819504778e-07, 'epoch': 5.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4379984140396118, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 5.61}
{'loss': 0.5366, 'learning_rate': 2.1338977655789517e-07, 'epoch': 5.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.437854528427124, 'eval_runtime': 1.0361, 'eval_samples_per_second': 4.826, 'eval_steps_per_second': 0.965, 'epoch': 5.62}
{'loss': 0.3595, 'learning_rate': 2.1157936267571678e-07, 'epoch': 5.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4378035068511963, 'eval_runtime': 1.0256, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 5.62}
{'loss': 0.26, 'learning_rate': 2.0977657926953276e-07, 'epoch': 5.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.437707543373108, 'eval_runtime': 1.0254, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 5.62}
{'loss': 0.3326, 'learning_rate': 2.0798142774469011e-07, 'epoch': 5.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.437567114830017, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 5.62}
{'loss': 0.2996, 'learning_rate': 2.061939095005816e-07, 'epoch': 5.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4375107288360596, 'eval_runtime': 0.9873, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 5.62}
{'loss': 0.4172, 'learning_rate': 2.044140259306504e-07, 'epoch': 5.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4374748468399048, 'eval_runtime': 1.0382, 'eval_samples_per_second': 4.816, 'eval_steps_per_second': 0.963, 'epoch': 5.62}
{'loss': 0.256, 'learning_rate': 2.0264177842238996e-07, 'epoch': 5.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4374995231628418, 'eval_runtime': 1.0104, 'eval_samples_per_second': 4.949, 'eval_steps_per_second': 0.99, 'epoch': 5.63}
{'loss': 0.3227, 'learning_rate': 2.0087716835734073e-07, 'epoch': 5.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4376413822174072, 'eval_runtime': 0.9676, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 5.63}
{'loss': 0.3297, 'learning_rate': 1.9912019711108564e-07, 'epoch': 5.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4377425909042358, 'eval_runtime': 0.9952, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 5.63}
{'loss': 0.3774, 'learning_rate': 1.9737086605325917e-07, 'epoch': 5.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4377740621566772, 'eval_runtime': 0.9503, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 5.63}
{'loss': 0.2655, 'learning_rate': 1.9562917654753598e-07, 'epoch': 5.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.437753677368164, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 5.63}
{'loss': 0.346, 'learning_rate': 1.938951299516323e-07, 'epoch': 5.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4377716779708862, 'eval_runtime': 0.9767, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 5.63}
{'loss': 0.3741, 'learning_rate': 1.921687276173123e-07, 'epoch': 5.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4377772808074951, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 5.64}
{'loss': 0.2564, 'learning_rate': 1.904499708903762e-07, 'epoch': 5.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4378434419631958, 'eval_runtime': 1.0571, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 5.64}
{'loss': 0.2201, 'learning_rate': 1.887388611106644e-07, 'epoch': 5.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4380035400390625, 'eval_runtime': 1.056, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 5.64}
{'loss': 0.5381, 'learning_rate': 1.8703539961205664e-07, 'epoch': 5.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4380756616592407, 'eval_runtime': 0.9618, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 5.64}
{'loss': 0.243, 'learning_rate': 1.8533958772247395e-07, 'epoch': 5.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4381576776504517, 'eval_runtime': 0.9545, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 5.64}
{'loss': 0.2734, 'learning_rate': 1.8365142676386894e-07, 'epoch': 5.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4383680820465088, 'eval_runtime': 1.0298, 'eval_samples_per_second': 4.855, 'eval_steps_per_second': 0.971, 'epoch': 5.64}
{'loss': 0.4031, 'learning_rate': 1.8197091805223332e-07, 'epoch': 5.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.438552975654602, 'eval_runtime': 1.0079, 'eval_samples_per_second': 4.961, 'eval_steps_per_second': 0.992, 'epoch': 5.65}
{'loss': 0.3191, 'learning_rate': 1.8029806289759367e-07, 'epoch': 5.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4386118650436401, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 5.65}
{'loss': 0.2298, 'learning_rate': 1.7863286260400793e-07, 'epoch': 5.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4386272430419922, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 5.65}
{'loss': 0.3878, 'learning_rate': 1.7697531846956772e-07, 'epoch': 5.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4387450218200684, 'eval_runtime': 1.0424, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 5.65}
{'loss': 0.2589, 'learning_rate': 1.7532543178639838e-07, 'epoch': 5.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4389100074768066, 'eval_runtime': 0.983, 'eval_samples_per_second': 5.087, 'eval_steps_per_second': 1.017, 'epoch': 5.65}
{'loss': 0.4683, 'learning_rate': 1.7368320384065328e-07, 'epoch': 5.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390034675598145, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 5.65}
{'loss': 0.3355, 'learning_rate': 1.720486359125162e-07, 'epoch': 5.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4390801191329956, 'eval_runtime': 0.9653, 'eval_samples_per_second': 5.18, 'eval_steps_per_second': 1.036, 'epoch': 5.66}
{'loss': 0.3348, 'learning_rate': 1.7042172927620226e-07, 'epoch': 5.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439238429069519, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 5.66}
{'loss': 0.3322, 'learning_rate': 1.6880248519994924e-07, 'epoch': 5.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394248723983765, 'eval_runtime': 0.9798, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 5.66}
{'loss': 0.329, 'learning_rate': 1.6719090494602519e-07, 'epoch': 5.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396072626113892, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 5.66}
{'loss': 0.3256, 'learning_rate': 1.6558698977072518e-07, 'epoch': 5.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397509098052979, 'eval_runtime': 0.939, 'eval_samples_per_second': 5.325, 'eval_steps_per_second': 1.065, 'epoch': 5.66}
{'loss': 0.3342, 'learning_rate': 1.6399074092436352e-07, 'epoch': 5.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439918041229248, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 5.66}
{'loss': 0.4333, 'learning_rate': 1.624021596512837e-07, 'epoch': 5.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400529861450195, 'eval_runtime': 1.0396, 'eval_samples_per_second': 4.81, 'eval_steps_per_second': 0.962, 'epoch': 5.67}
{'loss': 0.3434, 'learning_rate': 1.608212471898507e-07, 'epoch': 5.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401426315307617, 'eval_runtime': 1.0239, 'eval_samples_per_second': 4.883, 'eval_steps_per_second': 0.977, 'epoch': 5.67}
{'loss': 0.2155, 'learning_rate': 1.5924800477244872e-07, 'epoch': 5.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401965141296387, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 5.67}
{'loss': 0.2747, 'learning_rate': 1.5768243362548675e-07, 'epoch': 5.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402602910995483, 'eval_runtime': 1.0273, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 5.67}
{'loss': 0.3422, 'learning_rate': 1.5612453496939184e-07, 'epoch': 5.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4403462409973145, 'eval_runtime': 1.0515, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 5.67}
{'loss': 0.423, 'learning_rate': 1.5457431001860813e-07, 'epoch': 5.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440393090248108, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 5.67}
{'loss': 0.3722, 'learning_rate': 1.5303175998160114e-07, 'epoch': 5.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440389633178711, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.113, 'eval_steps_per_second': 1.023, 'epoch': 5.68}
{'loss': 0.3752, 'learning_rate': 1.5149688606085234e-07, 'epoch': 5.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4403886795043945, 'eval_runtime': 0.9524, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 5.68}
{'loss': 0.4154, 'learning_rate': 1.4996968945285796e-07, 'epoch': 5.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4403752088546753, 'eval_runtime': 0.9733, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 5.68}
{'loss': 0.2816, 'learning_rate': 1.484501713481301e-07, 'epoch': 5.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4404417276382446, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 5.68}
{'loss': 0.4332, 'learning_rate': 1.4693833293119798e-07, 'epoch': 5.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4405488967895508, 'eval_runtime': 0.9775, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 5.68}
{'loss': 0.4587, 'learning_rate': 1.454341753805977e-07, 'epoch': 5.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406275749206543, 'eval_runtime': 1.0326, 'eval_samples_per_second': 4.842, 'eval_steps_per_second': 0.968, 'epoch': 5.68}
{'loss': 0.5319, 'learning_rate': 1.4393769986888573e-07, 'epoch': 5.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406607151031494, 'eval_runtime': 0.9844, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 5.69}
{'loss': 0.3239, 'learning_rate': 1.4244890756262452e-07, 'epoch': 5.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4407145977020264, 'eval_runtime': 0.9666, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 5.69}
{'loss': 0.3594, 'learning_rate': 1.4096779962238904e-07, 'epoch': 5.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406566619873047, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 5.69}
{'loss': 0.3312, 'learning_rate': 1.394943772027635e-07, 'epoch': 5.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4406301975250244, 'eval_runtime': 0.962, 'eval_samples_per_second': 5.197, 'eval_steps_per_second': 1.039, 'epoch': 5.69}
{'loss': 0.4471, 'learning_rate': 1.380286414523413e-07, 'epoch': 5.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440597653388977, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 5.69}
{'loss': 0.2913, 'learning_rate': 1.3657059351372516e-07, 'epoch': 5.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4405629634857178, 'eval_runtime': 0.9975, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 5.69}
{'loss': 0.4571, 'learning_rate': 1.351202345235203e-07, 'epoch': 5.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440463900566101, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 5.7}
{'loss': 0.3716, 'learning_rate': 1.3367756561234457e-07, 'epoch': 5.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4403599500656128, 'eval_runtime': 0.966, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 5.7}
{'loss': 0.3245, 'learning_rate': 1.3224258790481392e-07, 'epoch': 5.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402835369110107, 'eval_runtime': 1.0448, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 5.7}
{'loss': 0.3667, 'learning_rate': 1.3081530251955578e-07, 'epoch': 5.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402166604995728, 'eval_runtime': 0.9627, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 5.7}
{'loss': 0.4567, 'learning_rate': 1.2939571056919564e-07, 'epoch': 5.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402118921279907, 'eval_runtime': 0.952, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 5.7}
{'loss': 0.3419, 'learning_rate': 1.2798381316036502e-07, 'epoch': 5.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402207136154175, 'eval_runtime': 1.0389, 'eval_samples_per_second': 4.813, 'eval_steps_per_second': 0.963, 'epoch': 5.7}
{'loss': 0.329, 'learning_rate': 1.2657961139369457e-07, 'epoch': 5.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401549100875854, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 5.7}
{'loss': 0.3596, 'learning_rate': 1.2518310636381982e-07, 'epoch': 5.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401397705078125, 'eval_runtime': 1.0093, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 5.71}
{'loss': 0.3479, 'learning_rate': 1.2379429915937103e-07, 'epoch': 5.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401460886001587, 'eval_runtime': 0.9839, 'eval_samples_per_second': 5.082, 'eval_steps_per_second': 1.016, 'epoch': 5.71}
{'loss': 0.2428, 'learning_rate': 1.224131908629811e-07, 'epoch': 5.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4402121305465698, 'eval_runtime': 0.952, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 5.71}
{'loss': 0.3272, 'learning_rate': 1.2103978255128214e-07, 'epoch': 5.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401897192001343, 'eval_runtime': 1.046, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 5.71}
{'loss': 0.3094, 'learning_rate': 1.1967407529489994e-07, 'epoch': 5.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44015634059906, 'eval_runtime': 0.9755, 'eval_samples_per_second': 5.126, 'eval_steps_per_second': 1.025, 'epoch': 5.71}
{'loss': 0.2818, 'learning_rate': 1.183160701584618e-07, 'epoch': 5.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440118432044983, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.995, 'eval_steps_per_second': 0.999, 'epoch': 5.71}
{'loss': 0.3472, 'learning_rate': 1.1696576820058758e-07, 'epoch': 5.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440051794052124, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 5.72}
{'loss': 0.4133, 'learning_rate': 1.1562317047389193e-07, 'epoch': 5.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399982690811157, 'eval_runtime': 0.9756, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 5.72}
{'loss': 0.395, 'learning_rate': 1.1428827802498766e-07, 'epoch': 5.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399800300598145, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 5.72}
{'loss': 0.4382, 'learning_rate': 1.1296109189447569e-07, 'epoch': 5.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399751424789429, 'eval_runtime': 0.9362, 'eval_samples_per_second': 5.341, 'eval_steps_per_second': 1.068, 'epoch': 5.72}
{'loss': 0.2854, 'learning_rate': 1.1164161311695287e-07, 'epoch': 5.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399704933166504, 'eval_runtime': 1.0107, 'eval_samples_per_second': 4.947, 'eval_steps_per_second': 0.989, 'epoch': 5.72}
{'loss': 0.5204, 'learning_rate': 1.1032984272100755e-07, 'epoch': 5.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399166107177734, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 5.72}
{'loss': 0.353, 'learning_rate': 1.0902578172921952e-07, 'epoch': 5.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439862847328186, 'eval_runtime': 1.0159, 'eval_samples_per_second': 4.922, 'eval_steps_per_second': 0.984, 'epoch': 5.73}
{'loss': 0.2618, 'learning_rate': 1.077294311581556e-07, 'epoch': 5.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439822793006897, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 5.73}
{'loss': 0.6017, 'learning_rate': 1.0644079201837521e-07, 'epoch': 5.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397401809692383, 'eval_runtime': 0.9674, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 5.73}
{'loss': 0.2799, 'learning_rate': 1.0515986531442702e-07, 'epoch': 5.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396864175796509, 'eval_runtime': 0.9817, 'eval_samples_per_second': 5.093, 'eval_steps_per_second': 1.019, 'epoch': 5.73}
{'loss': 0.3827, 'learning_rate': 1.038866520448445e-07, 'epoch': 5.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396817684173584, 'eval_runtime': 1.0398, 'eval_samples_per_second': 4.809, 'eval_steps_per_second': 0.962, 'epoch': 5.73}
{'loss': 0.2115, 'learning_rate': 1.0262115320214927e-07, 'epoch': 5.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439757227897644, 'eval_runtime': 0.991, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 5.73}
{'loss': 0.3626, 'learning_rate': 1.013633697728511e-07, 'epoch': 5.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398818016052246, 'eval_runtime': 0.9899, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 5.74}
{'loss': 0.4036, 'learning_rate': 1.0011330273744236e-07, 'epoch': 5.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399676322937012, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 5.74}
{'loss': 0.3714, 'learning_rate': 9.887095307040351e-08, 'epoch': 5.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.44002366065979, 'eval_runtime': 1.0119, 'eval_samples_per_second': 4.941, 'eval_steps_per_second': 0.988, 'epoch': 5.74}
{'loss': 0.2308, 'learning_rate': 9.763632174019544e-08, 'epoch': 5.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401148557662964, 'eval_runtime': 0.9466, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 5.74}
{'loss': 0.3579, 'learning_rate': 9.640940970926493e-08, 'epoch': 5.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401679039001465, 'eval_runtime': 1.0448, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 5.74}
{'loss': 0.3063, 'learning_rate': 9.519021793403915e-08, 'epoch': 5.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401568174362183, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 5.74}
{'loss': 0.3299, 'learning_rate': 9.397874736493118e-08, 'epoch': 5.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401220083236694, 'eval_runtime': 0.9638, 'eval_samples_per_second': 5.188, 'eval_steps_per_second': 1.038, 'epoch': 5.75}
{'loss': 0.3962, 'learning_rate': 9.27749989463278e-08, 'epoch': 5.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4401271343231201, 'eval_runtime': 1.0011, 'eval_samples_per_second': 4.994, 'eval_steps_per_second': 0.999, 'epoch': 5.75}
{'loss': 0.2807, 'learning_rate': 9.157897361660285e-08, 'epoch': 5.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400699138641357, 'eval_runtime': 1.003, 'eval_samples_per_second': 4.985, 'eval_steps_per_second': 0.997, 'epoch': 5.75}
{'loss': 0.323, 'learning_rate': 9.039067230810827e-08, 'epoch': 5.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400291442871094, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 5.75}
{'loss': 0.4936, 'learning_rate': 8.921009594716978e-08, 'epoch': 5.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399925470352173, 'eval_runtime': 1.0052, 'eval_samples_per_second': 4.974, 'eval_steps_per_second': 0.995, 'epoch': 5.75}
{'loss': 0.4026, 'learning_rate': 8.803724545410008e-08, 'epoch': 5.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399629831314087, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 5.75}
{'loss': 0.326, 'learning_rate': 8.687212174318116e-08, 'epoch': 5.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398778676986694, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 5.76}
{'loss': 0.3756, 'learning_rate': 8.571472572267536e-08, 'epoch': 5.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397952556610107, 'eval_runtime': 0.9628, 'eval_samples_per_second': 5.193, 'eval_steps_per_second': 1.039, 'epoch': 5.76}
{'loss': 0.5004, 'learning_rate': 8.456505829481986e-08, 'epoch': 5.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396929740905762, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 5.76}
{'loss': 0.2891, 'learning_rate': 8.342312035583e-08, 'epoch': 5.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396545886993408, 'eval_runtime': 0.9395, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 5.76}
{'loss': 0.4409, 'learning_rate': 8.228891279589147e-08, 'epoch': 5.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439659833908081, 'eval_runtime': 0.982, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 5.76}
{'loss': 0.3178, 'learning_rate': 8.116243649916478e-08, 'epoch': 5.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396699666976929, 'eval_runtime': 1.0204, 'eval_samples_per_second': 4.9, 'eval_steps_per_second': 0.98, 'epoch': 5.76}
{'loss': 0.3348, 'learning_rate': 8.00436923437875e-08, 'epoch': 5.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439726710319519, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 5.77}
{'loss': 0.3355, 'learning_rate': 7.893268120186315e-08, 'epoch': 5.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397457838058472, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 5.77}
{'loss': 0.3511, 'learning_rate': 7.782940393947335e-08, 'epoch': 5.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439764142036438, 'eval_runtime': 0.9502, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 5.77}
{'loss': 0.5092, 'learning_rate': 7.673386141666573e-08, 'epoch': 5.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397704601287842, 'eval_runtime': 1.0161, 'eval_samples_per_second': 4.921, 'eval_steps_per_second': 0.984, 'epoch': 5.77}
{'loss': 0.328, 'learning_rate': 7.564605448746266e-08, 'epoch': 5.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397578239440918, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 5.77}
{'loss': 0.4299, 'learning_rate': 7.45659839998536e-08, 'epoch': 5.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397387504577637, 'eval_runtime': 0.9504, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 5.77}
{'loss': 0.5061, 'learning_rate': 7.349365079579728e-08, 'epoch': 5.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397356510162354, 'eval_runtime': 0.9954, 'eval_samples_per_second': 5.023, 'eval_steps_per_second': 1.005, 'epoch': 5.78}
{'loss': 0.5622, 'learning_rate': 7.242905571122283e-08, 'epoch': 5.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397717714309692, 'eval_runtime': 0.9874, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 5.78}
{'loss': 0.3136, 'learning_rate': 7.137219957602415e-08, 'epoch': 5.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397878646850586, 'eval_runtime': 0.9852, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 5.78}
{'loss': 0.3347, 'learning_rate': 7.032308321406555e-08, 'epoch': 5.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397742748260498, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 5.78}
{'loss': 0.2973, 'learning_rate': 6.928170744317508e-08, 'epoch': 5.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397729635238647, 'eval_runtime': 0.9717, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 5.78}
{'loss': 0.2985, 'learning_rate': 6.824807307514891e-08, 'epoch': 5.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397627115249634, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 5.78}
{'loss': 0.3282, 'learning_rate': 6.722218091574694e-08, 'epoch': 5.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439762830734253, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 5.79}
{'loss': 0.3024, 'learning_rate': 6.620403176469392e-08, 'epoch': 5.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397822618484497, 'eval_runtime': 1.0271, 'eval_samples_per_second': 4.868, 'eval_steps_per_second': 0.974, 'epoch': 5.79}
{'loss': 0.2982, 'learning_rate': 6.51936264156805e-08, 'epoch': 5.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439785361289978, 'eval_runtime': 0.9857, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 5.79}
{'loss': 0.5662, 'learning_rate': 6.419096565635775e-08, 'epoch': 5.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397817850112915, 'eval_runtime': 0.9702, 'eval_samples_per_second': 5.154, 'eval_steps_per_second': 1.031, 'epoch': 5.79}
{'loss': 0.3386, 'learning_rate': 6.319605026834041e-08, 'epoch': 5.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397833347320557, 'eval_runtime': 0.9848, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 5.79}
{'loss': 0.2966, 'learning_rate': 6.220888102720702e-08, 'epoch': 5.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398090839385986, 'eval_runtime': 0.995, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 5.79}
{'loss': 0.2841, 'learning_rate': 6.122945870249753e-08, 'epoch': 5.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439851999282837, 'eval_runtime': 0.9475, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 5.79}
{'loss': 0.271, 'learning_rate': 6.02577840577101e-08, 'epoch': 5.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439850926399231, 'eval_runtime': 1.0561, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 5.8}
{'loss': 0.3482, 'learning_rate': 5.9293857850305504e-08, 'epoch': 5.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398865699768066, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 5.8}
{'loss': 0.3068, 'learning_rate': 5.833768083170377e-08, 'epoch': 5.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439919352531433, 'eval_runtime': 0.9882, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 5.8}
{'loss': 0.36, 'learning_rate': 5.73892537472831e-08, 'epoch': 5.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399441480636597, 'eval_runtime': 0.9887, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 5.8}
{'loss': 0.3509, 'learning_rate': 5.644857733638431e-08, 'epoch': 5.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.43997061252594, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 5.8}
{'loss': 0.2678, 'learning_rate': 5.5515652332300826e-08, 'epoch': 5.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399670362472534, 'eval_runtime': 0.9539, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 5.8}
{'loss': 0.2385, 'learning_rate': 5.459047946228646e-08, 'epoch': 5.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399726390838623, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 5.81}
{'loss': 0.473, 'learning_rate': 5.367305944755208e-08, 'epoch': 5.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399505853652954, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 5.81}
{'loss': 0.5183, 'learning_rate': 5.276339300326338e-08, 'epoch': 5.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399120807647705, 'eval_runtime': 1.0468, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 5.81}
{'loss': 0.3772, 'learning_rate': 5.186148083854425e-08, 'epoch': 5.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398871660232544, 'eval_runtime': 1.0424, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 5.81}
{'loss': 0.3024, 'learning_rate': 5.096732365647006e-08, 'epoch': 5.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439919352531433, 'eval_runtime': 1.0454, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 5.81}
{'loss': 0.2681, 'learning_rate': 5.008092215407545e-08, 'epoch': 5.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439968466758728, 'eval_runtime': 0.9542, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 5.81}
{'loss': 0.3237, 'learning_rate': 4.920227702234548e-08, 'epoch': 5.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400081634521484, 'eval_runtime': 1.0471, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 5.82}
{'loss': 0.3177, 'learning_rate': 4.8331388946220025e-08, 'epoch': 5.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400510787963867, 'eval_runtime': 0.9394, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 5.82}
{'loss': 0.3062, 'learning_rate': 4.74682586045927e-08, 'epoch': 5.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400455951690674, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 5.82}
{'loss': 0.4514, 'learning_rate': 4.661288667030861e-08, 'epoch': 5.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4400254487991333, 'eval_runtime': 1.033, 'eval_samples_per_second': 4.84, 'eval_steps_per_second': 0.968, 'epoch': 5.82}
{'loss': 0.4111, 'learning_rate': 4.576527381016549e-08, 'epoch': 5.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.440023422241211, 'eval_runtime': 1.0085, 'eval_samples_per_second': 4.958, 'eval_steps_per_second': 0.992, 'epoch': 5.82}
{'loss': 0.4302, 'learning_rate': 4.492542068491146e-08, 'epoch': 5.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439994215965271, 'eval_runtime': 0.9524, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 5.82}
{'loss': 0.3325, 'learning_rate': 4.409332794924837e-08, 'epoch': 5.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399372339248657, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 5.83}
{'loss': 0.3017, 'learning_rate': 4.3268996251825126e-08, 'epoch': 5.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4399133920669556, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 5.83}
{'loss': 0.4226, 'learning_rate': 4.245242623524437e-08, 'epoch': 5.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439904808998108, 'eval_runtime': 0.9532, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 5.83}
{'loss': 0.315, 'learning_rate': 4.164361853605248e-08, 'epoch': 5.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4398704767227173, 'eval_runtime': 1.0354, 'eval_samples_per_second': 4.829, 'eval_steps_per_second': 0.966, 'epoch': 5.83}
{'loss': 0.4698, 'learning_rate': 4.084257378475176e-08, 'epoch': 5.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439826488494873, 'eval_runtime': 0.9627, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 5.83}
{'loss': 0.2839, 'learning_rate': 4.004929260578716e-08, 'epoch': 5.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439784049987793, 'eval_runtime': 1.0497, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 5.83}
{'loss': 0.3489, 'learning_rate': 3.926377561755401e-08, 'epoch': 5.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397468566894531, 'eval_runtime': 1.0437, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 5.84}
{'loss': 0.4319, 'learning_rate': 3.8486023432396935e-08, 'epoch': 5.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4397060871124268, 'eval_runtime': 0.9424, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 5.84}
{'loss': 0.2188, 'learning_rate': 3.7716036656603175e-08, 'epoch': 5.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439660668373108, 'eval_runtime': 0.9615, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 5.84}
{'loss': 0.382, 'learning_rate': 3.695381589041147e-08, 'epoch': 5.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4396036863327026, 'eval_runtime': 1.0441, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 5.84}
{'loss': 0.236, 'learning_rate': 3.6199361728003204e-08, 'epoch': 5.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439583659172058, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 5.84}
{'loss': 0.3822, 'learning_rate': 3.545267475750569e-08, 'epoch': 5.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395620822906494, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 5.84}
{'loss': 0.3258, 'learning_rate': 3.471375556099332e-08, 'epoch': 5.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395368099212646, 'eval_runtime': 1.043, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 5.85}
{'loss': 0.2491, 'learning_rate': 3.398260471448311e-08, 'epoch': 5.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395222663879395, 'eval_runtime': 0.953, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 5.85}
{'loss': 0.4811, 'learning_rate': 3.3259222787939136e-08, 'epoch': 5.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395142793655396, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 5.85}
{'loss': 0.2878, 'learning_rate': 3.254361034526366e-08, 'epoch': 5.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395054578781128, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 5.85}
{'loss': 0.2889, 'learning_rate': 3.1835767944308206e-08, 'epoch': 5.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395101070404053, 'eval_runtime': 0.9886, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 5.85}
{'loss': 0.2763, 'learning_rate': 3.1135696136865844e-08, 'epoch': 5.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439523696899414, 'eval_runtime': 0.9858, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 5.85}
{'loss': 0.3749, 'learning_rate': 3.044339546866892e-08, 'epoch': 5.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395393133163452, 'eval_runtime': 0.9544, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 5.86}
{'loss': 0.3535, 'learning_rate': 2.9758866479396854e-08, 'epoch': 5.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395464658737183, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 5.86}
{'loss': 0.4155, 'learning_rate': 2.9082109702666118e-08, 'epoch': 5.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395307302474976, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 5.86}
{'loss': 0.2585, 'learning_rate': 2.8413125666036933e-08, 'epoch': 5.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395312070846558, 'eval_runtime': 1.039, 'eval_samples_per_second': 4.812, 'eval_steps_per_second': 0.962, 'epoch': 5.86}
{'loss': 0.3314, 'learning_rate': 2.7751914891009923e-08, 'epoch': 5.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439526915550232, 'eval_runtime': 1.0415, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 5.86}
{'loss': 0.2344, 'learning_rate': 2.709847789302722e-08, 'epoch': 5.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439520001411438, 'eval_runtime': 0.9655, 'eval_samples_per_second': 5.179, 'eval_steps_per_second': 1.036, 'epoch': 5.86}
{'loss': 0.4587, 'learning_rate': 2.6452815181468027e-08, 'epoch': 5.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395276308059692, 'eval_runtime': 0.9969, 'eval_samples_per_second': 5.016, 'eval_steps_per_second': 1.003, 'epoch': 5.87}
{'loss': 0.2777, 'learning_rate': 2.5814927259653066e-08, 'epoch': 5.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395363330841064, 'eval_runtime': 1.0143, 'eval_samples_per_second': 4.93, 'eval_steps_per_second': 0.986, 'epoch': 5.87}
{'loss': 0.3013, 'learning_rate': 2.5184814624844566e-08, 'epoch': 5.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395358562469482, 'eval_runtime': 1.0409, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 5.87}
{'loss': 0.3123, 'learning_rate': 2.456247776823739e-08, 'epoch': 5.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395318031311035, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 5.87}
{'loss': 0.3084, 'learning_rate': 2.3947917174972357e-08, 'epoch': 5.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439515233039856, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 5.87}
{'loss': 0.3243, 'learning_rate': 2.33411333241218e-08, 'epoch': 5.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395051002502441, 'eval_runtime': 0.9519, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 5.87}
{'loss': 0.2501, 'learning_rate': 2.274212668870068e-08, 'epoch': 5.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395105838775635, 'eval_runtime': 0.9904, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 5.88}
{'loss': 0.2869, 'learning_rate': 2.2150897735658816e-08, 'epoch': 5.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439516544342041, 'eval_runtime': 0.9587, 'eval_samples_per_second': 5.215, 'eval_steps_per_second': 1.043, 'epoch': 5.88}
{'loss': 0.2935, 'learning_rate': 2.1567446925881974e-08, 'epoch': 5.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395228624343872, 'eval_runtime': 1.0371, 'eval_samples_per_second': 4.821, 'eval_steps_per_second': 0.964, 'epoch': 5.88}
{'loss': 0.4594, 'learning_rate': 2.0991774714196335e-08, 'epoch': 5.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439518690109253, 'eval_runtime': 0.9756, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 5.88}
{'loss': 0.3096, 'learning_rate': 2.04238815493607e-08, 'epoch': 5.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395124912261963, 'eval_runtime': 0.9945, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 5.88}
{'loss': 0.395, 'learning_rate': 1.986376787407096e-08, 'epoch': 5.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394949674606323, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 5.88}
{'loss': 0.552, 'learning_rate': 1.931143412496006e-08, 'epoch': 5.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394704103469849, 'eval_runtime': 1.0174, 'eval_samples_per_second': 4.915, 'eval_steps_per_second': 0.983, 'epoch': 5.88}
{'loss': 0.3172, 'learning_rate': 1.8766880732592473e-08, 'epoch': 5.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394556283950806, 'eval_runtime': 1.0366, 'eval_samples_per_second': 4.824, 'eval_steps_per_second': 0.965, 'epoch': 5.89}
{'loss': 0.2968, 'learning_rate': 1.8230108121473077e-08, 'epoch': 5.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394638538360596, 'eval_runtime': 0.952, 'eval_samples_per_second': 5.252, 'eval_steps_per_second': 1.05, 'epoch': 5.89}
{'loss': 0.2575, 'learning_rate': 1.7701116710034938e-08, 'epoch': 5.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394818544387817, 'eval_runtime': 0.9902, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 5.89}
{'loss': 0.3739, 'learning_rate': 1.717990691065041e-08, 'epoch': 5.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394960403442383, 'eval_runtime': 0.9895, 'eval_samples_per_second': 5.053, 'eval_steps_per_second': 1.011, 'epoch': 5.89}
{'loss': 0.4249, 'learning_rate': 1.666647912962449e-08, 'epoch': 5.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4395030736923218, 'eval_runtime': 1.0043, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 5.89}
{'loss': 0.3831, 'learning_rate': 1.6160833767193684e-08, 'epoch': 5.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394888877868652, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 5.89}
{'loss': 0.3769, 'learning_rate': 1.5662971217530465e-08, 'epoch': 5.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439473271369934, 'eval_runtime': 0.9517, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 5.9}
{'loss': 0.5176, 'learning_rate': 1.5172891868738826e-08, 'epoch': 5.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394729137420654, 'eval_runtime': 1.0133, 'eval_samples_per_second': 4.934, 'eval_steps_per_second': 0.987, 'epoch': 5.9}
{'loss': 0.5259, 'learning_rate': 1.4690596102855392e-08, 'epoch': 5.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394683837890625, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 5.9}
{'loss': 0.3502, 'learning_rate': 1.421608429584942e-08, 'epoch': 5.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394612312316895, 'eval_runtime': 0.9381, 'eval_samples_per_second': 5.33, 'eval_steps_per_second': 1.066, 'epoch': 5.9}
{'loss': 0.2452, 'learning_rate': 1.3749356817622794e-08, 'epoch': 5.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394599199295044, 'eval_runtime': 1.0321, 'eval_samples_per_second': 4.844, 'eval_steps_per_second': 0.969, 'epoch': 5.9}
{'loss': 0.2994, 'learning_rate': 1.3290414032008925e-08, 'epoch': 5.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394534826278687, 'eval_runtime': 0.9949, 'eval_samples_per_second': 5.026, 'eval_steps_per_second': 1.005, 'epoch': 5.9}
{'loss': 0.3397, 'learning_rate': 1.2839256296771629e-08, 'epoch': 5.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394423961639404, 'eval_runtime': 0.9622, 'eval_samples_per_second': 5.196, 'eval_steps_per_second': 1.039, 'epoch': 5.91}
{'loss': 0.3597, 'learning_rate': 1.2395883963608469e-08, 'epoch': 5.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394407272338867, 'eval_runtime': 1.0553, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 5.91}
{'loss': 0.3601, 'learning_rate': 1.1960297378145191e-08, 'epoch': 5.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394384622573853, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 5.91}
{'loss': 0.2418, 'learning_rate': 1.153249687994018e-08, 'epoch': 5.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394378662109375, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 5.91}
{'loss': 0.3004, 'learning_rate': 1.1112482802480007e-08, 'epoch': 5.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394385814666748, 'eval_runtime': 0.9882, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 5.91}
{'loss': 0.3582, 'learning_rate': 1.0700255473184984e-08, 'epoch': 5.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394376277923584, 'eval_runtime': 1.0192, 'eval_samples_per_second': 4.906, 'eval_steps_per_second': 0.981, 'epoch': 5.91}
{'loss': 0.4388, 'learning_rate': 1.0295815213401394e-08, 'epoch': 5.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.43943452835083, 'eval_runtime': 1.0378, 'eval_samples_per_second': 4.818, 'eval_steps_per_second': 0.964, 'epoch': 5.92}
{'loss': 0.226, 'learning_rate': 9.899162338408152e-09, 'epoch': 5.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394314289093018, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 5.92}
{'loss': 0.3306, 'learning_rate': 9.510297157412362e-09, 'epoch': 5.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394335746765137, 'eval_runtime': 0.9661, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 5.92}
{'loss': 0.3405, 'learning_rate': 9.12921997355043e-09, 'epoch': 5.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439436674118042, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 5.92}
{'loss': 0.2141, 'learning_rate': 8.755931083886949e-09, 'epoch': 5.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394407272338867, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 5.92}
{'loss': 0.3629, 'learning_rate': 8.390430779416925e-09, 'epoch': 5.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394476413726807, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 5.92}
{'loss': 0.4097, 'learning_rate': 8.032719345062445e-09, 'epoch': 5.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439450979232788, 'eval_runtime': 1.0285, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 5.93}
{'loss': 0.4242, 'learning_rate': 7.682797059673785e-09, 'epoch': 5.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394534826278687, 'eval_runtime': 0.9858, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 5.93}
{'loss': 0.3317, 'learning_rate': 7.340664196030522e-09, 'epoch': 5.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394559860229492, 'eval_runtime': 1.087, 'eval_samples_per_second': 4.6, 'eval_steps_per_second': 0.92, 'epoch': 5.93}
{'loss': 0.2847, 'learning_rate': 7.006321020838203e-09, 'epoch': 5.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439459204673767, 'eval_runtime': 1.0882, 'eval_samples_per_second': 4.595, 'eval_steps_per_second': 0.919, 'epoch': 5.93}
{'loss': 0.377, 'learning_rate': 6.679767794732783e-09, 'epoch': 5.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394574165344238, 'eval_runtime': 1.0873, 'eval_samples_per_second': 4.598, 'eval_steps_per_second': 0.92, 'epoch': 5.93}
{'loss': 0.2258, 'learning_rate': 6.361004772273971e-09, 'epoch': 5.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394577741622925, 'eval_runtime': 1.0341, 'eval_samples_per_second': 4.835, 'eval_steps_per_second': 0.967, 'epoch': 5.93}
{'loss': 0.4456, 'learning_rate': 6.050032201952993e-09, 'epoch': 5.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394625425338745, 'eval_runtime': 1.0162, 'eval_samples_per_second': 4.921, 'eval_steps_per_second': 0.984, 'epoch': 5.94}
{'loss': 0.3505, 'learning_rate': 5.746850326182607e-09, 'epoch': 5.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394694566726685, 'eval_runtime': 1.0756, 'eval_samples_per_second': 4.648, 'eval_steps_per_second': 0.93, 'epoch': 5.94}
{'loss': 0.2646, 'learning_rate': 5.451459381308199e-09, 'epoch': 5.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439478874206543, 'eval_runtime': 1.0283, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 5.94}
{'loss': 0.2723, 'learning_rate': 5.163859597597798e-09, 'epoch': 5.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.43948495388031, 'eval_runtime': 1.066, 'eval_samples_per_second': 4.69, 'eval_steps_per_second': 0.938, 'epoch': 5.94}
{'loss': 0.3117, 'learning_rate': 4.88405119924873e-09, 'epoch': 5.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439485788345337, 'eval_runtime': 1.099, 'eval_samples_per_second': 4.55, 'eval_steps_per_second': 0.91, 'epoch': 5.94}
{'loss': 0.3066, 'learning_rate': 4.612034404380961e-09, 'epoch': 5.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394880533218384, 'eval_runtime': 1.0917, 'eval_samples_per_second': 4.58, 'eval_steps_per_second': 0.916, 'epoch': 5.94}
{'loss': 0.3657, 'learning_rate': 4.347809425044869e-09, 'epoch': 5.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394878149032593, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 5.95}
{'loss': 0.3829, 'learning_rate': 4.09137646721236e-09, 'epoch': 5.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439489722251892, 'eval_runtime': 1.1018, 'eval_samples_per_second': 4.538, 'eval_steps_per_second': 0.908, 'epoch': 5.95}
{'loss': 0.3589, 'learning_rate': 3.842735730785752e-09, 'epoch': 5.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394913911819458, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 5.95}
{'loss': 0.373, 'learning_rate': 3.6018874095899993e-09, 'epoch': 5.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394911527633667, 'eval_runtime': 0.9953, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 5.95}
{'loss': 0.4664, 'learning_rate': 3.3688316913749186e-09, 'epoch': 5.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439489722251892, 'eval_runtime': 1.0955, 'eval_samples_per_second': 4.564, 'eval_steps_per_second': 0.913, 'epoch': 5.95}
{'loss': 0.3065, 'learning_rate': 3.143568757818516e-09, 'epoch': 5.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439488410949707, 'eval_runtime': 0.9808, 'eval_samples_per_second': 5.098, 'eval_steps_per_second': 1.02, 'epoch': 5.95}
{'loss': 0.2658, 'learning_rate': 2.9260987845225463e-09, 'epoch': 5.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394872188568115, 'eval_runtime': 1.0048, 'eval_samples_per_second': 4.976, 'eval_steps_per_second': 0.995, 'epoch': 5.96}
{'loss': 0.3025, 'learning_rate': 2.716421941013625e-09, 'epoch': 5.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394888877868652, 'eval_runtime': 1.0866, 'eval_samples_per_second': 4.601, 'eval_steps_per_second': 0.92, 'epoch': 5.96}
{'loss': 0.2579, 'learning_rate': 2.514538390742116e-09, 'epoch': 5.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394888877868652, 'eval_runtime': 0.9851, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 5.96}
{'loss': 0.2924, 'learning_rate': 2.3204482910865743e-09, 'epoch': 5.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394898414611816, 'eval_runtime': 1.0296, 'eval_samples_per_second': 4.856, 'eval_steps_per_second': 0.971, 'epoch': 5.96}
{'loss': 0.3102, 'learning_rate': 2.1341517933470834e-09, 'epoch': 5.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439489722251892, 'eval_runtime': 1.0849, 'eval_samples_per_second': 4.609, 'eval_steps_per_second': 0.922, 'epoch': 5.96}
{'loss': 0.275, 'learning_rate': 1.955649042748586e-09, 'epoch': 5.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394885301589966, 'eval_runtime': 1.0885, 'eval_samples_per_second': 4.593, 'eval_steps_per_second': 0.919, 'epoch': 5.96}
{'loss': 0.304, 'learning_rate': 1.7849401784431063e-09, 'epoch': 5.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394887685775757, 'eval_runtime': 1.1032, 'eval_samples_per_second': 4.532, 'eval_steps_per_second': 0.906, 'epoch': 5.96}
{'loss': 0.3593, 'learning_rate': 1.6220253335041957e-09, 'epoch': 5.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394892454147339, 'eval_runtime': 0.9833, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 5.97}
{'loss': 0.235, 'learning_rate': 1.4669046349313765e-09, 'epoch': 5.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394915103912354, 'eval_runtime': 1.0686, 'eval_samples_per_second': 4.679, 'eval_steps_per_second': 0.936, 'epoch': 5.97}
{'loss': 0.3201, 'learning_rate': 1.3195782036468097e-09, 'epoch': 5.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394925832748413, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 5.97}
{'loss': 0.3112, 'learning_rate': 1.1800461544975161e-09, 'epoch': 5.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439494013786316, 'eval_runtime': 0.9765, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 5.97}
{'loss': 0.2899, 'learning_rate': 1.048308596254266e-09, 'epoch': 5.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394943714141846, 'eval_runtime': 1.0874, 'eval_samples_per_second': 4.598, 'eval_steps_per_second': 0.92, 'epoch': 5.97}
{'loss': 0.3776, 'learning_rate': 9.243656316126893e-10, 'epoch': 5.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394950866699219, 'eval_runtime': 1.0008, 'eval_samples_per_second': 4.996, 'eval_steps_per_second': 0.999, 'epoch': 5.97}
{'loss': 0.5121, 'learning_rate': 8.082173571921647e-10, 'epoch': 5.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394947290420532, 'eval_runtime': 1.0925, 'eval_samples_per_second': 4.577, 'eval_steps_per_second': 0.915, 'epoch': 5.98}
{'loss': 0.3026, 'learning_rate': 6.998638635324906e-10, 'epoch': 5.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394946098327637, 'eval_runtime': 1.0762, 'eval_samples_per_second': 4.646, 'eval_steps_per_second': 0.929, 'epoch': 5.98}
{'loss': 0.3267, 'learning_rate': 5.993052351016549e-10, 'epoch': 5.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394948482513428, 'eval_runtime': 1.0823, 'eval_samples_per_second': 4.62, 'eval_steps_per_second': 0.924, 'epoch': 5.98}
{'loss': 0.5611, 'learning_rate': 5.065415502891747e-10, 'epoch': 5.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394952058792114, 'eval_runtime': 1.0002, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 5.98}
{'loss': 0.3919, 'learning_rate': 4.215728814072062e-10, 'epoch': 5.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394949674606323, 'eval_runtime': 1.0339, 'eval_samples_per_second': 4.836, 'eval_steps_per_second': 0.967, 'epoch': 5.98}
{'loss': 0.6028, 'learning_rate': 3.443992946938757e-10, 'epoch': 5.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394952058792114, 'eval_runtime': 1.0731, 'eval_samples_per_second': 4.659, 'eval_steps_per_second': 0.932, 'epoch': 5.98}
{'loss': 0.3296, 'learning_rate': 2.750208503066176e-10, 'epoch': 5.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439494252204895, 'eval_runtime': 0.9928, 'eval_samples_per_second': 5.036, 'eval_steps_per_second': 1.007, 'epoch': 5.99}
{'loss': 0.5146, 'learning_rate': 2.1343760233105693e-10, 'epoch': 5.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394947290420532, 'eval_runtime': 1.0187, 'eval_samples_per_second': 4.908, 'eval_steps_per_second': 0.982, 'epoch': 5.99}
{'loss': 0.4504, 'learning_rate': 1.5964959877323717e-10, 'epoch': 5.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394947290420532, 'eval_runtime': 1.0941, 'eval_samples_per_second': 4.57, 'eval_steps_per_second': 0.914, 'epoch': 5.99}
{'loss': 0.2688, 'learning_rate': 1.136568815629513e-10, 'epoch': 5.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394946098327637, 'eval_runtime': 1.0951, 'eval_samples_per_second': 4.566, 'eval_steps_per_second': 0.913, 'epoch': 5.99}
{'loss': 0.3793, 'learning_rate': 7.545948655263146e-11, 'epoch': 5.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394943714141846, 'eval_runtime': 1.0872, 'eval_samples_per_second': 4.599, 'eval_steps_per_second': 0.92, 'epoch': 5.99}
{'loss': 0.2891, 'learning_rate': 4.505744352067964e-11, 'epoch': 5.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394948482513428, 'eval_runtime': 1.0779, 'eval_samples_per_second': 4.638, 'eval_steps_per_second': 0.928, 'epoch': 5.99}
{'loss': 0.3607, 'learning_rate': 2.245077616480629e-11, 'epoch': 6.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.439495325088501, 'eval_runtime': 1.0386, 'eval_samples_per_second': 4.814, 'eval_steps_per_second': 0.963, 'epoch': 6.0}
{'loss': 0.2763, 'learning_rate': 7.639502108691688e-12, 'epoch': 6.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394946098327637, 'eval_runtime': 1.0804, 'eval_samples_per_second': 4.628, 'eval_steps_per_second': 0.926, 'epoch': 6.0}
{'loss': 0.2919, 'learning_rate': 6.23632898655302e-13, 'epoch': 6.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.4394949674606323, 'eval_runtime': 0.9801, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 6.0}
{'train_runtime': 30752.84, 'train_samples_per_second': 0.596, 'train_steps_per_second': 0.596, 'train_loss': 0.7781032223553814, 'epoch': 6.0}


adapter_model.bin:   0%|          | 0.00/170M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/StarkWizard/Mistral-7b-instruct-cairo-PEFT/commit/104c5b5dcefb0c5506967785edbbfcf04a6ab4ca', commit_message='Upload tokenizer', commit_description='', oid='104c5b5dcefb0c5506967785edbbfcf04a6ab4ca', pr_url=None, pr_revision=None, pr_num=None)