pip install -q git+https://github.com/huggingface/trl

In [1]:
# The model that you want to train from the Hugging Face hub
model_name = "mistralai/Mistral-7B-Instruct-v0.1"

# The instruction dataset to use
dataset_name = "StarkWizard/cairo-instruct"

# Fine-tuned model name
new_model = "StarkWizard/Mistral-7b-instruct-cairo-PEFT"



import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

hub_name = "StarkWizard/Mistral-7b-instruct-cairo-instruct"

max_steps = 1000 # to tweak to get the best out of the model 
nb_epochs = 3

In [2]:
import torch
from datasets import load_dataset, Dataset
from peft import LoraConfig, AutoPeftModelForCausalLM
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from trl import SFTTrainer
import os
 
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype="float16",
    bnb_4bit_use_double_quant=True,
)

model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path=model_name,
                                             trust_remote_code=True,
                                             quantization_config=bnb_config,
                                             device_map={"": 0}
                                             )

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [3]:
from datasets import load_dataset, Dataset
from peft import LoraConfig, AutoPeftModelForCausalLM, prepare_model_for_kbit_training, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from trl import SFTTrainer
import os

model.config.use_cache=False
model.config.pretraining_tp=1
model.config.window = 256 
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)


Loading Dataset

In [4]:
from datasets import load_dataset

# Load the dataset
dataset_train = load_dataset(dataset_name, split="train", download_mode='force_redownload',ignore_verifications=True)
dataset_test = load_dataset(dataset_name, split="eval", download_mode='force_redownload',ignore_verifications=True)



Downloading readme:   0%|          | 0.00/383 [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/274k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.42k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/3262 [00:00<?, ? examples/s]

Generating eval split:   0%|          | 0/5 [00:00<?, ? examples/s]

Downloading readme:   0%|          | 0.00/383 [00:00<?, ?B/s]

Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/274k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.42k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/3262 [00:00<?, ? examples/s]

Generating eval split:   0%|          | 0/5 [00:00<?, ? examples/s]

In [5]:



peft_config = LoraConfig(
    r=16, lora_alpha=16, lora_dropout=0.05, bias="none", task_type="CAUSAL_LM", target_modules=[
        "q_proj",
        "k_proj",
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
        "lm_head"
    ],inference_mode = False
)

model = get_peft_model(model, peft_config)
training_arguments = TrainingArguments(
    output_dir=new_model,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=1,
    gradient_checkpointing = True,
    optim="paged_adamw_32bit",
    evaluation_strategy="steps",
    learning_rate=2e-5,
    lr_scheduler_type="cosine",
    warmup_ratio=0.03,
    save_strategy="epoch",
    logging_dir="./logs", 
    logging_steps=5,
    num_train_epochs=nb_epochs,
    fp16=False,
    push_to_hub=True
)

trainer = SFTTrainer(
    model=model,
    train_dataset=dataset_train,
    eval_dataset=dataset_test,
    peft_config=peft_config,
    dataset_text_field="text",
    args=training_arguments,
    tokenizer=tokenizer,
    packing=False,
    max_seq_length=1024,
    neftune_noise_alpha=5
)


Map:   0%|          | 0/3262 [00:00<?, ? examples/s]

Map:   0%|          | 0/5 [00:00<?, ? examples/s]



In [6]:

trainer.train()
trainer.model.push_to_hub(new_model)
tokenizer.push_to_hub(new_model)

  0%|          | 0/9786 [00:00<?, ?it/s]

You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'loss': 4.9672, 'learning_rate': 3.401360544217688e-07, 'epoch': 0.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.652648448944092, 'eval_runtime': 0.9499, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 0.0}
{'loss': 4.8347, 'learning_rate': 6.802721088435376e-07, 'epoch': 0.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.651315689086914, 'eval_runtime': 0.9575, 'eval_samples_per_second': 5.222, 'eval_steps_per_second': 1.044, 'epoch': 0.0}
{'loss': 5.2516, 'learning_rate': 1.0204081632653063e-06, 'epoch': 0.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.649148464202881, 'eval_runtime': 0.9659, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 0.0}
{'loss': 5.1146, 'learning_rate': 1.3605442176870751e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.646013259887695, 'eval_runtime': 0.9736, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 0.01}
{'loss': 5.8234, 'learning_rate': 1.7006802721088436e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.642111778259277, 'eval_runtime': 1.0925, 'eval_samples_per_second': 4.576, 'eval_steps_per_second': 0.915, 'epoch': 0.01}
{'loss': 5.2732, 'learning_rate': 2.0408163265306125e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.636615753173828, 'eval_runtime': 0.9829, 'eval_samples_per_second': 5.087, 'eval_steps_per_second': 1.017, 'epoch': 0.01}
{'loss': 5.1922, 'learning_rate': 2.380952380952381e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.6297993659973145, 'eval_runtime': 0.9822, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 0.01}
{'loss': 4.9801, 'learning_rate': 2.7210884353741503e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.621519088745117, 'eval_runtime': 0.985, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 0.01}
{'loss': 4.6821, 'learning_rate': 3.0612244897959185e-06, 'epoch': 0.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.609409809112549, 'eval_runtime': 1.0865, 'eval_samples_per_second': 4.602, 'eval_steps_per_second': 0.92, 'epoch': 0.01}
{'loss': 4.4535, 'learning_rate': 3.4013605442176872e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.594554901123047, 'eval_runtime': 0.9912, 'eval_samples_per_second': 5.045, 'eval_steps_per_second': 1.009, 'epoch': 0.02}
{'loss': 4.0461, 'learning_rate': 3.7414965986394563e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.572790145874023, 'eval_runtime': 1.0149, 'eval_samples_per_second': 4.926, 'eval_steps_per_second': 0.985, 'epoch': 0.02}
{'loss': 3.9528, 'learning_rate': 4.081632653061225e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.541225433349609, 'eval_runtime': 0.9738, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 0.02}
{'loss': 4.2915, 'learning_rate': 4.421768707482993e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.5006890296936035, 'eval_runtime': 1.0817, 'eval_samples_per_second': 4.622, 'eval_steps_per_second': 0.924, 'epoch': 0.02}
{'loss': 5.2288, 'learning_rate': 4.761904761904762e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.45530366897583, 'eval_runtime': 0.9812, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 0.02}
{'loss': 4.6597, 'learning_rate': 5.1020408163265315e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.4080400466918945, 'eval_runtime': 1.0888, 'eval_samples_per_second': 4.592, 'eval_steps_per_second': 0.918, 'epoch': 0.02}
{'loss': 4.2407, 'learning_rate': 5.442176870748301e-06, 'epoch': 0.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.346295356750488, 'eval_runtime': 1.0059, 'eval_samples_per_second': 4.97, 'eval_steps_per_second': 0.994, 'epoch': 0.02}
{'loss': 3.9571, 'learning_rate': 5.782312925170068e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.272744655609131, 'eval_runtime': 0.968, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 0.03}
{'loss': 4.8696, 'learning_rate': 6.122448979591837e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.192248821258545, 'eval_runtime': 1.0873, 'eval_samples_per_second': 4.599, 'eval_steps_per_second': 0.92, 'epoch': 0.03}
{'loss': 4.3878, 'learning_rate': 6.462585034013606e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 4.100727081298828, 'eval_runtime': 1.0579, 'eval_samples_per_second': 4.726, 'eval_steps_per_second': 0.945, 'epoch': 0.03}
{'loss': 4.3273, 'learning_rate': 6.8027210884353745e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.9999759197235107, 'eval_runtime': 0.9749, 'eval_samples_per_second': 5.129, 'eval_steps_per_second': 1.026, 'epoch': 0.03}
{'loss': 3.8004, 'learning_rate': 7.1428571428571436e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.908137083053589, 'eval_runtime': 0.9747, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 0.03}
{'loss': 3.3346, 'learning_rate': 7.482993197278913e-06, 'epoch': 0.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.8214657306671143, 'eval_runtime': 1.0866, 'eval_samples_per_second': 4.601, 'eval_steps_per_second': 0.92, 'epoch': 0.03}
{'loss': 3.5597, 'learning_rate': 7.823129251700681e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.7473647594451904, 'eval_runtime': 1.0241, 'eval_samples_per_second': 4.882, 'eval_steps_per_second': 0.976, 'epoch': 0.04}
{'loss': 3.6632, 'learning_rate': 8.16326530612245e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.681124210357666, 'eval_runtime': 0.9742, 'eval_samples_per_second': 5.133, 'eval_steps_per_second': 1.027, 'epoch': 0.04}
{'loss': 3.5902, 'learning_rate': 8.503401360544217e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.623060703277588, 'eval_runtime': 0.9713, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 0.04}
{'loss': 4.054, 'learning_rate': 8.843537414965987e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.5626168251037598, 'eval_runtime': 0.975, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 0.04}
{'loss': 3.8932, 'learning_rate': 9.183673469387756e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.518763780593872, 'eval_runtime': 1.0705, 'eval_samples_per_second': 4.671, 'eval_steps_per_second': 0.934, 'epoch': 0.04}
{'loss': 3.1624, 'learning_rate': 9.523809523809525e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.4927945137023926, 'eval_runtime': 1.0805, 'eval_samples_per_second': 4.628, 'eval_steps_per_second': 0.926, 'epoch': 0.04}
{'loss': 2.9508, 'learning_rate': 9.863945578231294e-06, 'epoch': 0.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.470022678375244, 'eval_runtime': 1.0014, 'eval_samples_per_second': 4.993, 'eval_steps_per_second': 0.999, 'epoch': 0.04}
{'loss': 2.9159, 'learning_rate': 1.0204081632653063e-05, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.437256336212158, 'eval_runtime': 1.0127, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 0.05}
{'loss': 3.0964, 'learning_rate': 1.0544217687074832e-05, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.4164528846740723, 'eval_runtime': 0.9829, 'eval_samples_per_second': 5.087, 'eval_steps_per_second': 1.017, 'epoch': 0.05}
{'loss': 2.8163, 'learning_rate': 1.0884353741496601e-05, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.4084529876708984, 'eval_runtime': 1.0266, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 0.05}
{'loss': 2.8442, 'learning_rate': 1.1224489795918367e-05, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.3652255535125732, 'eval_runtime': 1.1082, 'eval_samples_per_second': 4.512, 'eval_steps_per_second': 0.902, 'epoch': 0.05}
{'loss': 2.4912, 'learning_rate': 1.1564625850340136e-05, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.331843137741089, 'eval_runtime': 1.0557, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 0.05}
{'loss': 2.5583, 'learning_rate': 1.1904761904761905e-05, 'epoch': 0.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.304347276687622, 'eval_runtime': 0.9871, 'eval_samples_per_second': 5.065, 'eval_steps_per_second': 1.013, 'epoch': 0.05}
{'loss': 2.807, 'learning_rate': 1.2244897959183674e-05, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.2580597400665283, 'eval_runtime': 0.9976, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 0.06}
{'loss': 2.6272, 'learning_rate': 1.2585034013605443e-05, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 3.1427619457244873, 'eval_runtime': 1.0039, 'eval_samples_per_second': 4.981, 'eval_steps_per_second': 0.996, 'epoch': 0.06}
{'loss': 2.7173, 'learning_rate': 1.2925170068027212e-05, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.9928359985351562, 'eval_runtime': 0.9711, 'eval_samples_per_second': 5.149, 'eval_steps_per_second': 1.03, 'epoch': 0.06}
{'loss': 2.734, 'learning_rate': 1.326530612244898e-05, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.930720329284668, 'eval_runtime': 0.9823, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 0.06}
{'loss': 2.8009, 'learning_rate': 1.3605442176870749e-05, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.900500535964966, 'eval_runtime': 1.0028, 'eval_samples_per_second': 4.986, 'eval_steps_per_second': 0.997, 'epoch': 0.06}
{'loss': 2.5329, 'learning_rate': 1.3945578231292518e-05, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.860257863998413, 'eval_runtime': 1.0848, 'eval_samples_per_second': 4.609, 'eval_steps_per_second': 0.922, 'epoch': 0.06}
{'loss': 2.5865, 'learning_rate': 1.4285714285714287e-05, 'epoch': 0.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.825629234313965, 'eval_runtime': 1.0851, 'eval_samples_per_second': 4.608, 'eval_steps_per_second': 0.922, 'epoch': 0.06}
{'loss': 2.4645, 'learning_rate': 1.4625850340136056e-05, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.7899956703186035, 'eval_runtime': 0.9733, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 0.07}
{'loss': 2.5949, 'learning_rate': 1.4965986394557825e-05, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.7617151737213135, 'eval_runtime': 1.0874, 'eval_samples_per_second': 4.598, 'eval_steps_per_second': 0.92, 'epoch': 0.07}
{'loss': 2.6175, 'learning_rate': 1.530612244897959e-05, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.737405300140381, 'eval_runtime': 1.0709, 'eval_samples_per_second': 4.669, 'eval_steps_per_second': 0.934, 'epoch': 0.07}
{'loss': 2.266, 'learning_rate': 1.5646258503401362e-05, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.6915345191955566, 'eval_runtime': 0.9806, 'eval_samples_per_second': 5.099, 'eval_steps_per_second': 1.02, 'epoch': 0.07}
{'loss': 2.2752, 'learning_rate': 1.598639455782313e-05, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.6503782272338867, 'eval_runtime': 1.0043, 'eval_samples_per_second': 4.979, 'eval_steps_per_second': 0.996, 'epoch': 0.07}
{'loss': 2.2642, 'learning_rate': 1.63265306122449e-05, 'epoch': 0.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.617701768875122, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 0.07}
{'loss': 2.1458, 'learning_rate': 1.6666666666666667e-05, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.596140146255493, 'eval_runtime': 1.0256, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 0.08}
{'loss': 2.1998, 'learning_rate': 1.7006802721088435e-05, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5721981525421143, 'eval_runtime': 1.075, 'eval_samples_per_second': 4.651, 'eval_steps_per_second': 0.93, 'epoch': 0.08}
{'loss': 2.0845, 'learning_rate': 1.7346938775510206e-05, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5495779514312744, 'eval_runtime': 1.0087, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 0.08}
{'loss': 2.3737, 'learning_rate': 1.7687074829931973e-05, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5290794372558594, 'eval_runtime': 0.9778, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 0.08}
{'loss': 2.7378, 'learning_rate': 1.8027210884353744e-05, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.497122287750244, 'eval_runtime': 1.0922, 'eval_samples_per_second': 4.578, 'eval_steps_per_second': 0.916, 'epoch': 0.08}
{'loss': 2.5915, 'learning_rate': 1.836734693877551e-05, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.464643716812134, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 0.08}
{'loss': 2.1459, 'learning_rate': 1.8707482993197282e-05, 'epoch': 0.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4436185359954834, 'eval_runtime': 1.0778, 'eval_samples_per_second': 4.639, 'eval_steps_per_second': 0.928, 'epoch': 0.08}
{'loss': 2.3288, 'learning_rate': 1.904761904761905e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.431572198867798, 'eval_runtime': 1.0285, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 0.09}
{'loss': 2.2816, 'learning_rate': 1.9387755102040817e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4230570793151855, 'eval_runtime': 0.9778, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 0.09}
{'loss': 2.1359, 'learning_rate': 1.9727891156462588e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.438551187515259, 'eval_runtime': 1.0795, 'eval_samples_per_second': 4.632, 'eval_steps_per_second': 0.926, 'epoch': 0.09}
{'loss': 2.4755, 'learning_rate': 1.9999999452285442e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.4942786693573, 'eval_runtime': 1.0311, 'eval_samples_per_second': 4.849, 'eval_steps_per_second': 0.97, 'epoch': 0.09}
{'loss': 2.2299, 'learning_rate': 1.9999980282282112e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.485914468765259, 'eval_runtime': 0.9903, 'eval_samples_per_second': 5.049, 'eval_steps_per_second': 1.01, 'epoch': 0.09}
{'loss': 1.9134, 'learning_rate': 1.9999933726610742e-05, 'epoch': 0.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.5096986293792725, 'eval_runtime': 1.0717, 'eval_samples_per_second': 4.665, 'eval_steps_per_second': 0.933, 'epoch': 0.09}
{'loss': 1.8903, 'learning_rate': 1.999985978539882e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.3925530910491943, 'eval_runtime': 0.993, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 0.1}
{'loss': 1.5049, 'learning_rate': 1.9999758458848847e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.3784072399139404, 'eval_runtime': 1.0779, 'eval_samples_per_second': 4.639, 'eval_steps_per_second': 0.928, 'epoch': 0.1}
{'loss': 1.7179, 'learning_rate': 1.999962974723831e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.367872714996338, 'eval_runtime': 1.0668, 'eval_samples_per_second': 4.687, 'eval_steps_per_second': 0.937, 'epoch': 0.1}
{'loss': 1.7522, 'learning_rate': 1.9999473650919697e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.3514440059661865, 'eval_runtime': 0.9863, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 0.1}
{'loss': 1.905, 'learning_rate': 1.9999290170320487e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.3271210193634033, 'eval_runtime': 0.9786, 'eval_samples_per_second': 5.109, 'eval_steps_per_second': 1.022, 'epoch': 0.1}
{'loss': 1.7059, 'learning_rate': 1.9999079305943153e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.305978536605835, 'eval_runtime': 1.0808, 'eval_samples_per_second': 4.626, 'eval_steps_per_second': 0.925, 'epoch': 0.1}
{'loss': 2.0138, 'learning_rate': 1.999884105836517e-05, 'epoch': 0.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.3039333820343018, 'eval_runtime': 1.0766, 'eval_samples_per_second': 4.644, 'eval_steps_per_second': 0.929, 'epoch': 0.1}
{'loss': 1.5709, 'learning_rate': 1.9998575428238987e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2937402725219727, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 0.11}
{'loss': 1.6481, 'learning_rate': 1.9998282416292057e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2823939323425293, 'eval_runtime': 1.0832, 'eval_samples_per_second': 4.616, 'eval_steps_per_second': 0.923, 'epoch': 0.11}
{'loss': 1.708, 'learning_rate': 1.999796202332681e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.278066635131836, 'eval_runtime': 0.9627, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 0.11}
{'loss': 1.7379, 'learning_rate': 1.999761425022067e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.270714521408081, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 0.11}
{'loss': 1.7305, 'learning_rate': 1.9997239097926037e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.25783634185791, 'eval_runtime': 1.0195, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 0.11}
{'loss': 1.9055, 'learning_rate': 1.999683656747029e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2442755699157715, 'eval_runtime': 1.0154, 'eval_samples_per_second': 4.924, 'eval_steps_per_second': 0.985, 'epoch': 0.11}
{'loss': 1.8204, 'learning_rate': 1.999640665995579e-05, 'epoch': 0.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2361302375793457, 'eval_runtime': 1.0844, 'eval_samples_per_second': 4.611, 'eval_steps_per_second': 0.922, 'epoch': 0.11}
{'loss': 1.921, 'learning_rate': 1.9995949376559874e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2236571311950684, 'eval_runtime': 1.0065, 'eval_samples_per_second': 4.968, 'eval_steps_per_second': 0.994, 'epoch': 0.12}
{'loss': 1.7866, 'learning_rate': 1.9995464718534837e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.228252649307251, 'eval_runtime': 0.984, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 0.12}
{'loss': 1.7024, 'learning_rate': 1.9994952687207957e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.23468017578125, 'eval_runtime': 1.0879, 'eval_samples_per_second': 4.596, 'eval_steps_per_second': 0.919, 'epoch': 0.12}
{'loss': 1.8476, 'learning_rate': 1.999441328398146e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2300031185150146, 'eval_runtime': 0.9721, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 0.12}
{'loss': 1.5112, 'learning_rate': 1.9993846510332554e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.224083185195923, 'eval_runtime': 1.0782, 'eval_samples_per_second': 4.637, 'eval_steps_per_second': 0.927, 'epoch': 0.12}
{'loss': 1.4932, 'learning_rate': 1.9993252367813377e-05, 'epoch': 0.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.197681188583374, 'eval_runtime': 1.0929, 'eval_samples_per_second': 4.575, 'eval_steps_per_second': 0.915, 'epoch': 0.12}
{'loss': 1.358, 'learning_rate': 1.999263085805104e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.193026542663574, 'eval_runtime': 1.0102, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 0.13}
{'loss': 2.1675, 'learning_rate': 1.9991981982747587e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.186840772628784, 'eval_runtime': 0.9775, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 0.13}
{'loss': 2.0567, 'learning_rate': 1.9991305743680013e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1746294498443604, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 0.13}
{'loss': 1.5875, 'learning_rate': 1.9990602142700247e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.173207998275757, 'eval_runtime': 1.0788, 'eval_samples_per_second': 4.635, 'eval_steps_per_second': 0.927, 'epoch': 0.13}
{'loss': 1.4471, 'learning_rate': 1.998987118173515e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1660473346710205, 'eval_runtime': 1.0344, 'eval_samples_per_second': 4.834, 'eval_steps_per_second': 0.967, 'epoch': 0.13}
{'loss': 1.5229, 'learning_rate': 1.998911286278651e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.160353422164917, 'eval_runtime': 0.9685, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.13}
{'loss': 1.4463, 'learning_rate': 1.998832718793104e-05, 'epoch': 0.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.146394729614258, 'eval_runtime': 0.9648, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 0.13}
{'loss': 1.4294, 'learning_rate': 1.9987514159320368e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.133347272872925, 'eval_runtime': 1.087, 'eval_samples_per_second': 4.6, 'eval_steps_per_second': 0.92, 'epoch': 0.14}
{'loss': 1.8032, 'learning_rate': 1.9986673779181033e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.129399061203003, 'eval_runtime': 1.0001, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 0.14}
{'loss': 2.0013, 'learning_rate': 1.9985806049814473e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.134422540664673, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 0.14}
{'loss': 1.6533, 'learning_rate': 1.9984910973597027e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.148597240447998, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 0.14}
{'loss': 1.7547, 'learning_rate': 1.9983988552979928e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1599740982055664, 'eval_runtime': 1.0858, 'eval_samples_per_second': 4.605, 'eval_steps_per_second': 0.921, 'epoch': 0.14}
{'loss': 1.7208, 'learning_rate': 1.9983038790489296e-05, 'epoch': 0.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.167902946472168, 'eval_runtime': 0.9426, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 0.14}
{'loss': 1.2343, 'learning_rate': 1.9982061688726114e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1679599285125732, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 0.15}
{'loss': 1.488, 'learning_rate': 1.9981057250366253e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.174448251724243, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 0.15}
{'loss': 1.7149, 'learning_rate': 1.998002547816044e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1748006343841553, 'eval_runtime': 1.046, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 0.15}
{'loss': 1.5435, 'learning_rate': 1.9978966374934255e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.184004783630371, 'eval_runtime': 0.9767, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 0.15}
{'loss': 1.5603, 'learning_rate': 1.9977879943588127e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1953673362731934, 'eval_runtime': 1.038, 'eval_samples_per_second': 4.817, 'eval_steps_per_second': 0.963, 'epoch': 0.15}
{'loss': 1.4813, 'learning_rate': 1.9976766187097332e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2017388343811035, 'eval_runtime': 0.9407, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 0.15}
{'loss': 1.4345, 'learning_rate': 1.997562510851197e-05, 'epoch': 0.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.20698881149292, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.15}
{'loss': 1.5506, 'learning_rate': 1.9974456710956965e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.196653127670288, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 0.16}
{'loss': 1.735, 'learning_rate': 1.997326099763206e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1779897212982178, 'eval_runtime': 1.0019, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 0.16}
{'loss': 1.7041, 'learning_rate': 1.9972037971811802e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1462814807891846, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 0.16}
{'loss': 1.6247, 'learning_rate': 1.9970787636845536e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.118185043334961, 'eval_runtime': 0.9596, 'eval_samples_per_second': 5.211, 'eval_steps_per_second': 1.042, 'epoch': 0.16}
{'loss': 1.4603, 'learning_rate': 1.9969509996157398e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1025960445404053, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 0.16}
{'loss': 1.706, 'learning_rate': 1.996820505324629e-05, 'epoch': 0.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.102612018585205, 'eval_runtime': 1.0422, 'eval_samples_per_second': 4.798, 'eval_steps_per_second': 0.96, 'epoch': 0.16}
{'loss': 1.4958, 'learning_rate': 1.99668728116859e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1046464443206787, 'eval_runtime': 0.9487, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 0.17}
{'loss': 1.8212, 'learning_rate': 1.996551327512467e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1647045612335205, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 0.17}
{'loss': 1.3821, 'learning_rate': 1.996412644728578e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.189410924911499, 'eval_runtime': 0.9665, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 0.17}
{'loss': 1.768, 'learning_rate': 1.996271233196716e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.198615312576294, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 0.17}
{'loss': 1.453, 'learning_rate': 1.9961270933041475e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1925766468048096, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 0.17}
{'loss': 1.6592, 'learning_rate': 1.9959802254456094e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.16853404045105, 'eval_runtime': 1.0136, 'eval_samples_per_second': 4.933, 'eval_steps_per_second': 0.987, 'epoch': 0.17}
{'loss': 1.4157, 'learning_rate': 1.99583063002331e-05, 'epoch': 0.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1574039459228516, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 0.17}
{'loss': 1.4105, 'learning_rate': 1.9956783074469272e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1583685874938965, 'eval_runtime': 0.9813, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 0.18}
{'loss': 1.4708, 'learning_rate': 1.995523258133607e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.165301561355591, 'eval_runtime': 0.9745, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 0.18}
{'loss': 1.5945, 'learning_rate': 1.995365482507964e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.176252841949463, 'eval_runtime': 0.9895, 'eval_samples_per_second': 5.053, 'eval_steps_per_second': 1.011, 'epoch': 0.18}
{'loss': 1.7407, 'learning_rate': 1.9952049810020774e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.190115451812744, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 0.18}
{'loss': 1.3746, 'learning_rate': 1.9950417540554924e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2005300521850586, 'eval_runtime': 0.9585, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 0.18}
{'loss': 1.4975, 'learning_rate': 1.9948758021152178e-05, 'epoch': 0.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2127842903137207, 'eval_runtime': 1.0284, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 0.18}
{'loss': 1.8085, 'learning_rate': 1.994707125635725e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2136707305908203, 'eval_runtime': 1.0371, 'eval_samples_per_second': 4.821, 'eval_steps_per_second': 0.964, 'epoch': 0.19}
{'loss': 1.2468, 'learning_rate': 1.9945357250789467e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1944010257720947, 'eval_runtime': 1.0152, 'eval_samples_per_second': 4.925, 'eval_steps_per_second': 0.985, 'epoch': 0.19}
{'loss': 1.3917, 'learning_rate': 1.9943616009142755e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1798930168151855, 'eval_runtime': 1.0466, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 0.19}
{'loss': 1.9003, 'learning_rate': 1.9941847536185633e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.176281213760376, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 0.19}
{'loss': 1.8003, 'learning_rate': 1.994005183676119e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.175546169281006, 'eval_runtime': 0.9513, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 0.19}
{'loss': 1.7296, 'learning_rate': 1.993822891578708e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1632168292999268, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 0.19}
{'loss': 1.6294, 'learning_rate': 1.9936378778255503e-05, 'epoch': 0.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1617493629455566, 'eval_runtime': 1.045, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 0.19}
{'loss': 1.632, 'learning_rate': 1.9934501429233194e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.161153793334961, 'eval_runtime': 0.9807, 'eval_samples_per_second': 5.099, 'eval_steps_per_second': 1.02, 'epoch': 0.2}
{'loss': 1.6215, 'learning_rate': 1.9932596873861407e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.159451484680176, 'eval_runtime': 0.9441, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 0.2}
{'loss': 1.5032, 'learning_rate': 1.9930665117355906e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1633310317993164, 'eval_runtime': 0.9431, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 0.2}
{'loss': 1.5301, 'learning_rate': 1.992870616500695e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1702334880828857, 'eval_runtime': 1.0571, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 0.2}
{'loss': 1.3845, 'learning_rate': 1.992672002217926e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.175814628601074, 'eval_runtime': 0.9507, 'eval_samples_per_second': 5.259, 'eval_steps_per_second': 1.052, 'epoch': 0.2}
{'loss': 1.5988, 'learning_rate': 1.9924706694312045e-05, 'epoch': 0.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.185309886932373, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 0.2}
{'loss': 1.5512, 'learning_rate': 1.9922666186918943e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1908137798309326, 'eval_runtime': 1.0166, 'eval_samples_per_second': 4.918, 'eval_steps_per_second': 0.984, 'epoch': 0.21}
{'loss': 1.3179, 'learning_rate': 1.992059850558803e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.191091775894165, 'eval_runtime': 0.9605, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 0.21}
{'loss': 1.8573, 'learning_rate': 1.9918503655981797e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1919631958007812, 'eval_runtime': 0.9432, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 0.21}
{'loss': 1.3494, 'learning_rate': 1.991638164383715e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.2007830142974854, 'eval_runtime': 1.0075, 'eval_samples_per_second': 4.963, 'eval_steps_per_second': 0.993, 'epoch': 0.21}
{'loss': 1.7165, 'learning_rate': 1.9914232474965364e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.20780873298645, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 0.21}
{'loss': 1.6576, 'learning_rate': 1.99120561552521e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1992673873901367, 'eval_runtime': 1.0341, 'eval_samples_per_second': 4.835, 'eval_steps_per_second': 0.967, 'epoch': 0.21}
{'loss': 1.3642, 'learning_rate': 1.990985269065736e-05, 'epoch': 0.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.195918083190918, 'eval_runtime': 0.9531, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 0.21}
{'loss': 1.5342, 'learning_rate': 1.9907622087215495e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1951558589935303, 'eval_runtime': 0.9719, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 0.22}
{'loss': 1.5643, 'learning_rate': 1.9905364351035176e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1891939640045166, 'eval_runtime': 0.9826, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 0.22}
{'loss': 1.4581, 'learning_rate': 1.9903079488299368e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1806023120880127, 'eval_runtime': 0.964, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 0.22}
{'loss': 1.4371, 'learning_rate': 1.9900767505265342e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.17891001701355, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 0.22}
{'loss': 1.4188, 'learning_rate': 1.989842840826462e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.183027744293213, 'eval_runtime': 1.0134, 'eval_samples_per_second': 4.934, 'eval_steps_per_second': 0.987, 'epoch': 0.22}
{'loss': 1.3402, 'learning_rate': 1.9896062203703004e-05, 'epoch': 0.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1844887733459473, 'eval_runtime': 0.9405, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 0.22}
{'loss': 1.6579, 'learning_rate': 1.9893668898060504e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.181654214859009, 'eval_runtime': 0.9744, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 0.23}
{'loss': 1.4742, 'learning_rate': 1.989124849789136e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1744067668914795, 'eval_runtime': 1.0468, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 0.23}
{'loss': 1.8095, 'learning_rate': 1.9888801009824015e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.171741247177124, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 0.23}
{'loss': 1.2989, 'learning_rate': 1.988632644056109e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1709089279174805, 'eval_runtime': 0.9543, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 0.23}
{'loss': 1.3034, 'learning_rate': 1.988382479687938e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.173874616622925, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 0.23}
{'loss': 1.2668, 'learning_rate': 1.9881296085629808e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1878833770751953, 'eval_runtime': 0.9853, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 0.23}
{'loss': 1.4568, 'learning_rate': 1.9878740313737435e-05, 'epoch': 0.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1956536769866943, 'eval_runtime': 0.9486, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 0.23}
{'loss': 1.4647, 'learning_rate': 1.9876157488201426e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.196963310241699, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 0.24}
{'loss': 1.9747, 'learning_rate': 1.9873547616095036e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.189570665359497, 'eval_runtime': 0.9548, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 0.24}
{'loss': 1.3672, 'learning_rate': 1.987091070456559e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1820054054260254, 'eval_runtime': 1.0602, 'eval_samples_per_second': 4.716, 'eval_steps_per_second': 0.943, 'epoch': 0.24}
{'loss': 1.5055, 'learning_rate': 1.9868246760834456e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.178002119064331, 'eval_runtime': 0.9622, 'eval_samples_per_second': 5.196, 'eval_steps_per_second': 1.039, 'epoch': 0.24}
{'loss': 1.6429, 'learning_rate': 1.9865555792197042e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1659321784973145, 'eval_runtime': 1.0493, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 0.24}
{'loss': 1.4864, 'learning_rate': 1.9862837806022756e-05, 'epoch': 0.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.146888256072998, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 0.24}
{'loss': 1.7734, 'learning_rate': 1.9860092809755e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1291935443878174, 'eval_runtime': 0.9555, 'eval_samples_per_second': 5.233, 'eval_steps_per_second': 1.047, 'epoch': 0.25}
{'loss': 1.4336, 'learning_rate': 1.9857320810911144e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1230859756469727, 'eval_runtime': 0.9734, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 0.25}
{'loss': 1.4741, 'learning_rate': 1.985452181708251e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.117225170135498, 'eval_runtime': 1.0027, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 0.25}
{'loss': 1.4216, 'learning_rate': 1.985169583593434e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.119257926940918, 'eval_runtime': 0.9603, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 0.25}
{'loss': 1.6084, 'learning_rate': 1.9848842875205795e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.122605323791504, 'eval_runtime': 0.9508, 'eval_samples_per_second': 5.259, 'eval_steps_per_second': 1.052, 'epoch': 0.25}
{'loss': 1.4183, 'learning_rate': 1.9845962942709905e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.131591320037842, 'eval_runtime': 1.0629, 'eval_samples_per_second': 4.704, 'eval_steps_per_second': 0.941, 'epoch': 0.25}
{'loss': 1.3525, 'learning_rate': 1.984305604633358e-05, 'epoch': 0.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.130943775177002, 'eval_runtime': 0.9847, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 0.25}
{'loss': 1.3877, 'learning_rate': 1.9840122194037556e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1180427074432373, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 0.26}
{'loss': 1.5848, 'learning_rate': 1.9837161393856413e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1083486080169678, 'eval_runtime': 0.9477, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 0.26}
{'loss': 1.3511, 'learning_rate': 1.983417365389851e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.101837396621704, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 0.26}
{'loss': 1.113, 'learning_rate': 1.9831158982345982e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1078262329101562, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 0.26}
{'loss': 1.5471, 'learning_rate': 1.9828117387454734e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1163601875305176, 'eval_runtime': 0.9677, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 0.26}
{'loss': 1.1717, 'learning_rate': 1.9825048877554386e-05, 'epoch': 0.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1221415996551514, 'eval_runtime': 0.9609, 'eval_samples_per_second': 5.204, 'eval_steps_per_second': 1.041, 'epoch': 0.26}
{'loss': 1.4693, 'learning_rate': 1.982195346104828e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1241841316223145, 'eval_runtime': 0.9805, 'eval_samples_per_second': 5.099, 'eval_steps_per_second': 1.02, 'epoch': 0.27}
{'loss': 1.6356, 'learning_rate': 1.9818831146413435e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1205830574035645, 'eval_runtime': 0.9833, 'eval_samples_per_second': 5.085, 'eval_steps_per_second': 1.017, 'epoch': 0.27}
{'loss': 1.4325, 'learning_rate': 1.9815681942200537e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.10581374168396, 'eval_runtime': 0.9575, 'eval_samples_per_second': 5.222, 'eval_steps_per_second': 1.044, 'epoch': 0.27}
{'loss': 1.5252, 'learning_rate': 1.9812505857033907e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0963921546936035, 'eval_runtime': 1.047, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 0.27}
{'loss': 1.4794, 'learning_rate': 1.980930289961148e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.091672897338867, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 0.27}
{'loss': 1.2944, 'learning_rate': 1.9806073078704793e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.087808132171631, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 0.27}
{'loss': 1.5048, 'learning_rate': 1.980281640315894e-05, 'epoch': 0.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0880048274993896, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 0.27}
{'loss': 1.5158, 'learning_rate': 1.9799532881892564e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.09318470954895, 'eval_runtime': 1.0588, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 0.28}
{'loss': 1.6629, 'learning_rate': 1.9796222523897825e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.093057155609131, 'eval_runtime': 0.9723, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 0.28}
{'loss': 1.4606, 'learning_rate': 1.9792885338240375e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0938076972961426, 'eval_runtime': 1.0335, 'eval_samples_per_second': 4.838, 'eval_steps_per_second': 0.968, 'epoch': 0.28}
{'loss': 1.4025, 'learning_rate': 1.978952133405934e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1078267097473145, 'eval_runtime': 0.9443, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 0.28}
{'loss': 1.3928, 'learning_rate': 1.9786130520567285e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1129939556121826, 'eval_runtime': 1.0252, 'eval_samples_per_second': 4.877, 'eval_steps_per_second': 0.975, 'epoch': 0.28}
{'loss': 1.5718, 'learning_rate': 1.9782712907050204e-05, 'epoch': 0.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0989203453063965, 'eval_runtime': 0.9647, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 0.28}
{'loss': 1.3714, 'learning_rate': 1.9779268502867474e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.094653606414795, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 0.29}
{'loss': 1.1778, 'learning_rate': 1.977579731745184e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0974369049072266, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 0.29}
{'loss': 1.2102, 'learning_rate': 1.9772299360309406e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0976223945617676, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 0.29}
{'loss': 1.3411, 'learning_rate': 1.976877464101957e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1033968925476074, 'eval_runtime': 0.9544, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 0.29}
{'loss': 1.4227, 'learning_rate': 1.9765223169235036e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.102923631668091, 'eval_runtime': 1.0543, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 0.29}
{'loss': 1.6072, 'learning_rate': 1.9761644954681762e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0986616611480713, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 0.29}
{'loss': 1.2132, 'learning_rate': 1.975804000715895e-05, 'epoch': 0.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0632758140563965, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 0.29}
{'loss': 1.4722, 'learning_rate': 1.9754408336539e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.053417682647705, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 0.3}
{'loss': 1.4876, 'learning_rate': 1.975074995276752e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.052746057510376, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 0.3}
{'loss': 1.279, 'learning_rate': 1.9747064865863246e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0665464401245117, 'eval_runtime': 0.9419, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 0.3}
{'loss': 1.5686, 'learning_rate': 1.974335308591806e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0694990158081055, 'eval_runtime': 1.0625, 'eval_samples_per_second': 4.706, 'eval_steps_per_second': 0.941, 'epoch': 0.3}
{'loss': 1.2611, 'learning_rate': 1.9739614623096936e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0624759197235107, 'eval_runtime': 1.06, 'eval_samples_per_second': 4.717, 'eval_steps_per_second': 0.943, 'epoch': 0.3}
{'loss': 1.5553, 'learning_rate': 1.9735849487637927e-05, 'epoch': 0.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.047231912612915, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 0.3}
{'loss': 1.1151, 'learning_rate': 1.973205768985213e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.05100154876709, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 0.31}
{'loss': 1.3685, 'learning_rate': 1.972823924012365e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0616865158081055, 'eval_runtime': 1.0527, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 0.31}
{'loss': 1.5075, 'learning_rate': 1.9724394148909596e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.077153205871582, 'eval_runtime': 1.023, 'eval_samples_per_second': 4.887, 'eval_steps_per_second': 0.977, 'epoch': 0.31}
{'loss': 1.1893, 'learning_rate': 1.9720522426740022e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.092473268508911, 'eval_runtime': 0.9477, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 0.31}
{'loss': 1.2315, 'learning_rate': 1.971662408421792e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1055688858032227, 'eval_runtime': 1.0158, 'eval_samples_per_second': 4.922, 'eval_steps_per_second': 0.984, 'epoch': 0.31}
{'loss': 1.3603, 'learning_rate': 1.971269913201918e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1145524978637695, 'eval_runtime': 0.9853, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 0.31}
{'loss': 1.364, 'learning_rate': 1.9708747580892575e-05, 'epoch': 0.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1211795806884766, 'eval_runtime': 0.9483, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 0.31}
{'loss': 1.2286, 'learning_rate': 1.9704769441659703e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.114820718765259, 'eval_runtime': 1.0128, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 0.32}
{'loss': 1.3534, 'learning_rate': 1.970076472521499e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1024014949798584, 'eval_runtime': 1.0448, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 0.32}
{'loss': 1.209, 'learning_rate': 1.9696733442525646e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.065444231033325, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 0.32}
{'loss': 1.4108, 'learning_rate': 1.9692675604631627e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.052377223968506, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 0.32}
{'loss': 1.1257, 'learning_rate': 1.9688591222645607e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.059156656265259, 'eval_runtime': 0.9463, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 0.32}
{'loss': 1.4304, 'learning_rate': 1.968448030775297e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0823769569396973, 'eval_runtime': 1.0602, 'eval_samples_per_second': 4.716, 'eval_steps_per_second': 0.943, 'epoch': 0.32}
{'loss': 1.0389, 'learning_rate': 1.9680342871211754e-05, 'epoch': 0.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.100036382675171, 'eval_runtime': 1.0255, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 0.32}
{'loss': 1.431, 'learning_rate': 1.967617892435262e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.092027425765991, 'eval_runtime': 0.9443, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 0.33}
{'loss': 1.1919, 'learning_rate': 1.9671988478578844e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0906920433044434, 'eval_runtime': 1.0194, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 0.33}
{'loss': 1.4848, 'learning_rate': 1.9667771545366258e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0905654430389404, 'eval_runtime': 0.9388, 'eval_samples_per_second': 5.326, 'eval_steps_per_second': 1.065, 'epoch': 0.33}
{'loss': 1.2696, 'learning_rate': 1.9663528136263246e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0904204845428467, 'eval_runtime': 0.9462, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 0.33}
{'loss': 1.2486, 'learning_rate': 1.9659258262890683e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0908517837524414, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 0.33}
{'loss': 1.5306, 'learning_rate': 1.965496193694193e-05, 'epoch': 0.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.091989755630493, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 0.33}
{'loss': 1.5221, 'learning_rate': 1.9650639170182785e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.095932722091675, 'eval_runtime': 0.9542, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 0.34}
{'loss': 1.4436, 'learning_rate': 1.9646289974451455e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.103851795196533, 'eval_runtime': 0.955, 'eval_samples_per_second': 5.236, 'eval_steps_per_second': 1.047, 'epoch': 0.34}
{'loss': 1.2379, 'learning_rate': 1.964191436165853e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1026124954223633, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 0.34}
{'loss': 1.3441, 'learning_rate': 1.963751234378694e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.1036245822906494, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 0.34}
{'loss': 1.4102, 'learning_rate': 1.9633083932891924e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.096228837966919, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 0.34}
{'loss': 1.1301, 'learning_rate': 1.962862914110101e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0795555114746094, 'eval_runtime': 0.9602, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 0.34}
{'loss': 1.3046, 'learning_rate': 1.962414798061397e-05, 'epoch': 0.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0632567405700684, 'eval_runtime': 1.0101, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 0.34}
{'loss': 1.3866, 'learning_rate': 1.961964046370278e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.038841724395752, 'eval_runtime': 1.0013, 'eval_samples_per_second': 4.993, 'eval_steps_per_second': 0.999, 'epoch': 0.35}
{'loss': 1.346, 'learning_rate': 1.96151066027116e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.039064884185791, 'eval_runtime': 0.9509, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 0.35}
{'loss': 1.2544, 'learning_rate': 1.961054641005674e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.042266607284546, 'eval_runtime': 0.9539, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 0.35}
{'loss': 1.4678, 'learning_rate': 1.9605959898226615e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0401768684387207, 'eval_runtime': 0.9974, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 0.35}
{'loss': 1.311, 'learning_rate': 1.9601347079781718e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.041069746017456, 'eval_runtime': 1.056, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 0.35}
{'loss': 1.6428, 'learning_rate': 1.9596707967354588e-05, 'epoch': 0.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0344207286834717, 'eval_runtime': 0.9845, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 0.35}
{'loss': 1.4133, 'learning_rate': 1.9592042573649763e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0292563438415527, 'eval_runtime': 0.9879, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 0.36}
{'loss': 1.4828, 'learning_rate': 1.9587350911443767e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0275092124938965, 'eval_runtime': 0.9687, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 0.36}
{'loss': 1.6161, 'learning_rate': 1.9582632993585055e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0285844802856445, 'eval_runtime': 0.9696, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 0.36}
{'loss': 1.4449, 'learning_rate': 1.957788883299398e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.034020185470581, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 0.36}
{'loss': 1.6493, 'learning_rate': 1.9573118442662776e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0431509017944336, 'eval_runtime': 0.9467, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 0.36}
{'loss': 1.4233, 'learning_rate': 1.95683218356555e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.052126169204712, 'eval_runtime': 1.0229, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 0.36}
{'loss': 1.4371, 'learning_rate': 1.9563499025108e-05, 'epoch': 0.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.06595516204834, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 0.36}
{'loss': 1.7009, 'learning_rate': 1.95586500242279e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.070129156112671, 'eval_runtime': 0.9671, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 0.37}
{'loss': 1.4242, 'learning_rate': 1.9553774846294532e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0566136837005615, 'eval_runtime': 1.0288, 'eval_samples_per_second': 4.86, 'eval_steps_per_second': 0.972, 'epoch': 0.37}
{'loss': 1.2779, 'learning_rate': 1.9548873504658924e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.042257070541382, 'eval_runtime': 0.9503, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 0.37}
{'loss': 0.9349, 'learning_rate': 1.9543946012743757e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.040912628173828, 'eval_runtime': 1.0273, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 0.37}
{'loss': 1.3212, 'learning_rate': 1.953899238404332e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.043353796005249, 'eval_runtime': 0.9481, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 0.37}
{'loss': 1.318, 'learning_rate': 1.9534012632123486e-05, 'epoch': 0.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0556886196136475, 'eval_runtime': 0.9859, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 0.37}
{'loss': 1.6022, 'learning_rate': 1.9529006770621663e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0706920623779297, 'eval_runtime': 0.9671, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 0.38}
{'loss': 1.3239, 'learning_rate': 1.9523974813246765e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0744473934173584, 'eval_runtime': 0.9603, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 0.38}
{'loss': 1.2707, 'learning_rate': 1.951891677377917e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0703516006469727, 'eval_runtime': 0.9844, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 0.38}
{'loss': 1.3385, 'learning_rate': 1.9513832666070687e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0721852779388428, 'eval_runtime': 0.9821, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 0.38}
{'loss': 1.6237, 'learning_rate': 1.9508722504044508e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0647079944610596, 'eval_runtime': 1.0424, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 0.38}
{'loss': 1.4631, 'learning_rate': 1.9503586301695185e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 2.0246951580047607, 'eval_runtime': 0.9853, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 0.38}
{'loss': 1.4604, 'learning_rate': 1.9498424073088574e-05, 'epoch': 0.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.99349045753479, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 0.38}
{'loss': 1.1601, 'learning_rate': 1.9493235832361812e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.973973035812378, 'eval_runtime': 0.9431, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 0.39}
{'loss': 1.243, 'learning_rate': 1.9488021593723273e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.963529348373413, 'eval_runtime': 0.974, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 0.39}
{'loss': 1.5267, 'learning_rate': 1.9482781371452527e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9573456048965454, 'eval_runtime': 1.0261, 'eval_samples_per_second': 4.873, 'eval_steps_per_second': 0.975, 'epoch': 0.39}
{'loss': 1.4276, 'learning_rate': 1.9477515179900296e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9677505493164062, 'eval_runtime': 1.0079, 'eval_samples_per_second': 4.961, 'eval_steps_per_second': 0.992, 'epoch': 0.39}
{'loss': 1.2583, 'learning_rate': 1.947222303348843e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9782912731170654, 'eval_runtime': 0.9458, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 0.39}
{'loss': 1.6359, 'learning_rate': 1.9466904946709856e-05, 'epoch': 0.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9889695644378662, 'eval_runtime': 1.0554, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 0.39}
{'loss': 1.1773, 'learning_rate': 1.9461560934128535e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.939549207687378, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 0.4}
{'loss': 1.6823, 'learning_rate': 1.9456191010379427e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8915172815322876, 'eval_runtime': 1.0428, 'eval_samples_per_second': 4.795, 'eval_steps_per_second': 0.959, 'epoch': 0.4}
{'loss': 1.3328, 'learning_rate': 1.9450795190168468e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8915584087371826, 'eval_runtime': 0.9567, 'eval_samples_per_second': 5.226, 'eval_steps_per_second': 1.045, 'epoch': 0.4}
{'loss': 1.3985, 'learning_rate': 1.944537348827249e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.892887830734253, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 0.4}
{'loss': 1.2626, 'learning_rate': 1.943992591953922e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8946678638458252, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 0.4}
{'loss': 1.0401, 'learning_rate': 1.9434452498887217e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.889478325843811, 'eval_runtime': 1.0184, 'eval_samples_per_second': 4.91, 'eval_steps_per_second': 0.982, 'epoch': 0.4}
{'loss': 1.501, 'learning_rate': 1.942895324130584e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8917423486709595, 'eval_runtime': 0.9459, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 0.4}
{'loss': 1.3179, 'learning_rate': 1.9423428161855204e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.901127576828003, 'eval_runtime': 0.9539, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 0.41}
{'loss': 1.5119, 'learning_rate': 1.941787727566613e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8964446783065796, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 0.41}
{'loss': 1.2456, 'learning_rate': 1.941230059794013e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8904664516448975, 'eval_runtime': 0.9539, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 0.41}
{'loss': 1.4594, 'learning_rate': 1.940669814394934e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8915927410125732, 'eval_runtime': 0.9766, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 0.41}
{'loss': 1.4964, 'learning_rate': 1.9401069929036475e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8792632818222046, 'eval_runtime': 0.9912, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 0.41}
{'loss': 1.3964, 'learning_rate': 1.9395415968614815e-05, 'epoch': 0.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8590160608291626, 'eval_runtime': 0.991, 'eval_samples_per_second': 5.045, 'eval_steps_per_second': 1.009, 'epoch': 0.41}
{'loss': 1.405, 'learning_rate': 1.9389736278168137e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8454015254974365, 'eval_runtime': 0.9753, 'eval_samples_per_second': 5.127, 'eval_steps_per_second': 1.025, 'epoch': 0.42}
{'loss': 1.4745, 'learning_rate': 1.9384030873250682e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.840214490890503, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 0.42}
{'loss': 1.4922, 'learning_rate': 1.9378299769487116e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.840127944946289, 'eval_runtime': 1.0066, 'eval_samples_per_second': 4.967, 'eval_steps_per_second': 0.993, 'epoch': 0.42}
{'loss': 1.5175, 'learning_rate': 1.937254298257248e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8447259664535522, 'eval_runtime': 0.9537, 'eval_samples_per_second': 5.243, 'eval_steps_per_second': 1.049, 'epoch': 0.42}
{'loss': 1.097, 'learning_rate': 1.9366760528272148e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.85263991355896, 'eval_runtime': 0.9991, 'eval_samples_per_second': 5.004, 'eval_steps_per_second': 1.001, 'epoch': 0.42}
{'loss': 1.3496, 'learning_rate': 1.9360952422421794e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8575570583343506, 'eval_runtime': 0.9827, 'eval_samples_per_second': 5.088, 'eval_steps_per_second': 1.018, 'epoch': 0.42}
{'loss': 1.1857, 'learning_rate': 1.9355118680927326e-05, 'epoch': 0.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8658764362335205, 'eval_runtime': 0.9849, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 0.42}
{'loss': 1.126, 'learning_rate': 1.9349259319764874e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.882267713546753, 'eval_runtime': 1.0411, 'eval_samples_per_second': 4.803, 'eval_steps_per_second': 0.961, 'epoch': 0.43}
{'loss': 1.3984, 'learning_rate': 1.934337435498072e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8931382894515991, 'eval_runtime': 0.9646, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 0.43}
{'loss': 1.3692, 'learning_rate': 1.9337463802691265e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.900242567062378, 'eval_runtime': 1.0525, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 0.43}
{'loss': 1.4706, 'learning_rate': 1.9331527679082983e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9017016887664795, 'eval_runtime': 0.9523, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 0.43}
{'loss': 1.4244, 'learning_rate': 1.9325566000412377e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8904180526733398, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 0.43}
{'loss': 1.425, 'learning_rate': 1.9319578783005934e-05, 'epoch': 0.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8821426630020142, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 0.43}
{'loss': 1.7884, 'learning_rate': 1.931356604326008e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.879246473312378, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 0.44}
{'loss': 1.4503, 'learning_rate': 1.930752779764114e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.872365951538086, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 0.44}
{'loss': 1.4662, 'learning_rate': 1.9301464062685286e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8700710535049438, 'eval_runtime': 0.9609, 'eval_samples_per_second': 5.204, 'eval_steps_per_second': 1.041, 'epoch': 0.44}
{'loss': 1.207, 'learning_rate': 1.9295374854998486e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8686678409576416, 'eval_runtime': 0.9428, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 0.44}
{'loss': 1.3149, 'learning_rate': 1.9289260191256484e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8591428995132446, 'eval_runtime': 0.973, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 0.44}
{'loss': 1.1938, 'learning_rate': 1.928312008820473e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.857900857925415, 'eval_runtime': 0.9607, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 0.44}
{'loss': 1.1773, 'learning_rate': 1.9276954562658328e-05, 'epoch': 0.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8554226160049438, 'eval_runtime': 0.9757, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 0.44}
{'loss': 1.3463, 'learning_rate': 1.9270763631502026e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8598992824554443, 'eval_runtime': 0.9633, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 0.45}
{'loss': 1.3452, 'learning_rate': 1.926454731169013e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8600183725357056, 'eval_runtime': 0.9856, 'eval_samples_per_second': 5.073, 'eval_steps_per_second': 1.015, 'epoch': 0.45}
{'loss': 1.5803, 'learning_rate': 1.925830562024648e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8609310388565063, 'eval_runtime': 0.9988, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 0.45}
{'loss': 1.1776, 'learning_rate': 1.9252038574264403e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.859065294265747, 'eval_runtime': 0.994, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 0.45}
{'loss': 1.5737, 'learning_rate': 1.9245746190906658e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.865087866783142, 'eval_runtime': 0.9722, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 0.45}
{'loss': 1.1198, 'learning_rate': 1.923942848740538e-05, 'epoch': 0.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.870977759361267, 'eval_runtime': 1.0219, 'eval_samples_per_second': 4.893, 'eval_steps_per_second': 0.979, 'epoch': 0.45}
{'loss': 1.1459, 'learning_rate': 1.9233085481062072e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8709862232208252, 'eval_runtime': 0.9956, 'eval_samples_per_second': 5.022, 'eval_steps_per_second': 1.004, 'epoch': 0.46}
{'loss': 1.2279, 'learning_rate': 1.9226717189247503e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.873769998550415, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 0.46}
{'loss': 1.2951, 'learning_rate': 1.922032362940171e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8759149312973022, 'eval_runtime': 0.9509, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 0.46}
{'loss': 1.1958, 'learning_rate': 1.9213904819033904e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8844268321990967, 'eval_runtime': 1.0206, 'eval_samples_per_second': 4.899, 'eval_steps_per_second': 0.98, 'epoch': 0.46}
{'loss': 1.0843, 'learning_rate': 1.9207460775722473e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8945252895355225, 'eval_runtime': 1.0149, 'eval_samples_per_second': 4.927, 'eval_steps_per_second': 0.985, 'epoch': 0.46}
{'loss': 1.3573, 'learning_rate': 1.920099151711489e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9020955562591553, 'eval_runtime': 1.0032, 'eval_samples_per_second': 4.984, 'eval_steps_per_second': 0.997, 'epoch': 0.46}
{'loss': 1.0707, 'learning_rate': 1.919449706092769e-05, 'epoch': 0.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9114978313446045, 'eval_runtime': 0.9479, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 0.46}
{'loss': 1.03, 'learning_rate': 1.9187977424946405e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9114961624145508, 'eval_runtime': 0.9514, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 0.47}
{'loss': 1.2719, 'learning_rate': 1.9181432627025534e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.912424087524414, 'eval_runtime': 0.9927, 'eval_samples_per_second': 5.037, 'eval_steps_per_second': 1.007, 'epoch': 0.47}
{'loss': 1.6385, 'learning_rate': 1.9174862685088472e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.905859351158142, 'eval_runtime': 0.9458, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 0.47}
{'loss': 1.2002, 'learning_rate': 1.916826761712749e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.89179265499115, 'eval_runtime': 1.0021, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 0.47}
{'loss': 1.462, 'learning_rate': 1.9161647441203648e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8741190433502197, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 0.47}
{'loss': 1.0351, 'learning_rate': 1.915500217544678e-05, 'epoch': 0.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8669641017913818, 'eval_runtime': 1.02, 'eval_samples_per_second': 4.902, 'eval_steps_per_second': 0.98, 'epoch': 0.47}
{'loss': 1.2485, 'learning_rate': 1.9148331838055424e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8648601770401, 'eval_runtime': 0.9474, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 0.48}
{'loss': 1.3796, 'learning_rate': 1.9141636447296783e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8602806329727173, 'eval_runtime': 1.0454, 'eval_samples_per_second': 4.783, 'eval_steps_per_second': 0.957, 'epoch': 0.48}
{'loss': 1.4068, 'learning_rate': 1.9134916021506667e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8557512760162354, 'eval_runtime': 0.9821, 'eval_samples_per_second': 5.091, 'eval_steps_per_second': 1.018, 'epoch': 0.48}
{'loss': 1.4534, 'learning_rate': 1.912817057908945e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8469808101654053, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 0.48}
{'loss': 1.2781, 'learning_rate': 1.9121400138518008e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.843213677406311, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 0.48}
{'loss': 1.3315, 'learning_rate': 1.911460471833368e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8412030935287476, 'eval_runtime': 0.9624, 'eval_samples_per_second': 5.195, 'eval_steps_per_second': 1.039, 'epoch': 0.48}
{'loss': 1.3521, 'learning_rate': 1.910778433714622e-05, 'epoch': 0.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8381843566894531, 'eval_runtime': 0.9721, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 0.48}
{'loss': 1.6339, 'learning_rate': 1.910093901363374e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8397213220596313, 'eval_runtime': 1.0219, 'eval_samples_per_second': 4.893, 'eval_steps_per_second': 0.979, 'epoch': 0.49}
{'loss': 1.1394, 'learning_rate': 1.9094068766542642e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8429685831069946, 'eval_runtime': 0.9878, 'eval_samples_per_second': 5.062, 'eval_steps_per_second': 1.012, 'epoch': 0.49}
{'loss': 1.2744, 'learning_rate': 1.9087173614687594e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.849808931350708, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 0.49}
{'loss': 1.514, 'learning_rate': 1.9080253576951473e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8492838144302368, 'eval_runtime': 0.9386, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 0.49}
{'loss': 1.2657, 'learning_rate': 1.90733086722853e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.852628469467163, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 0.49}
{'loss': 1.36, 'learning_rate': 1.90663389197082e-05, 'epoch': 0.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.860874891281128, 'eval_runtime': 0.9798, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 0.49}
{'loss': 1.4337, 'learning_rate': 1.9059344338307334e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.867248296737671, 'eval_runtime': 0.9832, 'eval_samples_per_second': 5.086, 'eval_steps_per_second': 1.017, 'epoch': 0.5}
{'loss': 1.4703, 'learning_rate': 1.9052324947237883e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8629987239837646, 'eval_runtime': 1.0039, 'eval_samples_per_second': 4.981, 'eval_steps_per_second': 0.996, 'epoch': 0.5}
{'loss': 1.535, 'learning_rate': 1.9045280765722945e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8554083108901978, 'eval_runtime': 0.9409, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 0.5}
{'loss': 1.3931, 'learning_rate': 1.903821181305352e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8611513376235962, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 0.5}
{'loss': 1.7109, 'learning_rate': 1.9031118108588452e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.867473840713501, 'eval_runtime': 1.0397, 'eval_samples_per_second': 4.809, 'eval_steps_per_second': 0.962, 'epoch': 0.5}
{'loss': 1.235, 'learning_rate': 1.902399967175436e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8745176792144775, 'eval_runtime': 0.948, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 0.5}
{'loss': 1.1785, 'learning_rate': 1.9016856522045596e-05, 'epoch': 0.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.878493070602417, 'eval_runtime': 1.0587, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 0.5}
{'loss': 1.3599, 'learning_rate': 1.900968867902419e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.880507230758667, 'eval_runtime': 0.9444, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 0.51}
{'loss': 1.3719, 'learning_rate': 1.9002496162319802e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8785183429718018, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 0.51}
{'loss': 1.4266, 'learning_rate': 1.899527899162966e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.874871015548706, 'eval_runtime': 1.0581, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 0.51}
{'loss': 1.4346, 'learning_rate': 1.89880371867185e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8722044229507446, 'eval_runtime': 0.9686, 'eval_samples_per_second': 5.162, 'eval_steps_per_second': 1.032, 'epoch': 0.51}
{'loss': 1.1553, 'learning_rate': 1.898077076741853e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8653805255889893, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 0.51}
{'loss': 1.1224, 'learning_rate': 1.897347975362936e-05, 'epoch': 0.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8621799945831299, 'eval_runtime': 1.0561, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 0.51}
{'loss': 1.3043, 'learning_rate': 1.8966164165317968e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8614143133163452, 'eval_runtime': 0.9394, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 0.52}
{'loss': 1.1565, 'learning_rate': 1.8958824022518613e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8662159442901611, 'eval_runtime': 0.9429, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 0.52}
{'loss': 1.3498, 'learning_rate': 1.895145934533281e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8747797012329102, 'eval_runtime': 1.0349, 'eval_samples_per_second': 4.831, 'eval_steps_per_second': 0.966, 'epoch': 0.52}
{'loss': 1.4783, 'learning_rate': 1.8944070153929253e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8826278448104858, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 0.52}
{'loss': 1.3827, 'learning_rate': 1.8936656468543784e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.886675238609314, 'eval_runtime': 0.9664, 'eval_samples_per_second': 5.174, 'eval_steps_per_second': 1.035, 'epoch': 0.52}
{'loss': 1.3176, 'learning_rate': 1.892921830947931e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8875322341918945, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 0.52}
{'loss': 1.4459, 'learning_rate': 1.892175569710577e-05, 'epoch': 0.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8856008052825928, 'eval_runtime': 0.9482, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 0.52}
{'loss': 1.1594, 'learning_rate': 1.8914268651860068e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8874976634979248, 'eval_runtime': 1.0257, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 0.53}
{'loss': 1.0407, 'learning_rate': 1.8906757194246013e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8925033807754517, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 0.53}
{'loss': 1.4189, 'learning_rate': 1.889922134483428e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8988959789276123, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 0.53}
{'loss': 1.0698, 'learning_rate': 1.889166112426233e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9000247716903687, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 0.53}
{'loss': 1.1202, 'learning_rate': 1.8884076553234378e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.898489236831665, 'eval_runtime': 1.0568, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 0.53}
{'loss': 1.2519, 'learning_rate': 1.887646765252132e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8990882635116577, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 0.53}
{'loss': 1.1611, 'learning_rate': 1.886883444296067e-05, 'epoch': 0.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8971706628799438, 'eval_runtime': 0.9691, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 0.53}
{'loss': 1.299, 'learning_rate': 1.8861176945456542e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9001805782318115, 'eval_runtime': 0.9465, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 0.54}
{'loss': 0.9658, 'learning_rate': 1.8853495180979527e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9020159244537354, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 0.54}
{'loss': 1.4535, 'learning_rate': 1.88457891705667e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9025264978408813, 'eval_runtime': 0.9456, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 0.54}
{'loss': 1.6786, 'learning_rate': 1.883805893532153e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9035918712615967, 'eval_runtime': 0.9481, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 0.54}
{'loss': 1.0645, 'learning_rate': 1.8830304496413822e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.900998830795288, 'eval_runtime': 0.963, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 0.54}
{'loss': 1.2128, 'learning_rate': 1.8822525875079665e-05, 'epoch': 0.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8983795642852783, 'eval_runtime': 1.0203, 'eval_samples_per_second': 4.901, 'eval_steps_per_second': 0.98, 'epoch': 0.54}
{'loss': 1.2049, 'learning_rate': 1.8814723092621377e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.885124921798706, 'eval_runtime': 0.9829, 'eval_samples_per_second': 5.087, 'eval_steps_per_second': 1.017, 'epoch': 0.55}
{'loss': 1.2967, 'learning_rate': 1.8806896170407437e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8780208826065063, 'eval_runtime': 0.9804, 'eval_samples_per_second': 5.1, 'eval_steps_per_second': 1.02, 'epoch': 0.55}
{'loss': 1.0498, 'learning_rate': 1.8799045129872442e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8818128108978271, 'eval_runtime': 0.9656, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 0.55}
{'loss': 1.282, 'learning_rate': 1.879116999251703e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8849292993545532, 'eval_runtime': 1.0533, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 0.55}
{'loss': 1.4883, 'learning_rate': 1.8783270779907837e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8841968774795532, 'eval_runtime': 0.9886, 'eval_samples_per_second': 5.058, 'eval_steps_per_second': 1.012, 'epoch': 0.55}
{'loss': 1.2963, 'learning_rate': 1.8775347513677427e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8865236043930054, 'eval_runtime': 0.9629, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 0.55}
{'loss': 1.2253, 'learning_rate': 1.876740021552423e-05, 'epoch': 0.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8894106149673462, 'eval_runtime': 1.0439, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 0.55}
{'loss': 1.1694, 'learning_rate': 1.87594289072125e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8935329914093018, 'eval_runtime': 0.9423, 'eval_samples_per_second': 5.306, 'eval_steps_per_second': 1.061, 'epoch': 0.56}
{'loss': 1.0902, 'learning_rate': 1.8751433610572243e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.900974988937378, 'eval_runtime': 0.949, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 0.56}
{'loss': 1.4467, 'learning_rate': 1.8743414347499152e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9067237377166748, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 0.56}
{'loss': 1.2241, 'learning_rate': 1.873537113995456e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.909477949142456, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 0.56}
{'loss': 1.2072, 'learning_rate': 1.872730400996537e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9055421352386475, 'eval_runtime': 1.0417, 'eval_samples_per_second': 4.8, 'eval_steps_per_second': 0.96, 'epoch': 0.56}
{'loss': 1.6935, 'learning_rate': 1.8719212979624003e-05, 'epoch': 0.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9049266576766968, 'eval_runtime': 0.9395, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 0.56}
{'loss': 1.5318, 'learning_rate': 1.8711098071088327e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.903191328048706, 'eval_runtime': 0.9756, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 0.57}
{'loss': 1.2621, 'learning_rate': 1.8702959306581605e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9040031433105469, 'eval_runtime': 0.9958, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 0.57}
{'loss': 1.3878, 'learning_rate': 1.8694796708392436e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.900792121887207, 'eval_runtime': 0.9713, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 0.57}
{'loss': 1.5723, 'learning_rate': 1.8686610298874677e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8975406885147095, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 0.57}
{'loss': 1.175, 'learning_rate': 1.8678400100447405e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8965286016464233, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 0.57}
{'loss': 1.3281, 'learning_rate': 1.8670166135594843e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8987390995025635, 'eval_runtime': 0.975, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 0.57}
{'loss': 1.2038, 'learning_rate': 1.8661908426866296e-05, 'epoch': 0.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9040076732635498, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 0.57}
{'loss': 1.2498, 'learning_rate': 1.86536269968761e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9121166467666626, 'eval_runtime': 1.0547, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 0.58}
{'loss': 1.1737, 'learning_rate': 1.864532186830354e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9184935092926025, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 0.58}
{'loss': 1.5141, 'learning_rate': 1.8636993063892822e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9207273721694946, 'eval_runtime': 0.9718, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 0.58}
{'loss': 1.1604, 'learning_rate': 1.8628640606452967e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.92339289188385, 'eval_runtime': 0.983, 'eval_samples_per_second': 5.086, 'eval_steps_per_second': 1.017, 'epoch': 0.58}
{'loss': 1.4798, 'learning_rate': 1.8620264518857787e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9210646152496338, 'eval_runtime': 1.0285, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 0.58}
{'loss': 1.4787, 'learning_rate': 1.8611864824045803e-05, 'epoch': 0.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9172449111938477, 'eval_runtime': 0.9463, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 0.58}
{'loss': 1.47, 'learning_rate': 1.860344154502019e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9154040813446045, 'eval_runtime': 0.9525, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 0.59}
{'loss': 1.092, 'learning_rate': 1.85949947048487e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9164775609970093, 'eval_runtime': 0.9529, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 0.59}
{'loss': 1.2804, 'learning_rate': 1.8586524326663614e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9198439121246338, 'eval_runtime': 0.9648, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 0.59}
{'loss': 1.1177, 'learning_rate': 1.8578030433661678e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9198287725448608, 'eval_runtime': 1.0597, 'eval_samples_per_second': 4.718, 'eval_steps_per_second': 0.944, 'epoch': 0.59}
{'loss': 1.2849, 'learning_rate': 1.8569513049104033e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9191277027130127, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 0.59}
{'loss': 1.2935, 'learning_rate': 1.8560972196316146e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9177987575531006, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 0.59}
{'loss': 1.0698, 'learning_rate': 1.8552407898687762e-05, 'epoch': 0.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9161536693572998, 'eval_runtime': 0.9654, 'eval_samples_per_second': 5.179, 'eval_steps_per_second': 1.036, 'epoch': 0.59}
{'loss': 1.6608, 'learning_rate': 1.854382017967283e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9129638671875, 'eval_runtime': 1.0134, 'eval_samples_per_second': 4.934, 'eval_steps_per_second': 0.987, 'epoch': 0.6}
{'loss': 1.433, 'learning_rate': 1.8535209062789434e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9117244482040405, 'eval_runtime': 0.9831, 'eval_samples_per_second': 5.086, 'eval_steps_per_second': 1.017, 'epoch': 0.6}
{'loss': 1.0948, 'learning_rate': 1.8526574571619743e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9170554876327515, 'eval_runtime': 0.968, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 0.6}
{'loss': 1.3745, 'learning_rate': 1.851791672980993e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9193875789642334, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.6}
{'loss': 1.0748, 'learning_rate': 1.8509235561070133e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9176238775253296, 'eval_runtime': 1.0153, 'eval_samples_per_second': 4.925, 'eval_steps_per_second': 0.985, 'epoch': 0.6}
{'loss': 1.3387, 'learning_rate': 1.8500531089174343e-05, 'epoch': 0.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9135879278182983, 'eval_runtime': 0.9372, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 0.6}
{'loss': 1.1174, 'learning_rate': 1.8491803337960396e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.911587119102478, 'eval_runtime': 1.0416, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 0.61}
{'loss': 1.2873, 'learning_rate': 1.8483052331329858e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9061572551727295, 'eval_runtime': 0.9785, 'eval_samples_per_second': 5.11, 'eval_steps_per_second': 1.022, 'epoch': 0.61}
{'loss': 1.2647, 'learning_rate': 1.8474278093248004e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9087507724761963, 'eval_runtime': 1.0252, 'eval_samples_per_second': 4.877, 'eval_steps_per_second': 0.975, 'epoch': 0.61}
{'loss': 1.3964, 'learning_rate': 1.8465480647743713e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.916447401046753, 'eval_runtime': 1.0503, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 0.61}
{'loss': 1.1832, 'learning_rate': 1.8456660018909424e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9165397882461548, 'eval_runtime': 0.9484, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 0.61}
{'loss': 1.5052, 'learning_rate': 1.8447816230901066e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9154794216156006, 'eval_runtime': 0.9934, 'eval_samples_per_second': 5.033, 'eval_steps_per_second': 1.007, 'epoch': 0.61}
{'loss': 1.2513, 'learning_rate': 1.8438949307937996e-05, 'epoch': 0.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9145148992538452, 'eval_runtime': 0.9656, 'eval_samples_per_second': 5.178, 'eval_steps_per_second': 1.036, 'epoch': 0.61}
{'loss': 1.0601, 'learning_rate': 1.843005927430292e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9113394021987915, 'eval_runtime': 0.95, 'eval_samples_per_second': 5.263, 'eval_steps_per_second': 1.053, 'epoch': 0.62}
{'loss': 1.2851, 'learning_rate': 1.8421146154341832e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8991527557373047, 'eval_runtime': 0.9851, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 0.62}
{'loss': 1.45, 'learning_rate': 1.8412209972463962e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8923170566558838, 'eval_runtime': 1.0393, 'eval_samples_per_second': 4.811, 'eval_steps_per_second': 0.962, 'epoch': 0.62}
{'loss': 1.0796, 'learning_rate': 1.8403250753141683e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.891364336013794, 'eval_runtime': 1.0001, 'eval_samples_per_second': 5.0, 'eval_steps_per_second': 1.0, 'epoch': 0.62}
{'loss': 1.6176, 'learning_rate': 1.8394268520910467e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8885443210601807, 'eval_runtime': 1.0161, 'eval_samples_per_second': 4.921, 'eval_steps_per_second': 0.984, 'epoch': 0.62}
{'loss': 1.1847, 'learning_rate': 1.838526330036881e-05, 'epoch': 0.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8868257999420166, 'eval_runtime': 1.0445, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 0.62}
{'loss': 1.135, 'learning_rate': 1.837623511617815e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8935534954071045, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 0.63}
{'loss': 1.4847, 'learning_rate': 1.8367183993062826e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9024760723114014, 'eval_runtime': 0.9428, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 0.63}
{'loss': 1.2394, 'learning_rate': 1.8358109955809993e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9058258533477783, 'eval_runtime': 0.9861, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 0.63}
{'loss': 1.0634, 'learning_rate': 1.8349013029269554e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9103645086288452, 'eval_runtime': 0.9483, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 0.63}
{'loss': 1.2319, 'learning_rate': 1.83398932383541e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9136669635772705, 'eval_runtime': 1.0321, 'eval_samples_per_second': 4.845, 'eval_steps_per_second': 0.969, 'epoch': 0.63}
{'loss': 1.3387, 'learning_rate': 1.8330750608038844e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.903892159461975, 'eval_runtime': 0.9892, 'eval_samples_per_second': 5.054, 'eval_steps_per_second': 1.011, 'epoch': 0.63}
{'loss': 1.2507, 'learning_rate': 1.832158516336153e-05, 'epoch': 0.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9002892971038818, 'eval_runtime': 1.0468, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 0.63}
{'loss': 1.1309, 'learning_rate': 1.831239692942239e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.902065634727478, 'eval_runtime': 0.9514, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 0.64}
{'loss': 1.272, 'learning_rate': 1.830318593138407e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8983428478240967, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 0.64}
{'loss': 1.2164, 'learning_rate': 1.8293952194471555e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8934614658355713, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 0.64}
{'loss': 1.3135, 'learning_rate': 1.8284695743972095e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8888981342315674, 'eval_runtime': 0.9913, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 0.64}
{'loss': 1.0641, 'learning_rate': 1.8275416605235153e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8874940872192383, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 0.64}
{'loss': 1.4928, 'learning_rate': 1.826611480367232e-05, 'epoch': 0.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8837931156158447, 'eval_runtime': 0.9522, 'eval_samples_per_second': 5.251, 'eval_steps_per_second': 1.05, 'epoch': 0.64}
{'loss': 1.2705, 'learning_rate': 1.8256790364757246e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.883523941040039, 'eval_runtime': 1.0151, 'eval_samples_per_second': 4.926, 'eval_steps_per_second': 0.985, 'epoch': 0.65}
{'loss': 1.245, 'learning_rate': 1.8247443314025585e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8857017755508423, 'eval_runtime': 1.047, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 0.65}
{'loss': 1.33, 'learning_rate': 1.823807367707491e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8897842168807983, 'eval_runtime': 0.9465, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 0.65}
{'loss': 0.9526, 'learning_rate': 1.8228681479564646e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.889855146408081, 'eval_runtime': 0.9558, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 0.65}
{'loss': 0.8663, 'learning_rate': 1.8219266747216004e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8935468196868896, 'eval_runtime': 0.9405, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 0.65}
{'loss': 1.2594, 'learning_rate': 1.820982950581191e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8924930095672607, 'eval_runtime': 1.0373, 'eval_samples_per_second': 4.82, 'eval_steps_per_second': 0.964, 'epoch': 0.65}
{'loss': 1.322, 'learning_rate': 1.8200369781196933e-05, 'epoch': 0.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8857473134994507, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 0.65}
{'loss': 1.1234, 'learning_rate': 1.8190887599277206e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8791959285736084, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 0.66}
{'loss': 1.2796, 'learning_rate': 1.8181382986020377e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.864978551864624, 'eval_runtime': 1.0377, 'eval_samples_per_second': 4.818, 'eval_steps_per_second': 0.964, 'epoch': 0.66}
{'loss': 1.2905, 'learning_rate': 1.8171855967455508e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8621723651885986, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 0.66}
{'loss': 1.229, 'learning_rate': 1.816230656967303e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8686507940292358, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 0.66}
{'loss': 1.2385, 'learning_rate': 1.815273481882466e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.881076455116272, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 0.66}
{'loss': 1.2524, 'learning_rate': 1.8143140741123327e-05, 'epoch': 0.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.888556718826294, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 0.66}
{'loss': 1.1767, 'learning_rate': 1.8133524362843105e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.89362370967865, 'eval_runtime': 0.9715, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 0.67}
{'loss': 1.2815, 'learning_rate': 1.8123885710319143e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9014613628387451, 'eval_runtime': 1.0204, 'eval_samples_per_second': 4.9, 'eval_steps_per_second': 0.98, 'epoch': 0.67}
{'loss': 1.339, 'learning_rate': 1.8114224809947584e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9043362140655518, 'eval_runtime': 1.0008, 'eval_samples_per_second': 4.996, 'eval_steps_per_second': 0.999, 'epoch': 0.67}
{'loss': 1.2557, 'learning_rate': 1.81045416881855e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.901402235031128, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.67}
{'loss': 1.187, 'learning_rate': 1.8094836371550823e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9017629623413086, 'eval_runtime': 0.9512, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 0.67}
{'loss': 0.9794, 'learning_rate': 1.8085108886622264e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.9019027948379517, 'eval_runtime': 1.0373, 'eval_samples_per_second': 4.82, 'eval_steps_per_second': 0.964, 'epoch': 0.67}
{'loss': 1.2046, 'learning_rate': 1.807535926003924e-05, 'epoch': 0.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.896946668624878, 'eval_runtime': 1.0279, 'eval_samples_per_second': 4.864, 'eval_steps_per_second': 0.973, 'epoch': 0.67}
{'loss': 1.5468, 'learning_rate': 1.8065587518501806e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8870022296905518, 'eval_runtime': 0.9453, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 0.68}
{'loss': 1.2695, 'learning_rate': 1.8055793688770586e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8815205097198486, 'eval_runtime': 1.0223, 'eval_samples_per_second': 4.891, 'eval_steps_per_second': 0.978, 'epoch': 0.68}
{'loss': 1.4729, 'learning_rate': 1.8045977797666685e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8777574300765991, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 0.68}
{'loss': 1.0754, 'learning_rate': 1.8036139872071633e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8769147396087646, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 0.68}
{'loss': 1.354, 'learning_rate': 1.8026279938927297e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8755038976669312, 'eval_runtime': 0.9546, 'eval_samples_per_second': 5.238, 'eval_steps_per_second': 1.048, 'epoch': 0.68}
{'loss': 1.3038, 'learning_rate': 1.8016398025235822e-05, 'epoch': 0.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8728679418563843, 'eval_runtime': 1.0427, 'eval_samples_per_second': 4.795, 'eval_steps_per_second': 0.959, 'epoch': 0.68}
{'loss': 1.4422, 'learning_rate': 1.8006494158059538e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8703548908233643, 'eval_runtime': 0.9412, 'eval_samples_per_second': 5.312, 'eval_steps_per_second': 1.062, 'epoch': 0.69}
{'loss': 1.2821, 'learning_rate': 1.7996568364520895e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8683208227157593, 'eval_runtime': 0.9796, 'eval_samples_per_second': 5.104, 'eval_steps_per_second': 1.021, 'epoch': 0.69}
{'loss': 1.2064, 'learning_rate': 1.7986620671802403e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8717035055160522, 'eval_runtime': 0.9414, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 0.69}
{'loss': 1.2703, 'learning_rate': 1.7976651107146533e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8736011981964111, 'eval_runtime': 0.9768, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 0.69}
{'loss': 1.5283, 'learning_rate': 1.7966659697855663e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.874321699142456, 'eval_runtime': 1.0625, 'eval_samples_per_second': 4.706, 'eval_steps_per_second': 0.941, 'epoch': 0.69}
{'loss': 1.2141, 'learning_rate': 1.7956646471291977e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.874389410018921, 'eval_runtime': 0.9947, 'eval_samples_per_second': 5.027, 'eval_steps_per_second': 1.005, 'epoch': 0.69}
{'loss': 1.1674, 'learning_rate': 1.7946611454877433e-05, 'epoch': 0.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8781322240829468, 'eval_runtime': 0.9596, 'eval_samples_per_second': 5.211, 'eval_steps_per_second': 1.042, 'epoch': 0.69}
{'loss': 1.27, 'learning_rate': 1.793655467609364e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.879047155380249, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 0.7}
{'loss': 1.4932, 'learning_rate': 1.7926476162481817e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8743196725845337, 'eval_runtime': 1.0409, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 0.7}
{'loss': 1.2536, 'learning_rate': 1.791637594164269e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8725006580352783, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 0.7}
{'loss': 1.1488, 'learning_rate': 1.7906254041236463e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8686854839324951, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 0.7}
{'loss': 1.0346, 'learning_rate': 1.789611048898267e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8660627603530884, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 0.7}
{'loss': 1.1718, 'learning_rate': 1.7885945312660177e-05, 'epoch': 0.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8676402568817139, 'eval_runtime': 0.9498, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 0.7}
{'loss': 1.1965, 'learning_rate': 1.7875758540107043e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8697023391723633, 'eval_runtime': 0.9679, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 0.71}
{'loss': 1.2261, 'learning_rate': 1.786555019922049e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8699134588241577, 'eval_runtime': 0.9713, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 0.71}
{'loss': 1.3354, 'learning_rate': 1.7855320317956785e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8685582876205444, 'eval_runtime': 0.9527, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 0.71}
{'loss': 1.5231, 'learning_rate': 1.7845068924331208e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8705469369888306, 'eval_runtime': 1.058, 'eval_samples_per_second': 4.726, 'eval_steps_per_second': 0.945, 'epoch': 0.71}
{'loss': 1.6043, 'learning_rate': 1.7834796046417934e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.87185537815094, 'eval_runtime': 1.0603, 'eval_samples_per_second': 4.716, 'eval_steps_per_second': 0.943, 'epoch': 0.71}
{'loss': 1.0446, 'learning_rate': 1.782450171234998e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.871906042098999, 'eval_runtime': 0.9502, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 0.71}
{'loss': 1.5227, 'learning_rate': 1.7814185950319127e-05, 'epoch': 0.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8718712329864502, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 0.71}
{'loss': 1.0922, 'learning_rate': 1.780384878857583e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8740485906600952, 'eval_runtime': 0.9739, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 0.72}
{'loss': 1.0874, 'learning_rate': 1.779349025542916e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8779348134994507, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 0.72}
{'loss': 0.8728, 'learning_rate': 1.7783110379246696e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.883440613746643, 'eval_runtime': 1.0082, 'eval_samples_per_second': 4.96, 'eval_steps_per_second': 0.992, 'epoch': 0.72}
{'loss': 1.2278, 'learning_rate': 1.777270918845449e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8901116847991943, 'eval_runtime': 0.9762, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 0.72}
{'loss': 1.0897, 'learning_rate': 1.7762286711536952e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8966211080551147, 'eval_runtime': 0.9898, 'eval_samples_per_second': 5.052, 'eval_steps_per_second': 1.01, 'epoch': 0.72}
{'loss': 1.2286, 'learning_rate': 1.775184297703678e-05, 'epoch': 0.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.889499306678772, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 0.72}
{'loss': 1.1039, 'learning_rate': 1.7741378013554905e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8872123956680298, 'eval_runtime': 1.0588, 'eval_samples_per_second': 4.722, 'eval_steps_per_second': 0.944, 'epoch': 0.73}
{'loss': 1.1985, 'learning_rate': 1.7730891849750377e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.886754035949707, 'eval_runtime': 0.9666, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'epoch': 0.73}
{'loss': 1.0928, 'learning_rate': 1.772038451434032e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.888715147972107, 'eval_runtime': 0.9888, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 0.73}
{'loss': 1.5139, 'learning_rate': 1.770985603609982e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8890526294708252, 'eval_runtime': 1.0578, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 0.73}
{'loss': 1.3816, 'learning_rate': 1.7699306443861885e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8814681768417358, 'eval_runtime': 0.9391, 'eval_samples_per_second': 5.324, 'eval_steps_per_second': 1.065, 'epoch': 0.73}
{'loss': 1.235, 'learning_rate': 1.7688735766517334e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8772001266479492, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 0.73}
{'loss': 1.2788, 'learning_rate': 1.7678144033014725e-05, 'epoch': 0.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8706375360488892, 'eval_runtime': 0.9642, 'eval_samples_per_second': 5.186, 'eval_steps_per_second': 1.037, 'epoch': 0.73}
{'loss': 1.4248, 'learning_rate': 1.766753127236029e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8619186878204346, 'eval_runtime': 0.9519, 'eval_samples_per_second': 5.253, 'eval_steps_per_second': 1.051, 'epoch': 0.74}
{'loss': 1.5327, 'learning_rate': 1.7656897513617837e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8381798267364502, 'eval_runtime': 1.0406, 'eval_samples_per_second': 4.805, 'eval_steps_per_second': 0.961, 'epoch': 0.74}
{'loss': 1.1349, 'learning_rate': 1.7646242785908684e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.823053002357483, 'eval_runtime': 1.0365, 'eval_samples_per_second': 4.824, 'eval_steps_per_second': 0.965, 'epoch': 0.74}
{'loss': 1.0586, 'learning_rate': 1.7635567118411568e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8192403316497803, 'eval_runtime': 0.9686, 'eval_samples_per_second': 5.162, 'eval_steps_per_second': 1.032, 'epoch': 0.74}
{'loss': 1.317, 'learning_rate': 1.762487054036258e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8167011737823486, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 0.74}
{'loss': 1.134, 'learning_rate': 1.7614153081055073e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8181365728378296, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 0.74}
{'loss': 1.2533, 'learning_rate': 1.760341476983958e-05, 'epoch': 0.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8236181735992432, 'eval_runtime': 0.9458, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 0.74}
{'loss': 1.1948, 'learning_rate': 1.7592655636123738e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8287782669067383, 'eval_runtime': 0.9472, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 0.75}
{'loss': 1.124, 'learning_rate': 1.7581875709372214e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8250480890274048, 'eval_runtime': 1.0527, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 0.75}
{'loss': 1.2983, 'learning_rate': 1.7571075019106624e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8249671459197998, 'eval_runtime': 0.9441, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 0.75}
{'loss': 1.3974, 'learning_rate': 1.7560253594905425e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8206313848495483, 'eval_runtime': 0.9584, 'eval_samples_per_second': 5.217, 'eval_steps_per_second': 1.043, 'epoch': 0.75}
{'loss': 1.2063, 'learning_rate': 1.754941146640388e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8175560235977173, 'eval_runtime': 1.007, 'eval_samples_per_second': 4.965, 'eval_steps_per_second': 0.993, 'epoch': 0.75}
{'loss': 1.2116, 'learning_rate': 1.7538548663293933e-05, 'epoch': 0.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8157970905303955, 'eval_runtime': 0.9734, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 0.75}
{'loss': 1.1492, 'learning_rate': 1.7527665215324153e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.810960054397583, 'eval_runtime': 0.9619, 'eval_samples_per_second': 5.198, 'eval_steps_per_second': 1.04, 'epoch': 0.76}
{'loss': 1.4252, 'learning_rate': 1.7516761152299656e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8058931827545166, 'eval_runtime': 1.0061, 'eval_samples_per_second': 4.969, 'eval_steps_per_second': 0.994, 'epoch': 0.76}
{'loss': 1.0288, 'learning_rate': 1.7505836504082002e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8057582378387451, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 0.76}
{'loss': 1.0572, 'learning_rate': 1.7494891300589133e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8085649013519287, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 0.76}
{'loss': 1.1648, 'learning_rate': 1.748392557179527e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.81000554561615, 'eval_runtime': 0.9524, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 0.76}
{'loss': 1.0761, 'learning_rate': 1.7472939347730857e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8053691387176514, 'eval_runtime': 0.9921, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 0.76}
{'loss': 1.3101, 'learning_rate': 1.7461932658482465e-05, 'epoch': 0.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.800283432006836, 'eval_runtime': 0.9448, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 0.76}
{'loss': 1.0073, 'learning_rate': 1.745090553419271e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7969419956207275, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 0.77}
{'loss': 1.292, 'learning_rate': 1.743985800506016e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7955776453018188, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 0.77}
{'loss': 1.394, 'learning_rate': 1.742879010133927e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7953150272369385, 'eval_runtime': 1.0433, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 0.77}
{'loss': 1.4329, 'learning_rate': 1.7417701853340304e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7966400384902954, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 0.77}
{'loss': 1.2115, 'learning_rate': 1.740659329142922e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8002336025238037, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 0.77}
{'loss': 1.2142, 'learning_rate': 1.7395464446027622e-05, 'epoch': 0.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.795685052871704, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 0.77}
{'loss': 1.0541, 'learning_rate': 1.7384315347612655e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7883613109588623, 'eval_runtime': 0.9564, 'eval_samples_per_second': 5.228, 'eval_steps_per_second': 1.046, 'epoch': 0.78}
{'loss': 1.0918, 'learning_rate': 1.737314602671693e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7877724170684814, 'eval_runtime': 0.9524, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 0.78}
{'loss': 1.222, 'learning_rate': 1.7361956513928442e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7874839305877686, 'eval_runtime': 1.0445, 'eval_samples_per_second': 4.787, 'eval_steps_per_second': 0.957, 'epoch': 0.78}
{'loss': 1.2622, 'learning_rate': 1.7350746839890473e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7832778692245483, 'eval_runtime': 0.9531, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 0.78}
{'loss': 1.2659, 'learning_rate': 1.7339517035301533e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.776384949684143, 'eval_runtime': 1.047, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 0.78}
{'loss': 1.2046, 'learning_rate': 1.7328267130915245e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7726634740829468, 'eval_runtime': 1.0586, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 0.78}
{'loss': 1.4005, 'learning_rate': 1.7316997157540287e-05, 'epoch': 0.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7727530002593994, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 0.78}
{'loss': 1.1531, 'learning_rate': 1.73057071460403e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.772890329360962, 'eval_runtime': 0.9707, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 0.79}
{'loss': 1.0004, 'learning_rate': 1.7294397127333785e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.774052381515503, 'eval_runtime': 0.9436, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 0.79}
{'loss': 1.177, 'learning_rate': 1.7283067132394055e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7800413370132446, 'eval_runtime': 0.9539, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 0.79}
{'loss': 1.2027, 'learning_rate': 1.7271717192249116e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.78681218624115, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 0.79}
{'loss': 1.2092, 'learning_rate': 1.7260347337981596e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7909969091415405, 'eval_runtime': 0.9678, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 0.79}
{'loss': 1.2529, 'learning_rate': 1.7248957600728664e-05, 'epoch': 0.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.793644666671753, 'eval_runtime': 0.9525, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 0.79}
{'loss': 1.2031, 'learning_rate': 1.7237548011681936e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7928705215454102, 'eval_runtime': 0.9561, 'eval_samples_per_second': 5.229, 'eval_steps_per_second': 1.046, 'epoch': 0.8}
{'loss': 1.1995, 'learning_rate': 1.72261186020874e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.790005087852478, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.8}
{'loss': 1.2995, 'learning_rate': 1.7214669403245317e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.788474440574646, 'eval_runtime': 0.9521, 'eval_samples_per_second': 5.251, 'eval_steps_per_second': 1.05, 'epoch': 0.8}
{'loss': 0.9764, 'learning_rate': 1.7203200446510143e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7854197025299072, 'eval_runtime': 1.0212, 'eval_samples_per_second': 4.896, 'eval_steps_per_second': 0.979, 'epoch': 0.8}
{'loss': 1.4588, 'learning_rate': 1.7191711763290446e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7876603603363037, 'eval_runtime': 1.0283, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 0.8}
{'loss': 0.9563, 'learning_rate': 1.718020338504881e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7908674478530884, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 0.8}
{'loss': 1.3163, 'learning_rate': 1.7168675343301768e-05, 'epoch': 0.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7928111553192139, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 0.8}
{'loss': 1.1905, 'learning_rate': 1.715712766961969e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7927799224853516, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 0.81}
{'loss': 1.006, 'learning_rate': 1.7145560395626712e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.790820837020874, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 0.81}
{'loss': 1.1432, 'learning_rate': 1.7133973553000654e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7887356281280518, 'eval_runtime': 1.0304, 'eval_samples_per_second': 4.852, 'eval_steps_per_second': 0.97, 'epoch': 0.81}
{'loss': 1.4174, 'learning_rate': 1.7122367173472917e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7768503427505493, 'eval_runtime': 0.9798, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 0.81}
{'loss': 1.3702, 'learning_rate': 1.711074128882841e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.769313097000122, 'eval_runtime': 0.9459, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 0.81}
{'loss': 1.2233, 'learning_rate': 1.7099095930905462e-05, 'epoch': 0.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7665138244628906, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 0.81}
{'loss': 1.2086, 'learning_rate': 1.7087431131595723e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7685943841934204, 'eval_runtime': 0.992, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 0.82}
{'loss': 1.0921, 'learning_rate': 1.7075746922844082e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7745565176010132, 'eval_runtime': 1.0593, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 0.82}
{'loss': 1.4529, 'learning_rate': 1.70640433366486e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7754218578338623, 'eval_runtime': 1.0391, 'eval_samples_per_second': 4.812, 'eval_steps_per_second': 0.962, 'epoch': 0.82}
{'loss': 1.4265, 'learning_rate': 1.705232040506039e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7773281335830688, 'eval_runtime': 0.9396, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 0.82}
{'loss': 1.5843, 'learning_rate': 1.7040578160183536e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7791645526885986, 'eval_runtime': 0.9483, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 0.82}
{'loss': 0.9453, 'learning_rate': 1.7028816634175037e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.785165786743164, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 0.82}
{'loss': 1.1578, 'learning_rate': 1.7017035859244674e-05, 'epoch': 0.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7898372411727905, 'eval_runtime': 0.9674, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 0.82}
{'loss': 1.2338, 'learning_rate': 1.700523586765495e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7920204401016235, 'eval_runtime': 0.9639, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 0.83}
{'loss': 0.9646, 'learning_rate': 1.6993416691721e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7882006168365479, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 0.83}
{'loss': 1.0672, 'learning_rate': 1.6981578363810483e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.777240514755249, 'eval_runtime': 0.9526, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 0.83}
{'loss': 1.1462, 'learning_rate': 1.6969720916343515e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7675046920776367, 'eval_runtime': 1.0447, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 0.83}
{'loss': 1.4261, 'learning_rate': 1.6957844381792582e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7661434412002563, 'eval_runtime': 0.9809, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 0.83}
{'loss': 1.3066, 'learning_rate': 1.694594879268242e-05, 'epoch': 0.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7676585912704468, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 0.83}
{'loss': 1.4117, 'learning_rate': 1.693403418158996e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7695810794830322, 'eval_runtime': 0.9507, 'eval_samples_per_second': 5.259, 'eval_steps_per_second': 1.052, 'epoch': 0.84}
{'loss': 1.1734, 'learning_rate': 1.6922100581144228e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7692530155181885, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 0.84}
{'loss': 1.2275, 'learning_rate': 1.6910148024026253e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7703778743743896, 'eval_runtime': 0.9932, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 0.84}
{'loss': 1.0524, 'learning_rate': 1.6898176542968974e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7715425491333008, 'eval_runtime': 1.0324, 'eval_samples_per_second': 4.843, 'eval_steps_per_second': 0.969, 'epoch': 0.84}
{'loss': 1.4118, 'learning_rate': 1.6886186170757156e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7718040943145752, 'eval_runtime': 0.973, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 0.84}
{'loss': 1.3552, 'learning_rate': 1.6874176940227296e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7770735025405884, 'eval_runtime': 0.9452, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 0.84}
{'loss': 1.1865, 'learning_rate': 1.686214888426754e-05, 'epoch': 0.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7854379415512085, 'eval_runtime': 1.0344, 'eval_samples_per_second': 4.834, 'eval_steps_per_second': 0.967, 'epoch': 0.84}
{'loss': 0.9645, 'learning_rate': 1.685010203581759e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7977335453033447, 'eval_runtime': 0.9434, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 0.85}
{'loss': 1.1778, 'learning_rate': 1.683803642786861e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8081910610198975, 'eval_runtime': 0.949, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 0.85}
{'loss': 1.1352, 'learning_rate': 1.6825952093463137e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.808860421180725, 'eval_runtime': 0.9474, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 0.85}
{'loss': 1.1609, 'learning_rate': 1.681384906569499e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8123044967651367, 'eval_runtime': 0.9728, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 0.85}
{'loss': 1.0139, 'learning_rate': 1.6801727377709195e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8154083490371704, 'eval_runtime': 1.0609, 'eval_samples_per_second': 4.713, 'eval_steps_per_second': 0.943, 'epoch': 0.85}
{'loss': 1.0983, 'learning_rate': 1.678958706270186e-05, 'epoch': 0.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8190863132476807, 'eval_runtime': 0.9742, 'eval_samples_per_second': 5.132, 'eval_steps_per_second': 1.026, 'epoch': 0.85}
{'loss': 1.2083, 'learning_rate': 1.677742815392012e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.816974401473999, 'eval_runtime': 0.9936, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 0.86}
{'loss': 1.2212, 'learning_rate': 1.676525068466202e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8127391338348389, 'eval_runtime': 0.9432, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 0.86}
{'loss': 1.7054, 'learning_rate': 1.6753054688276443e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8077243566513062, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 0.86}
{'loss': 1.2028, 'learning_rate': 1.6740840198163e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.803503394126892, 'eval_runtime': 0.9525, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 0.86}
{'loss': 1.2563, 'learning_rate': 1.6728607247771957e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8024638891220093, 'eval_runtime': 0.9738, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 0.86}
{'loss': 1.242, 'learning_rate': 1.6716355870604138e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8035341501235962, 'eval_runtime': 0.9511, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 0.86}
{'loss': 1.5965, 'learning_rate': 1.6704086100210814e-05, 'epoch': 0.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.805943250656128, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 0.86}
{'loss': 1.1162, 'learning_rate': 1.6691797970193645e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.804037094116211, 'eval_runtime': 0.9802, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 0.87}
{'loss': 1.2759, 'learning_rate': 1.6679491514204555e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8002246618270874, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 0.87}
{'loss': 1.1164, 'learning_rate': 1.666716676594567e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8018476963043213, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 0.87}
{'loss': 0.8926, 'learning_rate': 1.6654823759169198e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.806726098060608, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 0.87}
{'loss': 1.108, 'learning_rate': 1.6642462527677357e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8111839294433594, 'eval_runtime': 0.9474, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 0.87}
{'loss': 1.1523, 'learning_rate': 1.6630083105322267e-05, 'epoch': 0.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8169240951538086, 'eval_runtime': 0.9448, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 0.87}
{'loss': 1.1083, 'learning_rate': 1.661768552600588e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8192079067230225, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 0.88}
{'loss': 1.1258, 'learning_rate': 1.6605269823679853e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8233520984649658, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 0.88}
{'loss': 1.3008, 'learning_rate': 1.6592836032345484e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8239762783050537, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 0.88}
{'loss': 1.3308, 'learning_rate': 1.658038418605361e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.823941946029663, 'eval_runtime': 1.0585, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 0.88}
{'loss': 1.2495, 'learning_rate': 1.6567914318904512e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8280998468399048, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.074, 'eval_steps_per_second': 1.015, 'epoch': 0.88}
{'loss': 1.1525, 'learning_rate': 1.6555426465047822e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8256289958953857, 'eval_runtime': 0.9643, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 0.88}
{'loss': 1.3302, 'learning_rate': 1.654292065868243e-05, 'epoch': 0.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8256556987762451, 'eval_runtime': 0.953, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 0.88}
{'loss': 1.3106, 'learning_rate': 1.6530396934056386e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.82357919216156, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 0.89}
{'loss': 1.2215, 'learning_rate': 1.651785532546682e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.814079999923706, 'eval_runtime': 1.0563, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 0.89}
{'loss': 0.7684, 'learning_rate': 1.6505295867259822e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8108806610107422, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 0.89}
{'loss': 1.0067, 'learning_rate': 1.649271859383039e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8116576671600342, 'eval_runtime': 1.054, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 0.89}
{'loss': 1.1141, 'learning_rate': 1.6480123539622283e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8088667392730713, 'eval_runtime': 1.0309, 'eval_samples_per_second': 4.85, 'eval_steps_per_second': 0.97, 'epoch': 0.89}
{'loss': 1.2275, 'learning_rate': 1.646751073912797e-05, 'epoch': 0.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.805948257446289, 'eval_runtime': 0.9763, 'eval_samples_per_second': 5.121, 'eval_steps_per_second': 1.024, 'epoch': 0.89}
{'loss': 0.9912, 'learning_rate': 1.6454880226888518e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8062050342559814, 'eval_runtime': 0.9414, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 0.9}
{'loss': 1.2123, 'learning_rate': 1.6442232037493497e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8070662021636963, 'eval_runtime': 0.9659, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 0.9}
{'loss': 1.0277, 'learning_rate': 1.6429566205580886e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8087011575698853, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 0.9}
{'loss': 1.0866, 'learning_rate': 1.6416882765836978e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8042800426483154, 'eval_runtime': 0.9567, 'eval_samples_per_second': 5.226, 'eval_steps_per_second': 1.045, 'epoch': 0.9}
{'loss': 1.4575, 'learning_rate': 1.6404181752996287e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.798749327659607, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 0.9}
{'loss': 1.0337, 'learning_rate': 1.6391463201841462e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7840934991836548, 'eval_runtime': 0.9507, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 0.9}
{'loss': 1.0648, 'learning_rate': 1.6378727147203166e-05, 'epoch': 0.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7732146978378296, 'eval_runtime': 1.052, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 0.9}
{'loss': 1.1561, 'learning_rate': 1.636597362396001e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7712152004241943, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 0.91}
{'loss': 1.0327, 'learning_rate': 1.6353202667038432e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7761471271514893, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 0.91}
{'loss': 1.7408, 'learning_rate': 1.6340414311412624e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7765861749649048, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 0.91}
{'loss': 1.5213, 'learning_rate': 1.632760859210442e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.77652108669281, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 0.91}
{'loss': 1.2832, 'learning_rate': 1.6314785544183206e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.773781418800354, 'eval_runtime': 1.0404, 'eval_samples_per_second': 4.806, 'eval_steps_per_second': 0.961, 'epoch': 0.91}
{'loss': 1.2482, 'learning_rate': 1.6301945202765827e-05, 'epoch': 0.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7714173793792725, 'eval_runtime': 1.0613, 'eval_samples_per_second': 4.711, 'eval_steps_per_second': 0.942, 'epoch': 0.91}
{'loss': 1.0087, 'learning_rate': 1.6289087603016485e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7726417779922485, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 0.92}
{'loss': 0.9769, 'learning_rate': 1.627621278014664e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.778564214706421, 'eval_runtime': 1.0497, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 0.92}
{'loss': 1.032, 'learning_rate': 1.626332076941493e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.78398859500885, 'eval_runtime': 0.9628, 'eval_samples_per_second': 5.193, 'eval_steps_per_second': 1.039, 'epoch': 0.92}
{'loss': 1.2876, 'learning_rate': 1.6250411606127056e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.788495421409607, 'eval_runtime': 1.0533, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 0.92}
{'loss': 1.3628, 'learning_rate': 1.623748532563569e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7918026447296143, 'eval_runtime': 0.9566, 'eval_samples_per_second': 5.227, 'eval_steps_per_second': 1.045, 'epoch': 0.92}
{'loss': 1.1796, 'learning_rate': 1.6224541963340392e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7961366176605225, 'eval_runtime': 0.9683, 'eval_samples_per_second': 5.164, 'eval_steps_per_second': 1.033, 'epoch': 0.92}
{'loss': 1.0238, 'learning_rate': 1.6211581554687485e-05, 'epoch': 0.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7990734577178955, 'eval_runtime': 0.9676, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 0.92}
{'loss': 1.3134, 'learning_rate': 1.619860413516999e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7999083995819092, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 0.93}
{'loss': 1.0308, 'learning_rate': 1.6185609740327512e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7961746454238892, 'eval_runtime': 1.0628, 'eval_samples_per_second': 4.705, 'eval_steps_per_second': 0.941, 'epoch': 0.93}
{'loss': 1.0296, 'learning_rate': 1.6172598405746125e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7940860986709595, 'eval_runtime': 1.0319, 'eval_samples_per_second': 4.845, 'eval_steps_per_second': 0.969, 'epoch': 0.93}
{'loss': 1.1744, 'learning_rate': 1.615957016705832e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7890468835830688, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 0.93}
{'loss': 1.2663, 'learning_rate': 1.6146525059942865e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7860748767852783, 'eval_runtime': 0.9863, 'eval_samples_per_second': 5.07, 'eval_steps_per_second': 1.014, 'epoch': 0.93}
{'loss': 0.951, 'learning_rate': 1.613346312012473e-05, 'epoch': 0.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7833086252212524, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 0.93}
{'loss': 0.9803, 'learning_rate': 1.612038438337498e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7782695293426514, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 0.94}
{'loss': 1.3058, 'learning_rate': 1.610728888551068e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.776723861694336, 'eval_runtime': 1.0214, 'eval_samples_per_second': 4.895, 'eval_steps_per_second': 0.979, 'epoch': 0.94}
{'loss': 1.0666, 'learning_rate': 1.609417666239479e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7744239568710327, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 0.94}
{'loss': 1.2807, 'learning_rate': 1.608104774993609e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.769304633140564, 'eval_runtime': 0.9457, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 0.94}
{'loss': 1.192, 'learning_rate': 1.606790218408905e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7670056819915771, 'eval_runtime': 0.9756, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 0.94}
{'loss': 1.182, 'learning_rate': 1.6054740000853748e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.767655611038208, 'eval_runtime': 0.9915, 'eval_samples_per_second': 5.043, 'eval_steps_per_second': 1.009, 'epoch': 0.94}
{'loss': 1.1408, 'learning_rate': 1.6041561236275777e-05, 'epoch': 0.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7701714038848877, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 0.94}
{'loss': 1.1682, 'learning_rate': 1.602836592644614e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7735249996185303, 'eval_runtime': 0.9738, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 0.95}
{'loss': 1.2956, 'learning_rate': 1.6015154107501132e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7730649709701538, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 0.95}
{'loss': 1.5434, 'learning_rate': 1.6001925815622284e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7744081020355225, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 0.95}
{'loss': 1.3593, 'learning_rate': 1.598868108703623e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7741215229034424, 'eval_runtime': 0.9432, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 0.95}
{'loss': 1.2072, 'learning_rate': 1.597541995801461e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7709205150604248, 'eval_runtime': 0.9487, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 0.95}
{'loss': 0.9324, 'learning_rate': 1.5962142464873985e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7673648595809937, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 0.95}
{'loss': 1.2381, 'learning_rate': 1.5948848643975728e-05, 'epoch': 0.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7662509679794312, 'eval_runtime': 0.9475, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 0.95}
{'loss': 1.1746, 'learning_rate': 1.5935538531725926e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7638705968856812, 'eval_runtime': 0.9743, 'eval_samples_per_second': 5.132, 'eval_steps_per_second': 1.026, 'epoch': 0.96}
{'loss': 1.1596, 'learning_rate': 1.5922212164575287e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.758305311203003, 'eval_runtime': 0.9558, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 0.96}
{'loss': 0.9089, 'learning_rate': 1.5908869579019025e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7542011737823486, 'eval_runtime': 0.981, 'eval_samples_per_second': 5.097, 'eval_steps_per_second': 1.019, 'epoch': 0.96}
{'loss': 1.0495, 'learning_rate': 1.5895510811596776e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7541742324829102, 'eval_runtime': 1.0147, 'eval_samples_per_second': 4.928, 'eval_steps_per_second': 0.986, 'epoch': 0.96}
{'loss': 1.1776, 'learning_rate': 1.5882135898892493e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7507810592651367, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 0.96}
{'loss': 1.1779, 'learning_rate': 1.5868744877534332e-05, 'epoch': 0.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7486108541488647, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 0.96}
{'loss': 1.2071, 'learning_rate': 1.5855337784194576e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7542550563812256, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 0.97}
{'loss': 1.4461, 'learning_rate': 1.584191465558952e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7606465816497803, 'eval_runtime': 0.9467, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 0.97}
{'loss': 1.309, 'learning_rate': 1.582847552847937e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7629930973052979, 'eval_runtime': 0.9532, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 0.97}
{'loss': 0.9095, 'learning_rate': 1.5815020439668147e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7628122568130493, 'eval_runtime': 1.0373, 'eval_samples_per_second': 4.82, 'eval_steps_per_second': 0.964, 'epoch': 0.97}
{'loss': 0.9209, 'learning_rate': 1.5801549426003578e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7589877843856812, 'eval_runtime': 1.0507, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 0.97}
{'loss': 1.1991, 'learning_rate': 1.578806252437701e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7555267810821533, 'eval_runtime': 0.9726, 'eval_samples_per_second': 5.141, 'eval_steps_per_second': 1.028, 'epoch': 0.97}
{'loss': 1.4828, 'learning_rate': 1.57745597717233e-05, 'epoch': 0.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7563679218292236, 'eval_runtime': 0.9434, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 0.97}
{'loss': 1.538, 'learning_rate': 1.5761041205020706e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7559903860092163, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 0.98}
{'loss': 1.4423, 'learning_rate': 1.5747506861290796e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.753845453262329, 'eval_runtime': 1.0353, 'eval_samples_per_second': 4.829, 'eval_steps_per_second': 0.966, 'epoch': 0.98}
{'loss': 1.3222, 'learning_rate': 1.5733956777598362e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.75253164768219, 'eval_runtime': 0.9494, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 0.98}
{'loss': 1.2351, 'learning_rate': 1.5720390991051268e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7533553838729858, 'eval_runtime': 0.9467, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 0.98}
{'loss': 1.0015, 'learning_rate': 1.5706809538800417e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7554082870483398, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.24, 'eval_steps_per_second': 1.048, 'epoch': 0.98}
{'loss': 0.7258, 'learning_rate': 1.5693212458039585e-05, 'epoch': 0.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7582979202270508, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 0.98}
{'loss': 1.1714, 'learning_rate': 1.567959978600536e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7666923999786377, 'eval_runtime': 1.0592, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 0.99}
{'loss': 0.8327, 'learning_rate': 1.5665971559977035e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7792718410491943, 'eval_runtime': 0.9873, 'eval_samples_per_second': 5.064, 'eval_steps_per_second': 1.013, 'epoch': 0.99}
{'loss': 1.2637, 'learning_rate': 1.5652327817276486e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7897450923919678, 'eval_runtime': 1.0543, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 0.99}
{'loss': 1.2121, 'learning_rate': 1.5638668595268086e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7972177267074585, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 0.99}
{'loss': 1.2708, 'learning_rate': 1.5624993931358602e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7977230548858643, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 0.99}
{'loss': 1.0783, 'learning_rate': 1.561130386299709e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8001400232315063, 'eval_runtime': 0.9728, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 0.99}
{'loss': 1.2717, 'learning_rate': 1.559759842767479e-05, 'epoch': 0.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.79929518699646, 'eval_runtime': 0.9824, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 0.99}
{'loss': 1.2103, 'learning_rate': 1.5583877662925032e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.799658179283142, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.0}
{'loss': 1.2773, 'learning_rate': 1.5570141606323105e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.799010992050171, 'eval_runtime': 1.043, 'eval_samples_per_second': 4.794, 'eval_steps_per_second': 0.959, 'epoch': 1.0}
{'loss': 1.1993, 'learning_rate': 1.555639029548621e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7907943725585938, 'eval_runtime': 0.9432, 'eval_samples_per_second': 5.301, 'eval_steps_per_second': 1.06, 'epoch': 1.0}




{'loss': 0.9545, 'learning_rate': 1.554262376807329e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7860221862792969, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 1.0}
{'loss': 1.0293, 'learning_rate': 1.552884206178498e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7821266651153564, 'eval_runtime': 0.9704, 'eval_samples_per_second': 5.153, 'eval_steps_per_second': 1.031, 'epoch': 1.0}
{'loss': 0.9897, 'learning_rate': 1.5515045214363486e-05, 'epoch': 1.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7818130254745483, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 1.0}
{'loss': 1.0483, 'learning_rate': 1.5501233263592455e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.787289023399353, 'eval_runtime': 0.9918, 'eval_samples_per_second': 5.041, 'eval_steps_per_second': 1.008, 'epoch': 1.01}
{'loss': 1.2254, 'learning_rate': 1.5487406247296927e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7954362630844116, 'eval_runtime': 0.9647, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 1.01}
{'loss': 0.9777, 'learning_rate': 1.5473564203343173e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7978328466415405, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 1.01}
{'loss': 0.8743, 'learning_rate': 1.5459707169638635e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7931890487670898, 'eval_runtime': 0.9515, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 1.01}
{'loss': 0.9624, 'learning_rate': 1.5445835184131803e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7894130945205688, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 1.01}
{'loss': 1.0106, 'learning_rate': 1.5431948284812103e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7880080938339233, 'eval_runtime': 1.0285, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 1.01}
{'loss': 0.9962, 'learning_rate': 1.5418046509709817e-05, 'epoch': 1.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7907371520996094, 'eval_runtime': 0.9637, 'eval_samples_per_second': 5.188, 'eval_steps_per_second': 1.038, 'epoch': 1.01}
{'loss': 1.1488, 'learning_rate': 1.5404129896895957e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.789941430091858, 'eval_runtime': 0.9616, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 1.02}
{'loss': 1.1331, 'learning_rate': 1.5390198484482177e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7858253717422485, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 1.02}
{'loss': 1.2926, 'learning_rate': 1.5376252310620652e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7775466442108154, 'eval_runtime': 0.9687, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 1.02}
{'loss': 1.2128, 'learning_rate': 1.5362291413503984e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.769152045249939, 'eval_runtime': 0.9931, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 1.02}
{'loss': 1.0608, 'learning_rate': 1.5348315831365102e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7655311822891235, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.02}
{'loss': 1.0972, 'learning_rate': 1.5334325602477146e-05, 'epoch': 1.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7579519748687744, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 1.02}
{'loss': 0.8998, 'learning_rate': 1.5320320765153367e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.750465750694275, 'eval_runtime': 0.9419, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 1.03}
{'loss': 0.9156, 'learning_rate': 1.530630135774702e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7465404272079468, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 1.03}
{'loss': 0.6016, 'learning_rate': 1.5292267418651275e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7492167949676514, 'eval_runtime': 0.9979, 'eval_samples_per_second': 5.011, 'eval_steps_per_second': 1.002, 'epoch': 1.03}
{'loss': 1.2666, 'learning_rate': 1.5278218986299074e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.753536581993103, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 1.03}
{'loss': 0.7933, 'learning_rate': 1.5264156099163074e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7564789056777954, 'eval_runtime': 0.9829, 'eval_samples_per_second': 5.087, 'eval_steps_per_second': 1.017, 'epoch': 1.03}
{'loss': 0.87, 'learning_rate': 1.5250078795755498e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7567695379257202, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.03}
{'loss': 1.0488, 'learning_rate': 1.5235987114628068e-05, 'epoch': 1.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7553189992904663, 'eval_runtime': 0.9551, 'eval_samples_per_second': 5.235, 'eval_steps_per_second': 1.047, 'epoch': 1.03}
{'loss': 0.9463, 'learning_rate': 1.5221881094371863e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7576253414154053, 'eval_runtime': 0.9938, 'eval_samples_per_second': 5.031, 'eval_steps_per_second': 1.006, 'epoch': 1.04}
{'loss': 1.1385, 'learning_rate': 1.5207760773617237e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7551524639129639, 'eval_runtime': 0.9394, 'eval_samples_per_second': 5.323, 'eval_steps_per_second': 1.065, 'epoch': 1.04}
{'loss': 1.1065, 'learning_rate': 1.5193626191033713e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.752605676651001, 'eval_runtime': 0.9839, 'eval_samples_per_second': 5.082, 'eval_steps_per_second': 1.016, 'epoch': 1.04}
{'loss': 0.806, 'learning_rate': 1.517947738532986e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7509065866470337, 'eval_runtime': 1.0458, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 1.04}
{'loss': 0.8978, 'learning_rate': 1.5165314395253212e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.753647804260254, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 1.04}
{'loss': 0.8313, 'learning_rate': 1.5151137259590132e-05, 'epoch': 1.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7579345703125, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 1.04}
{'loss': 0.8869, 'learning_rate': 1.5136946017165734e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.763434648513794, 'eval_runtime': 0.958, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 1.05}
{'loss': 0.9836, 'learning_rate': 1.512274070684376e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7659375667572021, 'eval_runtime': 0.9671, 'eval_samples_per_second': 5.17, 'eval_steps_per_second': 1.034, 'epoch': 1.05}
{'loss': 0.9406, 'learning_rate': 1.5108521367526478e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7696640491485596, 'eval_runtime': 0.9493, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 1.05}
{'loss': 1.1943, 'learning_rate': 1.5094288038154575e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7683751583099365, 'eval_runtime': 0.993, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 1.05}
{'loss': 1.2168, 'learning_rate': 1.5080040757707045e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7666609287261963, 'eval_runtime': 0.9931, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 1.05}
{'loss': 1.0704, 'learning_rate': 1.5065779565201106e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7653465270996094, 'eval_runtime': 0.973, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 1.05}
{'loss': 0.8061, 'learning_rate': 1.5051504499692055e-05, 'epoch': 1.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7611520290374756, 'eval_runtime': 0.9458, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 1.05}
{'loss': 1.3354, 'learning_rate': 1.5037215600273193e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7525227069854736, 'eval_runtime': 1.0287, 'eval_samples_per_second': 4.861, 'eval_steps_per_second': 0.972, 'epoch': 1.06}
{'loss': 0.9742, 'learning_rate': 1.5022912906075703e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7500804662704468, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 1.06}
{'loss': 1.076, 'learning_rate': 1.5008596456268545e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.751178503036499, 'eval_runtime': 0.9506, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 1.06}
{'loss': 0.756, 'learning_rate': 1.4994266290058349e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7518001794815063, 'eval_runtime': 1.0053, 'eval_samples_per_second': 4.974, 'eval_steps_per_second': 0.995, 'epoch': 1.06}
{'loss': 1.0807, 'learning_rate': 1.4979922446689308e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.752434492111206, 'eval_runtime': 0.9688, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 1.06}
{'loss': 0.8633, 'learning_rate': 1.4965564965443077e-05, 'epoch': 1.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7524935007095337, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.06}
{'loss': 1.0747, 'learning_rate': 1.4951193885638655e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7502578496932983, 'eval_runtime': 1.0411, 'eval_samples_per_second': 4.803, 'eval_steps_per_second': 0.961, 'epoch': 1.07}
{'loss': 0.8119, 'learning_rate': 1.493680924663228e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7500584125518799, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 1.07}
{'loss': 0.8462, 'learning_rate': 1.4922411087817326e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7499287128448486, 'eval_runtime': 0.9791, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 1.07}
{'loss': 0.9215, 'learning_rate': 1.4907999448624188e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7479608058929443, 'eval_runtime': 0.9464, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 1.07}
{'loss': 1.1998, 'learning_rate': 1.4893574368520184e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7479588985443115, 'eval_runtime': 0.9515, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 1.07}
{'loss': 0.8251, 'learning_rate': 1.4879135887009435e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7496273517608643, 'eval_runtime': 0.9437, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 1.07}
{'loss': 1.0595, 'learning_rate': 1.4864684043632764e-05, 'epoch': 1.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.75299870967865, 'eval_runtime': 1.031, 'eval_samples_per_second': 4.85, 'eval_steps_per_second': 0.97, 'epoch': 1.07}
{'loss': 1.1476, 'learning_rate': 1.485021887796759e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7542062997817993, 'eval_runtime': 0.9969, 'eval_samples_per_second': 5.015, 'eval_steps_per_second': 1.003, 'epoch': 1.08}
{'loss': 1.0306, 'learning_rate': 1.4835740429627812e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7582050561904907, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.08}
{'loss': 0.9326, 'learning_rate': 1.482124873826371e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7619422674179077, 'eval_runtime': 1.0507, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 1.08}
{'loss': 0.9257, 'learning_rate': 1.480674384356182e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.766727089881897, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 1.08}
{'loss': 1.0035, 'learning_rate': 1.4792225785244849e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7693307399749756, 'eval_runtime': 1.0239, 'eval_samples_per_second': 4.883, 'eval_steps_per_second': 0.977, 'epoch': 1.08}
{'loss': 1.3813, 'learning_rate': 1.4777694603071549e-05, 'epoch': 1.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.766404151916504, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 1.08}
{'loss': 1.0442, 'learning_rate': 1.4763150336836605e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7583659887313843, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 1.09}
{'loss': 1.0612, 'learning_rate': 1.474859302637055e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.74958074092865, 'eval_runtime': 1.0237, 'eval_samples_per_second': 4.884, 'eval_steps_per_second': 0.977, 'epoch': 1.09}
{'loss': 0.9707, 'learning_rate': 1.4734022711539619e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7427524328231812, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.09}
{'loss': 0.937, 'learning_rate': 1.4719439432245677e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7381517887115479, 'eval_runtime': 0.9459, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 1.09}
{'loss': 1.0753, 'learning_rate': 1.4704843228426086e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7381032705307007, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 1.09}
{'loss': 1.5135, 'learning_rate': 1.4690234140053608e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7367956638336182, 'eval_runtime': 1.0461, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 1.09}
{'loss': 0.802, 'learning_rate': 1.4675612207136283e-05, 'epoch': 1.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7370235919952393, 'eval_runtime': 0.9979, 'eval_samples_per_second': 5.011, 'eval_steps_per_second': 1.002, 'epoch': 1.09}
{'loss': 0.8722, 'learning_rate': 1.466097746971733e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7381837368011475, 'eval_runtime': 0.9538, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 1.1}
{'loss': 0.8948, 'learning_rate': 1.4646329967875033e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7415955066680908, 'eval_runtime': 0.9572, 'eval_samples_per_second': 5.223, 'eval_steps_per_second': 1.045, 'epoch': 1.1}
{'loss': 1.1203, 'learning_rate': 1.4631669741722635e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7434715032577515, 'eval_runtime': 1.0472, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 1.1}
{'loss': 0.8983, 'learning_rate': 1.4616996831408222e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7461856603622437, 'eval_runtime': 0.9545, 'eval_samples_per_second': 5.238, 'eval_steps_per_second': 1.048, 'epoch': 1.1}
{'loss': 1.0089, 'learning_rate': 1.4602311277114622e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7460600137710571, 'eval_runtime': 0.9477, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 1.1}
{'loss': 0.8268, 'learning_rate': 1.4587613119059283e-05, 'epoch': 1.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7481658458709717, 'eval_runtime': 0.9963, 'eval_samples_per_second': 5.019, 'eval_steps_per_second': 1.004, 'epoch': 1.1}
{'loss': 1.0564, 'learning_rate': 1.4572902397494173e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7473779916763306, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 1.11}
{'loss': 1.67, 'learning_rate': 1.4558179152705663e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7459081411361694, 'eval_runtime': 1.0262, 'eval_samples_per_second': 4.872, 'eval_steps_per_second': 0.974, 'epoch': 1.11}
{'loss': 1.0572, 'learning_rate': 1.4543443425014427e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.746620774269104, 'eval_runtime': 0.966, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 1.11}
{'loss': 1.0938, 'learning_rate': 1.4528695254775315e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7459357976913452, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 1.11}
{'loss': 0.9178, 'learning_rate': 1.4513934682377257e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7477986812591553, 'eval_runtime': 1.046, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 1.11}
{'loss': 1.0977, 'learning_rate': 1.4499161748243147e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7486064434051514, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 1.11}
{'loss': 0.8139, 'learning_rate': 1.4484376492829731e-05, 'epoch': 1.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7515560388565063, 'eval_runtime': 1.0594, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 1.11}
{'loss': 1.1836, 'learning_rate': 1.4469578956627497e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7569106817245483, 'eval_runtime': 1.0199, 'eval_samples_per_second': 4.903, 'eval_steps_per_second': 0.981, 'epoch': 1.12}
{'loss': 0.7942, 'learning_rate': 1.445476918016057e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.762597680091858, 'eval_runtime': 0.9429, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 1.12}
{'loss': 0.9935, 'learning_rate': 1.443994720398659e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7657636404037476, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.984, 'eval_steps_per_second': 0.997, 'epoch': 1.12}
{'loss': 0.8814, 'learning_rate': 1.442511306869661e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.768296480178833, 'eval_runtime': 1.0236, 'eval_samples_per_second': 4.885, 'eval_steps_per_second': 0.977, 'epoch': 1.12}
{'loss': 0.8434, 'learning_rate': 1.441026681491498e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7692186832427979, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.12}
{'loss': 0.9164, 'learning_rate': 1.4395408483299239e-05, 'epoch': 1.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.766902208328247, 'eval_runtime': 0.9553, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 1.12}
{'loss': 0.9197, 'learning_rate': 1.4380538114539998e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7591804265975952, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 1.13}
{'loss': 0.729, 'learning_rate': 1.4365655749360833e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7585313320159912, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.13}
{'loss': 0.7648, 'learning_rate': 1.4350761428518184e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7576096057891846, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 1.13}
{'loss': 1.0064, 'learning_rate': 1.433585519280122e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7551867961883545, 'eval_runtime': 0.9514, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 1.13}
{'loss': 1.2302, 'learning_rate': 1.4320937083031748e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.754102349281311, 'eval_runtime': 0.9594, 'eval_samples_per_second': 5.211, 'eval_steps_per_second': 1.042, 'epoch': 1.13}
{'loss': 1.0463, 'learning_rate': 1.430600714006408e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7520205974578857, 'eval_runtime': 1.0581, 'eval_samples_per_second': 4.726, 'eval_steps_per_second': 0.945, 'epoch': 1.13}
{'loss': 0.9845, 'learning_rate': 1.4291065404784947e-05, 'epoch': 1.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.747521996498108, 'eval_runtime': 0.977, 'eval_samples_per_second': 5.118, 'eval_steps_per_second': 1.024, 'epoch': 1.13}
{'loss': 0.9426, 'learning_rate': 1.4276111918113371e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7489086389541626, 'eval_runtime': 1.0106, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 1.14}
{'loss': 1.3284, 'learning_rate': 1.4261146721000554e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7503957748413086, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 1.14}
{'loss': 0.8773, 'learning_rate': 1.424616985442977e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7472317218780518, 'eval_runtime': 0.9929, 'eval_samples_per_second': 5.036, 'eval_steps_per_second': 1.007, 'epoch': 1.14}
{'loss': 0.9502, 'learning_rate': 1.4231181359416249e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7492218017578125, 'eval_runtime': 0.9751, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 1.14}
{'loss': 0.7971, 'learning_rate': 1.4216181277007064e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.754692792892456, 'eval_runtime': 0.9956, 'eval_samples_per_second': 5.022, 'eval_steps_per_second': 1.004, 'epoch': 1.14}
{'loss': 0.9476, 'learning_rate': 1.4201169648281027e-05, 'epoch': 1.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7533791065216064, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 1.14}
{'loss': 0.8199, 'learning_rate': 1.4186146514348567e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7546050548553467, 'eval_runtime': 1.0094, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 1.15}
{'loss': 0.8354, 'learning_rate': 1.4171111916351624e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7548720836639404, 'eval_runtime': 0.9977, 'eval_samples_per_second': 5.011, 'eval_steps_per_second': 1.002, 'epoch': 1.15}
{'loss': 0.8479, 'learning_rate': 1.4156065895463522e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7523666620254517, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 1.15}
{'loss': 0.8827, 'learning_rate': 1.4141008492888881e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.750187635421753, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 1.15}
{'loss': 1.1987, 'learning_rate': 1.4125939749863484e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.750115156173706, 'eval_runtime': 0.9558, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 1.15}
{'loss': 1.1968, 'learning_rate': 1.4110859707654169e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7417141199111938, 'eval_runtime': 0.9584, 'eval_samples_per_second': 5.217, 'eval_steps_per_second': 1.043, 'epoch': 1.15}
{'loss': 0.9852, 'learning_rate': 1.409576840755873e-05, 'epoch': 1.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.738197684288025, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 1.15}
{'loss': 0.9296, 'learning_rate': 1.408066589090577e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7377246618270874, 'eval_runtime': 1.0592, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 1.16}
{'loss': 0.8511, 'learning_rate': 1.4065552199054628e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7377872467041016, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 1.16}
{'loss': 1.0493, 'learning_rate': 1.4050427373395241e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7408697605133057, 'eval_runtime': 0.965, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 1.16}
{'loss': 0.9682, 'learning_rate': 1.4035291455348034e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.745367407798767, 'eval_runtime': 0.9975, 'eval_samples_per_second': 5.012, 'eval_steps_per_second': 1.002, 'epoch': 1.16}
{'loss': 1.0541, 'learning_rate': 1.4020144486363813e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7481632232666016, 'eval_runtime': 1.0472, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 1.16}
{'loss': 1.452, 'learning_rate': 1.4004986507923643e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7494255304336548, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 1.16}
{'loss': 0.9898, 'learning_rate': 1.3989817561538743e-05, 'epoch': 1.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7482950687408447, 'eval_runtime': 0.9582, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 1.16}
{'loss': 1.0052, 'learning_rate': 1.397463768875037e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7475321292877197, 'eval_runtime': 0.9919, 'eval_samples_per_second': 5.041, 'eval_steps_per_second': 1.008, 'epoch': 1.17}
{'loss': 1.0172, 'learning_rate': 1.3959446931129703e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7493976354599, 'eval_runtime': 0.9811, 'eval_samples_per_second': 5.096, 'eval_steps_per_second': 1.019, 'epoch': 1.17}
{'loss': 0.9943, 'learning_rate': 1.3944245330277725e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7490699291229248, 'eval_runtime': 0.9694, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 1.17}
{'loss': 1.1682, 'learning_rate': 1.392903292782512e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7437824010849, 'eval_runtime': 0.9531, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 1.17}
{'loss': 1.2344, 'learning_rate': 1.3913809765432151e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7402747869491577, 'eval_runtime': 0.9451, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 1.17}
{'loss': 1.0226, 'learning_rate': 1.3898575884788544e-05, 'epoch': 1.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7421032190322876, 'eval_runtime': 0.9789, 'eval_samples_per_second': 5.108, 'eval_steps_per_second': 1.022, 'epoch': 1.17}
{'loss': 1.133, 'learning_rate': 1.3883331327613384e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7457128763198853, 'eval_runtime': 0.94, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 1.18}
{'loss': 1.077, 'learning_rate': 1.3868076135654991e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7487707138061523, 'eval_runtime': 0.9517, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 1.18}
{'loss': 1.008, 'learning_rate': 1.3852810350690808e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7498859167099, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 1.18}
{'loss': 0.9241, 'learning_rate': 1.3837534014527292e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7464005947113037, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 1.18}
{'loss': 1.1566, 'learning_rate': 1.382224716899979e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7447713613510132, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 1.18}
{'loss': 0.9892, 'learning_rate': 1.3806949855972435e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7441599369049072, 'eval_runtime': 1.0474, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 1.18}
{'loss': 1.037, 'learning_rate': 1.3791642117338022e-05, 'epoch': 1.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7433773279190063, 'eval_runtime': 0.9947, 'eval_samples_per_second': 5.027, 'eval_steps_per_second': 1.005, 'epoch': 1.18}
{'loss': 0.993, 'learning_rate': 1.3776323995017897e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.743248701095581, 'eval_runtime': 0.9964, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 1.19}
{'loss': 0.9038, 'learning_rate': 1.3760995530961846e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7436349391937256, 'eval_runtime': 0.96, 'eval_samples_per_second': 5.208, 'eval_steps_per_second': 1.042, 'epoch': 1.19}
{'loss': 1.1776, 'learning_rate': 1.3745656767147977e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.745178461074829, 'eval_runtime': 0.9707, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 1.19}
{'loss': 0.844, 'learning_rate': 1.3730307745582594e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.747192621231079, 'eval_runtime': 0.9876, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 1.19}
{'loss': 1.1952, 'learning_rate': 1.371494850830011e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7466309070587158, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 1.19}
{'loss': 0.9163, 'learning_rate': 1.3699579097362898e-05, 'epoch': 1.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7471973896026611, 'eval_runtime': 1.0336, 'eval_samples_per_second': 4.837, 'eval_steps_per_second': 0.967, 'epoch': 1.19}
{'loss': 0.9373, 'learning_rate': 1.3684199554861206e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7449175119400024, 'eval_runtime': 0.9412, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 1.2}
{'loss': 1.0127, 'learning_rate': 1.3668809922913018e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7450037002563477, 'eval_runtime': 1.0407, 'eval_samples_per_second': 4.805, 'eval_steps_per_second': 0.961, 'epoch': 1.2}
{'loss': 0.7798, 'learning_rate': 1.3653410243663953e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7452548742294312, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 1.2}
{'loss': 0.9337, 'learning_rate': 1.3638000559287143e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.748757004737854, 'eval_runtime': 0.9527, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 1.2}
{'loss': 1.2305, 'learning_rate': 1.3622580911983121e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7516454458236694, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 1.2}
{'loss': 0.7916, 'learning_rate': 1.360715134397971e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7522497177124023, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 1.2}
{'loss': 0.7058, 'learning_rate': 1.359171189753189e-05, 'epoch': 1.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7529895305633545, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.2}
{'loss': 1.1419, 'learning_rate': 1.3576262614921705e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7546135187149048, 'eval_runtime': 1.0419, 'eval_samples_per_second': 4.799, 'eval_steps_per_second': 0.96, 'epoch': 1.21}
{'loss': 0.8132, 'learning_rate': 1.3560803538458125e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7614316940307617, 'eval_runtime': 1.0587, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 1.21}
{'loss': 0.8391, 'learning_rate': 1.3545334710476949e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7696994543075562, 'eval_runtime': 0.9423, 'eval_samples_per_second': 5.306, 'eval_steps_per_second': 1.061, 'epoch': 1.21}
{'loss': 0.8506, 'learning_rate': 1.3529856173340683e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7789771556854248, 'eval_runtime': 1.056, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 1.21}
{'loss': 1.1551, 'learning_rate': 1.3514367969438416e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7842365503311157, 'eval_runtime': 1.0485, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 1.21}
{'loss': 0.8968, 'learning_rate': 1.3498870141185712e-05, 'epoch': 1.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7838780879974365, 'eval_runtime': 0.9413, 'eval_samples_per_second': 5.312, 'eval_steps_per_second': 1.062, 'epoch': 1.21}
{'loss': 1.2268, 'learning_rate': 1.3483362731024494e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7752857208251953, 'eval_runtime': 0.9606, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 1.22}
{'loss': 1.1439, 'learning_rate': 1.3467845781422924e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.769505500793457, 'eval_runtime': 0.9866, 'eval_samples_per_second': 5.068, 'eval_steps_per_second': 1.014, 'epoch': 1.22}
{'loss': 0.824, 'learning_rate': 1.3452319334875287e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7658545970916748, 'eval_runtime': 0.9482, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 1.22}
{'loss': 0.8898, 'learning_rate': 1.343678343390188e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7649078369140625, 'eval_runtime': 1.0438, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 1.22}
{'loss': 0.9074, 'learning_rate': 1.3421238121048892e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7670190334320068, 'eval_runtime': 0.9683, 'eval_samples_per_second': 5.164, 'eval_steps_per_second': 1.033, 'epoch': 1.22}
{'loss': 0.8191, 'learning_rate': 1.3405683438888281e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7751247882843018, 'eval_runtime': 0.9762, 'eval_samples_per_second': 5.122, 'eval_steps_per_second': 1.024, 'epoch': 1.22}
{'loss': 1.0312, 'learning_rate': 1.3390119430017668e-05, 'epoch': 1.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7815964221954346, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 1.22}
{'loss': 0.8031, 'learning_rate': 1.3374546137060213e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.784475564956665, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 1.23}
{'loss': 1.0622, 'learning_rate': 1.3358963602664507e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7795696258544922, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 1.23}
{'loss': 0.7956, 'learning_rate': 1.3343371869504444e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7782541513442993, 'eval_runtime': 0.9816, 'eval_samples_per_second': 5.094, 'eval_steps_per_second': 1.019, 'epoch': 1.23}
{'loss': 1.2759, 'learning_rate': 1.3327770980279112e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7766129970550537, 'eval_runtime': 0.9981, 'eval_samples_per_second': 5.01, 'eval_steps_per_second': 1.002, 'epoch': 1.23}
{'loss': 0.8242, 'learning_rate': 1.3312160977712669e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7759315967559814, 'eval_runtime': 0.9424, 'eval_samples_per_second': 5.306, 'eval_steps_per_second': 1.061, 'epoch': 1.23}
{'loss': 1.0908, 'learning_rate': 1.3296541904554239e-05, 'epoch': 1.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7754253149032593, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 1.23}
{'loss': 1.0985, 'learning_rate': 1.3280913803577781e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7764898538589478, 'eval_runtime': 0.9587, 'eval_samples_per_second': 5.215, 'eval_steps_per_second': 1.043, 'epoch': 1.24}
{'loss': 0.9262, 'learning_rate': 1.3265276717581973e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7742869853973389, 'eval_runtime': 0.9878, 'eval_samples_per_second': 5.062, 'eval_steps_per_second': 1.012, 'epoch': 1.24}
{'loss': 0.7753, 'learning_rate': 1.3249630689390109e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7755215167999268, 'eval_runtime': 1.0577, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 1.24}
{'loss': 0.9408, 'learning_rate': 1.3233975761849961e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.775771141052246, 'eval_runtime': 1.0553, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 1.24}
{'loss': 0.8671, 'learning_rate': 1.321831197783369e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.774872064590454, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 1.24}
{'loss': 1.0621, 'learning_rate': 1.3202639380237689e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.773193359375, 'eval_runtime': 0.9761, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 1.24}
{'loss': 1.0445, 'learning_rate': 1.3186958011982502e-05, 'epoch': 1.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7725975513458252, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 1.24}
{'loss': 1.0945, 'learning_rate': 1.3171267916012687e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7732818126678467, 'eval_runtime': 0.9496, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 1.25}
{'loss': 0.7404, 'learning_rate': 1.3155569135296705e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7748972177505493, 'eval_runtime': 0.9958, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 1.25}
{'loss': 1.1109, 'learning_rate': 1.31398617128268e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7745778560638428, 'eval_runtime': 0.9699, 'eval_samples_per_second': 5.155, 'eval_steps_per_second': 1.031, 'epoch': 1.25}
{'loss': 1.1796, 'learning_rate': 1.3124145691618883e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.776261568069458, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.25}
{'loss': 1.1289, 'learning_rate': 1.3108421114712417e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7787449359893799, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 1.25}
{'loss': 1.1534, 'learning_rate': 1.3092688025170283e-05, 'epoch': 1.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7809683084487915, 'eval_runtime': 0.9409, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 1.25}
{'loss': 1.0389, 'learning_rate': 1.3076946466078691e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.780294418334961, 'eval_runtime': 0.9945, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 1.26}
{'loss': 1.0279, 'learning_rate': 1.3061196480547031e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7777268886566162, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 1.26}
{'loss': 1.2382, 'learning_rate': 1.304543811170778e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7760212421417236, 'eval_runtime': 0.9363, 'eval_samples_per_second': 5.34, 'eval_steps_per_second': 1.068, 'epoch': 1.26}
{'loss': 0.747, 'learning_rate': 1.3029671402716366e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7756763696670532, 'eval_runtime': 0.9519, 'eval_samples_per_second': 5.253, 'eval_steps_per_second': 1.051, 'epoch': 1.26}
{'loss': 1.1623, 'learning_rate': 1.301389639675106e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7747167348861694, 'eval_runtime': 1.0533, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 1.26}
{'loss': 0.8745, 'learning_rate': 1.2998113137012855e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.778388261795044, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 1.26}
{'loss': 0.8638, 'learning_rate': 1.298232166672535e-05, 'epoch': 1.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7829148769378662, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 1.26}
{'loss': 0.8806, 'learning_rate': 1.2966522029134622e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7878649234771729, 'eval_runtime': 1.0236, 'eval_samples_per_second': 4.885, 'eval_steps_per_second': 0.977, 'epoch': 1.27}
{'loss': 0.946, 'learning_rate': 1.2950714267509125e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7944233417510986, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 1.27}
{'loss': 1.1251, 'learning_rate': 1.293489842513955e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7999179363250732, 'eval_runtime': 1.042, 'eval_samples_per_second': 4.799, 'eval_steps_per_second': 0.96, 'epoch': 1.27}
{'loss': 0.8778, 'learning_rate': 1.2919074545338728e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8048290014266968, 'eval_runtime': 0.9789, 'eval_samples_per_second': 5.108, 'eval_steps_per_second': 1.022, 'epoch': 1.27}
{'loss': 1.3461, 'learning_rate': 1.2903242671441495e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8022449016571045, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.27}
{'loss': 1.124, 'learning_rate': 1.288740284680458e-05, 'epoch': 1.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7978805303573608, 'eval_runtime': 0.9835, 'eval_samples_per_second': 5.084, 'eval_steps_per_second': 1.017, 'epoch': 1.27}
{'loss': 1.1179, 'learning_rate': 1.2871555114806484e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7928168773651123, 'eval_runtime': 0.9409, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 1.28}
{'loss': 1.3376, 'learning_rate': 1.2855699518847367e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7878605127334595, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 1.28}
{'loss': 1.0861, 'learning_rate': 1.2839836102348926e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7831714153289795, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 1.28}
{'loss': 1.2886, 'learning_rate': 1.2823964908754272e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7794212102890015, 'eval_runtime': 1.0043, 'eval_samples_per_second': 4.979, 'eval_steps_per_second': 0.996, 'epoch': 1.28}
{'loss': 1.095, 'learning_rate': 1.2808085981527816e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7709205150604248, 'eval_runtime': 0.9411, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 1.28}
{'loss': 0.6639, 'learning_rate': 1.279219936415514e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7647403478622437, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 1.28}
{'loss': 0.9777, 'learning_rate': 1.2776305100142898e-05, 'epoch': 1.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.757777452468872, 'eval_runtime': 0.9471, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 1.28}
{'loss': 1.1641, 'learning_rate': 1.2760403233018676e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7546501159667969, 'eval_runtime': 1.0356, 'eval_samples_per_second': 4.828, 'eval_steps_per_second': 0.966, 'epoch': 1.29}
{'loss': 1.1133, 'learning_rate': 1.274449380633089e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7524127960205078, 'eval_runtime': 0.9696, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 1.29}
{'loss': 0.9768, 'learning_rate': 1.2728576863648652e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7527872323989868, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 1.29}
{'loss': 0.9017, 'learning_rate': 1.2712652448561657e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7564690113067627, 'eval_runtime': 0.9965, 'eval_samples_per_second': 5.018, 'eval_steps_per_second': 1.004, 'epoch': 1.29}
{'loss': 0.9021, 'learning_rate': 1.2696720604680071e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7596261501312256, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 1.29}
{'loss': 0.653, 'learning_rate': 1.268078137563439e-05, 'epoch': 1.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7616736888885498, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 1.29}
{'loss': 0.8886, 'learning_rate': 1.2664834805075352e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7649942636489868, 'eval_runtime': 1.0228, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 1.3}
{'loss': 0.851, 'learning_rate': 1.2648880936673787e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.76813542842865, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 1.3}
{'loss': 1.1046, 'learning_rate': 1.2632919814120514e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7692934274673462, 'eval_runtime': 0.9647, 'eval_samples_per_second': 5.183, 'eval_steps_per_second': 1.037, 'epoch': 1.3}
{'loss': 1.1068, 'learning_rate': 1.2616951481126222e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7705192565917969, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 1.3}
{'loss': 0.7953, 'learning_rate': 1.2600975981421348e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7723701000213623, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 1.3}
{'loss': 0.9352, 'learning_rate': 1.2584993358755946e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7766193151474, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 1.3}
{'loss': 0.9874, 'learning_rate': 1.2569003656899583e-05, 'epoch': 1.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7803332805633545, 'eval_runtime': 0.9405, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 1.3}
{'loss': 0.9551, 'learning_rate': 1.2553006919641213e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.784559965133667, 'eval_runtime': 1.0424, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 1.31}
{'loss': 0.9093, 'learning_rate': 1.2537003190789057e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7876145839691162, 'eval_runtime': 1.0426, 'eval_samples_per_second': 4.796, 'eval_steps_per_second': 0.959, 'epoch': 1.31}
{'loss': 0.8258, 'learning_rate': 1.252099251417048e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.791431188583374, 'eval_runtime': 0.9984, 'eval_samples_per_second': 5.008, 'eval_steps_per_second': 1.002, 'epoch': 1.31}
{'loss': 1.136, 'learning_rate': 1.250497493363188e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7937885522842407, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 1.31}
{'loss': 0.9258, 'learning_rate': 1.2488950493038551e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7944250106811523, 'eval_runtime': 0.9767, 'eval_samples_per_second': 5.119, 'eval_steps_per_second': 1.024, 'epoch': 1.31}
{'loss': 0.8776, 'learning_rate': 1.2472919236274585e-05, 'epoch': 1.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.796571969985962, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 1.31}
{'loss': 0.8837, 'learning_rate': 1.2456881207242732e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7997150421142578, 'eval_runtime': 0.9616, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 1.32}
{'loss': 1.0107, 'learning_rate': 1.2440836449864302e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8005588054656982, 'eval_runtime': 1.0484, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 1.32}
{'loss': 0.8966, 'learning_rate': 1.2424785008079014e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8021013736724854, 'eval_runtime': 0.9659, 'eval_samples_per_second': 5.177, 'eval_steps_per_second': 1.035, 'epoch': 1.32}
{'loss': 0.9221, 'learning_rate': 1.24087269258449e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8030130863189697, 'eval_runtime': 0.9376, 'eval_samples_per_second': 5.333, 'eval_steps_per_second': 1.067, 'epoch': 1.32}
{'loss': 1.0668, 'learning_rate': 1.2392662247138181e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.80669367313385, 'eval_runtime': 0.9595, 'eval_samples_per_second': 5.211, 'eval_steps_per_second': 1.042, 'epoch': 1.32}
{'loss': 1.1858, 'learning_rate': 1.2376591015953139e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8104972839355469, 'eval_runtime': 1.0329, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 1.32}
{'loss': 0.9398, 'learning_rate': 1.2360513276301997e-05, 'epoch': 1.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8117936849594116, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 1.32}
{'loss': 1.2652, 'learning_rate': 1.234442907221481e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8201631307601929, 'eval_runtime': 1.0114, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 1.33}
{'loss': 0.8, 'learning_rate': 1.2328338447739331e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8275511264801025, 'eval_runtime': 0.9912, 'eval_samples_per_second': 5.045, 'eval_steps_per_second': 1.009, 'epoch': 1.33}
{'loss': 1.0177, 'learning_rate': 1.23122414469409e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8367668390274048, 'eval_runtime': 1.0267, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 1.33}
{'loss': 0.9682, 'learning_rate': 1.2296138113902309e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8399959802627563, 'eval_runtime': 0.9751, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 1.33}
{'loss': 0.6797, 'learning_rate': 1.2280028492723706e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8447099924087524, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 1.33}
{'loss': 0.7739, 'learning_rate': 1.2263912627522449e-05, 'epoch': 1.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8512309789657593, 'eval_runtime': 1.0443, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 1.33}
{'loss': 0.9449, 'learning_rate': 1.2247790562432995e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.848202109336853, 'eval_runtime': 0.9607, 'eval_samples_per_second': 5.205, 'eval_steps_per_second': 1.041, 'epoch': 1.34}
{'loss': 0.9308, 'learning_rate': 1.2231662341606785e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8452049493789673, 'eval_runtime': 1.0059, 'eval_samples_per_second': 4.971, 'eval_steps_per_second': 0.994, 'epoch': 1.34}
{'loss': 0.9125, 'learning_rate': 1.2215528009212119e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8370742797851562, 'eval_runtime': 0.9668, 'eval_samples_per_second': 5.172, 'eval_steps_per_second': 1.034, 'epoch': 1.34}
{'loss': 0.8361, 'learning_rate': 1.219938760943403e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8427965641021729, 'eval_runtime': 0.9596, 'eval_samples_per_second': 5.211, 'eval_steps_per_second': 1.042, 'epoch': 1.34}
{'loss': 1.0724, 'learning_rate': 1.2183241186474165e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8450615406036377, 'eval_runtime': 1.0432, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 1.34}
{'loss': 0.7233, 'learning_rate': 1.2167088784550674e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8210117816925049, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.34}
{'loss': 0.7228, 'learning_rate': 1.2150930447898073e-05, 'epoch': 1.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8061603307724, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 1.34}
{'loss': 1.0064, 'learning_rate': 1.2134766220767135e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7996593713760376, 'eval_runtime': 1.0437, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 1.35}
{'loss': 0.9749, 'learning_rate': 1.2118596147424763e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.795384168624878, 'eval_runtime': 0.9577, 'eval_samples_per_second': 5.221, 'eval_steps_per_second': 1.044, 'epoch': 1.35}
{'loss': 0.9616, 'learning_rate': 1.210242027215387e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7933218479156494, 'eval_runtime': 0.9672, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 1.35}
{'loss': 1.0681, 'learning_rate': 1.2086238639253257e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7868680953979492, 'eval_runtime': 0.9734, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 1.35}
{'loss': 1.1408, 'learning_rate': 1.2070051293037493e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7812312841415405, 'eval_runtime': 0.9497, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 1.35}
{'loss': 0.8701, 'learning_rate': 1.2053858277836798e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7792774438858032, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.35}
{'loss': 0.9817, 'learning_rate': 1.2037659637996916e-05, 'epoch': 1.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7684352397918701, 'eval_runtime': 1.0557, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 1.35}
{'loss': 0.9843, 'learning_rate': 1.2021455417878985e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.762487769126892, 'eval_runtime': 0.9864, 'eval_samples_per_second': 5.069, 'eval_steps_per_second': 1.014, 'epoch': 1.36}
{'loss': 0.9448, 'learning_rate': 1.2005245661859435e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7590984106063843, 'eval_runtime': 0.9861, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 1.36}
{'loss': 0.923, 'learning_rate': 1.1989030414329853e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.75849187374115, 'eval_runtime': 1.0408, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 1.36}
{'loss': 1.0769, 'learning_rate': 1.1972809719696864e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7603685855865479, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.36}
{'loss': 1.0882, 'learning_rate': 1.1956583622382017e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7623870372772217, 'eval_runtime': 0.9515, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 1.36}
{'loss': 0.6159, 'learning_rate': 1.194035216682164e-05, 'epoch': 1.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7671594619750977, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 1.36}
{'loss': 0.9722, 'learning_rate': 1.1924115397466756e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7696561813354492, 'eval_runtime': 0.9451, 'eval_samples_per_second': 5.291, 'eval_steps_per_second': 1.058, 'epoch': 1.37}
{'loss': 1.1165, 'learning_rate': 1.1907873358782927e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7716089487075806, 'eval_runtime': 1.0326, 'eval_samples_per_second': 4.842, 'eval_steps_per_second': 0.968, 'epoch': 1.37}
{'loss': 1.1358, 'learning_rate': 1.1891626095250148e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7712379693984985, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 1.37}
{'loss': 1.0367, 'learning_rate': 1.1875373651362727e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7711673974990845, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 1.37}
{'loss': 0.6922, 'learning_rate': 1.1859116071629148e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.773691177368164, 'eval_runtime': 1.0386, 'eval_samples_per_second': 4.814, 'eval_steps_per_second': 0.963, 'epoch': 1.37}
{'loss': 0.9596, 'learning_rate': 1.1842853400571972e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7749977111816406, 'eval_runtime': 0.9904, 'eval_samples_per_second': 5.049, 'eval_steps_per_second': 1.01, 'epoch': 1.37}
{'loss': 1.0776, 'learning_rate': 1.1826585682727699e-05, 'epoch': 1.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7781667709350586, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.37}
{'loss': 0.7337, 'learning_rate': 1.1810312962646643e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7791626453399658, 'eval_runtime': 1.0048, 'eval_samples_per_second': 4.976, 'eval_steps_per_second': 0.995, 'epoch': 1.38}
{'loss': 0.876, 'learning_rate': 1.1794035284892828e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7793548107147217, 'eval_runtime': 0.9867, 'eval_samples_per_second': 5.067, 'eval_steps_per_second': 1.013, 'epoch': 1.38}
{'loss': 1.0445, 'learning_rate': 1.177775269404385e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7778059244155884, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 1.38}
{'loss': 1.1617, 'learning_rate': 1.1761465234690756e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.775669813156128, 'eval_runtime': 0.955, 'eval_samples_per_second': 5.236, 'eval_steps_per_second': 1.047, 'epoch': 1.38}
{'loss': 0.9324, 'learning_rate': 1.1745172951437933e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7727257013320923, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 1.38}
{'loss': 0.9208, 'learning_rate': 1.1728875888902975e-05, 'epoch': 1.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7718126773834229, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 1.38}
{'loss': 0.8707, 'learning_rate': 1.1712574091716564e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.769465684890747, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 1.39}
{'loss': 0.878, 'learning_rate': 1.1696267604522347e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7639639377593994, 'eval_runtime': 1.0044, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 1.39}
{'loss': 1.0281, 'learning_rate': 1.1679956471976814e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7630876302719116, 'eval_runtime': 1.0133, 'eval_samples_per_second': 4.934, 'eval_steps_per_second': 0.987, 'epoch': 1.39}
{'loss': 0.9647, 'learning_rate': 1.1663640738749184e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.757746934890747, 'eval_runtime': 1.021, 'eval_samples_per_second': 4.897, 'eval_steps_per_second': 0.979, 'epoch': 1.39}
{'loss': 0.9168, 'learning_rate': 1.1647320449521269e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7416290044784546, 'eval_runtime': 1.0021, 'eval_samples_per_second': 4.99, 'eval_steps_per_second': 0.998, 'epoch': 1.39}
{'loss': 0.8778, 'learning_rate': 1.1630995648987365e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7360817193984985, 'eval_runtime': 0.9554, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 1.39}
{'loss': 1.0044, 'learning_rate': 1.1614666381854107e-05, 'epoch': 1.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7338718175888062, 'eval_runtime': 0.957, 'eval_samples_per_second': 5.225, 'eval_steps_per_second': 1.045, 'epoch': 1.39}
{'loss': 0.8989, 'learning_rate': 1.1598332692840377e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7367347478866577, 'eval_runtime': 1.0041, 'eval_samples_per_second': 4.98, 'eval_steps_per_second': 0.996, 'epoch': 1.4}
{'loss': 0.7477, 'learning_rate': 1.158199462667716e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7329574823379517, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 1.4}
{'loss': 0.8753, 'learning_rate': 1.1565652228107435e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7337640523910522, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 1.4}
{'loss': 0.8373, 'learning_rate': 1.1549305541886033e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7385135889053345, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 1.4}
{'loss': 0.8409, 'learning_rate': 1.1532954612779542e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7435394525527954, 'eval_runtime': 1.038, 'eval_samples_per_second': 4.817, 'eval_steps_per_second': 0.963, 'epoch': 1.4}
{'loss': 0.9202, 'learning_rate': 1.1516599485566153e-05, 'epoch': 1.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7448890209197998, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 1.4}
{'loss': 0.9938, 'learning_rate': 1.1500240205035573e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7431844472885132, 'eval_runtime': 1.0177, 'eval_samples_per_second': 4.913, 'eval_steps_per_second': 0.983, 'epoch': 1.41}
{'loss': 0.9786, 'learning_rate': 1.1483876815988867e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7428257465362549, 'eval_runtime': 1.0391, 'eval_samples_per_second': 4.812, 'eval_steps_per_second': 0.962, 'epoch': 1.41}
{'loss': 0.8513, 'learning_rate': 1.1467509363238358e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7446575164794922, 'eval_runtime': 0.9729, 'eval_samples_per_second': 5.139, 'eval_steps_per_second': 1.028, 'epoch': 1.41}
{'loss': 1.094, 'learning_rate': 1.1451137891607496e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7424232959747314, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 1.41}
{'loss': 1.0617, 'learning_rate': 1.1434762445930741e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7433875799179077, 'eval_runtime': 0.9571, 'eval_samples_per_second': 5.224, 'eval_steps_per_second': 1.045, 'epoch': 1.41}
{'loss': 1.0836, 'learning_rate': 1.141838307105343e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.744103193283081, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 1.41}
{'loss': 0.9037, 'learning_rate': 1.1401999811831668e-05, 'epoch': 1.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7450931072235107, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.41}
{'loss': 0.9425, 'learning_rate': 1.1385612713132191e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7543141841888428, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 1.42}
{'loss': 0.9711, 'learning_rate': 1.1369221819832253e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7704236507415771, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 1.42}
{'loss': 1.1369, 'learning_rate': 1.1352827176819496e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.778262734413147, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 1.42}
{'loss': 0.9263, 'learning_rate': 1.1336428828991835e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.812603235244751, 'eval_runtime': 1.0312, 'eval_samples_per_second': 4.849, 'eval_steps_per_second': 0.97, 'epoch': 1.42}
{'loss': 0.9904, 'learning_rate': 1.1320026821257333e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8353532552719116, 'eval_runtime': 1.0507, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 1.42}
{'loss': 0.8828, 'learning_rate': 1.1303621198534068e-05, 'epoch': 1.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.848592758178711, 'eval_runtime': 0.9797, 'eval_samples_per_second': 5.104, 'eval_steps_per_second': 1.021, 'epoch': 1.42}
{'loss': 0.8666, 'learning_rate': 1.1287212005750023e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.853203535079956, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 1.43}
{'loss': 0.7781, 'learning_rate': 1.1270799287842957e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.847741723060608, 'eval_runtime': 0.9772, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 1.43}
{'loss': 1.0189, 'learning_rate': 1.1254383089760285e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8438694477081299, 'eval_runtime': 0.9706, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 1.43}
{'loss': 1.2484, 'learning_rate': 1.1237963456458956e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8364217281341553, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 1.43}
{'loss': 1.3298, 'learning_rate': 1.1221540432905309e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8327858448028564, 'eval_runtime': 1.0006, 'eval_samples_per_second': 4.997, 'eval_steps_per_second': 0.999, 'epoch': 1.43}
{'loss': 1.2791, 'learning_rate': 1.1205114064074989e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8145376443862915, 'eval_runtime': 0.9589, 'eval_samples_per_second': 5.214, 'eval_steps_per_second': 1.043, 'epoch': 1.43}
{'loss': 1.0735, 'learning_rate': 1.118868439495279e-05, 'epoch': 1.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.791724443435669, 'eval_runtime': 0.9681, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 1.43}
{'loss': 0.7689, 'learning_rate': 1.1172251470532544e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7799146175384521, 'eval_runtime': 0.9458, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 1.44}
{'loss': 0.8899, 'learning_rate': 1.115581533581701e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7766683101654053, 'eval_runtime': 1.0249, 'eval_samples_per_second': 4.878, 'eval_steps_per_second': 0.976, 'epoch': 1.44}
{'loss': 1.0521, 'learning_rate': 1.113937603581772e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7755498886108398, 'eval_runtime': 1.0207, 'eval_samples_per_second': 4.899, 'eval_steps_per_second': 0.98, 'epoch': 1.44}
{'loss': 0.9069, 'learning_rate': 1.1122933615554889e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.781642198562622, 'eval_runtime': 0.9436, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 1.44}
{'loss': 0.7425, 'learning_rate': 1.1106488120057273e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.785219430923462, 'eval_runtime': 1.0086, 'eval_samples_per_second': 4.957, 'eval_steps_per_second': 0.991, 'epoch': 1.44}
{'loss': 0.9082, 'learning_rate': 1.1090039594362046e-05, 'epoch': 1.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.787846326828003, 'eval_runtime': 0.9443, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 1.44}
{'loss': 0.9811, 'learning_rate': 1.1073588083514686e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7925450801849365, 'eval_runtime': 1.0001, 'eval_samples_per_second': 4.999, 'eval_steps_per_second': 1.0, 'epoch': 1.45}
{'loss': 1.186, 'learning_rate': 1.105713363256884e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8044111728668213, 'eval_runtime': 1.0059, 'eval_samples_per_second': 4.971, 'eval_steps_per_second': 0.994, 'epoch': 1.45}
{'loss': 0.8873, 'learning_rate': 1.1040676286586212e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8243248462677002, 'eval_runtime': 0.9778, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 1.45}
{'loss': 0.7023, 'learning_rate': 1.1024216090636433e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8370281457901, 'eval_runtime': 1.0189, 'eval_samples_per_second': 4.907, 'eval_steps_per_second': 0.981, 'epoch': 1.45}
{'loss': 0.9232, 'learning_rate': 1.1007753089796935e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8463252782821655, 'eval_runtime': 0.9377, 'eval_samples_per_second': 5.332, 'eval_steps_per_second': 1.066, 'epoch': 1.45}
{'loss': 0.9753, 'learning_rate': 1.0991287329152838e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8680378198623657, 'eval_runtime': 1.0308, 'eval_samples_per_second': 4.851, 'eval_steps_per_second': 0.97, 'epoch': 1.45}
{'loss': 0.9996, 'learning_rate': 1.0974818853796817e-05, 'epoch': 1.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.878546953201294, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 1.45}
{'loss': 0.7021, 'learning_rate': 1.0958347708828976e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8709790706634521, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.319, 'eval_steps_per_second': 1.064, 'epoch': 1.46}
{'loss': 1.3563, 'learning_rate': 1.0941873939356737e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.867938756942749, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 1.46}
{'loss': 0.6854, 'learning_rate': 1.0925397590494713e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.866214394569397, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 1.46}
{'loss': 1.2742, 'learning_rate': 1.0908918707364566e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8720728158950806, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 1.46}
{'loss': 0.8736, 'learning_rate': 1.0892437335094911e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8737905025482178, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.46}
{'loss': 0.9501, 'learning_rate': 1.0875953518821175e-05, 'epoch': 1.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8756405115127563, 'eval_runtime': 1.0128, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 1.46}
{'loss': 1.3197, 'learning_rate': 1.0859467303685482e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8688510656356812, 'eval_runtime': 1.0571, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 1.47}
{'loss': 1.1332, 'learning_rate': 1.0842978734836522e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8628051280975342, 'eval_runtime': 0.938, 'eval_samples_per_second': 5.33, 'eval_steps_per_second': 1.066, 'epoch': 1.47}
{'loss': 0.7952, 'learning_rate': 1.0826487857429428e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8570635318756104, 'eval_runtime': 0.9834, 'eval_samples_per_second': 5.084, 'eval_steps_per_second': 1.017, 'epoch': 1.47}
{'loss': 0.9256, 'learning_rate': 1.0809994716625662e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8454288244247437, 'eval_runtime': 0.9523, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 1.47}
{'loss': 1.2589, 'learning_rate': 1.079349935759288e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8348424434661865, 'eval_runtime': 0.9593, 'eval_samples_per_second': 5.212, 'eval_steps_per_second': 1.042, 'epoch': 1.47}
{'loss': 0.9614, 'learning_rate': 1.0777001825504812e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8274818658828735, 'eval_runtime': 0.9856, 'eval_samples_per_second': 5.073, 'eval_steps_per_second': 1.015, 'epoch': 1.47}
{'loss': 1.0047, 'learning_rate': 1.0760502165541145e-05, 'epoch': 1.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8293737173080444, 'eval_runtime': 0.9884, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 1.47}
{'loss': 0.9585, 'learning_rate': 1.0744000422887381e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8317663669586182, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 1.48}
{'loss': 0.8777, 'learning_rate': 1.072749664273474e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8281997442245483, 'eval_runtime': 1.0322, 'eval_samples_per_second': 4.844, 'eval_steps_per_second': 0.969, 'epoch': 1.48}
{'loss': 1.0872, 'learning_rate': 1.0710990870280018e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8293273448944092, 'eval_runtime': 0.9459, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 1.48}
{'loss': 1.1402, 'learning_rate': 1.0694483150725458e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8374402523040771, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 1.48}
{'loss': 0.9951, 'learning_rate': 1.0677973529278649e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8451144695281982, 'eval_runtime': 0.9693, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 1.48}
{'loss': 1.0077, 'learning_rate': 1.0661462051152376e-05, 'epoch': 1.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.850069284439087, 'eval_runtime': 0.9618, 'eval_samples_per_second': 5.198, 'eval_steps_per_second': 1.04, 'epoch': 1.48}
{'loss': 0.9628, 'learning_rate': 1.0644948761564516e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8286116123199463, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.49}
{'loss': 0.9091, 'learning_rate': 1.0628433705737902e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8141034841537476, 'eval_runtime': 0.9504, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 1.49}
{'loss': 1.0711, 'learning_rate': 1.061191692890021e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.807865858078003, 'eval_runtime': 0.9591, 'eval_samples_per_second': 5.213, 'eval_steps_per_second': 1.043, 'epoch': 1.49}
{'loss': 0.8403, 'learning_rate': 1.0595398476283827e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.807877779006958, 'eval_runtime': 0.9434, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 1.49}
{'loss': 0.9195, 'learning_rate': 1.0578878393125724e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.808471441268921, 'eval_runtime': 0.9515, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 1.49}
{'loss': 0.8443, 'learning_rate': 1.0562356724667346e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8085806369781494, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.49}
{'loss': 0.9257, 'learning_rate': 1.0545833516154473e-05, 'epoch': 1.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7999416589736938, 'eval_runtime': 0.9585, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 1.49}
{'loss': 0.8745, 'learning_rate': 1.0529308812837105e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7888736724853516, 'eval_runtime': 0.9617, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 1.5}
{'loss': 0.7538, 'learning_rate': 1.0512782659969334e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7758970260620117, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 1.5}
{'loss': 0.9302, 'learning_rate': 1.0496255102809224e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7714096307754517, 'eval_runtime': 0.9992, 'eval_samples_per_second': 5.004, 'eval_steps_per_second': 1.001, 'epoch': 1.5}
{'loss': 0.9417, 'learning_rate': 1.0479726186618682e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7610886096954346, 'eval_runtime': 0.949, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 1.5}
{'loss': 0.9162, 'learning_rate': 1.0463195956663339e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7515560388565063, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 1.5}
{'loss': 0.9648, 'learning_rate': 1.0446664458212425e-05, 'epoch': 1.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7439677715301514, 'eval_runtime': 0.9391, 'eval_samples_per_second': 5.324, 'eval_steps_per_second': 1.065, 'epoch': 1.5}
{'loss': 0.6939, 'learning_rate': 1.0430131736538645e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7402938604354858, 'eval_runtime': 0.9471, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 1.51}
{'loss': 1.0079, 'learning_rate': 1.041359783691804e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.735592246055603, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 1.51}
{'loss': 1.0185, 'learning_rate': 1.03970628046299e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7290477752685547, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 1.51}
{'loss': 0.9654, 'learning_rate': 1.03805266849566e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.713282585144043, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 1.51}
{'loss': 1.1381, 'learning_rate': 1.0363989523183496e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7108322381973267, 'eval_runtime': 0.9876, 'eval_samples_per_second': 5.063, 'eval_steps_per_second': 1.013, 'epoch': 1.51}
{'loss': 0.9102, 'learning_rate': 1.0347451364598805e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7168371677398682, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 1.51}
{'loss': 0.8716, 'learning_rate': 1.0330912254493457e-05, 'epoch': 1.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7236610651016235, 'eval_runtime': 0.9514, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 1.51}
{'loss': 1.1609, 'learning_rate': 1.0314372238161012e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.725104570388794, 'eval_runtime': 1.0016, 'eval_samples_per_second': 4.992, 'eval_steps_per_second': 0.998, 'epoch': 1.52}
{'loss': 1.0987, 'learning_rate': 1.0297831360897493e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7259180545806885, 'eval_runtime': 0.9493, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 1.52}
{'loss': 1.0323, 'learning_rate': 1.0281289668001288e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7321937084197998, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 1.52}
{'loss': 0.9356, 'learning_rate': 1.0264747204773017e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7417898178100586, 'eval_runtime': 1.0324, 'eval_samples_per_second': 4.843, 'eval_steps_per_second': 0.969, 'epoch': 1.52}
{'loss': 0.8882, 'learning_rate': 1.024820401651541e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7563556432724, 'eval_runtime': 0.9485, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 1.52}
{'loss': 0.7128, 'learning_rate': 1.0231660148533183e-05, 'epoch': 1.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7579418420791626, 'eval_runtime': 0.9598, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 1.52}
{'loss': 0.7452, 'learning_rate': 1.021511564613291e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.761922836303711, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.53}
{'loss': 0.793, 'learning_rate': 1.0198570554622909e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7662935256958008, 'eval_runtime': 0.9987, 'eval_samples_per_second': 5.006, 'eval_steps_per_second': 1.001, 'epoch': 1.53}
{'loss': 1.0162, 'learning_rate': 1.0182024919313105e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.762921929359436, 'eval_runtime': 0.9519, 'eval_samples_per_second': 5.253, 'eval_steps_per_second': 1.051, 'epoch': 1.53}
{'loss': 0.9851, 'learning_rate': 1.0165478785514919e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7568004131317139, 'eval_runtime': 1.0315, 'eval_samples_per_second': 4.847, 'eval_steps_per_second': 0.969, 'epoch': 1.53}
{'loss': 0.9069, 'learning_rate': 1.0148932198541127e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7528326511383057, 'eval_runtime': 0.9457, 'eval_samples_per_second': 5.287, 'eval_steps_per_second': 1.057, 'epoch': 1.53}
{'loss': 0.8665, 'learning_rate': 1.0132385203705761e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7484474182128906, 'eval_runtime': 1.0573, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 1.53}
{'loss': 0.9282, 'learning_rate': 1.0115837846323955e-05, 'epoch': 1.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.74748957157135, 'eval_runtime': 0.95, 'eval_samples_per_second': 5.263, 'eval_steps_per_second': 1.053, 'epoch': 1.53}
{'loss': 0.9705, 'learning_rate': 1.0099290171711841e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7450072765350342, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.983, 'eval_steps_per_second': 0.997, 'epoch': 1.54}
{'loss': 0.9815, 'learning_rate': 1.0082742225186422e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7436449527740479, 'eval_runtime': 1.0254, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 1.54}
{'loss': 0.7826, 'learning_rate': 1.0066194052065445e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7426402568817139, 'eval_runtime': 1.0331, 'eval_samples_per_second': 4.84, 'eval_steps_per_second': 0.968, 'epoch': 1.54}
{'loss': 0.9751, 'learning_rate': 1.0049645697667277e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7404619455337524, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 1.54}
{'loss': 0.7828, 'learning_rate': 1.0033097207310784e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7373859882354736, 'eval_runtime': 0.9792, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 1.54}
{'loss': 0.8145, 'learning_rate': 1.0016548626315197e-05, 'epoch': 1.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7403652667999268, 'eval_runtime': 1.0284, 'eval_samples_per_second': 4.862, 'eval_steps_per_second': 0.972, 'epoch': 1.54}
{'loss': 1.1683, 'learning_rate': 1e-05, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7405420541763306, 'eval_runtime': 0.9691, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 1.55}
{'loss': 0.7897, 'learning_rate': 9.983451373684808e-06, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7550195455551147, 'eval_runtime': 0.9756, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 1.55}
{'loss': 1.1086, 'learning_rate': 9.966902792689219e-06, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7654235363006592, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.55}
{'loss': 0.8729, 'learning_rate': 9.950354302332726e-06, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.77715265750885, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.55}
{'loss': 0.9986, 'learning_rate': 9.933805947934556e-06, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7912585735321045, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 1.55}
{'loss': 0.882, 'learning_rate': 9.91725777481358e-06, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8027979135513306, 'eval_runtime': 0.9649, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 1.55}
{'loss': 0.8163, 'learning_rate': 9.900709828288164e-06, 'epoch': 1.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7966525554656982, 'eval_runtime': 1.0059, 'eval_samples_per_second': 4.971, 'eval_steps_per_second': 0.994, 'epoch': 1.55}
{'loss': 1.1905, 'learning_rate': 9.884162153676048e-06, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7969261407852173, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 1.56}
{'loss': 0.7376, 'learning_rate': 9.867614796294242e-06, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7957632541656494, 'eval_runtime': 1.0224, 'eval_samples_per_second': 4.89, 'eval_steps_per_second': 0.978, 'epoch': 1.56}
{'loss': 0.9316, 'learning_rate': 9.85106780145887e-06, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7833223342895508, 'eval_runtime': 1.0423, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 1.56}
{'loss': 0.8868, 'learning_rate': 9.834521214485084e-06, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7764523029327393, 'eval_runtime': 1.0066, 'eval_samples_per_second': 4.967, 'eval_steps_per_second': 0.993, 'epoch': 1.56}
{'loss': 0.6857, 'learning_rate': 9.817975080686896e-06, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7708044052124023, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 1.56}
{'loss': 0.9341, 'learning_rate': 9.801429445377095e-06, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7806724309921265, 'eval_runtime': 0.972, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 1.56}
{'loss': 1.0835, 'learning_rate': 9.784884353867094e-06, 'epoch': 1.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7878735065460205, 'eval_runtime': 1.0101, 'eval_samples_per_second': 4.95, 'eval_steps_per_second': 0.99, 'epoch': 1.56}
{'loss': 0.7484, 'learning_rate': 9.768339851466818e-06, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7934459447860718, 'eval_runtime': 1.0239, 'eval_samples_per_second': 4.883, 'eval_steps_per_second': 0.977, 'epoch': 1.57}
{'loss': 1.1044, 'learning_rate': 9.751795983484593e-06, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7965033054351807, 'eval_runtime': 0.9372, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 1.57}
{'loss': 0.9645, 'learning_rate': 9.735252795226988e-06, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7993946075439453, 'eval_runtime': 1.0193, 'eval_samples_per_second': 4.905, 'eval_steps_per_second': 0.981, 'epoch': 1.57}
{'loss': 0.9465, 'learning_rate': 9.718710331998714e-06, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7953819036483765, 'eval_runtime': 0.9794, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 1.57}
{'loss': 0.9212, 'learning_rate': 9.702168639102509e-06, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7941871881484985, 'eval_runtime': 1.0137, 'eval_samples_per_second': 4.933, 'eval_steps_per_second': 0.987, 'epoch': 1.57}
{'loss': 1.0179, 'learning_rate': 9.685627761838988e-06, 'epoch': 1.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7953866720199585, 'eval_runtime': 1.0167, 'eval_samples_per_second': 4.918, 'eval_steps_per_second': 0.984, 'epoch': 1.57}
{'loss': 1.026, 'learning_rate': 9.669087745506545e-06, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.797205924987793, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 1.58}
{'loss': 0.7532, 'learning_rate': 9.6525486354012e-06, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8024280071258545, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 1.58}
{'loss': 0.9279, 'learning_rate': 9.636010476816504e-06, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.805066704750061, 'eval_runtime': 0.9585, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 1.58}
{'loss': 0.9973, 'learning_rate': 9.619473315043403e-06, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.805731177330017, 'eval_runtime': 0.9745, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 1.58}
{'loss': 0.8454, 'learning_rate': 9.6029371953701e-06, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.8108398914337158, 'eval_runtime': 0.975, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 1.58}
{'loss': 1.2107, 'learning_rate': 9.586402163081961e-06, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6992814540863037, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 1.58}
{'loss': 1.2429, 'learning_rate': 9.569868263461362e-06, 'epoch': 1.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.699575424194336, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.58}
{'loss': 0.919, 'learning_rate': 9.553335541787577e-06, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7024238109588623, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 1.59}
{'loss': 1.1489, 'learning_rate': 9.536804043336665e-06, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.703970193862915, 'eval_runtime': 1.0486, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 1.59}
{'loss': 0.877, 'learning_rate': 9.52027381338132e-06, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.702613115310669, 'eval_runtime': 0.9819, 'eval_samples_per_second': 5.092, 'eval_steps_per_second': 1.018, 'epoch': 1.59}
{'loss': 0.8193, 'learning_rate': 9.503744897190778e-06, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7042553424835205, 'eval_runtime': 0.9887, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 1.59}
{'loss': 0.9176, 'learning_rate': 9.487217340030671e-06, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7071311473846436, 'eval_runtime': 0.9676, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 1.59}
{'loss': 0.8395, 'learning_rate': 9.470691187162896e-06, 'epoch': 1.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7075178623199463, 'eval_runtime': 1.0581, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 1.59}
{'loss': 0.8225, 'learning_rate': 9.45416648384553e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7077600955963135, 'eval_runtime': 0.9698, 'eval_samples_per_second': 5.156, 'eval_steps_per_second': 1.031, 'epoch': 1.6}
{'loss': 0.9232, 'learning_rate': 9.437643275332654e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.70928156375885, 'eval_runtime': 0.9887, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 1.6}
{'loss': 1.0815, 'learning_rate': 9.421121606874278e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7092208862304688, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 1.6}
{'loss': 0.9399, 'learning_rate': 9.404601523716176e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7076984643936157, 'eval_runtime': 1.0466, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 1.6}
{'loss': 0.9875, 'learning_rate': 9.388083071099792e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.708356499671936, 'eval_runtime': 1.0561, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 1.6}
{'loss': 0.8689, 'learning_rate': 9.371566294262101e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7087942361831665, 'eval_runtime': 1.0162, 'eval_samples_per_second': 4.92, 'eval_steps_per_second': 0.984, 'epoch': 1.6}
{'loss': 0.9594, 'learning_rate': 9.35505123843549e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7088829278945923, 'eval_runtime': 0.9382, 'eval_samples_per_second': 5.329, 'eval_steps_per_second': 1.066, 'epoch': 1.6}
{'loss': 0.8194, 'learning_rate': 9.338537948847627e-06, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7087314128875732, 'eval_runtime': 1.0488, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 1.61}
{'loss': 0.9185, 'learning_rate': 9.322026470721355e-06, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7054946422576904, 'eval_runtime': 0.9746, 'eval_samples_per_second': 5.13, 'eval_steps_per_second': 1.026, 'epoch': 1.61}
{'loss': 0.9729, 'learning_rate': 9.305516849274542e-06, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7032073736190796, 'eval_runtime': 1.0029, 'eval_samples_per_second': 4.986, 'eval_steps_per_second': 0.997, 'epoch': 1.61}
{'loss': 0.8325, 'learning_rate': 9.289009129719986e-06, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6968014240264893, 'eval_runtime': 1.0276, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 1.61}
{'loss': 0.9937, 'learning_rate': 9.272503357265261e-06, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6925573348999023, 'eval_runtime': 0.9491, 'eval_samples_per_second': 5.268, 'eval_steps_per_second': 1.054, 'epoch': 1.61}
{'loss': 1.0191, 'learning_rate': 9.255999577112622e-06, 'epoch': 1.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6938968896865845, 'eval_runtime': 1.0061, 'eval_samples_per_second': 4.97, 'eval_steps_per_second': 0.994, 'epoch': 1.61}
{'loss': 0.9969, 'learning_rate': 9.23949783445886e-06, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6979811191558838, 'eval_runtime': 0.9439, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 1.62}
{'loss': 1.2208, 'learning_rate': 9.22299817449519e-06, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7017549276351929, 'eval_runtime': 0.9751, 'eval_samples_per_second': 5.128, 'eval_steps_per_second': 1.026, 'epoch': 1.62}
{'loss': 1.1294, 'learning_rate': 9.206500642407123e-06, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7048009634017944, 'eval_runtime': 1.0339, 'eval_samples_per_second': 4.836, 'eval_steps_per_second': 0.967, 'epoch': 1.62}
{'loss': 0.9887, 'learning_rate': 9.190005283374343e-06, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7056763172149658, 'eval_runtime': 0.9504, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 1.62}
{'loss': 1.0474, 'learning_rate': 9.173512142570574e-06, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7062289714813232, 'eval_runtime': 0.9497, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 1.62}
{'loss': 0.7074, 'learning_rate': 9.157021265163483e-06, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7068665027618408, 'eval_runtime': 1.057, 'eval_samples_per_second': 4.73, 'eval_steps_per_second': 0.946, 'epoch': 1.62}
{'loss': 0.6756, 'learning_rate': 9.14053269631452e-06, 'epoch': 1.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7073179483413696, 'eval_runtime': 0.998, 'eval_samples_per_second': 5.01, 'eval_steps_per_second': 1.002, 'epoch': 1.62}
{'loss': 1.0574, 'learning_rate': 9.124046481178826e-06, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.705010175704956, 'eval_runtime': 1.0029, 'eval_samples_per_second': 4.986, 'eval_steps_per_second': 0.997, 'epoch': 1.63}
{'loss': 0.6621, 'learning_rate': 9.107562664905094e-06, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.704566240310669, 'eval_runtime': 1.0179, 'eval_samples_per_second': 4.912, 'eval_steps_per_second': 0.982, 'epoch': 1.63}
{'loss': 1.0844, 'learning_rate': 9.091081292635438e-06, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.70388925075531, 'eval_runtime': 0.9668, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 1.63}
{'loss': 0.8342, 'learning_rate': 9.074602409505293e-06, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7027788162231445, 'eval_runtime': 0.9571, 'eval_samples_per_second': 5.224, 'eval_steps_per_second': 1.045, 'epoch': 1.63}
{'loss': 0.9436, 'learning_rate': 9.058126060643263e-06, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7053582668304443, 'eval_runtime': 0.9419, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 1.63}
{'loss': 1.2955, 'learning_rate': 9.041652291171029e-06, 'epoch': 1.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7089821100234985, 'eval_runtime': 0.972, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 1.63}
{'loss': 0.9855, 'learning_rate': 9.02518114620319e-06, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7133674621582031, 'eval_runtime': 0.9949, 'eval_samples_per_second': 5.026, 'eval_steps_per_second': 1.005, 'epoch': 1.64}
{'loss': 0.7926, 'learning_rate': 9.008712670847165e-06, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.717083215713501, 'eval_runtime': 0.9613, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 1.64}
{'loss': 0.9294, 'learning_rate': 8.992246910203068e-06, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7183358669281006, 'eval_runtime': 0.9944, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 1.64}
{'loss': 1.0523, 'learning_rate': 8.97578390936357e-06, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.721348762512207, 'eval_runtime': 1.044, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 1.64}
{'loss': 0.9989, 'learning_rate': 8.959323713413792e-06, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.726060152053833, 'eval_runtime': 0.9799, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 1.64}
{'loss': 0.9166, 'learning_rate': 8.942866367431165e-06, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7308900356292725, 'eval_runtime': 1.0017, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 1.64}
{'loss': 1.0094, 'learning_rate': 8.926411916485317e-06, 'epoch': 1.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7333500385284424, 'eval_runtime': 0.976, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 1.64}
{'loss': 1.1557, 'learning_rate': 8.909960405637958e-06, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7316519021987915, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.219, 'eval_steps_per_second': 1.044, 'epoch': 1.65}
{'loss': 0.9656, 'learning_rate': 8.893511879942729e-06, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.729363203048706, 'eval_runtime': 1.0594, 'eval_samples_per_second': 4.719, 'eval_steps_per_second': 0.944, 'epoch': 1.65}
{'loss': 0.916, 'learning_rate': 8.877066384445114e-06, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7284972667694092, 'eval_runtime': 0.9852, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 1.65}
{'loss': 0.887, 'learning_rate': 8.860623964182284e-06, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7290751934051514, 'eval_runtime': 0.9463, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 1.65}
{'loss': 1.0937, 'learning_rate': 8.844184664182993e-06, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7313591241836548, 'eval_runtime': 0.9669, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 1.65}
{'loss': 0.9715, 'learning_rate': 8.827748529467458e-06, 'epoch': 1.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7332067489624023, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 1.65}
{'loss': 0.66, 'learning_rate': 8.811315605047212e-06, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7331912517547607, 'eval_runtime': 1.0547, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 1.66}
{'loss': 0.8028, 'learning_rate': 8.794885935925015e-06, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7330257892608643, 'eval_runtime': 1.014, 'eval_samples_per_second': 4.931, 'eval_steps_per_second': 0.986, 'epoch': 1.66}
{'loss': 0.9338, 'learning_rate': 8.778459567094696e-06, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.730796217918396, 'eval_runtime': 0.9405, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 1.66}
{'loss': 0.7188, 'learning_rate': 8.762036543541048e-06, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7288835048675537, 'eval_runtime': 1.0253, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 1.66}
{'loss': 0.9373, 'learning_rate': 8.745616910239717e-06, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7284505367279053, 'eval_runtime': 0.9556, 'eval_samples_per_second': 5.232, 'eval_steps_per_second': 1.046, 'epoch': 1.66}
{'loss': 1.2849, 'learning_rate': 8.729200712157043e-06, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7292152643203735, 'eval_runtime': 0.9926, 'eval_samples_per_second': 5.037, 'eval_steps_per_second': 1.007, 'epoch': 1.66}
{'loss': 0.6919, 'learning_rate': 8.712787994249979e-06, 'epoch': 1.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7309024333953857, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 1.66}
{'loss': 1.0034, 'learning_rate': 8.696378801465938e-06, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7308943271636963, 'eval_runtime': 0.959, 'eval_samples_per_second': 5.214, 'eval_steps_per_second': 1.043, 'epoch': 1.67}
{'loss': 0.7217, 'learning_rate': 8.679973178742669e-06, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7313249111175537, 'eval_runtime': 1.059, 'eval_samples_per_second': 4.721, 'eval_steps_per_second': 0.944, 'epoch': 1.67}
{'loss': 0.8616, 'learning_rate': 8.663571171008166e-06, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7316659688949585, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 1.67}
{'loss': 0.9924, 'learning_rate': 8.647172823180505e-06, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.732927680015564, 'eval_runtime': 1.0276, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 1.67}
{'loss': 0.7584, 'learning_rate': 8.630778180167752e-06, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7341108322143555, 'eval_runtime': 1.0107, 'eval_samples_per_second': 4.947, 'eval_steps_per_second': 0.989, 'epoch': 1.67}
{'loss': 0.9205, 'learning_rate': 8.614387286867814e-06, 'epoch': 1.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7355124950408936, 'eval_runtime': 0.9578, 'eval_samples_per_second': 5.22, 'eval_steps_per_second': 1.044, 'epoch': 1.67}
{'loss': 0.8347, 'learning_rate': 8.598000188168333e-06, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7353031635284424, 'eval_runtime': 0.9645, 'eval_samples_per_second': 5.184, 'eval_steps_per_second': 1.037, 'epoch': 1.68}
{'loss': 1.171, 'learning_rate': 8.581616928946571e-06, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.734783411026001, 'eval_runtime': 1.0441, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 1.68}
{'loss': 0.9971, 'learning_rate': 8.565237554069262e-06, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7344186305999756, 'eval_runtime': 1.0245, 'eval_samples_per_second': 4.881, 'eval_steps_per_second': 0.976, 'epoch': 1.68}
{'loss': 0.7907, 'learning_rate': 8.548862108392506e-06, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7322918176651, 'eval_runtime': 1.0198, 'eval_samples_per_second': 4.903, 'eval_steps_per_second': 0.981, 'epoch': 1.68}
{'loss': 0.7978, 'learning_rate': 8.532490636761647e-06, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.731176733970642, 'eval_runtime': 0.9782, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 1.68}
{'loss': 0.8062, 'learning_rate': 8.516123184011136e-06, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7321078777313232, 'eval_runtime': 0.9441, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 1.68}
{'loss': 0.7417, 'learning_rate': 8.49975979496443e-06, 'epoch': 1.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7327762842178345, 'eval_runtime': 0.9678, 'eval_samples_per_second': 5.166, 'eval_steps_per_second': 1.033, 'epoch': 1.68}
{'loss': 1.0103, 'learning_rate': 8.483400514433847e-06, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7317063808441162, 'eval_runtime': 0.9382, 'eval_samples_per_second': 5.329, 'eval_steps_per_second': 1.066, 'epoch': 1.69}
{'loss': 1.0445, 'learning_rate': 8.467045387220463e-06, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.731036901473999, 'eval_runtime': 0.9477, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 1.69}
{'loss': 0.8788, 'learning_rate': 8.450694458113969e-06, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7293773889541626, 'eval_runtime': 0.9471, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 1.69}
{'loss': 0.9074, 'learning_rate': 8.434347771892567e-06, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7284529209136963, 'eval_runtime': 0.9579, 'eval_samples_per_second': 5.22, 'eval_steps_per_second': 1.044, 'epoch': 1.69}
{'loss': 0.937, 'learning_rate': 8.418005373322841e-06, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7271705865859985, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 1.69}
{'loss': 0.9437, 'learning_rate': 8.401667307159625e-06, 'epoch': 1.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7256304025650024, 'eval_runtime': 0.9419, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 1.69}
{'loss': 0.7359, 'learning_rate': 8.385333618145896e-06, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.724036455154419, 'eval_runtime': 1.0248, 'eval_samples_per_second': 4.879, 'eval_steps_per_second': 0.976, 'epoch': 1.7}
{'loss': 0.6898, 'learning_rate': 8.369004351012642e-06, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7272793054580688, 'eval_runtime': 1.0542, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 1.7}
{'loss': 0.7122, 'learning_rate': 8.352679550478731e-06, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.73276686668396, 'eval_runtime': 0.9406, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 1.7}
{'loss': 0.9309, 'learning_rate': 8.336359261250819e-06, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.736637830734253, 'eval_runtime': 0.9586, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 1.7}
{'loss': 1.0724, 'learning_rate': 8.320043528023188e-06, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7362874746322632, 'eval_runtime': 0.9829, 'eval_samples_per_second': 5.087, 'eval_steps_per_second': 1.017, 'epoch': 1.7}
{'loss': 1.1432, 'learning_rate': 8.303732395477658e-06, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7342078685760498, 'eval_runtime': 0.9793, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 1.7}
{'loss': 1.0178, 'learning_rate': 8.287425908283443e-06, 'epoch': 1.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7314739227294922, 'eval_runtime': 1.0516, 'eval_samples_per_second': 4.755, 'eval_steps_per_second': 0.951, 'epoch': 1.7}
{'loss': 0.8114, 'learning_rate': 8.271124111097026e-06, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7280193567276, 'eval_runtime': 0.97, 'eval_samples_per_second': 5.155, 'eval_steps_per_second': 1.031, 'epoch': 1.71}
{'loss': 1.3559, 'learning_rate': 8.254827048562069e-06, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7218894958496094, 'eval_runtime': 0.9933, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 1.71}
{'loss': 0.6928, 'learning_rate': 8.238534765309244e-06, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.719463586807251, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 1.71}
{'loss': 0.5179, 'learning_rate': 8.222247305956153e-06, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.720951795578003, 'eval_runtime': 0.9588, 'eval_samples_per_second': 5.215, 'eval_steps_per_second': 1.043, 'epoch': 1.71}
{'loss': 0.8197, 'learning_rate': 8.205964715107175e-06, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.720391035079956, 'eval_runtime': 1.0091, 'eval_samples_per_second': 4.955, 'eval_steps_per_second': 0.991, 'epoch': 1.71}
{'loss': 1.0831, 'learning_rate': 8.18968703735336e-06, 'epoch': 1.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7072699069976807, 'eval_runtime': 1.0544, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 1.71}
{'loss': 0.7881, 'learning_rate': 8.173414317272306e-06, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6984102725982666, 'eval_runtime': 1.0184, 'eval_samples_per_second': 4.91, 'eval_steps_per_second': 0.982, 'epoch': 1.72}
{'loss': 0.9683, 'learning_rate': 8.157146599428028e-06, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6915191411972046, 'eval_runtime': 1.0383, 'eval_samples_per_second': 4.815, 'eval_steps_per_second': 0.963, 'epoch': 1.72}
{'loss': 0.8785, 'learning_rate': 8.140883928370855e-06, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6883617639541626, 'eval_runtime': 0.9586, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 1.72}
{'loss': 0.8382, 'learning_rate': 8.124626348637278e-06, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6889894008636475, 'eval_runtime': 1.0479, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 1.72}
{'loss': 0.9875, 'learning_rate': 8.108373904749853e-06, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6886303424835205, 'eval_runtime': 0.9728, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 1.72}
{'loss': 0.9274, 'learning_rate': 8.092126641217076e-06, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6865066289901733, 'eval_runtime': 0.9634, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 1.72}
{'loss': 0.5552, 'learning_rate': 8.075884602533248e-06, 'epoch': 1.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6863731145858765, 'eval_runtime': 0.9722, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 1.72}
{'loss': 0.9309, 'learning_rate': 8.059647833178363e-06, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6857643127441406, 'eval_runtime': 0.9467, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 1.73}
{'loss': 1.0607, 'learning_rate': 8.043416377617988e-06, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6864092350006104, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 1.73}
{'loss': 1.0893, 'learning_rate': 8.027190280303137e-06, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6845414638519287, 'eval_runtime': 0.9551, 'eval_samples_per_second': 5.235, 'eval_steps_per_second': 1.047, 'epoch': 1.73}
{'loss': 0.9158, 'learning_rate': 8.010969585670149e-06, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6812808513641357, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 1.73}
{'loss': 0.8784, 'learning_rate': 7.99475433814057e-06, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6771295070648193, 'eval_runtime': 0.9651, 'eval_samples_per_second': 5.181, 'eval_steps_per_second': 1.036, 'epoch': 1.73}
{'loss': 0.9983, 'learning_rate': 7.978544582121017e-06, 'epoch': 1.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6739609241485596, 'eval_runtime': 0.9554, 'eval_samples_per_second': 5.233, 'eval_steps_per_second': 1.047, 'epoch': 1.73}
{'loss': 0.7764, 'learning_rate': 7.962340362003089e-06, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6742111444473267, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 1.74}
{'loss': 0.7666, 'learning_rate': 7.946141722163202e-06, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767117977142334, 'eval_runtime': 0.9795, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 1.74}
{'loss': 0.7394, 'learning_rate': 7.929948706962508e-06, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6800724267959595, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 1.74}
{'loss': 0.7582, 'learning_rate': 7.913761360746748e-06, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.682537317276001, 'eval_runtime': 1.007, 'eval_samples_per_second': 4.965, 'eval_steps_per_second': 0.993, 'epoch': 1.74}
{'loss': 0.9568, 'learning_rate': 7.897579727846133e-06, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683966040611267, 'eval_runtime': 0.9406, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 1.74}
{'loss': 0.8591, 'learning_rate': 7.881403852575242e-06, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6856725215911865, 'eval_runtime': 0.956, 'eval_samples_per_second': 5.23, 'eval_steps_per_second': 1.046, 'epoch': 1.74}
{'loss': 1.0816, 'learning_rate': 7.865233779232867e-06, 'epoch': 1.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6857837438583374, 'eval_runtime': 0.9786, 'eval_samples_per_second': 5.109, 'eval_steps_per_second': 1.022, 'epoch': 1.74}
{'loss': 1.0063, 'learning_rate': 7.849069552101929e-06, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6869510412216187, 'eval_runtime': 0.9399, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 1.75}
{'loss': 0.6156, 'learning_rate': 7.83291121544933e-06, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6887493133544922, 'eval_runtime': 1.0566, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 1.75}
{'loss': 0.8366, 'learning_rate': 7.816758813525836e-06, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6917126178741455, 'eval_runtime': 1.0783, 'eval_samples_per_second': 4.637, 'eval_steps_per_second': 0.927, 'epoch': 1.75}
{'loss': 0.5959, 'learning_rate': 7.800612390565974e-06, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694101095199585, 'eval_runtime': 1.0643, 'eval_samples_per_second': 4.698, 'eval_steps_per_second': 0.94, 'epoch': 1.75}
{'loss': 0.6684, 'learning_rate': 7.784471990787883e-06, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.697546362876892, 'eval_runtime': 1.0422, 'eval_samples_per_second': 4.797, 'eval_steps_per_second': 0.959, 'epoch': 1.75}
{'loss': 1.2387, 'learning_rate': 7.768337658393217e-06, 'epoch': 1.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7007930278778076, 'eval_runtime': 0.9695, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 1.75}
{'loss': 1.1525, 'learning_rate': 7.75220943756701e-06, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.702480673789978, 'eval_runtime': 1.0274, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 1.76}
{'loss': 1.0582, 'learning_rate': 7.736087372477554e-06, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7019870281219482, 'eval_runtime': 1.0482, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 1.76}
{'loss': 0.8171, 'learning_rate': 7.719971507276297e-06, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.701513648033142, 'eval_runtime': 1.008, 'eval_samples_per_second': 4.96, 'eval_steps_per_second': 0.992, 'epoch': 1.76}
{'loss': 1.0542, 'learning_rate': 7.70386188609769e-06, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7022640705108643, 'eval_runtime': 0.9956, 'eval_samples_per_second': 5.022, 'eval_steps_per_second': 1.004, 'epoch': 1.76}
{'loss': 0.6843, 'learning_rate': 7.687758553059104e-06, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7032063007354736, 'eval_runtime': 1.0861, 'eval_samples_per_second': 4.604, 'eval_steps_per_second': 0.921, 'epoch': 1.76}
{'loss': 0.5401, 'learning_rate': 7.67166155226067e-06, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7036912441253662, 'eval_runtime': 0.9688, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 1.76}
{'loss': 1.4053, 'learning_rate': 7.655570927785192e-06, 'epoch': 1.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7040350437164307, 'eval_runtime': 1.0567, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 1.76}
{'loss': 0.7148, 'learning_rate': 7.639486723698006e-06, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7046674489974976, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 1.77}
{'loss': 1.0756, 'learning_rate': 7.623408984046863e-06, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7060267925262451, 'eval_runtime': 1.0701, 'eval_samples_per_second': 4.672, 'eval_steps_per_second': 0.934, 'epoch': 1.77}
{'loss': 1.3294, 'learning_rate': 7.607337752861821e-06, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7045520544052124, 'eval_runtime': 1.0082, 'eval_samples_per_second': 4.959, 'eval_steps_per_second': 0.992, 'epoch': 1.77}
{'loss': 0.8454, 'learning_rate': 7.5912730741551044e-06, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7010347843170166, 'eval_runtime': 0.9945, 'eval_samples_per_second': 5.028, 'eval_steps_per_second': 1.006, 'epoch': 1.77}
{'loss': 0.667, 'learning_rate': 7.575214991920988e-06, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.699052095413208, 'eval_runtime': 1.0104, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 1.77}
{'loss': 1.1253, 'learning_rate': 7.559163550135702e-06, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6958682537078857, 'eval_runtime': 0.9845, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 1.77}
{'loss': 0.9425, 'learning_rate': 7.543118792757267e-06, 'epoch': 1.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692496657371521, 'eval_runtime': 0.9859, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 1.77}
{'loss': 1.047, 'learning_rate': 7.527080763725417e-06, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6900713443756104, 'eval_runtime': 1.0171, 'eval_samples_per_second': 4.916, 'eval_steps_per_second': 0.983, 'epoch': 1.78}
{'loss': 0.8811, 'learning_rate': 7.511049506961454e-06, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6871912479400635, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 1.78}
{'loss': 0.9188, 'learning_rate': 7.4950250663681225e-06, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6837154626846313, 'eval_runtime': 1.0955, 'eval_samples_per_second': 4.564, 'eval_steps_per_second': 0.913, 'epoch': 1.78}
{'loss': 0.9965, 'learning_rate': 7.479007485829523e-06, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6820638179779053, 'eval_runtime': 0.9806, 'eval_samples_per_second': 5.099, 'eval_steps_per_second': 1.02, 'epoch': 1.78}
{'loss': 1.2886, 'learning_rate': 7.462996809210943e-06, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6795275211334229, 'eval_runtime': 1.0883, 'eval_samples_per_second': 4.594, 'eval_steps_per_second': 0.919, 'epoch': 1.78}
{'loss': 1.0737, 'learning_rate': 7.446993080358788e-06, 'epoch': 1.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6773217916488647, 'eval_runtime': 1.0564, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 1.78}
{'loss': 0.8542, 'learning_rate': 7.4309963431004205e-06, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.678043007850647, 'eval_runtime': 0.9786, 'eval_samples_per_second': 5.109, 'eval_steps_per_second': 1.022, 'epoch': 1.79}
{'loss': 0.8544, 'learning_rate': 7.415006641244057e-06, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680153250694275, 'eval_runtime': 0.9954, 'eval_samples_per_second': 5.023, 'eval_steps_per_second': 1.005, 'epoch': 1.79}
{'loss': 0.9631, 'learning_rate': 7.399024018578654e-06, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6811997890472412, 'eval_runtime': 0.9699, 'eval_samples_per_second': 5.155, 'eval_steps_per_second': 1.031, 'epoch': 1.79}
{'loss': 0.7597, 'learning_rate': 7.383048518873779e-06, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6817203760147095, 'eval_runtime': 1.0691, 'eval_samples_per_second': 4.677, 'eval_steps_per_second': 0.935, 'epoch': 1.79}
{'loss': 1.0216, 'learning_rate': 7.367080185879489e-06, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6839170455932617, 'eval_runtime': 1.0905, 'eval_samples_per_second': 4.585, 'eval_steps_per_second': 0.917, 'epoch': 1.79}
{'loss': 1.0354, 'learning_rate': 7.3511190633262195e-06, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6861727237701416, 'eval_runtime': 1.0429, 'eval_samples_per_second': 4.795, 'eval_steps_per_second': 0.959, 'epoch': 1.79}
{'loss': 1.0559, 'learning_rate': 7.335165194924652e-06, 'epoch': 1.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6863857507705688, 'eval_runtime': 0.9844, 'eval_samples_per_second': 5.079, 'eval_steps_per_second': 1.016, 'epoch': 1.79}
{'loss': 0.8241, 'learning_rate': 7.319218624365614e-06, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6845223903656006, 'eval_runtime': 1.0112, 'eval_samples_per_second': 4.945, 'eval_steps_per_second': 0.989, 'epoch': 1.8}
{'loss': 0.9764, 'learning_rate': 7.303279395319931e-06, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6820058822631836, 'eval_runtime': 1.0886, 'eval_samples_per_second': 4.593, 'eval_steps_per_second': 0.919, 'epoch': 1.8}
{'loss': 0.9609, 'learning_rate': 7.287347551438344e-06, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6798648834228516, 'eval_runtime': 0.9824, 'eval_samples_per_second': 5.09, 'eval_steps_per_second': 1.018, 'epoch': 1.8}
{'loss': 0.9757, 'learning_rate': 7.27142313635135e-06, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6754757165908813, 'eval_runtime': 1.0914, 'eval_samples_per_second': 4.581, 'eval_steps_per_second': 0.916, 'epoch': 1.8}
{'loss': 0.9222, 'learning_rate': 7.2555061936691104e-06, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6735460758209229, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.113, 'eval_steps_per_second': 1.023, 'epoch': 1.8}
{'loss': 1.0484, 'learning_rate': 7.239596766981325e-06, 'epoch': 1.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6735767126083374, 'eval_runtime': 1.0814, 'eval_samples_per_second': 4.624, 'eval_steps_per_second': 0.925, 'epoch': 1.8}
{'loss': 0.7808, 'learning_rate': 7.2236948998571035e-06, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6734317541122437, 'eval_runtime': 0.9705, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 1.81}
{'loss': 1.3086, 'learning_rate': 7.207800635844863e-06, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674583077430725, 'eval_runtime': 0.9756, 'eval_samples_per_second': 5.125, 'eval_steps_per_second': 1.025, 'epoch': 1.81}
{'loss': 1.0911, 'learning_rate': 7.19191401847219e-06, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763503551483154, 'eval_runtime': 1.0023, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 1.81}
{'loss': 1.0906, 'learning_rate': 7.1760350912457276e-06, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6776440143585205, 'eval_runtime': 1.0969, 'eval_samples_per_second': 4.558, 'eval_steps_per_second': 0.912, 'epoch': 1.81}
{'loss': 1.2431, 'learning_rate': 7.1601638976510756e-06, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6787420511245728, 'eval_runtime': 1.0104, 'eval_samples_per_second': 4.948, 'eval_steps_per_second': 0.99, 'epoch': 1.81}
{'loss': 0.8576, 'learning_rate': 7.144300481152633e-06, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6807864904403687, 'eval_runtime': 0.984, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 1.81}
{'loss': 1.1302, 'learning_rate': 7.1284448851935185e-06, 'epoch': 1.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.682880163192749, 'eval_runtime': 1.0959, 'eval_samples_per_second': 4.562, 'eval_steps_per_second': 0.912, 'epoch': 1.81}
{'loss': 0.8966, 'learning_rate': 7.112597153195425e-06, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6841442584991455, 'eval_runtime': 0.9885, 'eval_samples_per_second': 5.058, 'eval_steps_per_second': 1.012, 'epoch': 1.82}
{'loss': 0.8614, 'learning_rate': 7.096757328558507e-06, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6860406398773193, 'eval_runtime': 1.0301, 'eval_samples_per_second': 4.854, 'eval_steps_per_second': 0.971, 'epoch': 1.82}
{'loss': 0.7231, 'learning_rate': 7.080925454661274e-06, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6861461400985718, 'eval_runtime': 1.0855, 'eval_samples_per_second': 4.606, 'eval_steps_per_second': 0.921, 'epoch': 1.82}
{'loss': 1.1419, 'learning_rate': 7.065101574860449e-06, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6861231327056885, 'eval_runtime': 1.0616, 'eval_samples_per_second': 4.71, 'eval_steps_per_second': 0.942, 'epoch': 1.82}
{'loss': 0.8022, 'learning_rate': 7.049285732490878e-06, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6843219995498657, 'eval_runtime': 0.9937, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 1.82}
{'loss': 0.9279, 'learning_rate': 7.033477970865381e-06, 'epoch': 1.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6843208074569702, 'eval_runtime': 1.0114, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 1.82}
{'loss': 0.7181, 'learning_rate': 7.017678333274654e-06, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6850885152816772, 'eval_runtime': 1.0456, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 1.83}
{'loss': 0.9147, 'learning_rate': 7.001886862987147e-06, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6843150854110718, 'eval_runtime': 0.9965, 'eval_samples_per_second': 5.017, 'eval_steps_per_second': 1.003, 'epoch': 1.83}
{'loss': 0.6491, 'learning_rate': 6.986103603248943e-06, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6842492818832397, 'eval_runtime': 0.9908, 'eval_samples_per_second': 5.046, 'eval_steps_per_second': 1.009, 'epoch': 1.83}
{'loss': 0.9533, 'learning_rate': 6.970328597283638e-06, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.686173677444458, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 1.83}
{'loss': 0.6717, 'learning_rate': 6.954561888292224e-06, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.687861680984497, 'eval_runtime': 1.0844, 'eval_samples_per_second': 4.611, 'eval_steps_per_second': 0.922, 'epoch': 1.83}
{'loss': 0.8992, 'learning_rate': 6.9388035194529705e-06, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6900132894515991, 'eval_runtime': 1.0152, 'eval_samples_per_second': 4.925, 'eval_steps_per_second': 0.985, 'epoch': 1.83}
{'loss': 1.1703, 'learning_rate': 6.923053533921312e-06, 'epoch': 1.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6909013986587524, 'eval_runtime': 1.0696, 'eval_samples_per_second': 4.674, 'eval_steps_per_second': 0.935, 'epoch': 1.83}
{'loss': 0.8959, 'learning_rate': 6.907311974829716e-06, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6881868839263916, 'eval_runtime': 0.9598, 'eval_samples_per_second': 5.21, 'eval_steps_per_second': 1.042, 'epoch': 1.84}
{'loss': 0.8972, 'learning_rate': 6.891578885287586e-06, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6875381469726562, 'eval_runtime': 1.077, 'eval_samples_per_second': 4.642, 'eval_steps_per_second': 0.928, 'epoch': 1.84}
{'loss': 0.7852, 'learning_rate': 6.875854308381118e-06, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6880182027816772, 'eval_runtime': 0.9858, 'eval_samples_per_second': 5.072, 'eval_steps_per_second': 1.014, 'epoch': 1.84}
{'loss': 0.8873, 'learning_rate': 6.860138287173201e-06, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6862232685089111, 'eval_runtime': 1.0729, 'eval_samples_per_second': 4.66, 'eval_steps_per_second': 0.932, 'epoch': 1.84}
{'loss': 1.1901, 'learning_rate': 6.844430864703298e-06, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6854393482208252, 'eval_runtime': 1.0843, 'eval_samples_per_second': 4.611, 'eval_steps_per_second': 0.922, 'epoch': 1.84}
{'loss': 1.2736, 'learning_rate': 6.8287320839873185e-06, 'epoch': 1.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683616280555725, 'eval_runtime': 1.0858, 'eval_samples_per_second': 4.605, 'eval_steps_per_second': 0.921, 'epoch': 1.84}
{'loss': 0.9935, 'learning_rate': 6.8130419880175015e-06, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6833703517913818, 'eval_runtime': 1.0056, 'eval_samples_per_second': 4.972, 'eval_steps_per_second': 0.994, 'epoch': 1.85}
{'loss': 0.7339, 'learning_rate': 6.797360619762315e-06, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.684471845626831, 'eval_runtime': 1.0562, 'eval_samples_per_second': 4.734, 'eval_steps_per_second': 0.947, 'epoch': 1.85}
{'loss': 0.7172, 'learning_rate': 6.781688022166312e-06, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6856515407562256, 'eval_runtime': 1.0782, 'eval_samples_per_second': 4.638, 'eval_steps_per_second': 0.928, 'epoch': 1.85}
{'loss': 0.9522, 'learning_rate': 6.766024238150039e-06, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6873267889022827, 'eval_runtime': 0.9661, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 1.85}
{'loss': 0.8585, 'learning_rate': 6.750369310609895e-06, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6877409219741821, 'eval_runtime': 1.0894, 'eval_samples_per_second': 4.59, 'eval_steps_per_second': 0.918, 'epoch': 1.85}
{'loss': 1.0952, 'learning_rate': 6.734723282418029e-06, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.688920021057129, 'eval_runtime': 0.9599, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 1.85}
{'loss': 0.8843, 'learning_rate': 6.719086196422224e-06, 'epoch': 1.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6905100345611572, 'eval_runtime': 1.0731, 'eval_samples_per_second': 4.659, 'eval_steps_per_second': 0.932, 'epoch': 1.85}
{'loss': 0.9802, 'learning_rate': 6.703458095445761e-06, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.691999077796936, 'eval_runtime': 1.0697, 'eval_samples_per_second': 4.674, 'eval_steps_per_second': 0.935, 'epoch': 1.86}
{'loss': 0.639, 'learning_rate': 6.687839022287332e-06, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6943483352661133, 'eval_runtime': 1.0694, 'eval_samples_per_second': 4.676, 'eval_steps_per_second': 0.935, 'epoch': 1.86}
{'loss': 0.8214, 'learning_rate': 6.6722290197208925e-06, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.69683837890625, 'eval_runtime': 1.0747, 'eval_samples_per_second': 4.652, 'eval_steps_per_second': 0.93, 'epoch': 1.86}
{'loss': 0.9684, 'learning_rate': 6.6566281304955584e-06, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.697507619857788, 'eval_runtime': 1.0598, 'eval_samples_per_second': 4.718, 'eval_steps_per_second': 0.944, 'epoch': 1.86}
{'loss': 0.9671, 'learning_rate': 6.641036397335497e-06, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6950877904891968, 'eval_runtime': 1.0074, 'eval_samples_per_second': 4.963, 'eval_steps_per_second': 0.993, 'epoch': 1.86}
{'loss': 1.0586, 'learning_rate': 6.625453862939789e-06, 'epoch': 1.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6924314498901367, 'eval_runtime': 1.089, 'eval_samples_per_second': 4.591, 'eval_steps_per_second': 0.918, 'epoch': 1.86}
{'loss': 0.9865, 'learning_rate': 6.609880569982336e-06, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6900304555892944, 'eval_runtime': 0.9717, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 1.87}
{'loss': 0.9691, 'learning_rate': 6.5943165611117244e-06, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6898438930511475, 'eval_runtime': 0.9872, 'eval_samples_per_second': 5.065, 'eval_steps_per_second': 1.013, 'epoch': 1.87}
{'loss': 0.8748, 'learning_rate': 6.57876187895111e-06, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6898200511932373, 'eval_runtime': 1.0727, 'eval_samples_per_second': 4.661, 'eval_steps_per_second': 0.932, 'epoch': 1.87}
{'loss': 0.9724, 'learning_rate': 6.563216566098121e-06, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6906734704971313, 'eval_runtime': 1.0095, 'eval_samples_per_second': 4.953, 'eval_steps_per_second': 0.991, 'epoch': 1.87}
{'loss': 0.8741, 'learning_rate': 6.547680665124713e-06, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6921560764312744, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 1.87}
{'loss': 0.9635, 'learning_rate': 6.532154218577081e-06, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6919374465942383, 'eval_runtime': 1.0893, 'eval_samples_per_second': 4.59, 'eval_steps_per_second': 0.918, 'epoch': 1.87}
{'loss': 1.4125, 'learning_rate': 6.51663726897551e-06, 'epoch': 1.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6902954578399658, 'eval_runtime': 1.0873, 'eval_samples_per_second': 4.599, 'eval_steps_per_second': 0.92, 'epoch': 1.87}
{'loss': 1.008, 'learning_rate': 6.50112985881429e-06, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6853011846542358, 'eval_runtime': 0.98, 'eval_samples_per_second': 5.102, 'eval_steps_per_second': 1.02, 'epoch': 1.88}
{'loss': 1.104, 'learning_rate': 6.485632030561587e-06, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6801912784576416, 'eval_runtime': 1.0201, 'eval_samples_per_second': 4.901, 'eval_steps_per_second': 0.98, 'epoch': 1.88}
{'loss': 0.9237, 'learning_rate': 6.470143826659317e-06, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6774829626083374, 'eval_runtime': 1.089, 'eval_samples_per_second': 4.592, 'eval_steps_per_second': 0.918, 'epoch': 1.88}
{'loss': 0.9512, 'learning_rate': 6.454665289523052e-06, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759536266326904, 'eval_runtime': 0.9692, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 1.88}
{'loss': 0.9247, 'learning_rate': 6.439196461541882e-06, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759145259857178, 'eval_runtime': 1.0407, 'eval_samples_per_second': 4.804, 'eval_steps_per_second': 0.961, 'epoch': 1.88}
{'loss': 0.8338, 'learning_rate': 6.423737385078299e-06, 'epoch': 1.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772868633270264, 'eval_runtime': 0.9753, 'eval_samples_per_second': 5.127, 'eval_steps_per_second': 1.025, 'epoch': 1.88}
{'loss': 0.7719, 'learning_rate': 6.408288102468114e-06, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6804068088531494, 'eval_runtime': 1.0787, 'eval_samples_per_second': 4.635, 'eval_steps_per_second': 0.927, 'epoch': 1.89}
{'loss': 0.7981, 'learning_rate': 6.392848656020292e-06, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6846606731414795, 'eval_runtime': 0.9957, 'eval_samples_per_second': 5.022, 'eval_steps_per_second': 1.004, 'epoch': 1.89}
{'loss': 0.8495, 'learning_rate': 6.3774190880168804e-06, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.687381386756897, 'eval_runtime': 1.0961, 'eval_samples_per_second': 4.562, 'eval_steps_per_second': 0.912, 'epoch': 1.89}
{'loss': 1.1608, 'learning_rate': 6.361999440712862e-06, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6882435083389282, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 1.89}
{'loss': 0.7614, 'learning_rate': 6.34658975633605e-06, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6866134405136108, 'eval_runtime': 0.99, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 1.89}
{'loss': 0.8677, 'learning_rate': 6.331190077086986e-06, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6841938495635986, 'eval_runtime': 0.9523, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 1.89}
{'loss': 1.0611, 'learning_rate': 6.315800445138795e-06, 'epoch': 1.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6815687417984009, 'eval_runtime': 1.0591, 'eval_samples_per_second': 4.721, 'eval_steps_per_second': 0.944, 'epoch': 1.89}
{'loss': 0.8683, 'learning_rate': 6.300420902637103e-06, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680624008178711, 'eval_runtime': 1.045, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 1.9}
{'loss': 1.2011, 'learning_rate': 6.285051491699896e-06, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680972695350647, 'eval_runtime': 0.9673, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 1.9}
{'loss': 1.2354, 'learning_rate': 6.269692254417408e-06, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6813061237335205, 'eval_runtime': 0.9719, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 1.9}
{'loss': 0.9235, 'learning_rate': 6.254343232852027e-06, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6796070337295532, 'eval_runtime': 0.9733, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 1.9}
{'loss': 1.2511, 'learning_rate': 6.2390044690381545e-06, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6789205074310303, 'eval_runtime': 0.9719, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 1.9}
{'loss': 0.697, 'learning_rate': 6.223676004982104e-06, 'epoch': 1.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6789249181747437, 'eval_runtime': 1.0359, 'eval_samples_per_second': 4.827, 'eval_steps_per_second': 0.965, 'epoch': 1.9}
{'loss': 1.0524, 'learning_rate': 6.208357882661982e-06, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6779203414916992, 'eval_runtime': 0.9955, 'eval_samples_per_second': 5.023, 'eval_steps_per_second': 1.005, 'epoch': 1.91}
{'loss': 0.8795, 'learning_rate': 6.193050144027566e-06, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767666339874268, 'eval_runtime': 1.0545, 'eval_samples_per_second': 4.742, 'eval_steps_per_second': 0.948, 'epoch': 1.91}
{'loss': 1.0195, 'learning_rate': 6.177752831000212e-06, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6750129461288452, 'eval_runtime': 1.0074, 'eval_samples_per_second': 4.963, 'eval_steps_per_second': 0.993, 'epoch': 1.91}
{'loss': 1.087, 'learning_rate': 6.16246598547271e-06, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6744264364242554, 'eval_runtime': 0.9709, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 1.91}
{'loss': 0.7143, 'learning_rate': 6.147189649309195e-06, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6754299402236938, 'eval_runtime': 0.9777, 'eval_samples_per_second': 5.114, 'eval_steps_per_second': 1.023, 'epoch': 1.91}
{'loss': 0.8369, 'learning_rate': 6.131923864345013e-06, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676131248474121, 'eval_runtime': 0.9796, 'eval_samples_per_second': 5.104, 'eval_steps_per_second': 1.021, 'epoch': 1.91}
{'loss': 1.0936, 'learning_rate': 6.116668672386619e-06, 'epoch': 1.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6769311428070068, 'eval_runtime': 1.0095, 'eval_samples_per_second': 4.953, 'eval_steps_per_second': 0.991, 'epoch': 1.91}
{'loss': 1.045, 'learning_rate': 6.1014241152114584e-06, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6777461767196655, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 1.92}
{'loss': 0.7342, 'learning_rate': 6.08619023456785e-06, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6785331964492798, 'eval_runtime': 1.0186, 'eval_samples_per_second': 4.909, 'eval_steps_per_second': 0.982, 'epoch': 1.92}
{'loss': 0.8713, 'learning_rate': 6.070967072174882e-06, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6786041259765625, 'eval_runtime': 0.9776, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 1.92}
{'loss': 0.6979, 'learning_rate': 6.055754669722278e-06, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6785331964492798, 'eval_runtime': 0.9474, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 1.92}
{'loss': 1.1268, 'learning_rate': 6.040553068870298e-06, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6795825958251953, 'eval_runtime': 1.0388, 'eval_samples_per_second': 4.813, 'eval_steps_per_second': 0.963, 'epoch': 1.92}
{'loss': 1.0858, 'learning_rate': 6.025362311249632e-06, 'epoch': 1.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6800329685211182, 'eval_runtime': 0.9482, 'eval_samples_per_second': 5.273, 'eval_steps_per_second': 1.055, 'epoch': 1.92}
{'loss': 0.7363, 'learning_rate': 6.010182438461258e-06, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680678367614746, 'eval_runtime': 0.9463, 'eval_samples_per_second': 5.283, 'eval_steps_per_second': 1.057, 'epoch': 1.93}
{'loss': 0.9238, 'learning_rate': 5.9950134920763605e-06, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683018684387207, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 1.93}
{'loss': 0.926, 'learning_rate': 5.979855513636192e-06, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6853135824203491, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 1.93}
{'loss': 0.7218, 'learning_rate': 5.964708544651967e-06, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6891580820083618, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 1.93}
{'loss': 0.9619, 'learning_rate': 5.9495726266047605e-06, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.693241834640503, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 1.93}
{'loss': 0.6362, 'learning_rate': 5.934447800945371e-06, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6966054439544678, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 1.93}
{'loss': 0.8764, 'learning_rate': 5.919334109094233e-06, 'epoch': 1.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6997592449188232, 'eval_runtime': 0.9452, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 1.93}
{'loss': 1.0802, 'learning_rate': 5.904231592441277e-06, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.697516679763794, 'eval_runtime': 0.9533, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 1.94}
{'loss': 0.9414, 'learning_rate': 5.889140292345832e-06, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694246530532837, 'eval_runtime': 0.9926, 'eval_samples_per_second': 5.037, 'eval_steps_per_second': 1.007, 'epoch': 1.94}
{'loss': 0.9233, 'learning_rate': 5.8740602501365195e-06, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6919530630111694, 'eval_runtime': 0.9514, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 1.94}
{'loss': 0.8084, 'learning_rate': 5.858991507111122e-06, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.690481185913086, 'eval_runtime': 1.0435, 'eval_samples_per_second': 4.792, 'eval_steps_per_second': 0.958, 'epoch': 1.94}
{'loss': 1.0914, 'learning_rate': 5.843934104536482e-06, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.688146948814392, 'eval_runtime': 1.0402, 'eval_samples_per_second': 4.807, 'eval_steps_per_second': 0.961, 'epoch': 1.94}
{'loss': 1.0079, 'learning_rate': 5.828888083648382e-06, 'epoch': 1.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6846487522125244, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.733, 'eval_steps_per_second': 0.947, 'epoch': 1.94}
{'loss': 0.7407, 'learning_rate': 5.813853485651435e-06, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6840673685073853, 'eval_runtime': 0.9673, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 1.95}
{'loss': 1.2015, 'learning_rate': 5.798830351718975e-06, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6813987493515015, 'eval_runtime': 0.9433, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 1.95}
{'loss': 1.0661, 'learning_rate': 5.783818722992935e-06, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6786634922027588, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 1.95}
{'loss': 0.8331, 'learning_rate': 5.768818640583755e-06, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763880252838135, 'eval_runtime': 0.948, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 1.95}
{'loss': 1.0554, 'learning_rate': 5.753830145570233e-06, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757596731185913, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 1.95}
{'loss': 0.7959, 'learning_rate': 5.7388532789994476e-06, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675635576248169, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 1.95}
{'loss': 0.9451, 'learning_rate': 5.7238880818866315e-06, 'epoch': 1.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6760709285736084, 'eval_runtime': 0.9675, 'eval_samples_per_second': 5.168, 'eval_steps_per_second': 1.034, 'epoch': 1.95}
{'loss': 1.1242, 'learning_rate': 5.708934595215056e-06, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772778034210205, 'eval_runtime': 0.9977, 'eval_samples_per_second': 5.011, 'eval_steps_per_second': 1.002, 'epoch': 1.96}
{'loss': 0.8057, 'learning_rate': 5.693992859935924e-06, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.677966833114624, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 1.96}
{'loss': 1.09, 'learning_rate': 5.679062916968256e-06, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6784309148788452, 'eval_runtime': 0.9511, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 1.96}
{'loss': 0.8759, 'learning_rate': 5.664144807198779e-06, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6793529987335205, 'eval_runtime': 0.9719, 'eval_samples_per_second': 5.145, 'eval_steps_per_second': 1.029, 'epoch': 1.96}
{'loss': 0.9586, 'learning_rate': 5.6492385714818155e-06, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6810306310653687, 'eval_runtime': 0.9732, 'eval_samples_per_second': 5.138, 'eval_steps_per_second': 1.028, 'epoch': 1.96}
{'loss': 0.6413, 'learning_rate': 5.63434425063917e-06, 'epoch': 1.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683664083480835, 'eval_runtime': 0.9441, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 1.96}
{'loss': 0.7774, 'learning_rate': 5.619461885460006e-06, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6847403049468994, 'eval_runtime': 0.9494, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 1.97}
{'loss': 0.957, 'learning_rate': 5.604591516700768e-06, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6853030920028687, 'eval_runtime': 1.0338, 'eval_samples_per_second': 4.836, 'eval_steps_per_second': 0.967, 'epoch': 1.97}
{'loss': 1.1314, 'learning_rate': 5.589733185085022e-06, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6850998401641846, 'eval_runtime': 0.964, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 1.97}
{'loss': 0.7952, 'learning_rate': 5.57488693130339e-06, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6849896907806396, 'eval_runtime': 1.0296, 'eval_samples_per_second': 4.856, 'eval_steps_per_second': 0.971, 'epoch': 1.97}
{'loss': 1.0284, 'learning_rate': 5.560052796013413e-06, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6833679676055908, 'eval_runtime': 0.9639, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 1.97}
{'loss': 1.0114, 'learning_rate': 5.54523081983943e-06, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6809475421905518, 'eval_runtime': 0.9426, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 1.97}
{'loss': 1.1126, 'learning_rate': 5.530421043372507e-06, 'epoch': 1.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6789823770523071, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 1.97}
{'loss': 0.8903, 'learning_rate': 5.5156235071702706e-06, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680312156677246, 'eval_runtime': 0.9476, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 1.98}
{'loss': 1.0445, 'learning_rate': 5.500838251756857e-06, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6818292140960693, 'eval_runtime': 0.9523, 'eval_samples_per_second': 5.25, 'eval_steps_per_second': 1.05, 'epoch': 1.98}
{'loss': 0.903, 'learning_rate': 5.486065317622747e-06, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6837772130966187, 'eval_runtime': 0.9462, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 1.98}
{'loss': 0.8946, 'learning_rate': 5.471304745224689e-06, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6861026287078857, 'eval_runtime': 1.0472, 'eval_samples_per_second': 4.775, 'eval_steps_per_second': 0.955, 'epoch': 1.98}
{'loss': 0.9637, 'learning_rate': 5.456556574985577e-06, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6872797012329102, 'eval_runtime': 0.961, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 1.98}
{'loss': 0.8298, 'learning_rate': 5.441820847294339e-06, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6877706050872803, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 1.98}
{'loss': 0.8709, 'learning_rate': 5.427097602505831e-06, 'epoch': 1.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6854088306427002, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 1.98}
{'loss': 0.9893, 'learning_rate': 5.412386880940721e-06, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.685123085975647, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 1.99}
{'loss': 0.9044, 'learning_rate': 5.397688722885381e-06, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.685968041419983, 'eval_runtime': 1.0427, 'eval_samples_per_second': 4.795, 'eval_steps_per_second': 0.959, 'epoch': 1.99}
{'loss': 0.8544, 'learning_rate': 5.383003168591781e-06, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.686550498008728, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 1.99}
{'loss': 0.7283, 'learning_rate': 5.368330258277369e-06, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6847118139266968, 'eval_runtime': 0.9412, 'eval_samples_per_second': 5.312, 'eval_steps_per_second': 1.062, 'epoch': 1.99}
{'loss': 0.8357, 'learning_rate': 5.35367003212497e-06, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6841957569122314, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 1.99}
{'loss': 1.1123, 'learning_rate': 5.339022530282674e-06, 'epoch': 1.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6835572719573975, 'eval_runtime': 1.0447, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 1.99}
{'loss': 0.856, 'learning_rate': 5.324387792863719e-06, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6830499172210693, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 2.0}
{'loss': 0.7347, 'learning_rate': 5.309765859946393e-06, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6835339069366455, 'eval_runtime': 1.0608, 'eval_samples_per_second': 4.713, 'eval_steps_per_second': 0.943, 'epoch': 2.0}
{'loss': 0.8254, 'learning_rate': 5.295156771573913e-06, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6840028762817383, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 2.0}




{'loss': 1.1748, 'learning_rate': 5.280560567754324e-06, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6831632852554321, 'eval_runtime': 0.9444, 'eval_samples_per_second': 5.295, 'eval_steps_per_second': 1.059, 'epoch': 2.0}
{'loss': 0.8962, 'learning_rate': 5.265977288460387e-06, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6826097965240479, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.0}
{'loss': 0.773, 'learning_rate': 5.251406973629454e-06, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6832449436187744, 'eval_runtime': 0.9471, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 2.0}
{'loss': 0.8305, 'learning_rate': 5.236849663163399e-06, 'epoch': 2.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6847686767578125, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 2.0}
{'loss': 0.5993, 'learning_rate': 5.222305396928453e-06, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6879913806915283, 'eval_runtime': 0.9974, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 2.01}
{'loss': 0.6537, 'learning_rate': 5.20777421475515e-06, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6912105083465576, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 2.01}
{'loss': 0.5374, 'learning_rate': 5.193256156438184e-06, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695077896118164, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 2.01}
{'loss': 0.7898, 'learning_rate': 5.178751261736292e-06, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.698818564414978, 'eval_runtime': 0.9538, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 2.01}
{'loss': 0.8564, 'learning_rate': 5.164259570372192e-06, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.701479196548462, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 2.01}
{'loss': 0.9101, 'learning_rate': 5.14978112203241e-06, 'epoch': 2.01}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.700508713722229, 'eval_runtime': 0.9553, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 2.01}
{'loss': 0.643, 'learning_rate': 5.135315956367239e-06, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6999800205230713, 'eval_runtime': 0.9527, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 2.02}
{'loss': 0.8258, 'learning_rate': 5.120864112990569e-06, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6995655298233032, 'eval_runtime': 1.0531, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.02}
{'loss': 0.633, 'learning_rate': 5.10642563147982e-06, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6999409198760986, 'eval_runtime': 0.995, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 2.02}
{'loss': 0.8852, 'learning_rate': 5.092000551375814e-06, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7025957107543945, 'eval_runtime': 0.9547, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 2.02}
{'loss': 0.6422, 'learning_rate': 5.077588912182677e-06, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7057554721832275, 'eval_runtime': 1.0431, 'eval_samples_per_second': 4.793, 'eval_steps_per_second': 0.959, 'epoch': 2.02}
{'loss': 0.6242, 'learning_rate': 5.0631907533677214e-06, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7067906856536865, 'eval_runtime': 1.0273, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 2.02}
{'loss': 0.5247, 'learning_rate': 5.048806114361347e-06, 'epoch': 2.02}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7085338830947876, 'eval_runtime': 1.0541, 'eval_samples_per_second': 4.743, 'eval_steps_per_second': 0.949, 'epoch': 2.02}
{'loss': 0.8976, 'learning_rate': 5.0344350345569244e-06, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7076976299285889, 'eval_runtime': 0.9593, 'eval_samples_per_second': 5.212, 'eval_steps_per_second': 1.042, 'epoch': 2.03}
{'loss': 0.7911, 'learning_rate': 5.020077553310694e-06, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7078901529312134, 'eval_runtime': 0.994, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 2.03}
{'loss': 1.0081, 'learning_rate': 5.005733709941656e-06, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7074296474456787, 'eval_runtime': 0.9476, 'eval_samples_per_second': 5.277, 'eval_steps_per_second': 1.055, 'epoch': 2.03}
{'loss': 0.6768, 'learning_rate': 4.991403543731459e-06, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7066291570663452, 'eval_runtime': 0.946, 'eval_samples_per_second': 5.286, 'eval_steps_per_second': 1.057, 'epoch': 2.03}
{'loss': 0.8547, 'learning_rate': 4.977087093924299e-06, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.705354928970337, 'eval_runtime': 0.9586, 'eval_samples_per_second': 5.216, 'eval_steps_per_second': 1.043, 'epoch': 2.03}
{'loss': 0.9264, 'learning_rate': 4.962784399726808e-06, 'epoch': 2.03}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7048976421356201, 'eval_runtime': 1.0473, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 2.03}
{'loss': 0.8937, 'learning_rate': 4.948495500307945e-06, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7032769918441772, 'eval_runtime': 1.0585, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 2.04}
{'loss': 0.8279, 'learning_rate': 4.9342204347988956e-06, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7028605937957764, 'eval_runtime': 0.9662, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 2.04}
{'loss': 0.528, 'learning_rate': 4.9199592422929545e-06, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7018368244171143, 'eval_runtime': 0.9512, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 2.04}
{'loss': 0.6991, 'learning_rate': 4.905711961845432e-06, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7008349895477295, 'eval_runtime': 1.0206, 'eval_samples_per_second': 4.899, 'eval_steps_per_second': 0.98, 'epoch': 2.04}
{'loss': 0.6446, 'learning_rate': 4.8914786324735245e-06, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.698961615562439, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 2.04}
{'loss': 0.5547, 'learning_rate': 4.877259293156245e-06, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6975008249282837, 'eval_runtime': 1.0268, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 2.04}
{'loss': 0.6543, 'learning_rate': 4.863053982834266e-06, 'epoch': 2.04}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6969435214996338, 'eval_runtime': 0.9436, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.04}
{'loss': 0.841, 'learning_rate': 4.8488627404098685e-06, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694891333580017, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.05}
{'loss': 0.6035, 'learning_rate': 4.834685604746794e-06, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6943330764770508, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 2.05}
{'loss': 0.4453, 'learning_rate': 4.82052261467014e-06, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6955722570419312, 'eval_runtime': 1.0233, 'eval_samples_per_second': 4.886, 'eval_steps_per_second': 0.977, 'epoch': 2.05}
{'loss': 0.4164, 'learning_rate': 4.806373808966293e-06, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6957334280014038, 'eval_runtime': 1.0356, 'eval_samples_per_second': 4.828, 'eval_steps_per_second': 0.966, 'epoch': 2.05}
{'loss': 0.5204, 'learning_rate': 4.7922392263827634e-06, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6967675685882568, 'eval_runtime': 0.9748, 'eval_samples_per_second': 5.129, 'eval_steps_per_second': 1.026, 'epoch': 2.05}
{'loss': 0.8733, 'learning_rate': 4.778118905628142e-06, 'epoch': 2.05}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6977494955062866, 'eval_runtime': 0.9401, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 2.05}
{'loss': 0.975, 'learning_rate': 4.764012885371936e-06, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6989924907684326, 'eval_runtime': 0.9851, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 2.06}
{'loss': 0.5922, 'learning_rate': 4.749921204244503e-06, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.699937105178833, 'eval_runtime': 1.0076, 'eval_samples_per_second': 4.962, 'eval_steps_per_second': 0.992, 'epoch': 2.06}
{'loss': 0.7476, 'learning_rate': 4.73584390083693e-06, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7005302906036377, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 2.06}
{'loss': 0.5807, 'learning_rate': 4.721781013700928e-06, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6995022296905518, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 2.06}
{'loss': 0.5523, 'learning_rate': 4.707732581348729e-06, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.700343132019043, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 2.06}
{'loss': 0.6298, 'learning_rate': 4.6936986422529795e-06, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.702279806137085, 'eval_runtime': 1.0552, 'eval_samples_per_second': 4.738, 'eval_steps_per_second': 0.948, 'epoch': 2.06}
{'loss': 0.7163, 'learning_rate': 4.679679234846636e-06, 'epoch': 2.06}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.703192114830017, 'eval_runtime': 1.0507, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 2.06}
{'loss': 0.9957, 'learning_rate': 4.665674397522856e-06, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7036758661270142, 'eval_runtime': 1.048, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 2.07}
{'loss': 0.7256, 'learning_rate': 4.651684168634899e-06, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.703253984451294, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 2.07}
{'loss': 0.6363, 'learning_rate': 4.637708586496018e-06, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7019153833389282, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.07}
{'loss': 0.5562, 'learning_rate': 4.623747689379351e-06, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7018821239471436, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 2.07}
{'loss': 0.7213, 'learning_rate': 4.609801515517825e-06, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7023708820343018, 'eval_runtime': 0.949, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 2.07}
{'loss': 0.6399, 'learning_rate': 4.595870103104043e-06, 'epoch': 2.07}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7035081386566162, 'eval_runtime': 1.0439, 'eval_samples_per_second': 4.79, 'eval_steps_per_second': 0.958, 'epoch': 2.07}
{'loss': 0.6769, 'learning_rate': 4.581953490290188e-06, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7034000158309937, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 2.08}
{'loss': 0.9626, 'learning_rate': 4.568051715187899e-06, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7029569149017334, 'eval_runtime': 0.9561, 'eval_samples_per_second': 5.23, 'eval_steps_per_second': 1.046, 'epoch': 2.08}
{'loss': 0.7493, 'learning_rate': 4.554164815868204e-06, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7031131982803345, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 2.08}
{'loss': 1.1323, 'learning_rate': 4.540292830361365e-06, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7034372091293335, 'eval_runtime': 1.0004, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 2.08}
{'loss': 0.7626, 'learning_rate': 4.52643579665683e-06, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7028863430023193, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 2.08}
{'loss': 0.7405, 'learning_rate': 4.512593752703078e-06, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7014843225479126, 'eval_runtime': 0.9749, 'eval_samples_per_second': 5.129, 'eval_steps_per_second': 1.026, 'epoch': 2.08}
{'loss': 1.2215, 'learning_rate': 4.498766736407543e-06, 'epoch': 2.08}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7013912200927734, 'eval_runtime': 0.9412, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 2.08}
{'loss': 0.6962, 'learning_rate': 4.484954785636519e-06, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7020117044448853, 'eval_runtime': 1.0477, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.09}
{'loss': 0.8416, 'learning_rate': 4.471157938215017e-06, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.701799988746643, 'eval_runtime': 0.9683, 'eval_samples_per_second': 5.164, 'eval_steps_per_second': 1.033, 'epoch': 2.09}
{'loss': 0.906, 'learning_rate': 4.457376231926715e-06, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7021102905273438, 'eval_runtime': 0.9462, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 2.09}
{'loss': 0.7979, 'learning_rate': 4.443609704513797e-06, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.701297402381897, 'eval_runtime': 0.9468, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 2.09}
{'loss': 0.567, 'learning_rate': 4.429858393676898e-06, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6999117136001587, 'eval_runtime': 0.9801, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 2.09}
{'loss': 0.9728, 'learning_rate': 4.416122337074975e-06, 'epoch': 2.09}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.697197675704956, 'eval_runtime': 1.0246, 'eval_samples_per_second': 4.88, 'eval_steps_per_second': 0.976, 'epoch': 2.09}
{'loss': 0.6441, 'learning_rate': 4.402401572325211e-06, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6956350803375244, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 2.1}
{'loss': 0.7747, 'learning_rate': 4.388696137002911e-06, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6940215826034546, 'eval_runtime': 1.0266, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 2.1}
{'loss': 0.911, 'learning_rate': 4.3750060686414e-06, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692652940750122, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 2.1}
{'loss': 0.5721, 'learning_rate': 4.361331404731917e-06, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6921606063842773, 'eval_runtime': 1.0494, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 2.1}
{'loss': 0.7077, 'learning_rate': 4.347672182723518e-06, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.691826581954956, 'eval_runtime': 0.9615, 'eval_samples_per_second': 5.2, 'eval_steps_per_second': 1.04, 'epoch': 2.1}
{'loss': 0.964, 'learning_rate': 4.3340284400229675e-06, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6923574209213257, 'eval_runtime': 0.9479, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 2.1}
{'loss': 0.6717, 'learning_rate': 4.320400213994641e-06, 'epoch': 2.1}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6939260959625244, 'eval_runtime': 1.0044, 'eval_samples_per_second': 4.978, 'eval_steps_per_second': 0.996, 'epoch': 2.1}
{'loss': 0.7201, 'learning_rate': 4.306787541960419e-06, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695773720741272, 'eval_runtime': 0.9445, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 2.11}
{'loss': 0.6747, 'learning_rate': 4.293190461199587e-06, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6974866390228271, 'eval_runtime': 1.0158, 'eval_samples_per_second': 4.922, 'eval_steps_per_second': 0.984, 'epoch': 2.11}
{'loss': 0.5686, 'learning_rate': 4.279609008948732e-06, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6996240615844727, 'eval_runtime': 0.9598, 'eval_samples_per_second': 5.209, 'eval_steps_per_second': 1.042, 'epoch': 2.11}
{'loss': 0.7477, 'learning_rate': 4.2660432224016425e-06, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7019166946411133, 'eval_runtime': 0.9991, 'eval_samples_per_second': 5.004, 'eval_steps_per_second': 1.001, 'epoch': 2.11}
{'loss': 0.8453, 'learning_rate': 4.2524931387092036e-06, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7030458450317383, 'eval_runtime': 0.9384, 'eval_samples_per_second': 5.328, 'eval_steps_per_second': 1.066, 'epoch': 2.11}
{'loss': 0.672, 'learning_rate': 4.238958794979302e-06, 'epoch': 2.11}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7024635076522827, 'eval_runtime': 0.9637, 'eval_samples_per_second': 5.188, 'eval_steps_per_second': 1.038, 'epoch': 2.11}
{'loss': 0.8164, 'learning_rate': 4.225440228276704e-06, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.7010200023651123, 'eval_runtime': 0.9701, 'eval_samples_per_second': 5.154, 'eval_steps_per_second': 1.031, 'epoch': 2.12}
{'loss': 0.5942, 'learning_rate': 4.211937475622994e-06, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.699291467666626, 'eval_runtime': 0.9705, 'eval_samples_per_second': 5.152, 'eval_steps_per_second': 1.03, 'epoch': 2.12}
{'loss': 0.7531, 'learning_rate': 4.198450573996423e-06, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.698456048965454, 'eval_runtime': 0.9848, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 2.12}
{'loss': 0.6692, 'learning_rate': 4.184979560331859e-06, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.698826551437378, 'eval_runtime': 1.0578, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 2.12}
{'loss': 0.5134, 'learning_rate': 4.171524471520632e-06, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.699119210243225, 'eval_runtime': 0.9663, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 2.12}
{'loss': 0.7867, 'learning_rate': 4.158085344410478e-06, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6997400522232056, 'eval_runtime': 0.9434, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 2.12}
{'loss': 0.7538, 'learning_rate': 4.144662215805426e-06, 'epoch': 2.12}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6988528966903687, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 2.12}
{'loss': 0.7284, 'learning_rate': 4.131255122465668e-06, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6984996795654297, 'eval_runtime': 0.9919, 'eval_samples_per_second': 5.041, 'eval_steps_per_second': 1.008, 'epoch': 2.13}
{'loss': 0.9339, 'learning_rate': 4.1178641011075115e-06, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.696974515914917, 'eval_runtime': 0.9724, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 2.13}
{'loss': 0.5695, 'learning_rate': 4.104489188403225e-06, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6960537433624268, 'eval_runtime': 1.0221, 'eval_samples_per_second': 4.892, 'eval_steps_per_second': 0.978, 'epoch': 2.13}
{'loss': 0.7398, 'learning_rate': 4.091130420980978e-06, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6951268911361694, 'eval_runtime': 0.9447, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 2.13}
{'loss': 0.7977, 'learning_rate': 4.077787835424717e-06, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6952263116836548, 'eval_runtime': 1.045, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 2.13}
{'loss': 0.5587, 'learning_rate': 4.064461468274077e-06, 'epoch': 2.13}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6957452297210693, 'eval_runtime': 1.0331, 'eval_samples_per_second': 4.84, 'eval_steps_per_second': 0.968, 'epoch': 2.13}
{'loss': 0.7087, 'learning_rate': 4.051151356024276e-06, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6954902410507202, 'eval_runtime': 0.9981, 'eval_samples_per_second': 5.01, 'eval_steps_per_second': 1.002, 'epoch': 2.14}
{'loss': 0.8833, 'learning_rate': 4.037857535126019e-06, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6952444314956665, 'eval_runtime': 0.9577, 'eval_samples_per_second': 5.221, 'eval_steps_per_second': 1.044, 'epoch': 2.14}
{'loss': 0.5359, 'learning_rate': 4.024580041985393e-06, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6946138143539429, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 2.14}
{'loss': 0.9175, 'learning_rate': 4.011318912963772e-06, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6943432092666626, 'eval_runtime': 0.9373, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 2.14}
{'loss': 0.9633, 'learning_rate': 3.998074184377716e-06, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6931209564208984, 'eval_runtime': 0.944, 'eval_samples_per_second': 5.297, 'eval_steps_per_second': 1.059, 'epoch': 2.14}
{'loss': 0.7403, 'learning_rate': 3.984845892498869e-06, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692432165145874, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 2.14}
{'loss': 0.8923, 'learning_rate': 3.971634073553865e-06, 'epoch': 2.14}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6930345296859741, 'eval_runtime': 1.0295, 'eval_samples_per_second': 4.857, 'eval_steps_per_second': 0.971, 'epoch': 2.14}
{'loss': 0.9102, 'learning_rate': 3.9584387637242235e-06, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6933872699737549, 'eval_runtime': 0.9466, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 2.15}
{'loss': 0.5964, 'learning_rate': 3.945259999146253e-06, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6937211751937866, 'eval_runtime': 1.0128, 'eval_samples_per_second': 4.937, 'eval_steps_per_second': 0.987, 'epoch': 2.15}
{'loss': 0.8667, 'learning_rate': 3.932097815910954e-06, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.693558931350708, 'eval_runtime': 0.9417, 'eval_samples_per_second': 5.309, 'eval_steps_per_second': 1.062, 'epoch': 2.15}
{'loss': 0.8338, 'learning_rate': 3.918952250063911e-06, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6936109066009521, 'eval_runtime': 0.9604, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 2.15}
{'loss': 0.6486, 'learning_rate': 3.905823337605214e-06, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694342851638794, 'eval_runtime': 0.979, 'eval_samples_per_second': 5.107, 'eval_steps_per_second': 1.021, 'epoch': 2.15}
{'loss': 0.7021, 'learning_rate': 3.892711114489323e-06, 'epoch': 2.15}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6945987939834595, 'eval_runtime': 0.9836, 'eval_samples_per_second': 5.083, 'eval_steps_per_second': 1.017, 'epoch': 2.15}
{'loss': 0.6671, 'learning_rate': 3.879615616625024e-06, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6948379278182983, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.16}
{'loss': 0.6582, 'learning_rate': 3.866536879875269e-06, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6953389644622803, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 2.16}
{'loss': 1.0209, 'learning_rate': 3.853474940057134e-06, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6934852600097656, 'eval_runtime': 0.9946, 'eval_samples_per_second': 5.027, 'eval_steps_per_second': 1.005, 'epoch': 2.16}
{'loss': 0.7663, 'learning_rate': 3.840429832941683e-06, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6914201974868774, 'eval_runtime': 0.9407, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 2.16}
{'loss': 1.0719, 'learning_rate': 3.827401594253875e-06, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6898784637451172, 'eval_runtime': 0.9604, 'eval_samples_per_second': 5.206, 'eval_steps_per_second': 1.041, 'epoch': 2.16}
{'loss': 0.6629, 'learning_rate': 3.814390259672495e-06, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6894886493682861, 'eval_runtime': 0.9562, 'eval_samples_per_second': 5.229, 'eval_steps_per_second': 1.046, 'epoch': 2.16}
{'loss': 0.5459, 'learning_rate': 3.8013958648300075e-06, 'epoch': 2.16}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.689549207687378, 'eval_runtime': 0.9495, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 2.16}
{'loss': 0.8122, 'learning_rate': 3.7884184453125174e-06, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6910574436187744, 'eval_runtime': 1.0266, 'eval_samples_per_second': 4.87, 'eval_steps_per_second': 0.974, 'epoch': 2.17}
{'loss': 0.5874, 'learning_rate': 3.7754580366596116e-06, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6928842067718506, 'eval_runtime': 0.9537, 'eval_samples_per_second': 5.243, 'eval_steps_per_second': 1.049, 'epoch': 2.17}
{'loss': 0.9153, 'learning_rate': 3.7625146743643115e-06, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6935449838638306, 'eval_runtime': 0.9737, 'eval_samples_per_second': 5.135, 'eval_steps_per_second': 1.027, 'epoch': 2.17}
{'loss': 0.6445, 'learning_rate': 3.7495883938729473e-06, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.693469762802124, 'eval_runtime': 0.9953, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 2.17}
{'loss': 0.8006, 'learning_rate': 3.736679230585073e-06, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6925420761108398, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 2.17}
{'loss': 0.6107, 'learning_rate': 3.723787219853363e-06, 'epoch': 2.17}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692100167274475, 'eval_runtime': 0.9696, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 2.17}
{'loss': 0.6099, 'learning_rate': 3.710912396983519e-06, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.693500280380249, 'eval_runtime': 0.9778, 'eval_samples_per_second': 5.113, 'eval_steps_per_second': 1.023, 'epoch': 2.18}
{'loss': 0.6795, 'learning_rate': 3.698054797234175e-06, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6943624019622803, 'eval_runtime': 0.9936, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 2.18}
{'loss': 0.8602, 'learning_rate': 3.685214455816796e-06, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6932258605957031, 'eval_runtime': 1.0466, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 2.18}
{'loss': 0.5556, 'learning_rate': 3.6723914078955824e-06, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6906383037567139, 'eval_runtime': 0.9997, 'eval_samples_per_second': 5.001, 'eval_steps_per_second': 1.0, 'epoch': 2.18}
{'loss': 0.5645, 'learning_rate': 3.6595856885873782e-06, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6906945705413818, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.18}
{'loss': 0.6133, 'learning_rate': 3.646797332961569e-06, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6911628246307373, 'eval_runtime': 0.9945, 'eval_samples_per_second': 5.027, 'eval_steps_per_second': 1.005, 'epoch': 2.18}
{'loss': 0.7446, 'learning_rate': 3.634026376039993e-06, 'epoch': 2.18}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6912667751312256, 'eval_runtime': 0.9436, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.18}
{'loss': 0.7511, 'learning_rate': 3.6212728527968345e-06, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6907970905303955, 'eval_runtime': 1.0053, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 2.19}
{'loss': 1.0651, 'learning_rate': 3.6085367981585397e-06, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.690818428993225, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.184, 'eval_steps_per_second': 1.037, 'epoch': 2.19}
{'loss': 0.7618, 'learning_rate': 3.5958182470037127e-06, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6920289993286133, 'eval_runtime': 1.0416, 'eval_samples_per_second': 4.8, 'eval_steps_per_second': 0.96, 'epoch': 2.19}
{'loss': 0.8154, 'learning_rate': 3.583117234163028e-06, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6925140619277954, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 2.19}
{'loss': 0.838, 'learning_rate': 3.570433794419117e-06, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6936795711517334, 'eval_runtime': 0.9729, 'eval_samples_per_second': 5.14, 'eval_steps_per_second': 1.028, 'epoch': 2.19}
{'loss': 0.7907, 'learning_rate': 3.5577679625065076e-06, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694713830947876, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 2.19}
{'loss': 0.9642, 'learning_rate': 3.5451197731114863e-06, 'epoch': 2.19}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6945140361785889, 'eval_runtime': 1.0456, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 2.19}
{'loss': 0.6796, 'learning_rate': 3.5324892608720306e-06, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6939866542816162, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 2.2}
{'loss': 0.796, 'learning_rate': 3.5198764603777235e-06, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6904338598251343, 'eval_runtime': 0.9429, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 2.2}
{'loss': 0.7072, 'learning_rate': 3.5072814061696137e-06, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6890151500701904, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 2.2}
{'loss': 0.8564, 'learning_rate': 3.494704132740181e-06, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6886138916015625, 'eval_runtime': 1.0579, 'eval_samples_per_second': 4.726, 'eval_steps_per_second': 0.945, 'epoch': 2.2}
{'loss': 0.7016, 'learning_rate': 3.4821446745331866e-06, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6880089044570923, 'eval_runtime': 0.9469, 'eval_samples_per_second': 5.281, 'eval_steps_per_second': 1.056, 'epoch': 2.2}
{'loss': 0.6879, 'learning_rate': 3.4696030659436174e-06, 'epoch': 2.2}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.687682867050171, 'eval_runtime': 1.0592, 'eval_samples_per_second': 4.72, 'eval_steps_per_second': 0.944, 'epoch': 2.2}
{'loss': 0.6398, 'learning_rate': 3.457079341317574e-06, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6877880096435547, 'eval_runtime': 0.9386, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 2.21}
{'loss': 0.6577, 'learning_rate': 3.44457353495218e-06, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6875991821289062, 'eval_runtime': 0.956, 'eval_samples_per_second': 5.23, 'eval_steps_per_second': 1.046, 'epoch': 2.21}
{'loss': 0.5508, 'learning_rate': 3.4320856810954896e-06, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.688239336013794, 'eval_runtime': 1.0093, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 2.21}
{'loss': 0.8977, 'learning_rate': 3.419615813946392e-06, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.688462495803833, 'eval_runtime': 0.9773, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 2.21}
{'loss': 0.9599, 'learning_rate': 3.4071639676545197e-06, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6878471374511719, 'eval_runtime': 1.0228, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 2.21}
{'loss': 0.7737, 'learning_rate': 3.3947301763201514e-06, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6865246295928955, 'eval_runtime': 0.939, 'eval_samples_per_second': 5.325, 'eval_steps_per_second': 1.065, 'epoch': 2.21}
{'loss': 0.7413, 'learning_rate': 3.3823144739941237e-06, 'epoch': 2.21}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.685948133468628, 'eval_runtime': 0.9581, 'eval_samples_per_second': 5.218, 'eval_steps_per_second': 1.044, 'epoch': 2.21}
{'loss': 0.6974, 'learning_rate': 3.369916894677733e-06, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6850783824920654, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.22}
{'loss': 0.8285, 'learning_rate': 3.357537472322645e-06, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683409333229065, 'eval_runtime': 0.9497, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 2.22}
{'loss': 0.6979, 'learning_rate': 3.345176240830803e-06, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6812450885772705, 'eval_runtime': 1.035, 'eval_samples_per_second': 4.831, 'eval_steps_per_second': 0.966, 'epoch': 2.22}
{'loss': 0.7819, 'learning_rate': 3.3328332340543314e-06, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6801846027374268, 'eval_runtime': 0.9707, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 2.22}
{'loss': 0.9184, 'learning_rate': 3.3205084857954452e-06, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.68012273311615, 'eval_runtime': 0.945, 'eval_samples_per_second': 5.291, 'eval_steps_per_second': 1.058, 'epoch': 2.22}
{'loss': 0.7986, 'learning_rate': 3.3082020298063576e-06, 'epoch': 2.22}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6794315576553345, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 2.22}
{'loss': 0.6702, 'learning_rate': 3.2959138997891905e-06, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6786466836929321, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 2.23}
{'loss': 0.6287, 'learning_rate': 3.2836441293958643e-06, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6790869235992432, 'eval_runtime': 0.9504, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 2.23}
{'loss': 0.837, 'learning_rate': 3.2713927522280455e-06, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6792796850204468, 'eval_runtime': 0.9492, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 2.23}
{'loss': 0.9225, 'learning_rate': 3.259159801837002e-06, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6798193454742432, 'eval_runtime': 0.972, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 2.23}
{'loss': 0.8566, 'learning_rate': 3.246945311723564e-06, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6799205541610718, 'eval_runtime': 1.029, 'eval_samples_per_second': 4.859, 'eval_steps_per_second': 0.972, 'epoch': 2.23}
{'loss': 0.5169, 'learning_rate': 3.234749315337985e-06, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680741310119629, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 2.23}
{'loss': 0.5565, 'learning_rate': 3.2225718460798816e-06, 'epoch': 2.23}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6819446086883545, 'eval_runtime': 1.0442, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 2.23}
{'loss': 0.7838, 'learning_rate': 3.210412937298143e-06, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6840518712997437, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 2.24}
{'loss': 0.8015, 'learning_rate': 3.1982726222908046e-06, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6865936517715454, 'eval_runtime': 1.0252, 'eval_samples_per_second': 4.877, 'eval_steps_per_second': 0.975, 'epoch': 2.24}
{'loss': 0.6537, 'learning_rate': 3.18615093430501e-06, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6885906457901, 'eval_runtime': 0.9416, 'eval_samples_per_second': 5.31, 'eval_steps_per_second': 1.062, 'epoch': 2.24}
{'loss': 0.8995, 'learning_rate': 3.174047906536867e-06, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6862103939056396, 'eval_runtime': 0.9626, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 2.24}
{'loss': 1.0178, 'learning_rate': 3.1619635721313934e-06, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6828781366348267, 'eval_runtime': 1.0495, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 2.24}
{'loss': 0.5295, 'learning_rate': 3.1498979641824136e-06, 'epoch': 2.24}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6816308498382568, 'eval_runtime': 0.9412, 'eval_samples_per_second': 5.313, 'eval_steps_per_second': 1.063, 'epoch': 2.24}
{'loss': 0.6839, 'learning_rate': 3.137851115732463e-06, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6817619800567627, 'eval_runtime': 1.0418, 'eval_samples_per_second': 4.799, 'eval_steps_per_second': 0.96, 'epoch': 2.25}
{'loss': 0.8698, 'learning_rate': 3.125823059772708e-06, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680833101272583, 'eval_runtime': 1.026, 'eval_samples_per_second': 4.873, 'eval_steps_per_second': 0.975, 'epoch': 2.25}
{'loss': 0.571, 'learning_rate': 3.1138138292428475e-06, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.680946707725525, 'eval_runtime': 0.9504, 'eval_samples_per_second': 5.261, 'eval_steps_per_second': 1.052, 'epoch': 2.25}
{'loss': 0.7695, 'learning_rate': 3.101823457031028e-06, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6818580627441406, 'eval_runtime': 0.9437, 'eval_samples_per_second': 5.298, 'eval_steps_per_second': 1.06, 'epoch': 2.25}
{'loss': 0.8828, 'learning_rate': 3.0898519759737476e-06, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.682084321975708, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.25}
{'loss': 0.589, 'learning_rate': 3.0778994188557722e-06, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6824538707733154, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 2.25}
{'loss': 0.6798, 'learning_rate': 3.0659658184100426e-06, 'epoch': 2.25}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6836957931518555, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.25}
{'loss': 0.7557, 'learning_rate': 3.0540512073175855e-06, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6846773624420166, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.26}
{'loss': 0.4809, 'learning_rate': 3.042155618207423e-06, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.686288595199585, 'eval_runtime': 0.9614, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 2.26}
{'loss': 0.5737, 'learning_rate': 3.0302790836564853e-06, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6867640018463135, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 2.26}
{'loss': 0.8033, 'learning_rate': 3.01842163618952e-06, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6864370107650757, 'eval_runtime': 0.9923, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 2.26}
{'loss': 0.7604, 'learning_rate': 3.006583308279003e-06, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.686171293258667, 'eval_runtime': 1.0088, 'eval_samples_per_second': 4.956, 'eval_steps_per_second': 0.991, 'epoch': 2.26}
{'loss': 0.4916, 'learning_rate': 2.9947641323450537e-06, 'epoch': 2.26}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6857147216796875, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 2.26}
{'loss': 0.8465, 'learning_rate': 2.9829641407553277e-06, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6851749420166016, 'eval_runtime': 0.9518, 'eval_samples_per_second': 5.253, 'eval_steps_per_second': 1.051, 'epoch': 2.27}
{'loss': 0.6902, 'learning_rate': 2.971183365824968e-06, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.68434739112854, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.27}
{'loss': 0.6434, 'learning_rate': 2.959421839816464e-06, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6837444305419922, 'eval_runtime': 0.9379, 'eval_samples_per_second': 5.331, 'eval_steps_per_second': 1.066, 'epoch': 2.27}
{'loss': 0.544, 'learning_rate': 2.9476795949396175e-06, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6842098236083984, 'eval_runtime': 0.9509, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 2.27}
{'loss': 0.7367, 'learning_rate': 2.9359566633514034e-06, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6858460903167725, 'eval_runtime': 0.9568, 'eval_samples_per_second': 5.226, 'eval_steps_per_second': 1.045, 'epoch': 2.27}
{'loss': 0.782, 'learning_rate': 2.9242530771559176e-06, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6870123147964478, 'eval_runtime': 1.0113, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 2.27}
{'loss': 0.6668, 'learning_rate': 2.912568868404284e-06, 'epoch': 2.27}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6881214380264282, 'eval_runtime': 0.9945, 'eval_samples_per_second': 5.027, 'eval_steps_per_second': 1.005, 'epoch': 2.27}
{'loss': 0.9612, 'learning_rate': 2.900904069094539e-06, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6878435611724854, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.28}
{'loss': 0.7808, 'learning_rate': 2.8892587111715918e-06, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6891145706176758, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 2.28}
{'loss': 0.5769, 'learning_rate': 2.877632826527087e-06, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6907970905303955, 'eval_runtime': 0.9406, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 2.28}
{'loss': 0.629, 'learning_rate': 2.8660264469993504e-06, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6909854412078857, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 2.28}
{'loss': 0.5938, 'learning_rate': 2.85443960437329e-06, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6909315586090088, 'eval_runtime': 0.946, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 2.28}
{'loss': 0.7241, 'learning_rate': 2.842872330380314e-06, 'epoch': 2.28}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6905418634414673, 'eval_runtime': 1.0292, 'eval_samples_per_second': 4.858, 'eval_steps_per_second': 0.972, 'epoch': 2.28}
{'loss': 0.6385, 'learning_rate': 2.8313246566982342e-06, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.69037663936615, 'eval_runtime': 0.9961, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 2.29}
{'loss': 0.7812, 'learning_rate': 2.819796614951191e-06, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6898330450057983, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 2.29}
{'loss': 0.5259, 'learning_rate': 2.8082882367095578e-06, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6891603469848633, 'eval_runtime': 0.9745, 'eval_samples_per_second': 5.131, 'eval_steps_per_second': 1.026, 'epoch': 2.29}
{'loss': 1.0553, 'learning_rate': 2.7967995534898595e-06, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6886593103408813, 'eval_runtime': 0.9486, 'eval_samples_per_second': 5.271, 'eval_steps_per_second': 1.054, 'epoch': 2.29}
{'loss': 0.7622, 'learning_rate': 2.785330596754685e-06, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.687875509262085, 'eval_runtime': 0.9848, 'eval_samples_per_second': 5.077, 'eval_steps_per_second': 1.015, 'epoch': 2.29}
{'loss': 0.8015, 'learning_rate': 2.7738813979126e-06, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6866899728775024, 'eval_runtime': 0.9723, 'eval_samples_per_second': 5.142, 'eval_steps_per_second': 1.028, 'epoch': 2.29}
{'loss': 0.5688, 'learning_rate': 2.7624519883180635e-06, 'epoch': 2.29}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6858144998550415, 'eval_runtime': 0.9941, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 2.29}
{'loss': 0.7879, 'learning_rate': 2.7510423992713374e-06, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6846742630004883, 'eval_runtime': 0.9372, 'eval_samples_per_second': 5.335, 'eval_steps_per_second': 1.067, 'epoch': 2.3}
{'loss': 0.8507, 'learning_rate': 2.7396526620184063e-06, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6833994388580322, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.3}
{'loss': 0.7487, 'learning_rate': 2.728282807750886e-06, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.681725263595581, 'eval_runtime': 1.0469, 'eval_samples_per_second': 4.776, 'eval_steps_per_second': 0.955, 'epoch': 2.3}
{'loss': 0.5195, 'learning_rate': 2.716932867605946e-06, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6804141998291016, 'eval_runtime': 1.0275, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 2.3}
{'loss': 0.6866, 'learning_rate': 2.7056028726662175e-06, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6800180673599243, 'eval_runtime': 1.056, 'eval_samples_per_second': 4.735, 'eval_steps_per_second': 0.947, 'epoch': 2.3}
{'loss': 0.9961, 'learning_rate': 2.6942928539597036e-06, 'epoch': 2.3}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6795628070831299, 'eval_runtime': 0.9378, 'eval_samples_per_second': 5.332, 'eval_steps_per_second': 1.066, 'epoch': 2.3}
{'loss': 0.6397, 'learning_rate': 2.6830028424597165e-06, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6792186498641968, 'eval_runtime': 0.9883, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 2.31}
{'loss': 0.5458, 'learning_rate': 2.6717328690847565e-06, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6800315380096436, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 2.31}
{'loss': 0.7123, 'learning_rate': 2.6604829646984687e-06, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6821138858795166, 'eval_runtime': 0.9816, 'eval_samples_per_second': 5.093, 'eval_steps_per_second': 1.019, 'epoch': 2.31}
{'loss': 0.826, 'learning_rate': 2.6492531601095295e-06, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683760404586792, 'eval_runtime': 0.9758, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 2.31}
{'loss': 0.5751, 'learning_rate': 2.63804348607156e-06, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6851612329483032, 'eval_runtime': 1.0569, 'eval_samples_per_second': 4.731, 'eval_steps_per_second': 0.946, 'epoch': 2.31}
{'loss': 0.7893, 'learning_rate': 2.626853973283072e-06, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6862194538116455, 'eval_runtime': 1.0175, 'eval_samples_per_second': 4.914, 'eval_steps_per_second': 0.983, 'epoch': 2.31}
{'loss': 0.7833, 'learning_rate': 2.615684652387348e-06, 'epoch': 2.31}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6869999170303345, 'eval_runtime': 1.0428, 'eval_samples_per_second': 4.795, 'eval_steps_per_second': 0.959, 'epoch': 2.31}
{'loss': 0.6724, 'learning_rate': 2.6045355539723815e-06, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6875969171524048, 'eval_runtime': 0.9498, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 2.32}
{'loss': 0.7587, 'learning_rate': 2.5934067085707835e-06, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6884685754776, 'eval_runtime': 0.9773, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 2.32}
{'loss': 0.5285, 'learning_rate': 2.5822981466597007e-06, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6893278360366821, 'eval_runtime': 0.9913, 'eval_samples_per_second': 5.044, 'eval_steps_per_second': 1.009, 'epoch': 2.32}
{'loss': 1.0277, 'learning_rate': 2.5712098986607325e-06, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6898034811019897, 'eval_runtime': 0.9613, 'eval_samples_per_second': 5.201, 'eval_steps_per_second': 1.04, 'epoch': 2.32}
{'loss': 0.6263, 'learning_rate': 2.5601419949398465e-06, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6899921894073486, 'eval_runtime': 1.0532, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 2.32}
{'loss': 0.8422, 'learning_rate': 2.549094465807295e-06, 'epoch': 2.32}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6896568536758423, 'eval_runtime': 0.9825, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 2.32}
{'loss': 0.845, 'learning_rate': 2.538067341517536e-06, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6890884637832642, 'eval_runtime': 0.9451, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 2.33}
{'loss': 0.6551, 'learning_rate': 2.527060652269144e-06, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.689129114151001, 'eval_runtime': 1.0415, 'eval_samples_per_second': 4.801, 'eval_steps_per_second': 0.96, 'epoch': 2.33}
{'loss': 0.748, 'learning_rate': 2.5160744282047333e-06, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6894264221191406, 'eval_runtime': 0.9455, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 2.33}
{'loss': 0.794, 'learning_rate': 2.5051086994108744e-06, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6894826889038086, 'eval_runtime': 1.046, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 2.33}
{'loss': 0.6182, 'learning_rate': 2.4941634959179982e-06, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6898906230926514, 'eval_runtime': 0.9602, 'eval_samples_per_second': 5.207, 'eval_steps_per_second': 1.041, 'epoch': 2.33}
{'loss': 0.894, 'learning_rate': 2.4832388477003444e-06, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6905491352081299, 'eval_runtime': 1.0257, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 2.33}
{'loss': 0.6954, 'learning_rate': 2.472334784675847e-06, 'epoch': 2.33}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6912908554077148, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 2.33}
{'loss': 0.5827, 'learning_rate': 2.46145133670607e-06, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6922887563705444, 'eval_runtime': 0.9659, 'eval_samples_per_second': 5.176, 'eval_steps_per_second': 1.035, 'epoch': 2.34}
{'loss': 0.9376, 'learning_rate': 2.4505885335961254e-06, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6928250789642334, 'eval_runtime': 0.9765, 'eval_samples_per_second': 5.12, 'eval_steps_per_second': 1.024, 'epoch': 2.34}
{'loss': 0.7747, 'learning_rate': 2.4397464050945753e-06, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6924102306365967, 'eval_runtime': 0.9558, 'eval_samples_per_second': 5.231, 'eval_steps_per_second': 1.046, 'epoch': 2.34}
{'loss': 0.6572, 'learning_rate': 2.428924980893381e-06, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6922343969345093, 'eval_runtime': 1.0304, 'eval_samples_per_second': 4.853, 'eval_steps_per_second': 0.971, 'epoch': 2.34}
{'loss': 0.6914, 'learning_rate': 2.4181242906277836e-06, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6922985315322876, 'eval_runtime': 0.969, 'eval_samples_per_second': 5.16, 'eval_steps_per_second': 1.032, 'epoch': 2.34}
{'loss': 0.6251, 'learning_rate': 2.407344363876266e-06, 'epoch': 2.34}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692509412765503, 'eval_runtime': 0.9627, 'eval_samples_per_second': 5.194, 'eval_steps_per_second': 1.039, 'epoch': 2.34}
{'loss': 0.7487, 'learning_rate': 2.396585230160425e-06, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.69307541847229, 'eval_runtime': 1.0363, 'eval_samples_per_second': 4.825, 'eval_steps_per_second': 0.965, 'epoch': 2.35}
{'loss': 0.8699, 'learning_rate': 2.3858469189449273e-06, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.693045973777771, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 2.35}
{'loss': 0.8214, 'learning_rate': 2.375129459637422e-06, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6923987865447998, 'eval_runtime': 1.003, 'eval_samples_per_second': 4.985, 'eval_steps_per_second': 0.997, 'epoch': 2.35}
{'loss': 0.5335, 'learning_rate': 2.364432881588431e-06, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692016839981079, 'eval_runtime': 1.0502, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 2.35}
{'loss': 0.7745, 'learning_rate': 2.353757214091321e-06, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6915252208709717, 'eval_runtime': 0.9442, 'eval_samples_per_second': 5.296, 'eval_steps_per_second': 1.059, 'epoch': 2.35}
{'loss': 0.6465, 'learning_rate': 2.343102486382166e-06, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.692833662033081, 'eval_runtime': 0.972, 'eval_samples_per_second': 5.144, 'eval_steps_per_second': 1.029, 'epoch': 2.35}
{'loss': 0.7813, 'learning_rate': 2.332468727639713e-06, 'epoch': 2.35}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.693591833114624, 'eval_runtime': 0.9814, 'eval_samples_per_second': 5.095, 'eval_steps_per_second': 1.019, 'epoch': 2.35}
{'loss': 0.5635, 'learning_rate': 2.321855966985277e-06, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6942857503890991, 'eval_runtime': 0.9889, 'eval_samples_per_second': 5.056, 'eval_steps_per_second': 1.011, 'epoch': 2.36}
{'loss': 0.6731, 'learning_rate': 2.3112642334826686e-06, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6949560642242432, 'eval_runtime': 0.994, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 2.36}
{'loss': 0.7139, 'learning_rate': 2.300693556138116e-06, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695199966430664, 'eval_runtime': 1.0382, 'eval_samples_per_second': 4.816, 'eval_steps_per_second': 0.963, 'epoch': 2.36}
{'loss': 0.7949, 'learning_rate': 2.290143963900181e-06, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6955646276474, 'eval_runtime': 1.0511, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.36}
{'loss': 0.7749, 'learning_rate': 2.279615485659684e-06, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6956373453140259, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 2.36}
{'loss': 0.6804, 'learning_rate': 2.269108150249625e-06, 'epoch': 2.36}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6963567733764648, 'eval_runtime': 1.0073, 'eval_samples_per_second': 4.964, 'eval_steps_per_second': 0.993, 'epoch': 2.36}
{'loss': 0.7836, 'learning_rate': 2.2586219864450974e-06, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6974108219146729, 'eval_runtime': 1.0487, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 2.37}
{'loss': 0.6183, 'learning_rate': 2.24815702296322e-06, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6986106634140015, 'eval_runtime': 1.031, 'eval_samples_per_second': 4.85, 'eval_steps_per_second': 0.97, 'epoch': 2.37}
{'loss': 0.7496, 'learning_rate': 2.23771328846305e-06, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6988893747329712, 'eval_runtime': 0.948, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 2.37}
{'loss': 0.7299, 'learning_rate': 2.2272908115455105e-06, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6983096599578857, 'eval_runtime': 0.984, 'eval_samples_per_second': 5.081, 'eval_steps_per_second': 1.016, 'epoch': 2.37}
{'loss': 0.6704, 'learning_rate': 2.216889620753304e-06, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6966924667358398, 'eval_runtime': 1.052, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.37}
{'loss': 0.6744, 'learning_rate': 2.206509744570844e-06, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6958034038543701, 'eval_runtime': 0.9429, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 2.37}
{'loss': 0.7749, 'learning_rate': 2.196151211424171e-06, 'epoch': 2.37}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6953680515289307, 'eval_runtime': 1.0504, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 2.37}
{'loss': 0.5439, 'learning_rate': 2.1858140496808776e-06, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6955339908599854, 'eval_runtime': 1.0509, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 2.38}
{'loss': 0.8825, 'learning_rate': 2.175498287650022e-06, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695709228515625, 'eval_runtime': 0.9449, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 2.38}
{'loss': 0.6405, 'learning_rate': 2.165203953582071e-06, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6959819793701172, 'eval_runtime': 0.948, 'eval_samples_per_second': 5.274, 'eval_steps_per_second': 1.055, 'epoch': 2.38}
{'loss': 0.8244, 'learning_rate': 2.1549310756687936e-06, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6961597204208374, 'eval_runtime': 0.949, 'eval_samples_per_second': 5.269, 'eval_steps_per_second': 1.054, 'epoch': 2.38}
{'loss': 0.8567, 'learning_rate': 2.144679682043217e-06, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6950651407241821, 'eval_runtime': 1.0402, 'eval_samples_per_second': 4.807, 'eval_steps_per_second': 0.961, 'epoch': 2.38}
{'loss': 0.6006, 'learning_rate': 2.1344498007795143e-06, 'epoch': 2.38}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6945375204086304, 'eval_runtime': 0.9674, 'eval_samples_per_second': 5.169, 'eval_steps_per_second': 1.034, 'epoch': 2.38}
{'loss': 0.7033, 'learning_rate': 2.124241459892955e-06, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694786787033081, 'eval_runtime': 0.9707, 'eval_samples_per_second': 5.151, 'eval_steps_per_second': 1.03, 'epoch': 2.39}
{'loss': 0.748, 'learning_rate': 2.114054687339826e-06, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6954578161239624, 'eval_runtime': 0.9618, 'eval_samples_per_second': 5.199, 'eval_steps_per_second': 1.04, 'epoch': 2.39}
{'loss': 0.6862, 'learning_rate': 2.1038895110173287e-06, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6965482234954834, 'eval_runtime': 1.0141, 'eval_samples_per_second': 4.93, 'eval_steps_per_second': 0.986, 'epoch': 2.39}
{'loss': 0.6584, 'learning_rate': 2.093745958763542e-06, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6972739696502686, 'eval_runtime': 1.0376, 'eval_samples_per_second': 4.819, 'eval_steps_per_second': 0.964, 'epoch': 2.39}
{'loss': 0.6649, 'learning_rate': 2.08362405835731e-06, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6976394653320312, 'eval_runtime': 1.0491, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 2.39}
{'loss': 0.7211, 'learning_rate': 2.0735238375181878e-06, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6977996826171875, 'eval_runtime': 0.9397, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 2.39}
{'loss': 0.6235, 'learning_rate': 2.0634453239063623e-06, 'epoch': 2.39}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6982872486114502, 'eval_runtime': 0.9695, 'eval_samples_per_second': 5.157, 'eval_steps_per_second': 1.031, 'epoch': 2.39}
{'loss': 0.9683, 'learning_rate': 2.0533885451225686e-06, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.698346734046936, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 2.4}
{'loss': 0.8026, 'learning_rate': 2.043353528708022e-06, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6970932483673096, 'eval_runtime': 0.9977, 'eval_samples_per_second': 5.011, 'eval_steps_per_second': 1.002, 'epoch': 2.4}
{'loss': 0.6341, 'learning_rate': 2.033340302144341e-06, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.696102499961853, 'eval_runtime': 0.9997, 'eval_samples_per_second': 5.002, 'eval_steps_per_second': 1.0, 'epoch': 2.4}
{'loss': 0.7636, 'learning_rate': 2.023348892853467e-06, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6956024169921875, 'eval_runtime': 0.9872, 'eval_samples_per_second': 5.065, 'eval_steps_per_second': 1.013, 'epoch': 2.4}
{'loss': 0.7884, 'learning_rate': 2.013379328197599e-06, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6952087879180908, 'eval_runtime': 0.9533, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 2.4}
{'loss': 0.5498, 'learning_rate': 2.0034316354791062e-06, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.694615125656128, 'eval_runtime': 0.947, 'eval_samples_per_second': 5.28, 'eval_steps_per_second': 1.056, 'epoch': 2.4}
{'loss': 0.7871, 'learning_rate': 1.993505841940466e-06, 'epoch': 2.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6937963962554932, 'eval_runtime': 1.0191, 'eval_samples_per_second': 4.906, 'eval_steps_per_second': 0.981, 'epoch': 2.4}
{'loss': 0.6779, 'learning_rate': 1.98360197476418e-06, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6930382251739502, 'eval_runtime': 0.961, 'eval_samples_per_second': 5.203, 'eval_steps_per_second': 1.041, 'epoch': 2.41}
{'loss': 0.7103, 'learning_rate': 1.9737200610727026e-06, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6918799877166748, 'eval_runtime': 0.9881, 'eval_samples_per_second': 5.06, 'eval_steps_per_second': 1.012, 'epoch': 2.41}
{'loss': 0.853, 'learning_rate': 1.9638601279283687e-06, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6912263631820679, 'eval_runtime': 1.053, 'eval_samples_per_second': 4.748, 'eval_steps_per_second': 0.95, 'epoch': 2.41}
{'loss': 0.6265, 'learning_rate': 1.9540222023333165e-06, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.690567970275879, 'eval_runtime': 0.994, 'eval_samples_per_second': 5.03, 'eval_steps_per_second': 1.006, 'epoch': 2.41}
{'loss': 0.7355, 'learning_rate': 1.9442063112294164e-06, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6903390884399414, 'eval_runtime': 0.9687, 'eval_samples_per_second': 5.161, 'eval_steps_per_second': 1.032, 'epoch': 2.41}
{'loss': 0.8746, 'learning_rate': 1.934412481498198e-06, 'epoch': 2.41}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.690908432006836, 'eval_runtime': 1.0498, 'eval_samples_per_second': 4.763, 'eval_steps_per_second': 0.953, 'epoch': 2.41}
{'loss': 0.73, 'learning_rate': 1.9246407399607626e-06, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6918985843658447, 'eval_runtime': 0.9807, 'eval_samples_per_second': 5.099, 'eval_steps_per_second': 1.02, 'epoch': 2.42}
{'loss': 0.5494, 'learning_rate': 1.9148911133777393e-06, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6927525997161865, 'eval_runtime': 0.9692, 'eval_samples_per_second': 5.159, 'eval_steps_per_second': 1.032, 'epoch': 2.42}
{'loss': 0.6389, 'learning_rate': 1.9051636284491758e-06, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6929572820663452, 'eval_runtime': 1.0537, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 2.42}
{'loss': 0.695, 'learning_rate': 1.895458311814502e-06, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6942579746246338, 'eval_runtime': 0.996, 'eval_samples_per_second': 5.02, 'eval_steps_per_second': 1.004, 'epoch': 2.42}
{'loss': 0.91, 'learning_rate': 1.8857751900524201e-06, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6954113245010376, 'eval_runtime': 0.9765, 'eval_samples_per_second': 5.121, 'eval_steps_per_second': 1.024, 'epoch': 2.42}
{'loss': 0.7503, 'learning_rate': 1.8761142896808592e-06, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6958653926849365, 'eval_runtime': 1.0529, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 2.42}
{'loss': 0.6053, 'learning_rate': 1.8664756371568981e-06, 'epoch': 2.42}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6961243152618408, 'eval_runtime': 0.9429, 'eval_samples_per_second': 5.303, 'eval_steps_per_second': 1.061, 'epoch': 2.42}
{'loss': 0.6889, 'learning_rate': 1.8568592588766765e-06, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6959545612335205, 'eval_runtime': 1.0221, 'eval_samples_per_second': 4.892, 'eval_steps_per_second': 0.978, 'epoch': 2.43}
{'loss': 0.6421, 'learning_rate': 1.847265181175343e-06, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.696030616760254, 'eval_runtime': 0.9933, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 2.43}
{'loss': 0.4738, 'learning_rate': 1.8376934303269722e-06, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6967157125473022, 'eval_runtime': 1.0577, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 2.43}
{'loss': 0.8763, 'learning_rate': 1.8281440325444954e-06, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6973642110824585, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 2.43}
{'loss': 0.7539, 'learning_rate': 1.8186170139796267e-06, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6982648372650146, 'eval_runtime': 0.9533, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 2.43}
{'loss': 0.6722, 'learning_rate': 1.8091124007227944e-06, 'epoch': 2.43}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6990411281585693, 'eval_runtime': 1.0535, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 2.43}
{'loss': 0.7017, 'learning_rate': 1.79963021880307e-06, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6992794275283813, 'eval_runtime': 1.0008, 'eval_samples_per_second': 4.996, 'eval_steps_per_second': 0.999, 'epoch': 2.44}
{'loss': 0.9351, 'learning_rate': 1.7901704941880914e-06, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6983064413070679, 'eval_runtime': 0.9367, 'eval_samples_per_second': 5.338, 'eval_steps_per_second': 1.068, 'epoch': 2.44}
{'loss': 0.576, 'learning_rate': 1.7807332527839983e-06, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6976925134658813, 'eval_runtime': 1.0254, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 2.44}
{'loss': 0.7982, 'learning_rate': 1.7713185204353567e-06, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6971890926361084, 'eval_runtime': 0.9561, 'eval_samples_per_second': 5.23, 'eval_steps_per_second': 1.046, 'epoch': 2.44}
{'loss': 1.0022, 'learning_rate': 1.7619263229250949e-06, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.696292519569397, 'eval_runtime': 0.9955, 'eval_samples_per_second': 5.022, 'eval_steps_per_second': 1.004, 'epoch': 2.44}
{'loss': 0.5964, 'learning_rate': 1.752556685974417e-06, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695924162864685, 'eval_runtime': 0.9819, 'eval_samples_per_second': 5.092, 'eval_steps_per_second': 1.018, 'epoch': 2.44}
{'loss': 0.582, 'learning_rate': 1.7432096352427552e-06, 'epoch': 2.44}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.695142149925232, 'eval_runtime': 0.9942, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 2.44}
{'loss': 0.5986, 'learning_rate': 1.7338851963276827e-06, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6929775476455688, 'eval_runtime': 0.9975, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 2.45}
{'loss': 0.9089, 'learning_rate': 1.7245833947648471e-06, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6891810894012451, 'eval_runtime': 1.0186, 'eval_samples_per_second': 4.909, 'eval_steps_per_second': 0.982, 'epoch': 2.45}
{'loss': 0.6814, 'learning_rate': 1.7153042560279064e-06, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.68647038936615, 'eval_runtime': 1.0522, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 2.45}
{'loss': 0.7731, 'learning_rate': 1.7060478055284458e-06, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6848623752593994, 'eval_runtime': 0.968, 'eval_samples_per_second': 5.165, 'eval_steps_per_second': 1.033, 'epoch': 2.45}
{'loss': 0.7329, 'learning_rate': 1.696814068615933e-06, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6836580038070679, 'eval_runtime': 0.9636, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 2.45}
{'loss': 0.5767, 'learning_rate': 1.6876030705776113e-06, 'epoch': 2.45}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6835672855377197, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 2.45}
{'loss': 0.8652, 'learning_rate': 1.6784148366384756e-06, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683226227760315, 'eval_runtime': 0.9809, 'eval_samples_per_second': 5.098, 'eval_steps_per_second': 1.02, 'epoch': 2.46}
{'loss': 0.7933, 'learning_rate': 1.6692493919611609e-06, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6830151081085205, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 2.46}
{'loss': 0.7757, 'learning_rate': 1.6601067616458987e-06, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.683437705039978, 'eval_runtime': 0.9479, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 2.46}
{'loss': 0.5495, 'learning_rate': 1.6509869707304494e-06, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.684081792831421, 'eval_runtime': 1.0587, 'eval_samples_per_second': 4.723, 'eval_steps_per_second': 0.945, 'epoch': 2.46}
{'loss': 0.6116, 'learning_rate': 1.6418900441900088e-06, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.684133768081665, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.752, 'eval_steps_per_second': 0.95, 'epoch': 2.46}
{'loss': 0.6881, 'learning_rate': 1.6328160069371768e-06, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6826565265655518, 'eval_runtime': 1.0487, 'eval_samples_per_second': 4.768, 'eval_steps_per_second': 0.954, 'epoch': 2.46}
{'loss': 0.6946, 'learning_rate': 1.6237648838218534e-06, 'epoch': 2.46}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.68010675907135, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.46}
{'loss': 0.7891, 'learning_rate': 1.6147366996311941e-06, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6785733699798584, 'eval_runtime': 1.0021, 'eval_samples_per_second': 4.989, 'eval_steps_per_second': 0.998, 'epoch': 2.47}
{'loss': 0.5447, 'learning_rate': 1.605731479089534e-06, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6778194904327393, 'eval_runtime': 0.9553, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 2.47}
{'loss': 0.5357, 'learning_rate': 1.596749246858319e-06, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6776268482208252, 'eval_runtime': 0.9532, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 2.47}
{'loss': 0.8038, 'learning_rate': 1.5877900275360414e-06, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6774933338165283, 'eval_runtime': 1.049, 'eval_samples_per_second': 4.766, 'eval_steps_per_second': 0.953, 'epoch': 2.47}
{'loss': 0.7341, 'learning_rate': 1.5788538456581704e-06, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6778481006622314, 'eval_runtime': 0.978, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 2.47}
{'loss': 0.876, 'learning_rate': 1.5699407256970834e-06, 'epoch': 2.47}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6778758764266968, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 2.47}
{'loss': 0.8402, 'learning_rate': 1.561050692062005e-06, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.677743673324585, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 2.48}
{'loss': 0.5551, 'learning_rate': 1.552183769098934e-06, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.678079605102539, 'eval_runtime': 1.0508, 'eval_samples_per_second': 4.758, 'eval_steps_per_second': 0.952, 'epoch': 2.48}
{'loss': 0.9731, 'learning_rate': 1.543339981090578e-06, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6785929203033447, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 2.48}
{'loss': 0.9632, 'learning_rate': 1.5345193522562918e-06, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6789554357528687, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 2.48}
{'loss': 0.8384, 'learning_rate': 1.5257219067519979e-06, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6783936023712158, 'eval_runtime': 1.0049, 'eval_samples_per_second': 4.976, 'eval_steps_per_second': 0.995, 'epoch': 2.48}
{'loss': 0.8456, 'learning_rate': 1.5169476686701423e-06, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6776998043060303, 'eval_runtime': 1.0551, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 2.48}
{'loss': 0.9251, 'learning_rate': 1.5081966620396083e-06, 'epoch': 2.48}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6770579814910889, 'eval_runtime': 0.9496, 'eval_samples_per_second': 5.266, 'eval_steps_per_second': 1.053, 'epoch': 2.48}
{'loss': 0.6396, 'learning_rate': 1.4994689108256577e-06, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6768929958343506, 'eval_runtime': 0.9995, 'eval_samples_per_second': 5.002, 'eval_steps_per_second': 1.0, 'epoch': 2.49}
{'loss': 0.6334, 'learning_rate': 1.4907644389298714e-06, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6769418716430664, 'eval_runtime': 0.9708, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 2.49}
{'loss': 0.8112, 'learning_rate': 1.4820832701900666e-06, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6770836114883423, 'eval_runtime': 1.0548, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 2.49}
{'loss': 0.7289, 'learning_rate': 1.4734254283802596e-06, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6769729852676392, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 2.49}
{'loss': 0.581, 'learning_rate': 1.4647909372105673e-06, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6768757104873657, 'eval_runtime': 0.951, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 2.49}
{'loss': 0.791, 'learning_rate': 1.4561798203271737e-06, 'epoch': 2.49}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767057180404663, 'eval_runtime': 1.0106, 'eval_samples_per_second': 4.947, 'eval_steps_per_second': 0.989, 'epoch': 2.49}
{'loss': 0.8775, 'learning_rate': 1.4475921013122406e-06, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676202416419983, 'eval_runtime': 0.9708, 'eval_samples_per_second': 5.15, 'eval_steps_per_second': 1.03, 'epoch': 2.5}
{'loss': 0.6139, 'learning_rate': 1.4390278036838544e-06, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6758549213409424, 'eval_runtime': 0.9472, 'eval_samples_per_second': 5.279, 'eval_steps_per_second': 1.056, 'epoch': 2.5}
{'loss': 0.7519, 'learning_rate': 1.4304869508959707e-06, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6756327152252197, 'eval_runtime': 0.9484, 'eval_samples_per_second': 5.272, 'eval_steps_per_second': 1.054, 'epoch': 2.5}
{'loss': 0.6155, 'learning_rate': 1.4219695663383215e-06, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757557392120361, 'eval_runtime': 0.9739, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 2.5}
{'loss': 0.9093, 'learning_rate': 1.4134756733363886e-06, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757094860076904, 'eval_runtime': 0.9528, 'eval_samples_per_second': 5.248, 'eval_steps_per_second': 1.05, 'epoch': 2.5}
{'loss': 0.808, 'learning_rate': 1.4050052951513037e-06, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6758556365966797, 'eval_runtime': 1.0228, 'eval_samples_per_second': 4.888, 'eval_steps_per_second': 0.978, 'epoch': 2.5}
{'loss': 0.6399, 'learning_rate': 1.396558454979814e-06, 'epoch': 2.5}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764894723892212, 'eval_runtime': 1.0167, 'eval_samples_per_second': 4.918, 'eval_steps_per_second': 0.984, 'epoch': 2.5}
{'loss': 0.8693, 'learning_rate': 1.3881351759541984e-06, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772419214248657, 'eval_runtime': 0.9399, 'eval_samples_per_second': 5.32, 'eval_steps_per_second': 1.064, 'epoch': 2.51}
{'loss': 0.8145, 'learning_rate': 1.379735481142216e-06, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772949695587158, 'eval_runtime': 0.9644, 'eval_samples_per_second': 5.185, 'eval_steps_per_second': 1.037, 'epoch': 2.51}
{'loss': 0.6688, 'learning_rate': 1.371359393547037e-06, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6774709224700928, 'eval_runtime': 0.9454, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'epoch': 2.51}
{'loss': 0.7248, 'learning_rate': 1.363006936107183e-06, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6776025295257568, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 2.51}
{'loss': 0.8223, 'learning_rate': 1.3546781316964609e-06, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6771787405014038, 'eval_runtime': 1.0129, 'eval_samples_per_second': 4.936, 'eval_steps_per_second': 0.987, 'epoch': 2.51}
{'loss': 0.78, 'learning_rate': 1.346373003123903e-06, 'epoch': 2.51}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765310764312744, 'eval_runtime': 0.9715, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 2.51}
{'loss': 0.5595, 'learning_rate': 1.3380915731337041e-06, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761213541030884, 'eval_runtime': 0.9898, 'eval_samples_per_second': 5.051, 'eval_steps_per_second': 1.01, 'epoch': 2.52}
{'loss': 0.6955, 'learning_rate': 1.3298338644051579e-06, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761865615844727, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 2.52}
{'loss': 0.8486, 'learning_rate': 1.3215998995525958e-06, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764461994171143, 'eval_runtime': 0.9387, 'eval_samples_per_second': 5.327, 'eval_steps_per_second': 1.065, 'epoch': 2.52}
{'loss': 0.745, 'learning_rate': 1.3133897011253249e-06, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762882471084595, 'eval_runtime': 0.9757, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 2.52}
{'loss': 0.816, 'learning_rate': 1.3052032916075674e-06, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675523042678833, 'eval_runtime': 0.9683, 'eval_samples_per_second': 5.164, 'eval_steps_per_second': 1.033, 'epoch': 2.52}
{'loss': 0.5538, 'learning_rate': 1.2970406934183955e-06, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6750543117523193, 'eval_runtime': 0.9431, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 2.52}
{'loss': 0.5721, 'learning_rate': 1.2889019289116743e-06, 'epoch': 2.52}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6750917434692383, 'eval_runtime': 0.9494, 'eval_samples_per_second': 5.267, 'eval_steps_per_second': 1.053, 'epoch': 2.52}
{'loss': 0.9015, 'learning_rate': 1.280787020376001e-06, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6753079891204834, 'eval_runtime': 0.9879, 'eval_samples_per_second': 5.061, 'eval_steps_per_second': 1.012, 'epoch': 2.53}
{'loss': 0.8802, 'learning_rate': 1.2726959900346313e-06, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675703763961792, 'eval_runtime': 1.0342, 'eval_samples_per_second': 4.834, 'eval_steps_per_second': 0.967, 'epoch': 2.53}
{'loss': 0.7361, 'learning_rate': 1.2646288600454448e-06, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759685277938843, 'eval_runtime': 1.0042, 'eval_samples_per_second': 4.979, 'eval_steps_per_second': 0.996, 'epoch': 2.53}
{'loss': 0.6109, 'learning_rate': 1.2565856525008502e-06, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761314868927002, 'eval_runtime': 0.9763, 'eval_samples_per_second': 5.121, 'eval_steps_per_second': 1.024, 'epoch': 2.53}
{'loss': 0.6083, 'learning_rate': 1.2485663894277611e-06, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762316226959229, 'eval_runtime': 0.9735, 'eval_samples_per_second': 5.136, 'eval_steps_per_second': 1.027, 'epoch': 2.53}
{'loss': 0.9751, 'learning_rate': 1.2405710927875026e-06, 'epoch': 2.53}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763370037078857, 'eval_runtime': 0.9437, 'eval_samples_per_second': 5.298, 'eval_steps_per_second': 1.06, 'epoch': 2.53}
{'loss': 0.8772, 'learning_rate': 1.232599784475772e-06, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764965057373047, 'eval_runtime': 0.964, 'eval_samples_per_second': 5.187, 'eval_steps_per_second': 1.037, 'epoch': 2.54}
{'loss': 0.736, 'learning_rate': 1.2246524863225774e-06, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6769130229949951, 'eval_runtime': 1.0462, 'eval_samples_per_second': 4.779, 'eval_steps_per_second': 0.956, 'epoch': 2.54}
{'loss': 0.8195, 'learning_rate': 1.216729220092162e-06, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6774780750274658, 'eval_runtime': 1.0275, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 2.54}
{'loss': 0.82, 'learning_rate': 1.2088300074829706e-06, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6776559352874756, 'eval_runtime': 1.045, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 2.54}
{'loss': 0.7431, 'learning_rate': 1.2009548701275598e-06, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6779348850250244, 'eval_runtime': 0.9529, 'eval_samples_per_second': 5.247, 'eval_steps_per_second': 1.049, 'epoch': 2.54}
{'loss': 0.6405, 'learning_rate': 1.1931038295925646e-06, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.677941083908081, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 2.54}
{'loss': 0.7686, 'learning_rate': 1.1852769073786264e-06, 'epoch': 2.54}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.677597999572754, 'eval_runtime': 1.0436, 'eval_samples_per_second': 4.791, 'eval_steps_per_second': 0.958, 'epoch': 2.54}
{'loss': 1.0487, 'learning_rate': 1.177474124920337e-06, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772892475128174, 'eval_runtime': 1.0055, 'eval_samples_per_second': 4.973, 'eval_steps_per_second': 0.995, 'epoch': 2.55}
{'loss': 0.6832, 'learning_rate': 1.169695503586179e-06, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767841577529907, 'eval_runtime': 0.936, 'eval_samples_per_second': 5.342, 'eval_steps_per_second': 1.068, 'epoch': 2.55}
{'loss': 0.897, 'learning_rate': 1.1619410646784701e-06, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676443099975586, 'eval_runtime': 0.9951, 'eval_samples_per_second': 5.025, 'eval_steps_per_second': 1.005, 'epoch': 2.55}
{'loss': 0.7061, 'learning_rate': 1.1542108294332998e-06, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763489246368408, 'eval_runtime': 1.0235, 'eval_samples_per_second': 4.885, 'eval_steps_per_second': 0.977, 'epoch': 2.55}
{'loss': 0.8444, 'learning_rate': 1.1465048190204753e-06, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762844324111938, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 2.55}
{'loss': 0.6521, 'learning_rate': 1.1388230545434652e-06, 'epoch': 2.55}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763452291488647, 'eval_runtime': 1.0519, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.55}
{'loss': 0.7812, 'learning_rate': 1.1311655570393298e-06, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762721538543701, 'eval_runtime': 0.9775, 'eval_samples_per_second': 5.115, 'eval_steps_per_second': 1.023, 'epoch': 2.56}
{'loss': 0.5566, 'learning_rate': 1.1235323474786842e-06, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757866144180298, 'eval_runtime': 1.0496, 'eval_samples_per_second': 4.764, 'eval_steps_per_second': 0.953, 'epoch': 2.56}
{'loss': 0.6381, 'learning_rate': 1.1159234467656243e-06, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6754497289657593, 'eval_runtime': 0.9476, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 2.56}
{'loss': 0.6393, 'learning_rate': 1.1083388757376712e-06, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6756805181503296, 'eval_runtime': 1.0447, 'eval_samples_per_second': 4.786, 'eval_steps_per_second': 0.957, 'epoch': 2.56}
{'loss': 0.698, 'learning_rate': 1.100778655165725e-06, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757065057754517, 'eval_runtime': 0.9635, 'eval_samples_per_second': 5.19, 'eval_steps_per_second': 1.038, 'epoch': 2.56}
{'loss': 0.5672, 'learning_rate': 1.093242805753988e-06, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675433874130249, 'eval_runtime': 0.9967, 'eval_samples_per_second': 5.017, 'eval_steps_per_second': 1.003, 'epoch': 2.56}
{'loss': 0.6004, 'learning_rate': 1.0857313481399356e-06, 'epoch': 2.56}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6748584508895874, 'eval_runtime': 0.9932, 'eval_samples_per_second': 5.034, 'eval_steps_per_second': 1.007, 'epoch': 2.56}
{'loss': 0.5169, 'learning_rate': 1.078244302894229e-06, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674226999282837, 'eval_runtime': 0.9388, 'eval_samples_per_second': 5.326, 'eval_steps_per_second': 1.065, 'epoch': 2.57}
{'loss': 0.7599, 'learning_rate': 1.0707816905206913e-06, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6738430261611938, 'eval_runtime': 1.0147, 'eval_samples_per_second': 4.928, 'eval_steps_per_second': 0.986, 'epoch': 2.57}
{'loss': 0.8337, 'learning_rate': 1.063343531456219e-06, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6734338998794556, 'eval_runtime': 1.0585, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 2.57}
{'loss': 0.8943, 'learning_rate': 1.05592984607075e-06, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6732070446014404, 'eval_runtime': 0.9466, 'eval_samples_per_second': 5.282, 'eval_steps_per_second': 1.056, 'epoch': 2.57}
{'loss': 0.7036, 'learning_rate': 1.048540654667195e-06, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6733280420303345, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.57}
{'loss': 0.7264, 'learning_rate': 1.041175977481389e-06, 'epoch': 2.57}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6733089685440063, 'eval_runtime': 0.992, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 2.57}
{'loss': 0.8019, 'learning_rate': 1.0338358346820355e-06, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6734447479248047, 'eval_runtime': 0.9738, 'eval_samples_per_second': 5.134, 'eval_steps_per_second': 1.027, 'epoch': 2.58}
{'loss': 0.6723, 'learning_rate': 1.0265202463706415e-06, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6736810207366943, 'eval_runtime': 1.0391, 'eval_samples_per_second': 4.812, 'eval_steps_per_second': 0.962, 'epoch': 2.58}
{'loss': 0.4684, 'learning_rate': 1.0192292325814757e-06, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6737711429595947, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 2.58}
{'loss': 0.5615, 'learning_rate': 1.0119628132815052e-06, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6738440990447998, 'eval_runtime': 1.0033, 'eval_samples_per_second': 4.984, 'eval_steps_per_second': 0.997, 'epoch': 2.58}
{'loss': 0.715, 'learning_rate': 1.004721008370344e-06, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6741275787353516, 'eval_runtime': 0.9543, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 2.58}
{'loss': 0.6903, 'learning_rate': 9.975038376801971e-07, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6744604110717773, 'eval_runtime': 0.9426, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 2.58}
{'loss': 0.7512, 'learning_rate': 9.903113209758098e-07, 'epoch': 2.58}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6749197244644165, 'eval_runtime': 0.9883, 'eval_samples_per_second': 5.059, 'eval_steps_per_second': 1.012, 'epoch': 2.58}
{'loss': 0.4857, 'learning_rate': 9.831434779544058e-07, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6752580404281616, 'eval_runtime': 1.0609, 'eval_samples_per_second': 4.713, 'eval_steps_per_second': 0.943, 'epoch': 2.59}
{'loss': 0.8154, 'learning_rate': 9.76000328245641e-07, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675567388534546, 'eval_runtime': 1.0565, 'eval_samples_per_second': 4.732, 'eval_steps_per_second': 0.946, 'epoch': 2.59}
{'loss': 0.6272, 'learning_rate': 9.688818914115494e-07, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6755090951919556, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 2.59}
{'loss': 0.7826, 'learning_rate': 9.617881869464807e-07, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675136923789978, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.59}
{'loss': 0.5035, 'learning_rate': 9.547192342770605e-07, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6751620769500732, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 2.59}
{'loss': 0.8746, 'learning_rate': 9.476750527621215e-07, 'epoch': 2.59}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6754274368286133, 'eval_runtime': 0.9925, 'eval_samples_per_second': 5.038, 'eval_steps_per_second': 1.008, 'epoch': 2.59}
{'loss': 0.8597, 'learning_rate': 9.406556616926665e-07, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6754401922225952, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.6}
{'loss': 0.7581, 'learning_rate': 9.336610802918044e-07, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6753339767456055, 'eval_runtime': 0.9531, 'eval_samples_per_second': 5.246, 'eval_steps_per_second': 1.049, 'epoch': 2.6}
{'loss': 0.7301, 'learning_rate': 9.266913277147016e-07, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6751549243927002, 'eval_runtime': 0.9849, 'eval_samples_per_second': 5.076, 'eval_steps_per_second': 1.015, 'epoch': 2.6}
{'loss': 0.5762, 'learning_rate': 9.197464230485298e-07, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6751272678375244, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.6}
{'loss': 0.8246, 'learning_rate': 9.128263853124065e-07, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6753009557724, 'eval_runtime': 1.046, 'eval_samples_per_second': 4.78, 'eval_steps_per_second': 0.956, 'epoch': 2.6}
{'loss': 0.6403, 'learning_rate': 9.059312334573634e-07, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6756118535995483, 'eval_runtime': 1.0483, 'eval_samples_per_second': 4.77, 'eval_steps_per_second': 0.954, 'epoch': 2.6}
{'loss': 0.5701, 'learning_rate': 8.990609863662625e-07, 'epoch': 2.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762406826019287, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 2.6}
{'loss': 0.6522, 'learning_rate': 8.922156628537792e-07, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766951084136963, 'eval_runtime': 1.0501, 'eval_samples_per_second': 4.761, 'eval_steps_per_second': 0.952, 'epoch': 2.61}
{'loss': 0.7491, 'learning_rate': 8.853952816663214e-07, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6770179271697998, 'eval_runtime': 1.0452, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 2.61}
{'loss': 0.9217, 'learning_rate': 8.785998614819957e-07, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6769192218780518, 'eval_runtime': 0.9593, 'eval_samples_per_second': 5.212, 'eval_steps_per_second': 1.042, 'epoch': 2.61}
{'loss': 0.6945, 'learning_rate': 8.718294209105549e-07, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6770832538604736, 'eval_runtime': 1.0505, 'eval_samples_per_second': 4.76, 'eval_steps_per_second': 0.952, 'epoch': 2.61}
{'loss': 0.6662, 'learning_rate': 8.65083978493334e-07, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772115230560303, 'eval_runtime': 0.9508, 'eval_samples_per_second': 5.259, 'eval_steps_per_second': 1.052, 'epoch': 2.61}
{'loss': 0.7212, 'learning_rate': 8.583635527032197e-07, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6772276163101196, 'eval_runtime': 0.9565, 'eval_samples_per_second': 5.228, 'eval_steps_per_second': 1.046, 'epoch': 2.61}
{'loss': 0.7754, 'learning_rate': 8.516681619445788e-07, 'epoch': 2.61}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.677101492881775, 'eval_runtime': 0.9565, 'eval_samples_per_second': 5.227, 'eval_steps_per_second': 1.045, 'epoch': 2.61}
{'loss': 0.7484, 'learning_rate': 8.449978245532242e-07, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676694631576538, 'eval_runtime': 1.0107, 'eval_samples_per_second': 4.947, 'eval_steps_per_second': 0.989, 'epoch': 2.62}
{'loss': 0.6271, 'learning_rate': 8.383525587963559e-07, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676459550857544, 'eval_runtime': 1.0595, 'eval_samples_per_second': 4.719, 'eval_steps_per_second': 0.944, 'epoch': 2.62}
{'loss': 0.8489, 'learning_rate': 8.317323828725143e-07, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761772632598877, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 2.62}
{'loss': 0.693, 'learning_rate': 8.251373149115294e-07, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759895086288452, 'eval_runtime': 0.9648, 'eval_samples_per_second': 5.182, 'eval_steps_per_second': 1.036, 'epoch': 2.62}
{'loss': 0.6581, 'learning_rate': 8.185673729744703e-07, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675927758216858, 'eval_runtime': 1.0577, 'eval_samples_per_second': 4.727, 'eval_steps_per_second': 0.945, 'epoch': 2.62}
{'loss': 0.9205, 'learning_rate': 8.12022575053597e-07, 'epoch': 2.62}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757214069366455, 'eval_runtime': 0.9793, 'eval_samples_per_second': 5.106, 'eval_steps_per_second': 1.021, 'epoch': 2.62}
{'loss': 0.7716, 'learning_rate': 8.055029390723135e-07, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6753885746002197, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 2.63}
{'loss': 0.7226, 'learning_rate': 7.990084828851108e-07, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6750961542129517, 'eval_runtime': 0.9684, 'eval_samples_per_second': 5.163, 'eval_steps_per_second': 1.033, 'epoch': 2.63}
{'loss': 0.8454, 'learning_rate': 7.925392242775287e-07, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6749556064605713, 'eval_runtime': 1.0379, 'eval_samples_per_second': 4.818, 'eval_steps_per_second': 0.964, 'epoch': 2.63}
{'loss': 0.5329, 'learning_rate': 7.860951809660989e-07, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675270676612854, 'eval_runtime': 0.9721, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 2.63}
{'loss': 0.7148, 'learning_rate': 7.796763705982946e-07, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675628423690796, 'eval_runtime': 1.0003, 'eval_samples_per_second': 4.998, 'eval_steps_per_second': 1.0, 'epoch': 2.63}
{'loss': 0.6784, 'learning_rate': 7.73282810752497e-07, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757090091705322, 'eval_runtime': 0.9968, 'eval_samples_per_second': 5.016, 'eval_steps_per_second': 1.003, 'epoch': 2.63}
{'loss': 0.8671, 'learning_rate': 7.66914518937929e-07, 'epoch': 2.63}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675711989402771, 'eval_runtime': 0.9397, 'eval_samples_per_second': 5.321, 'eval_steps_per_second': 1.064, 'epoch': 2.63}
{'loss': 0.7423, 'learning_rate': 7.605715125946178e-07, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759980916976929, 'eval_runtime': 0.9802, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 2.64}
{'loss': 0.7123, 'learning_rate': 7.54253809093346e-07, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762176752090454, 'eval_runtime': 0.9509, 'eval_samples_per_second': 5.258, 'eval_steps_per_second': 1.052, 'epoch': 2.64}
{'loss': 0.3623, 'learning_rate': 7.479614257355972e-07, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763379573822021, 'eval_runtime': 0.9502, 'eval_samples_per_second': 5.262, 'eval_steps_per_second': 1.052, 'epoch': 2.64}
{'loss': 0.6313, 'learning_rate': 7.416943797535214e-07, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676356554031372, 'eval_runtime': 0.9799, 'eval_samples_per_second': 5.103, 'eval_steps_per_second': 1.021, 'epoch': 2.64}
{'loss': 0.6548, 'learning_rate': 7.354526883098711e-07, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6760059595108032, 'eval_runtime': 1.0192, 'eval_samples_per_second': 4.906, 'eval_steps_per_second': 0.981, 'epoch': 2.64}
{'loss': 0.7922, 'learning_rate': 7.292363684979775e-07, 'epoch': 2.64}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6755234003067017, 'eval_runtime': 0.9774, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 2.64}
{'loss': 0.7396, 'learning_rate': 7.23045437341674e-07, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6751705408096313, 'eval_runtime': 1.0558, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 2.65}
{'loss': 0.6146, 'learning_rate': 7.168799117952729e-07, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675005555152893, 'eval_runtime': 1.0536, 'eval_samples_per_second': 4.746, 'eval_steps_per_second': 0.949, 'epoch': 2.65}
{'loss': 0.8317, 'learning_rate': 7.107398087435158e-07, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6749941110610962, 'eval_runtime': 0.9412, 'eval_samples_per_second': 5.312, 'eval_steps_per_second': 1.062, 'epoch': 2.65}
{'loss': 0.7447, 'learning_rate': 7.04625145001513e-07, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6750560998916626, 'eval_runtime': 1.0499, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 2.65}
{'loss': 0.7759, 'learning_rate': 6.985359373147183e-07, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6751048564910889, 'eval_runtime': 1.0201, 'eval_samples_per_second': 4.902, 'eval_steps_per_second': 0.98, 'epoch': 2.65}
{'loss': 0.8426, 'learning_rate': 6.924722023588626e-07, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6750339269638062, 'eval_runtime': 1.0113, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 2.65}
{'loss': 1.0304, 'learning_rate': 6.864339567399225e-07, 'epoch': 2.65}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6747925281524658, 'eval_runtime': 0.9517, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 2.65}
{'loss': 0.6877, 'learning_rate': 6.804212169940694e-07, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674293875694275, 'eval_runtime': 0.9851, 'eval_samples_per_second': 5.075, 'eval_steps_per_second': 1.015, 'epoch': 2.66}
{'loss': 1.0795, 'learning_rate': 6.744339995876259e-07, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6736587285995483, 'eval_runtime': 1.0489, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 2.66}
{'loss': 0.8003, 'learning_rate': 6.684723209170197e-07, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.672926664352417, 'eval_runtime': 0.9846, 'eval_samples_per_second': 5.078, 'eval_steps_per_second': 1.016, 'epoch': 2.66}
{'loss': 0.6115, 'learning_rate': 6.625361973087363e-07, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6726763248443604, 'eval_runtime': 0.9435, 'eval_samples_per_second': 5.299, 'eval_steps_per_second': 1.06, 'epoch': 2.66}
{'loss': 0.3758, 'learning_rate': 6.56625645019281e-07, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6724226474761963, 'eval_runtime': 0.9478, 'eval_samples_per_second': 5.275, 'eval_steps_per_second': 1.055, 'epoch': 2.66}
{'loss': 0.779, 'learning_rate': 6.507406802351269e-07, 'epoch': 2.66}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6720174551010132, 'eval_runtime': 0.9425, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 2.66}
{'loss': 0.6882, 'learning_rate': 6.448813190726777e-07, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.671924352645874, 'eval_runtime': 0.9877, 'eval_samples_per_second': 5.062, 'eval_steps_per_second': 1.012, 'epoch': 2.67}
{'loss': 0.6113, 'learning_rate': 6.390475775782101e-07, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6720167398452759, 'eval_runtime': 0.983, 'eval_samples_per_second': 5.086, 'eval_steps_per_second': 1.017, 'epoch': 2.67}
{'loss': 0.6946, 'learning_rate': 6.332394717278534e-07, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6720107793807983, 'eval_runtime': 0.9421, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.67}
{'loss': 0.7764, 'learning_rate': 6.274570174275218e-07, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6720530986785889, 'eval_runtime': 0.9773, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 2.67}
{'loss': 0.6453, 'learning_rate': 6.21700230512885e-07, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6720302104949951, 'eval_runtime': 1.0464, 'eval_samples_per_second': 4.778, 'eval_steps_per_second': 0.956, 'epoch': 2.67}
{'loss': 0.6455, 'learning_rate': 6.159691267493206e-07, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.671990156173706, 'eval_runtime': 0.9578, 'eval_samples_per_second': 5.22, 'eval_steps_per_second': 1.044, 'epoch': 2.67}
{'loss': 0.6905, 'learning_rate': 6.102637218318641e-07, 'epoch': 2.67}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6720192432403564, 'eval_runtime': 0.9525, 'eval_samples_per_second': 5.249, 'eval_steps_per_second': 1.05, 'epoch': 2.67}
{'loss': 0.758, 'learning_rate': 6.045840313851881e-07, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.672254204750061, 'eval_runtime': 1.052, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.68}
{'loss': 0.7676, 'learning_rate': 5.989300709635259e-07, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6725847721099854, 'eval_runtime': 0.9574, 'eval_samples_per_second': 5.222, 'eval_steps_per_second': 1.044, 'epoch': 2.68}
{'loss': 0.8422, 'learning_rate': 5.933018560506643e-07, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6727807521820068, 'eval_runtime': 0.9722, 'eval_samples_per_second': 5.143, 'eval_steps_per_second': 1.029, 'epoch': 2.68}
{'loss': 0.5601, 'learning_rate': 5.876994020598704e-07, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.672925353050232, 'eval_runtime': 0.963, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 2.68}
{'loss': 0.8085, 'learning_rate': 5.821227243338712e-07, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6730636358261108, 'eval_runtime': 0.9512, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 2.68}
{'loss': 0.6735, 'learning_rate': 5.765718381448016e-07, 'epoch': 2.68}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6732561588287354, 'eval_runtime': 0.9638, 'eval_samples_per_second': 5.188, 'eval_steps_per_second': 1.038, 'epoch': 2.68}
{'loss': 1.0615, 'learning_rate': 5.710467586941615e-07, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6735179424285889, 'eval_runtime': 0.9562, 'eval_samples_per_second': 5.229, 'eval_steps_per_second': 1.046, 'epoch': 2.69}
{'loss': 0.7053, 'learning_rate': 5.655475011127854e-07, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6735608577728271, 'eval_runtime': 0.9538, 'eval_samples_per_second': 5.242, 'eval_steps_per_second': 1.048, 'epoch': 2.69}
{'loss': 0.7589, 'learning_rate': 5.600740804607829e-07, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6735460758209229, 'eval_runtime': 0.9534, 'eval_samples_per_second': 5.244, 'eval_steps_per_second': 1.049, 'epoch': 2.69}
{'loss': 0.7744, 'learning_rate': 5.546265117275129e-07, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.673499345779419, 'eval_runtime': 1.0595, 'eval_samples_per_second': 4.719, 'eval_steps_per_second': 0.944, 'epoch': 2.69}
{'loss': 0.7439, 'learning_rate': 5.49204809831535e-07, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6734836101531982, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.69}
{'loss': 0.7183, 'learning_rate': 5.438089896205734e-07, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6736313104629517, 'eval_runtime': 0.9704, 'eval_samples_per_second': 5.153, 'eval_steps_per_second': 1.031, 'epoch': 2.69}
{'loss': 0.7575, 'learning_rate': 5.384390658714688e-07, 'epoch': 2.69}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6737083196640015, 'eval_runtime': 1.0475, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.69}
{'loss': 0.8751, 'learning_rate': 5.330950532901458e-07, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6737638711929321, 'eval_runtime': 1.0032, 'eval_samples_per_second': 4.984, 'eval_steps_per_second': 0.997, 'epoch': 2.7}
{'loss': 0.8761, 'learning_rate': 5.277769665115695e-07, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6737391948699951, 'eval_runtime': 0.9778, 'eval_samples_per_second': 5.113, 'eval_steps_per_second': 1.023, 'epoch': 2.7}
{'loss': 0.6595, 'learning_rate': 5.224848200997045e-07, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6738113164901733, 'eval_runtime': 0.9394, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 2.7}
{'loss': 0.7669, 'learning_rate': 5.172186285474756e-07, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6739345788955688, 'eval_runtime': 0.9552, 'eval_samples_per_second': 5.234, 'eval_steps_per_second': 1.047, 'epoch': 2.7}
{'loss': 0.7579, 'learning_rate': 5.119784062767286e-07, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6742092370986938, 'eval_runtime': 1.0526, 'eval_samples_per_second': 4.75, 'eval_steps_per_second': 0.95, 'epoch': 2.7}
{'loss': 0.8214, 'learning_rate': 5.067641676381918e-07, 'epoch': 2.7}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674410104751587, 'eval_runtime': 0.9731, 'eval_samples_per_second': 5.138, 'eval_steps_per_second': 1.028, 'epoch': 2.7}
{'loss': 0.5436, 'learning_rate': 5.015759269114295e-07, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6742818355560303, 'eval_runtime': 0.942, 'eval_samples_per_second': 5.308, 'eval_steps_per_second': 1.062, 'epoch': 2.71}
{'loss': 0.7432, 'learning_rate': 4.964136983048184e-07, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6743091344833374, 'eval_runtime': 1.0066, 'eval_samples_per_second': 4.967, 'eval_steps_per_second': 0.993, 'epoch': 2.71}
{'loss': 0.7605, 'learning_rate': 4.912774959554934e-07, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6743873357772827, 'eval_runtime': 1.0539, 'eval_samples_per_second': 4.744, 'eval_steps_per_second': 0.949, 'epoch': 2.71}
{'loss': 0.5885, 'learning_rate': 4.861673339293149e-07, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6745872497558594, 'eval_runtime': 0.992, 'eval_samples_per_second': 5.04, 'eval_steps_per_second': 1.008, 'epoch': 2.71}
{'loss': 0.7735, 'learning_rate': 4.81083226220832e-07, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674487829208374, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 2.71}
{'loss': 0.8548, 'learning_rate': 4.760251867532362e-07, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6743943691253662, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 2.71}
{'loss': 0.7799, 'learning_rate': 4.7099322937833925e-07, 'epoch': 2.71}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6742994785308838, 'eval_runtime': 1.0018, 'eval_samples_per_second': 4.991, 'eval_steps_per_second': 0.998, 'epoch': 2.71}
{'loss': 0.9184, 'learning_rate': 4.6598736787651587e-07, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6741933822631836, 'eval_runtime': 0.9547, 'eval_samples_per_second': 5.237, 'eval_steps_per_second': 1.047, 'epoch': 2.72}
{'loss': 0.6878, 'learning_rate': 4.610076159566823e-07, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6738922595977783, 'eval_runtime': 1.0422, 'eval_samples_per_second': 4.798, 'eval_steps_per_second': 0.96, 'epoch': 2.72}
{'loss': 0.6982, 'learning_rate': 4.560539872562464e-07, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6737123727798462, 'eval_runtime': 1.0468, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 2.72}
{'loss': 0.6623, 'learning_rate': 4.5112649534107876e-07, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6734800338745117, 'eval_runtime': 0.9407, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 2.72}
{'loss': 0.7643, 'learning_rate': 4.462251537054718e-07, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6732933521270752, 'eval_runtime': 0.9774, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 2.72}
{'loss': 0.7325, 'learning_rate': 4.413499757721029e-07, 'epoch': 2.72}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6732046604156494, 'eval_runtime': 1.0252, 'eval_samples_per_second': 4.877, 'eval_steps_per_second': 0.975, 'epoch': 2.72}
{'loss': 0.5583, 'learning_rate': 4.3650097489200125e-07, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6732747554779053, 'eval_runtime': 1.0574, 'eval_samples_per_second': 4.729, 'eval_steps_per_second': 0.946, 'epoch': 2.73}
{'loss': 0.7419, 'learning_rate': 4.3167816434450336e-07, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6735260486602783, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 2.73}
{'loss': 0.9938, 'learning_rate': 4.2688155733722426e-07, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6738033294677734, 'eval_runtime': 1.0304, 'eval_samples_per_second': 4.852, 'eval_steps_per_second': 0.97, 'epoch': 2.73}
{'loss': 0.9546, 'learning_rate': 4.221111670060196e-07, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6739263534545898, 'eval_runtime': 0.9434, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 2.73}
{'loss': 0.8167, 'learning_rate': 4.173670064149482e-07, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.673996925354004, 'eval_runtime': 0.9827, 'eval_samples_per_second': 5.088, 'eval_steps_per_second': 1.018, 'epoch': 2.73}
{'loss': 0.6395, 'learning_rate': 4.12649088556234e-07, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.673921823501587, 'eval_runtime': 1.0275, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 2.73}
{'loss': 0.5962, 'learning_rate': 4.0795742635023837e-07, 'epoch': 2.73}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6739228963851929, 'eval_runtime': 1.0613, 'eval_samples_per_second': 4.711, 'eval_steps_per_second': 0.942, 'epoch': 2.73}
{'loss': 0.4329, 'learning_rate': 4.0329203264541594e-07, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6739556789398193, 'eval_runtime': 0.9753, 'eval_samples_per_second': 5.127, 'eval_steps_per_second': 1.025, 'epoch': 2.74}
{'loss': 0.5711, 'learning_rate': 3.986529202182832e-07, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6741936206817627, 'eval_runtime': 0.9395, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 2.74}
{'loss': 0.8848, 'learning_rate': 3.9404010177338634e-07, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6744434833526611, 'eval_runtime': 0.9923, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 2.74}
{'loss': 0.9818, 'learning_rate': 3.8945358994326053e-07, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6745126247406006, 'eval_runtime': 1.0517, 'eval_samples_per_second': 4.754, 'eval_steps_per_second': 0.951, 'epoch': 2.74}
{'loss': 0.6474, 'learning_rate': 3.848933972884017e-07, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6744788885116577, 'eval_runtime': 1.019, 'eval_samples_per_second': 4.907, 'eval_steps_per_second': 0.981, 'epoch': 2.74}
{'loss': 0.765, 'learning_rate': 3.8035953629722234e-07, 'epoch': 2.74}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6745694875717163, 'eval_runtime': 1.0585, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 2.74}
{'loss': 0.715, 'learning_rate': 3.7585201938603155e-07, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6746914386749268, 'eval_runtime': 0.9631, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 2.75}
{'loss': 0.5774, 'learning_rate': 3.713708588989895e-07, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674809217453003, 'eval_runtime': 0.9473, 'eval_samples_per_second': 5.278, 'eval_steps_per_second': 1.056, 'epoch': 2.75}
{'loss': 0.6014, 'learning_rate': 3.6691606710807625e-07, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6748164892196655, 'eval_runtime': 0.9677, 'eval_samples_per_second': 5.167, 'eval_steps_per_second': 1.033, 'epoch': 2.75}
{'loss': 0.7071, 'learning_rate': 3.6248765621306413e-07, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6748241186141968, 'eval_runtime': 0.9781, 'eval_samples_per_second': 5.112, 'eval_steps_per_second': 1.022, 'epoch': 2.75}
{'loss': 0.6691, 'learning_rate': 3.58085638341471e-07, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6747745275497437, 'eval_runtime': 0.9715, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 2.75}
{'loss': 0.6517, 'learning_rate': 3.5371002554854594e-07, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674773931503296, 'eval_runtime': 1.0053, 'eval_samples_per_second': 4.974, 'eval_steps_per_second': 0.995, 'epoch': 2.75}
{'loss': 0.7791, 'learning_rate': 3.493608298172146e-07, 'epoch': 2.75}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6746618747711182, 'eval_runtime': 0.9837, 'eval_samples_per_second': 5.083, 'eval_steps_per_second': 1.017, 'epoch': 2.75}
{'loss': 0.6498, 'learning_rate': 3.4503806305807076e-07, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674660325050354, 'eval_runtime': 1.0334, 'eval_samples_per_second': 4.838, 'eval_steps_per_second': 0.968, 'epoch': 2.76}
{'loss': 0.8446, 'learning_rate': 3.4074173710931804e-07, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674765944480896, 'eval_runtime': 0.9406, 'eval_samples_per_second': 5.316, 'eval_steps_per_second': 1.063, 'epoch': 2.76}
{'loss': 0.6252, 'learning_rate': 3.364718637367548e-07, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6748298406600952, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 2.76}
{'loss': 0.9649, 'learning_rate': 3.3222845463374286e-07, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6748037338256836, 'eval_runtime': 1.0599, 'eval_samples_per_second': 4.718, 'eval_steps_per_second': 0.944, 'epoch': 2.76}
{'loss': 0.7222, 'learning_rate': 3.2801152142115764e-07, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6747677326202393, 'eval_runtime': 0.9578, 'eval_samples_per_second': 5.22, 'eval_steps_per_second': 1.044, 'epoch': 2.76}
{'loss': 0.7447, 'learning_rate': 3.238210756473825e-07, 'epoch': 2.76}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6747453212738037, 'eval_runtime': 1.0455, 'eval_samples_per_second': 4.782, 'eval_steps_per_second': 0.956, 'epoch': 2.76}
{'loss': 0.6426, 'learning_rate': 3.1965712878824886e-07, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.674913763999939, 'eval_runtime': 0.9499, 'eval_samples_per_second': 5.264, 'eval_steps_per_second': 1.053, 'epoch': 2.77}
{'loss': 0.6925, 'learning_rate': 3.155196922470305e-07, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6751368045806885, 'eval_runtime': 1.0262, 'eval_samples_per_second': 4.872, 'eval_steps_per_second': 0.974, 'epoch': 2.77}
{'loss': 0.7286, 'learning_rate': 3.114087773543939e-07, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6753242015838623, 'eval_runtime': 1.0584, 'eval_samples_per_second': 4.724, 'eval_steps_per_second': 0.945, 'epoch': 2.77}
{'loss': 0.6577, 'learning_rate': 3.073243953683769e-07, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6755053997039795, 'eval_runtime': 0.9448, 'eval_samples_per_second': 5.292, 'eval_steps_per_second': 1.058, 'epoch': 2.77}
{'loss': 0.8896, 'learning_rate': 3.0326655747435427e-07, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6756454706192017, 'eval_runtime': 0.9901, 'eval_samples_per_second': 5.05, 'eval_steps_per_second': 1.01, 'epoch': 2.77}
{'loss': 0.7067, 'learning_rate': 2.9923527478500915e-07, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6757644414901733, 'eval_runtime': 0.9733, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 2.77}
{'loss': 0.9181, 'learning_rate': 2.952305583402981e-07, 'epoch': 2.77}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6758320331573486, 'eval_runtime': 0.9541, 'eval_samples_per_second': 5.241, 'eval_steps_per_second': 1.048, 'epoch': 2.77}
{'loss': 1.0265, 'learning_rate': 2.912524191074295e-07, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6758559942245483, 'eval_runtime': 0.9888, 'eval_samples_per_second': 5.057, 'eval_steps_per_second': 1.011, 'epoch': 2.78}
{'loss': 0.7354, 'learning_rate': 2.87300867980822e-07, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.675859808921814, 'eval_runtime': 1.0294, 'eval_samples_per_second': 4.857, 'eval_steps_per_second': 0.971, 'epoch': 2.78}
{'loss': 0.8608, 'learning_rate': 2.8337591578208367e-07, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6758873462677002, 'eval_runtime': 0.977, 'eval_samples_per_second': 5.118, 'eval_steps_per_second': 1.024, 'epoch': 2.78}
{'loss': 0.6424, 'learning_rate': 2.7947757325998305e-07, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759074926376343, 'eval_runtime': 0.9537, 'eval_samples_per_second': 5.243, 'eval_steps_per_second': 1.049, 'epoch': 2.78}
{'loss': 1.0813, 'learning_rate': 2.7560585109040695e-07, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6758724451065063, 'eval_runtime': 1.0478, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 2.78}
{'loss': 0.7286, 'learning_rate': 2.7176075987635055e-07, 'epoch': 2.78}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759283542633057, 'eval_runtime': 0.9555, 'eval_samples_per_second': 5.233, 'eval_steps_per_second': 1.047, 'epoch': 2.78}
{'loss': 0.5167, 'learning_rate': 2.6794231014787397e-07, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6760642528533936, 'eval_runtime': 1.0528, 'eval_samples_per_second': 4.749, 'eval_steps_per_second': 0.95, 'epoch': 2.79}
{'loss': 0.8966, 'learning_rate': 2.6415051236207355e-07, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676129937171936, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 2.79}
{'loss': 0.4616, 'learning_rate': 2.603853769030662e-07, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762402057647705, 'eval_runtime': 0.9501, 'eval_samples_per_second': 5.263, 'eval_steps_per_second': 1.053, 'epoch': 2.79}
{'loss': 0.6768, 'learning_rate': 2.5664691408194164e-07, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763931512832642, 'eval_runtime': 1.0025, 'eval_samples_per_second': 4.987, 'eval_steps_per_second': 0.997, 'epoch': 2.79}
{'loss': 0.6398, 'learning_rate': 2.5293513413675587e-07, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764659881591797, 'eval_runtime': 0.9905, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 2.79}
{'loss': 0.6189, 'learning_rate': 2.492500472324832e-07, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676518201828003, 'eval_runtime': 0.941, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 2.79}
{'loss': 0.6837, 'learning_rate': 2.45591663461e-07, 'epoch': 2.79}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676478385925293, 'eval_runtime': 0.9463, 'eval_samples_per_second': 5.284, 'eval_steps_per_second': 1.057, 'epoch': 2.79}
{'loss': 0.6103, 'learning_rate': 2.4195999284105544e-07, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764240264892578, 'eval_runtime': 1.0459, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 2.8}
{'loss': 0.9313, 'learning_rate': 2.383550453182404e-07, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763756275177002, 'eval_runtime': 1.0479, 'eval_samples_per_second': 4.772, 'eval_steps_per_second': 0.954, 'epoch': 2.8}
{'loss': 0.7148, 'learning_rate': 2.347768307649667e-07, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762882471084595, 'eval_runtime': 1.0091, 'eval_samples_per_second': 4.955, 'eval_steps_per_second': 0.991, 'epoch': 2.8}
{'loss': 0.8359, 'learning_rate': 2.312253589804314e-07, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.67621648311615, 'eval_runtime': 0.9451, 'eval_samples_per_second': 5.29, 'eval_steps_per_second': 1.058, 'epoch': 2.8}
{'loss': 0.6403, 'learning_rate': 2.2770063969059565e-07, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761242151260376, 'eval_runtime': 1.0176, 'eval_samples_per_second': 4.913, 'eval_steps_per_second': 0.983, 'epoch': 2.8}
{'loss': 0.7943, 'learning_rate': 2.2420268254815914e-07, 'epoch': 2.8}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6760631799697876, 'eval_runtime': 0.9456, 'eval_samples_per_second': 5.288, 'eval_steps_per_second': 1.058, 'epoch': 2.8}
{'loss': 0.6299, 'learning_rate': 2.2073149713252918e-07, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6760523319244385, 'eval_runtime': 1.0329, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 2.81}
{'loss': 0.7677, 'learning_rate': 2.1728709294979834e-07, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761014461517334, 'eval_runtime': 0.9516, 'eval_samples_per_second': 5.254, 'eval_steps_per_second': 1.051, 'epoch': 2.81}
{'loss': 0.5996, 'learning_rate': 2.1386947943271563e-07, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761739253997803, 'eval_runtime': 1.055, 'eval_samples_per_second': 4.739, 'eval_steps_per_second': 0.948, 'epoch': 2.81}
{'loss': 0.5735, 'learning_rate': 2.1047866594066325e-07, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676221251487732, 'eval_runtime': 0.963, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 2.81}
{'loss': 0.8166, 'learning_rate': 2.071146617596276e-07, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676213026046753, 'eval_runtime': 1.0235, 'eval_samples_per_second': 4.885, 'eval_steps_per_second': 0.977, 'epoch': 2.81}
{'loss': 0.7322, 'learning_rate': 2.0377747610217713e-07, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761181354522705, 'eval_runtime': 0.9515, 'eval_samples_per_second': 5.255, 'eval_steps_per_second': 1.051, 'epoch': 2.81}
{'loss': 0.7721, 'learning_rate': 2.0046711810743691e-07, 'epoch': 2.81}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6760237216949463, 'eval_runtime': 1.0275, 'eval_samples_per_second': 4.866, 'eval_steps_per_second': 0.973, 'epoch': 2.81}
{'loss': 0.6728, 'learning_rate': 1.971835968410618e-07, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759979724884033, 'eval_runtime': 0.9784, 'eval_samples_per_second': 5.111, 'eval_steps_per_second': 1.022, 'epoch': 2.82}
{'loss': 0.7517, 'learning_rate': 1.9392692129520884e-07, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759744882583618, 'eval_runtime': 1.0024, 'eval_samples_per_second': 4.988, 'eval_steps_per_second': 0.998, 'epoch': 2.82}
{'loss': 0.8566, 'learning_rate': 1.9069710038852162e-07, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759757995605469, 'eval_runtime': 0.9404, 'eval_samples_per_second': 5.317, 'eval_steps_per_second': 1.063, 'epoch': 2.82}
{'loss': 0.6489, 'learning_rate': 1.8749414296609702e-07, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6759837865829468, 'eval_runtime': 0.9918, 'eval_samples_per_second': 5.042, 'eval_steps_per_second': 1.008, 'epoch': 2.82}
{'loss': 0.7162, 'learning_rate': 1.843180577994652e-07, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6760990619659424, 'eval_runtime': 0.9437, 'eval_samples_per_second': 5.298, 'eval_steps_per_second': 1.06, 'epoch': 2.82}
{'loss': 0.7729, 'learning_rate': 1.8116885358656743e-07, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6761783361434937, 'eval_runtime': 0.9734, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 2.82}
{'loss': 0.5102, 'learning_rate': 1.7804653895172164e-07, 'epoch': 2.82}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6762588024139404, 'eval_runtime': 0.9773, 'eval_samples_per_second': 5.116, 'eval_steps_per_second': 1.023, 'epoch': 2.82}
{'loss': 0.7432, 'learning_rate': 1.7495112244561573e-07, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763207912445068, 'eval_runtime': 1.0524, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 2.83}
{'loss': 0.6427, 'learning_rate': 1.7188261254526994e-07, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763862371444702, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 2.83}
{'loss': 0.7067, 'learning_rate': 1.6884101765402117e-07, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764438152313232, 'eval_runtime': 0.9562, 'eval_samples_per_second': 5.229, 'eval_steps_per_second': 1.046, 'epoch': 2.83}
{'loss': 0.5752, 'learning_rate': 1.6582634610149528e-07, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764934062957764, 'eval_runtime': 0.9488, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 2.83}
{'loss': 0.3957, 'learning_rate': 1.6283860614358936e-07, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765697002410889, 'eval_runtime': 1.0521, 'eval_samples_per_second': 4.753, 'eval_steps_per_second': 0.951, 'epoch': 2.83}
{'loss': 0.579, 'learning_rate': 1.5987780596244394e-07, 'epoch': 2.83}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767257452011108, 'eval_runtime': 0.9427, 'eval_samples_per_second': 5.304, 'eval_steps_per_second': 1.061, 'epoch': 2.83}
{'loss': 0.8609, 'learning_rate': 1.5694395366642413e-07, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6768028736114502, 'eval_runtime': 0.9512, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 2.84}
{'loss': 0.9764, 'learning_rate': 1.5403705729009734e-07, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767091751098633, 'eval_runtime': 0.9712, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 2.84}
{'loss': 0.8716, 'learning_rate': 1.5115712479420785e-07, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766293048858643, 'eval_runtime': 0.9805, 'eval_samples_per_second': 5.1, 'eval_steps_per_second': 1.02, 'epoch': 2.84}
{'loss': 0.7355, 'learning_rate': 1.4830416406566018e-07, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765267848968506, 'eval_runtime': 0.9836, 'eval_samples_per_second': 5.083, 'eval_steps_per_second': 1.017, 'epoch': 2.84}
{'loss': 0.5307, 'learning_rate': 1.4547818291749116e-07, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676466941833496, 'eval_runtime': 1.0513, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 2.84}
{'loss': 0.8214, 'learning_rate': 1.426791890888568e-07, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764719486236572, 'eval_runtime': 1.0557, 'eval_samples_per_second': 4.736, 'eval_steps_per_second': 0.947, 'epoch': 2.84}
{'loss': 0.7408, 'learning_rate': 1.399071902450022e-07, 'epoch': 2.84}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764767169952393, 'eval_runtime': 0.9359, 'eval_samples_per_second': 5.342, 'eval_steps_per_second': 1.068, 'epoch': 2.84}
{'loss': 0.5727, 'learning_rate': 1.3716219397724606e-07, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764882802963257, 'eval_runtime': 0.9446, 'eval_samples_per_second': 5.293, 'eval_steps_per_second': 1.059, 'epoch': 2.85}
{'loss': 0.7299, 'learning_rate': 1.3444420780296062e-07, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765056848526, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 2.85}
{'loss': 0.6389, 'learning_rate': 1.3175323916554517e-07, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765514612197876, 'eval_runtime': 0.9379, 'eval_samples_per_second': 5.331, 'eval_steps_per_second': 1.066, 'epoch': 2.85}
{'loss': 0.857, 'learning_rate': 1.290892954344125e-07, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676557183265686, 'eval_runtime': 1.0257, 'eval_samples_per_second': 4.875, 'eval_steps_per_second': 0.975, 'epoch': 2.85}
{'loss': 0.6987, 'learning_rate': 1.2645238390496583e-07, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676543951034546, 'eval_runtime': 0.9859, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 2.85}
{'loss': 0.7499, 'learning_rate': 1.2384251179857642e-07, 'epoch': 2.85}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676510214805603, 'eval_runtime': 0.9759, 'eval_samples_per_second': 5.124, 'eval_steps_per_second': 1.025, 'epoch': 2.85}
{'loss': 0.6969, 'learning_rate': 1.2125968626256702e-07, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764895915985107, 'eval_runtime': 0.9686, 'eval_samples_per_second': 5.162, 'eval_steps_per_second': 1.032, 'epoch': 2.86}
{'loss': 0.5966, 'learning_rate': 1.1870391437019402e-07, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764724254608154, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 2.86}
{'loss': 0.8788, 'learning_rate': 1.1617520312062203e-07, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764551401138306, 'eval_runtime': 1.0274, 'eval_samples_per_second': 4.867, 'eval_steps_per_second': 0.973, 'epoch': 2.86}
{'loss': 0.5972, 'learning_rate': 1.1367355943890823e-07, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764109134674072, 'eval_runtime': 0.9505, 'eval_samples_per_second': 5.26, 'eval_steps_per_second': 1.052, 'epoch': 2.86}
{'loss': 0.6164, 'learning_rate': 1.1119899017598801e-07, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676383376121521, 'eval_runtime': 1.0474, 'eval_samples_per_second': 4.774, 'eval_steps_per_second': 0.955, 'epoch': 2.86}
{'loss': 0.6122, 'learning_rate': 1.0875150210864271e-07, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6763757467269897, 'eval_runtime': 0.9907, 'eval_samples_per_second': 5.047, 'eval_steps_per_second': 1.009, 'epoch': 2.86}
{'loss': 0.8086, 'learning_rate': 1.063311019395008e-07, 'epoch': 2.86}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676391839981079, 'eval_runtime': 0.9966, 'eval_samples_per_second': 5.017, 'eval_steps_per_second': 1.003, 'epoch': 2.86}
{'loss': 0.7525, 'learning_rate': 1.0393779629699785e-07, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764068603515625, 'eval_runtime': 1.0492, 'eval_samples_per_second': 4.765, 'eval_steps_per_second': 0.953, 'epoch': 2.87}
{'loss': 0.5143, 'learning_rate': 1.0157159173537768e-07, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764400005340576, 'eval_runtime': 0.9426, 'eval_samples_per_second': 5.305, 'eval_steps_per_second': 1.061, 'epoch': 2.87}
{'loss': 1.0826, 'learning_rate': 9.923249473466012e-08, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676448106765747, 'eval_runtime': 0.9424, 'eval_samples_per_second': 5.306, 'eval_steps_per_second': 1.061, 'epoch': 2.87}
{'loss': 0.7816, 'learning_rate': 9.692051170063332e-08, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764358282089233, 'eval_runtime': 0.9716, 'eval_samples_per_second': 5.146, 'eval_steps_per_second': 1.029, 'epoch': 2.87}
{'loss': 0.7916, 'learning_rate': 9.463564896482813e-08, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764192581176758, 'eval_runtime': 1.0248, 'eval_samples_per_second': 4.879, 'eval_steps_per_second': 0.976, 'epoch': 2.87}
{'loss': 0.762, 'learning_rate': 9.237791278450592e-08, 'epoch': 2.87}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676434874534607, 'eval_runtime': 0.9949, 'eval_samples_per_second': 5.026, 'eval_steps_per_second': 1.005, 'epoch': 2.87}
{'loss': 0.5658, 'learning_rate': 9.014730934264193e-08, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676459550857544, 'eval_runtime': 0.9855, 'eval_samples_per_second': 5.073, 'eval_steps_per_second': 1.015, 'epoch': 2.88}
{'loss': 0.6545, 'learning_rate': 8.794384474790308e-08, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6764781475067139, 'eval_runtime': 0.9445, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 2.88}
{'loss': 0.7421, 'learning_rate': 8.576752503463681e-08, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765010356903076, 'eval_runtime': 0.986, 'eval_samples_per_second': 5.071, 'eval_steps_per_second': 1.014, 'epoch': 2.88}
{'loss': 0.7954, 'learning_rate': 8.36183561628523e-08, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765365600585938, 'eval_runtime': 0.9952, 'eval_samples_per_second': 5.024, 'eval_steps_per_second': 1.005, 'epoch': 2.88}
{'loss': 0.7273, 'learning_rate': 8.149634401820373e-08, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6765782833099365, 'eval_runtime': 0.9394, 'eval_samples_per_second': 5.322, 'eval_steps_per_second': 1.064, 'epoch': 2.88}
{'loss': 0.4783, 'learning_rate': 7.940149441197364e-08, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766331195831299, 'eval_runtime': 0.9496, 'eval_samples_per_second': 5.265, 'eval_steps_per_second': 1.053, 'epoch': 2.88}
{'loss': 0.8065, 'learning_rate': 7.73338130810597e-08, 'epoch': 2.88}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676660180091858, 'eval_runtime': 1.0379, 'eval_samples_per_second': 4.818, 'eval_steps_per_second': 0.964, 'epoch': 2.88}
{'loss': 0.4816, 'learning_rate': 7.529330568795568e-08, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676685094833374, 'eval_runtime': 1.0113, 'eval_samples_per_second': 4.944, 'eval_steps_per_second': 0.989, 'epoch': 2.89}
{'loss': 0.8263, 'learning_rate': 7.327997782073936e-08, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767160892486572, 'eval_runtime': 0.9445, 'eval_samples_per_second': 5.294, 'eval_steps_per_second': 1.059, 'epoch': 2.89}
{'loss': 0.7868, 'learning_rate': 7.129383499305364e-08, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676736831665039, 'eval_runtime': 0.9408, 'eval_samples_per_second': 5.315, 'eval_steps_per_second': 1.063, 'epoch': 2.89}
{'loss': 0.7756, 'learning_rate': 6.933488264409538e-08, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767184734344482, 'eval_runtime': 1.0583, 'eval_samples_per_second': 4.725, 'eval_steps_per_second': 0.945, 'epoch': 2.89}
{'loss': 0.5954, 'learning_rate': 6.740312613859545e-08, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767181158065796, 'eval_runtime': 0.9922, 'eval_samples_per_second': 5.039, 'eval_steps_per_second': 1.008, 'epoch': 2.89}
{'loss': 0.6336, 'learning_rate': 6.549857076680987e-08, 'epoch': 2.89}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766917705535889, 'eval_runtime': 0.9403, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 2.89}
{'loss': 0.427, 'learning_rate': 6.36212217444998e-08, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767009496688843, 'eval_runtime': 0.9513, 'eval_samples_per_second': 5.256, 'eval_steps_per_second': 1.051, 'epoch': 2.9}
{'loss': 0.8388, 'learning_rate': 6.177108421292266e-08, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767282485961914, 'eval_runtime': 1.0556, 'eval_samples_per_second': 4.737, 'eval_steps_per_second': 0.947, 'epoch': 2.9}
{'loss': 0.9299, 'learning_rate': 5.994816323881102e-08, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767537593841553, 'eval_runtime': 1.0575, 'eval_samples_per_second': 4.728, 'eval_steps_per_second': 0.946, 'epoch': 2.9}
{'loss': 0.7658, 'learning_rate': 5.815246381436934e-08, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767489910125732, 'eval_runtime': 0.9632, 'eval_samples_per_second': 5.191, 'eval_steps_per_second': 1.038, 'epoch': 2.9}
{'loss': 0.7664, 'learning_rate': 5.638399085724611e-08, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767473220825195, 'eval_runtime': 0.9409, 'eval_samples_per_second': 5.314, 'eval_steps_per_second': 1.063, 'epoch': 2.9}
{'loss': 0.7776, 'learning_rate': 5.4642749210535026e-08, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767559051513672, 'eval_runtime': 0.9825, 'eval_samples_per_second': 5.089, 'eval_steps_per_second': 1.018, 'epoch': 2.9}
{'loss': 0.5867, 'learning_rate': 5.292874364275169e-08, 'epoch': 2.9}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767631769180298, 'eval_runtime': 1.0512, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 2.9}
{'loss': 0.7009, 'learning_rate': 5.1241978847823556e-08, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676762342453003, 'eval_runtime': 0.9694, 'eval_samples_per_second': 5.158, 'eval_steps_per_second': 1.032, 'epoch': 2.91}
{'loss': 0.8304, 'learning_rate': 4.958245944507778e-08, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767656803131104, 'eval_runtime': 1.0217, 'eval_samples_per_second': 4.894, 'eval_steps_per_second': 0.979, 'epoch': 2.91}
{'loss': 0.9289, 'learning_rate': 4.7950189979227844e-08, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767632961273193, 'eval_runtime': 0.9761, 'eval_samples_per_second': 5.123, 'eval_steps_per_second': 1.025, 'epoch': 2.91}
{'loss': 0.6102, 'learning_rate': 4.63451749203625e-08, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767866611480713, 'eval_runtime': 1.0444, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 2.91}
{'loss': 0.6831, 'learning_rate': 4.476741866393019e-08, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676809549331665, 'eval_runtime': 1.0451, 'eval_samples_per_second': 4.784, 'eval_steps_per_second': 0.957, 'epoch': 2.91}
{'loss': 0.702, 'learning_rate': 4.321692553073131e-08, 'epoch': 2.91}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676828145980835, 'eval_runtime': 0.9794, 'eval_samples_per_second': 5.105, 'eval_steps_per_second': 1.021, 'epoch': 2.91}
{'loss': 0.7765, 'learning_rate': 4.169369976690263e-08, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6768392324447632, 'eval_runtime': 0.9967, 'eval_samples_per_second': 5.017, 'eval_steps_per_second': 1.003, 'epoch': 2.92}
{'loss': 0.9209, 'learning_rate': 4.019774554390732e-08, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6768386363983154, 'eval_runtime': 0.9402, 'eval_samples_per_second': 5.318, 'eval_steps_per_second': 1.064, 'epoch': 2.92}
{'loss': 0.8416, 'learning_rate': 3.872906695852607e-08, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6768165826797485, 'eval_runtime': 0.9943, 'eval_samples_per_second': 5.029, 'eval_steps_per_second': 1.006, 'epoch': 2.92}
{'loss': 0.868, 'learning_rate': 3.7287668032839344e-08, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767771244049072, 'eval_runtime': 0.977, 'eval_samples_per_second': 5.118, 'eval_steps_per_second': 1.024, 'epoch': 2.92}
{'loss': 0.6746, 'learning_rate': 3.587355271422288e-08, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767566204071045, 'eval_runtime': 0.9993, 'eval_samples_per_second': 5.004, 'eval_steps_per_second': 1.001, 'epoch': 2.92}
{'loss': 0.9778, 'learning_rate': 3.448672487533444e-08, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767292022705078, 'eval_runtime': 0.9422, 'eval_samples_per_second': 5.307, 'eval_steps_per_second': 1.061, 'epoch': 2.92}
{'loss': 0.8691, 'learning_rate': 3.3127188314100447e-08, 'epoch': 2.92}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767165660858154, 'eval_runtime': 1.0506, 'eval_samples_per_second': 4.759, 'eval_steps_per_second': 0.952, 'epoch': 2.92}
{'loss': 0.7927, 'learning_rate': 3.179494675371042e-08, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676708459854126, 'eval_runtime': 0.9663, 'eval_samples_per_second': 5.175, 'eval_steps_per_second': 1.035, 'epoch': 2.93}
{'loss': 0.715, 'learning_rate': 3.049000384260592e-08, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766971349716187, 'eval_runtime': 0.9431, 'eval_samples_per_second': 5.302, 'eval_steps_per_second': 1.06, 'epoch': 2.93}
{'loss': 1.0593, 'learning_rate': 2.9212363154463853e-08, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766889095306396, 'eval_runtime': 1.0538, 'eval_samples_per_second': 4.745, 'eval_steps_per_second': 0.949, 'epoch': 2.93}
{'loss': 0.8649, 'learning_rate': 2.796202818819871e-08, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766841411590576, 'eval_runtime': 1.0546, 'eval_samples_per_second': 4.741, 'eval_steps_per_second': 0.948, 'epoch': 2.93}
{'loss': 0.632, 'learning_rate': 2.673900236794147e-08, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676685094833374, 'eval_runtime': 0.9937, 'eval_samples_per_second': 5.032, 'eval_steps_per_second': 1.006, 'epoch': 2.93}
{'loss': 0.5707, 'learning_rate': 2.554328904303738e-08, 'epoch': 2.93}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766846179962158, 'eval_runtime': 0.9637, 'eval_samples_per_second': 5.189, 'eval_steps_per_second': 1.038, 'epoch': 2.93}
{'loss': 0.631, 'learning_rate': 2.4374891488032627e-08, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766802072525024, 'eval_runtime': 1.0481, 'eval_samples_per_second': 4.771, 'eval_steps_per_second': 0.954, 'epoch': 2.94}
{'loss': 0.8191, 'learning_rate': 2.3233812902669907e-08, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766717433929443, 'eval_runtime': 1.0523, 'eval_samples_per_second': 4.751, 'eval_steps_per_second': 0.95, 'epoch': 2.94}
{'loss': 0.662, 'learning_rate': 2.212005641187398e-08, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.67666494846344, 'eval_runtime': 1.0254, 'eval_samples_per_second': 4.876, 'eval_steps_per_second': 0.975, 'epoch': 2.94}
{'loss': 0.5957, 'learning_rate': 2.1033625065747244e-08, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676660180091858, 'eval_runtime': 1.0458, 'eval_samples_per_second': 4.781, 'eval_steps_per_second': 0.956, 'epoch': 2.94}
{'loss': 0.5296, 'learning_rate': 1.9974521839561946e-08, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766583919525146, 'eval_runtime': 1.0476, 'eval_samples_per_second': 4.773, 'eval_steps_per_second': 0.955, 'epoch': 2.94}
{'loss': 0.9926, 'learning_rate': 1.8942749633747982e-08, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676658034324646, 'eval_runtime': 0.9415, 'eval_samples_per_second': 5.311, 'eval_steps_per_second': 1.062, 'epoch': 2.94}
{'loss': 0.9818, 'learning_rate': 1.7938311273887344e-08, 'epoch': 2.94}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766653060913086, 'eval_runtime': 1.0484, 'eval_samples_per_second': 4.769, 'eval_steps_per_second': 0.954, 'epoch': 2.94}
{'loss': 0.5608, 'learning_rate': 1.6961209510707454e-08, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766736507415771, 'eval_runtime': 1.0242, 'eval_samples_per_second': 4.882, 'eval_steps_per_second': 0.976, 'epoch': 2.95}
{'loss': 0.5537, 'learning_rate': 1.601144702007118e-08, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676687240600586, 'eval_runtime': 0.9906, 'eval_samples_per_second': 5.048, 'eval_steps_per_second': 1.01, 'epoch': 2.95}
{'loss': 0.8481, 'learning_rate': 1.5089026402973495e-08, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766951084136963, 'eval_runtime': 0.9831, 'eval_samples_per_second': 5.086, 'eval_steps_per_second': 1.017, 'epoch': 2.95}
{'loss': 1.0567, 'learning_rate': 1.4193950185529271e-08, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766964197158813, 'eval_runtime': 0.9434, 'eval_samples_per_second': 5.3, 'eval_steps_per_second': 1.06, 'epoch': 2.95}
{'loss': 0.7705, 'learning_rate': 1.3326220818968839e-08, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767008304595947, 'eval_runtime': 0.9732, 'eval_samples_per_second': 5.137, 'eval_steps_per_second': 1.027, 'epoch': 2.95}
{'loss': 0.586, 'learning_rate': 1.2485840679631323e-08, 'epoch': 2.95}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767055988311768, 'eval_runtime': 0.9669, 'eval_samples_per_second': 5.171, 'eval_steps_per_second': 1.034, 'epoch': 2.95}
{'loss': 0.7867, 'learning_rate': 1.1672812068960204e-08, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767078638076782, 'eval_runtime': 0.9545, 'eval_samples_per_second': 5.239, 'eval_steps_per_second': 1.048, 'epoch': 2.96}
{'loss': 1.0365, 'learning_rate': 1.0887137213491107e-08, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676705002784729, 'eval_runtime': 1.0292, 'eval_samples_per_second': 4.858, 'eval_steps_per_second': 0.972, 'epoch': 2.96}
{'loss': 0.6377, 'learning_rate': 1.0128818264851791e-08, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676703691482544, 'eval_runtime': 1.051, 'eval_samples_per_second': 4.757, 'eval_steps_per_second': 0.951, 'epoch': 2.96}
{'loss': 0.9036, 'learning_rate': 9.397857299754399e-09, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767008304595947, 'eval_runtime': 0.9714, 'eval_samples_per_second': 5.147, 'eval_steps_per_second': 1.029, 'epoch': 2.96}
{'loss': 0.8551, 'learning_rate': 8.694256319987659e-09, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676696538925171, 'eval_runtime': 1.0092, 'eval_samples_per_second': 4.954, 'eval_steps_per_second': 0.991, 'epoch': 2.96}
{'loss': 0.4848, 'learning_rate': 8.018017252412468e-09, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766955852508545, 'eval_runtime': 1.0216, 'eval_samples_per_second': 4.894, 'eval_steps_per_second': 0.979, 'epoch': 2.96}
{'loss': 0.7938, 'learning_rate': 7.369141948960768e-09, 'epoch': 2.96}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6766986846923828, 'eval_runtime': 0.9477, 'eval_samples_per_second': 5.276, 'eval_steps_per_second': 1.055, 'epoch': 2.96}
{'loss': 0.6515, 'learning_rate': 6.747632186623332e-09, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.676701307296753, 'eval_runtime': 0.9713, 'eval_samples_per_second': 5.148, 'eval_steps_per_second': 1.03, 'epoch': 2.97}
{'loss': 1.0637, 'learning_rate': 6.153489667448665e-09, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767032146453857, 'eval_runtime': 0.9931, 'eval_samples_per_second': 5.035, 'eval_steps_per_second': 1.007, 'epoch': 2.97}
{'loss': 0.6312, 'learning_rate': 5.586716018539662e-09, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767053604125977, 'eval_runtime': 0.9801, 'eval_samples_per_second': 5.101, 'eval_steps_per_second': 1.02, 'epoch': 2.97}
{'loss': 0.731, 'learning_rate': 5.047312792046955e-09, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767078638076782, 'eval_runtime': 1.0449, 'eval_samples_per_second': 4.785, 'eval_steps_per_second': 0.957, 'epoch': 2.97}
{'loss': 0.867, 'learning_rate': 4.535281465165575e-09, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767070293426514, 'eval_runtime': 1.0488, 'eval_samples_per_second': 4.767, 'eval_steps_per_second': 0.953, 'epoch': 2.97}
{'loss': 0.9141, 'learning_rate': 4.050623440130519e-09, 'epoch': 2.97}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767078638076782, 'eval_runtime': 0.9461, 'eval_samples_per_second': 5.285, 'eval_steps_per_second': 1.057, 'epoch': 2.97}
{'loss': 0.7708, 'learning_rate': 3.593340044211191e-09, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767082214355469, 'eval_runtime': 0.963, 'eval_samples_per_second': 5.192, 'eval_steps_per_second': 1.038, 'epoch': 2.98}
{'loss': 0.6112, 'learning_rate': 3.163432529711408e-09, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767082214355469, 'eval_runtime': 0.9487, 'eval_samples_per_second': 5.27, 'eval_steps_per_second': 1.054, 'epoch': 2.98}
{'loss': 0.753, 'learning_rate': 2.7609020739660653e-09, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767070293426514, 'eval_runtime': 1.0065, 'eval_samples_per_second': 4.968, 'eval_steps_per_second': 0.994, 'epoch': 2.98}
{'loss': 0.6402, 'learning_rate': 2.3857497793322583e-09, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767075061798096, 'eval_runtime': 0.9789, 'eval_samples_per_second': 5.108, 'eval_steps_per_second': 1.022, 'epoch': 2.98}
{'loss': 0.7392, 'learning_rate': 2.0379766731914997e-09, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767065525054932, 'eval_runtime': 1.05, 'eval_samples_per_second': 4.762, 'eval_steps_per_second': 0.952, 'epoch': 2.98}
{'loss': 0.8415, 'learning_rate': 1.7175837079452806e-09, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767069101333618, 'eval_runtime': 0.9645, 'eval_samples_per_second': 5.184, 'eval_steps_per_second': 1.037, 'epoch': 2.98}
{'loss': 0.7619, 'learning_rate': 1.42457176101507e-09, 'epoch': 2.98}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767066717147827, 'eval_runtime': 1.0467, 'eval_samples_per_second': 4.777, 'eval_steps_per_second': 0.955, 'epoch': 2.98}
{'loss': 0.4765, 'learning_rate': 1.1589416348323223e-09, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767066717147827, 'eval_runtime': 1.0328, 'eval_samples_per_second': 4.841, 'eval_steps_per_second': 0.968, 'epoch': 2.99}
{'loss': 0.9551, 'learning_rate': 9.206940568462497e-10, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767070293426514, 'eval_runtime': 1.0441, 'eval_samples_per_second': 4.789, 'eval_steps_per_second': 0.958, 'epoch': 2.99}
{'loss': 0.7266, 'learning_rate': 7.098296795138293e-10, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767075061798096, 'eval_runtime': 1.0533, 'eval_samples_per_second': 4.747, 'eval_steps_per_second': 0.949, 'epoch': 2.99}
{'loss': 0.7185, 'learning_rate': 5.263490803042448e-10, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767069101333618, 'eval_runtime': 0.9959, 'eval_samples_per_second': 5.021, 'eval_steps_per_second': 1.004, 'epoch': 2.99}
{'loss': 0.7381, 'learning_rate': 3.7025276169000426e-10, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767072677612305, 'eval_runtime': 1.0443, 'eval_samples_per_second': 4.788, 'eval_steps_per_second': 0.958, 'epoch': 2.99}
{'loss': 0.9797, 'learning_rate': 2.415411511536014e-10, 'epoch': 2.99}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767079830169678, 'eval_runtime': 0.9974, 'eval_samples_per_second': 5.013, 'eval_steps_per_second': 1.003, 'epoch': 2.99}
{'loss': 0.6998, 'learning_rate': 1.4021460118085473e-10, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767075061798096, 'eval_runtime': 1.0514, 'eval_samples_per_second': 4.756, 'eval_steps_per_second': 0.951, 'epoch': 3.0}
{'loss': 0.7806, 'learning_rate': 6.627338926201709e-11, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767078638076782, 'eval_runtime': 1.0549, 'eval_samples_per_second': 4.74, 'eval_steps_per_second': 0.948, 'epoch': 3.0}
{'loss': 0.516, 'learning_rate': 1.9717717889555787e-11, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767070293426514, 'eval_runtime': 0.9512, 'eval_samples_per_second': 5.257, 'eval_steps_per_second': 1.051, 'epoch': 3.0}
{'loss': 0.718, 'learning_rate': 5.477145603727252e-13, 'epoch': 3.0}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 1.6767078638076782, 'eval_runtime': 0.9533, 'eval_samples_per_second': 5.245, 'eval_steps_per_second': 1.049, 'epoch': 3.0}
{'train_runtime': 16430.1027, 'train_samples_per_second': 0.596, 'train_steps_per_second': 0.596, 'train_loss': 1.0726775031817757, 'epoch': 3.0}


adapter_model.bin:   0%|          | 0.00/170M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/StarkWizard/Mistral-7b-instruct-cairo-PEFT/commit/8e3d4663ead6fac112ea5cba269924e5c582e313', commit_message='Upload tokenizer', commit_description='', oid='8e3d4663ead6fac112ea5cba269924e5c582e313', pr_url=None, pr_revision=None, pr_num=None)