In [1]:
from sklearn.model_selection import train_test_split
from datasets import load_dataset, load_metric
from huggingface_hub import notebook_login
import re
import os
#os.environ['CUDA_LAUNCH_BLOCKING'] = "1"
#os.environ['TORCH_USE_CUDA_DSA'] = "1"
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel, TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, DataCollatorForLanguageModeling
from typing import Any, Dict, List, Optional, Union
import wandb
from torch.utils.data import Dataset
import logging
logger = logging.getLogger(__name__)
import numpy as np

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [2]:
datasets = load_dataset("piqa")

Found cached dataset piqa (/home/bruno/.cache/huggingface/datasets/piqa/plain_text/1.1.0/6c611c1a9bf220943c4174e117d3b660859665baf1d43156230116185312d011)


  0%|          | 0/3 [00:00<?, ?it/s]

In [3]:
datasets.keys()

dict_keys(['train', 'test', 'validation'])

In [4]:
datasets["train"][0]["goal"]

"When boiling butter, when it's ready, you can"

In [5]:
def preprocess_intents_json(segment):
    
    preprocessed_data = []
    
    for data in datasets[segment]:
        preprocessed_data.append(f"Goal: {data['goal']}\n")
        if data['label']=='1':
            preprocessed_data.append(f"Solution: {data['sol2']}\n")
        else:
            preprocessed_data.append(f"Solution: {data['sol1']}\n")
    
    return "".join(preprocessed_data)

def save_preprocessed_data(preprocessed_data, output_file):
    with open(output_file, "w") as f:
        f.write(preprocessed_data)


output_file = f"./data/data_train.txt"
preprocessed_data = preprocess_intents_json("train")
preprocessed_data = re.sub(r'\n+', '\n', preprocessed_data).strip() 
save_preprocessed_data(preprocessed_data, output_file)

output_file = f"./data/data_validation.txt"
preprocessed_data = preprocess_intents_json("validation")
preprocessed_data = re.sub(r'\n+', '\n', preprocessed_data).strip() 
save_preprocessed_data(preprocessed_data, output_file)

output_file = f"./data/data_test.txt"
preprocessed_data = preprocess_intents_json("test")
preprocessed_data = re.sub(r'\n+', '\n', preprocessed_data).strip() 
save_preprocessed_data(preprocessed_data, output_file)

## Preprocessing Data

In [6]:
INTRO_BLURB = (
    "Below is an instruction that describes a task. Write a response that appropriately completes the request."
)
INSTRUCTION_KEY = "### Instruction:"
INPUT_KEY = "Input:"
RESPONSE_KEY = "### Response:"
END_KEY = "### End"
RESPONSE_KEY_NL = f"{RESPONSE_KEY}\n"
DEFAULT_SEED = 42

PROMPT_NO_INPUT_FORMAT = """{intro}

{instruction_key}
{instruction}

{response_key}
{response}

{end_key}""".format(
    intro=INTRO_BLURB,
    instruction_key=INSTRUCTION_KEY,
    instruction="{instruction}",
    response_key=RESPONSE_KEY,
    response="{response}",
    end_key=END_KEY,
)

class DataCollatorForCompletionOnlyLM(DataCollatorForLanguageModeling):
    def torch_call(self, examples: List[Union[List[int], Any, Dict[str, Any]]]) -> Dict[str, Any]:
        batch = super().torch_call(examples)

        # The prompt ends with the response key plus a newline.  We encode this and then try to find it in the
        # sequence of tokens.  This should just be a single token.
        response_token_ids = self.tokenizer.encode(RESPONSE_KEY_NL)

        labels = batch["labels"].clone()

        for i in range(len(examples)):

            response_token_ids_start_idx = None
            for idx in np.where(batch["labels"][i] == response_token_ids[0])[0]:
                response_token_ids_start_idx = idx
                break

            if response_token_ids_start_idx is None:
                raise RuntimeError(
                    f'Could not find response key {response_token_ids} in token IDs {batch["labels"][i]}'
                )

            response_token_ids_end_idx = response_token_ids_start_idx + 1

            # Make pytorch loss function ignore all tokens up through the end of the response key
            labels[i, :response_token_ids_end_idx] = -100

        batch["labels"] = labels

        return batch

class GoalSolutionDataset(Dataset):
    def __init__(self, tokenizer, file_path, max_length=512):
        self.tokenizer = tokenizer
        self.max_length = max_length

        self.examples = []
        with open(file_path, "r") as file:
            goal, solution = "", ""
            for line in file.readlines():
                if line.startswith("Goal:"):
                    goal = line[0:-1] # remove newline character
                elif line.startswith("Solution:"):
                    solution = line[0:-1] # remove newline character
                else:
                    goal += " " + line[0:-1] # add to goal if it's a continuation
                
                if goal and solution: # if both goal and solution are collected
                    self.examples.append((goal, solution))
                    goal, solution = "", "" # reset for next pair

    def __len__(self):
        return len(self.examples)

    def __getitem__(self, i):
        goal, solution = self.examples[i]
        data = PROMPT_NO_INPUT_FORMAT.format(instruction=goal, response=solution)
        tokenized_data = self.tokenizer(data, truncation=True, padding='max_length', max_length=self.max_length)
        return tokenized_data


train_file_path = "./data/data_train.txt"
valid_file_path = "./data/data_validation.txt"
test_file_path = "./data/data_test.txt"
model_name = "EleutherAI/pythia-1b"
output_dir = "./models/pythia-1b-fine-tuned"
lr = 1e-5 #dolly default
batch_size = 4
num_train_epochs = 5
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pythia-1b")
tokenizer.pad_token = tokenizer.eos_token
tokenizer.add_special_tokens({"additional_special_tokens": [END_KEY, INSTRUCTION_KEY, RESPONSE_KEY_NL]})
model = AutoModelForCausalLM.from_pretrained("EleutherAI/pythia-1b")
model = model.to(device)

data_collator = DataCollatorForCompletionOnlyLM(
    tokenizer=tokenizer, mlm=False, return_tensors="pt", pad_to_multiple_of=batch_size
)

train_dataset = GoalSolutionDataset(tokenizer, file_path=train_file_path, max_length=512)
valid_dataset = GoalSolutionDataset(tokenizer, file_path=valid_file_path, max_length=512)
test_dataset = GoalSolutionDataset(tokenizer, file_path=test_file_path, max_length=512)

In [7]:
for i, data in enumerate(train_dataset):
    if i < 2:
        print(data)
        original_text = tokenizer.decode(data["input_ids"])
        print(original_text)
        print()

{'input_ids': [30003, 310, 271, 9775, 326, 8631, 247, 4836, 15, 19566, 247, 2380, 326, 20420, 29141, 253, 2748, 15, 535, 50278, 187, 6826, 267, 27, 2091, 25317, 10379, 13, 672, 352, 434, 4704, 13, 368, 476, 535, 50279, 37533, 27, 27808, 352, 4830, 247, 5340, 535, 50277, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [8]:
training_args = TrainingArguments(
    output_dir=output_dir,
    overwrite_output_dir=True,
    num_train_epochs=num_train_epochs,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    fp16=False,
    bf16=True, # https://www.cerebras.net/machine-learning/to-bfloat-or-not-to-bfloat-that-is-the-question/
    learning_rate=lr,
    logging_dir='./logs/runs',
    logging_strategy="steps",
    logging_steps=10, #dolly defaults
    evaluation_strategy="steps",
    eval_steps=50,
    save_strategy="steps",
    save_steps=400,
    save_total_limit=3,
    load_best_model_at_end=True,
    report_to="wandb",
    remove_unused_columns=False,
    warmup_steps=0,
    #gradient_accumulation_steps=1,
    #gradient_checkpointing=True
)

wandb.init(
    project="NLP-MC2",
    config={
    "learning_rate": lr,
    "architecture": model_name,
    "dataset": "PIQA",
    "epochs": num_train_epochs,
    "batch_size": batch_size,
    "bf16": True,
    "output_dir": output_dir,
    }
)

trainer = Trainer(
    model=model,
    tokenizer=tokenizer,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    eval_dataset=valid_dataset,
)

logger.info("Training...")
trainer.train()

logger.info(f"Saving model to {output_dir}")
trainer.save_model(output_dir)
logger.info("Training complete!")

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.


[34m[1mwandb[0m: Currently logged in as: [33mjaguar[0m ([33m22hs_i4ds20[0m). Use [1m`wandb login --relogin`[0m to force relogin




  0%|          | 0/20145 [00:00<?, ?it/s]

You're using a GPTNeoXTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'loss': 3.0076, 'learning_rate': 9.995035989079177e-06, 'epoch': 0.0}
{'loss': 2.7329, 'learning_rate': 9.990071978158354e-06, 'epoch': 0.0}
{'loss': 2.6134, 'learning_rate': 9.985107967237528e-06, 'epoch': 0.01}
{'loss': 2.4714, 'learning_rate': 9.980143956316705e-06, 'epoch': 0.01}
{'loss': 2.4252, 'learning_rate': 9.975179945395881e-06, 'epoch': 0.01}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.480750322341919, 'eval_runtime': 51.9521, 'eval_samples_per_second': 35.379, 'eval_steps_per_second': 8.854, 'epoch': 0.01}
{'loss': 2.5294, 'learning_rate': 9.970215934475058e-06, 'epoch': 0.01}
{'loss': 2.4495, 'learning_rate': 9.965251923554233e-06, 'epoch': 0.02}
{'loss': 2.4586, 'learning_rate': 9.960287912633409e-06, 'epoch': 0.02}
{'loss': 2.3277, 'learning_rate': 9.955323901712586e-06, 'epoch': 0.02}
{'loss': 2.4264, 'learning_rate': 9.95035989079176e-06, 'epoch': 0.02}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.455448865890503, 'eval_runtime': 51.6555, 'eval_samples_per_second': 35.582, 'eval_steps_per_second': 8.905, 'epoch': 0.02}
{'loss': 2.4487, 'learning_rate': 9.945395879870937e-06, 'epoch': 0.03}
{'loss': 2.2964, 'learning_rate': 9.940431868950111e-06, 'epoch': 0.03}
{'loss': 2.4329, 'learning_rate': 9.935467858029288e-06, 'epoch': 0.03}
{'loss': 2.4746, 'learning_rate': 9.930503847108464e-06, 'epoch': 0.03}
{'loss': 2.566, 'learning_rate': 9.92553983618764e-06, 'epoch': 0.04}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.438401460647583, 'eval_runtime': 51.9199, 'eval_samples_per_second': 35.401, 'eval_steps_per_second': 8.86, 'epoch': 0.04}
{'loss': 2.3554, 'learning_rate': 9.920575825266816e-06, 'epoch': 0.04}
{'loss': 2.5507, 'learning_rate': 9.915611814345992e-06, 'epoch': 0.04}
{'loss': 2.3063, 'learning_rate': 9.910647803425169e-06, 'epoch': 0.04}
{'loss': 2.3444, 'learning_rate': 9.905683792504345e-06, 'epoch': 0.05}
{'loss': 2.5025, 'learning_rate': 9.90071978158352e-06, 'epoch': 0.05}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.439413070678711, 'eval_runtime': 52.0045, 'eval_samples_per_second': 35.343, 'eval_steps_per_second': 8.845, 'epoch': 0.05}
{'loss': 2.4611, 'learning_rate': 9.895755770662696e-06, 'epoch': 0.05}
{'loss': 2.5203, 'learning_rate': 9.890791759741873e-06, 'epoch': 0.05}
{'loss': 2.446, 'learning_rate': 9.885827748821049e-06, 'epoch': 0.06}
{'loss': 2.5324, 'learning_rate': 9.880863737900224e-06, 'epoch': 0.06}
{'loss': 2.4848, 'learning_rate': 9.8758997269794e-06, 'epoch': 0.06}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.434209108352661, 'eval_runtime': 51.0434, 'eval_samples_per_second': 36.009, 'eval_steps_per_second': 9.012, 'epoch': 0.06}
{'loss': 2.3053, 'learning_rate': 9.870935716058577e-06, 'epoch': 0.06}
{'loss': 2.289, 'learning_rate': 9.865971705137753e-06, 'epoch': 0.07}
{'loss': 2.3552, 'learning_rate': 9.861007694216928e-06, 'epoch': 0.07}
{'loss': 2.6037, 'learning_rate': 9.856043683296104e-06, 'epoch': 0.07}
{'loss': 2.4682, 'learning_rate': 9.85107967237528e-06, 'epoch': 0.07}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4291720390319824, 'eval_runtime': 51.1631, 'eval_samples_per_second': 35.924, 'eval_steps_per_second': 8.991, 'epoch': 0.07}
{'loss': 2.4259, 'learning_rate': 9.846115661454456e-06, 'epoch': 0.08}
{'loss': 2.3377, 'learning_rate': 9.841151650533632e-06, 'epoch': 0.08}
{'loss': 2.3913, 'learning_rate': 9.836187639612807e-06, 'epoch': 0.08}
{'loss': 2.3844, 'learning_rate': 9.831223628691983e-06, 'epoch': 0.08}
{'loss': 2.3958, 'learning_rate': 9.82625961777116e-06, 'epoch': 0.09}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.429750442504883, 'eval_runtime': 51.1709, 'eval_samples_per_second': 35.919, 'eval_steps_per_second': 8.989, 'epoch': 0.09}
{'loss': 2.4027, 'learning_rate': 9.821295606850336e-06, 'epoch': 0.09}
{'loss': 2.5162, 'learning_rate': 9.816331595929511e-06, 'epoch': 0.09}
{'loss': 2.5587, 'learning_rate': 9.811367585008687e-06, 'epoch': 0.09}
{'loss': 2.3341, 'learning_rate': 9.806403574087864e-06, 'epoch': 0.1}
{'loss': 2.245, 'learning_rate': 9.80143956316704e-06, 'epoch': 0.1}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.42388653755188, 'eval_runtime': 51.1841, 'eval_samples_per_second': 35.91, 'eval_steps_per_second': 8.987, 'epoch': 0.1}
{'loss': 2.2454, 'learning_rate': 9.796475552246217e-06, 'epoch': 0.1}
{'loss': 2.4726, 'learning_rate': 9.791511541325392e-06, 'epoch': 0.1}
{'loss': 2.4564, 'learning_rate': 9.786547530404568e-06, 'epoch': 0.11}
{'loss': 2.2564, 'learning_rate': 9.781583519483744e-06, 'epoch': 0.11}
{'loss': 2.4463, 'learning_rate': 9.776619508562921e-06, 'epoch': 0.11}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.41515851020813, 'eval_runtime': 46.0124, 'eval_samples_per_second': 39.946, 'eval_steps_per_second': 9.997, 'epoch': 0.11}
{'loss': 2.4054, 'learning_rate': 9.771655497642096e-06, 'epoch': 0.11}
{'loss': 2.2601, 'learning_rate': 9.766691486721272e-06, 'epoch': 0.12}
{'loss': 2.5187, 'learning_rate': 9.761727475800447e-06, 'epoch': 0.12}
{'loss': 2.3381, 'learning_rate': 9.756763464879623e-06, 'epoch': 0.12}
{'loss': 2.1958, 'learning_rate': 9.7517994539588e-06, 'epoch': 0.12}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4522864818573, 'eval_runtime': 45.9641, 'eval_samples_per_second': 39.988, 'eval_steps_per_second': 10.008, 'epoch': 0.12}
{'loss': 2.5668, 'learning_rate': 9.746835443037975e-06, 'epoch': 0.13}
{'loss': 2.2905, 'learning_rate': 9.741871432117151e-06, 'epoch': 0.13}
{'loss': 2.4576, 'learning_rate': 9.736907421196327e-06, 'epoch': 0.13}
{'loss': 2.3773, 'learning_rate': 9.731943410275504e-06, 'epoch': 0.13}
{'loss': 2.6255, 'learning_rate': 9.726979399354679e-06, 'epoch': 0.14}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.405470132827759, 'eval_runtime': 45.9057, 'eval_samples_per_second': 40.039, 'eval_steps_per_second': 10.021, 'epoch': 0.14}
{'loss': 2.3151, 'learning_rate': 9.722015388433855e-06, 'epoch': 0.14}
{'loss': 2.456, 'learning_rate': 9.717051377513032e-06, 'epoch': 0.14}
{'loss': 2.6181, 'learning_rate': 9.712087366592208e-06, 'epoch': 0.14}
{'loss': 2.5198, 'learning_rate': 9.707123355671383e-06, 'epoch': 0.15}
{'loss': 2.3638, 'learning_rate': 9.70215934475056e-06, 'epoch': 0.15}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.413649082183838, 'eval_runtime': 46.0598, 'eval_samples_per_second': 39.905, 'eval_steps_per_second': 9.987, 'epoch': 0.15}
{'loss': 2.1787, 'learning_rate': 9.697195333829736e-06, 'epoch': 0.15}
{'loss': 2.414, 'learning_rate': 9.692231322908912e-06, 'epoch': 0.15}
{'loss': 2.2305, 'learning_rate': 9.687267311988087e-06, 'epoch': 0.16}
{'loss': 2.3582, 'learning_rate': 9.682303301067263e-06, 'epoch': 0.16}
{'loss': 2.4949, 'learning_rate': 9.67733929014644e-06, 'epoch': 0.16}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4132235050201416, 'eval_runtime': 46.0908, 'eval_samples_per_second': 39.878, 'eval_steps_per_second': 9.98, 'epoch': 0.16}
{'loss': 2.3551, 'learning_rate': 9.672375279225615e-06, 'epoch': 0.16}
{'loss': 2.191, 'learning_rate': 9.667411268304791e-06, 'epoch': 0.17}
{'loss': 2.2977, 'learning_rate': 9.662447257383967e-06, 'epoch': 0.17}
{'loss': 2.2816, 'learning_rate': 9.657483246463142e-06, 'epoch': 0.17}
{'loss': 2.4055, 'learning_rate': 9.652519235542319e-06, 'epoch': 0.17}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4104809761047363, 'eval_runtime': 46.1141, 'eval_samples_per_second': 39.858, 'eval_steps_per_second': 9.975, 'epoch': 0.17}
{'loss': 2.6015, 'learning_rate': 9.647555224621495e-06, 'epoch': 0.18}
{'loss': 2.4564, 'learning_rate': 9.64259121370067e-06, 'epoch': 0.18}
{'loss': 2.3621, 'learning_rate': 9.637627202779846e-06, 'epoch': 0.18}
{'loss': 2.4542, 'learning_rate': 9.632663191859023e-06, 'epoch': 0.18}
{'loss': 2.5104, 'learning_rate': 9.6276991809382e-06, 'epoch': 0.19}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.398881196975708, 'eval_runtime': 46.0495, 'eval_samples_per_second': 39.914, 'eval_steps_per_second': 9.989, 'epoch': 0.19}
{'loss': 2.3606, 'learning_rate': 9.622735170017374e-06, 'epoch': 0.19}
{'loss': 2.1246, 'learning_rate': 9.61777115909655e-06, 'epoch': 0.19}
{'loss': 2.4438, 'learning_rate': 9.612807148175727e-06, 'epoch': 0.19}
{'loss': 2.4166, 'learning_rate': 9.607843137254903e-06, 'epoch': 0.2}
{'loss': 2.3994, 'learning_rate': 9.60287912633408e-06, 'epoch': 0.2}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.408677101135254, 'eval_runtime': 46.0195, 'eval_samples_per_second': 39.94, 'eval_steps_per_second': 9.996, 'epoch': 0.2}
{'loss': 2.3842, 'learning_rate': 9.597915115413255e-06, 'epoch': 0.2}
{'loss': 2.5719, 'learning_rate': 9.592951104492431e-06, 'epoch': 0.2}
{'loss': 2.5627, 'learning_rate': 9.587987093571607e-06, 'epoch': 0.21}
{'loss': 2.3323, 'learning_rate': 9.583023082650782e-06, 'epoch': 0.21}
{'loss': 2.411, 'learning_rate': 9.578059071729959e-06, 'epoch': 0.21}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.407076835632324, 'eval_runtime': 46.2687, 'eval_samples_per_second': 39.725, 'eval_steps_per_second': 9.942, 'epoch': 0.21}
{'loss': 2.541, 'learning_rate': 9.573095060809135e-06, 'epoch': 0.21}
{'loss': 2.3401, 'learning_rate': 9.56813104988831e-06, 'epoch': 0.22}
{'loss': 2.5282, 'learning_rate': 9.563167038967486e-06, 'epoch': 0.22}
{'loss': 2.263, 'learning_rate': 9.558203028046663e-06, 'epoch': 0.22}
{'loss': 2.4829, 'learning_rate': 9.553239017125838e-06, 'epoch': 0.22}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.399019479751587, 'eval_runtime': 46.0659, 'eval_samples_per_second': 39.899, 'eval_steps_per_second': 9.986, 'epoch': 0.22}
{'loss': 2.1539, 'learning_rate': 9.548275006205014e-06, 'epoch': 0.23}
{'loss': 2.6352, 'learning_rate': 9.54331099528419e-06, 'epoch': 0.23}
{'loss': 2.4155, 'learning_rate': 9.538346984363367e-06, 'epoch': 0.23}
{'loss': 2.3435, 'learning_rate': 9.533382973442542e-06, 'epoch': 0.23}
{'loss': 2.4821, 'learning_rate': 9.528418962521718e-06, 'epoch': 0.24}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.395301103591919, 'eval_runtime': 45.9807, 'eval_samples_per_second': 39.973, 'eval_steps_per_second': 10.004, 'epoch': 0.24}
{'loss': 2.1814, 'learning_rate': 9.523454951600895e-06, 'epoch': 0.24}
{'loss': 2.5084, 'learning_rate': 9.518490940680071e-06, 'epoch': 0.24}
{'loss': 2.4503, 'learning_rate': 9.513526929759246e-06, 'epoch': 0.24}
{'loss': 2.51, 'learning_rate': 9.508562918838422e-06, 'epoch': 0.25}
{'loss': 2.4809, 'learning_rate': 9.503598907917599e-06, 'epoch': 0.25}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.394742488861084, 'eval_runtime': 45.9899, 'eval_samples_per_second': 39.965, 'eval_steps_per_second': 10.002, 'epoch': 0.25}
{'loss': 2.2973, 'learning_rate': 9.498634896996775e-06, 'epoch': 0.25}
{'loss': 2.413, 'learning_rate': 9.49367088607595e-06, 'epoch': 0.25}
{'loss': 2.3242, 'learning_rate': 9.488706875155126e-06, 'epoch': 0.26}
{'loss': 2.4043, 'learning_rate': 9.483742864234303e-06, 'epoch': 0.26}
{'loss': 2.1665, 'learning_rate': 9.478778853313478e-06, 'epoch': 0.26}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.389254093170166, 'eval_runtime': 46.043, 'eval_samples_per_second': 39.919, 'eval_steps_per_second': 9.991, 'epoch': 0.26}
{'loss': 2.4754, 'learning_rate': 9.473814842392654e-06, 'epoch': 0.26}
{'loss': 2.368, 'learning_rate': 9.46885083147183e-06, 'epoch': 0.27}
{'loss': 2.4693, 'learning_rate': 9.463886820551005e-06, 'epoch': 0.27}
{'loss': 2.3112, 'learning_rate': 9.458922809630182e-06, 'epoch': 0.27}
{'loss': 2.4138, 'learning_rate': 9.453958798709358e-06, 'epoch': 0.27}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.38025164604187, 'eval_runtime': 46.0564, 'eval_samples_per_second': 39.908, 'eval_steps_per_second': 9.988, 'epoch': 0.27}
{'loss': 2.2716, 'learning_rate': 9.448994787788533e-06, 'epoch': 0.28}
{'loss': 2.2376, 'learning_rate': 9.44403077686771e-06, 'epoch': 0.28}
{'loss': 2.3785, 'learning_rate': 9.439066765946886e-06, 'epoch': 0.28}
{'loss': 2.393, 'learning_rate': 9.434102755026062e-06, 'epoch': 0.28}
{'loss': 2.4921, 'learning_rate': 9.429138744105237e-06, 'epoch': 0.29}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.383751392364502, 'eval_runtime': 46.115, 'eval_samples_per_second': 39.857, 'eval_steps_per_second': 9.975, 'epoch': 0.29}
{'loss': 2.5046, 'learning_rate': 9.424174733184414e-06, 'epoch': 0.29}
{'loss': 2.4334, 'learning_rate': 9.41921072226359e-06, 'epoch': 0.29}
{'loss': 2.5672, 'learning_rate': 9.414246711342766e-06, 'epoch': 0.29}
{'loss': 2.2947, 'learning_rate': 9.409282700421943e-06, 'epoch': 0.3}
{'loss': 2.4724, 'learning_rate': 9.404318689501118e-06, 'epoch': 0.3}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.380228281021118, 'eval_runtime': 46.0555, 'eval_samples_per_second': 39.908, 'eval_steps_per_second': 9.988, 'epoch': 0.3}
{'loss': 2.426, 'learning_rate': 9.399354678580294e-06, 'epoch': 0.3}
{'loss': 2.2791, 'learning_rate': 9.39439066765947e-06, 'epoch': 0.3}
{'loss': 2.3745, 'learning_rate': 9.389426656738645e-06, 'epoch': 0.31}
{'loss': 2.3183, 'learning_rate': 9.384462645817822e-06, 'epoch': 0.31}
{'loss': 2.3987, 'learning_rate': 9.379498634896998e-06, 'epoch': 0.31}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3764004707336426, 'eval_runtime': 46.067, 'eval_samples_per_second': 39.898, 'eval_steps_per_second': 9.985, 'epoch': 0.31}
{'loss': 2.663, 'learning_rate': 9.374534623976173e-06, 'epoch': 0.31}
{'loss': 2.354, 'learning_rate': 9.36957061305535e-06, 'epoch': 0.32}
{'loss': 2.4197, 'learning_rate': 9.364606602134524e-06, 'epoch': 0.32}
{'loss': 2.4486, 'learning_rate': 9.3596425912137e-06, 'epoch': 0.32}
{'loss': 2.438, 'learning_rate': 9.354678580292877e-06, 'epoch': 0.32}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3878777027130127, 'eval_runtime': 46.0602, 'eval_samples_per_second': 39.904, 'eval_steps_per_second': 9.987, 'epoch': 0.32}
{'loss': 2.4596, 'learning_rate': 9.349714569372054e-06, 'epoch': 0.33}
{'loss': 2.5687, 'learning_rate': 9.344750558451228e-06, 'epoch': 0.33}
{'loss': 2.4242, 'learning_rate': 9.339786547530405e-06, 'epoch': 0.33}
{'loss': 2.3544, 'learning_rate': 9.334822536609581e-06, 'epoch': 0.33}
{'loss': 2.3216, 'learning_rate': 9.329858525688758e-06, 'epoch': 0.34}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.359877824783325, 'eval_runtime': 46.1393, 'eval_samples_per_second': 39.836, 'eval_steps_per_second': 9.97, 'epoch': 0.34}
{'loss': 2.3617, 'learning_rate': 9.324894514767934e-06, 'epoch': 0.34}
{'loss': 2.3702, 'learning_rate': 9.319930503847109e-06, 'epoch': 0.34}
{'loss': 2.615, 'learning_rate': 9.314966492926285e-06, 'epoch': 0.34}
{'loss': 2.4546, 'learning_rate': 9.310002482005462e-06, 'epoch': 0.34}
{'loss': 2.3036, 'learning_rate': 9.305038471084638e-06, 'epoch': 0.35}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3646676540374756, 'eval_runtime': 46.0458, 'eval_samples_per_second': 39.917, 'eval_steps_per_second': 9.99, 'epoch': 0.35}
{'loss': 2.3643, 'learning_rate': 9.300074460163813e-06, 'epoch': 0.35}
{'loss': 2.5358, 'learning_rate': 9.29511044924299e-06, 'epoch': 0.35}
{'loss': 2.3662, 'learning_rate': 9.290146438322166e-06, 'epoch': 0.35}
{'loss': 2.2014, 'learning_rate': 9.28518242740134e-06, 'epoch': 0.36}
{'loss': 2.5079, 'learning_rate': 9.280218416480517e-06, 'epoch': 0.36}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3640244007110596, 'eval_runtime': 46.0251, 'eval_samples_per_second': 39.935, 'eval_steps_per_second': 9.995, 'epoch': 0.36}
{'loss': 2.3944, 'learning_rate': 9.275254405559692e-06, 'epoch': 0.36}
{'loss': 2.3569, 'learning_rate': 9.270290394638868e-06, 'epoch': 0.36}
{'loss': 2.4814, 'learning_rate': 9.265326383718045e-06, 'epoch': 0.37}
{'loss': 2.3917, 'learning_rate': 9.260362372797221e-06, 'epoch': 0.37}
{'loss': 2.4281, 'learning_rate': 9.255398361876396e-06, 'epoch': 0.37}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3494350910186768, 'eval_runtime': 45.9896, 'eval_samples_per_second': 39.966, 'eval_steps_per_second': 10.002, 'epoch': 0.37}
{'loss': 2.3903, 'learning_rate': 9.250434350955572e-06, 'epoch': 0.37}
{'loss': 2.2841, 'learning_rate': 9.245470340034749e-06, 'epoch': 0.38}
{'loss': 2.4463, 'learning_rate': 9.240506329113925e-06, 'epoch': 0.38}
{'loss': 2.3459, 'learning_rate': 9.2355423181931e-06, 'epoch': 0.38}
{'loss': 2.3152, 'learning_rate': 9.230578307272277e-06, 'epoch': 0.38}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.371279239654541, 'eval_runtime': 46.1272, 'eval_samples_per_second': 39.846, 'eval_steps_per_second': 9.972, 'epoch': 0.38}
{'loss': 2.5641, 'learning_rate': 9.225614296351453e-06, 'epoch': 0.39}
{'loss': 2.4171, 'learning_rate': 9.22065028543063e-06, 'epoch': 0.39}
{'loss': 2.2047, 'learning_rate': 9.215686274509804e-06, 'epoch': 0.39}
{'loss': 2.3891, 'learning_rate': 9.21072226358898e-06, 'epoch': 0.39}
{'loss': 2.4433, 'learning_rate': 9.205758252668157e-06, 'epoch': 0.4}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3548848628997803, 'eval_runtime': 46.1483, 'eval_samples_per_second': 39.828, 'eval_steps_per_second': 9.968, 'epoch': 0.4}
{'loss': 2.3145, 'learning_rate': 9.200794241747334e-06, 'epoch': 0.4}
{'loss': 2.3325, 'learning_rate': 9.195830230826508e-06, 'epoch': 0.4}
{'loss': 2.2961, 'learning_rate': 9.190866219905685e-06, 'epoch': 0.4}
{'loss': 2.2854, 'learning_rate': 9.18590220898486e-06, 'epoch': 0.41}
{'loss': 2.4363, 'learning_rate': 9.180938198064036e-06, 'epoch': 0.41}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3476181030273438, 'eval_runtime': 46.3802, 'eval_samples_per_second': 39.629, 'eval_steps_per_second': 9.918, 'epoch': 0.41}
{'loss': 2.2881, 'learning_rate': 9.175974187143212e-06, 'epoch': 0.41}
{'loss': 2.3039, 'learning_rate': 9.171010176222387e-06, 'epoch': 0.41}
{'loss': 2.1709, 'learning_rate': 9.166046165301564e-06, 'epoch': 0.42}
{'loss': 2.4017, 'learning_rate': 9.16108215438074e-06, 'epoch': 0.42}
{'loss': 2.4064, 'learning_rate': 9.156118143459917e-06, 'epoch': 0.42}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3495094776153564, 'eval_runtime': 46.0287, 'eval_samples_per_second': 39.932, 'eval_steps_per_second': 9.994, 'epoch': 0.42}
{'loss': 2.2418, 'learning_rate': 9.151154132539091e-06, 'epoch': 0.42}
{'loss': 2.2533, 'learning_rate': 9.146190121618268e-06, 'epoch': 0.43}
{'loss': 2.4493, 'learning_rate': 9.141226110697444e-06, 'epoch': 0.43}
{'loss': 2.3693, 'learning_rate': 9.13626209977662e-06, 'epoch': 0.43}
{'loss': 2.3264, 'learning_rate': 9.131298088855797e-06, 'epoch': 0.43}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3528740406036377, 'eval_runtime': 46.1622, 'eval_samples_per_second': 39.816, 'eval_steps_per_second': 9.965, 'epoch': 0.43}
{'loss': 2.2579, 'learning_rate': 9.126334077934972e-06, 'epoch': 0.44}
{'loss': 2.298, 'learning_rate': 9.121370067014148e-06, 'epoch': 0.44}
{'loss': 2.3261, 'learning_rate': 9.116406056093325e-06, 'epoch': 0.44}
{'loss': 2.3651, 'learning_rate': 9.111442045172501e-06, 'epoch': 0.44}
{'loss': 2.3006, 'learning_rate': 9.106478034251676e-06, 'epoch': 0.45}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.348180055618286, 'eval_runtime': 46.1795, 'eval_samples_per_second': 39.801, 'eval_steps_per_second': 9.961, 'epoch': 0.45}
{'loss': 2.2913, 'learning_rate': 9.101514023330853e-06, 'epoch': 0.45}
{'loss': 2.4064, 'learning_rate': 9.096550012410027e-06, 'epoch': 0.45}
{'loss': 2.3591, 'learning_rate': 9.091586001489204e-06, 'epoch': 0.45}
{'loss': 2.3495, 'learning_rate': 9.08662199056838e-06, 'epoch': 0.46}
{'loss': 2.334, 'learning_rate': 9.081657979647555e-06, 'epoch': 0.46}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3516921997070312, 'eval_runtime': 46.1571, 'eval_samples_per_second': 39.821, 'eval_steps_per_second': 9.966, 'epoch': 0.46}
{'loss': 2.2653, 'learning_rate': 9.076693968726731e-06, 'epoch': 0.46}
{'loss': 2.1995, 'learning_rate': 9.071729957805908e-06, 'epoch': 0.46}
{'loss': 2.2544, 'learning_rate': 9.066765946885084e-06, 'epoch': 0.47}
{'loss': 2.48, 'learning_rate': 9.061801935964259e-06, 'epoch': 0.47}
{'loss': 2.196, 'learning_rate': 9.056837925043436e-06, 'epoch': 0.47}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.336247682571411, 'eval_runtime': 46.1322, 'eval_samples_per_second': 39.842, 'eval_steps_per_second': 9.971, 'epoch': 0.47}
{'loss': 2.4582, 'learning_rate': 9.051873914122612e-06, 'epoch': 0.47}
{'loss': 2.4653, 'learning_rate': 9.046909903201788e-06, 'epoch': 0.48}
{'loss': 2.4307, 'learning_rate': 9.041945892280963e-06, 'epoch': 0.48}
{'loss': 2.5811, 'learning_rate': 9.03698188136014e-06, 'epoch': 0.48}
{'loss': 2.3536, 'learning_rate': 9.032017870439316e-06, 'epoch': 0.48}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3390135765075684, 'eval_runtime': 46.0871, 'eval_samples_per_second': 39.881, 'eval_steps_per_second': 9.981, 'epoch': 0.48}
{'loss': 2.4085, 'learning_rate': 9.027053859518493e-06, 'epoch': 0.49}
{'loss': 2.119, 'learning_rate': 9.022089848597667e-06, 'epoch': 0.49}
{'loss': 2.4048, 'learning_rate': 9.017125837676844e-06, 'epoch': 0.49}
{'loss': 2.1716, 'learning_rate': 9.01216182675602e-06, 'epoch': 0.49}
{'loss': 2.3569, 'learning_rate': 9.007197815835197e-06, 'epoch': 0.5}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3450798988342285, 'eval_runtime': 46.0841, 'eval_samples_per_second': 39.884, 'eval_steps_per_second': 9.982, 'epoch': 0.5}
{'loss': 2.235, 'learning_rate': 9.002233804914371e-06, 'epoch': 0.5}
{'loss': 2.2754, 'learning_rate': 8.997269793993548e-06, 'epoch': 0.5}
{'loss': 2.2742, 'learning_rate': 8.992305783072723e-06, 'epoch': 0.5}
{'loss': 2.2104, 'learning_rate': 8.987341772151899e-06, 'epoch': 0.51}
{'loss': 2.0812, 'learning_rate': 8.982377761231076e-06, 'epoch': 0.51}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.351276159286499, 'eval_runtime': 46.0572, 'eval_samples_per_second': 39.907, 'eval_steps_per_second': 9.988, 'epoch': 0.51}
{'loss': 2.3297, 'learning_rate': 8.97741375031025e-06, 'epoch': 0.51}
{'loss': 2.1977, 'learning_rate': 8.972449739389427e-06, 'epoch': 0.51}
{'loss': 2.301, 'learning_rate': 8.967485728468603e-06, 'epoch': 0.52}
{'loss': 2.4554, 'learning_rate': 8.96252171754778e-06, 'epoch': 0.52}
{'loss': 2.3949, 'learning_rate': 8.957557706626954e-06, 'epoch': 0.52}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3434667587280273, 'eval_runtime': 46.074, 'eval_samples_per_second': 39.892, 'eval_steps_per_second': 9.984, 'epoch': 0.52}
{'loss': 2.1545, 'learning_rate': 8.952593695706131e-06, 'epoch': 0.52}
{'loss': 2.318, 'learning_rate': 8.947629684785307e-06, 'epoch': 0.53}
{'loss': 2.3491, 'learning_rate': 8.942665673864484e-06, 'epoch': 0.53}
{'loss': 2.4425, 'learning_rate': 8.93770166294366e-06, 'epoch': 0.53}
{'loss': 2.401, 'learning_rate': 8.932737652022835e-06, 'epoch': 0.53}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.346627712249756, 'eval_runtime': 46.0177, 'eval_samples_per_second': 39.941, 'eval_steps_per_second': 9.996, 'epoch': 0.53}
{'loss': 2.4213, 'learning_rate': 8.927773641102011e-06, 'epoch': 0.54}
{'loss': 2.2156, 'learning_rate': 8.922809630181188e-06, 'epoch': 0.54}
{'loss': 2.3782, 'learning_rate': 8.917845619260364e-06, 'epoch': 0.54}
{'loss': 2.3315, 'learning_rate': 8.912881608339539e-06, 'epoch': 0.54}
{'loss': 2.3831, 'learning_rate': 8.907917597418716e-06, 'epoch': 0.55}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.33732008934021, 'eval_runtime': 46.0405, 'eval_samples_per_second': 39.921, 'eval_steps_per_second': 9.991, 'epoch': 0.55}
{'loss': 2.2144, 'learning_rate': 8.90295358649789e-06, 'epoch': 0.55}
{'loss': 2.2895, 'learning_rate': 8.897989575577067e-06, 'epoch': 0.55}
{'loss': 2.5686, 'learning_rate': 8.893025564656243e-06, 'epoch': 0.55}
{'loss': 2.1218, 'learning_rate': 8.888061553735418e-06, 'epoch': 0.56}
{'loss': 2.326, 'learning_rate': 8.883097542814594e-06, 'epoch': 0.56}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.337144136428833, 'eval_runtime': 46.0646, 'eval_samples_per_second': 39.9, 'eval_steps_per_second': 9.986, 'epoch': 0.56}
{'loss': 2.0036, 'learning_rate': 8.878133531893771e-06, 'epoch': 0.56}
{'loss': 2.4325, 'learning_rate': 8.873169520972947e-06, 'epoch': 0.56}
{'loss': 2.3114, 'learning_rate': 8.868205510052122e-06, 'epoch': 0.57}
{'loss': 2.2739, 'learning_rate': 8.863241499131299e-06, 'epoch': 0.57}
{'loss': 2.4765, 'learning_rate': 8.858277488210475e-06, 'epoch': 0.57}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3268373012542725, 'eval_runtime': 46.1436, 'eval_samples_per_second': 39.832, 'eval_steps_per_second': 9.969, 'epoch': 0.57}
{'loss': 2.3788, 'learning_rate': 8.853313477289651e-06, 'epoch': 0.57}
{'loss': 2.3041, 'learning_rate': 8.848349466368826e-06, 'epoch': 0.58}
{'loss': 2.2965, 'learning_rate': 8.843385455448003e-06, 'epoch': 0.58}
{'loss': 2.3151, 'learning_rate': 8.838421444527179e-06, 'epoch': 0.58}
{'loss': 2.1598, 'learning_rate': 8.833457433606356e-06, 'epoch': 0.58}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3285608291625977, 'eval_runtime': 46.0971, 'eval_samples_per_second': 39.872, 'eval_steps_per_second': 9.979, 'epoch': 0.58}
{'loss': 2.386, 'learning_rate': 8.82849342268553e-06, 'epoch': 0.59}
{'loss': 2.3462, 'learning_rate': 8.823529411764707e-06, 'epoch': 0.59}
{'loss': 2.2054, 'learning_rate': 8.818565400843883e-06, 'epoch': 0.59}
{'loss': 2.5313, 'learning_rate': 8.813601389923058e-06, 'epoch': 0.59}
{'loss': 2.4292, 'learning_rate': 8.808637379002234e-06, 'epoch': 0.6}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.338815450668335, 'eval_runtime': 46.0475, 'eval_samples_per_second': 39.915, 'eval_steps_per_second': 9.99, 'epoch': 0.6}
{'loss': 2.4205, 'learning_rate': 8.803673368081411e-06, 'epoch': 0.6}
{'loss': 2.4112, 'learning_rate': 8.798709357160586e-06, 'epoch': 0.6}
{'loss': 2.3092, 'learning_rate': 8.793745346239762e-06, 'epoch': 0.6}
{'loss': 2.1716, 'learning_rate': 8.788781335318939e-06, 'epoch': 0.61}
{'loss': 2.4078, 'learning_rate': 8.783817324398113e-06, 'epoch': 0.61}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.320873737335205, 'eval_runtime': 46.3306, 'eval_samples_per_second': 39.671, 'eval_steps_per_second': 9.929, 'epoch': 0.61}
{'loss': 2.3298, 'learning_rate': 8.77885331347729e-06, 'epoch': 0.61}
{'loss': 2.3489, 'learning_rate': 8.773889302556466e-06, 'epoch': 0.61}
{'loss': 2.1957, 'learning_rate': 8.768925291635643e-06, 'epoch': 0.62}
{'loss': 2.3085, 'learning_rate': 8.763961280714817e-06, 'epoch': 0.62}
{'loss': 2.2798, 'learning_rate': 8.758997269793994e-06, 'epoch': 0.62}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3185946941375732, 'eval_runtime': 46.1951, 'eval_samples_per_second': 39.788, 'eval_steps_per_second': 9.958, 'epoch': 0.62}
{'loss': 2.3148, 'learning_rate': 8.75403325887317e-06, 'epoch': 0.62}
{'loss': 2.1075, 'learning_rate': 8.749069247952347e-06, 'epoch': 0.63}
{'loss': 2.4439, 'learning_rate': 8.744105237031523e-06, 'epoch': 0.63}
{'loss': 2.3428, 'learning_rate': 8.739141226110698e-06, 'epoch': 0.63}
{'loss': 2.2342, 'learning_rate': 8.734177215189874e-06, 'epoch': 0.63}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.319383382797241, 'eval_runtime': 46.1488, 'eval_samples_per_second': 39.828, 'eval_steps_per_second': 9.968, 'epoch': 0.63}
{'loss': 2.287, 'learning_rate': 8.729213204269051e-06, 'epoch': 0.64}
{'loss': 2.2529, 'learning_rate': 8.724249193348226e-06, 'epoch': 0.64}
{'loss': 2.3647, 'learning_rate': 8.719285182427402e-06, 'epoch': 0.64}
{'loss': 2.3074, 'learning_rate': 8.714321171506579e-06, 'epoch': 0.64}
{'loss': 2.2345, 'learning_rate': 8.709357160585753e-06, 'epoch': 0.65}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3155081272125244, 'eval_runtime': 46.0125, 'eval_samples_per_second': 39.946, 'eval_steps_per_second': 9.997, 'epoch': 0.65}
{'loss': 2.364, 'learning_rate': 8.70439314966493e-06, 'epoch': 0.65}
{'loss': 2.2673, 'learning_rate': 8.699429138744106e-06, 'epoch': 0.65}
{'loss': 2.2162, 'learning_rate': 8.694465127823281e-06, 'epoch': 0.65}
{'loss': 2.0947, 'learning_rate': 8.689501116902457e-06, 'epoch': 0.66}
{'loss': 2.2075, 'learning_rate': 8.684537105981634e-06, 'epoch': 0.66}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3255789279937744, 'eval_runtime': 46.0898, 'eval_samples_per_second': 39.879, 'eval_steps_per_second': 9.981, 'epoch': 0.66}
{'loss': 2.233, 'learning_rate': 8.67957309506081e-06, 'epoch': 0.66}
{'loss': 2.4901, 'learning_rate': 8.674609084139985e-06, 'epoch': 0.66}
{'loss': 2.353, 'learning_rate': 8.669645073219162e-06, 'epoch': 0.67}
{'loss': 2.2486, 'learning_rate': 8.664681062298338e-06, 'epoch': 0.67}
{'loss': 2.3724, 'learning_rate': 8.659717051377515e-06, 'epoch': 0.67}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3121180534362793, 'eval_runtime': 46.1777, 'eval_samples_per_second': 39.803, 'eval_steps_per_second': 9.962, 'epoch': 0.67}
{'loss': 2.3284, 'learning_rate': 8.65475304045669e-06, 'epoch': 0.67}
{'loss': 2.3579, 'learning_rate': 8.649789029535866e-06, 'epoch': 0.68}
{'loss': 2.5447, 'learning_rate': 8.644825018615042e-06, 'epoch': 0.68}
{'loss': 2.4343, 'learning_rate': 8.639861007694219e-06, 'epoch': 0.68}
{'loss': 2.3183, 'learning_rate': 8.634896996773393e-06, 'epoch': 0.68}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3089890480041504, 'eval_runtime': 46.2209, 'eval_samples_per_second': 39.766, 'eval_steps_per_second': 9.952, 'epoch': 0.68}
{'loss': 2.2715, 'learning_rate': 8.62993298585257e-06, 'epoch': 0.69}
{'loss': 2.1455, 'learning_rate': 8.624968974931746e-06, 'epoch': 0.69}
{'loss': 2.3821, 'learning_rate': 8.620004964010921e-06, 'epoch': 0.69}
{'loss': 2.2934, 'learning_rate': 8.615040953090098e-06, 'epoch': 0.69}
{'loss': 2.366, 'learning_rate': 8.610076942169274e-06, 'epoch': 0.69}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3116047382354736, 'eval_runtime': 46.1956, 'eval_samples_per_second': 39.787, 'eval_steps_per_second': 9.958, 'epoch': 0.69}
{'loss': 2.3407, 'learning_rate': 8.605112931248449e-06, 'epoch': 0.7}
{'loss': 2.3905, 'learning_rate': 8.600148920327625e-06, 'epoch': 0.7}
{'loss': 2.1629, 'learning_rate': 8.595184909406802e-06, 'epoch': 0.7}
{'loss': 2.4228, 'learning_rate': 8.590220898485976e-06, 'epoch': 0.7}
{'loss': 2.4614, 'learning_rate': 8.585256887565153e-06, 'epoch': 0.71}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3096420764923096, 'eval_runtime': 46.14, 'eval_samples_per_second': 39.835, 'eval_steps_per_second': 9.97, 'epoch': 0.71}
{'loss': 2.2496, 'learning_rate': 8.58029287664433e-06, 'epoch': 0.71}
{'loss': 2.2935, 'learning_rate': 8.575328865723506e-06, 'epoch': 0.71}
{'loss': 2.3044, 'learning_rate': 8.57036485480268e-06, 'epoch': 0.71}
{'loss': 2.3456, 'learning_rate': 8.565400843881857e-06, 'epoch': 0.72}
{'loss': 2.1931, 'learning_rate': 8.560436832961033e-06, 'epoch': 0.72}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.312741756439209, 'eval_runtime': 46.1614, 'eval_samples_per_second': 39.817, 'eval_steps_per_second': 9.965, 'epoch': 0.72}
{'loss': 2.2159, 'learning_rate': 8.55547282204021e-06, 'epoch': 0.72}
{'loss': 2.3736, 'learning_rate': 8.550508811119386e-06, 'epoch': 0.72}
{'loss': 2.3924, 'learning_rate': 8.545544800198561e-06, 'epoch': 0.73}
{'loss': 2.5486, 'learning_rate': 8.540580789277738e-06, 'epoch': 0.73}
{'loss': 2.3099, 'learning_rate': 8.535616778356914e-06, 'epoch': 0.73}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3123207092285156, 'eval_runtime': 46.0968, 'eval_samples_per_second': 39.873, 'eval_steps_per_second': 9.979, 'epoch': 0.73}
{'loss': 2.2845, 'learning_rate': 8.530652767436089e-06, 'epoch': 0.73}
{'loss': 2.2147, 'learning_rate': 8.525688756515265e-06, 'epoch': 0.74}
{'loss': 2.3429, 'learning_rate': 8.520724745594442e-06, 'epoch': 0.74}
{'loss': 2.4912, 'learning_rate': 8.515760734673616e-06, 'epoch': 0.74}
{'loss': 2.3988, 'learning_rate': 8.510796723752793e-06, 'epoch': 0.74}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.304978132247925, 'eval_runtime': 46.1837, 'eval_samples_per_second': 39.798, 'eval_steps_per_second': 9.96, 'epoch': 0.74}
{'loss': 2.4791, 'learning_rate': 8.505832712831968e-06, 'epoch': 0.75}
{'loss': 2.3483, 'learning_rate': 8.500868701911144e-06, 'epoch': 0.75}
{'loss': 2.5105, 'learning_rate': 8.49590469099032e-06, 'epoch': 0.75}
{'loss': 2.2726, 'learning_rate': 8.490940680069497e-06, 'epoch': 0.75}
{'loss': 2.3194, 'learning_rate': 8.485976669148673e-06, 'epoch': 0.76}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3070225715637207, 'eval_runtime': 46.2408, 'eval_samples_per_second': 39.748, 'eval_steps_per_second': 9.948, 'epoch': 0.76}
{'loss': 2.2282, 'learning_rate': 8.481012658227848e-06, 'epoch': 0.76}
{'loss': 2.4697, 'learning_rate': 8.476048647307025e-06, 'epoch': 0.76}
{'loss': 2.3645, 'learning_rate': 8.471084636386201e-06, 'epoch': 0.76}
{'loss': 2.2258, 'learning_rate': 8.466120625465378e-06, 'epoch': 0.77}
{'loss': 2.3228, 'learning_rate': 8.461156614544552e-06, 'epoch': 0.77}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3050642013549805, 'eval_runtime': 46.2517, 'eval_samples_per_second': 39.739, 'eval_steps_per_second': 9.946, 'epoch': 0.77}
{'loss': 2.426, 'learning_rate': 8.456192603623729e-06, 'epoch': 0.77}
{'loss': 2.4093, 'learning_rate': 8.451228592702905e-06, 'epoch': 0.77}
{'loss': 2.2257, 'learning_rate': 8.446264581782082e-06, 'epoch': 0.78}
{'loss': 2.4887, 'learning_rate': 8.441300570861256e-06, 'epoch': 0.78}
{'loss': 2.4343, 'learning_rate': 8.436336559940433e-06, 'epoch': 0.78}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3097569942474365, 'eval_runtime': 46.1351, 'eval_samples_per_second': 39.84, 'eval_steps_per_second': 9.971, 'epoch': 0.78}
{'loss': 2.3937, 'learning_rate': 8.43137254901961e-06, 'epoch': 0.78}
{'loss': 2.3698, 'learning_rate': 8.426408538098784e-06, 'epoch': 0.79}
{'loss': 2.2039, 'learning_rate': 8.42144452717796e-06, 'epoch': 0.79}
{'loss': 2.525, 'learning_rate': 8.416480516257135e-06, 'epoch': 0.79}
{'loss': 2.1407, 'learning_rate': 8.411516505336312e-06, 'epoch': 0.79}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3025615215301514, 'eval_runtime': 46.1547, 'eval_samples_per_second': 39.823, 'eval_steps_per_second': 9.966, 'epoch': 0.79}
{'loss': 2.5451, 'learning_rate': 8.406552494415488e-06, 'epoch': 0.8}
{'loss': 2.3259, 'learning_rate': 8.401588483494665e-06, 'epoch': 0.8}
{'loss': 2.504, 'learning_rate': 8.39662447257384e-06, 'epoch': 0.8}
{'loss': 2.229, 'learning_rate': 8.391660461653016e-06, 'epoch': 0.8}
{'loss': 2.3612, 'learning_rate': 8.386696450732192e-06, 'epoch': 0.81}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3034281730651855, 'eval_runtime': 46.4018, 'eval_samples_per_second': 39.61, 'eval_steps_per_second': 9.913, 'epoch': 0.81}
{'loss': 2.4912, 'learning_rate': 8.381732439811369e-06, 'epoch': 0.81}
{'loss': 2.3469, 'learning_rate': 8.376768428890544e-06, 'epoch': 0.81}
{'loss': 2.3749, 'learning_rate': 8.37180441796972e-06, 'epoch': 0.81}
{'loss': 2.1296, 'learning_rate': 8.366840407048896e-06, 'epoch': 0.82}
{'loss': 2.3779, 'learning_rate': 8.361876396128073e-06, 'epoch': 0.82}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.300062894821167, 'eval_runtime': 46.2213, 'eval_samples_per_second': 39.765, 'eval_steps_per_second': 9.952, 'epoch': 0.82}
{'loss': 2.4727, 'learning_rate': 8.35691238520725e-06, 'epoch': 0.82}
{'loss': 2.4471, 'learning_rate': 8.351948374286424e-06, 'epoch': 0.82}
{'loss': 2.1036, 'learning_rate': 8.3469843633656e-06, 'epoch': 0.83}
{'loss': 2.3227, 'learning_rate': 8.342020352444777e-06, 'epoch': 0.83}
{'loss': 2.1759, 'learning_rate': 8.337056341523952e-06, 'epoch': 0.83}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3052866458892822, 'eval_runtime': 46.1479, 'eval_samples_per_second': 39.828, 'eval_steps_per_second': 9.968, 'epoch': 0.83}
{'loss': 2.1944, 'learning_rate': 8.332092330603128e-06, 'epoch': 0.83}
{'loss': 2.4936, 'learning_rate': 8.327128319682303e-06, 'epoch': 0.84}
{'loss': 2.2717, 'learning_rate': 8.32216430876148e-06, 'epoch': 0.84}
{'loss': 2.4227, 'learning_rate': 8.317200297840656e-06, 'epoch': 0.84}
{'loss': 2.3421, 'learning_rate': 8.31223628691983e-06, 'epoch': 0.84}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3010687828063965, 'eval_runtime': 46.0969, 'eval_samples_per_second': 39.873, 'eval_steps_per_second': 9.979, 'epoch': 0.84}
{'loss': 2.1937, 'learning_rate': 8.307272275999007e-06, 'epoch': 0.85}
{'loss': 2.4057, 'learning_rate': 8.302308265078184e-06, 'epoch': 0.85}
{'loss': 2.3019, 'learning_rate': 8.29734425415736e-06, 'epoch': 0.85}
{'loss': 2.4036, 'learning_rate': 8.292380243236537e-06, 'epoch': 0.85}
{'loss': 2.1354, 'learning_rate': 8.287416232315711e-06, 'epoch': 0.86}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.2937936782836914, 'eval_runtime': 46.1223, 'eval_samples_per_second': 39.851, 'eval_steps_per_second': 9.973, 'epoch': 0.86}
{'loss': 2.6114, 'learning_rate': 8.282452221394888e-06, 'epoch': 0.86}
{'loss': 2.3054, 'learning_rate': 8.277488210474064e-06, 'epoch': 0.86}
{'loss': 2.3404, 'learning_rate': 8.27252419955324e-06, 'epoch': 0.86}
{'loss': 2.2563, 'learning_rate': 8.267560188632415e-06, 'epoch': 0.87}
{'loss': 2.3361, 'learning_rate': 8.262596177711592e-06, 'epoch': 0.87}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.292466878890991, 'eval_runtime': 46.1257, 'eval_samples_per_second': 39.848, 'eval_steps_per_second': 9.973, 'epoch': 0.87}
{'loss': 2.2879, 'learning_rate': 8.257632166790768e-06, 'epoch': 0.87}
{'loss': 2.3469, 'learning_rate': 8.252668155869945e-06, 'epoch': 0.87}
{'loss': 2.2696, 'learning_rate': 8.24770414494912e-06, 'epoch': 0.88}
{'loss': 2.1665, 'learning_rate': 8.242740134028296e-06, 'epoch': 0.88}
{'loss': 2.2457, 'learning_rate': 8.23777612310747e-06, 'epoch': 0.88}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.2991273403167725, 'eval_runtime': 46.2334, 'eval_samples_per_second': 39.755, 'eval_steps_per_second': 9.95, 'epoch': 0.88}
{'loss': 2.3811, 'learning_rate': 8.232812112186647e-06, 'epoch': 0.88}
{'loss': 2.2581, 'learning_rate': 8.227848101265824e-06, 'epoch': 0.89}
{'loss': 2.4044, 'learning_rate': 8.222884090344998e-06, 'epoch': 0.89}
{'loss': 2.2944, 'learning_rate': 8.217920079424175e-06, 'epoch': 0.89}
{'loss': 2.1462, 'learning_rate': 8.212956068503351e-06, 'epoch': 0.89}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.2879605293273926, 'eval_runtime': 46.2164, 'eval_samples_per_second': 39.769, 'eval_steps_per_second': 9.953, 'epoch': 0.89}
{'loss': 2.5686, 'learning_rate': 8.207992057582528e-06, 'epoch': 0.9}
{'loss': 2.1771, 'learning_rate': 8.203028046661703e-06, 'epoch': 0.9}
{'loss': 2.1405, 'learning_rate': 8.198064035740879e-06, 'epoch': 0.9}
{'loss': 2.1002, 'learning_rate': 8.193100024820055e-06, 'epoch': 0.9}
{'loss': 2.3411, 'learning_rate': 8.188136013899232e-06, 'epoch': 0.91}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.2862446308135986, 'eval_runtime': 46.3354, 'eval_samples_per_second': 39.667, 'eval_steps_per_second': 9.928, 'epoch': 0.91}
{'loss': 2.1166, 'learning_rate': 8.183172002978407e-06, 'epoch': 0.91}
{'loss': 2.3826, 'learning_rate': 8.178207992057583e-06, 'epoch': 0.91}
{'loss': 2.5329, 'learning_rate': 8.17324398113676e-06, 'epoch': 0.91}
{'loss': 2.2916, 'learning_rate': 8.168279970215936e-06, 'epoch': 0.92}
{'loss': 2.5543, 'learning_rate': 8.163315959295112e-06, 'epoch': 0.92}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.294781446456909, 'eval_runtime': 46.0561, 'eval_samples_per_second': 39.908, 'eval_steps_per_second': 9.988, 'epoch': 0.92}
{'loss': 2.2459, 'learning_rate': 8.158351948374287e-06, 'epoch': 0.92}
{'loss': 2.3405, 'learning_rate': 8.153387937453464e-06, 'epoch': 0.92}
{'loss': 2.3657, 'learning_rate': 8.148423926532638e-06, 'epoch': 0.93}
{'loss': 2.4093, 'learning_rate': 8.143459915611815e-06, 'epoch': 0.93}
{'loss': 2.6773, 'learning_rate': 8.138495904690991e-06, 'epoch': 0.93}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.2975902557373047, 'eval_runtime': 46.1697, 'eval_samples_per_second': 39.81, 'eval_steps_per_second': 9.963, 'epoch': 0.93}
{'loss': 2.2997, 'learning_rate': 8.133531893770166e-06, 'epoch': 0.93}
{'loss': 2.181, 'learning_rate': 8.128567882849343e-06, 'epoch': 0.94}
{'loss': 2.1636, 'learning_rate': 8.123603871928519e-06, 'epoch': 0.94}
{'loss': 2.0492, 'learning_rate': 8.118639861007694e-06, 'epoch': 0.94}
{'loss': 2.4547, 'learning_rate': 8.11367585008687e-06, 'epoch': 0.94}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.290376901626587, 'eval_runtime': 46.195, 'eval_samples_per_second': 39.788, 'eval_steps_per_second': 9.958, 'epoch': 0.94}
{'loss': 2.2117, 'learning_rate': 8.108711839166047e-06, 'epoch': 0.95}
{'loss': 2.1678, 'learning_rate': 8.103747828245223e-06, 'epoch': 0.95}
{'loss': 2.1795, 'learning_rate': 8.098783817324398e-06, 'epoch': 0.95}
{'loss': 1.9701, 'learning_rate': 8.093819806403574e-06, 'epoch': 0.95}
{'loss': 2.3427, 'learning_rate': 8.08885579548275e-06, 'epoch': 0.96}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.287932872772217, 'eval_runtime': 46.2283, 'eval_samples_per_second': 39.759, 'eval_steps_per_second': 9.951, 'epoch': 0.96}
{'loss': 2.2468, 'learning_rate': 8.083891784561927e-06, 'epoch': 0.96}
{'loss': 2.4619, 'learning_rate': 8.078927773641104e-06, 'epoch': 0.96}
{'loss': 2.34, 'learning_rate': 8.073963762720278e-06, 'epoch': 0.96}
{'loss': 2.4337, 'learning_rate': 8.068999751799455e-06, 'epoch': 0.97}
{'loss': 2.0607, 'learning_rate': 8.064035740878631e-06, 'epoch': 0.97}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.285196304321289, 'eval_runtime': 46.2509, 'eval_samples_per_second': 39.74, 'eval_steps_per_second': 9.946, 'epoch': 0.97}
{'loss': 2.4217, 'learning_rate': 8.059071729957806e-06, 'epoch': 0.97}
{'loss': 2.3561, 'learning_rate': 8.054107719036983e-06, 'epoch': 0.97}
{'loss': 2.2115, 'learning_rate': 8.049143708116159e-06, 'epoch': 0.98}
{'loss': 2.3143, 'learning_rate': 8.044179697195334e-06, 'epoch': 0.98}
{'loss': 2.1876, 'learning_rate': 8.03921568627451e-06, 'epoch': 0.98}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.287614107131958, 'eval_runtime': 46.287, 'eval_samples_per_second': 39.709, 'eval_steps_per_second': 9.938, 'epoch': 0.98}
{'loss': 2.3798, 'learning_rate': 8.034251675353687e-06, 'epoch': 0.98}
{'loss': 2.2949, 'learning_rate': 8.029287664432861e-06, 'epoch': 0.99}
{'loss': 2.1015, 'learning_rate': 8.024323653512038e-06, 'epoch': 0.99}
{'loss': 2.2774, 'learning_rate': 8.019359642591214e-06, 'epoch': 0.99}
{'loss': 2.3925, 'learning_rate': 8.01439563167039e-06, 'epoch': 0.99}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.295862913131714, 'eval_runtime': 46.1265, 'eval_samples_per_second': 39.847, 'eval_steps_per_second': 9.973, 'epoch': 0.99}
{'loss': 2.4869, 'learning_rate': 8.009431620749566e-06, 'epoch': 1.0}
{'loss': 2.4289, 'learning_rate': 8.004467609828742e-06, 'epoch': 1.0}
{'loss': 2.1911, 'learning_rate': 7.999503598907918e-06, 'epoch': 1.0}
{'loss': 1.4438, 'learning_rate': 7.994539587987095e-06, 'epoch': 1.0}
{'loss': 1.5651, 'learning_rate': 7.98957557706627e-06, 'epoch': 1.01}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.321275234222412, 'eval_runtime': 46.1937, 'eval_samples_per_second': 39.789, 'eval_steps_per_second': 9.958, 'epoch': 1.01}
{'loss': 1.515, 'learning_rate': 7.984611566145446e-06, 'epoch': 1.01}
{'loss': 1.5392, 'learning_rate': 7.979647555224623e-06, 'epoch': 1.01}
{'loss': 1.4921, 'learning_rate': 7.974683544303799e-06, 'epoch': 1.01}
{'loss': 1.501, 'learning_rate': 7.969719533382974e-06, 'epoch': 1.02}
{'loss': 1.4469, 'learning_rate': 7.96475552246215e-06, 'epoch': 1.02}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.38153076171875, 'eval_runtime': 45.8574, 'eval_samples_per_second': 40.081, 'eval_steps_per_second': 10.031, 'epoch': 1.02}
{'loss': 1.5961, 'learning_rate': 7.959791511541327e-06, 'epoch': 1.02}
{'loss': 1.4327, 'learning_rate': 7.954827500620501e-06, 'epoch': 1.02}
{'loss': 1.6558, 'learning_rate': 7.949863489699678e-06, 'epoch': 1.03}
{'loss': 1.539, 'learning_rate': 7.944899478778854e-06, 'epoch': 1.03}
{'loss': 1.474, 'learning_rate': 7.939935467858029e-06, 'epoch': 1.03}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.366990804672241, 'eval_runtime': 45.8971, 'eval_samples_per_second': 40.046, 'eval_steps_per_second': 10.022, 'epoch': 1.03}
{'loss': 1.5178, 'learning_rate': 7.934971456937206e-06, 'epoch': 1.03}
{'loss': 1.3948, 'learning_rate': 7.930007446016382e-06, 'epoch': 1.03}
{'loss': 1.5819, 'learning_rate': 7.925043435095557e-06, 'epoch': 1.04}
{'loss': 1.5494, 'learning_rate': 7.920079424174733e-06, 'epoch': 1.04}
{'loss': 1.7713, 'learning_rate': 7.91511541325391e-06, 'epoch': 1.04}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.365283727645874, 'eval_runtime': 45.9486, 'eval_samples_per_second': 40.001, 'eval_steps_per_second': 10.011, 'epoch': 1.04}
{'loss': 1.4583, 'learning_rate': 7.910151402333086e-06, 'epoch': 1.04}
{'loss': 1.4628, 'learning_rate': 7.905187391412261e-06, 'epoch': 1.05}
{'loss': 1.4003, 'learning_rate': 7.900223380491437e-06, 'epoch': 1.05}
{'loss': 1.5469, 'learning_rate': 7.895259369570614e-06, 'epoch': 1.05}
{'loss': 1.5612, 'learning_rate': 7.89029535864979e-06, 'epoch': 1.05}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3964951038360596, 'eval_runtime': 45.9349, 'eval_samples_per_second': 40.013, 'eval_steps_per_second': 10.014, 'epoch': 1.05}
{'loss': 1.4632, 'learning_rate': 7.885331347728967e-06, 'epoch': 1.06}
{'loss': 1.5508, 'learning_rate': 7.880367336808141e-06, 'epoch': 1.06}
{'loss': 1.5244, 'learning_rate': 7.875403325887318e-06, 'epoch': 1.06}
{'loss': 1.4986, 'learning_rate': 7.870439314966494e-06, 'epoch': 1.06}
{'loss': 1.4761, 'learning_rate': 7.86547530404567e-06, 'epoch': 1.07}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.396099090576172, 'eval_runtime': 46.0373, 'eval_samples_per_second': 39.924, 'eval_steps_per_second': 9.992, 'epoch': 1.07}
{'loss': 1.5168, 'learning_rate': 7.860511293124846e-06, 'epoch': 1.07}
{'loss': 1.3839, 'learning_rate': 7.855547282204022e-06, 'epoch': 1.07}
{'loss': 1.2909, 'learning_rate': 7.850583271283197e-06, 'epoch': 1.07}
{'loss': 1.5253, 'learning_rate': 7.845619260362373e-06, 'epoch': 1.08}
{'loss': 1.452, 'learning_rate': 7.840655249441548e-06, 'epoch': 1.08}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3998141288757324, 'eval_runtime': 46.034, 'eval_samples_per_second': 39.927, 'eval_steps_per_second': 9.993, 'epoch': 1.08}
{'loss': 1.424, 'learning_rate': 7.835691238520724e-06, 'epoch': 1.08}
{'loss': 1.3989, 'learning_rate': 7.830727227599901e-06, 'epoch': 1.08}
{'loss': 1.5066, 'learning_rate': 7.825763216679077e-06, 'epoch': 1.09}
{'loss': 1.3352, 'learning_rate': 7.820799205758254e-06, 'epoch': 1.09}
{'loss': 1.516, 'learning_rate': 7.815835194837429e-06, 'epoch': 1.09}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3880820274353027, 'eval_runtime': 45.9693, 'eval_samples_per_second': 39.983, 'eval_steps_per_second': 10.007, 'epoch': 1.09}
{'loss': 1.4331, 'learning_rate': 7.810871183916605e-06, 'epoch': 1.09}
{'loss': 1.4272, 'learning_rate': 7.805907172995782e-06, 'epoch': 1.1}
{'loss': 1.4146, 'learning_rate': 7.800943162074958e-06, 'epoch': 1.1}
{'loss': 1.6214, 'learning_rate': 7.795979151154133e-06, 'epoch': 1.1}
{'loss': 1.5447, 'learning_rate': 7.79101514023331e-06, 'epoch': 1.1}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.411893844604492, 'eval_runtime': 46.2868, 'eval_samples_per_second': 39.709, 'eval_steps_per_second': 9.938, 'epoch': 1.1}
{'loss': 1.2977, 'learning_rate': 7.786051129312486e-06, 'epoch': 1.11}
{'loss': 1.5389, 'learning_rate': 7.781087118391662e-06, 'epoch': 1.11}
{'loss': 1.5832, 'learning_rate': 7.776123107470837e-06, 'epoch': 1.11}
{'loss': 1.3854, 'learning_rate': 7.771159096550013e-06, 'epoch': 1.11}
{'loss': 1.5328, 'learning_rate': 7.76619508562919e-06, 'epoch': 1.12}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.399292469024658, 'eval_runtime': 46.0362, 'eval_samples_per_second': 39.925, 'eval_steps_per_second': 9.992, 'epoch': 1.12}
{'loss': 1.3054, 'learning_rate': 7.761231074708365e-06, 'epoch': 1.12}
{'loss': 1.5264, 'learning_rate': 7.756267063787541e-06, 'epoch': 1.12}
{'loss': 1.4454, 'learning_rate': 7.751303052866717e-06, 'epoch': 1.12}
{'loss': 1.495, 'learning_rate': 7.746339041945892e-06, 'epoch': 1.13}
{'loss': 1.4789, 'learning_rate': 7.741375031025069e-06, 'epoch': 1.13}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.387772560119629, 'eval_runtime': 46.1691, 'eval_samples_per_second': 39.81, 'eval_steps_per_second': 9.963, 'epoch': 1.13}
{'loss': 1.4351, 'learning_rate': 7.736411020104245e-06, 'epoch': 1.13}
{'loss': 1.5953, 'learning_rate': 7.73144700918342e-06, 'epoch': 1.13}
{'loss': 1.5166, 'learning_rate': 7.726482998262596e-06, 'epoch': 1.14}
{'loss': 1.5006, 'learning_rate': 7.721518987341773e-06, 'epoch': 1.14}
{'loss': 1.4995, 'learning_rate': 7.71655497642095e-06, 'epoch': 1.14}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3926727771759033, 'eval_runtime': 46.2027, 'eval_samples_per_second': 39.781, 'eval_steps_per_second': 9.956, 'epoch': 1.14}
{'loss': 1.676, 'learning_rate': 7.711590965500124e-06, 'epoch': 1.14}
{'loss': 1.5451, 'learning_rate': 7.7066269545793e-06, 'epoch': 1.15}
{'loss': 1.4733, 'learning_rate': 7.701662943658477e-06, 'epoch': 1.15}
{'loss': 1.287, 'learning_rate': 7.696698932737653e-06, 'epoch': 1.15}
{'loss': 1.4937, 'learning_rate': 7.69173492181683e-06, 'epoch': 1.15}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.402710437774658, 'eval_runtime': 46.122, 'eval_samples_per_second': 39.851, 'eval_steps_per_second': 9.974, 'epoch': 1.15}
{'loss': 1.3924, 'learning_rate': 7.686770910896005e-06, 'epoch': 1.16}
{'loss': 1.5105, 'learning_rate': 7.681806899975181e-06, 'epoch': 1.16}
{'loss': 1.554, 'learning_rate': 7.676842889054357e-06, 'epoch': 1.16}
{'loss': 1.5742, 'learning_rate': 7.671878878133532e-06, 'epoch': 1.16}
{'loss': 1.4412, 'learning_rate': 7.666914867212709e-06, 'epoch': 1.17}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3756303787231445, 'eval_runtime': 46.2174, 'eval_samples_per_second': 39.769, 'eval_steps_per_second': 9.953, 'epoch': 1.17}
{'loss': 1.469, 'learning_rate': 7.661950856291885e-06, 'epoch': 1.17}
{'loss': 1.5576, 'learning_rate': 7.65698684537106e-06, 'epoch': 1.17}
{'loss': 1.7065, 'learning_rate': 7.652022834450236e-06, 'epoch': 1.17}
{'loss': 1.4971, 'learning_rate': 7.647058823529411e-06, 'epoch': 1.18}
{'loss': 1.5337, 'learning_rate': 7.642094812608588e-06, 'epoch': 1.18}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3992934226989746, 'eval_runtime': 46.1208, 'eval_samples_per_second': 39.852, 'eval_steps_per_second': 9.974, 'epoch': 1.18}
{'loss': 1.6306, 'learning_rate': 7.637130801687764e-06, 'epoch': 1.18}
{'loss': 1.6587, 'learning_rate': 7.63216679076694e-06, 'epoch': 1.18}
{'loss': 1.4911, 'learning_rate': 7.627202779846117e-06, 'epoch': 1.19}
{'loss': 1.3756, 'learning_rate': 7.622238768925292e-06, 'epoch': 1.19}
{'loss': 1.3348, 'learning_rate': 7.617274758004468e-06, 'epoch': 1.19}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.412377119064331, 'eval_runtime': 46.1585, 'eval_samples_per_second': 39.819, 'eval_steps_per_second': 9.966, 'epoch': 1.19}
{'loss': 1.4138, 'learning_rate': 7.6123107470836446e-06, 'epoch': 1.19}
{'loss': 1.3832, 'learning_rate': 7.60734673616282e-06, 'epoch': 1.2}
{'loss': 1.4521, 'learning_rate': 7.602382725241996e-06, 'epoch': 1.2}
{'loss': 1.5472, 'learning_rate': 7.597418714321172e-06, 'epoch': 1.2}
{'loss': 1.4989, 'learning_rate': 7.592454703400348e-06, 'epoch': 1.2}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.386054515838623, 'eval_runtime': 46.3184, 'eval_samples_per_second': 39.682, 'eval_steps_per_second': 9.931, 'epoch': 1.2}
{'loss': 1.5594, 'learning_rate': 7.587490692479524e-06, 'epoch': 1.21}
{'loss': 1.3426, 'learning_rate': 7.5825266815587e-06, 'epoch': 1.21}
{'loss': 1.5779, 'learning_rate': 7.5775626706378755e-06, 'epoch': 1.21}
{'loss': 1.5315, 'learning_rate': 7.572598659717052e-06, 'epoch': 1.21}
{'loss': 1.5612, 'learning_rate': 7.567634648796228e-06, 'epoch': 1.22}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.424862861633301, 'eval_runtime': 46.1634, 'eval_samples_per_second': 39.815, 'eval_steps_per_second': 9.965, 'epoch': 1.22}
{'loss': 1.4751, 'learning_rate': 7.562670637875405e-06, 'epoch': 1.22}
{'loss': 1.373, 'learning_rate': 7.55770662695458e-06, 'epoch': 1.22}
{'loss': 1.4592, 'learning_rate': 7.552742616033756e-06, 'epoch': 1.22}
{'loss': 1.3676, 'learning_rate': 7.547778605112932e-06, 'epoch': 1.23}
{'loss': 1.3434, 'learning_rate': 7.542814594192108e-06, 'epoch': 1.23}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4139292240142822, 'eval_runtime': 46.043, 'eval_samples_per_second': 39.919, 'eval_steps_per_second': 9.991, 'epoch': 1.23}
{'loss': 1.4959, 'learning_rate': 7.537850583271284e-06, 'epoch': 1.23}
{'loss': 1.4156, 'learning_rate': 7.532886572350459e-06, 'epoch': 1.23}
{'loss': 1.4742, 'learning_rate': 7.527922561429636e-06, 'epoch': 1.24}
{'loss': 1.5755, 'learning_rate': 7.522958550508812e-06, 'epoch': 1.24}
{'loss': 1.3743, 'learning_rate': 7.517994539587987e-06, 'epoch': 1.24}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.383000135421753, 'eval_runtime': 46.1563, 'eval_samples_per_second': 39.821, 'eval_steps_per_second': 9.966, 'epoch': 1.24}
{'loss': 1.3859, 'learning_rate': 7.5130305286671635e-06, 'epoch': 1.24}
{'loss': 1.5111, 'learning_rate': 7.50806651774634e-06, 'epoch': 1.25}
{'loss': 1.4346, 'learning_rate': 7.5031025068255155e-06, 'epoch': 1.25}
{'loss': 1.4618, 'learning_rate': 7.498138495904692e-06, 'epoch': 1.25}
{'loss': 1.5418, 'learning_rate': 7.493174484983868e-06, 'epoch': 1.25}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3970420360565186, 'eval_runtime': 46.0471, 'eval_samples_per_second': 39.916, 'eval_steps_per_second': 9.99, 'epoch': 1.25}
{'loss': 1.4731, 'learning_rate': 7.488210474063043e-06, 'epoch': 1.26}
{'loss': 1.2539, 'learning_rate': 7.48324646314222e-06, 'epoch': 1.26}
{'loss': 1.4656, 'learning_rate': 7.478282452221396e-06, 'epoch': 1.26}
{'loss': 1.6332, 'learning_rate': 7.473318441300571e-06, 'epoch': 1.26}
{'loss': 1.5075, 'learning_rate': 7.468354430379747e-06, 'epoch': 1.27}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4047107696533203, 'eval_runtime': 46.1827, 'eval_samples_per_second': 39.798, 'eval_steps_per_second': 9.96, 'epoch': 1.27}
{'loss': 1.3923, 'learning_rate': 7.463390419458924e-06, 'epoch': 1.27}
{'loss': 1.472, 'learning_rate': 7.458426408538099e-06, 'epoch': 1.27}
{'loss': 1.3195, 'learning_rate': 7.453462397617275e-06, 'epoch': 1.27}
{'loss': 1.5164, 'learning_rate': 7.4484983866964514e-06, 'epoch': 1.28}
{'loss': 1.3429, 'learning_rate': 7.443534375775627e-06, 'epoch': 1.28}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4007248878479004, 'eval_runtime': 46.0202, 'eval_samples_per_second': 39.939, 'eval_steps_per_second': 9.996, 'epoch': 1.28}
{'loss': 1.4489, 'learning_rate': 7.4385703648548035e-06, 'epoch': 1.28}
{'loss': 1.5146, 'learning_rate': 7.43360635393398e-06, 'epoch': 1.28}
{'loss': 1.3775, 'learning_rate': 7.428642343013155e-06, 'epoch': 1.29}
{'loss': 1.6399, 'learning_rate': 7.423678332092331e-06, 'epoch': 1.29}
{'loss': 1.3814, 'learning_rate': 7.418714321171508e-06, 'epoch': 1.29}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.391876697540283, 'eval_runtime': 46.1595, 'eval_samples_per_second': 39.818, 'eval_steps_per_second': 9.965, 'epoch': 1.29}
{'loss': 1.402, 'learning_rate': 7.413750310250683e-06, 'epoch': 1.29}
{'loss': 1.4738, 'learning_rate': 7.408786299329859e-06, 'epoch': 1.3}
{'loss': 1.4494, 'learning_rate': 7.403822288409035e-06, 'epoch': 1.3}
{'loss': 1.4863, 'learning_rate': 7.398858277488211e-06, 'epoch': 1.3}
{'loss': 1.7162, 'learning_rate': 7.393894266567387e-06, 'epoch': 1.3}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3779854774475098, 'eval_runtime': 46.0704, 'eval_samples_per_second': 39.895, 'eval_steps_per_second': 9.985, 'epoch': 1.3}
{'loss': 1.3898, 'learning_rate': 7.388930255646562e-06, 'epoch': 1.31}
{'loss': 1.3095, 'learning_rate': 7.3839662447257386e-06, 'epoch': 1.31}
{'loss': 1.2914, 'learning_rate': 7.379002233804915e-06, 'epoch': 1.31}
{'loss': 1.4452, 'learning_rate': 7.3740382228840915e-06, 'epoch': 1.31}
{'loss': 1.5603, 'learning_rate': 7.369074211963267e-06, 'epoch': 1.32}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4135119915008545, 'eval_runtime': 46.0057, 'eval_samples_per_second': 39.952, 'eval_steps_per_second': 9.999, 'epoch': 1.32}
{'loss': 1.5457, 'learning_rate': 7.364110201042443e-06, 'epoch': 1.32}
{'loss': 1.3511, 'learning_rate': 7.359146190121619e-06, 'epoch': 1.32}
{'loss': 1.5654, 'learning_rate': 7.354182179200795e-06, 'epoch': 1.32}
{'loss': 1.4781, 'learning_rate': 7.349218168279971e-06, 'epoch': 1.33}
{'loss': 1.6092, 'learning_rate': 7.344254157359146e-06, 'epoch': 1.33}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3946337699890137, 'eval_runtime': 46.0541, 'eval_samples_per_second': 39.91, 'eval_steps_per_second': 9.988, 'epoch': 1.33}
{'loss': 1.5806, 'learning_rate': 7.339290146438322e-06, 'epoch': 1.33}
{'loss': 1.4604, 'learning_rate': 7.334326135517499e-06, 'epoch': 1.33}
{'loss': 1.603, 'learning_rate': 7.329362124596675e-06, 'epoch': 1.34}
{'loss': 1.4271, 'learning_rate': 7.32439811367585e-06, 'epoch': 1.34}
{'loss': 1.5036, 'learning_rate': 7.3194341027550265e-06, 'epoch': 1.34}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.403676986694336, 'eval_runtime': 46.0664, 'eval_samples_per_second': 39.899, 'eval_steps_per_second': 9.986, 'epoch': 1.34}
{'loss': 1.4222, 'learning_rate': 7.314470091834203e-06, 'epoch': 1.34}
{'loss': 1.4047, 'learning_rate': 7.309506080913379e-06, 'epoch': 1.35}
{'loss': 1.3996, 'learning_rate': 7.304542069992555e-06, 'epoch': 1.35}
{'loss': 1.5791, 'learning_rate': 7.29957805907173e-06, 'epoch': 1.35}
{'loss': 1.409, 'learning_rate': 7.294614048150906e-06, 'epoch': 1.35}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.408954381942749, 'eval_runtime': 46.0366, 'eval_samples_per_second': 39.925, 'eval_steps_per_second': 9.992, 'epoch': 1.35}
{'loss': 1.6586, 'learning_rate': 7.289650037230083e-06, 'epoch': 1.36}
{'loss': 1.5853, 'learning_rate': 7.284686026309259e-06, 'epoch': 1.36}
{'loss': 1.4353, 'learning_rate': 7.279722015388434e-06, 'epoch': 1.36}
{'loss': 1.4944, 'learning_rate': 7.27475800446761e-06, 'epoch': 1.36}
{'loss': 1.3621, 'learning_rate': 7.269793993546787e-06, 'epoch': 1.37}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4087839126586914, 'eval_runtime': 46.0564, 'eval_samples_per_second': 39.908, 'eval_steps_per_second': 9.988, 'epoch': 1.37}
{'loss': 1.5416, 'learning_rate': 7.2648299826259624e-06, 'epoch': 1.37}
{'loss': 1.4583, 'learning_rate': 7.259865971705138e-06, 'epoch': 1.37}
{'loss': 1.5589, 'learning_rate': 7.2549019607843145e-06, 'epoch': 1.37}
{'loss': 1.4229, 'learning_rate': 7.24993794986349e-06, 'epoch': 1.38}
{'loss': 1.4049, 'learning_rate': 7.2449739389426666e-06, 'epoch': 1.38}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.391220808029175, 'eval_runtime': 46.048, 'eval_samples_per_second': 39.915, 'eval_steps_per_second': 9.99, 'epoch': 1.38}
{'loss': 1.5492, 'learning_rate': 7.240009928021843e-06, 'epoch': 1.38}
{'loss': 1.373, 'learning_rate': 7.235045917101018e-06, 'epoch': 1.38}
{'loss': 1.4068, 'learning_rate': 7.230081906180194e-06, 'epoch': 1.38}
{'loss': 1.3461, 'learning_rate': 7.225117895259371e-06, 'epoch': 1.39}
{'loss': 1.259, 'learning_rate': 7.220153884338546e-06, 'epoch': 1.39}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4114813804626465, 'eval_runtime': 46.1616, 'eval_samples_per_second': 39.817, 'eval_steps_per_second': 9.965, 'epoch': 1.39}
{'loss': 1.5465, 'learning_rate': 7.215189873417722e-06, 'epoch': 1.39}
{'loss': 1.5192, 'learning_rate': 7.210225862496898e-06, 'epoch': 1.39}
{'loss': 1.3688, 'learning_rate': 7.205261851576074e-06, 'epoch': 1.4}
{'loss': 1.7234, 'learning_rate': 7.20029784065525e-06, 'epoch': 1.4}
{'loss': 1.6237, 'learning_rate': 7.195333829734425e-06, 'epoch': 1.4}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3808679580688477, 'eval_runtime': 46.3779, 'eval_samples_per_second': 39.631, 'eval_steps_per_second': 9.919, 'epoch': 1.4}
{'loss': 1.4825, 'learning_rate': 7.190369818813602e-06, 'epoch': 1.4}
{'loss': 1.5392, 'learning_rate': 7.185405807892778e-06, 'epoch': 1.41}
{'loss': 1.3858, 'learning_rate': 7.1804417969719545e-06, 'epoch': 1.41}
{'loss': 1.4664, 'learning_rate': 7.17547778605113e-06, 'epoch': 1.41}
{'loss': 1.4333, 'learning_rate': 7.170513775130306e-06, 'epoch': 1.41}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4094362258911133, 'eval_runtime': 46.2213, 'eval_samples_per_second': 39.765, 'eval_steps_per_second': 9.952, 'epoch': 1.41}
{'loss': 1.4374, 'learning_rate': 7.165549764209482e-06, 'epoch': 1.42}
{'loss': 1.655, 'learning_rate': 7.160585753288658e-06, 'epoch': 1.42}
{'loss': 1.4775, 'learning_rate': 7.155621742367834e-06, 'epoch': 1.42}
{'loss': 1.481, 'learning_rate': 7.150657731447009e-06, 'epoch': 1.42}
{'loss': 1.5972, 'learning_rate': 7.1456937205261855e-06, 'epoch': 1.43}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.405569314956665, 'eval_runtime': 46.2135, 'eval_samples_per_second': 39.772, 'eval_steps_per_second': 9.954, 'epoch': 1.43}
{'loss': 1.375, 'learning_rate': 7.140729709605362e-06, 'epoch': 1.43}
{'loss': 1.4656, 'learning_rate': 7.135765698684538e-06, 'epoch': 1.43}
{'loss': 1.5051, 'learning_rate': 7.130801687763713e-06, 'epoch': 1.43}
{'loss': 1.4214, 'learning_rate': 7.12583767684289e-06, 'epoch': 1.44}
{'loss': 1.5151, 'learning_rate': 7.120873665922066e-06, 'epoch': 1.44}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3912465572357178, 'eval_runtime': 46.2445, 'eval_samples_per_second': 39.745, 'eval_steps_per_second': 9.947, 'epoch': 1.44}
{'loss': 1.6383, 'learning_rate': 7.115909655001242e-06, 'epoch': 1.44}
{'loss': 1.5222, 'learning_rate': 7.110945644080418e-06, 'epoch': 1.44}
{'loss': 1.5559, 'learning_rate': 7.105981633159593e-06, 'epoch': 1.45}
{'loss': 1.2288, 'learning_rate': 7.101017622238769e-06, 'epoch': 1.45}
{'loss': 1.5157, 'learning_rate': 7.096053611317946e-06, 'epoch': 1.45}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4197468757629395, 'eval_runtime': 46.1871, 'eval_samples_per_second': 39.795, 'eval_steps_per_second': 9.959, 'epoch': 1.45}
{'loss': 1.5247, 'learning_rate': 7.091089600397122e-06, 'epoch': 1.45}
{'loss': 1.3967, 'learning_rate': 7.086125589476297e-06, 'epoch': 1.46}
{'loss': 1.6546, 'learning_rate': 7.0811615785554734e-06, 'epoch': 1.46}
{'loss': 1.4647, 'learning_rate': 7.07619756763465e-06, 'epoch': 1.46}
{'loss': 1.4221, 'learning_rate': 7.0712335567138255e-06, 'epoch': 1.46}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3924360275268555, 'eval_runtime': 46.1958, 'eval_samples_per_second': 39.787, 'eval_steps_per_second': 9.958, 'epoch': 1.46}
{'loss': 1.6029, 'learning_rate': 7.066269545793001e-06, 'epoch': 1.47}
{'loss': 1.4414, 'learning_rate': 7.061305534872177e-06, 'epoch': 1.47}
{'loss': 1.6027, 'learning_rate': 7.056341523951353e-06, 'epoch': 1.47}
{'loss': 1.5736, 'learning_rate': 7.05137751303053e-06, 'epoch': 1.47}
{'loss': 1.4765, 'learning_rate': 7.046413502109706e-06, 'epoch': 1.48}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3916831016540527, 'eval_runtime': 46.118, 'eval_samples_per_second': 39.854, 'eval_steps_per_second': 9.974, 'epoch': 1.48}
{'loss': 1.3492, 'learning_rate': 7.041449491188881e-06, 'epoch': 1.48}
{'loss': 1.4922, 'learning_rate': 7.036485480268057e-06, 'epoch': 1.48}
{'loss': 1.5773, 'learning_rate': 7.031521469347234e-06, 'epoch': 1.48}
{'loss': 1.4764, 'learning_rate': 7.026557458426409e-06, 'epoch': 1.49}
{'loss': 1.3865, 'learning_rate': 7.021593447505585e-06, 'epoch': 1.49}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.386516809463501, 'eval_runtime': 46.1467, 'eval_samples_per_second': 39.83, 'eval_steps_per_second': 9.968, 'epoch': 1.49}
{'loss': 1.5498, 'learning_rate': 7.0166294365847606e-06, 'epoch': 1.49}
{'loss': 1.5256, 'learning_rate': 7.011665425663937e-06, 'epoch': 1.49}
{'loss': 1.5126, 'learning_rate': 7.0067014147431135e-06, 'epoch': 1.5}
{'loss': 1.4439, 'learning_rate': 7.001737403822288e-06, 'epoch': 1.5}
{'loss': 1.6171, 'learning_rate': 6.996773392901465e-06, 'epoch': 1.5}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.400639057159424, 'eval_runtime': 46.2981, 'eval_samples_per_second': 39.699, 'eval_steps_per_second': 9.936, 'epoch': 1.5}
{'loss': 1.581, 'learning_rate': 6.991809381980641e-06, 'epoch': 1.5}
{'loss': 1.4428, 'learning_rate': 6.986845371059818e-06, 'epoch': 1.51}
{'loss': 1.4533, 'learning_rate': 6.981881360138993e-06, 'epoch': 1.51}
{'loss': 1.4913, 'learning_rate': 6.976917349218169e-06, 'epoch': 1.51}
{'loss': 1.5495, 'learning_rate': 6.971953338297344e-06, 'epoch': 1.51}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4077610969543457, 'eval_runtime': 46.149, 'eval_samples_per_second': 39.828, 'eval_steps_per_second': 9.968, 'epoch': 1.51}
{'loss': 1.6884, 'learning_rate': 6.966989327376521e-06, 'epoch': 1.52}
{'loss': 1.3003, 'learning_rate': 6.962025316455697e-06, 'epoch': 1.52}
{'loss': 1.5246, 'learning_rate': 6.957061305534872e-06, 'epoch': 1.52}
{'loss': 1.4734, 'learning_rate': 6.9520972946140485e-06, 'epoch': 1.52}
{'loss': 1.5848, 'learning_rate': 6.947133283693225e-06, 'epoch': 1.53}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3941047191619873, 'eval_runtime': 46.1027, 'eval_samples_per_second': 39.867, 'eval_steps_per_second': 9.978, 'epoch': 1.53}
{'loss': 1.4154, 'learning_rate': 6.9421692727724014e-06, 'epoch': 1.53}
{'loss': 1.4962, 'learning_rate': 6.937205261851576e-06, 'epoch': 1.53}
{'loss': 1.3531, 'learning_rate': 6.932241250930753e-06, 'epoch': 1.53}
{'loss': 1.5367, 'learning_rate': 6.927277240009928e-06, 'epoch': 1.54}
{'loss': 1.6124, 'learning_rate': 6.922313229089105e-06, 'epoch': 1.54}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3973073959350586, 'eval_runtime': 46.1938, 'eval_samples_per_second': 39.789, 'eval_steps_per_second': 9.958, 'epoch': 1.54}
{'loss': 1.5786, 'learning_rate': 6.917349218168281e-06, 'epoch': 1.54}
{'loss': 1.3428, 'learning_rate': 6.912385207247456e-06, 'epoch': 1.54}
{'loss': 1.4998, 'learning_rate': 6.907421196326632e-06, 'epoch': 1.55}
{'loss': 1.4995, 'learning_rate': 6.902457185405809e-06, 'epoch': 1.55}
{'loss': 1.5169, 'learning_rate': 6.897493174484985e-06, 'epoch': 1.55}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4010679721832275, 'eval_runtime': 46.127, 'eval_samples_per_second': 39.847, 'eval_steps_per_second': 9.972, 'epoch': 1.55}
{'loss': 1.605, 'learning_rate': 6.89252916356416e-06, 'epoch': 1.55}
{'loss': 1.5738, 'learning_rate': 6.8875651526433365e-06, 'epoch': 1.56}
{'loss': 1.4738, 'learning_rate': 6.882601141722512e-06, 'epoch': 1.56}
{'loss': 1.3838, 'learning_rate': 6.8776371308016885e-06, 'epoch': 1.56}
{'loss': 1.5066, 'learning_rate': 6.872673119880864e-06, 'epoch': 1.56}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.390493154525757, 'eval_runtime': 46.1249, 'eval_samples_per_second': 39.848, 'eval_steps_per_second': 9.973, 'epoch': 1.56}
{'loss': 1.6462, 'learning_rate': 6.86770910896004e-06, 'epoch': 1.57}
{'loss': 1.5044, 'learning_rate': 6.862745098039216e-06, 'epoch': 1.57}
{'loss': 1.483, 'learning_rate': 6.857781087118393e-06, 'epoch': 1.57}
{'loss': 1.4495, 'learning_rate': 6.8528170761975674e-06, 'epoch': 1.57}
{'loss': 1.4755, 'learning_rate': 6.847853065276744e-06, 'epoch': 1.58}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.398642063140869, 'eval_runtime': 46.1306, 'eval_samples_per_second': 39.843, 'eval_steps_per_second': 9.972, 'epoch': 1.58}
{'loss': 1.3702, 'learning_rate': 6.84288905435592e-06, 'epoch': 1.58}
{'loss': 1.4284, 'learning_rate': 6.837925043435096e-06, 'epoch': 1.58}
{'loss': 1.4311, 'learning_rate': 6.832961032514272e-06, 'epoch': 1.58}
{'loss': 1.4173, 'learning_rate': 6.827997021593448e-06, 'epoch': 1.59}
{'loss': 1.464, 'learning_rate': 6.823033010672624e-06, 'epoch': 1.59}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.394465446472168, 'eval_runtime': 46.2183, 'eval_samples_per_second': 39.768, 'eval_steps_per_second': 9.953, 'epoch': 1.59}
{'loss': 1.5703, 'learning_rate': 6.8180689997518e-06, 'epoch': 1.59}
{'loss': 1.574, 'learning_rate': 6.8131049888309765e-06, 'epoch': 1.59}
{'loss': 1.6579, 'learning_rate': 6.808140977910151e-06, 'epoch': 1.6}
{'loss': 1.6387, 'learning_rate': 6.803176966989328e-06, 'epoch': 1.6}
{'loss': 1.5096, 'learning_rate': 6.798212956068504e-06, 'epoch': 1.6}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.386579990386963, 'eval_runtime': 46.0696, 'eval_samples_per_second': 39.896, 'eval_steps_per_second': 9.985, 'epoch': 1.6}
{'loss': 1.4206, 'learning_rate': 6.79324894514768e-06, 'epoch': 1.6}
{'loss': 1.4114, 'learning_rate': 6.788284934226855e-06, 'epoch': 1.61}
{'loss': 1.3822, 'learning_rate': 6.783320923306032e-06, 'epoch': 1.61}
{'loss': 1.5593, 'learning_rate': 6.7783569123852075e-06, 'epoch': 1.61}
{'loss': 1.6257, 'learning_rate': 6.773392901464384e-06, 'epoch': 1.61}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3787617683410645, 'eval_runtime': 46.1411, 'eval_samples_per_second': 39.834, 'eval_steps_per_second': 9.969, 'epoch': 1.61}
{'loss': 1.5354, 'learning_rate': 6.76842889054356e-06, 'epoch': 1.62}
{'loss': 1.4057, 'learning_rate': 6.763464879622735e-06, 'epoch': 1.62}
{'loss': 1.498, 'learning_rate': 6.7585008687019116e-06, 'epoch': 1.62}
{'loss': 1.4761, 'learning_rate': 6.753536857781088e-06, 'epoch': 1.62}
{'loss': 1.3463, 'learning_rate': 6.748572846860264e-06, 'epoch': 1.63}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.392857551574707, 'eval_runtime': 46.1933, 'eval_samples_per_second': 39.789, 'eval_steps_per_second': 9.958, 'epoch': 1.63}
{'loss': 1.3712, 'learning_rate': 6.743608835939439e-06, 'epoch': 1.63}
{'loss': 1.5837, 'learning_rate': 6.738644825018616e-06, 'epoch': 1.63}
{'loss': 1.537, 'learning_rate': 6.733680814097791e-06, 'epoch': 1.63}
{'loss': 1.502, 'learning_rate': 6.728716803176968e-06, 'epoch': 1.64}
{'loss': 1.3286, 'learning_rate': 6.723752792256143e-06, 'epoch': 1.64}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.385052442550659, 'eval_runtime': 46.115, 'eval_samples_per_second': 39.857, 'eval_steps_per_second': 9.975, 'epoch': 1.64}
{'loss': 1.4214, 'learning_rate': 6.718788781335319e-06, 'epoch': 1.64}
{'loss': 1.5048, 'learning_rate': 6.713824770414495e-06, 'epoch': 1.64}
{'loss': 1.4666, 'learning_rate': 6.708860759493672e-06, 'epoch': 1.65}
{'loss': 1.4964, 'learning_rate': 6.7038967485728475e-06, 'epoch': 1.65}
{'loss': 1.4749, 'learning_rate': 6.698932737652023e-06, 'epoch': 1.65}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4041812419891357, 'eval_runtime': 46.0783, 'eval_samples_per_second': 39.889, 'eval_steps_per_second': 9.983, 'epoch': 1.65}
{'loss': 1.6094, 'learning_rate': 6.6939687267311995e-06, 'epoch': 1.65}
{'loss': 1.3643, 'learning_rate': 6.689004715810375e-06, 'epoch': 1.66}
{'loss': 1.479, 'learning_rate': 6.684040704889552e-06, 'epoch': 1.66}
{'loss': 1.4093, 'learning_rate': 6.679076693968727e-06, 'epoch': 1.66}
{'loss': 1.4865, 'learning_rate': 6.674112683047903e-06, 'epoch': 1.66}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3912978172302246, 'eval_runtime': 46.2227, 'eval_samples_per_second': 39.764, 'eval_steps_per_second': 9.952, 'epoch': 1.66}
{'loss': 1.4613, 'learning_rate': 6.669148672127079e-06, 'epoch': 1.67}
{'loss': 1.5127, 'learning_rate': 6.664184661206256e-06, 'epoch': 1.67}
{'loss': 1.4593, 'learning_rate': 6.6592206502854305e-06, 'epoch': 1.67}
{'loss': 1.6418, 'learning_rate': 6.654256639364607e-06, 'epoch': 1.67}
{'loss': 1.4766, 'learning_rate': 6.649292628443783e-06, 'epoch': 1.68}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3940606117248535, 'eval_runtime': 46.2081, 'eval_samples_per_second': 39.777, 'eval_steps_per_second': 9.955, 'epoch': 1.68}
{'loss': 1.6654, 'learning_rate': 6.644328617522959e-06, 'epoch': 1.68}
{'loss': 1.4758, 'learning_rate': 6.6393646066021354e-06, 'epoch': 1.68}
{'loss': 1.5264, 'learning_rate': 6.634400595681311e-06, 'epoch': 1.68}
{'loss': 1.5405, 'learning_rate': 6.629436584760487e-06, 'epoch': 1.69}
{'loss': 1.5456, 'learning_rate': 6.624472573839663e-06, 'epoch': 1.69}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3743815422058105, 'eval_runtime': 46.1092, 'eval_samples_per_second': 39.862, 'eval_steps_per_second': 9.976, 'epoch': 1.69}
{'loss': 1.6522, 'learning_rate': 6.6195085629188396e-06, 'epoch': 1.69}
{'loss': 1.3735, 'learning_rate': 6.614544551998014e-06, 'epoch': 1.69}
{'loss': 1.6475, 'learning_rate': 6.609580541077191e-06, 'epoch': 1.7}
{'loss': 1.4425, 'learning_rate': 6.604616530156367e-06, 'epoch': 1.7}
{'loss': 1.4777, 'learning_rate': 6.599652519235543e-06, 'epoch': 1.7}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3886911869049072, 'eval_runtime': 46.1816, 'eval_samples_per_second': 39.799, 'eval_steps_per_second': 9.961, 'epoch': 1.7}
{'loss': 1.4922, 'learning_rate': 6.5946885083147184e-06, 'epoch': 1.7}
{'loss': 1.4504, 'learning_rate': 6.589724497393895e-06, 'epoch': 1.71}
{'loss': 1.3537, 'learning_rate': 6.5847604864730705e-06, 'epoch': 1.71}
{'loss': 1.6407, 'learning_rate': 6.579796475552247e-06, 'epoch': 1.71}
{'loss': 1.5946, 'learning_rate': 6.574832464631423e-06, 'epoch': 1.71}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3780179023742676, 'eval_runtime': 46.1453, 'eval_samples_per_second': 39.831, 'eval_steps_per_second': 9.969, 'epoch': 1.71}
{'loss': 1.5636, 'learning_rate': 6.569868453710598e-06, 'epoch': 1.72}
{'loss': 1.53, 'learning_rate': 6.564904442789775e-06, 'epoch': 1.72}
{'loss': 1.5274, 'learning_rate': 6.559940431868951e-06, 'epoch': 1.72}
{'loss': 1.5811, 'learning_rate': 6.554976420948127e-06, 'epoch': 1.72}
{'loss': 1.6844, 'learning_rate': 6.550012410027302e-06, 'epoch': 1.72}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3878843784332275, 'eval_runtime': 46.1076, 'eval_samples_per_second': 39.863, 'eval_steps_per_second': 9.977, 'epoch': 1.72}
{'loss': 1.3283, 'learning_rate': 6.545048399106479e-06, 'epoch': 1.73}
{'loss': 1.4301, 'learning_rate': 6.540084388185654e-06, 'epoch': 1.73}
{'loss': 1.2654, 'learning_rate': 6.535120377264831e-06, 'epoch': 1.73}
{'loss': 1.5185, 'learning_rate': 6.5301563663440056e-06, 'epoch': 1.73}
{'loss': 1.495, 'learning_rate': 6.525192355423182e-06, 'epoch': 1.74}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4016058444976807, 'eval_runtime': 46.1146, 'eval_samples_per_second': 39.857, 'eval_steps_per_second': 9.975, 'epoch': 1.74}
{'loss': 1.4433, 'learning_rate': 6.5202283445023585e-06, 'epoch': 1.74}
{'loss': 1.5107, 'learning_rate': 6.515264333581535e-06, 'epoch': 1.74}
{'loss': 1.4208, 'learning_rate': 6.5103003226607105e-06, 'epoch': 1.74}
{'loss': 1.4922, 'learning_rate': 6.505336311739886e-06, 'epoch': 1.75}
{'loss': 1.4879, 'learning_rate': 6.500372300819063e-06, 'epoch': 1.75}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.388087272644043, 'eval_runtime': 46.2074, 'eval_samples_per_second': 39.777, 'eval_steps_per_second': 9.955, 'epoch': 1.75}
{'loss': 1.3579, 'learning_rate': 6.495408289898238e-06, 'epoch': 1.75}
{'loss': 1.6024, 'learning_rate': 6.490444278977415e-06, 'epoch': 1.75}
{'loss': 1.3862, 'learning_rate': 6.485480268056589e-06, 'epoch': 1.76}
{'loss': 1.4416, 'learning_rate': 6.480516257135766e-06, 'epoch': 1.76}
{'loss': 1.5817, 'learning_rate': 6.475552246214942e-06, 'epoch': 1.76}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3927114009857178, 'eval_runtime': 46.1975, 'eval_samples_per_second': 39.786, 'eval_steps_per_second': 9.957, 'epoch': 1.76}
{'loss': 1.5076, 'learning_rate': 6.470588235294119e-06, 'epoch': 1.76}
{'loss': 1.4, 'learning_rate': 6.4656242243732935e-06, 'epoch': 1.77}
{'loss': 1.4924, 'learning_rate': 6.46066021345247e-06, 'epoch': 1.77}
{'loss': 1.7479, 'learning_rate': 6.4556962025316464e-06, 'epoch': 1.77}
{'loss': 1.6047, 'learning_rate': 6.450732191610822e-06, 'epoch': 1.77}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.383432626724243, 'eval_runtime': 46.2332, 'eval_samples_per_second': 39.755, 'eval_steps_per_second': 9.95, 'epoch': 1.77}
{'loss': 1.5154, 'learning_rate': 6.4457681806899985e-06, 'epoch': 1.78}
{'loss': 1.5104, 'learning_rate': 6.440804169769173e-06, 'epoch': 1.78}
{'loss': 1.3526, 'learning_rate': 6.43584015884835e-06, 'epoch': 1.78}
{'loss': 1.584, 'learning_rate': 6.430876147927526e-06, 'epoch': 1.78}
{'loss': 1.3515, 'learning_rate': 6.425912137006703e-06, 'epoch': 1.79}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.406689405441284, 'eval_runtime': 46.1592, 'eval_samples_per_second': 39.819, 'eval_steps_per_second': 9.966, 'epoch': 1.79}
{'loss': 1.6611, 'learning_rate': 6.420948126085877e-06, 'epoch': 1.79}
{'loss': 1.4121, 'learning_rate': 6.415984115165054e-06, 'epoch': 1.79}
{'loss': 1.5124, 'learning_rate': 6.41102010424423e-06, 'epoch': 1.79}
{'loss': 1.5561, 'learning_rate': 6.406056093323406e-06, 'epoch': 1.8}
{'loss': 1.5987, 'learning_rate': 6.4010920824025815e-06, 'epoch': 1.8}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.389758348464966, 'eval_runtime': 46.3172, 'eval_samples_per_second': 39.683, 'eval_steps_per_second': 9.932, 'epoch': 1.8}
{'loss': 1.5343, 'learning_rate': 6.396128071481757e-06, 'epoch': 1.8}
{'loss': 1.6254, 'learning_rate': 6.3911640605609336e-06, 'epoch': 1.8}
{'loss': 1.4679, 'learning_rate': 6.38620004964011e-06, 'epoch': 1.81}
{'loss': 1.5404, 'learning_rate': 6.3812360387192865e-06, 'epoch': 1.81}
{'loss': 1.3711, 'learning_rate': 6.376272027798461e-06, 'epoch': 1.81}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.390166997909546, 'eval_runtime': 46.1755, 'eval_samples_per_second': 39.805, 'eval_steps_per_second': 9.962, 'epoch': 1.81}
{'loss': 1.5907, 'learning_rate': 6.371308016877638e-06, 'epoch': 1.81}
{'loss': 1.7835, 'learning_rate': 6.366344005956814e-06, 'epoch': 1.82}
{'loss': 1.341, 'learning_rate': 6.36137999503599e-06, 'epoch': 1.82}
{'loss': 1.5988, 'learning_rate': 6.356415984115165e-06, 'epoch': 1.82}
{'loss': 1.3625, 'learning_rate': 6.351451973194341e-06, 'epoch': 1.82}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.4024770259857178, 'eval_runtime': 46.1719, 'eval_samples_per_second': 39.808, 'eval_steps_per_second': 9.963, 'epoch': 1.82}
{'loss': 1.4561, 'learning_rate': 6.346487962273517e-06, 'epoch': 1.83}
{'loss': 1.5625, 'learning_rate': 6.341523951352694e-06, 'epoch': 1.83}
{'loss': 1.4513, 'learning_rate': 6.336559940431869e-06, 'epoch': 1.83}
{'loss': 1.5978, 'learning_rate': 6.331595929511045e-06, 'epoch': 1.83}
{'loss': 1.4754, 'learning_rate': 6.3266319185902215e-06, 'epoch': 1.84}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.392521381378174, 'eval_runtime': 46.1167, 'eval_samples_per_second': 39.855, 'eval_steps_per_second': 9.975, 'epoch': 1.84}
{'loss': 1.3047, 'learning_rate': 6.321667907669398e-06, 'epoch': 1.84}
{'loss': 1.533, 'learning_rate': 6.316703896748574e-06, 'epoch': 1.84}
{'loss': 1.7329, 'learning_rate': 6.311739885827749e-06, 'epoch': 1.84}
{'loss': 1.4194, 'learning_rate': 6.306775874906925e-06, 'epoch': 1.85}
{'loss': 1.5964, 'learning_rate': 6.301811863986101e-06, 'epoch': 1.85}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3772048950195312, 'eval_runtime': 46.1771, 'eval_samples_per_second': 39.803, 'eval_steps_per_second': 9.962, 'epoch': 1.85}
{'loss': 1.5581, 'learning_rate': 6.296847853065278e-06, 'epoch': 1.85}
{'loss': 1.547, 'learning_rate': 6.2918838421444525e-06, 'epoch': 1.85}
{'loss': 1.5439, 'learning_rate': 6.286919831223629e-06, 'epoch': 1.86}
{'loss': 1.5078, 'learning_rate': 6.281955820302805e-06, 'epoch': 1.86}
{'loss': 1.5061, 'learning_rate': 6.276991809381982e-06, 'epoch': 1.86}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3882052898406982, 'eval_runtime': 46.0272, 'eval_samples_per_second': 39.933, 'eval_steps_per_second': 9.994, 'epoch': 1.86}
{'loss': 1.4118, 'learning_rate': 6.272027798461157e-06, 'epoch': 1.86}
{'loss': 1.5691, 'learning_rate': 6.267063787540333e-06, 'epoch': 1.87}
{'loss': 1.63, 'learning_rate': 6.2620997766195095e-06, 'epoch': 1.87}
{'loss': 1.6975, 'learning_rate': 6.257135765698685e-06, 'epoch': 1.87}
{'loss': 1.4527, 'learning_rate': 6.2521717547778616e-06, 'epoch': 1.87}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.367861270904541, 'eval_runtime': 46.161, 'eval_samples_per_second': 39.817, 'eval_steps_per_second': 9.965, 'epoch': 1.87}
{'loss': 1.4991, 'learning_rate': 6.247207743857036e-06, 'epoch': 1.88}
{'loss': 1.4357, 'learning_rate': 6.242243732936213e-06, 'epoch': 1.88}
{'loss': 1.3937, 'learning_rate': 6.237279722015389e-06, 'epoch': 1.88}
{'loss': 1.5488, 'learning_rate': 6.232315711094566e-06, 'epoch': 1.88}
{'loss': 1.4551, 'learning_rate': 6.2273517001737404e-06, 'epoch': 1.89}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.402015209197998, 'eval_runtime': 46.0771, 'eval_samples_per_second': 39.89, 'eval_steps_per_second': 9.983, 'epoch': 1.89}
{'loss': 1.3611, 'learning_rate': 6.222387689252917e-06, 'epoch': 1.89}
{'loss': 1.4228, 'learning_rate': 6.217423678332093e-06, 'epoch': 1.89}
{'loss': 1.5629, 'learning_rate': 6.212459667411269e-06, 'epoch': 1.89}
{'loss': 1.4223, 'learning_rate': 6.2074956564904446e-06, 'epoch': 1.9}
{'loss': 1.5649, 'learning_rate': 6.20253164556962e-06, 'epoch': 1.9}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.385979652404785, 'eval_runtime': 46.3005, 'eval_samples_per_second': 39.697, 'eval_steps_per_second': 9.935, 'epoch': 1.9}
{'loss': 1.3779, 'learning_rate': 6.197567634648797e-06, 'epoch': 1.9}
{'loss': 1.5715, 'learning_rate': 6.192603623727973e-06, 'epoch': 1.9}
{'loss': 1.7149, 'learning_rate': 6.1876396128071495e-06, 'epoch': 1.91}
{'loss': 1.5908, 'learning_rate': 6.182675601886324e-06, 'epoch': 1.91}
{'loss': 1.5276, 'learning_rate': 6.177711590965501e-06, 'epoch': 1.91}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.375685214996338, 'eval_runtime': 46.1596, 'eval_samples_per_second': 39.818, 'eval_steps_per_second': 9.965, 'epoch': 1.91}
{'loss': 1.6423, 'learning_rate': 6.172747580044677e-06, 'epoch': 1.91}
{'loss': 1.4309, 'learning_rate': 6.167783569123853e-06, 'epoch': 1.92}
{'loss': 1.5049, 'learning_rate': 6.162819558203028e-06, 'epoch': 1.92}
{'loss': 1.5637, 'learning_rate': 6.157855547282204e-06, 'epoch': 1.92}
{'loss': 1.5147, 'learning_rate': 6.1528915363613805e-06, 'epoch': 1.92}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3835861682891846, 'eval_runtime': 46.0585, 'eval_samples_per_second': 39.906, 'eval_steps_per_second': 9.987, 'epoch': 1.92}
{'loss': 1.4903, 'learning_rate': 6.147927525440557e-06, 'epoch': 1.93}
{'loss': 1.4536, 'learning_rate': 6.142963514519732e-06, 'epoch': 1.93}
{'loss': 1.5784, 'learning_rate': 6.137999503598908e-06, 'epoch': 1.93}
{'loss': 1.4952, 'learning_rate': 6.133035492678085e-06, 'epoch': 1.93}
{'loss': 1.5216, 'learning_rate': 6.128071481757261e-06, 'epoch': 1.94}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.381978750228882, 'eval_runtime': 46.0176, 'eval_samples_per_second': 39.941, 'eval_steps_per_second': 9.996, 'epoch': 1.94}
{'loss': 1.5845, 'learning_rate': 6.123107470836437e-06, 'epoch': 1.94}
{'loss': 1.4669, 'learning_rate': 6.118143459915612e-06, 'epoch': 1.94}
{'loss': 1.5977, 'learning_rate': 6.113179448994788e-06, 'epoch': 1.94}
{'loss': 1.5481, 'learning_rate': 6.108215438073964e-06, 'epoch': 1.95}
{'loss': 1.6013, 'learning_rate': 6.103251427153141e-06, 'epoch': 1.95}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3810505867004395, 'eval_runtime': 46.1477, 'eval_samples_per_second': 39.829, 'eval_steps_per_second': 9.968, 'epoch': 1.95}
{'loss': 1.5912, 'learning_rate': 6.0982874162323155e-06, 'epoch': 1.95}
{'loss': 1.357, 'learning_rate': 6.093323405311492e-06, 'epoch': 1.95}
{'loss': 1.4092, 'learning_rate': 6.0883593943906684e-06, 'epoch': 1.96}
{'loss': 1.5311, 'learning_rate': 6.083395383469845e-06, 'epoch': 1.96}
{'loss': 1.4271, 'learning_rate': 6.07843137254902e-06, 'epoch': 1.96}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3798341751098633, 'eval_runtime': 46.0386, 'eval_samples_per_second': 39.923, 'eval_steps_per_second': 9.992, 'epoch': 1.96}
{'loss': 1.575, 'learning_rate': 6.073467361628196e-06, 'epoch': 1.96}
{'loss': 1.5922, 'learning_rate': 6.068503350707372e-06, 'epoch': 1.97}
{'loss': 1.6396, 'learning_rate': 6.063539339786548e-06, 'epoch': 1.97}
{'loss': 1.4903, 'learning_rate': 6.058575328865725e-06, 'epoch': 1.97}
{'loss': 1.3828, 'learning_rate': 6.053611317944899e-06, 'epoch': 1.97}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3750388622283936, 'eval_runtime': 46.1671, 'eval_samples_per_second': 39.812, 'eval_steps_per_second': 9.964, 'epoch': 1.97}
{'loss': 1.3644, 'learning_rate': 6.048647307024076e-06, 'epoch': 1.98}
{'loss': 1.3659, 'learning_rate': 6.043683296103252e-06, 'epoch': 1.98}
{'loss': 1.6601, 'learning_rate': 6.038719285182429e-06, 'epoch': 1.98}
{'loss': 1.519, 'learning_rate': 6.0337552742616035e-06, 'epoch': 1.98}
{'loss': 1.6374, 'learning_rate': 6.02879126334078e-06, 'epoch': 1.99}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3818702697753906, 'eval_runtime': 46.2134, 'eval_samples_per_second': 39.772, 'eval_steps_per_second': 9.954, 'epoch': 1.99}
{'loss': 1.5762, 'learning_rate': 6.0238272524199555e-06, 'epoch': 1.99}
{'loss': 1.4947, 'learning_rate': 6.018863241499132e-06, 'epoch': 1.99}
{'loss': 1.6127, 'learning_rate': 6.013899230578308e-06, 'epoch': 1.99}
{'loss': 1.4255, 'learning_rate': 6.008935219657483e-06, 'epoch': 2.0}
{'loss': 1.5373, 'learning_rate': 6.00397120873666e-06, 'epoch': 2.0}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.3796396255493164, 'eval_runtime': 46.3341, 'eval_samples_per_second': 39.668, 'eval_steps_per_second': 9.928, 'epoch': 2.0}
{'loss': 1.4797, 'learning_rate': 5.999007197815836e-06, 'epoch': 2.0}
{'loss': 0.915, 'learning_rate': 5.9940431868950126e-06, 'epoch': 2.0}
{'loss': 0.7856, 'learning_rate': 5.989079175974187e-06, 'epoch': 2.01}
{'loss': 0.7321, 'learning_rate': 5.984115165053364e-06, 'epoch': 2.01}
{'loss': 0.4886, 'learning_rate': 5.979151154132539e-06, 'epoch': 2.01}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.688206672668457, 'eval_runtime': 46.0317, 'eval_samples_per_second': 39.929, 'eval_steps_per_second': 9.993, 'epoch': 2.01}
{'loss': 0.5382, 'learning_rate': 5.974187143211716e-06, 'epoch': 2.01}
{'loss': 0.6479, 'learning_rate': 5.9692231322908915e-06, 'epoch': 2.02}
{'loss': 0.5723, 'learning_rate': 5.964259121370067e-06, 'epoch': 2.02}
{'loss': 0.7507, 'learning_rate': 5.9592951104492435e-06, 'epoch': 2.02}
{'loss': 0.5983, 'learning_rate': 5.95433109952842e-06, 'epoch': 2.02}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.674424886703491, 'eval_runtime': 46.1577, 'eval_samples_per_second': 39.82, 'eval_steps_per_second': 9.966, 'epoch': 2.02}
{'loss': 0.707, 'learning_rate': 5.949367088607595e-06, 'epoch': 2.03}
{'loss': 0.7041, 'learning_rate': 5.944403077686771e-06, 'epoch': 2.03}
{'loss': 0.6517, 'learning_rate': 5.939439066765948e-06, 'epoch': 2.03}
{'loss': 0.6481, 'learning_rate': 5.934475055845123e-06, 'epoch': 2.03}
{'loss': 0.7212, 'learning_rate': 5.9295110449243e-06, 'epoch': 2.04}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7085957527160645, 'eval_runtime': 46.0997, 'eval_samples_per_second': 39.87, 'eval_steps_per_second': 9.978, 'epoch': 2.04}
{'loss': 0.6762, 'learning_rate': 5.924547034003475e-06, 'epoch': 2.04}
{'loss': 0.6969, 'learning_rate': 5.919583023082651e-06, 'epoch': 2.04}
{'loss': 0.6579, 'learning_rate': 5.914619012161827e-06, 'epoch': 2.04}
{'loss': 0.6158, 'learning_rate': 5.909655001241004e-06, 'epoch': 2.05}
{'loss': 0.6357, 'learning_rate': 5.9046909903201786e-06, 'epoch': 2.05}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.69295072555542, 'eval_runtime': 46.0901, 'eval_samples_per_second': 39.878, 'eval_steps_per_second': 9.98, 'epoch': 2.05}
{'loss': 0.5855, 'learning_rate': 5.899726979399355e-06, 'epoch': 2.05}
{'loss': 0.6129, 'learning_rate': 5.8947629684785315e-06, 'epoch': 2.05}
{'loss': 0.6888, 'learning_rate': 5.889798957557707e-06, 'epoch': 2.06}
{'loss': 0.7821, 'learning_rate': 5.884834946636883e-06, 'epoch': 2.06}
{'loss': 0.6002, 'learning_rate': 5.879870935716059e-06, 'epoch': 2.06}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7088394165039062, 'eval_runtime': 46.1466, 'eval_samples_per_second': 39.83, 'eval_steps_per_second': 9.968, 'epoch': 2.06}
{'loss': 0.7612, 'learning_rate': 5.874906924795235e-06, 'epoch': 2.06}
{'loss': 0.6863, 'learning_rate': 5.869942913874411e-06, 'epoch': 2.07}
{'loss': 0.665, 'learning_rate': 5.864978902953588e-06, 'epoch': 2.07}
{'loss': 0.7097, 'learning_rate': 5.860014892032762e-06, 'epoch': 2.07}
{'loss': 0.6464, 'learning_rate': 5.855050881111939e-06, 'epoch': 2.07}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.6915907859802246, 'eval_runtime': 46.0503, 'eval_samples_per_second': 39.913, 'eval_steps_per_second': 9.989, 'epoch': 2.07}
{'loss': 0.7655, 'learning_rate': 5.850086870191115e-06, 'epoch': 2.07}
{'loss': 0.5574, 'learning_rate': 5.845122859270291e-06, 'epoch': 2.08}
{'loss': 0.6387, 'learning_rate': 5.8401588483494665e-06, 'epoch': 2.08}
{'loss': 0.7483, 'learning_rate': 5.835194837428643e-06, 'epoch': 2.08}
{'loss': 0.7018, 'learning_rate': 5.830230826507819e-06, 'epoch': 2.08}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7139501571655273, 'eval_runtime': 46.1394, 'eval_samples_per_second': 39.836, 'eval_steps_per_second': 9.97, 'epoch': 2.08}
{'loss': 0.5181, 'learning_rate': 5.825266815586995e-06, 'epoch': 2.09}
{'loss': 0.6177, 'learning_rate': 5.820302804666171e-06, 'epoch': 2.09}
{'loss': 0.7288, 'learning_rate': 5.815338793745346e-06, 'epoch': 2.09}
{'loss': 0.6537, 'learning_rate': 5.810374782824523e-06, 'epoch': 2.09}
{'loss': 0.7231, 'learning_rate': 5.805410771903699e-06, 'epoch': 2.1}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7049007415771484, 'eval_runtime': 46.3079, 'eval_samples_per_second': 39.691, 'eval_steps_per_second': 9.934, 'epoch': 2.1}
{'loss': 0.6908, 'learning_rate': 5.800446760982875e-06, 'epoch': 2.1}
{'loss': 0.6256, 'learning_rate': 5.79548275006205e-06, 'epoch': 2.1}
{'loss': 0.6055, 'learning_rate': 5.790518739141227e-06, 'epoch': 2.1}
{'loss': 0.7513, 'learning_rate': 5.7855547282204024e-06, 'epoch': 2.11}
{'loss': 0.6735, 'learning_rate': 5.780590717299579e-06, 'epoch': 2.11}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7176730632781982, 'eval_runtime': 45.987, 'eval_samples_per_second': 39.968, 'eval_steps_per_second': 10.003, 'epoch': 2.11}
{'loss': 0.6832, 'learning_rate': 5.7756267063787545e-06, 'epoch': 2.11}
{'loss': 0.7858, 'learning_rate': 5.77066269545793e-06, 'epoch': 2.11}
{'loss': 0.7815, 'learning_rate': 5.7656986845371066e-06, 'epoch': 2.12}
{'loss': 0.6917, 'learning_rate': 5.760734673616283e-06, 'epoch': 2.12}
{'loss': 0.596, 'learning_rate': 5.755770662695458e-06, 'epoch': 2.12}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.6967294216156006, 'eval_runtime': 46.1189, 'eval_samples_per_second': 39.854, 'eval_steps_per_second': 9.974, 'epoch': 2.12}
{'loss': 0.5898, 'learning_rate': 5.750806651774634e-06, 'epoch': 2.12}
{'loss': 0.8365, 'learning_rate': 5.745842640853811e-06, 'epoch': 2.13}
{'loss': 0.5961, 'learning_rate': 5.740878629932986e-06, 'epoch': 2.13}
{'loss': 0.6484, 'learning_rate': 5.735914619012163e-06, 'epoch': 2.13}
{'loss': 0.6441, 'learning_rate': 5.730950608091338e-06, 'epoch': 2.13}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.704603672027588, 'eval_runtime': 46.1318, 'eval_samples_per_second': 39.842, 'eval_steps_per_second': 9.971, 'epoch': 2.13}
{'loss': 0.6348, 'learning_rate': 5.725986597170514e-06, 'epoch': 2.14}
{'loss': 0.6119, 'learning_rate': 5.72102258624969e-06, 'epoch': 2.14}
{'loss': 0.7749, 'learning_rate': 5.716058575328867e-06, 'epoch': 2.14}
{'loss': 0.7291, 'learning_rate': 5.711094564408042e-06, 'epoch': 2.14}
{'loss': 0.6166, 'learning_rate': 5.706130553487218e-06, 'epoch': 2.15}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.6989951133728027, 'eval_runtime': 46.0447, 'eval_samples_per_second': 39.918, 'eval_steps_per_second': 9.99, 'epoch': 2.15}
{'loss': 0.7312, 'learning_rate': 5.7011665425663945e-06, 'epoch': 2.15}
{'loss': 0.7491, 'learning_rate': 5.69620253164557e-06, 'epoch': 2.15}
{'loss': 0.6294, 'learning_rate': 5.691238520724746e-06, 'epoch': 2.15}
{'loss': 0.7198, 'learning_rate': 5.686274509803922e-06, 'epoch': 2.16}
{'loss': 0.6892, 'learning_rate': 5.681310498883098e-06, 'epoch': 2.16}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.703975200653076, 'eval_runtime': 46.1198, 'eval_samples_per_second': 39.853, 'eval_steps_per_second': 9.974, 'epoch': 2.16}
{'loss': 0.7718, 'learning_rate': 5.676346487962274e-06, 'epoch': 2.16}
{'loss': 0.7195, 'learning_rate': 5.671382477041451e-06, 'epoch': 2.16}
{'loss': 0.7266, 'learning_rate': 5.6664184661206255e-06, 'epoch': 2.17}
{'loss': 0.6084, 'learning_rate': 5.661454455199802e-06, 'epoch': 2.17}
{'loss': 0.66, 'learning_rate': 5.656490444278978e-06, 'epoch': 2.17}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7147586345672607, 'eval_runtime': 45.9918, 'eval_samples_per_second': 39.964, 'eval_steps_per_second': 10.002, 'epoch': 2.17}
{'loss': 0.647, 'learning_rate': 5.651526433358154e-06, 'epoch': 2.17}
{'loss': 0.6593, 'learning_rate': 5.64656242243733e-06, 'epoch': 2.18}
{'loss': 0.5302, 'learning_rate': 5.641598411516506e-06, 'epoch': 2.18}
{'loss': 0.7249, 'learning_rate': 5.636634400595682e-06, 'epoch': 2.18}
{'loss': 0.6629, 'learning_rate': 5.631670389674858e-06, 'epoch': 2.18}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7277162075042725, 'eval_runtime': 46.0324, 'eval_samples_per_second': 39.928, 'eval_steps_per_second': 9.993, 'epoch': 2.18}
{'loss': 0.6111, 'learning_rate': 5.626706378754033e-06, 'epoch': 2.19}
{'loss': 0.7696, 'learning_rate': 5.621742367833209e-06, 'epoch': 2.19}
{'loss': 0.6601, 'learning_rate': 5.616778356912386e-06, 'epoch': 2.19}
{'loss': 0.5619, 'learning_rate': 5.611814345991562e-06, 'epoch': 2.19}
{'loss': 0.5721, 'learning_rate': 5.606850335070737e-06, 'epoch': 2.2}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7470223903656006, 'eval_runtime': 46.2806, 'eval_samples_per_second': 39.714, 'eval_steps_per_second': 9.939, 'epoch': 2.2}
{'loss': 0.6123, 'learning_rate': 5.6018863241499134e-06, 'epoch': 2.2}
{'loss': 0.7054, 'learning_rate': 5.59692231322909e-06, 'epoch': 2.2}
{'loss': 0.6853, 'learning_rate': 5.5919583023082655e-06, 'epoch': 2.2}
{'loss': 0.626, 'learning_rate': 5.586994291387442e-06, 'epoch': 2.21}
{'loss': 0.5385, 'learning_rate': 5.582030280466617e-06, 'epoch': 2.21}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.721324920654297, 'eval_runtime': 46.0156, 'eval_samples_per_second': 39.943, 'eval_steps_per_second': 9.997, 'epoch': 2.21}
{'loss': 0.6422, 'learning_rate': 5.577066269545793e-06, 'epoch': 2.21}
{'loss': 0.7092, 'learning_rate': 5.57210225862497e-06, 'epoch': 2.21}
{'loss': 0.7841, 'learning_rate': 5.567138247704146e-06, 'epoch': 2.22}
{'loss': 0.6731, 'learning_rate': 5.562174236783321e-06, 'epoch': 2.22}
{'loss': 0.5977, 'learning_rate': 5.557210225862497e-06, 'epoch': 2.22}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.702488899230957, 'eval_runtime': 46.1061, 'eval_samples_per_second': 39.865, 'eval_steps_per_second': 9.977, 'epoch': 2.22}
{'loss': 0.7012, 'learning_rate': 5.552246214941674e-06, 'epoch': 2.22}
{'loss': 0.6295, 'learning_rate': 5.547282204020849e-06, 'epoch': 2.23}
{'loss': 0.7117, 'learning_rate': 5.542318193100025e-06, 'epoch': 2.23}
{'loss': 0.656, 'learning_rate': 5.5373541821792006e-06, 'epoch': 2.23}
{'loss': 0.6803, 'learning_rate': 5.532390171258377e-06, 'epoch': 2.23}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7323288917541504, 'eval_runtime': 46.0573, 'eval_samples_per_second': 39.907, 'eval_steps_per_second': 9.988, 'epoch': 2.23}
{'loss': 0.746, 'learning_rate': 5.5274261603375535e-06, 'epoch': 2.24}
{'loss': 0.7722, 'learning_rate': 5.52246214941673e-06, 'epoch': 2.24}
{'loss': 0.7381, 'learning_rate': 5.517498138495905e-06, 'epoch': 2.24}
{'loss': 0.6852, 'learning_rate': 5.512534127575081e-06, 'epoch': 2.24}
{'loss': 0.6581, 'learning_rate': 5.507570116654258e-06, 'epoch': 2.25}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.709369421005249, 'eval_runtime': 46.0713, 'eval_samples_per_second': 39.895, 'eval_steps_per_second': 9.985, 'epoch': 2.25}
{'loss': 0.594, 'learning_rate': 5.502606105733433e-06, 'epoch': 2.25}
{'loss': 0.5769, 'learning_rate': 5.497642094812609e-06, 'epoch': 2.25}
{'loss': 0.7643, 'learning_rate': 5.492678083891784e-06, 'epoch': 2.25}
{'loss': 0.6532, 'learning_rate': 5.487714072970961e-06, 'epoch': 2.26}
{'loss': 0.5027, 'learning_rate': 5.482750062050137e-06, 'epoch': 2.26}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7489500045776367, 'eval_runtime': 46.1559, 'eval_samples_per_second': 39.822, 'eval_steps_per_second': 9.966, 'epoch': 2.26}
{'loss': 0.7113, 'learning_rate': 5.477786051129312e-06, 'epoch': 2.26}
{'loss': 0.6051, 'learning_rate': 5.4728220402084885e-06, 'epoch': 2.26}
{'loss': 0.7623, 'learning_rate': 5.467858029287665e-06, 'epoch': 2.27}
{'loss': 0.681, 'learning_rate': 5.4628940183668414e-06, 'epoch': 2.27}
{'loss': 0.6368, 'learning_rate': 5.457930007446017e-06, 'epoch': 2.27}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7066709995269775, 'eval_runtime': 46.1003, 'eval_samples_per_second': 39.87, 'eval_steps_per_second': 9.978, 'epoch': 2.27}
{'loss': 0.6842, 'learning_rate': 5.452965996525193e-06, 'epoch': 2.27}
{'loss': 0.704, 'learning_rate': 5.448001985604368e-06, 'epoch': 2.28}
{'loss': 0.7297, 'learning_rate': 5.443037974683545e-06, 'epoch': 2.28}
{'loss': 0.6981, 'learning_rate': 5.438073963762721e-06, 'epoch': 2.28}
{'loss': 0.6849, 'learning_rate': 5.433109952841896e-06, 'epoch': 2.28}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.734955310821533, 'eval_runtime': 46.1056, 'eval_samples_per_second': 39.865, 'eval_steps_per_second': 9.977, 'epoch': 2.28}
{'loss': 0.6863, 'learning_rate': 5.428145941921072e-06, 'epoch': 2.29}
{'loss': 0.605, 'learning_rate': 5.423181931000249e-06, 'epoch': 2.29}
{'loss': 0.5935, 'learning_rate': 5.418217920079425e-06, 'epoch': 2.29}
{'loss': 0.6759, 'learning_rate': 5.4132539091586e-06, 'epoch': 2.29}
{'loss': 0.6301, 'learning_rate': 5.4082898982377765e-06, 'epoch': 2.3}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7216951847076416, 'eval_runtime': 46.0783, 'eval_samples_per_second': 39.889, 'eval_steps_per_second': 9.983, 'epoch': 2.3}
{'loss': 0.7192, 'learning_rate': 5.403325887316952e-06, 'epoch': 2.3}
{'loss': 0.7149, 'learning_rate': 5.3983618763961286e-06, 'epoch': 2.3}
{'loss': 0.7786, 'learning_rate': 5.393397865475305e-06, 'epoch': 2.3}
{'loss': 0.576, 'learning_rate': 5.38843385455448e-06, 'epoch': 2.31}
{'loss': 0.6392, 'learning_rate': 5.383469843633656e-06, 'epoch': 2.31}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.719653844833374, 'eval_runtime': 46.0501, 'eval_samples_per_second': 39.913, 'eval_steps_per_second': 9.989, 'epoch': 2.31}
{'loss': 0.6218, 'learning_rate': 5.378505832712833e-06, 'epoch': 2.31}
{'loss': 0.7009, 'learning_rate': 5.373541821792009e-06, 'epoch': 2.31}
{'loss': 0.6625, 'learning_rate': 5.368577810871184e-06, 'epoch': 2.32}
{'loss': 0.6041, 'learning_rate': 5.36361379995036e-06, 'epoch': 2.32}
{'loss': 0.6594, 'learning_rate': 5.358649789029536e-06, 'epoch': 2.32}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7444117069244385, 'eval_runtime': 46.0154, 'eval_samples_per_second': 39.943, 'eval_steps_per_second': 9.997, 'epoch': 2.32}
{'loss': 0.7906, 'learning_rate': 5.353685778108712e-06, 'epoch': 2.32}
{'loss': 0.6785, 'learning_rate': 5.348721767187888e-06, 'epoch': 2.33}
{'loss': 0.6979, 'learning_rate': 5.343757756267064e-06, 'epoch': 2.33}
{'loss': 0.6753, 'learning_rate': 5.33879374534624e-06, 'epoch': 2.33}
{'loss': 0.6653, 'learning_rate': 5.3338297344254165e-06, 'epoch': 2.33}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.730473518371582, 'eval_runtime': 46.0072, 'eval_samples_per_second': 39.95, 'eval_steps_per_second': 9.998, 'epoch': 2.33}
{'loss': 0.6174, 'learning_rate': 5.328865723504593e-06, 'epoch': 2.34}
{'loss': 0.6918, 'learning_rate': 5.323901712583768e-06, 'epoch': 2.34}
{'loss': 0.671, 'learning_rate': 5.318937701662944e-06, 'epoch': 2.34}
{'loss': 0.7842, 'learning_rate': 5.313973690742121e-06, 'epoch': 2.34}
{'loss': 0.7097, 'learning_rate': 5.309009679821296e-06, 'epoch': 2.35}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.6959545612335205, 'eval_runtime': 46.0305, 'eval_samples_per_second': 39.93, 'eval_steps_per_second': 9.993, 'epoch': 2.35}
{'loss': 0.641, 'learning_rate': 5.304045668900472e-06, 'epoch': 2.35}
{'loss': 0.6417, 'learning_rate': 5.2990816579796475e-06, 'epoch': 2.35}
{'loss': 0.8493, 'learning_rate': 5.294117647058824e-06, 'epoch': 2.35}
{'loss': 0.7109, 'learning_rate': 5.289153636138e-06, 'epoch': 2.36}
{'loss': 0.5861, 'learning_rate': 5.284189625217175e-06, 'epoch': 2.36}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7275078296661377, 'eval_runtime': 46.0235, 'eval_samples_per_second': 39.936, 'eval_steps_per_second': 9.995, 'epoch': 2.36}
{'loss': 0.6287, 'learning_rate': 5.279225614296352e-06, 'epoch': 2.36}
{'loss': 0.6979, 'learning_rate': 5.274261603375528e-06, 'epoch': 2.36}
{'loss': 0.6654, 'learning_rate': 5.2692975924547045e-06, 'epoch': 2.37}
{'loss': 0.737, 'learning_rate': 5.26433358153388e-06, 'epoch': 2.37}
{'loss': 0.6598, 'learning_rate': 5.259369570613056e-06, 'epoch': 2.37}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7152724266052246, 'eval_runtime': 46.035, 'eval_samples_per_second': 39.926, 'eval_steps_per_second': 9.992, 'epoch': 2.37}
{'loss': 0.8254, 'learning_rate': 5.254405559692231e-06, 'epoch': 2.37}
{'loss': 0.6583, 'learning_rate': 5.249441548771408e-06, 'epoch': 2.38}
{'loss': 0.5773, 'learning_rate': 5.244477537850584e-06, 'epoch': 2.38}
{'loss': 0.6641, 'learning_rate': 5.239513526929759e-06, 'epoch': 2.38}
{'loss': 0.6243, 'learning_rate': 5.2345495160089354e-06, 'epoch': 2.38}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7347919940948486, 'eval_runtime': 46.0211, 'eval_samples_per_second': 39.938, 'eval_steps_per_second': 9.995, 'epoch': 2.38}
{'loss': 0.7667, 'learning_rate': 5.229585505088112e-06, 'epoch': 2.39}
{'loss': 0.7197, 'learning_rate': 5.224621494167288e-06, 'epoch': 2.39}
{'loss': 0.77, 'learning_rate': 5.219657483246463e-06, 'epoch': 2.39}
{'loss': 0.6717, 'learning_rate': 5.2146934723256395e-06, 'epoch': 2.39}
{'loss': 0.8124, 'learning_rate': 5.209729461404815e-06, 'epoch': 2.4}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.6952662467956543, 'eval_runtime': 46.231, 'eval_samples_per_second': 39.757, 'eval_steps_per_second': 9.95, 'epoch': 2.4}
{'loss': 0.6686, 'learning_rate': 5.204765450483992e-06, 'epoch': 2.4}
{'loss': 0.6733, 'learning_rate': 5.199801439563168e-06, 'epoch': 2.4}
{'loss': 0.5936, 'learning_rate': 5.194837428642343e-06, 'epoch': 2.4}
{'loss': 0.6039, 'learning_rate': 5.189873417721519e-06, 'epoch': 2.41}
{'loss': 0.7474, 'learning_rate': 5.184909406800696e-06, 'epoch': 2.41}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.723146677017212, 'eval_runtime': 46.087, 'eval_samples_per_second': 39.881, 'eval_steps_per_second': 9.981, 'epoch': 2.41}
{'loss': 0.6748, 'learning_rate': 5.179945395879872e-06, 'epoch': 2.41}
{'loss': 0.7521, 'learning_rate': 5.174981384959047e-06, 'epoch': 2.41}
{'loss': 0.5594, 'learning_rate': 5.170017374038223e-06, 'epoch': 2.41}
{'loss': 0.728, 'learning_rate': 5.165053363117399e-06, 'epoch': 2.42}
{'loss': 0.5305, 'learning_rate': 5.1600893521965755e-06, 'epoch': 2.42}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7320568561553955, 'eval_runtime': 46.0036, 'eval_samples_per_second': 39.953, 'eval_steps_per_second': 9.999, 'epoch': 2.42}
{'loss': 0.6597, 'learning_rate': 5.155125341275751e-06, 'epoch': 2.42}
{'loss': 0.5987, 'learning_rate': 5.150161330354927e-06, 'epoch': 2.42}
{'loss': 0.6744, 'learning_rate': 5.145197319434103e-06, 'epoch': 2.43}
{'loss': 0.5184, 'learning_rate': 5.1402333085132796e-06, 'epoch': 2.43}
{'loss': 0.7294, 'learning_rate': 5.135269297592456e-06, 'epoch': 2.43}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.760807752609253, 'eval_runtime': 46.113, 'eval_samples_per_second': 39.859, 'eval_steps_per_second': 9.975, 'epoch': 2.43}
{'loss': 0.6954, 'learning_rate': 5.130305286671631e-06, 'epoch': 2.43}
{'loss': 0.6897, 'learning_rate': 5.125341275750807e-06, 'epoch': 2.44}
{'loss': 0.614, 'learning_rate': 5.120377264829983e-06, 'epoch': 2.44}
{'loss': 0.6898, 'learning_rate': 5.115413253909159e-06, 'epoch': 2.44}
{'loss': 0.741, 'learning_rate': 5.110449242988335e-06, 'epoch': 2.44}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7342782020568848, 'eval_runtime': 46.1381, 'eval_samples_per_second': 39.837, 'eval_steps_per_second': 9.97, 'epoch': 2.44}
{'loss': 0.7012, 'learning_rate': 5.1054852320675105e-06, 'epoch': 2.45}
{'loss': 0.7404, 'learning_rate': 5.100521221146687e-06, 'epoch': 2.45}
{'loss': 0.7404, 'learning_rate': 5.095557210225863e-06, 'epoch': 2.45}
{'loss': 0.5998, 'learning_rate': 5.090593199305038e-06, 'epoch': 2.45}
{'loss': 0.697, 'learning_rate': 5.085629188384215e-06, 'epoch': 2.46}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7182576656341553, 'eval_runtime': 46.0369, 'eval_samples_per_second': 39.925, 'eval_steps_per_second': 9.992, 'epoch': 2.46}
{'loss': 0.6215, 'learning_rate': 5.080665177463391e-06, 'epoch': 2.46}
{'loss': 0.7226, 'learning_rate': 5.075701166542567e-06, 'epoch': 2.46}
{'loss': 0.7608, 'learning_rate': 5.070737155621743e-06, 'epoch': 2.46}
{'loss': 0.598, 'learning_rate': 5.065773144700919e-06, 'epoch': 2.47}
{'loss': 0.7036, 'learning_rate': 5.060809133780094e-06, 'epoch': 2.47}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7296624183654785, 'eval_runtime': 46.1371, 'eval_samples_per_second': 39.838, 'eval_steps_per_second': 9.97, 'epoch': 2.47}
{'loss': 0.7409, 'learning_rate': 5.055845122859271e-06, 'epoch': 2.47}
{'loss': 0.7305, 'learning_rate': 5.050881111938447e-06, 'epoch': 2.47}
{'loss': 0.7465, 'learning_rate': 5.045917101017622e-06, 'epoch': 2.48}
{'loss': 0.7667, 'learning_rate': 5.0409530900967985e-06, 'epoch': 2.48}
{'loss': 0.7413, 'learning_rate': 5.035989079175975e-06, 'epoch': 2.48}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7234175205230713, 'eval_runtime': 46.1099, 'eval_samples_per_second': 39.861, 'eval_steps_per_second': 9.976, 'epoch': 2.48}
{'loss': 0.6127, 'learning_rate': 5.0310250682551505e-06, 'epoch': 2.48}
{'loss': 0.7141, 'learning_rate': 5.026061057334326e-06, 'epoch': 2.49}
{'loss': 0.5746, 'learning_rate': 5.021097046413503e-06, 'epoch': 2.49}
{'loss': 0.7233, 'learning_rate': 5.016133035492678e-06, 'epoch': 2.49}
{'loss': 0.7271, 'learning_rate': 5.011169024571855e-06, 'epoch': 2.49}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.723339080810547, 'eval_runtime': 46.2854, 'eval_samples_per_second': 39.71, 'eval_steps_per_second': 9.938, 'epoch': 2.49}
{'loss': 0.7156, 'learning_rate': 5.006205013651031e-06, 'epoch': 2.5}
{'loss': 0.7459, 'learning_rate': 5.001241002730206e-06, 'epoch': 2.5}
{'loss': 0.6527, 'learning_rate': 4.996276991809382e-06, 'epoch': 2.5}
{'loss': 0.7649, 'learning_rate': 4.991312980888559e-06, 'epoch': 2.5}
{'loss': 0.7664, 'learning_rate': 4.986348969967734e-06, 'epoch': 2.51}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7444353103637695, 'eval_runtime': 46.0544, 'eval_samples_per_second': 39.909, 'eval_steps_per_second': 9.988, 'epoch': 2.51}
{'loss': 0.781, 'learning_rate': 4.981384959046911e-06, 'epoch': 2.51}
{'loss': 0.6174, 'learning_rate': 4.9764209481260864e-06, 'epoch': 2.51}
{'loss': 0.7026, 'learning_rate': 4.971456937205262e-06, 'epoch': 2.51}
{'loss': 0.6811, 'learning_rate': 4.966492926284438e-06, 'epoch': 2.52}
{'loss': 0.7318, 'learning_rate': 4.961528915363614e-06, 'epoch': 2.52}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7333076000213623, 'eval_runtime': 45.9349, 'eval_samples_per_second': 40.013, 'eval_steps_per_second': 10.014, 'epoch': 2.52}
{'loss': 0.7668, 'learning_rate': 4.95656490444279e-06, 'epoch': 2.52}
{'loss': 0.7123, 'learning_rate': 4.951600893521966e-06, 'epoch': 2.52}
{'loss': 0.7009, 'learning_rate': 4.946636882601143e-06, 'epoch': 2.53}
{'loss': 0.6874, 'learning_rate': 4.941672871680318e-06, 'epoch': 2.53}
{'loss': 0.612, 'learning_rate': 4.936708860759495e-06, 'epoch': 2.53}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7297523021698, 'eval_runtime': 45.9949, 'eval_samples_per_second': 39.961, 'eval_steps_per_second': 10.001, 'epoch': 2.53}
{'loss': 0.733, 'learning_rate': 4.93174484983867e-06, 'epoch': 2.53}
{'loss': 0.6813, 'learning_rate': 4.926780838917846e-06, 'epoch': 2.54}
{'loss': 0.6422, 'learning_rate': 4.9218168279970215e-06, 'epoch': 2.54}
{'loss': 0.7425, 'learning_rate': 4.916852817076198e-06, 'epoch': 2.54}
{'loss': 0.5987, 'learning_rate': 4.9118888061553736e-06, 'epoch': 2.54}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.72037935256958, 'eval_runtime': 46.0017, 'eval_samples_per_second': 39.955, 'eval_steps_per_second': 10.0, 'epoch': 2.54}
{'loss': 0.8375, 'learning_rate': 4.90692479523455e-06, 'epoch': 2.55}
{'loss': 0.6105, 'learning_rate': 4.901960784313726e-06, 'epoch': 2.55}
{'loss': 0.8402, 'learning_rate': 4.896996773392902e-06, 'epoch': 2.55}
{'loss': 0.7588, 'learning_rate': 4.892032762472078e-06, 'epoch': 2.55}
{'loss': 0.6064, 'learning_rate': 4.887068751551254e-06, 'epoch': 2.56}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7406418323516846, 'eval_runtime': 46.1011, 'eval_samples_per_second': 39.869, 'eval_steps_per_second': 9.978, 'epoch': 2.56}
{'loss': 0.783, 'learning_rate': 4.88210474063043e-06, 'epoch': 2.56}
{'loss': 0.7711, 'learning_rate': 4.877140729709605e-06, 'epoch': 2.56}
{'loss': 0.6735, 'learning_rate': 4.872176718788782e-06, 'epoch': 2.56}
{'loss': 0.6982, 'learning_rate': 4.867212707867957e-06, 'epoch': 2.57}
{'loss': 0.6895, 'learning_rate': 4.862248696947134e-06, 'epoch': 2.57}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.718484878540039, 'eval_runtime': 46.0707, 'eval_samples_per_second': 39.895, 'eval_steps_per_second': 9.985, 'epoch': 2.57}
{'loss': 0.6419, 'learning_rate': 4.8572846860263095e-06, 'epoch': 2.57}
{'loss': 0.6918, 'learning_rate': 4.852320675105486e-06, 'epoch': 2.57}
{'loss': 0.6924, 'learning_rate': 4.8473566641846615e-06, 'epoch': 2.58}
{'loss': 0.701, 'learning_rate': 4.842392653263838e-06, 'epoch': 2.58}
{'loss': 0.5794, 'learning_rate': 4.837428642343014e-06, 'epoch': 2.58}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7246906757354736, 'eval_runtime': 46.1153, 'eval_samples_per_second': 39.857, 'eval_steps_per_second': 9.975, 'epoch': 2.58}
{'loss': 0.5781, 'learning_rate': 4.832464631422189e-06, 'epoch': 2.58}
{'loss': 0.6176, 'learning_rate': 4.827500620501366e-06, 'epoch': 2.59}
{'loss': 0.7719, 'learning_rate': 4.822536609580541e-06, 'epoch': 2.59}
{'loss': 0.6836, 'learning_rate': 4.817572598659718e-06, 'epoch': 2.59}
{'loss': 0.7013, 'learning_rate': 4.812608587738893e-06, 'epoch': 2.59}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7155473232269287, 'eval_runtime': 46.0836, 'eval_samples_per_second': 39.884, 'eval_steps_per_second': 9.982, 'epoch': 2.59}
{'loss': 0.7279, 'learning_rate': 4.80764457681807e-06, 'epoch': 2.6}
{'loss': 0.7958, 'learning_rate': 4.802680565897245e-06, 'epoch': 2.6}
{'loss': 0.6687, 'learning_rate': 4.797716554976422e-06, 'epoch': 2.6}
{'loss': 0.5973, 'learning_rate': 4.7927525440555974e-06, 'epoch': 2.6}
{'loss': 0.6968, 'learning_rate': 4.787788533134773e-06, 'epoch': 2.61}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7109129428863525, 'eval_runtime': 45.9849, 'eval_samples_per_second': 39.97, 'eval_steps_per_second': 10.003, 'epoch': 2.61}
{'loss': 0.7462, 'learning_rate': 4.7828245222139495e-06, 'epoch': 2.61}
{'loss': 0.6867, 'learning_rate': 4.777860511293125e-06, 'epoch': 2.61}
{'loss': 0.6639, 'learning_rate': 4.772896500372301e-06, 'epoch': 2.61}
{'loss': 0.7115, 'learning_rate': 4.767932489451477e-06, 'epoch': 2.62}
{'loss': 0.7217, 'learning_rate': 4.762968478530653e-06, 'epoch': 2.62}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7296957969665527, 'eval_runtime': 46.0273, 'eval_samples_per_second': 39.933, 'eval_steps_per_second': 9.994, 'epoch': 2.62}
{'loss': 0.6722, 'learning_rate': 4.758004467609829e-06, 'epoch': 2.62}
{'loss': 0.6921, 'learning_rate': 4.753040456689006e-06, 'epoch': 2.62}
{'loss': 0.7246, 'learning_rate': 4.748076445768181e-06, 'epoch': 2.63}
{'loss': 0.652, 'learning_rate': 4.743112434847357e-06, 'epoch': 2.63}
{'loss': 0.8076, 'learning_rate': 4.738148423926533e-06, 'epoch': 2.63}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7446465492248535, 'eval_runtime': 46.0411, 'eval_samples_per_second': 39.921, 'eval_steps_per_second': 9.991, 'epoch': 2.63}
{'loss': 0.7215, 'learning_rate': 4.733184413005709e-06, 'epoch': 2.63}
{'loss': 0.5965, 'learning_rate': 4.7282204020848846e-06, 'epoch': 2.64}
{'loss': 0.7396, 'learning_rate': 4.723256391164061e-06, 'epoch': 2.64}
{'loss': 0.6783, 'learning_rate': 4.718292380243237e-06, 'epoch': 2.64}
{'loss': 0.7918, 'learning_rate': 4.713328369322413e-06, 'epoch': 2.64}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7181358337402344, 'eval_runtime': 46.0465, 'eval_samples_per_second': 39.916, 'eval_steps_per_second': 9.99, 'epoch': 2.64}
{'loss': 0.7668, 'learning_rate': 4.708364358401589e-06, 'epoch': 2.65}
{'loss': 0.6185, 'learning_rate': 4.703400347480765e-06, 'epoch': 2.65}
{'loss': 0.6962, 'learning_rate': 4.698436336559941e-06, 'epoch': 2.65}
{'loss': 0.5907, 'learning_rate': 4.693472325639117e-06, 'epoch': 2.65}
{'loss': 0.714, 'learning_rate': 4.688508314718293e-06, 'epoch': 2.66}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.729382276535034, 'eval_runtime': 46.1546, 'eval_samples_per_second': 39.823, 'eval_steps_per_second': 9.966, 'epoch': 2.66}
{'loss': 0.719, 'learning_rate': 4.683544303797468e-06, 'epoch': 2.66}
{'loss': 0.6694, 'learning_rate': 4.678580292876645e-06, 'epoch': 2.66}
{'loss': 0.6385, 'learning_rate': 4.6736162819558205e-06, 'epoch': 2.66}
{'loss': 0.6794, 'learning_rate': 4.668652271034997e-06, 'epoch': 2.67}
{'loss': 0.8267, 'learning_rate': 4.6636882601141725e-06, 'epoch': 2.67}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7173140048980713, 'eval_runtime': 46.0182, 'eval_samples_per_second': 39.941, 'eval_steps_per_second': 9.996, 'epoch': 2.67}
{'loss': 0.6906, 'learning_rate': 4.658724249193349e-06, 'epoch': 2.67}
{'loss': 0.732, 'learning_rate': 4.653760238272525e-06, 'epoch': 2.67}
{'loss': 0.6196, 'learning_rate': 4.648796227351701e-06, 'epoch': 2.68}
{'loss': 0.6736, 'learning_rate': 4.643832216430877e-06, 'epoch': 2.68}
{'loss': 0.6866, 'learning_rate': 4.638868205510052e-06, 'epoch': 2.68}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7378690242767334, 'eval_runtime': 46.0377, 'eval_samples_per_second': 39.924, 'eval_steps_per_second': 9.992, 'epoch': 2.68}
{'loss': 0.7506, 'learning_rate': 4.633904194589228e-06, 'epoch': 2.68}
{'loss': 0.7243, 'learning_rate': 4.628940183668404e-06, 'epoch': 2.69}
{'loss': 0.7035, 'learning_rate': 4.62397617274758e-06, 'epoch': 2.69}
{'loss': 0.666, 'learning_rate': 4.619012161826756e-06, 'epoch': 2.69}
{'loss': 0.5712, 'learning_rate': 4.614048150905933e-06, 'epoch': 2.69}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7377138137817383, 'eval_runtime': 46.0927, 'eval_samples_per_second': 39.876, 'eval_steps_per_second': 9.98, 'epoch': 2.69}
{'loss': 0.7733, 'learning_rate': 4.6090841399851084e-06, 'epoch': 2.7}
{'loss': 0.5902, 'learning_rate': 4.604120129064285e-06, 'epoch': 2.7}
{'loss': 0.605, 'learning_rate': 4.5991561181434605e-06, 'epoch': 2.7}
{'loss': 0.5728, 'learning_rate': 4.594192107222636e-06, 'epoch': 2.7}
{'loss': 0.6714, 'learning_rate': 4.589228096301812e-06, 'epoch': 2.71}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.72161865234375, 'eval_runtime': 46.1007, 'eval_samples_per_second': 39.869, 'eval_steps_per_second': 9.978, 'epoch': 2.71}
{'loss': 0.6898, 'learning_rate': 4.584264085380988e-06, 'epoch': 2.71}
{'loss': 0.7345, 'learning_rate': 4.579300074460164e-06, 'epoch': 2.71}
{'loss': 0.7711, 'learning_rate': 4.57433606353934e-06, 'epoch': 2.71}
{'loss': 0.6489, 'learning_rate': 4.569372052618516e-06, 'epoch': 2.72}
{'loss': 0.7767, 'learning_rate': 4.564408041697692e-06, 'epoch': 2.72}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.733736991882324, 'eval_runtime': 46.151, 'eval_samples_per_second': 39.826, 'eval_steps_per_second': 9.967, 'epoch': 2.72}
{'loss': 0.7177, 'learning_rate': 4.559444030776868e-06, 'epoch': 2.72}
{'loss': 0.7853, 'learning_rate': 4.554480019856044e-06, 'epoch': 2.72}
{'loss': 0.6243, 'learning_rate': 4.54951600893522e-06, 'epoch': 2.73}
{'loss': 0.6218, 'learning_rate': 4.5445519980143956e-06, 'epoch': 2.73}
{'loss': 0.8003, 'learning_rate': 4.539587987093572e-06, 'epoch': 2.73}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.720750331878662, 'eval_runtime': 46.0536, 'eval_samples_per_second': 39.91, 'eval_steps_per_second': 9.988, 'epoch': 2.73}
{'loss': 0.6616, 'learning_rate': 4.534623976172748e-06, 'epoch': 2.73}
{'loss': 0.6268, 'learning_rate': 4.529659965251924e-06, 'epoch': 2.74}
{'loss': 0.5611, 'learning_rate': 4.5246959543311e-06, 'epoch': 2.74}
{'loss': 0.747, 'learning_rate': 4.519731943410276e-06, 'epoch': 2.74}
{'loss': 0.6571, 'learning_rate': 4.514767932489452e-06, 'epoch': 2.74}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7338569164276123, 'eval_runtime': 46.0499, 'eval_samples_per_second': 39.913, 'eval_steps_per_second': 9.989, 'epoch': 2.74}
{'loss': 0.7131, 'learning_rate': 4.509803921568628e-06, 'epoch': 2.75}
{'loss': 0.7126, 'learning_rate': 4.504839910647804e-06, 'epoch': 2.75}
{'loss': 0.738, 'learning_rate': 4.499875899726979e-06, 'epoch': 2.75}
{'loss': 0.6748, 'learning_rate': 4.494911888806156e-06, 'epoch': 2.75}
{'loss': 0.7923, 'learning_rate': 4.4899478778853315e-06, 'epoch': 2.76}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7272534370422363, 'eval_runtime': 46.0842, 'eval_samples_per_second': 39.884, 'eval_steps_per_second': 9.982, 'epoch': 2.76}
{'loss': 0.63, 'learning_rate': 4.484983866964508e-06, 'epoch': 2.76}
{'loss': 0.7701, 'learning_rate': 4.4800198560436835e-06, 'epoch': 2.76}
{'loss': 0.7593, 'learning_rate': 4.47505584512286e-06, 'epoch': 2.76}
{'loss': 0.6256, 'learning_rate': 4.470091834202036e-06, 'epoch': 2.76}
{'loss': 0.761, 'learning_rate': 4.465127823281212e-06, 'epoch': 2.77}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.746077299118042, 'eval_runtime': 45.9994, 'eval_samples_per_second': 39.957, 'eval_steps_per_second': 10.0, 'epoch': 2.77}
{'loss': 0.646, 'learning_rate': 4.460163812360388e-06, 'epoch': 2.77}
{'loss': 0.6985, 'learning_rate': 4.455199801439563e-06, 'epoch': 2.77}
{'loss': 0.6746, 'learning_rate': 4.45023579051874e-06, 'epoch': 2.77}
{'loss': 0.558, 'learning_rate': 4.445271779597915e-06, 'epoch': 2.78}
{'loss': 0.6753, 'learning_rate': 4.440307768677091e-06, 'epoch': 2.78}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7340247631073, 'eval_runtime': 46.0746, 'eval_samples_per_second': 39.892, 'eval_steps_per_second': 9.984, 'epoch': 2.78}
{'loss': 0.6596, 'learning_rate': 4.435343757756267e-06, 'epoch': 2.78}
{'loss': 0.6391, 'learning_rate': 4.430379746835443e-06, 'epoch': 2.78}
{'loss': 0.6664, 'learning_rate': 4.4254157359146194e-06, 'epoch': 2.79}
{'loss': 0.6128, 'learning_rate': 4.420451724993796e-06, 'epoch': 2.79}
{'loss': 0.7299, 'learning_rate': 4.4154877140729715e-06, 'epoch': 2.79}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7224302291870117, 'eval_runtime': 46.2067, 'eval_samples_per_second': 39.778, 'eval_steps_per_second': 9.955, 'epoch': 2.79}
{'loss': 0.6844, 'learning_rate': 4.410523703152147e-06, 'epoch': 2.79}
{'loss': 0.7014, 'learning_rate': 4.4055596922313235e-06, 'epoch': 2.8}
{'loss': 0.7163, 'learning_rate': 4.400595681310499e-06, 'epoch': 2.8}
{'loss': 0.7607, 'learning_rate': 4.395631670389675e-06, 'epoch': 2.8}
{'loss': 0.73, 'learning_rate': 4.390667659468851e-06, 'epoch': 2.8}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7111175060272217, 'eval_runtime': 45.9418, 'eval_samples_per_second': 40.007, 'eval_steps_per_second': 10.013, 'epoch': 2.8}
{'loss': 0.7346, 'learning_rate': 4.385703648548027e-06, 'epoch': 2.81}
{'loss': 0.664, 'learning_rate': 4.380739637627203e-06, 'epoch': 2.81}
{'loss': 0.6371, 'learning_rate': 4.375775626706379e-06, 'epoch': 2.81}
{'loss': 0.6042, 'learning_rate': 4.370811615785555e-06, 'epoch': 2.81}
{'loss': 0.7883, 'learning_rate': 4.365847604864731e-06, 'epoch': 2.82}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.741734266281128, 'eval_runtime': 46.1335, 'eval_samples_per_second': 39.841, 'eval_steps_per_second': 9.971, 'epoch': 2.82}
{'loss': 0.5577, 'learning_rate': 4.360883593943907e-06, 'epoch': 2.82}
{'loss': 0.6444, 'learning_rate': 4.355919583023083e-06, 'epoch': 2.82}
{'loss': 0.7593, 'learning_rate': 4.350955572102259e-06, 'epoch': 2.82}
{'loss': 0.8004, 'learning_rate': 4.345991561181435e-06, 'epoch': 2.83}
{'loss': 0.6869, 'learning_rate': 4.341027550260611e-06, 'epoch': 2.83}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.731614351272583, 'eval_runtime': 46.0547, 'eval_samples_per_second': 39.909, 'eval_steps_per_second': 9.988, 'epoch': 2.83}
{'loss': 0.6781, 'learning_rate': 4.336063539339787e-06, 'epoch': 2.83}
{'loss': 0.7393, 'learning_rate': 4.331099528418963e-06, 'epoch': 2.83}
{'loss': 0.7614, 'learning_rate': 4.326135517498139e-06, 'epoch': 2.84}
{'loss': 0.5988, 'learning_rate': 4.321171506577315e-06, 'epoch': 2.84}
{'loss': 0.7592, 'learning_rate': 4.316207495656491e-06, 'epoch': 2.84}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.735383987426758, 'eval_runtime': 46.1329, 'eval_samples_per_second': 39.841, 'eval_steps_per_second': 9.971, 'epoch': 2.84}
{'loss': 0.6193, 'learning_rate': 4.311243484735667e-06, 'epoch': 2.84}
{'loss': 0.6726, 'learning_rate': 4.3062794738148425e-06, 'epoch': 2.85}
{'loss': 0.764, 'learning_rate': 4.301315462894018e-06, 'epoch': 2.85}
{'loss': 0.574, 'learning_rate': 4.2963514519731945e-06, 'epoch': 2.85}
{'loss': 0.8438, 'learning_rate': 4.291387441052371e-06, 'epoch': 2.85}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7198567390441895, 'eval_runtime': 46.1376, 'eval_samples_per_second': 39.837, 'eval_steps_per_second': 9.97, 'epoch': 2.85}
{'loss': 0.6752, 'learning_rate': 4.2864234301315466e-06, 'epoch': 2.86}
{'loss': 0.6003, 'learning_rate': 4.281459419210723e-06, 'epoch': 2.86}
{'loss': 0.6395, 'learning_rate': 4.276495408289899e-06, 'epoch': 2.86}
{'loss': 0.6509, 'learning_rate': 4.271531397369075e-06, 'epoch': 2.86}
{'loss': 0.7406, 'learning_rate': 4.266567386448251e-06, 'epoch': 2.87}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7210512161254883, 'eval_runtime': 46.1527, 'eval_samples_per_second': 39.824, 'eval_steps_per_second': 9.967, 'epoch': 2.87}
{'loss': 0.726, 'learning_rate': 4.261603375527426e-06, 'epoch': 2.87}
{'loss': 0.6726, 'learning_rate': 4.256639364606602e-06, 'epoch': 2.87}
{'loss': 0.763, 'learning_rate': 4.251675353685778e-06, 'epoch': 2.87}
{'loss': 0.8461, 'learning_rate': 4.246711342764954e-06, 'epoch': 2.88}
{'loss': 0.6891, 'learning_rate': 4.24174733184413e-06, 'epoch': 2.88}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7166874408721924, 'eval_runtime': 46.1134, 'eval_samples_per_second': 39.858, 'eval_steps_per_second': 9.975, 'epoch': 2.88}
{'loss': 0.4857, 'learning_rate': 4.236783320923306e-06, 'epoch': 2.88}
{'loss': 0.619, 'learning_rate': 4.2318193100024825e-06, 'epoch': 2.88}
{'loss': 0.5922, 'learning_rate': 4.226855299081659e-06, 'epoch': 2.89}
{'loss': 0.7332, 'learning_rate': 4.2218912881608345e-06, 'epoch': 2.89}
{'loss': 0.7327, 'learning_rate': 4.21692727724001e-06, 'epoch': 2.89}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7436676025390625, 'eval_runtime': 46.2346, 'eval_samples_per_second': 39.754, 'eval_steps_per_second': 9.949, 'epoch': 2.89}
{'loss': 0.6308, 'learning_rate': 4.211963266319186e-06, 'epoch': 2.89}
{'loss': 0.7236, 'learning_rate': 4.206999255398362e-06, 'epoch': 2.9}
{'loss': 0.7265, 'learning_rate': 4.202035244477538e-06, 'epoch': 2.9}
{'loss': 0.806, 'learning_rate': 4.197071233556714e-06, 'epoch': 2.9}
{'loss': 0.7671, 'learning_rate': 4.19210722263589e-06, 'epoch': 2.9}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7149276733398438, 'eval_runtime': 46.0854, 'eval_samples_per_second': 39.882, 'eval_steps_per_second': 9.981, 'epoch': 2.9}
{'loss': 0.5774, 'learning_rate': 4.187143211715066e-06, 'epoch': 2.91}
{'loss': 0.8383, 'learning_rate': 4.182179200794242e-06, 'epoch': 2.91}
{'loss': 0.6746, 'learning_rate': 4.177215189873418e-06, 'epoch': 2.91}
{'loss': 0.7292, 'learning_rate': 4.172251178952594e-06, 'epoch': 2.91}
{'loss': 0.5994, 'learning_rate': 4.1672871680317704e-06, 'epoch': 2.92}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7282631397247314, 'eval_runtime': 46.1029, 'eval_samples_per_second': 39.867, 'eval_steps_per_second': 9.978, 'epoch': 2.92}
{'loss': 0.7607, 'learning_rate': 4.162323157110946e-06, 'epoch': 2.92}
{'loss': 0.8825, 'learning_rate': 4.157359146190122e-06, 'epoch': 2.92}
{'loss': 0.7138, 'learning_rate': 4.152395135269298e-06, 'epoch': 2.92}
{'loss': 0.727, 'learning_rate': 4.147431124348474e-06, 'epoch': 2.93}
{'loss': 0.7734, 'learning_rate': 4.14246711342765e-06, 'epoch': 2.93}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7167723178863525, 'eval_runtime': 46.0533, 'eval_samples_per_second': 39.91, 'eval_steps_per_second': 9.988, 'epoch': 2.93}
{'loss': 0.6818, 'learning_rate': 4.137503102506826e-06, 'epoch': 2.93}
{'loss': 0.6442, 'learning_rate': 4.132539091586002e-06, 'epoch': 2.93}
{'loss': 0.765, 'learning_rate': 4.127575080665178e-06, 'epoch': 2.94}
{'loss': 0.7031, 'learning_rate': 4.122611069744354e-06, 'epoch': 2.94}
{'loss': 0.6756, 'learning_rate': 4.11764705882353e-06, 'epoch': 2.94}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7210421562194824, 'eval_runtime': 46.1254, 'eval_samples_per_second': 39.848, 'eval_steps_per_second': 9.973, 'epoch': 2.94}
{'loss': 0.7664, 'learning_rate': 4.1126830479027055e-06, 'epoch': 2.94}
{'loss': 0.6502, 'learning_rate': 4.107719036981881e-06, 'epoch': 2.95}
{'loss': 0.6952, 'learning_rate': 4.1027550260610576e-06, 'epoch': 2.95}
{'loss': 0.6632, 'learning_rate': 4.097791015140234e-06, 'epoch': 2.95}
{'loss': 0.7577, 'learning_rate': 4.09282700421941e-06, 'epoch': 2.95}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.716938018798828, 'eval_runtime': 46.1304, 'eval_samples_per_second': 39.844, 'eval_steps_per_second': 9.972, 'epoch': 2.95}
{'loss': 0.6815, 'learning_rate': 4.087862993298586e-06, 'epoch': 2.96}
{'loss': 0.713, 'learning_rate': 4.082898982377762e-06, 'epoch': 2.96}
{'loss': 0.6555, 'learning_rate': 4.077934971456938e-06, 'epoch': 2.96}
{'loss': 0.6712, 'learning_rate': 4.072970960536114e-06, 'epoch': 2.96}
{'loss': 0.639, 'learning_rate': 4.068006949615289e-06, 'epoch': 2.97}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.7083213329315186, 'eval_runtime': 46.1533, 'eval_samples_per_second': 39.824, 'eval_steps_per_second': 9.967, 'epoch': 2.97}
{'loss': 0.7999, 'learning_rate': 4.063042938694465e-06, 'epoch': 2.97}
{'loss': 0.6768, 'learning_rate': 4.058078927773641e-06, 'epoch': 2.97}
{'loss': 0.7371, 'learning_rate': 4.053114916852817e-06, 'epoch': 2.97}
{'loss': 0.6348, 'learning_rate': 4.0481509059319935e-06, 'epoch': 2.98}
{'loss': 0.7506, 'learning_rate': 4.043186895011169e-06, 'epoch': 2.98}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.705442428588867, 'eval_runtime': 46.1767, 'eval_samples_per_second': 39.804, 'eval_steps_per_second': 9.962, 'epoch': 2.98}
{'loss': 0.7069, 'learning_rate': 4.0382228840903455e-06, 'epoch': 2.98}
{'loss': 0.605, 'learning_rate': 4.033258873169521e-06, 'epoch': 2.98}
{'loss': 0.6801, 'learning_rate': 4.028294862248698e-06, 'epoch': 2.99}
{'loss': 0.5804, 'learning_rate': 4.023330851327873e-06, 'epoch': 2.99}
{'loss': 0.674, 'learning_rate': 4.018366840407049e-06, 'epoch': 2.99}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.730273723602295, 'eval_runtime': 46.3335, 'eval_samples_per_second': 39.669, 'eval_steps_per_second': 9.928, 'epoch': 2.99}
{'loss': 0.6527, 'learning_rate': 4.013402829486225e-06, 'epoch': 2.99}
{'loss': 0.7503, 'learning_rate': 4.008438818565401e-06, 'epoch': 3.0}
{'loss': 0.6428, 'learning_rate': 4.003474807644577e-06, 'epoch': 3.0}
{'loss': 0.6675, 'learning_rate': 3.998510796723753e-06, 'epoch': 3.0}
{'loss': 0.2536, 'learning_rate': 3.993546785802929e-06, 'epoch': 3.0}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.780897617340088, 'eval_runtime': 45.9685, 'eval_samples_per_second': 39.984, 'eval_steps_per_second': 10.007, 'epoch': 3.0}
{'loss': 0.2117, 'learning_rate': 3.988582774882105e-06, 'epoch': 3.01}
{'loss': 0.1795, 'learning_rate': 3.9836187639612814e-06, 'epoch': 3.01}
{'loss': 0.2003, 'learning_rate': 3.978654753040457e-06, 'epoch': 3.01}
{'loss': 0.2214, 'learning_rate': 3.973690742119633e-06, 'epoch': 3.01}
{'loss': 0.2234, 'learning_rate': 3.968726731198809e-06, 'epoch': 3.02}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.9685122966766357, 'eval_runtime': 46.0751, 'eval_samples_per_second': 39.891, 'eval_steps_per_second': 9.984, 'epoch': 3.02}
{'loss': 0.1794, 'learning_rate': 3.963762720277985e-06, 'epoch': 3.02}
{'loss': 0.1889, 'learning_rate': 3.958798709357161e-06, 'epoch': 3.02}
{'loss': 0.2123, 'learning_rate': 3.953834698436337e-06, 'epoch': 3.02}
{'loss': 0.1793, 'learning_rate': 3.948870687515513e-06, 'epoch': 3.03}
{'loss': 0.2294, 'learning_rate': 3.943906676594689e-06, 'epoch': 3.03}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.96305513381958, 'eval_runtime': 46.0017, 'eval_samples_per_second': 39.955, 'eval_steps_per_second': 10.0, 'epoch': 3.03}
{'loss': 0.2617, 'learning_rate': 3.938942665673865e-06, 'epoch': 3.03}
{'loss': 0.1988, 'learning_rate': 3.933978654753041e-06, 'epoch': 3.03}
{'loss': 0.218, 'learning_rate': 3.9290146438322165e-06, 'epoch': 3.04}
{'loss': 0.21, 'learning_rate': 3.924050632911393e-06, 'epoch': 3.04}
{'loss': 0.1717, 'learning_rate': 3.9190866219905686e-06, 'epoch': 3.04}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.9739818572998047, 'eval_runtime': 46.135, 'eval_samples_per_second': 39.84, 'eval_steps_per_second': 9.971, 'epoch': 3.04}
{'loss': 0.299, 'learning_rate': 3.914122611069744e-06, 'epoch': 3.04}
{'loss': 0.1766, 'learning_rate': 3.909158600148921e-06, 'epoch': 3.05}
{'loss': 0.1697, 'learning_rate': 3.904194589228096e-06, 'epoch': 3.05}
{'loss': 0.2131, 'learning_rate': 3.899230578307273e-06, 'epoch': 3.05}
{'loss': 0.1896, 'learning_rate': 3.894266567386449e-06, 'epoch': 3.05}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.9852406978607178, 'eval_runtime': 46.0999, 'eval_samples_per_second': 39.87, 'eval_steps_per_second': 9.978, 'epoch': 3.05}
{'loss': 0.2172, 'learning_rate': 3.889302556465625e-06, 'epoch': 3.06}
{'loss': 0.2852, 'learning_rate': 3.8843385455448e-06, 'epoch': 3.06}
{'loss': 0.2204, 'learning_rate': 3.879374534623977e-06, 'epoch': 3.06}
{'loss': 0.2046, 'learning_rate': 3.874410523703152e-06, 'epoch': 3.06}
{'loss': 0.2088, 'learning_rate': 3.869446512782328e-06, 'epoch': 3.07}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.9875497817993164, 'eval_runtime': 46.0094, 'eval_samples_per_second': 39.948, 'eval_steps_per_second': 9.998, 'epoch': 3.07}
{'loss': 0.2185, 'learning_rate': 3.8644825018615045e-06, 'epoch': 3.07}
{'loss': 0.2004, 'learning_rate': 3.85951849094068e-06, 'epoch': 3.07}
{'loss': 0.2014, 'learning_rate': 3.8545544800198565e-06, 'epoch': 3.07}
{'loss': 0.178, 'learning_rate': 3.849590469099032e-06, 'epoch': 3.08}
{'loss': 0.127, 'learning_rate': 3.844626458178209e-06, 'epoch': 3.08}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.005568742752075, 'eval_runtime': 46.1291, 'eval_samples_per_second': 39.845, 'eval_steps_per_second': 9.972, 'epoch': 3.08}
{'loss': 0.1882, 'learning_rate': 3.839662447257384e-06, 'epoch': 3.08}
{'loss': 0.1617, 'learning_rate': 3.834698436336561e-06, 'epoch': 3.08}
{'loss': 0.1864, 'learning_rate': 3.829734425415736e-06, 'epoch': 3.09}
{'loss': 0.2453, 'learning_rate': 3.824770414494912e-06, 'epoch': 3.09}
{'loss': 0.1908, 'learning_rate': 3.819806403574088e-06, 'epoch': 3.09}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.9755091667175293, 'eval_runtime': 46.2675, 'eval_samples_per_second': 39.725, 'eval_steps_per_second': 9.942, 'epoch': 3.09}
{'loss': 0.2656, 'learning_rate': 3.814842392653264e-06, 'epoch': 3.09}
{'loss': 0.1906, 'learning_rate': 3.8098783817324404e-06, 'epoch': 3.1}
{'loss': 0.1563, 'learning_rate': 3.804914370811616e-06, 'epoch': 3.1}
{'loss': 0.2254, 'learning_rate': 3.799950359890792e-06, 'epoch': 3.1}
{'loss': 0.2234, 'learning_rate': 3.794986348969968e-06, 'epoch': 3.1}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.993976354598999, 'eval_runtime': 46.0665, 'eval_samples_per_second': 39.899, 'eval_steps_per_second': 9.986, 'epoch': 3.1}
{'loss': 0.1659, 'learning_rate': 3.790022338049144e-06, 'epoch': 3.1}
{'loss': 0.2305, 'learning_rate': 3.7850583271283197e-06, 'epoch': 3.11}
{'loss': 0.1992, 'learning_rate': 3.780094316207496e-06, 'epoch': 3.11}
{'loss': 0.383, 'learning_rate': 3.7751303052866717e-06, 'epoch': 3.11}
{'loss': 0.2269, 'learning_rate': 3.7701662943658478e-06, 'epoch': 3.11}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.9831156730651855, 'eval_runtime': 45.9745, 'eval_samples_per_second': 39.979, 'eval_steps_per_second': 10.006, 'epoch': 3.11}
{'loss': 0.2404, 'learning_rate': 3.7652022834450242e-06, 'epoch': 3.12}
{'loss': 0.239, 'learning_rate': 3.7602382725242e-06, 'epoch': 3.12}
{'loss': 0.2511, 'learning_rate': 3.755274261603376e-06, 'epoch': 3.12}
{'loss': 0.1945, 'learning_rate': 3.750310250682552e-06, 'epoch': 3.12}
{'loss': 0.2285, 'learning_rate': 3.745346239761728e-06, 'epoch': 3.13}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0050208568573, 'eval_runtime': 46.002, 'eval_samples_per_second': 39.955, 'eval_steps_per_second': 10.0, 'epoch': 3.13}
{'loss': 0.2539, 'learning_rate': 3.7403822288409035e-06, 'epoch': 3.13}
{'loss': 0.2101, 'learning_rate': 3.73541821792008e-06, 'epoch': 3.13}
{'loss': 0.2123, 'learning_rate': 3.7304542069992556e-06, 'epoch': 3.13}
{'loss': 0.185, 'learning_rate': 3.7254901960784316e-06, 'epoch': 3.14}
{'loss': 0.2139, 'learning_rate': 3.7205261851576076e-06, 'epoch': 3.14}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0002050399780273, 'eval_runtime': 46.0825, 'eval_samples_per_second': 39.885, 'eval_steps_per_second': 9.982, 'epoch': 3.14}
{'loss': 0.2426, 'learning_rate': 3.7155621742367837e-06, 'epoch': 3.14}
{'loss': 0.2605, 'learning_rate': 3.7105981633159593e-06, 'epoch': 3.14}
{'loss': 0.191, 'learning_rate': 3.7056341523951357e-06, 'epoch': 3.15}
{'loss': 0.2283, 'learning_rate': 3.7006701414743118e-06, 'epoch': 3.15}
{'loss': 0.2015, 'learning_rate': 3.6957061305534874e-06, 'epoch': 3.15}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0126919746398926, 'eval_runtime': 46.1407, 'eval_samples_per_second': 39.835, 'eval_steps_per_second': 9.97, 'epoch': 3.15}
{'loss': 0.2643, 'learning_rate': 3.690742119632664e-06, 'epoch': 3.15}
{'loss': 0.2029, 'learning_rate': 3.6857781087118394e-06, 'epoch': 3.16}
{'loss': 0.2209, 'learning_rate': 3.6808140977910155e-06, 'epoch': 3.16}
{'loss': 0.1981, 'learning_rate': 3.6758500868701915e-06, 'epoch': 3.16}
{'loss': 0.21, 'learning_rate': 3.6708860759493675e-06, 'epoch': 3.16}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0055575370788574, 'eval_runtime': 46.1387, 'eval_samples_per_second': 39.836, 'eval_steps_per_second': 9.97, 'epoch': 3.16}
{'loss': 0.178, 'learning_rate': 3.665922065028543e-06, 'epoch': 3.17}
{'loss': 0.1909, 'learning_rate': 3.6609580541077196e-06, 'epoch': 3.17}
{'loss': 0.2561, 'learning_rate': 3.655994043186895e-06, 'epoch': 3.17}
{'loss': 0.2289, 'learning_rate': 3.6510300322660712e-06, 'epoch': 3.17}
{'loss': 0.2202, 'learning_rate': 3.646066021345247e-06, 'epoch': 3.18}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.005284547805786, 'eval_runtime': 46.0751, 'eval_samples_per_second': 39.891, 'eval_steps_per_second': 9.984, 'epoch': 3.18}
{'loss': 0.2349, 'learning_rate': 3.6411020104244233e-06, 'epoch': 3.18}
{'loss': 0.1904, 'learning_rate': 3.6361379995035993e-06, 'epoch': 3.18}
{'loss': 0.2267, 'learning_rate': 3.6311739885827753e-06, 'epoch': 3.18}
{'loss': 0.2316, 'learning_rate': 3.6262099776619514e-06, 'epoch': 3.19}
{'loss': 0.197, 'learning_rate': 3.621245966741127e-06, 'epoch': 3.19}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0015206336975098, 'eval_runtime': 51.2648, 'eval_samples_per_second': 35.853, 'eval_steps_per_second': 8.973, 'epoch': 3.19}
{'loss': 0.1813, 'learning_rate': 3.6162819558203034e-06, 'epoch': 3.19}
{'loss': 0.1771, 'learning_rate': 3.611317944899479e-06, 'epoch': 3.19}
{'loss': 0.2056, 'learning_rate': 3.606353933978655e-06, 'epoch': 3.2}
{'loss': 0.2041, 'learning_rate': 3.6013899230578307e-06, 'epoch': 3.2}
{'loss': 0.1987, 'learning_rate': 3.596425912137007e-06, 'epoch': 3.2}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.010824203491211, 'eval_runtime': 50.6205, 'eval_samples_per_second': 36.309, 'eval_steps_per_second': 9.087, 'epoch': 3.2}
{'loss': 0.254, 'learning_rate': 3.5914619012161827e-06, 'epoch': 3.2}
{'loss': 0.2458, 'learning_rate': 3.586497890295359e-06, 'epoch': 3.21}
{'loss': 0.2097, 'learning_rate': 3.5815338793745348e-06, 'epoch': 3.21}
{'loss': 0.1926, 'learning_rate': 3.576569868453711e-06, 'epoch': 3.21}
{'loss': 0.2119, 'learning_rate': 3.5716058575328873e-06, 'epoch': 3.21}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.032083749771118, 'eval_runtime': 50.7103, 'eval_samples_per_second': 36.245, 'eval_steps_per_second': 9.071, 'epoch': 3.21}
{'loss': 0.2015, 'learning_rate': 3.566641846612063e-06, 'epoch': 3.22}
{'loss': 0.1939, 'learning_rate': 3.561677835691239e-06, 'epoch': 3.22}
{'loss': 0.2176, 'learning_rate': 3.5567138247704145e-06, 'epoch': 3.22}
{'loss': 0.1505, 'learning_rate': 3.551749813849591e-06, 'epoch': 3.22}
{'loss': 0.1739, 'learning_rate': 3.5467858029287666e-06, 'epoch': 3.23}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.02242112159729, 'eval_runtime': 53.5387, 'eval_samples_per_second': 34.33, 'eval_steps_per_second': 8.592, 'epoch': 3.23}
{'loss': 0.2346, 'learning_rate': 3.541821792007943e-06, 'epoch': 3.23}
{'loss': 0.1977, 'learning_rate': 3.5368577810871186e-06, 'epoch': 3.23}
{'loss': 0.2145, 'learning_rate': 3.5318937701662947e-06, 'epoch': 3.23}
{'loss': 0.2083, 'learning_rate': 3.5269297592454703e-06, 'epoch': 3.24}
{'loss': 0.2589, 'learning_rate': 3.5219657483246467e-06, 'epoch': 3.24}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.020641803741455, 'eval_runtime': 52.7023, 'eval_samples_per_second': 34.875, 'eval_steps_per_second': 8.728, 'epoch': 3.24}
{'loss': 0.2073, 'learning_rate': 3.5170017374038223e-06, 'epoch': 3.24}
{'loss': 0.2281, 'learning_rate': 3.5120377264829984e-06, 'epoch': 3.24}
{'loss': 0.19, 'learning_rate': 3.507073715562175e-06, 'epoch': 3.25}
{'loss': 0.2374, 'learning_rate': 3.5021097046413504e-06, 'epoch': 3.25}
{'loss': 0.1819, 'learning_rate': 3.497145693720527e-06, 'epoch': 3.25}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.012194871902466, 'eval_runtime': 52.7853, 'eval_samples_per_second': 34.82, 'eval_steps_per_second': 8.715, 'epoch': 3.25}
{'loss': 0.2203, 'learning_rate': 3.4921816827997025e-06, 'epoch': 3.25}
{'loss': 0.2133, 'learning_rate': 3.4872176718788785e-06, 'epoch': 3.26}
{'loss': 0.2198, 'learning_rate': 3.482253660958054e-06, 'epoch': 3.26}
{'loss': 0.2426, 'learning_rate': 3.4772896500372306e-06, 'epoch': 3.26}
{'loss': 0.1922, 'learning_rate': 3.472325639116406e-06, 'epoch': 3.26}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0127193927764893, 'eval_runtime': 53.0032, 'eval_samples_per_second': 34.677, 'eval_steps_per_second': 8.679, 'epoch': 3.26}
{'loss': 0.1513, 'learning_rate': 3.467361628195582e-06, 'epoch': 3.27}
{'loss': 0.1837, 'learning_rate': 3.4623976172747582e-06, 'epoch': 3.27}
{'loss': 0.2462, 'learning_rate': 3.4574336063539343e-06, 'epoch': 3.27}
{'loss': 0.2117, 'learning_rate': 3.45246959543311e-06, 'epoch': 3.27}
{'loss': 0.2587, 'learning_rate': 3.4475055845122863e-06, 'epoch': 3.28}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 2.9961776733398438, 'eval_runtime': 53.5194, 'eval_samples_per_second': 34.343, 'eval_steps_per_second': 8.595, 'epoch': 3.28}
{'loss': 0.2222, 'learning_rate': 3.4425415735914624e-06, 'epoch': 3.28}
{'loss': 0.2073, 'learning_rate': 3.437577562670638e-06, 'epoch': 3.28}
{'loss': 0.255, 'learning_rate': 3.4326135517498144e-06, 'epoch': 3.28}
{'loss': 0.1912, 'learning_rate': 3.42764954082899e-06, 'epoch': 3.29}
{'loss': 0.1912, 'learning_rate': 3.4226855299081665e-06, 'epoch': 3.29}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0082180500030518, 'eval_runtime': 52.6926, 'eval_samples_per_second': 34.882, 'eval_steps_per_second': 8.73, 'epoch': 3.29}
{'loss': 0.2275, 'learning_rate': 3.417721518987342e-06, 'epoch': 3.29}
{'loss': 0.2361, 'learning_rate': 3.412757508066518e-06, 'epoch': 3.29}
{'loss': 0.2393, 'learning_rate': 3.4077934971456937e-06, 'epoch': 3.3}
{'loss': 0.175, 'learning_rate': 3.40282948622487e-06, 'epoch': 3.3}
{'loss': 0.1955, 'learning_rate': 3.3978654753040458e-06, 'epoch': 3.3}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0477254390716553, 'eval_runtime': 52.6774, 'eval_samples_per_second': 34.892, 'eval_steps_per_second': 8.732, 'epoch': 3.3}
{'loss': 0.2767, 'learning_rate': 3.392901464383222e-06, 'epoch': 3.3}
{'loss': 0.1921, 'learning_rate': 3.387937453462398e-06, 'epoch': 3.31}
{'loss': 0.2305, 'learning_rate': 3.382973442541574e-06, 'epoch': 3.31}
{'loss': 0.2246, 'learning_rate': 3.3780094316207495e-06, 'epoch': 3.31}
{'loss': 0.2159, 'learning_rate': 3.373045420699926e-06, 'epoch': 3.31}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0088188648223877, 'eval_runtime': 52.6183, 'eval_samples_per_second': 34.931, 'eval_steps_per_second': 8.742, 'epoch': 3.31}
{'loss': 0.232, 'learning_rate': 3.368081409779102e-06, 'epoch': 3.32}
{'loss': 0.1811, 'learning_rate': 3.3631173988582776e-06, 'epoch': 3.32}
{'loss': 0.2175, 'learning_rate': 3.358153387937454e-06, 'epoch': 3.32}
{'loss': 0.1745, 'learning_rate': 3.3531893770166296e-06, 'epoch': 3.32}
{'loss': 0.2267, 'learning_rate': 3.3482253660958057e-06, 'epoch': 3.33}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.029244899749756, 'eval_runtime': 52.7117, 'eval_samples_per_second': 34.869, 'eval_steps_per_second': 8.727, 'epoch': 3.33}
{'loss': 0.1864, 'learning_rate': 3.3432613551749817e-06, 'epoch': 3.33}
{'loss': 0.2594, 'learning_rate': 3.3382973442541577e-06, 'epoch': 3.33}
{'loss': 0.2334, 'learning_rate': 3.3333333333333333e-06, 'epoch': 3.33}
{'loss': 0.1932, 'learning_rate': 3.3283693224125098e-06, 'epoch': 3.34}
{'loss': 0.1854, 'learning_rate': 3.3234053114916854e-06, 'epoch': 3.34}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.029956817626953, 'eval_runtime': 52.5778, 'eval_samples_per_second': 34.958, 'eval_steps_per_second': 8.749, 'epoch': 3.34}
{'loss': 0.2054, 'learning_rate': 3.3184413005708614e-06, 'epoch': 3.34}
{'loss': 0.1945, 'learning_rate': 3.3134772896500374e-06, 'epoch': 3.34}
{'loss': 0.2011, 'learning_rate': 3.3085132787292135e-06, 'epoch': 3.35}
{'loss': 0.195, 'learning_rate': 3.3035492678083895e-06, 'epoch': 3.35}
{'loss': 0.2572, 'learning_rate': 3.2985852568875655e-06, 'epoch': 3.35}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0236775875091553, 'eval_runtime': 52.4203, 'eval_samples_per_second': 35.063, 'eval_steps_per_second': 8.775, 'epoch': 3.35}
{'loss': 0.2478, 'learning_rate': 3.2936212459667416e-06, 'epoch': 3.35}
{'loss': 0.281, 'learning_rate': 3.288657235045917e-06, 'epoch': 3.36}
{'loss': 0.2195, 'learning_rate': 3.2836932241250936e-06, 'epoch': 3.36}
{'loss': 0.2186, 'learning_rate': 3.2787292132042692e-06, 'epoch': 3.36}
{'loss': 0.2503, 'learning_rate': 3.2737652022834453e-06, 'epoch': 3.36}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.010479688644409, 'eval_runtime': 52.3411, 'eval_samples_per_second': 35.116, 'eval_steps_per_second': 8.789, 'epoch': 3.36}
{'loss': 0.2273, 'learning_rate': 3.2688011913626213e-06, 'epoch': 3.37}
{'loss': 0.1965, 'learning_rate': 3.2638371804417973e-06, 'epoch': 3.37}
{'loss': 0.2104, 'learning_rate': 3.258873169520973e-06, 'epoch': 3.37}
{'loss': 0.2384, 'learning_rate': 3.2539091586001494e-06, 'epoch': 3.37}
{'loss': 0.1909, 'learning_rate': 3.248945147679325e-06, 'epoch': 3.38}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.023404359817505, 'eval_runtime': 52.2757, 'eval_samples_per_second': 35.16, 'eval_steps_per_second': 8.799, 'epoch': 3.38}
{'loss': 0.187, 'learning_rate': 3.243981136758501e-06, 'epoch': 3.38}
{'loss': 0.2576, 'learning_rate': 3.2390171258376775e-06, 'epoch': 3.38}
{'loss': 0.2051, 'learning_rate': 3.234053114916853e-06, 'epoch': 3.38}
{'loss': 0.257, 'learning_rate': 3.229089103996029e-06, 'epoch': 3.39}
{'loss': 0.1902, 'learning_rate': 3.224125093075205e-06, 'epoch': 3.39}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0332860946655273, 'eval_runtime': 52.4388, 'eval_samples_per_second': 35.05, 'eval_steps_per_second': 8.772, 'epoch': 3.39}
{'loss': 0.2007, 'learning_rate': 3.219161082154381e-06, 'epoch': 3.39}
{'loss': 0.2066, 'learning_rate': 3.2141970712335568e-06, 'epoch': 3.39}
{'loss': 0.2003, 'learning_rate': 3.2092330603127332e-06, 'epoch': 3.4}
{'loss': 0.2149, 'learning_rate': 3.204269049391909e-06, 'epoch': 3.4}
{'loss': 0.2228, 'learning_rate': 3.199305038471085e-06, 'epoch': 3.4}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.031916618347168, 'eval_runtime': 52.2139, 'eval_samples_per_second': 35.201, 'eval_steps_per_second': 8.81, 'epoch': 3.4}
{'loss': 0.2371, 'learning_rate': 3.1943410275502605e-06, 'epoch': 3.4}
{'loss': 0.1938, 'learning_rate': 3.189377016629437e-06, 'epoch': 3.41}
{'loss': 0.2251, 'learning_rate': 3.1844130057086125e-06, 'epoch': 3.41}
{'loss': 0.2129, 'learning_rate': 3.179448994787789e-06, 'epoch': 3.41}
{'loss': 0.2187, 'learning_rate': 3.174484983866965e-06, 'epoch': 3.41}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.020359992980957, 'eval_runtime': 49.9278, 'eval_samples_per_second': 36.813, 'eval_steps_per_second': 9.213, 'epoch': 3.41}
{'loss': 0.1878, 'learning_rate': 3.1695209729461406e-06, 'epoch': 3.42}
{'loss': 0.2223, 'learning_rate': 3.164556962025317e-06, 'epoch': 3.42}
{'loss': 0.1962, 'learning_rate': 3.1595929511044927e-06, 'epoch': 3.42}
{'loss': 0.2129, 'learning_rate': 3.1546289401836687e-06, 'epoch': 3.42}
{'loss': 0.2273, 'learning_rate': 3.1496649292628443e-06, 'epoch': 3.43}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.021620988845825, 'eval_runtime': 49.3823, 'eval_samples_per_second': 37.22, 'eval_steps_per_second': 9.315, 'epoch': 3.43}
{'loss': 0.2187, 'learning_rate': 3.1447009183420208e-06, 'epoch': 3.43}
{'loss': 0.1822, 'learning_rate': 3.1397369074211964e-06, 'epoch': 3.43}
{'loss': 0.1902, 'learning_rate': 3.134772896500373e-06, 'epoch': 3.43}
{'loss': 0.1844, 'learning_rate': 3.1298088855795484e-06, 'epoch': 3.44}
{'loss': 0.3148, 'learning_rate': 3.1248448746587245e-06, 'epoch': 3.44}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0176403522491455, 'eval_runtime': 51.6286, 'eval_samples_per_second': 35.6, 'eval_steps_per_second': 8.91, 'epoch': 3.44}
{'loss': 0.2049, 'learning_rate': 3.1198808637379e-06, 'epoch': 3.44}
{'loss': 0.2149, 'learning_rate': 3.1149168528170765e-06, 'epoch': 3.44}
{'loss': 0.2067, 'learning_rate': 3.1099528418962526e-06, 'epoch': 3.45}
{'loss': 0.2474, 'learning_rate': 3.104988830975428e-06, 'epoch': 3.45}
{'loss': 0.2359, 'learning_rate': 3.1000248200546046e-06, 'epoch': 3.45}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0233042240142822, 'eval_runtime': 51.0855, 'eval_samples_per_second': 35.979, 'eval_steps_per_second': 9.005, 'epoch': 3.45}
{'loss': 0.2027, 'learning_rate': 3.0950608091337802e-06, 'epoch': 3.45}
{'loss': 0.2876, 'learning_rate': 3.0900967982129567e-06, 'epoch': 3.45}
{'loss': 0.285, 'learning_rate': 3.0851327872921323e-06, 'epoch': 3.46}
{'loss': 0.195, 'learning_rate': 3.0801687763713083e-06, 'epoch': 3.46}
{'loss': 0.2108, 'learning_rate': 3.075204765450484e-06, 'epoch': 3.46}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.021470546722412, 'eval_runtime': 52.585, 'eval_samples_per_second': 34.953, 'eval_steps_per_second': 8.748, 'epoch': 3.46}
{'loss': 0.2213, 'learning_rate': 3.0702407545296604e-06, 'epoch': 3.46}
{'loss': 0.1882, 'learning_rate': 3.065276743608836e-06, 'epoch': 3.47}
{'loss': 0.2021, 'learning_rate': 3.060312732688012e-06, 'epoch': 3.47}
{'loss': 0.1908, 'learning_rate': 3.055348721767188e-06, 'epoch': 3.47}
{'loss': 0.1697, 'learning_rate': 3.050384710846364e-06, 'epoch': 3.47}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0364861488342285, 'eval_runtime': 52.533, 'eval_samples_per_second': 34.988, 'eval_steps_per_second': 8.756, 'epoch': 3.47}
{'loss': 0.2481, 'learning_rate': 3.0454206999255405e-06, 'epoch': 3.48}
{'loss': 0.2193, 'learning_rate': 3.040456689004716e-06, 'epoch': 3.48}
{'loss': 0.2091, 'learning_rate': 3.035492678083892e-06, 'epoch': 3.48}
{'loss': 0.2661, 'learning_rate': 3.0305286671630678e-06, 'epoch': 3.48}
{'loss': 0.2044, 'learning_rate': 3.0255646562422442e-06, 'epoch': 3.49}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.025869369506836, 'eval_runtime': 52.4739, 'eval_samples_per_second': 35.027, 'eval_steps_per_second': 8.766, 'epoch': 3.49}
{'loss': 0.2043, 'learning_rate': 3.02060064532142e-06, 'epoch': 3.49}
{'loss': 0.2407, 'learning_rate': 3.015636634400596e-06, 'epoch': 3.49}
{'loss': 0.1951, 'learning_rate': 3.010672623479772e-06, 'epoch': 3.49}
{'loss': 0.248, 'learning_rate': 3.005708612558948e-06, 'epoch': 3.5}
{'loss': 0.1749, 'learning_rate': 3.0007446016381235e-06, 'epoch': 3.5}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0433189868927, 'eval_runtime': 52.3984, 'eval_samples_per_second': 35.077, 'eval_steps_per_second': 8.779, 'epoch': 3.5}
{'loss': 0.2324, 'learning_rate': 2.9957805907173e-06, 'epoch': 3.5}
{'loss': 0.22, 'learning_rate': 2.9908165797964756e-06, 'epoch': 3.5}
{'loss': 0.231, 'learning_rate': 2.9858525688756516e-06, 'epoch': 3.51}
{'loss': 0.246, 'learning_rate': 2.980888557954828e-06, 'epoch': 3.51}
{'loss': 0.1908, 'learning_rate': 2.9759245470340037e-06, 'epoch': 3.51}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0296199321746826, 'eval_runtime': 52.4914, 'eval_samples_per_second': 35.015, 'eval_steps_per_second': 8.763, 'epoch': 3.51}
{'loss': 0.2469, 'learning_rate': 2.97096053611318e-06, 'epoch': 3.51}
{'loss': 0.2295, 'learning_rate': 2.9659965251923557e-06, 'epoch': 3.52}
{'loss': 0.184, 'learning_rate': 2.9610325142715318e-06, 'epoch': 3.52}
{'loss': 0.1678, 'learning_rate': 2.9560685033507074e-06, 'epoch': 3.52}
{'loss': 0.2632, 'learning_rate': 2.951104492429884e-06, 'epoch': 3.52}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.036463737487793, 'eval_runtime': 52.568, 'eval_samples_per_second': 34.964, 'eval_steps_per_second': 8.751, 'epoch': 3.52}
{'loss': 0.2345, 'learning_rate': 2.9461404815090594e-06, 'epoch': 3.53}
{'loss': 0.2316, 'learning_rate': 2.9411764705882355e-06, 'epoch': 3.53}
{'loss': 0.2467, 'learning_rate': 2.9362124596674115e-06, 'epoch': 3.53}
{'loss': 0.1967, 'learning_rate': 2.9312484487465875e-06, 'epoch': 3.53}
{'loss': 0.1965, 'learning_rate': 2.926284437825763e-06, 'epoch': 3.54}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.04494309425354, 'eval_runtime': 52.5226, 'eval_samples_per_second': 34.994, 'eval_steps_per_second': 8.758, 'epoch': 3.54}
{'loss': 0.1944, 'learning_rate': 2.9213204269049396e-06, 'epoch': 3.54}
{'loss': 0.1951, 'learning_rate': 2.9163564159841156e-06, 'epoch': 3.54}
{'loss': 0.1429, 'learning_rate': 2.9113924050632912e-06, 'epoch': 3.54}
{'loss': 0.2151, 'learning_rate': 2.9064283941424677e-06, 'epoch': 3.55}
{'loss': 0.1908, 'learning_rate': 2.9014643832216433e-06, 'epoch': 3.55}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0526211261749268, 'eval_runtime': 52.5547, 'eval_samples_per_second': 34.973, 'eval_steps_per_second': 8.753, 'epoch': 3.55}
{'loss': 0.2757, 'learning_rate': 2.8965003723008193e-06, 'epoch': 3.55}
{'loss': 0.2198, 'learning_rate': 2.8915363613799953e-06, 'epoch': 3.55}
{'loss': 0.2419, 'learning_rate': 2.8865723504591714e-06, 'epoch': 3.56}
{'loss': 0.19, 'learning_rate': 2.881608339538347e-06, 'epoch': 3.56}
{'loss': 0.2135, 'learning_rate': 2.8766443286175234e-06, 'epoch': 3.56}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.052982807159424, 'eval_runtime': 52.4773, 'eval_samples_per_second': 35.025, 'eval_steps_per_second': 8.766, 'epoch': 3.56}
{'loss': 0.2369, 'learning_rate': 2.871680317696699e-06, 'epoch': 3.56}
{'loss': 0.1778, 'learning_rate': 2.866716306775875e-06, 'epoch': 3.57}
{'loss': 0.154, 'learning_rate': 2.8617522958550507e-06, 'epoch': 3.57}
{'loss': 0.2256, 'learning_rate': 2.856788284934227e-06, 'epoch': 3.57}
{'loss': 0.2353, 'learning_rate': 2.851824274013403e-06, 'epoch': 3.57}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0470752716064453, 'eval_runtime': 52.4808, 'eval_samples_per_second': 35.022, 'eval_steps_per_second': 8.765, 'epoch': 3.57}
{'loss': 0.1915, 'learning_rate': 2.846860263092579e-06, 'epoch': 3.58}
{'loss': 0.2049, 'learning_rate': 2.8418962521717552e-06, 'epoch': 3.58}
{'loss': 0.1856, 'learning_rate': 2.836932241250931e-06, 'epoch': 3.58}
{'loss': 0.1965, 'learning_rate': 2.8319682303301073e-06, 'epoch': 3.58}
{'loss': 0.1954, 'learning_rate': 2.827004219409283e-06, 'epoch': 3.59}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.061269760131836, 'eval_runtime': 52.6416, 'eval_samples_per_second': 34.915, 'eval_steps_per_second': 8.738, 'epoch': 3.59}
{'loss': 0.1863, 'learning_rate': 2.822040208488459e-06, 'epoch': 3.59}
{'loss': 0.2304, 'learning_rate': 2.817076197567635e-06, 'epoch': 3.59}
{'loss': 0.234, 'learning_rate': 2.812112186646811e-06, 'epoch': 3.59}
{'loss': 0.2078, 'learning_rate': 2.8071481757259866e-06, 'epoch': 3.6}
{'loss': 0.2425, 'learning_rate': 2.802184164805163e-06, 'epoch': 3.6}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0343828201293945, 'eval_runtime': 52.3156, 'eval_samples_per_second': 35.133, 'eval_steps_per_second': 8.793, 'epoch': 3.6}
{'loss': 0.2216, 'learning_rate': 2.7972201538843386e-06, 'epoch': 3.6}
{'loss': 0.2585, 'learning_rate': 2.7922561429635147e-06, 'epoch': 3.6}
{'loss': 0.2158, 'learning_rate': 2.7872921320426903e-06, 'epoch': 3.61}
{'loss': 0.2178, 'learning_rate': 2.7823281211218667e-06, 'epoch': 3.61}
{'loss': 0.1866, 'learning_rate': 2.7773641102010428e-06, 'epoch': 3.61}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.033362627029419, 'eval_runtime': 52.4465, 'eval_samples_per_second': 35.045, 'eval_steps_per_second': 8.771, 'epoch': 3.61}
{'loss': 0.2783, 'learning_rate': 2.7724000992802188e-06, 'epoch': 3.61}
{'loss': 0.2186, 'learning_rate': 2.767436088359395e-06, 'epoch': 3.62}
{'loss': 0.1943, 'learning_rate': 2.7624720774385704e-06, 'epoch': 3.62}
{'loss': 0.2493, 'learning_rate': 2.757508066517747e-06, 'epoch': 3.62}
{'loss': 0.2212, 'learning_rate': 2.7525440555969225e-06, 'epoch': 3.62}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.046351909637451, 'eval_runtime': 52.4731, 'eval_samples_per_second': 35.027, 'eval_steps_per_second': 8.766, 'epoch': 3.62}
{'loss': 0.2131, 'learning_rate': 2.7475800446760985e-06, 'epoch': 3.63}
{'loss': 0.2062, 'learning_rate': 2.742616033755274e-06, 'epoch': 3.63}
{'loss': 0.2019, 'learning_rate': 2.7376520228344506e-06, 'epoch': 3.63}
{'loss': 0.1919, 'learning_rate': 2.732688011913626e-06, 'epoch': 3.63}
{'loss': 0.2052, 'learning_rate': 2.7277240009928026e-06, 'epoch': 3.64}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0380098819732666, 'eval_runtime': 52.4264, 'eval_samples_per_second': 35.059, 'eval_steps_per_second': 8.774, 'epoch': 3.64}
{'loss': 0.281, 'learning_rate': 2.7227599900719782e-06, 'epoch': 3.64}
{'loss': 0.2053, 'learning_rate': 2.7177959791511543e-06, 'epoch': 3.64}
{'loss': 0.2272, 'learning_rate': 2.7128319682303307e-06, 'epoch': 3.64}
{'loss': 0.3383, 'learning_rate': 2.7078679573095063e-06, 'epoch': 3.65}
{'loss': 0.226, 'learning_rate': 2.7029039463886824e-06, 'epoch': 3.65}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.027529716491699, 'eval_runtime': 50.9019, 'eval_samples_per_second': 36.109, 'eval_steps_per_second': 9.037, 'epoch': 3.65}
{'loss': 0.2523, 'learning_rate': 2.697939935467858e-06, 'epoch': 3.65}
{'loss': 0.2291, 'learning_rate': 2.6929759245470344e-06, 'epoch': 3.65}
{'loss': 0.2567, 'learning_rate': 2.68801191362621e-06, 'epoch': 3.66}
{'loss': 0.2074, 'learning_rate': 2.6830479027053865e-06, 'epoch': 3.66}
{'loss': 0.1823, 'learning_rate': 2.678083891784562e-06, 'epoch': 3.66}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.038041830062866, 'eval_runtime': 50.724, 'eval_samples_per_second': 36.235, 'eval_steps_per_second': 9.069, 'epoch': 3.66}
{'loss': 0.2022, 'learning_rate': 2.673119880863738e-06, 'epoch': 3.66}
{'loss': 0.2562, 'learning_rate': 2.6681558699429137e-06, 'epoch': 3.67}
{'loss': 0.2574, 'learning_rate': 2.66319185902209e-06, 'epoch': 3.67}
{'loss': 0.1914, 'learning_rate': 2.6582278481012658e-06, 'epoch': 3.67}
{'loss': 0.1739, 'learning_rate': 2.653263837180442e-06, 'epoch': 3.67}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0320348739624023, 'eval_runtime': 49.6498, 'eval_samples_per_second': 37.019, 'eval_steps_per_second': 9.265, 'epoch': 3.67}
{'loss': 0.2293, 'learning_rate': 2.6482998262596183e-06, 'epoch': 3.68}
{'loss': 0.1672, 'learning_rate': 2.643335815338794e-06, 'epoch': 3.68}
{'loss': 0.2069, 'learning_rate': 2.6383718044179703e-06, 'epoch': 3.68}
{'loss': 0.2031, 'learning_rate': 2.633407793497146e-06, 'epoch': 3.68}
{'loss': 0.3696, 'learning_rate': 2.628443782576322e-06, 'epoch': 3.69}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.057884931564331, 'eval_runtime': 54.9856, 'eval_samples_per_second': 33.427, 'eval_steps_per_second': 8.366, 'epoch': 3.69}
{'loss': 0.2127, 'learning_rate': 2.6234797716554976e-06, 'epoch': 3.69}
{'loss': 0.2111, 'learning_rate': 2.618515760734674e-06, 'epoch': 3.69}
{'loss': 0.2187, 'learning_rate': 2.6135517498138496e-06, 'epoch': 3.69}
{'loss': 0.1604, 'learning_rate': 2.6085877388930257e-06, 'epoch': 3.7}
{'loss': 0.2469, 'learning_rate': 2.6036237279722017e-06, 'epoch': 3.7}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0445265769958496, 'eval_runtime': 53.6845, 'eval_samples_per_second': 34.237, 'eval_steps_per_second': 8.569, 'epoch': 3.7}
{'loss': 0.1922, 'learning_rate': 2.5986597170513777e-06, 'epoch': 3.7}
{'loss': 0.2315, 'learning_rate': 2.5936957061305533e-06, 'epoch': 3.7}
{'loss': 0.2582, 'learning_rate': 2.5887316952097298e-06, 'epoch': 3.71}
{'loss': 0.2392, 'learning_rate': 2.583767684288906e-06, 'epoch': 3.71}
{'loss': 0.1904, 'learning_rate': 2.5788036733680814e-06, 'epoch': 3.71}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.045727252960205, 'eval_runtime': 52.4393, 'eval_samples_per_second': 35.05, 'eval_steps_per_second': 8.772, 'epoch': 3.71}
{'loss': 0.2816, 'learning_rate': 2.573839662447258e-06, 'epoch': 3.71}
{'loss': 0.2258, 'learning_rate': 2.5688756515264335e-06, 'epoch': 3.72}
{'loss': 0.2619, 'learning_rate': 2.5639116406056095e-06, 'epoch': 3.72}
{'loss': 0.2174, 'learning_rate': 2.5589476296847855e-06, 'epoch': 3.72}
{'loss': 0.1899, 'learning_rate': 2.5539836187639616e-06, 'epoch': 3.72}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.038442373275757, 'eval_runtime': 53.6659, 'eval_samples_per_second': 34.249, 'eval_steps_per_second': 8.572, 'epoch': 3.72}
{'loss': 0.204, 'learning_rate': 2.549019607843137e-06, 'epoch': 3.73}
{'loss': 0.2133, 'learning_rate': 2.5440555969223136e-06, 'epoch': 3.73}
{'loss': 0.2155, 'learning_rate': 2.5390915860014892e-06, 'epoch': 3.73}
{'loss': 0.2234, 'learning_rate': 2.5341275750806653e-06, 'epoch': 3.73}
{'loss': 0.2116, 'learning_rate': 2.5291635641598413e-06, 'epoch': 3.74}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.075801134109497, 'eval_runtime': 53.0369, 'eval_samples_per_second': 34.655, 'eval_steps_per_second': 8.673, 'epoch': 3.74}
{'loss': 0.2357, 'learning_rate': 2.5241995532390173e-06, 'epoch': 3.74}
{'loss': 0.1838, 'learning_rate': 2.5192355423181934e-06, 'epoch': 3.74}
{'loss': 0.1847, 'learning_rate': 2.5142715313973694e-06, 'epoch': 3.74}
{'loss': 0.1857, 'learning_rate': 2.5093075204765454e-06, 'epoch': 3.75}
{'loss': 0.2093, 'learning_rate': 2.504343509555721e-06, 'epoch': 3.75}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0710713863372803, 'eval_runtime': 53.4005, 'eval_samples_per_second': 34.419, 'eval_steps_per_second': 8.614, 'epoch': 3.75}
{'loss': 0.2023, 'learning_rate': 2.499379498634897e-06, 'epoch': 3.75}
{'loss': 0.1506, 'learning_rate': 2.494415487714073e-06, 'epoch': 3.75}
{'loss': 0.2345, 'learning_rate': 2.489451476793249e-06, 'epoch': 3.76}
{'loss': 0.2938, 'learning_rate': 2.484487465872425e-06, 'epoch': 3.76}
{'loss': 0.198, 'learning_rate': 2.479523454951601e-06, 'epoch': 3.76}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0655345916748047, 'eval_runtime': 52.8431, 'eval_samples_per_second': 34.782, 'eval_steps_per_second': 8.705, 'epoch': 3.76}
{'loss': 0.2275, 'learning_rate': 2.474559444030777e-06, 'epoch': 3.76}
{'loss': 0.182, 'learning_rate': 2.4695954331099532e-06, 'epoch': 3.77}
{'loss': 0.1873, 'learning_rate': 2.464631422189129e-06, 'epoch': 3.77}
{'loss': 0.2181, 'learning_rate': 2.459667411268305e-06, 'epoch': 3.77}
{'loss': 0.1957, 'learning_rate': 2.454703400347481e-06, 'epoch': 3.77}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.062953233718872, 'eval_runtime': 52.8525, 'eval_samples_per_second': 34.776, 'eval_steps_per_second': 8.703, 'epoch': 3.77}
{'loss': 0.203, 'learning_rate': 2.449739389426657e-06, 'epoch': 3.78}
{'loss': 0.2175, 'learning_rate': 2.444775378505833e-06, 'epoch': 3.78}
{'loss': 0.2118, 'learning_rate': 2.439811367585009e-06, 'epoch': 3.78}
{'loss': 0.1804, 'learning_rate': 2.4348473566641846e-06, 'epoch': 3.78}
{'loss': 0.2029, 'learning_rate': 2.4298833457433606e-06, 'epoch': 3.79}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.042559862136841, 'eval_runtime': 53.6337, 'eval_samples_per_second': 34.269, 'eval_steps_per_second': 8.577, 'epoch': 3.79}
{'loss': 0.1937, 'learning_rate': 2.424919334822537e-06, 'epoch': 3.79}
{'loss': 0.2254, 'learning_rate': 2.4199553239017127e-06, 'epoch': 3.79}
{'loss': 0.2279, 'learning_rate': 2.4149913129808887e-06, 'epoch': 3.79}
{'loss': 0.2228, 'learning_rate': 2.4100273020600647e-06, 'epoch': 3.79}
{'loss': 0.1912, 'learning_rate': 2.4050632911392408e-06, 'epoch': 3.8}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0496091842651367, 'eval_runtime': 53.4592, 'eval_samples_per_second': 34.381, 'eval_steps_per_second': 8.605, 'epoch': 3.8}
{'loss': 0.27, 'learning_rate': 2.400099280218417e-06, 'epoch': 3.8}
{'loss': 0.1851, 'learning_rate': 2.395135269297593e-06, 'epoch': 3.8}
{'loss': 0.2171, 'learning_rate': 2.3901712583767684e-06, 'epoch': 3.8}
{'loss': 0.2256, 'learning_rate': 2.3852072474559445e-06, 'epoch': 3.81}
{'loss': 0.2265, 'learning_rate': 2.3802432365351205e-06, 'epoch': 3.81}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0554680824279785, 'eval_runtime': 53.067, 'eval_samples_per_second': 34.635, 'eval_steps_per_second': 8.668, 'epoch': 3.81}
{'loss': 0.2153, 'learning_rate': 2.3752792256142965e-06, 'epoch': 3.81}
{'loss': 0.2559, 'learning_rate': 2.3703152146934726e-06, 'epoch': 3.81}
{'loss': 0.2258, 'learning_rate': 2.365351203772648e-06, 'epoch': 3.82}
{'loss': 0.2458, 'learning_rate': 2.3603871928518246e-06, 'epoch': 3.82}
{'loss': 0.2128, 'learning_rate': 2.3554231819310006e-06, 'epoch': 3.82}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0614843368530273, 'eval_runtime': 54.1287, 'eval_samples_per_second': 33.956, 'eval_steps_per_second': 8.498, 'epoch': 3.82}
{'loss': 0.1988, 'learning_rate': 2.3504591710101767e-06, 'epoch': 3.82}
{'loss': 0.2051, 'learning_rate': 2.3454951600893523e-06, 'epoch': 3.83}
{'loss': 0.2083, 'learning_rate': 2.3405311491685283e-06, 'epoch': 3.83}
{'loss': 0.1998, 'learning_rate': 2.3355671382477043e-06, 'epoch': 3.83}
{'loss': 0.2146, 'learning_rate': 2.3306031273268804e-06, 'epoch': 3.83}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.058851957321167, 'eval_runtime': 54.3408, 'eval_samples_per_second': 33.824, 'eval_steps_per_second': 8.465, 'epoch': 3.83}
{'loss': 0.2153, 'learning_rate': 2.3256391164060564e-06, 'epoch': 3.84}
{'loss': 0.1806, 'learning_rate': 2.3206751054852324e-06, 'epoch': 3.84}
{'loss': 0.1768, 'learning_rate': 2.315711094564408e-06, 'epoch': 3.84}
{'loss': 0.2198, 'learning_rate': 2.310747083643584e-06, 'epoch': 3.84}
{'loss': 0.2951, 'learning_rate': 2.30578307272276e-06, 'epoch': 3.85}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0566980838775635, 'eval_runtime': 53.8931, 'eval_samples_per_second': 34.105, 'eval_steps_per_second': 8.535, 'epoch': 3.85}
{'loss': 0.1877, 'learning_rate': 2.300819061801936e-06, 'epoch': 3.85}
{'loss': 0.2459, 'learning_rate': 2.295855050881112e-06, 'epoch': 3.85}
{'loss': 0.2298, 'learning_rate': 2.290891039960288e-06, 'epoch': 3.85}
{'loss': 0.2084, 'learning_rate': 2.2859270290394642e-06, 'epoch': 3.86}
{'loss': 0.2421, 'learning_rate': 2.2809630181186403e-06, 'epoch': 3.86}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0380654335021973, 'eval_runtime': 56.8505, 'eval_samples_per_second': 32.33, 'eval_steps_per_second': 8.091, 'epoch': 3.86}
{'loss': 0.2023, 'learning_rate': 2.2759990071978163e-06, 'epoch': 3.86}
{'loss': 0.1835, 'learning_rate': 2.271034996276992e-06, 'epoch': 3.86}
{'loss': 0.2115, 'learning_rate': 2.266070985356168e-06, 'epoch': 3.87}
{'loss': 0.1884, 'learning_rate': 2.261106974435344e-06, 'epoch': 3.87}
{'loss': 0.1909, 'learning_rate': 2.25614296351452e-06, 'epoch': 3.87}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0457711219787598, 'eval_runtime': 54.189, 'eval_samples_per_second': 33.918, 'eval_steps_per_second': 8.489, 'epoch': 3.87}
{'loss': 0.2141, 'learning_rate': 2.251178952593696e-06, 'epoch': 3.87}
{'loss': 0.2575, 'learning_rate': 2.2462149416728716e-06, 'epoch': 3.88}
{'loss': 0.2108, 'learning_rate': 2.2412509307520476e-06, 'epoch': 3.88}
{'loss': 0.248, 'learning_rate': 2.2362869198312237e-06, 'epoch': 3.88}
{'loss': 0.1965, 'learning_rate': 2.2313229089103997e-06, 'epoch': 3.88}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0402753353118896, 'eval_runtime': 52.834, 'eval_samples_per_second': 34.788, 'eval_steps_per_second': 8.707, 'epoch': 3.88}
{'loss': 0.2458, 'learning_rate': 2.2263588979895757e-06, 'epoch': 3.89}
{'loss': 0.2146, 'learning_rate': 2.2213948870687518e-06, 'epoch': 3.89}
{'loss': 0.2057, 'learning_rate': 2.216430876147928e-06, 'epoch': 3.89}
{'loss': 0.1766, 'learning_rate': 2.211466865227104e-06, 'epoch': 3.89}
{'loss': 0.2085, 'learning_rate': 2.20650285430628e-06, 'epoch': 3.9}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0594513416290283, 'eval_runtime': 52.472, 'eval_samples_per_second': 35.028, 'eval_steps_per_second': 8.767, 'epoch': 3.9}
{'loss': 0.2229, 'learning_rate': 2.2015388433854555e-06, 'epoch': 3.9}
{'loss': 0.1945, 'learning_rate': 2.1965748324646315e-06, 'epoch': 3.9}
{'loss': 0.1907, 'learning_rate': 2.1916108215438075e-06, 'epoch': 3.9}
{'loss': 0.1978, 'learning_rate': 2.1866468106229836e-06, 'epoch': 3.91}
{'loss': 0.172, 'learning_rate': 2.1816827997021596e-06, 'epoch': 3.91}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0556459426879883, 'eval_runtime': 53.8225, 'eval_samples_per_second': 34.149, 'eval_steps_per_second': 8.547, 'epoch': 3.91}
{'loss': 0.2149, 'learning_rate': 2.1767187887813356e-06, 'epoch': 3.91}
{'loss': 0.1914, 'learning_rate': 2.1717547778605112e-06, 'epoch': 3.91}
{'loss': 0.1858, 'learning_rate': 2.1667907669396872e-06, 'epoch': 3.92}
{'loss': 0.2046, 'learning_rate': 2.1618267560188637e-06, 'epoch': 3.92}
{'loss': 0.2322, 'learning_rate': 2.1568627450980393e-06, 'epoch': 3.92}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.046689748764038, 'eval_runtime': 54.6811, 'eval_samples_per_second': 33.613, 'eval_steps_per_second': 8.412, 'epoch': 3.92}
{'loss': 0.1988, 'learning_rate': 2.1518987341772153e-06, 'epoch': 3.92}
{'loss': 0.2073, 'learning_rate': 2.1469347232563914e-06, 'epoch': 3.93}
{'loss': 0.2433, 'learning_rate': 2.1419707123355674e-06, 'epoch': 3.93}
{'loss': 0.1885, 'learning_rate': 2.1370067014147434e-06, 'epoch': 3.93}
{'loss': 0.221, 'learning_rate': 2.1320426904939195e-06, 'epoch': 3.93}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0447781085968018, 'eval_runtime': 54.6437, 'eval_samples_per_second': 33.636, 'eval_steps_per_second': 8.418, 'epoch': 3.93}
{'loss': 0.25, 'learning_rate': 2.127078679573095e-06, 'epoch': 3.94}
{'loss': 0.1985, 'learning_rate': 2.122114668652271e-06, 'epoch': 3.94}
{'loss': 0.2212, 'learning_rate': 2.117150657731447e-06, 'epoch': 3.94}
{'loss': 0.1877, 'learning_rate': 2.112186646810623e-06, 'epoch': 3.94}
{'loss': 0.1825, 'learning_rate': 2.107222635889799e-06, 'epoch': 3.95}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0372772216796875, 'eval_runtime': 53.5165, 'eval_samples_per_second': 34.345, 'eval_steps_per_second': 8.595, 'epoch': 3.95}
{'loss': 0.1746, 'learning_rate': 2.102258624968975e-06, 'epoch': 3.95}
{'loss': 0.2097, 'learning_rate': 2.0972946140481512e-06, 'epoch': 3.95}
{'loss': 0.1589, 'learning_rate': 2.0923306031273273e-06, 'epoch': 3.95}
{'loss': 0.2, 'learning_rate': 2.0873665922065033e-06, 'epoch': 3.96}
{'loss': 0.1827, 'learning_rate': 2.082402581285679e-06, 'epoch': 3.96}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.051365852355957, 'eval_runtime': 52.1628, 'eval_samples_per_second': 35.236, 'eval_steps_per_second': 8.819, 'epoch': 3.96}
{'loss': 0.2082, 'learning_rate': 2.077438570364855e-06, 'epoch': 3.96}
{'loss': 0.225, 'learning_rate': 2.072474559444031e-06, 'epoch': 3.96}
{'loss': 0.268, 'learning_rate': 2.067510548523207e-06, 'epoch': 3.97}
{'loss': 0.2301, 'learning_rate': 2.062546537602383e-06, 'epoch': 3.97}
{'loss': 0.2353, 'learning_rate': 2.0575825266815586e-06, 'epoch': 3.97}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0366923809051514, 'eval_runtime': 55.1839, 'eval_samples_per_second': 33.307, 'eval_steps_per_second': 8.336, 'epoch': 3.97}
{'loss': 0.1843, 'learning_rate': 2.0526185157607347e-06, 'epoch': 3.97}
{'loss': 0.2344, 'learning_rate': 2.0476545048399107e-06, 'epoch': 3.98}
{'loss': 0.1841, 'learning_rate': 2.0426904939190867e-06, 'epoch': 3.98}
{'loss': 0.1672, 'learning_rate': 2.0377264829982628e-06, 'epoch': 3.98}
{'loss': 0.225, 'learning_rate': 2.032762472077439e-06, 'epoch': 3.98}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0586464405059814, 'eval_runtime': 55.1188, 'eval_samples_per_second': 33.346, 'eval_steps_per_second': 8.346, 'epoch': 3.98}
{'loss': 0.1949, 'learning_rate': 2.027798461156615e-06, 'epoch': 3.99}
{'loss': 0.2109, 'learning_rate': 2.022834450235791e-06, 'epoch': 3.99}
{'loss': 0.2065, 'learning_rate': 2.017870439314967e-06, 'epoch': 3.99}
{'loss': 0.2105, 'learning_rate': 2.0129064283941425e-06, 'epoch': 3.99}
{'loss': 0.2214, 'learning_rate': 2.0079424174733185e-06, 'epoch': 4.0}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.0556936264038086, 'eval_runtime': 52.5116, 'eval_samples_per_second': 35.002, 'eval_steps_per_second': 8.76, 'epoch': 4.0}
{'loss': 0.2031, 'learning_rate': 2.0029784065524945e-06, 'epoch': 4.0}
{'loss': 0.1637, 'learning_rate': 1.9980143956316706e-06, 'epoch': 4.0}
{'loss': 0.057, 'learning_rate': 1.9930503847108466e-06, 'epoch': 4.0}
{'loss': 0.0611, 'learning_rate': 1.9880863737900226e-06, 'epoch': 4.01}
{'loss': 0.0601, 'learning_rate': 1.9831223628691982e-06, 'epoch': 4.01}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.1370511054992676, 'eval_runtime': 53.1691, 'eval_samples_per_second': 34.569, 'eval_steps_per_second': 8.652, 'epoch': 4.01}
{'loss': 0.0837, 'learning_rate': 1.9781583519483743e-06, 'epoch': 4.01}
{'loss': 0.0733, 'learning_rate': 1.9731943410275503e-06, 'epoch': 4.01}
{'loss': 0.0606, 'learning_rate': 1.9682303301067263e-06, 'epoch': 4.02}
{'loss': 0.0639, 'learning_rate': 1.9632663191859024e-06, 'epoch': 4.02}
{'loss': 0.0524, 'learning_rate': 1.9583023082650784e-06, 'epoch': 4.02}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.1907150745391846, 'eval_runtime': 52.6977, 'eval_samples_per_second': 34.878, 'eval_steps_per_second': 8.729, 'epoch': 4.02}
{'loss': 0.0558, 'learning_rate': 1.9533382973442544e-06, 'epoch': 4.02}
{'loss': 0.0578, 'learning_rate': 1.9483742864234305e-06, 'epoch': 4.03}
{'loss': 0.0649, 'learning_rate': 1.9434102755026065e-06, 'epoch': 4.03}
{'loss': 0.0688, 'learning_rate': 1.938446264581782e-06, 'epoch': 4.03}
{'loss': 0.0533, 'learning_rate': 1.933482253660958e-06, 'epoch': 4.03}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.209256649017334, 'eval_runtime': 52.9141, 'eval_samples_per_second': 34.736, 'eval_steps_per_second': 8.693, 'epoch': 4.03}
{'loss': 0.056, 'learning_rate': 1.928518242740134e-06, 'epoch': 4.04}
{'loss': 0.1141, 'learning_rate': 1.92355423181931e-06, 'epoch': 4.04}
{'loss': 0.057, 'learning_rate': 1.918590220898486e-06, 'epoch': 4.04}
{'loss': 0.053, 'learning_rate': 1.913626209977662e-06, 'epoch': 4.04}
{'loss': 0.0729, 'learning_rate': 1.908662199056838e-06, 'epoch': 4.05}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.226804494857788, 'eval_runtime': 53.6635, 'eval_samples_per_second': 34.25, 'eval_steps_per_second': 8.572, 'epoch': 4.05}
{'loss': 0.0581, 'learning_rate': 1.9036981881360139e-06, 'epoch': 4.05}
{'loss': 0.073, 'learning_rate': 1.8987341772151901e-06, 'epoch': 4.05}
{'loss': 0.0942, 'learning_rate': 1.8937701662943661e-06, 'epoch': 4.05}
{'loss': 0.0486, 'learning_rate': 1.888806155373542e-06, 'epoch': 4.06}
{'loss': 0.0763, 'learning_rate': 1.883842144452718e-06, 'epoch': 4.06}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.22420334815979, 'eval_runtime': 53.4506, 'eval_samples_per_second': 34.387, 'eval_steps_per_second': 8.606, 'epoch': 4.06}
{'loss': 0.0642, 'learning_rate': 1.878878133531894e-06, 'epoch': 4.06}
{'loss': 0.076, 'learning_rate': 1.8739141226110698e-06, 'epoch': 4.06}
{'loss': 0.0552, 'learning_rate': 1.8689501116902459e-06, 'epoch': 4.07}
{'loss': 0.0825, 'learning_rate': 1.863986100769422e-06, 'epoch': 4.07}
{'loss': 0.0685, 'learning_rate': 1.8590220898485977e-06, 'epoch': 4.07}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2320761680603027, 'eval_runtime': 53.2516, 'eval_samples_per_second': 34.515, 'eval_steps_per_second': 8.638, 'epoch': 4.07}
{'loss': 0.0452, 'learning_rate': 1.8540580789277738e-06, 'epoch': 4.07}
{'loss': 0.0526, 'learning_rate': 1.8490940680069498e-06, 'epoch': 4.08}
{'loss': 0.0683, 'learning_rate': 1.8441300570861256e-06, 'epoch': 4.08}
{'loss': 0.0668, 'learning_rate': 1.8391660461653016e-06, 'epoch': 4.08}
{'loss': 0.0536, 'learning_rate': 1.8342020352444779e-06, 'epoch': 4.08}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2399113178253174, 'eval_runtime': 55.8881, 'eval_samples_per_second': 32.887, 'eval_steps_per_second': 8.231, 'epoch': 4.08}
{'loss': 0.0566, 'learning_rate': 1.8292380243236537e-06, 'epoch': 4.09}
{'loss': 0.0448, 'learning_rate': 1.8242740134028297e-06, 'epoch': 4.09}
{'loss': 0.0473, 'learning_rate': 1.8193100024820058e-06, 'epoch': 4.09}
{'loss': 0.0809, 'learning_rate': 1.8143459915611816e-06, 'epoch': 4.09}
{'loss': 0.0639, 'learning_rate': 1.8093819806403576e-06, 'epoch': 4.1}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2588858604431152, 'eval_runtime': 54.5944, 'eval_samples_per_second': 33.666, 'eval_steps_per_second': 8.426, 'epoch': 4.1}
{'loss': 0.091, 'learning_rate': 1.8044179697195336e-06, 'epoch': 4.1}
{'loss': 0.0602, 'learning_rate': 1.7994539587987094e-06, 'epoch': 4.1}
{'loss': 0.0412, 'learning_rate': 1.7944899478778855e-06, 'epoch': 4.1}
{'loss': 0.0442, 'learning_rate': 1.7895259369570613e-06, 'epoch': 4.11}
{'loss': 0.0541, 'learning_rate': 1.7845619260362373e-06, 'epoch': 4.11}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2534775733947754, 'eval_runtime': 54.4132, 'eval_samples_per_second': 33.779, 'eval_steps_per_second': 8.454, 'epoch': 4.11}
{'loss': 0.0427, 'learning_rate': 1.7795979151154134e-06, 'epoch': 4.11}
{'loss': 0.0506, 'learning_rate': 1.7746339041945892e-06, 'epoch': 4.11}
{'loss': 0.1016, 'learning_rate': 1.7696698932737654e-06, 'epoch': 4.12}
{'loss': 0.0527, 'learning_rate': 1.7647058823529414e-06, 'epoch': 4.12}
{'loss': 0.0506, 'learning_rate': 1.7597418714321175e-06, 'epoch': 4.12}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.258551597595215, 'eval_runtime': 55.9396, 'eval_samples_per_second': 32.857, 'eval_steps_per_second': 8.223, 'epoch': 4.12}
{'loss': 0.0611, 'learning_rate': 1.7547778605112933e-06, 'epoch': 4.12}
{'loss': 0.079, 'learning_rate': 1.7498138495904693e-06, 'epoch': 4.13}
{'loss': 0.0534, 'learning_rate': 1.7448498386696451e-06, 'epoch': 4.13}
{'loss': 0.0727, 'learning_rate': 1.7398858277488212e-06, 'epoch': 4.13}
{'loss': 0.0601, 'learning_rate': 1.7349218168279972e-06, 'epoch': 4.13}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.241778612136841, 'eval_runtime': 55.7409, 'eval_samples_per_second': 32.974, 'eval_steps_per_second': 8.252, 'epoch': 4.13}
{'loss': 0.0517, 'learning_rate': 1.729957805907173e-06, 'epoch': 4.14}
{'loss': 0.0432, 'learning_rate': 1.724993794986349e-06, 'epoch': 4.14}
{'loss': 0.0432, 'learning_rate': 1.720029784065525e-06, 'epoch': 4.14}
{'loss': 0.057, 'learning_rate': 1.715065773144701e-06, 'epoch': 4.14}
{'loss': 0.0617, 'learning_rate': 1.710101762223877e-06, 'epoch': 4.14}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2447092533111572, 'eval_runtime': 54.0339, 'eval_samples_per_second': 34.016, 'eval_steps_per_second': 8.513, 'epoch': 4.14}
{'loss': 0.0648, 'learning_rate': 1.705137751303053e-06, 'epoch': 4.15}
{'loss': 0.0509, 'learning_rate': 1.7001737403822292e-06, 'epoch': 4.15}
{'loss': 0.0654, 'learning_rate': 1.695209729461405e-06, 'epoch': 4.15}
{'loss': 0.0493, 'learning_rate': 1.690245718540581e-06, 'epoch': 4.15}
{'loss': 0.0633, 'learning_rate': 1.6852817076197569e-06, 'epoch': 4.16}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2560219764709473, 'eval_runtime': 51.0474, 'eval_samples_per_second': 36.006, 'eval_steps_per_second': 9.011, 'epoch': 4.16}
{'loss': 0.0812, 'learning_rate': 1.680317696698933e-06, 'epoch': 4.16}
{'loss': 0.0767, 'learning_rate': 1.675353685778109e-06, 'epoch': 4.16}
{'loss': 0.0879, 'learning_rate': 1.6703896748572847e-06, 'epoch': 4.16}
{'loss': 0.0642, 'learning_rate': 1.6654256639364608e-06, 'epoch': 4.17}
{'loss': 0.0423, 'learning_rate': 1.6604616530156368e-06, 'epoch': 4.17}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.247805118560791, 'eval_runtime': 50.3799, 'eval_samples_per_second': 36.483, 'eval_steps_per_second': 9.131, 'epoch': 4.17}
{'loss': 0.0784, 'learning_rate': 1.6554976420948126e-06, 'epoch': 4.17}
{'loss': 0.073, 'learning_rate': 1.6505336311739887e-06, 'epoch': 4.17}
{'loss': 0.0783, 'learning_rate': 1.6455696202531647e-06, 'epoch': 4.18}
{'loss': 0.0783, 'learning_rate': 1.6406056093323405e-06, 'epoch': 4.18}
{'loss': 0.0525, 'learning_rate': 1.6356415984115167e-06, 'epoch': 4.18}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2442493438720703, 'eval_runtime': 51.5491, 'eval_samples_per_second': 35.655, 'eval_steps_per_second': 8.924, 'epoch': 4.18}
{'loss': 0.0532, 'learning_rate': 1.6306775874906928e-06, 'epoch': 4.18}
{'loss': 0.0546, 'learning_rate': 1.6257135765698686e-06, 'epoch': 4.19}
{'loss': 0.0745, 'learning_rate': 1.6207495656490446e-06, 'epoch': 4.19}
{'loss': 0.0506, 'learning_rate': 1.6157855547282207e-06, 'epoch': 4.19}
{'loss': 0.0728, 'learning_rate': 1.6108215438073965e-06, 'epoch': 4.19}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2458231449127197, 'eval_runtime': 51.4798, 'eval_samples_per_second': 35.703, 'eval_steps_per_second': 8.936, 'epoch': 4.19}
{'loss': 0.0541, 'learning_rate': 1.6058575328865725e-06, 'epoch': 4.2}
{'loss': 0.0674, 'learning_rate': 1.6008935219657485e-06, 'epoch': 4.2}
{'loss': 0.0587, 'learning_rate': 1.5959295110449243e-06, 'epoch': 4.2}
{'loss': 0.0944, 'learning_rate': 1.5909655001241004e-06, 'epoch': 4.2}
{'loss': 0.0724, 'learning_rate': 1.5860014892032762e-06, 'epoch': 4.21}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.229635000228882, 'eval_runtime': 52.6973, 'eval_samples_per_second': 34.878, 'eval_steps_per_second': 8.729, 'epoch': 4.21}
{'loss': 0.0655, 'learning_rate': 1.5810374782824522e-06, 'epoch': 4.21}
{'loss': 0.0327, 'learning_rate': 1.5760734673616283e-06, 'epoch': 4.21}
{'loss': 0.0589, 'learning_rate': 1.5711094564408045e-06, 'epoch': 4.21}
{'loss': 0.0677, 'learning_rate': 1.5661454455199803e-06, 'epoch': 4.22}
{'loss': 0.0513, 'learning_rate': 1.5611814345991563e-06, 'epoch': 4.22}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2569169998168945, 'eval_runtime': 51.6241, 'eval_samples_per_second': 35.604, 'eval_steps_per_second': 8.911, 'epoch': 4.22}
{'loss': 0.0768, 'learning_rate': 1.5562174236783324e-06, 'epoch': 4.22}
{'loss': 0.0528, 'learning_rate': 1.5512534127575082e-06, 'epoch': 4.22}
{'loss': 0.063, 'learning_rate': 1.5462894018366842e-06, 'epoch': 4.23}
{'loss': 0.0692, 'learning_rate': 1.54132539091586e-06, 'epoch': 4.23}
{'loss': 0.076, 'learning_rate': 1.536361379995036e-06, 'epoch': 4.23}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.261793613433838, 'eval_runtime': 52.3058, 'eval_samples_per_second': 35.139, 'eval_steps_per_second': 8.794, 'epoch': 4.23}
{'loss': 0.0533, 'learning_rate': 1.531397369074212e-06, 'epoch': 4.23}
{'loss': 0.0401, 'learning_rate': 1.526433358153388e-06, 'epoch': 4.24}
{'loss': 0.0492, 'learning_rate': 1.521469347232564e-06, 'epoch': 4.24}
{'loss': 0.0871, 'learning_rate': 1.51650533631174e-06, 'epoch': 4.24}
{'loss': 0.06, 'learning_rate': 1.5115413253909158e-06, 'epoch': 4.24}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2617177963256836, 'eval_runtime': 52.2251, 'eval_samples_per_second': 35.194, 'eval_steps_per_second': 8.808, 'epoch': 4.24}
{'loss': 0.0716, 'learning_rate': 1.506577314470092e-06, 'epoch': 4.25}
{'loss': 0.0939, 'learning_rate': 1.501613303549268e-06, 'epoch': 4.25}
{'loss': 0.0567, 'learning_rate': 1.4966492926284439e-06, 'epoch': 4.25}
{'loss': 0.0572, 'learning_rate': 1.49168528170762e-06, 'epoch': 4.25}
{'loss': 0.0553, 'learning_rate': 1.486721270786796e-06, 'epoch': 4.26}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2649946212768555, 'eval_runtime': 53.0379, 'eval_samples_per_second': 34.654, 'eval_steps_per_second': 8.673, 'epoch': 4.26}
{'loss': 0.0896, 'learning_rate': 1.4817572598659718e-06, 'epoch': 4.26}
{'loss': 0.0569, 'learning_rate': 1.4767932489451478e-06, 'epoch': 4.26}
{'loss': 0.0681, 'learning_rate': 1.4718292380243238e-06, 'epoch': 4.26}
{'loss': 0.0527, 'learning_rate': 1.4668652271034996e-06, 'epoch': 4.27}
{'loss': 0.077, 'learning_rate': 1.4619012161826757e-06, 'epoch': 4.27}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.252603530883789, 'eval_runtime': 53.3913, 'eval_samples_per_second': 34.425, 'eval_steps_per_second': 8.616, 'epoch': 4.27}
{'loss': 0.0825, 'learning_rate': 1.4569372052618517e-06, 'epoch': 4.27}
{'loss': 0.0944, 'learning_rate': 1.4519731943410275e-06, 'epoch': 4.27}
{'loss': 0.0727, 'learning_rate': 1.4470091834202036e-06, 'epoch': 4.28}
{'loss': 0.0699, 'learning_rate': 1.4420451724993798e-06, 'epoch': 4.28}
{'loss': 0.0476, 'learning_rate': 1.4370811615785556e-06, 'epoch': 4.28}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.263289213180542, 'eval_runtime': 53.076, 'eval_samples_per_second': 34.63, 'eval_steps_per_second': 8.667, 'epoch': 4.28}
{'loss': 0.0765, 'learning_rate': 1.4321171506577316e-06, 'epoch': 4.28}
{'loss': 0.0398, 'learning_rate': 1.4271531397369077e-06, 'epoch': 4.29}
{'loss': 0.0686, 'learning_rate': 1.4221891288160835e-06, 'epoch': 4.29}
{'loss': 0.084, 'learning_rate': 1.4172251178952595e-06, 'epoch': 4.29}
{'loss': 0.0525, 'learning_rate': 1.4122611069744356e-06, 'epoch': 4.29}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2644572257995605, 'eval_runtime': 51.7893, 'eval_samples_per_second': 35.49, 'eval_steps_per_second': 8.882, 'epoch': 4.29}
{'loss': 0.0394, 'learning_rate': 1.4072970960536114e-06, 'epoch': 4.3}
{'loss': 0.0787, 'learning_rate': 1.4023330851327874e-06, 'epoch': 4.3}
{'loss': 0.0526, 'learning_rate': 1.3973690742119634e-06, 'epoch': 4.3}
{'loss': 0.069, 'learning_rate': 1.3924050632911392e-06, 'epoch': 4.3}
{'loss': 0.0569, 'learning_rate': 1.3874410523703153e-06, 'epoch': 4.31}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2735512256622314, 'eval_runtime': 53.4126, 'eval_samples_per_second': 34.411, 'eval_steps_per_second': 8.612, 'epoch': 4.31}
{'loss': 0.0426, 'learning_rate': 1.382477041449491e-06, 'epoch': 4.31}
{'loss': 0.0515, 'learning_rate': 1.3775130305286671e-06, 'epoch': 4.31}
{'loss': 0.0441, 'learning_rate': 1.3725490196078434e-06, 'epoch': 4.31}
{'loss': 0.0424, 'learning_rate': 1.3675850086870194e-06, 'epoch': 4.32}
{'loss': 0.0663, 'learning_rate': 1.3626209977661952e-06, 'epoch': 4.32}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2684407234191895, 'eval_runtime': 52.4522, 'eval_samples_per_second': 35.041, 'eval_steps_per_second': 8.77, 'epoch': 4.32}
{'loss': 0.0733, 'learning_rate': 1.3576569868453712e-06, 'epoch': 4.32}
{'loss': 0.091, 'learning_rate': 1.3526929759245473e-06, 'epoch': 4.32}
{'loss': 0.04, 'learning_rate': 1.347728965003723e-06, 'epoch': 4.33}
{'loss': 0.0883, 'learning_rate': 1.3427649540828991e-06, 'epoch': 4.33}
{'loss': 0.0676, 'learning_rate': 1.337800943162075e-06, 'epoch': 4.33}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.254953145980835, 'eval_runtime': 53.5406, 'eval_samples_per_second': 34.329, 'eval_steps_per_second': 8.592, 'epoch': 4.33}
{'loss': 0.0822, 'learning_rate': 1.332836932241251e-06, 'epoch': 4.33}
{'loss': 0.0499, 'learning_rate': 1.327872921320427e-06, 'epoch': 4.34}
{'loss': 0.0857, 'learning_rate': 1.3229089103996028e-06, 'epoch': 4.34}
{'loss': 0.0531, 'learning_rate': 1.3179448994787789e-06, 'epoch': 4.34}
{'loss': 0.0477, 'learning_rate': 1.3129808885579549e-06, 'epoch': 4.34}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2480809688568115, 'eval_runtime': 52.394, 'eval_samples_per_second': 35.08, 'eval_steps_per_second': 8.78, 'epoch': 4.34}
{'loss': 0.0892, 'learning_rate': 1.3080168776371311e-06, 'epoch': 4.35}
{'loss': 0.0674, 'learning_rate': 1.303052866716307e-06, 'epoch': 4.35}
{'loss': 0.0455, 'learning_rate': 1.298088855795483e-06, 'epoch': 4.35}
{'loss': 0.0395, 'learning_rate': 1.2931248448746588e-06, 'epoch': 4.35}
{'loss': 0.0402, 'learning_rate': 1.2881608339538348e-06, 'epoch': 4.36}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.262866973876953, 'eval_runtime': 52.8277, 'eval_samples_per_second': 34.792, 'eval_steps_per_second': 8.708, 'epoch': 4.36}
{'loss': 0.0599, 'learning_rate': 1.2831968230330109e-06, 'epoch': 4.36}
{'loss': 0.0547, 'learning_rate': 1.2782328121121867e-06, 'epoch': 4.36}
{'loss': 0.0792, 'learning_rate': 1.2732688011913627e-06, 'epoch': 4.36}
{'loss': 0.0581, 'learning_rate': 1.2683047902705387e-06, 'epoch': 4.37}
{'loss': 0.0905, 'learning_rate': 1.2633407793497145e-06, 'epoch': 4.37}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.269810676574707, 'eval_runtime': 54.3313, 'eval_samples_per_second': 33.829, 'eval_steps_per_second': 8.467, 'epoch': 4.37}
{'loss': 0.0623, 'learning_rate': 1.2583767684288906e-06, 'epoch': 4.37}
{'loss': 0.0485, 'learning_rate': 1.2534127575080666e-06, 'epoch': 4.37}
{'loss': 0.0836, 'learning_rate': 1.2484487465872426e-06, 'epoch': 4.38}
{'loss': 0.0534, 'learning_rate': 1.2434847356664185e-06, 'epoch': 4.38}
{'loss': 0.0559, 'learning_rate': 1.2385207247455945e-06, 'epoch': 4.38}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.265251636505127, 'eval_runtime': 51.7778, 'eval_samples_per_second': 35.498, 'eval_steps_per_second': 8.884, 'epoch': 4.38}
{'loss': 0.0537, 'learning_rate': 1.2335567138247705e-06, 'epoch': 4.38}
{'loss': 0.0991, 'learning_rate': 1.2285927029039465e-06, 'epoch': 4.39}
{'loss': 0.0454, 'learning_rate': 1.2236286919831226e-06, 'epoch': 4.39}
{'loss': 0.0629, 'learning_rate': 1.2186646810622984e-06, 'epoch': 4.39}
{'loss': 0.0539, 'learning_rate': 1.2137006701414744e-06, 'epoch': 4.39}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2695233821868896, 'eval_runtime': 52.7884, 'eval_samples_per_second': 34.818, 'eval_steps_per_second': 8.714, 'epoch': 4.39}
{'loss': 0.045, 'learning_rate': 1.2087366592206505e-06, 'epoch': 4.4}
{'loss': 0.0802, 'learning_rate': 1.2037726482998263e-06, 'epoch': 4.4}
{'loss': 0.0564, 'learning_rate': 1.1988086373790023e-06, 'epoch': 4.4}
{'loss': 0.0661, 'learning_rate': 1.1938446264581783e-06, 'epoch': 4.4}
{'loss': 0.0637, 'learning_rate': 1.1888806155373544e-06, 'epoch': 4.41}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.270674467086792, 'eval_runtime': 52.5005, 'eval_samples_per_second': 35.009, 'eval_steps_per_second': 8.762, 'epoch': 4.41}
{'loss': 0.0643, 'learning_rate': 1.1839166046165302e-06, 'epoch': 4.41}
{'loss': 0.0465, 'learning_rate': 1.1789525936957062e-06, 'epoch': 4.41}
{'loss': 0.0592, 'learning_rate': 1.1739885827748822e-06, 'epoch': 4.41}
{'loss': 0.0622, 'learning_rate': 1.169024571854058e-06, 'epoch': 4.42}
{'loss': 0.0646, 'learning_rate': 1.164060560933234e-06, 'epoch': 4.42}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2832722663879395, 'eval_runtime': 52.9195, 'eval_samples_per_second': 34.732, 'eval_steps_per_second': 8.692, 'epoch': 4.42}
{'loss': 0.0647, 'learning_rate': 1.1590965500124101e-06, 'epoch': 4.42}
{'loss': 0.1075, 'learning_rate': 1.1541325390915861e-06, 'epoch': 4.42}
{'loss': 0.0645, 'learning_rate': 1.1491685281707622e-06, 'epoch': 4.43}
{'loss': 0.0614, 'learning_rate': 1.144204517249938e-06, 'epoch': 4.43}
{'loss': 0.0673, 'learning_rate': 1.139240506329114e-06, 'epoch': 4.43}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2762179374694824, 'eval_runtime': 54.3044, 'eval_samples_per_second': 33.846, 'eval_steps_per_second': 8.471, 'epoch': 4.43}
{'loss': 0.0654, 'learning_rate': 1.1342764954082898e-06, 'epoch': 4.43}
{'loss': 0.0604, 'learning_rate': 1.129312484487466e-06, 'epoch': 4.44}
{'loss': 0.0588, 'learning_rate': 1.124348473566642e-06, 'epoch': 4.44}
{'loss': 0.0692, 'learning_rate': 1.119384462645818e-06, 'epoch': 4.44}
{'loss': 0.0558, 'learning_rate': 1.114420451724994e-06, 'epoch': 4.44}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.276024580001831, 'eval_runtime': 47.7259, 'eval_samples_per_second': 38.512, 'eval_steps_per_second': 9.638, 'epoch': 4.44}
{'loss': 0.1054, 'learning_rate': 1.1094564408041698e-06, 'epoch': 4.45}
{'loss': 0.0507, 'learning_rate': 1.1044924298833458e-06, 'epoch': 4.45}
{'loss': 0.0892, 'learning_rate': 1.0995284189625218e-06, 'epoch': 4.45}
{'loss': 0.0795, 'learning_rate': 1.0945644080416979e-06, 'epoch': 4.45}
{'loss': 0.0574, 'learning_rate': 1.0896003971208737e-06, 'epoch': 4.46}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2702016830444336, 'eval_runtime': 46.5946, 'eval_samples_per_second': 39.447, 'eval_steps_per_second': 9.872, 'epoch': 4.46}
{'loss': 0.0528, 'learning_rate': 1.0846363862000497e-06, 'epoch': 4.46}
{'loss': 0.0837, 'learning_rate': 1.0796723752792258e-06, 'epoch': 4.46}
{'loss': 0.0667, 'learning_rate': 1.0747083643584016e-06, 'epoch': 4.46}
{'loss': 0.0433, 'learning_rate': 1.0697443534375776e-06, 'epoch': 4.47}
{'loss': 0.0666, 'learning_rate': 1.0647803425167536e-06, 'epoch': 4.47}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.277798891067505, 'eval_runtime': 49.6721, 'eval_samples_per_second': 37.003, 'eval_steps_per_second': 9.261, 'epoch': 4.47}
{'loss': 0.073, 'learning_rate': 1.0598163315959297e-06, 'epoch': 4.47}
{'loss': 0.0802, 'learning_rate': 1.0548523206751057e-06, 'epoch': 4.47}
{'loss': 0.0612, 'learning_rate': 1.0498883097542815e-06, 'epoch': 4.48}
{'loss': 0.0663, 'learning_rate': 1.0449242988334575e-06, 'epoch': 4.48}
{'loss': 0.03, 'learning_rate': 1.0399602879126334e-06, 'epoch': 4.48}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2700960636138916, 'eval_runtime': 52.5803, 'eval_samples_per_second': 34.956, 'eval_steps_per_second': 8.749, 'epoch': 4.48}
{'loss': 0.0662, 'learning_rate': 1.0349962769918094e-06, 'epoch': 4.48}
{'loss': 0.0643, 'learning_rate': 1.0300322660709854e-06, 'epoch': 4.48}
{'loss': 0.0602, 'learning_rate': 1.0250682551501614e-06, 'epoch': 4.49}
{'loss': 0.0532, 'learning_rate': 1.0201042442293375e-06, 'epoch': 4.49}
{'loss': 0.0538, 'learning_rate': 1.0151402333085133e-06, 'epoch': 4.49}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2657277584075928, 'eval_runtime': 50.0494, 'eval_samples_per_second': 36.724, 'eval_steps_per_second': 9.191, 'epoch': 4.49}
{'loss': 0.062, 'learning_rate': 1.0101762223876893e-06, 'epoch': 4.49}
{'loss': 0.0684, 'learning_rate': 1.0052122114668654e-06, 'epoch': 4.5}
{'loss': 0.0634, 'learning_rate': 1.0002482005460412e-06, 'epoch': 4.5}
{'loss': 0.0617, 'learning_rate': 9.952841896252172e-07, 'epoch': 4.5}
{'loss': 0.0977, 'learning_rate': 9.903201787043932e-07, 'epoch': 4.5}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2736825942993164, 'eval_runtime': 46.6131, 'eval_samples_per_second': 39.431, 'eval_steps_per_second': 9.868, 'epoch': 4.5}
{'loss': 0.069, 'learning_rate': 9.853561677835693e-07, 'epoch': 4.51}
{'loss': 0.0538, 'learning_rate': 9.80392156862745e-07, 'epoch': 4.51}
{'loss': 0.0447, 'learning_rate': 9.754281459419211e-07, 'epoch': 4.51}
{'loss': 0.0578, 'learning_rate': 9.704641350210971e-07, 'epoch': 4.51}
{'loss': 0.0634, 'learning_rate': 9.655001241002732e-07, 'epoch': 4.52}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2753560543060303, 'eval_runtime': 46.9858, 'eval_samples_per_second': 39.118, 'eval_steps_per_second': 9.79, 'epoch': 4.52}
{'loss': 0.0898, 'learning_rate': 9.605361131794492e-07, 'epoch': 4.52}
{'loss': 0.0643, 'learning_rate': 9.55572102258625e-07, 'epoch': 4.52}
{'loss': 0.0368, 'learning_rate': 9.50608091337801e-07, 'epoch': 4.52}
{'loss': 0.0466, 'learning_rate': 9.45644080416977e-07, 'epoch': 4.53}
{'loss': 0.0691, 'learning_rate': 9.406800694961529e-07, 'epoch': 4.53}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.286189556121826, 'eval_runtime': 46.2349, 'eval_samples_per_second': 39.754, 'eval_steps_per_second': 9.949, 'epoch': 4.53}
{'loss': 0.1145, 'learning_rate': 9.357160585753289e-07, 'epoch': 4.53}
{'loss': 0.0794, 'learning_rate': 9.30752047654505e-07, 'epoch': 4.53}
{'loss': 0.0628, 'learning_rate': 9.257880367336809e-07, 'epoch': 4.54}
{'loss': 0.0298, 'learning_rate': 9.208240258128569e-07, 'epoch': 4.54}
{'loss': 0.0693, 'learning_rate': 9.158600148920328e-07, 'epoch': 4.54}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.282017230987549, 'eval_runtime': 46.1913, 'eval_samples_per_second': 39.791, 'eval_steps_per_second': 9.959, 'epoch': 4.54}
{'loss': 0.0555, 'learning_rate': 9.108960039712088e-07, 'epoch': 4.54}
{'loss': 0.0773, 'learning_rate': 9.059319930503847e-07, 'epoch': 4.55}
{'loss': 0.0504, 'learning_rate': 9.009679821295608e-07, 'epoch': 4.55}
{'loss': 0.0704, 'learning_rate': 8.960039712087367e-07, 'epoch': 4.55}
{'loss': 0.052, 'learning_rate': 8.910399602879128e-07, 'epoch': 4.55}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.276817798614502, 'eval_runtime': 47.228, 'eval_samples_per_second': 38.918, 'eval_steps_per_second': 9.74, 'epoch': 4.55}
{'loss': 0.0865, 'learning_rate': 8.860759493670887e-07, 'epoch': 4.56}
{'loss': 0.0496, 'learning_rate': 8.811119384462646e-07, 'epoch': 4.56}
{'loss': 0.0766, 'learning_rate': 8.761479275254405e-07, 'epoch': 4.56}
{'loss': 0.0716, 'learning_rate': 8.711839166046166e-07, 'epoch': 4.56}
{'loss': 0.0639, 'learning_rate': 8.662199056837926e-07, 'epoch': 4.57}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2779574394226074, 'eval_runtime': 47.286, 'eval_samples_per_second': 38.87, 'eval_steps_per_second': 9.728, 'epoch': 4.57}
{'loss': 0.0444, 'learning_rate': 8.612558947629686e-07, 'epoch': 4.57}
{'loss': 0.0481, 'learning_rate': 8.562918838421446e-07, 'epoch': 4.57}
{'loss': 0.073, 'learning_rate': 8.513278729213205e-07, 'epoch': 4.57}
{'loss': 0.0465, 'learning_rate': 8.463638620004964e-07, 'epoch': 4.58}
{'loss': 0.0499, 'learning_rate': 8.413998510796724e-07, 'epoch': 4.58}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.288829803466797, 'eval_runtime': 47.155, 'eval_samples_per_second': 38.978, 'eval_steps_per_second': 9.755, 'epoch': 4.58}
{'loss': 0.0679, 'learning_rate': 8.364358401588484e-07, 'epoch': 4.58}
{'loss': 0.0843, 'learning_rate': 8.314718292380244e-07, 'epoch': 4.58}
{'loss': 0.0721, 'learning_rate': 8.265078183172004e-07, 'epoch': 4.59}
{'loss': 0.0679, 'learning_rate': 8.215438073963763e-07, 'epoch': 4.59}
{'loss': 0.0709, 'learning_rate': 8.165797964755523e-07, 'epoch': 4.59}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2821028232574463, 'eval_runtime': 49.5237, 'eval_samples_per_second': 37.114, 'eval_steps_per_second': 9.288, 'epoch': 4.59}
{'loss': 0.0647, 'learning_rate': 8.116157855547283e-07, 'epoch': 4.59}
{'loss': 0.0893, 'learning_rate': 8.066517746339042e-07, 'epoch': 4.6}
{'loss': 0.0618, 'learning_rate': 8.016877637130803e-07, 'epoch': 4.6}
{'loss': 0.0814, 'learning_rate': 7.967237527922563e-07, 'epoch': 4.6}
{'loss': 0.0467, 'learning_rate': 7.917597418714322e-07, 'epoch': 4.6}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2850866317749023, 'eval_runtime': 49.844, 'eval_samples_per_second': 36.875, 'eval_steps_per_second': 9.229, 'epoch': 4.6}
{'loss': 0.0464, 'learning_rate': 7.867957309506081e-07, 'epoch': 4.61}
{'loss': 0.0494, 'learning_rate': 7.818317200297841e-07, 'epoch': 4.61}
{'loss': 0.0356, 'learning_rate': 7.768677091089601e-07, 'epoch': 4.61}
{'loss': 0.068, 'learning_rate': 7.71903698188136e-07, 'epoch': 4.61}
{'loss': 0.0658, 'learning_rate': 7.669396872673122e-07, 'epoch': 4.62}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2850606441497803, 'eval_runtime': 52.8055, 'eval_samples_per_second': 34.807, 'eval_steps_per_second': 8.711, 'epoch': 4.62}
{'loss': 0.0595, 'learning_rate': 7.619756763464881e-07, 'epoch': 4.62}
{'loss': 0.0773, 'learning_rate': 7.57011665425664e-07, 'epoch': 4.62}
{'loss': 0.0686, 'learning_rate': 7.520476545048399e-07, 'epoch': 4.62}
{'loss': 0.0653, 'learning_rate': 7.47083643584016e-07, 'epoch': 4.63}
{'loss': 0.0756, 'learning_rate': 7.421196326631919e-07, 'epoch': 4.63}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2802655696868896, 'eval_runtime': 52.0018, 'eval_samples_per_second': 35.345, 'eval_steps_per_second': 8.846, 'epoch': 4.63}
{'loss': 0.0556, 'learning_rate': 7.37155621742368e-07, 'epoch': 4.63}
{'loss': 0.0873, 'learning_rate': 7.321916108215439e-07, 'epoch': 4.63}
{'loss': 0.0656, 'learning_rate': 7.272275999007199e-07, 'epoch': 4.64}
{'loss': 0.0499, 'learning_rate': 7.222635889798958e-07, 'epoch': 4.64}
{'loss': 0.0536, 'learning_rate': 7.172995780590718e-07, 'epoch': 4.64}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.285222291946411, 'eval_runtime': 48.5945, 'eval_samples_per_second': 37.823, 'eval_steps_per_second': 9.466, 'epoch': 4.64}
{'loss': 0.0515, 'learning_rate': 7.123355671382477e-07, 'epoch': 4.64}
{'loss': 0.0553, 'learning_rate': 7.073715562174237e-07, 'epoch': 4.65}
{'loss': 0.0411, 'learning_rate': 7.024075452965998e-07, 'epoch': 4.65}
{'loss': 0.063, 'learning_rate': 6.974435343757757e-07, 'epoch': 4.65}
{'loss': 0.0684, 'learning_rate': 6.924795234549516e-07, 'epoch': 4.65}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.285104751586914, 'eval_runtime': 48.3593, 'eval_samples_per_second': 38.007, 'eval_steps_per_second': 9.512, 'epoch': 4.65}
{'loss': 0.0649, 'learning_rate': 6.875155125341277e-07, 'epoch': 4.66}
{'loss': 0.0537, 'learning_rate': 6.825515016133036e-07, 'epoch': 4.66}
{'loss': 0.087, 'learning_rate': 6.775874906924795e-07, 'epoch': 4.66}
{'loss': 0.0523, 'learning_rate': 6.726234797716554e-07, 'epoch': 4.66}
{'loss': 0.0834, 'learning_rate': 6.676594688508316e-07, 'epoch': 4.67}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.276409864425659, 'eval_runtime': 46.4126, 'eval_samples_per_second': 39.601, 'eval_steps_per_second': 9.911, 'epoch': 4.67}
{'loss': 0.0556, 'learning_rate': 6.626954579300075e-07, 'epoch': 4.67}
{'loss': 0.0556, 'learning_rate': 6.577314470091834e-07, 'epoch': 4.67}
{'loss': 0.0781, 'learning_rate': 6.527674360883595e-07, 'epoch': 4.67}
{'loss': 0.0572, 'learning_rate': 6.478034251675354e-07, 'epoch': 4.68}
{'loss': 0.0558, 'learning_rate': 6.428394142467113e-07, 'epoch': 4.68}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.282961130142212, 'eval_runtime': 47.9176, 'eval_samples_per_second': 38.358, 'eval_steps_per_second': 9.6, 'epoch': 4.68}
{'loss': 0.0661, 'learning_rate': 6.378754033258874e-07, 'epoch': 4.68}
{'loss': 0.058, 'learning_rate': 6.329113924050634e-07, 'epoch': 4.68}
{'loss': 0.06, 'learning_rate': 6.279473814842393e-07, 'epoch': 4.69}
{'loss': 0.0604, 'learning_rate': 6.229833705634153e-07, 'epoch': 4.69}
{'loss': 0.0347, 'learning_rate': 6.180193596425913e-07, 'epoch': 4.69}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.28935170173645, 'eval_runtime': 46.9103, 'eval_samples_per_second': 39.181, 'eval_steps_per_second': 9.806, 'epoch': 4.69}
{'loss': 0.043, 'learning_rate': 6.130553487217673e-07, 'epoch': 4.69}
{'loss': 0.093, 'learning_rate': 6.080913378009432e-07, 'epoch': 4.7}
{'loss': 0.0715, 'learning_rate': 6.031273268801191e-07, 'epoch': 4.7}
{'loss': 0.0632, 'learning_rate': 5.981633159592952e-07, 'epoch': 4.7}
{'loss': 0.0591, 'learning_rate': 5.931993050384712e-07, 'epoch': 4.7}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2946157455444336, 'eval_runtime': 50.302, 'eval_samples_per_second': 36.539, 'eval_steps_per_second': 9.145, 'epoch': 4.7}
{'loss': 0.0706, 'learning_rate': 5.882352941176471e-07, 'epoch': 4.71}
{'loss': 0.0764, 'learning_rate': 5.83271283196823e-07, 'epoch': 4.71}
{'loss': 0.0735, 'learning_rate': 5.783072722759991e-07, 'epoch': 4.71}
{'loss': 0.0612, 'learning_rate': 5.73343261355175e-07, 'epoch': 4.71}
{'loss': 0.0628, 'learning_rate': 5.68379250434351e-07, 'epoch': 4.72}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.288944721221924, 'eval_runtime': 50.6594, 'eval_samples_per_second': 36.282, 'eval_steps_per_second': 9.08, 'epoch': 4.72}
{'loss': 0.0588, 'learning_rate': 5.63415239513527e-07, 'epoch': 4.72}
{'loss': 0.076, 'learning_rate': 5.58451228592703e-07, 'epoch': 4.72}
{'loss': 0.0449, 'learning_rate': 5.534872176718789e-07, 'epoch': 4.72}
{'loss': 0.0564, 'learning_rate': 5.485232067510549e-07, 'epoch': 4.73}
{'loss': 0.039, 'learning_rate': 5.435591958302309e-07, 'epoch': 4.73}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2844390869140625, 'eval_runtime': 47.1329, 'eval_samples_per_second': 38.996, 'eval_steps_per_second': 9.76, 'epoch': 4.73}
{'loss': 0.0636, 'learning_rate': 5.385951849094069e-07, 'epoch': 4.73}
{'loss': 0.0694, 'learning_rate': 5.336311739885828e-07, 'epoch': 4.73}
{'loss': 0.0578, 'learning_rate': 5.286671630677588e-07, 'epoch': 4.74}
{'loss': 0.074, 'learning_rate': 5.237031521469348e-07, 'epoch': 4.74}
{'loss': 0.085, 'learning_rate': 5.187391412261107e-07, 'epoch': 4.74}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.284687042236328, 'eval_runtime': 47.6905, 'eval_samples_per_second': 38.54, 'eval_steps_per_second': 9.646, 'epoch': 4.74}
{'loss': 0.0661, 'learning_rate': 5.137751303052867e-07, 'epoch': 4.74}
{'loss': 0.06, 'learning_rate': 5.088111193844626e-07, 'epoch': 4.75}
{'loss': 0.0555, 'learning_rate': 5.038471084636387e-07, 'epoch': 4.75}
{'loss': 0.0707, 'learning_rate': 4.988830975428147e-07, 'epoch': 4.75}
{'loss': 0.0831, 'learning_rate': 4.939190866219906e-07, 'epoch': 4.75}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.289902448654175, 'eval_runtime': 46.7091, 'eval_samples_per_second': 39.35, 'eval_steps_per_second': 9.848, 'epoch': 4.75}
{'loss': 0.0418, 'learning_rate': 4.889550757011665e-07, 'epoch': 4.76}
{'loss': 0.0476, 'learning_rate': 4.839910647803425e-07, 'epoch': 4.76}
{'loss': 0.0603, 'learning_rate': 4.790270538595185e-07, 'epoch': 4.76}
{'loss': 0.0311, 'learning_rate': 4.740630429386945e-07, 'epoch': 4.76}
{'loss': 0.044, 'learning_rate': 4.6909903201787046e-07, 'epoch': 4.77}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2924017906188965, 'eval_runtime': 47.3647, 'eval_samples_per_second': 38.805, 'eval_steps_per_second': 9.712, 'epoch': 4.77}
{'loss': 0.1051, 'learning_rate': 4.641350210970465e-07, 'epoch': 4.77}
{'loss': 0.0446, 'learning_rate': 4.591710101762224e-07, 'epoch': 4.77}
{'loss': 0.0511, 'learning_rate': 4.542069992553984e-07, 'epoch': 4.77}
{'loss': 0.0633, 'learning_rate': 4.492429883345744e-07, 'epoch': 4.78}
{'loss': 0.0837, 'learning_rate': 4.4427897741375034e-07, 'epoch': 4.78}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2858762741088867, 'eval_runtime': 47.8932, 'eval_samples_per_second': 38.377, 'eval_steps_per_second': 9.605, 'epoch': 4.78}
{'loss': 0.0487, 'learning_rate': 4.393149664929263e-07, 'epoch': 4.78}
{'loss': 0.0657, 'learning_rate': 4.3435095557210235e-07, 'epoch': 4.78}
{'loss': 0.0551, 'learning_rate': 4.293869446512783e-07, 'epoch': 4.79}
{'loss': 0.0462, 'learning_rate': 4.2442293373045425e-07, 'epoch': 4.79}
{'loss': 0.0601, 'learning_rate': 4.194589228096302e-07, 'epoch': 4.79}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2870101928710938, 'eval_runtime': 47.2015, 'eval_samples_per_second': 38.939, 'eval_steps_per_second': 9.745, 'epoch': 4.79}
{'loss': 0.0528, 'learning_rate': 4.144949118888062e-07, 'epoch': 4.79}
{'loss': 0.087, 'learning_rate': 4.095309009679822e-07, 'epoch': 4.8}
{'loss': 0.0788, 'learning_rate': 4.045668900471581e-07, 'epoch': 4.8}
{'loss': 0.0524, 'learning_rate': 3.9960287912633414e-07, 'epoch': 4.8}
{'loss': 0.0669, 'learning_rate': 3.946388682055101e-07, 'epoch': 4.8}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2865467071533203, 'eval_runtime': 47.4271, 'eval_samples_per_second': 38.754, 'eval_steps_per_second': 9.699, 'epoch': 4.8}
{'loss': 0.0677, 'learning_rate': 3.8967485728468604e-07, 'epoch': 4.81}
{'loss': 0.0732, 'learning_rate': 3.8471084636386207e-07, 'epoch': 4.81}
{'loss': 0.0546, 'learning_rate': 3.79746835443038e-07, 'epoch': 4.81}
{'loss': 0.0714, 'learning_rate': 3.7478282452221397e-07, 'epoch': 4.81}
{'loss': 0.0399, 'learning_rate': 3.6981881360138995e-07, 'epoch': 4.82}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2830982208251953, 'eval_runtime': 45.8655, 'eval_samples_per_second': 40.074, 'eval_steps_per_second': 10.029, 'epoch': 4.82}
{'loss': 0.0647, 'learning_rate': 3.648548026805659e-07, 'epoch': 4.82}
{'loss': 0.0512, 'learning_rate': 3.598907917597419e-07, 'epoch': 4.82}
{'loss': 0.0532, 'learning_rate': 3.549267808389178e-07, 'epoch': 4.82}
{'loss': 0.0671, 'learning_rate': 3.4996276991809385e-07, 'epoch': 4.83}
{'loss': 0.0622, 'learning_rate': 3.4499875899726983e-07, 'epoch': 4.83}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2834439277648926, 'eval_runtime': 46.1442, 'eval_samples_per_second': 39.832, 'eval_steps_per_second': 9.969, 'epoch': 4.83}
{'loss': 0.0813, 'learning_rate': 3.4003474807644576e-07, 'epoch': 4.83}
{'loss': 0.0454, 'learning_rate': 3.350707371556218e-07, 'epoch': 4.83}
{'loss': 0.0508, 'learning_rate': 3.3010672623479776e-07, 'epoch': 4.83}
{'loss': 0.0661, 'learning_rate': 3.251427153139737e-07, 'epoch': 4.84}
{'loss': 0.0465, 'learning_rate': 3.2017870439314966e-07, 'epoch': 4.84}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2872400283813477, 'eval_runtime': 46.7165, 'eval_samples_per_second': 39.344, 'eval_steps_per_second': 9.847, 'epoch': 4.84}
{'loss': 0.0534, 'learning_rate': 3.152146934723257e-07, 'epoch': 4.84}
{'loss': 0.0515, 'learning_rate': 3.102506825515016e-07, 'epoch': 4.84}
{'loss': 0.0523, 'learning_rate': 3.052866716306776e-07, 'epoch': 4.85}
{'loss': 0.0776, 'learning_rate': 3.0032266070985357e-07, 'epoch': 4.85}
{'loss': 0.0654, 'learning_rate': 2.9535864978902955e-07, 'epoch': 4.85}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2890207767486572, 'eval_runtime': 47.7459, 'eval_samples_per_second': 38.495, 'eval_steps_per_second': 9.634, 'epoch': 4.85}
{'loss': 0.0848, 'learning_rate': 2.903946388682055e-07, 'epoch': 4.85}
{'loss': 0.0767, 'learning_rate': 2.854306279473815e-07, 'epoch': 4.86}
{'loss': 0.0939, 'learning_rate': 2.804666170265575e-07, 'epoch': 4.86}
{'loss': 0.0529, 'learning_rate': 2.7550260610573346e-07, 'epoch': 4.86}
{'loss': 0.0431, 'learning_rate': 2.7053859518490943e-07, 'epoch': 4.86}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2900230884552, 'eval_runtime': 49.5914, 'eval_samples_per_second': 37.063, 'eval_steps_per_second': 9.276, 'epoch': 4.86}
{'loss': 0.0472, 'learning_rate': 2.655745842640854e-07, 'epoch': 4.87}
{'loss': 0.0579, 'learning_rate': 2.606105733432614e-07, 'epoch': 4.87}
{'loss': 0.0748, 'learning_rate': 2.5564656242243737e-07, 'epoch': 4.87}
{'loss': 0.0438, 'learning_rate': 2.506825515016133e-07, 'epoch': 4.87}
{'loss': 0.0446, 'learning_rate': 2.457185405807893e-07, 'epoch': 4.88}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2894811630249023, 'eval_runtime': 49.7235, 'eval_samples_per_second': 36.964, 'eval_steps_per_second': 9.251, 'epoch': 4.88}
{'loss': 0.0743, 'learning_rate': 2.407545296599653e-07, 'epoch': 4.88}
{'loss': 0.0469, 'learning_rate': 2.3579051873914125e-07, 'epoch': 4.88}
{'loss': 0.064, 'learning_rate': 2.3082650781831722e-07, 'epoch': 4.88}
{'loss': 0.0602, 'learning_rate': 2.2586249689749318e-07, 'epoch': 4.89}
{'loss': 0.0392, 'learning_rate': 2.2089848597666915e-07, 'epoch': 4.89}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.288809299468994, 'eval_runtime': 47.3224, 'eval_samples_per_second': 38.84, 'eval_steps_per_second': 9.721, 'epoch': 4.89}
{'loss': 0.0423, 'learning_rate': 2.1593447505584516e-07, 'epoch': 4.89}
{'loss': 0.0492, 'learning_rate': 2.109704641350211e-07, 'epoch': 4.89}
{'loss': 0.0628, 'learning_rate': 2.0600645321419708e-07, 'epoch': 4.9}
{'loss': 0.0598, 'learning_rate': 2.0104244229337303e-07, 'epoch': 4.9}
{'loss': 0.0606, 'learning_rate': 1.9607843137254904e-07, 'epoch': 4.9}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2904040813446045, 'eval_runtime': 47.7652, 'eval_samples_per_second': 38.48, 'eval_steps_per_second': 9.63, 'epoch': 4.9}
{'loss': 0.057, 'learning_rate': 1.9111442045172501e-07, 'epoch': 4.9}
{'loss': 0.0841, 'learning_rate': 1.8615040953090097e-07, 'epoch': 4.91}
{'loss': 0.1134, 'learning_rate': 1.8118639861007697e-07, 'epoch': 4.91}
{'loss': 0.0843, 'learning_rate': 1.7622238768925295e-07, 'epoch': 4.91}
{'loss': 0.0697, 'learning_rate': 1.712583767684289e-07, 'epoch': 4.91}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2909228801727295, 'eval_runtime': 47.3572, 'eval_samples_per_second': 38.811, 'eval_steps_per_second': 9.713, 'epoch': 4.91}
{'loss': 0.0693, 'learning_rate': 1.662943658476049e-07, 'epoch': 4.92}
{'loss': 0.0568, 'learning_rate': 1.6133035492678085e-07, 'epoch': 4.92}
{'loss': 0.0678, 'learning_rate': 1.5636634400595683e-07, 'epoch': 4.92}
{'loss': 0.0575, 'learning_rate': 1.514023330851328e-07, 'epoch': 4.92}
{'loss': 0.054, 'learning_rate': 1.4643832216430876e-07, 'epoch': 4.93}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.291618824005127, 'eval_runtime': 46.8553, 'eval_samples_per_second': 39.227, 'eval_steps_per_second': 9.817, 'epoch': 4.93}
{'loss': 0.0344, 'learning_rate': 1.4147431124348473e-07, 'epoch': 4.93}
{'loss': 0.0547, 'learning_rate': 1.3651030032266074e-07, 'epoch': 4.93}
{'loss': 0.0766, 'learning_rate': 1.315462894018367e-07, 'epoch': 4.93}
{'loss': 0.093, 'learning_rate': 1.2658227848101266e-07, 'epoch': 4.94}
{'loss': 0.0622, 'learning_rate': 1.2161826756018864e-07, 'epoch': 4.94}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.291632652282715, 'eval_runtime': 46.2635, 'eval_samples_per_second': 39.729, 'eval_steps_per_second': 9.943, 'epoch': 4.94}
{'loss': 0.0448, 'learning_rate': 1.1665425663936462e-07, 'epoch': 4.94}
{'loss': 0.0796, 'learning_rate': 1.116902457185406e-07, 'epoch': 4.94}
{'loss': 0.0633, 'learning_rate': 1.0672623479771656e-07, 'epoch': 4.95}
{'loss': 0.0587, 'learning_rate': 1.0176222387689254e-07, 'epoch': 4.95}
{'loss': 0.068, 'learning_rate': 9.67982129560685e-08, 'epoch': 4.95}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.291576623916626, 'eval_runtime': 47.3481, 'eval_samples_per_second': 38.819, 'eval_steps_per_second': 9.715, 'epoch': 4.95}
{'loss': 0.0507, 'learning_rate': 9.183420203524449e-08, 'epoch': 4.95}
{'loss': 0.047, 'learning_rate': 8.687019111442047e-08, 'epoch': 4.96}
{'loss': 0.0689, 'learning_rate': 8.190618019359643e-08, 'epoch': 4.96}
{'loss': 0.0704, 'learning_rate': 7.694216927277241e-08, 'epoch': 4.96}
{'loss': 0.0555, 'learning_rate': 7.197815835194839e-08, 'epoch': 4.96}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.2911770343780518, 'eval_runtime': 47.5328, 'eval_samples_per_second': 38.668, 'eval_steps_per_second': 9.678, 'epoch': 4.96}
{'loss': 0.0705, 'learning_rate': 6.701414743112435e-08, 'epoch': 4.97}
{'loss': 0.0426, 'learning_rate': 6.205013651030033e-08, 'epoch': 4.97}
{'loss': 0.0754, 'learning_rate': 5.70861255894763e-08, 'epoch': 4.97}
{'loss': 0.051, 'learning_rate': 5.212211466865228e-08, 'epoch': 4.97}
{'loss': 0.0787, 'learning_rate': 4.715810374782825e-08, 'epoch': 4.98}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.291159152984619, 'eval_runtime': 51.4651, 'eval_samples_per_second': 35.714, 'eval_steps_per_second': 8.938, 'epoch': 4.98}
{'loss': 0.0841, 'learning_rate': 4.219409282700422e-08, 'epoch': 4.98}
{'loss': 0.0871, 'learning_rate': 3.72300819061802e-08, 'epoch': 4.98}
{'loss': 0.0558, 'learning_rate': 3.2266070985356175e-08, 'epoch': 4.98}
{'loss': 0.0503, 'learning_rate': 2.7302060064532143e-08, 'epoch': 4.99}
{'loss': 0.0419, 'learning_rate': 2.2338049143708116e-08, 'epoch': 4.99}


  0%|          | 0/460 [00:00<?, ?it/s]

{'eval_loss': 3.290886402130127, 'eval_runtime': 53.2046, 'eval_samples_per_second': 34.546, 'eval_steps_per_second': 8.646, 'epoch': 4.99}
{'loss': 0.058, 'learning_rate': 1.737403822288409e-08, 'epoch': 4.99}
{'loss': 0.0401, 'learning_rate': 1.2410027302060066e-08, 'epoch': 4.99}
{'loss': 0.0499, 'learning_rate': 7.446016381236039e-09, 'epoch': 5.0}
{'loss': 0.0635, 'learning_rate': 2.482005460412013e-09, 'epoch': 5.0}
{'train_runtime': 28429.4477, 'train_samples_per_second': 2.834, 'train_steps_per_second': 0.709, 'train_loss': 0.9632001106985807, 'epoch': 5.0}


In [9]:
model

GPTNeoXForCausalLM(
  (gpt_neox): GPTNeoXModel(
    (embed_in): Embedding(50280, 2560)
    (layers): ModuleList(
      (0-31): 32 x GPTNeoXLayer(
        (input_layernorm): LayerNorm((2560,), eps=1e-05, elementwise_affine=True)
        (post_attention_layernorm): LayerNorm((2560,), eps=1e-05, elementwise_affine=True)
        (attention): GPTNeoXAttention(
          (rotary_emb): RotaryEmbedding()
          (query_key_value): Linear(in_features=2560, out_features=7680, bias=True)
          (dense): Linear(in_features=2560, out_features=2560, bias=True)
        )
        (mlp): GPTNeoXMLP(
          (dense_h_to_4h): Linear(in_features=2560, out_features=10240, bias=True)
          (dense_4h_to_h): Linear(in_features=10240, out_features=2560, bias=True)
          (act): GELUActivation()
        )
      )
    )
    (final_layer_norm): LayerNorm((2560,), eps=1e-05, elementwise_affine=True)
  )
  (embed_out): Linear(in_features=2560, out_features=50280, bias=False)
)