In [1]:
%env ROCM_PATH=/opt/rocm-6.2.2
%env AMD_SERIALIZE_KERNEL=3
%env HSA_OVERRIDE_GFX_VERSION=10.3.0
%env GPU_DEVICE_ORDINAL="0"
%env CUDA_VISIBLE_DEVICES="0"
%env PYTORCH_HIP_ALLOC_CONF=expandable_segments:True
import sys
import csv

from datasets import load_dataset
dataset = load_dataset("google/code_x_glue_cc_code_refinement", 'medium')
train = dataset["train"]
val = dataset["validation"]
test = dataset["test"]

env: ROCM_PATH=/opt/rocm-6.2.2
env: AMD_SERIALIZE_KERNEL=3
env: HSA_OVERRIDE_GFX_VERSION=10.3.0
env: GPU_DEVICE_ORDINAL="0"
env: CUDA_VISIBLE_DEVICES="0"
env: PYTORCH_HIP_ALLOC_CONF=expandable_segments:True


In [2]:
from transformers import RobertaTokenizer, RobertaModel

# Load CodeBERT
tokenizer = RobertaTokenizer.from_pretrained("microsoft/codebert-base")
base_model = RobertaModel.from_pretrained("microsoft/codebert-base")

def preprocess_data(data, tokenizer, max_length=512):
    inputs, outputs = [], []
    for entry in data:
        buggy_code = entry.get("buggy")
        fixed_code = entry.get("fixed")
        if buggy_code and fixed_code:
            inputs.append(buggy_code)
            outputs.append(fixed_code)
    input_encodings = tokenizer(inputs, padding=True, truncation=True, max_length=max_length, return_tensors="pt")
    output_encodings = tokenizer(outputs, padding=True, truncation=True, max_length=max_length, return_tensors="pt")
    labels = output_encodings["input_ids"]
    labels[labels == tokenizer.pad_token_id] = -100
    input_encodings["labels"] = labels
    return input_encodings

2025-01-31 11:55:42.782748: E external/local_xla/xla/stream_executor/plugin_registry.cc:91] Invalid plugin kind specified: FFT
2025-01-31 11:55:43.149498: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: SSE3 SSE4.1 SSE4.2 AVX AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-01-31 11:55:44.145520: E external/local_xla/xla/stream_executor/plugin_registry.cc:91] Invalid plugin kind specified: DNN


In [3]:
import torch
from torch import nn

class Seq2SeqCodeBERT(nn.Module):
    def __init__(self, base_model):
        super(Seq2SeqCodeBERT, self).__init__()
        self.base_model = base_model
        self.lm_head = nn.Linear(base_model.config.hidden_size, base_model.config.vocab_size)
        self.regularization = 1e-5  # L2 regularization factor

    def forward(self, input_ids, attention_mask=None, labels=None):
        outputs = self.base_model(input_ids, attention_mask=attention_mask)
        logits = self.lm_head(outputs.last_hidden_state)
        loss = None
        if labels is not None:
            loss_fn = nn.CrossEntropyLoss(ignore_index=-100)
            loss = loss_fn(logits.view(-1, logits.size(-1)), labels.view(-1))
            # Apply L2 regularization
            l2_norm = sum(p.pow(2.0).sum() for p in self.base_model.parameters())
            loss += self.regularization * l2_norm
        return {"loss": loss, "logits": logits} if loss is not None else {"logits": logits}



In [4]:
import torch
from torch.utils.data import Dataset, DataLoader

class CodeRefinementDataset(Dataset):
    def __init__(self, tokenized_data):
        self.data = tokenized_data

    def __len__(self):
        return len(self.data["input_ids"])

    def __getitem__(self, idx):
        return {key: val[idx] for key, val in self.data.items()}
train_data = preprocess_data(train, tokenizer)
train_dataset = CodeRefinementDataset(train_data)
train_size = int(0.99907 * len(train_dataset))
val_size = len(train_dataset) - train_size
train_dataset, val_dataset = torch.utils.data.random_split(train_dataset, [train_size, val_size])

In [5]:
from transformers import Trainer, TrainingArguments, EvalPrediction
import evaluate
import numpy as np

model = Seq2SeqCodeBERT(base_model)

bleu_metric = evaluate.load("bleu")
rouge_metric = evaluate.load("rouge")
meteor_metric = evaluate.load("meteor")  # Optional: Requires the METEOR dataset

def compute_metrics(eval_preds: EvalPrediction):
    preds, labels = eval_preds.predictions, eval_preds.label_ids
    pred_ids = np.argmax(preds, axis=-1)

    decoded_preds = [tokenizer.decode(pred, skip_special_tokens=True) for pred in pred_ids]
    decoded_labels = [
        tokenizer.decode([l for l in label if l != -100], skip_special_tokens=True)
        for label in labels
    ]

    bleu = bleu_metric.compute(predictions=decoded_preds, references=[[label] for label in decoded_labels])
    rouge = rouge_metric.compute(predictions=decoded_preds, references=decoded_labels)
    meteor = meteor_metric.compute(predictions=decoded_preds, references=decoded_labels)

    return {"bleu": bleu["bleu"], "rougeL": rouge["rougeL"], "meteor": meteor["meteor"]}

training_args = TrainingArguments(
    output_dir="./codebert_seq2seq",
    num_train_epochs=5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=1,
    save_steps=1000,
    evaluation_strategy="steps",
    eval_steps=400,
    logging_dir="./logs",
    logging_steps=100,
    weight_decay=1e-5  # Regularization in optimizer
)

# Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

# Train model
trainer.train()

Using the latest cached version of the module from /home/ivan/.cache/huggingface/modules/evaluate_modules/metrics/evaluate-metric--bleu/9e0985c1200e367cce45605ce0ecb5ede079894e0f24f54613fca08eeb8aff76 (last modified on Sat Jan 25 04:40:33 2025) since it couldn't be found locally at evaluate-metric--bleu, or remotely on the Hugging Face Hub.
[nltk_data] Downloading package wordnet to /home/ivan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /home/ivan/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/ivan/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
  trainer = Trainer(
  return t.to(
[34m[1mwandb[0m: Currently logged in as: [33mops282[0m ([33mops282-misis[0m). Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more informat

  0%|          | 0/65395 [00:00<?, ?it/s]

  return F.linear(input, self.weight, self.bias)


{'loss': 15.1706, 'grad_norm': 5.536890029907227, 'learning_rate': 4.992354155516477e-05, 'epoch': 0.01}
{'loss': 11.4489, 'grad_norm': 4.532386302947998, 'learning_rate': 4.984708311032954e-05, 'epoch': 0.02}
{'loss': 10.5528, 'grad_norm': 5.624212741851807, 'learning_rate': 4.977062466549431e-05, 'epoch': 0.02}
{'loss': 10.005, 'grad_norm': 2.303966999053955, 'learning_rate': 4.969416622065907e-05, 'epoch': 0.03}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 9.528398513793945, 'eval_bleu': 0.37569549137107233, 'eval_rougeL': 0.8479529334004019, 'eval_meteor': 0.6036156149590839, 'eval_runtime': 10.5031, 'eval_samples_per_second': 4.665, 'eval_steps_per_second': 4.665, 'epoch': 0.03}
{'loss': 9.509, 'grad_norm': 2.437819242477417, 'learning_rate': 4.961770777582384e-05, 'epoch': 0.04}
{'loss': 9.1258, 'grad_norm': 2.132279396057129, 'learning_rate': 4.954124933098861e-05, 'epoch': 0.05}
{'loss': 8.8188, 'grad_norm': 1.6826801300048828, 'learning_rate': 4.946479088615338e-05, 'epoch': 0.05}
{'loss': 8.5773, 'grad_norm': 2.9329824447631836, 'learning_rate': 4.938833244131815e-05, 'epoch': 0.06}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 8.197093963623047, 'eval_bleu': 0.449239859335765, 'eval_rougeL': 0.9011300763504521, 'eval_meteor': 0.7303829292986358, 'eval_runtime': 6.8018, 'eval_samples_per_second': 7.204, 'eval_steps_per_second': 7.204, 'epoch': 0.06}
{'loss': 8.2397, 'grad_norm': 1.7653049230575562, 'learning_rate': 4.9311873996482916e-05, 'epoch': 0.07}
{'loss': 7.9168, 'grad_norm': 2.7828493118286133, 'learning_rate': 4.9235415551647684e-05, 'epoch': 0.08}
{'loss': 7.7938, 'grad_norm': 2.1382153034210205, 'learning_rate': 4.915895710681245e-05, 'epoch': 0.08}
{'loss': 7.6454, 'grad_norm': 1.936376929283142, 'learning_rate': 4.908249866197722e-05, 'epoch': 0.09}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 7.32403564453125, 'eval_bleu': 0.42526003741893703, 'eval_rougeL': 0.8632922597422547, 'eval_meteor': 0.6298868124022555, 'eval_runtime': 7.2245, 'eval_samples_per_second': 6.783, 'eval_steps_per_second': 6.783, 'epoch': 0.09}
{'loss': 7.3148, 'grad_norm': 2.147306442260742, 'learning_rate': 4.9006040217141986e-05, 'epoch': 0.1}
{'loss': 7.1511, 'grad_norm': 1.7415356636047363, 'learning_rate': 4.892958177230675e-05, 'epoch': 0.11}
{'loss': 7.0333, 'grad_norm': 3.0252251625061035, 'learning_rate': 4.885312332747152e-05, 'epoch': 0.11}
{'loss': 6.8079, 'grad_norm': 1.823079228401184, 'learning_rate': 4.8776664882636295e-05, 'epoch': 0.12}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 6.521212100982666, 'eval_bleu': 0.4715457422948468, 'eval_rougeL': 0.9099666307215517, 'eval_meteor': 0.7287523664813028, 'eval_runtime': 6.7561, 'eval_samples_per_second': 7.253, 'eval_steps_per_second': 7.253, 'epoch': 0.12}
{'loss': 6.6685, 'grad_norm': 1.562292218208313, 'learning_rate': 4.8700206437801056e-05, 'epoch': 0.13}
{'loss': 6.4897, 'grad_norm': 2.573535919189453, 'learning_rate': 4.862374799296582e-05, 'epoch': 0.14}
{'loss': 6.1873, 'grad_norm': 1.765097737312317, 'learning_rate': 4.854728954813059e-05, 'epoch': 0.15}
{'loss': 6.2164, 'grad_norm': 1.909761667251587, 'learning_rate': 4.847083110329536e-05, 'epoch': 0.15}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 5.947437286376953, 'eval_bleu': 0.4393717592568683, 'eval_rougeL': 0.9139390386451569, 'eval_meteor': 0.7336348132786853, 'eval_runtime': 6.6579, 'eval_samples_per_second': 7.36, 'eval_steps_per_second': 7.36, 'epoch': 0.15}
{'loss': 6.072, 'grad_norm': 3.305882215499878, 'learning_rate': 4.839437265846013e-05, 'epoch': 0.16}
{'loss': 5.9645, 'grad_norm': 2.2763876914978027, 'learning_rate': 4.83179142136249e-05, 'epoch': 0.17}
{'loss': 5.6984, 'grad_norm': 3.4857473373413086, 'learning_rate': 4.824145576878967e-05, 'epoch': 0.18}
{'loss': 5.7753, 'grad_norm': 1.9975190162658691, 'learning_rate': 4.816499732395443e-05, 'epoch': 0.18}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 5.463194370269775, 'eval_bleu': 0.5411078682472222, 'eval_rougeL': 0.9143738579213776, 'eval_meteor': 0.7638772100598747, 'eval_runtime': 6.8789, 'eval_samples_per_second': 7.123, 'eval_steps_per_second': 7.123, 'epoch': 0.18}
{'loss': 5.6167, 'grad_norm': 1.99413001537323, 'learning_rate': 4.80885388791192e-05, 'epoch': 0.19}
{'loss': 5.5188, 'grad_norm': 3.3992462158203125, 'learning_rate': 4.801208043428397e-05, 'epoch': 0.2}
{'loss': 5.2993, 'grad_norm': 2.7349212169647217, 'learning_rate': 4.793562198944874e-05, 'epoch': 0.21}
{'loss': 5.2856, 'grad_norm': 1.9032566547393799, 'learning_rate': 4.7859163544613504e-05, 'epoch': 0.21}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 5.10360860824585, 'eval_bleu': 0.48894402283314514, 'eval_rougeL': 0.9108641732034667, 'eval_meteor': 0.7389027642722701, 'eval_runtime': 7.3506, 'eval_samples_per_second': 6.666, 'eval_steps_per_second': 6.666, 'epoch': 0.21}
{'loss': 5.1048, 'grad_norm': 2.0665035247802734, 'learning_rate': 4.778270509977827e-05, 'epoch': 0.22}
{'loss': 5.134, 'grad_norm': 2.798694133758545, 'learning_rate': 4.7706246654943046e-05, 'epoch': 0.23}
{'loss': 5.0875, 'grad_norm': 1.9532921314239502, 'learning_rate': 4.7629788210107806e-05, 'epoch': 0.24}
{'loss': 4.8053, 'grad_norm': 2.1497721672058105, 'learning_rate': 4.7553329765272574e-05, 'epoch': 0.24}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 4.745090961456299, 'eval_bleu': 0.4373052882937126, 'eval_rougeL': 0.9116972742486893, 'eval_meteor': 0.7161111740497901, 'eval_runtime': 7.2667, 'eval_samples_per_second': 6.743, 'eval_steps_per_second': 6.743, 'epoch': 0.24}
{'loss': 4.8524, 'grad_norm': 2.3597400188446045, 'learning_rate': 4.747687132043734e-05, 'epoch': 0.25}
{'loss': 4.7442, 'grad_norm': 2.228506326675415, 'learning_rate': 4.7400412875602116e-05, 'epoch': 0.26}
{'loss': 4.7346, 'grad_norm': 3.029371500015259, 'learning_rate': 4.732395443076688e-05, 'epoch': 0.27}
{'loss': 4.7209, 'grad_norm': 1.9361565113067627, 'learning_rate': 4.724749598593165e-05, 'epoch': 0.28}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 4.476140975952148, 'eval_bleu': 0.43408882492878464, 'eval_rougeL': 0.9119301228862272, 'eval_meteor': 0.7175047250096815, 'eval_runtime': 6.7524, 'eval_samples_per_second': 7.257, 'eval_steps_per_second': 7.257, 'epoch': 0.28}
{'loss': 4.5991, 'grad_norm': 1.7177969217300415, 'learning_rate': 4.717103754109642e-05, 'epoch': 0.28}
{'loss': 4.5951, 'grad_norm': 1.7753417491912842, 'learning_rate': 4.7094579096261185e-05, 'epoch': 0.29}
{'loss': 4.5407, 'grad_norm': 2.1272950172424316, 'learning_rate': 4.701812065142595e-05, 'epoch': 0.3}
{'loss': 4.4424, 'grad_norm': 1.863840937614441, 'learning_rate': 4.694166220659072e-05, 'epoch': 0.31}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 4.276029109954834, 'eval_bleu': 0.46243672937923425, 'eval_rougeL': 0.9158364034774344, 'eval_meteor': 0.7285876729336361, 'eval_runtime': 6.9459, 'eval_samples_per_second': 7.054, 'eval_steps_per_second': 7.054, 'epoch': 0.31}
{'loss': 4.3566, 'grad_norm': 2.2308671474456787, 'learning_rate': 4.686520376175549e-05, 'epoch': 0.31}
{'loss': 4.3656, 'grad_norm': 1.8045215606689453, 'learning_rate': 4.6788745316920255e-05, 'epoch': 0.32}
{'loss': 4.3024, 'grad_norm': 1.7376741170883179, 'learning_rate': 4.671228687208503e-05, 'epoch': 0.33}
{'loss': 4.2634, 'grad_norm': 1.6237214803695679, 'learning_rate': 4.66358284272498e-05, 'epoch': 0.34}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 4.075984001159668, 'eval_bleu': 0.45275389823678636, 'eval_rougeL': 0.9137689234582617, 'eval_meteor': 0.7339705628863467, 'eval_runtime': 7.0466, 'eval_samples_per_second': 6.954, 'eval_steps_per_second': 6.954, 'epoch': 0.34}
{'loss': 4.1553, 'grad_norm': 3.6537158489227295, 'learning_rate': 4.655936998241456e-05, 'epoch': 0.34}
{'loss': 4.1974, 'grad_norm': 1.4833521842956543, 'learning_rate': 4.6482911537579325e-05, 'epoch': 0.35}
{'loss': 4.1122, 'grad_norm': 2.4343647956848145, 'learning_rate': 4.640645309274409e-05, 'epoch': 0.36}
{'loss': 4.0225, 'grad_norm': 1.8303048610687256, 'learning_rate': 4.6329994647908866e-05, 'epoch': 0.37}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.925288200378418, 'eval_bleu': 0.46874300515118345, 'eval_rougeL': 0.9168462899490031, 'eval_meteor': 0.7415235772321049, 'eval_runtime': 7.0622, 'eval_samples_per_second': 6.938, 'eval_steps_per_second': 6.938, 'epoch': 0.37}
{'loss': 4.0108, 'grad_norm': 2.2783398628234863, 'learning_rate': 4.6253536203073634e-05, 'epoch': 0.37}
{'loss': 3.9973, 'grad_norm': 2.363050699234009, 'learning_rate': 4.61770777582384e-05, 'epoch': 0.38}
{'loss': 4.0078, 'grad_norm': 1.6751031875610352, 'learning_rate': 4.610061931340316e-05, 'epoch': 0.39}
{'loss': 3.9603, 'grad_norm': 1.643551230430603, 'learning_rate': 4.6024160868567936e-05, 'epoch': 0.4}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.804527521133423, 'eval_bleu': 0.439987401607583, 'eval_rougeL': 0.8956270236125976, 'eval_meteor': 0.7299310632363653, 'eval_runtime': 7.0976, 'eval_samples_per_second': 6.904, 'eval_steps_per_second': 6.904, 'epoch': 0.4}
{'loss': 3.79, 'grad_norm': 1.464684009552002, 'learning_rate': 4.5947702423732704e-05, 'epoch': 0.41}
{'loss': 3.8921, 'grad_norm': 1.9295297861099243, 'learning_rate': 4.587124397889747e-05, 'epoch': 0.41}
{'loss': 3.8335, 'grad_norm': 2.464211940765381, 'learning_rate': 4.579478553406224e-05, 'epoch': 0.42}
{'loss': 3.8977, 'grad_norm': 2.0237720012664795, 'learning_rate': 4.5718327089227006e-05, 'epoch': 0.43}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.6579456329345703, 'eval_bleu': 0.4694005871528717, 'eval_rougeL': 0.9230989568645702, 'eval_meteor': 0.7771370813475215, 'eval_runtime': 6.6344, 'eval_samples_per_second': 7.386, 'eval_steps_per_second': 7.386, 'epoch': 0.43}
{'loss': 3.7963, 'grad_norm': 2.1905131340026855, 'learning_rate': 4.564186864439178e-05, 'epoch': 0.44}
{'loss': 3.8338, 'grad_norm': 2.2115087509155273, 'learning_rate': 4.556541019955654e-05, 'epoch': 0.44}
{'loss': 3.7525, 'grad_norm': 1.6547763347625732, 'learning_rate': 4.548895175472131e-05, 'epoch': 0.45}
{'loss': 3.6494, 'grad_norm': 1.70132577419281, 'learning_rate': 4.5412493309886076e-05, 'epoch': 0.46}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.568166971206665, 'eval_bleu': 0.48393440984496905, 'eval_rougeL': 0.8831127056297083, 'eval_meteor': 0.7888305293683192, 'eval_runtime': 6.7944, 'eval_samples_per_second': 7.212, 'eval_steps_per_second': 7.212, 'epoch': 0.46}
{'loss': 3.7149, 'grad_norm': 2.1031787395477295, 'learning_rate': 4.533603486505085e-05, 'epoch': 0.47}
{'loss': 3.5464, 'grad_norm': 1.318551778793335, 'learning_rate': 4.525957642021562e-05, 'epoch': 0.47}
{'loss': 3.6344, 'grad_norm': 2.9379522800445557, 'learning_rate': 4.5183117975380385e-05, 'epoch': 0.48}
{'loss': 3.6869, 'grad_norm': 3.7576563358306885, 'learning_rate': 4.510665953054515e-05, 'epoch': 0.49}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.4793596267700195, 'eval_bleu': 0.5213168651522211, 'eval_rougeL': 0.918620770070686, 'eval_meteor': 0.7909056906744639, 'eval_runtime': 6.9628, 'eval_samples_per_second': 7.037, 'eval_steps_per_second': 7.037, 'epoch': 0.49}
{'loss': 3.5853, 'grad_norm': 2.418853759765625, 'learning_rate': 4.503020108570992e-05, 'epoch': 0.5}
{'loss': 3.7279, 'grad_norm': 2.4627861976623535, 'learning_rate': 4.495374264087469e-05, 'epoch': 0.5}
{'loss': 3.5929, 'grad_norm': 1.8727025985717773, 'learning_rate': 4.4877284196039454e-05, 'epoch': 0.51}
{'loss': 3.5385, 'grad_norm': 2.7352731227874756, 'learning_rate': 4.480082575120422e-05, 'epoch': 0.52}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.4270036220550537, 'eval_bleu': 0.438981969579654, 'eval_rougeL': 0.920259297728711, 'eval_meteor': 0.7107923545140395, 'eval_runtime': 7.0465, 'eval_samples_per_second': 6.954, 'eval_steps_per_second': 6.954, 'epoch': 0.52}
{'loss': 3.5032, 'grad_norm': 1.8427846431732178, 'learning_rate': 4.472436730636899e-05, 'epoch': 0.53}
{'loss': 3.6167, 'grad_norm': 1.9602246284484863, 'learning_rate': 4.4647908861533763e-05, 'epoch': 0.54}
{'loss': 3.4899, 'grad_norm': 2.3953139781951904, 'learning_rate': 4.457145041669853e-05, 'epoch': 0.54}
{'loss': 3.5736, 'grad_norm': 1.4636683464050293, 'learning_rate': 4.449499197186329e-05, 'epoch': 0.55}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.3657219409942627, 'eval_bleu': 0.4430192941005138, 'eval_rougeL': 0.9209127637918713, 'eval_meteor': 0.7219633204117001, 'eval_runtime': 7.0328, 'eval_samples_per_second': 6.967, 'eval_steps_per_second': 6.967, 'epoch': 0.55}
{'loss': 3.5127, 'grad_norm': 1.4129655361175537, 'learning_rate': 4.441853352702806e-05, 'epoch': 0.56}
{'loss': 3.5083, 'grad_norm': 2.074721336364746, 'learning_rate': 4.434207508219283e-05, 'epoch': 0.57}
{'loss': 3.4341, 'grad_norm': 1.6959229707717896, 'learning_rate': 4.42656166373576e-05, 'epoch': 0.57}
{'loss': 3.4474, 'grad_norm': 2.0424869060516357, 'learning_rate': 4.418915819252237e-05, 'epoch': 0.58}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.315152883529663, 'eval_bleu': 0.4423331705411967, 'eval_rougeL': 0.9192329701298583, 'eval_meteor': 0.7237082307286204, 'eval_runtime': 6.8295, 'eval_samples_per_second': 7.175, 'eval_steps_per_second': 7.175, 'epoch': 0.58}
{'loss': 3.5181, 'grad_norm': 3.894211769104004, 'learning_rate': 4.4112699747687136e-05, 'epoch': 0.59}
{'loss': 3.4554, 'grad_norm': 1.774095058441162, 'learning_rate': 4.4036241302851896e-05, 'epoch': 0.6}
{'loss': 3.4053, 'grad_norm': 1.6238991022109985, 'learning_rate': 4.395978285801667e-05, 'epoch': 0.6}
{'loss': 3.4018, 'grad_norm': 2.4479682445526123, 'learning_rate': 4.388332441318144e-05, 'epoch': 0.61}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.286344528198242, 'eval_bleu': 0.44968845076815145, 'eval_rougeL': 0.9188456457581904, 'eval_meteor': 0.738926639240451, 'eval_runtime': 6.9166, 'eval_samples_per_second': 7.084, 'eval_steps_per_second': 7.084, 'epoch': 0.61}
{'loss': 3.4141, 'grad_norm': 1.9195276498794556, 'learning_rate': 4.3806865968346205e-05, 'epoch': 0.62}
{'loss': 3.3398, 'grad_norm': 1.591556429862976, 'learning_rate': 4.373040752351097e-05, 'epoch': 0.63}
{'loss': 3.3146, 'grad_norm': 1.597739577293396, 'learning_rate': 4.365394907867574e-05, 'epoch': 0.63}
{'loss': 3.3844, 'grad_norm': 2.3132247924804688, 'learning_rate': 4.3577490633840514e-05, 'epoch': 0.64}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.2276482582092285, 'eval_bleu': 0.44691843196091063, 'eval_rougeL': 0.9053408954833873, 'eval_meteor': 0.7413086310073743, 'eval_runtime': 7.1347, 'eval_samples_per_second': 6.868, 'eval_steps_per_second': 6.868, 'epoch': 0.64}
{'loss': 3.3546, 'grad_norm': 1.8055390119552612, 'learning_rate': 4.3501032189005275e-05, 'epoch': 0.65}
{'loss': 3.3241, 'grad_norm': 1.5239818096160889, 'learning_rate': 4.342457374417004e-05, 'epoch': 0.66}
{'loss': 3.2826, 'grad_norm': 1.4337995052337646, 'learning_rate': 4.334811529933481e-05, 'epoch': 0.67}
{'loss': 3.2971, 'grad_norm': 1.3831113576889038, 'learning_rate': 4.3271656854499584e-05, 'epoch': 0.67}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.1930084228515625, 'eval_bleu': 0.43817428669116587, 'eval_rougeL': 0.9015227078169848, 'eval_meteor': 0.7298897241662204, 'eval_runtime': 6.8169, 'eval_samples_per_second': 7.188, 'eval_steps_per_second': 7.188, 'epoch': 0.67}
{'loss': 3.3581, 'grad_norm': 2.4104154109954834, 'learning_rate': 4.319519840966435e-05, 'epoch': 0.68}
{'loss': 3.2594, 'grad_norm': 2.4373843669891357, 'learning_rate': 4.311873996482912e-05, 'epoch': 0.69}
{'loss': 3.3271, 'grad_norm': 2.361137628555298, 'learning_rate': 4.3042281519993886e-05, 'epoch': 0.7}
{'loss': 3.2357, 'grad_norm': 1.7158678770065308, 'learning_rate': 4.2965823075158654e-05, 'epoch': 0.7}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.1382694244384766, 'eval_bleu': 0.48209870329959814, 'eval_rougeL': 0.9115071439281628, 'eval_meteor': 0.7702992909968311, 'eval_runtime': 7.1435, 'eval_samples_per_second': 6.859, 'eval_steps_per_second': 6.859, 'epoch': 0.7}
{'loss': 3.3373, 'grad_norm': 1.4916460514068604, 'learning_rate': 4.288936463032342e-05, 'epoch': 0.71}
{'loss': 3.3269, 'grad_norm': 1.42621648311615, 'learning_rate': 4.281290618548819e-05, 'epoch': 0.72}
{'loss': 3.2594, 'grad_norm': 2.010209798812866, 'learning_rate': 4.2736447740652956e-05, 'epoch': 0.73}
{'loss': 3.2087, 'grad_norm': 1.8592172861099243, 'learning_rate': 4.2659989295817724e-05, 'epoch': 0.73}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.103299617767334, 'eval_bleu': 0.5867790479139361, 'eval_rougeL': 0.9216740638312, 'eval_meteor': 0.8081287851332148, 'eval_runtime': 6.6252, 'eval_samples_per_second': 7.396, 'eval_steps_per_second': 7.396, 'epoch': 0.73}
{'loss': 3.1857, 'grad_norm': 1.46792471408844, 'learning_rate': 4.25835308509825e-05, 'epoch': 0.74}
{'loss': 3.1944, 'grad_norm': 1.3436048030853271, 'learning_rate': 4.2507072406147265e-05, 'epoch': 0.75}
{'loss': 3.1856, 'grad_norm': 1.8624114990234375, 'learning_rate': 4.2430613961312026e-05, 'epoch': 0.76}
{'loss': 3.2364, 'grad_norm': 2.225339889526367, 'learning_rate': 4.235415551647679e-05, 'epoch': 0.76}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.0609652996063232, 'eval_bleu': 0.469075761418277, 'eval_rougeL': 0.920731632344166, 'eval_meteor': 0.7508641662215549, 'eval_runtime': 6.6721, 'eval_samples_per_second': 7.344, 'eval_steps_per_second': 7.344, 'epoch': 0.76}
{'loss': 3.1558, 'grad_norm': 2.999614953994751, 'learning_rate': 4.227769707164157e-05, 'epoch': 0.77}
{'loss': 3.2177, 'grad_norm': 1.6324206590652466, 'learning_rate': 4.2201238626806335e-05, 'epoch': 0.78}
{'loss': 3.157, 'grad_norm': 1.793160319328308, 'learning_rate': 4.21247801819711e-05, 'epoch': 0.79}
{'loss': 3.1258, 'grad_norm': 1.7087053060531616, 'learning_rate': 4.204832173713587e-05, 'epoch': 0.8}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.0769569873809814, 'eval_bleu': 0.5539281935980678, 'eval_rougeL': 0.9230459994870696, 'eval_meteor': 0.7939596857383296, 'eval_runtime': 7.1196, 'eval_samples_per_second': 6.882, 'eval_steps_per_second': 6.882, 'epoch': 0.8}
{'loss': 3.1649, 'grad_norm': 1.2843128442764282, 'learning_rate': 4.197186329230064e-05, 'epoch': 0.8}
{'loss': 3.1193, 'grad_norm': 1.5943862199783325, 'learning_rate': 4.1895404847465405e-05, 'epoch': 0.81}
{'loss': 3.143, 'grad_norm': 1.823625087738037, 'learning_rate': 4.181894640263017e-05, 'epoch': 0.82}
{'loss': 3.1906, 'grad_norm': 1.2603743076324463, 'learning_rate': 4.174248795779494e-05, 'epoch': 0.83}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.0020599365234375, 'eval_bleu': 0.46614457700697076, 'eval_rougeL': 0.9235907176506459, 'eval_meteor': 0.7554956239891149, 'eval_runtime': 6.887, 'eval_samples_per_second': 7.115, 'eval_steps_per_second': 7.115, 'epoch': 0.83}
{'loss': 3.0863, 'grad_norm': 1.4892241954803467, 'learning_rate': 4.166602951295971e-05, 'epoch': 0.83}
{'loss': 3.0477, 'grad_norm': 1.5727319717407227, 'learning_rate': 4.1589571068124474e-05, 'epoch': 0.84}
{'loss': 3.1073, 'grad_norm': 1.7145417928695679, 'learning_rate': 4.151311262328925e-05, 'epoch': 0.85}
{'loss': 3.2547, 'grad_norm': 1.5466513633728027, 'learning_rate': 4.143665417845401e-05, 'epoch': 0.86}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 3.0070629119873047, 'eval_bleu': 0.46466635203816414, 'eval_rougeL': 0.9172880880817856, 'eval_meteor': 0.7406748941286736, 'eval_runtime': 7.2294, 'eval_samples_per_second': 6.778, 'eval_steps_per_second': 6.778, 'epoch': 0.86}
{'loss': 3.0464, 'grad_norm': 1.3041355609893799, 'learning_rate': 4.136019573361878e-05, 'epoch': 0.86}
{'loss': 3.0828, 'grad_norm': 1.832030177116394, 'learning_rate': 4.1283737288783544e-05, 'epoch': 0.87}
{'loss': 3.0437, 'grad_norm': 1.8332737684249878, 'learning_rate': 4.120727884394832e-05, 'epoch': 0.88}
{'loss': 3.1042, 'grad_norm': 1.561107873916626, 'learning_rate': 4.1130820399113086e-05, 'epoch': 0.89}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.956026315689087, 'eval_bleu': 0.4625131465359921, 'eval_rougeL': 0.9242834062124119, 'eval_meteor': 0.7577994806683811, 'eval_runtime': 6.9127, 'eval_samples_per_second': 7.088, 'eval_steps_per_second': 7.088, 'epoch': 0.89}
{'loss': 3.0553, 'grad_norm': 1.552194595336914, 'learning_rate': 4.105436195427785e-05, 'epoch': 0.89}
{'loss': 3.0111, 'grad_norm': 2.4927425384521484, 'learning_rate': 4.097790350944262e-05, 'epoch': 0.9}
{'loss': 3.0809, 'grad_norm': 1.3320696353912354, 'learning_rate': 4.090144506460739e-05, 'epoch': 0.91}
{'loss': 3.0773, 'grad_norm': 1.2647792100906372, 'learning_rate': 4.0824986619772156e-05, 'epoch': 0.92}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.931161403656006, 'eval_bleu': 0.46082362854446024, 'eval_rougeL': 0.9205873139630527, 'eval_meteor': 0.7515149802546071, 'eval_runtime': 6.5931, 'eval_samples_per_second': 7.432, 'eval_steps_per_second': 7.432, 'epoch': 0.92}
{'loss': 3.0605, 'grad_norm': 1.5840712785720825, 'learning_rate': 4.074852817493692e-05, 'epoch': 0.93}
{'loss': 2.9603, 'grad_norm': 2.0198450088500977, 'learning_rate': 4.067206973010169e-05, 'epoch': 0.93}
{'loss': 3.0501, 'grad_norm': 1.9913502931594849, 'learning_rate': 4.059561128526646e-05, 'epoch': 0.94}
{'loss': 3.032, 'grad_norm': 1.3851045370101929, 'learning_rate': 4.051915284043123e-05, 'epoch': 0.95}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.8928701877593994, 'eval_bleu': 0.4970160750973369, 'eval_rougeL': 0.9194808484935331, 'eval_meteor': 0.7629563495812828, 'eval_runtime': 7.3034, 'eval_samples_per_second': 6.709, 'eval_steps_per_second': 6.709, 'epoch': 0.95}
{'loss': 3.0066, 'grad_norm': 1.4229989051818848, 'learning_rate': 4.0442694395596e-05, 'epoch': 0.96}
{'loss': 3.073, 'grad_norm': 1.6061559915542603, 'learning_rate': 4.036623595076076e-05, 'epoch': 0.96}
{'loss': 2.9951, 'grad_norm': 2.6932930946350098, 'learning_rate': 4.028977750592553e-05, 'epoch': 0.97}
{'loss': 3.0833, 'grad_norm': 1.8502634763717651, 'learning_rate': 4.02133190610903e-05, 'epoch': 0.98}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.873849391937256, 'eval_bleu': 0.4638984172044995, 'eval_rougeL': 0.9198431514557195, 'eval_meteor': 0.7559260601905876, 'eval_runtime': 6.8357, 'eval_samples_per_second': 7.168, 'eval_steps_per_second': 7.168, 'epoch': 0.98}
{'loss': 3.0184, 'grad_norm': 1.8000470399856567, 'learning_rate': 4.013686061625507e-05, 'epoch': 0.99}
{'loss': 2.984, 'grad_norm': 1.379981279373169, 'learning_rate': 4.006040217141984e-05, 'epoch': 0.99}
{'loss': 2.9911, 'grad_norm': 1.774824619293213, 'learning_rate': 3.9983943726584604e-05, 'epoch': 1.0}
{'loss': 2.9919, 'grad_norm': 1.7827354669570923, 'learning_rate': 3.990748528174937e-05, 'epoch': 1.01}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.855613946914673, 'eval_bleu': 0.4507744019244968, 'eval_rougeL': 0.9179387550987034, 'eval_meteor': 0.7491569442560916, 'eval_runtime': 7.0969, 'eval_samples_per_second': 6.904, 'eval_steps_per_second': 6.904, 'epoch': 1.01}
{'loss': 2.9041, 'grad_norm': 1.6101446151733398, 'learning_rate': 3.983102683691414e-05, 'epoch': 1.02}
{'loss': 2.8818, 'grad_norm': 1.5967729091644287, 'learning_rate': 3.9754568392078906e-05, 'epoch': 1.02}
{'loss': 2.9205, 'grad_norm': 1.4473017454147339, 'learning_rate': 3.9678109947243674e-05, 'epoch': 1.03}
{'loss': 2.9601, 'grad_norm': 1.75119149684906, 'learning_rate': 3.960165150240844e-05, 'epoch': 1.04}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.836637258529663, 'eval_bleu': 0.4546106443633779, 'eval_rougeL': 0.9225879924584387, 'eval_meteor': 0.7469305045191703, 'eval_runtime': 6.7702, 'eval_samples_per_second': 7.238, 'eval_steps_per_second': 7.238, 'epoch': 1.04}
{'loss': 2.9162, 'grad_norm': 2.439305305480957, 'learning_rate': 3.9525193057573215e-05, 'epoch': 1.05}
{'loss': 2.9118, 'grad_norm': 2.2563533782958984, 'learning_rate': 3.944873461273798e-05, 'epoch': 1.06}
{'loss': 3.0174, 'grad_norm': 2.2017879486083984, 'learning_rate': 3.9372276167902744e-05, 'epoch': 1.06}
{'loss': 2.9127, 'grad_norm': 1.8119908571243286, 'learning_rate': 3.929581772306751e-05, 'epoch': 1.07}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.8289804458618164, 'eval_bleu': 0.45385147018310174, 'eval_rougeL': 0.9034408088061818, 'eval_meteor': 0.7567447691461514, 'eval_runtime': 6.7909, 'eval_samples_per_second': 7.216, 'eval_steps_per_second': 7.216, 'epoch': 1.07}
{'loss': 2.9134, 'grad_norm': 1.8474856615066528, 'learning_rate': 3.921935927823228e-05, 'epoch': 1.08}
{'loss': 2.9167, 'grad_norm': 1.2333638668060303, 'learning_rate': 3.914290083339705e-05, 'epoch': 1.09}
{'loss': 2.8727, 'grad_norm': 1.923054814338684, 'learning_rate': 3.906644238856182e-05, 'epoch': 1.09}
{'loss': 2.8446, 'grad_norm': 1.387808084487915, 'learning_rate': 3.898998394372659e-05, 'epoch': 1.1}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.8025014400482178, 'eval_bleu': 0.46591595555674853, 'eval_rougeL': 0.8935654321621924, 'eval_meteor': 0.7590497609540515, 'eval_runtime': 7.0075, 'eval_samples_per_second': 6.993, 'eval_steps_per_second': 6.993, 'epoch': 1.1}
{'loss': 2.8707, 'grad_norm': 1.5833388566970825, 'learning_rate': 3.8913525498891355e-05, 'epoch': 1.11}
{'loss': 2.9169, 'grad_norm': 1.8008062839508057, 'learning_rate': 3.883706705405612e-05, 'epoch': 1.12}
{'loss': 2.9191, 'grad_norm': 1.4719436168670654, 'learning_rate': 3.876060860922089e-05, 'epoch': 1.12}
{'loss': 2.8174, 'grad_norm': 1.2318148612976074, 'learning_rate': 3.868415016438566e-05, 'epoch': 1.13}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.7614381313323975, 'eval_bleu': 0.4935740283936392, 'eval_rougeL': 0.9095672016434603, 'eval_meteor': 0.762797544231616, 'eval_runtime': 6.7958, 'eval_samples_per_second': 7.21, 'eval_steps_per_second': 7.21, 'epoch': 1.13}
{'loss': 2.9052, 'grad_norm': 1.2526695728302002, 'learning_rate': 3.8607691719550425e-05, 'epoch': 1.14}
{'loss': 2.8736, 'grad_norm': 1.886089563369751, 'learning_rate': 3.853123327471519e-05, 'epoch': 1.15}
{'loss': 2.9001, 'grad_norm': 1.3015156984329224, 'learning_rate': 3.8454774829879966e-05, 'epoch': 1.15}
{'loss': 2.9275, 'grad_norm': 2.8999032974243164, 'learning_rate': 3.8378316385044734e-05, 'epoch': 1.16}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.752480983734131, 'eval_bleu': 0.4536681235446097, 'eval_rougeL': 0.9151460842420625, 'eval_meteor': 0.7396513401931819, 'eval_runtime': 7.3656, 'eval_samples_per_second': 6.653, 'eval_steps_per_second': 6.653, 'epoch': 1.16}
{'loss': 2.8383, 'grad_norm': 2.4193880558013916, 'learning_rate': 3.8301857940209494e-05, 'epoch': 1.17}
{'loss': 2.8397, 'grad_norm': 1.0374248027801514, 'learning_rate': 3.822539949537426e-05, 'epoch': 1.18}
{'loss': 2.8285, 'grad_norm': 2.1651482582092285, 'learning_rate': 3.8148941050539036e-05, 'epoch': 1.19}
{'loss': 2.8287, 'grad_norm': 1.8731247186660767, 'learning_rate': 3.8072482605703804e-05, 'epoch': 1.19}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.716336965560913, 'eval_bleu': 0.4606160869496692, 'eval_rougeL': 0.9183472610856054, 'eval_meteor': 0.7449609817686486, 'eval_runtime': 6.8469, 'eval_samples_per_second': 7.157, 'eval_steps_per_second': 7.157, 'epoch': 1.19}
{'loss': 2.8087, 'grad_norm': 1.6465672254562378, 'learning_rate': 3.799602416086857e-05, 'epoch': 1.2}
{'loss': 2.7945, 'grad_norm': 1.9520173072814941, 'learning_rate': 3.791956571603334e-05, 'epoch': 1.21}
{'loss': 2.8462, 'grad_norm': 1.660414457321167, 'learning_rate': 3.7843107271198106e-05, 'epoch': 1.22}
{'loss': 2.8352, 'grad_norm': 1.7821248769760132, 'learning_rate': 3.776664882636287e-05, 'epoch': 1.22}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.694032669067383, 'eval_bleu': 0.45313409315172243, 'eval_rougeL': 0.9134059664399344, 'eval_meteor': 0.7553530858765265, 'eval_runtime': 6.6107, 'eval_samples_per_second': 7.412, 'eval_steps_per_second': 7.412, 'epoch': 1.22}
{'loss': 2.7955, 'grad_norm': 2.335843801498413, 'learning_rate': 3.769019038152764e-05, 'epoch': 1.23}
{'loss': 2.7624, 'grad_norm': 2.2037107944488525, 'learning_rate': 3.761373193669241e-05, 'epoch': 1.24}
{'loss': 2.9237, 'grad_norm': 1.8704899549484253, 'learning_rate': 3.7537273491857176e-05, 'epoch': 1.25}
{'loss': 2.7735, 'grad_norm': 1.616520881652832, 'learning_rate': 3.746081504702195e-05, 'epoch': 1.25}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.7116432189941406, 'eval_bleu': 0.4830405624175659, 'eval_rougeL': 0.9204946257518525, 'eval_meteor': 0.7824441223416235, 'eval_runtime': 7.4567, 'eval_samples_per_second': 6.571, 'eval_steps_per_second': 6.571, 'epoch': 1.25}
{'loss': 2.889, 'grad_norm': 2.2797181606292725, 'learning_rate': 3.738435660218672e-05, 'epoch': 1.26}
{'loss': 2.8595, 'grad_norm': 1.9678492546081543, 'learning_rate': 3.730789815735148e-05, 'epoch': 1.27}
{'loss': 2.8273, 'grad_norm': 1.3640795946121216, 'learning_rate': 3.7231439712516245e-05, 'epoch': 1.28}
{'loss': 2.7047, 'grad_norm': 1.1634080410003662, 'learning_rate': 3.715498126768101e-05, 'epoch': 1.28}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.685638189315796, 'eval_bleu': 0.4998133982228831, 'eval_rougeL': 0.9249015769487164, 'eval_meteor': 0.7833757069902121, 'eval_runtime': 6.7232, 'eval_samples_per_second': 7.288, 'eval_steps_per_second': 7.288, 'epoch': 1.28}
{'loss': 2.7576, 'grad_norm': 2.1266045570373535, 'learning_rate': 3.707852282284579e-05, 'epoch': 1.29}
{'loss': 2.8485, 'grad_norm': 1.4958997964859009, 'learning_rate': 3.7002064378010554e-05, 'epoch': 1.3}
{'loss': 2.8278, 'grad_norm': 1.5426642894744873, 'learning_rate': 3.692560593317532e-05, 'epoch': 1.31}
{'loss': 2.7486, 'grad_norm': 1.8751139640808105, 'learning_rate': 3.684914748834009e-05, 'epoch': 1.32}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.6783947944641113, 'eval_bleu': 0.4902401510864447, 'eval_rougeL': 0.9170827314146985, 'eval_meteor': 0.772813050665474, 'eval_runtime': 6.8153, 'eval_samples_per_second': 7.19, 'eval_steps_per_second': 7.19, 'epoch': 1.32}
{'loss': 2.8375, 'grad_norm': 2.15901780128479, 'learning_rate': 3.677268904350486e-05, 'epoch': 1.32}
{'loss': 2.8437, 'grad_norm': 1.346421241760254, 'learning_rate': 3.6696230598669624e-05, 'epoch': 1.33}
{'loss': 2.7853, 'grad_norm': 2.5636746883392334, 'learning_rate': 3.661977215383439e-05, 'epoch': 1.34}
{'loss': 2.7809, 'grad_norm': 1.2988921403884888, 'learning_rate': 3.654331370899916e-05, 'epoch': 1.35}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.6614837646484375, 'eval_bleu': 0.49575604675336565, 'eval_rougeL': 0.9197717679711112, 'eval_meteor': 0.7742509313067424, 'eval_runtime': 6.7063, 'eval_samples_per_second': 7.307, 'eval_steps_per_second': 7.307, 'epoch': 1.35}
{'loss': 2.7783, 'grad_norm': 1.6910518407821655, 'learning_rate': 3.6466855264163926e-05, 'epoch': 1.35}
{'loss': 2.772, 'grad_norm': 1.1073507070541382, 'learning_rate': 3.63903968193287e-05, 'epoch': 1.36}
{'loss': 2.7423, 'grad_norm': 1.657578706741333, 'learning_rate': 3.631393837449347e-05, 'epoch': 1.37}
{'loss': 2.6862, 'grad_norm': 1.362143874168396, 'learning_rate': 3.623747992965823e-05, 'epoch': 1.38}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.656538963317871, 'eval_bleu': 0.4889888116151603, 'eval_rougeL': 0.9062191262910285, 'eval_meteor': 0.7721044838171731, 'eval_runtime': 6.7263, 'eval_samples_per_second': 7.285, 'eval_steps_per_second': 7.285, 'epoch': 1.38}
{'loss': 2.8148, 'grad_norm': 1.3284817934036255, 'learning_rate': 3.6161021484822996e-05, 'epoch': 1.38}
{'loss': 2.7186, 'grad_norm': 1.5498278141021729, 'learning_rate': 3.608456303998777e-05, 'epoch': 1.39}
{'loss': 2.7541, 'grad_norm': 1.5003753900527954, 'learning_rate': 3.600810459515254e-05, 'epoch': 1.4}
{'loss': 2.7299, 'grad_norm': 1.2482655048370361, 'learning_rate': 3.5931646150317305e-05, 'epoch': 1.41}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.633918046951294, 'eval_bleu': 0.49303016385304915, 'eval_rougeL': 0.9188701171699021, 'eval_meteor': 0.7870085395154495, 'eval_runtime': 7.2288, 'eval_samples_per_second': 6.778, 'eval_steps_per_second': 6.778, 'epoch': 1.41}
{'loss': 2.7015, 'grad_norm': 2.1772265434265137, 'learning_rate': 3.585518770548207e-05, 'epoch': 1.41}
{'loss': 2.6856, 'grad_norm': 1.5650863647460938, 'learning_rate': 3.577872926064684e-05, 'epoch': 1.42}
{'loss': 2.8469, 'grad_norm': 1.5257855653762817, 'learning_rate': 3.570227081581161e-05, 'epoch': 1.43}
{'loss': 2.7321, 'grad_norm': 1.3627934455871582, 'learning_rate': 3.5625812370976375e-05, 'epoch': 1.44}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.6289560794830322, 'eval_bleu': 0.4859609201657959, 'eval_rougeL': 0.9172479167321459, 'eval_meteor': 0.7759262678845872, 'eval_runtime': 6.7832, 'eval_samples_per_second': 7.224, 'eval_steps_per_second': 7.224, 'epoch': 1.44}
{'loss': 2.6391, 'grad_norm': 2.2944202423095703, 'learning_rate': 3.554935392614114e-05, 'epoch': 1.45}
{'loss': 2.6852, 'grad_norm': 2.2776291370391846, 'learning_rate': 3.547289548130591e-05, 'epoch': 1.45}
{'loss': 2.7627, 'grad_norm': 1.7121186256408691, 'learning_rate': 3.5396437036470684e-05, 'epoch': 1.46}
{'loss': 2.78, 'grad_norm': 2.3895859718322754, 'learning_rate': 3.531997859163545e-05, 'epoch': 1.47}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.6126949787139893, 'eval_bleu': 0.5379215077621137, 'eval_rougeL': 0.9105387849418318, 'eval_meteor': 0.8000866647631635, 'eval_runtime': 7.3087, 'eval_samples_per_second': 6.704, 'eval_steps_per_second': 6.704, 'epoch': 1.47}
{'loss': 2.792, 'grad_norm': 1.9329018592834473, 'learning_rate': 3.524352014680022e-05, 'epoch': 1.48}
{'loss': 2.686, 'grad_norm': 1.464882254600525, 'learning_rate': 3.516706170196498e-05, 'epoch': 1.48}
{'loss': 2.6784, 'grad_norm': 1.9433034658432007, 'learning_rate': 3.5090603257129754e-05, 'epoch': 1.49}
{'loss': 2.7437, 'grad_norm': 1.8870428800582886, 'learning_rate': 3.501414481229452e-05, 'epoch': 1.5}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.5920448303222656, 'eval_bleu': 0.4689902127850866, 'eval_rougeL': 0.905800227450117, 'eval_meteor': 0.7728055594398348, 'eval_runtime': 6.7998, 'eval_samples_per_second': 7.206, 'eval_steps_per_second': 7.206, 'epoch': 1.5}
{'loss': 2.6549, 'grad_norm': 2.1755716800689697, 'learning_rate': 3.493768636745929e-05, 'epoch': 1.51}
{'loss': 2.6199, 'grad_norm': 2.5587761402130127, 'learning_rate': 3.4861227922624056e-05, 'epoch': 1.51}
{'loss': 2.7316, 'grad_norm': 1.6085450649261475, 'learning_rate': 3.4784769477788824e-05, 'epoch': 1.52}
{'loss': 2.7283, 'grad_norm': 1.5234460830688477, 'learning_rate': 3.470831103295359e-05, 'epoch': 1.53}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.581317901611328, 'eval_bleu': 0.4904907649887434, 'eval_rougeL': 0.922679521886761, 'eval_meteor': 0.7801814329960048, 'eval_runtime': 6.7496, 'eval_samples_per_second': 7.26, 'eval_steps_per_second': 7.26, 'epoch': 1.53}
{'loss': 2.6991, 'grad_norm': 2.3510513305664062, 'learning_rate': 3.463185258811836e-05, 'epoch': 1.54}
{'loss': 2.734, 'grad_norm': 1.8158994913101196, 'learning_rate': 3.4555394143283126e-05, 'epoch': 1.54}
{'loss': 2.6402, 'grad_norm': 1.9479026794433594, 'learning_rate': 3.447893569844789e-05, 'epoch': 1.55}
{'loss': 2.6276, 'grad_norm': 1.359397530555725, 'learning_rate': 3.440247725361266e-05, 'epoch': 1.56}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.605658531188965, 'eval_bleu': 0.4921875948008757, 'eval_rougeL': 0.9154348265756951, 'eval_meteor': 0.7903673565285776, 'eval_runtime': 7.2134, 'eval_samples_per_second': 6.793, 'eval_steps_per_second': 6.793, 'epoch': 1.56}
{'loss': 2.6609, 'grad_norm': 1.627171516418457, 'learning_rate': 3.4326018808777435e-05, 'epoch': 1.57}
{'loss': 2.7758, 'grad_norm': 1.5713571310043335, 'learning_rate': 3.42495603639422e-05, 'epoch': 1.58}
{'loss': 2.6249, 'grad_norm': 1.4191747903823853, 'learning_rate': 3.417310191910696e-05, 'epoch': 1.58}
{'loss': 2.6758, 'grad_norm': 1.316880464553833, 'learning_rate': 3.409664347427173e-05, 'epoch': 1.59}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.596813678741455, 'eval_bleu': 0.4877916491325926, 'eval_rougeL': 0.9129790481661493, 'eval_meteor': 0.7713450892148093, 'eval_runtime': 6.7759, 'eval_samples_per_second': 7.232, 'eval_steps_per_second': 7.232, 'epoch': 1.59}
{'loss': 2.72, 'grad_norm': 1.3434479236602783, 'learning_rate': 3.4020185029436505e-05, 'epoch': 1.6}
{'loss': 2.6498, 'grad_norm': 1.6068097352981567, 'learning_rate': 3.394372658460127e-05, 'epoch': 1.61}
{'loss': 2.6455, 'grad_norm': 2.193693161010742, 'learning_rate': 3.386726813976604e-05, 'epoch': 1.61}
{'loss': 2.6147, 'grad_norm': 1.2248111963272095, 'learning_rate': 3.379080969493081e-05, 'epoch': 1.62}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.581665515899658, 'eval_bleu': 0.5561580481833666, 'eval_rougeL': 0.9248230920323902, 'eval_meteor': 0.8110039502037356, 'eval_runtime': 7.2459, 'eval_samples_per_second': 6.762, 'eval_steps_per_second': 6.762, 'epoch': 1.62}
{'loss': 2.7076, 'grad_norm': 1.6210321187973022, 'learning_rate': 3.3714351250095574e-05, 'epoch': 1.63}
{'loss': 2.7273, 'grad_norm': 2.082869291305542, 'learning_rate': 3.363789280526034e-05, 'epoch': 1.64}
{'loss': 2.6416, 'grad_norm': 1.5467619895935059, 'learning_rate': 3.356143436042511e-05, 'epoch': 1.64}
{'loss': 2.7017, 'grad_norm': 2.137416362762451, 'learning_rate': 3.348497591558988e-05, 'epoch': 1.65}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.5354692935943604, 'eval_bleu': 0.46836442903253395, 'eval_rougeL': 0.9173563342954265, 'eval_meteor': 0.7730889298241365, 'eval_runtime': 6.6935, 'eval_samples_per_second': 7.321, 'eval_steps_per_second': 7.321, 'epoch': 1.65}
{'loss': 2.6764, 'grad_norm': 1.7304706573486328, 'learning_rate': 3.3408517470754644e-05, 'epoch': 1.66}
{'loss': 2.6642, 'grad_norm': 1.571109652519226, 'learning_rate': 3.333205902591942e-05, 'epoch': 1.67}
{'loss': 2.6284, 'grad_norm': 1.6089189052581787, 'learning_rate': 3.3255600581084186e-05, 'epoch': 1.67}
{'loss': 2.6684, 'grad_norm': 1.7107658386230469, 'learning_rate': 3.317914213624895e-05, 'epoch': 1.68}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.5430655479431152, 'eval_bleu': 0.46021000295260744, 'eval_rougeL': 0.9183773580289758, 'eval_meteor': 0.7714889967042581, 'eval_runtime': 6.7578, 'eval_samples_per_second': 7.251, 'eval_steps_per_second': 7.251, 'epoch': 1.68}
{'loss': 2.5875, 'grad_norm': 1.6167523860931396, 'learning_rate': 3.3102683691413714e-05, 'epoch': 1.69}
{'loss': 2.7319, 'grad_norm': 1.666843056678772, 'learning_rate': 3.302622524657849e-05, 'epoch': 1.7}
{'loss': 2.6004, 'grad_norm': 2.013510227203369, 'learning_rate': 3.2949766801743256e-05, 'epoch': 1.71}
{'loss': 2.6417, 'grad_norm': 1.7699886560440063, 'learning_rate': 3.287330835690802e-05, 'epoch': 1.71}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.5200231075286865, 'eval_bleu': 0.4607454812267081, 'eval_rougeL': 0.9231339647638981, 'eval_meteor': 0.7818641515337921, 'eval_runtime': 7.1035, 'eval_samples_per_second': 6.898, 'eval_steps_per_second': 6.898, 'epoch': 1.71}
{'loss': 2.637, 'grad_norm': 2.4847121238708496, 'learning_rate': 3.279684991207279e-05, 'epoch': 1.72}
{'loss': 2.6973, 'grad_norm': 1.8726880550384521, 'learning_rate': 3.272039146723756e-05, 'epoch': 1.73}
{'loss': 2.6413, 'grad_norm': 1.6390116214752197, 'learning_rate': 3.2643933022402325e-05, 'epoch': 1.74}
{'loss': 2.6196, 'grad_norm': 1.366234302520752, 'learning_rate': 3.256747457756709e-05, 'epoch': 1.74}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.524559497833252, 'eval_bleu': 0.4650387020805638, 'eval_rougeL': 0.8906826565669341, 'eval_meteor': 0.7773972976786688, 'eval_runtime': 6.7817, 'eval_samples_per_second': 7.225, 'eval_steps_per_second': 7.225, 'epoch': 1.74}
{'loss': 2.62, 'grad_norm': 1.304332971572876, 'learning_rate': 3.249101613273186e-05, 'epoch': 1.75}
{'loss': 2.588, 'grad_norm': 1.3053977489471436, 'learning_rate': 3.241455768789663e-05, 'epoch': 1.76}
{'loss': 2.6052, 'grad_norm': 1.2741388082504272, 'learning_rate': 3.2338099243061395e-05, 'epoch': 1.77}
{'loss': 2.6721, 'grad_norm': 1.7566386461257935, 'learning_rate': 3.226164079822617e-05, 'epoch': 1.77}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.509181499481201, 'eval_bleu': 0.46920527020369746, 'eval_rougeL': 0.9075845560491491, 'eval_meteor': 0.7666327178569237, 'eval_runtime': 7.1124, 'eval_samples_per_second': 6.889, 'eval_steps_per_second': 6.889, 'epoch': 1.77}
{'loss': 2.5561, 'grad_norm': 1.1505447626113892, 'learning_rate': 3.218518235339094e-05, 'epoch': 1.78}
{'loss': 2.5189, 'grad_norm': 1.2514734268188477, 'learning_rate': 3.21087239085557e-05, 'epoch': 1.79}
{'loss': 2.5493, 'grad_norm': 1.7233014106750488, 'learning_rate': 3.2032265463720465e-05, 'epoch': 1.8}
{'loss': 2.5467, 'grad_norm': 1.518547534942627, 'learning_rate': 3.195580701888524e-05, 'epoch': 1.8}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.516277551651001, 'eval_bleu': 0.45960977879315, 'eval_rougeL': 0.9139583776036444, 'eval_meteor': 0.7493666913349742, 'eval_runtime': 6.7408, 'eval_samples_per_second': 7.269, 'eval_steps_per_second': 7.269, 'epoch': 1.8}
{'loss': 2.6209, 'grad_norm': 1.871077537536621, 'learning_rate': 3.1879348574050006e-05, 'epoch': 1.81}
{'loss': 2.6168, 'grad_norm': 1.0378683805465698, 'learning_rate': 3.1802890129214774e-05, 'epoch': 1.82}
{'loss': 2.6639, 'grad_norm': 1.6035363674163818, 'learning_rate': 3.172643168437954e-05, 'epoch': 1.83}
{'loss': 2.6717, 'grad_norm': 1.4797414541244507, 'learning_rate': 3.164997323954431e-05, 'epoch': 1.84}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.513026237487793, 'eval_bleu': 0.4603672089666855, 'eval_rougeL': 0.9016179295511682, 'eval_meteor': 0.744123276754086, 'eval_runtime': 6.6369, 'eval_samples_per_second': 7.383, 'eval_steps_per_second': 7.383, 'epoch': 1.84}
{'loss': 2.6416, 'grad_norm': 1.6157751083374023, 'learning_rate': 3.1573514794709076e-05, 'epoch': 1.84}
{'loss': 2.5409, 'grad_norm': 1.4937212467193604, 'learning_rate': 3.1497056349873844e-05, 'epoch': 1.85}
{'loss': 2.593, 'grad_norm': 2.1831486225128174, 'learning_rate': 3.142059790503861e-05, 'epoch': 1.86}
{'loss': 2.5456, 'grad_norm': 1.320237636566162, 'learning_rate': 3.134413946020338e-05, 'epoch': 1.87}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.477217197418213, 'eval_bleu': 0.46295354233685193, 'eval_rougeL': 0.9157896893361188, 'eval_meteor': 0.7647504306484887, 'eval_runtime': 7.2977, 'eval_samples_per_second': 6.714, 'eval_steps_per_second': 6.714, 'epoch': 1.87}
{'loss': 2.6453, 'grad_norm': 0.9588771462440491, 'learning_rate': 3.126768101536815e-05, 'epoch': 1.87}
{'loss': 2.6031, 'grad_norm': 1.7970720529556274, 'learning_rate': 3.119122257053292e-05, 'epoch': 1.88}
{'loss': 2.5532, 'grad_norm': 1.3501015901565552, 'learning_rate': 3.111476412569769e-05, 'epoch': 1.89}
{'loss': 2.5999, 'grad_norm': 1.1456315517425537, 'learning_rate': 3.103830568086245e-05, 'epoch': 1.9}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.4729983806610107, 'eval_bleu': 0.46662940907103473, 'eval_rougeL': 0.9190250247132002, 'eval_meteor': 0.7549762587517984, 'eval_runtime': 6.6463, 'eval_samples_per_second': 7.373, 'eval_steps_per_second': 7.373, 'epoch': 1.9}
{'loss': 2.5677, 'grad_norm': 1.980732798576355, 'learning_rate': 3.096184723602722e-05, 'epoch': 1.9}
{'loss': 2.558, 'grad_norm': 1.329827904701233, 'learning_rate': 3.088538879119199e-05, 'epoch': 1.91}
{'loss': 2.5753, 'grad_norm': 1.5860168933868408, 'learning_rate': 3.080893034635676e-05, 'epoch': 1.92}
{'loss': 2.5804, 'grad_norm': 1.7711694240570068, 'learning_rate': 3.0732471901521525e-05, 'epoch': 1.93}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.466965436935425, 'eval_bleu': 0.47967637445630046, 'eval_rougeL': 0.9145776616527539, 'eval_meteor': 0.7495331032140616, 'eval_runtime': 6.9471, 'eval_samples_per_second': 7.053, 'eval_steps_per_second': 7.053, 'epoch': 1.93}
{'loss': 2.566, 'grad_norm': 1.5203354358673096, 'learning_rate': 3.065601345668629e-05, 'epoch': 1.93}
{'loss': 2.581, 'grad_norm': 1.4379905462265015, 'learning_rate': 3.057955501185106e-05, 'epoch': 1.94}
{'loss': 2.6529, 'grad_norm': 1.5139578580856323, 'learning_rate': 3.0503096567015827e-05, 'epoch': 1.95}
{'loss': 2.4879, 'grad_norm': 2.051743984222412, 'learning_rate': 3.0426638122180594e-05, 'epoch': 1.96}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.4504265785217285, 'eval_bleu': 0.5159409833858623, 'eval_rougeL': 0.9115576883928498, 'eval_meteor': 0.7676990071625198, 'eval_runtime': 6.6658, 'eval_samples_per_second': 7.351, 'eval_steps_per_second': 7.351, 'epoch': 1.96}
{'loss': 2.5743, 'grad_norm': 1.5954866409301758, 'learning_rate': 3.0350179677345365e-05, 'epoch': 1.96}
{'loss': 2.6273, 'grad_norm': 1.4369548559188843, 'learning_rate': 3.0273721232510133e-05, 'epoch': 1.97}
{'loss': 2.5619, 'grad_norm': 1.0866743326187134, 'learning_rate': 3.01972627876749e-05, 'epoch': 1.98}
{'loss': 2.4891, 'grad_norm': 1.438583493232727, 'learning_rate': 3.012080434283967e-05, 'epoch': 1.99}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.441877841949463, 'eval_bleu': 0.49210083919484177, 'eval_rougeL': 0.9042836619895251, 'eval_meteor': 0.7776277811419486, 'eval_runtime': 7.6971, 'eval_samples_per_second': 6.366, 'eval_steps_per_second': 6.366, 'epoch': 1.99}
{'loss': 2.53, 'grad_norm': 1.5473304986953735, 'learning_rate': 3.0044345898004435e-05, 'epoch': 2.0}
{'loss': 2.6173, 'grad_norm': 1.6741944551467896, 'learning_rate': 2.9967887453169202e-05, 'epoch': 2.0}
{'loss': 2.5221, 'grad_norm': 1.5951703786849976, 'learning_rate': 2.989142900833397e-05, 'epoch': 2.01}
{'loss': 2.6397, 'grad_norm': 1.5133954286575317, 'learning_rate': 2.981497056349874e-05, 'epoch': 2.02}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.442774772644043, 'eval_bleu': 0.490921393564471, 'eval_rougeL': 0.9039676659588483, 'eval_meteor': 0.7538329566564697, 'eval_runtime': 6.9489, 'eval_samples_per_second': 7.051, 'eval_steps_per_second': 7.051, 'epoch': 2.02}
{'loss': 2.5428, 'grad_norm': 1.3193824291229248, 'learning_rate': 2.9738512118663508e-05, 'epoch': 2.03}
{'loss': 2.5228, 'grad_norm': 2.5141232013702393, 'learning_rate': 2.966205367382828e-05, 'epoch': 2.03}
{'loss': 2.5323, 'grad_norm': 1.2376282215118408, 'learning_rate': 2.9585595228993046e-05, 'epoch': 2.04}
{'loss': 2.5436, 'grad_norm': 2.1504273414611816, 'learning_rate': 2.950913678415781e-05, 'epoch': 2.05}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.4443931579589844, 'eval_bleu': 0.4818809357063592, 'eval_rougeL': 0.909110160500905, 'eval_meteor': 0.773773543802832, 'eval_runtime': 6.6366, 'eval_samples_per_second': 7.383, 'eval_steps_per_second': 7.383, 'epoch': 2.05}
{'loss': 2.4634, 'grad_norm': 1.4711570739746094, 'learning_rate': 2.9432678339322578e-05, 'epoch': 2.06}
{'loss': 2.4756, 'grad_norm': 1.4434452056884766, 'learning_rate': 2.9356219894487345e-05, 'epoch': 2.06}
{'loss': 2.5652, 'grad_norm': 2.169508934020996, 'learning_rate': 2.9279761449652116e-05, 'epoch': 2.07}
{'loss': 2.5859, 'grad_norm': 1.2600014209747314, 'learning_rate': 2.9203303004816884e-05, 'epoch': 2.08}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.441551923751831, 'eval_bleu': 0.4854650068895419, 'eval_rougeL': 0.9043210497699684, 'eval_meteor': 0.7786375154552354, 'eval_runtime': 7.7239, 'eval_samples_per_second': 6.344, 'eval_steps_per_second': 6.344, 'epoch': 2.08}
{'loss': 2.4696, 'grad_norm': 1.7279016971588135, 'learning_rate': 2.9126844559981654e-05, 'epoch': 2.09}
{'loss': 2.4954, 'grad_norm': 1.5127161741256714, 'learning_rate': 2.9050386115146422e-05, 'epoch': 2.09}
{'loss': 2.4525, 'grad_norm': 1.557689905166626, 'learning_rate': 2.8973927670311186e-05, 'epoch': 2.1}
{'loss': 2.5397, 'grad_norm': 1.7308814525604248, 'learning_rate': 2.8897469225475953e-05, 'epoch': 2.11}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.404691219329834, 'eval_bleu': 0.45677078845708435, 'eval_rougeL': 0.9158897383947184, 'eval_meteor': 0.7755215817925206, 'eval_runtime': 6.7732, 'eval_samples_per_second': 7.234, 'eval_steps_per_second': 7.234, 'epoch': 2.11}
{'loss': 2.5648, 'grad_norm': 3.0735702514648438, 'learning_rate': 2.8821010780640724e-05, 'epoch': 2.12}
{'loss': 2.4933, 'grad_norm': 1.5825070142745972, 'learning_rate': 2.874455233580549e-05, 'epoch': 2.13}
{'loss': 2.4116, 'grad_norm': 2.4348957538604736, 'learning_rate': 2.866809389097026e-05, 'epoch': 2.13}
{'loss': 2.5209, 'grad_norm': 1.882498860359192, 'learning_rate': 2.859163544613503e-05, 'epoch': 2.14}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.407602310180664, 'eval_bleu': 0.47152946395417866, 'eval_rougeL': 0.8985530403957901, 'eval_meteor': 0.7663790973821268, 'eval_runtime': 6.7859, 'eval_samples_per_second': 7.221, 'eval_steps_per_second': 7.221, 'epoch': 2.14}
{'loss': 2.4699, 'grad_norm': 2.075780153274536, 'learning_rate': 2.8515177001299797e-05, 'epoch': 2.15}
{'loss': 2.5226, 'grad_norm': 1.7674875259399414, 'learning_rate': 2.843871855646456e-05, 'epoch': 2.16}
{'loss': 2.5248, 'grad_norm': 1.5627012252807617, 'learning_rate': 2.836226011162933e-05, 'epoch': 2.16}
{'loss': 2.5283, 'grad_norm': 2.1563215255737305, 'learning_rate': 2.82858016667941e-05, 'epoch': 2.17}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.4058468341827393, 'eval_bleu': 0.4832343640475748, 'eval_rougeL': 0.9115864561981717, 'eval_meteor': 0.7671983287048695, 'eval_runtime': 7.0928, 'eval_samples_per_second': 6.908, 'eval_steps_per_second': 6.908, 'epoch': 2.17}
{'loss': 2.4478, 'grad_norm': 1.5101367235183716, 'learning_rate': 2.8209343221958867e-05, 'epoch': 2.18}
{'loss': 2.4894, 'grad_norm': 1.5071637630462646, 'learning_rate': 2.8132884777123634e-05, 'epoch': 2.19}
{'loss': 2.4118, 'grad_norm': 1.3638932704925537, 'learning_rate': 2.8056426332288405e-05, 'epoch': 2.19}
{'loss': 2.4546, 'grad_norm': 1.3853590488433838, 'learning_rate': 2.797996788745317e-05, 'epoch': 2.2}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.403792142868042, 'eval_bleu': 0.5517087899286897, 'eval_rougeL': 0.9129994641570534, 'eval_meteor': 0.8030430891447405, 'eval_runtime': 6.8642, 'eval_samples_per_second': 7.139, 'eval_steps_per_second': 7.139, 'epoch': 2.2}
{'loss': 2.5036, 'grad_norm': 1.6821378469467163, 'learning_rate': 2.7903509442617937e-05, 'epoch': 2.21}
{'loss': 2.4881, 'grad_norm': 2.4188520908355713, 'learning_rate': 2.7827050997782704e-05, 'epoch': 2.22}
{'loss': 2.4589, 'grad_norm': 1.7402629852294922, 'learning_rate': 2.7750592552947475e-05, 'epoch': 2.22}
{'loss': 2.596, 'grad_norm': 1.9607629776000977, 'learning_rate': 2.7674134108112242e-05, 'epoch': 2.23}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.4121177196502686, 'eval_bleu': 0.44850573288608775, 'eval_rougeL': 0.9090288756741739, 'eval_meteor': 0.7480549539029088, 'eval_runtime': 6.9724, 'eval_samples_per_second': 7.028, 'eval_steps_per_second': 7.028, 'epoch': 2.23}
{'loss': 2.4279, 'grad_norm': 1.3420171737670898, 'learning_rate': 2.7597675663277013e-05, 'epoch': 2.24}
{'loss': 2.4929, 'grad_norm': 1.5764695405960083, 'learning_rate': 2.752121721844178e-05, 'epoch': 2.25}
{'loss': 2.4566, 'grad_norm': 1.9366611242294312, 'learning_rate': 2.7444758773606545e-05, 'epoch': 2.26}
{'loss': 2.4872, 'grad_norm': 1.9978924989700317, 'learning_rate': 2.7368300328771312e-05, 'epoch': 2.26}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.4031972885131836, 'eval_bleu': 0.46565107301454806, 'eval_rougeL': 0.9194389148403835, 'eval_meteor': 0.7711162326493518, 'eval_runtime': 6.5573, 'eval_samples_per_second': 7.473, 'eval_steps_per_second': 7.473, 'epoch': 2.26}
{'loss': 2.4899, 'grad_norm': 2.88224196434021, 'learning_rate': 2.729184188393608e-05, 'epoch': 2.27}
{'loss': 2.5046, 'grad_norm': 3.618548631668091, 'learning_rate': 2.721538343910085e-05, 'epoch': 2.28}
{'loss': 2.4565, 'grad_norm': 2.212595224380493, 'learning_rate': 2.7138924994265618e-05, 'epoch': 2.29}
{'loss': 2.4319, 'grad_norm': 1.5221160650253296, 'learning_rate': 2.706246654943039e-05, 'epoch': 2.29}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.401266574859619, 'eval_bleu': 0.46277561278520996, 'eval_rougeL': 0.906806856400345, 'eval_meteor': 0.7623117123553296, 'eval_runtime': 6.7565, 'eval_samples_per_second': 7.252, 'eval_steps_per_second': 7.252, 'epoch': 2.29}
{'loss': 2.4349, 'grad_norm': 2.378051519393921, 'learning_rate': 2.6986008104595156e-05, 'epoch': 2.3}
{'loss': 2.5244, 'grad_norm': 1.7093900442123413, 'learning_rate': 2.690954965975992e-05, 'epoch': 2.31}
{'loss': 2.428, 'grad_norm': 1.3820438385009766, 'learning_rate': 2.6833091214924688e-05, 'epoch': 2.32}
{'loss': 2.3792, 'grad_norm': 1.3373198509216309, 'learning_rate': 2.675663277008946e-05, 'epoch': 2.32}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.386324644088745, 'eval_bleu': 0.4742445345436843, 'eval_rougeL': 0.919650275520695, 'eval_meteor': 0.7735092974872829, 'eval_runtime': 6.8578, 'eval_samples_per_second': 7.145, 'eval_steps_per_second': 7.145, 'epoch': 2.32}
{'loss': 2.4515, 'grad_norm': 2.208690881729126, 'learning_rate': 2.6680174325254226e-05, 'epoch': 2.33}
{'loss': 2.413, 'grad_norm': 1.9371874332427979, 'learning_rate': 2.6603715880418993e-05, 'epoch': 2.34}
{'loss': 2.4383, 'grad_norm': 1.527047872543335, 'learning_rate': 2.6527257435583764e-05, 'epoch': 2.35}
{'loss': 2.4443, 'grad_norm': 2.054121494293213, 'learning_rate': 2.645079899074853e-05, 'epoch': 2.35}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.392719030380249, 'eval_bleu': 0.4622948010897119, 'eval_rougeL': 0.9228348121470998, 'eval_meteor': 0.7711345688872951, 'eval_runtime': 6.6806, 'eval_samples_per_second': 7.335, 'eval_steps_per_second': 7.335, 'epoch': 2.35}
{'loss': 2.3766, 'grad_norm': 2.1560487747192383, 'learning_rate': 2.6374340545913296e-05, 'epoch': 2.36}
{'loss': 2.5004, 'grad_norm': 1.5029891729354858, 'learning_rate': 2.6297882101078063e-05, 'epoch': 2.37}
{'loss': 2.5092, 'grad_norm': 3.213430404663086, 'learning_rate': 2.6221423656242834e-05, 'epoch': 2.38}
{'loss': 2.4343, 'grad_norm': 1.8016771078109741, 'learning_rate': 2.61449652114076e-05, 'epoch': 2.39}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.377012014389038, 'eval_bleu': 0.4526990128132568, 'eval_rougeL': 0.9134560750895366, 'eval_meteor': 0.7591189784828491, 'eval_runtime': 6.7814, 'eval_samples_per_second': 7.226, 'eval_steps_per_second': 7.226, 'epoch': 2.39}
{'loss': 2.4774, 'grad_norm': 1.5619330406188965, 'learning_rate': 2.606850676657237e-05, 'epoch': 2.39}
{'loss': 2.5141, 'grad_norm': 1.492246389389038, 'learning_rate': 2.599204832173714e-05, 'epoch': 2.4}
{'loss': 2.4447, 'grad_norm': 1.6826685667037964, 'learning_rate': 2.5915589876901904e-05, 'epoch': 2.41}
{'loss': 2.466, 'grad_norm': 2.180370569229126, 'learning_rate': 2.583913143206667e-05, 'epoch': 2.42}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.37359356880188, 'eval_bleu': 0.45134180011213954, 'eval_rougeL': 0.8978257298203838, 'eval_meteor': 0.7683879714911849, 'eval_runtime': 6.6826, 'eval_samples_per_second': 7.332, 'eval_steps_per_second': 7.332, 'epoch': 2.42}
{'loss': 2.4427, 'grad_norm': 1.4459809064865112, 'learning_rate': 2.576267298723144e-05, 'epoch': 2.42}
{'loss': 2.4976, 'grad_norm': 1.433072805404663, 'learning_rate': 2.568621454239621e-05, 'epoch': 2.43}
{'loss': 2.5066, 'grad_norm': 2.772425651550293, 'learning_rate': 2.5609756097560977e-05, 'epoch': 2.44}
{'loss': 2.4518, 'grad_norm': 2.255894660949707, 'learning_rate': 2.5533297652725747e-05, 'epoch': 2.45}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.368104934692383, 'eval_bleu': 0.49303600539216497, 'eval_rougeL': 0.9166586437583646, 'eval_meteor': 0.7737385704719699, 'eval_runtime': 6.6985, 'eval_samples_per_second': 7.315, 'eval_steps_per_second': 7.315, 'epoch': 2.45}
{'loss': 2.5045, 'grad_norm': 1.6855478286743164, 'learning_rate': 2.5456839207890515e-05, 'epoch': 2.45}
{'loss': 2.4618, 'grad_norm': 2.1232221126556396, 'learning_rate': 2.538038076305528e-05, 'epoch': 2.46}
{'loss': 2.4298, 'grad_norm': 1.9923086166381836, 'learning_rate': 2.5303922318220046e-05, 'epoch': 2.47}
{'loss': 2.475, 'grad_norm': 1.9912701845169067, 'learning_rate': 2.5227463873384817e-05, 'epoch': 2.48}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.342053174972534, 'eval_bleu': 0.5092627543823669, 'eval_rougeL': 0.9012718635745478, 'eval_meteor': 0.787352131962777, 'eval_runtime': 7.1016, 'eval_samples_per_second': 6.9, 'eval_steps_per_second': 6.9, 'epoch': 2.48}
{'loss': 2.4505, 'grad_norm': 1.934519648551941, 'learning_rate': 2.5151005428549585e-05, 'epoch': 2.48}
{'loss': 2.3672, 'grad_norm': 1.0682257413864136, 'learning_rate': 2.5074546983714352e-05, 'epoch': 2.49}
{'loss': 2.3922, 'grad_norm': 2.2329626083374023, 'learning_rate': 2.499808853887912e-05, 'epoch': 2.5}
{'loss': 2.4294, 'grad_norm': 1.6397998332977295, 'learning_rate': 2.4921630094043887e-05, 'epoch': 2.51}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3471174240112305, 'eval_bleu': 0.4852814260484803, 'eval_rougeL': 0.9151692877533968, 'eval_meteor': 0.7740933800460156, 'eval_runtime': 6.6293, 'eval_samples_per_second': 7.391, 'eval_steps_per_second': 7.391, 'epoch': 2.51}
{'loss': 2.4995, 'grad_norm': 1.2007864713668823, 'learning_rate': 2.4845171649208658e-05, 'epoch': 2.52}
{'loss': 2.4462, 'grad_norm': 1.6193360090255737, 'learning_rate': 2.4768713204373425e-05, 'epoch': 2.52}
{'loss': 2.3994, 'grad_norm': 1.5331387519836426, 'learning_rate': 2.4692254759538193e-05, 'epoch': 2.53}
{'loss': 2.4939, 'grad_norm': 1.3792732954025269, 'learning_rate': 2.461579631470296e-05, 'epoch': 2.54}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.346220016479492, 'eval_bleu': 0.49201561672643057, 'eval_rougeL': 0.9078508984862783, 'eval_meteor': 0.7784024710241357, 'eval_runtime': 6.6805, 'eval_samples_per_second': 7.335, 'eval_steps_per_second': 7.335, 'epoch': 2.54}
{'loss': 2.3981, 'grad_norm': 1.6444801092147827, 'learning_rate': 2.4539337869867728e-05, 'epoch': 2.55}
{'loss': 2.4105, 'grad_norm': 1.4912009239196777, 'learning_rate': 2.4462879425032495e-05, 'epoch': 2.55}
{'loss': 2.3831, 'grad_norm': 1.3612161874771118, 'learning_rate': 2.4386420980197262e-05, 'epoch': 2.56}
{'loss': 2.4397, 'grad_norm': 1.4925435781478882, 'learning_rate': 2.4309962535362033e-05, 'epoch': 2.57}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.343552827835083, 'eval_bleu': 0.4977534689370362, 'eval_rougeL': 0.9171417775030248, 'eval_meteor': 0.7902353346896318, 'eval_runtime': 6.7191, 'eval_samples_per_second': 7.293, 'eval_steps_per_second': 7.293, 'epoch': 2.57}
{'loss': 2.4607, 'grad_norm': 1.9960399866104126, 'learning_rate': 2.4233504090526797e-05, 'epoch': 2.58}
{'loss': 2.4195, 'grad_norm': 1.4457849264144897, 'learning_rate': 2.4157045645691568e-05, 'epoch': 2.58}
{'loss': 2.3767, 'grad_norm': 2.2536404132843018, 'learning_rate': 2.4080587200856336e-05, 'epoch': 2.59}
{'loss': 2.2983, 'grad_norm': 1.483576774597168, 'learning_rate': 2.4004128756021106e-05, 'epoch': 2.6}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.334425687789917, 'eval_bleu': 0.47978864025504264, 'eval_rougeL': 0.9043132285231887, 'eval_meteor': 0.7807915219114779, 'eval_runtime': 6.6401, 'eval_samples_per_second': 7.379, 'eval_steps_per_second': 7.379, 'epoch': 2.6}
{'loss': 2.3608, 'grad_norm': 1.7374964952468872, 'learning_rate': 2.392767031118587e-05, 'epoch': 2.61}
{'loss': 2.4896, 'grad_norm': 1.6899669170379639, 'learning_rate': 2.385121186635064e-05, 'epoch': 2.61}
{'loss': 2.4767, 'grad_norm': 2.929243326187134, 'learning_rate': 2.377475342151541e-05, 'epoch': 2.62}
{'loss': 2.4058, 'grad_norm': 2.06709361076355, 'learning_rate': 2.3698294976680173e-05, 'epoch': 2.63}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.341252326965332, 'eval_bleu': 0.524734773405209, 'eval_rougeL': 0.8983688775095026, 'eval_meteor': 0.806194798042813, 'eval_runtime': 6.8293, 'eval_samples_per_second': 7.175, 'eval_steps_per_second': 7.175, 'epoch': 2.63}
{'loss': 2.409, 'grad_norm': 2.170241594314575, 'learning_rate': 2.3621836531844944e-05, 'epoch': 2.64}
{'loss': 2.4529, 'grad_norm': 1.8934866189956665, 'learning_rate': 2.354537808700971e-05, 'epoch': 2.65}
{'loss': 2.4293, 'grad_norm': 1.9439133405685425, 'learning_rate': 2.3468919642174482e-05, 'epoch': 2.65}
{'loss': 2.4376, 'grad_norm': 2.1996638774871826, 'learning_rate': 2.3392461197339246e-05, 'epoch': 2.66}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3336021900177, 'eval_bleu': 0.4762622290898501, 'eval_rougeL': 0.9081512801117716, 'eval_meteor': 0.7779806290048904, 'eval_runtime': 6.7208, 'eval_samples_per_second': 7.291, 'eval_steps_per_second': 7.291, 'epoch': 2.66}
{'loss': 2.4076, 'grad_norm': 1.778654932975769, 'learning_rate': 2.3316002752504017e-05, 'epoch': 2.67}
{'loss': 2.3858, 'grad_norm': 1.5476365089416504, 'learning_rate': 2.3239544307668784e-05, 'epoch': 2.68}
{'loss': 2.4666, 'grad_norm': 2.013498067855835, 'learning_rate': 2.316308586283355e-05, 'epoch': 2.68}
{'loss': 2.4414, 'grad_norm': 1.4624693393707275, 'learning_rate': 2.308662741799832e-05, 'epoch': 2.69}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3317368030548096, 'eval_bleu': 0.4628165109737826, 'eval_rougeL': 0.9105617635547394, 'eval_meteor': 0.7657131911272287, 'eval_runtime': 6.902, 'eval_samples_per_second': 7.099, 'eval_steps_per_second': 7.099, 'epoch': 2.69}
{'loss': 2.4195, 'grad_norm': 1.4765750169754028, 'learning_rate': 2.3010168973163086e-05, 'epoch': 2.7}
{'loss': 2.3695, 'grad_norm': 1.622639536857605, 'learning_rate': 2.2933710528327854e-05, 'epoch': 2.71}
{'loss': 2.3896, 'grad_norm': 1.195724368095398, 'learning_rate': 2.285725208349262e-05, 'epoch': 2.71}
{'loss': 2.3831, 'grad_norm': 1.542620301246643, 'learning_rate': 2.2780793638657392e-05, 'epoch': 2.72}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3158445358276367, 'eval_bleu': 0.4819785642822273, 'eval_rougeL': 0.9208315498893133, 'eval_meteor': 0.785700060256218, 'eval_runtime': 6.7661, 'eval_samples_per_second': 7.242, 'eval_steps_per_second': 7.242, 'epoch': 2.72}
{'loss': 2.452, 'grad_norm': 1.736197590827942, 'learning_rate': 2.270433519382216e-05, 'epoch': 2.73}
{'loss': 2.3771, 'grad_norm': 1.4851700067520142, 'learning_rate': 2.2627876748986927e-05, 'epoch': 2.74}
{'loss': 2.3954, 'grad_norm': 1.5304380655288696, 'learning_rate': 2.2551418304151694e-05, 'epoch': 2.74}
{'loss': 2.3441, 'grad_norm': 1.4244499206542969, 'learning_rate': 2.2474959859316462e-05, 'epoch': 2.75}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3319849967956543, 'eval_bleu': 0.47116205735964756, 'eval_rougeL': 0.9243856177741496, 'eval_meteor': 0.7803281844644254, 'eval_runtime': 7.0038, 'eval_samples_per_second': 6.996, 'eval_steps_per_second': 6.996, 'epoch': 2.75}
{'loss': 2.4013, 'grad_norm': 2.393481492996216, 'learning_rate': 2.239850141448123e-05, 'epoch': 2.76}
{'loss': 2.4419, 'grad_norm': 1.7594938278198242, 'learning_rate': 2.2322042969645997e-05, 'epoch': 2.77}
{'loss': 2.4742, 'grad_norm': 2.786273956298828, 'learning_rate': 2.2245584524810768e-05, 'epoch': 2.78}
{'loss': 2.3826, 'grad_norm': 1.1112033128738403, 'learning_rate': 2.2169126079975535e-05, 'epoch': 2.78}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3142600059509277, 'eval_bleu': 0.47360002973729004, 'eval_rougeL': 0.9173606061084756, 'eval_meteor': 0.7740097777473214, 'eval_runtime': 7.1515, 'eval_samples_per_second': 6.852, 'eval_steps_per_second': 6.852, 'epoch': 2.78}
{'loss': 2.3624, 'grad_norm': 1.1210845708847046, 'learning_rate': 2.2092667635140302e-05, 'epoch': 2.79}
{'loss': 2.412, 'grad_norm': 1.207642912864685, 'learning_rate': 2.201620919030507e-05, 'epoch': 2.8}
{'loss': 2.4113, 'grad_norm': 1.5964361429214478, 'learning_rate': 2.193975074546984e-05, 'epoch': 2.81}
{'loss': 2.3932, 'grad_norm': 1.918208122253418, 'learning_rate': 2.1863292300634605e-05, 'epoch': 2.81}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3056588172912598, 'eval_bleu': 0.542701423113599, 'eval_rougeL': 0.9202132071319056, 'eval_meteor': 0.7981354584235685, 'eval_runtime': 6.8478, 'eval_samples_per_second': 7.156, 'eval_steps_per_second': 7.156, 'epoch': 2.81}
{'loss': 2.4046, 'grad_norm': 1.655667781829834, 'learning_rate': 2.1786833855799376e-05, 'epoch': 2.82}
{'loss': 2.4144, 'grad_norm': 1.5495494604110718, 'learning_rate': 2.1710375410964143e-05, 'epoch': 2.83}
{'loss': 2.3772, 'grad_norm': 1.4921729564666748, 'learning_rate': 2.163391696612891e-05, 'epoch': 2.84}
{'loss': 2.3995, 'grad_norm': 2.235656499862671, 'learning_rate': 2.1557458521293678e-05, 'epoch': 2.84}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2975687980651855, 'eval_bleu': 0.4742828769839341, 'eval_rougeL': 0.9218828239119721, 'eval_meteor': 0.7812346292966555, 'eval_runtime': 7.0045, 'eval_samples_per_second': 6.996, 'eval_steps_per_second': 6.996, 'epoch': 2.84}
{'loss': 2.4515, 'grad_norm': 1.494827151298523, 'learning_rate': 2.1481000076458445e-05, 'epoch': 2.85}
{'loss': 2.3517, 'grad_norm': 1.3257062435150146, 'learning_rate': 2.1404541631623216e-05, 'epoch': 2.86}
{'loss': 2.5044, 'grad_norm': 2.1401731967926025, 'learning_rate': 2.132808318678798e-05, 'epoch': 2.87}
{'loss': 2.3621, 'grad_norm': 1.313795804977417, 'learning_rate': 2.125162474195275e-05, 'epoch': 2.87}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3078346252441406, 'eval_bleu': 0.48832204566631293, 'eval_rougeL': 0.9198526482275138, 'eval_meteor': 0.7833312796589784, 'eval_runtime': 6.564, 'eval_samples_per_second': 7.465, 'eval_steps_per_second': 7.465, 'epoch': 2.87}
{'loss': 2.3222, 'grad_norm': 1.3489611148834229, 'learning_rate': 2.117516629711752e-05, 'epoch': 2.88}
{'loss': 2.3843, 'grad_norm': 3.358522891998291, 'learning_rate': 2.1098707852282286e-05, 'epoch': 2.89}
{'loss': 2.3936, 'grad_norm': 2.0015504360198975, 'learning_rate': 2.1022249407447053e-05, 'epoch': 2.9}
{'loss': 2.3955, 'grad_norm': 3.0975019931793213, 'learning_rate': 2.094579096261182e-05, 'epoch': 2.91}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.306800127029419, 'eval_bleu': 0.47602204329159203, 'eval_rougeL': 0.9220525544302265, 'eval_meteor': 0.7821730455405829, 'eval_runtime': 7.0349, 'eval_samples_per_second': 6.965, 'eval_steps_per_second': 6.965, 'epoch': 2.91}
{'loss': 2.4402, 'grad_norm': 2.4812943935394287, 'learning_rate': 2.0869332517776588e-05, 'epoch': 2.91}
{'loss': 2.3937, 'grad_norm': 2.628629446029663, 'learning_rate': 2.0792874072941356e-05, 'epoch': 2.92}
{'loss': 2.4, 'grad_norm': 1.5428564548492432, 'learning_rate': 2.0716415628106126e-05, 'epoch': 2.93}
{'loss': 2.332, 'grad_norm': 2.377007484436035, 'learning_rate': 2.0639957183270894e-05, 'epoch': 2.94}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.294691324234009, 'eval_bleu': 0.5026647979757959, 'eval_rougeL': 0.9225744816653321, 'eval_meteor': 0.7909201465358371, 'eval_runtime': 6.8557, 'eval_samples_per_second': 7.147, 'eval_steps_per_second': 7.147, 'epoch': 2.94}
{'loss': 2.3242, 'grad_norm': 1.6831077337265015, 'learning_rate': 2.056349873843566e-05, 'epoch': 2.94}
{'loss': 2.3961, 'grad_norm': 1.6455005407333374, 'learning_rate': 2.048704029360043e-05, 'epoch': 2.95}
{'loss': 2.3689, 'grad_norm': 1.577657699584961, 'learning_rate': 2.04105818487652e-05, 'epoch': 2.96}
{'loss': 2.4343, 'grad_norm': 2.1895251274108887, 'learning_rate': 2.0334123403929964e-05, 'epoch': 2.97}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.306056261062622, 'eval_bleu': 0.5133940186523188, 'eval_rougeL': 0.9199762639349858, 'eval_meteor': 0.7942883661291978, 'eval_runtime': 6.8169, 'eval_samples_per_second': 7.188, 'eval_steps_per_second': 7.188, 'epoch': 2.97}
{'loss': 2.3642, 'grad_norm': 1.3680741786956787, 'learning_rate': 2.025766495909473e-05, 'epoch': 2.97}
{'loss': 2.3963, 'grad_norm': 1.9136961698532104, 'learning_rate': 2.0181206514259502e-05, 'epoch': 2.98}
{'loss': 2.3593, 'grad_norm': 1.889545202255249, 'learning_rate': 2.010474806942427e-05, 'epoch': 2.99}
{'loss': 2.3835, 'grad_norm': 2.763704538345337, 'learning_rate': 2.0028289624589037e-05, 'epoch': 3.0}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.3033905029296875, 'eval_bleu': 0.4730800035960964, 'eval_rougeL': 0.915448379419404, 'eval_meteor': 0.7684392355237604, 'eval_runtime': 6.9622, 'eval_samples_per_second': 7.038, 'eval_steps_per_second': 7.038, 'epoch': 3.0}
{'loss': 2.3524, 'grad_norm': 1.6028579473495483, 'learning_rate': 1.9951831179753804e-05, 'epoch': 3.0}
{'loss': 2.2443, 'grad_norm': 1.6911098957061768, 'learning_rate': 1.9875372734918575e-05, 'epoch': 3.01}
{'loss': 2.342, 'grad_norm': 1.6531530618667603, 'learning_rate': 1.979891429008334e-05, 'epoch': 3.02}
{'loss': 2.3537, 'grad_norm': 1.6357901096343994, 'learning_rate': 1.972245584524811e-05, 'epoch': 3.03}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2950799465179443, 'eval_bleu': 0.4759546129710525, 'eval_rougeL': 0.9125600056509886, 'eval_meteor': 0.7597232817101603, 'eval_runtime': 6.7841, 'eval_samples_per_second': 7.223, 'eval_steps_per_second': 7.223, 'epoch': 3.03}
{'loss': 2.3401, 'grad_norm': 2.1667613983154297, 'learning_rate': 1.9645997400412877e-05, 'epoch': 3.04}
{'loss': 2.2956, 'grad_norm': 1.6523007154464722, 'learning_rate': 1.9569538955577645e-05, 'epoch': 3.04}
{'loss': 2.431, 'grad_norm': 1.531481385231018, 'learning_rate': 1.9493080510742412e-05, 'epoch': 3.05}
{'loss': 2.4414, 'grad_norm': 1.5285097360610962, 'learning_rate': 1.941662206590718e-05, 'epoch': 3.06}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.281623125076294, 'eval_bleu': 0.46854308846739395, 'eval_rougeL': 0.9154264166474521, 'eval_meteor': 0.7649842379736937, 'eval_runtime': 6.6257, 'eval_samples_per_second': 7.395, 'eval_steps_per_second': 7.395, 'epoch': 3.06}
{'loss': 2.2703, 'grad_norm': 2.058969259262085, 'learning_rate': 1.934016362107195e-05, 'epoch': 3.07}
{'loss': 2.3236, 'grad_norm': 2.201932430267334, 'learning_rate': 1.9263705176236714e-05, 'epoch': 3.07}
{'loss': 2.3651, 'grad_norm': 1.735992193222046, 'learning_rate': 1.9187246731401485e-05, 'epoch': 3.08}
{'loss': 2.3169, 'grad_norm': 1.6001825332641602, 'learning_rate': 1.9110788286566253e-05, 'epoch': 3.09}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2835898399353027, 'eval_bleu': 0.4737187254055062, 'eval_rougeL': 0.910190745300556, 'eval_meteor': 0.7708858878185737, 'eval_runtime': 7.0202, 'eval_samples_per_second': 6.98, 'eval_steps_per_second': 6.98, 'epoch': 3.09}
{'loss': 2.4691, 'grad_norm': 1.4517236948013306, 'learning_rate': 1.903432984173102e-05, 'epoch': 3.1}
{'loss': 2.3013, 'grad_norm': 2.4077816009521484, 'learning_rate': 1.8957871396895788e-05, 'epoch': 3.1}
{'loss': 2.3626, 'grad_norm': 2.3101773262023926, 'learning_rate': 1.8881412952060555e-05, 'epoch': 3.11}
{'loss': 2.3995, 'grad_norm': 1.5102258920669556, 'learning_rate': 1.8804954507225326e-05, 'epoch': 3.12}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2754976749420166, 'eval_bleu': 0.4804881441984147, 'eval_rougeL': 0.8878321138983547, 'eval_meteor': 0.7723408244585199, 'eval_runtime': 6.8956, 'eval_samples_per_second': 7.106, 'eval_steps_per_second': 7.106, 'epoch': 3.12}
{'loss': 2.3446, 'grad_norm': 1.660995602607727, 'learning_rate': 1.872849606239009e-05, 'epoch': 3.13}
{'loss': 2.4009, 'grad_norm': 1.967443823814392, 'learning_rate': 1.865203761755486e-05, 'epoch': 3.13}
{'loss': 2.2809, 'grad_norm': 1.6043024063110352, 'learning_rate': 1.8575579172719628e-05, 'epoch': 3.14}
{'loss': 2.3127, 'grad_norm': 1.9481858015060425, 'learning_rate': 1.8499120727884396e-05, 'epoch': 3.15}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.267789363861084, 'eval_bleu': 0.47977198700152973, 'eval_rougeL': 0.9078357643600197, 'eval_meteor': 0.7699174066323005, 'eval_runtime': 7.1565, 'eval_samples_per_second': 6.847, 'eval_steps_per_second': 6.847, 'epoch': 3.15}
{'loss': 2.376, 'grad_norm': 2.915325880050659, 'learning_rate': 1.8422662283049163e-05, 'epoch': 3.16}
{'loss': 2.3426, 'grad_norm': 1.6030017137527466, 'learning_rate': 1.8346203838213934e-05, 'epoch': 3.17}
{'loss': 2.2285, 'grad_norm': 2.5965921878814697, 'learning_rate': 1.8269745393378698e-05, 'epoch': 3.17}
{'loss': 2.2565, 'grad_norm': 1.6228135824203491, 'learning_rate': 1.819328694854347e-05, 'epoch': 3.18}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2988228797912598, 'eval_bleu': 0.4847816806548327, 'eval_rougeL': 0.8990624404647148, 'eval_meteor': 0.7665665947959588, 'eval_runtime': 6.5865, 'eval_samples_per_second': 7.44, 'eval_steps_per_second': 7.44, 'epoch': 3.18}
{'loss': 2.3847, 'grad_norm': 1.7209622859954834, 'learning_rate': 1.8116828503708236e-05, 'epoch': 3.19}
{'loss': 2.2573, 'grad_norm': 1.8748490810394287, 'learning_rate': 1.8040370058873004e-05, 'epoch': 3.2}
{'loss': 2.2768, 'grad_norm': 1.3948578834533691, 'learning_rate': 1.796391161403777e-05, 'epoch': 3.2}
{'loss': 2.3133, 'grad_norm': 1.57156240940094, 'learning_rate': 1.788745316920254e-05, 'epoch': 3.21}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2795515060424805, 'eval_bleu': 0.47962955787287753, 'eval_rougeL': 0.901220139617644, 'eval_meteor': 0.7845793114697907, 'eval_runtime': 6.9616, 'eval_samples_per_second': 7.039, 'eval_steps_per_second': 7.039, 'epoch': 3.21}
{'loss': 2.3081, 'grad_norm': 2.28115177154541, 'learning_rate': 1.781099472436731e-05, 'epoch': 3.22}
{'loss': 2.2952, 'grad_norm': 1.851054310798645, 'learning_rate': 1.7734536279532073e-05, 'epoch': 3.23}
{'loss': 2.4241, 'grad_norm': 2.802129030227661, 'learning_rate': 1.7658077834696844e-05, 'epoch': 3.23}
{'loss': 2.4141, 'grad_norm': 1.651478886604309, 'learning_rate': 1.758161938986161e-05, 'epoch': 3.24}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2970144748687744, 'eval_bleu': 0.5079693477887892, 'eval_rougeL': 0.918610025311474, 'eval_meteor': 0.7894195553097996, 'eval_runtime': 7.1705, 'eval_samples_per_second': 6.834, 'eval_steps_per_second': 6.834, 'epoch': 3.24}
{'loss': 2.293, 'grad_norm': 1.7795909643173218, 'learning_rate': 1.750516094502638e-05, 'epoch': 3.25}
{'loss': 2.4128, 'grad_norm': 2.110111951828003, 'learning_rate': 1.7428702500191146e-05, 'epoch': 3.26}
{'loss': 2.3045, 'grad_norm': 2.414858102798462, 'learning_rate': 1.7352244055355914e-05, 'epoch': 3.26}
{'loss': 2.3179, 'grad_norm': 2.7876734733581543, 'learning_rate': 1.7275785610520685e-05, 'epoch': 3.27}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.286017656326294, 'eval_bleu': 0.5063811886122096, 'eval_rougeL': 0.919103811148597, 'eval_meteor': 0.7913528479013555, 'eval_runtime': 6.6245, 'eval_samples_per_second': 7.397, 'eval_steps_per_second': 7.397, 'epoch': 3.27}
{'loss': 2.4434, 'grad_norm': 1.5636591911315918, 'learning_rate': 1.719932716568545e-05, 'epoch': 3.28}
{'loss': 2.347, 'grad_norm': 1.9598497152328491, 'learning_rate': 1.712286872085022e-05, 'epoch': 3.29}
{'loss': 2.2907, 'grad_norm': 2.3371431827545166, 'learning_rate': 1.7046410276014987e-05, 'epoch': 3.3}
{'loss': 2.3725, 'grad_norm': 1.616086483001709, 'learning_rate': 1.6969951831179754e-05, 'epoch': 3.3}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2833127975463867, 'eval_bleu': 0.4794053923770076, 'eval_rougeL': 0.9039657457257995, 'eval_meteor': 0.7797323179155919, 'eval_runtime': 6.9985, 'eval_samples_per_second': 7.002, 'eval_steps_per_second': 7.002, 'epoch': 3.3}
{'loss': 2.259, 'grad_norm': 2.4154605865478516, 'learning_rate': 1.6893493386344522e-05, 'epoch': 3.31}
{'loss': 2.2889, 'grad_norm': 1.3731328248977661, 'learning_rate': 1.681703494150929e-05, 'epoch': 3.32}
{'loss': 2.3794, 'grad_norm': 1.5134505033493042, 'learning_rate': 1.674057649667406e-05, 'epoch': 3.33}
{'loss': 2.3835, 'grad_norm': 1.1834720373153687, 'learning_rate': 1.6664118051838824e-05, 'epoch': 3.33}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2686009407043457, 'eval_bleu': 0.4928201280641337, 'eval_rougeL': 0.8996570850177521, 'eval_meteor': 0.7812406890777719, 'eval_runtime': 6.717, 'eval_samples_per_second': 7.295, 'eval_steps_per_second': 7.295, 'epoch': 3.33}
{'loss': 2.4154, 'grad_norm': 2.0525009632110596, 'learning_rate': 1.6587659607003595e-05, 'epoch': 3.34}
{'loss': 2.3586, 'grad_norm': 2.3320229053497314, 'learning_rate': 1.6511201162168362e-05, 'epoch': 3.35}
{'loss': 2.343, 'grad_norm': 2.725886821746826, 'learning_rate': 1.643474271733313e-05, 'epoch': 3.36}
{'loss': 2.355, 'grad_norm': 1.911238431930542, 'learning_rate': 1.6358284272497897e-05, 'epoch': 3.36}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2490713596343994, 'eval_bleu': 0.47950995302489, 'eval_rougeL': 0.9171445463861834, 'eval_meteor': 0.7789586195070058, 'eval_runtime': 6.7918, 'eval_samples_per_second': 7.215, 'eval_steps_per_second': 7.215, 'epoch': 3.36}
{'loss': 2.2927, 'grad_norm': 2.6422696113586426, 'learning_rate': 1.6281825827662668e-05, 'epoch': 3.37}
{'loss': 2.305, 'grad_norm': 2.2453887462615967, 'learning_rate': 1.6205367382827432e-05, 'epoch': 3.38}
{'loss': 2.2785, 'grad_norm': 3.907202959060669, 'learning_rate': 1.6128908937992203e-05, 'epoch': 3.39}
{'loss': 2.3385, 'grad_norm': 2.2705795764923096, 'learning_rate': 1.605245049315697e-05, 'epoch': 3.39}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.259549140930176, 'eval_bleu': 0.48620511850397263, 'eval_rougeL': 0.9171770461375975, 'eval_meteor': 0.7865562194956653, 'eval_runtime': 7.3592, 'eval_samples_per_second': 6.658, 'eval_steps_per_second': 6.658, 'epoch': 3.39}
{'loss': 2.4152, 'grad_norm': 2.1973350048065186, 'learning_rate': 1.5975992048321738e-05, 'epoch': 3.4}
{'loss': 2.3355, 'grad_norm': 2.0158286094665527, 'learning_rate': 1.5899533603486505e-05, 'epoch': 3.41}
{'loss': 2.2704, 'grad_norm': 1.597915530204773, 'learning_rate': 1.5823075158651273e-05, 'epoch': 3.42}
{'loss': 2.3951, 'grad_norm': 2.672623634338379, 'learning_rate': 1.5746616713816044e-05, 'epoch': 3.43}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.277677536010742, 'eval_bleu': 0.4871005308929509, 'eval_rougeL': 0.9102977056841342, 'eval_meteor': 0.7622018713552013, 'eval_runtime': 6.8053, 'eval_samples_per_second': 7.2, 'eval_steps_per_second': 7.2, 'epoch': 3.43}
{'loss': 2.3441, 'grad_norm': 2.795130968093872, 'learning_rate': 1.5670158268980808e-05, 'epoch': 3.43}
{'loss': 2.3393, 'grad_norm': 1.4577020406723022, 'learning_rate': 1.559369982414558e-05, 'epoch': 3.44}
{'loss': 2.4318, 'grad_norm': 1.8990882635116577, 'learning_rate': 1.5517241379310346e-05, 'epoch': 3.45}
{'loss': 2.3069, 'grad_norm': 2.2941980361938477, 'learning_rate': 1.5440782934475113e-05, 'epoch': 3.46}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.275486469268799, 'eval_bleu': 0.5175362075824336, 'eval_rougeL': 0.915202560624129, 'eval_meteor': 0.7750085588434923, 'eval_runtime': 7.1009, 'eval_samples_per_second': 6.901, 'eval_steps_per_second': 6.901, 'epoch': 3.46}
{'loss': 2.3337, 'grad_norm': 2.3751935958862305, 'learning_rate': 1.536432448963988e-05, 'epoch': 3.46}
{'loss': 2.3476, 'grad_norm': 1.5811686515808105, 'learning_rate': 1.5287866044804648e-05, 'epoch': 3.47}
{'loss': 2.3733, 'grad_norm': 1.5820186138153076, 'learning_rate': 1.5211407599969419e-05, 'epoch': 3.48}
{'loss': 2.267, 'grad_norm': 2.1788406372070312, 'learning_rate': 1.5134949155134185e-05, 'epoch': 3.49}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2711129188537598, 'eval_bleu': 0.48647042950179575, 'eval_rougeL': 0.9159017216945307, 'eval_meteor': 0.7790350503637968, 'eval_runtime': 6.6864, 'eval_samples_per_second': 7.328, 'eval_steps_per_second': 7.328, 'epoch': 3.49}
{'loss': 2.2816, 'grad_norm': 1.5166187286376953, 'learning_rate': 1.5058490710298954e-05, 'epoch': 3.49}
{'loss': 2.3368, 'grad_norm': 2.7280328273773193, 'learning_rate': 1.4982032265463721e-05, 'epoch': 3.5}
{'loss': 2.3417, 'grad_norm': 1.861369252204895, 'learning_rate': 1.4905573820628489e-05, 'epoch': 3.51}
{'loss': 2.2929, 'grad_norm': 2.131964921951294, 'learning_rate': 1.4829115375793256e-05, 'epoch': 3.52}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.256761312484741, 'eval_bleu': 0.5361478155819236, 'eval_rougeL': 0.9173261204993628, 'eval_meteor': 0.8000815702055556, 'eval_runtime': 6.8643, 'eval_samples_per_second': 7.138, 'eval_steps_per_second': 7.138, 'epoch': 3.52}
{'loss': 2.2994, 'grad_norm': 2.0646748542785645, 'learning_rate': 1.4752656930958025e-05, 'epoch': 3.52}
{'loss': 2.2657, 'grad_norm': 1.4043402671813965, 'learning_rate': 1.4676198486122794e-05, 'epoch': 3.53}
{'loss': 2.2612, 'grad_norm': 1.7438040971755981, 'learning_rate': 1.459974004128756e-05, 'epoch': 3.54}
{'loss': 2.4095, 'grad_norm': 1.2782411575317383, 'learning_rate': 1.452328159645233e-05, 'epoch': 3.55}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2518022060394287, 'eval_bleu': 0.4773439133706578, 'eval_rougeL': 0.9202992918684916, 'eval_meteor': 0.7831140915749982, 'eval_runtime': 7.0184, 'eval_samples_per_second': 6.982, 'eval_steps_per_second': 6.982, 'epoch': 3.55}
{'loss': 2.4323, 'grad_norm': 1.886533260345459, 'learning_rate': 1.4446823151617098e-05, 'epoch': 3.56}
{'loss': 2.3286, 'grad_norm': 2.0575873851776123, 'learning_rate': 1.4370364706781864e-05, 'epoch': 3.56}
{'loss': 2.4196, 'grad_norm': 2.755469799041748, 'learning_rate': 1.4293906261946633e-05, 'epoch': 3.57}
{'loss': 2.3587, 'grad_norm': 2.810379981994629, 'learning_rate': 1.42174478171114e-05, 'epoch': 3.58}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2559924125671387, 'eval_bleu': 0.4666189875608529, 'eval_rougeL': 0.9178653425875165, 'eval_meteor': 0.7728995267921145, 'eval_runtime': 6.6753, 'eval_samples_per_second': 7.34, 'eval_steps_per_second': 7.34, 'epoch': 3.58}
{'loss': 2.3404, 'grad_norm': 2.1855249404907227, 'learning_rate': 1.414098937227617e-05, 'epoch': 3.59}
{'loss': 2.3387, 'grad_norm': 1.6473236083984375, 'learning_rate': 1.4064530927440936e-05, 'epoch': 3.59}
{'loss': 2.2246, 'grad_norm': 2.813368797302246, 'learning_rate': 1.3988072482605705e-05, 'epoch': 3.6}
{'loss': 2.3469, 'grad_norm': 1.9876128435134888, 'learning_rate': 1.3911614037770474e-05, 'epoch': 3.61}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2404463291168213, 'eval_bleu': 0.4759943955216958, 'eval_rougeL': 0.9117270822144878, 'eval_meteor': 0.7731200491387411, 'eval_runtime': 7.1132, 'eval_samples_per_second': 6.889, 'eval_steps_per_second': 6.889, 'epoch': 3.61}
{'loss': 2.334, 'grad_norm': 2.36580753326416, 'learning_rate': 1.383515559293524e-05, 'epoch': 3.62}
{'loss': 2.2679, 'grad_norm': 4.066869258880615, 'learning_rate': 1.3758697148100009e-05, 'epoch': 3.62}
{'loss': 2.4127, 'grad_norm': 2.1011970043182373, 'learning_rate': 1.3682238703264778e-05, 'epoch': 3.63}
{'loss': 2.3141, 'grad_norm': 3.7220969200134277, 'learning_rate': 1.3605780258429544e-05, 'epoch': 3.64}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2628626823425293, 'eval_bleu': 0.4752488035809643, 'eval_rougeL': 0.9190491428722354, 'eval_meteor': 0.7831789506066877, 'eval_runtime': 6.9337, 'eval_samples_per_second': 7.067, 'eval_steps_per_second': 7.067, 'epoch': 3.64}
{'loss': 2.3536, 'grad_norm': 2.6428074836730957, 'learning_rate': 1.3529321813594311e-05, 'epoch': 3.65}
{'loss': 2.2542, 'grad_norm': 3.0716254711151123, 'learning_rate': 1.345286336875908e-05, 'epoch': 3.65}
{'loss': 2.2996, 'grad_norm': 1.6004142761230469, 'learning_rate': 1.337640492392385e-05, 'epoch': 3.66}
{'loss': 2.3276, 'grad_norm': 1.8078033924102783, 'learning_rate': 1.3299946479088615e-05, 'epoch': 3.67}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.283313274383545, 'eval_bleu': 0.4740045924448747, 'eval_rougeL': 0.9119332605061381, 'eval_meteor': 0.7647306067757276, 'eval_runtime': 6.6673, 'eval_samples_per_second': 7.349, 'eval_steps_per_second': 7.349, 'epoch': 3.67}
{'loss': 2.1839, 'grad_norm': 1.2005969285964966, 'learning_rate': 1.3223488034253384e-05, 'epoch': 3.68}
{'loss': 2.3074, 'grad_norm': 2.4563791751861572, 'learning_rate': 1.3147029589418153e-05, 'epoch': 3.69}
{'loss': 2.3627, 'grad_norm': 2.025048017501831, 'learning_rate': 1.3070571144582919e-05, 'epoch': 3.69}
{'loss': 2.3341, 'grad_norm': 1.4768189191818237, 'learning_rate': 1.2994112699747688e-05, 'epoch': 3.7}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2704272270202637, 'eval_bleu': 0.4735813056258641, 'eval_rougeL': 0.9150889709474147, 'eval_meteor': 0.7664280408172757, 'eval_runtime': 6.9951, 'eval_samples_per_second': 7.005, 'eval_steps_per_second': 7.005, 'epoch': 3.7}
{'loss': 2.4416, 'grad_norm': 1.5691680908203125, 'learning_rate': 1.2917654254912456e-05, 'epoch': 3.71}
{'loss': 2.3031, 'grad_norm': 1.6484345197677612, 'learning_rate': 1.2841195810077223e-05, 'epoch': 3.72}
{'loss': 2.3857, 'grad_norm': 2.022524118423462, 'learning_rate': 1.276473736524199e-05, 'epoch': 3.72}
{'loss': 2.3363, 'grad_norm': 2.5601165294647217, 'learning_rate': 1.268827892040676e-05, 'epoch': 3.73}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.267402410507202, 'eval_bleu': 0.48197798030874894, 'eval_rougeL': 0.9167919994792184, 'eval_meteor': 0.7859366267415089, 'eval_runtime': 6.8105, 'eval_samples_per_second': 7.195, 'eval_steps_per_second': 7.195, 'epoch': 3.73}
{'loss': 2.3264, 'grad_norm': 1.9030590057373047, 'learning_rate': 1.2611820475571529e-05, 'epoch': 3.74}
{'loss': 2.2225, 'grad_norm': 1.77738356590271, 'learning_rate': 1.2535362030736294e-05, 'epoch': 3.75}
{'loss': 2.3466, 'grad_norm': 1.3644440174102783, 'learning_rate': 1.2458903585901064e-05, 'epoch': 3.75}
{'loss': 2.311, 'grad_norm': 2.395869016647339, 'learning_rate': 1.2382445141065831e-05, 'epoch': 3.76}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.272296905517578, 'eval_bleu': 0.48266257983072025, 'eval_rougeL': 0.9179722109422397, 'eval_meteor': 0.7795542221482219, 'eval_runtime': 6.9295, 'eval_samples_per_second': 7.071, 'eval_steps_per_second': 7.071, 'epoch': 3.76}
{'loss': 2.3126, 'grad_norm': 1.923722743988037, 'learning_rate': 1.23059866962306e-05, 'epoch': 3.77}
{'loss': 2.24, 'grad_norm': 1.4649248123168945, 'learning_rate': 1.2229528251395368e-05, 'epoch': 3.78}
{'loss': 2.2858, 'grad_norm': 3.0200884342193604, 'learning_rate': 1.2153069806560135e-05, 'epoch': 3.78}
{'loss': 2.2632, 'grad_norm': 2.355968475341797, 'learning_rate': 1.2076611361724902e-05, 'epoch': 3.79}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2779152393341064, 'eval_bleu': 0.49836651094728973, 'eval_rougeL': 0.916534199137081, 'eval_meteor': 0.784208391779039, 'eval_runtime': 6.7356, 'eval_samples_per_second': 7.275, 'eval_steps_per_second': 7.275, 'epoch': 3.79}
{'loss': 2.3595, 'grad_norm': 2.4405629634857178, 'learning_rate': 1.200015291688967e-05, 'epoch': 3.8}
{'loss': 2.3243, 'grad_norm': 1.6798732280731201, 'learning_rate': 1.1923694472054439e-05, 'epoch': 3.81}
{'loss': 2.307, 'grad_norm': 3.7236902713775635, 'learning_rate': 1.1847236027219206e-05, 'epoch': 3.82}
{'loss': 2.2914, 'grad_norm': 2.5083820819854736, 'learning_rate': 1.1770777582383976e-05, 'epoch': 3.82}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2708330154418945, 'eval_bleu': 0.4789875340510059, 'eval_rougeL': 0.9096226851913496, 'eval_meteor': 0.7586734958868789, 'eval_runtime': 6.7336, 'eval_samples_per_second': 7.277, 'eval_steps_per_second': 7.277, 'epoch': 3.82}
{'loss': 2.3185, 'grad_norm': 2.2076687812805176, 'learning_rate': 1.1694319137548743e-05, 'epoch': 3.83}
{'loss': 2.2385, 'grad_norm': 1.782677173614502, 'learning_rate': 1.1617860692713512e-05, 'epoch': 3.84}
{'loss': 2.3219, 'grad_norm': 2.0917680263519287, 'learning_rate': 1.154140224787828e-05, 'epoch': 3.85}
{'loss': 2.3012, 'grad_norm': 1.5670133829116821, 'learning_rate': 1.1464943803043047e-05, 'epoch': 3.85}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2503368854522705, 'eval_bleu': 0.4882872366415326, 'eval_rougeL': 0.9153161543966748, 'eval_meteor': 0.7693162639925211, 'eval_runtime': 7.3802, 'eval_samples_per_second': 6.639, 'eval_steps_per_second': 6.639, 'epoch': 3.85}
{'loss': 2.3718, 'grad_norm': 1.914151906967163, 'learning_rate': 1.1388485358207814e-05, 'epoch': 3.86}
{'loss': 2.262, 'grad_norm': 1.8179986476898193, 'learning_rate': 1.1312026913372582e-05, 'epoch': 3.87}
{'loss': 2.2628, 'grad_norm': 2.870354652404785, 'learning_rate': 1.1235568468537351e-05, 'epoch': 3.88}
{'loss': 2.2145, 'grad_norm': 1.4737999439239502, 'learning_rate': 1.1159110023702118e-05, 'epoch': 3.88}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2592849731445312, 'eval_bleu': 0.5105191999065123, 'eval_rougeL': 0.9091639348788341, 'eval_meteor': 0.7834145834506696, 'eval_runtime': 6.9089, 'eval_samples_per_second': 7.092, 'eval_steps_per_second': 7.092, 'epoch': 3.88}
{'loss': 2.3212, 'grad_norm': 2.612687587738037, 'learning_rate': 1.1082651578866886e-05, 'epoch': 3.89}
{'loss': 2.2504, 'grad_norm': 2.268829345703125, 'learning_rate': 1.1006193134031655e-05, 'epoch': 3.9}
{'loss': 2.2615, 'grad_norm': 2.037018299102783, 'learning_rate': 1.0929734689196422e-05, 'epoch': 3.91}
{'loss': 2.2058, 'grad_norm': 1.7373348474502563, 'learning_rate': 1.0853276244361192e-05, 'epoch': 3.91}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.24788761138916, 'eval_bleu': 0.5022627499319839, 'eval_rougeL': 0.9171883076759534, 'eval_meteor': 0.7785788867837945, 'eval_runtime': 7.2566, 'eval_samples_per_second': 6.753, 'eval_steps_per_second': 6.753, 'epoch': 3.91}
{'loss': 2.3386, 'grad_norm': 1.936589002609253, 'learning_rate': 1.0776817799525959e-05, 'epoch': 3.92}
{'loss': 2.254, 'grad_norm': 3.091546058654785, 'learning_rate': 1.0700359354690725e-05, 'epoch': 3.93}
{'loss': 2.3327, 'grad_norm': 1.8407636880874634, 'learning_rate': 1.0623900909855494e-05, 'epoch': 3.94}
{'loss': 2.324, 'grad_norm': 1.7716825008392334, 'learning_rate': 1.0547442465020261e-05, 'epoch': 3.95}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.234092950820923, 'eval_bleu': 0.4951181249879626, 'eval_rougeL': 0.9100171481252948, 'eval_meteor': 0.7697410242561066, 'eval_runtime': 6.7145, 'eval_samples_per_second': 7.298, 'eval_steps_per_second': 7.298, 'epoch': 3.95}
{'loss': 2.2547, 'grad_norm': 2.4552080631256104, 'learning_rate': 1.047098402018503e-05, 'epoch': 3.95}
{'loss': 2.2952, 'grad_norm': 2.2734012603759766, 'learning_rate': 1.0394525575349798e-05, 'epoch': 3.96}
{'loss': 2.2443, 'grad_norm': 4.380582332611084, 'learning_rate': 1.0318067130514565e-05, 'epoch': 3.97}
{'loss': 2.3052, 'grad_norm': 2.065215826034546, 'learning_rate': 1.0241608685679334e-05, 'epoch': 3.98}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2446439266204834, 'eval_bleu': 0.5195238633336097, 'eval_rougeL': 0.9130522382080053, 'eval_meteor': 0.7863959321604259, 'eval_runtime': 6.6402, 'eval_samples_per_second': 7.379, 'eval_steps_per_second': 7.379, 'epoch': 3.98}
{'loss': 2.2938, 'grad_norm': 1.436881184577942, 'learning_rate': 1.0165150240844102e-05, 'epoch': 3.98}
{'loss': 2.3102, 'grad_norm': 1.796251893043518, 'learning_rate': 1.008869179600887e-05, 'epoch': 3.99}
{'loss': 2.2263, 'grad_norm': 2.542686700820923, 'learning_rate': 1.0012233351173637e-05, 'epoch': 4.0}
{'loss': 2.2576, 'grad_norm': 2.323916435241699, 'learning_rate': 9.935774906338406e-06, 'epoch': 4.01}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.255929470062256, 'eval_bleu': 0.5067124142737514, 'eval_rougeL': 0.9096994973813928, 'eval_meteor': 0.7777444589252404, 'eval_runtime': 6.9076, 'eval_samples_per_second': 7.094, 'eval_steps_per_second': 7.094, 'epoch': 4.01}
{'loss': 2.3093, 'grad_norm': 2.2480390071868896, 'learning_rate': 9.859316461503173e-06, 'epoch': 4.01}
{'loss': 2.2872, 'grad_norm': 2.6896724700927734, 'learning_rate': 9.78285801666794e-06, 'epoch': 4.02}
{'loss': 2.2744, 'grad_norm': 2.414405584335327, 'learning_rate': 9.70639957183271e-06, 'epoch': 4.03}
{'loss': 2.3309, 'grad_norm': 2.5796313285827637, 'learning_rate': 9.629941126997477e-06, 'epoch': 4.04}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2654507160186768, 'eval_bleu': 0.47502734596115653, 'eval_rougeL': 0.9084703512592254, 'eval_meteor': 0.7635027253005405, 'eval_runtime': 7.258, 'eval_samples_per_second': 6.751, 'eval_steps_per_second': 6.751, 'epoch': 4.04}
{'loss': 2.3098, 'grad_norm': 1.5622973442077637, 'learning_rate': 9.553482682162246e-06, 'epoch': 4.04}
{'loss': 2.2931, 'grad_norm': 2.934077501296997, 'learning_rate': 9.477024237327014e-06, 'epoch': 4.05}
{'loss': 2.3232, 'grad_norm': 1.6711773872375488, 'learning_rate': 9.400565792491781e-06, 'epoch': 4.06}
{'loss': 2.3486, 'grad_norm': 2.7852625846862793, 'learning_rate': 9.324107347656549e-06, 'epoch': 4.07}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.270385503768921, 'eval_bleu': 0.48059765790023773, 'eval_rougeL': 0.905197275286983, 'eval_meteor': 0.7573172069994338, 'eval_runtime': 7.4547, 'eval_samples_per_second': 6.573, 'eval_steps_per_second': 6.573, 'epoch': 4.07}
{'loss': 2.2436, 'grad_norm': 2.0225067138671875, 'learning_rate': 9.247648902821316e-06, 'epoch': 4.08}
{'loss': 2.2933, 'grad_norm': 2.9751315116882324, 'learning_rate': 9.171190457986085e-06, 'epoch': 4.08}
{'loss': 2.3012, 'grad_norm': 3.2562196254730225, 'learning_rate': 9.094732013150853e-06, 'epoch': 4.09}
{'loss': 2.3385, 'grad_norm': 1.9642528295516968, 'learning_rate': 9.01827356831562e-06, 'epoch': 4.1}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2439634799957275, 'eval_bleu': 0.4786894859544181, 'eval_rougeL': 0.9048994152616094, 'eval_meteor': 0.7645568249719392, 'eval_runtime': 6.8335, 'eval_samples_per_second': 7.171, 'eval_steps_per_second': 7.171, 'epoch': 4.1}
{'loss': 2.2464, 'grad_norm': 2.6950058937072754, 'learning_rate': 8.94181512348039e-06, 'epoch': 4.11}
{'loss': 2.2212, 'grad_norm': 3.031526803970337, 'learning_rate': 8.865356678645157e-06, 'epoch': 4.11}
{'loss': 2.262, 'grad_norm': 2.3076441287994385, 'learning_rate': 8.788898233809926e-06, 'epoch': 4.12}
{'loss': 2.1951, 'grad_norm': 3.5319013595581055, 'learning_rate': 8.712439788974693e-06, 'epoch': 4.13}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.274116039276123, 'eval_bleu': 0.46917327787058305, 'eval_rougeL': 0.888045937805207, 'eval_meteor': 0.7619566285476718, 'eval_runtime': 6.7853, 'eval_samples_per_second': 7.221, 'eval_steps_per_second': 7.221, 'epoch': 4.13}
{'loss': 2.2427, 'grad_norm': 1.7758005857467651, 'learning_rate': 8.63598134413946e-06, 'epoch': 4.14}
{'loss': 2.3099, 'grad_norm': 3.224776268005371, 'learning_rate': 8.559522899304228e-06, 'epoch': 4.14}
{'loss': 2.2421, 'grad_norm': 1.8164036273956299, 'learning_rate': 8.483064454468996e-06, 'epoch': 4.15}
{'loss': 2.2771, 'grad_norm': 4.804043769836426, 'learning_rate': 8.406606009633765e-06, 'epoch': 4.16}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2601680755615234, 'eval_bleu': 0.4755101574620154, 'eval_rougeL': 0.8959784590010871, 'eval_meteor': 0.7750005658605408, 'eval_runtime': 7.0227, 'eval_samples_per_second': 6.977, 'eval_steps_per_second': 6.977, 'epoch': 4.16}
{'loss': 2.2729, 'grad_norm': 5.4047017097473145, 'learning_rate': 8.330147564798532e-06, 'epoch': 4.17}
{'loss': 2.2881, 'grad_norm': 5.49821662902832, 'learning_rate': 8.253689119963301e-06, 'epoch': 4.17}
{'loss': 2.2304, 'grad_norm': 4.243535995483398, 'learning_rate': 8.177230675128069e-06, 'epoch': 4.18}
{'loss': 2.2088, 'grad_norm': 2.0730092525482178, 'learning_rate': 8.100772230292836e-06, 'epoch': 4.19}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2593066692352295, 'eval_bleu': 0.4831711185404935, 'eval_rougeL': 0.9134952326491366, 'eval_meteor': 0.7824653603437853, 'eval_runtime': 6.8755, 'eval_samples_per_second': 7.127, 'eval_steps_per_second': 7.127, 'epoch': 4.19}
{'loss': 2.2704, 'grad_norm': 2.60945987701416, 'learning_rate': 8.024313785457605e-06, 'epoch': 4.2}
{'loss': 2.2886, 'grad_norm': 2.2045655250549316, 'learning_rate': 7.947855340622373e-06, 'epoch': 4.21}
{'loss': 2.2588, 'grad_norm': 3.7155814170837402, 'learning_rate': 7.87139689578714e-06, 'epoch': 4.21}
{'loss': 2.2571, 'grad_norm': 2.967238426208496, 'learning_rate': 7.794938450951908e-06, 'epoch': 4.22}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.247534990310669, 'eval_bleu': 0.4695620426188564, 'eval_rougeL': 0.8975004023733298, 'eval_meteor': 0.7626394009785634, 'eval_runtime': 7.15, 'eval_samples_per_second': 6.853, 'eval_steps_per_second': 6.853, 'epoch': 4.22}
{'loss': 2.2713, 'grad_norm': 2.6430368423461914, 'learning_rate': 7.718480006116675e-06, 'epoch': 4.23}
{'loss': 2.3037, 'grad_norm': 2.6515517234802246, 'learning_rate': 7.642021561281444e-06, 'epoch': 4.24}
{'loss': 2.2135, 'grad_norm': 2.6171181201934814, 'learning_rate': 7.5655631164462115e-06, 'epoch': 4.24}
{'loss': 2.2257, 'grad_norm': 2.5522243976593018, 'learning_rate': 7.489104671610981e-06, 'epoch': 4.25}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2556660175323486, 'eval_bleu': 0.4874330922156288, 'eval_rougeL': 0.9003121581891027, 'eval_meteor': 0.7753939529817673, 'eval_runtime': 6.7606, 'eval_samples_per_second': 7.248, 'eval_steps_per_second': 7.248, 'epoch': 4.25}
{'loss': 2.3255, 'grad_norm': 2.534714460372925, 'learning_rate': 7.412646226775747e-06, 'epoch': 4.26}
{'loss': 2.2091, 'grad_norm': 1.8846439123153687, 'learning_rate': 7.336187781940515e-06, 'epoch': 4.27}
{'loss': 2.2948, 'grad_norm': 1.7748148441314697, 'learning_rate': 7.259729337105284e-06, 'epoch': 4.27}
{'loss': 2.2028, 'grad_norm': 3.1240944862365723, 'learning_rate': 7.183270892270051e-06, 'epoch': 4.28}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2353873252868652, 'eval_bleu': 0.5095978660751075, 'eval_rougeL': 0.9149603673359341, 'eval_meteor': 0.7861849333312358, 'eval_runtime': 6.8157, 'eval_samples_per_second': 7.189, 'eval_steps_per_second': 7.189, 'epoch': 4.28}
{'loss': 2.1803, 'grad_norm': 3.18273663520813, 'learning_rate': 7.10681244743482e-06, 'epoch': 4.29}
{'loss': 2.324, 'grad_norm': 2.749671459197998, 'learning_rate': 7.030354002599587e-06, 'epoch': 4.3}
{'loss': 2.3436, 'grad_norm': 2.738584518432617, 'learning_rate': 6.953895557764356e-06, 'epoch': 4.3}
{'loss': 2.2454, 'grad_norm': 2.0896353721618652, 'learning_rate': 6.8774371129291235e-06, 'epoch': 4.31}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.263524055480957, 'eval_bleu': 0.47978634069731363, 'eval_rougeL': 0.9122576355185839, 'eval_meteor': 0.7704327331963445, 'eval_runtime': 7.2075, 'eval_samples_per_second': 6.798, 'eval_steps_per_second': 6.798, 'epoch': 4.31}
{'loss': 2.2864, 'grad_norm': 3.310047149658203, 'learning_rate': 6.800978668093891e-06, 'epoch': 4.32}
{'loss': 2.2786, 'grad_norm': 2.234086751937866, 'learning_rate': 6.724520223258659e-06, 'epoch': 4.33}
{'loss': 2.2701, 'grad_norm': 1.6102272272109985, 'learning_rate': 6.648061778423427e-06, 'epoch': 4.34}
{'loss': 2.2438, 'grad_norm': 3.632659673690796, 'learning_rate': 6.571603333588196e-06, 'epoch': 4.34}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.256204605102539, 'eval_bleu': 0.47675872548579024, 'eval_rougeL': 0.8891926578279024, 'eval_meteor': 0.763348949773381, 'eval_runtime': 6.8897, 'eval_samples_per_second': 7.112, 'eval_steps_per_second': 7.112, 'epoch': 4.34}
{'loss': 2.2566, 'grad_norm': 2.562736988067627, 'learning_rate': 6.495144888752963e-06, 'epoch': 4.35}
{'loss': 2.3152, 'grad_norm': 2.102274179458618, 'learning_rate': 6.418686443917731e-06, 'epoch': 4.36}
{'loss': 2.3361, 'grad_norm': 3.865243673324585, 'learning_rate': 6.342227999082499e-06, 'epoch': 4.37}
{'loss': 2.352, 'grad_norm': 3.3791396617889404, 'learning_rate': 6.265769554247266e-06, 'epoch': 4.37}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.251938581466675, 'eval_bleu': 0.4918584690620625, 'eval_rougeL': 0.8808102396841131, 'eval_meteor': 0.759355697653948, 'eval_runtime': 6.9117, 'eval_samples_per_second': 7.089, 'eval_steps_per_second': 7.089, 'epoch': 4.37}
{'loss': 2.2243, 'grad_norm': 2.6214771270751953, 'learning_rate': 6.189311109412035e-06, 'epoch': 4.38}
{'loss': 2.2414, 'grad_norm': 3.7105886936187744, 'learning_rate': 6.112852664576803e-06, 'epoch': 4.39}
{'loss': 2.231, 'grad_norm': 2.013430118560791, 'learning_rate': 6.036394219741571e-06, 'epoch': 4.4}
{'loss': 2.2734, 'grad_norm': 4.237607002258301, 'learning_rate': 5.959935774906339e-06, 'epoch': 4.4}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2587099075317383, 'eval_bleu': 0.48398804989009975, 'eval_rougeL': 0.9014029963578265, 'eval_meteor': 0.7735241177702816, 'eval_runtime': 6.826, 'eval_samples_per_second': 7.178, 'eval_steps_per_second': 7.178, 'epoch': 4.4}
{'loss': 2.2846, 'grad_norm': 2.5423755645751953, 'learning_rate': 5.883477330071106e-06, 'epoch': 4.41}
{'loss': 2.2508, 'grad_norm': 1.9785327911376953, 'learning_rate': 5.807018885235874e-06, 'epoch': 4.42}
{'loss': 2.2754, 'grad_norm': 1.9326082468032837, 'learning_rate': 5.730560440400643e-06, 'epoch': 4.43}
{'loss': 2.2612, 'grad_norm': 1.8069932460784912, 'learning_rate': 5.65410199556541e-06, 'epoch': 4.43}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.240786075592041, 'eval_bleu': 0.4729641195693339, 'eval_rougeL': 0.9072508652809501, 'eval_meteor': 0.7721526501079035, 'eval_runtime': 7.0165, 'eval_samples_per_second': 6.984, 'eval_steps_per_second': 6.984, 'epoch': 4.43}
{'loss': 2.2516, 'grad_norm': 2.673679828643799, 'learning_rate': 5.577643550730178e-06, 'epoch': 4.44}
{'loss': 2.2805, 'grad_norm': 2.407381772994995, 'learning_rate': 5.501185105894947e-06, 'epoch': 4.45}
{'loss': 2.3054, 'grad_norm': 2.7400763034820557, 'learning_rate': 5.424726661059714e-06, 'epoch': 4.46}
{'loss': 2.3003, 'grad_norm': 3.501579761505127, 'learning_rate': 5.348268216224482e-06, 'epoch': 4.47}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2406790256500244, 'eval_bleu': 0.4918278403399068, 'eval_rougeL': 0.9045114773266967, 'eval_meteor': 0.7736739315943322, 'eval_runtime': 6.9425, 'eval_samples_per_second': 7.058, 'eval_steps_per_second': 7.058, 'epoch': 4.47}
{'loss': 2.2973, 'grad_norm': 3.4199609756469727, 'learning_rate': 5.27180977138925e-06, 'epoch': 4.47}
{'loss': 2.3368, 'grad_norm': 3.4176793098449707, 'learning_rate': 5.195351326554018e-06, 'epoch': 4.48}
{'loss': 2.2795, 'grad_norm': 3.543945789337158, 'learning_rate': 5.118892881718786e-06, 'epoch': 4.49}
{'loss': 2.2616, 'grad_norm': 1.638073444366455, 'learning_rate': 5.042434436883554e-06, 'epoch': 4.5}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2460789680480957, 'eval_bleu': 0.4743034834484745, 'eval_rougeL': 0.9131337044870104, 'eval_meteor': 0.7737243482631542, 'eval_runtime': 6.9146, 'eval_samples_per_second': 7.086, 'eval_steps_per_second': 7.086, 'epoch': 4.5}
{'loss': 2.2298, 'grad_norm': 2.0788846015930176, 'learning_rate': 4.965975992048322e-06, 'epoch': 4.5}
{'loss': 2.3276, 'grad_norm': 2.6297073364257812, 'learning_rate': 4.8895175472130895e-06, 'epoch': 4.51}
{'loss': 2.2577, 'grad_norm': 2.7788589000701904, 'learning_rate': 4.813059102377858e-06, 'epoch': 4.52}
{'loss': 2.1874, 'grad_norm': 1.7295677661895752, 'learning_rate': 4.736600657542626e-06, 'epoch': 4.53}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2546792030334473, 'eval_bleu': 0.5111916816809559, 'eval_rougeL': 0.9114096692297209, 'eval_meteor': 0.7772955819130074, 'eval_runtime': 7.3911, 'eval_samples_per_second': 6.63, 'eval_steps_per_second': 6.63, 'epoch': 4.53}
{'loss': 2.1608, 'grad_norm': 4.832370281219482, 'learning_rate': 4.660142212707394e-06, 'epoch': 4.53}
{'loss': 2.3313, 'grad_norm': 3.476832628250122, 'learning_rate': 4.583683767872162e-06, 'epoch': 4.54}
{'loss': 2.1958, 'grad_norm': 1.8210381269454956, 'learning_rate': 4.507225323036929e-06, 'epoch': 4.55}
{'loss': 2.265, 'grad_norm': 3.282683849334717, 'learning_rate': 4.4307668782016975e-06, 'epoch': 4.56}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2407686710357666, 'eval_bleu': 0.4802025554400579, 'eval_rougeL': 0.909239194037825, 'eval_meteor': 0.7598870772491645, 'eval_runtime': 6.8366, 'eval_samples_per_second': 7.167, 'eval_steps_per_second': 7.167, 'epoch': 4.56}
{'loss': 2.274, 'grad_norm': 1.4811381101608276, 'learning_rate': 4.354308433366466e-06, 'epoch': 4.56}
{'loss': 2.2953, 'grad_norm': 2.686685800552368, 'learning_rate': 4.277849988531234e-06, 'epoch': 4.57}
{'loss': 2.2994, 'grad_norm': 2.1736412048339844, 'learning_rate': 4.2013915436960015e-06, 'epoch': 4.58}
{'loss': 2.1849, 'grad_norm': 6.194000244140625, 'learning_rate': 4.124933098860769e-06, 'epoch': 4.59}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.24908447265625, 'eval_bleu': 0.48265999574073293, 'eval_rougeL': 0.9108591522985032, 'eval_meteor': 0.7625110537695621, 'eval_runtime': 6.8947, 'eval_samples_per_second': 7.107, 'eval_steps_per_second': 7.107, 'epoch': 4.59}
{'loss': 2.2652, 'grad_norm': 3.1922688484191895, 'learning_rate': 4.048474654025537e-06, 'epoch': 4.6}
{'loss': 2.2439, 'grad_norm': 2.223416328430176, 'learning_rate': 3.9720162091903055e-06, 'epoch': 4.6}
{'loss': 2.2534, 'grad_norm': 2.033038854598999, 'learning_rate': 3.895557764355073e-06, 'epoch': 4.61}
{'loss': 2.2121, 'grad_norm': 2.684631824493408, 'learning_rate': 3.819099319519841e-06, 'epoch': 4.62}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.240687847137451, 'eval_bleu': 0.46895159255667257, 'eval_rougeL': 0.904828854895569, 'eval_meteor': 0.7659446615297603, 'eval_runtime': 7.6984, 'eval_samples_per_second': 6.365, 'eval_steps_per_second': 6.365, 'epoch': 4.62}
{'loss': 2.258, 'grad_norm': 3.167816400527954, 'learning_rate': 3.7426408746846087e-06, 'epoch': 4.63}
{'loss': 2.1523, 'grad_norm': 2.4230239391326904, 'learning_rate': 3.666182429849377e-06, 'epoch': 4.63}
{'loss': 2.2267, 'grad_norm': 3.087183952331543, 'learning_rate': 3.589723985014145e-06, 'epoch': 4.64}
{'loss': 2.2451, 'grad_norm': 4.847938060760498, 'learning_rate': 3.513265540178913e-06, 'epoch': 4.65}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.235185146331787, 'eval_bleu': 0.48296541304262763, 'eval_rougeL': 0.9115685346636495, 'eval_meteor': 0.7674092911916554, 'eval_runtime': 6.8867, 'eval_samples_per_second': 7.115, 'eval_steps_per_second': 7.115, 'epoch': 4.65}
{'loss': 2.253, 'grad_norm': 3.2115371227264404, 'learning_rate': 3.436807095343681e-06, 'epoch': 4.66}
{'loss': 2.2104, 'grad_norm': 1.7563650608062744, 'learning_rate': 3.3603486505084492e-06, 'epoch': 4.66}
{'loss': 2.2159, 'grad_norm': 4.027603626251221, 'learning_rate': 3.2838902056732167e-06, 'epoch': 4.67}
{'loss': 2.2311, 'grad_norm': 3.3561055660247803, 'learning_rate': 3.2074317608379845e-06, 'epoch': 4.68}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2316458225250244, 'eval_bleu': 0.47079240763167, 'eval_rougeL': 0.9103081048289693, 'eval_meteor': 0.7665496964835946, 'eval_runtime': 7.4384, 'eval_samples_per_second': 6.587, 'eval_steps_per_second': 6.587, 'epoch': 4.68}
{'loss': 2.1929, 'grad_norm': 7.488455295562744, 'learning_rate': 3.130973316002753e-06, 'epoch': 4.69}
{'loss': 2.2386, 'grad_norm': 6.648645401000977, 'learning_rate': 3.0545148711675207e-06, 'epoch': 4.69}
{'loss': 2.2561, 'grad_norm': 2.4773998260498047, 'learning_rate': 2.9780564263322885e-06, 'epoch': 4.7}
{'loss': 2.2932, 'grad_norm': 3.512568473815918, 'learning_rate': 2.9015979814970564e-06, 'epoch': 4.71}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.238769292831421, 'eval_bleu': 0.48030126552822305, 'eval_rougeL': 0.909423607823242, 'eval_meteor': 0.7610562291443567, 'eval_runtime': 6.9564, 'eval_samples_per_second': 7.044, 'eval_steps_per_second': 7.044, 'epoch': 4.71}
{'loss': 2.2097, 'grad_norm': 3.2513909339904785, 'learning_rate': 2.8251395366618242e-06, 'epoch': 4.72}
{'loss': 2.1945, 'grad_norm': 3.485164165496826, 'learning_rate': 2.7486810918265925e-06, 'epoch': 4.73}
{'loss': 2.2746, 'grad_norm': 3.948415756225586, 'learning_rate': 2.6722226469913604e-06, 'epoch': 4.73}
{'loss': 2.2422, 'grad_norm': 4.243136882781982, 'learning_rate': 2.5957642021561282e-06, 'epoch': 4.74}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.237421751022339, 'eval_bleu': 0.4827246582050536, 'eval_rougeL': 0.9111535714995564, 'eval_meteor': 0.7673503994371149, 'eval_runtime': 6.872, 'eval_samples_per_second': 7.13, 'eval_steps_per_second': 7.13, 'epoch': 4.74}
{'loss': 2.1705, 'grad_norm': 2.015651226043701, 'learning_rate': 2.519305757320896e-06, 'epoch': 4.75}
{'loss': 2.1659, 'grad_norm': 1.7746391296386719, 'learning_rate': 2.4428473124856644e-06, 'epoch': 4.76}
{'loss': 2.2121, 'grad_norm': 1.6040576696395874, 'learning_rate': 2.366388867650432e-06, 'epoch': 4.76}
{'loss': 2.2817, 'grad_norm': 2.406752109527588, 'learning_rate': 2.2899304228152e-06, 'epoch': 4.77}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.235713243484497, 'eval_bleu': 0.48192686832727066, 'eval_rougeL': 0.9105931051345154, 'eval_meteor': 0.7689519207410043, 'eval_runtime': 6.891, 'eval_samples_per_second': 7.111, 'eval_steps_per_second': 7.111, 'epoch': 4.77}
{'loss': 2.255, 'grad_norm': 2.066418409347534, 'learning_rate': 2.213471977979968e-06, 'epoch': 4.78}
{'loss': 2.2214, 'grad_norm': 3.007866859436035, 'learning_rate': 2.137013533144736e-06, 'epoch': 4.79}
{'loss': 2.2442, 'grad_norm': 1.9271551370620728, 'learning_rate': 2.060555088309504e-06, 'epoch': 4.79}
{'loss': 2.2875, 'grad_norm': 2.929960250854492, 'learning_rate': 1.984096643474272e-06, 'epoch': 4.8}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.238835096359253, 'eval_bleu': 0.48259918997906814, 'eval_rougeL': 0.9121306020145141, 'eval_meteor': 0.7661218534872409, 'eval_runtime': 6.8233, 'eval_samples_per_second': 7.181, 'eval_steps_per_second': 7.181, 'epoch': 4.8}
{'loss': 2.3223, 'grad_norm': 4.8588433265686035, 'learning_rate': 1.90763819863904e-06, 'epoch': 4.81}
{'loss': 2.2996, 'grad_norm': 2.868243455886841, 'learning_rate': 1.8311797538038079e-06, 'epoch': 4.82}
{'loss': 2.3458, 'grad_norm': 2.5577392578125, 'learning_rate': 1.7547213089685755e-06, 'epoch': 4.82}
{'loss': 2.2346, 'grad_norm': 4.886215686798096, 'learning_rate': 1.6782628641333436e-06, 'epoch': 4.83}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2288978099823, 'eval_bleu': 0.47790909026995176, 'eval_rougeL': 0.9034466538065706, 'eval_meteor': 0.7641382236106556, 'eval_runtime': 7.2262, 'eval_samples_per_second': 6.781, 'eval_steps_per_second': 6.781, 'epoch': 4.83}
{'loss': 2.2548, 'grad_norm': 1.6198755502700806, 'learning_rate': 1.6018044192981117e-06, 'epoch': 4.84}
{'loss': 2.2743, 'grad_norm': 3.081012010574341, 'learning_rate': 1.5253459744628795e-06, 'epoch': 4.85}
{'loss': 2.2353, 'grad_norm': 2.5746636390686035, 'learning_rate': 1.4488875296276474e-06, 'epoch': 4.86}
{'loss': 2.233, 'grad_norm': 1.8493144512176514, 'learning_rate': 1.3724290847924154e-06, 'epoch': 4.86}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.234642267227173, 'eval_bleu': 0.49277164665995205, 'eval_rougeL': 0.9093245068634246, 'eval_meteor': 0.7706366125684142, 'eval_runtime': 6.9721, 'eval_samples_per_second': 7.028, 'eval_steps_per_second': 7.028, 'epoch': 4.86}
{'loss': 2.2112, 'grad_norm': 4.683573246002197, 'learning_rate': 1.2959706399571833e-06, 'epoch': 4.87}
{'loss': 2.2435, 'grad_norm': 2.7509989738464355, 'learning_rate': 1.2195121951219514e-06, 'epoch': 4.88}
{'loss': 2.2649, 'grad_norm': 5.229780673980713, 'learning_rate': 1.1430537502867192e-06, 'epoch': 4.89}
{'loss': 2.2074, 'grad_norm': 2.6537554264068604, 'learning_rate': 1.066595305451487e-06, 'epoch': 4.89}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2395427227020264, 'eval_bleu': 0.47739110335535434, 'eval_rougeL': 0.9033861718518532, 'eval_meteor': 0.7636984013536458, 'eval_runtime': 6.6842, 'eval_samples_per_second': 7.331, 'eval_steps_per_second': 7.331, 'epoch': 4.89}
{'loss': 2.2267, 'grad_norm': 3.8525819778442383, 'learning_rate': 9.901368606162552e-07, 'epoch': 4.9}
{'loss': 2.2311, 'grad_norm': 2.5252790451049805, 'learning_rate': 9.136784157810231e-07, 'epoch': 4.91}
{'loss': 2.1991, 'grad_norm': 2.6704487800598145, 'learning_rate': 8.37219970945791e-07, 'epoch': 4.92}
{'loss': 2.1688, 'grad_norm': 4.663092136383057, 'learning_rate': 7.607615261105589e-07, 'epoch': 4.92}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.238682985305786, 'eval_bleu': 0.487269518641171, 'eval_rougeL': 0.9092768143802331, 'eval_meteor': 0.7659927855418399, 'eval_runtime': 7.0451, 'eval_samples_per_second': 6.955, 'eval_steps_per_second': 6.955, 'epoch': 4.92}
{'loss': 2.2213, 'grad_norm': 2.439105272293091, 'learning_rate': 6.843030812753269e-07, 'epoch': 4.93}
{'loss': 2.2862, 'grad_norm': 1.6689049005508423, 'learning_rate': 6.078446364400949e-07, 'epoch': 4.94}
{'loss': 2.2601, 'grad_norm': 4.916207313537598, 'learning_rate': 5.313861916048627e-07, 'epoch': 4.95}
{'loss': 2.2884, 'grad_norm': 2.7182729244232178, 'learning_rate': 4.5492774676963075e-07, 'epoch': 4.95}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.2341341972351074, 'eval_bleu': 0.4789667476042025, 'eval_rougeL': 0.9078740202741424, 'eval_meteor': 0.7599495052651202, 'eval_runtime': 6.8282, 'eval_samples_per_second': 7.176, 'eval_steps_per_second': 7.176, 'epoch': 4.95}
{'loss': 2.2242, 'grad_norm': 4.966334342956543, 'learning_rate': 3.7846930193439866e-07, 'epoch': 4.96}
{'loss': 2.1812, 'grad_norm': 1.9314008951187134, 'learning_rate': 3.020108570991666e-07, 'epoch': 4.97}
{'loss': 2.3406, 'grad_norm': 1.3739429712295532, 'learning_rate': 2.2555241226393456e-07, 'epoch': 4.98}
{'loss': 2.2205, 'grad_norm': 2.0979034900665283, 'learning_rate': 1.490939674287025e-07, 'epoch': 4.99}


  0%|          | 0/49 [00:00<?, ?it/s]

{'eval_loss': 2.23445200920105, 'eval_bleu': 0.47993253913064643, 'eval_rougeL': 0.9082375627318844, 'eval_meteor': 0.7630960246725509, 'eval_runtime': 7.4669, 'eval_samples_per_second': 6.562, 'eval_steps_per_second': 6.562, 'epoch': 4.99}
{'loss': 2.3731, 'grad_norm': 2.86311411857605, 'learning_rate': 7.263552259347045e-08, 'epoch': 4.99}
{'train_runtime': 31382.8829, 'train_samples_per_second': 8.335, 'train_steps_per_second': 2.084, 'train_loss': 2.841464596930716, 'epoch': 5.0}


TrainOutput(global_step=65395, training_loss=2.841464596930716, metrics={'train_runtime': 31382.8829, 'train_samples_per_second': 8.335, 'train_steps_per_second': 2.084, 'total_flos': 0.0, 'train_loss': 2.841464596930716, 'epoch': 5.0})

In [None]:
def print_sample_predictions(model, tokenizer, dataset, num_samples=5):
    model.eval()  # Set model to evaluation mode
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    model.to(device)

    for i in range(min(num_samples, len(dataset))):
        sample = dataset[i]
        input_ids = sample["input_ids"].unsqueeze(0).to(device)
        attention_mask = sample["attention_mask"].unsqueeze(0).to(device)

        with torch.no_grad():
            outputs = model(input_ids=input_ids, attention_mask=attention_mask)
            predictions = torch.argmax(outputs["logits"], dim=-1)

        # Decode input and output text
        input_text = tokenizer.decode(sample["input_ids"], skip_special_tokens=True)
        predicted_text = tokenizer.decode(predictions[0], skip_special_tokens=True)

        print(f"Sample {i+1}:")
        print("Vulnerable Code:")
        print(input_text)
        print("\nPredicted Fixed Code:")
        print(predicted_text)
        print("="*80)

# Call the function to print predictions
print_sample_predictions(model, tokenizer, val_dataset, num_samples=30)


Sample 1:
Vulnerable Code:
public void METHOD_1 ( TYPE_1 item ) { VAR_1 . METHOD_2 ( ) ; for ( int i = 0 ; i < ( VAR_2 . METHOD_3 ( ) ) ; i ++ ) { if ( VAR_2 . METHOD_4 ( i ) . equals ( item ) ) { VAR_1 . METHOD_5 ( i ) . METHOD_6 ( true ) ; } else { VAR_1 . METHOD_5 ( i ) . METHOD_6 ( false ) ; } } }


Predicted Fixed Code:
public void METHOD_1 ( TYPE_1 item ) { VAR_1 . METHOD_2 ( ) ; for ( int i = 0 ; i < ( VAR_2 . METHOD_3 ( ) ) ; i ++ ) { if ( VAR_2 . METHOD_4 ( i ) . equals ( item ) ) { VAR_1 . METHOD_5 ( i ) . METHOD_6 ( true ) ; } else { VAR_1 . METHOD_5 ( i ) . METHOD_6 ( false ) ; } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } }
Sample 2:
Vulnerable Code:
public boolean METHOD_1 ( final TYPE_1 VAR_1 ) { if ( VAR_2 ) { TYPE_2 VAR_3 = new TYPE_2 ( VAR_4 , VA