In [1]:
import numpy as np
import datasets 
from datasets import load_dataset
from accelerate import Accelerator
import torch
from torch.utils.data.dataloader import DataLoader
import transformers
from transformers import (
    AutoTokenizer,
    CONFIG_MAPPING,
    MODEL_MAPPING,
    AdamW,
    AutoConfig,
    AutoModelForSeq2SeqLM,
    DataCollatorForSeq2Seq,
    default_data_collator,
    get_scheduler,
    set_seed,
)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [2]:
dataset = load_dataset("json", data_files="train.json")
dataset_test = load_dataset("json", data_files="test.json")
dataset_eval = load_dataset("json", data_files="eval.json")
dataset['eval'] = dataset_eval['train']
dataset['test'] = dataset_test['train']
dataset
mt5_tokenizer = AutoTokenizer.from_pretrained("google/mt5-small")

Found cached dataset json (C:/Users/KevinChou/.cache/huggingface/datasets/json/default-c28acd79c90df9df/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


  0%|          | 0/1 [00:00<?, ?it/s]

Found cached dataset json (C:/Users/KevinChou/.cache/huggingface/datasets/json/default-c1d957cf7d7b7168/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


  0%|          | 0/1 [00:00<?, ?it/s]

Found cached dataset json (C:/Users/KevinChou/.cache/huggingface/datasets/json/default-656e565e73707297/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


  0%|          | 0/1 [00:00<?, ?it/s]



In [3]:
def tokenize_sample_data(data):
  # Max token size is 14536 and 215 for inputs and labels, respectively.
  # Here I restrict these token size.
  input_feature = mt5_tokenizer(data["article"], truncation=True, max_length=256)
  label = mt5_tokenizer(data["title"], truncation=True, max_length=64)
  return {
    "input_ids": input_feature["input_ids"],
    "attention_mask": input_feature["attention_mask"],
    "labels": label["input_ids"],
  }

tokenized_ds = dataset.map(
  tokenize_sample_data,
  remove_columns=["id", "title", "url", "article"],
  batched=True,
  batch_size=128)

tokenized_ds

Loading cached processed dataset at C:\Users\KevinChou\.cache\huggingface\datasets\json\default-c28acd79c90df9df\0.0.0\e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4\cache-d2e7ffa472b639b7.arrow


Map:   0%|          | 0/3777 [00:00<?, ? examples/s]

Loading cached processed dataset at C:\Users\KevinChou\.cache\huggingface\datasets\json\default-c1d957cf7d7b7168\0.0.0\e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4\cache-47b297e28f804521.arrow


DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 30221
    })
    eval: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 3777
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 3777
    })
})

In [4]:
# see https://huggingface.co/docs/transformers/main_classes/configuration
mt5_config = AutoConfig.from_pretrained(
  "google/mt5-small",
  max_length=128,
  length_penalty=0.6,
  no_repeat_ngram_size=2,
  num_beams=15,
)
model = (AutoModelForSeq2SeqLM
         .from_pretrained("google/mt5-small", config=mt5_config)
         .to(device))

In [5]:

data_collator = DataCollatorForSeq2Seq(
  mt5_tokenizer,
  model=model,
  return_tensors="pt")

In [6]:
import evaluate
import numpy as np
from nltk.tokenize import RegexpTokenizer

rouge_metric = evaluate.load("rouge")

# define function for custom tokenization
def tokenize_sentence(arg):
  encoded_arg = mt5_tokenizer(arg)
  return mt5_tokenizer.convert_ids_to_tokens(encoded_arg.input_ids)

# define function to get ROUGE scores with custom tokenization
def metrics_func(eval_arg):
  preds, labels = eval_arg
  # Replace -100
  labels = np.where(labels != -100, labels, mt5_tokenizer.pad_token_id)
  # Convert id tokens to text
  text_preds = mt5_tokenizer.batch_decode(preds, skip_special_tokens=True)
  text_labels = mt5_tokenizer.batch_decode(labels, skip_special_tokens=True)
  # Insert a line break (\n) in each sentence for ROUGE scoring
  # (Note : Please change this code, when you perform on other languages except for Japanese)
  text_preds = [(p if p.endswith(("!", "！", "?", "？", "。")) else p + "。") for p in text_preds]
  text_labels = [(l if l.endswith(("!", "！", "?", "？", "。")) else l + "。") for l in text_labels]
  sent_tokenizer_tw = RegexpTokenizer(u'[^!！?？。]*[!！?？。]')
  text_preds = ["\n".join(np.char.strip(sent_tokenizer_tw.tokenize(p))) for p in text_preds]
  text_labels = ["\n".join(np.char.strip(sent_tokenizer_tw.tokenize(l))) for l in text_labels]
  # compute ROUGE score with custom tokenization
  return rouge_metric.compute(
    predictions=text_preds,
    references=text_labels,
    tokenizer=tokenize_sentence
  )

In [7]:
from torch.utils.data import DataLoader

sample_dataloader = DataLoader(
  tokenized_ds["test"].with_format("torch"),
  collate_fn=data_collator,
  batch_size=5)
for batch in sample_dataloader:
  with torch.no_grad():
    preds = model.generate(
      batch["input_ids"].to(device),
      num_beams=15,
      num_return_sequences=1,
      no_repeat_ngram_size=1,
      remove_invalid_values=True,
      max_length=128,
    )
  labels = batch["labels"]
  break

metrics_func([preds, labels])

You're using a T5TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'rouge1': 0.1353822393822394,
 'rouge2': 0.06066053511705686,
 'rougeL': 0.13491165114694526,
 'rougeLsum': 0.1339625344195403}

In [8]:
from transformers import Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments(
  output_dir = "mt5-summarize-tw",
  log_level = "error",
  num_train_epochs = 10,
  learning_rate = 5e-4,
  lr_scheduler_type = "linear",
  warmup_steps = 90,
  optim = "adafactor",
  weight_decay = 0.01,
  per_device_train_batch_size = 2,
  per_device_eval_batch_size = 1,
  gradient_accumulation_steps = 16,
  evaluation_strategy = "steps",
  eval_steps = 100,
  predict_with_generate=True,
  generation_max_length = 128,
  save_steps = 500,
  logging_steps = 10,
  push_to_hub = False
)

In [9]:
from transformers import Seq2SeqTrainer
trainer = Seq2SeqTrainer(
  model = model,
  args = training_args,
  data_collator = data_collator,
  compute_metrics = metrics_func,
  train_dataset = tokenized_ds["train"],
  eval_dataset = tokenized_ds["eval"].select(range(20)),
  tokenizer = mt5_tokenizer,
)

trainer.train()

  0%|          | 0/9440 [00:00<?, ?it/s]

{'loss': 22.0758, 'learning_rate': 5.555555555555555e-05, 'epoch': 0.01}
{'loss': 17.5624, 'learning_rate': 0.0001111111111111111, 'epoch': 0.02}
{'loss': 11.9687, 'learning_rate': 0.00016666666666666666, 'epoch': 0.03}
{'loss': 8.6245, 'learning_rate': 0.0002222222222222222, 'epoch': 0.04}
{'loss': 7.0345, 'learning_rate': 0.0002777777777777778, 'epoch': 0.05}
{'loss': 6.1489, 'learning_rate': 0.0003333333333333333, 'epoch': 0.06}
{'loss': 5.7781, 'learning_rate': 0.0003888888888888889, 'epoch': 0.07}
{'loss': 5.5156, 'learning_rate': 0.0004444444444444444, 'epoch': 0.08}
{'loss': 5.1996, 'learning_rate': 0.0005, 'epoch': 0.1}
{'loss': 4.9822, 'learning_rate': 0.0004994652406417112, 'epoch': 0.11}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 4.09685754776001, 'eval_rouge1': 0.3410369928508299, 'eval_rouge2': 0.16781601279675154, 'eval_rougeL': 0.31374166261696534, 'eval_rougeLsum': 0.31380862534484477, 'eval_runtime': 8.8043, 'eval_samples_per_second': 2.272, 'eval_steps_per_second': 2.272, 'epoch': 0.11}
{'loss': 5.07, 'learning_rate': 0.0004989304812834225, 'epoch': 0.12}
{'loss': 4.9996, 'learning_rate': 0.0004983957219251337, 'epoch': 0.13}
{'loss': 4.7466, 'learning_rate': 0.000497860962566845, 'epoch': 0.14}
{'loss': 4.7188, 'learning_rate': 0.0004973262032085562, 'epoch': 0.15}
{'loss': 4.5726, 'learning_rate': 0.0004967914438502674, 'epoch': 0.16}
{'loss': 4.487, 'learning_rate': 0.0004962566844919787, 'epoch': 0.17}
{'loss': 4.539, 'learning_rate': 0.0004957219251336899, 'epoch': 0.18}
{'loss': 4.4689, 'learning_rate': 0.0004951871657754011, 'epoch': 0.19}
{'loss': 4.4616, 'learning_rate': 0.0004946524064171123, 'epoch': 0.2}
{'loss': 4.4107, 'learning_rate': 0.0004941176470588236, 'epoch': 0.21}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.707651138305664, 'eval_rouge1': 0.3724511116682154, 'eval_rouge2': 0.19162017867505676, 'eval_rougeL': 0.3429523895787173, 'eval_rougeLsum': 0.34872667318273115, 'eval_runtime': 10.9808, 'eval_samples_per_second': 1.821, 'eval_steps_per_second': 1.821, 'epoch': 0.21}
{'loss': 4.3719, 'learning_rate': 0.0004935828877005348, 'epoch': 0.22}
{'loss': 4.3514, 'learning_rate': 0.000493048128342246, 'epoch': 0.23}
{'loss': 4.3621, 'learning_rate': 0.0004925133689839572, 'epoch': 0.24}
{'loss': 4.2632, 'learning_rate': 0.0004919786096256685, 'epoch': 0.25}
{'loss': 4.2765, 'learning_rate': 0.0004914438502673797, 'epoch': 0.26}
{'loss': 4.6563, 'learning_rate': 0.0004909090909090909, 'epoch': 0.28}
{'loss': 5.0425, 'learning_rate': 0.0004903743315508021, 'epoch': 0.29}
{'loss': 4.5792, 'learning_rate': 0.0004898395721925134, 'epoch': 0.3}
{'loss': 4.2252, 'learning_rate': 0.0004893048128342246, 'epoch': 0.31}
{'loss': 4.292, 'learning_rate': 0.0004887700534759358, 'epoch': 0.32}

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.705935001373291, 'eval_rouge1': 0.429446192450185, 'eval_rouge2': 0.2273267699513237, 'eval_rougeL': 0.3827933026291863, 'eval_rougeLsum': 0.38904114730202444, 'eval_runtime': 9.9814, 'eval_samples_per_second': 2.004, 'eval_steps_per_second': 2.004, 'epoch': 0.32}
{'loss': 4.1415, 'learning_rate': 0.00048823529411764707, 'epoch': 0.33}
{'loss': 4.2136, 'learning_rate': 0.00048770053475935825, 'epoch': 0.34}
{'loss': 4.1717, 'learning_rate': 0.00048716577540106954, 'epoch': 0.35}
{'loss': 4.1355, 'learning_rate': 0.0004866310160427808, 'epoch': 0.36}
{'loss': 4.0905, 'learning_rate': 0.00048609625668449196, 'epoch': 0.37}
{'loss': 4.2119, 'learning_rate': 0.0004855614973262032, 'epoch': 0.38}
{'loss': 4.1558, 'learning_rate': 0.0004850267379679145, 'epoch': 0.39}
{'loss': 4.0827, 'learning_rate': 0.00048449197860962566, 'epoch': 0.4}
{'loss': 4.0821, 'learning_rate': 0.0004839572192513369, 'epoch': 0.41}
{'loss': 4.1052, 'learning_rate': 0.00048342245989304813, 'epoch': 

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.4954960346221924, 'eval_rouge1': 0.459479905660963, 'eval_rouge2': 0.25003611216116395, 'eval_rougeL': 0.38071086137053, 'eval_rougeLsum': 0.3921774388143459, 'eval_runtime': 11.6914, 'eval_samples_per_second': 1.711, 'eval_steps_per_second': 1.711, 'epoch': 0.42}
{'loss': 4.1653, 'learning_rate': 0.00048288770053475937, 'epoch': 0.43}
{'loss': 3.9562, 'learning_rate': 0.0004823529411764706, 'epoch': 0.44}
{'loss': 4.0059, 'learning_rate': 0.00048181818181818184, 'epoch': 0.46}
{'loss': 3.9706, 'learning_rate': 0.000481283422459893, 'epoch': 0.47}
{'loss': 4.0386, 'learning_rate': 0.0004807486631016043, 'epoch': 0.48}
{'loss': 4.0049, 'learning_rate': 0.00048021390374331554, 'epoch': 0.49}
{'loss': 3.9858, 'learning_rate': 0.0004796791443850267, 'epoch': 0.5}
{'loss': 3.9872, 'learning_rate': 0.00047914438502673796, 'epoch': 0.51}
{'loss': 3.927, 'learning_rate': 0.00047860962566844924, 'epoch': 0.52}
{'loss': 3.8524, 'learning_rate': 0.0004780748663101604, 'epoch': 0.5

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.492560625076294, 'eval_rouge1': 0.4455708977748125, 'eval_rouge2': 0.23940574052294206, 'eval_rougeL': 0.36209976697830804, 'eval_rougeLsum': 0.38504281110567, 'eval_runtime': 12.5704, 'eval_samples_per_second': 1.591, 'eval_steps_per_second': 1.591, 'epoch': 0.53}
{'loss': 3.9329, 'learning_rate': 0.00047754010695187166, 'epoch': 0.54}
{'loss': 3.9102, 'learning_rate': 0.0004770053475935829, 'epoch': 0.55}
{'loss': 3.9467, 'learning_rate': 0.0004764705882352941, 'epoch': 0.56}
{'loss': 3.8586, 'learning_rate': 0.00047593582887700537, 'epoch': 0.57}
{'loss': 3.8586, 'learning_rate': 0.0004754010695187166, 'epoch': 0.58}
{'loss': 3.8945, 'learning_rate': 0.0004748663101604278, 'epoch': 0.59}
{'loss': 3.8363, 'learning_rate': 0.000474331550802139, 'epoch': 0.6}
{'loss': 3.865, 'learning_rate': 0.0004737967914438503, 'epoch': 0.61}
{'loss': 3.8896, 'learning_rate': 0.0004732620320855615, 'epoch': 0.62}
{'loss': 3.9406, 'learning_rate': 0.0004727272727272727, 'epoch': 0.64}

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.386044979095459, 'eval_rouge1': 0.4077723819224671, 'eval_rouge2': 0.2103566887304747, 'eval_rougeL': 0.34640446527003077, 'eval_rougeLsum': 0.36524849918316354, 'eval_runtime': 11.4491, 'eval_samples_per_second': 1.747, 'eval_steps_per_second': 1.747, 'epoch': 0.64}
{'loss': 3.8805, 'learning_rate': 0.00047219251336898396, 'epoch': 0.65}
{'loss': 3.7136, 'learning_rate': 0.0004716577540106952, 'epoch': 0.66}
{'loss': 3.8171, 'learning_rate': 0.0004711229946524064, 'epoch': 0.67}
{'loss': 3.7433, 'learning_rate': 0.00047058823529411766, 'epoch': 0.68}
{'loss': 3.8414, 'learning_rate': 0.00047005347593582884, 'epoch': 0.69}
{'loss': 3.8123, 'learning_rate': 0.00046951871657754013, 'epoch': 0.7}
{'loss': 3.7702, 'learning_rate': 0.00046898395721925136, 'epoch': 0.71}
{'loss': 3.7999, 'learning_rate': 0.00046844919786096255, 'epoch': 0.72}
{'loss': 3.8298, 'learning_rate': 0.0004679144385026738, 'epoch': 0.73}
{'loss': 3.8397, 'learning_rate': 0.00046737967914438507, 'epoc

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.3495922088623047, 'eval_rouge1': 0.47017803166263417, 'eval_rouge2': 0.26667806087864876, 'eval_rougeL': 0.4006654993153028, 'eval_rougeLsum': 0.42247028271772835, 'eval_runtime': 12.7676, 'eval_samples_per_second': 1.566, 'eval_steps_per_second': 1.566, 'epoch': 0.74}
{'loss': 3.7127, 'learning_rate': 0.0004668449197860963, 'epoch': 0.75}
{'loss': 3.745, 'learning_rate': 0.0004663101604278075, 'epoch': 0.76}
{'loss': 3.7763, 'learning_rate': 0.0004657754010695187, 'epoch': 0.77}
{'loss': 3.7699, 'learning_rate': 0.00046524064171123, 'epoch': 0.78}
{'loss': 3.7621, 'learning_rate': 0.0004647058823529412, 'epoch': 0.79}
{'loss': 3.7776, 'learning_rate': 0.0004641711229946524, 'epoch': 0.8}
{'loss': 3.684, 'learning_rate': 0.00046363636363636366, 'epoch': 0.82}
{'loss': 3.6957, 'learning_rate': 0.00046310160427807484, 'epoch': 0.83}
{'loss': 3.6981, 'learning_rate': 0.00046256684491978613, 'epoch': 0.84}
{'loss': 3.6993, 'learning_rate': 0.00046203208556149736, 'epoch': 0

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.3237125873565674, 'eval_rouge1': 0.46741388344173646, 'eval_rouge2': 0.25685970375215594, 'eval_rougeL': 0.37832479603026853, 'eval_rougeLsum': 0.3968948516559868, 'eval_runtime': 12.2317, 'eval_samples_per_second': 1.635, 'eval_steps_per_second': 1.635, 'epoch': 0.85}
{'loss': 3.7152, 'learning_rate': 0.00046149732620320855, 'epoch': 0.86}
{'loss': 3.7238, 'learning_rate': 0.0004609625668449198, 'epoch': 0.87}
{'loss': 3.7572, 'learning_rate': 0.00046042780748663107, 'epoch': 0.88}
{'loss': 3.5674, 'learning_rate': 0.00045989304812834225, 'epoch': 0.89}
{'loss': 3.6575, 'learning_rate': 0.0004593582887700535, 'epoch': 0.9}
{'loss': 3.7414, 'learning_rate': 0.0004588235294117647, 'epoch': 0.91}
{'loss': 3.6473, 'learning_rate': 0.00045828877005347595, 'epoch': 0.92}
{'loss': 3.7273, 'learning_rate': 0.0004577540106951872, 'epoch': 0.93}
{'loss': 3.7185, 'learning_rate': 0.0004572192513368984, 'epoch': 0.94}
{'loss': 3.7494, 'learning_rate': 0.0004566844919786096, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.326223373413086, 'eval_rouge1': 0.4406481973714143, 'eval_rouge2': 0.24840242082659686, 'eval_rougeL': 0.3641254878767205, 'eval_rougeLsum': 0.38679525680903865, 'eval_runtime': 12.5174, 'eval_samples_per_second': 1.598, 'eval_steps_per_second': 1.598, 'epoch': 0.95}
{'loss': 3.7387, 'learning_rate': 0.0004561497326203209, 'epoch': 0.96}
{'loss': 3.6716, 'learning_rate': 0.00045561497326203213, 'epoch': 0.97}
{'loss': 3.6086, 'learning_rate': 0.0004550802139037433, 'epoch': 0.98}
{'loss': 3.6781, 'learning_rate': 0.00045454545454545455, 'epoch': 1.0}
{'loss': 3.6307, 'learning_rate': 0.00045401069518716583, 'epoch': 1.01}
{'loss': 3.5403, 'learning_rate': 0.000453475935828877, 'epoch': 1.02}
{'loss': 3.476, 'learning_rate': 0.00045294117647058825, 'epoch': 1.03}
{'loss': 3.5991, 'learning_rate': 0.0004524064171122995, 'epoch': 1.04}
{'loss': 3.4874, 'learning_rate': 0.00045187165775401067, 'epoch': 1.05}
{'loss': 3.5797, 'learning_rate': 0.00045133689839572195, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.2619433403015137, 'eval_rouge1': 0.491393195013625, 'eval_rouge2': 0.29131930663759087, 'eval_rougeL': 0.40060362949400996, 'eval_rougeLsum': 0.44696598147025124, 'eval_runtime': 11.4025, 'eval_samples_per_second': 1.754, 'eval_steps_per_second': 1.754, 'epoch': 1.06}
{'loss': 3.5707, 'learning_rate': 0.0004508021390374332, 'epoch': 1.07}
{'loss': 3.5174, 'learning_rate': 0.00045026737967914437, 'epoch': 1.08}
{'loss': 3.6205, 'learning_rate': 0.0004497326203208556, 'epoch': 1.09}
{'loss': 3.5459, 'learning_rate': 0.0004491978609625669, 'epoch': 1.1}
{'loss': 3.472, 'learning_rate': 0.0004486631016042781, 'epoch': 1.11}
{'loss': 3.4262, 'learning_rate': 0.0004481283422459893, 'epoch': 1.12}
{'loss': 3.5342, 'learning_rate': 0.00044759358288770054, 'epoch': 1.13}
{'loss': 3.5349, 'learning_rate': 0.0004470588235294118, 'epoch': 1.14}
{'loss': 3.4527, 'learning_rate': 0.000446524064171123, 'epoch': 1.15}
{'loss': 3.5654, 'learning_rate': 0.00044598930481283425, 'epoch': 1

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.2723724842071533, 'eval_rouge1': 0.42777186451069094, 'eval_rouge2': 0.222507727175197, 'eval_rougeL': 0.3750520973485231, 'eval_rougeLsum': 0.3874733691773907, 'eval_runtime': 12.0966, 'eval_samples_per_second': 1.653, 'eval_steps_per_second': 1.653, 'epoch': 1.16}
{'loss': 3.5808, 'learning_rate': 0.00044545454545454543, 'epoch': 1.18}
{'loss': 3.4367, 'learning_rate': 0.0004449197860962567, 'epoch': 1.19}
{'loss': 3.5137, 'learning_rate': 0.00044438502673796795, 'epoch': 1.2}
{'loss': 3.5307, 'learning_rate': 0.00044385026737967914, 'epoch': 1.21}
{'loss': 3.4504, 'learning_rate': 0.00044331550802139037, 'epoch': 1.22}
{'loss': 3.4928, 'learning_rate': 0.00044278074866310166, 'epoch': 1.23}
{'loss': 3.4926, 'learning_rate': 0.00044224598930481284, 'epoch': 1.24}
{'loss': 3.5146, 'learning_rate': 0.0004417112299465241, 'epoch': 1.25}
{'loss': 3.4505, 'learning_rate': 0.0004411764705882353, 'epoch': 1.26}
{'loss': 3.4494, 'learning_rate': 0.0004406417112299465, 'epoch'

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.211811065673828, 'eval_rouge1': 0.44223479492745243, 'eval_rouge2': 0.23686967014159566, 'eval_rougeL': 0.3655411634658379, 'eval_rougeLsum': 0.3937721979105548, 'eval_runtime': 12.5563, 'eval_samples_per_second': 1.593, 'eval_steps_per_second': 1.593, 'epoch': 1.27}
{'loss': 3.5015, 'learning_rate': 0.0004401069518716578, 'epoch': 1.28}
{'loss': 3.3928, 'learning_rate': 0.000439572192513369, 'epoch': 1.29}
{'loss': 3.5252, 'learning_rate': 0.0004390374331550802, 'epoch': 1.3}
{'loss': 3.5089, 'learning_rate': 0.00043850267379679143, 'epoch': 1.31}
{'loss': 3.5371, 'learning_rate': 0.0004379679144385027, 'epoch': 1.32}
{'loss': 3.4041, 'learning_rate': 0.0004374331550802139, 'epoch': 1.33}
{'loss': 3.4198, 'learning_rate': 0.00043689839572192513, 'epoch': 1.34}
{'loss': 3.4929, 'learning_rate': 0.00043636363636363637, 'epoch': 1.36}
{'loss': 3.4431, 'learning_rate': 0.0004358288770053476, 'epoch': 1.37}
{'loss': 3.4363, 'learning_rate': 0.00043529411764705884, 'epoch': 

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.2084853649139404, 'eval_rouge1': 0.4905779848827002, 'eval_rouge2': 0.27606669757800434, 'eval_rougeL': 0.39851556181627656, 'eval_rougeLsum': 0.4306923595286799, 'eval_runtime': 11.839, 'eval_samples_per_second': 1.689, 'eval_steps_per_second': 1.689, 'epoch': 1.38}
{'loss': 3.4805, 'learning_rate': 0.0004347593582887701, 'epoch': 1.39}
{'loss': 3.4573, 'learning_rate': 0.00043422459893048126, 'epoch': 1.4}
{'loss': 3.4549, 'learning_rate': 0.00043368983957219254, 'epoch': 1.41}
{'loss': 3.501, 'learning_rate': 0.0004331550802139038, 'epoch': 1.42}
{'loss': 3.4273, 'learning_rate': 0.00043262032085561496, 'epoch': 1.43}
{'loss': 3.4647, 'learning_rate': 0.0004320855614973262, 'epoch': 1.44}
{'loss': 3.3206, 'learning_rate': 0.0004315508021390375, 'epoch': 1.45}
{'loss': 3.4004, 'learning_rate': 0.00043101604278074866, 'epoch': 1.46}
{'loss': 3.5176, 'learning_rate': 0.0004304812834224599, 'epoch': 1.47}
{'loss': 3.4453, 'learning_rate': 0.00042994652406417113, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.223653793334961, 'eval_rouge1': 0.5002774097553526, 'eval_rouge2': 0.2859331426277604, 'eval_rougeL': 0.4047647620859217, 'eval_rougeLsum': 0.44202856718869743, 'eval_runtime': 11.7678, 'eval_samples_per_second': 1.7, 'eval_steps_per_second': 1.7, 'epoch': 1.48}
{'loss': 3.4962, 'learning_rate': 0.0004294117647058823, 'epoch': 1.49}
{'loss': 3.3561, 'learning_rate': 0.0004288770053475936, 'epoch': 1.5}
{'loss': 3.5082, 'learning_rate': 0.00042834224598930484, 'epoch': 1.51}
{'loss': 3.4936, 'learning_rate': 0.000427807486631016, 'epoch': 1.52}
{'loss': 3.4316, 'learning_rate': 0.00042727272727272726, 'epoch': 1.54}
{'loss': 3.3981, 'learning_rate': 0.00042673796791443854, 'epoch': 1.55}
{'loss': 3.5219, 'learning_rate': 0.0004262032085561497, 'epoch': 1.56}
{'loss': 3.5628, 'learning_rate': 0.00042566844919786096, 'epoch': 1.57}
{'loss': 3.4184, 'learning_rate': 0.0004251336898395722, 'epoch': 1.58}
{'loss': 3.4604, 'learning_rate': 0.00042459893048128343, 'epoch': 1.59

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.1952550411224365, 'eval_rouge1': 0.4809770592599091, 'eval_rouge2': 0.264762735950158, 'eval_rougeL': 0.3976858194005093, 'eval_rougeLsum': 0.4132998019402948, 'eval_runtime': 11.5843, 'eval_samples_per_second': 1.726, 'eval_steps_per_second': 1.726, 'epoch': 1.59}
{'loss': 3.566, 'learning_rate': 0.00042406417112299466, 'epoch': 1.6}
{'loss': 3.4745, 'learning_rate': 0.0004235294117647059, 'epoch': 1.61}
{'loss': 3.4478, 'learning_rate': 0.0004229946524064171, 'epoch': 1.62}
{'loss': 3.4668, 'learning_rate': 0.00042245989304812837, 'epoch': 1.63}
{'loss': 3.4947, 'learning_rate': 0.0004219251336898396, 'epoch': 1.64}
{'loss': 3.4123, 'learning_rate': 0.0004213903743315508, 'epoch': 1.65}
{'loss': 3.4406, 'learning_rate': 0.000420855614973262, 'epoch': 1.66}
{'loss': 3.4114, 'learning_rate': 0.0004203208556149733, 'epoch': 1.67}
{'loss': 3.3955, 'learning_rate': 0.0004197860962566845, 'epoch': 1.68}
{'loss': 3.5299, 'learning_rate': 0.0004192513368983957, 'epoch': 1.69}

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.1494297981262207, 'eval_rouge1': 0.4480541350818046, 'eval_rouge2': 0.2421824750441447, 'eval_rougeL': 0.38369355318149884, 'eval_rougeLsum': 0.40810693939989395, 'eval_runtime': 11.632, 'eval_samples_per_second': 1.719, 'eval_steps_per_second': 1.719, 'epoch': 1.69}
{'loss': 3.3197, 'learning_rate': 0.00041871657754010696, 'epoch': 1.7}
{'loss': 3.4202, 'learning_rate': 0.00041818181818181814, 'epoch': 1.72}
{'loss': 3.4482, 'learning_rate': 0.00041764705882352943, 'epoch': 1.73}
{'loss': 3.4482, 'learning_rate': 0.00041711229946524066, 'epoch': 1.74}
{'loss': 3.4058, 'learning_rate': 0.00041657754010695185, 'epoch': 1.75}
{'loss': 3.4622, 'learning_rate': 0.0004160427807486631, 'epoch': 1.76}
{'loss': 3.3296, 'learning_rate': 0.00041550802139037437, 'epoch': 1.77}
{'loss': 3.2873, 'learning_rate': 0.00041497326203208555, 'epoch': 1.78}
{'loss': 3.4492, 'learning_rate': 0.0004144385026737968, 'epoch': 1.79}
{'loss': 3.3888, 'learning_rate': 0.000413903743315508, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.208630084991455, 'eval_rouge1': 0.4718677932779304, 'eval_rouge2': 0.2621142273115319, 'eval_rougeL': 0.40519314223693614, 'eval_rougeLsum': 0.43898501478651136, 'eval_runtime': 11.4561, 'eval_samples_per_second': 1.746, 'eval_steps_per_second': 1.746, 'epoch': 1.8}
{'loss': 3.3971, 'learning_rate': 0.00041336898395721925, 'epoch': 1.81}
{'loss': 3.3112, 'learning_rate': 0.0004128342245989305, 'epoch': 1.82}
{'loss': 3.5077, 'learning_rate': 0.0004122994652406417, 'epoch': 1.83}
{'loss': 3.4179, 'learning_rate': 0.0004117647058823529, 'epoch': 1.84}
{'loss': 3.4927, 'learning_rate': 0.0004112299465240642, 'epoch': 1.85}
{'loss': 3.505, 'learning_rate': 0.00041069518716577543, 'epoch': 1.86}
{'loss': 3.4783, 'learning_rate': 0.0004101604278074866, 'epoch': 1.87}
{'loss': 3.3401, 'learning_rate': 0.00040962566844919784, 'epoch': 1.88}
{'loss': 3.4214, 'learning_rate': 0.00040909090909090913, 'epoch': 1.9}
{'loss': 3.329, 'learning_rate': 0.0004085561497326203, 'epoch': 1.

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.1481404304504395, 'eval_rouge1': 0.49936445818746744, 'eval_rouge2': 0.2743642681018943, 'eval_rougeL': 0.41561121362069775, 'eval_rougeLsum': 0.43523664581508736, 'eval_runtime': 12.4039, 'eval_samples_per_second': 1.612, 'eval_steps_per_second': 1.612, 'epoch': 1.91}
{'loss': 3.3408, 'learning_rate': 0.00040802139037433155, 'epoch': 1.92}
{'loss': 3.4391, 'learning_rate': 0.0004074866310160428, 'epoch': 1.93}
{'loss': 3.3994, 'learning_rate': 0.00040695187165775397, 'epoch': 1.94}
{'loss': 3.3265, 'learning_rate': 0.00040641711229946525, 'epoch': 1.95}
{'loss': 3.381, 'learning_rate': 0.0004058823529411765, 'epoch': 1.96}
{'loss': 3.3352, 'learning_rate': 0.00040534759358288767, 'epoch': 1.97}
{'loss': 3.3435, 'learning_rate': 0.0004048128342245989, 'epoch': 1.98}
{'loss': 3.43, 'learning_rate': 0.0004042780748663102, 'epoch': 1.99}
{'loss': 3.3572, 'learning_rate': 0.00040374331550802143, 'epoch': 2.0}
{'loss': 3.2663, 'learning_rate': 0.0004032085561497326, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.185957908630371, 'eval_rouge1': 0.48550683700095154, 'eval_rouge2': 0.26819434124933406, 'eval_rougeL': 0.3884268135188933, 'eval_rougeLsum': 0.43719091554740713, 'eval_runtime': 12.0742, 'eval_samples_per_second': 1.656, 'eval_steps_per_second': 1.656, 'epoch': 2.01}
{'loss': 3.2431, 'learning_rate': 0.00040267379679144384, 'epoch': 2.02}
{'loss': 3.2187, 'learning_rate': 0.00040213903743315513, 'epoch': 2.03}
{'loss': 3.2034, 'learning_rate': 0.0004016042780748663, 'epoch': 2.04}
{'loss': 3.2357, 'learning_rate': 0.00040106951871657755, 'epoch': 2.05}
{'loss': 3.2012, 'learning_rate': 0.0004005347593582888, 'epoch': 2.06}
{'loss': 3.192, 'learning_rate': 0.0004, 'epoch': 2.08}
{'loss': 3.2531, 'learning_rate': 0.00039946524064171125, 'epoch': 2.09}
{'loss': 3.2554, 'learning_rate': 0.0003989304812834225, 'epoch': 2.1}
{'loss': 3.2413, 'learning_rate': 0.00039839572192513367, 'epoch': 2.11}
{'loss': 3.1969, 'learning_rate': 0.00039786096256684496, 'epoch': 2.12}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.141610622406006, 'eval_rouge1': 0.46560183797600363, 'eval_rouge2': 0.266494414562335, 'eval_rougeL': 0.39847518336691445, 'eval_rougeLsum': 0.4235694773596052, 'eval_runtime': 12.0498, 'eval_samples_per_second': 1.66, 'eval_steps_per_second': 1.66, 'epoch': 2.12}
{'loss': 3.3338, 'learning_rate': 0.0003973262032085562, 'epoch': 2.13}
{'loss': 3.2524, 'learning_rate': 0.0003967914438502674, 'epoch': 2.14}
{'loss': 3.2177, 'learning_rate': 0.0003962566844919786, 'epoch': 2.15}
{'loss': 3.2192, 'learning_rate': 0.0003957219251336899, 'epoch': 2.16}
{'loss': 3.301, 'learning_rate': 0.0003951871657754011, 'epoch': 2.17}
{'loss': 3.2444, 'learning_rate': 0.0003946524064171123, 'epoch': 2.18}
{'loss': 3.1084, 'learning_rate': 0.00039411764705882355, 'epoch': 2.19}
{'loss': 3.2057, 'learning_rate': 0.00039358288770053473, 'epoch': 2.2}
{'loss': 3.2097, 'learning_rate': 0.000393048128342246, 'epoch': 2.21}
{'loss': 3.2123, 'learning_rate': 0.00039251336898395725, 'epoch': 2.22}

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.115687131881714, 'eval_rouge1': 0.464529119037604, 'eval_rouge2': 0.23971577109271341, 'eval_rougeL': 0.38344209403877116, 'eval_rougeLsum': 0.4260764240794047, 'eval_runtime': 11.6157, 'eval_samples_per_second': 1.722, 'eval_steps_per_second': 1.722, 'epoch': 2.22}
{'loss': 3.2441, 'learning_rate': 0.00039197860962566843, 'epoch': 2.23}
{'loss': 3.3048, 'learning_rate': 0.00039144385026737967, 'epoch': 2.24}
{'loss': 3.1652, 'learning_rate': 0.00039090909090909096, 'epoch': 2.26}
{'loss': 3.2478, 'learning_rate': 0.00039037433155080214, 'epoch': 2.27}
{'loss': 3.2611, 'learning_rate': 0.0003898395721925134, 'epoch': 2.28}
{'loss': 3.2398, 'learning_rate': 0.0003893048128342246, 'epoch': 2.29}
{'loss': 3.2069, 'learning_rate': 0.00038877005347593584, 'epoch': 2.3}
{'loss': 3.1603, 'learning_rate': 0.0003882352941176471, 'epoch': 2.31}
{'loss': 3.1567, 'learning_rate': 0.0003877005347593583, 'epoch': 2.32}
{'loss': 3.2154, 'learning_rate': 0.0003871657754010695, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.125539541244507, 'eval_rouge1': 0.4972744350089372, 'eval_rouge2': 0.28532191738140456, 'eval_rougeL': 0.4148339182799511, 'eval_rougeLsum': 0.4583991557116597, 'eval_runtime': 11.1678, 'eval_samples_per_second': 1.791, 'eval_steps_per_second': 1.791, 'epoch': 2.33}
{'loss': 3.3389, 'learning_rate': 0.0003866310160427808, 'epoch': 2.34}
{'loss': 3.2911, 'learning_rate': 0.000386096256684492, 'epoch': 2.35}
{'loss': 3.1759, 'learning_rate': 0.0003855614973262032, 'epoch': 2.36}
{'loss': 3.3479, 'learning_rate': 0.00038502673796791443, 'epoch': 2.37}
{'loss': 3.2463, 'learning_rate': 0.0003844919786096257, 'epoch': 2.38}
{'loss': 3.2639, 'learning_rate': 0.0003839572192513369, 'epoch': 2.39}
{'loss': 3.2055, 'learning_rate': 0.00038342245989304814, 'epoch': 2.4}
{'loss': 3.2231, 'learning_rate': 0.0003828877005347594, 'epoch': 2.41}
{'loss': 3.2479, 'learning_rate': 0.00038235294117647055, 'epoch': 2.42}
{'loss': 3.2424, 'learning_rate': 0.00038181818181818184, 'epoch': 2

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.1297242641448975, 'eval_rouge1': 0.5117563436004429, 'eval_rouge2': 0.27679071334760935, 'eval_rougeL': 0.41966377956408374, 'eval_rougeLsum': 0.45162030752619287, 'eval_runtime': 12.2012, 'eval_samples_per_second': 1.639, 'eval_steps_per_second': 1.639, 'epoch': 2.44}
{'loss': 3.191, 'learning_rate': 0.0003812834224598931, 'epoch': 2.45}
{'loss': 3.1212, 'learning_rate': 0.00038074866310160426, 'epoch': 2.46}
{'loss': 3.2015, 'learning_rate': 0.0003802139037433155, 'epoch': 2.47}
{'loss': 3.227, 'learning_rate': 0.0003796791443850268, 'epoch': 2.48}
{'loss': 3.1263, 'learning_rate': 0.00037914438502673796, 'epoch': 2.49}
{'loss': 3.1935, 'learning_rate': 0.0003786096256684492, 'epoch': 2.5}
{'loss': 3.1034, 'learning_rate': 0.00037807486631016043, 'epoch': 2.51}
{'loss': 3.2553, 'learning_rate': 0.00037754010695187167, 'epoch': 2.52}
{'loss': 3.1321, 'learning_rate': 0.0003770053475935829, 'epoch': 2.53}
{'loss': 3.247, 'learning_rate': 0.00037647058823529414, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0954582691192627, 'eval_rouge1': 0.49509339171025524, 'eval_rouge2': 0.27593206908693707, 'eval_rougeL': 0.4119757438744084, 'eval_rougeLsum': 0.4405017372348934, 'eval_runtime': 12.213, 'eval_samples_per_second': 1.638, 'eval_steps_per_second': 1.638, 'epoch': 2.54}
{'loss': 3.1702, 'learning_rate': 0.0003759358288770053, 'epoch': 2.55}
{'loss': 3.3124, 'learning_rate': 0.0003754010695187166, 'epoch': 2.56}
{'loss': 3.2034, 'learning_rate': 0.00037486631016042784, 'epoch': 2.57}
{'loss': 3.1904, 'learning_rate': 0.000374331550802139, 'epoch': 2.58}
{'loss': 3.2365, 'learning_rate': 0.00037379679144385026, 'epoch': 2.59}
{'loss': 3.2701, 'learning_rate': 0.00037326203208556155, 'epoch': 2.6}
{'loss': 3.2832, 'learning_rate': 0.00037272727272727273, 'epoch': 2.62}
{'loss': 3.2645, 'learning_rate': 0.00037219251336898396, 'epoch': 2.63}
{'loss': 3.2523, 'learning_rate': 0.0003716577540106952, 'epoch': 2.64}
{'loss': 3.2297, 'learning_rate': 0.0003711229946524064, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.136681079864502, 'eval_rouge1': 0.4986398772769136, 'eval_rouge2': 0.2784175988645139, 'eval_rougeL': 0.4052870900788267, 'eval_rougeLsum': 0.4403785453910468, 'eval_runtime': 11.7931, 'eval_samples_per_second': 1.696, 'eval_steps_per_second': 1.696, 'epoch': 2.65}
{'loss': 3.2664, 'learning_rate': 0.00037058823529411767, 'epoch': 2.66}
{'loss': 3.2178, 'learning_rate': 0.0003700534759358289, 'epoch': 2.67}
{'loss': 3.2108, 'learning_rate': 0.0003695187165775401, 'epoch': 2.68}
{'loss': 3.1558, 'learning_rate': 0.0003689839572192513, 'epoch': 2.69}
{'loss': 3.17, 'learning_rate': 0.0003684491978609626, 'epoch': 2.7}
{'loss': 3.2135, 'learning_rate': 0.0003679144385026738, 'epoch': 2.71}
{'loss': 3.2127, 'learning_rate': 0.000367379679144385, 'epoch': 2.72}
{'loss': 3.2255, 'learning_rate': 0.00036684491978609626, 'epoch': 2.73}
{'loss': 3.197, 'learning_rate': 0.0003663101604278075, 'epoch': 2.74}
{'loss': 3.1567, 'learning_rate': 0.00036577540106951873, 'epoch': 2.75}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.141237258911133, 'eval_rouge1': 0.4844959562505702, 'eval_rouge2': 0.2574890784362298, 'eval_rougeL': 0.3954866747465221, 'eval_rougeLsum': 0.41587963207508116, 'eval_runtime': 11.5027, 'eval_samples_per_second': 1.739, 'eval_steps_per_second': 1.739, 'epoch': 2.75}
{'loss': 3.1937, 'learning_rate': 0.00036524064171122996, 'epoch': 2.76}
{'loss': 3.29, 'learning_rate': 0.00036470588235294114, 'epoch': 2.77}
{'loss': 3.2478, 'learning_rate': 0.00036417112299465243, 'epoch': 2.78}
{'loss': 3.2547, 'learning_rate': 0.00036363636363636367, 'epoch': 2.8}
{'loss': 3.1489, 'learning_rate': 0.00036310160427807485, 'epoch': 2.81}
{'loss': 3.1514, 'learning_rate': 0.0003625668449197861, 'epoch': 2.82}
{'loss': 3.1823, 'learning_rate': 0.0003620320855614974, 'epoch': 2.83}
{'loss': 3.2086, 'learning_rate': 0.00036149732620320855, 'epoch': 2.84}
{'loss': 3.1585, 'learning_rate': 0.0003609625668449198, 'epoch': 2.85}
{'loss': 3.22, 'learning_rate': 0.000360427807486631, 'epoch': 2.8

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.1072049140930176, 'eval_rouge1': 0.48403379729408785, 'eval_rouge2': 0.2466014999708243, 'eval_rougeL': 0.383943725122981, 'eval_rougeLsum': 0.401077876032638, 'eval_runtime': 11.8322, 'eval_samples_per_second': 1.69, 'eval_steps_per_second': 1.69, 'epoch': 2.86}
{'loss': 3.1301, 'learning_rate': 0.0003598930481283422, 'epoch': 2.87}
{'loss': 3.0869, 'learning_rate': 0.0003593582887700535, 'epoch': 2.88}
{'loss': 3.3107, 'learning_rate': 0.00035882352941176473, 'epoch': 2.89}
{'loss': 3.1341, 'learning_rate': 0.0003582887700534759, 'epoch': 2.9}
{'loss': 3.2257, 'learning_rate': 0.00035775401069518714, 'epoch': 2.91}
{'loss': 3.1952, 'learning_rate': 0.00035721925133689843, 'epoch': 2.92}
{'loss': 3.2075, 'learning_rate': 0.0003566844919786096, 'epoch': 2.93}
{'loss': 3.1205, 'learning_rate': 0.00035614973262032085, 'epoch': 2.94}
{'loss': 3.2237, 'learning_rate': 0.0003556149732620321, 'epoch': 2.95}
{'loss': 3.1298, 'learning_rate': 0.0003550802139037433, 'epoch': 2.9

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.1411261558532715, 'eval_rouge1': 0.47377396187331755, 'eval_rouge2': 0.26079380406828273, 'eval_rougeL': 0.39360406147561766, 'eval_rougeLsum': 0.41845258783004535, 'eval_runtime': 12.5773, 'eval_samples_per_second': 1.59, 'eval_steps_per_second': 1.59, 'epoch': 2.96}
{'loss': 3.2056, 'learning_rate': 0.00035454545454545455, 'epoch': 2.98}
{'loss': 3.3, 'learning_rate': 0.0003540106951871658, 'epoch': 2.99}
{'loss': 3.2828, 'learning_rate': 0.00035347593582887697, 'epoch': 3.0}
{'loss': 3.063, 'learning_rate': 0.00035294117647058826, 'epoch': 3.01}
{'loss': 3.1254, 'learning_rate': 0.0003524064171122995, 'epoch': 3.02}
{'loss': 3.1109, 'learning_rate': 0.0003518716577540107, 'epoch': 3.03}
{'loss': 3.0522, 'learning_rate': 0.0003513368983957219, 'epoch': 3.04}
{'loss': 3.0039, 'learning_rate': 0.0003508021390374332, 'epoch': 3.05}
{'loss': 3.0347, 'learning_rate': 0.0003502673796791444, 'epoch': 3.06}
{'loss': 3.0031, 'learning_rate': 0.0003497326203208556, 'epoch': 3.0

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.099687099456787, 'eval_rouge1': 0.49053165331073234, 'eval_rouge2': 0.2713952963517174, 'eval_rougeL': 0.4095203337914949, 'eval_rougeLsum': 0.42945050790634914, 'eval_runtime': 11.9318, 'eval_samples_per_second': 1.676, 'eval_steps_per_second': 1.676, 'epoch': 3.07}
{'loss': 3.104, 'learning_rate': 0.00034919786096256685, 'epoch': 3.08}
{'loss': 3.1049, 'learning_rate': 0.00034866310160427803, 'epoch': 3.09}
{'loss': 3.0879, 'learning_rate': 0.0003481283422459893, 'epoch': 3.1}
{'loss': 3.0447, 'learning_rate': 0.00034759358288770055, 'epoch': 3.11}
{'loss': 3.0738, 'learning_rate': 0.00034705882352941173, 'epoch': 3.12}
{'loss': 3.0472, 'learning_rate': 0.00034652406417112297, 'epoch': 3.13}
{'loss': 3.0272, 'learning_rate': 0.00034598930481283426, 'epoch': 3.14}
{'loss': 3.047, 'learning_rate': 0.00034545454545454544, 'epoch': 3.16}
{'loss': 2.9837, 'learning_rate': 0.0003449197860962567, 'epoch': 3.17}
{'loss': 3.0798, 'learning_rate': 0.0003443850267379679, 'epoch'

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.064873218536377, 'eval_rouge1': 0.5072520711499173, 'eval_rouge2': 0.2725428611142497, 'eval_rougeL': 0.4211429116363568, 'eval_rougeLsum': 0.44998251478772044, 'eval_runtime': 11.7135, 'eval_samples_per_second': 1.707, 'eval_steps_per_second': 1.707, 'epoch': 3.18}
{'loss': 3.0437, 'learning_rate': 0.0003438502673796792, 'epoch': 3.19}
{'loss': 3.1425, 'learning_rate': 0.0003433155080213904, 'epoch': 3.2}
{'loss': 3.0516, 'learning_rate': 0.0003427807486631016, 'epoch': 3.21}
{'loss': 3.0153, 'learning_rate': 0.0003422459893048128, 'epoch': 3.22}
{'loss': 3.0761, 'learning_rate': 0.0003417112299465241, 'epoch': 3.23}
{'loss': 3.0425, 'learning_rate': 0.0003411764705882353, 'epoch': 3.24}
{'loss': 3.0311, 'learning_rate': 0.00034064171122994655, 'epoch': 3.25}
{'loss': 3.0695, 'learning_rate': 0.00034010695187165773, 'epoch': 3.26}
{'loss': 3.0716, 'learning_rate': 0.000339572192513369, 'epoch': 3.27}
{'loss': 3.0794, 'learning_rate': 0.00033903743315508026, 'epoch': 3.

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0859806537628174, 'eval_rouge1': 0.5051056784925767, 'eval_rouge2': 0.288736364797618, 'eval_rougeL': 0.41113544138906655, 'eval_rougeLsum': 0.43637535857887844, 'eval_runtime': 11.8014, 'eval_samples_per_second': 1.695, 'eval_steps_per_second': 1.695, 'epoch': 3.28}
{'loss': 3.0409, 'learning_rate': 0.00033850267379679144, 'epoch': 3.29}
{'loss': 3.0893, 'learning_rate': 0.0003379679144385027, 'epoch': 3.3}
{'loss': 3.0752, 'learning_rate': 0.00033743315508021396, 'epoch': 3.31}
{'loss': 3.0953, 'learning_rate': 0.00033689839572192514, 'epoch': 3.32}
{'loss': 3.0079, 'learning_rate': 0.0003363636363636364, 'epoch': 3.34}
{'loss': 3.1864, 'learning_rate': 0.0003358288770053476, 'epoch': 3.35}
{'loss': 3.0695, 'learning_rate': 0.0003352941176470588, 'epoch': 3.36}
{'loss': 3.0539, 'learning_rate': 0.0003347593582887701, 'epoch': 3.37}
{'loss': 3.0233, 'learning_rate': 0.0003342245989304813, 'epoch': 3.38}
{'loss': 3.1465, 'learning_rate': 0.0003336898395721925, 'epoch': 

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0724267959594727, 'eval_rouge1': 0.48962186701651655, 'eval_rouge2': 0.2625395395163197, 'eval_rougeL': 0.4046145055269623, 'eval_rougeLsum': 0.42706252933200206, 'eval_runtime': 11.4059, 'eval_samples_per_second': 1.753, 'eval_steps_per_second': 1.753, 'epoch': 3.39}
{'loss': 3.0613, 'learning_rate': 0.00033315508021390373, 'epoch': 3.4}
{'loss': 3.0295, 'learning_rate': 0.000332620320855615, 'epoch': 3.41}
{'loss': 3.0156, 'learning_rate': 0.0003320855614973262, 'epoch': 3.42}
{'loss': 3.0581, 'learning_rate': 0.00033155080213903744, 'epoch': 3.43}
{'loss': 3.0783, 'learning_rate': 0.0003310160427807487, 'epoch': 3.44}
{'loss': 3.0978, 'learning_rate': 0.0003304812834224599, 'epoch': 3.45}
{'loss': 2.9736, 'learning_rate': 0.00032994652406417114, 'epoch': 3.46}
{'loss': 2.9899, 'learning_rate': 0.0003294117647058824, 'epoch': 3.47}
{'loss': 3.0881, 'learning_rate': 0.00032887700534759356, 'epoch': 3.48}
{'loss': 3.1251, 'learning_rate': 0.00032834224598930485, 'epoch'

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0995941162109375, 'eval_rouge1': 0.49220206594747884, 'eval_rouge2': 0.2751212397670044, 'eval_rougeL': 0.4118863772007644, 'eval_rougeLsum': 0.4445030018597048, 'eval_runtime': 11.9537, 'eval_samples_per_second': 1.673, 'eval_steps_per_second': 1.673, 'epoch': 3.49}
{'loss': 3.1288, 'learning_rate': 0.0003278074866310161, 'epoch': 3.5}
{'loss': 3.0807, 'learning_rate': 0.00032727272727272726, 'epoch': 3.52}
{'loss': 3.1084, 'learning_rate': 0.0003267379679144385, 'epoch': 3.53}
{'loss': 3.0531, 'learning_rate': 0.0003262032085561498, 'epoch': 3.54}
{'loss': 3.046, 'learning_rate': 0.00032566844919786097, 'epoch': 3.55}
{'loss': 3.0227, 'learning_rate': 0.0003251336898395722, 'epoch': 3.56}
{'loss': 3.0588, 'learning_rate': 0.00032459893048128344, 'epoch': 3.57}
{'loss': 3.1438, 'learning_rate': 0.0003240641711229946, 'epoch': 3.58}
{'loss': 3.0949, 'learning_rate': 0.0003235294117647059, 'epoch': 3.59}
{'loss': 3.0086, 'learning_rate': 0.00032299465240641714, 'epoch': 

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0896546840667725, 'eval_rouge1': 0.5076813710309303, 'eval_rouge2': 0.2739799034771628, 'eval_rougeL': 0.40407320578234396, 'eval_rougeLsum': 0.4380785405612184, 'eval_runtime': 11.6732, 'eval_samples_per_second': 1.713, 'eval_steps_per_second': 1.713, 'epoch': 3.6}
{'loss': 3.0358, 'learning_rate': 0.0003224598930481283, 'epoch': 3.61}
{'loss': 3.0511, 'learning_rate': 0.00032192513368983956, 'epoch': 3.62}
{'loss': 3.0629, 'learning_rate': 0.00032139037433155085, 'epoch': 3.63}
{'loss': 3.1063, 'learning_rate': 0.00032085561497326203, 'epoch': 3.64}
{'loss': 3.012, 'learning_rate': 0.00032032085561497326, 'epoch': 3.65}
{'loss': 3.1429, 'learning_rate': 0.0003197860962566845, 'epoch': 3.66}
{'loss': 2.9892, 'learning_rate': 0.00031925133689839573, 'epoch': 3.67}
{'loss': 3.0454, 'learning_rate': 0.00031871657754010697, 'epoch': 3.68}
{'loss': 3.093, 'learning_rate': 0.0003181818181818182, 'epoch': 3.7}
{'loss': 3.0472, 'learning_rate': 0.0003176470588235294, 'epoch': 

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.084336042404175, 'eval_rouge1': 0.4838672179914962, 'eval_rouge2': 0.2678416458263083, 'eval_rougeL': 0.4139240601395863, 'eval_rougeLsum': 0.4370458442345382, 'eval_runtime': 12.3435, 'eval_samples_per_second': 1.62, 'eval_steps_per_second': 1.62, 'epoch': 3.71}
{'loss': 3.0074, 'learning_rate': 0.0003171122994652407, 'epoch': 3.72}
{'loss': 3.0275, 'learning_rate': 0.0003165775401069519, 'epoch': 3.73}
{'loss': 3.1475, 'learning_rate': 0.0003160427807486631, 'epoch': 3.74}
{'loss': 3.1371, 'learning_rate': 0.0003155080213903743, 'epoch': 3.75}
{'loss': 3.0744, 'learning_rate': 0.0003149732620320856, 'epoch': 3.76}
{'loss': 3.0084, 'learning_rate': 0.0003144385026737968, 'epoch': 3.77}
{'loss': 2.9843, 'learning_rate': 0.00031390374331550803, 'epoch': 3.78}
{'loss': 3.0242, 'learning_rate': 0.00031336898395721926, 'epoch': 3.79}
{'loss': 3.0323, 'learning_rate': 0.00031283422459893044, 'epoch': 3.8}
{'loss': 3.0855, 'learning_rate': 0.00031229946524064173, 'epoch': 3.8

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.081462860107422, 'eval_rouge1': 0.49105945557069963, 'eval_rouge2': 0.27675762493954065, 'eval_rougeL': 0.42222472178916265, 'eval_rougeLsum': 0.44177312418731474, 'eval_runtime': 11.9947, 'eval_samples_per_second': 1.667, 'eval_steps_per_second': 1.667, 'epoch': 3.81}
{'loss': 2.9915, 'learning_rate': 0.00031176470588235297, 'epoch': 3.82}
{'loss': 3.0709, 'learning_rate': 0.00031122994652406415, 'epoch': 3.83}
{'loss': 3.0873, 'learning_rate': 0.0003106951871657754, 'epoch': 3.84}
{'loss': 3.0284, 'learning_rate': 0.00031016042780748667, 'epoch': 3.85}
{'loss': 3.0098, 'learning_rate': 0.00030962566844919785, 'epoch': 3.86}
{'loss': 2.984, 'learning_rate': 0.0003090909090909091, 'epoch': 3.88}
{'loss': 2.9769, 'learning_rate': 0.0003085561497326203, 'epoch': 3.89}
{'loss': 3.076, 'learning_rate': 0.00030802139037433156, 'epoch': 3.9}
{'loss': 3.0361, 'learning_rate': 0.0003074866310160428, 'epoch': 3.91}
{'loss': 2.9925, 'learning_rate': 0.00030695187165775403, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0435879230499268, 'eval_rouge1': 0.48196149818909495, 'eval_rouge2': 0.25894565416877124, 'eval_rougeL': 0.4003554063717226, 'eval_rougeLsum': 0.4265483136827082, 'eval_runtime': 11.9332, 'eval_samples_per_second': 1.676, 'eval_steps_per_second': 1.676, 'epoch': 3.92}
{'loss': 3.0779, 'learning_rate': 0.0003064171122994652, 'epoch': 3.93}
{'loss': 2.9931, 'learning_rate': 0.0003058823529411765, 'epoch': 3.94}
{'loss': 2.9895, 'learning_rate': 0.00030534759358288773, 'epoch': 3.95}
{'loss': 3.054, 'learning_rate': 0.0003048128342245989, 'epoch': 3.96}
{'loss': 3.0201, 'learning_rate': 0.00030427807486631015, 'epoch': 3.97}
{'loss': 3.045, 'learning_rate': 0.00030374331550802144, 'epoch': 3.98}
{'loss': 3.1316, 'learning_rate': 0.0003032085561497326, 'epoch': 3.99}
{'loss': 2.9771, 'learning_rate': 0.00030267379679144385, 'epoch': 4.0}
{'loss': 2.8524, 'learning_rate': 0.0003021390374331551, 'epoch': 4.01}
{'loss': 2.8265, 'learning_rate': 0.00030160427807486627, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0881524085998535, 'eval_rouge1': 0.4991644061853557, 'eval_rouge2': 0.26973589060652037, 'eval_rougeL': 0.40935403417619587, 'eval_rougeLsum': 0.42707240844424993, 'eval_runtime': 11.8234, 'eval_samples_per_second': 1.692, 'eval_steps_per_second': 1.692, 'epoch': 4.02}
{'loss': 2.9499, 'learning_rate': 0.00030106951871657756, 'epoch': 4.03}
{'loss': 2.9427, 'learning_rate': 0.0003005347593582888, 'epoch': 4.04}
{'loss': 3.0011, 'learning_rate': 0.0003, 'epoch': 4.06}
{'loss': 2.8818, 'learning_rate': 0.0002994652406417112, 'epoch': 4.07}
{'loss': 2.9792, 'learning_rate': 0.0002989304812834225, 'epoch': 4.08}
{'loss': 2.896, 'learning_rate': 0.0002983957219251337, 'epoch': 4.09}
{'loss': 2.8774, 'learning_rate': 0.0002978609625668449, 'epoch': 4.1}
{'loss': 2.9212, 'learning_rate': 0.00029732620320855615, 'epoch': 4.11}
{'loss': 2.8827, 'learning_rate': 0.0002967914438502674, 'epoch': 4.12}
{'loss': 2.915, 'learning_rate': 0.0002962566844919786, 'epoch': 4.13}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0727953910827637, 'eval_rouge1': 0.4773622251098194, 'eval_rouge2': 0.27300397807177246, 'eval_rougeL': 0.4121267553058594, 'eval_rougeLsum': 0.42760709614965114, 'eval_runtime': 11.6269, 'eval_samples_per_second': 1.72, 'eval_steps_per_second': 1.72, 'epoch': 4.13}
{'loss': 2.9168, 'learning_rate': 0.00029572192513368985, 'epoch': 4.14}
{'loss': 2.93, 'learning_rate': 0.00029518716577540103, 'epoch': 4.15}
{'loss': 2.9513, 'learning_rate': 0.0002946524064171123, 'epoch': 4.16}
{'loss': 2.8685, 'learning_rate': 0.00029411764705882356, 'epoch': 4.17}
{'loss': 2.8988, 'learning_rate': 0.00029358288770053474, 'epoch': 4.18}
{'loss': 2.9872, 'learning_rate': 0.000293048128342246, 'epoch': 4.19}
{'loss': 2.8443, 'learning_rate': 0.00029251336898395726, 'epoch': 4.2}
{'loss': 2.9249, 'learning_rate': 0.00029197860962566844, 'epoch': 4.21}
{'loss': 2.9814, 'learning_rate': 0.0002914438502673797, 'epoch': 4.22}
{'loss': 2.9808, 'learning_rate': 0.0002909090909090909, 'epoch': 4

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.073673963546753, 'eval_rouge1': 0.4853499285746684, 'eval_rouge2': 0.2614457311697841, 'eval_rougeL': 0.41687240144652804, 'eval_rougeLsum': 0.4283804791834971, 'eval_runtime': 11.6772, 'eval_samples_per_second': 1.713, 'eval_steps_per_second': 1.713, 'epoch': 4.24}
{'loss': 2.9032, 'learning_rate': 0.0002903743315508021, 'epoch': 4.25}
{'loss': 2.8829, 'learning_rate': 0.0002898395721925134, 'epoch': 4.26}
{'loss': 2.9215, 'learning_rate': 0.0002893048128342246, 'epoch': 4.27}
{'loss': 3.0633, 'learning_rate': 0.0002887700534759358, 'epoch': 4.28}
{'loss': 2.8547, 'learning_rate': 0.00028823529411764703, 'epoch': 4.29}
{'loss': 2.9279, 'learning_rate': 0.0002877005347593583, 'epoch': 4.3}
{'loss': 2.9121, 'learning_rate': 0.0002871657754010695, 'epoch': 4.31}
{'loss': 3.0099, 'learning_rate': 0.00028663101604278074, 'epoch': 4.32}
{'loss': 2.9517, 'learning_rate': 0.000286096256684492, 'epoch': 4.33}
{'loss': 2.8873, 'learning_rate': 0.0002855614973262032, 'epoch': 4.3

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0810859203338623, 'eval_rouge1': 0.47660709982437033, 'eval_rouge2': 0.25058525377568336, 'eval_rougeL': 0.38509598349264296, 'eval_rougeLsum': 0.40515787968197436, 'eval_runtime': 11.7016, 'eval_samples_per_second': 1.709, 'eval_steps_per_second': 1.709, 'epoch': 4.34}
{'loss': 2.9241, 'learning_rate': 0.00028502673796791444, 'epoch': 4.35}
{'loss': 2.9415, 'learning_rate': 0.0002844919786096257, 'epoch': 4.36}
{'loss': 2.9048, 'learning_rate': 0.00028395721925133686, 'epoch': 4.37}
{'loss': 3.0011, 'learning_rate': 0.00028342245989304815, 'epoch': 4.38}
{'loss': 2.8816, 'learning_rate': 0.0002828877005347594, 'epoch': 4.39}
{'loss': 2.9501, 'learning_rate': 0.00028235294117647056, 'epoch': 4.4}
{'loss': 2.9196, 'learning_rate': 0.0002818181818181818, 'epoch': 4.42}
{'loss': 2.9201, 'learning_rate': 0.0002812834224598931, 'epoch': 4.43}
{'loss': 3.0092, 'learning_rate': 0.0002807486631016043, 'epoch': 4.44}
{'loss': 2.897, 'learning_rate': 0.0002802139037433155, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0686659812927246, 'eval_rouge1': 0.49446282468938446, 'eval_rouge2': 0.27228581245577776, 'eval_rougeL': 0.40861704197123727, 'eval_rougeLsum': 0.4226725605219408, 'eval_runtime': 11.7239, 'eval_samples_per_second': 1.706, 'eval_steps_per_second': 1.706, 'epoch': 4.45}
{'loss': 2.9281, 'learning_rate': 0.00027967914438502674, 'epoch': 4.46}
{'loss': 2.8736, 'learning_rate': 0.00027914438502673803, 'epoch': 4.47}
{'loss': 2.933, 'learning_rate': 0.0002786096256684492, 'epoch': 4.48}
{'loss': 3.0165, 'learning_rate': 0.00027807486631016044, 'epoch': 4.49}
{'loss': 2.9953, 'learning_rate': 0.0002775401069518717, 'epoch': 4.5}
{'loss': 3.024, 'learning_rate': 0.00027700534759358286, 'epoch': 4.51}
{'loss': 2.8096, 'learning_rate': 0.00027647058823529415, 'epoch': 4.52}
{'loss': 2.9322, 'learning_rate': 0.0002759358288770054, 'epoch': 4.53}
{'loss': 2.9143, 'learning_rate': 0.00027540106951871656, 'epoch': 4.54}
{'loss': 3.0059, 'learning_rate': 0.0002748663101604278, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0338938236236572, 'eval_rouge1': 0.48884075742529565, 'eval_rouge2': 0.26241671504060826, 'eval_rougeL': 0.4022747107947122, 'eval_rougeLsum': 0.4299947120487797, 'eval_runtime': 11.8374, 'eval_samples_per_second': 1.69, 'eval_steps_per_second': 1.69, 'epoch': 4.55}
{'loss': 2.9169, 'learning_rate': 0.0002743315508021391, 'epoch': 4.56}
{'loss': 2.9415, 'learning_rate': 0.00027379679144385027, 'epoch': 4.57}
{'loss': 2.9383, 'learning_rate': 0.0002732620320855615, 'epoch': 4.58}
{'loss': 2.9759, 'learning_rate': 0.00027272727272727274, 'epoch': 4.6}
{'loss': 3.0249, 'learning_rate': 0.00027219251336898397, 'epoch': 4.61}
{'loss': 2.9078, 'learning_rate': 0.0002716577540106952, 'epoch': 4.62}
{'loss': 2.9391, 'learning_rate': 0.00027112299465240644, 'epoch': 4.63}
{'loss': 2.9134, 'learning_rate': 0.0002705882352941176, 'epoch': 4.64}
{'loss': 2.9379, 'learning_rate': 0.0002700534759358289, 'epoch': 4.65}
{'loss': 2.9689, 'learning_rate': 0.00026951871657754015, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.053682804107666, 'eval_rouge1': 0.4948260105257256, 'eval_rouge2': 0.27902877547685556, 'eval_rougeL': 0.40902071036634546, 'eval_rougeLsum': 0.43139506944099515, 'eval_runtime': 12.1444, 'eval_samples_per_second': 1.647, 'eval_steps_per_second': 1.647, 'epoch': 4.66}
{'loss': 2.9999, 'learning_rate': 0.00026898395721925133, 'epoch': 4.67}
{'loss': 2.9544, 'learning_rate': 0.00026844919786096256, 'epoch': 4.68}
{'loss': 2.9311, 'learning_rate': 0.00026791443850267385, 'epoch': 4.69}
{'loss': 2.9532, 'learning_rate': 0.00026737967914438503, 'epoch': 4.7}
{'loss': 3.0123, 'learning_rate': 0.00026684491978609627, 'epoch': 4.71}
{'loss': 2.8499, 'learning_rate': 0.0002663101604278075, 'epoch': 4.72}
{'loss': 2.9275, 'learning_rate': 0.0002657754010695187, 'epoch': 4.73}
{'loss': 2.9798, 'learning_rate': 0.00026524064171122997, 'epoch': 4.74}
{'loss': 2.9964, 'learning_rate': 0.0002647058823529412, 'epoch': 4.75}
{'loss': 2.8977, 'learning_rate': 0.0002641711229946524, 'epoc

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.038299083709717, 'eval_rouge1': 0.47766952035786253, 'eval_rouge2': 0.25433023144676076, 'eval_rougeL': 0.3859339126564468, 'eval_rougeLsum': 0.4085385541259931, 'eval_runtime': 11.9085, 'eval_samples_per_second': 1.679, 'eval_steps_per_second': 1.679, 'epoch': 4.76}
{'loss': 2.9559, 'learning_rate': 0.0002636363636363636, 'epoch': 4.78}
{'loss': 2.9862, 'learning_rate': 0.0002631016042780749, 'epoch': 4.79}
{'loss': 2.9323, 'learning_rate': 0.0002625668449197861, 'epoch': 4.8}
{'loss': 2.918, 'learning_rate': 0.00026203208556149733, 'epoch': 4.81}
{'loss': 2.9628, 'learning_rate': 0.00026149732620320856, 'epoch': 4.82}
{'loss': 2.7929, 'learning_rate': 0.0002609625668449198, 'epoch': 4.83}
{'loss': 2.8705, 'learning_rate': 0.00026042780748663103, 'epoch': 4.84}
{'loss': 2.7856, 'learning_rate': 0.00025989304812834227, 'epoch': 4.85}
{'loss': 2.9033, 'learning_rate': 0.00025935828877005345, 'epoch': 4.86}
{'loss': 2.913, 'learning_rate': 0.00025882352941176474, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0248160362243652, 'eval_rouge1': 0.49189503102612286, 'eval_rouge2': 0.26752142068773266, 'eval_rougeL': 0.4094543328601421, 'eval_rougeLsum': 0.4295788057398472, 'eval_runtime': 12.1824, 'eval_samples_per_second': 1.642, 'eval_steps_per_second': 1.642, 'epoch': 4.87}
{'loss': 2.908, 'learning_rate': 0.00025828877005347597, 'epoch': 4.88}
{'loss': 2.9211, 'learning_rate': 0.00025775401069518715, 'epoch': 4.89}
{'loss': 2.9922, 'learning_rate': 0.0002572192513368984, 'epoch': 4.9}
{'loss': 2.9572, 'learning_rate': 0.0002566844919786097, 'epoch': 4.91}
{'loss': 2.8769, 'learning_rate': 0.00025614973262032086, 'epoch': 4.92}
{'loss': 2.9938, 'learning_rate': 0.0002556149732620321, 'epoch': 4.93}
{'loss': 2.9224, 'learning_rate': 0.00025508021390374333, 'epoch': 4.94}
{'loss': 2.952, 'learning_rate': 0.0002545454545454545, 'epoch': 4.96}
{'loss': 2.9132, 'learning_rate': 0.0002540106951871658, 'epoch': 4.97}
{'loss': 2.9847, 'learning_rate': 0.00025347593582887703, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.053358793258667, 'eval_rouge1': 0.4974039994060903, 'eval_rouge2': 0.2736602132196527, 'eval_rougeL': 0.40003582419938477, 'eval_rougeLsum': 0.41395104310416364, 'eval_runtime': 11.3512, 'eval_samples_per_second': 1.762, 'eval_steps_per_second': 1.762, 'epoch': 4.98}
{'loss': 2.9915, 'learning_rate': 0.0002529411764705882, 'epoch': 4.99}
{'loss': 2.9302, 'learning_rate': 0.00025240641711229945, 'epoch': 5.0}
{'loss': 2.8718, 'learning_rate': 0.00025187165775401074, 'epoch': 5.01}
{'loss': 2.8, 'learning_rate': 0.0002513368983957219, 'epoch': 5.02}
{'loss': 2.8763, 'learning_rate': 0.00025080213903743315, 'epoch': 5.03}
{'loss': 2.8504, 'learning_rate': 0.0002502673796791444, 'epoch': 5.04}
{'loss': 2.8324, 'learning_rate': 0.0002497326203208556, 'epoch': 5.05}
{'loss': 2.8719, 'learning_rate': 0.00024919786096256686, 'epoch': 5.06}
{'loss': 2.7891, 'learning_rate': 0.0002486631016042781, 'epoch': 5.07}
{'loss': 2.7007, 'learning_rate': 0.00024812834224598933, 'epoch': 5

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0599799156188965, 'eval_rouge1': 0.4496477781600866, 'eval_rouge2': 0.23448941440098423, 'eval_rougeL': 0.365228344690418, 'eval_rougeLsum': 0.3803529470339754, 'eval_runtime': 11.6669, 'eval_samples_per_second': 1.714, 'eval_steps_per_second': 1.714, 'epoch': 5.08}
{'loss': 2.7424, 'learning_rate': 0.00024759358288770056, 'epoch': 5.09}
{'loss': 2.7438, 'learning_rate': 0.0002470588235294118, 'epoch': 5.1}
{'loss': 2.7394, 'learning_rate': 0.000246524064171123, 'epoch': 5.11}
{'loss': 2.7939, 'learning_rate': 0.00024598930481283427, 'epoch': 5.12}
{'loss': 2.7313, 'learning_rate': 0.00024545454545454545, 'epoch': 5.14}
{'loss': 2.8559, 'learning_rate': 0.0002449197860962567, 'epoch': 5.15}
{'loss': 2.8772, 'learning_rate': 0.0002443850267379679, 'epoch': 5.16}
{'loss': 2.7913, 'learning_rate': 0.00024385026737967913, 'epoch': 5.17}
{'loss': 2.8966, 'learning_rate': 0.0002433155080213904, 'epoch': 5.18}
{'loss': 2.8022, 'learning_rate': 0.0002427807486631016, 'epoch': 5

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0435051918029785, 'eval_rouge1': 0.48903430776283424, 'eval_rouge2': 0.25231275823883237, 'eval_rougeL': 0.3902919780493328, 'eval_rougeLsum': 0.41582412490022097, 'eval_runtime': 11.5571, 'eval_samples_per_second': 1.731, 'eval_steps_per_second': 1.731, 'epoch': 5.19}
{'loss': 2.7858, 'learning_rate': 0.00024224598930481283, 'epoch': 5.2}
{'loss': 2.7662, 'learning_rate': 0.00024171122994652407, 'epoch': 5.21}
{'loss': 2.7907, 'learning_rate': 0.0002411764705882353, 'epoch': 5.22}
{'loss': 2.8698, 'learning_rate': 0.0002406417112299465, 'epoch': 5.23}
{'loss': 2.8303, 'learning_rate': 0.00024010695187165777, 'epoch': 5.24}
{'loss': 2.8496, 'learning_rate': 0.00023957219251336898, 'epoch': 5.25}
{'loss': 2.8954, 'learning_rate': 0.0002390374331550802, 'epoch': 5.26}
{'loss': 2.9077, 'learning_rate': 0.00023850267379679145, 'epoch': 5.27}
{'loss': 2.836, 'learning_rate': 0.00023796791443850268, 'epoch': 5.28}
{'loss': 2.822, 'learning_rate': 0.0002374331550802139, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0181798934936523, 'eval_rouge1': 0.49823316701997444, 'eval_rouge2': 0.2830978972447734, 'eval_rougeL': 0.4191204671294205, 'eval_rougeLsum': 0.4372446104614427, 'eval_runtime': 11.736, 'eval_samples_per_second': 1.704, 'eval_steps_per_second': 1.704, 'epoch': 5.29}
{'loss': 2.8008, 'learning_rate': 0.00023689839572192515, 'epoch': 5.3}
{'loss': 2.8165, 'learning_rate': 0.00023636363636363636, 'epoch': 5.32}
{'loss': 2.7704, 'learning_rate': 0.0002358288770053476, 'epoch': 5.33}
{'loss': 2.8757, 'learning_rate': 0.00023529411764705883, 'epoch': 5.34}
{'loss': 2.8789, 'learning_rate': 0.00023475935828877006, 'epoch': 5.35}
{'loss': 2.8419, 'learning_rate': 0.00023422459893048127, 'epoch': 5.36}
{'loss': 2.7576, 'learning_rate': 0.00023368983957219253, 'epoch': 5.37}
{'loss': 2.8492, 'learning_rate': 0.00023315508021390374, 'epoch': 5.38}
{'loss': 2.9318, 'learning_rate': 0.000232620320855615, 'epoch': 5.39}
{'loss': 2.8688, 'learning_rate': 0.0002320855614973262, 'epoch'

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0440101623535156, 'eval_rouge1': 0.4693276399784627, 'eval_rouge2': 0.2566054885067176, 'eval_rougeL': 0.39398568006403073, 'eval_rougeLsum': 0.4052006473687503, 'eval_runtime': 11.2541, 'eval_samples_per_second': 1.777, 'eval_steps_per_second': 1.777, 'epoch': 5.4}
{'loss': 2.7834, 'learning_rate': 0.00023155080213903742, 'epoch': 5.41}
{'loss': 2.8456, 'learning_rate': 0.00023101604278074868, 'epoch': 5.42}
{'loss': 2.7764, 'learning_rate': 0.0002304812834224599, 'epoch': 5.43}
{'loss': 2.914, 'learning_rate': 0.00022994652406417113, 'epoch': 5.44}
{'loss': 2.8266, 'learning_rate': 0.00022941176470588236, 'epoch': 5.45}
{'loss': 2.8314, 'learning_rate': 0.0002288770053475936, 'epoch': 5.46}
{'loss': 2.7973, 'learning_rate': 0.0002283422459893048, 'epoch': 5.47}
{'loss': 2.8261, 'learning_rate': 0.00022780748663101606, 'epoch': 5.48}
{'loss': 2.7457, 'learning_rate': 0.00022727272727272727, 'epoch': 5.5}
{'loss': 2.8713, 'learning_rate': 0.0002267379679144385, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0265872478485107, 'eval_rouge1': 0.4891818455970209, 'eval_rouge2': 0.2657075504492653, 'eval_rougeL': 0.39610325459777956, 'eval_rougeLsum': 0.41519194042148133, 'eval_runtime': 12.2488, 'eval_samples_per_second': 1.633, 'eval_steps_per_second': 1.633, 'epoch': 5.51}
{'loss': 2.7863, 'learning_rate': 0.00022620320855614974, 'epoch': 5.52}
{'loss': 2.7973, 'learning_rate': 0.00022566844919786098, 'epoch': 5.53}
{'loss': 2.8629, 'learning_rate': 0.00022513368983957219, 'epoch': 5.54}
{'loss': 2.8368, 'learning_rate': 0.00022459893048128345, 'epoch': 5.55}
{'loss': 2.9259, 'learning_rate': 0.00022406417112299465, 'epoch': 5.56}
{'loss': 2.9014, 'learning_rate': 0.0002235294117647059, 'epoch': 5.57}
{'loss': 2.8518, 'learning_rate': 0.00022299465240641712, 'epoch': 5.58}
{'loss': 2.8558, 'learning_rate': 0.00022245989304812836, 'epoch': 5.59}
{'loss': 2.9156, 'learning_rate': 0.00022192513368983957, 'epoch': 5.6}
{'loss': 2.9058, 'learning_rate': 0.00022139037433155083, 'e

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.058349132537842, 'eval_rouge1': 0.4875234559226952, 'eval_rouge2': 0.26797792896385325, 'eval_rougeL': 0.39650266954286756, 'eval_rougeLsum': 0.42255637328648443, 'eval_runtime': 11.6515, 'eval_samples_per_second': 1.717, 'eval_steps_per_second': 1.717, 'epoch': 5.61}
{'loss': 2.8505, 'learning_rate': 0.00022085561497326204, 'epoch': 5.62}
{'loss': 2.803, 'learning_rate': 0.00022032085561497325, 'epoch': 5.63}
{'loss': 2.8141, 'learning_rate': 0.0002197860962566845, 'epoch': 5.64}
{'loss': 2.7658, 'learning_rate': 0.00021925133689839572, 'epoch': 5.65}
{'loss': 2.8915, 'learning_rate': 0.00021871657754010695, 'epoch': 5.66}
{'loss': 2.8032, 'learning_rate': 0.00021818181818181818, 'epoch': 5.68}
{'loss': 2.8414, 'learning_rate': 0.00021764705882352942, 'epoch': 5.69}
{'loss': 2.7569, 'learning_rate': 0.00021711229946524063, 'epoch': 5.7}
{'loss': 2.7766, 'learning_rate': 0.0002165775401069519, 'epoch': 5.71}
{'loss': 2.7828, 'learning_rate': 0.0002160427807486631, 'epoc

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.031521797180176, 'eval_rouge1': 0.4785857280706491, 'eval_rouge2': 0.27265767271215513, 'eval_rougeL': 0.3948387976639042, 'eval_rougeLsum': 0.4192836432567548, 'eval_runtime': 12.0912, 'eval_samples_per_second': 1.654, 'eval_steps_per_second': 1.654, 'epoch': 5.72}
{'loss': 2.8862, 'learning_rate': 0.00021550802139037433, 'epoch': 5.73}
{'loss': 2.8136, 'learning_rate': 0.00021497326203208557, 'epoch': 5.74}
{'loss': 2.8209, 'learning_rate': 0.0002144385026737968, 'epoch': 5.75}
{'loss': 2.7777, 'learning_rate': 0.000213903743315508, 'epoch': 5.76}
{'loss': 2.8609, 'learning_rate': 0.00021336898395721927, 'epoch': 5.77}
{'loss': 2.8323, 'learning_rate': 0.00021283422459893048, 'epoch': 5.78}
{'loss': 2.826, 'learning_rate': 0.00021229946524064171, 'epoch': 5.79}
{'loss': 2.7989, 'learning_rate': 0.00021176470588235295, 'epoch': 5.8}
{'loss': 2.8166, 'learning_rate': 0.00021122994652406418, 'epoch': 5.81}
{'loss': 2.7697, 'learning_rate': 0.0002106951871657754, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0397861003875732, 'eval_rouge1': 0.477518908527953, 'eval_rouge2': 0.2750185127256298, 'eval_rougeL': 0.3917687139123955, 'eval_rougeLsum': 0.41012297818775023, 'eval_runtime': 11.7452, 'eval_samples_per_second': 1.703, 'eval_steps_per_second': 1.703, 'epoch': 5.82}
{'loss': 2.8929, 'learning_rate': 0.00021016042780748665, 'epoch': 5.83}
{'loss': 2.7945, 'learning_rate': 0.00020962566844919786, 'epoch': 5.84}
{'loss': 2.8902, 'learning_rate': 0.00020909090909090907, 'epoch': 5.86}
{'loss': 2.8062, 'learning_rate': 0.00020855614973262033, 'epoch': 5.87}
{'loss': 2.8941, 'learning_rate': 0.00020802139037433154, 'epoch': 5.88}
{'loss': 2.8025, 'learning_rate': 0.00020748663101604277, 'epoch': 5.89}
{'loss': 2.8197, 'learning_rate': 0.000206951871657754, 'epoch': 5.9}
{'loss': 2.8476, 'learning_rate': 0.00020641711229946524, 'epoch': 5.91}
{'loss': 2.9164, 'learning_rate': 0.00020588235294117645, 'epoch': 5.92}
{'loss': 2.84, 'learning_rate': 0.00020534759358288771, 'epoch'

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0465667247772217, 'eval_rouge1': 0.473778080532649, 'eval_rouge2': 0.27490705519838543, 'eval_rougeL': 0.3851713636941776, 'eval_rougeLsum': 0.4098353461264889, 'eval_runtime': 13.8169, 'eval_samples_per_second': 1.448, 'eval_steps_per_second': 1.448, 'epoch': 5.93}
{'loss': 2.9205, 'learning_rate': 0.00020481283422459892, 'epoch': 5.94}
{'loss': 2.7855, 'learning_rate': 0.00020427807486631016, 'epoch': 5.95}
{'loss': 2.8393, 'learning_rate': 0.0002037433155080214, 'epoch': 5.96}
{'loss': 2.8675, 'learning_rate': 0.00020320855614973263, 'epoch': 5.97}
{'loss': 2.8499, 'learning_rate': 0.00020267379679144383, 'epoch': 5.98}
{'loss': 2.8281, 'learning_rate': 0.0002021390374331551, 'epoch': 5.99}
{'loss': 2.832, 'learning_rate': 0.0002016042780748663, 'epoch': 6.0}
{'loss': 2.7194, 'learning_rate': 0.00020106951871657757, 'epoch': 6.01}
{'loss': 2.726, 'learning_rate': 0.00020053475935828877, 'epoch': 6.02}
{'loss': 2.7445, 'learning_rate': 0.0002, 'epoch': 6.04}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0388636589050293, 'eval_rouge1': 0.4952376840801359, 'eval_rouge2': 0.28533887336674035, 'eval_rougeL': 0.4053547980618665, 'eval_rougeLsum': 0.43013651288096433, 'eval_runtime': 12.8112, 'eval_samples_per_second': 1.561, 'eval_steps_per_second': 1.561, 'epoch': 6.04}
{'loss': 2.7271, 'learning_rate': 0.00019946524064171124, 'epoch': 6.05}
{'loss': 2.7196, 'learning_rate': 0.00019893048128342248, 'epoch': 6.06}
{'loss': 2.8459, 'learning_rate': 0.0001983957219251337, 'epoch': 6.07}
{'loss': 2.7034, 'learning_rate': 0.00019786096256684495, 'epoch': 6.08}
{'loss': 2.7134, 'learning_rate': 0.00019732620320855616, 'epoch': 6.09}
{'loss': 2.7588, 'learning_rate': 0.00019679144385026736, 'epoch': 6.1}
{'loss': 2.7966, 'learning_rate': 0.00019625668449197863, 'epoch': 6.11}
{'loss': 2.7723, 'learning_rate': 0.00019572192513368983, 'epoch': 6.12}
{'loss': 2.7578, 'learning_rate': 0.00019518716577540107, 'epoch': 6.13}
{'loss': 2.6869, 'learning_rate': 0.0001946524064171123, 'ep

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0334951877593994, 'eval_rouge1': 0.5003130817391617, 'eval_rouge2': 0.2870573180280043, 'eval_rougeL': 0.40298974851944547, 'eval_rougeLsum': 0.4256273542497634, 'eval_runtime': 13.0012, 'eval_samples_per_second': 1.538, 'eval_steps_per_second': 1.538, 'epoch': 6.14}
{'loss': 2.6923, 'learning_rate': 0.00019411764705882354, 'epoch': 6.15}
{'loss': 2.7597, 'learning_rate': 0.00019358288770053475, 'epoch': 6.16}
{'loss': 2.671, 'learning_rate': 0.000193048128342246, 'epoch': 6.17}
{'loss': 2.7063, 'learning_rate': 0.00019251336898395722, 'epoch': 6.18}
{'loss': 2.724, 'learning_rate': 0.00019197860962566845, 'epoch': 6.19}
{'loss': 2.6987, 'learning_rate': 0.0001914438502673797, 'epoch': 6.2}
{'loss': 2.7243, 'learning_rate': 0.00019090909090909092, 'epoch': 6.22}
{'loss': 2.731, 'learning_rate': 0.00019037433155080213, 'epoch': 6.23}
{'loss': 2.761, 'learning_rate': 0.0001898395721925134, 'epoch': 6.24}
{'loss': 2.756, 'learning_rate': 0.0001893048128342246, 'epoch': 6.2

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0295445919036865, 'eval_rouge1': 0.4981975570486249, 'eval_rouge2': 0.28695693761468366, 'eval_rougeL': 0.40743365951344857, 'eval_rougeLsum': 0.4291297737420304, 'eval_runtime': 12.625, 'eval_samples_per_second': 1.584, 'eval_steps_per_second': 1.584, 'epoch': 6.25}
{'loss': 2.7725, 'learning_rate': 0.00018877005347593583, 'epoch': 6.26}
{'loss': 2.7592, 'learning_rate': 0.00018823529411764707, 'epoch': 6.27}
{'loss': 2.7368, 'learning_rate': 0.0001877005347593583, 'epoch': 6.28}
{'loss': 2.7529, 'learning_rate': 0.0001871657754010695, 'epoch': 6.29}
{'loss': 2.7824, 'learning_rate': 0.00018663101604278077, 'epoch': 6.3}
{'loss': 2.6836, 'learning_rate': 0.00018609625668449198, 'epoch': 6.31}
{'loss': 2.6935, 'learning_rate': 0.0001855614973262032, 'epoch': 6.32}
{'loss': 2.7564, 'learning_rate': 0.00018502673796791445, 'epoch': 6.33}
{'loss': 2.6918, 'learning_rate': 0.00018449197860962566, 'epoch': 6.34}
{'loss': 2.7439, 'learning_rate': 0.0001839572192513369, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.021894931793213, 'eval_rouge1': 0.495390333513665, 'eval_rouge2': 0.2822526171904238, 'eval_rougeL': 0.40503345213940056, 'eval_rougeLsum': 0.43186700136455247, 'eval_runtime': 12.9895, 'eval_samples_per_second': 1.54, 'eval_steps_per_second': 1.54, 'epoch': 6.35}
{'loss': 2.797, 'learning_rate': 0.00018342245989304813, 'epoch': 6.36}
{'loss': 2.8472, 'learning_rate': 0.00018288770053475936, 'epoch': 6.37}
{'loss': 2.8138, 'learning_rate': 0.00018235294117647057, 'epoch': 6.38}
{'loss': 2.6965, 'learning_rate': 0.00018181818181818183, 'epoch': 6.4}
{'loss': 2.6992, 'learning_rate': 0.00018128342245989304, 'epoch': 6.41}
{'loss': 2.747, 'learning_rate': 0.00018074866310160428, 'epoch': 6.42}
{'loss': 2.6961, 'learning_rate': 0.0001802139037433155, 'epoch': 6.43}
{'loss': 2.7956, 'learning_rate': 0.00017967914438502675, 'epoch': 6.44}
{'loss': 2.8626, 'learning_rate': 0.00017914438502673795, 'epoch': 6.45}
{'loss': 2.6913, 'learning_rate': 0.00017860962566844922, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0361733436584473, 'eval_rouge1': 0.48061562312039574, 'eval_rouge2': 0.2701976275950416, 'eval_rougeL': 0.3916898129111353, 'eval_rougeLsum': 0.4211196502014175, 'eval_runtime': 13.337, 'eval_samples_per_second': 1.5, 'eval_steps_per_second': 1.5, 'epoch': 6.46}
{'loss': 2.7607, 'learning_rate': 0.00017807486631016042, 'epoch': 6.47}
{'loss': 2.7184, 'learning_rate': 0.00017754010695187166, 'epoch': 6.48}
{'loss': 2.701, 'learning_rate': 0.0001770053475935829, 'epoch': 6.49}
{'loss': 2.6709, 'learning_rate': 0.00017647058823529413, 'epoch': 6.5}
{'loss': 2.6665, 'learning_rate': 0.00017593582887700534, 'epoch': 6.51}
{'loss': 2.835, 'learning_rate': 0.0001754010695187166, 'epoch': 6.52}
{'loss': 2.8264, 'learning_rate': 0.0001748663101604278, 'epoch': 6.53}
{'loss': 2.8088, 'learning_rate': 0.00017433155080213901, 'epoch': 6.54}
{'loss': 2.7454, 'learning_rate': 0.00017379679144385028, 'epoch': 6.55}
{'loss': 2.7082, 'learning_rate': 0.00017326203208556148, 'epoch': 6.5

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0265004634857178, 'eval_rouge1': 0.47767788452688437, 'eval_rouge2': 0.2734420131301116, 'eval_rougeL': 0.3924789500173593, 'eval_rougeLsum': 0.4111093762964654, 'eval_runtime': 12.0425, 'eval_samples_per_second': 1.661, 'eval_steps_per_second': 1.661, 'epoch': 6.56}
{'loss': 2.7799, 'learning_rate': 0.00017272727272727272, 'epoch': 6.58}
{'loss': 2.7581, 'learning_rate': 0.00017219251336898395, 'epoch': 6.59}
{'loss': 2.6515, 'learning_rate': 0.0001716577540106952, 'epoch': 6.6}
{'loss': 2.7293, 'learning_rate': 0.0001711229946524064, 'epoch': 6.61}
{'loss': 2.6601, 'learning_rate': 0.00017058823529411766, 'epoch': 6.62}
{'loss': 2.8137, 'learning_rate': 0.00017005347593582887, 'epoch': 6.63}
{'loss': 2.7884, 'learning_rate': 0.00016951871657754013, 'epoch': 6.64}
{'loss': 2.7317, 'learning_rate': 0.00016898395721925134, 'epoch': 6.65}
{'loss': 2.7745, 'learning_rate': 0.00016844919786096257, 'epoch': 6.66}
{'loss': 2.7835, 'learning_rate': 0.0001679144385026738, 'epoc

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 2.9996492862701416, 'eval_rouge1': 0.4747690631523025, 'eval_rouge2': 0.2723454335075407, 'eval_rougeL': 0.38830263554052047, 'eval_rougeLsum': 0.4050984242792474, 'eval_runtime': 11.9174, 'eval_samples_per_second': 1.678, 'eval_steps_per_second': 1.678, 'epoch': 6.67}
{'loss': 2.7161, 'learning_rate': 0.00016737967914438504, 'epoch': 6.68}
{'loss': 2.795, 'learning_rate': 0.00016684491978609625, 'epoch': 6.69}
{'loss': 2.7963, 'learning_rate': 0.0001663101604278075, 'epoch': 6.7}
{'loss': 2.7153, 'learning_rate': 0.00016577540106951872, 'epoch': 6.71}
{'loss': 2.7147, 'learning_rate': 0.00016524064171122995, 'epoch': 6.72}
{'loss': 2.8368, 'learning_rate': 0.0001647058823529412, 'epoch': 6.73}
{'loss': 2.8354, 'learning_rate': 0.00016417112299465242, 'epoch': 6.74}
{'loss': 2.7687, 'learning_rate': 0.00016363636363636363, 'epoch': 6.76}
{'loss': 2.7246, 'learning_rate': 0.0001631016042780749, 'epoch': 6.77}
{'loss': 2.7994, 'learning_rate': 0.0001625668449197861, 'epoch'

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0201356410980225, 'eval_rouge1': 0.46470426526715247, 'eval_rouge2': 0.263661200732957, 'eval_rougeL': 0.3831893314823356, 'eval_rougeLsum': 0.4046830523866125, 'eval_runtime': 11.3127, 'eval_samples_per_second': 1.768, 'eval_steps_per_second': 1.768, 'epoch': 6.78}
{'loss': 2.6921, 'learning_rate': 0.0001620320855614973, 'epoch': 6.79}
{'loss': 2.6655, 'learning_rate': 0.00016149732620320857, 'epoch': 6.8}
{'loss': 2.6881, 'learning_rate': 0.00016096256684491978, 'epoch': 6.81}
{'loss': 2.7579, 'learning_rate': 0.00016042780748663101, 'epoch': 6.82}
{'loss': 2.6877, 'learning_rate': 0.00015989304812834225, 'epoch': 6.83}
{'loss': 2.7984, 'learning_rate': 0.00015935828877005348, 'epoch': 6.84}
{'loss': 2.6918, 'learning_rate': 0.0001588235294117647, 'epoch': 6.85}
{'loss': 2.8171, 'learning_rate': 0.00015828877005347595, 'epoch': 6.86}
{'loss': 2.7346, 'learning_rate': 0.00015775401069518716, 'epoch': 6.87}
{'loss': 2.8171, 'learning_rate': 0.0001572192513368984, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.023618221282959, 'eval_rouge1': 0.46468840565134284, 'eval_rouge2': 0.26607006926269133, 'eval_rougeL': 0.3981509931025045, 'eval_rougeLsum': 0.4272625358809484, 'eval_runtime': 11.1271, 'eval_samples_per_second': 1.797, 'eval_steps_per_second': 1.797, 'epoch': 6.88}
{'loss': 2.7828, 'learning_rate': 0.00015668449197860963, 'epoch': 6.89}
{'loss': 2.7044, 'learning_rate': 0.00015614973262032087, 'epoch': 6.9}
{'loss': 2.8001, 'learning_rate': 0.00015561497326203207, 'epoch': 6.91}
{'loss': 2.7857, 'learning_rate': 0.00015508021390374334, 'epoch': 6.92}
{'loss': 2.7103, 'learning_rate': 0.00015454545454545454, 'epoch': 6.94}
{'loss': 2.7741, 'learning_rate': 0.00015401069518716578, 'epoch': 6.95}
{'loss': 2.6519, 'learning_rate': 0.00015347593582887701, 'epoch': 6.96}
{'loss': 2.7869, 'learning_rate': 0.00015294117647058825, 'epoch': 6.97}
{'loss': 2.7871, 'learning_rate': 0.00015240641711229946, 'epoch': 6.98}
{'loss': 2.7612, 'learning_rate': 0.00015187165775401072, 'e

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0187861919403076, 'eval_rouge1': 0.46906162141856955, 'eval_rouge2': 0.2619353512240119, 'eval_rougeL': 0.38861408360445215, 'eval_rougeLsum': 0.4067825335860138, 'eval_runtime': 11.1616, 'eval_samples_per_second': 1.792, 'eval_steps_per_second': 1.792, 'epoch': 6.99}
{'loss': 2.6805, 'learning_rate': 0.00015133689839572193, 'epoch': 7.0}
{'loss': 2.6861, 'learning_rate': 0.00015080213903743313, 'epoch': 7.01}
{'loss': 2.701, 'learning_rate': 0.0001502673796791444, 'epoch': 7.02}
{'loss': 2.6775, 'learning_rate': 0.0001497326203208556, 'epoch': 7.03}
{'loss': 2.6846, 'learning_rate': 0.00014919786096256684, 'epoch': 7.04}
{'loss': 2.6975, 'learning_rate': 0.00014866310160427807, 'epoch': 7.05}
{'loss': 2.6114, 'learning_rate': 0.0001481283422459893, 'epoch': 7.06}
{'loss': 2.665, 'learning_rate': 0.00014759358288770052, 'epoch': 7.07}
{'loss': 2.6159, 'learning_rate': 0.00014705882352941178, 'epoch': 7.08}
{'loss': 2.6752, 'learning_rate': 0.000146524064171123, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0565714836120605, 'eval_rouge1': 0.49146991096681103, 'eval_rouge2': 0.27309904314155997, 'eval_rougeL': 0.3992902223143126, 'eval_rougeLsum': 0.42443650329195515, 'eval_runtime': 11.6353, 'eval_samples_per_second': 1.719, 'eval_steps_per_second': 1.719, 'epoch': 7.09}
{'loss': 2.7387, 'learning_rate': 0.00014598930481283422, 'epoch': 7.1}
{'loss': 2.6863, 'learning_rate': 0.00014545454545454546, 'epoch': 7.12}
{'loss': 2.7768, 'learning_rate': 0.0001449197860962567, 'epoch': 7.13}
{'loss': 2.7074, 'learning_rate': 0.0001443850267379679, 'epoch': 7.14}
{'loss': 2.658, 'learning_rate': 0.00014385026737967916, 'epoch': 7.15}
{'loss': 2.6932, 'learning_rate': 0.00014331550802139037, 'epoch': 7.16}
{'loss': 2.7099, 'learning_rate': 0.0001427807486631016, 'epoch': 7.17}
{'loss': 2.612, 'learning_rate': 0.00014224598930481284, 'epoch': 7.18}
{'loss': 2.6589, 'learning_rate': 0.00014171122994652407, 'epoch': 7.19}
{'loss': 2.6629, 'learning_rate': 0.00014117647058823528, 'epoc

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.056879997253418, 'eval_rouge1': 0.487824777248819, 'eval_rouge2': 0.27925013672759136, 'eval_rougeL': 0.4038125152080063, 'eval_rougeLsum': 0.4329668673573676, 'eval_runtime': 11.5244, 'eval_samples_per_second': 1.735, 'eval_steps_per_second': 1.735, 'epoch': 7.2}
{'loss': 2.6382, 'learning_rate': 0.00014064171122994654, 'epoch': 7.21}
{'loss': 2.6523, 'learning_rate': 0.00014010695187165775, 'epoch': 7.22}
{'loss': 2.6768, 'learning_rate': 0.00013957219251336901, 'epoch': 7.23}
{'loss': 2.7083, 'learning_rate': 0.00013903743315508022, 'epoch': 7.24}
{'loss': 2.75, 'learning_rate': 0.00013850267379679143, 'epoch': 7.25}
{'loss': 2.6975, 'learning_rate': 0.0001379679144385027, 'epoch': 7.26}
{'loss': 2.649, 'learning_rate': 0.0001374331550802139, 'epoch': 7.27}
{'loss': 2.6835, 'learning_rate': 0.00013689839572192513, 'epoch': 7.28}
{'loss': 2.7191, 'learning_rate': 0.00013636363636363637, 'epoch': 7.3}
{'loss': 2.6857, 'learning_rate': 0.0001358288770053476, 'epoch': 7.

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0591108798980713, 'eval_rouge1': 0.48801415283518096, 'eval_rouge2': 0.2734956845684223, 'eval_rougeL': 0.4095192838160979, 'eval_rougeLsum': 0.43255252747286244, 'eval_runtime': 11.1847, 'eval_samples_per_second': 1.788, 'eval_steps_per_second': 1.788, 'epoch': 7.31}
{'loss': 2.6823, 'learning_rate': 0.0001352941176470588, 'epoch': 7.32}
{'loss': 2.7651, 'learning_rate': 0.00013475935828877007, 'epoch': 7.33}
{'loss': 2.7399, 'learning_rate': 0.00013422459893048128, 'epoch': 7.34}
{'loss': 2.6362, 'learning_rate': 0.00013368983957219252, 'epoch': 7.35}
{'loss': 2.6466, 'learning_rate': 0.00013315508021390375, 'epoch': 7.36}
{'loss': 2.7477, 'learning_rate': 0.00013262032085561499, 'epoch': 7.37}
{'loss': 2.644, 'learning_rate': 0.0001320855614973262, 'epoch': 7.38}
{'loss': 2.666, 'learning_rate': 0.00013155080213903746, 'epoch': 7.39}
{'loss': 2.6314, 'learning_rate': 0.00013101604278074866, 'epoch': 7.4}
{'loss': 2.6199, 'learning_rate': 0.0001304812834224599, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0379507541656494, 'eval_rouge1': 0.5019604716644349, 'eval_rouge2': 0.2840664204332106, 'eval_rougeL': 0.4106341135055338, 'eval_rougeLsum': 0.43434736334802626, 'eval_runtime': 11.1676, 'eval_samples_per_second': 1.791, 'eval_steps_per_second': 1.791, 'epoch': 7.41}
{'loss': 2.5892, 'learning_rate': 0.00012994652406417113, 'epoch': 7.42}
{'loss': 2.7737, 'learning_rate': 0.00012941176470588237, 'epoch': 7.43}
{'loss': 2.6186, 'learning_rate': 0.00012887700534759358, 'epoch': 7.44}
{'loss': 2.6794, 'learning_rate': 0.00012834224598930484, 'epoch': 7.45}
{'loss': 2.727, 'learning_rate': 0.00012780748663101605, 'epoch': 7.46}
{'loss': 2.7311, 'learning_rate': 0.00012727272727272725, 'epoch': 7.48}
{'loss': 2.7228, 'learning_rate': 0.00012673796791443852, 'epoch': 7.49}
{'loss': 2.6267, 'learning_rate': 0.00012620320855614972, 'epoch': 7.5}
{'loss': 2.7537, 'learning_rate': 0.00012566844919786096, 'epoch': 7.51}
{'loss': 2.6437, 'learning_rate': 0.0001251336898395722, 'epo

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0118091106414795, 'eval_rouge1': 0.5001928124743747, 'eval_rouge2': 0.28571792809577207, 'eval_rougeL': 0.41314560354122887, 'eval_rougeLsum': 0.44141187774077895, 'eval_runtime': 11.3298, 'eval_samples_per_second': 1.765, 'eval_steps_per_second': 1.765, 'epoch': 7.52}
{'loss': 2.7632, 'learning_rate': 0.00012459893048128343, 'epoch': 7.53}
{'loss': 2.6674, 'learning_rate': 0.00012406417112299466, 'epoch': 7.54}
{'loss': 2.6928, 'learning_rate': 0.0001235294117647059, 'epoch': 7.55}
{'loss': 2.613, 'learning_rate': 0.00012299465240641713, 'epoch': 7.56}
{'loss': 2.6574, 'learning_rate': 0.00012245989304812834, 'epoch': 7.57}
{'loss': 2.7113, 'learning_rate': 0.00012192513368983956, 'epoch': 7.58}
{'loss': 2.6366, 'learning_rate': 0.0001213903743315508, 'epoch': 7.59}
{'loss': 2.6824, 'learning_rate': 0.00012085561497326203, 'epoch': 7.6}
{'loss': 2.7092, 'learning_rate': 0.00012032085561497325, 'epoch': 7.61}
{'loss': 2.6696, 'learning_rate': 0.00011978609625668449, 'ep

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0310938358306885, 'eval_rouge1': 0.4910735052143862, 'eval_rouge2': 0.27538339934305217, 'eval_rougeL': 0.39828902707281155, 'eval_rougeLsum': 0.4221145375404203, 'eval_runtime': 11.3014, 'eval_samples_per_second': 1.77, 'eval_steps_per_second': 1.77, 'epoch': 7.62}
{'loss': 2.7697, 'learning_rate': 0.00011925133689839572, 'epoch': 7.63}
{'loss': 2.7494, 'learning_rate': 0.00011871657754010695, 'epoch': 7.64}
{'loss': 2.6915, 'learning_rate': 0.00011818181818181818, 'epoch': 7.66}
{'loss': 2.6886, 'learning_rate': 0.00011764705882352942, 'epoch': 7.67}
{'loss': 2.6198, 'learning_rate': 0.00011711229946524064, 'epoch': 7.68}
{'loss': 2.645, 'learning_rate': 0.00011657754010695187, 'epoch': 7.69}
{'loss': 2.7038, 'learning_rate': 0.0001160427807486631, 'epoch': 7.7}
{'loss': 2.618, 'learning_rate': 0.00011550802139037434, 'epoch': 7.71}
{'loss': 2.5947, 'learning_rate': 0.00011497326203208556, 'epoch': 7.72}
{'loss': 2.673, 'learning_rate': 0.0001144385026737968, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.038379430770874, 'eval_rouge1': 0.4901783111604583, 'eval_rouge2': 0.27131647003453874, 'eval_rougeL': 0.3984449440205352, 'eval_rougeLsum': 0.42170861838939555, 'eval_runtime': 11.2732, 'eval_samples_per_second': 1.774, 'eval_steps_per_second': 1.774, 'epoch': 7.73}
{'loss': 2.6274, 'learning_rate': 0.00011390374331550803, 'epoch': 7.74}
{'loss': 2.6909, 'learning_rate': 0.00011336898395721925, 'epoch': 7.75}
{'loss': 2.693, 'learning_rate': 0.00011283422459893049, 'epoch': 7.76}
{'loss': 2.7172, 'learning_rate': 0.00011229946524064172, 'epoch': 7.77}
{'loss': 2.6828, 'learning_rate': 0.00011176470588235294, 'epoch': 7.78}
{'loss': 2.5987, 'learning_rate': 0.00011122994652406418, 'epoch': 7.79}
{'loss': 2.6651, 'learning_rate': 0.00011069518716577541, 'epoch': 7.8}
{'loss': 2.6535, 'learning_rate': 0.00011016042780748662, 'epoch': 7.81}
{'loss': 2.6389, 'learning_rate': 0.00010962566844919786, 'epoch': 7.82}
{'loss': 2.7417, 'learning_rate': 0.00010909090909090909, 'ep

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0249247550964355, 'eval_rouge1': 0.4807667594431919, 'eval_rouge2': 0.2627809627562726, 'eval_rougeL': 0.39896149100384015, 'eval_rougeLsum': 0.42596027638603945, 'eval_runtime': 11.2308, 'eval_samples_per_second': 1.781, 'eval_steps_per_second': 1.781, 'epoch': 7.84}
{'loss': 2.65, 'learning_rate': 0.00010855614973262031, 'epoch': 7.85}
{'loss': 2.7176, 'learning_rate': 0.00010802139037433155, 'epoch': 7.86}
{'loss': 2.81, 'learning_rate': 0.00010748663101604278, 'epoch': 7.87}
{'loss': 2.6283, 'learning_rate': 0.000106951871657754, 'epoch': 7.88}
{'loss': 2.7319, 'learning_rate': 0.00010641711229946524, 'epoch': 7.89}
{'loss': 2.7436, 'learning_rate': 0.00010588235294117647, 'epoch': 7.9}
{'loss': 2.6733, 'learning_rate': 0.0001053475935828877, 'epoch': 7.91}
{'loss': 2.5804, 'learning_rate': 0.00010481283422459893, 'epoch': 7.92}
{'loss': 2.7161, 'learning_rate': 0.00010427807486631017, 'epoch': 7.93}
{'loss': 2.6066, 'learning_rate': 0.00010374331550802139, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.030452251434326, 'eval_rouge1': 0.4833007117090272, 'eval_rouge2': 0.2637062494233948, 'eval_rougeL': 0.39658953420619825, 'eval_rougeLsum': 0.4264140917669329, 'eval_runtime': 11.425, 'eval_samples_per_second': 1.751, 'eval_steps_per_second': 1.751, 'epoch': 7.94}
{'loss': 2.6546, 'learning_rate': 0.00010320855614973262, 'epoch': 7.95}
{'loss': 2.7581, 'learning_rate': 0.00010267379679144386, 'epoch': 7.96}
{'loss': 2.6462, 'learning_rate': 0.00010213903743315508, 'epoch': 7.97}
{'loss': 2.5749, 'learning_rate': 0.00010160427807486631, 'epoch': 7.98}
{'loss': 2.7021, 'learning_rate': 0.00010106951871657755, 'epoch': 7.99}
{'loss': 2.5843, 'learning_rate': 0.00010053475935828878, 'epoch': 8.0}
{'loss': 2.6261, 'learning_rate': 0.0001, 'epoch': 8.02}
{'loss': 2.6178, 'learning_rate': 9.946524064171124e-05, 'epoch': 8.03}
{'loss': 2.6423, 'learning_rate': 9.893048128342247e-05, 'epoch': 8.04}
{'loss': 2.7258, 'learning_rate': 9.839572192513368e-05, 'epoch': 8.05}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.03145170211792, 'eval_rouge1': 0.48811988353638447, 'eval_rouge2': 0.27035077787272555, 'eval_rougeL': 0.3957832502240541, 'eval_rougeLsum': 0.417598725412353, 'eval_runtime': 11.1681, 'eval_samples_per_second': 1.791, 'eval_steps_per_second': 1.791, 'epoch': 8.05}
{'loss': 2.5962, 'learning_rate': 9.786096256684492e-05, 'epoch': 8.06}
{'loss': 2.6396, 'learning_rate': 9.732620320855615e-05, 'epoch': 8.07}
{'loss': 2.6516, 'learning_rate': 9.679144385026737e-05, 'epoch': 8.08}
{'loss': 2.5892, 'learning_rate': 9.625668449197861e-05, 'epoch': 8.09}
{'loss': 2.507, 'learning_rate': 9.572192513368984e-05, 'epoch': 8.1}
{'loss': 2.6054, 'learning_rate': 9.518716577540106e-05, 'epoch': 8.11}
{'loss': 2.5809, 'learning_rate': 9.46524064171123e-05, 'epoch': 8.12}
{'loss': 2.6541, 'learning_rate': 9.411764705882353e-05, 'epoch': 8.13}
{'loss': 2.5731, 'learning_rate': 9.358288770053476e-05, 'epoch': 8.14}
{'loss': 2.596, 'learning_rate': 9.304812834224599e-05, 'epoch': 8.15}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0435571670532227, 'eval_rouge1': 0.492620748914405, 'eval_rouge2': 0.2743244458177493, 'eval_rougeL': 0.39629141655944616, 'eval_rougeLsum': 0.422156574801823, 'eval_runtime': 11.3972, 'eval_samples_per_second': 1.755, 'eval_steps_per_second': 1.755, 'epoch': 8.15}
{'loss': 2.6473, 'learning_rate': 9.251336898395723e-05, 'epoch': 8.16}
{'loss': 2.618, 'learning_rate': 9.197860962566845e-05, 'epoch': 8.17}
{'loss': 2.6592, 'learning_rate': 9.144385026737968e-05, 'epoch': 8.18}
{'loss': 2.5924, 'learning_rate': 9.090909090909092e-05, 'epoch': 8.2}
{'loss': 2.5972, 'learning_rate': 9.037433155080214e-05, 'epoch': 8.21}
{'loss': 2.6728, 'learning_rate': 8.983957219251337e-05, 'epoch': 8.22}
{'loss': 2.6726, 'learning_rate': 8.930481283422461e-05, 'epoch': 8.23}
{'loss': 2.6504, 'learning_rate': 8.877005347593583e-05, 'epoch': 8.24}
{'loss': 2.633, 'learning_rate': 8.823529411764706e-05, 'epoch': 8.25}
{'loss': 2.7009, 'learning_rate': 8.77005347593583e-05, 'epoch': 8.26}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.033128261566162, 'eval_rouge1': 0.48345281203864987, 'eval_rouge2': 0.2652417540947062, 'eval_rougeL': 0.39984218735684063, 'eval_rougeLsum': 0.41894749046526875, 'eval_runtime': 11.4885, 'eval_samples_per_second': 1.741, 'eval_steps_per_second': 1.741, 'epoch': 8.26}
{'loss': 2.5611, 'learning_rate': 8.716577540106951e-05, 'epoch': 8.27}
{'loss': 2.5636, 'learning_rate': 8.663101604278074e-05, 'epoch': 8.28}
{'loss': 2.6511, 'learning_rate': 8.609625668449198e-05, 'epoch': 8.29}
{'loss': 2.6505, 'learning_rate': 8.55614973262032e-05, 'epoch': 8.3}
{'loss': 2.6071, 'learning_rate': 8.502673796791443e-05, 'epoch': 8.31}
{'loss': 2.6574, 'learning_rate': 8.449197860962567e-05, 'epoch': 8.32}
{'loss': 2.693, 'learning_rate': 8.39572192513369e-05, 'epoch': 8.33}
{'loss': 2.6359, 'learning_rate': 8.342245989304812e-05, 'epoch': 8.34}
{'loss': 2.6248, 'learning_rate': 8.288770053475936e-05, 'epoch': 8.35}
{'loss': 2.5986, 'learning_rate': 8.23529411764706e-05, 'epoch': 8.36}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0517477989196777, 'eval_rouge1': 0.4857973560980718, 'eval_rouge2': 0.2700200847501393, 'eval_rougeL': 0.4019835774430649, 'eval_rougeLsum': 0.42441344160072836, 'eval_runtime': 11.2814, 'eval_samples_per_second': 1.773, 'eval_steps_per_second': 1.773, 'epoch': 8.36}
{'loss': 2.5881, 'learning_rate': 8.181818181818182e-05, 'epoch': 8.38}
{'loss': 2.5553, 'learning_rate': 8.128342245989305e-05, 'epoch': 8.39}
{'loss': 2.6081, 'learning_rate': 8.074866310160429e-05, 'epoch': 8.4}
{'loss': 2.6603, 'learning_rate': 8.021390374331551e-05, 'epoch': 8.41}
{'loss': 2.5116, 'learning_rate': 7.967914438502674e-05, 'epoch': 8.42}
{'loss': 2.6331, 'learning_rate': 7.914438502673798e-05, 'epoch': 8.43}
{'loss': 2.6189, 'learning_rate': 7.86096256684492e-05, 'epoch': 8.44}
{'loss': 2.6254, 'learning_rate': 7.807486631016043e-05, 'epoch': 8.45}
{'loss': 2.5985, 'learning_rate': 7.754010695187167e-05, 'epoch': 8.46}
{'loss': 2.534, 'learning_rate': 7.700534759358289e-05, 'epoch': 8.47}

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0497629642486572, 'eval_rouge1': 0.4890302278977703, 'eval_rouge2': 0.26639445717727517, 'eval_rougeL': 0.39356703442666596, 'eval_rougeLsum': 0.41805908790069585, 'eval_runtime': 11.2527, 'eval_samples_per_second': 1.777, 'eval_steps_per_second': 1.777, 'epoch': 8.47}
{'loss': 2.6967, 'learning_rate': 7.647058823529412e-05, 'epoch': 8.48}
{'loss': 2.5952, 'learning_rate': 7.593582887700536e-05, 'epoch': 8.49}
{'loss': 2.6071, 'learning_rate': 7.540106951871657e-05, 'epoch': 8.5}
{'loss': 2.6377, 'learning_rate': 7.48663101604278e-05, 'epoch': 8.51}
{'loss': 2.663, 'learning_rate': 7.433155080213904e-05, 'epoch': 8.52}
{'loss': 2.6972, 'learning_rate': 7.379679144385026e-05, 'epoch': 8.53}
{'loss': 2.6765, 'learning_rate': 7.32620320855615e-05, 'epoch': 8.54}
{'loss': 2.5929, 'learning_rate': 7.272727272727273e-05, 'epoch': 8.56}
{'loss': 2.627, 'learning_rate': 7.219251336898395e-05, 'epoch': 8.57}
{'loss': 2.5882, 'learning_rate': 7.165775401069518e-05, 'epoch': 8.58}

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.043992280960083, 'eval_rouge1': 0.490110592262538, 'eval_rouge2': 0.27211840345571237, 'eval_rougeL': 0.40414449849484835, 'eval_rougeLsum': 0.4286894872291049, 'eval_runtime': 11.353, 'eval_samples_per_second': 1.762, 'eval_steps_per_second': 1.762, 'epoch': 8.58}
{'loss': 2.6767, 'learning_rate': 7.112299465240642e-05, 'epoch': 8.59}
{'loss': 2.596, 'learning_rate': 7.058823529411764e-05, 'epoch': 8.6}
{'loss': 2.6985, 'learning_rate': 7.005347593582888e-05, 'epoch': 8.61}
{'loss': 2.6762, 'learning_rate': 6.951871657754011e-05, 'epoch': 8.62}
{'loss': 2.5585, 'learning_rate': 6.898395721925135e-05, 'epoch': 8.63}
{'loss': 2.5727, 'learning_rate': 6.844919786096257e-05, 'epoch': 8.64}
{'loss': 2.6299, 'learning_rate': 6.79144385026738e-05, 'epoch': 8.65}
{'loss': 2.6297, 'learning_rate': 6.737967914438504e-05, 'epoch': 8.66}
{'loss': 2.5946, 'learning_rate': 6.684491978609626e-05, 'epoch': 8.67}
{'loss': 2.6397, 'learning_rate': 6.631016042780749e-05, 'epoch': 8.68}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.028271198272705, 'eval_rouge1': 0.4813430231343019, 'eval_rouge2': 0.26991686551639205, 'eval_rougeL': 0.4003047094600769, 'eval_rougeLsum': 0.4245636777371039, 'eval_runtime': 11.2537, 'eval_samples_per_second': 1.777, 'eval_steps_per_second': 1.777, 'epoch': 8.68}
{'loss': 2.5861, 'learning_rate': 6.577540106951873e-05, 'epoch': 8.69}
{'loss': 2.5583, 'learning_rate': 6.524064171122995e-05, 'epoch': 8.7}
{'loss': 2.7001, 'learning_rate': 6.470588235294118e-05, 'epoch': 8.71}
{'loss': 2.5781, 'learning_rate': 6.417112299465242e-05, 'epoch': 8.72}
{'loss': 2.5795, 'learning_rate': 6.363636363636363e-05, 'epoch': 8.74}
{'loss': 2.6619, 'learning_rate': 6.310160427807486e-05, 'epoch': 8.75}
{'loss': 2.615, 'learning_rate': 6.25668449197861e-05, 'epoch': 8.76}
{'loss': 2.6554, 'learning_rate': 6.203208556149733e-05, 'epoch': 8.77}
{'loss': 2.5772, 'learning_rate': 6.149732620320857e-05, 'epoch': 8.78}
{'loss': 2.675, 'learning_rate': 6.096256684491978e-05, 'epoch': 8.79}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.035216808319092, 'eval_rouge1': 0.4903581870022916, 'eval_rouge2': 0.27737764459085534, 'eval_rougeL': 0.4059122540720237, 'eval_rougeLsum': 0.4279647901474505, 'eval_runtime': 11.1096, 'eval_samples_per_second': 1.8, 'eval_steps_per_second': 1.8, 'epoch': 8.79}
{'loss': 2.5404, 'learning_rate': 6.0427807486631016e-05, 'epoch': 8.8}
{'loss': 2.5708, 'learning_rate': 5.9893048128342244e-05, 'epoch': 8.81}
{'loss': 2.7195, 'learning_rate': 5.935828877005347e-05, 'epoch': 8.82}
{'loss': 2.6078, 'learning_rate': 5.882352941176471e-05, 'epoch': 8.83}
{'loss': 2.6188, 'learning_rate': 5.8288770053475936e-05, 'epoch': 8.84}
{'loss': 2.6896, 'learning_rate': 5.775401069518717e-05, 'epoch': 8.85}
{'loss': 2.6234, 'learning_rate': 5.72192513368984e-05, 'epoch': 8.86}
{'loss': 2.7344, 'learning_rate': 5.668449197860963e-05, 'epoch': 8.87}
{'loss': 2.5358, 'learning_rate': 5.614973262032086e-05, 'epoch': 8.88}
{'loss': 2.6783, 'learning_rate': 5.561497326203209e-05, 'epoch': 8.89}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.038358688354492, 'eval_rouge1': 0.46828933375175885, 'eval_rouge2': 0.25835912711229936, 'eval_rougeL': 0.38530741307305827, 'eval_rougeLsum': 0.40917671642357845, 'eval_runtime': 11.2748, 'eval_samples_per_second': 1.774, 'eval_steps_per_second': 1.774, 'epoch': 8.89}
{'loss': 2.6351, 'learning_rate': 5.508021390374331e-05, 'epoch': 8.9}
{'loss': 2.7166, 'learning_rate': 5.4545454545454546e-05, 'epoch': 8.92}
{'loss': 2.7439, 'learning_rate': 5.4010695187165774e-05, 'epoch': 8.93}
{'loss': 2.5933, 'learning_rate': 5.3475935828877e-05, 'epoch': 8.94}
{'loss': 2.6122, 'learning_rate': 5.294117647058824e-05, 'epoch': 8.95}
{'loss': 2.5479, 'learning_rate': 5.2406417112299466e-05, 'epoch': 8.96}
{'loss': 2.6018, 'learning_rate': 5.1871657754010694e-05, 'epoch': 8.97}
{'loss': 2.6891, 'learning_rate': 5.133689839572193e-05, 'epoch': 8.98}
{'loss': 2.5624, 'learning_rate': 5.080213903743316e-05, 'epoch': 8.99}
{'loss': 2.6423, 'learning_rate': 5.026737967914439e-05, 'epoch':

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0357210636138916, 'eval_rouge1': 0.4850539624411303, 'eval_rouge2': 0.2686499181170392, 'eval_rougeL': 0.3893311772160283, 'eval_rougeLsum': 0.41622532911859667, 'eval_runtime': 11.3967, 'eval_samples_per_second': 1.755, 'eval_steps_per_second': 1.755, 'epoch': 9.0}
{'loss': 2.5707, 'learning_rate': 4.973262032085562e-05, 'epoch': 9.01}
{'loss': 2.4692, 'learning_rate': 4.919786096256684e-05, 'epoch': 9.02}
{'loss': 2.4993, 'learning_rate': 4.8663101604278076e-05, 'epoch': 9.03}
{'loss': 2.6505, 'learning_rate': 4.8128342245989304e-05, 'epoch': 9.04}
{'loss': 2.5791, 'learning_rate': 4.759358288770053e-05, 'epoch': 9.05}
{'loss': 2.6282, 'learning_rate': 4.705882352941177e-05, 'epoch': 9.06}
{'loss': 2.5369, 'learning_rate': 4.6524064171122996e-05, 'epoch': 9.07}
{'loss': 2.5122, 'learning_rate': 4.5989304812834224e-05, 'epoch': 9.08}
{'loss': 2.6213, 'learning_rate': 4.545454545454546e-05, 'epoch': 9.1}
{'loss': 2.5609, 'learning_rate': 4.491978609625669e-05, 'epoch': 

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.040034055709839, 'eval_rouge1': 0.47607872225241377, 'eval_rouge2': 0.2729271316915983, 'eval_rougeL': 0.3988980970520976, 'eval_rougeLsum': 0.4174777485155065, 'eval_runtime': 11.2552, 'eval_samples_per_second': 1.777, 'eval_steps_per_second': 1.777, 'epoch': 9.11}
{'loss': 2.5992, 'learning_rate': 4.4385026737967915e-05, 'epoch': 9.12}
{'loss': 2.5451, 'learning_rate': 4.385026737967915e-05, 'epoch': 9.13}
{'loss': 2.5421, 'learning_rate': 4.331550802139037e-05, 'epoch': 9.14}
{'loss': 2.5691, 'learning_rate': 4.27807486631016e-05, 'epoch': 9.15}
{'loss': 2.5199, 'learning_rate': 4.2245989304812834e-05, 'epoch': 9.16}
{'loss': 2.6511, 'learning_rate': 4.171122994652406e-05, 'epoch': 9.17}
{'loss': 2.6264, 'learning_rate': 4.11764705882353e-05, 'epoch': 9.18}
{'loss': 2.5834, 'learning_rate': 4.0641711229946525e-05, 'epoch': 9.19}
{'loss': 2.6085, 'learning_rate': 4.0106951871657754e-05, 'epoch': 9.2}
{'loss': 2.6458, 'learning_rate': 3.957219251336899e-05, 'epoch': 9.

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0412755012512207, 'eval_rouge1': 0.4927194575751105, 'eval_rouge2': 0.2795157683109955, 'eval_rougeL': 0.4087644277211253, 'eval_rougeLsum': 0.4312152117502597, 'eval_runtime': 11.4997, 'eval_samples_per_second': 1.739, 'eval_steps_per_second': 1.739, 'epoch': 9.21}
{'loss': 2.6028, 'learning_rate': 3.903743315508022e-05, 'epoch': 9.22}
{'loss': 2.6132, 'learning_rate': 3.8502673796791445e-05, 'epoch': 9.23}
{'loss': 2.5821, 'learning_rate': 3.796791443850268e-05, 'epoch': 9.24}
{'loss': 2.6777, 'learning_rate': 3.74331550802139e-05, 'epoch': 9.25}
{'loss': 2.6245, 'learning_rate': 3.689839572192513e-05, 'epoch': 9.26}
{'loss': 2.5376, 'learning_rate': 3.6363636363636364e-05, 'epoch': 9.28}
{'loss': 2.6009, 'learning_rate': 3.582887700534759e-05, 'epoch': 9.29}
{'loss': 2.6289, 'learning_rate': 3.529411764705882e-05, 'epoch': 9.3}
{'loss': 2.5641, 'learning_rate': 3.4759358288770055e-05, 'epoch': 9.31}
{'loss': 2.5089, 'learning_rate': 3.4224598930481284e-05, 'epoch': 9

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0421547889709473, 'eval_rouge1': 0.486266780120173, 'eval_rouge2': 0.27184594692862407, 'eval_rougeL': 0.3990090326643345, 'eval_rougeLsum': 0.42271994918842404, 'eval_runtime': 11.0645, 'eval_samples_per_second': 1.808, 'eval_steps_per_second': 1.808, 'epoch': 9.32}
{'loss': 2.5661, 'learning_rate': 3.368983957219252e-05, 'epoch': 9.33}
{'loss': 2.6015, 'learning_rate': 3.3155080213903747e-05, 'epoch': 9.34}
{'loss': 2.6083, 'learning_rate': 3.2620320855614975e-05, 'epoch': 9.35}
{'loss': 2.5837, 'learning_rate': 3.208556149732621e-05, 'epoch': 9.36}
{'loss': 2.5692, 'learning_rate': 3.155080213903743e-05, 'epoch': 9.37}
{'loss': 2.5762, 'learning_rate': 3.1016042780748666e-05, 'epoch': 9.38}
{'loss': 2.6509, 'learning_rate': 3.048128342245989e-05, 'epoch': 9.39}
{'loss': 2.5828, 'learning_rate': 2.9946524064171122e-05, 'epoch': 9.4}
{'loss': 2.5417, 'learning_rate': 2.9411764705882354e-05, 'epoch': 9.41}
{'loss': 2.5711, 'learning_rate': 2.8877005347593585e-05, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.033306121826172, 'eval_rouge1': 0.4846727120767416, 'eval_rouge2': 0.2724679816658677, 'eval_rougeL': 0.40064360127250775, 'eval_rougeLsum': 0.42368130908419127, 'eval_runtime': 11.1146, 'eval_samples_per_second': 1.799, 'eval_steps_per_second': 1.799, 'epoch': 9.42}
{'loss': 2.596, 'learning_rate': 2.8342245989304813e-05, 'epoch': 9.43}
{'loss': 2.5884, 'learning_rate': 2.7807486631016045e-05, 'epoch': 9.44}
{'loss': 2.5788, 'learning_rate': 2.7272727272727273e-05, 'epoch': 9.46}
{'loss': 2.6012, 'learning_rate': 2.67379679144385e-05, 'epoch': 9.47}
{'loss': 2.6287, 'learning_rate': 2.6203208556149733e-05, 'epoch': 9.48}
{'loss': 2.6073, 'learning_rate': 2.5668449197860964e-05, 'epoch': 9.49}
{'loss': 2.5747, 'learning_rate': 2.5133689839572196e-05, 'epoch': 9.5}
{'loss': 2.6096, 'learning_rate': 2.459893048128342e-05, 'epoch': 9.51}
{'loss': 2.6122, 'learning_rate': 2.4064171122994652e-05, 'epoch': 9.52}
{'loss': 2.6366, 'learning_rate': 2.3529411764705884e-05, 'epoch

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0286080837249756, 'eval_rouge1': 0.484442475429488, 'eval_rouge2': 0.2740762564313258, 'eval_rougeL': 0.3994984823568969, 'eval_rougeLsum': 0.4220899214463317, 'eval_runtime': 11.1947, 'eval_samples_per_second': 1.787, 'eval_steps_per_second': 1.787, 'epoch': 9.53}
{'loss': 2.5973, 'learning_rate': 2.2994652406417112e-05, 'epoch': 9.54}
{'loss': 2.553, 'learning_rate': 2.2459893048128343e-05, 'epoch': 9.55}
{'loss': 2.6968, 'learning_rate': 2.1925133689839575e-05, 'epoch': 9.56}
{'loss': 2.7035, 'learning_rate': 2.13903743315508e-05, 'epoch': 9.57}
{'loss': 2.6103, 'learning_rate': 2.085561497326203e-05, 'epoch': 9.58}
{'loss': 2.5581, 'learning_rate': 2.0320855614973263e-05, 'epoch': 9.59}
{'loss': 2.6134, 'learning_rate': 1.9786096256684494e-05, 'epoch': 9.6}
{'loss': 2.5733, 'learning_rate': 1.9251336898395722e-05, 'epoch': 9.61}
{'loss': 2.6105, 'learning_rate': 1.871657754010695e-05, 'epoch': 9.62}
{'loss': 2.6612, 'learning_rate': 1.8181818181818182e-05, 'epoch': 

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0249454975128174, 'eval_rouge1': 0.5046427651976644, 'eval_rouge2': 0.28502527407745126, 'eval_rougeL': 0.4108034882607252, 'eval_rougeLsum': 0.4366973100182535, 'eval_runtime': 11.2052, 'eval_samples_per_second': 1.785, 'eval_steps_per_second': 1.785, 'epoch': 9.64}
{'loss': 2.6039, 'learning_rate': 1.764705882352941e-05, 'epoch': 9.65}
{'loss': 2.5926, 'learning_rate': 1.7112299465240642e-05, 'epoch': 9.66}
{'loss': 2.5313, 'learning_rate': 1.6577540106951873e-05, 'epoch': 9.67}
{'loss': 2.622, 'learning_rate': 1.6042780748663105e-05, 'epoch': 9.68}
{'loss': 2.5707, 'learning_rate': 1.5508021390374333e-05, 'epoch': 9.69}
{'loss': 2.5451, 'learning_rate': 1.4973262032085561e-05, 'epoch': 9.7}
{'loss': 2.6155, 'learning_rate': 1.4438502673796793e-05, 'epoch': 9.71}
{'loss': 2.5925, 'learning_rate': 1.3903743315508022e-05, 'epoch': 9.72}
{'loss': 2.6482, 'learning_rate': 1.336898395721925e-05, 'epoch': 9.73}
{'loss': 2.5547, 'learning_rate': 1.2834224598930482e-05, 'epoc

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.029693126678467, 'eval_rouge1': 0.4995627369778739, 'eval_rouge2': 0.28425467934355125, 'eval_rougeL': 0.4104432806999512, 'eval_rougeLsum': 0.4347540743844628, 'eval_runtime': 11.0538, 'eval_samples_per_second': 1.809, 'eval_steps_per_second': 1.809, 'epoch': 9.74}
{'loss': 2.5675, 'learning_rate': 1.229946524064171e-05, 'epoch': 9.75}
{'loss': 2.5431, 'learning_rate': 1.1764705882352942e-05, 'epoch': 9.76}
{'loss': 2.5763, 'learning_rate': 1.1229946524064172e-05, 'epoch': 9.77}
{'loss': 2.5277, 'learning_rate': 1.06951871657754e-05, 'epoch': 9.78}
{'loss': 2.5785, 'learning_rate': 1.0160427807486631e-05, 'epoch': 9.79}
{'loss': 2.5688, 'learning_rate': 9.625668449197861e-06, 'epoch': 9.8}
{'loss': 2.5842, 'learning_rate': 9.090909090909091e-06, 'epoch': 9.82}
{'loss': 2.59, 'learning_rate': 8.556149732620321e-06, 'epoch': 9.83}
{'loss': 2.6, 'learning_rate': 8.021390374331552e-06, 'epoch': 9.84}
{'loss': 2.6082, 'learning_rate': 7.4866310160427806e-06, 'epoch': 9.85}


  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.0270307064056396, 'eval_rouge1': 0.49498861979167535, 'eval_rouge2': 0.2767119096578238, 'eval_rougeL': 0.4009384462384352, 'eval_rougeLsum': 0.4253422842148876, 'eval_runtime': 11.2296, 'eval_samples_per_second': 1.781, 'eval_steps_per_second': 1.781, 'epoch': 9.85}
{'loss': 2.6675, 'learning_rate': 6.951871657754011e-06, 'epoch': 9.86}
{'loss': 2.5515, 'learning_rate': 6.417112299465241e-06, 'epoch': 9.87}
{'loss': 2.5801, 'learning_rate': 5.882352941176471e-06, 'epoch': 9.88}
{'loss': 2.523, 'learning_rate': 5.3475935828877e-06, 'epoch': 9.89}
{'loss': 2.541, 'learning_rate': 4.812834224598931e-06, 'epoch': 9.9}
{'loss': 2.6464, 'learning_rate': 4.2780748663101604e-06, 'epoch': 9.91}
{'loss': 2.578, 'learning_rate': 3.7433155080213903e-06, 'epoch': 9.92}
{'loss': 2.6819, 'learning_rate': 3.2085561497326205e-06, 'epoch': 9.93}
{'loss': 2.5799, 'learning_rate': 2.67379679144385e-06, 'epoch': 9.94}
{'loss': 2.5014, 'learning_rate': 2.1390374331550802e-06, 'epoch': 9.95}

  0%|          | 0/20 [00:00<?, ?it/s]

{'eval_loss': 3.029432773590088, 'eval_rouge1': 0.4995627369778739, 'eval_rouge2': 0.28425467934355125, 'eval_rougeL': 0.4104432806999512, 'eval_rougeLsum': 0.4347540743844628, 'eval_runtime': 11.1126, 'eval_samples_per_second': 1.8, 'eval_steps_per_second': 1.8, 'epoch': 9.95}
{'loss': 2.5658, 'learning_rate': 1.6042780748663103e-06, 'epoch': 9.96}
{'loss': 2.5938, 'learning_rate': 1.0695187165775401e-06, 'epoch': 9.97}
{'loss': 2.5668, 'learning_rate': 5.347593582887701e-07, 'epoch': 9.98}
{'loss': 2.5172, 'learning_rate': 0.0, 'epoch': 10.0}
{'train_runtime': 14888.1299, 'train_samples_per_second': 20.299, 'train_steps_per_second': 0.634, 'train_loss': 3.0734061154268555, 'epoch': 10.0}


TrainOutput(global_step=9440, training_loss=3.0734061154268555, metrics={'train_runtime': 14888.1299, 'train_samples_per_second': 20.299, 'train_steps_per_second': 0.634, 'train_loss': 3.0734061154268555, 'epoch': 10.0})

In [10]:
import os
from transformers import AutoModelForSeq2SeqLM

# save fine-tuned model in local
os.makedirs("./trained_for_summarization_tw", exist_ok=True)
if hasattr(trainer.model, "module"):
  trainer.model.module.save_pretrained("./trained_for_summarization_tw")
else:
  trainer.model.save_pretrained("./trained_for_summarization_tw")

# load local model
model = (AutoModelForSeq2SeqLM
         .from_pretrained("./trained_for_summarization_tw")
         .to(device))

In [14]:
from torch.utils.data import DataLoader

# Predict with test data (first 5 rows)
sample_dataloader = DataLoader(
  tokenized_ds["test"].with_format("torch"),
  collate_fn=data_collator,
  batch_size=5)
for batch in sample_dataloader:
  with torch.no_grad():
    preds = model.generate(
      batch["input_ids"].to(device),
      num_beams=15,
      num_return_sequences=1,
      no_repeat_ngram_size=1,
      remove_invalid_values=True,
      max_length=128,
    )
  labels = batch["labels"]
  break

# Replace -100 (see above)
labels = np.where(labels != -100, labels, mt5_tokenizer.pad_token_id)

# Convert id tokens to text
text_preds = mt5_tokenizer.batch_decode(preds, skip_special_tokens=True)
text_labels = mt5_tokenizer.batch_decode(labels, skip_special_tokens=True)

# Show result
print("***** Input's Text *****")
print(dataset["test"]["article"][4])
print("***** Summary Text (True Value) *****")
print(text_labels[4])
print("***** Summary Text (Generated Text) *****")
print(text_preds[4])

***** Input's Text *****
***** Summary Text (True Value) *****
身材不是最重要!男性票選理想女友特質Top 10 第一名讓人猜不到
***** Summary Text (Generated Text) *****
「理想女友」外在條件佔比不高!第一名讓人覺得厭煩
