In [1]:
# Scaling laws for neural networks

from transformers import GPT2TokenizerFast
import datasets
from transformers import GPT2LMHeadModel, DataCollatorForLanguageModeling, TrainingArguments, Trainer

In [2]:
t = GPT2TokenizerFast.from_pretrained('distilgpt2')
t.pad_token = t.eos_token

d0 = datasets.load_dataset("wikitext","wikitext-2-v1")

In [3]:
dval = d0['validation']
d0 = d0['train']

slen = 64
def tokenize(element):
    outputs = t(element["text"], truncation=True, max_length=slen, return_overflowing_tokens=True, return_length=True)
    input_batch = []
    for length, input_ids in zip(outputs["length"], outputs["input_ids"]):
        if length == slen: input_batch.append(input_ids)
    return {"input_ids": input_batch}
d0= d0.map(tokenize, batched=True, remove_columns=d0.column_names)
dval = dval.map(tokenize, batched=True, remove_columns=dval.column_names)
d0 = d0.select([i for i in range(90)])
print("datatrain",d0)
dval = dval.select([i for i in range(10)])
print("datavral",dval)

Map:   0%|          | 0/3760 [00:00<?, ? examples/s]

datatrain Dataset({
    features: ['input_ids'],
    num_rows: 90
})
datavral Dataset({
    features: ['input_ids'],
    num_rows: 10
})


In [4]:
ep = 1
dc = DataCollatorForLanguageModeling(tokenizer=t, mlm=False)
model = GPT2LMHeadModel.from_pretrained('distilgpt2')
trargs = TrainingArguments(".", do_train=True, num_train_epochs=ep, per_device_train_batch_size=1, logging_steps=1, learning_rate=0.0001,
        per_device_eval_batch_size=1, evaluation_strategy="steps", eval_steps=1)
tr = Trainer(model=model, args=trargs, train_dataset=d0, eval_dataset=dval, tokenizer=t, data_collator=dc)
tr.train()



  0%|          | 0/90 [00:00<?, ?it/s]

{'loss': 5.7401, 'grad_norm': 25.521936416625977, 'learning_rate': 9.888888888888889e-05, 'epoch': 0.01}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.4415669441223145, 'eval_runtime': 0.5644, 'eval_samples_per_second': 17.717, 'eval_steps_per_second': 17.717, 'epoch': 0.01}
{'loss': 5.036, 'grad_norm': 19.63477325439453, 'learning_rate': 9.777777777777778e-05, 'epoch': 0.02}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.386664390563965, 'eval_runtime': 0.4914, 'eval_samples_per_second': 20.351, 'eval_steps_per_second': 20.351, 'epoch': 0.02}
{'loss': 6.4559, 'grad_norm': 19.85694694519043, 'learning_rate': 9.666666666666667e-05, 'epoch': 0.03}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.33546257019043, 'eval_runtime': 0.4575, 'eval_samples_per_second': 21.859, 'eval_steps_per_second': 21.859, 'epoch': 0.03}
{'loss': 4.4872, 'grad_norm': 17.28373146057129, 'learning_rate': 9.555555555555557e-05, 'epoch': 0.04}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.281554698944092, 'eval_runtime': 0.5717, 'eval_samples_per_second': 17.491, 'eval_steps_per_second': 17.491, 'epoch': 0.04}
{'loss': 4.4003, 'grad_norm': 19.87548065185547, 'learning_rate': 9.444444444444444e-05, 'epoch': 0.06}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.254778861999512, 'eval_runtime': 0.465, 'eval_samples_per_second': 21.504, 'eval_steps_per_second': 21.504, 'epoch': 0.06}
{'loss': 5.5186, 'grad_norm': 19.25905990600586, 'learning_rate': 9.333333333333334e-05, 'epoch': 0.07}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.240801811218262, 'eval_runtime': 0.5269, 'eval_samples_per_second': 18.981, 'eval_steps_per_second': 18.981, 'epoch': 0.07}
{'loss': 4.3363, 'grad_norm': 20.48720359802246, 'learning_rate': 9.222222222222223e-05, 'epoch': 0.08}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.239785194396973, 'eval_runtime': 0.4759, 'eval_samples_per_second': 21.012, 'eval_steps_per_second': 21.012, 'epoch': 0.08}
{'loss': 5.2575, 'grad_norm': 21.462770462036133, 'learning_rate': 9.111111111111112e-05, 'epoch': 0.09}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.243952751159668, 'eval_runtime': 0.4798, 'eval_samples_per_second': 20.843, 'eval_steps_per_second': 20.843, 'epoch': 0.09}
{'loss': 4.3777, 'grad_norm': 18.640596389770508, 'learning_rate': 9e-05, 'epoch': 0.1}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.248261451721191, 'eval_runtime': 0.5295, 'eval_samples_per_second': 18.887, 'eval_steps_per_second': 18.887, 'epoch': 0.1}
{'loss': 3.9338, 'grad_norm': 21.863296508789062, 'learning_rate': 8.888888888888889e-05, 'epoch': 0.11}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.25583553314209, 'eval_runtime': 0.4607, 'eval_samples_per_second': 21.706, 'eval_steps_per_second': 21.706, 'epoch': 0.11}
{'loss': 4.1744, 'grad_norm': 19.577655792236328, 'learning_rate': 8.777777777777778e-05, 'epoch': 0.12}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.266143321990967, 'eval_runtime': 0.4547, 'eval_samples_per_second': 21.99, 'eval_steps_per_second': 21.99, 'epoch': 0.12}
{'loss': 4.285, 'grad_norm': 21.187570571899414, 'learning_rate': 8.666666666666667e-05, 'epoch': 0.13}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.283980846405029, 'eval_runtime': 0.4793, 'eval_samples_per_second': 20.865, 'eval_steps_per_second': 20.865, 'epoch': 0.13}
{'loss': 3.9931, 'grad_norm': 23.988943099975586, 'learning_rate': 8.555555555555556e-05, 'epoch': 0.14}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.30027961730957, 'eval_runtime': 0.4453, 'eval_samples_per_second': 22.459, 'eval_steps_per_second': 22.459, 'epoch': 0.14}
{'loss': 5.2277, 'grad_norm': 18.875226974487305, 'learning_rate': 8.444444444444444e-05, 'epoch': 0.16}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.304394721984863, 'eval_runtime': 0.5241, 'eval_samples_per_second': 19.082, 'eval_steps_per_second': 19.082, 'epoch': 0.16}
{'loss': 4.5966, 'grad_norm': 19.658811569213867, 'learning_rate': 8.333333333333334e-05, 'epoch': 0.17}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.298184394836426, 'eval_runtime': 0.447, 'eval_samples_per_second': 22.37, 'eval_steps_per_second': 22.37, 'epoch': 0.17}
{'loss': 3.9228, 'grad_norm': 20.547088623046875, 'learning_rate': 8.222222222222222e-05, 'epoch': 0.18}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.294473171234131, 'eval_runtime': 0.4428, 'eval_samples_per_second': 22.581, 'eval_steps_per_second': 22.581, 'epoch': 0.18}
{'loss': 4.5158, 'grad_norm': 23.391643524169922, 'learning_rate': 8.111111111111112e-05, 'epoch': 0.19}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.2836222648620605, 'eval_runtime': 0.5232, 'eval_samples_per_second': 19.112, 'eval_steps_per_second': 19.112, 'epoch': 0.19}
{'loss': 3.2305, 'grad_norm': 21.233592987060547, 'learning_rate': 8e-05, 'epoch': 0.2}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.2751784324646, 'eval_runtime': 0.4399, 'eval_samples_per_second': 22.731, 'eval_steps_per_second': 22.731, 'epoch': 0.2}
{'loss': 3.4618, 'grad_norm': 18.98032569885254, 'learning_rate': 7.88888888888889e-05, 'epoch': 0.21}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.26506233215332, 'eval_runtime': 0.4708, 'eval_samples_per_second': 21.239, 'eval_steps_per_second': 21.239, 'epoch': 0.21}
{'loss': 3.904, 'grad_norm': 18.770347595214844, 'learning_rate': 7.777777777777778e-05, 'epoch': 0.22}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.257669448852539, 'eval_runtime': 0.5415, 'eval_samples_per_second': 18.468, 'eval_steps_per_second': 18.468, 'epoch': 0.22}
{'loss': 4.1799, 'grad_norm': 21.884307861328125, 'learning_rate': 7.666666666666667e-05, 'epoch': 0.23}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.253930568695068, 'eval_runtime': 0.4476, 'eval_samples_per_second': 22.341, 'eval_steps_per_second': 22.341, 'epoch': 0.23}
{'loss': 4.1025, 'grad_norm': 20.26140594482422, 'learning_rate': 7.555555555555556e-05, 'epoch': 0.24}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.242224216461182, 'eval_runtime': 0.4435, 'eval_samples_per_second': 22.55, 'eval_steps_per_second': 22.55, 'epoch': 0.24}
{'loss': 3.7029, 'grad_norm': 19.222854614257812, 'learning_rate': 7.444444444444444e-05, 'epoch': 0.26}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.2336835861206055, 'eval_runtime': 0.4602, 'eval_samples_per_second': 21.727, 'eval_steps_per_second': 21.727, 'epoch': 0.26}
{'loss': 3.728, 'grad_norm': 20.129772186279297, 'learning_rate': 7.333333333333333e-05, 'epoch': 0.27}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.225817680358887, 'eval_runtime': 0.4458, 'eval_samples_per_second': 22.429, 'eval_steps_per_second': 22.429, 'epoch': 0.27}
{'loss': 4.4174, 'grad_norm': 22.21619987487793, 'learning_rate': 7.222222222222222e-05, 'epoch': 0.28}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.214072227478027, 'eval_runtime': 0.5259, 'eval_samples_per_second': 19.015, 'eval_steps_per_second': 19.015, 'epoch': 0.28}
{'loss': 3.8772, 'grad_norm': 22.927547454833984, 'learning_rate': 7.111111111111112e-05, 'epoch': 0.29}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.202847480773926, 'eval_runtime': 0.4473, 'eval_samples_per_second': 22.355, 'eval_steps_per_second': 22.355, 'epoch': 0.29}
{'loss': 3.918, 'grad_norm': 19.50896644592285, 'learning_rate': 7e-05, 'epoch': 0.3}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.189577579498291, 'eval_runtime': 0.4512, 'eval_samples_per_second': 22.164, 'eval_steps_per_second': 22.164, 'epoch': 0.3}
{'loss': 4.4405, 'grad_norm': 18.22975730895996, 'learning_rate': 6.88888888888889e-05, 'epoch': 0.31}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.17767858505249, 'eval_runtime': 0.5202, 'eval_samples_per_second': 19.224, 'eval_steps_per_second': 19.224, 'epoch': 0.31}
{'loss': 3.4631, 'grad_norm': 19.146156311035156, 'learning_rate': 6.777777777777778e-05, 'epoch': 0.32}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.167211055755615, 'eval_runtime': 0.4638, 'eval_samples_per_second': 21.562, 'eval_steps_per_second': 21.562, 'epoch': 0.32}
{'loss': 4.472, 'grad_norm': 19.84195327758789, 'learning_rate': 6.666666666666667e-05, 'epoch': 0.33}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.156577110290527, 'eval_runtime': 0.4386, 'eval_samples_per_second': 22.799, 'eval_steps_per_second': 22.799, 'epoch': 0.33}
{'loss': 3.9463, 'grad_norm': 27.542980194091797, 'learning_rate': 6.555555555555556e-05, 'epoch': 0.34}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.144015312194824, 'eval_runtime': 0.455, 'eval_samples_per_second': 21.977, 'eval_steps_per_second': 21.977, 'epoch': 0.34}
{'loss': 4.3954, 'grad_norm': 18.900741577148438, 'learning_rate': 6.444444444444446e-05, 'epoch': 0.36}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.136137962341309, 'eval_runtime': 0.449, 'eval_samples_per_second': 22.274, 'eval_steps_per_second': 22.274, 'epoch': 0.36}
{'loss': 4.0986, 'grad_norm': 18.102874755859375, 'learning_rate': 6.333333333333333e-05, 'epoch': 0.37}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.130122184753418, 'eval_runtime': 0.5367, 'eval_samples_per_second': 18.632, 'eval_steps_per_second': 18.632, 'epoch': 0.37}
{'loss': 4.0214, 'grad_norm': 19.282733917236328, 'learning_rate': 6.222222222222222e-05, 'epoch': 0.38}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.124358654022217, 'eval_runtime': 0.4687, 'eval_samples_per_second': 21.333, 'eval_steps_per_second': 21.333, 'epoch': 0.38}
{'loss': 3.3485, 'grad_norm': 19.880962371826172, 'learning_rate': 6.111111111111112e-05, 'epoch': 0.39}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.120548725128174, 'eval_runtime': 0.4593, 'eval_samples_per_second': 21.77, 'eval_steps_per_second': 21.77, 'epoch': 0.39}
{'loss': 4.5054, 'grad_norm': 25.154029846191406, 'learning_rate': 6e-05, 'epoch': 0.4}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.1116228103637695, 'eval_runtime': 0.4412, 'eval_samples_per_second': 22.665, 'eval_steps_per_second': 22.665, 'epoch': 0.4}
{'loss': 4.1477, 'grad_norm': 18.295787811279297, 'learning_rate': 5.8888888888888896e-05, 'epoch': 0.41}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.106698036193848, 'eval_runtime': 0.4447, 'eval_samples_per_second': 22.487, 'eval_steps_per_second': 22.487, 'epoch': 0.41}
{'loss': 4.1298, 'grad_norm': 17.87449836730957, 'learning_rate': 5.7777777777777776e-05, 'epoch': 0.42}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.10143518447876, 'eval_runtime': 0.527, 'eval_samples_per_second': 18.975, 'eval_steps_per_second': 18.975, 'epoch': 0.42}
{'loss': 4.1827, 'grad_norm': 19.514644622802734, 'learning_rate': 5.666666666666667e-05, 'epoch': 0.43}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.095035076141357, 'eval_runtime': 0.4852, 'eval_samples_per_second': 20.611, 'eval_steps_per_second': 20.611, 'epoch': 0.43}
{'loss': 4.3402, 'grad_norm': 21.85080909729004, 'learning_rate': 5.555555555555556e-05, 'epoch': 0.44}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.089980602264404, 'eval_runtime': 0.4527, 'eval_samples_per_second': 22.091, 'eval_steps_per_second': 22.091, 'epoch': 0.44}
{'loss': 4.3814, 'grad_norm': 19.422203063964844, 'learning_rate': 5.4444444444444446e-05, 'epoch': 0.46}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.0847673416137695, 'eval_runtime': 0.5153, 'eval_samples_per_second': 19.406, 'eval_steps_per_second': 19.406, 'epoch': 0.46}
{'loss': 4.1501, 'grad_norm': 18.870685577392578, 'learning_rate': 5.333333333333333e-05, 'epoch': 0.47}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.082319736480713, 'eval_runtime': 0.4669, 'eval_samples_per_second': 21.418, 'eval_steps_per_second': 21.418, 'epoch': 0.47}
{'loss': 3.4764, 'grad_norm': 18.880779266357422, 'learning_rate': 5.222222222222223e-05, 'epoch': 0.48}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.082535266876221, 'eval_runtime': 0.5471, 'eval_samples_per_second': 18.277, 'eval_steps_per_second': 18.277, 'epoch': 0.48}
{'loss': 4.1284, 'grad_norm': 19.604461669921875, 'learning_rate': 5.111111111111111e-05, 'epoch': 0.49}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.084136009216309, 'eval_runtime': 0.4544, 'eval_samples_per_second': 22.007, 'eval_steps_per_second': 22.007, 'epoch': 0.49}
{'loss': 4.0979, 'grad_norm': 20.36408805847168, 'learning_rate': 5e-05, 'epoch': 0.5}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.085257053375244, 'eval_runtime': 0.484, 'eval_samples_per_second': 20.66, 'eval_steps_per_second': 20.66, 'epoch': 0.5}
{'loss': 3.8252, 'grad_norm': 17.758583068847656, 'learning_rate': 4.888888888888889e-05, 'epoch': 0.51}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.087120056152344, 'eval_runtime': 0.5443, 'eval_samples_per_second': 18.373, 'eval_steps_per_second': 18.373, 'epoch': 0.51}
{'loss': 3.636, 'grad_norm': 19.514331817626953, 'learning_rate': 4.7777777777777784e-05, 'epoch': 0.52}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.090484619140625, 'eval_runtime': 0.5293, 'eval_samples_per_second': 18.891, 'eval_steps_per_second': 18.891, 'epoch': 0.52}
{'loss': 2.9227, 'grad_norm': 17.30066680908203, 'learning_rate': 4.666666666666667e-05, 'epoch': 0.53}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.095337390899658, 'eval_runtime': 0.4487, 'eval_samples_per_second': 22.288, 'eval_steps_per_second': 22.288, 'epoch': 0.53}
{'loss': 4.2485, 'grad_norm': 26.02021598815918, 'learning_rate': 4.555555555555556e-05, 'epoch': 0.54}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.097171306610107, 'eval_runtime': 0.4527, 'eval_samples_per_second': 22.09, 'eval_steps_per_second': 22.09, 'epoch': 0.54}
{'loss': 4.4743, 'grad_norm': 20.680706024169922, 'learning_rate': 4.4444444444444447e-05, 'epoch': 0.56}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.095094203948975, 'eval_runtime': 0.52, 'eval_samples_per_second': 19.232, 'eval_steps_per_second': 19.232, 'epoch': 0.56}
{'loss': 4.1883, 'grad_norm': 20.377208709716797, 'learning_rate': 4.3333333333333334e-05, 'epoch': 0.57}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.092672824859619, 'eval_runtime': 0.4522, 'eval_samples_per_second': 22.112, 'eval_steps_per_second': 22.112, 'epoch': 0.57}
{'loss': 3.6608, 'grad_norm': 19.26466941833496, 'learning_rate': 4.222222222222222e-05, 'epoch': 0.58}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.092669486999512, 'eval_runtime': 0.5387, 'eval_samples_per_second': 18.565, 'eval_steps_per_second': 18.565, 'epoch': 0.58}
{'loss': 3.9135, 'grad_norm': 18.91793441772461, 'learning_rate': 4.111111111111111e-05, 'epoch': 0.59}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.09423828125, 'eval_runtime': 0.4543, 'eval_samples_per_second': 22.011, 'eval_steps_per_second': 22.011, 'epoch': 0.59}
{'loss': 4.1123, 'grad_norm': 18.068408966064453, 'learning_rate': 4e-05, 'epoch': 0.6}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.096003532409668, 'eval_runtime': 0.4447, 'eval_samples_per_second': 22.488, 'eval_steps_per_second': 22.488, 'epoch': 0.6}
{'loss': 4.2651, 'grad_norm': 20.186752319335938, 'learning_rate': 3.888888888888889e-05, 'epoch': 0.61}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.096325397491455, 'eval_runtime': 0.5309, 'eval_samples_per_second': 18.837, 'eval_steps_per_second': 18.837, 'epoch': 0.61}
{'loss': 3.4319, 'grad_norm': 17.648513793945312, 'learning_rate': 3.777777777777778e-05, 'epoch': 0.62}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.094703674316406, 'eval_runtime': 0.4501, 'eval_samples_per_second': 22.216, 'eval_steps_per_second': 22.216, 'epoch': 0.62}
{'loss': 3.8616, 'grad_norm': 18.335538864135742, 'learning_rate': 3.6666666666666666e-05, 'epoch': 0.63}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.092527389526367, 'eval_runtime': 0.5405, 'eval_samples_per_second': 18.502, 'eval_steps_per_second': 18.502, 'epoch': 0.63}
{'loss': 4.2535, 'grad_norm': 19.773914337158203, 'learning_rate': 3.555555555555556e-05, 'epoch': 0.64}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.089584827423096, 'eval_runtime': 0.472, 'eval_samples_per_second': 21.188, 'eval_steps_per_second': 21.188, 'epoch': 0.64}
{'loss': 3.9943, 'grad_norm': 21.53346061706543, 'learning_rate': 3.444444444444445e-05, 'epoch': 0.66}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.087071418762207, 'eval_runtime': 0.466, 'eval_samples_per_second': 21.46, 'eval_steps_per_second': 21.46, 'epoch': 0.66}
{'loss': 4.0507, 'grad_norm': 19.552274703979492, 'learning_rate': 3.3333333333333335e-05, 'epoch': 0.67}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.083815574645996, 'eval_runtime': 0.5125, 'eval_samples_per_second': 19.513, 'eval_steps_per_second': 19.513, 'epoch': 0.67}
{'loss': 3.2107, 'grad_norm': 16.29998016357422, 'learning_rate': 3.222222222222223e-05, 'epoch': 0.68}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.082113265991211, 'eval_runtime': 0.461, 'eval_samples_per_second': 21.694, 'eval_steps_per_second': 21.694, 'epoch': 0.68}
{'loss': 3.8724, 'grad_norm': 19.28742027282715, 'learning_rate': 3.111111111111111e-05, 'epoch': 0.69}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.080803871154785, 'eval_runtime': 0.5206, 'eval_samples_per_second': 19.207, 'eval_steps_per_second': 19.207, 'epoch': 0.69}
{'loss': 3.5309, 'grad_norm': 19.663042068481445, 'learning_rate': 3e-05, 'epoch': 0.7}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.079379081726074, 'eval_runtime': 0.4503, 'eval_samples_per_second': 22.205, 'eval_steps_per_second': 22.205, 'epoch': 0.7}
{'loss': 2.8699, 'grad_norm': 15.352190017700195, 'learning_rate': 2.8888888888888888e-05, 'epoch': 0.71}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.077733516693115, 'eval_runtime': 0.4715, 'eval_samples_per_second': 21.21, 'eval_steps_per_second': 21.21, 'epoch': 0.71}
{'loss': 4.078, 'grad_norm': 18.819372177124023, 'learning_rate': 2.777777777777778e-05, 'epoch': 0.72}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.076054573059082, 'eval_runtime': 0.5264, 'eval_samples_per_second': 18.997, 'eval_steps_per_second': 18.997, 'epoch': 0.72}
{'loss': 3.4381, 'grad_norm': 19.579856872558594, 'learning_rate': 2.6666666666666667e-05, 'epoch': 0.73}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.074435234069824, 'eval_runtime': 0.4509, 'eval_samples_per_second': 22.178, 'eval_steps_per_second': 22.178, 'epoch': 0.73}
{'loss': 3.9813, 'grad_norm': 18.734586715698242, 'learning_rate': 2.5555555555555554e-05, 'epoch': 0.74}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.0728960037231445, 'eval_runtime': 0.5561, 'eval_samples_per_second': 17.982, 'eval_steps_per_second': 17.982, 'epoch': 0.74}
{'loss': 4.5877, 'grad_norm': 19.351652145385742, 'learning_rate': 2.4444444444444445e-05, 'epoch': 0.76}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.071114540100098, 'eval_runtime': 0.4423, 'eval_samples_per_second': 22.608, 'eval_steps_per_second': 22.608, 'epoch': 0.76}
{'loss': 4.1025, 'grad_norm': 19.447362899780273, 'learning_rate': 2.3333333333333336e-05, 'epoch': 0.77}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.069612979888916, 'eval_runtime': 0.4479, 'eval_samples_per_second': 22.329, 'eval_steps_per_second': 22.329, 'epoch': 0.77}
{'loss': 3.3006, 'grad_norm': 20.417816162109375, 'learning_rate': 2.2222222222222223e-05, 'epoch': 0.78}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.0682902336120605, 'eval_runtime': 0.4602, 'eval_samples_per_second': 21.73, 'eval_steps_per_second': 21.73, 'epoch': 0.78}
{'loss': 4.4059, 'grad_norm': 20.585521697998047, 'learning_rate': 2.111111111111111e-05, 'epoch': 0.79}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.066617012023926, 'eval_runtime': 0.4511, 'eval_samples_per_second': 22.168, 'eval_steps_per_second': 22.168, 'epoch': 0.79}
{'loss': 4.021, 'grad_norm': 23.50567054748535, 'learning_rate': 2e-05, 'epoch': 0.8}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.065402030944824, 'eval_runtime': 0.5242, 'eval_samples_per_second': 19.077, 'eval_steps_per_second': 19.077, 'epoch': 0.8}
{'loss': 3.7943, 'grad_norm': 17.315502166748047, 'learning_rate': 1.888888888888889e-05, 'epoch': 0.81}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.064476013183594, 'eval_runtime': 0.4685, 'eval_samples_per_second': 21.345, 'eval_steps_per_second': 21.345, 'epoch': 0.81}
{'loss': 4.0204, 'grad_norm': 20.084415435791016, 'learning_rate': 1.777777777777778e-05, 'epoch': 0.82}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.062773704528809, 'eval_runtime': 0.4431, 'eval_samples_per_second': 22.57, 'eval_steps_per_second': 22.57, 'epoch': 0.82}
{'loss': 4.0445, 'grad_norm': 19.000478744506836, 'learning_rate': 1.6666666666666667e-05, 'epoch': 0.83}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.061379432678223, 'eval_runtime': 0.4566, 'eval_samples_per_second': 21.901, 'eval_steps_per_second': 21.901, 'epoch': 0.83}
{'loss': 3.8153, 'grad_norm': 19.87094497680664, 'learning_rate': 1.5555555555555555e-05, 'epoch': 0.84}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.060125350952148, 'eval_runtime': 0.4643, 'eval_samples_per_second': 21.538, 'eval_steps_per_second': 21.538, 'epoch': 0.84}
{'loss': 3.7709, 'grad_norm': 17.861976623535156, 'learning_rate': 1.4444444444444444e-05, 'epoch': 0.86}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.059462547302246, 'eval_runtime': 0.532, 'eval_samples_per_second': 18.798, 'eval_steps_per_second': 18.798, 'epoch': 0.86}
{'loss': 4.0546, 'grad_norm': 18.781911849975586, 'learning_rate': 1.3333333333333333e-05, 'epoch': 0.87}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.0587592124938965, 'eval_runtime': 0.4489, 'eval_samples_per_second': 22.278, 'eval_steps_per_second': 22.278, 'epoch': 0.87}
{'loss': 3.8281, 'grad_norm': 20.47819709777832, 'learning_rate': 1.2222222222222222e-05, 'epoch': 0.88}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.058116912841797, 'eval_runtime': 0.4715, 'eval_samples_per_second': 21.207, 'eval_steps_per_second': 21.207, 'epoch': 0.88}
{'loss': 4.4927, 'grad_norm': 20.430896759033203, 'learning_rate': 1.1111111111111112e-05, 'epoch': 0.89}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.057432651519775, 'eval_runtime': 0.5567, 'eval_samples_per_second': 17.963, 'eval_steps_per_second': 17.963, 'epoch': 0.89}
{'loss': 2.9154, 'grad_norm': 22.78038215637207, 'learning_rate': 1e-05, 'epoch': 0.9}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.0567145347595215, 'eval_runtime': 0.4468, 'eval_samples_per_second': 22.381, 'eval_steps_per_second': 22.381, 'epoch': 0.9}
{'loss': 4.38, 'grad_norm': 17.9160099029541, 'learning_rate': 8.88888888888889e-06, 'epoch': 0.91}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.056249141693115, 'eval_runtime': 0.5385, 'eval_samples_per_second': 18.57, 'eval_steps_per_second': 18.57, 'epoch': 0.91}
{'loss': 3.1705, 'grad_norm': 20.54059410095215, 'learning_rate': 7.777777777777777e-06, 'epoch': 0.92}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.0555315017700195, 'eval_runtime': 0.4436, 'eval_samples_per_second': 22.541, 'eval_steps_per_second': 22.541, 'epoch': 0.92}
{'loss': 3.2711, 'grad_norm': 23.314382553100586, 'learning_rate': 6.666666666666667e-06, 'epoch': 0.93}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.0548415184021, 'eval_runtime': 0.4598, 'eval_samples_per_second': 21.748, 'eval_steps_per_second': 21.748, 'epoch': 0.93}
{'loss': 4.2731, 'grad_norm': 19.245019912719727, 'learning_rate': 5.555555555555556e-06, 'epoch': 0.94}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.054380416870117, 'eval_runtime': 0.4921, 'eval_samples_per_second': 20.319, 'eval_steps_per_second': 20.319, 'epoch': 0.94}
{'loss': 2.8127, 'grad_norm': 16.912609100341797, 'learning_rate': 4.444444444444445e-06, 'epoch': 0.96}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.054093360900879, 'eval_runtime': 0.4672, 'eval_samples_per_second': 21.404, 'eval_steps_per_second': 21.404, 'epoch': 0.96}
{'loss': 4.0496, 'grad_norm': 21.995433807373047, 'learning_rate': 3.3333333333333333e-06, 'epoch': 0.97}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.053713321685791, 'eval_runtime': 0.5321, 'eval_samples_per_second': 18.794, 'eval_steps_per_second': 18.794, 'epoch': 0.97}
{'loss': 4.7567, 'grad_norm': 18.277254104614258, 'learning_rate': 2.2222222222222225e-06, 'epoch': 0.98}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.053528785705566, 'eval_runtime': 0.4748, 'eval_samples_per_second': 21.063, 'eval_steps_per_second': 21.063, 'epoch': 0.98}
{'loss': 4.251, 'grad_norm': 20.74728012084961, 'learning_rate': 1.1111111111111112e-06, 'epoch': 0.99}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.053211688995361, 'eval_runtime': 0.4496, 'eval_samples_per_second': 22.243, 'eval_steps_per_second': 22.243, 'epoch': 0.99}
{'loss': 3.905, 'grad_norm': 20.508441925048828, 'learning_rate': 0.0, 'epoch': 1.0}


  0%|          | 0/10 [00:00<?, ?it/s]

{'eval_loss': 4.053027629852295, 'eval_runtime': 0.4658, 'eval_samples_per_second': 21.468, 'eval_steps_per_second': 21.468, 'epoch': 1.0}
{'train_runtime': 80.4489, 'train_samples_per_second': 1.119, 'train_steps_per_second': 1.119, 'train_loss': 4.070558097627428, 'epoch': 1.0}


TrainOutput(global_step=90, training_loss=4.070558097627428, metrics={'train_runtime': 80.4489, 'train_samples_per_second': 1.119, 'train_steps_per_second': 1.119, 'total_flos': 1469794222080.0, 'train_loss': 4.070558097627428, 'epoch': 1.0})