In [1]:
import pandas as pd
from datasets import Dataset, load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
from peft import LoraConfig, get_peft_model
import torch
from trl import SFTTrainer, setup_chat_format



  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Importing the dataset
dataset = load_dataset("yunfan-y/trump-qa", split="train")

# randomly select 500 rows
dataset = dataset.shuffle(seed=42).select(range(500))

# Load the tokenizer and model
model_name = "google/gemma-2-2b-it"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, attn_implementation="eager")
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

# LoRA config
peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["q_proj", "v_proj"],
)

# Assuming setup_chat_format is a custom function you've defined elsewhere
# If not, you might need to implement or import it
model = get_peft_model(model, peft_config)

def format_chat_template(row):    
    row_json = [{"role": "user", "content": row["input"]},
               {"role": "assistant", "content": row["output"]}]
    row["text"] = tokenizer.apply_chat_template(row_json, tokenize=False)
    return row

# Apply the formatting to the dataset
dataset = dataset.map(
    format_chat_template
)

print(dataset)

Loading checkpoint shards: 100%|██████████| 2/2 [00:01<00:00,  1.17it/s]


Dataset({
    features: ['output', 'input', 'instruction', '__index_level_0__', 'text'],
    num_rows: 500
})


In [3]:
# Setting Hyperparamter
training_arguments = TrainingArguments(
    output_dir="./result",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=2,
    num_train_epochs=1,
    logging_steps=1,
    warmup_steps=10,
    logging_strategy="steps",
    learning_rate=2e-4,
    group_by_length=True,
    report_to="wandb",
    weight_decay=0.01,
)
# Setting sft parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,
    max_seq_length= 512,
    dataset_text_field="text",
    tokenizer=tokenizer,
    args=training_arguments,
    packing= False,
)

model.config.use_cache = False
trainer.train()


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.
Map: 100%|██████████| 500/500 [00:00<00:00, 11642.69 examples/s]
[34m[1mwandb[0m: Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: Currently logged in as: [33maidenyang66[0m ([33myyfsss[0m). Use [1m`wandb login --relogin`[0m to force relogin


  0%|          | 1/250 [00:00<02:24,  1.72it/s]

{'loss': 5.4586, 'grad_norm': 4.815914154052734, 'learning_rate': 2e-05, 'epoch': 0.0}


  1%|          | 2/250 [00:00<01:30,  2.74it/s]

{'loss': 5.6908, 'grad_norm': 5.110575199127197, 'learning_rate': 4e-05, 'epoch': 0.01}


  1%|          | 3/250 [00:01<01:14,  3.31it/s]

{'loss': 5.8751, 'grad_norm': 5.383258819580078, 'learning_rate': 6e-05, 'epoch': 0.01}


  2%|▏         | 4/250 [00:01<01:05,  3.74it/s]

{'loss': 5.2048, 'grad_norm': 4.986926078796387, 'learning_rate': 8e-05, 'epoch': 0.02}


  2%|▏         | 6/250 [00:01<00:57,  4.22it/s]

{'loss': 6.4194, 'grad_norm': 5.543000221252441, 'learning_rate': 0.0001, 'epoch': 0.02}


  2%|▏         | 6/250 [00:01<00:57,  4.22it/s]

{'loss': 6.3397, 'grad_norm': 6.064591884613037, 'learning_rate': 0.00012, 'epoch': 0.02}


  3%|▎         | 7/250 [00:01<00:55,  4.35it/s]

{'loss': 5.7234, 'grad_norm': 5.818411350250244, 'learning_rate': 0.00014, 'epoch': 0.03}


  3%|▎         | 8/250 [00:02<00:54,  4.45it/s]

{'loss': 5.1289, 'grad_norm': 5.826379776000977, 'learning_rate': 0.00016, 'epoch': 0.03}


  4%|▍         | 10/250 [00:02<00:51,  4.62it/s]

{'loss': 5.6898, 'grad_norm': 6.492197036743164, 'learning_rate': 0.00018, 'epoch': 0.04}


  4%|▍         | 10/250 [00:02<00:51,  4.62it/s]

{'loss': 5.5778, 'grad_norm': 5.794861793518066, 'learning_rate': 0.0002, 'epoch': 0.04}


  5%|▍         | 12/250 [00:02<00:50,  4.67it/s]

{'loss': 4.9893, 'grad_norm': 5.738243579864502, 'learning_rate': 0.0001991666666666667, 'epoch': 0.04}


  5%|▍         | 12/250 [00:02<00:50,  4.67it/s]

{'loss': 4.6434, 'grad_norm': 5.266765117645264, 'learning_rate': 0.00019833333333333335, 'epoch': 0.05}


  5%|▌         | 13/250 [00:03<00:50,  4.69it/s]

{'loss': 4.8691, 'grad_norm': 5.015631675720215, 'learning_rate': 0.00019750000000000003, 'epoch': 0.05}


  6%|▌         | 14/250 [00:03<00:50,  4.67it/s]

{'loss': 3.8772, 'grad_norm': 4.650968074798584, 'learning_rate': 0.00019666666666666666, 'epoch': 0.06}


  6%|▌         | 15/250 [00:03<00:49,  4.71it/s]

{'loss': 4.3093, 'grad_norm': 4.28615140914917, 'learning_rate': 0.00019583333333333334, 'epoch': 0.06}


  6%|▋         | 16/250 [00:03<00:49,  4.71it/s]

{'loss': 5.0455, 'grad_norm': 4.04611349105835, 'learning_rate': 0.000195, 'epoch': 0.06}


  7%|▋         | 17/250 [00:03<00:48,  4.76it/s]

{'loss': 3.934, 'grad_norm': 3.359417676925659, 'learning_rate': 0.00019416666666666668, 'epoch': 0.07}


  7%|▋         | 18/250 [00:04<00:48,  4.74it/s]

{'loss': 3.476, 'grad_norm': 3.263598918914795, 'learning_rate': 0.00019333333333333333, 'epoch': 0.07}


  8%|▊         | 19/250 [00:04<00:49,  4.69it/s]

{'loss': 3.8367, 'grad_norm': 4.2821269035339355, 'learning_rate': 0.00019250000000000002, 'epoch': 0.08}


  8%|▊         | 21/250 [00:04<00:47,  4.78it/s]

{'loss': 4.1291, 'grad_norm': 4.559995651245117, 'learning_rate': 0.00019166666666666667, 'epoch': 0.08}


  8%|▊         | 21/250 [00:04<00:47,  4.78it/s]

{'loss': 3.6737, 'grad_norm': 3.812910795211792, 'learning_rate': 0.00019083333333333336, 'epoch': 0.08}


  9%|▉         | 22/250 [00:05<00:48,  4.70it/s]

{'loss': 3.7585, 'grad_norm': 3.930457830429077, 'learning_rate': 0.00019, 'epoch': 0.09}


  9%|▉         | 23/250 [00:05<00:48,  4.65it/s]

{'loss': 3.669, 'grad_norm': 3.271515369415283, 'learning_rate': 0.00018916666666666667, 'epoch': 0.09}


 10%|▉         | 24/250 [00:05<00:49,  4.55it/s]

{'loss': 3.707, 'grad_norm': 4.033787250518799, 'learning_rate': 0.00018833333333333335, 'epoch': 0.1}


 10%|█         | 25/250 [00:05<00:49,  4.58it/s]

{'loss': 3.4736, 'grad_norm': 3.9187426567077637, 'learning_rate': 0.0001875, 'epoch': 0.1}


 11%|█         | 27/250 [00:06<00:47,  4.72it/s]

{'loss': 3.786, 'grad_norm': 4.0477070808410645, 'learning_rate': 0.0001866666666666667, 'epoch': 0.1}


 11%|█         | 28/250 [00:06<00:46,  4.77it/s]

{'loss': 3.4987, 'grad_norm': 3.6790692806243896, 'learning_rate': 0.00018583333333333334, 'epoch': 0.11}


 12%|█▏        | 29/250 [00:06<00:46,  4.78it/s]

{'loss': 3.1413, 'grad_norm': 3.599429130554199, 'learning_rate': 0.00018500000000000002, 'epoch': 0.11}


 12%|█▏        | 30/250 [00:06<00:45,  4.86it/s]

{'loss': 3.2404, 'grad_norm': 3.6751620769500732, 'learning_rate': 0.00018416666666666665, 'epoch': 0.12}


 12%|█▏        | 30/250 [00:06<00:45,  4.86it/s]

{'loss': 3.3201, 'grad_norm': 3.7009544372558594, 'learning_rate': 0.00018333333333333334, 'epoch': 0.12}


 12%|█▏        | 31/250 [00:06<00:45,  4.80it/s]

{'loss': 2.7562, 'grad_norm': 3.597130298614502, 'learning_rate': 0.0001825, 'epoch': 0.12}


 13%|█▎        | 33/250 [00:07<00:44,  4.83it/s]

{'loss': 2.8546, 'grad_norm': 3.5745999813079834, 'learning_rate': 0.00018166666666666667, 'epoch': 0.13}


 14%|█▎        | 34/250 [00:07<00:44,  4.83it/s]

{'loss': 3.1063, 'grad_norm': 3.711660385131836, 'learning_rate': 0.00018083333333333336, 'epoch': 0.13}


 14%|█▍        | 35/250 [00:07<00:44,  4.83it/s]

{'loss': 3.7884, 'grad_norm': 4.206847667694092, 'learning_rate': 0.00018, 'epoch': 0.14}


 14%|█▍        | 35/250 [00:07<00:44,  4.83it/s]

{'loss': 2.4493, 'grad_norm': 3.6710309982299805, 'learning_rate': 0.0001791666666666667, 'epoch': 0.14}


 14%|█▍        | 36/250 [00:07<00:44,  4.85it/s]

{'loss': 2.8618, 'grad_norm': 4.331859588623047, 'learning_rate': 0.00017833333333333335, 'epoch': 0.14}


 15%|█▌        | 38/250 [00:08<00:43,  4.83it/s]

{'loss': 2.9657, 'grad_norm': 3.8617734909057617, 'learning_rate': 0.0001775, 'epoch': 0.15}


 16%|█▌        | 39/250 [00:08<00:43,  4.84it/s]

{'loss': 3.5496, 'grad_norm': 4.6256513595581055, 'learning_rate': 0.00017666666666666666, 'epoch': 0.15}


 16%|█▌        | 39/250 [00:08<00:43,  4.84it/s]

{'loss': 2.6997, 'grad_norm': 5.494527816772461, 'learning_rate': 0.00017583333333333334, 'epoch': 0.16}


 16%|█▋        | 41/250 [00:09<00:43,  4.80it/s]

{'loss': 2.5215, 'grad_norm': 4.117068290710449, 'learning_rate': 0.000175, 'epoch': 0.16}


 16%|█▋        | 41/250 [00:09<00:43,  4.80it/s]

{'loss': 2.786, 'grad_norm': 4.448916435241699, 'learning_rate': 0.00017416666666666668, 'epoch': 0.16}


 17%|█▋        | 43/250 [00:09<00:42,  4.85it/s]

{'loss': 3.2478, 'grad_norm': 4.67034387588501, 'learning_rate': 0.00017333333333333334, 'epoch': 0.17}


 18%|█▊        | 44/250 [00:09<00:42,  4.87it/s]

{'loss': 2.5825, 'grad_norm': 4.473288536071777, 'learning_rate': 0.00017250000000000002, 'epoch': 0.17}


 18%|█▊        | 45/250 [00:09<00:41,  4.92it/s]

{'loss': 2.601, 'grad_norm': 4.668381690979004, 'learning_rate': 0.00017166666666666667, 'epoch': 0.18}


 18%|█▊        | 45/250 [00:09<00:41,  4.92it/s]

{'loss': 3.6153, 'grad_norm': 5.560369491577148, 'learning_rate': 0.00017083333333333333, 'epoch': 0.18}


 18%|█▊        | 46/250 [00:10<00:41,  4.90it/s]

{'loss': 2.3991, 'grad_norm': 4.606629848480225, 'learning_rate': 0.00017, 'epoch': 0.18}


 19%|█▉        | 48/250 [00:10<00:41,  4.83it/s]

{'loss': 2.1776, 'grad_norm': 3.9264168739318848, 'learning_rate': 0.00016916666666666667, 'epoch': 0.19}


 19%|█▉        | 48/250 [00:10<00:41,  4.83it/s]

{'loss': 1.7675, 'grad_norm': 3.689126491546631, 'learning_rate': 0.00016833333333333335, 'epoch': 0.19}


 20%|██        | 50/250 [00:10<00:41,  4.86it/s]

{'loss': 1.9835, 'grad_norm': 3.6022565364837646, 'learning_rate': 0.0001675, 'epoch': 0.2}


 20%|██        | 50/250 [00:10<00:41,  4.86it/s]

{'loss': 2.1502, 'grad_norm': 3.9876933097839355, 'learning_rate': 0.0001666666666666667, 'epoch': 0.2}


 20%|██        | 51/250 [00:11<00:41,  4.80it/s]

{'loss': 2.0242, 'grad_norm': 3.464068651199341, 'learning_rate': 0.00016583333333333334, 'epoch': 0.2}


 21%|██        | 52/250 [00:11<00:41,  4.80it/s]

{'loss': 3.4605, 'grad_norm': 5.640522003173828, 'learning_rate': 0.000165, 'epoch': 0.21}


 21%|██        | 53/250 [00:11<00:41,  4.71it/s]

{'loss': 3.3952, 'grad_norm': 4.056823253631592, 'learning_rate': 0.00016416666666666668, 'epoch': 0.21}


 22%|██▏       | 55/250 [00:11<00:41,  4.71it/s]

{'loss': 2.8301, 'grad_norm': 3.7384889125823975, 'learning_rate': 0.00016333333333333334, 'epoch': 0.22}


 22%|██▏       | 56/250 [00:12<00:41,  4.69it/s]

{'loss': 2.4773, 'grad_norm': 3.4404590129852295, 'learning_rate': 0.00016250000000000002, 'epoch': 0.22}


 23%|██▎       | 57/250 [00:12<00:41,  4.69it/s]

{'loss': 2.5626, 'grad_norm': 3.4948060512542725, 'learning_rate': 0.00016166666666666668, 'epoch': 0.22}


 23%|██▎       | 57/250 [00:12<00:41,  4.69it/s]

{'loss': 2.6289, 'grad_norm': 3.4222559928894043, 'learning_rate': 0.00016083333333333336, 'epoch': 0.23}


 23%|██▎       | 58/250 [00:12<00:40,  4.73it/s]

{'loss': 3.103, 'grad_norm': 3.8509926795959473, 'learning_rate': 0.00016, 'epoch': 0.23}


 24%|██▎       | 59/250 [00:12<00:40,  4.71it/s]

{'loss': 2.8104, 'grad_norm': 3.625269889831543, 'learning_rate': 0.00015916666666666667, 'epoch': 0.24}


 24%|██▍       | 61/250 [00:13<00:39,  4.75it/s]

{'loss': 2.7849, 'grad_norm': 3.9358022212982178, 'learning_rate': 0.00015833333333333332, 'epoch': 0.24}


 25%|██▍       | 62/250 [00:13<00:38,  4.83it/s]

{'loss': 2.717, 'grad_norm': 3.882336378097534, 'learning_rate': 0.0001575, 'epoch': 0.24}


 25%|██▍       | 62/250 [00:13<00:38,  4.83it/s]

{'loss': 2.9095, 'grad_norm': 3.637479305267334, 'learning_rate': 0.00015666666666666666, 'epoch': 0.25}


 26%|██▌       | 64/250 [00:13<00:38,  4.85it/s]

{'loss': 2.4567, 'grad_norm': 3.333864450454712, 'learning_rate': 0.00015583333333333334, 'epoch': 0.25}


 26%|██▌       | 64/250 [00:13<00:38,  4.85it/s]

{'loss': 2.8752, 'grad_norm': 3.6582725048065186, 'learning_rate': 0.000155, 'epoch': 0.26}


 26%|██▌       | 65/250 [00:14<00:37,  4.88it/s]

{'loss': 2.9613, 'grad_norm': 3.380006790161133, 'learning_rate': 0.00015416666666666668, 'epoch': 0.26}


 26%|██▋       | 66/250 [00:14<00:38,  4.82it/s]

{'loss': 2.6874, 'grad_norm': 3.3817477226257324, 'learning_rate': 0.00015333333333333334, 'epoch': 0.26}


 27%|██▋       | 68/250 [00:14<00:38,  4.77it/s]

{'loss': 2.3454, 'grad_norm': 3.328810691833496, 'learning_rate': 0.0001525, 'epoch': 0.27}


 27%|██▋       | 68/250 [00:14<00:38,  4.77it/s]

{'loss': 2.4558, 'grad_norm': 3.4099791049957275, 'learning_rate': 0.00015166666666666668, 'epoch': 0.27}


 28%|██▊       | 69/250 [00:14<00:38,  4.72it/s]

{'loss': 2.1733, 'grad_norm': 2.8162319660186768, 'learning_rate': 0.00015083333333333333, 'epoch': 0.28}


 28%|██▊       | 71/250 [00:15<00:37,  4.75it/s]

{'loss': 3.382, 'grad_norm': 4.3836870193481445, 'learning_rate': 0.00015000000000000001, 'epoch': 0.28}


 29%|██▉       | 72/250 [00:15<00:37,  4.79it/s]

{'loss': 2.3667, 'grad_norm': 3.2739248275756836, 'learning_rate': 0.00014916666666666667, 'epoch': 0.28}


 29%|██▉       | 72/250 [00:15<00:37,  4.79it/s]

{'loss': 2.446, 'grad_norm': 3.546445846557617, 'learning_rate': 0.00014833333333333335, 'epoch': 0.29}


 30%|██▉       | 74/250 [00:15<00:36,  4.78it/s]

{'loss': 2.5143, 'grad_norm': 3.430507183074951, 'learning_rate': 0.0001475, 'epoch': 0.29}


 30%|███       | 75/250 [00:16<00:36,  4.82it/s]

{'loss': 2.3398, 'grad_norm': 3.1476328372955322, 'learning_rate': 0.00014666666666666666, 'epoch': 0.3}


 30%|███       | 75/250 [00:16<00:36,  4.82it/s]

{'loss': 2.5781, 'grad_norm': 3.4359049797058105, 'learning_rate': 0.00014583333333333335, 'epoch': 0.3}


 31%|███       | 77/250 [00:16<00:35,  4.82it/s]

{'loss': 1.5587, 'grad_norm': 3.062274217605591, 'learning_rate': 0.000145, 'epoch': 0.3}


 31%|███       | 78/250 [00:16<00:35,  4.87it/s]

{'loss': 2.3547, 'grad_norm': 3.289531946182251, 'learning_rate': 0.00014416666666666668, 'epoch': 0.31}


 32%|███▏      | 79/250 [00:16<00:35,  4.83it/s]

{'loss': 2.5437, 'grad_norm': 3.2567856311798096, 'learning_rate': 0.00014333333333333334, 'epoch': 0.31}


 32%|███▏      | 80/250 [00:17<00:35,  4.84it/s]

{'loss': 2.4641, 'grad_norm': 3.3166656494140625, 'learning_rate': 0.00014250000000000002, 'epoch': 0.32}


 32%|███▏      | 81/250 [00:17<00:35,  4.81it/s]

{'loss': 2.8133, 'grad_norm': 4.027646541595459, 'learning_rate': 0.00014166666666666668, 'epoch': 0.32}


 32%|███▏      | 81/250 [00:17<00:35,  4.81it/s]

{'loss': 2.347, 'grad_norm': 3.9895408153533936, 'learning_rate': 0.00014083333333333336, 'epoch': 0.32}


 33%|███▎      | 82/250 [00:17<00:35,  4.70it/s]

{'loss': 2.3535, 'grad_norm': 3.8131754398345947, 'learning_rate': 0.00014, 'epoch': 0.33}


 33%|███▎      | 83/250 [00:17<00:35,  4.65it/s]

{'loss': 2.6188, 'grad_norm': 3.6267008781433105, 'learning_rate': 0.00013916666666666667, 'epoch': 0.33}


 34%|███▍      | 85/250 [00:18<00:35,  4.69it/s]

{'loss': 2.2894, 'grad_norm': 3.7230782508850098, 'learning_rate': 0.00013833333333333333, 'epoch': 0.34}


 34%|███▍      | 85/250 [00:18<00:35,  4.69it/s]

{'loss': 3.0528, 'grad_norm': 4.634794235229492, 'learning_rate': 0.0001375, 'epoch': 0.34}


 35%|███▍      | 87/250 [00:18<00:34,  4.74it/s]

{'loss': 3.0291, 'grad_norm': 4.993419170379639, 'learning_rate': 0.00013666666666666666, 'epoch': 0.34}


 35%|███▌      | 88/250 [00:18<00:33,  4.81it/s]

{'loss': 2.5482, 'grad_norm': 3.778043270111084, 'learning_rate': 0.00013583333333333335, 'epoch': 0.35}


 36%|███▌      | 89/250 [00:19<00:33,  4.81it/s]

{'loss': 2.2369, 'grad_norm': 3.921940565109253, 'learning_rate': 0.00013500000000000003, 'epoch': 0.35}


 36%|███▌      | 90/250 [00:19<00:33,  4.83it/s]

{'loss': 2.1381, 'grad_norm': 4.306734561920166, 'learning_rate': 0.00013416666666666666, 'epoch': 0.36}


 36%|███▋      | 91/250 [00:19<00:32,  4.85it/s]

{'loss': 2.0331, 'grad_norm': 4.090362548828125, 'learning_rate': 0.00013333333333333334, 'epoch': 0.36}


 37%|███▋      | 92/250 [00:19<00:32,  4.91it/s]

{'loss': 2.0181, 'grad_norm': 3.3414409160614014, 'learning_rate': 0.0001325, 'epoch': 0.36}


 37%|███▋      | 92/250 [00:19<00:32,  4.91it/s]

{'loss': 1.8053, 'grad_norm': 3.5651934146881104, 'learning_rate': 0.00013166666666666668, 'epoch': 0.37}


 37%|███▋      | 93/250 [00:19<00:32,  4.85it/s]

{'loss': 1.9487, 'grad_norm': 3.7360212802886963, 'learning_rate': 0.00013083333333333333, 'epoch': 0.37}


 38%|███▊      | 94/250 [00:20<00:32,  4.84it/s]

{'loss': 1.6541, 'grad_norm': 3.60725736618042, 'learning_rate': 0.00013000000000000002, 'epoch': 0.38}


 38%|███▊      | 96/250 [00:20<00:31,  4.90it/s]

{'loss': 2.4502, 'grad_norm': 4.996740818023682, 'learning_rate': 0.00012916666666666667, 'epoch': 0.38}


 39%|███▉      | 97/250 [00:20<00:31,  4.87it/s]

{'loss': 1.1875, 'grad_norm': 2.656172275543213, 'learning_rate': 0.00012833333333333335, 'epoch': 0.38}


 39%|███▉      | 98/250 [00:20<00:31,  4.80it/s]

{'loss': 1.574, 'grad_norm': 4.197474479675293, 'learning_rate': 0.0001275, 'epoch': 0.39}


 40%|███▉      | 99/250 [00:21<00:31,  4.87it/s]

{'loss': 1.5501, 'grad_norm': 3.469543933868408, 'learning_rate': 0.00012666666666666666, 'epoch': 0.39}


 40%|███▉      | 99/250 [00:21<00:31,  4.87it/s]

{'loss': 1.5603, 'grad_norm': 3.440713882446289, 'learning_rate': 0.00012583333333333335, 'epoch': 0.4}


 40%|████      | 101/250 [00:21<00:30,  4.85it/s]

{'loss': 1.6301, 'grad_norm': 4.010879039764404, 'learning_rate': 0.000125, 'epoch': 0.4}


 41%|████      | 102/250 [00:21<00:30,  4.83it/s]

{'loss': 2.3741, 'grad_norm': 3.84580397605896, 'learning_rate': 0.00012416666666666669, 'epoch': 0.4}


 41%|████      | 103/250 [00:21<00:30,  4.87it/s]

{'loss': 2.4557, 'grad_norm': 4.498856067657471, 'learning_rate': 0.00012333333333333334, 'epoch': 0.41}


 42%|████▏     | 104/250 [00:22<00:30,  4.85it/s]

{'loss': 2.9447, 'grad_norm': 5.208697319030762, 'learning_rate': 0.00012250000000000002, 'epoch': 0.41}


 42%|████▏     | 104/250 [00:22<00:30,  4.85it/s]

{'loss': 2.7705, 'grad_norm': 5.2825422286987305, 'learning_rate': 0.00012166666666666667, 'epoch': 0.42}


 42%|████▏     | 106/250 [00:22<00:29,  4.81it/s]

{'loss': 2.5222, 'grad_norm': 3.879906177520752, 'learning_rate': 0.00012083333333333333, 'epoch': 0.42}


 42%|████▏     | 106/250 [00:22<00:29,  4.81it/s]

{'loss': 2.7117, 'grad_norm': 4.107658863067627, 'learning_rate': 0.00012, 'epoch': 0.42}


 43%|████▎     | 108/250 [00:23<00:29,  4.81it/s]

{'loss': 2.7672, 'grad_norm': 3.6664185523986816, 'learning_rate': 0.00011916666666666667, 'epoch': 0.43}


 44%|████▎     | 109/250 [00:23<00:29,  4.85it/s]

{'loss': 2.0823, 'grad_norm': 3.229987859725952, 'learning_rate': 0.00011833333333333334, 'epoch': 0.43}


 44%|████▍     | 110/250 [00:23<00:28,  4.87it/s]

{'loss': 1.5091, 'grad_norm': 2.461570978164673, 'learning_rate': 0.00011750000000000001, 'epoch': 0.44}


 44%|████▍     | 111/250 [00:23<00:28,  4.91it/s]

{'loss': 2.7133, 'grad_norm': 3.5088109970092773, 'learning_rate': 0.00011666666666666668, 'epoch': 0.44}


 45%|████▍     | 112/250 [00:23<00:28,  4.92it/s]

{'loss': 2.8939, 'grad_norm': 3.6419615745544434, 'learning_rate': 0.00011583333333333335, 'epoch': 0.44}


 45%|████▍     | 112/250 [00:23<00:28,  4.92it/s]

{'loss': 1.9261, 'grad_norm': 3.215700149536133, 'learning_rate': 0.00011499999999999999, 'epoch': 0.45}


 46%|████▌     | 114/250 [00:24<00:28,  4.81it/s]

{'loss': 2.4439, 'grad_norm': 3.260002374649048, 'learning_rate': 0.00011416666666666667, 'epoch': 0.45}


 46%|████▌     | 114/250 [00:24<00:28,  4.81it/s]

{'loss': 1.9957, 'grad_norm': 2.9542696475982666, 'learning_rate': 0.00011333333333333334, 'epoch': 0.46}


 46%|████▋     | 116/250 [00:24<00:27,  4.87it/s]

{'loss': 2.7565, 'grad_norm': 3.7348501682281494, 'learning_rate': 0.00011250000000000001, 'epoch': 0.46}


 47%|████▋     | 117/250 [00:24<00:27,  4.90it/s]

{'loss': 2.5358, 'grad_norm': 3.437587261199951, 'learning_rate': 0.00011166666666666668, 'epoch': 0.46}


 47%|████▋     | 118/250 [00:25<00:27,  4.80it/s]

{'loss': 1.9111, 'grad_norm': 2.6420059204101562, 'learning_rate': 0.00011083333333333335, 'epoch': 0.47}


 48%|████▊     | 119/250 [00:25<00:27,  4.83it/s]

{'loss': 2.6702, 'grad_norm': 3.509636163711548, 'learning_rate': 0.00011000000000000002, 'epoch': 0.47}


 48%|████▊     | 119/250 [00:25<00:27,  4.83it/s]

{'loss': 2.1233, 'grad_norm': 3.07973313331604, 'learning_rate': 0.00010916666666666666, 'epoch': 0.48}


 48%|████▊     | 121/250 [00:25<00:26,  4.90it/s]

{'loss': 2.1596, 'grad_norm': 3.963850498199463, 'learning_rate': 0.00010833333333333333, 'epoch': 0.48}


 49%|████▉     | 122/250 [00:25<00:26,  4.89it/s]

{'loss': 2.4546, 'grad_norm': 3.5171868801116943, 'learning_rate': 0.0001075, 'epoch': 0.48}


 49%|████▉     | 123/250 [00:26<00:26,  4.85it/s]

{'loss': 2.5092, 'grad_norm': 3.99191951751709, 'learning_rate': 0.00010666666666666667, 'epoch': 0.49}


 50%|████▉     | 124/250 [00:26<00:25,  4.88it/s]

{'loss': 2.6155, 'grad_norm': 3.8683605194091797, 'learning_rate': 0.00010583333333333334, 'epoch': 0.49}


 50%|█████     | 125/250 [00:26<00:25,  4.91it/s]

{'loss': 2.0857, 'grad_norm': 3.4907007217407227, 'learning_rate': 0.000105, 'epoch': 0.5}


 50%|█████     | 126/250 [00:26<00:24,  4.98it/s]

{'loss': 2.7516, 'grad_norm': 4.26893949508667, 'learning_rate': 0.00010416666666666667, 'epoch': 0.5}


 50%|█████     | 126/250 [00:26<00:24,  4.98it/s]

{'loss': 2.6927, 'grad_norm': 3.8828794956207275, 'learning_rate': 0.00010333333333333334, 'epoch': 0.5}


 51%|█████     | 128/250 [00:27<00:24,  4.99it/s]

{'loss': 2.8574, 'grad_norm': 4.125948905944824, 'learning_rate': 0.0001025, 'epoch': 0.51}


 51%|█████     | 128/250 [00:27<00:24,  4.99it/s]

{'loss': 2.161, 'grad_norm': 3.2433900833129883, 'learning_rate': 0.00010166666666666667, 'epoch': 0.51}


 52%|█████▏    | 130/250 [00:27<00:24,  4.92it/s]

{'loss': 2.0723, 'grad_norm': 3.593338966369629, 'learning_rate': 0.00010083333333333334, 'epoch': 0.52}


 52%|█████▏    | 131/250 [00:27<00:24,  4.95it/s]

{'loss': 2.157, 'grad_norm': 3.9914753437042236, 'learning_rate': 0.0001, 'epoch': 0.52}


 53%|█████▎    | 132/250 [00:27<00:23,  4.92it/s]

{'loss': 2.2677, 'grad_norm': 3.632073402404785, 'learning_rate': 9.916666666666667e-05, 'epoch': 0.52}


 53%|█████▎    | 133/250 [00:28<00:23,  4.97it/s]

{'loss': 2.2919, 'grad_norm': 3.9754247665405273, 'learning_rate': 9.833333333333333e-05, 'epoch': 0.53}


 54%|█████▎    | 134/250 [00:28<00:23,  4.95it/s]

{'loss': 2.7447, 'grad_norm': 3.894808053970337, 'learning_rate': 9.75e-05, 'epoch': 0.53}


 54%|█████▍    | 135/250 [00:28<00:23,  5.00it/s]

{'loss': 2.0288, 'grad_norm': 3.2830731868743896, 'learning_rate': 9.666666666666667e-05, 'epoch': 0.54}


 54%|█████▍    | 136/250 [00:28<00:22,  4.97it/s]

{'loss': 2.0226, 'grad_norm': 3.4748620986938477, 'learning_rate': 9.583333333333334e-05, 'epoch': 0.54}


 55%|█████▍    | 137/250 [00:28<00:22,  5.02it/s]

{'loss': 2.8866, 'grad_norm': 4.834357261657715, 'learning_rate': 9.5e-05, 'epoch': 0.54}


 55%|█████▌    | 138/250 [00:29<00:22,  4.97it/s]

{'loss': 2.7638, 'grad_norm': 4.125273704528809, 'learning_rate': 9.416666666666667e-05, 'epoch': 0.55}


 55%|█████▌    | 138/250 [00:29<00:22,  4.97it/s]

{'loss': 1.8387, 'grad_norm': 3.4850215911865234, 'learning_rate': 9.333333333333334e-05, 'epoch': 0.55}


 56%|█████▌    | 140/250 [00:29<00:22,  4.98it/s]

{'loss': 2.2368, 'grad_norm': 3.5175621509552, 'learning_rate': 9.250000000000001e-05, 'epoch': 0.56}


 56%|█████▋    | 141/250 [00:29<00:21,  4.97it/s]

{'loss': 2.1208, 'grad_norm': 3.5124025344848633, 'learning_rate': 9.166666666666667e-05, 'epoch': 0.56}


 56%|█████▋    | 141/250 [00:29<00:21,  4.97it/s]

{'loss': 2.0285, 'grad_norm': 3.5304267406463623, 'learning_rate': 9.083333333333334e-05, 'epoch': 0.56}


 57%|█████▋    | 143/250 [00:30<00:22,  4.81it/s]

{'loss': 2.5793, 'grad_norm': 4.0926079750061035, 'learning_rate': 9e-05, 'epoch': 0.57}


 57%|█████▋    | 143/250 [00:30<00:22,  4.81it/s]

{'loss': 2.4039, 'grad_norm': 4.32407283782959, 'learning_rate': 8.916666666666667e-05, 'epoch': 0.57}


 58%|█████▊    | 144/250 [00:30<00:22,  4.73it/s]

{'loss': 1.9653, 'grad_norm': 4.39633321762085, 'learning_rate': 8.833333333333333e-05, 'epoch': 0.58}


 58%|█████▊    | 146/250 [00:30<00:21,  4.74it/s]

{'loss': 2.5976, 'grad_norm': 4.737481594085693, 'learning_rate': 8.75e-05, 'epoch': 0.58}


 59%|█████▉    | 147/250 [00:30<00:21,  4.82it/s]

{'loss': 1.8052, 'grad_norm': 3.794934034347534, 'learning_rate': 8.666666666666667e-05, 'epoch': 0.58}


 59%|█████▉    | 147/250 [00:30<00:21,  4.82it/s]

{'loss': 1.576, 'grad_norm': 4.0542731285095215, 'learning_rate': 8.583333333333334e-05, 'epoch': 0.59}


 60%|█████▉    | 149/250 [00:31<00:20,  4.85it/s]

{'loss': 1.5056, 'grad_norm': 3.3699984550476074, 'learning_rate': 8.5e-05, 'epoch': 0.59}


 60%|█████▉    | 149/250 [00:31<00:20,  4.85it/s]

{'loss': 1.5893, 'grad_norm': 4.244024276733398, 'learning_rate': 8.416666666666668e-05, 'epoch': 0.6}


 60%|██████    | 150/250 [00:31<00:21,  4.75it/s]

{'loss': 1.4465, 'grad_norm': 3.578714370727539, 'learning_rate': 8.333333333333334e-05, 'epoch': 0.6}


 61%|██████    | 152/250 [00:32<00:20,  4.76it/s]

{'loss': 2.2574, 'grad_norm': 3.475996494293213, 'learning_rate': 8.25e-05, 'epoch': 0.6}


 61%|██████    | 152/250 [00:32<00:20,  4.76it/s]

{'loss': 2.9267, 'grad_norm': 4.086952209472656, 'learning_rate': 8.166666666666667e-05, 'epoch': 0.61}


 61%|██████    | 153/250 [00:32<00:20,  4.73it/s]

{'loss': 3.2039, 'grad_norm': 5.128795146942139, 'learning_rate': 8.083333333333334e-05, 'epoch': 0.61}


 62%|██████▏   | 155/250 [00:32<00:20,  4.75it/s]

{'loss': 2.2642, 'grad_norm': 3.7677807807922363, 'learning_rate': 8e-05, 'epoch': 0.62}


 62%|██████▏   | 155/250 [00:32<00:20,  4.75it/s]

{'loss': 2.6597, 'grad_norm': 3.778867244720459, 'learning_rate': 7.916666666666666e-05, 'epoch': 0.62}


 62%|██████▏   | 156/250 [00:32<00:19,  4.77it/s]

{'loss': 3.3142, 'grad_norm': 4.473926544189453, 'learning_rate': 7.833333333333333e-05, 'epoch': 0.62}


 63%|██████▎   | 158/250 [00:33<00:19,  4.75it/s]

{'loss': 2.7674, 'grad_norm': 3.657824993133545, 'learning_rate': 7.75e-05, 'epoch': 0.63}


 64%|██████▎   | 159/250 [00:33<00:18,  4.82it/s]

{'loss': 2.457, 'grad_norm': 3.451295852661133, 'learning_rate': 7.666666666666667e-05, 'epoch': 0.63}


 64%|██████▎   | 159/250 [00:33<00:18,  4.82it/s]

{'loss': 2.2491, 'grad_norm': 3.749849796295166, 'learning_rate': 7.583333333333334e-05, 'epoch': 0.64}


 64%|██████▍   | 160/250 [00:33<00:19,  4.52it/s]

{'loss': 2.0646, 'grad_norm': 3.0383663177490234, 'learning_rate': 7.500000000000001e-05, 'epoch': 0.64}


 64%|██████▍   | 161/250 [00:33<00:19,  4.46it/s]

{'loss': 2.8371, 'grad_norm': 3.408463716506958, 'learning_rate': 7.416666666666668e-05, 'epoch': 0.64}


 65%|██████▍   | 162/250 [00:34<00:19,  4.46it/s]

{'loss': 2.9446, 'grad_norm': 3.5418918132781982, 'learning_rate': 7.333333333333333e-05, 'epoch': 0.65}


 65%|██████▌   | 163/250 [00:34<00:19,  4.49it/s]

{'loss': 2.561, 'grad_norm': 3.975945472717285, 'learning_rate': 7.25e-05, 'epoch': 0.65}


 66%|██████▌   | 164/250 [00:34<00:18,  4.54it/s]

{'loss': 2.8159, 'grad_norm': 3.6670825481414795, 'learning_rate': 7.166666666666667e-05, 'epoch': 0.66}


 66%|██████▌   | 165/250 [00:34<00:18,  4.60it/s]

{'loss': 2.2576, 'grad_norm': 3.105613946914673, 'learning_rate': 7.083333333333334e-05, 'epoch': 0.66}


 67%|██████▋   | 167/250 [00:35<00:17,  4.74it/s]

{'loss': 2.7189, 'grad_norm': 3.2543671131134033, 'learning_rate': 7e-05, 'epoch': 0.66}


 67%|██████▋   | 168/250 [00:35<00:16,  4.85it/s]

{'loss': 2.066, 'grad_norm': 3.185472249984741, 'learning_rate': 6.916666666666666e-05, 'epoch': 0.67}


 68%|██████▊   | 169/250 [00:35<00:16,  4.96it/s]

{'loss': 2.0091, 'grad_norm': 2.882214307785034, 'learning_rate': 6.833333333333333e-05, 'epoch': 0.67}


 68%|██████▊   | 170/250 [00:35<00:16,  4.99it/s]

{'loss': 2.6775, 'grad_norm': 3.3542680740356445, 'learning_rate': 6.750000000000001e-05, 'epoch': 0.68}


 68%|██████▊   | 171/250 [00:36<00:15,  5.07it/s]

{'loss': 2.0913, 'grad_norm': 3.169163227081299, 'learning_rate': 6.666666666666667e-05, 'epoch': 0.68}


 69%|██████▉   | 172/250 [00:36<00:15,  5.08it/s]

{'loss': 1.9235, 'grad_norm': 2.8173677921295166, 'learning_rate': 6.583333333333334e-05, 'epoch': 0.68}


 69%|██████▉   | 173/250 [00:36<00:15,  5.11it/s]

{'loss': 2.8436, 'grad_norm': 4.092246055603027, 'learning_rate': 6.500000000000001e-05, 'epoch': 0.69}


 70%|██████▉   | 174/250 [00:36<00:14,  5.14it/s]

{'loss': 2.2848, 'grad_norm': 3.3030614852905273, 'learning_rate': 6.416666666666668e-05, 'epoch': 0.69}


 70%|███████   | 175/250 [00:36<00:14,  5.14it/s]

{'loss': 2.1215, 'grad_norm': 3.5420570373535156, 'learning_rate': 6.333333333333333e-05, 'epoch': 0.7}


 70%|███████   | 175/250 [00:36<00:14,  5.14it/s]

{'loss': 2.5625, 'grad_norm': 4.190919876098633, 'learning_rate': 6.25e-05, 'epoch': 0.7}


 71%|███████   | 177/250 [00:37<00:14,  5.09it/s]

{'loss': 2.077, 'grad_norm': 3.3426928520202637, 'learning_rate': 6.166666666666667e-05, 'epoch': 0.7}


 71%|███████   | 178/250 [00:37<00:13,  5.22it/s]

{'loss': 2.0318, 'grad_norm': 3.4650003910064697, 'learning_rate': 6.083333333333333e-05, 'epoch': 0.71}
{'loss': 2.5076, 'grad_norm': 3.795637607574463, 'learning_rate': 6e-05, 'epoch': 0.71}


 72%|███████▏  | 179/250 [00:37<00:14,  5.06it/s]

{'loss': 2.6907, 'grad_norm': 3.8129079341888428, 'learning_rate': 5.916666666666667e-05, 'epoch': 0.72}


 72%|███████▏  | 181/250 [00:38<00:13,  4.94it/s]

{'loss': 2.9842, 'grad_norm': 4.4331183433532715, 'learning_rate': 5.833333333333334e-05, 'epoch': 0.72}


 73%|███████▎  | 182/250 [00:38<00:13,  4.92it/s]

{'loss': 2.0898, 'grad_norm': 3.5585577487945557, 'learning_rate': 5.7499999999999995e-05, 'epoch': 0.72}


 73%|███████▎  | 182/250 [00:38<00:13,  4.92it/s]

{'loss': 2.3301, 'grad_norm': 4.187501907348633, 'learning_rate': 5.666666666666667e-05, 'epoch': 0.73}


 73%|███████▎  | 183/250 [00:38<00:13,  4.83it/s]

{'loss': 2.3115, 'grad_norm': 4.021315574645996, 'learning_rate': 5.583333333333334e-05, 'epoch': 0.73}


 74%|███████▎  | 184/250 [00:38<00:13,  4.75it/s]

{'loss': 2.1771, 'grad_norm': 4.0922770500183105, 'learning_rate': 5.500000000000001e-05, 'epoch': 0.74}


 74%|███████▍  | 185/250 [00:38<00:13,  4.80it/s]

{'loss': 1.6174, 'grad_norm': 3.2522504329681396, 'learning_rate': 5.4166666666666664e-05, 'epoch': 0.74}


 74%|███████▍  | 186/250 [00:39<00:13,  4.75it/s]

{'loss': 2.1889, 'grad_norm': 3.7416515350341797, 'learning_rate': 5.333333333333333e-05, 'epoch': 0.74}


 75%|███████▍  | 187/250 [00:39<00:13,  4.74it/s]

{'loss': 2.1047, 'grad_norm': 3.755950689315796, 'learning_rate': 5.25e-05, 'epoch': 0.75}


 75%|███████▌  | 188/250 [00:39<00:13,  4.65it/s]

{'loss': 2.1922, 'grad_norm': 3.496368169784546, 'learning_rate': 5.166666666666667e-05, 'epoch': 0.75}


 76%|███████▌  | 190/250 [00:39<00:12,  4.70it/s]

{'loss': 2.2341, 'grad_norm': 3.7499701976776123, 'learning_rate': 5.0833333333333333e-05, 'epoch': 0.76}


 76%|███████▌  | 190/250 [00:39<00:12,  4.70it/s]

{'loss': 2.7243, 'grad_norm': 3.832237958908081, 'learning_rate': 5e-05, 'epoch': 0.76}


 76%|███████▋  | 191/250 [00:40<00:12,  4.68it/s]

{'loss': 1.9296, 'grad_norm': 3.3357717990875244, 'learning_rate': 4.9166666666666665e-05, 'epoch': 0.76}


 77%|███████▋  | 192/250 [00:40<00:12,  4.70it/s]

{'loss': 1.6253, 'grad_norm': 3.357180595397949, 'learning_rate': 4.8333333333333334e-05, 'epoch': 0.77}


 78%|███████▊  | 194/250 [00:40<00:11,  4.70it/s]

{'loss': 1.9361, 'grad_norm': 3.7196192741394043, 'learning_rate': 4.75e-05, 'epoch': 0.77}


 78%|███████▊  | 195/250 [00:40<00:11,  4.71it/s]

{'loss': 1.6559, 'grad_norm': 3.9657459259033203, 'learning_rate': 4.666666666666667e-05, 'epoch': 0.78}


 78%|███████▊  | 196/250 [00:41<00:11,  4.74it/s]

{'loss': 2.1589, 'grad_norm': 4.588187217712402, 'learning_rate': 4.5833333333333334e-05, 'epoch': 0.78}


 79%|███████▉  | 197/250 [00:41<00:11,  4.76it/s]

{'loss': 1.1383, 'grad_norm': 3.283292293548584, 'learning_rate': 4.5e-05, 'epoch': 0.78}


 79%|███████▉  | 198/250 [00:41<00:10,  4.77it/s]

{'loss': 1.026, 'grad_norm': 3.3641321659088135, 'learning_rate': 4.4166666666666665e-05, 'epoch': 0.79}


 79%|███████▉  | 198/250 [00:41<00:10,  4.77it/s]

{'loss': 1.4489, 'grad_norm': 3.400869607925415, 'learning_rate': 4.3333333333333334e-05, 'epoch': 0.79}


 80%|███████▉  | 199/250 [00:41<00:10,  4.77it/s]

{'loss': 1.0338, 'grad_norm': 3.0025808811187744, 'learning_rate': 4.25e-05, 'epoch': 0.8}


 80%|████████  | 201/250 [00:42<00:10,  4.74it/s]

{'loss': 1.9718, 'grad_norm': 4.488470554351807, 'learning_rate': 4.166666666666667e-05, 'epoch': 0.8}


 81%|████████  | 202/250 [00:42<00:10,  4.77it/s]

{'loss': 2.1717, 'grad_norm': 3.0871901512145996, 'learning_rate': 4.0833333333333334e-05, 'epoch': 0.8}


 81%|████████  | 202/250 [00:42<00:10,  4.77it/s]

{'loss': 2.6946, 'grad_norm': 3.274061918258667, 'learning_rate': 4e-05, 'epoch': 0.81}


 81%|████████  | 203/250 [00:42<00:09,  4.71it/s]

{'loss': 2.648, 'grad_norm': 3.24597430229187, 'learning_rate': 3.9166666666666665e-05, 'epoch': 0.81}


 82%|████████▏ | 204/250 [00:42<00:09,  4.69it/s]

{'loss': 2.3126, 'grad_norm': 3.01971435546875, 'learning_rate': 3.8333333333333334e-05, 'epoch': 0.82}


 82%|████████▏ | 205/250 [00:43<00:09,  4.71it/s]

{'loss': 2.7982, 'grad_norm': 3.4670515060424805, 'learning_rate': 3.7500000000000003e-05, 'epoch': 0.82}


 83%|████████▎ | 207/250 [00:43<00:08,  4.82it/s]

{'loss': 2.2818, 'grad_norm': 3.0117180347442627, 'learning_rate': 3.6666666666666666e-05, 'epoch': 0.82}


 83%|████████▎ | 207/250 [00:43<00:08,  4.82it/s]

{'loss': 2.8552, 'grad_norm': 3.746803045272827, 'learning_rate': 3.5833333333333335e-05, 'epoch': 0.83}


 84%|████████▎ | 209/250 [00:43<00:08,  4.85it/s]

{'loss': 2.2324, 'grad_norm': 3.6506683826446533, 'learning_rate': 3.5e-05, 'epoch': 0.83}


 84%|████████▎ | 209/250 [00:43<00:08,  4.85it/s]

{'loss': 2.4109, 'grad_norm': 3.7636032104492188, 'learning_rate': 3.4166666666666666e-05, 'epoch': 0.84}


 84%|████████▍ | 211/250 [00:44<00:08,  4.86it/s]

{'loss': 2.046, 'grad_norm': 3.023225784301758, 'learning_rate': 3.3333333333333335e-05, 'epoch': 0.84}


 84%|████████▍ | 211/250 [00:44<00:08,  4.86it/s]

{'loss': 2.4062, 'grad_norm': 3.372183084487915, 'learning_rate': 3.2500000000000004e-05, 'epoch': 0.84}


 85%|████████▍ | 212/250 [00:44<00:07,  4.81it/s]

{'loss': 2.4996, 'grad_norm': 3.4361255168914795, 'learning_rate': 3.1666666666666666e-05, 'epoch': 0.85}


 85%|████████▌ | 213/250 [00:44<00:07,  4.76it/s]

{'loss': 2.2218, 'grad_norm': 3.199819326400757, 'learning_rate': 3.0833333333333335e-05, 'epoch': 0.85}


 86%|████████▌ | 215/250 [00:45<00:07,  4.72it/s]

{'loss': 2.4537, 'grad_norm': 3.677356243133545, 'learning_rate': 3e-05, 'epoch': 0.86}


 86%|████████▋ | 216/250 [00:45<00:07,  4.76it/s]

{'loss': 2.3373, 'grad_norm': 3.6615993976593018, 'learning_rate': 2.916666666666667e-05, 'epoch': 0.86}


 87%|████████▋ | 217/250 [00:45<00:06,  4.79it/s]

{'loss': 2.4991, 'grad_norm': 3.6209096908569336, 'learning_rate': 2.8333333333333335e-05, 'epoch': 0.86}


 87%|████████▋ | 217/250 [00:45<00:06,  4.79it/s]

{'loss': 2.1561, 'grad_norm': 3.2083380222320557, 'learning_rate': 2.7500000000000004e-05, 'epoch': 0.87}


 87%|████████▋ | 218/250 [00:45<00:06,  4.84it/s]

{'loss': 2.6597, 'grad_norm': 3.5226235389709473, 'learning_rate': 2.6666666666666667e-05, 'epoch': 0.87}


 88%|████████▊ | 220/250 [00:46<00:06,  4.88it/s]

{'loss': 2.6531, 'grad_norm': 3.7831990718841553, 'learning_rate': 2.5833333333333336e-05, 'epoch': 0.88}


 88%|████████▊ | 220/250 [00:46<00:06,  4.88it/s]

{'loss': 2.4451, 'grad_norm': 3.184100866317749, 'learning_rate': 2.5e-05, 'epoch': 0.88}


 89%|████████▉ | 222/250 [00:46<00:05,  4.99it/s]

{'loss': 2.3006, 'grad_norm': 3.2822108268737793, 'learning_rate': 2.4166666666666667e-05, 'epoch': 0.88}


 89%|████████▉ | 223/250 [00:46<00:05,  5.00it/s]

{'loss': 2.3717, 'grad_norm': 3.294854164123535, 'learning_rate': 2.3333333333333336e-05, 'epoch': 0.89}


 89%|████████▉ | 223/250 [00:46<00:05,  5.00it/s]

{'loss': 2.3669, 'grad_norm': 3.5677249431610107, 'learning_rate': 2.25e-05, 'epoch': 0.89}


 90%|█████████ | 225/250 [00:47<00:05,  4.88it/s]

{'loss': 2.4999, 'grad_norm': 3.578640937805176, 'learning_rate': 2.1666666666666667e-05, 'epoch': 0.9}


 90%|█████████ | 226/250 [00:47<00:04,  4.86it/s]

{'loss': 2.6662, 'grad_norm': 3.66123628616333, 'learning_rate': 2.0833333333333336e-05, 'epoch': 0.9}


 91%|█████████ | 227/250 [00:47<00:04,  4.85it/s]

{'loss': 2.4576, 'grad_norm': 3.679041624069214, 'learning_rate': 2e-05, 'epoch': 0.9}


 91%|█████████ | 227/250 [00:47<00:04,  4.85it/s]

{'loss': 1.8586, 'grad_norm': 3.298305034637451, 'learning_rate': 1.9166666666666667e-05, 'epoch': 0.91}


 91%|█████████ | 228/250 [00:47<00:04,  4.82it/s]

{'loss': 1.9666, 'grad_norm': 3.6896910667419434, 'learning_rate': 1.8333333333333333e-05, 'epoch': 0.91}


 92%|█████████▏| 230/250 [00:48<00:04,  4.79it/s]

{'loss': 1.7867, 'grad_norm': 4.999206066131592, 'learning_rate': 1.75e-05, 'epoch': 0.92}


 92%|█████████▏| 230/250 [00:48<00:04,  4.79it/s]

{'loss': 2.3131, 'grad_norm': 3.8038628101348877, 'learning_rate': 1.6666666666666667e-05, 'epoch': 0.92}


 92%|█████████▏| 231/250 [00:48<00:03,  4.76it/s]

{'loss': 2.2662, 'grad_norm': 3.6428377628326416, 'learning_rate': 1.5833333333333333e-05, 'epoch': 0.92}


 93%|█████████▎| 232/250 [00:48<00:03,  4.74it/s]

{'loss': 2.2254, 'grad_norm': 3.475862979888916, 'learning_rate': 1.5e-05, 'epoch': 0.93}


 93%|█████████▎| 233/250 [00:48<00:03,  4.69it/s]

{'loss': 2.2203, 'grad_norm': 3.2263872623443604, 'learning_rate': 1.4166666666666668e-05, 'epoch': 0.93}


 94%|█████████▎| 234/250 [00:49<00:03,  4.69it/s]

{'loss': 2.3175, 'grad_norm': 3.8607869148254395, 'learning_rate': 1.3333333333333333e-05, 'epoch': 0.94}


 94%|█████████▍| 236/250 [00:49<00:02,  4.78it/s]

{'loss': 2.1431, 'grad_norm': 4.388185501098633, 'learning_rate': 1.25e-05, 'epoch': 0.94}


 95%|█████████▍| 237/250 [00:49<00:02,  4.88it/s]

{'loss': 2.3151, 'grad_norm': 4.618582725524902, 'learning_rate': 1.1666666666666668e-05, 'epoch': 0.94}


 95%|█████████▌| 238/250 [00:49<00:02,  4.92it/s]

{'loss': 2.1259, 'grad_norm': 3.816336154937744, 'learning_rate': 1.0833333333333334e-05, 'epoch': 0.95}


 96%|█████████▌| 239/250 [00:50<00:02,  4.94it/s]

{'loss': 1.9559, 'grad_norm': 3.575911521911621, 'learning_rate': 1e-05, 'epoch': 0.95}


 96%|█████████▌| 239/250 [00:50<00:02,  4.94it/s]

{'loss': 1.9057, 'grad_norm': 3.5644373893737793, 'learning_rate': 9.166666666666666e-06, 'epoch': 0.96}


 96%|█████████▋| 241/250 [00:50<00:01,  4.92it/s]

{'loss': 2.2827, 'grad_norm': 3.720639228820801, 'learning_rate': 8.333333333333334e-06, 'epoch': 0.96}


 97%|█████████▋| 242/250 [00:50<00:01,  4.84it/s]

{'loss': 1.7672, 'grad_norm': 3.6630184650421143, 'learning_rate': 7.5e-06, 'epoch': 0.96}


 97%|█████████▋| 242/250 [00:50<00:01,  4.84it/s]

{'loss': 2.3355, 'grad_norm': 3.9291622638702393, 'learning_rate': 6.666666666666667e-06, 'epoch': 0.97}


 97%|█████████▋| 243/250 [00:50<00:01,  4.76it/s]

{'loss': 2.1571, 'grad_norm': 3.6695570945739746, 'learning_rate': 5.833333333333334e-06, 'epoch': 0.97}


 98%|█████████▊| 245/250 [00:51<00:01,  4.81it/s]

{'loss': 1.8547, 'grad_norm': 3.6674559116363525, 'learning_rate': 5e-06, 'epoch': 0.98}


 98%|█████████▊| 246/250 [00:51<00:00,  4.89it/s]

{'loss': 1.0674, 'grad_norm': 2.7412924766540527, 'learning_rate': 4.166666666666667e-06, 'epoch': 0.98}


 99%|█████████▉| 247/250 [00:51<00:00,  4.94it/s]

{'loss': 0.7789, 'grad_norm': 2.4450929164886475, 'learning_rate': 3.3333333333333333e-06, 'epoch': 0.98}


 99%|█████████▉| 248/250 [00:51<00:00,  5.00it/s]

{'loss': 1.8819, 'grad_norm': 4.0311102867126465, 'learning_rate': 2.5e-06, 'epoch': 0.99}


 99%|█████████▉| 248/250 [00:51<00:00,  5.00it/s]

{'loss': 1.1803, 'grad_norm': 3.0949175357818604, 'learning_rate': 1.6666666666666667e-06, 'epoch': 0.99}


100%|██████████| 250/250 [00:52<00:00,  4.98it/s]

{'loss': 1.0574, 'grad_norm': 3.270479679107666, 'learning_rate': 8.333333333333333e-07, 'epoch': 1.0}


100%|██████████| 250/250 [00:52<00:00,  4.98it/s]

{'loss': 0.7469, 'grad_norm': 2.9067838191986084, 'learning_rate': 0.0, 'epoch': 1.0}


100%|██████████| 250/250 [00:52<00:00,  4.74it/s]

{'train_runtime': 53.7598, 'train_samples_per_second': 9.301, 'train_steps_per_second': 4.65, 'train_loss': 2.5909592967033386, 'epoch': 1.0}





TrainOutput(global_step=250, training_loss=2.5909592967033386, metrics={'train_runtime': 53.7598, 'train_samples_per_second': 9.301, 'train_steps_per_second': 4.65, 'total_flos': 268035239950848.0, 'train_loss': 2.5909592967033386, 'epoch': 1.0})