In [1]:
import random

import evaluate
import numpy as np
import torch
from datasets import load_dataset
from transformers import (
    AutoTokenizer,
    BertConfig,
    BertForSequenceClassification,
    Trainer,
    TrainingArguments,
)

from model.bert_configs import shadow, target

SEED = 42

random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed_all(SEED)

In [2]:
dataset = load_dataset("yelp_review_full", split=["train+test"])[0].train_test_split(
    test_size=0.5, stratify_by_column="label"
)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

In [3]:
tokenized_dataset = dataset.map(
    lambda x: tokenizer(
        x["text"], return_tensors="pt", padding=True, max_length=512, truncation=True
    ),
    batched=True,
)
tokenized_dataset.set_format(type="torch")

In [4]:
target_subset = tokenized_dataset["train"].train_test_split(
    test_size=0.5, stratify_by_column="label"
)

In [5]:
N_SHADOWS = 10

shadow_subsets = []
for i in range(N_SHADOWS):
    shadow_subsets.append(
        tokenized_dataset["test"].train_test_split(
            test_size=0.5, stratify_by_column="label"
        )
    )

In [6]:
def compute_metrics(eval_preds):
    accuracy = evaluate.load("accuracy")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return accuracy.compute(predictions=predictions, references=labels)

# Train Target

In [7]:
target_bert_config = BertConfig(**target)
target_classifier = BertForSequenceClassification(config=target_bert_config)

In [8]:
training_args = TrainingArguments(
    output_dir="saved_models/target",
    overwrite_output_dir=True,
    num_train_epochs=10,
    per_device_train_batch_size=64,
    per_device_eval_batch_size=64,
    eval_strategy="epoch",
    save_strategy="epoch",
    report_to="none",
)

trainer = Trainer(
    model=target_classifier,
    args=training_args,
    train_dataset=target_subset["train"],
    eval_dataset=target_subset["test"],
    compute_metrics=compute_metrics,
)

In [9]:
trainer.train()

  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.3388, 'grad_norm': 8.534919738769531, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.0463, 'grad_norm': 18.86072540283203, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0083, 'grad_norm': 6.08780574798584, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 0.9996, 'grad_norm': 5.470260143280029, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.973, 'grad_norm': 11.012569427490234, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9602767825126648, 'eval_accuracy': 0.5747885714285714, 'eval_runtime': 543.8096, 'eval_samples_per_second': 321.804, 'eval_steps_per_second': 5.029, 'epoch': 1.0}
{'loss': 0.9444, 'grad_norm': 8.25650405883789, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9317, 'grad_norm': 8.17536735534668, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.918, 'grad_norm': 17.78175163269043, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9209, 'grad_norm': 11.881813049316406, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9128, 'grad_norm': 9.233500480651855, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9262980222702026, 'eval_accuracy': 0.5945714285714285, 'eval_runtime': 505.3675, 'eval_samples_per_second': 346.283, 'eval_steps_per_second': 5.412, 'epoch': 2.0}
{'loss': 0.9147, 'grad_norm': 10.461775779724121, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8667, 'grad_norm': 6.963655471801758, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.883, 'grad_norm': 10.221406936645508, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8835, 'grad_norm': 2.556554079055786, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8845, 'grad_norm': 4.339940071105957, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8776, 'grad_norm': 11.203163146972656, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9330632090568542, 'eval_accuracy': 0.5956857142857143, 'eval_runtime': 505.4347, 'eval_samples_per_second': 346.237, 'eval_steps_per_second': 5.411, 'epoch': 3.0}
{'loss': 0.8524, 'grad_norm': 8.3922700881958, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.845, 'grad_norm': 8.101813316345215, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8386, 'grad_norm': 6.401108741760254, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8374, 'grad_norm': 5.181600093841553, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8393, 'grad_norm': 4.539138317108154, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9592539072036743, 'eval_accuracy': 0.5886685714285714, 'eval_runtime': 505.2214, 'eval_samples_per_second': 346.383, 'eval_steps_per_second': 5.413, 'epoch': 4.0}
{'loss': 0.8435, 'grad_norm': 6.964702129364014, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.803, 'grad_norm': 13.987516403198242, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8031, 'grad_norm': 7.515985488891602, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.7986, 'grad_norm': 9.366351127624512, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8116, 'grad_norm': 8.009787559509277, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8027, 'grad_norm': 15.640811920166016, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.968654215335846, 'eval_accuracy': 0.5881428571428572, 'eval_runtime': 505.5024, 'eval_samples_per_second': 346.19, 'eval_steps_per_second': 5.41, 'epoch': 5.0}
{'loss': 0.7669, 'grad_norm': 3.7494187355041504, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.755, 'grad_norm': 9.419732093811035, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.767, 'grad_norm': 8.421290397644043, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.7683, 'grad_norm': 7.977184295654297, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.7725, 'grad_norm': 5.703915119171143, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0315055847167969, 'eval_accuracy': 0.5819428571428571, 'eval_runtime': 505.8303, 'eval_samples_per_second': 345.966, 'eval_steps_per_second': 5.407, 'epoch': 6.0}
{'loss': 0.7556, 'grad_norm': 4.992160797119141, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7038, 'grad_norm': 4.690803527832031, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.7166, 'grad_norm': 4.943862438201904, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.7255, 'grad_norm': 6.308189392089844, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.721, 'grad_norm': 10.226079940795898, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.7214, 'grad_norm': 5.800222396850586, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0414661169052124, 'eval_accuracy': 0.5770628571428571, 'eval_runtime': 505.8493, 'eval_samples_per_second': 345.953, 'eval_steps_per_second': 5.407, 'epoch': 7.0}
{'loss': 0.69, 'grad_norm': 9.568026542663574, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.6667, 'grad_norm': 8.702342987060547, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.6712, 'grad_norm': 7.916420936584473, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.6792, 'grad_norm': 5.749670505523682, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.6794, 'grad_norm': 11.682843208312988, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.1137821674346924, 'eval_accuracy': 0.5764228571428571, 'eval_runtime': 506.0141, 'eval_samples_per_second': 345.84, 'eval_steps_per_second': 5.405, 'epoch': 8.0}
{'loss': 0.6627, 'grad_norm': 7.895068645477295, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.6305, 'grad_norm': 18.999643325805664, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.6351, 'grad_norm': 9.241751670837402, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.6389, 'grad_norm': 7.734590530395508, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.6388, 'grad_norm': 7.098381519317627, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.626, 'grad_norm': 8.254351615905762, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.204210638999939, 'eval_accuracy': 0.5686171428571428, 'eval_runtime': 505.7598, 'eval_samples_per_second': 346.014, 'eval_steps_per_second': 5.408, 'epoch': 9.0}
{'loss': 0.6043, 'grad_norm': 20.543245315551758, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.6007, 'grad_norm': 8.099677085876465, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.5981, 'grad_norm': 7.13821268081665, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.611, 'grad_norm': 14.220907211303711, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.6106, 'grad_norm': 8.447056770324707, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.2226758003234863, 'eval_accuracy': 0.5682971428571428, 'eval_runtime': 505.5062, 'eval_samples_per_second': 346.188, 'eval_steps_per_second': 5.41, 'epoch': 10.0}
{'train_runtime': 21638.9737, 'train_samples_per_second': 80.873, 'train_steps_per_second': 1.264, 'train_loss': 0.790011998373586, 'epoch': 10.0}


TrainOutput(global_step=27350, training_loss=0.790011998373586, metrics={'train_runtime': 21638.9737, 'train_samples_per_second': 80.873, 'train_steps_per_second': 1.264, 'total_flos': 6.9220198656e+16, 'train_loss': 0.790011998373586, 'epoch': 10.0})

# Train Shadows

In [10]:
shadow_bert_config = BertConfig(**shadow)
for i in range(N_SHADOWS):
    shadow_classifier = BertForSequenceClassification(config=shadow_bert_config)
    training_args = TrainingArguments(
        output_dir=f"saved_models/shadow_{i}",
        overwrite_output_dir=True,
        num_train_epochs=10,
        per_device_train_batch_size=64,
        per_device_eval_batch_size=64,
        eval_strategy="epoch",
        save_strategy="epoch",
        report_to="none",
    )
    trainer = Trainer(
        model=shadow_classifier,
        args=training_args,
        train_dataset=shadow_subsets[i]["train"],
        eval_dataset=shadow_subsets[i]["test"],
        compute_metrics=compute_metrics,
    )
    trainer.train()

  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4068, 'grad_norm': 6.6257758140563965, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.1097, 'grad_norm': 12.019930839538574, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0351, 'grad_norm': 6.489343166351318, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 0.9967, 'grad_norm': 12.220290184020996, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9778, 'grad_norm': 3.00787615776062, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9851199984550476, 'eval_accuracy': 0.5673714285714285, 'eval_runtime': 184.4302, 'eval_samples_per_second': 948.868, 'eval_steps_per_second': 14.829, 'epoch': 1.0}
{'loss': 0.9617, 'grad_norm': 6.667905807495117, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9375, 'grad_norm': 15.998618125915527, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9276, 'grad_norm': 15.357975006103516, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9392, 'grad_norm': 8.30373477935791, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9349, 'grad_norm': 3.7897067070007324, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.941317081451416, 'eval_accuracy': 0.5898857142857142, 'eval_runtime': 184.4521, 'eval_samples_per_second': 948.756, 'eval_steps_per_second': 14.828, 'epoch': 2.0}
{'loss': 0.9224, 'grad_norm': 12.834839820861816, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8844, 'grad_norm': 7.3514790534973145, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8878, 'grad_norm': 4.4072747230529785, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8972, 'grad_norm': 12.178966522216797, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8855, 'grad_norm': 5.3822922706604, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8961, 'grad_norm': 9.758956909179688, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9373689889907837, 'eval_accuracy': 0.5894171428571429, 'eval_runtime': 184.4733, 'eval_samples_per_second': 948.647, 'eval_steps_per_second': 14.826, 'epoch': 3.0}
{'loss': 0.8683, 'grad_norm': 12.664382934570312, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.8589, 'grad_norm': 5.731149196624756, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8628, 'grad_norm': 6.342714786529541, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8627, 'grad_norm': 10.007226943969727, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8705, 'grad_norm': 3.536742925643921, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9491370320320129, 'eval_accuracy': 0.5870114285714285, 'eval_runtime': 184.4748, 'eval_samples_per_second': 948.639, 'eval_steps_per_second': 14.826, 'epoch': 4.0}
{'loss': 0.8679, 'grad_norm': 10.277565956115723, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8414, 'grad_norm': 7.661590099334717, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8345, 'grad_norm': 7.616496562957764, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8392, 'grad_norm': 12.366755485534668, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8473, 'grad_norm': 11.567692756652832, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.841, 'grad_norm': 7.09688663482666, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9588097929954529, 'eval_accuracy': 0.5866857142857143, 'eval_runtime': 187.2137, 'eval_samples_per_second': 934.761, 'eval_steps_per_second': 14.609, 'epoch': 5.0}
{'loss': 0.8243, 'grad_norm': 23.84077262878418, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8129, 'grad_norm': 8.795638084411621, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8238, 'grad_norm': 9.301673889160156, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8215, 'grad_norm': 11.563291549682617, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.825, 'grad_norm': 3.374070882797241, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9723711609840393, 'eval_accuracy': 0.5836285714285714, 'eval_runtime': 184.2718, 'eval_samples_per_second': 949.684, 'eval_steps_per_second': 14.842, 'epoch': 6.0}
{'loss': 0.8134, 'grad_norm': 6.04653787612915, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7928, 'grad_norm': 14.071871757507324, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.7936, 'grad_norm': 8.393845558166504, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.8041, 'grad_norm': 11.315049171447754, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.8005, 'grad_norm': 10.898205757141113, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8097, 'grad_norm': 13.70206069946289, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9941276907920837, 'eval_accuracy': 0.5807542857142857, 'eval_runtime': 184.2044, 'eval_samples_per_second': 950.032, 'eval_steps_per_second': 14.848, 'epoch': 7.0}
{'loss': 0.7875, 'grad_norm': 6.998222827911377, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7781, 'grad_norm': 14.244709014892578, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7766, 'grad_norm': 12.199379920959473, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7908, 'grad_norm': 12.369898796081543, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7815, 'grad_norm': 4.57117223739624, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9981330633163452, 'eval_accuracy': 0.58092, 'eval_runtime': 184.2333, 'eval_samples_per_second': 949.882, 'eval_steps_per_second': 14.845, 'epoch': 8.0}
{'loss': 0.7774, 'grad_norm': 11.233343124389648, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7659, 'grad_norm': 7.879694938659668, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7632, 'grad_norm': 5.180931091308594, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7622, 'grad_norm': 8.881828308105469, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7669, 'grad_norm': 18.006641387939453, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7749, 'grad_norm': 8.91545581817627, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0247533321380615, 'eval_accuracy': 0.5775942857142857, 'eval_runtime': 184.2144, 'eval_samples_per_second': 949.98, 'eval_steps_per_second': 14.847, 'epoch': 9.0}
{'loss': 0.7451, 'grad_norm': 3.416172742843628, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7562, 'grad_norm': 5.940008163452148, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.756, 'grad_norm': 6.151695251464844, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7513, 'grad_norm': 11.723387718200684, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7516, 'grad_norm': 11.49842643737793, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.029552936553955, 'eval_accuracy': 0.5763828571428572, 'eval_runtime': 184.0662, 'eval_samples_per_second': 950.745, 'eval_steps_per_second': 14.859, 'epoch': 10.0}
{'train_runtime': 7887.7318, 'train_samples_per_second': 221.864, 'train_steps_per_second': 3.467, 'train_loss': 0.8542832665033706, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4045, 'grad_norm': 2.2074036598205566, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.0933, 'grad_norm': 12.318998336791992, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0194, 'grad_norm': 19.917325973510742, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 0.9966, 'grad_norm': 5.7120680809021, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9855, 'grad_norm': 14.956052780151367, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9789749383926392, 'eval_accuracy': 0.5777085714285715, 'eval_runtime': 184.0688, 'eval_samples_per_second': 950.731, 'eval_steps_per_second': 14.859, 'epoch': 1.0}
{'loss': 0.9553, 'grad_norm': 8.517068862915039, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9464, 'grad_norm': 6.793781280517578, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9331, 'grad_norm': 5.675795555114746, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9414, 'grad_norm': 10.818757057189941, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.93, 'grad_norm': 6.040008544921875, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9575926661491394, 'eval_accuracy': 0.5825085714285714, 'eval_runtime': 184.0747, 'eval_samples_per_second': 950.701, 'eval_steps_per_second': 14.858, 'epoch': 2.0}
{'loss': 0.9252, 'grad_norm': 19.294231414794922, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8897, 'grad_norm': 10.080794334411621, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8974, 'grad_norm': 9.239908218383789, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8945, 'grad_norm': 5.499282360076904, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8864, 'grad_norm': 12.863473892211914, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8936, 'grad_norm': 5.364688873291016, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9381791353225708, 'eval_accuracy': 0.5920914285714286, 'eval_runtime': 185.8108, 'eval_samples_per_second': 941.818, 'eval_steps_per_second': 14.719, 'epoch': 3.0}
{'loss': 0.8722, 'grad_norm': 11.053284645080566, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.8618, 'grad_norm': 16.054826736450195, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8603, 'grad_norm': 10.339054107666016, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8619, 'grad_norm': 11.490220069885254, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8782, 'grad_norm': 5.192080020904541, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9513922929763794, 'eval_accuracy': 0.5894171428571429, 'eval_runtime': 184.9137, 'eval_samples_per_second': 946.387, 'eval_steps_per_second': 14.791, 'epoch': 4.0}
{'loss': 0.867, 'grad_norm': 2.6885530948638916, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8356, 'grad_norm': 4.734903335571289, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8366, 'grad_norm': 4.044651031494141, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8393, 'grad_norm': 7.4667510986328125, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8465, 'grad_norm': 17.312353134155273, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8491, 'grad_norm': 8.564169883728027, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9568013548851013, 'eval_accuracy': 0.5866628571428572, 'eval_runtime': 184.2041, 'eval_samples_per_second': 950.033, 'eval_steps_per_second': 14.848, 'epoch': 5.0}
{'loss': 0.8331, 'grad_norm': 5.722721099853516, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8121, 'grad_norm': 3.400813579559326, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.816, 'grad_norm': 12.685175895690918, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8252, 'grad_norm': 5.071963310241699, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.8249, 'grad_norm': 15.658407211303711, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9707128405570984, 'eval_accuracy': 0.5859257142857143, 'eval_runtime': 184.188, 'eval_samples_per_second': 950.116, 'eval_steps_per_second': 14.849, 'epoch': 6.0}
{'loss': 0.8173, 'grad_norm': 8.26589584350586, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7948, 'grad_norm': 19.69532012939453, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.7963, 'grad_norm': 19.983701705932617, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.8018, 'grad_norm': 3.4531471729278564, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.8041, 'grad_norm': 22.720993041992188, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8084, 'grad_norm': 9.094234466552734, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9903801679611206, 'eval_accuracy': 0.5807428571428571, 'eval_runtime': 184.2403, 'eval_samples_per_second': 949.846, 'eval_steps_per_second': 14.845, 'epoch': 7.0}
{'loss': 0.787, 'grad_norm': 14.370394706726074, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7767, 'grad_norm': 6.05399227142334, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7788, 'grad_norm': 12.864204406738281, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7797, 'grad_norm': 4.8456010818481445, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.788, 'grad_norm': 11.649250030517578, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.006014108657837, 'eval_accuracy': 0.5812857142857143, 'eval_runtime': 184.3183, 'eval_samples_per_second': 949.445, 'eval_steps_per_second': 14.838, 'epoch': 8.0}
{'loss': 0.78, 'grad_norm': 8.48959732055664, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7582, 'grad_norm': 10.18631362915039, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7626, 'grad_norm': 5.909345626831055, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7663, 'grad_norm': 11.19266128540039, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7693, 'grad_norm': 4.238111972808838, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7724, 'grad_norm': 6.352852821350098, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0204569101333618, 'eval_accuracy': 0.5776114285714286, 'eval_runtime': 184.3372, 'eval_samples_per_second': 949.347, 'eval_steps_per_second': 14.837, 'epoch': 9.0}
{'loss': 0.7571, 'grad_norm': 7.969550609588623, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7458, 'grad_norm': 11.344490051269531, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7555, 'grad_norm': 8.595210075378418, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7548, 'grad_norm': 4.630622386932373, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7577, 'grad_norm': 15.864662170410156, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0378025770187378, 'eval_accuracy': 0.5773771428571428, 'eval_runtime': 184.1331, 'eval_samples_per_second': 950.399, 'eval_steps_per_second': 14.853, 'epoch': 10.0}
{'train_runtime': 7883.2433, 'train_samples_per_second': 221.99, 'train_steps_per_second': 3.469, 'train_loss': 0.854638860447969, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4088, 'grad_norm': 4.172248363494873, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.1167, 'grad_norm': 8.565518379211426, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0331, 'grad_norm': 4.198392868041992, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 1.0039, 'grad_norm': 3.840862512588501, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9842, 'grad_norm': 6.734715461730957, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9655006527900696, 'eval_accuracy': 0.5799085714285714, 'eval_runtime': 184.9728, 'eval_samples_per_second': 946.085, 'eval_steps_per_second': 14.786, 'epoch': 1.0}
{'loss': 0.9646, 'grad_norm': 9.91033935546875, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9431, 'grad_norm': 17.985614776611328, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9339, 'grad_norm': 3.305990219116211, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9388, 'grad_norm': 13.16907787322998, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9299, 'grad_norm': 13.893156051635742, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9448010921478271, 'eval_accuracy': 0.5889314285714286, 'eval_runtime': 184.9524, 'eval_samples_per_second': 946.19, 'eval_steps_per_second': 14.788, 'epoch': 2.0}
{'loss': 0.9297, 'grad_norm': 4.224095821380615, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8867, 'grad_norm': 14.492301940917969, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8913, 'grad_norm': 8.676132202148438, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8982, 'grad_norm': 8.558744430541992, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8885, 'grad_norm': 6.173044681549072, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.901, 'grad_norm': 12.177623748779297, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9295476078987122, 'eval_accuracy': 0.5928628571428571, 'eval_runtime': 185.0073, 'eval_samples_per_second': 945.908, 'eval_steps_per_second': 14.783, 'epoch': 3.0}
{'loss': 0.87, 'grad_norm': 10.876749992370605, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.8607, 'grad_norm': 9.311403274536133, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8622, 'grad_norm': 5.135543346405029, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8649, 'grad_norm': 18.355716705322266, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8721, 'grad_norm': 2.7064085006713867, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9514228701591492, 'eval_accuracy': 0.58728, 'eval_runtime': 185.0334, 'eval_samples_per_second': 945.775, 'eval_steps_per_second': 14.781, 'epoch': 4.0}
{'loss': 0.8621, 'grad_norm': 9.928526878356934, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8309, 'grad_norm': 6.6349568367004395, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8453, 'grad_norm': 5.948607444763184, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8438, 'grad_norm': 5.676989555358887, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8403, 'grad_norm': 3.8075292110443115, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.847, 'grad_norm': 7.958353042602539, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9556411504745483, 'eval_accuracy': 0.5866685714285714, 'eval_runtime': 184.9903, 'eval_samples_per_second': 945.996, 'eval_steps_per_second': 14.785, 'epoch': 5.0}
{'loss': 0.823, 'grad_norm': 11.133464813232422, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8085, 'grad_norm': 12.31775188446045, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8181, 'grad_norm': 13.282391548156738, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8272, 'grad_norm': 8.66592788696289, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.8199, 'grad_norm': 5.444288730621338, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9584512710571289, 'eval_accuracy': 0.58496, 'eval_runtime': 185.0405, 'eval_samples_per_second': 945.739, 'eval_steps_per_second': 14.781, 'epoch': 6.0}
{'loss': 0.823, 'grad_norm': 5.970087051391602, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7914, 'grad_norm': 9.788139343261719, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.7922, 'grad_norm': 8.837454795837402, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.8062, 'grad_norm': 6.437479496002197, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.7997, 'grad_norm': 9.62008285522461, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8035, 'grad_norm': 8.661457061767578, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9940746426582336, 'eval_accuracy': 0.5820285714285715, 'eval_runtime': 185.0578, 'eval_samples_per_second': 945.651, 'eval_steps_per_second': 14.779, 'epoch': 7.0}
{'loss': 0.7812, 'grad_norm': 9.549612045288086, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7758, 'grad_norm': 6.721948623657227, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7826, 'grad_norm': 7.771009922027588, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7822, 'grad_norm': 5.277064800262451, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7821, 'grad_norm': 11.227839469909668, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.991709291934967, 'eval_accuracy': 0.5791257142857142, 'eval_runtime': 185.3491, 'eval_samples_per_second': 944.164, 'eval_steps_per_second': 14.756, 'epoch': 8.0}
{'loss': 0.7784, 'grad_norm': 5.302631378173828, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7625, 'grad_norm': 4.759557247161865, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7668, 'grad_norm': 9.432242393493652, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7585, 'grad_norm': 6.580174446105957, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7636, 'grad_norm': 13.820354461669922, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7625, 'grad_norm': 13.029252052307129, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0261706113815308, 'eval_accuracy': 0.5781771428571428, 'eval_runtime': 185.2224, 'eval_samples_per_second': 944.81, 'eval_steps_per_second': 14.766, 'epoch': 9.0}
{'loss': 0.7489, 'grad_norm': 26.158369064331055, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7545, 'grad_norm': 3.390242338180542, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.748, 'grad_norm': 8.612441062927246, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7541, 'grad_norm': 16.315898895263672, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7484, 'grad_norm': 4.532426834106445, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0385481119155884, 'eval_accuracy': 0.5759428571428571, 'eval_runtime': 185.0863, 'eval_samples_per_second': 945.505, 'eval_steps_per_second': 14.777, 'epoch': 10.0}
{'train_runtime': 7895.1628, 'train_samples_per_second': 221.655, 'train_steps_per_second': 3.464, 'train_loss': 0.8542592831459952, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4025, 'grad_norm': 1.8214995861053467, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.0909, 'grad_norm': 5.24953556060791, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0234, 'grad_norm': 8.793329238891602, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 0.9941, 'grad_norm': 10.01923656463623, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9886, 'grad_norm': 18.770660400390625, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.966036319732666, 'eval_accuracy': 0.57868, 'eval_runtime': 185.3712, 'eval_samples_per_second': 944.051, 'eval_steps_per_second': 14.754, 'epoch': 1.0}
{'loss': 0.9548, 'grad_norm': 11.955036163330078, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9305, 'grad_norm': 12.698736190795898, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9344, 'grad_norm': 20.195274353027344, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9358, 'grad_norm': 7.243115425109863, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9324, 'grad_norm': 15.278942108154297, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.93815678358078, 'eval_accuracy': 0.5902514285714285, 'eval_runtime': 185.3057, 'eval_samples_per_second': 944.385, 'eval_steps_per_second': 14.759, 'epoch': 2.0}
{'loss': 0.9246, 'grad_norm': 9.873470306396484, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8884, 'grad_norm': 14.26771068572998, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8871, 'grad_norm': 16.42067527770996, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8918, 'grad_norm': 6.2542572021484375, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8935, 'grad_norm': 25.222272872924805, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8911, 'grad_norm': 26.48311996459961, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9413115382194519, 'eval_accuracy': 0.5919314285714286, 'eval_runtime': 185.3013, 'eval_samples_per_second': 944.408, 'eval_steps_per_second': 14.76, 'epoch': 3.0}
{'loss': 0.8697, 'grad_norm': 11.932735443115234, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.8625, 'grad_norm': 8.460489273071289, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.86, 'grad_norm': 5.436666488647461, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8713, 'grad_norm': 6.84492301940918, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.865, 'grad_norm': 8.886216163635254, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9371449947357178, 'eval_accuracy': 0.5910685714285714, 'eval_runtime': 185.2528, 'eval_samples_per_second': 944.655, 'eval_steps_per_second': 14.764, 'epoch': 4.0}
{'loss': 0.8638, 'grad_norm': 3.705174446105957, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8405, 'grad_norm': 10.150270462036133, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8358, 'grad_norm': 6.718353748321533, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8428, 'grad_norm': 17.057607650756836, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8468, 'grad_norm': 17.873897552490234, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8446, 'grad_norm': 19.895944595336914, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.954319179058075, 'eval_accuracy': 0.5871371428571428, 'eval_runtime': 185.2444, 'eval_samples_per_second': 944.698, 'eval_steps_per_second': 14.764, 'epoch': 5.0}
{'loss': 0.8176, 'grad_norm': 8.629199981689453, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8168, 'grad_norm': 24.277986526489258, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8192, 'grad_norm': 3.230070114135742, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8278, 'grad_norm': 9.55825138092041, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.823, 'grad_norm': 18.64459800720215, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9675323963165283, 'eval_accuracy': 0.5869657142857143, 'eval_runtime': 185.5115, 'eval_samples_per_second': 943.338, 'eval_steps_per_second': 14.743, 'epoch': 6.0}
{'loss': 0.8197, 'grad_norm': 6.8813276290893555, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7885, 'grad_norm': 6.353799343109131, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.8036, 'grad_norm': 8.013371467590332, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.8021, 'grad_norm': 12.725994110107422, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.8028, 'grad_norm': 7.369784355163574, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8074, 'grad_norm': 6.523238182067871, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.988947331905365, 'eval_accuracy': 0.58336, 'eval_runtime': 185.4374, 'eval_samples_per_second': 943.715, 'eval_steps_per_second': 14.749, 'epoch': 7.0}
{'loss': 0.7894, 'grad_norm': 27.109453201293945, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7773, 'grad_norm': 5.594759464263916, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7781, 'grad_norm': 10.279155731201172, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.785, 'grad_norm': 13.763335227966309, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7869, 'grad_norm': 9.7377290725708, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0125162601470947, 'eval_accuracy': 0.5822, 'eval_runtime': 185.3123, 'eval_samples_per_second': 944.352, 'eval_steps_per_second': 14.759, 'epoch': 8.0}
{'loss': 0.7788, 'grad_norm': 5.891720771789551, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7673, 'grad_norm': 10.122293472290039, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7609, 'grad_norm': 12.220848083496094, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7665, 'grad_norm': 12.971481323242188, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7734, 'grad_norm': 6.995014190673828, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7693, 'grad_norm': 8.339563369750977, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0062940120697021, 'eval_accuracy': 0.5804571428571429, 'eval_runtime': 185.2778, 'eval_samples_per_second': 944.528, 'eval_steps_per_second': 14.762, 'epoch': 9.0}
{'loss': 0.7568, 'grad_norm': 15.84860610961914, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7535, 'grad_norm': 11.099138259887695, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7521, 'grad_norm': 17.3880558013916, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7558, 'grad_norm': 7.034825801849365, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7555, 'grad_norm': 14.741458892822266, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0224472284317017, 'eval_accuracy': 0.5791085714285714, 'eval_runtime': 185.1978, 'eval_samples_per_second': 944.936, 'eval_steps_per_second': 14.768, 'epoch': 10.0}
{'train_runtime': 7907.0891, 'train_samples_per_second': 221.32, 'train_steps_per_second': 3.459, 'train_loss': 0.8542147587247915, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4138, 'grad_norm': 21.004356384277344, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.0881, 'grad_norm': 11.557575225830078, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0309, 'grad_norm': 8.770983695983887, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 1.0038, 'grad_norm': 14.420524597167969, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9856, 'grad_norm': 6.85030460357666, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9563606381416321, 'eval_accuracy': 0.5853657142857143, 'eval_runtime': 184.796, 'eval_samples_per_second': 946.99, 'eval_steps_per_second': 14.8, 'epoch': 1.0}
{'loss': 0.9559, 'grad_norm': 6.530420303344727, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9402, 'grad_norm': 3.7102909088134766, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9339, 'grad_norm': 10.463452339172363, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9409, 'grad_norm': 7.689057350158691, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9288, 'grad_norm': 5.084033012390137, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9327079653739929, 'eval_accuracy': 0.5917828571428572, 'eval_runtime': 184.7938, 'eval_samples_per_second': 947.001, 'eval_steps_per_second': 14.8, 'epoch': 2.0}
{'loss': 0.9304, 'grad_norm': 5.945827007293701, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8927, 'grad_norm': 7.156205177307129, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8885, 'grad_norm': 16.138765335083008, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8882, 'grad_norm': 12.331673622131348, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.9018, 'grad_norm': 19.066490173339844, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8948, 'grad_norm': 16.874855041503906, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9422721266746521, 'eval_accuracy': 0.5880685714285714, 'eval_runtime': 184.5557, 'eval_samples_per_second': 948.223, 'eval_steps_per_second': 14.819, 'epoch': 3.0}
{'loss': 0.867, 'grad_norm': 20.539159774780273, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.853, 'grad_norm': 5.111789703369141, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8727, 'grad_norm': 18.42852783203125, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8673, 'grad_norm': 8.135695457458496, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8714, 'grad_norm': 8.58051872253418, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9422150254249573, 'eval_accuracy': 0.59096, 'eval_runtime': 184.7405, 'eval_samples_per_second': 947.275, 'eval_steps_per_second': 14.805, 'epoch': 4.0}
{'loss': 0.8715, 'grad_norm': 6.8301591873168945, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8346, 'grad_norm': 8.837974548339844, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8428, 'grad_norm': 6.284267425537109, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8392, 'grad_norm': 3.5171966552734375, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8429, 'grad_norm': 13.167388916015625, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8517, 'grad_norm': 6.470946788787842, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9462353587150574, 'eval_accuracy': 0.58944, 'eval_runtime': 184.6672, 'eval_samples_per_second': 947.651, 'eval_steps_per_second': 14.81, 'epoch': 5.0}
{'loss': 0.8265, 'grad_norm': 9.174148559570312, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8092, 'grad_norm': 9.993643760681152, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8241, 'grad_norm': 4.74672794342041, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8237, 'grad_norm': 16.603271484375, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.8353, 'grad_norm': 16.507165908813477, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9589974880218506, 'eval_accuracy': 0.5872457142857143, 'eval_runtime': 184.9088, 'eval_samples_per_second': 946.412, 'eval_steps_per_second': 14.791, 'epoch': 6.0}
{'loss': 0.8089, 'grad_norm': 25.29287338256836, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7921, 'grad_norm': 18.619224548339844, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.7975, 'grad_norm': 12.663809776306152, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.7981, 'grad_norm': 5.590365886688232, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.8005, 'grad_norm': 7.538275718688965, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8151, 'grad_norm': 4.847725868225098, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9984581470489502, 'eval_accuracy': 0.5816914285714285, 'eval_runtime': 185.1303, 'eval_samples_per_second': 945.28, 'eval_steps_per_second': 14.773, 'epoch': 7.0}
{'loss': 0.7901, 'grad_norm': 21.74846076965332, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.778, 'grad_norm': 11.20007610321045, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.782, 'grad_norm': 4.276665687561035, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7804, 'grad_norm': 3.4858062267303467, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7826, 'grad_norm': 5.005444049835205, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0043182373046875, 'eval_accuracy': 0.5806857142857142, 'eval_runtime': 184.6191, 'eval_samples_per_second': 947.898, 'eval_steps_per_second': 14.814, 'epoch': 8.0}
{'loss': 0.7784, 'grad_norm': 6.339523792266846, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7698, 'grad_norm': 4.331969261169434, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7618, 'grad_norm': 15.641265869140625, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7595, 'grad_norm': 13.334110260009766, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7691, 'grad_norm': 8.482865333557129, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7656, 'grad_norm': 11.45805835723877, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0134001970291138, 'eval_accuracy': 0.5795771428571429, 'eval_runtime': 185.456, 'eval_samples_per_second': 943.62, 'eval_steps_per_second': 14.747, 'epoch': 9.0}
{'loss': 0.7599, 'grad_norm': 14.1104154586792, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7554, 'grad_norm': 12.409937858581543, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7507, 'grad_norm': 6.326652526855469, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7549, 'grad_norm': 11.329622268676758, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7461, 'grad_norm': 3.1190969944000244, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0244776010513306, 'eval_accuracy': 0.5780685714285714, 'eval_runtime': 185.0866, 'eval_samples_per_second': 945.503, 'eval_steps_per_second': 14.777, 'epoch': 10.0}
{'train_runtime': 7891.3909, 'train_samples_per_second': 221.761, 'train_steps_per_second': 3.466, 'train_loss': 0.8550579253759855, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4048, 'grad_norm': 3.442901134490967, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.1123, 'grad_norm': 19.212642669677734, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0312, 'grad_norm': 15.188031196594238, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 0.999, 'grad_norm': 18.051176071166992, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9866, 'grad_norm': 9.635557174682617, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9636410474777222, 'eval_accuracy': 0.5833428571428572, 'eval_runtime': 185.1574, 'eval_samples_per_second': 945.142, 'eval_steps_per_second': 14.771, 'epoch': 1.0}
{'loss': 0.9606, 'grad_norm': 16.914608001708984, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9523, 'grad_norm': 15.124732971191406, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9306, 'grad_norm': 6.157257556915283, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.935, 'grad_norm': 4.942180633544922, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9297, 'grad_norm': 10.646197319030762, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9358341097831726, 'eval_accuracy': 0.5886342857142857, 'eval_runtime': 185.0873, 'eval_samples_per_second': 945.5, 'eval_steps_per_second': 14.777, 'epoch': 2.0}
{'loss': 0.9242, 'grad_norm': 20.413557052612305, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8872, 'grad_norm': 15.086771965026855, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8925, 'grad_norm': 10.64124870300293, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8907, 'grad_norm': 11.99441909790039, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.893, 'grad_norm': 13.211268424987793, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8925, 'grad_norm': 2.345839738845825, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.934318482875824, 'eval_accuracy': 0.5906114285714286, 'eval_runtime': 185.1854, 'eval_samples_per_second': 944.999, 'eval_steps_per_second': 14.769, 'epoch': 3.0}
{'loss': 0.8745, 'grad_norm': 21.298723220825195, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.8663, 'grad_norm': 13.402421951293945, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8594, 'grad_norm': 3.103801727294922, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8595, 'grad_norm': 6.784055709838867, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8732, 'grad_norm': 9.809326171875, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9505155086517334, 'eval_accuracy': 0.5879885714285714, 'eval_runtime': 185.4981, 'eval_samples_per_second': 943.406, 'eval_steps_per_second': 14.744, 'epoch': 4.0}
{'loss': 0.8672, 'grad_norm': 8.329963684082031, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8312, 'grad_norm': 15.315284729003906, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8449, 'grad_norm': 6.370824813842773, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8408, 'grad_norm': 6.349426746368408, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8435, 'grad_norm': 5.868077278137207, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8457, 'grad_norm': 14.200148582458496, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9503082036972046, 'eval_accuracy': 0.5863657142857143, 'eval_runtime': 185.2614, 'eval_samples_per_second': 944.611, 'eval_steps_per_second': 14.763, 'epoch': 5.0}
{'loss': 0.8272, 'grad_norm': 5.962197780609131, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8141, 'grad_norm': 5.402514934539795, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.817, 'grad_norm': 11.401668548583984, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8245, 'grad_norm': 5.080361366271973, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.832, 'grad_norm': 14.574525833129883, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9542291164398193, 'eval_accuracy': 0.5862514285714285, 'eval_runtime': 185.1289, 'eval_samples_per_second': 945.288, 'eval_steps_per_second': 14.773, 'epoch': 6.0}
{'loss': 0.8188, 'grad_norm': 11.35495662689209, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7922, 'grad_norm': 8.103449821472168, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.7965, 'grad_norm': 10.97389030456543, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.7998, 'grad_norm': 9.350093841552734, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.8039, 'grad_norm': 13.803604125976562, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8094, 'grad_norm': 16.076791763305664, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9893094897270203, 'eval_accuracy': 0.5828971428571429, 'eval_runtime': 185.3, 'eval_samples_per_second': 944.415, 'eval_steps_per_second': 14.76, 'epoch': 7.0}
{'loss': 0.7727, 'grad_norm': 8.062225341796875, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7758, 'grad_norm': 16.533485412597656, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.776, 'grad_norm': 9.272473335266113, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7897, 'grad_norm': 13.880986213684082, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7848, 'grad_norm': 6.564137935638428, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9959542751312256, 'eval_accuracy': 0.5806742857142857, 'eval_runtime': 185.148, 'eval_samples_per_second': 945.19, 'eval_steps_per_second': 14.772, 'epoch': 8.0}
{'loss': 0.7853, 'grad_norm': 9.948244094848633, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7593, 'grad_norm': 10.163044929504395, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7636, 'grad_norm': 14.565996170043945, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7644, 'grad_norm': 8.333054542541504, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7686, 'grad_norm': 7.239403247833252, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7671, 'grad_norm': 9.208812713623047, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0148060321807861, 'eval_accuracy': 0.5781942857142857, 'eval_runtime': 185.2072, 'eval_samples_per_second': 944.888, 'eval_steps_per_second': 14.767, 'epoch': 9.0}
{'loss': 0.7573, 'grad_norm': 7.797145843505859, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7484, 'grad_norm': 6.812104225158691, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7545, 'grad_norm': 7.622557640075684, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7492, 'grad_norm': 8.330659866333008, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7554, 'grad_norm': 7.7864203453063965, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0279743671417236, 'eval_accuracy': 0.5776742857142857, 'eval_runtime': 185.2155, 'eval_samples_per_second': 944.845, 'eval_steps_per_second': 14.767, 'epoch': 10.0}
{'train_runtime': 7901.6685, 'train_samples_per_second': 221.472, 'train_steps_per_second': 3.461, 'train_loss': 0.8549306285795389, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4095, 'grad_norm': 10.727683067321777, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.1178, 'grad_norm': 13.946490287780762, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0348, 'grad_norm': 8.88268756866455, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 1.0073, 'grad_norm': 16.354345321655273, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9827, 'grad_norm': 6.17138671875, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9654625058174133, 'eval_accuracy': 0.5797771428571429, 'eval_runtime': 185.4383, 'eval_samples_per_second': 943.71, 'eval_steps_per_second': 14.749, 'epoch': 1.0}
{'loss': 0.9628, 'grad_norm': 5.140379428863525, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9382, 'grad_norm': 11.25613784790039, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9454, 'grad_norm': 12.286707878112793, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9365, 'grad_norm': 9.032588958740234, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.937, 'grad_norm': 6.87847375869751, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9477034211158752, 'eval_accuracy': 0.5873771428571428, 'eval_runtime': 185.4982, 'eval_samples_per_second': 943.405, 'eval_steps_per_second': 14.744, 'epoch': 2.0}
{'loss': 0.9238, 'grad_norm': 10.514361381530762, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8872, 'grad_norm': 6.03326416015625, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8929, 'grad_norm': 10.605969429016113, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8988, 'grad_norm': 7.326610088348389, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8965, 'grad_norm': 9.881787300109863, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8869, 'grad_norm': 26.23737335205078, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9423309564590454, 'eval_accuracy': 0.5840628571428571, 'eval_runtime': 185.2301, 'eval_samples_per_second': 944.771, 'eval_steps_per_second': 14.765, 'epoch': 3.0}
{'loss': 0.8754, 'grad_norm': 7.3685479164123535, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.86, 'grad_norm': 4.887444496154785, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8693, 'grad_norm': 16.493467330932617, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8613, 'grad_norm': 12.246273040771484, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8697, 'grad_norm': 14.209054946899414, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9448075294494629, 'eval_accuracy': 0.5900685714285714, 'eval_runtime': 185.3576, 'eval_samples_per_second': 944.121, 'eval_steps_per_second': 14.755, 'epoch': 4.0}
{'loss': 0.8664, 'grad_norm': 17.481698989868164, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8314, 'grad_norm': 11.603899002075195, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8467, 'grad_norm': 3.0548174381256104, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8436, 'grad_norm': 10.578123092651367, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8479, 'grad_norm': 10.733999252319336, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8423, 'grad_norm': 11.565322875976562, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9531217217445374, 'eval_accuracy': 0.5879371428571428, 'eval_runtime': 185.2916, 'eval_samples_per_second': 944.457, 'eval_steps_per_second': 14.761, 'epoch': 5.0}
{'loss': 0.8286, 'grad_norm': 6.4425272941589355, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8163, 'grad_norm': 11.493062019348145, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8243, 'grad_norm': 6.694789886474609, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.817, 'grad_norm': 14.41688060760498, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.8265, 'grad_norm': 18.47855567932129, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9628661870956421, 'eval_accuracy': 0.5868, 'eval_runtime': 185.1899, 'eval_samples_per_second': 944.976, 'eval_steps_per_second': 14.769, 'epoch': 6.0}
{'loss': 0.8132, 'grad_norm': 8.79405689239502, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7965, 'grad_norm': 6.612826824188232, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.8003, 'grad_norm': 16.992069244384766, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.803, 'grad_norm': 13.808420181274414, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.8002, 'grad_norm': 11.68614673614502, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8023, 'grad_norm': 9.707231521606445, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9839822053909302, 'eval_accuracy': 0.5822285714285714, 'eval_runtime': 185.2179, 'eval_samples_per_second': 944.833, 'eval_steps_per_second': 14.766, 'epoch': 7.0}
{'loss': 0.7898, 'grad_norm': 6.213954448699951, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7778, 'grad_norm': 8.096627235412598, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7809, 'grad_norm': 8.197403907775879, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7824, 'grad_norm': 9.597264289855957, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7896, 'grad_norm': 3.535102367401123, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0014686584472656, 'eval_accuracy': 0.5815371428571429, 'eval_runtime': 187.343, 'eval_samples_per_second': 934.115, 'eval_steps_per_second': 14.599, 'epoch': 8.0}
{'loss': 0.7836, 'grad_norm': 6.615592956542969, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7633, 'grad_norm': 5.266417980194092, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7696, 'grad_norm': 4.3445868492126465, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7669, 'grad_norm': 11.174150466918945, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7595, 'grad_norm': 8.05390453338623, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7666, 'grad_norm': 15.992929458618164, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0093789100646973, 'eval_accuracy': 0.5798342857142857, 'eval_runtime': 185.1539, 'eval_samples_per_second': 945.16, 'eval_steps_per_second': 14.771, 'epoch': 9.0}
{'loss': 0.7582, 'grad_norm': 14.691267013549805, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7626, 'grad_norm': 10.1028470993042, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7529, 'grad_norm': 8.424190521240234, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7501, 'grad_norm': 5.144748687744141, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7496, 'grad_norm': 12.15878963470459, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0271614789962769, 'eval_accuracy': 0.5795714285714286, 'eval_runtime': 185.1046, 'eval_samples_per_second': 945.412, 'eval_steps_per_second': 14.775, 'epoch': 10.0}
{'train_runtime': 7908.5514, 'train_samples_per_second': 221.279, 'train_steps_per_second': 3.458, 'train_loss': 0.8560875192813071, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.3964, 'grad_norm': 19.310388565063477, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.1022, 'grad_norm': 11.791465759277344, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0298, 'grad_norm': 16.15578269958496, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 1.0048, 'grad_norm': 6.442840576171875, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9911, 'grad_norm': 10.878785133361816, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9681574702262878, 'eval_accuracy': 0.58072, 'eval_runtime': 185.84, 'eval_samples_per_second': 941.67, 'eval_steps_per_second': 14.717, 'epoch': 1.0}
{'loss': 0.9594, 'grad_norm': 11.274113655090332, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9471, 'grad_norm': 2.8222146034240723, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9406, 'grad_norm': 2.492372512817383, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.933, 'grad_norm': 18.057144165039062, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9308, 'grad_norm': 14.475878715515137, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9370158910751343, 'eval_accuracy': 0.5906057142857143, 'eval_runtime': 186.317, 'eval_samples_per_second': 939.259, 'eval_steps_per_second': 14.679, 'epoch': 2.0}
{'loss': 0.926, 'grad_norm': 15.250765800476074, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8933, 'grad_norm': 3.790335178375244, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.891, 'grad_norm': 10.94858455657959, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.889, 'grad_norm': 7.705528736114502, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8931, 'grad_norm': 13.476614952087402, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8931, 'grad_norm': 5.799709320068359, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9561955332756042, 'eval_accuracy': 0.5851085714285714, 'eval_runtime': 185.919, 'eval_samples_per_second': 941.27, 'eval_steps_per_second': 14.711, 'epoch': 3.0}
{'loss': 0.8745, 'grad_norm': 9.519601821899414, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.8601, 'grad_norm': 20.936838150024414, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.859, 'grad_norm': 7.588560104370117, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8657, 'grad_norm': 12.068672180175781, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8724, 'grad_norm': 11.851059913635254, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9443152546882629, 'eval_accuracy': 0.5887428571428571, 'eval_runtime': 185.7891, 'eval_samples_per_second': 941.928, 'eval_steps_per_second': 14.721, 'epoch': 4.0}
{'loss': 0.8653, 'grad_norm': 7.499640464782715, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8386, 'grad_norm': 11.257461547851562, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8363, 'grad_norm': 9.488419532775879, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8397, 'grad_norm': 15.862236022949219, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.845, 'grad_norm': 6.799039840698242, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8484, 'grad_norm': 13.507026672363281, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.972636878490448, 'eval_accuracy': 0.5857657142857143, 'eval_runtime': 186.3506, 'eval_samples_per_second': 939.09, 'eval_steps_per_second': 14.677, 'epoch': 5.0}
{'loss': 0.8226, 'grad_norm': 9.913228988647461, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.811, 'grad_norm': 9.896265983581543, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8165, 'grad_norm': 11.450390815734863, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8258, 'grad_norm': 8.008414268493652, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.8191, 'grad_norm': 9.95669174194336, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9714676141738892, 'eval_accuracy': 0.5834571428571429, 'eval_runtime': 185.7837, 'eval_samples_per_second': 941.956, 'eval_steps_per_second': 14.721, 'epoch': 6.0}
{'loss': 0.8308, 'grad_norm': 14.254292488098145, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7951, 'grad_norm': 8.709095001220703, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.7932, 'grad_norm': 13.994527816772461, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.8067, 'grad_norm': 5.052418231964111, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.8069, 'grad_norm': 11.731606483459473, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8056, 'grad_norm': 6.1489410400390625, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9915145635604858, 'eval_accuracy': 0.5842057142857143, 'eval_runtime': 186.4304, 'eval_samples_per_second': 938.688, 'eval_steps_per_second': 14.67, 'epoch': 7.0}
{'loss': 0.787, 'grad_norm': 8.451340675354004, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7742, 'grad_norm': 9.06568431854248, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7768, 'grad_norm': 4.328310966491699, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7919, 'grad_norm': 7.40184211730957, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7896, 'grad_norm': 12.419897079467773, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9990430474281311, 'eval_accuracy': 0.5807428571428571, 'eval_runtime': 186.1971, 'eval_samples_per_second': 939.864, 'eval_steps_per_second': 14.689, 'epoch': 8.0}
{'loss': 0.7772, 'grad_norm': 6.951166152954102, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7636, 'grad_norm': 4.995087146759033, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7658, 'grad_norm': 20.953731536865234, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7635, 'grad_norm': 5.443938255310059, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7669, 'grad_norm': 9.307197570800781, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7707, 'grad_norm': 11.86448860168457, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.016228199005127, 'eval_accuracy': 0.5792685714285715, 'eval_runtime': 186.1063, 'eval_samples_per_second': 940.323, 'eval_steps_per_second': 14.696, 'epoch': 9.0}
{'loss': 0.7537, 'grad_norm': 3.950718879699707, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7519, 'grad_norm': 9.832874298095703, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7536, 'grad_norm': 9.483051300048828, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7561, 'grad_norm': 13.435242652893066, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7583, 'grad_norm': 7.330867290496826, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0303328037261963, 'eval_accuracy': 0.5774, 'eval_runtime': 185.4679, 'eval_samples_per_second': 943.559, 'eval_steps_per_second': 14.746, 'epoch': 10.0}
{'train_runtime': 7919.519, 'train_samples_per_second': 220.973, 'train_steps_per_second': 3.453, 'train_loss': 0.8552716120243944, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4076, 'grad_norm': 8.791423797607422, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.1116, 'grad_norm': 7.091233730316162, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0299, 'grad_norm': 9.026579856872559, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 1.0042, 'grad_norm': 20.55440330505371, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9905, 'grad_norm': 3.5812220573425293, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9823716282844543, 'eval_accuracy': 0.5718742857142857, 'eval_runtime': 184.2638, 'eval_samples_per_second': 949.725, 'eval_steps_per_second': 14.843, 'epoch': 1.0}
{'loss': 0.9629, 'grad_norm': 12.72853946685791, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9347, 'grad_norm': 9.82174301147461, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9427, 'grad_norm': 7.180016040802002, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9362, 'grad_norm': 19.020458221435547, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9367, 'grad_norm': 18.036623001098633, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9535897970199585, 'eval_accuracy': 0.5824685714285714, 'eval_runtime': 184.343, 'eval_samples_per_second': 949.317, 'eval_steps_per_second': 14.836, 'epoch': 2.0}
{'loss': 0.9163, 'grad_norm': 20.405981063842773, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.8928, 'grad_norm': 21.33819007873535, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8925, 'grad_norm': 15.049324989318848, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8909, 'grad_norm': 4.943583011627197, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.8914, 'grad_norm': 16.25714111328125, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8888, 'grad_norm': 6.019535541534424, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.93337482213974, 'eval_accuracy': 0.5905142857142858, 'eval_runtime': 184.2666, 'eval_samples_per_second': 949.711, 'eval_steps_per_second': 14.843, 'epoch': 3.0}
{'loss': 0.8695, 'grad_norm': 14.975744247436523, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.858, 'grad_norm': 13.914763450622559, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8615, 'grad_norm': 9.748899459838867, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8674, 'grad_norm': 15.097981452941895, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8747, 'grad_norm': 8.900737762451172, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.948686957359314, 'eval_accuracy': 0.5878228571428571, 'eval_runtime': 184.6144, 'eval_samples_per_second': 947.922, 'eval_steps_per_second': 14.815, 'epoch': 4.0}
{'loss': 0.8618, 'grad_norm': 12.780094146728516, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8313, 'grad_norm': 17.125492095947266, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8406, 'grad_norm': 6.322606086730957, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8376, 'grad_norm': 14.711050033569336, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8512, 'grad_norm': 9.078347206115723, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8466, 'grad_norm': 7.342695713043213, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9686880111694336, 'eval_accuracy': 0.5841085714285714, 'eval_runtime': 184.2048, 'eval_samples_per_second': 950.03, 'eval_steps_per_second': 14.848, 'epoch': 5.0}
{'loss': 0.8218, 'grad_norm': 5.5596795082092285, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8216, 'grad_norm': 11.139341354370117, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8146, 'grad_norm': 11.583037376403809, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8255, 'grad_norm': 4.340944290161133, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.8197, 'grad_norm': 5.189751148223877, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9716600775718689, 'eval_accuracy': 0.5849371428571428, 'eval_runtime': 184.2487, 'eval_samples_per_second': 949.803, 'eval_steps_per_second': 14.844, 'epoch': 6.0}
{'loss': 0.8161, 'grad_norm': 4.509459018707275, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.7964, 'grad_norm': 13.279471397399902, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.803, 'grad_norm': 6.688838005065918, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.8105, 'grad_norm': 5.961534023284912, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.7992, 'grad_norm': 16.067285537719727, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8072, 'grad_norm': 8.255841255187988, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9887361526489258, 'eval_accuracy': 0.5810171428571429, 'eval_runtime': 184.2375, 'eval_samples_per_second': 949.861, 'eval_steps_per_second': 14.845, 'epoch': 7.0}
{'loss': 0.7863, 'grad_norm': 4.548195838928223, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7845, 'grad_norm': 5.317271709442139, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7839, 'grad_norm': 7.050653457641602, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7827, 'grad_norm': 17.27613639831543, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7841, 'grad_norm': 7.156327247619629, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9991113543510437, 'eval_accuracy': 0.5785714285714286, 'eval_runtime': 184.304, 'eval_samples_per_second': 949.518, 'eval_steps_per_second': 14.84, 'epoch': 8.0}
{'loss': 0.7838, 'grad_norm': 10.741619110107422, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7634, 'grad_norm': 9.940451622009277, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.768, 'grad_norm': 4.851659297943115, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.7695, 'grad_norm': 13.318846702575684, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7674, 'grad_norm': 4.781925678253174, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7719, 'grad_norm': 5.206434726715088, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0152379274368286, 'eval_accuracy': 0.57816, 'eval_runtime': 184.2844, 'eval_samples_per_second': 949.619, 'eval_steps_per_second': 14.841, 'epoch': 9.0}
{'loss': 0.7537, 'grad_norm': 5.086600303649902, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7547, 'grad_norm': 16.175405502319336, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7528, 'grad_norm': 12.007498741149902, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7528, 'grad_norm': 10.53569221496582, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.759, 'grad_norm': 5.94589376449585, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.027599811553955, 'eval_accuracy': 0.5763142857142857, 'eval_runtime': 197.6929, 'eval_samples_per_second': 885.211, 'eval_steps_per_second': 13.835, 'epoch': 10.0}
{'train_runtime': 7905.0755, 'train_samples_per_second': 221.377, 'train_steps_per_second': 3.46, 'train_loss': 0.8558251986599491, 'epoch': 10.0}


  0%|          | 0/27350 [00:00<?, ?it/s]

{'loss': 1.4118, 'grad_norm': 20.19621467590332, 'learning_rate': 4.9085923217550275e-05, 'epoch': 0.18}
{'loss': 1.1022, 'grad_norm': 6.400625228881836, 'learning_rate': 4.817184643510055e-05, 'epoch': 0.37}
{'loss': 1.0281, 'grad_norm': 2.3463544845581055, 'learning_rate': 4.725776965265082e-05, 'epoch': 0.55}
{'loss': 0.999, 'grad_norm': 8.423773765563965, 'learning_rate': 4.63436928702011e-05, 'epoch': 0.73}
{'loss': 0.9906, 'grad_norm': 13.669325828552246, 'learning_rate': 4.542961608775137e-05, 'epoch': 0.91}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9586070775985718, 'eval_accuracy': 0.58272, 'eval_runtime': 185.2681, 'eval_samples_per_second': 944.577, 'eval_steps_per_second': 14.762, 'epoch': 1.0}
{'loss': 0.9598, 'grad_norm': 17.90354347229004, 'learning_rate': 4.4515539305301646e-05, 'epoch': 1.1}
{'loss': 0.9383, 'grad_norm': 10.252596855163574, 'learning_rate': 4.360146252285192e-05, 'epoch': 1.28}
{'loss': 0.9397, 'grad_norm': 20.036697387695312, 'learning_rate': 4.26873857404022e-05, 'epoch': 1.46}
{'loss': 0.9335, 'grad_norm': 7.026589393615723, 'learning_rate': 4.1773308957952465e-05, 'epoch': 1.65}
{'loss': 0.9347, 'grad_norm': 7.554171562194824, 'learning_rate': 4.0859232175502744e-05, 'epoch': 1.83}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9418932199478149, 'eval_accuracy': 0.5886171428571428, 'eval_runtime': 185.2725, 'eval_samples_per_second': 944.555, 'eval_steps_per_second': 14.762, 'epoch': 2.0}
{'loss': 0.9313, 'grad_norm': 23.11029815673828, 'learning_rate': 3.994515539305302e-05, 'epoch': 2.01}
{'loss': 0.89, 'grad_norm': 13.814718246459961, 'learning_rate': 3.9031078610603297e-05, 'epoch': 2.19}
{'loss': 0.8959, 'grad_norm': 8.638936996459961, 'learning_rate': 3.811700182815356e-05, 'epoch': 2.38}
{'loss': 0.8931, 'grad_norm': 15.315889358520508, 'learning_rate': 3.720292504570384e-05, 'epoch': 2.56}
{'loss': 0.9007, 'grad_norm': 7.111752986907959, 'learning_rate': 3.6288848263254115e-05, 'epoch': 2.74}
{'loss': 0.8892, 'grad_norm': 11.773138999938965, 'learning_rate': 3.5374771480804395e-05, 'epoch': 2.93}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.938251256942749, 'eval_accuracy': 0.5900571428571428, 'eval_runtime': 198.2613, 'eval_samples_per_second': 882.673, 'eval_steps_per_second': 13.795, 'epoch': 3.0}
{'loss': 0.8752, 'grad_norm': 9.940786361694336, 'learning_rate': 3.446069469835466e-05, 'epoch': 3.11}
{'loss': 0.8609, 'grad_norm': 6.323290824890137, 'learning_rate': 3.354661791590494e-05, 'epoch': 3.29}
{'loss': 0.8692, 'grad_norm': 9.921478271484375, 'learning_rate': 3.263254113345521e-05, 'epoch': 3.47}
{'loss': 0.8635, 'grad_norm': 10.980379104614258, 'learning_rate': 3.1718464351005486e-05, 'epoch': 3.66}
{'loss': 0.8626, 'grad_norm': 12.536932945251465, 'learning_rate': 3.080438756855576e-05, 'epoch': 3.84}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9435527920722961, 'eval_accuracy': 0.5880571428571428, 'eval_runtime': 185.7027, 'eval_samples_per_second': 942.367, 'eval_steps_per_second': 14.728, 'epoch': 4.0}
{'loss': 0.8702, 'grad_norm': 5.254051685333252, 'learning_rate': 2.9890310786106035e-05, 'epoch': 4.02}
{'loss': 0.8388, 'grad_norm': 12.821609497070312, 'learning_rate': 2.897623400365631e-05, 'epoch': 4.2}
{'loss': 0.8401, 'grad_norm': 6.6328630447387695, 'learning_rate': 2.806215722120658e-05, 'epoch': 4.39}
{'loss': 0.8506, 'grad_norm': 11.081700325012207, 'learning_rate': 2.7148080438756857e-05, 'epoch': 4.57}
{'loss': 0.8445, 'grad_norm': 11.176080703735352, 'learning_rate': 2.6234003656307133e-05, 'epoch': 4.75}
{'loss': 0.8398, 'grad_norm': 6.066398620605469, 'learning_rate': 2.5319926873857402e-05, 'epoch': 4.94}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9620685577392578, 'eval_accuracy': 0.5879085714285714, 'eval_runtime': 197.9339, 'eval_samples_per_second': 884.133, 'eval_steps_per_second': 13.818, 'epoch': 5.0}
{'loss': 0.8283, 'grad_norm': 7.975701808929443, 'learning_rate': 2.440585009140768e-05, 'epoch': 5.12}
{'loss': 0.8155, 'grad_norm': 12.929855346679688, 'learning_rate': 2.3491773308957955e-05, 'epoch': 5.3}
{'loss': 0.8125, 'grad_norm': 6.292065620422363, 'learning_rate': 2.2577696526508228e-05, 'epoch': 5.48}
{'loss': 0.8236, 'grad_norm': 16.395000457763672, 'learning_rate': 2.1663619744058504e-05, 'epoch': 5.67}
{'loss': 0.8307, 'grad_norm': 6.5154805183410645, 'learning_rate': 2.0749542961608777e-05, 'epoch': 5.85}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9646535515785217, 'eval_accuracy': 0.5872685714285715, 'eval_runtime': 185.1939, 'eval_samples_per_second': 944.956, 'eval_steps_per_second': 14.768, 'epoch': 6.0}
{'loss': 0.8179, 'grad_norm': 16.368419647216797, 'learning_rate': 1.9835466179159053e-05, 'epoch': 6.03}
{'loss': 0.8002, 'grad_norm': 10.068933486938477, 'learning_rate': 1.8921389396709326e-05, 'epoch': 6.22}
{'loss': 0.8038, 'grad_norm': 16.766286849975586, 'learning_rate': 1.80073126142596e-05, 'epoch': 6.4}
{'loss': 0.7985, 'grad_norm': 6.117867946624756, 'learning_rate': 1.709323583180987e-05, 'epoch': 6.58}
{'loss': 0.806, 'grad_norm': 15.290682792663574, 'learning_rate': 1.6179159049360147e-05, 'epoch': 6.76}
{'loss': 0.8033, 'grad_norm': 10.8291597366333, 'learning_rate': 1.526508226691042e-05, 'epoch': 6.95}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9794387221336365, 'eval_accuracy': 0.5852, 'eval_runtime': 185.114, 'eval_samples_per_second': 945.363, 'eval_steps_per_second': 14.775, 'epoch': 7.0}
{'loss': 0.7931, 'grad_norm': 11.083895683288574, 'learning_rate': 1.4351005484460695e-05, 'epoch': 7.13}
{'loss': 0.7792, 'grad_norm': 9.075784683227539, 'learning_rate': 1.3436928702010971e-05, 'epoch': 7.31}
{'loss': 0.7927, 'grad_norm': 10.321331024169922, 'learning_rate': 1.2522851919561244e-05, 'epoch': 7.5}
{'loss': 0.7792, 'grad_norm': 10.22445011138916, 'learning_rate': 1.1608775137111518e-05, 'epoch': 7.68}
{'loss': 0.7862, 'grad_norm': 4.155890464782715, 'learning_rate': 1.0694698354661791e-05, 'epoch': 7.86}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 0.9966398477554321, 'eval_accuracy': 0.58216, 'eval_runtime': 185.1505, 'eval_samples_per_second': 945.177, 'eval_steps_per_second': 14.772, 'epoch': 8.0}
{'loss': 0.7759, 'grad_norm': 12.02391242980957, 'learning_rate': 9.780621572212066e-06, 'epoch': 8.04}
{'loss': 0.7655, 'grad_norm': 17.789291381835938, 'learning_rate': 8.86654478976234e-06, 'epoch': 8.23}
{'loss': 0.7682, 'grad_norm': 5.542922496795654, 'learning_rate': 7.952468007312615e-06, 'epoch': 8.41}
{'loss': 0.762, 'grad_norm': 5.86365270614624, 'learning_rate': 7.038391224862889e-06, 'epoch': 8.59}
{'loss': 0.7722, 'grad_norm': 15.101332664489746, 'learning_rate': 6.124314442413163e-06, 'epoch': 8.78}
{'loss': 0.7744, 'grad_norm': 6.7013325691223145, 'learning_rate': 5.210237659963437e-06, 'epoch': 8.96}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0112935304641724, 'eval_accuracy': 0.5801142857142857, 'eval_runtime': 184.9767, 'eval_samples_per_second': 946.065, 'eval_steps_per_second': 14.786, 'epoch': 9.0}
{'loss': 0.7625, 'grad_norm': 7.166996479034424, 'learning_rate': 4.296160877513712e-06, 'epoch': 9.14}
{'loss': 0.7485, 'grad_norm': 17.034269332885742, 'learning_rate': 3.382084095063986e-06, 'epoch': 9.32}
{'loss': 0.7561, 'grad_norm': 5.779067039489746, 'learning_rate': 2.4680073126142596e-06, 'epoch': 9.51}
{'loss': 0.7615, 'grad_norm': 7.638485431671143, 'learning_rate': 1.5539305301645339e-06, 'epoch': 9.69}
{'loss': 0.7501, 'grad_norm': 3.955409049987793, 'learning_rate': 6.398537477148081e-07, 'epoch': 9.87}


  0%|          | 0/2735 [00:00<?, ?it/s]

{'eval_loss': 1.0295977592468262, 'eval_accuracy': 0.5794571428571429, 'eval_runtime': 198.1825, 'eval_samples_per_second': 883.024, 'eval_steps_per_second': 13.8, 'epoch': 10.0}
{'train_runtime': 8117.0759, 'train_samples_per_second': 215.595, 'train_steps_per_second': 3.369, 'train_loss': 0.8565058957506142, 'epoch': 10.0}


# Train Attacker

## Dataset Creation

In [None]:
from transformers import AutoModelForSequenceClassification
from torch.nn import functional as F
from torch.utils.data import DataLoader

attack_dataset_X = []  # shadow model predicition scores
attack_dataset_y = []  # membership / non-membership

for i in range(10):
    shadow_model = AutoModelForSequenceClassification.from_pretrained(
        f"saved_models/shadow_{i}"
    )
    shadow_train_dl = DataLoader(shadow_subsets[i]["train"], batch_size=100)
    shadow_test_dl = DataLoader(shadow_subsets[i]["test"], batch_size=100)
    shadow_model.eval()
    for batch in shadow_train_dl:
        with torch.inference_mode():
            logits = shadow_model(**batch)["logits"]
        probs = F.softmax(logits, dim=-1).cpu().numpy()
        attack_dataset_X.append(probs)
        attack_dataset_y.append(np.ones(len(probs)))
    for batch in shadow_test_dl:
        with torch.inference_mode():
            logits = shadow_model(**batch)["logits"]
        probs = F.softmax(logits, dim=-1).cpu().numpy()
        attack_dataset_X.append(probs)
        attack_dataset_y.append(np.zeros(len(probs)))

attack_X_train = np.hstack(attack_dataset_X)
attack_y_train = np.hstack(attack_dataset_y)

np.savez_compressed(
    "saved_datasets/attack_train_dataset",
    attack_X_train=attack_X_train,
    attack_y_train=attack_y_train,
)

## Training

In [None]:
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV

base_xgb_attacker = XGBClassifier(objective="binary:logistic", eval_metric="auc")
gridsearch_clf = GridSearchCV(
    base_xgb_attacker,
    {
        "max_depth": [1, 2, 3, 4, 5],
        "n_estimators": [2, 5, 10, 50]
    },
    verbose=1
)

gridsearch_clf.fit(attack_X_train, attack_y_train)
best_xgb_attacker = gridsearch_clf.best_estimator_
best_xgb_attacker.save_model("saved_models/attacker/XGB_attacker.json")

In [None]:
from sklearn.metrics import roc_auc_score

roc_auc_score(attack_y_train, best_xgb_attacker.predict_proba(attack_X_train)[:, 1])

# Inference

## Test Dataset Creation

In [None]:
from transformers import AutoModelForSequenceClassification
from torch.nn import functional as F
from torch.utils.data import DataLoader

attack_dataset_X = []  # target model predicition scores
attack_dataset_y = []  # membership / non-membership

target_model = AutoModelForSequenceClassification.from_pretrained(
    "saved_models/target"
)
target_train_dl = DataLoader(target_subset["train"], batch_size=100)
target_test_dl = DataLoader(target_subset["test"], batch_size=100)
target_model.eval()
for batch in target_train_dl:
    with torch.inference_mode():
        logits = target_model(**batch)["logits"]
    probs = F.softmax(logits, dim=-1).cpu().numpy()
    attack_dataset_X.append(probs)
    attack_dataset_y.append(np.ones(len(probs)))
for batch in target_test_dl:
    with torch.inference_mode():
        logits = target_model(**batch)["logits"]
    probs = F.softmax(logits, dim=-1).cpu().numpy()
    attack_dataset_X.append(probs)
    attack_dataset_y.append(np.zeros(len(probs)))

attack_X_test = np.hstack(attack_dataset_X)
attack_y_test = np.hstack(attack_dataset_y)

np.savez_compressed(
    "saved_datasets/attack_test_dataset",
    attack_X_test=attack_X_test,
    attack_y_test=attack_y_test,
)

## Run Attack