In [1]:
from emoji import demojize
from nltk.tokenize import TweetTokenizer

# intialize tokenizer

tokenizer = TweetTokenizer()

# define token normalization function

def normalizeToken(token):
    lowercased_token = token.lower()
    if token.startswith("@"):
        return "@USER"
    elif lowercased_token.startswith("http") or lowercased_token.startswith("www"):
        return "HTTPURL"
    elif len(token) == 1:
        return demojize(token)
    else:
        if token == "’":
            return "'"
        elif token == "…":
            return "..."
        else:
            return token

# define tweet normalization function

def normalizeTweet(tweet):
    tweet = tweet.replace("<url>", "HTTPURL")
    tokens = tokenizer.tokenize(tweet.replace("’", "'").replace("…", "..."))
    normTweet = " ".join([normalizeToken(token) for token in tokens])

    normTweet = (
        normTweet.replace("cannot ", "can not ")
        .replace("n't ", " n't ")
        .replace("n 't ", " n't ")
        .replace("ca n't", "can't")
        .replace("ai n't", "ain't")
    )
    normTweet = (
        normTweet.replace("'m ", " 'm ")
        .replace("'re ", " 're ")
        .replace("'s ", " 's ")
        .replace("'ll ", " 'll ")
        .replace("'d ", " 'd ")
        .replace("'ve ", " 've ")
    )
    normTweet = (
        normTweet.replace(" p . m .", "  p.m.")
        .replace(" p . m ", " p.m ")
        .replace(" a . m .", " a.m.")
        .replace(" a . m ", " a.m ")
    )

    return " ".join(normTweet.split())

In [2]:
import os

# Get the current working directory
current_directory = os.getcwd()

# Print the current working directory
print(f"The current working directory is: {current_directory}")

The current working directory is: /home/russell_pang/Desktop/ETH/FS24/CIL/project


In [2]:
# Import necessary libraries for training and testing
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, KFold
import os
import torch
from torch import tensor
import torch.nn.functional as F
from torch import nn
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from trl import SFTTrainer
from transformers import TrainingArguments, Trainer
from typing import Tuple
from datasets import load_dataset, Dataset

#model_name = #'finiteautomata/bertweet-base-sentiment-analysis' #'siebert/sentiment-roberta-large-english'
#model_name = 'vinai/bertweet-large'
#model_name = 'Neo-11/tweet_sentiment'
#model_name = 'Ibrahim-Alam/finetuning-xlnet-base-cased-on-tweet_sentiment_binary'
#  
# For this approach we use a pre-trained model which is based on RoBERTa

model_name = 'tweettemposhift/sentiment-sentiment_small_random3_seed2-bertweet-large'
output_dir = "./text_classification/datasets/"

CLASSES = 2


data = pd.read_csv(output_dir + "preprocessed_train.csv")
data_sample = data.sample(frac=1, random_state=42)

In [3]:
#model_name = 'Ibrahim-Alam/finetuning-xlnet-base-cased-on-tweet_sentiment_binary' 

# Load the pretrained model as well as the tokenizer

model = AutoModelForSequenceClassification.from_pretrained(model_name)#, num_labels=CLASSES)
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.model_max_length = model.config.max_position_embeddings
print("model parameters:" + str(sum(p.numel() for p in model.parameters())))

model parameters:355361794


In [7]:
for param in model.roberta.parameters():
    param.requires_grad = False

In [4]:

model = model.cuda()
#text = "congratulations! you are the best"
text = "I really hate that"

encoded_input = tokenizer(text, return_tensors='pt')
print(encoded_input)
encoded_input["input_ids"] = encoded_input["input_ids"].cuda()
#encoded_input["token_type_ids"] = encoded_input["token_type_ids"].cuda()
encoded_input["attention_mask"] = encoded_input["attention_mask"].cuda()
output = model(**encoded_input)
scores = output[0][0].detach().cpu().numpy()
scores = F.softmax(torch.tensor(scores), dim=0).numpy()
scores.tolist()

{'input_ids': tensor([[   0,  100,  269, 4157,   14,    2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1]])}


[0.9933673739433289, 0.006632662378251553]

In [5]:
labels = data_sample["label"].tolist()
labels = [0 if x == 0 else (1 if CLASSES == 2 else 2) for x in labels] 
# convert labels to one hot vectors
labels = np.eye(CLASSES)[labels]
labels

array([[1., 0.],
       [1., 0.],
       [0., 1.],
       ...,
       [1., 0.],
       [1., 0.],
       [1., 0.]])

In [6]:
# Prepare the training and validation sets

train_data,val_data, train_labels, val_labels = train_test_split(data_sample["text"], labels, test_size=1, random_state=42)
dataset = Dataset.from_list([{'text': text, 'labels': label} for text, label in zip(train_data, train_labels)])
val_dataset = Dataset.from_list([{'text': text, 'labels': label} for text, label in zip(val_data, val_labels)])

def tokenize_function(examples):
    return tokenizer(examples['text'])

dataset = dataset.map(tokenize_function, batched=True)
val_dataset = val_dataset.map(tokenize_function, batched=True)
dataset

Map:   0%|          | 0/2499999 [00:00<?, ? examples/s]

Map:   0%|          | 0/1 [00:00<?, ? examples/s]

Dataset({
    features: ['text', 'labels', 'input_ids', 'attention_mask'],
    num_rows: 2499999
})

In [7]:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

In [8]:
#!wandb login ->here_your_api<-

[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /home/russell_pang/.netrc


In [9]:
torch.cuda.empty_cache()

In [10]:
# Transfer learning part - define the training arguments and the trainer

from transformers import TrainerCallback, TrainerState, TrainerControl,training_args


# custom callback class for accuracy evaluation during the training
class CustomCallback(TrainerCallback):
    def on_evaluate(self, args, state, control, **kwargs):
        # Assuming the evaluation dataset has 'labels' and 'predictions' fields
        eval_dataloader = kwargs['eval_dataloader']
        model = kwargs['model']
        tokenizer = kwargs['tokenizer']
        
        model.eval()
        correct = 0
        total = 0
        
        for batch in eval_dataloader:
            inputs = batch['input_ids'].to(args.device)
            labels = batch['labels'].to(args.device)
            
            with torch.no_grad():
                outputs = model(inputs)
                predictions = torch.argmax(outputs.logits, dim=-1)
            
            labels = torch.argmax(labels, dim=-1)
            correct += (predictions == labels).sum().item()
            total += labels.size(0)
        
        accuracy = correct / total
        print(f"Evaluation Accuracy: {accuracy:.4f}")

# initialization of the trainer

bs = 16
trainer = Trainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    eval_dataset=val_dataset,
    args=TrainingArguments(
        per_device_train_batch_size=bs,
        gradient_accumulation_steps=256//bs,
        warmup_steps=10,
        fp16=not torch.cuda.is_bf16_supported(),
        bf16=torch.cuda.is_bf16_supported(),
        logging_steps=1,
        optim=training_args.OptimizerNames.ADAMW_TORCH, learning_rate=4e-5,
        # optim=training_args.OptimizerNames.LION,learning_rate=1e-5,
        weight_decay=0.001,
        lr_scheduler_type="linear",
        seed=42,
        output_dir="outputs",
        num_train_epochs=2,
        report_to="wandb",
        group_by_length=True,
        evaluation_strategy="steps",
        eval_steps=300,
        save_steps=0.25,
    ),
    callbacks=[CustomCallback()],
)

# Run the training

model.config.problem_type = "multi_label_classification"
trainer_stats = trainer.train()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mrussellpang0503[0m ([33mrussellpang0503-eth-z-rich[0m). Use [1m`wandb login --relogin`[0m to force relogin


  0%|          | 0/19530 [00:00<?, ?it/s]

{'loss': 0.8419, 'grad_norm': 19.232431411743164, 'learning_rate': 4.000000000000001e-06, 'epoch': 0.0}
{'loss': 0.8085, 'grad_norm': 18.96207618713379, 'learning_rate': 8.000000000000001e-06, 'epoch': 0.0}
{'loss': 0.6499, 'grad_norm': 11.58893871307373, 'learning_rate': 1.2e-05, 'epoch': 0.0}
{'loss': 0.5423, 'grad_norm': 7.165821075439453, 'learning_rate': 1.6000000000000003e-05, 'epoch': 0.0}
{'loss': 0.5296, 'grad_norm': 10.728065490722656, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 0.437, 'grad_norm': 7.189696311950684, 'learning_rate': 2.4e-05, 'epoch': 0.0}
{'loss': 0.3543, 'grad_norm': 4.837492942810059, 'learning_rate': 2.8e-05, 'epoch': 0.0}
{'loss': 0.3931, 'grad_norm': 8.277115821838379, 'learning_rate': 3.2000000000000005e-05, 'epoch': 0.0}
{'loss': 0.4007, 'grad_norm': 7.405435562133789, 'learning_rate': 3.6e-05, 'epoch': 0.0}
{'loss': 0.3427, 'grad_norm': 4.59221887588501, 'learning_rate': 4e-05, 'epoch': 0.0}
{'loss': 0.2741, 'grad_norm': 3.8430376052856445, 'learn

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0009552726405672729, 'eval_runtime': 0.0177, 'eval_samples_per_second': 56.651, 'eval_steps_per_second': 56.651, 'epoch': 0.03}
Evaluation Accuracy: 1.0000
{'loss': 0.2466, 'grad_norm': 2.380704402923584, 'learning_rate': 3.940368852459017e-05, 'epoch': 0.03}
{'loss': 0.2299, 'grad_norm': 1.8227200508117676, 'learning_rate': 3.94016393442623e-05, 'epoch': 0.03}
{'loss': 0.2811, 'grad_norm': 2.4222519397735596, 'learning_rate': 3.939959016393443e-05, 'epoch': 0.03}
{'loss': 0.2431, 'grad_norm': 2.0880966186523438, 'learning_rate': 3.939754098360656e-05, 'epoch': 0.03}
{'loss': 0.2016, 'grad_norm': 1.4338990449905396, 'learning_rate': 3.9395491803278696e-05, 'epoch': 0.03}
{'loss': 0.2005, 'grad_norm': 1.3801220655441284, 'learning_rate': 3.9393442622950824e-05, 'epoch': 0.03}
{'loss': 0.2338, 'grad_norm': 1.7436527013778687, 'learning_rate': 3.939139344262295e-05, 'epoch': 0.03}
{'loss': 0.2026, 'grad_norm': 1.361409306526184, 'learning_rate': 3.938934426229509e-05, 'epo

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.000955374795012176, 'eval_runtime': 0.0129, 'eval_samples_per_second': 77.46, 'eval_steps_per_second': 77.46, 'epoch': 0.06}
Evaluation Accuracy: 1.0000
{'loss': 0.2783, 'grad_norm': 4.699541091918945, 'learning_rate': 3.878893442622951e-05, 'epoch': 0.06}
{'loss': 0.2202, 'grad_norm': 2.6407885551452637, 'learning_rate': 3.8786885245901646e-05, 'epoch': 0.06}
{'loss': 0.2, 'grad_norm': 2.4122989177703857, 'learning_rate': 3.8784836065573774e-05, 'epoch': 0.06}
{'loss': 0.2243, 'grad_norm': 2.6511247158050537, 'learning_rate': 3.87827868852459e-05, 'epoch': 0.06}
{'loss': 0.2424, 'grad_norm': 3.075547456741333, 'learning_rate': 3.878073770491804e-05, 'epoch': 0.06}
{'loss': 0.2169, 'grad_norm': 3.3483989238739014, 'learning_rate': 3.8778688524590167e-05, 'epoch': 0.06}
{'loss': 0.2089, 'grad_norm': 3.2587637901306152, 'learning_rate': 3.8776639344262295e-05, 'epoch': 0.06}
{'loss': 0.1518, 'grad_norm': 3.4964919090270996, 'learning_rate': 3.877459016393443e-05, 'epoch':

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0006269255536608398, 'eval_runtime': 0.0119, 'eval_samples_per_second': 83.905, 'eval_steps_per_second': 83.905, 'epoch': 0.09}
Evaluation Accuracy: 1.0000
{'loss': 0.192, 'grad_norm': 2.33188533782959, 'learning_rate': 3.817418032786885e-05, 'epoch': 0.09}
{'loss': 0.2726, 'grad_norm': 3.832097291946411, 'learning_rate': 3.817213114754099e-05, 'epoch': 0.09}
{'loss': 0.2131, 'grad_norm': 2.204186201095581, 'learning_rate': 3.8170081967213116e-05, 'epoch': 0.09}
{'loss': 0.185, 'grad_norm': 1.8160208463668823, 'learning_rate': 3.8168032786885245e-05, 'epoch': 0.09}
{'loss': 0.1737, 'grad_norm': 2.642808437347412, 'learning_rate': 3.816598360655738e-05, 'epoch': 0.09}
{'loss': 0.1431, 'grad_norm': 2.9058146476745605, 'learning_rate': 3.816393442622951e-05, 'epoch': 0.09}
{'loss': 0.1596, 'grad_norm': 2.230897903442383, 'learning_rate': 3.8161885245901644e-05, 'epoch': 0.09}
{'loss': 0.159, 'grad_norm': 2.2669193744659424, 'learning_rate': 3.815983606557377e-05, 'epoch': 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0010015638545155525, 'eval_runtime': 0.0129, 'eval_samples_per_second': 77.779, 'eval_steps_per_second': 77.779, 'epoch': 0.12}
Evaluation Accuracy: 1.0000
{'loss': 0.2137, 'grad_norm': 2.8679580688476562, 'learning_rate': 3.75594262295082e-05, 'epoch': 0.12}
{'loss': 0.1815, 'grad_norm': 2.555569887161255, 'learning_rate': 3.755737704918033e-05, 'epoch': 0.12}
{'loss': 0.2725, 'grad_norm': 2.4512927532196045, 'learning_rate': 3.7555327868852465e-05, 'epoch': 0.12}
{'loss': 0.1993, 'grad_norm': 2.3337953090667725, 'learning_rate': 3.7553278688524594e-05, 'epoch': 0.12}
{'loss': 0.1799, 'grad_norm': 2.2687549591064453, 'learning_rate': 3.755122950819672e-05, 'epoch': 0.12}
{'loss': 0.1721, 'grad_norm': 1.884230375289917, 'learning_rate': 3.754918032786886e-05, 'epoch': 0.12}
{'loss': 0.1479, 'grad_norm': 3.5764033794403076, 'learning_rate': 3.7547131147540986e-05, 'epoch': 0.12}
{'loss': 0.1746, 'grad_norm': 1.8006319999694824, 'learning_rate': 3.754508196721312e-05, 'ep

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0006170104024931788, 'eval_runtime': 0.0113, 'eval_samples_per_second': 88.244, 'eval_steps_per_second': 88.244, 'epoch': 0.15}
Evaluation Accuracy: 1.0000
{'loss': 0.2311, 'grad_norm': 3.0042307376861572, 'learning_rate': 3.694467213114754e-05, 'epoch': 0.15}
{'loss': 0.1904, 'grad_norm': 1.9688787460327148, 'learning_rate': 3.694262295081967e-05, 'epoch': 0.15}
{'loss': 0.2173, 'grad_norm': 1.836633563041687, 'learning_rate': 3.694057377049181e-05, 'epoch': 0.15}
{'loss': 0.221, 'grad_norm': 2.3284833431243896, 'learning_rate': 3.6938524590163936e-05, 'epoch': 0.15}
{'loss': 0.1807, 'grad_norm': 2.301731824874878, 'learning_rate': 3.693647540983607e-05, 'epoch': 0.15}
{'loss': 0.1908, 'grad_norm': 1.7249466180801392, 'learning_rate': 3.69344262295082e-05, 'epoch': 0.15}
{'loss': 0.1286, 'grad_norm': 1.3927949666976929, 'learning_rate': 3.693237704918033e-05, 'epoch': 0.15}
{'loss': 0.1323, 'grad_norm': 1.6650938987731934, 'learning_rate': 3.6930327868852463e-05, 'epoc

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.002219627145677805, 'eval_runtime': 0.0118, 'eval_samples_per_second': 84.554, 'eval_steps_per_second': 84.554, 'epoch': 0.18}
Evaluation Accuracy: 1.0000
{'loss': 0.2084, 'grad_norm': 2.305342197418213, 'learning_rate': 3.6329918032786885e-05, 'epoch': 0.18}
{'loss': 0.2074, 'grad_norm': 2.3113393783569336, 'learning_rate': 3.632786885245902e-05, 'epoch': 0.18}
{'loss': 0.2143, 'grad_norm': 3.0419089794158936, 'learning_rate': 3.632581967213115e-05, 'epoch': 0.18}
{'loss': 0.2442, 'grad_norm': 1.9593392610549927, 'learning_rate': 3.632377049180328e-05, 'epoch': 0.18}
{'loss': 0.2252, 'grad_norm': 2.495114326477051, 'learning_rate': 3.632172131147541e-05, 'epoch': 0.18}
{'loss': 0.1719, 'grad_norm': 1.8469116687774658, 'learning_rate': 3.631967213114755e-05, 'epoch': 0.18}
{'loss': 0.2064, 'grad_norm': 1.911718487739563, 'learning_rate': 3.631762295081967e-05, 'epoch': 0.19}
{'loss': 0.152, 'grad_norm': 1.7041529417037964, 'learning_rate': 3.6315573770491806e-05, 'epoch

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0006465016631409526, 'eval_runtime': 0.0133, 'eval_samples_per_second': 75.176, 'eval_steps_per_second': 75.176, 'epoch': 0.22}
Evaluation Accuracy: 1.0000
{'loss': 0.2219, 'grad_norm': 1.836167573928833, 'learning_rate': 3.5715163934426234e-05, 'epoch': 0.22}
{'loss': 0.2233, 'grad_norm': 1.687974214553833, 'learning_rate': 3.571311475409836e-05, 'epoch': 0.22}
{'loss': 0.1996, 'grad_norm': 1.7598868608474731, 'learning_rate': 3.57110655737705e-05, 'epoch': 0.22}
{'loss': 0.1787, 'grad_norm': 2.1888632774353027, 'learning_rate': 3.570901639344263e-05, 'epoch': 0.22}
{'loss': 0.1728, 'grad_norm': 1.6428948640823364, 'learning_rate': 3.5706967213114755e-05, 'epoch': 0.22}
{'loss': 0.1548, 'grad_norm': 1.4247034788131714, 'learning_rate': 3.570491803278689e-05, 'epoch': 0.22}
{'loss': 0.1733, 'grad_norm': 2.252422571182251, 'learning_rate': 3.570286885245902e-05, 'epoch': 0.22}
{'loss': 0.1563, 'grad_norm': 2.1605026721954346, 'learning_rate': 3.570081967213115e-05, 'epoc

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0007920190691947937, 'eval_runtime': 0.0134, 'eval_samples_per_second': 74.896, 'eval_steps_per_second': 74.896, 'epoch': 0.25}
Evaluation Accuracy: 1.0000
{'loss': 0.2508, 'grad_norm': 1.610393762588501, 'learning_rate': 3.5100409836065576e-05, 'epoch': 0.25}
{'loss': 0.2355, 'grad_norm': 1.7608630657196045, 'learning_rate': 3.5098360655737705e-05, 'epoch': 0.25}
{'loss': 0.1743, 'grad_norm': 1.5111019611358643, 'learning_rate': 3.509631147540984e-05, 'epoch': 0.25}
{'loss': 0.1845, 'grad_norm': 1.5367302894592285, 'learning_rate': 3.509426229508197e-05, 'epoch': 0.25}
{'loss': 0.1718, 'grad_norm': 2.0940539836883545, 'learning_rate': 3.5092213114754104e-05, 'epoch': 0.25}
{'loss': 0.1372, 'grad_norm': 1.3766000270843506, 'learning_rate': 3.509016393442623e-05, 'epoch': 0.25}
{'loss': 0.2039, 'grad_norm': 1.8771324157714844, 'learning_rate': 3.508811475409836e-05, 'epoch': 0.25}
{'loss': 0.1869, 'grad_norm': 2.1136438846588135, 'learning_rate': 3.5086065573770496e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0005618047434836626, 'eval_runtime': 0.0126, 'eval_samples_per_second': 79.526, 'eval_steps_per_second': 79.526, 'epoch': 0.28}
Evaluation Accuracy: 1.0000
{'loss': 0.261, 'grad_norm': 2.1252360343933105, 'learning_rate': 3.448565573770492e-05, 'epoch': 0.28}
{'loss': 0.2338, 'grad_norm': 2.2021050453186035, 'learning_rate': 3.4483606557377054e-05, 'epoch': 0.28}
{'loss': 0.151, 'grad_norm': 1.4193825721740723, 'learning_rate': 3.448155737704918e-05, 'epoch': 0.28}
{'loss': 0.257, 'grad_norm': 1.8826534748077393, 'learning_rate': 3.447950819672131e-05, 'epoch': 0.28}
{'loss': 0.1536, 'grad_norm': 1.3233298063278198, 'learning_rate': 3.4477459016393446e-05, 'epoch': 0.28}
{'loss': 0.2166, 'grad_norm': 2.482231855392456, 'learning_rate': 3.447540983606558e-05, 'epoch': 0.28}
{'loss': 0.169, 'grad_norm': 1.5857149362564087, 'learning_rate': 3.44733606557377e-05, 'epoch': 0.28}
{'loss': 0.1308, 'grad_norm': 1.263054609298706, 'learning_rate': 3.447131147540984e-05, 'epoch':

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0007800981402397156, 'eval_runtime': 0.012, 'eval_samples_per_second': 83.247, 'eval_steps_per_second': 83.247, 'epoch': 0.31}
Evaluation Accuracy: 1.0000
{'loss': 0.2238, 'grad_norm': 2.0972447395324707, 'learning_rate': 3.387090163934427e-05, 'epoch': 0.31}
{'loss': 0.1861, 'grad_norm': 1.453984022140503, 'learning_rate': 3.3868852459016396e-05, 'epoch': 0.31}
{'loss': 0.2286, 'grad_norm': 2.047844648361206, 'learning_rate': 3.386680327868853e-05, 'epoch': 0.31}
{'loss': 0.2308, 'grad_norm': 1.951411247253418, 'learning_rate': 3.386475409836066e-05, 'epoch': 0.31}
{'loss': 0.1447, 'grad_norm': 1.6370035409927368, 'learning_rate': 3.386270491803279e-05, 'epoch': 0.31}
{'loss': 0.1802, 'grad_norm': 2.0428214073181152, 'learning_rate': 3.3860655737704924e-05, 'epoch': 0.31}
{'loss': 0.1391, 'grad_norm': 1.5183637142181396, 'learning_rate': 3.385860655737705e-05, 'epoch': 0.31}
{'loss': 0.1258, 'grad_norm': 1.612524390220642, 'learning_rate': 3.385655737704918e-05, 'epoch

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.000410897919209674, 'eval_runtime': 0.0127, 'eval_samples_per_second': 79.023, 'eval_steps_per_second': 79.023, 'epoch': 0.34}
Evaluation Accuracy: 1.0000
{'loss': 0.2446, 'grad_norm': 2.5105316638946533, 'learning_rate': 3.325614754098361e-05, 'epoch': 0.34}
{'loss': 0.1734, 'grad_norm': 2.567614793777466, 'learning_rate': 3.325409836065574e-05, 'epoch': 0.34}
{'loss': 0.1793, 'grad_norm': 1.9422919750213623, 'learning_rate': 3.325204918032787e-05, 'epoch': 0.34}
{'loss': 0.2064, 'grad_norm': 1.903358817100525, 'learning_rate': 3.325e-05, 'epoch': 0.34}
{'loss': 0.1515, 'grad_norm': 1.7471450567245483, 'learning_rate': 3.324795081967213e-05, 'epoch': 0.34}
{'loss': 0.2163, 'grad_norm': 2.764551877975464, 'learning_rate': 3.3245901639344266e-05, 'epoch': 0.34}
{'loss': 0.1677, 'grad_norm': 2.109443187713623, 'learning_rate': 3.3243852459016394e-05, 'epoch': 0.34}
{'loss': 0.2224, 'grad_norm': 2.5408997535705566, 'learning_rate': 3.324180327868853e-05, 'epoch': 0.34}
{'l

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0005114899249747396, 'eval_runtime': 0.0128, 'eval_samples_per_second': 78.3, 'eval_steps_per_second': 78.3, 'epoch': 0.37}
Evaluation Accuracy: 1.0000
{'loss': 0.1806, 'grad_norm': 1.7856955528259277, 'learning_rate': 3.264139344262296e-05, 'epoch': 0.37}
{'loss': 0.2426, 'grad_norm': 2.419642448425293, 'learning_rate': 3.263934426229508e-05, 'epoch': 0.37}
{'loss': 0.2303, 'grad_norm': 1.7490084171295166, 'learning_rate': 3.2637295081967215e-05, 'epoch': 0.37}
{'loss': 0.2412, 'grad_norm': 2.5315101146698, 'learning_rate': 3.263524590163935e-05, 'epoch': 0.37}
{'loss': 0.1965, 'grad_norm': 1.6771236658096313, 'learning_rate': 3.263319672131148e-05, 'epoch': 0.37}
{'loss': 0.1741, 'grad_norm': 2.184037208557129, 'learning_rate': 3.263114754098361e-05, 'epoch': 0.37}
{'loss': 0.1441, 'grad_norm': 1.9049139022827148, 'learning_rate': 3.262909836065574e-05, 'epoch': 0.37}
{'loss': 0.1567, 'grad_norm': 1.7043079137802124, 'learning_rate': 3.262704918032787e-05, 'epoch': 0.

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0006997723248787224, 'eval_runtime': 0.0111, 'eval_samples_per_second': 89.789, 'eval_steps_per_second': 89.789, 'epoch': 0.4}
Evaluation Accuracy: 1.0000
{'loss': 0.2118, 'grad_norm': 1.9737454652786255, 'learning_rate': 3.20266393442623e-05, 'epoch': 0.4}
{'loss': 0.1658, 'grad_norm': 1.8872544765472412, 'learning_rate': 3.202459016393443e-05, 'epoch': 0.4}
{'loss': 0.189, 'grad_norm': 1.8037896156311035, 'learning_rate': 3.202254098360656e-05, 'epoch': 0.4}
{'loss': 0.1716, 'grad_norm': 1.834896445274353, 'learning_rate': 3.202049180327869e-05, 'epoch': 0.4}
{'loss': 0.2155, 'grad_norm': 1.9099143743515015, 'learning_rate': 3.201844262295082e-05, 'epoch': 0.4}
{'loss': 0.1255, 'grad_norm': 1.5831507444381714, 'learning_rate': 3.201639344262296e-05, 'epoch': 0.4}
{'loss': 0.141, 'grad_norm': 1.5043467283248901, 'learning_rate': 3.2014344262295085e-05, 'epoch': 0.4}
{'loss': 0.1417, 'grad_norm': 1.806890606880188, 'learning_rate': 3.2012295081967214e-05, 'epoch': 0.4}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0004307747876737267, 'eval_runtime': 0.0114, 'eval_samples_per_second': 87.729, 'eval_steps_per_second': 87.729, 'epoch': 0.43}
Evaluation Accuracy: 1.0000
{'loss': 0.2423, 'grad_norm': 1.6533606052398682, 'learning_rate': 3.141188524590164e-05, 'epoch': 0.43}
{'loss': 0.2326, 'grad_norm': 2.055954933166504, 'learning_rate': 3.140983606557377e-05, 'epoch': 0.43}
{'loss': 0.1536, 'grad_norm': 1.383847713470459, 'learning_rate': 3.1407786885245906e-05, 'epoch': 0.43}
{'loss': 0.1521, 'grad_norm': 1.44198477268219, 'learning_rate': 3.1405737704918035e-05, 'epoch': 0.43}
{'loss': 0.1889, 'grad_norm': 2.057931900024414, 'learning_rate': 3.1403688524590163e-05, 'epoch': 0.43}
{'loss': 0.1882, 'grad_norm': 3.028719186782837, 'learning_rate': 3.14016393442623e-05, 'epoch': 0.43}
{'loss': 0.1821, 'grad_norm': 1.8717193603515625, 'learning_rate': 3.139959016393443e-05, 'epoch': 0.43}
{'loss': 0.1277, 'grad_norm': 1.8680198192596436, 'learning_rate': 3.1397540983606556e-05, 'epoch

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0005359445349313319, 'eval_runtime': 0.0113, 'eval_samples_per_second': 88.75, 'eval_steps_per_second': 88.75, 'epoch': 0.46}
Evaluation Accuracy: 1.0000
{'loss': 0.2664, 'grad_norm': 2.1578123569488525, 'learning_rate': 3.0797131147540985e-05, 'epoch': 0.46}
{'loss': 0.2457, 'grad_norm': 2.0898382663726807, 'learning_rate': 3.079508196721311e-05, 'epoch': 0.46}
{'loss': 0.1935, 'grad_norm': 1.8372589349746704, 'learning_rate': 3.079303278688525e-05, 'epoch': 0.46}
{'loss': 0.1425, 'grad_norm': 1.581876277923584, 'learning_rate': 3.0790983606557384e-05, 'epoch': 0.46}
{'loss': 0.1571, 'grad_norm': 1.6193137168884277, 'learning_rate': 3.0788934426229506e-05, 'epoch': 0.46}
{'loss': 0.1669, 'grad_norm': 1.8215415477752686, 'learning_rate': 3.078688524590164e-05, 'epoch': 0.46}
{'loss': 0.2202, 'grad_norm': 2.7273104190826416, 'learning_rate': 3.0784836065573776e-05, 'epoch': 0.46}
{'loss': 0.191, 'grad_norm': 1.7824562788009644, 'learning_rate': 3.0782786885245905e-05, 'e

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003684804541990161, 'eval_runtime': 0.0135, 'eval_samples_per_second': 73.895, 'eval_steps_per_second': 73.895, 'epoch': 0.49}
Evaluation Accuracy: 1.0000
{'loss': 0.2263, 'grad_norm': 1.7818171977996826, 'learning_rate': 3.018237704918033e-05, 'epoch': 0.49}
{'loss': 0.2189, 'grad_norm': 1.7853901386260986, 'learning_rate': 3.0180327868852462e-05, 'epoch': 0.49}
{'loss': 0.2299, 'grad_norm': 2.05403208732605, 'learning_rate': 3.017827868852459e-05, 'epoch': 0.49}
{'loss': 0.1656, 'grad_norm': 2.1360292434692383, 'learning_rate': 3.0176229508196722e-05, 'epoch': 0.49}
{'loss': 0.1794, 'grad_norm': 1.755708932876587, 'learning_rate': 3.0174180327868858e-05, 'epoch': 0.49}
{'loss': 0.1763, 'grad_norm': 4.304382801055908, 'learning_rate': 3.0172131147540983e-05, 'epoch': 0.49}
{'loss': 0.1597, 'grad_norm': 1.6026660203933716, 'learning_rate': 3.0170081967213115e-05, 'epoch': 0.49}
{'loss': 0.1376, 'grad_norm': 1.7291903495788574, 'learning_rate': 3.016803278688525e-05, 'e

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00045177509309723973, 'eval_runtime': 0.0129, 'eval_samples_per_second': 77.536, 'eval_steps_per_second': 77.536, 'epoch': 0.52}
Evaluation Accuracy: 1.0000
{'loss': 0.1894, 'grad_norm': 2.1446728706359863, 'learning_rate': 2.9567622950819676e-05, 'epoch': 0.52}
{'loss': 0.2413, 'grad_norm': 2.379408836364746, 'learning_rate': 2.9565573770491807e-05, 'epoch': 0.52}
{'loss': 0.2, 'grad_norm': 3.031008720397949, 'learning_rate': 2.956352459016394e-05, 'epoch': 0.52}
{'loss': 0.224, 'grad_norm': 2.642214298248291, 'learning_rate': 2.9561475409836068e-05, 'epoch': 0.52}
{'loss': 0.1499, 'grad_norm': 1.6192983388900757, 'learning_rate': 2.95594262295082e-05, 'epoch': 0.52}
{'loss': 0.1253, 'grad_norm': 1.389701008796692, 'learning_rate': 2.9557377049180332e-05, 'epoch': 0.52}
{'loss': 0.1634, 'grad_norm': 1.840200424194336, 'learning_rate': 2.9555327868852464e-05, 'epoch': 0.52}
{'loss': 0.1254, 'grad_norm': 2.2160959243774414, 'learning_rate': 2.9553278688524592e-05, 'epoch

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00035709270741790533, 'eval_runtime': 0.0123, 'eval_samples_per_second': 81.329, 'eval_steps_per_second': 81.329, 'epoch': 0.55}
Evaluation Accuracy: 1.0000
{'loss': 0.231, 'grad_norm': 2.887113094329834, 'learning_rate': 2.8952868852459018e-05, 'epoch': 0.55}
{'loss': 0.2146, 'grad_norm': 2.4148998260498047, 'learning_rate': 2.895081967213115e-05, 'epoch': 0.55}
{'loss': 0.2005, 'grad_norm': 2.0958187580108643, 'learning_rate': 2.894877049180328e-05, 'epoch': 0.55}
{'loss': 0.1755, 'grad_norm': 2.2011218070983887, 'learning_rate': 2.8946721311475413e-05, 'epoch': 0.55}
{'loss': 0.1554, 'grad_norm': 2.2164013385772705, 'learning_rate': 2.8944672131147542e-05, 'epoch': 0.55}
{'loss': 0.1193, 'grad_norm': 1.5481992959976196, 'learning_rate': 2.8942622950819674e-05, 'epoch': 0.55}
{'loss': 0.1767, 'grad_norm': 2.005197763442993, 'learning_rate': 2.8940573770491806e-05, 'epoch': 0.55}
{'loss': 0.1274, 'grad_norm': 1.8041588068008423, 'learning_rate': 2.8938524590163938e-05,

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003982617345172912, 'eval_runtime': 0.0131, 'eval_samples_per_second': 76.188, 'eval_steps_per_second': 76.188, 'epoch': 0.58}
Evaluation Accuracy: 1.0000
{'loss': 0.2437, 'grad_norm': 2.1148006916046143, 'learning_rate': 2.8338114754098363e-05, 'epoch': 0.58}
{'loss': 0.1703, 'grad_norm': 1.4508192539215088, 'learning_rate': 2.833606557377049e-05, 'epoch': 0.58}
{'loss': 0.1965, 'grad_norm': 1.6063646078109741, 'learning_rate': 2.8334016393442624e-05, 'epoch': 0.58}
{'loss': 0.1984, 'grad_norm': 1.4618377685546875, 'learning_rate': 2.8331967213114756e-05, 'epoch': 0.58}
{'loss': 0.1804, 'grad_norm': 1.7213550806045532, 'learning_rate': 2.832991803278689e-05, 'epoch': 0.58}
{'loss': 0.1652, 'grad_norm': 1.6409826278686523, 'learning_rate': 2.8327868852459016e-05, 'epoch': 0.58}
{'loss': 0.1514, 'grad_norm': 1.3703126907348633, 'learning_rate': 2.8325819672131148e-05, 'epoch': 0.58}
{'loss': 0.1871, 'grad_norm': 1.6293237209320068, 'learning_rate': 2.8323770491803283e-0

wandb: Network error (ConnectionError), entering retry loop.


{'loss': 0.2035, 'grad_norm': 1.9896070957183838, 'learning_rate': 2.816393442622951e-05, 'epoch': 0.59}
{'loss': 0.2315, 'grad_norm': 2.409686803817749, 'learning_rate': 2.8161885245901645e-05, 'epoch': 0.59}
{'loss': 0.2532, 'grad_norm': 2.1398303508758545, 'learning_rate': 2.815983606557377e-05, 'epoch': 0.59}
{'loss': 0.2473, 'grad_norm': 2.470686912536621, 'learning_rate': 2.8157786885245902e-05, 'epoch': 0.59}
{'loss': 0.2277, 'grad_norm': 1.8751169443130493, 'learning_rate': 2.8155737704918037e-05, 'epoch': 0.59}
{'loss': 0.2394, 'grad_norm': 2.370142936706543, 'learning_rate': 2.815368852459017e-05, 'epoch': 0.59}
{'loss': 0.2606, 'grad_norm': 1.9931353330612183, 'learning_rate': 2.8151639344262294e-05, 'epoch': 0.59}
{'loss': 0.2913, 'grad_norm': 2.539485216140747, 'learning_rate': 2.814959016393443e-05, 'epoch': 0.59}
{'loss': 0.2928, 'grad_norm': 2.431389093399048, 'learning_rate': 2.814754098360656e-05, 'epoch': 0.59}
{'loss': 0.2177, 'grad_norm': 2.162557363510132, 'learni

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0004044606175739318, 'eval_runtime': 0.0113, 'eval_samples_per_second': 88.227, 'eval_steps_per_second': 88.227, 'epoch': 0.61}
Evaluation Accuracy: 1.0000
{'loss': 0.1512, 'grad_norm': 1.676802158355713, 'learning_rate': 2.772336065573771e-05, 'epoch': 0.61}
{'loss': 0.2599, 'grad_norm': 2.475924491882324, 'learning_rate': 2.772131147540984e-05, 'epoch': 0.61}
{'loss': 0.2314, 'grad_norm': 2.1686787605285645, 'learning_rate': 2.771926229508197e-05, 'epoch': 0.61}
{'loss': 0.1521, 'grad_norm': 1.9882792234420776, 'learning_rate': 2.77172131147541e-05, 'epoch': 0.61}
{'loss': 0.1765, 'grad_norm': 1.8931423425674438, 'learning_rate': 2.7715163934426233e-05, 'epoch': 0.61}
{'loss': 0.1724, 'grad_norm': 1.8335222005844116, 'learning_rate': 2.7713114754098365e-05, 'epoch': 0.62}
{'loss': 0.1424, 'grad_norm': 2.0948619842529297, 'learning_rate': 2.7711065573770493e-05, 'epoch': 0.62}
{'loss': 0.1511, 'grad_norm': 1.5933316946029663, 'learning_rate': 2.7709016393442625e-05, 'e

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0006269255536608398, 'eval_runtime': 0.0123, 'eval_samples_per_second': 81.121, 'eval_steps_per_second': 81.121, 'epoch': 0.65}
Evaluation Accuracy: 1.0000
{'loss': 0.1698, 'grad_norm': 1.7584989070892334, 'learning_rate': 2.710860655737705e-05, 'epoch': 0.65}
{'loss': 0.1383, 'grad_norm': 2.0502967834472656, 'learning_rate': 2.7106557377049183e-05, 'epoch': 0.65}
{'loss': 0.1592, 'grad_norm': 2.1865060329437256, 'learning_rate': 2.7104508196721315e-05, 'epoch': 0.65}
{'loss': 0.1532, 'grad_norm': 1.9265533685684204, 'learning_rate': 2.7102459016393443e-05, 'epoch': 0.65}
{'loss': 0.1832, 'grad_norm': 1.9886647462844849, 'learning_rate': 2.7100409836065575e-05, 'epoch': 0.65}
{'loss': 0.1452, 'grad_norm': 1.7547895908355713, 'learning_rate': 2.7098360655737707e-05, 'epoch': 0.65}
{'loss': 0.14, 'grad_norm': 2.3156936168670654, 'learning_rate': 2.709631147540984e-05, 'epoch': 0.65}
{'loss': 0.1349, 'grad_norm': 2.219435691833496, 'learning_rate': 2.7094262295081967e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003516012220643461, 'eval_runtime': 0.012, 'eval_samples_per_second': 83.037, 'eval_steps_per_second': 83.037, 'epoch': 0.68}
Evaluation Accuracy: 1.0000
{'loss': 0.1637, 'grad_norm': 1.6612364053726196, 'learning_rate': 2.6493852459016393e-05, 'epoch': 0.68}
{'loss': 0.1866, 'grad_norm': 1.7223303318023682, 'learning_rate': 2.6491803278688525e-05, 'epoch': 0.68}
{'loss': 0.1522, 'grad_norm': 1.622170329093933, 'learning_rate': 2.6489754098360657e-05, 'epoch': 0.68}
{'loss': 0.1679, 'grad_norm': 1.647658109664917, 'learning_rate': 2.6487704918032792e-05, 'epoch': 0.68}
{'loss': 0.163, 'grad_norm': 3.250615119934082, 'learning_rate': 2.6485655737704917e-05, 'epoch': 0.68}
{'loss': 0.1594, 'grad_norm': 2.381741523742676, 'learning_rate': 2.648360655737705e-05, 'epoch': 0.68}
{'loss': 0.1701, 'grad_norm': 1.8060399293899536, 'learning_rate': 2.6481557377049184e-05, 'epoch': 0.68}
{'loss': 0.1274, 'grad_norm': 1.819156527519226, 'learning_rate': 2.6479508196721316e-05, 'ep

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00036281475331634283, 'eval_runtime': 0.0112, 'eval_samples_per_second': 89.22, 'eval_steps_per_second': 89.22, 'epoch': 0.71}
Evaluation Accuracy: 1.0000
{'loss': 0.2046, 'grad_norm': 2.3895328044891357, 'learning_rate': 2.587909836065574e-05, 'epoch': 0.71}
{'loss': 0.1935, 'grad_norm': 1.7655667066574097, 'learning_rate': 2.587704918032787e-05, 'epoch': 0.71}
{'loss': 0.1413, 'grad_norm': 1.6347475051879883, 'learning_rate': 2.5875000000000002e-05, 'epoch': 0.71}
{'loss': 0.1943, 'grad_norm': 2.2348814010620117, 'learning_rate': 2.5872950819672134e-05, 'epoch': 0.71}
{'loss': 0.1685, 'grad_norm': 7.541565895080566, 'learning_rate': 2.5870901639344266e-05, 'epoch': 0.71}
{'loss': 0.1805, 'grad_norm': 1.7206705808639526, 'learning_rate': 2.5868852459016395e-05, 'epoch': 0.71}
{'loss': 0.1339, 'grad_norm': 1.5277026891708374, 'learning_rate': 2.5866803278688526e-05, 'epoch': 0.71}
{'loss': 0.1566, 'grad_norm': 1.5978127717971802, 'learning_rate': 2.586475409836066e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003684804541990161, 'eval_runtime': 0.0136, 'eval_samples_per_second': 73.425, 'eval_steps_per_second': 73.425, 'epoch': 0.74}
Evaluation Accuracy: 1.0000
{'loss': 0.1795, 'grad_norm': 2.2814173698425293, 'learning_rate': 2.5264344262295084e-05, 'epoch': 0.74}
{'loss': 0.1679, 'grad_norm': 2.9753143787384033, 'learning_rate': 2.5262295081967216e-05, 'epoch': 0.74}
{'loss': 0.2106, 'grad_norm': 1.87021005153656, 'learning_rate': 2.5260245901639344e-05, 'epoch': 0.74}
{'loss': 0.2159, 'grad_norm': 3.1131680011749268, 'learning_rate': 2.5258196721311476e-05, 'epoch': 0.74}
{'loss': 0.1878, 'grad_norm': 3.1432108879089355, 'learning_rate': 2.5256147540983608e-05, 'epoch': 0.74}
{'loss': 0.1791, 'grad_norm': 2.578209638595581, 'learning_rate': 2.525409836065574e-05, 'epoch': 0.74}
{'loss': 0.1633, 'grad_norm': 1.702010989189148, 'learning_rate': 2.525204918032787e-05, 'epoch': 0.74}
{'loss': 0.1301, 'grad_norm': 1.6889238357543945, 'learning_rate': 2.525e-05, 'epoch': 0.74}

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003355498774908483, 'eval_runtime': 0.013, 'eval_samples_per_second': 77.008, 'eval_steps_per_second': 77.008, 'epoch': 0.77}
Evaluation Accuracy: 1.0000
{'loss': 0.191, 'grad_norm': 1.5834063291549683, 'learning_rate': 2.4649590163934426e-05, 'epoch': 0.77}
{'loss': 0.1957, 'grad_norm': 1.8055750131607056, 'learning_rate': 2.4647540983606558e-05, 'epoch': 0.77}
{'loss': 0.1596, 'grad_norm': 1.4652034044265747, 'learning_rate': 2.4645491803278693e-05, 'epoch': 0.77}
{'loss': 0.1928, 'grad_norm': 1.7810118198394775, 'learning_rate': 2.4643442622950825e-05, 'epoch': 0.77}
{'loss': 0.1909, 'grad_norm': 1.9059983491897583, 'learning_rate': 2.464139344262295e-05, 'epoch': 0.77}
{'loss': 0.1494, 'grad_norm': 1.7032021284103394, 'learning_rate': 2.4639344262295086e-05, 'epoch': 0.77}
{'loss': 0.174, 'grad_norm': 1.763601303100586, 'learning_rate': 2.4637295081967217e-05, 'epoch': 0.77}
{'loss': 0.1618, 'grad_norm': 1.3944084644317627, 'learning_rate': 2.4635245901639343e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003355498774908483, 'eval_runtime': 0.0143, 'eval_samples_per_second': 69.845, 'eval_steps_per_second': 69.845, 'epoch': 0.8}
Evaluation Accuracy: 1.0000
{'loss': 0.2043, 'grad_norm': 2.3698320388793945, 'learning_rate': 2.4034836065573775e-05, 'epoch': 0.8}
{'loss': 0.1986, 'grad_norm': 2.0425467491149902, 'learning_rate': 2.4032786885245903e-05, 'epoch': 0.8}
{'loss': 0.1914, 'grad_norm': 1.794228196144104, 'learning_rate': 2.4030737704918035e-05, 'epoch': 0.8}
{'loss': 0.1787, 'grad_norm': 1.996774673461914, 'learning_rate': 2.4028688524590167e-05, 'epoch': 0.8}
{'loss': 0.1713, 'grad_norm': 1.7195570468902588, 'learning_rate': 2.40266393442623e-05, 'epoch': 0.8}
{'loss': 0.1617, 'grad_norm': 1.6557109355926514, 'learning_rate': 2.4024590163934428e-05, 'epoch': 0.8}
{'loss': 0.1841, 'grad_norm': 2.1180291175842285, 'learning_rate': 2.402254098360656e-05, 'epoch': 0.8}
{'loss': 0.1765, 'grad_norm': 2.0532267093658447, 'learning_rate': 2.402049180327869e-05, 'epoch': 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003684804541990161, 'eval_runtime': 0.0129, 'eval_samples_per_second': 77.754, 'eval_steps_per_second': 77.754, 'epoch': 0.83}
Evaluation Accuracy: 1.0000
{'loss': 0.1853, 'grad_norm': 1.926138997077942, 'learning_rate': 2.3420081967213117e-05, 'epoch': 0.83}
{'loss': 0.1701, 'grad_norm': 1.6686197519302368, 'learning_rate': 2.341803278688525e-05, 'epoch': 0.83}
{'loss': 0.1522, 'grad_norm': 2.291501998901367, 'learning_rate': 2.3415983606557377e-05, 'epoch': 0.83}
{'loss': 0.1416, 'grad_norm': 1.8497931957244873, 'learning_rate': 2.341393442622951e-05, 'epoch': 0.83}
{'loss': 0.1276, 'grad_norm': 1.49302339553833, 'learning_rate': 2.341188524590164e-05, 'epoch': 0.83}
{'loss': 0.1347, 'grad_norm': 1.8677371740341187, 'learning_rate': 2.3409836065573773e-05, 'epoch': 0.83}
{'loss': 0.1421, 'grad_norm': 2.1193675994873047, 'learning_rate': 2.34077868852459e-05, 'epoch': 0.83}
{'loss': 0.1254, 'grad_norm': 1.7542052268981934, 'learning_rate': 2.3405737704918034e-05, 'epo

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003573232679627836, 'eval_runtime': 0.0126, 'eval_samples_per_second': 79.153, 'eval_steps_per_second': 79.153, 'epoch': 0.86}
Evaluation Accuracy: 1.0000
{'loss': 0.2031, 'grad_norm': 2.0516252517700195, 'learning_rate': 2.280532786885246e-05, 'epoch': 0.86}
{'loss': 0.1752, 'grad_norm': 1.7768564224243164, 'learning_rate': 2.2803278688524594e-05, 'epoch': 0.86}
{'loss': 0.1926, 'grad_norm': 1.7111937999725342, 'learning_rate': 2.2801229508196726e-05, 'epoch': 0.86}
{'loss': 0.1726, 'grad_norm': 2.8438103199005127, 'learning_rate': 2.279918032786885e-05, 'epoch': 0.86}
{'loss': 0.1633, 'grad_norm': 1.4022356271743774, 'learning_rate': 2.2797131147540987e-05, 'epoch': 0.86}
{'loss': 0.1817, 'grad_norm': 1.8104708194732666, 'learning_rate': 2.279508196721312e-05, 'epoch': 0.86}
{'loss': 0.1891, 'grad_norm': 1.6357920169830322, 'learning_rate': 2.279303278688525e-05, 'epoch': 0.86}
{'loss': 0.1566, 'grad_norm': 1.7987796068191528, 'learning_rate': 2.279098360655738e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00031490041874349117, 'eval_runtime': 0.0112, 'eval_samples_per_second': 89.206, 'eval_steps_per_second': 89.206, 'epoch': 0.89}
Evaluation Accuracy: 1.0000
{'loss': 0.1784, 'grad_norm': 1.7339057922363281, 'learning_rate': 2.2190573770491804e-05, 'epoch': 0.89}
{'loss': 0.1879, 'grad_norm': 1.792635440826416, 'learning_rate': 2.2188524590163936e-05, 'epoch': 0.89}
{'loss': 0.1968, 'grad_norm': 1.9992462396621704, 'learning_rate': 2.2186475409836068e-05, 'epoch': 0.89}
{'loss': 0.1934, 'grad_norm': 1.8200018405914307, 'learning_rate': 2.21844262295082e-05, 'epoch': 0.89}
{'loss': 0.148, 'grad_norm': 1.5205968618392944, 'learning_rate': 2.218237704918033e-05, 'epoch': 0.89}
{'loss': 0.1586, 'grad_norm': 1.9092738628387451, 'learning_rate': 2.218032786885246e-05, 'epoch': 0.89}
{'loss': 0.1574, 'grad_norm': 1.5351330041885376, 'learning_rate': 2.2178278688524593e-05, 'epoch': 0.89}
{'loss': 0.1317, 'grad_norm': 1.7751855850219727, 'learning_rate': 2.2176229508196725e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00031490041874349117, 'eval_runtime': 0.0126, 'eval_samples_per_second': 79.643, 'eval_steps_per_second': 79.643, 'epoch': 0.92}
Evaluation Accuracy: 1.0000
{'loss': 0.218, 'grad_norm': 2.212932825088501, 'learning_rate': 2.157581967213115e-05, 'epoch': 0.92}
{'loss': 0.2176, 'grad_norm': 1.8095632791519165, 'learning_rate': 2.157377049180328e-05, 'epoch': 0.92}
{'loss': 0.2043, 'grad_norm': 2.0824239253997803, 'learning_rate': 2.157172131147541e-05, 'epoch': 0.92}
{'loss': 0.1882, 'grad_norm': 1.8643447160720825, 'learning_rate': 2.1569672131147542e-05, 'epoch': 0.92}
{'loss': 0.1628, 'grad_norm': 1.3664597272872925, 'learning_rate': 2.1567622950819674e-05, 'epoch': 0.92}
{'loss': 0.1887, 'grad_norm': 1.5986484289169312, 'learning_rate': 2.1565573770491803e-05, 'epoch': 0.92}
{'loss': 0.1414, 'grad_norm': 1.358304738998413, 'learning_rate': 2.1563524590163935e-05, 'epoch': 0.92}
{'loss': 0.1933, 'grad_norm': 1.6906628608703613, 'learning_rate': 2.1561475409836067e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00030536367557942867, 'eval_runtime': 0.011, 'eval_samples_per_second': 90.543, 'eval_steps_per_second': 90.543, 'epoch': 0.95}
Evaluation Accuracy: 1.0000
{'loss': 0.2155, 'grad_norm': 1.9092050790786743, 'learning_rate': 2.0961065573770495e-05, 'epoch': 0.95}
{'loss': 0.2354, 'grad_norm': 2.627251386642456, 'learning_rate': 2.0959016393442627e-05, 'epoch': 0.95}
{'loss': 0.1826, 'grad_norm': 2.505249261856079, 'learning_rate': 2.0956967213114752e-05, 'epoch': 0.95}
{'loss': 0.1567, 'grad_norm': 1.7722009420394897, 'learning_rate': 2.0954918032786888e-05, 'epoch': 0.95}
{'loss': 0.1871, 'grad_norm': 1.8897686004638672, 'learning_rate': 2.095286885245902e-05, 'epoch': 0.95}
{'loss': 0.1244, 'grad_norm': 2.1587743759155273, 'learning_rate': 2.095081967213115e-05, 'epoch': 0.95}
{'loss': 0.1397, 'grad_norm': 1.3473865985870361, 'learning_rate': 2.094877049180328e-05, 'epoch': 0.95}
{'loss': 0.2226, 'grad_norm': 1.8757965564727783, 'learning_rate': 2.0946721311475412e-05, 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00031490041874349117, 'eval_runtime': 0.0123, 'eval_samples_per_second': 81.183, 'eval_steps_per_second': 81.183, 'epoch': 0.98}
Evaluation Accuracy: 1.0000
{'loss': 0.1935, 'grad_norm': 3.0620200634002686, 'learning_rate': 2.0346311475409837e-05, 'epoch': 0.98}
{'loss': 0.2361, 'grad_norm': 2.310426950454712, 'learning_rate': 2.034426229508197e-05, 'epoch': 0.98}
{'loss': 0.1922, 'grad_norm': 2.0706608295440674, 'learning_rate': 2.03422131147541e-05, 'epoch': 0.98}
{'loss': 0.1619, 'grad_norm': 1.8062270879745483, 'learning_rate': 2.034016393442623e-05, 'epoch': 0.98}
{'loss': 0.213, 'grad_norm': 2.10347056388855, 'learning_rate': 2.0338114754098362e-05, 'epoch': 0.98}
{'loss': 0.1662, 'grad_norm': 2.149277687072754, 'learning_rate': 2.0336065573770494e-05, 'epoch': 0.98}
{'loss': 0.0862, 'grad_norm': 1.5591589212417603, 'learning_rate': 2.0334016393442626e-05, 'epoch': 0.98}
{'loss': 0.1141, 'grad_norm': 1.842078447341919, 'learning_rate': 2.0331967213114754e-05, 'epo

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00031490041874349117, 'eval_runtime': 0.0139, 'eval_samples_per_second': 72.13, 'eval_steps_per_second': 72.13, 'epoch': 1.01}
Evaluation Accuracy: 1.0000
{'loss': 0.192, 'grad_norm': 2.185805082321167, 'learning_rate': 1.9731557377049183e-05, 'epoch': 1.01}
{'loss': 0.1757, 'grad_norm': 1.8636484146118164, 'learning_rate': 1.972950819672131e-05, 'epoch': 1.01}
{'loss': 0.2209, 'grad_norm': 2.230288505554199, 'learning_rate': 1.9727459016393443e-05, 'epoch': 1.01}
{'loss': 0.1526, 'grad_norm': 2.180680751800537, 'learning_rate': 1.9725409836065575e-05, 'epoch': 1.01}
{'loss': 0.1759, 'grad_norm': 1.7718008756637573, 'learning_rate': 1.9723360655737707e-05, 'epoch': 1.01}
{'loss': 0.2051, 'grad_norm': 2.1583049297332764, 'learning_rate': 1.9721311475409836e-05, 'epoch': 1.01}
{'loss': 0.1519, 'grad_norm': 1.841519832611084, 'learning_rate': 1.9719262295081968e-05, 'epoch': 1.01}
{'loss': 0.2123, 'grad_norm': 1.8146840333938599, 'learning_rate': 1.97172131147541e-05, 'epo

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003355498774908483, 'eval_runtime': 0.0113, 'eval_samples_per_second': 88.78, 'eval_steps_per_second': 88.78, 'epoch': 1.04}
Evaluation Accuracy: 1.0000
{'loss': 0.2511, 'grad_norm': 1.9056892395019531, 'learning_rate': 1.911680327868853e-05, 'epoch': 1.04}
{'loss': 0.1928, 'grad_norm': 2.8264143466949463, 'learning_rate': 1.9114754098360657e-05, 'epoch': 1.04}
{'loss': 0.1821, 'grad_norm': 3.0623278617858887, 'learning_rate': 1.911270491803279e-05, 'epoch': 1.04}
{'loss': 0.1943, 'grad_norm': 2.503697633743286, 'learning_rate': 1.911065573770492e-05, 'epoch': 1.04}
{'loss': 0.1803, 'grad_norm': 2.196441173553467, 'learning_rate': 1.9108606557377053e-05, 'epoch': 1.04}
{'loss': 0.1527, 'grad_norm': 1.7027984857559204, 'learning_rate': 1.910655737704918e-05, 'epoch': 1.05}
{'loss': 0.1799, 'grad_norm': 2.8949897289276123, 'learning_rate': 1.9104508196721313e-05, 'epoch': 1.05}
{'loss': 0.1995, 'grad_norm': 1.9005951881408691, 'learning_rate': 1.9102459016393445e-05, 'ep

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0003355498774908483, 'eval_runtime': 0.0126, 'eval_samples_per_second': 79.057, 'eval_steps_per_second': 79.057, 'epoch': 1.08}
Evaluation Accuracy: 1.0000
{'loss': 0.2002, 'grad_norm': 1.9513099193572998, 'learning_rate': 1.850204918032787e-05, 'epoch': 1.08}
{'loss': 0.1843, 'grad_norm': 2.2987754344940186, 'learning_rate': 1.8500000000000002e-05, 'epoch': 1.08}
{'loss': 0.1924, 'grad_norm': 1.8358807563781738, 'learning_rate': 1.849795081967213e-05, 'epoch': 1.08}
{'loss': 0.2372, 'grad_norm': 2.3599584102630615, 'learning_rate': 1.8495901639344266e-05, 'epoch': 1.08}
{'loss': 0.2415, 'grad_norm': 2.6592698097229004, 'learning_rate': 1.8493852459016395e-05, 'epoch': 1.08}
{'loss': 0.168, 'grad_norm': 2.196321964263916, 'learning_rate': 1.8491803278688527e-05, 'epoch': 1.08}
{'loss': 0.209, 'grad_norm': 2.6753053665161133, 'learning_rate': 1.848975409836066e-05, 'epoch': 1.08}
{'loss': 0.1787, 'grad_norm': 1.830304741859436, 'learning_rate': 1.848770491803279e-05, 'ep

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00030535674886777997, 'eval_runtime': 0.0126, 'eval_samples_per_second': 79.247, 'eval_steps_per_second': 79.247, 'epoch': 1.11}
Evaluation Accuracy: 1.0000
{'loss': 0.1868, 'grad_norm': 1.814982295036316, 'learning_rate': 1.7887295081967216e-05, 'epoch': 1.11}
{'loss': 0.2218, 'grad_norm': 1.9999268054962158, 'learning_rate': 1.7885245901639345e-05, 'epoch': 1.11}
{'loss': 0.2602, 'grad_norm': 2.1922905445098877, 'learning_rate': 1.7883196721311476e-05, 'epoch': 1.11}
{'loss': 0.1647, 'grad_norm': 2.1682677268981934, 'learning_rate': 1.788114754098361e-05, 'epoch': 1.11}
{'loss': 0.2282, 'grad_norm': 2.354578733444214, 'learning_rate': 1.787909836065574e-05, 'epoch': 1.11}
{'loss': 0.2127, 'grad_norm': 2.2309534549713135, 'learning_rate': 1.787704918032787e-05, 'epoch': 1.11}
{'loss': 0.215, 'grad_norm': 2.156122922897339, 'learning_rate': 1.7875e-05, 'epoch': 1.11}
{'loss': 0.1691, 'grad_norm': 2.4587180614471436, 'learning_rate': 1.7872950819672133e-05, 'epoch': 1.11

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00029582000570371747, 'eval_runtime': 0.0118, 'eval_samples_per_second': 84.847, 'eval_steps_per_second': 84.847, 'epoch': 1.14}
Evaluation Accuracy: 1.0000
{'loss': 0.2084, 'grad_norm': 2.965961217880249, 'learning_rate': 1.7272540983606558e-05, 'epoch': 1.14}
{'loss': 0.2039, 'grad_norm': 3.1201820373535156, 'learning_rate': 1.727049180327869e-05, 'epoch': 1.14}
{'loss': 0.2071, 'grad_norm': 2.5584805011749268, 'learning_rate': 1.7268442622950822e-05, 'epoch': 1.14}
{'loss': 0.1724, 'grad_norm': 2.281461715698242, 'learning_rate': 1.7266393442622954e-05, 'epoch': 1.14}
{'loss': 0.2608, 'grad_norm': 2.426581621170044, 'learning_rate': 1.7264344262295082e-05, 'epoch': 1.14}
{'loss': 0.1744, 'grad_norm': 2.3486385345458984, 'learning_rate': 1.7262295081967214e-05, 'epoch': 1.14}
{'loss': 0.1547, 'grad_norm': 2.4437081813812256, 'learning_rate': 1.7260245901639346e-05, 'epoch': 1.14}
{'loss': 0.1866, 'grad_norm': 2.3045802116394043, 'learning_rate': 1.7258196721311478e-05

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.000286854337900877, 'eval_runtime': 0.0117, 'eval_samples_per_second': 85.504, 'eval_steps_per_second': 85.504, 'epoch': 1.17}
Evaluation Accuracy: 1.0000
{'loss': 0.1707, 'grad_norm': 2.1787362098693848, 'learning_rate': 1.6657786885245904e-05, 'epoch': 1.17}
{'loss': 0.3011, 'grad_norm': 3.4235923290252686, 'learning_rate': 1.6655737704918032e-05, 'epoch': 1.17}
{'loss': 0.1723, 'grad_norm': 2.2973506450653076, 'learning_rate': 1.6653688524590167e-05, 'epoch': 1.17}
{'loss': 0.1846, 'grad_norm': 2.9760828018188477, 'learning_rate': 1.6651639344262296e-05, 'epoch': 1.17}
{'loss': 0.187, 'grad_norm': 2.8096935749053955, 'learning_rate': 1.6649590163934428e-05, 'epoch': 1.17}
{'loss': 0.2146, 'grad_norm': 2.9672253131866455, 'learning_rate': 1.664754098360656e-05, 'epoch': 1.17}
{'loss': 0.2337, 'grad_norm': 2.616551399230957, 'learning_rate': 1.6645491803278692e-05, 'epoch': 1.17}
{'loss': 0.2169, 'grad_norm': 2.498173713684082, 'learning_rate': 1.664344262295082e-05, '

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00030536367557942867, 'eval_runtime': 0.0127, 'eval_samples_per_second': 78.436, 'eval_steps_per_second': 78.436, 'epoch': 1.2}
Evaluation Accuracy: 1.0000
{'loss': 0.1915, 'grad_norm': 2.18859601020813, 'learning_rate': 1.6043032786885246e-05, 'epoch': 1.2}
{'loss': 0.1735, 'grad_norm': 1.8727601766586304, 'learning_rate': 1.6040983606557378e-05, 'epoch': 1.2}
{'loss': 0.1817, 'grad_norm': 2.6279208660125732, 'learning_rate': 1.603893442622951e-05, 'epoch': 1.2}
{'loss': 0.2148, 'grad_norm': 1.9004545211791992, 'learning_rate': 1.603688524590164e-05, 'epoch': 1.2}
{'loss': 0.2112, 'grad_norm': 3.0566790103912354, 'learning_rate': 1.603483606557377e-05, 'epoch': 1.2}
{'loss': 0.1761, 'grad_norm': 2.273427963256836, 'learning_rate': 1.6032786885245902e-05, 'epoch': 1.2}
{'loss': 0.1852, 'grad_norm': 2.373242139816284, 'learning_rate': 1.6030737704918034e-05, 'epoch': 1.2}
{'loss': 0.1977, 'grad_norm': 2.1967787742614746, 'learning_rate': 1.6028688524590166e-05, 'epoch': 

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00029582000570371747, 'eval_runtime': 0.0125, 'eval_samples_per_second': 80.295, 'eval_steps_per_second': 80.295, 'epoch': 1.23}
Evaluation Accuracy: 1.0000
{'loss': 0.1482, 'grad_norm': 2.4296374320983887, 'learning_rate': 1.542827868852459e-05, 'epoch': 1.23}
{'loss': 0.2021, 'grad_norm': 2.4297916889190674, 'learning_rate': 1.5426229508196723e-05, 'epoch': 1.23}
{'loss': 0.1519, 'grad_norm': 1.84402596950531, 'learning_rate': 1.5424180327868855e-05, 'epoch': 1.23}
{'loss': 0.2052, 'grad_norm': 2.5369014739990234, 'learning_rate': 1.5422131147540984e-05, 'epoch': 1.23}
{'loss': 0.2118, 'grad_norm': 2.226365089416504, 'learning_rate': 1.5420081967213115e-05, 'epoch': 1.23}
{'loss': 0.2242, 'grad_norm': 2.6178345680236816, 'learning_rate': 1.5418032786885247e-05, 'epoch': 1.23}
{'loss': 0.14, 'grad_norm': 1.9684144258499146, 'learning_rate': 1.541598360655738e-05, 'epoch': 1.23}
{'loss': 0.1451, 'grad_norm': 1.9862171411514282, 'learning_rate': 1.5413934426229508e-05, '

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002612656098790467, 'eval_runtime': 0.0116, 'eval_samples_per_second': 86.436, 'eval_steps_per_second': 86.436, 'epoch': 1.26}
Evaluation Accuracy: 1.0000
{'loss': 0.1939, 'grad_norm': 3.120575428009033, 'learning_rate': 1.4813524590163935e-05, 'epoch': 1.26}
{'loss': 0.1834, 'grad_norm': 3.1212897300720215, 'learning_rate': 1.4811475409836067e-05, 'epoch': 1.26}
{'loss': 0.1398, 'grad_norm': 2.1820225715637207, 'learning_rate': 1.4809426229508197e-05, 'epoch': 1.26}
{'loss': 0.2007, 'grad_norm': 2.4357330799102783, 'learning_rate': 1.4807377049180329e-05, 'epoch': 1.26}
{'loss': 0.2301, 'grad_norm': 2.9283504486083984, 'learning_rate': 1.480532786885246e-05, 'epoch': 1.26}
{'loss': 0.1594, 'grad_norm': 2.332136869430542, 'learning_rate': 1.4803278688524591e-05, 'epoch': 1.26}
{'loss': 0.1704, 'grad_norm': 2.2718698978424072, 'learning_rate': 1.4801229508196721e-05, 'epoch': 1.26}
{'loss': 0.1825, 'grad_norm': 2.1751821041107178, 'learning_rate': 1.4799180327868853e-05

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002612656098790467, 'eval_runtime': 0.0116, 'eval_samples_per_second': 85.842, 'eval_steps_per_second': 85.842, 'epoch': 1.29}
Evaluation Accuracy: 1.0000
{'loss': 0.1718, 'grad_norm': 2.0551512241363525, 'learning_rate': 1.419877049180328e-05, 'epoch': 1.29}
{'loss': 0.1557, 'grad_norm': 2.4088077545166016, 'learning_rate': 1.4196721311475412e-05, 'epoch': 1.29}
{'loss': 0.1752, 'grad_norm': 2.9573676586151123, 'learning_rate': 1.4194672131147543e-05, 'epoch': 1.29}
{'loss': 0.1641, 'grad_norm': 1.8693692684173584, 'learning_rate': 1.4192622950819673e-05, 'epoch': 1.29}
{'loss': 0.1216, 'grad_norm': 1.8155159950256348, 'learning_rate': 1.4190573770491805e-05, 'epoch': 1.29}
{'loss': 0.1589, 'grad_norm': 2.45395827293396, 'learning_rate': 1.4188524590163935e-05, 'epoch': 1.29}
{'loss': 0.2006, 'grad_norm': 2.392080545425415, 'learning_rate': 1.4186475409836067e-05, 'epoch': 1.29}
{'loss': 0.1603, 'grad_norm': 1.8069210052490234, 'learning_rate': 1.4184426229508197e-05,

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.000286854337900877, 'eval_runtime': 0.0138, 'eval_samples_per_second': 72.313, 'eval_steps_per_second': 72.313, 'epoch': 1.32}
Evaluation Accuracy: 1.0000
{'loss': 0.1373, 'grad_norm': 1.8766207695007324, 'learning_rate': 1.3584016393442624e-05, 'epoch': 1.32}
{'loss': 0.1784, 'grad_norm': 2.2821829319000244, 'learning_rate': 1.3581967213114754e-05, 'epoch': 1.32}
{'loss': 0.1788, 'grad_norm': 1.9395498037338257, 'learning_rate': 1.3579918032786888e-05, 'epoch': 1.32}
{'loss': 0.1965, 'grad_norm': 2.192915678024292, 'learning_rate': 1.3577868852459017e-05, 'epoch': 1.32}
{'loss': 0.1985, 'grad_norm': 2.419799566268921, 'learning_rate': 1.357581967213115e-05, 'epoch': 1.32}
{'loss': 0.1957, 'grad_norm': 2.3758292198181152, 'learning_rate': 1.357377049180328e-05, 'epoch': 1.32}
{'loss': 0.2065, 'grad_norm': 2.406493902206421, 'learning_rate': 1.3571721311475412e-05, 'epoch': 1.32}
{'loss': 0.1594, 'grad_norm': 1.9839612245559692, 'learning_rate': 1.3569672131147543e-05, '

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00027827126905322075, 'eval_runtime': 0.0131, 'eval_samples_per_second': 76.48, 'eval_steps_per_second': 76.48, 'epoch': 1.35}
Evaluation Accuracy: 1.0000
{'loss': 0.1748, 'grad_norm': 2.725192070007324, 'learning_rate': 1.2969262295081968e-05, 'epoch': 1.35}
{'loss': 0.2721, 'grad_norm': 3.519397497177124, 'learning_rate': 1.29672131147541e-05, 'epoch': 1.35}
{'loss': 0.2371, 'grad_norm': 2.7594285011291504, 'learning_rate': 1.296516393442623e-05, 'epoch': 1.35}
{'loss': 0.1946, 'grad_norm': 2.692507028579712, 'learning_rate': 1.2963114754098362e-05, 'epoch': 1.35}
{'loss': 0.2188, 'grad_norm': 2.359811782836914, 'learning_rate': 1.2961065573770492e-05, 'epoch': 1.35}
{'loss': 0.1934, 'grad_norm': 2.0338947772979736, 'learning_rate': 1.2959016393442624e-05, 'epoch': 1.35}
{'loss': 0.2019, 'grad_norm': 2.620495080947876, 'learning_rate': 1.2956967213114755e-05, 'epoch': 1.35}
{'loss': 0.1932, 'grad_norm': 2.5935254096984863, 'learning_rate': 1.2954918032786888e-05, 'epo

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00025335318059660494, 'eval_runtime': 0.0131, 'eval_samples_per_second': 76.615, 'eval_steps_per_second': 76.615, 'epoch': 1.38}
Evaluation Accuracy: 1.0000
{'loss': 0.1813, 'grad_norm': 2.586249589920044, 'learning_rate': 1.2354508196721313e-05, 'epoch': 1.38}
{'loss': 0.194, 'grad_norm': 2.4817469120025635, 'learning_rate': 1.2352459016393444e-05, 'epoch': 1.38}
{'loss': 0.1621, 'grad_norm': 2.512746572494507, 'learning_rate': 1.2350409836065576e-05, 'epoch': 1.38}
{'loss': 0.1857, 'grad_norm': 2.301544666290283, 'learning_rate': 1.2348360655737706e-05, 'epoch': 1.38}
{'loss': 0.1253, 'grad_norm': 1.819177269935608, 'learning_rate': 1.2346311475409838e-05, 'epoch': 1.38}
{'loss': 0.2355, 'grad_norm': 2.5764992237091064, 'learning_rate': 1.2344262295081968e-05, 'epoch': 1.38}
{'loss': 0.2051, 'grad_norm': 2.3712029457092285, 'learning_rate': 1.23422131147541e-05, 'epoch': 1.38}
{'loss': 0.2431, 'grad_norm': 2.397972822189331, 'learning_rate': 1.234016393442623e-05, 'ep

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002612656098790467, 'eval_runtime': 0.0127, 'eval_samples_per_second': 78.99, 'eval_steps_per_second': 78.99, 'epoch': 1.41}
Evaluation Accuracy: 1.0000
{'loss': 0.1576, 'grad_norm': 2.4138834476470947, 'learning_rate': 1.1739754098360656e-05, 'epoch': 1.41}
{'loss': 0.2036, 'grad_norm': 2.5085041522979736, 'learning_rate': 1.173770491803279e-05, 'epoch': 1.41}
{'loss': 0.2346, 'grad_norm': 2.571930408477783, 'learning_rate': 1.1735655737704918e-05, 'epoch': 1.41}
{'loss': 0.2311, 'grad_norm': 2.8812315464019775, 'learning_rate': 1.1733606557377051e-05, 'epoch': 1.41}
{'loss': 0.1444, 'grad_norm': 2.078730583190918, 'learning_rate': 1.1731557377049182e-05, 'epoch': 1.41}
{'loss': 0.2301, 'grad_norm': 2.2487571239471436, 'learning_rate': 1.1729508196721314e-05, 'epoch': 1.41}
{'loss': 0.1715, 'grad_norm': 2.261819362640381, 'learning_rate': 1.1727459016393444e-05, 'epoch': 1.41}
{'loss': 0.1522, 'grad_norm': 2.194362163543701, 'learning_rate': 1.1725409836065576e-05, 'e

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00025335318059660494, 'eval_runtime': 0.0133, 'eval_samples_per_second': 75.024, 'eval_steps_per_second': 75.024, 'epoch': 1.44}
Evaluation Accuracy: 1.0000
{'loss': 0.1685, 'grad_norm': 2.6047422885894775, 'learning_rate': 1.1125000000000001e-05, 'epoch': 1.44}
{'loss': 0.2005, 'grad_norm': 2.222916603088379, 'learning_rate': 1.1122950819672131e-05, 'epoch': 1.44}
{'loss': 0.1716, 'grad_norm': 1.9899829626083374, 'learning_rate': 1.1120901639344263e-05, 'epoch': 1.44}
{'loss': 0.1898, 'grad_norm': 1.9137884378433228, 'learning_rate': 1.1118852459016393e-05, 'epoch': 1.44}
{'loss': 0.1822, 'grad_norm': 2.4477944374084473, 'learning_rate': 1.1116803278688525e-05, 'epoch': 1.44}
{'loss': 0.2032, 'grad_norm': 2.116605520248413, 'learning_rate': 1.1114754098360656e-05, 'epoch': 1.44}
{'loss': 0.1798, 'grad_norm': 2.119131565093994, 'learning_rate': 1.1112704918032788e-05, 'epoch': 1.44}
{'loss': 0.212, 'grad_norm': 2.2616331577301025, 'learning_rate': 1.1110655737704918e-05

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00026984867872670293, 'eval_runtime': 0.0129, 'eval_samples_per_second': 77.677, 'eval_steps_per_second': 77.677, 'epoch': 1.47}
Evaluation Accuracy: 1.0000
{'loss': 0.143, 'grad_norm': 1.5696314573287964, 'learning_rate': 1.0510245901639345e-05, 'epoch': 1.47}
{'loss': 0.1883, 'grad_norm': 2.12015438079834, 'learning_rate': 1.0508196721311477e-05, 'epoch': 1.47}
{'loss': 0.1551, 'grad_norm': 1.865774393081665, 'learning_rate': 1.0506147540983607e-05, 'epoch': 1.47}
{'loss': 0.1977, 'grad_norm': 2.040353536605835, 'learning_rate': 1.0504098360655739e-05, 'epoch': 1.47}
{'loss': 0.1802, 'grad_norm': 2.0547220706939697, 'learning_rate': 1.050204918032787e-05, 'epoch': 1.48}
{'loss': 0.1982, 'grad_norm': 2.689262866973877, 'learning_rate': 1.0500000000000001e-05, 'epoch': 1.48}
{'loss': 0.1724, 'grad_norm': 2.062479019165039, 'learning_rate': 1.0497950819672131e-05, 'epoch': 1.48}
{'loss': 0.1482, 'grad_norm': 2.2637577056884766, 'learning_rate': 1.0495901639344263e-05, 'e

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00026984867872670293, 'eval_runtime': 0.0126, 'eval_samples_per_second': 79.475, 'eval_steps_per_second': 79.475, 'epoch': 1.51}
Evaluation Accuracy: 1.0000
{'loss': 0.1231, 'grad_norm': 1.6975191831588745, 'learning_rate': 9.89549180327869e-06, 'epoch': 1.51}
{'loss': 0.142, 'grad_norm': 1.5769771337509155, 'learning_rate': 9.89344262295082e-06, 'epoch': 1.51}
{'loss': 0.1805, 'grad_norm': 2.217849016189575, 'learning_rate': 9.891393442622952e-06, 'epoch': 1.51}
{'loss': 0.1435, 'grad_norm': 1.5653413534164429, 'learning_rate': 9.889344262295083e-06, 'epoch': 1.51}
{'loss': 0.2242, 'grad_norm': 2.417834758758545, 'learning_rate': 9.887295081967215e-06, 'epoch': 1.51}
{'loss': 0.2068, 'grad_norm': 2.440504789352417, 'learning_rate': 9.885245901639345e-06, 'epoch': 1.51}
{'loss': 0.2303, 'grad_norm': 2.1463987827301025, 'learning_rate': 9.883196721311477e-06, 'epoch': 1.51}
{'loss': 0.1677, 'grad_norm': 2.2320380210876465, 'learning_rate': 9.881147540983607e-06, 'epoch':

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002452469489071518, 'eval_runtime': 0.0127, 'eval_samples_per_second': 78.839, 'eval_steps_per_second': 78.839, 'epoch': 1.54}
Evaluation Accuracy: 1.0000
{'loss': 0.1864, 'grad_norm': 2.3372864723205566, 'learning_rate': 9.280737704918034e-06, 'epoch': 1.54}
{'loss': 0.2546, 'grad_norm': 3.355844020843506, 'learning_rate': 9.278688524590164e-06, 'epoch': 1.54}
{'loss': 0.203, 'grad_norm': 2.7342662811279297, 'learning_rate': 9.276639344262296e-06, 'epoch': 1.54}
{'loss': 0.1977, 'grad_norm': 2.007601737976074, 'learning_rate': 9.274590163934427e-06, 'epoch': 1.54}
{'loss': 0.2073, 'grad_norm': 2.3973288536071777, 'learning_rate': 9.272540983606558e-06, 'epoch': 1.54}
{'loss': 0.1508, 'grad_norm': 2.004417896270752, 'learning_rate': 9.270491803278689e-06, 'epoch': 1.54}
{'loss': 0.2109, 'grad_norm': 2.799236536026001, 'learning_rate': 9.26844262295082e-06, 'epoch': 1.54}
{'loss': 0.204, 'grad_norm': 2.316502332687378, 'learning_rate': 9.266393442622953e-06, 'epoch': 1.

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00025335318059660494, 'eval_runtime': 0.0127, 'eval_samples_per_second': 78.814, 'eval_steps_per_second': 78.814, 'epoch': 1.57}
Evaluation Accuracy: 1.0000
{'loss': 0.2254, 'grad_norm': 2.7836954593658447, 'learning_rate': 8.665983606557378e-06, 'epoch': 1.57}
{'loss': 0.216, 'grad_norm': 2.6671559810638428, 'learning_rate': 8.663934426229508e-06, 'epoch': 1.57}
{'loss': 0.1304, 'grad_norm': 1.9698253870010376, 'learning_rate': 8.66188524590164e-06, 'epoch': 1.57}
{'loss': 0.1507, 'grad_norm': 2.3161823749542236, 'learning_rate': 8.659836065573772e-06, 'epoch': 1.57}
{'loss': 0.204, 'grad_norm': 2.2142672538757324, 'learning_rate': 8.657786885245902e-06, 'epoch': 1.57}
{'loss': 0.2092, 'grad_norm': 2.699035167694092, 'learning_rate': 8.655737704918034e-06, 'epoch': 1.57}
{'loss': 0.2076, 'grad_norm': 2.135504722595215, 'learning_rate': 8.653688524590164e-06, 'epoch': 1.57}
{'loss': 0.1613, 'grad_norm': 1.8979313373565674, 'learning_rate': 8.651639344262296e-06, 'epoch'

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.00023781380150467157, 'eval_runtime': 0.0125, 'eval_samples_per_second': 80.225, 'eval_steps_per_second': 80.225, 'epoch': 1.6}
Evaluation Accuracy: 1.0000
{'loss': 0.2075, 'grad_norm': 2.5833253860473633, 'learning_rate': 8.051229508196722e-06, 'epoch': 1.6}
{'loss': 0.1994, 'grad_norm': 2.1724796295166016, 'learning_rate': 8.049180327868854e-06, 'epoch': 1.6}
{'loss': 0.1514, 'grad_norm': 2.4239068031311035, 'learning_rate': 8.047131147540984e-06, 'epoch': 1.6}
{'loss': 0.1656, 'grad_norm': 2.004159450531006, 'learning_rate': 8.045081967213116e-06, 'epoch': 1.6}
{'loss': 0.2271, 'grad_norm': 2.2969603538513184, 'learning_rate': 8.043032786885246e-06, 'epoch': 1.6}
{'loss': 0.1575, 'grad_norm': 2.0866570472717285, 'learning_rate': 8.040983606557378e-06, 'epoch': 1.6}
{'loss': 0.241, 'grad_norm': 2.626321792602539, 'learning_rate': 8.038934426229508e-06, 'epoch': 1.6}
{'loss': 0.1663, 'grad_norm': 2.6299664974212646, 'learning_rate': 8.03688524590164e-06, 'epoch': 1.6}


  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002612656098790467, 'eval_runtime': 0.0127, 'eval_samples_per_second': 78.885, 'eval_steps_per_second': 78.885, 'epoch': 1.63}
Evaluation Accuracy: 1.0000
{'loss': 0.2059, 'grad_norm': 2.9737443923950195, 'learning_rate': 7.4364754098360655e-06, 'epoch': 1.63}
{'loss': 0.2065, 'grad_norm': 2.4054830074310303, 'learning_rate': 7.434426229508197e-06, 'epoch': 1.63}
{'loss': 0.2171, 'grad_norm': 2.3844974040985107, 'learning_rate': 7.4323770491803285e-06, 'epoch': 1.63}
{'loss': 0.1968, 'grad_norm': 2.3629274368286133, 'learning_rate': 7.43032786885246e-06, 'epoch': 1.63}
{'loss': 0.1967, 'grad_norm': 2.2259645462036133, 'learning_rate': 7.428278688524591e-06, 'epoch': 1.63}
{'loss': 0.1668, 'grad_norm': 3.5156216621398926, 'learning_rate': 7.426229508196722e-06, 'epoch': 1.63}
{'loss': 0.1896, 'grad_norm': 2.116381883621216, 'learning_rate': 7.424180327868853e-06, 'epoch': 1.63}
{'loss': 0.2876, 'grad_norm': 3.5902674198150635, 'learning_rate': 7.422131147540984e-06, 'ep

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002452469489071518, 'eval_runtime': 0.0129, 'eval_samples_per_second': 77.641, 'eval_steps_per_second': 77.641, 'epoch': 1.66}
Evaluation Accuracy: 1.0000
{'loss': 0.1688, 'grad_norm': 2.171973466873169, 'learning_rate': 6.82172131147541e-06, 'epoch': 1.66}
{'loss': 0.2335, 'grad_norm': 2.2969980239868164, 'learning_rate': 6.819672131147541e-06, 'epoch': 1.66}
{'loss': 0.2112, 'grad_norm': 2.6997392177581787, 'learning_rate': 6.817622950819672e-06, 'epoch': 1.66}
{'loss': 0.1213, 'grad_norm': 1.892136573791504, 'learning_rate': 6.815573770491803e-06, 'epoch': 1.66}
{'loss': 0.2198, 'grad_norm': 2.141572952270508, 'learning_rate': 6.8135245901639345e-06, 'epoch': 1.66}
{'loss': 0.2037, 'grad_norm': 2.1863293647766113, 'learning_rate': 6.8114754098360655e-06, 'epoch': 1.66}
{'loss': 0.1972, 'grad_norm': 2.378178119659424, 'learning_rate': 6.809426229508197e-06, 'epoch': 1.66}
{'loss': 0.1142, 'grad_norm': 1.6429928541183472, 'learning_rate': 6.8073770491803286e-06, 'epoc

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002612656098790467, 'eval_runtime': 0.0119, 'eval_samples_per_second': 83.886, 'eval_steps_per_second': 83.886, 'epoch': 1.69}
Evaluation Accuracy: 1.0000
{'loss': 0.2124, 'grad_norm': 2.6936278343200684, 'learning_rate': 6.206967213114755e-06, 'epoch': 1.69}
{'loss': 0.1209, 'grad_norm': 1.8960778713226318, 'learning_rate': 6.204918032786885e-06, 'epoch': 1.69}
{'loss': 0.1861, 'grad_norm': 1.9924246072769165, 'learning_rate': 6.202868852459016e-06, 'epoch': 1.69}
{'loss': 0.1819, 'grad_norm': 2.3934481143951416, 'learning_rate': 6.200819672131147e-06, 'epoch': 1.69}
{'loss': 0.1411, 'grad_norm': 2.4206812381744385, 'learning_rate': 6.198770491803279e-06, 'epoch': 1.69}
{'loss': 0.2053, 'grad_norm': 2.571376085281372, 'learning_rate': 6.19672131147541e-06, 'epoch': 1.69}
{'loss': 0.1908, 'grad_norm': 2.4962847232818604, 'learning_rate': 6.194672131147541e-06, 'epoch': 1.69}
{'loss': 0.2123, 'grad_norm': 2.528120994567871, 'learning_rate': 6.192622950819672e-06, 'epoch

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002452469489071518, 'eval_runtime': 0.0127, 'eval_samples_per_second': 78.692, 'eval_steps_per_second': 78.692, 'epoch': 1.72}
Evaluation Accuracy: 1.0000
{'loss': 0.1768, 'grad_norm': 2.3434181213378906, 'learning_rate': 5.592213114754099e-06, 'epoch': 1.72}
{'loss': 0.1927, 'grad_norm': 2.2128055095672607, 'learning_rate': 5.5901639344262305e-06, 'epoch': 1.72}
{'loss': 0.2177, 'grad_norm': 2.8562698364257812, 'learning_rate': 5.5881147540983616e-06, 'epoch': 1.72}
{'loss': 0.1723, 'grad_norm': 2.4007210731506348, 'learning_rate': 5.586065573770493e-06, 'epoch': 1.72}
{'loss': 0.1777, 'grad_norm': 2.4150896072387695, 'learning_rate': 5.584016393442624e-06, 'epoch': 1.72}
{'loss': 0.1461, 'grad_norm': 2.1588521003723145, 'learning_rate': 5.581967213114755e-06, 'epoch': 1.72}
{'loss': 0.1387, 'grad_norm': 1.8540318012237549, 'learning_rate': 5.579918032786885e-06, 'epoch': 1.72}
{'loss': 0.223, 'grad_norm': 2.344444751739502, 'learning_rate': 5.577868852459016e-06, 'ep

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002452469489071518, 'eval_runtime': 0.0129, 'eval_samples_per_second': 77.33, 'eval_steps_per_second': 77.33, 'epoch': 1.75}
Evaluation Accuracy: 1.0000
{'loss': 0.2029, 'grad_norm': 2.240267515182495, 'learning_rate': 4.977459016393443e-06, 'epoch': 1.75}
{'loss': 0.2145, 'grad_norm': 2.6258482933044434, 'learning_rate': 4.975409836065574e-06, 'epoch': 1.75}
{'loss': 0.1821, 'grad_norm': 2.3622593879699707, 'learning_rate': 4.973360655737705e-06, 'epoch': 1.75}
{'loss': 0.1939, 'grad_norm': 2.165479898452759, 'learning_rate': 4.9713114754098364e-06, 'epoch': 1.75}
{'loss': 0.1784, 'grad_norm': 2.9118778705596924, 'learning_rate': 4.9692622950819675e-06, 'epoch': 1.75}
{'loss': 0.1811, 'grad_norm': 2.4109647274017334, 'learning_rate': 4.967213114754099e-06, 'epoch': 1.75}
{'loss': 0.1602, 'grad_norm': 2.1561107635498047, 'learning_rate': 4.96516393442623e-06, 'epoch': 1.75}
{'loss': 0.1776, 'grad_norm': 2.007201671600342, 'learning_rate': 4.963114754098361e-06, 'epoch'

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.0115, 'eval_samples_per_second': 86.961, 'eval_steps_per_second': 86.961, 'epoch': 1.78}
Evaluation Accuracy: 1.0000
{'loss': 0.1363, 'grad_norm': 1.9617081880569458, 'learning_rate': 4.362704918032788e-06, 'epoch': 1.78}
{'loss': 0.1765, 'grad_norm': 2.0022125244140625, 'learning_rate': 4.360655737704919e-06, 'epoch': 1.78}
{'loss': 0.1378, 'grad_norm': 2.138981580734253, 'learning_rate': 4.35860655737705e-06, 'epoch': 1.78}
{'loss': 0.1819, 'grad_norm': 2.7520663738250732, 'learning_rate': 4.356557377049181e-06, 'epoch': 1.78}
{'loss': 0.1754, 'grad_norm': 2.425848960876465, 'learning_rate': 4.354508196721312e-06, 'epoch': 1.78}
{'loss': 0.1409, 'grad_norm': 2.026430130004883, 'learning_rate': 4.352459016393442e-06, 'epoch': 1.78}
{'loss': 0.1706, 'grad_norm': 2.1954357624053955, 'learning_rate': 4.3504098360655735e-06, 'epoch': 1.78}
{'loss': 0.1623, 'grad_norm': 2.170898914337158, 'learning_rate': 4.348360655737705e-06, 'epoch'

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.0133, 'eval_samples_per_second': 74.916, 'eval_steps_per_second': 74.916, 'epoch': 1.81}
Evaluation Accuracy: 1.0000
{'loss': 0.1304, 'grad_norm': 1.8171262741088867, 'learning_rate': 3.7479508196721316e-06, 'epoch': 1.81}
{'loss': 0.2109, 'grad_norm': 2.6174354553222656, 'learning_rate': 3.7459016393442627e-06, 'epoch': 1.81}
{'loss': 0.1603, 'grad_norm': 2.171328544616699, 'learning_rate': 3.7438524590163938e-06, 'epoch': 1.81}
{'loss': 0.1839, 'grad_norm': 2.4820122718811035, 'learning_rate': 3.741803278688525e-06, 'epoch': 1.81}
{'loss': 0.1875, 'grad_norm': 2.5808753967285156, 'learning_rate': 3.7397540983606564e-06, 'epoch': 1.81}
{'loss': 0.1972, 'grad_norm': 2.155263900756836, 'learning_rate': 3.7377049180327874e-06, 'epoch': 1.81}
{'loss': 0.1834, 'grad_norm': 2.1952877044677734, 'learning_rate': 3.7356557377049185e-06, 'epoch': 1.81}
{'loss': 0.125, 'grad_norm': 1.5626598596572876, 'learning_rate': 3.7336065573770496e-06,

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.0124, 'eval_samples_per_second': 80.74, 'eval_steps_per_second': 80.74, 'epoch': 1.84}
Evaluation Accuracy: 1.0000
{'loss': 0.1774, 'grad_norm': 2.2885828018188477, 'learning_rate': 3.1331967213114754e-06, 'epoch': 1.84}
{'loss': 0.1277, 'grad_norm': 1.9430357217788696, 'learning_rate': 3.131147540983607e-06, 'epoch': 1.84}
{'loss': 0.2246, 'grad_norm': 2.7611594200134277, 'learning_rate': 3.129098360655738e-06, 'epoch': 1.84}
{'loss': 0.1837, 'grad_norm': 2.93231463432312, 'learning_rate': 3.127049180327869e-06, 'epoch': 1.84}
{'loss': 0.1842, 'grad_norm': 3.0229408740997314, 'learning_rate': 3.125e-06, 'epoch': 1.84}
{'loss': 0.1365, 'grad_norm': 1.689325213432312, 'learning_rate': 3.1229508196721312e-06, 'epoch': 1.84}
{'loss': 0.1437, 'grad_norm': 1.7696948051452637, 'learning_rate': 3.1209016393442627e-06, 'epoch': 1.84}
{'loss': 0.1746, 'grad_norm': 2.4810879230499268, 'learning_rate': 3.118852459016394e-06, 'epoch': 1.84}
{'

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.0128, 'eval_samples_per_second': 78.354, 'eval_steps_per_second': 78.354, 'epoch': 1.87}
Evaluation Accuracy: 1.0000
{'loss': 0.1442, 'grad_norm': 2.052290678024292, 'learning_rate': 2.5184426229508196e-06, 'epoch': 1.87}
{'loss': 0.2147, 'grad_norm': 4.567293643951416, 'learning_rate': 2.5163934426229507e-06, 'epoch': 1.87}
{'loss': 0.1298, 'grad_norm': 1.6641570329666138, 'learning_rate': 2.514344262295082e-06, 'epoch': 1.87}
{'loss': 0.17, 'grad_norm': 2.4136414527893066, 'learning_rate': 2.5122950819672133e-06, 'epoch': 1.87}
{'loss': 0.1466, 'grad_norm': 2.308415651321411, 'learning_rate': 2.5102459016393444e-06, 'epoch': 1.87}
{'loss': 0.1638, 'grad_norm': 1.9029192924499512, 'learning_rate': 2.5081967213114754e-06, 'epoch': 1.87}
{'loss': 0.2147, 'grad_norm': 2.296759605407715, 'learning_rate': 2.5061475409836065e-06, 'epoch': 1.87}
{'loss': 0.1733, 'grad_norm': 2.30837345123291, 'learning_rate': 2.504098360655738e-06, 'epoc

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.0122, 'eval_samples_per_second': 82.286, 'eval_steps_per_second': 82.286, 'epoch': 1.9}
Evaluation Accuracy: 1.0000
{'loss': 0.132, 'grad_norm': 2.0078303813934326, 'learning_rate': 1.903688524590164e-06, 'epoch': 1.9}
{'loss': 0.2124, 'grad_norm': 2.541775703430176, 'learning_rate': 1.9016393442622951e-06, 'epoch': 1.9}
{'loss': 0.1911, 'grad_norm': 2.4217734336853027, 'learning_rate': 1.8995901639344264e-06, 'epoch': 1.9}
{'loss': 0.1814, 'grad_norm': 2.345313549041748, 'learning_rate': 1.8975409836065575e-06, 'epoch': 1.91}
{'loss': 0.1426, 'grad_norm': 1.995958924293518, 'learning_rate': 1.8954918032786888e-06, 'epoch': 1.91}
{'loss': 0.2259, 'grad_norm': 2.4711012840270996, 'learning_rate': 1.8934426229508199e-06, 'epoch': 1.91}
{'loss': 0.2008, 'grad_norm': 2.0763697624206543, 'learning_rate': 1.891393442622951e-06, 'epoch': 1.91}
{'loss': 0.1855, 'grad_norm': 2.3316311836242676, 'learning_rate': 1.8893442622950822e-06, 'epoc

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.0122, 'eval_samples_per_second': 82.303, 'eval_steps_per_second': 82.303, 'epoch': 1.94}
Evaluation Accuracy: 1.0000
{'loss': 0.1465, 'grad_norm': 2.170577049255371, 'learning_rate': 1.2889344262295085e-06, 'epoch': 1.94}
{'loss': 0.2357, 'grad_norm': 2.640833854675293, 'learning_rate': 1.2868852459016395e-06, 'epoch': 1.94}
{'loss': 0.1474, 'grad_norm': 2.059718370437622, 'learning_rate': 1.2848360655737706e-06, 'epoch': 1.94}
{'loss': 0.1744, 'grad_norm': 2.0585997104644775, 'learning_rate': 1.2827868852459017e-06, 'epoch': 1.94}
{'loss': 0.1218, 'grad_norm': 1.6917022466659546, 'learning_rate': 1.2807377049180328e-06, 'epoch': 1.94}
{'loss': 0.2089, 'grad_norm': 2.301968574523926, 'learning_rate': 1.2786885245901639e-06, 'epoch': 1.94}
{'loss': 0.1569, 'grad_norm': 2.1202940940856934, 'learning_rate': 1.2766393442622952e-06, 'epoch': 1.94}
{'loss': 0.1655, 'grad_norm': 1.8068029880523682, 'learning_rate': 1.2745901639344262e-06,

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.013, 'eval_samples_per_second': 76.808, 'eval_steps_per_second': 76.808, 'epoch': 1.97}
Evaluation Accuracy: 1.0000
{'loss': 0.1509, 'grad_norm': 2.4466044902801514, 'learning_rate': 6.741803278688525e-07, 'epoch': 1.97}
{'loss': 0.1755, 'grad_norm': 2.263895034790039, 'learning_rate': 6.721311475409836e-07, 'epoch': 1.97}
{'loss': 0.1897, 'grad_norm': 2.191112518310547, 'learning_rate': 6.700819672131148e-07, 'epoch': 1.97}
{'loss': 0.1607, 'grad_norm': 2.0356948375701904, 'learning_rate': 6.68032786885246e-07, 'epoch': 1.97}
{'loss': 0.1422, 'grad_norm': 1.8933711051940918, 'learning_rate': 6.659836065573771e-07, 'epoch': 1.97}
{'loss': 0.2445, 'grad_norm': 2.684718370437622, 'learning_rate': 6.639344262295082e-07, 'epoch': 1.97}
{'loss': 0.2045, 'grad_norm': 2.1383185386657715, 'learning_rate': 6.618852459016394e-07, 'epoch': 1.97}
{'loss': 0.1541, 'grad_norm': 2.0571560859680176, 'learning_rate': 6.598360655737706e-07, 'epoch':

  0%|          | 0/1 [00:00<?, ?it/s]

{'eval_loss': 0.0002306612441316247, 'eval_runtime': 0.012, 'eval_samples_per_second': 83.542, 'eval_steps_per_second': 83.542, 'epoch': 2.0}
Evaluation Accuracy: 1.0000
{'loss': 0.2398, 'grad_norm': 2.61657452583313, 'learning_rate': 5.942622950819672e-08, 'epoch': 2.0}
{'loss': 0.1388, 'grad_norm': 1.8201292753219604, 'learning_rate': 5.737704918032787e-08, 'epoch': 2.0}
{'loss': 0.1725, 'grad_norm': 2.5389387607574463, 'learning_rate': 5.5327868852459016e-08, 'epoch': 2.0}
{'loss': 0.2128, 'grad_norm': 2.293832540512085, 'learning_rate': 5.3278688524590166e-08, 'epoch': 2.0}
{'loss': 0.1431, 'grad_norm': 2.0848817825317383, 'learning_rate': 5.122950819672131e-08, 'epoch': 2.0}
{'loss': 0.2076, 'grad_norm': 2.5288805961608887, 'learning_rate': 4.9180327868852466e-08, 'epoch': 2.0}
{'loss': 0.2054, 'grad_norm': 2.688011646270752, 'learning_rate': 4.7131147540983616e-08, 'epoch': 2.0}
{'loss': 0.1617, 'grad_norm': 2.005014419555664, 'learning_rate': 4.508196721311476e-08, 'epoch': 2.0}

In [21]:
# save the model and the tokenizer

torch.save(model, output_dir + "bertweet.pt")
torch.save(tokenizer, output_dir + "bertweet_tokenizer.pt")

In [54]:
torch.cuda.empty_cache()
#3 is the best

In [11]:
model = model.cuda()
model = model.eval()

In [12]:
text = "congratulations! you are the best"
# text = "I really hate that"

encoded_input = tokenizer(text, return_tensors='pt')
encoded_input["input_ids"] = encoded_input["input_ids"].cuda()
encoded_input["attention_mask"] = encoded_input["attention_mask"].cuda()
output = model(**encoded_input)
scores = output[0][0].detach().cpu().numpy()
scores = F.softmax(torch.tensor(scores), dim=0).numpy()
scores.tolist()

[8.851569646139978e-07, 0.9999991655349731]

In [18]:
test_df = pd.read_csv(output_dir + "preprocessed_test.csv")

#test_df["text"] = test_df["text"].apply(normalizeTweet)

In [19]:
batch_size=50
all_preds = []
with torch.no_grad():
    for i in range(0, len(test_df), batch_size):
        batch = test_df["text"][i:i+batch_size].tolist()
        tokens = tokenizer(batch, padding=True, return_tensors="pt")
        tokens = {k: v.cuda() for k, v in tokens.items()}
        output = model(**tokens)
        logits = output[0].cpu()
        scores = F.softmax(logits, dim=1)[:,(1 if CLASSES == 2 else 2)]
        all_preds.extend(scores.tolist())

In [20]:
# save the predictions

binary_predictions = [1 if prob >= 0.5 else -1 for prob in all_preds]
print(len(binary_predictions))
submission_df = pd.DataFrame({"Prediction": binary_predictions})
submission_df["Id"] = submission_df.index
submission_df["Id"] = submission_df["Id"] + 1
submission_df = submission_df[["Id", "Prediction"]]
submission_df.to_csv(output_dir + "submission_bertweet.csv", index=False)

test_probs_df = pd.DataFrame({'Probability': all_preds})
test_probs_df.to_csv(output_dir + "test_probs_bertweet.csv", index=False)

10000
