In [1]:
import pandas as pd

df = pd.read_csv('file/df_health.csv')
df.head()

Unnamed: 0,category02,question,answer
0,예약,이동훈 도수 치료사분께 도수 치료 진행 받고 싶어요. 가장 빠른 일정을 안내해 주시...,현재 예약 가능한 가장 빠른 일정으로는 9월 4일 열한시가 가능합니다.
1,예약,박진우 원장님 진료 예약 가능 일정을 조회해 주세요. 최대한 빠른 일정이 언제인가요?,"가장 빠른 예약 가능 일정으로는 9월 12일 열시, 13일 열한시 가능합니다."
2,약국,1층 약국은 언제 리모델링이 끝나나요? 여기로 오려니 불편하네요.,다음주 월요일부터 정상 영업에 들어갑니다. 양해 부탁드리겠습니다.
3,증상,증상을 지금 다 말해야 돼요? 그냥 요즘 너무 힘들어요.,의사 선생님이 오시면 환자분의 증상에 대한 자세한 상담을 받으실 수 있습니다.
4,수납,결재할게요. 약값 포함해서 얼마인가요?,약은 약국에서 처방 받으신 뒤 약국에서 결제하시면 됩니다. 진료비와 수액 처방을 포...


In [2]:
import torch
torch.cuda.is_available()

True

In [4]:
import torch
from transformers import AutoTokenizer, AutoModel

# BERT 모델과 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("beomi/KcBERT-base")
model = AutoModel.from_pretrained("beomi/KcBERT-base")

# 질문 리스트
questions = df['question'].tolist()
answers = df['answer'].tolist()
# # 질문들의 임베딩 벡터 미리 계산
# def compute_question_embeddings(questions):
#     embeddings = []
#     for question in questions:
#         inputs = tokenizer(question, return_tensors="pt", padding=True, truncation=True)
#         with torch.no_grad():
#             outputs = model(**inputs)
#         # 문장 전체의 임베딩을 평균으로 취함
#         embedding = outputs.last_hidden_state.mean(dim=1)
#         embeddings.append(embedding)
#     return embeddings

# # 질문에 대한 임베딩 계산
# question_embeddings = compute_question_embeddings(questions)

# # 임베딩을 저장할 때 torch.save() 사용 가능
# torch.save(question_embeddings, 'health_question_embeddings.pth')


  from .autonotebook import tqdm as notebook_tqdm


In [5]:
import torch.nn.functional as F

question_embeddings = torch.load('embeddings/health_question_embeddings.pth', weights_only=True)

# 입력 문장을 임베딩으로 변환
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1)  # 임베딩 벡터 반환

# 입력 질문과 사전 임베딩 간의 코사인 유사도 계산
def find_most_similar_answer(input_question, question_embeddings, answers):
    input_embedding = get_embedding(input_question)  # 입력 질문 임베딩

    max_similarity = -1
    best_answer = None

    # 각 사전 계산된 질문 임베딩과 유사도 비교
    for i, question_embedding in enumerate(question_embeddings):
        similarity = F.cosine_similarity(input_embedding, question_embedding).item()

        if similarity > max_similarity:
            max_similarity = similarity
            best_answer = answers[i]

    return best_answer, max_similarity

# 입력 질문 예시
input_question = "정수기 위치가 어디죠?"
answers = df['answer'].tolist()

# 유사도 기반 답변 찾기
answer, max_similarity = find_most_similar_answer(input_question, question_embeddings, answers)
print("챗봇 답변:", answer)
print("유사도:", max_similarity)


챗봇 답변: 위치 정보를 조회하겠습니다. 병원에서 50m 떨어져 있는 곳에 위치해 있습니다.
유사도: 0.8512148857116699


In [6]:
df['category02'].unique()

array(['예약', '약국', '증상', '수납', '진료접수', '증빙서류', '위치'], dtype=object)

In [7]:
df['category02'].value_counts()

category02
진료접수    3981
수납      3974
증빙서류    3957
예약      3946
약국      3938
증상      3906
위치      3829
Name: count, dtype: int64

In [8]:
# 고유한 카테고리 값 추출
unique_categories = df['category02'].unique()
print(unique_categories)

['예약' '약국' '증상' '수납' '진료접수' '증빙서류' '위치']


In [9]:
# 카테고리와 고유 번호 매핑
category_to_label = {category: idx for idx, category in enumerate(unique_categories)}

# 레이블 추가
df['label'] = df['category02'].map(category_to_label)

# 결과 확인
df.head()
df['label'].unique()

array([0, 1, 2, 3, 4, 5, 6], dtype=int64)

In [10]:
df.to_csv('file/health_result_label.csv', index=False)

In [11]:
from sklearn.model_selection import train_test_split
from collections import Counter
# import random
# CUDA 디버깅을 위한 환경 변수 설정
import os
os.environ["CUDA_LAUNCH_BLOCKING"] = "1"

# 질문과 답변을 결합
df['input'] = df['question'] + " [SEP] " + df['answer']  # [SEP]는 BERT에서 문장을 구분하는 토큰입니다.

# 훈련 데이터와 평가 데이터로 분리
train_texts, eval_texts, train_labels, eval_labels = train_test_split(
    df['input'].tolist(), df['label'].tolist(), test_size=0.2, random_state=42
)

# 결과 확인
print("Updated train labels:", Counter(train_labels))
print(set(train_labels))
print(set(eval_labels))

Updated train labels: Counter({4: 3211, 3: 3195, 5: 3156, 1: 3144, 0: 3143, 2: 3114, 6: 3061})
{0, 1, 2, 3, 4, 5, 6}
{0, 1, 2, 3, 4, 5, 6}


In [12]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("beomi/KcBERT-base")

# 토크나이징
train_encodings = tokenizer(train_texts, truncation=True, padding=True)
eval_encodings = tokenizer(eval_texts, truncation=True, padding=True)


In [13]:
import torch

class CustomDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels, num_classes):
        self.encodings = encodings
        self.labels = labels

        # 레이블 유효성 검사
        assert all(label >= 0 for label in self.labels), "Negative label found!"
        assert all(label < num_classes for label in self.labels), "Label out of range!"

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx], dtype=torch.long)
        return item

    def __len__(self):
        return len(self.labels)

# 데이터셋 생성
num_classes = 7  # 모델의 클래스 수
train_dataset = CustomDataset(train_encodings, train_labels, num_classes)
eval_dataset = CustomDataset(eval_encodings, eval_labels, num_classes)


In [14]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
import torch
from torch.utils.data import DataLoader

model = AutoModelForSequenceClassification.from_pretrained("beomi/KcBERT-base", num_labels=num_classes)

# 훈련 인자 설정
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=16,
    eval_strategy="epoch",
    logging_dir='./logs',
)

# Trainer 설정
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# 모델 훈련
trainer.train()


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at beomi/KcBERT-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
  attn_output = torch.nn.functional.scaled_dot_product_attention(
 12%|█▏        | 500/4131 [01:32<11:43,  5.16it/s]

{'loss': 0.2571, 'grad_norm': 0.19159629940986633, 'learning_rate': 4.394819656257565e-05, 'epoch': 0.36}


 24%|██▍       | 1000/4131 [03:50<11:43,  4.45it/s]  

{'loss': 0.078, 'grad_norm': 0.48896560072898865, 'learning_rate': 3.78963931251513e-05, 'epoch': 0.73}


                                                     
 33%|███▎      | 1378/4131 [06:09<6:45:33,  8.84s/it]

{'eval_loss': 0.03687107563018799, 'eval_runtime': 28.3559, 'eval_samples_per_second': 194.21, 'eval_steps_per_second': 24.298, 'epoch': 1.0}


 36%|███▋      | 1500/4131 [06:42<12:48,  3.42it/s]  

{'loss': 0.0368, 'grad_norm': 0.0029124580323696136, 'learning_rate': 3.184458968772695e-05, 'epoch': 1.09}


 48%|████▊     | 2000/4131 [09:09<12:22,  2.87it/s]  

{'loss': 0.0178, 'grad_norm': 0.0026071183383464813, 'learning_rate': 2.5792786250302593e-05, 'epoch': 1.45}


 61%|██████    | 2500/4131 [11:39<07:51,  3.46it/s]  

{'loss': 0.0082, 'grad_norm': 0.002394731855019927, 'learning_rate': 1.9740982812878238e-05, 'epoch': 1.82}


                                                     
 67%|██████▋   | 2755/4131 [13:33<3:27:13,  9.04s/it]

{'eval_loss': 0.011301135644316673, 'eval_runtime': 29.0352, 'eval_samples_per_second': 189.667, 'eval_steps_per_second': 23.73, 'epoch': 2.0}


 73%|███████▎  | 3000/4131 [14:43<05:36,  3.36it/s]  

{'loss': 0.0022, 'grad_norm': 0.0013564552646130323, 'learning_rate': 1.3689179375453886e-05, 'epoch': 2.18}


 85%|████████▍ | 3500/4131 [17:15<02:44,  3.83it/s]  

{'loss': 0.0016, 'grad_norm': 0.0011034802300855517, 'learning_rate': 7.637375938029533e-06, 'epoch': 2.54}


 97%|█████████▋| 4000/4131 [19:48<00:33,  3.89it/s]  

{'loss': 0.0024, 'grad_norm': 0.001838216558098793, 'learning_rate': 1.5855725006051804e-06, 'epoch': 2.9}


                                                   
100%|██████████| 4131/4131 [21:46<00:00,  3.16it/s]

{'eval_loss': 0.0060028089210391045, 'eval_runtime': 23.0979, 'eval_samples_per_second': 238.42, 'eval_steps_per_second': 29.83, 'epoch': 3.0}
{'train_runtime': 1306.7775, 'train_samples_per_second': 50.561, 'train_steps_per_second': 3.161, 'train_loss': 0.04891339566466617, 'epoch': 3.0}





TrainOutput(global_step=4131, training_loss=0.04891339566466617, metrics={'train_runtime': 1306.7775, 'train_samples_per_second': 50.561, 'train_steps_per_second': 3.161, 'total_flos': 2342907678970800.0, 'train_loss': 0.04891339566466617, 'epoch': 3.0})

In [15]:
trainer.evaluate()
# {'eval_loss': 0.01164562813937664,
#  'eval_runtime': 36.5896,
#  'eval_samples_per_second': 188.305,
#  'eval_steps_per_second': 23.559,
#  'epoch': 3.0}

  0%|          | 0/689 [00:00<?, ?it/s]

100%|██████████| 689/689 [00:24<00:00, 28.56it/s]


{'eval_loss': 0.0060028089210391045,
 'eval_runtime': 24.1581,
 'eval_samples_per_second': 227.956,
 'eval_steps_per_second': 28.52,
 'epoch': 3.0}

In [16]:
import os
import torch

# 저장할 폴더 경로 설정
save_dir = 'model'

# 폴더가 없으면 생성
os.makedirs(save_dir, exist_ok=True)

# 저장할 파일 경로 설정
save_path = os.path.join(save_dir, 'health_model_weights_v1.pth')

# 모델의 상태 사전(state_dict) 저장 -> 호환성이 더 좋음
torch.save(model.state_dict(), save_path)

In [17]:
import torch
from transformers import AutoModelForSequenceClassification
# 모델 구조를 정의한 코드
model = AutoModelForSequenceClassification.from_pretrained("beomi/KcBERT-base", num_labels=num_classes)

# 모델 가중치를 CPU로 로드
model.load_state_dict(torch.load('model/health_model_weights_v1.pth', weights_only=True))

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at beomi/KcBERT-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


<All keys matched successfully>

In [18]:
import numpy as np

questions = df['question'].tolist()
answers = df['answer'].tolist()

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model.to(device)

def get_embeddings(questions, tokenizer, model):
    model.eval()  # 평가 모드로 전환
    embeddings = []

    with torch.no_grad():
        for question in questions:
            # 입력 토큰화 (입력을 GPU로 이동)
            inputs = tokenizer(question, return_tensors="pt", padding=True, truncation=True).to(device)

            # 출력 얻기
            outputs = model(**inputs, output_hidden_states=True)  # hidden_states를 반환하도록 설정
            
            # BERT의 마지막 레이어 hidden_states에서 [CLS] 토큰의 임베딩을 사용
            cls_embedding = outputs.hidden_states[-1][:, 0, :]  # [batch_size, hidden_size]

            # CPU로 이동하고 numpy 배열로 변환하여 임베딩 목록에 추가
            embeddings.append(cls_embedding.squeeze().cpu().numpy())

    return np.array(embeddings)  # 모든 임베딩을 NumPy 배열로 반환


# train 후 새로운 임베딩 생성
question_embeddings = get_embeddings(questions, tokenizer, model)

# 저장할 폴더 경로
save_dir = 'embeddings'

# 폴더가 없으면 생성
os.makedirs(save_dir, exist_ok=True)

# 저장할 파일 경로
save_path = os.path.join(save_dir, 'train_question_embeddings_v1.pth')

# 임베딩 저장
torch.save(question_embeddings, save_path)

In [19]:
import torch
import torch.nn.functional as F
import numpy as np

# numpy의 _reconstruct 함수를 허용 목록에 추가
torch.serialization.add_safe_globals([np.core.multiarray._reconstruct])

# 신뢰할 수 있는 데이터 파일을 로드하고 GPU로 이동
question_embeddings = torch.load('embeddings/train_question_embeddings_v1.pth')

# 만약 question_embeddings가 numpy 배열로 되어 있다면, 이를 torch.Tensor로 변환
if isinstance(question_embeddings, np.ndarray):
    question_embeddings = [torch.tensor(embedding).to(device) for embedding in question_embeddings]  # numpy 배열을 텐서로 변환

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 평가 모드로 설정
model.eval()

def get_embedding(input_question, tokenizer, model, device):
    # 입력 문장을 토크나이즈하고 GPU/CPU로 이동
    inputs = tokenizer(input_question, return_tensors="pt", padding=True, truncation=True).to(device)
    
    with torch.no_grad():
        # hidden states를 포함하도록 설정
        outputs = model(**inputs, output_hidden_states=True)
        
        # 마지막 hidden state에서 [CLS] 토큰의 임베딩을 가져옴
        cls_embedding = outputs.hidden_states[-1][:, 0, :]  # [CLS] 토큰의 임베딩
    
    return cls_embedding.squeeze().to(device)  # 텐서를 GPU로 반환

# 코사인 유사도를 계산하여 가장 유사한 답변을 찾는 함수
def find_most_similar_answer_cosine(input_question, question_embeddings, answers, tokenizer, model, device):
    # 입력 질문 임베딩 생성
    input_embedding = get_embedding(input_question, tokenizer, model, device)

    max_similarity = -1
    best_answer = None
    
    # 각 질문 임베딩과 유사도 비교
    for i, question_embedding in enumerate(question_embeddings):
        # question_embedding이 numpy 배열인 경우 텐서로 변환
        if isinstance(question_embedding, np.ndarray):
            question_embedding = torch.tensor(question_embedding).to(device)
        
        # 코사인 유사도 계산
        similarity = F.cosine_similarity(input_embedding.unsqueeze(0), question_embedding.unsqueeze(0)).item()
        
        if similarity > max_similarity:
            max_similarity = similarity
            best_answer = answers[i]

    return best_answer, max_similarity

# 챗봇 응답 함수
def chatbot_response(input_question, tokenizer, model, question_embeddings, answers, df, device):
    # 1차 필터링: 분류 모델로 레이블 예측
    inputs = tokenizer(input_question, return_tensors="pt", padding=True, truncation=True).to(device)
    
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        predicted_label = torch.argmax(logits, dim=-1).item()

    # 2차 필터링: 같은 카테고리 내에서 코사인 유사도 계산
    # 같은 레이블의 질문들과 임베딩 필터링
    filtered_df = df[df['label'] == predicted_label]
    filtered_indices = filtered_df.index.tolist()

    # 필터링된 질문에 해당하는 미리 계산된 임베딩과 답변 가져오기
    filtered_question_embeddings = [question_embeddings[i] for i in filtered_indices]
    filtered_answers = [answers[i] for i in filtered_indices]

    # 코사인 유사도를 통해 가장 유사한 답변 찾기
    best_answer, cosine_similarity = find_most_similar_answer_cosine(input_question, filtered_question_embeddings, filtered_answers, tokenizer, model, device)
    
    return best_answer, cosine_similarity, predicted_label


  question_embeddings = torch.load('embeddings/train_question_embeddings_v1.pth')


In [20]:
# 예시 질문
input_question = "정수기 어디있죠?"

# 챗봇 응답 호출
best_answer, cosine_similarity, predicted_label = chatbot_response(
    input_question, tokenizer, model, question_embeddings, answers, df, device
)

# 결과 출력

print("예측된 레이블:", predicted_label)
print("최고 유사도 답변:", best_answer)
print("코사인 유사도:", cosine_similarity)
# 예측된 레이블: 0
# 최고 유사도 답변: 청력검사 대기실은 왼쪽 복도로 직진하시면 위치해 있습니다.
# 코사인 유사도: 0.9980705380439758

예측된 레이블: 6
최고 유사도 답변: 네 진료실 앞 의자에서 대기해 주시면 됩니다.
코사인 유사도: 0.9959897994995117


In [31]:
from skopt import gp_minimize
from skopt.space import Real, Categorical, Integer
from transformers import Trainer, TrainingArguments, AutoModelForSequenceClassification, AutoTokenizer
from sklearn.metrics import accuracy_score, f1_score
import numpy as np
from skopt import space

# 모델 구조 정의
model = AutoModelForSequenceClassification.from_pretrained("beomi/KcBERT-base", num_labels=num_classes)
tokenizer = AutoTokenizer.from_pretrained("beomi/KcBERT-base")

# 성능 평가 함수
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)

    # Accuracy
    accuracy = accuracy_score(labels, predictions)

    # F1 Score (macro average for multi-class classification)
    f1 = f1_score(labels, predictions, average="macro")

    # NumPy에서 생성된 값을 기본 Python int로 변환
    return {
        "accuracy": float(accuracy),  # float으로 변환
        "f1": float(f1),              # float으로 변환
    }

# 베이지안 최적화의 목적 함수
def objective(params):
    learning_rate = float(params[0])  # float로 변환
    batch_size = int(params[1])        # int로 변환
    num_train_epochs = int(params[2])  # int로 변환

     # 배치 사이즈가 유효한지 확인
    if batch_size < 1:
        raise ValueError(f"Invalid batch size: {batch_size}. Must be a positive integer.")
    
    # TrainingArguments 설정
    training_args = TrainingArguments(
        output_dir="./results",
        num_train_epochs=num_train_epochs,
        per_device_train_batch_size=batch_size,  # batch_size 사용
        learning_rate=learning_rate,
        eval_strategy="epoch",
        save_strategy="epoch",
        logging_dir='./logs',
        logging_steps=10,
        save_total_limit=1,
        load_best_model_at_end=True,
    )

    # Trainer 설정
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        compute_metrics=compute_metrics,
    )

    # 모델 학습
    trainer.train()

    # 평가 및 최적화 지표 반환
    eval_result = trainer.evaluate()

    # eval_loss 변환
    eval_loss = eval_result.get("eval_loss", np.nan)
    if isinstance(eval_loss, (np.float32, np.float64, np.int64)):
        eval_loss = float(eval_loss)

    return eval_loss  # 최종적으로 Python float으로 반환


# space 정의
space = [
    space.Real(1e-5, 1e-4, name='learning_rate', prior='log-uniform'),  # float
    space.Integer(8, 32, name='batch_size'),  # int
    space.Integer(2, 5, name='num_train_epochs')  # int
]


# 베이지안 최적화 실행
result = gp_minimize(objective, space, n_calls=10, random_state=0)

# 최적화된 하이퍼파라미터 출력
print(f"Best hyperparameters: Learning Rate = {result.x[0]}, Batch Size = {result.x[1]}, Num Epochs = {result.x[2]}")


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at beomi/KcBERT-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
  0%|          | 10/3935 [00:02<17:34,  3.72it/s]

{'loss': 1.6503, 'grad_norm': 7.324362277984619, 'learning_rate': 3.906065688915182e-05, 'epoch': 0.01}


  1%|          | 20/3935 [00:05<17:26,  3.74it/s]

{'loss': 0.8572, 'grad_norm': 39.257896423339844, 'learning_rate': 3.8961139291982e-05, 'epoch': 0.03}


  1%|          | 30/3935 [00:08<17:34,  3.70it/s]

{'loss': 0.4665, 'grad_norm': 6.6452836990356445, 'learning_rate': 3.886162169481219e-05, 'epoch': 0.04}


  1%|          | 40/3935 [00:10<17:27,  3.72it/s]

{'loss': 0.3739, 'grad_norm': 5.420491695404053, 'learning_rate': 3.876210409764238e-05, 'epoch': 0.05}


  1%|▏         | 50/3935 [00:13<17:18,  3.74it/s]

{'loss': 0.2513, 'grad_norm': 9.908605575561523, 'learning_rate': 3.866258650047256e-05, 'epoch': 0.06}


  2%|▏         | 60/3935 [00:16<17:19,  3.73it/s]

{'loss': 0.3182, 'grad_norm': 7.391206741333008, 'learning_rate': 3.8563068903302744e-05, 'epoch': 0.08}


  2%|▏         | 70/3935 [00:19<17:22,  3.71it/s]

{'loss': 0.2305, 'grad_norm': 5.349137306213379, 'learning_rate': 3.8463551306132935e-05, 'epoch': 0.09}


  2%|▏         | 80/3935 [00:21<17:23,  3.69it/s]

{'loss': 0.2085, 'grad_norm': 3.755336046218872, 'learning_rate': 3.8364033708963125e-05, 'epoch': 0.1}


  2%|▏         | 90/3935 [00:24<17:18,  3.70it/s]

{'loss': 0.1958, 'grad_norm': 7.970592975616455, 'learning_rate': 3.826451611179331e-05, 'epoch': 0.11}


  3%|▎         | 100/3935 [00:27<17:36,  3.63it/s]

{'loss': 0.1715, 'grad_norm': 8.639365196228027, 'learning_rate': 3.816499851462349e-05, 'epoch': 0.13}


  3%|▎         | 110/3935 [00:30<19:22,  3.29it/s]

{'loss': 0.1877, 'grad_norm': 6.04939603805542, 'learning_rate': 3.806548091745368e-05, 'epoch': 0.14}


  3%|▎         | 120/3935 [00:33<19:39,  3.23it/s]

{'loss': 0.0735, 'grad_norm': 1.1441490650177002, 'learning_rate': 3.7965963320283866e-05, 'epoch': 0.15}


  3%|▎         | 130/3935 [00:36<17:48,  3.56it/s]

{'loss': 0.0685, 'grad_norm': 17.822235107421875, 'learning_rate': 3.786644572311405e-05, 'epoch': 0.17}


  4%|▎         | 140/3935 [00:39<17:44,  3.56it/s]

{'loss': 0.1482, 'grad_norm': 10.630372047424316, 'learning_rate': 3.776692812594424e-05, 'epoch': 0.18}


  4%|▍         | 150/3935 [00:42<18:13,  3.46it/s]

{'loss': 0.1317, 'grad_norm': 2.6404380798339844, 'learning_rate': 3.7667410528774424e-05, 'epoch': 0.19}


  4%|▍         | 160/3935 [00:44<18:11,  3.46it/s]

{'loss': 0.1544, 'grad_norm': 0.7861191034317017, 'learning_rate': 3.7567892931604614e-05, 'epoch': 0.2}


  4%|▍         | 170/3935 [00:47<18:35,  3.37it/s]

{'loss': 0.1162, 'grad_norm': 4.884269714355469, 'learning_rate': 3.74683753344348e-05, 'epoch': 0.22}


  5%|▍         | 180/3935 [00:50<18:28,  3.39it/s]

{'loss': 0.1267, 'grad_norm': 3.8993701934814453, 'learning_rate': 3.736885773726499e-05, 'epoch': 0.23}


  5%|▍         | 190/3935 [00:53<19:33,  3.19it/s]

{'loss': 0.1362, 'grad_norm': 8.590743064880371, 'learning_rate': 3.726934014009517e-05, 'epoch': 0.24}


  5%|▌         | 200/3935 [00:57<19:01,  3.27it/s]

{'loss': 0.1575, 'grad_norm': 0.9284999966621399, 'learning_rate': 3.7169822542925356e-05, 'epoch': 0.25}


  5%|▌         | 210/3935 [01:00<19:27,  3.19it/s]

{'loss': 0.1126, 'grad_norm': 4.076315879821777, 'learning_rate': 3.7070304945755546e-05, 'epoch': 0.27}


  6%|▌         | 220/3935 [01:03<19:13,  3.22it/s]

{'loss': 0.1109, 'grad_norm': 3.760220766067505, 'learning_rate': 3.697078734858573e-05, 'epoch': 0.28}


  6%|▌         | 230/3935 [01:06<19:09,  3.22it/s]

{'loss': 0.062, 'grad_norm': 0.8796910643577576, 'learning_rate': 3.687126975141592e-05, 'epoch': 0.29}


  6%|▌         | 240/3935 [01:09<19:34,  3.15it/s]

{'loss': 0.0802, 'grad_norm': 13.543937683105469, 'learning_rate': 3.6771752154246104e-05, 'epoch': 0.3}


  6%|▋         | 250/3935 [01:12<19:30,  3.15it/s]

{'loss': 0.1065, 'grad_norm': 1.9126216173171997, 'learning_rate': 3.667223455707629e-05, 'epoch': 0.32}


  7%|▋         | 260/3935 [01:15<19:16,  3.18it/s]

{'loss': 0.1015, 'grad_norm': 16.14851188659668, 'learning_rate': 3.657271695990648e-05, 'epoch': 0.33}


  7%|▋         | 270/3935 [01:18<17:55,  3.41it/s]

{'loss': 0.0361, 'grad_norm': 11.561751365661621, 'learning_rate': 3.647319936273666e-05, 'epoch': 0.34}


  7%|▋         | 280/3935 [01:21<17:37,  3.46it/s]

{'loss': 0.1092, 'grad_norm': 0.1283019781112671, 'learning_rate': 3.6373681765566845e-05, 'epoch': 0.36}


  7%|▋         | 290/3935 [01:24<18:39,  3.26it/s]

{'loss': 0.035, 'grad_norm': 12.578869819641113, 'learning_rate': 3.6274164168397035e-05, 'epoch': 0.37}


  8%|▊         | 300/3935 [01:27<18:26,  3.29it/s]

{'loss': 0.1341, 'grad_norm': 7.249351501464844, 'learning_rate': 3.6174646571227226e-05, 'epoch': 0.38}


  8%|▊         | 310/3935 [01:31<18:48,  3.21it/s]

{'loss': 0.1135, 'grad_norm': 2.51591420173645, 'learning_rate': 3.607512897405741e-05, 'epoch': 0.39}


  8%|▊         | 320/3935 [01:34<19:52,  3.03it/s]

{'loss': 0.0864, 'grad_norm': 10.137884140014648, 'learning_rate': 3.597561137688759e-05, 'epoch': 0.41}


  8%|▊         | 330/3935 [01:38<22:58,  2.62it/s]

{'loss': 0.0609, 'grad_norm': 0.2883574068546295, 'learning_rate': 3.587609377971778e-05, 'epoch': 0.42}


  9%|▊         | 340/3935 [01:42<22:39,  2.64it/s]

{'loss': 0.0329, 'grad_norm': 14.834677696228027, 'learning_rate': 3.5776576182547974e-05, 'epoch': 0.43}


  9%|▉         | 350/3935 [01:45<20:51,  2.86it/s]

{'loss': 0.0741, 'grad_norm': 18.345327377319336, 'learning_rate': 3.567705858537815e-05, 'epoch': 0.44}


  9%|▉         | 360/3935 [01:49<20:53,  2.85it/s]

{'loss': 0.0479, 'grad_norm': 12.529390335083008, 'learning_rate': 3.557754098820834e-05, 'epoch': 0.46}


  9%|▉         | 370/3935 [01:52<22:49,  2.60it/s]

{'loss': 0.1087, 'grad_norm': 1.2262543439865112, 'learning_rate': 3.547802339103853e-05, 'epoch': 0.47}


 10%|▉         | 380/3935 [01:56<23:47,  2.49it/s]

{'loss': 0.0507, 'grad_norm': 0.14023412764072418, 'learning_rate': 3.5378505793868715e-05, 'epoch': 0.48}


 10%|▉         | 390/3935 [02:00<24:41,  2.39it/s]

{'loss': 0.0404, 'grad_norm': 4.747954845428467, 'learning_rate': 3.52789881966989e-05, 'epoch': 0.5}


 10%|█         | 400/3935 [02:04<23:52,  2.47it/s]

{'loss': 0.1444, 'grad_norm': 0.567919135093689, 'learning_rate': 3.517947059952909e-05, 'epoch': 0.51}


 10%|█         | 410/3935 [02:09<23:26,  2.51it/s]

{'loss': 0.0671, 'grad_norm': 0.23651903867721558, 'learning_rate': 3.507995300235928e-05, 'epoch': 0.52}


 11%|█         | 420/3935 [02:13<24:15,  2.42it/s]

{'loss': 0.059, 'grad_norm': 3.122066020965576, 'learning_rate': 3.498043540518946e-05, 'epoch': 0.53}


 11%|█         | 430/3935 [02:17<23:46,  2.46it/s]

{'loss': 0.0327, 'grad_norm': 0.41127607226371765, 'learning_rate': 3.4880917808019646e-05, 'epoch': 0.55}


 11%|█         | 440/3935 [02:21<23:41,  2.46it/s]

{'loss': 0.0763, 'grad_norm': 1.0584158897399902, 'learning_rate': 3.478140021084984e-05, 'epoch': 0.56}


 11%|█▏        | 450/3935 [02:25<24:01,  2.42it/s]

{'loss': 0.0772, 'grad_norm': 1.483747124671936, 'learning_rate': 3.468188261368002e-05, 'epoch': 0.57}


 12%|█▏        | 460/3935 [02:29<22:47,  2.54it/s]

{'loss': 0.0209, 'grad_norm': 7.767704486846924, 'learning_rate': 3.4582365016510204e-05, 'epoch': 0.58}


 12%|█▏        | 470/3935 [02:33<24:55,  2.32it/s]

{'loss': 0.0668, 'grad_norm': 2.3899738788604736, 'learning_rate': 3.4482847419340394e-05, 'epoch': 0.6}


 12%|█▏        | 480/3935 [02:37<25:58,  2.22it/s]

{'loss': 0.0049, 'grad_norm': 0.026023581624031067, 'learning_rate': 3.438332982217058e-05, 'epoch': 0.61}


 12%|█▏        | 490/3935 [02:42<25:32,  2.25it/s]

{'loss': 0.0022, 'grad_norm': 0.32096153497695923, 'learning_rate': 3.428381222500077e-05, 'epoch': 0.62}


 13%|█▎        | 500/3935 [02:47<27:13,  2.10it/s]

{'loss': 0.0422, 'grad_norm': 0.3571629524230957, 'learning_rate': 3.418429462783095e-05, 'epoch': 0.64}


 13%|█▎        | 510/3935 [02:51<27:02,  2.11it/s]

{'loss': 0.0187, 'grad_norm': 0.6963135600090027, 'learning_rate': 3.408477703066114e-05, 'epoch': 0.65}


 13%|█▎        | 520/3935 [02:56<25:05,  2.27it/s]

{'loss': 0.0068, 'grad_norm': 0.11616045981645584, 'learning_rate': 3.3985259433491326e-05, 'epoch': 0.66}


 13%|█▎        | 530/3935 [03:00<24:16,  2.34it/s]

{'loss': 0.0027, 'grad_norm': 1.293865442276001, 'learning_rate': 3.388574183632151e-05, 'epoch': 0.67}


 14%|█▎        | 540/3935 [03:04<24:45,  2.29it/s]

{'loss': 0.013, 'grad_norm': 0.06716610491275787, 'learning_rate': 3.37862242391517e-05, 'epoch': 0.69}


 14%|█▍        | 550/3935 [03:09<26:10,  2.16it/s]

{'loss': 0.0299, 'grad_norm': 27.236032485961914, 'learning_rate': 3.3686706641981884e-05, 'epoch': 0.7}


 14%|█▍        | 560/3935 [03:14<26:43,  2.11it/s]

{'loss': 0.0079, 'grad_norm': 0.009995589032769203, 'learning_rate': 3.3587189044812074e-05, 'epoch': 0.71}


 14%|█▍        | 570/3935 [03:18<25:47,  2.18it/s]

{'loss': 0.029, 'grad_norm': 0.014490245841443539, 'learning_rate': 3.348767144764226e-05, 'epoch': 0.72}


 15%|█▍        | 580/3935 [03:23<23:56,  2.34it/s]

{'loss': 0.0407, 'grad_norm': 15.796792030334473, 'learning_rate': 3.338815385047244e-05, 'epoch': 0.74}


 15%|█▍        | 590/3935 [03:27<24:43,  2.26it/s]

{'loss': 0.0868, 'grad_norm': 0.0354585200548172, 'learning_rate': 3.328863625330263e-05, 'epoch': 0.75}


 15%|█▌        | 600/3935 [03:31<24:21,  2.28it/s]

{'loss': 0.0354, 'grad_norm': 2.3198440074920654, 'learning_rate': 3.3189118656132815e-05, 'epoch': 0.76}


 16%|█▌        | 610/3935 [03:36<26:34,  2.09it/s]

{'loss': 0.0188, 'grad_norm': 0.5020268559455872, 'learning_rate': 3.3089601058963e-05, 'epoch': 0.78}


 16%|█▌        | 620/3935 [03:41<27:24,  2.02it/s]

{'loss': 0.0727, 'grad_norm': 0.017105773091316223, 'learning_rate': 3.299008346179319e-05, 'epoch': 0.79}


 16%|█▌        | 630/3935 [03:46<28:06,  1.96it/s]

{'loss': 0.0208, 'grad_norm': 18.792566299438477, 'learning_rate': 3.289056586462338e-05, 'epoch': 0.8}


 16%|█▋        | 640/3935 [03:51<24:51,  2.21it/s]

{'loss': 0.0968, 'grad_norm': 0.5548718571662903, 'learning_rate': 3.279104826745356e-05, 'epoch': 0.81}


 17%|█▋        | 650/3935 [03:56<25:00,  2.19it/s]

{'loss': 0.0236, 'grad_norm': 0.5259070992469788, 'learning_rate': 3.269153067028375e-05, 'epoch': 0.83}


 17%|█▋        | 660/3935 [04:00<25:09,  2.17it/s]

{'loss': 0.0053, 'grad_norm': 0.20319920778274536, 'learning_rate': 3.259201307311394e-05, 'epoch': 0.84}


 17%|█▋        | 670/3935 [04:05<25:10,  2.16it/s]

{'loss': 0.0068, 'grad_norm': 0.026587439700961113, 'learning_rate': 3.249249547594412e-05, 'epoch': 0.85}


 17%|█▋        | 680/3935 [04:09<25:36,  2.12it/s]

{'loss': 0.0301, 'grad_norm': 0.008374134078621864, 'learning_rate': 3.2392977878774304e-05, 'epoch': 0.86}


 18%|█▊        | 690/3935 [04:14<26:35,  2.03it/s]

{'loss': 0.0167, 'grad_norm': 0.08597823977470398, 'learning_rate': 3.2293460281604495e-05, 'epoch': 0.88}


 18%|█▊        | 700/3935 [04:19<26:21,  2.05it/s]

{'loss': 0.0017, 'grad_norm': 0.0133490189909935, 'learning_rate': 3.2193942684434685e-05, 'epoch': 0.89}


 18%|█▊        | 710/3935 [04:24<26:03,  2.06it/s]

{'loss': 0.0702, 'grad_norm': 1.7356289625167847, 'learning_rate': 3.209442508726487e-05, 'epoch': 0.9}


 18%|█▊        | 720/3935 [04:29<26:20,  2.03it/s]

{'loss': 0.0026, 'grad_norm': 0.010355344973504543, 'learning_rate': 3.199490749009505e-05, 'epoch': 0.91}


 19%|█▊        | 730/3935 [04:34<26:13,  2.04it/s]

{'loss': 0.0013, 'grad_norm': 0.03622234985232353, 'learning_rate': 3.189538989292524e-05, 'epoch': 0.93}


 19%|█▉        | 740/3935 [04:39<26:19,  2.02it/s]

{'loss': 0.0209, 'grad_norm': 30.451292037963867, 'learning_rate': 3.1795872295755426e-05, 'epoch': 0.94}


 19%|█▉        | 750/3935 [04:44<26:16,  2.02it/s]

{'loss': 0.0299, 'grad_norm': 0.674938976764679, 'learning_rate': 3.169635469858561e-05, 'epoch': 0.95}


 19%|█▉        | 760/3935 [04:49<25:06,  2.11it/s]

{'loss': 0.0432, 'grad_norm': 13.268481254577637, 'learning_rate': 3.15968371014158e-05, 'epoch': 0.97}


 20%|█▉        | 770/3935 [04:54<30:28,  1.73it/s]

{'loss': 0.0022, 'grad_norm': 0.030137687921524048, 'learning_rate': 3.149731950424599e-05, 'epoch': 0.98}


 20%|█▉        | 780/3935 [05:00<29:56,  1.76it/s]

{'loss': 0.0318, 'grad_norm': 0.014329959638416767, 'learning_rate': 3.1397801907076174e-05, 'epoch': 0.99}


 20%|██        | 787/3935 [05:03<23:33,  2.23it/s]
 20%|██        | 787/3935 [05:38<23:33,  2.23it/s]

{'eval_loss': 0.00913415290415287, 'eval_accuracy': 0.9981841292899946, 'eval_f1': 0.9981826659641697, 'eval_runtime': 34.6229, 'eval_samples_per_second': 159.057, 'eval_steps_per_second': 19.9, 'epoch': 1.0}


 20%|██        | 790/3935 [06:15<9:25:56, 10.80s/it] 

{'loss': 0.008, 'grad_norm': 0.01691270060837269, 'learning_rate': 3.129828430990636e-05, 'epoch': 1.0}


 20%|██        | 800/3935 [06:18<29:26,  1.77it/s]  

{'loss': 0.0009, 'grad_norm': 0.008224859833717346, 'learning_rate': 3.119876671273655e-05, 'epoch': 1.02}


 21%|██        | 810/3935 [06:20<14:54,  3.49it/s]

{'loss': 0.0048, 'grad_norm': 6.9504923820495605, 'learning_rate': 3.109924911556673e-05, 'epoch': 1.03}


 21%|██        | 820/3935 [06:23<14:56,  3.47it/s]

{'loss': 0.0406, 'grad_norm': 0.01521520409733057, 'learning_rate': 3.0999731518396915e-05, 'epoch': 1.04}


 21%|██        | 830/3935 [06:26<14:55,  3.47it/s]

{'loss': 0.021, 'grad_norm': 22.482532501220703, 'learning_rate': 3.0900213921227106e-05, 'epoch': 1.05}


 21%|██▏       | 840/3935 [06:29<15:02,  3.43it/s]

{'loss': 0.0124, 'grad_norm': 0.03357617184519768, 'learning_rate': 3.080069632405729e-05, 'epoch': 1.07}


 22%|██▏       | 850/3935 [06:32<15:20,  3.35it/s]

{'loss': 0.0005, 'grad_norm': 0.006118329241871834, 'learning_rate': 3.070117872688748e-05, 'epoch': 1.08}


 22%|██▏       | 860/3935 [06:36<18:31,  2.77it/s]

{'loss': 0.0116, 'grad_norm': 0.06295938044786453, 'learning_rate': 3.0601661129717663e-05, 'epoch': 1.09}


 22%|██▏       | 870/3935 [06:39<18:02,  2.83it/s]

{'loss': 0.0006, 'grad_norm': 0.026352087035775185, 'learning_rate': 3.0502143532547854e-05, 'epoch': 1.11}


 22%|██▏       | 880/3935 [06:43<17:51,  2.85it/s]

{'loss': 0.0233, 'grad_norm': 0.00584655674174428, 'learning_rate': 3.0402625935378037e-05, 'epoch': 1.12}


 23%|██▎       | 890/3935 [06:46<18:47,  2.70it/s]

{'loss': 0.0012, 'grad_norm': 0.01885053515434265, 'learning_rate': 3.0303108338208224e-05, 'epoch': 1.13}


 23%|██▎       | 900/3935 [06:50<16:43,  3.03it/s]

{'loss': 0.0061, 'grad_norm': 0.13591080904006958, 'learning_rate': 3.020359074103841e-05, 'epoch': 1.14}


 23%|██▎       | 910/3935 [06:54<20:21,  2.48it/s]

{'loss': 0.0119, 'grad_norm': 20.153478622436523, 'learning_rate': 3.0104073143868595e-05, 'epoch': 1.16}


 23%|██▎       | 920/3935 [06:58<20:29,  2.45it/s]

{'loss': 0.0128, 'grad_norm': 0.02497224509716034, 'learning_rate': 3.0004555546698782e-05, 'epoch': 1.17}


 24%|██▎       | 930/3935 [07:02<19:24,  2.58it/s]

{'loss': 0.006, 'grad_norm': 15.007478713989258, 'learning_rate': 2.9905037949528972e-05, 'epoch': 1.18}


 24%|██▍       | 940/3935 [07:06<18:27,  2.71it/s]

{'loss': 0.0005, 'grad_norm': 0.006733886431902647, 'learning_rate': 2.9805520352359153e-05, 'epoch': 1.19}


 24%|██▍       | 950/3935 [07:09<19:00,  2.62it/s]

{'loss': 0.0011, 'grad_norm': 3.922227382659912, 'learning_rate': 2.9706002755189343e-05, 'epoch': 1.21}


 24%|██▍       | 960/3935 [07:14<21:08,  2.35it/s]

{'loss': 0.0262, 'grad_norm': 0.004277416970580816, 'learning_rate': 2.960648515801953e-05, 'epoch': 1.22}


 25%|██▍       | 970/3935 [07:18<21:09,  2.34it/s]

{'loss': 0.0229, 'grad_norm': 10.386964797973633, 'learning_rate': 2.9506967560849717e-05, 'epoch': 1.23}


 25%|██▍       | 980/3935 [07:22<21:42,  2.27it/s]

{'loss': 0.0033, 'grad_norm': 0.028112154453992844, 'learning_rate': 2.94074499636799e-05, 'epoch': 1.25}


 25%|██▌       | 990/3935 [07:27<22:10,  2.21it/s]

{'loss': 0.0005, 'grad_norm': 0.0034848127979785204, 'learning_rate': 2.9307932366510088e-05, 'epoch': 1.26}


 25%|██▌       | 1000/3935 [07:31<20:51,  2.35it/s]

{'loss': 0.035, 'grad_norm': 0.26724570989608765, 'learning_rate': 2.9208414769340278e-05, 'epoch': 1.27}


 26%|██▌       | 1010/3935 [07:37<34:17,  1.42it/s]

{'loss': 0.031, 'grad_norm': 0.012104696594178677, 'learning_rate': 2.910889717217046e-05, 'epoch': 1.28}


 26%|██▌       | 1020/3935 [07:41<20:47,  2.34it/s]

{'loss': 0.0198, 'grad_norm': 16.39957046508789, 'learning_rate': 2.900937957500065e-05, 'epoch': 1.3}


 26%|██▌       | 1030/3935 [07:46<30:28,  1.59it/s]

{'loss': 0.0271, 'grad_norm': 0.004284773953258991, 'learning_rate': 2.8909861977830836e-05, 'epoch': 1.31}


 26%|██▋       | 1040/3935 [07:52<25:23,  1.90it/s]

{'loss': 0.0019, 'grad_norm': 0.491862028837204, 'learning_rate': 2.881034438066102e-05, 'epoch': 1.32}


 27%|██▋       | 1050/3935 [07:57<28:29,  1.69it/s]

{'loss': 0.0004, 'grad_norm': 0.10763519257307053, 'learning_rate': 2.8710826783491206e-05, 'epoch': 1.33}


 27%|██▋       | 1060/3935 [08:02<24:46,  1.93it/s]

{'loss': 0.0023, 'grad_norm': 0.0037721984554082155, 'learning_rate': 2.8611309186321393e-05, 'epoch': 1.35}


 27%|██▋       | 1070/3935 [08:07<24:22,  1.96it/s]

{'loss': 0.0006, 'grad_norm': 0.005008099600672722, 'learning_rate': 2.8511791589151584e-05, 'epoch': 1.36}


 27%|██▋       | 1080/3935 [08:12<24:29,  1.94it/s]

{'loss': 0.0375, 'grad_norm': 0.005142961163073778, 'learning_rate': 2.8412273991981767e-05, 'epoch': 1.37}


 28%|██▊       | 1090/3935 [08:17<24:03,  1.97it/s]

{'loss': 0.0137, 'grad_norm': 0.02716028317809105, 'learning_rate': 2.8312756394811954e-05, 'epoch': 1.39}


 28%|██▊       | 1100/3935 [08:22<24:25,  1.93it/s]

{'loss': 0.0023, 'grad_norm': 0.06275422126054764, 'learning_rate': 2.821323879764214e-05, 'epoch': 1.4}


 28%|██▊       | 1110/3935 [08:27<22:45,  2.07it/s]

{'loss': 0.0349, 'grad_norm': 0.0038029535207897425, 'learning_rate': 2.8113721200472325e-05, 'epoch': 1.41}


 28%|██▊       | 1120/3935 [08:32<22:32,  2.08it/s]

{'loss': 0.0004, 'grad_norm': 0.0067963446490466595, 'learning_rate': 2.8014203603302512e-05, 'epoch': 1.42}


 29%|██▊       | 1130/3935 [08:37<22:38,  2.06it/s]

{'loss': 0.0009, 'grad_norm': 0.13620446622371674, 'learning_rate': 2.79146860061327e-05, 'epoch': 1.44}


 29%|██▉       | 1140/3935 [08:42<22:29,  2.07it/s]

{'loss': 0.0004, 'grad_norm': 0.009579026140272617, 'learning_rate': 2.7815168408962882e-05, 'epoch': 1.45}


 29%|██▉       | 1150/3935 [08:47<22:32,  2.06it/s]

{'loss': 0.0004, 'grad_norm': 0.004391463007777929, 'learning_rate': 2.7715650811793073e-05, 'epoch': 1.46}


 29%|██▉       | 1160/3935 [08:52<26:47,  1.73it/s]

{'loss': 0.0004, 'grad_norm': 0.012617745436728, 'learning_rate': 2.761613321462326e-05, 'epoch': 1.47}


 30%|██▉       | 1170/3935 [08:57<22:52,  2.01it/s]

{'loss': 0.0003, 'grad_norm': 0.002867684466764331, 'learning_rate': 2.7516615617453443e-05, 'epoch': 1.49}


 30%|██▉       | 1180/3935 [09:02<22:29,  2.04it/s]

{'loss': 0.0003, 'grad_norm': 0.0027846586890518665, 'learning_rate': 2.741709802028363e-05, 'epoch': 1.5}


 30%|███       | 1190/3935 [09:07<22:28,  2.04it/s]

{'loss': 0.0003, 'grad_norm': 0.010072999633848667, 'learning_rate': 2.7317580423113817e-05, 'epoch': 1.51}


 30%|███       | 1200/3935 [09:12<23:44,  1.92it/s]

{'loss': 0.0003, 'grad_norm': 0.003517616307362914, 'learning_rate': 2.7218062825944008e-05, 'epoch': 1.52}


 31%|███       | 1210/3935 [09:17<23:50,  1.91it/s]

{'loss': 0.0003, 'grad_norm': 0.002494295360520482, 'learning_rate': 2.7118545228774188e-05, 'epoch': 1.54}


 31%|███       | 1220/3935 [09:23<23:41,  1.91it/s]

{'loss': 0.0003, 'grad_norm': 0.0054585072211921215, 'learning_rate': 2.7019027631604378e-05, 'epoch': 1.55}


 31%|███▏      | 1230/3935 [09:28<23:36,  1.91it/s]

{'loss': 0.0003, 'grad_norm': 0.08089815080165863, 'learning_rate': 2.6919510034434565e-05, 'epoch': 1.56}


 32%|███▏      | 1240/3935 [09:33<23:29,  1.91it/s]

{'loss': 0.0016, 'grad_norm': 0.007344916928559542, 'learning_rate': 2.681999243726475e-05, 'epoch': 1.58}


 32%|███▏      | 1250/3935 [09:38<23:19,  1.92it/s]

{'loss': 0.0037, 'grad_norm': 0.5273398160934448, 'learning_rate': 2.6720474840094936e-05, 'epoch': 1.59}


 32%|███▏      | 1260/3935 [09:44<23:25,  1.90it/s]

{'loss': 0.0003, 'grad_norm': 0.0035933158360421658, 'learning_rate': 2.6620957242925123e-05, 'epoch': 1.6}


 32%|███▏      | 1270/3935 [09:49<24:41,  1.80it/s]

{'loss': 0.0003, 'grad_norm': 0.003319250652566552, 'learning_rate': 2.6521439645755306e-05, 'epoch': 1.61}


 33%|███▎      | 1280/3935 [09:54<21:53,  2.02it/s]

{'loss': 0.0003, 'grad_norm': 0.0024611209519207478, 'learning_rate': 2.6421922048585497e-05, 'epoch': 1.63}


 33%|███▎      | 1290/3935 [09:59<21:49,  2.02it/s]

{'loss': 0.0399, 'grad_norm': 0.03879731148481369, 'learning_rate': 2.6322404451415684e-05, 'epoch': 1.64}


 33%|███▎      | 1300/3935 [10:04<21:40,  2.03it/s]

{'loss': 0.0014, 'grad_norm': 0.02248525619506836, 'learning_rate': 2.622288685424587e-05, 'epoch': 1.65}


 33%|███▎      | 1310/3935 [10:09<21:38,  2.02it/s]

{'loss': 0.0113, 'grad_norm': 0.02488764375448227, 'learning_rate': 2.6123369257076054e-05, 'epoch': 1.66}


 34%|███▎      | 1320/3935 [10:14<21:42,  2.01it/s]

{'loss': 0.0255, 'grad_norm': 0.003452252596616745, 'learning_rate': 2.602385165990624e-05, 'epoch': 1.68}


 34%|███▍      | 1330/3935 [10:19<21:35,  2.01it/s]

{'loss': 0.0004, 'grad_norm': 0.007714407052844763, 'learning_rate': 2.592433406273643e-05, 'epoch': 1.69}


 34%|███▍      | 1340/3935 [10:24<21:33,  2.01it/s]

{'loss': 0.0004, 'grad_norm': 0.0030342317186295986, 'learning_rate': 2.5824816465566612e-05, 'epoch': 1.7}


 34%|███▍      | 1350/3935 [10:29<21:20,  2.02it/s]

{'loss': 0.0003, 'grad_norm': 0.002818792825564742, 'learning_rate': 2.5725298868396802e-05, 'epoch': 1.72}


 35%|███▍      | 1360/3935 [10:35<25:04,  1.71it/s]

{'loss': 0.0004, 'grad_norm': 0.4301778972148895, 'learning_rate': 2.562578127122699e-05, 'epoch': 1.73}


 35%|███▍      | 1370/3935 [10:40<22:52,  1.87it/s]

{'loss': 0.0007, 'grad_norm': 0.002586992923170328, 'learning_rate': 2.5526263674057173e-05, 'epoch': 1.74}


 35%|███▌      | 1380/3935 [10:46<22:30,  1.89it/s]

{'loss': 0.0203, 'grad_norm': 1.0913887023925781, 'learning_rate': 2.542674607688736e-05, 'epoch': 1.75}


 35%|███▌      | 1390/3935 [10:51<22:21,  1.90it/s]

{'loss': 0.0007, 'grad_norm': 3.0732438564300537, 'learning_rate': 2.5327228479717547e-05, 'epoch': 1.77}


 36%|███▌      | 1400/3935 [10:56<22:16,  1.90it/s]

{'loss': 0.0003, 'grad_norm': 0.002771661151200533, 'learning_rate': 2.522771088254773e-05, 'epoch': 1.78}


 36%|███▌      | 1410/3935 [11:01<22:15,  1.89it/s]

{'loss': 0.0005, 'grad_norm': 0.004374401178210974, 'learning_rate': 2.5128193285377918e-05, 'epoch': 1.79}


 36%|███▌      | 1420/3935 [11:07<22:03,  1.90it/s]

{'loss': 0.0005, 'grad_norm': 0.004077200312167406, 'learning_rate': 2.5028675688208108e-05, 'epoch': 1.8}


 36%|███▋      | 1430/3935 [11:12<22:08,  1.89it/s]

{'loss': 0.0205, 'grad_norm': 13.64926528930664, 'learning_rate': 2.4929158091038295e-05, 'epoch': 1.82}


 37%|███▋      | 1440/3935 [11:17<22:07,  1.88it/s]

{'loss': 0.0003, 'grad_norm': 0.002673257840797305, 'learning_rate': 2.482964049386848e-05, 'epoch': 1.83}


 37%|███▋      | 1450/3935 [11:23<21:58,  1.88it/s]

{'loss': 0.0127, 'grad_norm': 0.004927109461277723, 'learning_rate': 2.4730122896698666e-05, 'epoch': 1.84}


 37%|███▋      | 1460/3935 [11:28<21:56,  1.88it/s]

{'loss': 0.003, 'grad_norm': 0.0028375752735882998, 'learning_rate': 2.4630605299528853e-05, 'epoch': 1.86}


 37%|███▋      | 1470/3935 [11:33<22:39,  1.81it/s]

{'loss': 0.0318, 'grad_norm': 0.0023605534806847572, 'learning_rate': 2.4531087702359036e-05, 'epoch': 1.87}


 38%|███▊      | 1480/3935 [11:39<22:52,  1.79it/s]

{'loss': 0.0003, 'grad_norm': 0.004347638227045536, 'learning_rate': 2.4431570105189223e-05, 'epoch': 1.88}


 38%|███▊      | 1490/3935 [11:45<22:43,  1.79it/s]

{'loss': 0.0008, 'grad_norm': 0.027500268071889877, 'learning_rate': 2.4332052508019414e-05, 'epoch': 1.89}


 38%|███▊      | 1500/3935 [11:50<22:32,  1.80it/s]

{'loss': 0.0162, 'grad_norm': 0.0025551419239491224, 'learning_rate': 2.4232534910849597e-05, 'epoch': 1.91}


 38%|███▊      | 1510/3935 [11:56<22:22,  1.81it/s]

{'loss': 0.0194, 'grad_norm': 0.01307004876434803, 'learning_rate': 2.4133017313679784e-05, 'epoch': 1.92}


 39%|███▊      | 1520/3935 [12:01<19:04,  2.11it/s]

{'loss': 0.0012, 'grad_norm': 0.006766519043594599, 'learning_rate': 2.403349971650997e-05, 'epoch': 1.93}


 39%|███▉      | 1530/3935 [12:06<21:05,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.0023318170569837093, 'learning_rate': 2.3933982119340158e-05, 'epoch': 1.94}


 39%|███▉      | 1540/3935 [12:11<20:13,  1.97it/s]

{'loss': 0.0269, 'grad_norm': 17.768327713012695, 'learning_rate': 2.3834464522170342e-05, 'epoch': 1.96}


 39%|███▉      | 1550/3935 [12:16<20:54,  1.90it/s]

{'loss': 0.0177, 'grad_norm': 0.005462049972265959, 'learning_rate': 2.373494692500053e-05, 'epoch': 1.97}


 40%|███▉      | 1560/3935 [12:22<20:51,  1.90it/s]

{'loss': 0.0012, 'grad_norm': 0.002247767522931099, 'learning_rate': 2.363542932783072e-05, 'epoch': 1.98}


 40%|███▉      | 1570/3935 [12:27<20:46,  1.90it/s]

{'loss': 0.0187, 'grad_norm': 0.0030073258094489574, 'learning_rate': 2.3535911730660903e-05, 'epoch': 1.99}


 40%|████      | 1574/3935 [12:29<18:20,  2.15it/s]
 40%|████      | 1574/3935 [13:06<18:20,  2.15it/s]

{'eval_loss': 0.011362151242792606, 'eval_accuracy': 0.9978209551479935, 'eval_f1': 0.9978227097607111, 'eval_runtime': 37.3339, 'eval_samples_per_second': 147.507, 'eval_steps_per_second': 18.455, 'epoch': 2.0}


 40%|████      | 1580/3935 [13:44<2:36:07,  3.98s/it] 

{'loss': 0.0019, 'grad_norm': 6.624512195587158, 'learning_rate': 2.343639413349109e-05, 'epoch': 2.01}


 40%|████      | 1590/3935 [13:46<14:28,  2.70it/s]  

{'loss': 0.0195, 'grad_norm': 0.0028070425614714622, 'learning_rate': 2.3336876536321277e-05, 'epoch': 2.02}


 41%|████      | 1600/3935 [13:49<10:37,  3.66it/s]

{'loss': 0.0007, 'grad_norm': 0.023161709308624268, 'learning_rate': 2.323735893915146e-05, 'epoch': 2.03}


 41%|████      | 1610/3935 [13:52<11:11,  3.46it/s]

{'loss': 0.0004, 'grad_norm': 0.0025128836277872324, 'learning_rate': 2.3137841341981647e-05, 'epoch': 2.05}


 41%|████      | 1620/3935 [13:55<10:55,  3.53it/s]

{'loss': 0.0003, 'grad_norm': 0.03712736815214157, 'learning_rate': 2.3038323744811838e-05, 'epoch': 2.06}


 41%|████▏     | 1630/3935 [13:58<11:05,  3.46it/s]

{'loss': 0.0336, 'grad_norm': 0.004691580776125193, 'learning_rate': 2.2938806147642018e-05, 'epoch': 2.07}


 42%|████▏     | 1640/3935 [14:01<11:07,  3.44it/s]

{'loss': 0.0227, 'grad_norm': 0.04705788195133209, 'learning_rate': 2.283928855047221e-05, 'epoch': 2.08}


 42%|████▏     | 1650/3935 [14:04<11:32,  3.30it/s]

{'loss': 0.0002, 'grad_norm': 0.007786944042891264, 'learning_rate': 2.2739770953302395e-05, 'epoch': 2.1}


 42%|████▏     | 1660/3935 [14:07<12:54,  2.94it/s]

{'loss': 0.0004, 'grad_norm': 0.05060629919171333, 'learning_rate': 2.2640253356132582e-05, 'epoch': 2.11}


 42%|████▏     | 1670/3935 [14:10<12:10,  3.10it/s]

{'loss': 0.0002, 'grad_norm': 0.002435262082144618, 'learning_rate': 2.2540735758962766e-05, 'epoch': 2.12}


 43%|████▎     | 1680/3935 [14:13<12:29,  3.01it/s]

{'loss': 0.0003, 'grad_norm': 0.002217862755060196, 'learning_rate': 2.2441218161792953e-05, 'epoch': 2.13}


 43%|████▎     | 1690/3935 [14:17<12:50,  2.91it/s]

{'loss': 0.0147, 'grad_norm': 0.0038309881929308176, 'learning_rate': 2.2341700564623143e-05, 'epoch': 2.15}


 43%|████▎     | 1700/3935 [14:20<13:00,  2.86it/s]

{'loss': 0.0049, 'grad_norm': 0.003562113968655467, 'learning_rate': 2.2242182967453327e-05, 'epoch': 2.16}


 43%|████▎     | 1710/3935 [14:24<15:20,  2.42it/s]

{'loss': 0.0002, 'grad_norm': 0.010239933617413044, 'learning_rate': 2.2142665370283514e-05, 'epoch': 2.17}


 44%|████▎     | 1720/3935 [14:28<14:45,  2.50it/s]

{'loss': 0.0006, 'grad_norm': 1.8016170263290405, 'learning_rate': 2.20431477731137e-05, 'epoch': 2.19}


 44%|████▍     | 1730/3935 [14:32<15:03,  2.44it/s]

{'loss': 0.0003, 'grad_norm': 0.008107614703476429, 'learning_rate': 2.1943630175943885e-05, 'epoch': 2.2}


 44%|████▍     | 1740/3935 [14:37<14:59,  2.44it/s]

{'loss': 0.0093, 'grad_norm': 0.0021417089737951756, 'learning_rate': 2.184411257877407e-05, 'epoch': 2.21}


 44%|████▍     | 1750/3935 [14:41<14:23,  2.53it/s]

{'loss': 0.0021, 'grad_norm': 0.003422416979447007, 'learning_rate': 2.174459498160426e-05, 'epoch': 2.22}


 45%|████▍     | 1760/3935 [14:46<18:16,  1.98it/s]

{'loss': 0.0003, 'grad_norm': 0.12552118301391602, 'learning_rate': 2.164507738443445e-05, 'epoch': 2.24}


 45%|████▍     | 1770/3935 [14:51<17:44,  2.03it/s]

{'loss': 0.0004, 'grad_norm': 0.003999208100140095, 'learning_rate': 2.1545559787264633e-05, 'epoch': 2.25}


 45%|████▌     | 1780/3935 [14:56<17:32,  2.05it/s]

{'loss': 0.0003, 'grad_norm': 0.007127906661480665, 'learning_rate': 2.144604219009482e-05, 'epoch': 2.26}


 45%|████▌     | 1790/3935 [15:00<15:29,  2.31it/s]

{'loss': 0.0044, 'grad_norm': 0.0017176102846860886, 'learning_rate': 2.1346524592925007e-05, 'epoch': 2.27}


 46%|████▌     | 1800/3935 [15:05<20:07,  1.77it/s]

{'loss': 0.0257, 'grad_norm': 0.0015216437168419361, 'learning_rate': 2.124700699575519e-05, 'epoch': 2.29}


 46%|████▌     | 1810/3935 [15:11<18:33,  1.91it/s]

{'loss': 0.0002, 'grad_norm': 0.0021805856376886368, 'learning_rate': 2.1147489398585377e-05, 'epoch': 2.3}


 46%|████▋     | 1820/3935 [15:16<18:07,  1.95it/s]

{'loss': 0.0004, 'grad_norm': 0.002787766745314002, 'learning_rate': 2.1047971801415564e-05, 'epoch': 2.31}


 47%|████▋     | 1830/3935 [15:21<18:05,  1.94it/s]

{'loss': 0.0002, 'grad_norm': 0.00372407422401011, 'learning_rate': 2.0948454204245748e-05, 'epoch': 2.33}


 47%|████▋     | 1840/3935 [15:26<17:19,  2.02it/s]

{'loss': 0.0002, 'grad_norm': 0.0019064305815845728, 'learning_rate': 2.0848936607075938e-05, 'epoch': 2.34}


 47%|████▋     | 1850/3935 [15:31<17:21,  2.00it/s]

{'loss': 0.0002, 'grad_norm': 0.001908260746859014, 'learning_rate': 2.0749419009906125e-05, 'epoch': 2.35}


 47%|████▋     | 1860/3935 [15:36<17:08,  2.02it/s]

{'loss': 0.0002, 'grad_norm': 0.002893999218940735, 'learning_rate': 2.0649901412736312e-05, 'epoch': 2.36}


 48%|████▊     | 1870/3935 [15:41<17:07,  2.01it/s]

{'loss': 0.0002, 'grad_norm': 0.0023955225478857756, 'learning_rate': 2.0550383815566496e-05, 'epoch': 2.38}


 48%|████▊     | 1880/3935 [15:47<20:39,  1.66it/s]

{'loss': 0.0002, 'grad_norm': 0.0015810499899089336, 'learning_rate': 2.0450866218396683e-05, 'epoch': 2.39}


 48%|████▊     | 1890/3935 [15:52<17:35,  1.94it/s]

{'loss': 0.0003, 'grad_norm': 0.001402134308591485, 'learning_rate': 2.035134862122687e-05, 'epoch': 2.4}


 48%|████▊     | 1900/3935 [15:57<16:26,  2.06it/s]

{'loss': 0.0002, 'grad_norm': 0.06507772207260132, 'learning_rate': 2.0251831024057053e-05, 'epoch': 2.41}


 49%|████▊     | 1910/3935 [16:02<16:25,  2.06it/s]

{'loss': 0.0001, 'grad_norm': 0.002484464319422841, 'learning_rate': 2.0152313426887244e-05, 'epoch': 2.43}


 49%|████▉     | 1920/3935 [16:07<16:18,  2.06it/s]

{'loss': 0.0002, 'grad_norm': 0.001519588055089116, 'learning_rate': 2.005279582971743e-05, 'epoch': 2.44}


 49%|████▉     | 1930/3935 [16:13<19:42,  1.70it/s]

{'loss': 0.0003, 'grad_norm': 0.0017058345256373286, 'learning_rate': 1.9953278232547614e-05, 'epoch': 2.45}


 49%|████▉     | 1940/3935 [16:19<18:35,  1.79it/s]

{'loss': 0.0001, 'grad_norm': 0.0033523691818118095, 'learning_rate': 1.98537606353778e-05, 'epoch': 2.47}


 50%|████▉     | 1950/3935 [16:24<18:26,  1.79it/s]

{'loss': 0.0002, 'grad_norm': 0.001382146030664444, 'learning_rate': 1.9754243038207988e-05, 'epoch': 2.48}


 50%|████▉     | 1960/3935 [16:29<15:13,  2.16it/s]

{'loss': 0.0001, 'grad_norm': 0.0014859066577628255, 'learning_rate': 1.9654725441038172e-05, 'epoch': 2.49}


 50%|█████     | 1970/3935 [16:34<16:40,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0017339854966849089, 'learning_rate': 1.955520784386836e-05, 'epoch': 2.5}


 50%|█████     | 1980/3935 [16:39<16:39,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0013275835663080215, 'learning_rate': 1.945569024669855e-05, 'epoch': 2.52}


 51%|█████     | 1990/3935 [16:44<16:25,  1.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0014587282203137875, 'learning_rate': 1.9356172649528733e-05, 'epoch': 2.53}


 51%|█████     | 2000/3935 [16:49<16:18,  1.98it/s]

{'loss': 0.0346, 'grad_norm': 0.003936014603823423, 'learning_rate': 1.9256655052358923e-05, 'epoch': 2.54}


 51%|█████     | 2010/3935 [16:55<16:18,  1.97it/s]

{'loss': 0.0007, 'grad_norm': 0.021202079951763153, 'learning_rate': 1.9157137455189107e-05, 'epoch': 2.55}


 51%|█████▏    | 2020/3935 [17:00<16:12,  1.97it/s]

{'loss': 0.0005, 'grad_norm': 0.008576788008213043, 'learning_rate': 1.9057619858019294e-05, 'epoch': 2.57}


 52%|█████▏    | 2030/3935 [17:05<16:18,  1.95it/s]

{'loss': 0.0003, 'grad_norm': 0.007322568446397781, 'learning_rate': 1.895810226084948e-05, 'epoch': 2.58}


 52%|█████▏    | 2040/3935 [17:10<16:16,  1.94it/s]

{'loss': 0.0002, 'grad_norm': 0.0025638060178607702, 'learning_rate': 1.8858584663679668e-05, 'epoch': 2.59}


 52%|█████▏    | 2050/3935 [17:15<16:10,  1.94it/s]

{'loss': 0.0002, 'grad_norm': 0.0017264590132981539, 'learning_rate': 1.875906706650985e-05, 'epoch': 2.6}


 52%|█████▏    | 2060/3935 [17:20<16:06,  1.94it/s]

{'loss': 0.0002, 'grad_norm': 0.0026914116460829973, 'learning_rate': 1.865954946934004e-05, 'epoch': 2.62}


 53%|█████▎    | 2070/3935 [17:26<19:58,  1.56it/s]

{'loss': 0.0002, 'grad_norm': 0.0020576869137585163, 'learning_rate': 1.8560031872170225e-05, 'epoch': 2.63}


 53%|█████▎    | 2080/3935 [17:31<16:17,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.011029371991753578, 'learning_rate': 1.8460514275000412e-05, 'epoch': 2.64}


 53%|█████▎    | 2090/3935 [17:37<16:01,  1.92it/s]

{'loss': 0.0002, 'grad_norm': 0.0016886527882888913, 'learning_rate': 1.83609966778306e-05, 'epoch': 2.66}


 53%|█████▎    | 2100/3935 [17:42<15:58,  1.91it/s]

{'loss': 0.0002, 'grad_norm': 0.0026321110781282187, 'learning_rate': 1.8261479080660783e-05, 'epoch': 2.67}


 54%|█████▎    | 2110/3935 [17:47<15:54,  1.91it/s]

{'loss': 0.0002, 'grad_norm': 0.002640840830281377, 'learning_rate': 1.8161961483490973e-05, 'epoch': 2.68}


 54%|█████▍    | 2120/3935 [17:52<15:44,  1.92it/s]

{'loss': 0.0002, 'grad_norm': 0.002439121948555112, 'learning_rate': 1.8062443886321157e-05, 'epoch': 2.69}


 54%|█████▍    | 2130/3935 [17:58<15:47,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.0018342396942898631, 'learning_rate': 1.7962926289151344e-05, 'epoch': 2.71}


 54%|█████▍    | 2140/3935 [18:03<15:39,  1.91it/s]

{'loss': 0.0052, 'grad_norm': 0.041549671441316605, 'learning_rate': 1.786340869198153e-05, 'epoch': 2.72}


 55%|█████▍    | 2150/3935 [18:08<15:33,  1.91it/s]

{'loss': 0.0487, 'grad_norm': 44.07773208618164, 'learning_rate': 1.7763891094811718e-05, 'epoch': 2.73}


 55%|█████▍    | 2160/3935 [18:13<15:23,  1.92it/s]

{'loss': 0.0004, 'grad_norm': 0.012264293618500233, 'learning_rate': 1.7664373497641905e-05, 'epoch': 2.74}


 55%|█████▌    | 2170/3935 [18:18<15:21,  1.92it/s]

{'loss': 0.0007, 'grad_norm': 4.523767948150635, 'learning_rate': 1.756485590047209e-05, 'epoch': 2.76}


 55%|█████▌    | 2180/3935 [18:24<15:20,  1.91it/s]

{'loss': 0.0003, 'grad_norm': 0.005826909095048904, 'learning_rate': 1.746533830330228e-05, 'epoch': 2.77}


 56%|█████▌    | 2190/3935 [18:29<15:16,  1.90it/s]

{'loss': 0.0004, 'grad_norm': 0.0045297532342374325, 'learning_rate': 1.7365820706132463e-05, 'epoch': 2.78}


 56%|█████▌    | 2200/3935 [18:34<15:07,  1.91it/s]

{'loss': 0.0014, 'grad_norm': 0.0035161329433321953, 'learning_rate': 1.726630310896265e-05, 'epoch': 2.8}


 56%|█████▌    | 2210/3935 [18:39<15:07,  1.90it/s]

{'loss': 0.0005, 'grad_norm': 2.366719961166382, 'learning_rate': 1.7166785511792837e-05, 'epoch': 2.81}


 56%|█████▋    | 2220/3935 [18:45<14:52,  1.92it/s]

{'loss': 0.0007, 'grad_norm': 0.004229560028761625, 'learning_rate': 1.7067267914623024e-05, 'epoch': 2.82}


 57%|█████▋    | 2230/3935 [18:50<14:48,  1.92it/s]

{'loss': 0.0007, 'grad_norm': 0.006564287468791008, 'learning_rate': 1.696775031745321e-05, 'epoch': 2.83}


 57%|█████▋    | 2240/3935 [18:55<14:43,  1.92it/s]

{'loss': 0.0061, 'grad_norm': 0.0018522323807701468, 'learning_rate': 1.6868232720283394e-05, 'epoch': 2.85}


 57%|█████▋    | 2250/3935 [19:00<14:44,  1.91it/s]

{'loss': 0.0002, 'grad_norm': 0.0016567640705034137, 'learning_rate': 1.676871512311358e-05, 'epoch': 2.86}


 57%|█████▋    | 2260/3935 [19:06<14:42,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.07942038029432297, 'learning_rate': 1.6669197525943768e-05, 'epoch': 2.87}


 58%|█████▊    | 2270/3935 [19:11<14:28,  1.92it/s]

{'loss': 0.0105, 'grad_norm': 0.002459990791976452, 'learning_rate': 1.6569679928773955e-05, 'epoch': 2.88}


 58%|█████▊    | 2280/3935 [19:16<14:31,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.0020608401391655207, 'learning_rate': 1.6470162331604142e-05, 'epoch': 2.9}


 58%|█████▊    | 2290/3935 [19:21<14:26,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.001999211497604847, 'learning_rate': 1.637064473443433e-05, 'epoch': 2.91}


 58%|█████▊    | 2300/3935 [19:27<14:16,  1.91it/s]

{'loss': 0.0002, 'grad_norm': 0.001681581255979836, 'learning_rate': 1.6271127137264513e-05, 'epoch': 2.92}


 59%|█████▊    | 2310/3935 [19:32<14:17,  1.89it/s]

{'loss': 0.0002, 'grad_norm': 0.0010977042838931084, 'learning_rate': 1.6171609540094703e-05, 'epoch': 2.94}


 59%|█████▉    | 2320/3935 [19:37<14:15,  1.89it/s]

{'loss': 0.0007, 'grad_norm': 0.0018815899966284633, 'learning_rate': 1.6072091942924887e-05, 'epoch': 2.95}


 59%|█████▉    | 2330/3935 [19:42<13:59,  1.91it/s]

{'loss': 0.0004, 'grad_norm': 0.0017645551124587655, 'learning_rate': 1.5972574345755074e-05, 'epoch': 2.96}


 59%|█████▉    | 2340/3935 [19:48<13:49,  1.92it/s]

{'loss': 0.0158, 'grad_norm': 0.004934907890856266, 'learning_rate': 1.587305674858526e-05, 'epoch': 2.97}


 60%|█████▉    | 2350/3935 [19:53<13:52,  1.90it/s]

{'loss': 0.0007, 'grad_norm': 0.0019608389120548964, 'learning_rate': 1.5773539151415448e-05, 'epoch': 2.99}


 60%|█████▉    | 2360/3935 [19:58<13:40,  1.92it/s]

{'loss': 0.0002, 'grad_norm': 0.0021332339383661747, 'learning_rate': 1.5674021554245635e-05, 'epoch': 3.0}


 60%|██████    | 2361/3935 [19:58<12:05,  2.17it/s]
 60%|██████    | 2361/3935 [20:36<12:05,  2.17it/s]

{'eval_loss': 0.010450849309563637, 'eval_accuracy': 0.9981841292899946, 'eval_f1': 0.998174778165105, 'eval_runtime': 37.1641, 'eval_samples_per_second': 148.181, 'eval_steps_per_second': 18.539, 'epoch': 3.0}


 60%|██████    | 2370/3935 [21:15<40:12,  1.54s/it]  

{'loss': 0.0002, 'grad_norm': 0.003278748830780387, 'learning_rate': 1.557450395707582e-05, 'epoch': 3.01}


 60%|██████    | 2380/3935 [21:17<07:41,  3.37it/s]

{'loss': 0.0002, 'grad_norm': 0.0021733290050178766, 'learning_rate': 1.5474986359906005e-05, 'epoch': 3.02}


 61%|██████    | 2390/3935 [21:20<07:05,  3.63it/s]

{'loss': 0.0006, 'grad_norm': 0.0017986306920647621, 'learning_rate': 1.5375468762736192e-05, 'epoch': 3.04}


 61%|██████    | 2400/3935 [21:23<07:09,  3.58it/s]

{'loss': 0.0553, 'grad_norm': 0.0026409812271595, 'learning_rate': 1.527595116556638e-05, 'epoch': 3.05}


 61%|██████    | 2410/3935 [21:26<07:14,  3.51it/s]

{'loss': 0.0202, 'grad_norm': 0.021214717999100685, 'learning_rate': 1.5176433568396566e-05, 'epoch': 3.06}


 61%|██████▏   | 2420/3935 [21:28<07:17,  3.46it/s]

{'loss': 0.0008, 'grad_norm': 0.03757306560873985, 'learning_rate': 1.5076915971226752e-05, 'epoch': 3.07}


 62%|██████▏   | 2430/3935 [21:31<07:26,  3.37it/s]

{'loss': 0.0011, 'grad_norm': 0.009366767480969429, 'learning_rate': 1.4977398374056937e-05, 'epoch': 3.09}


 62%|██████▏   | 2440/3935 [21:35<07:42,  3.23it/s]

{'loss': 0.0005, 'grad_norm': 0.007808322552591562, 'learning_rate': 1.4877880776887126e-05, 'epoch': 3.1}


 62%|██████▏   | 2450/3935 [21:38<07:33,  3.27it/s]

{'loss': 0.0003, 'grad_norm': 0.0024092167150229216, 'learning_rate': 1.4778363179717311e-05, 'epoch': 3.11}


 63%|██████▎   | 2460/3935 [21:41<07:51,  3.13it/s]

{'loss': 0.0002, 'grad_norm': 0.0026156536769121885, 'learning_rate': 1.4678845582547498e-05, 'epoch': 3.13}


 63%|██████▎   | 2470/3935 [21:44<08:50,  2.76it/s]

{'loss': 0.0002, 'grad_norm': 0.003504929132759571, 'learning_rate': 1.4579327985377685e-05, 'epoch': 3.14}


 63%|██████▎   | 2480/3935 [21:48<08:26,  2.87it/s]

{'loss': 0.0002, 'grad_norm': 0.0032412514556199312, 'learning_rate': 1.447981038820787e-05, 'epoch': 3.15}


 63%|██████▎   | 2490/3935 [21:52<09:52,  2.44it/s]

{'loss': 0.0002, 'grad_norm': 0.0031930063851177692, 'learning_rate': 1.4380292791038057e-05, 'epoch': 3.16}


 64%|██████▎   | 2500/3935 [21:56<09:53,  2.42it/s]

{'loss': 0.0002, 'grad_norm': 0.0024904790334403515, 'learning_rate': 1.4280775193868242e-05, 'epoch': 3.18}


 64%|██████▍   | 2510/3935 [22:00<10:48,  2.20it/s]

{'loss': 0.0332, 'grad_norm': 0.0018427897011861205, 'learning_rate': 1.4181257596698431e-05, 'epoch': 3.19}


 64%|██████▍   | 2520/3935 [22:04<09:43,  2.43it/s]

{'loss': 0.0002, 'grad_norm': 0.032226208597421646, 'learning_rate': 1.4081739999528616e-05, 'epoch': 3.2}


 64%|██████▍   | 2530/3935 [22:09<09:39,  2.43it/s]

{'loss': 0.0002, 'grad_norm': 0.02866281196475029, 'learning_rate': 1.3982222402358802e-05, 'epoch': 3.21}


 65%|██████▍   | 2540/3935 [22:13<09:33,  2.43it/s]

{'loss': 0.0042, 'grad_norm': 0.001687612384557724, 'learning_rate': 1.388270480518899e-05, 'epoch': 3.23}


 65%|██████▍   | 2550/3935 [22:18<11:08,  2.07it/s]

{'loss': 0.0002, 'grad_norm': 0.0053818183951079845, 'learning_rate': 1.3783187208019176e-05, 'epoch': 3.24}


 65%|██████▌   | 2560/3935 [22:23<10:50,  2.11it/s]

{'loss': 0.0021, 'grad_norm': 0.0028277465607970953, 'learning_rate': 1.3683669610849363e-05, 'epoch': 3.25}


 65%|██████▌   | 2570/3935 [22:28<10:47,  2.11it/s]

{'loss': 0.0012, 'grad_norm': 0.003982155583798885, 'learning_rate': 1.3584152013679548e-05, 'epoch': 3.27}


 66%|██████▌   | 2580/3935 [22:32<10:39,  2.12it/s]

{'loss': 0.0002, 'grad_norm': 0.002819661283865571, 'learning_rate': 1.3484634416509735e-05, 'epoch': 3.28}


 66%|██████▌   | 2590/3935 [22:37<11:22,  1.97it/s]

{'loss': 0.0002, 'grad_norm': 0.002475702902302146, 'learning_rate': 1.3385116819339922e-05, 'epoch': 3.29}


 66%|██████▌   | 2600/3935 [22:43<11:39,  1.91it/s]

{'loss': 0.0239, 'grad_norm': 0.003944057505577803, 'learning_rate': 1.3285599222170107e-05, 'epoch': 3.3}


 66%|██████▋   | 2610/3935 [22:48<11:07,  1.99it/s]

{'loss': 0.0073, 'grad_norm': 0.12638375163078308, 'learning_rate': 1.3186081625000293e-05, 'epoch': 3.32}


 67%|██████▋   | 2620/3935 [22:53<11:08,  1.97it/s]

{'loss': 0.0002, 'grad_norm': 0.0014894655905663967, 'learning_rate': 1.3086564027830481e-05, 'epoch': 3.33}


 67%|██████▋   | 2630/3935 [22:58<10:58,  1.98it/s]

{'loss': 0.0002, 'grad_norm': 0.0016498208278790116, 'learning_rate': 1.2987046430660667e-05, 'epoch': 3.34}


 67%|██████▋   | 2640/3935 [23:03<10:59,  1.96it/s]

{'loss': 0.0156, 'grad_norm': 0.0016529654385522008, 'learning_rate': 1.2887528833490855e-05, 'epoch': 3.35}


 67%|██████▋   | 2650/3935 [23:08<10:59,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0026368468534201384, 'learning_rate': 1.278801123632104e-05, 'epoch': 3.37}


 68%|██████▊   | 2660/3935 [23:13<10:55,  1.95it/s]

{'loss': 0.0009, 'grad_norm': 0.5903840065002441, 'learning_rate': 1.2688493639151226e-05, 'epoch': 3.38}


 68%|██████▊   | 2670/3935 [23:18<10:49,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0017260590102523565, 'learning_rate': 1.2588976041981413e-05, 'epoch': 3.39}


 68%|██████▊   | 2680/3935 [23:24<10:42,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.002439526841044426, 'learning_rate': 1.24894584448116e-05, 'epoch': 3.41}


 68%|██████▊   | 2690/3935 [23:29<10:37,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0017474453197792172, 'learning_rate': 1.2389940847641787e-05, 'epoch': 3.42}


 69%|██████▊   | 2700/3935 [23:34<10:36,  1.94it/s]

{'loss': 0.0001, 'grad_norm': 0.0023738176096230745, 'learning_rate': 1.2290423250471972e-05, 'epoch': 3.43}


 69%|██████▉   | 2710/3935 [23:39<10:30,  1.94it/s]

{'loss': 0.02, 'grad_norm': 0.0011094002984464169, 'learning_rate': 1.2190905653302158e-05, 'epoch': 3.44}


 69%|██████▉   | 2720/3935 [23:44<10:26,  1.94it/s]

{'loss': 0.0001, 'grad_norm': 0.0012531961547210813, 'learning_rate': 1.2091388056132346e-05, 'epoch': 3.46}


 69%|██████▉   | 2730/3935 [23:49<10:18,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0019016267033293843, 'learning_rate': 1.1991870458962532e-05, 'epoch': 3.47}


 70%|██████▉   | 2740/3935 [23:56<11:37,  1.71it/s]

{'loss': 0.0001, 'grad_norm': 0.002119777724146843, 'learning_rate': 1.1892352861792718e-05, 'epoch': 3.48}


 70%|██████▉   | 2750/3935 [24:01<10:34,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0016541853547096252, 'learning_rate': 1.1792835264622905e-05, 'epoch': 3.49}


 70%|███████   | 2760/3935 [24:06<10:26,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0031160686630755663, 'learning_rate': 1.169331766745309e-05, 'epoch': 3.51}


 70%|███████   | 2770/3935 [24:12<10:24,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0011688716476783156, 'learning_rate': 1.1593800070283278e-05, 'epoch': 3.52}


 71%|███████   | 2780/3935 [24:17<10:14,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.001605990924872458, 'learning_rate': 1.1494282473113463e-05, 'epoch': 3.53}


 71%|███████   | 2790/3935 [24:22<10:11,  1.87it/s]

{'loss': 0.0138, 'grad_norm': 0.0013155578635632992, 'learning_rate': 1.1394764875943652e-05, 'epoch': 3.55}


 71%|███████   | 2800/3935 [24:28<10:07,  1.87it/s]

{'loss': 0.0002, 'grad_norm': 0.0012791790068149567, 'learning_rate': 1.1295247278773837e-05, 'epoch': 3.56}


 71%|███████▏  | 2810/3935 [24:33<10:03,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0014697316801175475, 'learning_rate': 1.1195729681604022e-05, 'epoch': 3.57}


 72%|███████▏  | 2820/3935 [24:38<09:57,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0012684233952313662, 'learning_rate': 1.1096212084434211e-05, 'epoch': 3.58}


 72%|███████▏  | 2830/3935 [24:44<09:48,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0011765295639634132, 'learning_rate': 1.0996694487264396e-05, 'epoch': 3.6}


 72%|███████▏  | 2840/3935 [24:49<09:44,  1.87it/s]

{'loss': 0.0002, 'grad_norm': 0.001560498378239572, 'learning_rate': 1.0897176890094583e-05, 'epoch': 3.61}


 72%|███████▏  | 2850/3935 [24:54<09:39,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0012788682943210006, 'learning_rate': 1.079765929292477e-05, 'epoch': 3.62}


 73%|███████▎  | 2860/3935 [25:00<09:29,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0025667892768979073, 'learning_rate': 1.0698141695754956e-05, 'epoch': 3.63}


 73%|███████▎  | 2870/3935 [25:05<09:23,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0016497146571055055, 'learning_rate': 1.0598624098585143e-05, 'epoch': 3.65}


 73%|███████▎  | 2880/3935 [25:10<09:21,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0010916178580373526, 'learning_rate': 1.0499106501415328e-05, 'epoch': 3.66}


 73%|███████▎  | 2890/3935 [25:16<09:11,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0016026291996240616, 'learning_rate': 1.0399588904245515e-05, 'epoch': 3.67}


 74%|███████▎  | 2900/3935 [25:21<09:13,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0014396596234291792, 'learning_rate': 1.0300071307075702e-05, 'epoch': 3.68}


 74%|███████▍  | 2910/3935 [25:26<09:07,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.002169794635847211, 'learning_rate': 1.0200553709905887e-05, 'epoch': 3.7}


 74%|███████▍  | 2920/3935 [25:32<09:01,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0013828130904585123, 'learning_rate': 1.0101036112736076e-05, 'epoch': 3.71}


 74%|███████▍  | 2930/3935 [25:37<09:01,  1.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0013602986000478268, 'learning_rate': 1.0001518515566261e-05, 'epoch': 3.72}


 75%|███████▍  | 2940/3935 [25:42<08:50,  1.88it/s]

{'loss': 0.0004, 'grad_norm': 0.0039884778670966625, 'learning_rate': 9.902000918396447e-06, 'epoch': 3.74}


 75%|███████▍  | 2950/3935 [25:48<08:46,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0012859459966421127, 'learning_rate': 9.802483321226635e-06, 'epoch': 3.75}


 75%|███████▌  | 2960/3935 [25:53<08:40,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0010237273527309299, 'learning_rate': 9.70296572405682e-06, 'epoch': 3.76}


 75%|███████▌  | 2970/3935 [25:58<08:30,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0011831438168883324, 'learning_rate': 9.603448126887008e-06, 'epoch': 3.77}


 76%|███████▌  | 2980/3935 [26:03<08:28,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0014498363016173244, 'learning_rate': 9.503930529717193e-06, 'epoch': 3.79}


 76%|███████▌  | 2990/3935 [26:09<08:26,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0053139859810471535, 'learning_rate': 9.40441293254738e-06, 'epoch': 3.8}


 76%|███████▌  | 3000/3935 [26:14<08:20,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0009312467300333083, 'learning_rate': 9.304895335377567e-06, 'epoch': 3.81}


 76%|███████▋  | 3010/3935 [26:20<08:17,  1.86it/s]

{'loss': 0.0017, 'grad_norm': 0.0012167195091024041, 'learning_rate': 9.205377738207752e-06, 'epoch': 3.82}


 77%|███████▋  | 3020/3935 [26:25<08:05,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0011305896332487464, 'learning_rate': 9.105860141037939e-06, 'epoch': 3.84}


 77%|███████▋  | 3030/3935 [26:30<08:09,  1.85it/s]

{'loss': 0.0001, 'grad_norm': 0.0015955884009599686, 'learning_rate': 9.006342543868126e-06, 'epoch': 3.85}


 77%|███████▋  | 3040/3935 [26:35<07:51,  1.90it/s]

{'loss': 0.0005, 'grad_norm': 0.0011029052548110485, 'learning_rate': 8.906824946698313e-06, 'epoch': 3.86}


 78%|███████▊  | 3050/3935 [26:41<07:45,  1.90it/s]

{'loss': 0.0338, 'grad_norm': 0.002434832975268364, 'learning_rate': 8.807307349528498e-06, 'epoch': 3.88}


 78%|███████▊  | 3060/3935 [26:46<07:41,  1.89it/s]

{'loss': 0.0002, 'grad_norm': 0.005714209284633398, 'learning_rate': 8.707789752358685e-06, 'epoch': 3.89}


 78%|███████▊  | 3070/3935 [26:51<07:34,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.014314942061901093, 'learning_rate': 8.60827215518887e-06, 'epoch': 3.9}


 78%|███████▊  | 3080/3935 [26:57<07:31,  1.89it/s]

{'loss': 0.0002, 'grad_norm': 0.07265075296163559, 'learning_rate': 8.508754558019058e-06, 'epoch': 3.91}


 79%|███████▊  | 3090/3935 [27:02<07:24,  1.90it/s]

{'loss': 0.0002, 'grad_norm': 0.0038397363387048244, 'learning_rate': 8.409236960849245e-06, 'epoch': 3.93}


 79%|███████▉  | 3100/3935 [27:07<07:17,  1.91it/s]

{'loss': 0.0001, 'grad_norm': 0.01209114771336317, 'learning_rate': 8.30971936367943e-06, 'epoch': 3.94}


 79%|███████▉  | 3110/3935 [27:12<07:12,  1.91it/s]

{'loss': 0.0002, 'grad_norm': 0.004063085187226534, 'learning_rate': 8.210201766509617e-06, 'epoch': 3.95}


 79%|███████▉  | 3120/3935 [27:17<07:02,  1.93it/s]

{'loss': 0.0002, 'grad_norm': 0.0032854508608579636, 'learning_rate': 8.110684169339804e-06, 'epoch': 3.96}


 80%|███████▉  | 3130/3935 [27:23<06:22,  2.11it/s]

{'loss': 0.0001, 'grad_norm': 0.0017445203848183155, 'learning_rate': 8.011166572169991e-06, 'epoch': 3.98}


 80%|███████▉  | 3140/3935 [27:28<07:06,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0014544824371114373, 'learning_rate': 7.911648975000178e-06, 'epoch': 3.99}


                                                   
 80%|████████  | 3148/3935 [28:09<05:30,  2.38it/s]

{'eval_loss': 0.003455531084910035, 'eval_accuracy': 0.9992736517159978, 'eval_f1': 0.9992718842836309, 'eval_runtime': 36.2389, 'eval_samples_per_second': 151.964, 'eval_steps_per_second': 19.013, 'epoch': 4.0}


 80%|████████  | 3150/3935 [28:45<3:24:40, 15.64s/it]

{'loss': 0.0002, 'grad_norm': 0.0014590865466743708, 'learning_rate': 7.812131377830363e-06, 'epoch': 4.0}


 80%|████████  | 3160/3935 [28:48<08:56,  1.45it/s]  

{'loss': 0.0002, 'grad_norm': 0.0013488582335412502, 'learning_rate': 7.71261378066055e-06, 'epoch': 4.02}


 81%|████████  | 3170/3935 [28:51<03:31,  3.62it/s]

{'loss': 0.0001, 'grad_norm': 0.0022927389945834875, 'learning_rate': 7.613096183490736e-06, 'epoch': 4.03}


 81%|████████  | 3180/3935 [28:53<03:29,  3.60it/s]

{'loss': 0.0004, 'grad_norm': 0.0018659400520846248, 'learning_rate': 7.5135785863209225e-06, 'epoch': 4.04}


 81%|████████  | 3190/3935 [28:56<03:28,  3.58it/s]

{'loss': 0.0001, 'grad_norm': 0.0017156775575131178, 'learning_rate': 7.414060989151109e-06, 'epoch': 4.05}


 81%|████████▏ | 3200/3935 [28:59<03:32,  3.47it/s]

{'loss': 0.0003, 'grad_norm': 0.0025793525855988264, 'learning_rate': 7.314543391981295e-06, 'epoch': 4.07}


 82%|████████▏ | 3210/3935 [29:02<03:28,  3.48it/s]

{'loss': 0.0001, 'grad_norm': 0.0011082749115303159, 'learning_rate': 7.215025794811482e-06, 'epoch': 4.08}


 82%|████████▏ | 3220/3935 [29:05<03:32,  3.37it/s]

{'loss': 0.0001, 'grad_norm': 0.0007460878696292639, 'learning_rate': 7.115508197641669e-06, 'epoch': 4.09}


 82%|████████▏ | 3230/3935 [29:08<03:33,  3.30it/s]

{'loss': 0.0001, 'grad_norm': 0.00203513796441257, 'learning_rate': 7.015990600471855e-06, 'epoch': 4.1}


 82%|████████▏ | 3240/3935 [29:11<03:33,  3.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0019429989624768496, 'learning_rate': 6.916473003302041e-06, 'epoch': 4.12}


 83%|████████▎ | 3250/3935 [29:14<03:38,  3.14it/s]

{'loss': 0.0001, 'grad_norm': 0.001670772093348205, 'learning_rate': 6.816955406132227e-06, 'epoch': 4.13}


 83%|████████▎ | 3260/3935 [29:18<04:04,  2.76it/s]

{'loss': 0.0001, 'grad_norm': 0.0012982822954654694, 'learning_rate': 6.717437808962414e-06, 'epoch': 4.14}


 83%|████████▎ | 3270/3935 [29:21<03:55,  2.82it/s]

{'loss': 0.0001, 'grad_norm': 0.0018982096808031201, 'learning_rate': 6.617920211792601e-06, 'epoch': 4.16}


 83%|████████▎ | 3280/3935 [29:25<03:55,  2.78it/s]

{'loss': 0.0001, 'grad_norm': 0.002643460175022483, 'learning_rate': 6.518402614622787e-06, 'epoch': 4.17}


 84%|████████▎ | 3290/3935 [29:28<04:12,  2.56it/s]

{'loss': 0.0001, 'grad_norm': 0.0012080349260941148, 'learning_rate': 6.4188850174529736e-06, 'epoch': 4.18}


 84%|████████▍ | 3300/3935 [29:32<04:11,  2.52it/s]

{'loss': 0.0001, 'grad_norm': 0.0016984777757897973, 'learning_rate': 6.31936742028316e-06, 'epoch': 4.19}


 84%|████████▍ | 3310/3935 [29:37<04:39,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.001261466764844954, 'learning_rate': 6.219849823113347e-06, 'epoch': 4.21}


 84%|████████▍ | 3320/3935 [29:41<04:36,  2.22it/s]

{'loss': 0.0001, 'grad_norm': 0.004047988448292017, 'learning_rate': 6.120332225943533e-06, 'epoch': 4.22}


 85%|████████▍ | 3330/3935 [29:46<04:33,  2.21it/s]

{'loss': 0.0001, 'grad_norm': 0.0016031471313908696, 'learning_rate': 6.020814628773719e-06, 'epoch': 4.23}


 85%|████████▍ | 3340/3935 [29:50<04:28,  2.22it/s]

{'loss': 0.0001, 'grad_norm': 0.0017597780097275972, 'learning_rate': 5.921297031603905e-06, 'epoch': 4.24}


 85%|████████▌ | 3350/3935 [29:56<05:50,  1.67it/s]

{'loss': 0.0001, 'grad_norm': 0.0011662228498607874, 'learning_rate': 5.821779434434092e-06, 'epoch': 4.26}


 85%|████████▌ | 3360/3935 [30:01<04:50,  1.98it/s]

{'loss': 0.0001, 'grad_norm': 0.0015751216560602188, 'learning_rate': 5.722261837264279e-06, 'epoch': 4.27}


 86%|████████▌ | 3370/3935 [30:06<04:44,  1.98it/s]

{'loss': 0.0001, 'grad_norm': 0.0012787412852048874, 'learning_rate': 5.622744240094465e-06, 'epoch': 4.28}


 86%|████████▌ | 3380/3935 [30:11<04:44,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0017769739497452974, 'learning_rate': 5.5232266429246514e-06, 'epoch': 4.29}


 86%|████████▌ | 3390/3935 [30:16<04:37,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0010371493408456445, 'learning_rate': 5.423709045754838e-06, 'epoch': 4.31}


 86%|████████▋ | 3400/3935 [30:21<04:31,  1.97it/s]

{'loss': 0.0001, 'grad_norm': 0.018419472500681877, 'learning_rate': 5.324191448585025e-06, 'epoch': 4.32}


 87%|████████▋ | 3410/3935 [30:26<04:24,  1.99it/s]

{'loss': 0.0001, 'grad_norm': 0.0016036041779443622, 'learning_rate': 5.2246738514152116e-06, 'epoch': 4.33}


 87%|████████▋ | 3420/3935 [30:31<04:22,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0008420016383752227, 'learning_rate': 5.125156254245398e-06, 'epoch': 4.35}


 87%|████████▋ | 3430/3935 [30:36<04:17,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0013167290017008781, 'learning_rate': 5.025638657075584e-06, 'epoch': 4.36}


 87%|████████▋ | 3440/3935 [30:42<04:13,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0009942423785105348, 'learning_rate': 4.92612105990577e-06, 'epoch': 4.37}


 88%|████████▊ | 3450/3935 [30:47<04:05,  1.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0015353724593296647, 'learning_rate': 4.826603462735957e-06, 'epoch': 4.38}


 88%|████████▊ | 3460/3935 [30:52<04:01,  1.97it/s]

{'loss': 0.0001, 'grad_norm': 0.001180134597234428, 'learning_rate': 4.727085865566143e-06, 'epoch': 4.4}


 88%|████████▊ | 3470/3935 [30:57<03:55,  1.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0016783518949523568, 'learning_rate': 4.62756826839633e-06, 'epoch': 4.41}


 88%|████████▊ | 3480/3935 [31:02<03:51,  1.96it/s]

{'loss': 0.0002, 'grad_norm': 0.0013254230143502355, 'learning_rate': 4.528050671226516e-06, 'epoch': 4.42}


 89%|████████▊ | 3490/3935 [31:07<03:45,  1.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0013398223090916872, 'learning_rate': 4.4285330740567024e-06, 'epoch': 4.43}


 89%|████████▉ | 3500/3935 [31:12<03:42,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0013841160107403994, 'learning_rate': 4.3290154768868894e-06, 'epoch': 4.45}


 89%|████████▉ | 3510/3935 [31:18<03:49,  1.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0016461776103824377, 'learning_rate': 4.229497879717076e-06, 'epoch': 4.46}


 89%|████████▉ | 3520/3935 [31:23<03:41,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.000780215545091778, 'learning_rate': 4.129980282547262e-06, 'epoch': 4.47}


 90%|████████▉ | 3530/3935 [31:28<03:37,  1.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0009260852821171284, 'learning_rate': 4.030462685377448e-06, 'epoch': 4.49}


 90%|████████▉ | 3540/3935 [31:34<03:30,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0010514480527490377, 'learning_rate': 3.930945088207635e-06, 'epoch': 4.5}


 90%|█████████ | 3550/3935 [31:39<03:24,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0016275880625471473, 'learning_rate': 3.831427491037822e-06, 'epoch': 4.51}


 90%|█████████ | 3560/3935 [31:44<03:20,  1.87it/s]

{'loss': 0.0013, 'grad_norm': 0.0038305216003209352, 'learning_rate': 3.731909893868008e-06, 'epoch': 4.52}


 91%|█████████ | 3570/3935 [31:50<03:15,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0011509222676977515, 'learning_rate': 3.6323922966981946e-06, 'epoch': 4.54}


 91%|█████████ | 3580/3935 [31:55<03:10,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0009504444897174835, 'learning_rate': 3.5328746995283807e-06, 'epoch': 4.55}


 91%|█████████ | 3590/3935 [32:00<03:02,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0013847252121195197, 'learning_rate': 3.4333571023585673e-06, 'epoch': 4.56}


 91%|█████████▏| 3600/3935 [32:06<02:58,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0017872578464448452, 'learning_rate': 3.3338395051887535e-06, 'epoch': 4.57}


 92%|█████████▏| 3610/3935 [32:11<02:53,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0013594826450571418, 'learning_rate': 3.23432190801894e-06, 'epoch': 4.59}


 92%|█████████▏| 3620/3935 [32:16<02:47,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.00600736029446125, 'learning_rate': 3.134804310849127e-06, 'epoch': 4.6}


 92%|█████████▏| 3630/3935 [32:22<02:41,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0009658037452027202, 'learning_rate': 3.035286713679313e-06, 'epoch': 4.61}


 93%|█████████▎| 3640/3935 [32:27<02:37,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0011816868791356683, 'learning_rate': 2.9357691165094997e-06, 'epoch': 4.63}


 93%|█████████▎| 3650/3935 [32:32<02:31,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.001208864152431488, 'learning_rate': 2.836251519339686e-06, 'epoch': 4.64}


 93%|█████████▎| 3660/3935 [32:38<02:26,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0010709523921832442, 'learning_rate': 2.7367339221698725e-06, 'epoch': 4.65}


 93%|█████████▎| 3670/3935 [32:43<02:19,  1.90it/s]

{'loss': 0.0001, 'grad_norm': 0.0010798327857628465, 'learning_rate': 2.6372163250000586e-06, 'epoch': 4.66}


 94%|█████████▎| 3680/3935 [32:48<02:14,  1.90it/s]

{'loss': 0.0001, 'grad_norm': 0.0008309025433845818, 'learning_rate': 2.537698727830245e-06, 'epoch': 4.68}


 94%|█████████▍| 3690/3935 [32:53<02:10,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.001574223511852324, 'learning_rate': 2.4381811306604318e-06, 'epoch': 4.69}


 94%|█████████▍| 3700/3935 [32:59<02:05,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.000877426122315228, 'learning_rate': 2.3386635334906183e-06, 'epoch': 4.7}


 94%|█████████▍| 3710/3935 [33:04<02:00,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0015906563494354486, 'learning_rate': 2.2391459363208045e-06, 'epoch': 4.71}


 95%|█████████▍| 3720/3935 [33:09<01:54,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0035854291636496782, 'learning_rate': 2.139628339150991e-06, 'epoch': 4.73}


 95%|█████████▍| 3730/3935 [33:15<01:50,  1.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0011406495468690991, 'learning_rate': 2.0401107419811776e-06, 'epoch': 4.74}


 95%|█████████▌| 3740/3935 [33:20<01:44,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0009193866280838847, 'learning_rate': 1.940593144811364e-06, 'epoch': 4.75}


 95%|█████████▌| 3750/3935 [33:26<01:39,  1.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0008104622829705477, 'learning_rate': 1.8410755476415505e-06, 'epoch': 4.76}


 96%|█████████▌| 3760/3935 [33:31<01:33,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0009701373055577278, 'learning_rate': 1.741557950471737e-06, 'epoch': 4.78}


 96%|█████████▌| 3770/3935 [33:36<01:28,  1.87it/s]

{'loss': 0.0004, 'grad_norm': 0.0009650574647821486, 'learning_rate': 1.6420403533019235e-06, 'epoch': 4.79}


 96%|█████████▌| 3780/3935 [33:42<01:23,  1.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0010034346487373114, 'learning_rate': 1.5425227561321098e-06, 'epoch': 4.8}


 96%|█████████▋| 3790/3935 [33:47<01:17,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0009761228575371206, 'learning_rate': 1.4430051589622962e-06, 'epoch': 4.82}


 97%|█████████▋| 3800/3935 [33:52<01:11,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0015252133598551154, 'learning_rate': 1.343487561792483e-06, 'epoch': 4.83}


 97%|█████████▋| 3810/3935 [33:57<01:06,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0012272271560505033, 'learning_rate': 1.2439699646226693e-06, 'epoch': 4.84}


 97%|█████████▋| 3820/3935 [34:03<01:01,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0010602750116959214, 'learning_rate': 1.1444523674528557e-06, 'epoch': 4.85}


 97%|█████████▋| 3830/3935 [34:08<00:55,  1.90it/s]

{'loss': 0.0001, 'grad_norm': 0.0011713617714121938, 'learning_rate': 1.0449347702830423e-06, 'epoch': 4.87}


 98%|█████████▊| 3840/3935 [34:13<00:50,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.001022755284793675, 'learning_rate': 9.454171731132286e-07, 'epoch': 4.88}


 98%|█████████▊| 3850/3935 [34:19<00:45,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0009721696842461824, 'learning_rate': 8.458995759434152e-07, 'epoch': 4.89}


 98%|█████████▊| 3860/3935 [34:24<00:39,  1.89it/s]

{'loss': 0.0294, 'grad_norm': 0.0014637166168540716, 'learning_rate': 7.463819787736016e-07, 'epoch': 4.9}


 98%|█████████▊| 3870/3935 [34:29<00:34,  1.89it/s]

{'loss': 0.0002, 'grad_norm': 0.0008491158368997276, 'learning_rate': 6.46864381603788e-07, 'epoch': 4.92}


 99%|█████████▊| 3880/3935 [34:35<00:29,  1.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0009593571885488927, 'learning_rate': 5.473467844339745e-07, 'epoch': 4.93}


 99%|█████████▉| 3890/3935 [34:40<00:24,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0016896284651011229, 'learning_rate': 4.478291872641609e-07, 'epoch': 4.94}


 99%|█████████▉| 3900/3935 [34:45<00:18,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.001045460463501513, 'learning_rate': 3.483115900943474e-07, 'epoch': 4.96}


 99%|█████████▉| 3910/3935 [34:51<00:13,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0017102350248023868, 'learning_rate': 2.4879399292453384e-07, 'epoch': 4.97}


100%|█████████▉| 3920/3935 [34:56<00:07,  1.90it/s]

{'loss': 0.0001, 'grad_norm': 0.0010480493074283004, 'learning_rate': 1.4927639575472033e-07, 'epoch': 4.98}


100%|█████████▉| 3930/3935 [35:01<00:02,  1.89it/s]

{'loss': 0.0319, 'grad_norm': 0.0015444695018231869, 'learning_rate': 4.9758798584906774e-08, 'epoch': 4.99}


                                                   
100%|██████████| 3935/3935 [36:04<00:00,  2.15it/s]

{'eval_loss': 0.0034480493050068617, 'eval_accuracy': 0.9992736517159978, 'eval_f1': 0.9992718842836309, 'eval_runtime': 24.1591, 'eval_samples_per_second': 227.947, 'eval_steps_per_second': 28.519, 'epoch': 5.0}


100%|██████████| 3935/3935 [36:40<00:00,  1.79it/s]


{'train_runtime': 2200.6467, 'train_samples_per_second': 50.04, 'train_steps_per_second': 1.788, 'train_loss': 0.02589969400081575, 'epoch': 5.0}


100%|██████████| 689/689 [00:24<00:00, 27.86it/s]
  0%|          | 10/2874 [00:02<12:05,  3.95it/s]

{'loss': 0.0001, 'grad_norm': 0.00032410016865469515, 'learning_rate': 7.010322356181662e-05, 'epoch': 0.01}


  1%|          | 20/2874 [00:05<12:12,  3.90it/s]

{'loss': 0.0, 'grad_norm': 0.000944610801525414, 'learning_rate': 6.985844973653094e-05, 'epoch': 0.02}


  1%|          | 30/2874 [00:07<12:33,  3.77it/s]

{'loss': 0.1096, 'grad_norm': 31.84856605529785, 'learning_rate': 6.961367591124527e-05, 'epoch': 0.03}


  1%|▏         | 40/2874 [00:10<12:45,  3.70it/s]

{'loss': 0.0695, 'grad_norm': 1.6533490419387817, 'learning_rate': 6.93689020859596e-05, 'epoch': 0.04}


  2%|▏         | 50/2874 [00:13<12:42,  3.70it/s]

{'loss': 0.1574, 'grad_norm': 65.39058685302734, 'learning_rate': 6.912412826067393e-05, 'epoch': 0.05}


  2%|▏         | 60/2874 [00:15<12:42,  3.69it/s]

{'loss': 0.0003, 'grad_norm': 0.0343969501554966, 'learning_rate': 6.887935443538825e-05, 'epoch': 0.06}


  2%|▏         | 70/2874 [00:18<14:04,  3.32it/s]

{'loss': 0.1022, 'grad_norm': 2.848886251449585, 'learning_rate': 6.863458061010259e-05, 'epoch': 0.07}


  3%|▎         | 80/2874 [00:21<13:45,  3.39it/s]

{'loss': 0.2551, 'grad_norm': 99.17884826660156, 'learning_rate': 6.838980678481692e-05, 'epoch': 0.08}


  3%|▎         | 90/2874 [00:24<13:51,  3.35it/s]

{'loss': 0.0255, 'grad_norm': 6.67486047744751, 'learning_rate': 6.814503295953124e-05, 'epoch': 0.09}


  3%|▎         | 100/2874 [00:28<14:27,  3.20it/s]

{'loss': 0.1447, 'grad_norm': 17.69721221923828, 'learning_rate': 6.790025913424557e-05, 'epoch': 0.1}


  4%|▍         | 110/2874 [00:31<18:35,  2.48it/s]

{'loss': 0.0857, 'grad_norm': 1.4901283979415894, 'learning_rate': 6.765548530895989e-05, 'epoch': 0.11}


  4%|▍         | 120/2874 [00:35<16:36,  2.76it/s]

{'loss': 0.2007, 'grad_norm': 30.519229888916016, 'learning_rate': 6.741071148367423e-05, 'epoch': 0.13}


  5%|▍         | 130/2874 [00:38<16:24,  2.79it/s]

{'loss': 0.0513, 'grad_norm': 0.02282191812992096, 'learning_rate': 6.716593765838855e-05, 'epoch': 0.14}


  5%|▍         | 140/2874 [00:42<16:26,  2.77it/s]

{'loss': 0.034, 'grad_norm': 2.806647300720215, 'learning_rate': 6.692116383310288e-05, 'epoch': 0.15}


  5%|▌         | 150/2874 [00:46<16:22,  2.77it/s]

{'loss': 0.0005, 'grad_norm': 0.004611806944012642, 'learning_rate': 6.66763900078172e-05, 'epoch': 0.16}


  6%|▌         | 160/2874 [00:49<16:27,  2.75it/s]

{'loss': 0.0053, 'grad_norm': 41.55488967895508, 'learning_rate': 6.643161618253153e-05, 'epoch': 0.17}


  6%|▌         | 170/2874 [00:53<21:09,  2.13it/s]

{'loss': 0.1577, 'grad_norm': 76.65594482421875, 'learning_rate': 6.618684235724585e-05, 'epoch': 0.18}


  6%|▋         | 180/2874 [00:58<19:30,  2.30it/s]

{'loss': 0.0519, 'grad_norm': 0.02303888089954853, 'learning_rate': 6.594206853196019e-05, 'epoch': 0.19}


  7%|▋         | 190/2874 [01:02<19:24,  2.30it/s]

{'loss': 0.0703, 'grad_norm': 105.38622283935547, 'learning_rate': 6.569729470667451e-05, 'epoch': 0.2}


  7%|▋         | 200/2874 [01:06<16:24,  2.72it/s]

{'loss': 0.1502, 'grad_norm': 57.270103454589844, 'learning_rate': 6.545252088138884e-05, 'epoch': 0.21}


  7%|▋         | 210/2874 [01:10<17:37,  2.52it/s]

{'loss': 0.051, 'grad_norm': 3.8474297523498535, 'learning_rate': 6.520774705610318e-05, 'epoch': 0.22}


  8%|▊         | 220/2874 [01:14<18:32,  2.39it/s]

{'loss': 0.0333, 'grad_norm': 0.02774553745985031, 'learning_rate': 6.49629732308175e-05, 'epoch': 0.23}


  8%|▊         | 230/2874 [01:18<18:20,  2.40it/s]

{'loss': 0.0845, 'grad_norm': 58.761199951171875, 'learning_rate': 6.471819940553183e-05, 'epoch': 0.24}


  8%|▊         | 240/2874 [01:22<18:17,  2.40it/s]

{'loss': 0.1277, 'grad_norm': 9.571819305419922, 'learning_rate': 6.447342558024615e-05, 'epoch': 0.25}


  9%|▊         | 250/2874 [01:26<18:17,  2.39it/s]

{'loss': 0.2531, 'grad_norm': 0.004344346933066845, 'learning_rate': 6.422865175496048e-05, 'epoch': 0.26}


  9%|▉         | 260/2874 [01:30<18:14,  2.39it/s]

{'loss': 0.153, 'grad_norm': 18.864967346191406, 'learning_rate': 6.39838779296748e-05, 'epoch': 0.27}


  9%|▉         | 270/2874 [01:35<18:18,  2.37it/s]

{'loss': 0.1039, 'grad_norm': 0.8174803256988525, 'learning_rate': 6.373910410438914e-05, 'epoch': 0.28}


 10%|▉         | 280/2874 [01:39<18:10,  2.38it/s]

{'loss': 0.0538, 'grad_norm': 0.003487388137727976, 'learning_rate': 6.349433027910346e-05, 'epoch': 0.29}


 10%|█         | 290/2874 [01:43<18:06,  2.38it/s]

{'loss': 0.0497, 'grad_norm': 31.983837127685547, 'learning_rate': 6.324955645381779e-05, 'epoch': 0.3}


 10%|█         | 300/2874 [01:47<18:04,  2.37it/s]

{'loss': 0.1206, 'grad_norm': 0.0022134610917419195, 'learning_rate': 6.300478262853211e-05, 'epoch': 0.31}


 11%|█         | 310/2874 [01:51<17:54,  2.39it/s]

{'loss': 0.0839, 'grad_norm': 20.711641311645508, 'learning_rate': 6.276000880324645e-05, 'epoch': 0.32}


 11%|█         | 320/2874 [01:56<17:45,  2.40it/s]

{'loss': 0.0373, 'grad_norm': 0.021890662610530853, 'learning_rate': 6.251523497796078e-05, 'epoch': 0.33}


 11%|█▏        | 330/2874 [02:00<17:49,  2.38it/s]

{'loss': 0.0469, 'grad_norm': 0.008796271868050098, 'learning_rate': 6.22704611526751e-05, 'epoch': 0.34}


 12%|█▏        | 340/2874 [02:05<18:34,  2.27it/s]

{'loss': 0.122, 'grad_norm': 6.327051162719727, 'learning_rate': 6.202568732738942e-05, 'epoch': 0.35}


 12%|█▏        | 350/2874 [02:09<19:20,  2.17it/s]

{'loss': 0.0238, 'grad_norm': 0.023060210049152374, 'learning_rate': 6.178091350210375e-05, 'epoch': 0.37}


 13%|█▎        | 360/2874 [02:14<19:21,  2.16it/s]

{'loss': 0.236, 'grad_norm': 0.036680299788713455, 'learning_rate': 6.153613967681809e-05, 'epoch': 0.38}


 13%|█▎        | 370/2874 [02:18<19:13,  2.17it/s]

{'loss': 0.0665, 'grad_norm': 16.732318878173828, 'learning_rate': 6.129136585153241e-05, 'epoch': 0.39}


 13%|█▎        | 380/2874 [02:23<16:47,  2.48it/s]

{'loss': 0.0865, 'grad_norm': 0.01470413338392973, 'learning_rate': 6.104659202624674e-05, 'epoch': 0.4}


 14%|█▎        | 390/2874 [02:27<16:26,  2.52it/s]

{'loss': 0.0921, 'grad_norm': 0.05915403366088867, 'learning_rate': 6.080181820096106e-05, 'epoch': 0.41}


 14%|█▍        | 400/2874 [02:31<16:29,  2.50it/s]

{'loss': 0.0655, 'grad_norm': 0.013454997912049294, 'learning_rate': 6.0557044375675385e-05, 'epoch': 0.42}


 14%|█▍        | 410/2874 [02:35<16:30,  2.49it/s]

{'loss': 0.0519, 'grad_norm': 0.16403847932815552, 'learning_rate': 6.031227055038972e-05, 'epoch': 0.43}


 15%|█▍        | 420/2874 [02:40<21:29,  1.90it/s]

{'loss': 0.0276, 'grad_norm': 0.004407926462590694, 'learning_rate': 6.006749672510404e-05, 'epoch': 0.44}


 15%|█▍        | 430/2874 [02:44<16:43,  2.43it/s]

{'loss': 0.0733, 'grad_norm': 1.3373792171478271, 'learning_rate': 5.982272289981838e-05, 'epoch': 0.45}


 15%|█▌        | 440/2874 [02:48<16:17,  2.49it/s]

{'loss': 0.0438, 'grad_norm': 0.010655003599822521, 'learning_rate': 5.9577949074532704e-05, 'epoch': 0.46}


 16%|█▌        | 450/2874 [02:52<17:18,  2.34it/s]

{'loss': 0.0698, 'grad_norm': 0.014294307678937912, 'learning_rate': 5.933317524924703e-05, 'epoch': 0.47}


 16%|█▌        | 460/2874 [02:57<17:25,  2.31it/s]

{'loss': 0.0374, 'grad_norm': 0.128030925989151, 'learning_rate': 5.908840142396136e-05, 'epoch': 0.48}


 16%|█▋        | 470/2874 [03:01<17:27,  2.29it/s]

{'loss': 0.0522, 'grad_norm': 34.04656219482422, 'learning_rate': 5.8843627598675685e-05, 'epoch': 0.49}


 17%|█▋        | 480/2874 [03:05<17:34,  2.27it/s]

{'loss': 0.0747, 'grad_norm': 0.48290637135505676, 'learning_rate': 5.859885377339001e-05, 'epoch': 0.5}


 17%|█▋        | 490/2874 [03:10<17:36,  2.26it/s]

{'loss': 0.0939, 'grad_norm': 0.7025094032287598, 'learning_rate': 5.835407994810434e-05, 'epoch': 0.51}


 17%|█▋        | 500/2874 [03:14<17:19,  2.28it/s]

{'loss': 0.0411, 'grad_norm': 0.0036218073219060898, 'learning_rate': 5.8109306122818665e-05, 'epoch': 0.52}


 18%|█▊        | 510/2874 [03:19<17:08,  2.30it/s]

{'loss': 0.0254, 'grad_norm': 0.008452515117824078, 'learning_rate': 5.786453229753299e-05, 'epoch': 0.53}


 18%|█▊        | 520/2874 [03:23<17:16,  2.27it/s]

{'loss': 0.0489, 'grad_norm': 0.3734793961048126, 'learning_rate': 5.761975847224732e-05, 'epoch': 0.54}


 18%|█▊        | 530/2874 [03:27<17:05,  2.29it/s]

{'loss': 0.166, 'grad_norm': 53.54970169067383, 'learning_rate': 5.7374984646961646e-05, 'epoch': 0.55}


 19%|█▉        | 540/2874 [03:32<16:59,  2.29it/s]

{'loss': 0.0524, 'grad_norm': 0.019261088222265244, 'learning_rate': 5.713021082167597e-05, 'epoch': 0.56}


 19%|█▉        | 550/2874 [03:36<17:05,  2.27it/s]

{'loss': 0.0467, 'grad_norm': 0.02836240641772747, 'learning_rate': 5.688543699639031e-05, 'epoch': 0.57}


 19%|█▉        | 560/2874 [03:40<16:48,  2.29it/s]

{'loss': 0.0949, 'grad_norm': 0.8638212084770203, 'learning_rate': 5.664066317110463e-05, 'epoch': 0.58}


 20%|█▉        | 570/2874 [03:45<16:45,  2.29it/s]

{'loss': 0.0019, 'grad_norm': 0.010357709601521492, 'learning_rate': 5.639588934581896e-05, 'epoch': 0.59}


 20%|██        | 580/2874 [03:49<16:37,  2.30it/s]

{'loss': 0.0572, 'grad_norm': 0.008211699314415455, 'learning_rate': 5.615111552053329e-05, 'epoch': 0.61}


 21%|██        | 590/2874 [03:53<16:34,  2.30it/s]

{'loss': 0.0196, 'grad_norm': 22.9725399017334, 'learning_rate': 5.5906341695247614e-05, 'epoch': 0.62}


 21%|██        | 600/2874 [03:58<16:34,  2.29it/s]

{'loss': 0.0032, 'grad_norm': 0.003470076946541667, 'learning_rate': 5.566156786996194e-05, 'epoch': 0.63}


 21%|██        | 610/2874 [04:02<16:34,  2.28it/s]

{'loss': 0.0543, 'grad_norm': 62.15576934814453, 'learning_rate': 5.541679404467627e-05, 'epoch': 0.64}


 22%|██▏       | 620/2874 [04:07<16:18,  2.30it/s]

{'loss': 0.1005, 'grad_norm': 5.576879501342773, 'learning_rate': 5.5172020219390594e-05, 'epoch': 0.65}


 22%|██▏       | 630/2874 [04:11<16:08,  2.32it/s]

{'loss': 0.0587, 'grad_norm': 0.6292999386787415, 'learning_rate': 5.492724639410492e-05, 'epoch': 0.66}


 22%|██▏       | 640/2874 [04:15<16:08,  2.31it/s]

{'loss': 0.0402, 'grad_norm': 0.004130445886403322, 'learning_rate': 5.468247256881925e-05, 'epoch': 0.67}


 23%|██▎       | 650/2874 [04:20<16:12,  2.29it/s]

{'loss': 0.0004, 'grad_norm': 0.03188902884721756, 'learning_rate': 5.4437698743533575e-05, 'epoch': 0.68}


 23%|██▎       | 660/2874 [04:24<16:02,  2.30it/s]

{'loss': 0.012, 'grad_norm': 0.007240757811814547, 'learning_rate': 5.41929249182479e-05, 'epoch': 0.69}


 23%|██▎       | 670/2874 [04:28<16:01,  2.29it/s]

{'loss': 0.0283, 'grad_norm': 0.00425080256536603, 'learning_rate': 5.394815109296224e-05, 'epoch': 0.7}


 24%|██▎       | 680/2874 [04:33<15:49,  2.31it/s]

{'loss': 0.0141, 'grad_norm': 63.46043395996094, 'learning_rate': 5.370337726767656e-05, 'epoch': 0.71}


 24%|██▍       | 690/2874 [04:38<18:32,  1.96it/s]

{'loss': 0.0014, 'grad_norm': 0.5427695512771606, 'learning_rate': 5.345860344239089e-05, 'epoch': 0.72}


 24%|██▍       | 700/2874 [04:43<18:17,  1.98it/s]

{'loss': 0.0002, 'grad_norm': 0.004838211927562952, 'learning_rate': 5.321382961710522e-05, 'epoch': 0.73}


 25%|██▍       | 710/2874 [04:48<14:57,  2.41it/s]

{'loss': 0.0398, 'grad_norm': 23.90420913696289, 'learning_rate': 5.296905579181954e-05, 'epoch': 0.74}


 25%|██▌       | 720/2874 [04:52<14:37,  2.45it/s]

{'loss': 0.0364, 'grad_norm': 23.12987518310547, 'learning_rate': 5.272428196653387e-05, 'epoch': 0.75}


 25%|██▌       | 730/2874 [04:56<14:41,  2.43it/s]

{'loss': 0.0192, 'grad_norm': 0.001977868378162384, 'learning_rate': 5.24795081412482e-05, 'epoch': 0.76}


 26%|██▌       | 740/2874 [05:00<14:41,  2.42it/s]

{'loss': 0.012, 'grad_norm': 50.603458404541016, 'learning_rate': 5.223473431596252e-05, 'epoch': 0.77}


 26%|██▌       | 750/2874 [05:04<14:35,  2.42it/s]

{'loss': 0.0001, 'grad_norm': 0.00242721289396286, 'learning_rate': 5.198996049067685e-05, 'epoch': 0.78}


 26%|██▋       | 760/2874 [05:08<14:28,  2.43it/s]

{'loss': 0.0383, 'grad_norm': 0.0020112325437366962, 'learning_rate': 5.174518666539118e-05, 'epoch': 0.79}


 27%|██▋       | 770/2874 [05:13<14:52,  2.36it/s]

{'loss': 0.0012, 'grad_norm': 0.002529123332351446, 'learning_rate': 5.1500412840105504e-05, 'epoch': 0.8}


 27%|██▋       | 780/2874 [05:18<18:26,  1.89it/s]

{'loss': 0.0573, 'grad_norm': 0.014369507320225239, 'learning_rate': 5.125563901481983e-05, 'epoch': 0.81}


 27%|██▋       | 790/2874 [05:23<16:27,  2.11it/s]

{'loss': 0.0625, 'grad_norm': 0.0027154837734997272, 'learning_rate': 5.1010865189534167e-05, 'epoch': 0.82}


 28%|██▊       | 800/2874 [05:27<16:06,  2.15it/s]

{'loss': 0.0442, 'grad_norm': 0.35286077857017517, 'learning_rate': 5.076609136424849e-05, 'epoch': 0.84}


 28%|██▊       | 810/2874 [05:32<15:54,  2.16it/s]

{'loss': 0.0216, 'grad_norm': 40.06692886352539, 'learning_rate': 5.0521317538962816e-05, 'epoch': 0.85}


 29%|██▊       | 820/2874 [05:37<15:54,  2.15it/s]

{'loss': 0.0012, 'grad_norm': 0.0036650809925049543, 'learning_rate': 5.027654371367715e-05, 'epoch': 0.86}


 29%|██▉       | 830/2874 [05:41<15:53,  2.14it/s]

{'loss': 0.007, 'grad_norm': 0.002245382172986865, 'learning_rate': 5.003176988839147e-05, 'epoch': 0.87}


 29%|██▉       | 840/2874 [05:46<15:51,  2.14it/s]

{'loss': 0.0075, 'grad_norm': 0.003398140659555793, 'learning_rate': 4.9786996063105796e-05, 'epoch': 0.88}


 30%|██▉       | 850/2874 [05:51<15:21,  2.20it/s]

{'loss': 0.0002, 'grad_norm': 0.001574940513819456, 'learning_rate': 4.954222223782013e-05, 'epoch': 0.89}


 30%|██▉       | 860/2874 [05:55<15:27,  2.17it/s]

{'loss': 0.0306, 'grad_norm': 28.954944610595703, 'learning_rate': 4.929744841253445e-05, 'epoch': 0.9}


 30%|███       | 870/2874 [05:59<12:50,  2.60it/s]

{'loss': 0.0422, 'grad_norm': 0.001195177435874939, 'learning_rate': 4.905267458724878e-05, 'epoch': 0.91}


 31%|███       | 880/2874 [06:03<13:00,  2.55it/s]

{'loss': 0.0086, 'grad_norm': 0.01704762503504753, 'learning_rate': 4.880790076196311e-05, 'epoch': 0.92}


 31%|███       | 890/2874 [06:07<14:26,  2.29it/s]

{'loss': 0.0112, 'grad_norm': 0.0034350198693573475, 'learning_rate': 4.856312693667743e-05, 'epoch': 0.93}


 31%|███▏      | 900/2874 [06:12<14:25,  2.28it/s]

{'loss': 0.0638, 'grad_norm': 0.05228697881102562, 'learning_rate': 4.831835311139176e-05, 'epoch': 0.94}


 32%|███▏      | 910/2874 [06:16<14:21,  2.28it/s]

{'loss': 0.0007, 'grad_norm': 0.456457257270813, 'learning_rate': 4.8073579286106096e-05, 'epoch': 0.95}


 32%|███▏      | 920/2874 [06:21<14:14,  2.29it/s]

{'loss': 0.0003, 'grad_norm': 0.0621870756149292, 'learning_rate': 4.782880546082042e-05, 'epoch': 0.96}


 32%|███▏      | 930/2874 [06:25<14:12,  2.28it/s]

{'loss': 0.0541, 'grad_norm': 0.0016964219976216555, 'learning_rate': 4.7584031635534745e-05, 'epoch': 0.97}


 33%|███▎      | 940/2874 [06:29<14:10,  2.27it/s]

{'loss': 0.0003, 'grad_norm': 0.24291126430034637, 'learning_rate': 4.7339257810249076e-05, 'epoch': 0.98}


 33%|███▎      | 950/2874 [06:34<14:00,  2.29it/s]

{'loss': 0.032, 'grad_norm': 0.05670495703816414, 'learning_rate': 4.70944839849634e-05, 'epoch': 0.99}


                                                  
 33%|███▎      | 958/2874 [07:16<12:20,  2.59it/s]

{'eval_loss': 0.012984784319996834, 'eval_accuracy': 0.9976393680769929, 'eval_f1': 0.9976434094061796, 'eval_runtime': 38.1706, 'eval_samples_per_second': 144.274, 'eval_steps_per_second': 18.051, 'epoch': 1.0}


 33%|███▎      | 960/2874 [07:52<8:27:30, 15.91s/it] 

{'loss': 0.0016, 'grad_norm': 0.05111183971166611, 'learning_rate': 4.6849710159677725e-05, 'epoch': 1.0}


 34%|███▍      | 970/2874 [07:54<20:57,  1.51it/s]  

{'loss': 0.0002, 'grad_norm': 0.0019913767464458942, 'learning_rate': 4.660493633439206e-05, 'epoch': 1.01}


 34%|███▍      | 980/2874 [07:56<07:30,  4.20it/s]

{'loss': 0.0002, 'grad_norm': 0.0018506253836676478, 'learning_rate': 4.636016250910638e-05, 'epoch': 1.02}


 34%|███▍      | 990/2874 [07:59<07:21,  4.27it/s]

{'loss': 0.001, 'grad_norm': 0.0011365088867023587, 'learning_rate': 4.6115388683820706e-05, 'epoch': 1.03}


 35%|███▍      | 1000/2874 [08:01<07:37,  4.10it/s]

{'loss': 0.0001, 'grad_norm': 0.021744592115283012, 'learning_rate': 4.587061485853504e-05, 'epoch': 1.04}


 35%|███▌      | 1010/2874 [08:03<07:32,  4.12it/s]

{'loss': 0.0163, 'grad_norm': 0.0012032195227220654, 'learning_rate': 4.562584103324936e-05, 'epoch': 1.05}


 35%|███▌      | 1020/2874 [08:06<07:49,  3.95it/s]

{'loss': 0.0008, 'grad_norm': 0.0012048004427924752, 'learning_rate': 4.5381067207963686e-05, 'epoch': 1.06}


 36%|███▌      | 1030/2874 [08:08<07:41,  3.99it/s]

{'loss': 0.0002, 'grad_norm': 0.40640783309936523, 'learning_rate': 4.5136293382678025e-05, 'epoch': 1.08}


 36%|███▌      | 1040/2874 [08:11<07:38,  4.00it/s]

{'loss': 0.0001, 'grad_norm': 0.0009412639192305505, 'learning_rate': 4.489151955739235e-05, 'epoch': 1.09}


 37%|███▋      | 1050/2874 [08:13<07:56,  3.83it/s]

{'loss': 0.0001, 'grad_norm': 0.0008544014999642968, 'learning_rate': 4.4646745732106674e-05, 'epoch': 1.1}


 37%|███▋      | 1060/2874 [08:16<07:50,  3.86it/s]

{'loss': 0.0001, 'grad_norm': 0.001059024827554822, 'learning_rate': 4.4401971906821005e-05, 'epoch': 1.11}


 37%|███▋      | 1070/2874 [08:19<08:07,  3.70it/s]

{'loss': 0.0147, 'grad_norm': 0.0007209792383946478, 'learning_rate': 4.415719808153533e-05, 'epoch': 1.12}


 38%|███▊      | 1080/2874 [08:22<08:07,  3.68it/s]

{'loss': 0.0001, 'grad_norm': 0.0008423994877375662, 'learning_rate': 4.3912424256249654e-05, 'epoch': 1.13}


 38%|███▊      | 1090/2874 [08:24<08:05,  3.68it/s]

{'loss': 0.0001, 'grad_norm': 0.336330771446228, 'learning_rate': 4.3667650430963986e-05, 'epoch': 1.14}


 38%|███▊      | 1100/2874 [08:28<09:16,  3.19it/s]

{'loss': 0.0001, 'grad_norm': 0.006665121763944626, 'learning_rate': 4.342287660567831e-05, 'epoch': 1.15}


 39%|███▊      | 1110/2874 [08:30<08:20,  3.53it/s]

{'loss': 0.0203, 'grad_norm': 0.0009465481271035969, 'learning_rate': 4.3178102780392635e-05, 'epoch': 1.16}


 39%|███▉      | 1120/2874 [08:34<10:10,  2.87it/s]

{'loss': 0.0002, 'grad_norm': 0.0015801461413502693, 'learning_rate': 4.2933328955106966e-05, 'epoch': 1.17}


 39%|███▉      | 1130/2874 [08:37<09:10,  3.17it/s]

{'loss': 0.0728, 'grad_norm': 0.0007498651975765824, 'learning_rate': 4.268855512982129e-05, 'epoch': 1.18}


 40%|███▉      | 1140/2874 [08:40<10:04,  2.87it/s]

{'loss': 0.0014, 'grad_norm': 0.000679482298437506, 'learning_rate': 4.2443781304535615e-05, 'epoch': 1.19}


 40%|████      | 1150/2874 [08:44<11:12,  2.56it/s]

{'loss': 0.0019, 'grad_norm': 0.0026613289956003428, 'learning_rate': 4.2199007479249954e-05, 'epoch': 1.2}


 40%|████      | 1160/2874 [08:48<11:17,  2.53it/s]

{'loss': 0.058, 'grad_norm': 0.0011805285466834903, 'learning_rate': 4.195423365396428e-05, 'epoch': 1.21}


 41%|████      | 1170/2874 [08:52<11:10,  2.54it/s]

{'loss': 0.0081, 'grad_norm': 0.009584875777363777, 'learning_rate': 4.170945982867861e-05, 'epoch': 1.22}


 41%|████      | 1180/2874 [08:56<11:03,  2.55it/s]

{'loss': 0.0071, 'grad_norm': 0.0019903783686459064, 'learning_rate': 4.1464686003392934e-05, 'epoch': 1.23}


 41%|████▏     | 1190/2874 [09:00<11:01,  2.55it/s]

{'loss': 0.0001, 'grad_norm': 0.03502867743372917, 'learning_rate': 4.121991217810726e-05, 'epoch': 1.24}


 42%|████▏     | 1200/2874 [09:04<10:53,  2.56it/s]

{'loss': 0.0001, 'grad_norm': 0.0009342186385765672, 'learning_rate': 4.097513835282159e-05, 'epoch': 1.25}


 42%|████▏     | 1210/2874 [09:08<10:54,  2.54it/s]

{'loss': 0.0001, 'grad_norm': 0.001064387382939458, 'learning_rate': 4.0730364527535915e-05, 'epoch': 1.26}


 42%|████▏     | 1220/2874 [09:12<13:13,  2.08it/s]

{'loss': 0.0001, 'grad_norm': 0.0015372235793620348, 'learning_rate': 4.048559070225024e-05, 'epoch': 1.27}


 43%|████▎     | 1230/2874 [09:16<11:02,  2.48it/s]

{'loss': 0.0223, 'grad_norm': 0.007002972532063723, 'learning_rate': 4.0240816876964564e-05, 'epoch': 1.28}


 43%|████▎     | 1240/2874 [09:20<10:56,  2.49it/s]

{'loss': 0.0001, 'grad_norm': 0.0012845917372033, 'learning_rate': 3.9996043051678895e-05, 'epoch': 1.29}


 43%|████▎     | 1250/2874 [09:24<10:58,  2.47it/s]

{'loss': 0.0001, 'grad_norm': 0.001149177784100175, 'learning_rate': 3.975126922639322e-05, 'epoch': 1.3}


 44%|████▍     | 1260/2874 [09:28<10:51,  2.48it/s]

{'loss': 0.0001, 'grad_norm': 0.3951244354248047, 'learning_rate': 3.9506495401107544e-05, 'epoch': 1.32}


 44%|████▍     | 1270/2874 [09:33<13:33,  1.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0008325880626216531, 'learning_rate': 3.926172157582188e-05, 'epoch': 1.33}


 45%|████▍     | 1280/2874 [09:37<10:09,  2.61it/s]

{'loss': 0.0003, 'grad_norm': 0.0006288723088800907, 'learning_rate': 3.901694775053621e-05, 'epoch': 1.34}


 45%|████▍     | 1290/2874 [09:41<11:14,  2.35it/s]

{'loss': 0.0001, 'grad_norm': 0.0009762335103005171, 'learning_rate': 3.877217392525054e-05, 'epoch': 1.35}


 45%|████▌     | 1300/2874 [09:46<11:11,  2.34it/s]

{'loss': 0.0012, 'grad_norm': 0.000543830799870193, 'learning_rate': 3.852740009996486e-05, 'epoch': 1.36}


 46%|████▌     | 1310/2874 [09:50<11:12,  2.33it/s]

{'loss': 0.0001, 'grad_norm': 0.0006557896849699318, 'learning_rate': 3.828262627467919e-05, 'epoch': 1.37}


 46%|████▌     | 1320/2874 [09:54<10:55,  2.37it/s]

{'loss': 0.0498, 'grad_norm': 0.0006994351278990507, 'learning_rate': 3.803785244939352e-05, 'epoch': 1.38}


 46%|████▋     | 1330/2874 [09:59<10:56,  2.35it/s]

{'loss': 0.0012, 'grad_norm': 0.005962098017334938, 'learning_rate': 3.7793078624107844e-05, 'epoch': 1.39}


 47%|████▋     | 1340/2874 [10:03<10:58,  2.33it/s]

{'loss': 0.0001, 'grad_norm': 0.0016588307917118073, 'learning_rate': 3.754830479882217e-05, 'epoch': 1.4}


 47%|████▋     | 1350/2874 [10:07<10:49,  2.34it/s]

{'loss': 0.0001, 'grad_norm': 0.0028579700738191605, 'learning_rate': 3.73035309735365e-05, 'epoch': 1.41}


 47%|████▋     | 1360/2874 [10:11<10:46,  2.34it/s]

{'loss': 0.0001, 'grad_norm': 0.0011866390705108643, 'learning_rate': 3.7058757148250824e-05, 'epoch': 1.42}


 48%|████▊     | 1370/2874 [10:16<10:40,  2.35it/s]

{'loss': 0.0045, 'grad_norm': 0.0010971645824611187, 'learning_rate': 3.681398332296515e-05, 'epoch': 1.43}


 48%|████▊     | 1380/2874 [10:20<10:35,  2.35it/s]

{'loss': 0.015, 'grad_norm': 0.0013595258351415396, 'learning_rate': 3.656920949767948e-05, 'epoch': 1.44}


 48%|████▊     | 1390/2874 [10:24<10:33,  2.34it/s]

{'loss': 0.028, 'grad_norm': 0.0009065248887054622, 'learning_rate': 3.632443567239381e-05, 'epoch': 1.45}


 49%|████▊     | 1400/2874 [10:28<10:32,  2.33it/s]

{'loss': 0.0117, 'grad_norm': 49.2398681640625, 'learning_rate': 3.6079661847108136e-05, 'epoch': 1.46}


 49%|████▉     | 1410/2874 [10:33<10:28,  2.33it/s]

{'loss': 0.045, 'grad_norm': 0.0011347697582095861, 'learning_rate': 3.583488802182247e-05, 'epoch': 1.47}


 49%|████▉     | 1420/2874 [10:37<10:23,  2.33it/s]

{'loss': 0.0009, 'grad_norm': 0.002430085791274905, 'learning_rate': 3.559011419653679e-05, 'epoch': 1.48}


 50%|████▉     | 1430/2874 [10:41<10:20,  2.33it/s]

{'loss': 0.0544, 'grad_norm': 0.00557983573526144, 'learning_rate': 3.534534037125112e-05, 'epoch': 1.49}


 50%|█████     | 1440/2874 [10:46<10:15,  2.33it/s]

{'loss': 0.0482, 'grad_norm': 0.05771305039525032, 'learning_rate': 3.510056654596545e-05, 'epoch': 1.5}


 50%|█████     | 1450/2874 [10:50<10:10,  2.33it/s]

{'loss': 0.0004, 'grad_norm': 0.005370808765292168, 'learning_rate': 3.485579272067977e-05, 'epoch': 1.51}


 51%|█████     | 1460/2874 [10:54<10:09,  2.32it/s]

{'loss': 0.0002, 'grad_norm': 0.003931077662855387, 'learning_rate': 3.46110188953941e-05, 'epoch': 1.52}


 51%|█████     | 1470/2874 [10:59<10:16,  2.28it/s]

{'loss': 0.0085, 'grad_norm': 0.0031982676591724157, 'learning_rate': 3.436624507010843e-05, 'epoch': 1.53}


 51%|█████▏    | 1480/2874 [11:04<11:35,  2.00it/s]

{'loss': 0.0001, 'grad_norm': 0.006460114847868681, 'learning_rate': 3.412147124482275e-05, 'epoch': 1.54}


 52%|█████▏    | 1490/2874 [11:09<11:25,  2.02it/s]

{'loss': 0.0006, 'grad_norm': 0.0012622582726180553, 'learning_rate': 3.3876697419537085e-05, 'epoch': 1.56}


 52%|█████▏    | 1500/2874 [11:14<09:54,  2.31it/s]

{'loss': 0.0001, 'grad_norm': 0.0017854508478194475, 'learning_rate': 3.363192359425141e-05, 'epoch': 1.57}


 53%|█████▎    | 1510/2874 [11:18<13:38,  1.67it/s]

{'loss': 0.0142, 'grad_norm': 1.461063027381897, 'learning_rate': 3.3387149768965734e-05, 'epoch': 1.58}


 53%|█████▎    | 1520/2874 [11:23<11:03,  2.04it/s]

{'loss': 0.0001, 'grad_norm': 0.018106454983353615, 'learning_rate': 3.3142375943680065e-05, 'epoch': 1.59}


 53%|█████▎    | 1530/2874 [11:27<09:22,  2.39it/s]

{'loss': 0.0293, 'grad_norm': 0.0019577229395508766, 'learning_rate': 3.289760211839439e-05, 'epoch': 1.6}


 54%|█████▎    | 1540/2874 [11:31<09:18,  2.39it/s]

{'loss': 0.0793, 'grad_norm': 0.0014091669581830502, 'learning_rate': 3.265282829310872e-05, 'epoch': 1.61}


 54%|█████▍    | 1550/2874 [11:36<09:14,  2.39it/s]

{'loss': 0.0001, 'grad_norm': 0.0019347991328686476, 'learning_rate': 3.2408054467823046e-05, 'epoch': 1.62}


 54%|█████▍    | 1560/2874 [11:40<09:07,  2.40it/s]

{'loss': 0.0004, 'grad_norm': 0.0009494732948951423, 'learning_rate': 3.216328064253738e-05, 'epoch': 1.63}


 55%|█████▍    | 1570/2874 [11:44<09:06,  2.38it/s]

{'loss': 0.0464, 'grad_norm': 0.0548115000128746, 'learning_rate': 3.19185068172517e-05, 'epoch': 1.64}


 55%|█████▍    | 1580/2874 [11:48<09:03,  2.38it/s]

{'loss': 0.0011, 'grad_norm': 0.0059881508350372314, 'learning_rate': 3.1673732991966026e-05, 'epoch': 1.65}


 55%|█████▌    | 1590/2874 [11:53<09:11,  2.33it/s]

{'loss': 0.0002, 'grad_norm': 0.003890524385496974, 'learning_rate': 3.142895916668036e-05, 'epoch': 1.66}


 56%|█████▌    | 1600/2874 [11:57<09:01,  2.35it/s]

{'loss': 0.0335, 'grad_norm': 0.003441742854192853, 'learning_rate': 3.118418534139468e-05, 'epoch': 1.67}


 56%|█████▌    | 1610/2874 [12:02<14:16,  1.48it/s]

{'loss': 0.0481, 'grad_norm': 0.006515008397400379, 'learning_rate': 3.0939411516109014e-05, 'epoch': 1.68}


 56%|█████▋    | 1620/2874 [12:06<09:42,  2.15it/s]

{'loss': 0.0406, 'grad_norm': 0.011125101707875729, 'learning_rate': 3.069463769082334e-05, 'epoch': 1.69}


 57%|█████▋    | 1630/2874 [12:11<09:19,  2.22it/s]

{'loss': 0.0003, 'grad_norm': 0.0013998296344652772, 'learning_rate': 3.0449863865537666e-05, 'epoch': 1.7}


 57%|█████▋    | 1640/2874 [12:15<09:11,  2.24it/s]

{'loss': 0.0084, 'grad_norm': 0.002513562561944127, 'learning_rate': 3.0205090040251994e-05, 'epoch': 1.71}


 57%|█████▋    | 1650/2874 [12:20<09:06,  2.24it/s]

{'loss': 0.0008, 'grad_norm': 0.0011320520425215364, 'learning_rate': 2.996031621496632e-05, 'epoch': 1.72}


 58%|█████▊    | 1660/2874 [12:24<08:58,  2.25it/s]

{'loss': 0.0003, 'grad_norm': 0.0009393232176080346, 'learning_rate': 2.9715542389680647e-05, 'epoch': 1.73}


 58%|█████▊    | 1670/2874 [12:29<08:58,  2.24it/s]

{'loss': 0.0387, 'grad_norm': 0.0013689115876331925, 'learning_rate': 2.9470768564394978e-05, 'epoch': 1.74}


 58%|█████▊    | 1680/2874 [12:33<08:56,  2.23it/s]

{'loss': 0.0001, 'grad_norm': 0.0012034783139824867, 'learning_rate': 2.9225994739109303e-05, 'epoch': 1.75}


 59%|█████▉    | 1690/2874 [12:38<08:49,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0031740604899823666, 'learning_rate': 2.898122091382363e-05, 'epoch': 1.76}


 59%|█████▉    | 1700/2874 [12:42<08:46,  2.23it/s]

{'loss': 0.0001, 'grad_norm': 0.002201854484155774, 'learning_rate': 2.873644708853796e-05, 'epoch': 1.77}


 59%|█████▉    | 1710/2874 [12:47<08:38,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.05527377873659134, 'learning_rate': 2.8491673263252283e-05, 'epoch': 1.78}


 60%|█████▉    | 1720/2874 [12:51<08:36,  2.24it/s]

{'loss': 0.0069, 'grad_norm': 0.000908386951778084, 'learning_rate': 2.824689943796661e-05, 'epoch': 1.8}


 60%|██████    | 1730/2874 [12:56<08:29,  2.25it/s]

{'loss': 0.0001, 'grad_norm': 0.1617947518825531, 'learning_rate': 2.8002125612680943e-05, 'epoch': 1.81}


 61%|██████    | 1740/2874 [13:00<08:30,  2.22it/s]

{'loss': 0.0001, 'grad_norm': 0.0010163404513150454, 'learning_rate': 2.7757351787395267e-05, 'epoch': 1.82}


 61%|██████    | 1750/2874 [13:05<08:23,  2.23it/s]

{'loss': 0.0001, 'grad_norm': 0.0009665496181696653, 'learning_rate': 2.7512577962109595e-05, 'epoch': 1.83}


 61%|██████    | 1760/2874 [13:09<08:19,  2.23it/s]

{'loss': 0.0001, 'grad_norm': 0.0014179663266986609, 'learning_rate': 2.7267804136823923e-05, 'epoch': 1.84}


 62%|██████▏   | 1770/2874 [13:13<08:08,  2.26it/s]

{'loss': 0.0001, 'grad_norm': 0.009211807511746883, 'learning_rate': 2.7023030311538248e-05, 'epoch': 1.85}


 62%|██████▏   | 1780/2874 [13:18<08:07,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0009992904961109161, 'learning_rate': 2.6778256486252576e-05, 'epoch': 1.86}


 62%|██████▏   | 1790/2874 [13:22<08:03,  2.24it/s]

{'loss': 0.0117, 'grad_norm': 0.0007508121198043227, 'learning_rate': 2.6533482660966907e-05, 'epoch': 1.87}


 63%|██████▎   | 1800/2874 [13:27<07:58,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0012964816996827722, 'learning_rate': 2.6288708835681235e-05, 'epoch': 1.88}


 63%|██████▎   | 1810/2874 [13:31<07:53,  2.25it/s]

{'loss': 0.0401, 'grad_norm': 0.001379490364342928, 'learning_rate': 2.604393501039556e-05, 'epoch': 1.89}


 63%|██████▎   | 1820/2874 [13:36<07:50,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0012867655605077744, 'learning_rate': 2.5799161185109888e-05, 'epoch': 1.9}


 64%|██████▎   | 1830/2874 [13:40<07:44,  2.25it/s]

{'loss': 0.0001, 'grad_norm': 0.0008540727430954576, 'learning_rate': 2.5554387359824212e-05, 'epoch': 1.91}


 64%|██████▍   | 1840/2874 [13:45<07:38,  2.25it/s]

{'loss': 0.0001, 'grad_norm': 0.010249952785670757, 'learning_rate': 2.530961353453854e-05, 'epoch': 1.92}


 64%|██████▍   | 1850/2874 [13:49<07:36,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0010693897493183613, 'learning_rate': 2.506483970925287e-05, 'epoch': 1.93}


 65%|██████▍   | 1860/2874 [13:54<07:32,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0007312606321647763, 'learning_rate': 2.48200658839672e-05, 'epoch': 1.94}


 65%|██████▌   | 1870/2874 [13:58<07:29,  2.23it/s]

{'loss': 0.0013, 'grad_norm': 0.0006825214368291199, 'learning_rate': 2.4575292058681524e-05, 'epoch': 1.95}


 65%|██████▌   | 1880/2874 [14:02<07:23,  2.24it/s]

{'loss': 0.0179, 'grad_norm': 0.0012332441983744502, 'learning_rate': 2.4330518233395852e-05, 'epoch': 1.96}


 66%|██████▌   | 1890/2874 [14:07<07:18,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0006094950949773192, 'learning_rate': 2.408574440811018e-05, 'epoch': 1.97}


 66%|██████▌   | 1900/2874 [14:11<07:15,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0007919125491753221, 'learning_rate': 2.3840970582824505e-05, 'epoch': 1.98}


 66%|██████▋   | 1910/2874 [14:16<07:08,  2.25it/s]

{'loss': 0.0001, 'grad_norm': 0.0007535078912042081, 'learning_rate': 2.3596196757538836e-05, 'epoch': 1.99}


                                                   
 67%|██████▋   | 1916/2874 [14:57<06:18,  2.53it/s]

{'eval_loss': 0.010038389824330807, 'eval_accuracy': 0.998002542218994, 'eval_f1': 0.9980051871051854, 'eval_runtime': 38.5981, 'eval_samples_per_second': 142.676, 'eval_steps_per_second': 17.851, 'epoch': 2.0}


 67%|██████▋   | 1920/2874 [15:34<2:06:26,  7.95s/it]

{'loss': 0.0001, 'grad_norm': 0.0009751737816259265, 'learning_rate': 2.3351422932253164e-05, 'epoch': 2.0}


 67%|██████▋   | 1930/2874 [15:36<06:52,  2.29it/s]  

{'loss': 0.0001, 'grad_norm': 0.0007801337051205337, 'learning_rate': 2.310664910696749e-05, 'epoch': 2.01}


 68%|██████▊   | 1940/2874 [15:38<03:32,  4.39it/s]

{'loss': 0.0001, 'grad_norm': 0.004687181208282709, 'learning_rate': 2.2861875281681817e-05, 'epoch': 2.03}


 68%|██████▊   | 1950/2874 [15:41<03:38,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.23356571793556213, 'learning_rate': 2.2617101456396145e-05, 'epoch': 2.04}


 68%|██████▊   | 1960/2874 [15:43<03:44,  4.08it/s]

{'loss': 0.0001, 'grad_norm': 0.0019203635165467858, 'learning_rate': 2.237232763111047e-05, 'epoch': 2.05}


 69%|██████▊   | 1970/2874 [15:46<03:44,  4.03it/s]

{'loss': 0.0001, 'grad_norm': 0.001773472991771996, 'learning_rate': 2.21275538058248e-05, 'epoch': 2.06}


 69%|██████▉   | 1980/2874 [15:48<03:43,  4.01it/s]

{'loss': 0.0001, 'grad_norm': 0.0007293002563528717, 'learning_rate': 2.188277998053913e-05, 'epoch': 2.07}


 69%|██████▉   | 1990/2874 [15:51<03:41,  3.99it/s]

{'loss': 0.0001, 'grad_norm': 0.0007351437816396356, 'learning_rate': 2.1638006155253453e-05, 'epoch': 2.08}


 70%|██████▉   | 2000/2874 [15:53<03:42,  3.93it/s]

{'loss': 0.0001, 'grad_norm': 0.0009683612152002752, 'learning_rate': 2.139323232996778e-05, 'epoch': 2.09}


 70%|██████▉   | 2010/2874 [15:56<03:45,  3.82it/s]

{'loss': 0.0001, 'grad_norm': 0.0012681257212534547, 'learning_rate': 2.114845850468211e-05, 'epoch': 2.1}


 70%|███████   | 2020/2874 [15:59<03:44,  3.80it/s]

{'loss': 0.0001, 'grad_norm': 0.0008036525687202811, 'learning_rate': 2.0903684679396434e-05, 'epoch': 2.11}


 71%|███████   | 2030/2874 [16:01<03:49,  3.67it/s]

{'loss': 0.0001, 'grad_norm': 0.0008600676665082574, 'learning_rate': 2.0658910854110765e-05, 'epoch': 2.12}


 71%|███████   | 2040/2874 [16:04<03:46,  3.69it/s]

{'loss': 0.0001, 'grad_norm': 0.0008521425188519061, 'learning_rate': 2.0414137028825093e-05, 'epoch': 2.13}


 71%|███████▏  | 2050/2874 [16:07<03:52,  3.54it/s]

{'loss': 0.028, 'grad_norm': 0.6846315860748291, 'learning_rate': 2.0169363203539418e-05, 'epoch': 2.14}


 72%|███████▏  | 2060/2874 [16:10<04:05,  3.32it/s]

{'loss': 0.0003, 'grad_norm': 0.00177940190769732, 'learning_rate': 1.9924589378253746e-05, 'epoch': 2.15}


 72%|███████▏  | 2070/2874 [16:13<04:04,  3.28it/s]

{'loss': 0.0039, 'grad_norm': 0.0008283344795927405, 'learning_rate': 1.9679815552968074e-05, 'epoch': 2.16}


 72%|███████▏  | 2080/2874 [16:16<04:22,  3.03it/s]

{'loss': 0.0001, 'grad_norm': 0.0005923490971326828, 'learning_rate': 1.9435041727682398e-05, 'epoch': 2.17}


 73%|███████▎  | 2090/2874 [16:20<04:46,  2.74it/s]

{'loss': 0.0001, 'grad_norm': 0.0007340929005295038, 'learning_rate': 1.919026790239673e-05, 'epoch': 2.18}


 73%|███████▎  | 2100/2874 [16:23<04:40,  2.76it/s]

{'loss': 0.0001, 'grad_norm': 0.005827729590237141, 'learning_rate': 1.8945494077111058e-05, 'epoch': 2.19}


 73%|███████▎  | 2110/2874 [16:27<04:38,  2.74it/s]

{'loss': 0.0001, 'grad_norm': 0.0005601752200163901, 'learning_rate': 1.8700720251825382e-05, 'epoch': 2.2}


 74%|███████▍  | 2120/2874 [16:31<04:33,  2.76it/s]

{'loss': 0.028, 'grad_norm': 0.0005311552085913718, 'learning_rate': 1.845594642653971e-05, 'epoch': 2.21}


 74%|███████▍  | 2130/2874 [16:34<04:32,  2.73it/s]

{'loss': 0.0006, 'grad_norm': 11.213567733764648, 'learning_rate': 1.8211172601254038e-05, 'epoch': 2.22}


 74%|███████▍  | 2140/2874 [16:38<04:30,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.0005256384611129761, 'learning_rate': 1.7966398775968363e-05, 'epoch': 2.23}


 75%|███████▍  | 2150/2874 [16:42<04:59,  2.42it/s]

{'loss': 0.0268, 'grad_norm': 0.000593758886680007, 'learning_rate': 1.7721624950682694e-05, 'epoch': 2.24}


 75%|███████▌  | 2160/2874 [16:46<04:51,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0006477136630564928, 'learning_rate': 1.7476851125397022e-05, 'epoch': 2.25}


 76%|███████▌  | 2170/2874 [16:50<04:46,  2.46it/s]

{'loss': 0.0001, 'grad_norm': 0.0007672504871152341, 'learning_rate': 1.7232077300111347e-05, 'epoch': 2.27}


 76%|███████▌  | 2180/2874 [16:54<04:43,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0006095479475334287, 'learning_rate': 1.6987303474825675e-05, 'epoch': 2.28}


 76%|███████▌  | 2190/2874 [16:58<04:38,  2.46it/s]

{'loss': 0.0001, 'grad_norm': 0.0007353059481829405, 'learning_rate': 1.6742529649540003e-05, 'epoch': 2.29}


 77%|███████▋  | 2200/2874 [17:02<04:32,  2.47it/s]

{'loss': 0.0001, 'grad_norm': 0.0005224391934461892, 'learning_rate': 1.649775582425433e-05, 'epoch': 2.3}


 77%|███████▋  | 2210/2874 [17:06<04:30,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0005668092053383589, 'learning_rate': 1.625298199896866e-05, 'epoch': 2.31}


 77%|███████▋  | 2220/2874 [17:11<04:28,  2.44it/s]

{'loss': 0.0001, 'grad_norm': 0.0007911458378657699, 'learning_rate': 1.6008208173682987e-05, 'epoch': 2.32}


 78%|███████▊  | 2230/2874 [17:15<04:24,  2.43it/s]

{'loss': 0.0001, 'grad_norm': 0.00059957813937217, 'learning_rate': 1.5763434348397315e-05, 'epoch': 2.33}


 78%|███████▊  | 2240/2874 [17:19<04:20,  2.44it/s]

{'loss': 0.0011, 'grad_norm': 0.0007693075458519161, 'learning_rate': 1.551866052311164e-05, 'epoch': 2.34}


 78%|███████▊  | 2250/2874 [17:23<04:16,  2.44it/s]

{'loss': 0.0001, 'grad_norm': 0.0005165389156900346, 'learning_rate': 1.5273886697825967e-05, 'epoch': 2.35}


 79%|███████▊  | 2260/2874 [17:28<06:38,  1.54it/s]

{'loss': 0.0018, 'grad_norm': 0.00047294842079281807, 'learning_rate': 1.5029112872540295e-05, 'epoch': 2.36}


 79%|███████▉  | 2270/2874 [17:32<04:38,  2.17it/s]

{'loss': 0.0, 'grad_norm': 0.00046941032633185387, 'learning_rate': 1.4784339047254621e-05, 'epoch': 2.37}


 79%|███████▉  | 2280/2874 [17:37<04:29,  2.21it/s]

{'loss': 0.0001, 'grad_norm': 0.08234205842018127, 'learning_rate': 1.4539565221968951e-05, 'epoch': 2.38}


 80%|███████▉  | 2290/2874 [17:41<04:25,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0006289604352787137, 'learning_rate': 1.4294791396683277e-05, 'epoch': 2.39}


 80%|████████  | 2300/2874 [17:46<04:22,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.0005939020193181932, 'learning_rate': 1.4050017571397604e-05, 'epoch': 2.4}


 80%|████████  | 2310/2874 [17:51<04:15,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.0004954625037498772, 'learning_rate': 1.3805243746111933e-05, 'epoch': 2.41}


 81%|████████  | 2320/2874 [17:55<04:09,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.0005406416021287441, 'learning_rate': 1.356046992082626e-05, 'epoch': 2.42}


 81%|████████  | 2330/2874 [18:00<04:04,  2.23it/s]

{'loss': 0.0, 'grad_norm': 0.0004878900363110006, 'learning_rate': 1.3315696095540588e-05, 'epoch': 2.43}


 81%|████████▏ | 2340/2874 [18:04<04:01,  2.21it/s]

{'loss': 0.0, 'grad_norm': 0.0007738082204014063, 'learning_rate': 1.3070922270254916e-05, 'epoch': 2.44}


 82%|████████▏ | 2350/2874 [18:09<03:57,  2.21it/s]

{'loss': 0.0, 'grad_norm': 0.0005671173566952348, 'learning_rate': 1.2826148444969242e-05, 'epoch': 2.45}


 82%|████████▏ | 2360/2874 [18:13<03:53,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.000642242084722966, 'learning_rate': 1.258137461968357e-05, 'epoch': 2.46}


 82%|████████▏ | 2370/2874 [18:18<03:49,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.011117530055344105, 'learning_rate': 1.2336600794397898e-05, 'epoch': 2.47}


 83%|████████▎ | 2380/2874 [18:22<03:44,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.0004922951920889318, 'learning_rate': 1.2091826969112224e-05, 'epoch': 2.48}


 83%|████████▎ | 2390/2874 [18:27<03:37,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.0007154231425374746, 'learning_rate': 1.1847053143826552e-05, 'epoch': 2.49}


 84%|████████▎ | 2400/2874 [18:31<03:35,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.0005229280795902014, 'learning_rate': 1.1602279318540878e-05, 'epoch': 2.51}


 84%|████████▍ | 2410/2874 [18:36<03:29,  2.21it/s]

{'loss': 0.0, 'grad_norm': 0.0006067690555937588, 'learning_rate': 1.1357505493255206e-05, 'epoch': 2.52}


 84%|████████▍ | 2420/2874 [18:40<03:26,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0006822483846917748, 'learning_rate': 1.1112731667969534e-05, 'epoch': 2.53}


 85%|████████▍ | 2430/2874 [18:45<03:20,  2.22it/s]

{'loss': 0.0439, 'grad_norm': 0.0008368866401724517, 'learning_rate': 1.086795784268386e-05, 'epoch': 2.54}


 85%|████████▍ | 2440/2874 [18:49<03:16,  2.21it/s]

{'loss': 0.0001, 'grad_norm': 0.0008869325392879546, 'learning_rate': 1.0623184017398189e-05, 'epoch': 2.55}


 85%|████████▌ | 2450/2874 [18:54<03:12,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0020447219721972942, 'learning_rate': 1.0378410192112517e-05, 'epoch': 2.56}


 86%|████████▌ | 2460/2874 [18:58<03:07,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.004159423988312483, 'learning_rate': 1.0133636366826843e-05, 'epoch': 2.57}


 86%|████████▌ | 2470/2874 [19:03<03:03,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0018447209149599075, 'learning_rate': 9.888862541541171e-06, 'epoch': 2.58}


 86%|████████▋ | 2480/2874 [19:08<02:59,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0011962030548602343, 'learning_rate': 9.644088716255499e-06, 'epoch': 2.59}


 87%|████████▋ | 2490/2874 [19:12<02:54,  2.20it/s]

{'loss': 0.0006, 'grad_norm': 0.0005796857294626534, 'learning_rate': 9.399314890969825e-06, 'epoch': 2.6}


 87%|████████▋ | 2500/2874 [19:17<02:49,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0016064229421317577, 'learning_rate': 9.154541065684155e-06, 'epoch': 2.61}


 87%|████████▋ | 2510/2874 [19:21<02:38,  2.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0009928463259711862, 'learning_rate': 8.909767240398481e-06, 'epoch': 2.62}


 88%|████████▊ | 2520/2874 [19:25<02:13,  2.66it/s]

{'loss': 0.0001, 'grad_norm': 0.0013281727442517877, 'learning_rate': 8.664993415112809e-06, 'epoch': 2.63}


 88%|████████▊ | 2530/2874 [19:29<02:35,  2.22it/s]

{'loss': 0.051, 'grad_norm': 0.0008883059490472078, 'learning_rate': 8.420219589827137e-06, 'epoch': 2.64}


 88%|████████▊ | 2540/2874 [19:34<02:31,  2.20it/s]

{'loss': 0.046, 'grad_norm': 0.0009423267911188304, 'learning_rate': 8.175445764541463e-06, 'epoch': 2.65}


 89%|████████▊ | 2550/2874 [19:38<02:26,  2.21it/s]

{'loss': 0.0001, 'grad_norm': 0.0014047743752598763, 'learning_rate': 7.930671939255791e-06, 'epoch': 2.66}


 89%|████████▉ | 2560/2874 [19:43<02:20,  2.23it/s]

{'loss': 0.0001, 'grad_norm': 0.0007463634246960282, 'learning_rate': 7.68589811397012e-06, 'epoch': 2.67}


 89%|████████▉ | 2570/2874 [19:47<02:17,  2.22it/s]

{'loss': 0.0001, 'grad_norm': 0.0019392423564568162, 'learning_rate': 7.441124288684446e-06, 'epoch': 2.68}


 90%|████████▉ | 2580/2874 [19:52<02:12,  2.23it/s]

{'loss': 0.0001, 'grad_norm': 0.002029427094385028, 'learning_rate': 7.196350463398774e-06, 'epoch': 2.69}


 90%|█████████ | 2590/2874 [19:56<02:08,  2.22it/s]

{'loss': 0.0001, 'grad_norm': 0.0005770614370703697, 'learning_rate': 6.951576638113101e-06, 'epoch': 2.7}


 90%|█████████ | 2600/2874 [20:01<02:03,  2.22it/s]

{'loss': 0.0001, 'grad_norm': 0.0009052730165421963, 'learning_rate': 6.706802812827428e-06, 'epoch': 2.71}


 91%|█████████ | 2610/2874 [20:05<02:00,  2.18it/s]

{'loss': 0.0443, 'grad_norm': 0.0016876163426786661, 'learning_rate': 6.462028987541756e-06, 'epoch': 2.72}


 91%|█████████ | 2620/2874 [20:09<01:43,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0022303953301161528, 'learning_rate': 6.217255162256083e-06, 'epoch': 2.73}


 92%|█████████▏| 2630/2874 [20:13<01:41,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0009914848487824202, 'learning_rate': 5.97248133697041e-06, 'epoch': 2.75}


 92%|█████████▏| 2640/2874 [20:18<01:37,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.00122861098498106, 'learning_rate': 5.727707511684738e-06, 'epoch': 2.76}


 92%|█████████▏| 2650/2874 [20:22<01:32,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0016828627558425069, 'learning_rate': 5.482933686399066e-06, 'epoch': 2.77}


 93%|█████████▎| 2660/2874 [20:27<01:45,  2.03it/s]

{'loss': 0.0001, 'grad_norm': 0.00104991951957345, 'learning_rate': 5.238159861113392e-06, 'epoch': 2.78}


 93%|█████████▎| 2670/2874 [20:32<01:41,  2.01it/s]

{'loss': 0.0001, 'grad_norm': 0.001394619350321591, 'learning_rate': 4.99338603582772e-06, 'epoch': 2.79}


 93%|█████████▎| 2680/2874 [20:36<01:17,  2.49it/s]

{'loss': 0.0001, 'grad_norm': 0.0007639144314453006, 'learning_rate': 4.748612210542048e-06, 'epoch': 2.8}


 94%|█████████▎| 2690/2874 [20:40<01:13,  2.50it/s]

{'loss': 0.0001, 'grad_norm': 0.0014199619181454182, 'learning_rate': 4.503838385256375e-06, 'epoch': 2.81}


 94%|█████████▍| 2700/2874 [20:44<01:10,  2.46it/s]

{'loss': 0.0001, 'grad_norm': 0.0010710287606343627, 'learning_rate': 4.259064559970703e-06, 'epoch': 2.82}


 94%|█████████▍| 2710/2874 [20:49<01:28,  1.85it/s]

{'loss': 0.0001, 'grad_norm': 0.0008001201204024255, 'learning_rate': 4.01429073468503e-06, 'epoch': 2.83}


 95%|█████████▍| 2720/2874 [20:54<01:07,  2.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0013506385730579495, 'learning_rate': 3.7695169093993573e-06, 'epoch': 2.84}


 95%|█████████▍| 2730/2874 [20:58<01:02,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0012510154629126191, 'learning_rate': 3.524743084113685e-06, 'epoch': 2.85}


 95%|█████████▌| 2740/2874 [21:02<00:57,  2.32it/s]

{'loss': 0.0001, 'grad_norm': 0.0009326221188530326, 'learning_rate': 3.2799692588280124e-06, 'epoch': 2.86}


 96%|█████████▌| 2750/2874 [21:07<00:53,  2.33it/s]

{'loss': 0.0001, 'grad_norm': 0.0009342113044112921, 'learning_rate': 3.0351954335423395e-06, 'epoch': 2.87}


 96%|█████████▌| 2760/2874 [21:11<00:48,  2.33it/s]

{'loss': 0.0001, 'grad_norm': 0.0012430039932951331, 'learning_rate': 2.790421608256667e-06, 'epoch': 2.88}


 96%|█████████▋| 2770/2874 [21:15<00:44,  2.31it/s]

{'loss': 0.005, 'grad_norm': 0.0016550333239138126, 'learning_rate': 2.5456477829709947e-06, 'epoch': 2.89}


 97%|█████████▋| 2780/2874 [21:20<00:40,  2.33it/s]

{'loss': 0.0079, 'grad_norm': 0.0013581902021542192, 'learning_rate': 2.300873957685322e-06, 'epoch': 2.9}


 97%|█████████▋| 2790/2874 [21:24<00:36,  2.31it/s]

{'loss': 0.0002, 'grad_norm': 0.001850272761657834, 'learning_rate': 2.0561001323996494e-06, 'epoch': 2.91}


 97%|█████████▋| 2800/2874 [21:28<00:32,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0011721433838829398, 'learning_rate': 1.811326307113977e-06, 'epoch': 2.92}


 98%|█████████▊| 2810/2874 [21:33<00:27,  2.31it/s]

{'loss': 0.0001, 'grad_norm': 0.0006711625610478222, 'learning_rate': 1.5665524818283045e-06, 'epoch': 2.93}


 98%|█████████▊| 2820/2874 [21:37<00:23,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0008146672626025975, 'learning_rate': 1.3217786565426318e-06, 'epoch': 2.94}


 98%|█████████▊| 2830/2874 [21:41<00:19,  2.31it/s]

{'loss': 0.0001, 'grad_norm': 0.0008949342300184071, 'learning_rate': 1.0770048312569592e-06, 'epoch': 2.95}


 99%|█████████▉| 2840/2874 [21:46<00:14,  2.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0011465282877907157, 'learning_rate': 8.322310059712867e-07, 'epoch': 2.96}


 99%|█████████▉| 2850/2874 [21:50<00:10,  2.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0008586568292230368, 'learning_rate': 5.874571806856141e-07, 'epoch': 2.97}


100%|█████████▉| 2860/2874 [21:55<00:06,  2.07it/s]

{'loss': 0.0001, 'grad_norm': 0.0009337083902209997, 'learning_rate': 3.4268335539994163e-07, 'epoch': 2.99}


100%|█████████▉| 2870/2874 [22:00<00:01,  2.08it/s]

{'loss': 0.0002, 'grad_norm': 0.0013835421996191144, 'learning_rate': 9.790953011426903e-08, 'epoch': 3.0}


                                                   
100%|██████████| 2874/2874 [23:01<00:00,  2.35it/s]

{'eval_loss': 0.010911067947745323, 'eval_accuracy': 0.9985473034319956, 'eval_f1': 0.9985475950298174, 'eval_runtime': 24.1208, 'eval_samples_per_second': 228.309, 'eval_steps_per_second': 28.565, 'epoch': 3.0}


100%|██████████| 2874/2874 [23:38<00:00,  2.03it/s]


{'train_runtime': 1418.169, 'train_samples_per_second': 46.59, 'train_steps_per_second': 2.027, 'train_loss': 0.023530390428022883, 'epoch': 3.0}


100%|██████████| 689/689 [00:24<00:00, 28.70it/s]
  0%|          | 11/7344 [00:01<18:25,  6.63it/s]

{'loss': 0.0, 'grad_norm': 0.0007647602469660342, 'learning_rate': 1.981266260911888e-05, 'epoch': 0.0}


  0%|          | 21/7344 [00:03<18:37,  6.55it/s]

{'loss': 0.0, 'grad_norm': 0.0003921387833543122, 'learning_rate': 1.9785647797816563e-05, 'epoch': 0.01}


  0%|          | 31/7344 [00:04<19:20,  6.30it/s]

{'loss': 0.0, 'grad_norm': 0.0002849331358447671, 'learning_rate': 1.9758632986514244e-05, 'epoch': 0.01}


  1%|          | 41/7344 [00:06<18:44,  6.50it/s]

{'loss': 0.0, 'grad_norm': 0.00015773344784975052, 'learning_rate': 1.9731618175211928e-05, 'epoch': 0.02}


  1%|          | 51/7344 [00:07<18:37,  6.53it/s]

{'loss': 0.0, 'grad_norm': 0.00012522454198915511, 'learning_rate': 1.9704603363909612e-05, 'epoch': 0.02}


  1%|          | 61/7344 [00:09<18:28,  6.57it/s]

{'loss': 0.0, 'grad_norm': 0.00010719858255470172, 'learning_rate': 1.9677588552607297e-05, 'epoch': 0.02}


  1%|          | 71/7344 [00:10<18:44,  6.47it/s]

{'loss': 0.0, 'grad_norm': 0.00010591730097075924, 'learning_rate': 1.965057374130498e-05, 'epoch': 0.03}


  1%|          | 81/7344 [00:12<18:30,  6.54it/s]

{'loss': 0.0, 'grad_norm': 7.2455957706552e-05, 'learning_rate': 1.9623558930002662e-05, 'epoch': 0.03}


  1%|          | 91/7344 [00:14<18:20,  6.59it/s]

{'loss': 0.0, 'grad_norm': 0.00011372622975613922, 'learning_rate': 1.9596544118700346e-05, 'epoch': 0.04}


  1%|▏         | 101/7344 [00:15<19:10,  6.29it/s]

{'loss': 0.0, 'grad_norm': 0.0001135500060627237, 'learning_rate': 1.956952930739803e-05, 'epoch': 0.04}


  2%|▏         | 111/7344 [00:17<18:40,  6.46it/s]

{'loss': 0.1383, 'grad_norm': 0.000539804867003113, 'learning_rate': 1.9542514496095714e-05, 'epoch': 0.04}


  2%|▏         | 121/7344 [00:18<18:20,  6.56it/s]

{'loss': 0.0, 'grad_norm': 8.022408292163163e-05, 'learning_rate': 1.9515499684793395e-05, 'epoch': 0.05}


  2%|▏         | 131/7344 [00:20<18:25,  6.53it/s]

{'loss': 0.0, 'grad_norm': 0.000337807898176834, 'learning_rate': 1.9488484873491083e-05, 'epoch': 0.05}


  2%|▏         | 141/7344 [00:21<18:53,  6.36it/s]

{'loss': 0.1245, 'grad_norm': 0.00041372544365003705, 'learning_rate': 1.9461470062188764e-05, 'epoch': 0.06}


  2%|▏         | 151/7344 [00:23<19:32,  6.14it/s]

{'loss': 0.0001, 'grad_norm': 0.0007301446748897433, 'learning_rate': 1.9434455250886448e-05, 'epoch': 0.06}


  2%|▏         | 161/7344 [00:25<18:48,  6.36it/s]

{'loss': 0.1322, 'grad_norm': 63.90549850463867, 'learning_rate': 1.9407440439584132e-05, 'epoch': 0.07}


  2%|▏         | 171/7344 [00:26<19:14,  6.21it/s]

{'loss': 0.033, 'grad_norm': 0.0006704306579194963, 'learning_rate': 1.9380425628281817e-05, 'epoch': 0.07}


  2%|▏         | 181/7344 [00:28<19:06,  6.25it/s]

{'loss': 0.0, 'grad_norm': 0.036811355501413345, 'learning_rate': 1.9353410816979497e-05, 'epoch': 0.07}


  3%|▎         | 191/7344 [00:29<19:09,  6.22it/s]

{'loss': 0.0001, 'grad_norm': 0.00014371734869200736, 'learning_rate': 1.932639600567718e-05, 'epoch': 0.08}


  3%|▎         | 201/7344 [00:31<19:40,  6.05it/s]

{'loss': 0.0001, 'grad_norm': 0.02106420509517193, 'learning_rate': 1.9299381194374866e-05, 'epoch': 0.08}


  3%|▎         | 211/7344 [00:33<18:53,  6.29it/s]

{'loss': 0.0002, 'grad_norm': 0.0002906052686739713, 'learning_rate': 1.927236638307255e-05, 'epoch': 0.09}


  3%|▎         | 221/7344 [00:34<24:00,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.00042799985385499895, 'learning_rate': 1.924535157177023e-05, 'epoch': 0.09}


  3%|▎         | 231/7344 [00:36<20:47,  5.70it/s]

{'loss': 0.1409, 'grad_norm': 24.97998046875, 'learning_rate': 1.921833676046792e-05, 'epoch': 0.09}


  3%|▎         | 241/7344 [00:38<20:21,  5.81it/s]

{'loss': 0.0001, 'grad_norm': 0.0002990920911543071, 'learning_rate': 1.91913219491656e-05, 'epoch': 0.1}


  3%|▎         | 251/7344 [00:40<20:01,  5.90it/s]

{'loss': 0.0, 'grad_norm': 0.021588269621133804, 'learning_rate': 1.9164307137863284e-05, 'epoch': 0.1}


  4%|▎         | 261/7344 [00:41<20:13,  5.84it/s]

{'loss': 0.0, 'grad_norm': 0.0003533358976710588, 'learning_rate': 1.9137292326560968e-05, 'epoch': 0.11}


  4%|▎         | 271/7344 [00:43<20:05,  5.87it/s]

{'loss': 0.0, 'grad_norm': 0.0013072106521576643, 'learning_rate': 1.9110277515258652e-05, 'epoch': 0.11}


  4%|▍         | 281/7344 [00:45<20:09,  5.84it/s]

{'loss': 0.0, 'grad_norm': 0.0002949474728666246, 'learning_rate': 1.9083262703956333e-05, 'epoch': 0.11}


  4%|▍         | 291/7344 [00:46<19:59,  5.88it/s]

{'loss': 0.0, 'grad_norm': 0.00018968916265293956, 'learning_rate': 1.9056247892654017e-05, 'epoch': 0.12}


  4%|▍         | 301/7344 [00:48<20:07,  5.83it/s]

{'loss': 0.0851, 'grad_norm': 0.00024410408514086157, 'learning_rate': 1.90292330813517e-05, 'epoch': 0.12}


  4%|▍         | 311/7344 [00:50<20:00,  5.86it/s]

{'loss': 0.0, 'grad_norm': 0.00025745644234120846, 'learning_rate': 1.9002218270049386e-05, 'epoch': 0.13}


  4%|▍         | 321/7344 [00:51<19:56,  5.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0003684098192024976, 'learning_rate': 1.8975203458747067e-05, 'epoch': 0.13}


  5%|▍         | 331/7344 [00:53<20:17,  5.76it/s]

{'loss': 0.0, 'grad_norm': 0.0002443565463181585, 'learning_rate': 1.8948188647444754e-05, 'epoch': 0.13}


  5%|▍         | 341/7344 [00:55<20:02,  5.82it/s]

{'loss': 0.0, 'grad_norm': 0.0020886086858808994, 'learning_rate': 1.8921173836142435e-05, 'epoch': 0.14}


  5%|▍         | 351/7344 [00:57<19:54,  5.86it/s]

{'loss': 0.0, 'grad_norm': 0.000997183844447136, 'learning_rate': 1.889415902484012e-05, 'epoch': 0.14}


  5%|▍         | 361/7344 [00:58<20:04,  5.80it/s]

{'loss': 0.0, 'grad_norm': 0.00017739673785399646, 'learning_rate': 1.88671442135378e-05, 'epoch': 0.15}


  5%|▌         | 371/7344 [01:00<19:59,  5.81it/s]

{'loss': 0.0, 'grad_norm': 0.0001628889876883477, 'learning_rate': 1.8840129402235488e-05, 'epoch': 0.15}


  5%|▌         | 381/7344 [01:02<19:49,  5.85it/s]

{'loss': 0.0, 'grad_norm': 0.0005018268129788339, 'learning_rate': 1.881311459093317e-05, 'epoch': 0.16}


  5%|▌         | 391/7344 [01:04<20:15,  5.72it/s]

{'loss': 0.0, 'grad_norm': 0.0003983278584200889, 'learning_rate': 1.8786099779630853e-05, 'epoch': 0.16}


  5%|▌         | 401/7344 [01:05<19:47,  5.84it/s]

{'loss': 0.0, 'grad_norm': 0.00039069633930921555, 'learning_rate': 1.8759084968328537e-05, 'epoch': 0.16}


  6%|▌         | 411/7344 [01:07<19:42,  5.86it/s]

{'loss': 0.0, 'grad_norm': 0.00020655823755078018, 'learning_rate': 1.873207015702622e-05, 'epoch': 0.17}


  6%|▌         | 421/7344 [01:09<19:56,  5.79it/s]

{'loss': 0.0, 'grad_norm': 0.0002305055531905964, 'learning_rate': 1.8705055345723902e-05, 'epoch': 0.17}


  6%|▌         | 431/7344 [01:10<19:51,  5.80it/s]

{'loss': 0.0, 'grad_norm': 0.0001392027479596436, 'learning_rate': 1.8678040534421587e-05, 'epoch': 0.18}


  6%|▌         | 441/7344 [01:12<19:46,  5.82it/s]

{'loss': 0.0, 'grad_norm': 0.00027950337971560657, 'learning_rate': 1.865102572311927e-05, 'epoch': 0.18}


  6%|▌         | 450/7344 [01:14<28:13,  4.07it/s]

{'loss': 0.0, 'grad_norm': 0.00011934558278881013, 'learning_rate': 1.8624010911816955e-05, 'epoch': 0.18}


  6%|▋         | 461/7344 [01:16<20:34,  5.58it/s]

{'loss': 0.033, 'grad_norm': 0.00010737203410826623, 'learning_rate': 1.8596996100514636e-05, 'epoch': 0.19}


  6%|▋         | 471/7344 [01:18<19:49,  5.78it/s]

{'loss': 0.0, 'grad_norm': 0.0002272739220643416, 'learning_rate': 1.8569981289212323e-05, 'epoch': 0.19}


  7%|▋         | 481/7344 [01:20<19:41,  5.81it/s]

{'loss': 0.0, 'grad_norm': 0.00017172064690385014, 'learning_rate': 1.8542966477910004e-05, 'epoch': 0.2}


  7%|▋         | 490/7344 [01:21<20:32,  5.56it/s]

{'loss': 0.0, 'grad_norm': 0.0003220172075089067, 'learning_rate': 1.851595166660769e-05, 'epoch': 0.2}


  7%|▋         | 500/7344 [01:24<26:01,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.00020271069661248475, 'learning_rate': 1.8488936855305373e-05, 'epoch': 0.2}


  7%|▋         | 511/7344 [01:26<22:16,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.0004888505209237337, 'learning_rate': 1.8461922044003057e-05, 'epoch': 0.21}


  7%|▋         | 521/7344 [01:28<21:09,  5.38it/s]

{'loss': 0.0, 'grad_norm': 6.182190554682165e-05, 'learning_rate': 1.8434907232700738e-05, 'epoch': 0.21}


  7%|▋         | 531/7344 [01:30<21:15,  5.34it/s]

{'loss': 0.0, 'grad_norm': 0.00015069938672240824, 'learning_rate': 1.8407892421398422e-05, 'epoch': 0.22}


  7%|▋         | 541/7344 [01:32<20:57,  5.41it/s]

{'loss': 0.0, 'grad_norm': 0.0020648175850510597, 'learning_rate': 1.8380877610096106e-05, 'epoch': 0.22}


  8%|▊         | 551/7344 [01:34<21:01,  5.38it/s]

{'loss': 0.1579, 'grad_norm': 18.037628173828125, 'learning_rate': 1.835386279879379e-05, 'epoch': 0.22}


  8%|▊         | 561/7344 [01:35<21:01,  5.38it/s]

{'loss': 0.0, 'grad_norm': 0.01789170689880848, 'learning_rate': 1.8326847987491475e-05, 'epoch': 0.23}


  8%|▊         | 571/7344 [01:37<20:57,  5.39it/s]

{'loss': 0.0, 'grad_norm': 0.0010196702787652612, 'learning_rate': 1.829983317618916e-05, 'epoch': 0.23}


  8%|▊         | 581/7344 [01:39<20:57,  5.38it/s]

{'loss': 0.0, 'grad_norm': 0.0014323453651741147, 'learning_rate': 1.827281836488684e-05, 'epoch': 0.24}


  8%|▊         | 591/7344 [01:41<22:51,  4.92it/s]

{'loss': 0.0001, 'grad_norm': 0.000488859775941819, 'learning_rate': 1.8245803553584524e-05, 'epoch': 0.24}


  8%|▊         | 601/7344 [01:43<22:42,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.00019404258637223393, 'learning_rate': 1.821878874228221e-05, 'epoch': 0.25}


  8%|▊         | 611/7344 [01:45<22:18,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00028560837381519377, 'learning_rate': 1.8191773930979893e-05, 'epoch': 0.25}


  8%|▊         | 620/7344 [01:47<22:28,  4.98it/s]

{'loss': 0.0118, 'grad_norm': 0.00020443176617845893, 'learning_rate': 1.8164759119677574e-05, 'epoch': 0.25}


  9%|▊         | 631/7344 [01:49<22:31,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.0012704143300652504, 'learning_rate': 1.8137744308375258e-05, 'epoch': 0.26}


  9%|▊         | 641/7344 [01:51<22:43,  4.91it/s]

{'loss': 0.139, 'grad_norm': 0.00018693174934014678, 'learning_rate': 1.8110729497072942e-05, 'epoch': 0.26}


  9%|▉         | 651/7344 [01:53<20:58,  5.32it/s]

{'loss': 0.0001, 'grad_norm': 0.022569546476006508, 'learning_rate': 1.8083714685770626e-05, 'epoch': 0.27}


  9%|▉         | 661/7344 [01:55<20:37,  5.40it/s]

{'loss': 0.0, 'grad_norm': 0.0002997606061398983, 'learning_rate': 1.805669987446831e-05, 'epoch': 0.27}


  9%|▉         | 671/7344 [01:57<20:58,  5.30it/s]

{'loss': 0.0, 'grad_norm': 0.0002638577716425061, 'learning_rate': 1.802968506316599e-05, 'epoch': 0.27}


  9%|▉         | 681/7344 [01:59<20:48,  5.34it/s]

{'loss': 0.0, 'grad_norm': 0.0003505572385620326, 'learning_rate': 1.8002670251863676e-05, 'epoch': 0.28}


  9%|▉         | 691/7344 [02:01<20:32,  5.40it/s]

{'loss': 0.0, 'grad_norm': 0.00016728103219065815, 'learning_rate': 1.797565544056136e-05, 'epoch': 0.28}


 10%|▉         | 701/7344 [02:03<20:30,  5.40it/s]

{'loss': 0.0002, 'grad_norm': 0.00014668253425043076, 'learning_rate': 1.7948640629259044e-05, 'epoch': 0.29}


 10%|▉         | 711/7344 [02:04<20:39,  5.35it/s]

{'loss': 0.0, 'grad_norm': 0.0002616723068058491, 'learning_rate': 1.792162581795673e-05, 'epoch': 0.29}


 10%|▉         | 721/7344 [02:06<20:44,  5.32it/s]

{'loss': 0.0, 'grad_norm': 0.00013894151197746396, 'learning_rate': 1.7894611006654413e-05, 'epoch': 0.29}


 10%|▉         | 731/7344 [02:08<20:26,  5.39it/s]

{'loss': 0.0, 'grad_norm': 0.021990275010466576, 'learning_rate': 1.7867596195352093e-05, 'epoch': 0.3}


 10%|█         | 741/7344 [02:10<20:33,  5.35it/s]

{'loss': 0.0, 'grad_norm': 0.0001813873677747324, 'learning_rate': 1.7840581384049778e-05, 'epoch': 0.3}


 10%|█         | 751/7344 [02:12<20:38,  5.32it/s]

{'loss': 0.0, 'grad_norm': 0.00029874531901441514, 'learning_rate': 1.7813566572747462e-05, 'epoch': 0.31}


 10%|█         | 761/7344 [02:14<20:44,  5.29it/s]

{'loss': 0.0, 'grad_norm': 0.001508555025793612, 'learning_rate': 1.7786551761445146e-05, 'epoch': 0.31}


 10%|█         | 771/7344 [02:16<20:33,  5.33it/s]

{'loss': 0.0, 'grad_norm': 0.00019632787734735757, 'learning_rate': 1.7759536950142827e-05, 'epoch': 0.31}


 11%|█         | 781/7344 [02:18<20:41,  5.29it/s]

{'loss': 0.0, 'grad_norm': 0.0002033989439951256, 'learning_rate': 1.773252213884051e-05, 'epoch': 0.32}


 11%|█         | 791/7344 [02:19<20:53,  5.23it/s]

{'loss': 0.0, 'grad_norm': 0.00011620725126704201, 'learning_rate': 1.7705507327538196e-05, 'epoch': 0.32}


 11%|█         | 801/7344 [02:21<20:30,  5.32it/s]

{'loss': 0.1102, 'grad_norm': 29.451566696166992, 'learning_rate': 1.767849251623588e-05, 'epoch': 0.33}


 11%|█         | 811/7344 [02:23<20:47,  5.24it/s]

{'loss': 0.0, 'grad_norm': 0.0022950696293264627, 'learning_rate': 1.765147770493356e-05, 'epoch': 0.33}


 11%|█         | 821/7344 [02:25<20:25,  5.32it/s]

{'loss': 0.0, 'grad_norm': 0.0011247190413996577, 'learning_rate': 1.7624462893631248e-05, 'epoch': 0.33}


 11%|█▏        | 831/7344 [02:27<20:15,  5.36it/s]

{'loss': 0.001, 'grad_norm': 0.00016257766401395202, 'learning_rate': 1.759744808232893e-05, 'epoch': 0.34}


 11%|█▏        | 841/7344 [02:29<20:25,  5.31it/s]

{'loss': 0.0001, 'grad_norm': 0.020152205601334572, 'learning_rate': 1.7570433271026613e-05, 'epoch': 0.34}


 12%|█▏        | 851/7344 [02:31<20:16,  5.34it/s]

{'loss': 0.1557, 'grad_norm': 0.013649256899952888, 'learning_rate': 1.7543418459724298e-05, 'epoch': 0.35}


 12%|█▏        | 861/7344 [02:33<20:15,  5.34it/s]

{'loss': 0.1612, 'grad_norm': 0.0005217337748035789, 'learning_rate': 1.7516403648421982e-05, 'epoch': 0.35}


 12%|█▏        | 871/7344 [02:34<20:14,  5.33it/s]

{'loss': 0.1778, 'grad_norm': 0.0007849683752283454, 'learning_rate': 1.7489388837119663e-05, 'epoch': 0.36}


 12%|█▏        | 881/7344 [02:36<19:50,  5.43it/s]

{'loss': 0.0, 'grad_norm': 0.0011879689991474152, 'learning_rate': 1.7462374025817347e-05, 'epoch': 0.36}


 12%|█▏        | 891/7344 [02:38<20:03,  5.36it/s]

{'loss': 0.1272, 'grad_norm': 9.204476356506348, 'learning_rate': 1.743535921451503e-05, 'epoch': 0.36}


 12%|█▏        | 901/7344 [02:40<20:01,  5.36it/s]

{'loss': 0.0001, 'grad_norm': 0.00036825070856139064, 'learning_rate': 1.7408344403212715e-05, 'epoch': 0.37}


 12%|█▏        | 911/7344 [02:42<19:57,  5.37it/s]

{'loss': 0.0004, 'grad_norm': 0.00422712741419673, 'learning_rate': 1.7381329591910396e-05, 'epoch': 0.37}


 13%|█▎        | 921/7344 [02:44<20:05,  5.33it/s]

{'loss': 0.1441, 'grad_norm': 0.007351219654083252, 'learning_rate': 1.7354314780608084e-05, 'epoch': 0.38}


 13%|█▎        | 931/7344 [02:46<19:54,  5.37it/s]

{'loss': 0.0015, 'grad_norm': 0.0036150601226836443, 'learning_rate': 1.7327299969305765e-05, 'epoch': 0.38}


 13%|█▎        | 941/7344 [02:48<19:56,  5.35it/s]

{'loss': 0.0002, 'grad_norm': 0.0075469668954610825, 'learning_rate': 1.730028515800345e-05, 'epoch': 0.38}


 13%|█▎        | 950/7344 [02:50<25:10,  4.23it/s]

{'loss': 0.0002, 'grad_norm': 0.28505444526672363, 'learning_rate': 1.7273270346701133e-05, 'epoch': 0.39}


 13%|█▎        | 960/7344 [02:52<25:22,  4.19it/s]

{'loss': 0.0845, 'grad_norm': 0.004780646413564682, 'learning_rate': 1.7246255535398818e-05, 'epoch': 0.39}


 13%|█▎        | 970/7344 [02:54<25:04,  4.24it/s]

{'loss': 0.0003, 'grad_norm': 0.005831679794937372, 'learning_rate': 1.72192407240965e-05, 'epoch': 0.4}


 13%|█▎        | 981/7344 [02:57<21:12,  5.00it/s]

{'loss': 0.0003, 'grad_norm': 0.0003866663028020412, 'learning_rate': 1.7192225912794183e-05, 'epoch': 0.4}


 13%|█▎        | 990/7344 [02:59<22:28,  4.71it/s]

{'loss': 0.0001, 'grad_norm': 0.001957590924575925, 'learning_rate': 1.7165211101491867e-05, 'epoch': 0.4}


 14%|█▎        | 1000/7344 [03:01<23:30,  4.50it/s]

{'loss': 0.0001, 'grad_norm': 0.0009240045910701156, 'learning_rate': 1.713819629018955e-05, 'epoch': 0.41}


 14%|█▍        | 1011/7344 [03:03<20:39,  5.11it/s]

{'loss': 0.0662, 'grad_norm': 80.68922424316406, 'learning_rate': 1.7111181478887232e-05, 'epoch': 0.41}


 14%|█▍        | 1021/7344 [03:05<20:14,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.0013673980720341206, 'learning_rate': 1.708416666758492e-05, 'epoch': 0.42}


 14%|█▍        | 1031/7344 [03:07<20:18,  5.18it/s]

{'loss': 0.0001, 'grad_norm': 0.0016863340279087424, 'learning_rate': 1.70571518562826e-05, 'epoch': 0.42}


 14%|█▍        | 1041/7344 [03:09<20:15,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.0010366087080910802, 'learning_rate': 1.7030137044980285e-05, 'epoch': 0.42}


 14%|█▍        | 1051/7344 [03:11<20:08,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.0007302790181711316, 'learning_rate': 1.700312223367797e-05, 'epoch': 0.43}


 14%|█▍        | 1061/7344 [03:13<20:10,  5.19it/s]

{'loss': 0.0, 'grad_norm': 0.0020219474099576473, 'learning_rate': 1.6976107422375653e-05, 'epoch': 0.43}


 15%|█▍        | 1071/7344 [03:15<20:11,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.0021345741115510464, 'learning_rate': 1.6949092611073334e-05, 'epoch': 0.44}


 15%|█▍        | 1081/7344 [03:17<20:03,  5.20it/s]

{'loss': 0.0, 'grad_norm': 0.001985893351957202, 'learning_rate': 1.6922077799771018e-05, 'epoch': 0.44}


 15%|█▍        | 1091/7344 [03:18<19:57,  5.22it/s]

{'loss': 0.0, 'grad_norm': 0.000973310845438391, 'learning_rate': 1.6895062988468703e-05, 'epoch': 0.45}


 15%|█▍        | 1101/7344 [03:20<19:57,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.0005125752650201321, 'learning_rate': 1.6868048177166387e-05, 'epoch': 0.45}


 15%|█▌        | 1111/7344 [03:22<20:02,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.0009898727294057608, 'learning_rate': 1.6841033365864068e-05, 'epoch': 0.45}


 15%|█▌        | 1121/7344 [03:24<19:55,  5.20it/s]

{'loss': 0.0, 'grad_norm': 0.0013915611198171973, 'learning_rate': 1.6814018554561752e-05, 'epoch': 0.46}


 15%|█▌        | 1131/7344 [03:26<19:49,  5.22it/s]

{'loss': 0.0, 'grad_norm': 0.0006470027146860957, 'learning_rate': 1.6787003743259436e-05, 'epoch': 0.46}


 16%|█▌        | 1141/7344 [03:28<19:50,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.0004017339088022709, 'learning_rate': 1.675998893195712e-05, 'epoch': 0.47}


 16%|█▌        | 1151/7344 [03:30<19:45,  5.22it/s]

{'loss': 0.0, 'grad_norm': 0.0014781802892684937, 'learning_rate': 1.6732974120654805e-05, 'epoch': 0.47}


 16%|█▌        | 1161/7344 [03:32<19:47,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.0006496072164736688, 'learning_rate': 1.670595930935249e-05, 'epoch': 0.47}


 16%|█▌        | 1171/7344 [03:34<19:54,  5.17it/s]

{'loss': 0.0, 'grad_norm': 0.0009271922754123807, 'learning_rate': 1.667894449805017e-05, 'epoch': 0.48}


 16%|█▌        | 1181/7344 [03:36<19:29,  5.27it/s]

{'loss': 0.0, 'grad_norm': 0.000357220385922119, 'learning_rate': 1.6651929686747854e-05, 'epoch': 0.48}


 16%|█▌        | 1190/7344 [03:37<19:45,  5.19it/s]

{'loss': 0.0, 'grad_norm': 0.0005067055462859571, 'learning_rate': 1.6624914875445538e-05, 'epoch': 0.49}


 16%|█▋        | 1201/7344 [03:40<19:55,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.0007424511713907123, 'learning_rate': 1.6597900064143222e-05, 'epoch': 0.49}


 16%|█▋        | 1211/7344 [03:42<19:49,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0003046064521186054, 'learning_rate': 1.6570885252840907e-05, 'epoch': 0.49}


 17%|█▋        | 1221/7344 [03:43<19:52,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0001878469920484349, 'learning_rate': 1.6543870441538588e-05, 'epoch': 0.5}


 17%|█▋        | 1230/7344 [03:45<19:33,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.00039747293340042233, 'learning_rate': 1.6516855630236272e-05, 'epoch': 0.5}


 17%|█▋        | 1241/7344 [03:47<19:37,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.00048634226550348103, 'learning_rate': 1.6489840818933956e-05, 'epoch': 0.51}


 17%|█▋        | 1251/7344 [03:49<19:37,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.0004133380716666579, 'learning_rate': 1.646282600763164e-05, 'epoch': 0.51}


 17%|█▋        | 1261/7344 [03:51<19:41,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.00037227541906759143, 'learning_rate': 1.6435811196329325e-05, 'epoch': 0.51}


 17%|█▋        | 1270/7344 [03:53<19:28,  5.20it/s]

{'loss': 0.0244, 'grad_norm': 0.00020214120741002262, 'learning_rate': 1.6408796385027005e-05, 'epoch': 0.52}


 17%|█▋        | 1281/7344 [03:55<19:34,  5.16it/s]

{'loss': 0.0001, 'grad_norm': 0.00031788149499334395, 'learning_rate': 1.638178157372469e-05, 'epoch': 0.52}


 18%|█▊        | 1291/7344 [03:57<19:35,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.00015233372687362134, 'learning_rate': 1.6354766762422374e-05, 'epoch': 0.53}


 18%|█▊        | 1301/7344 [03:59<19:34,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00020457884238567203, 'learning_rate': 1.6327751951120058e-05, 'epoch': 0.53}


 18%|█▊        | 1311/7344 [04:01<19:33,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.000366479012882337, 'learning_rate': 1.6300737139817742e-05, 'epoch': 0.54}


 18%|█▊        | 1321/7344 [04:03<19:34,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0003935213608201593, 'learning_rate': 1.6273722328515423e-05, 'epoch': 0.54}


 18%|█▊        | 1331/7344 [04:05<19:29,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00043504813220351934, 'learning_rate': 1.6246707517213107e-05, 'epoch': 0.54}


 18%|█▊        | 1341/7344 [04:07<19:38,  5.10it/s]

{'loss': 0.0003, 'grad_norm': 0.00016708510520402342, 'learning_rate': 1.621969270591079e-05, 'epoch': 0.55}


 18%|█▊        | 1351/7344 [04:09<19:16,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.00018664919480215758, 'learning_rate': 1.6192677894608476e-05, 'epoch': 0.55}


 19%|█▊        | 1360/7344 [04:10<19:13,  5.19it/s]

{'loss': 0.0, 'grad_norm': 0.00021718975040130317, 'learning_rate': 1.6165663083306157e-05, 'epoch': 0.56}


 19%|█▊        | 1371/7344 [04:13<19:28,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.00024138082517310977, 'learning_rate': 1.6138648272003844e-05, 'epoch': 0.56}


 19%|█▉        | 1380/7344 [04:14<19:14,  5.17it/s]

{'loss': 0.0658, 'grad_norm': 0.0004362613835837692, 'learning_rate': 1.6111633460701525e-05, 'epoch': 0.56}


 19%|█▉        | 1391/7344 [04:16<19:26,  5.10it/s]

{'loss': 0.0052, 'grad_norm': 65.51280212402344, 'learning_rate': 1.608461864939921e-05, 'epoch': 0.57}


 19%|█▉        | 1401/7344 [04:18<19:00,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.000124958751257509, 'learning_rate': 1.6057603838096894e-05, 'epoch': 0.57}


 19%|█▉        | 1411/7344 [04:20<19:02,  5.19it/s]

{'loss': 0.0218, 'grad_norm': 0.0006035089027136564, 'learning_rate': 1.6030589026794578e-05, 'epoch': 0.58}


 19%|█▉        | 1421/7344 [04:22<18:57,  5.21it/s]

{'loss': 0.1356, 'grad_norm': 0.0031769201159477234, 'learning_rate': 1.600357421549226e-05, 'epoch': 0.58}


 19%|█▉        | 1431/7344 [04:24<19:01,  5.18it/s]

{'loss': 0.0001, 'grad_norm': 0.00413677329197526, 'learning_rate': 1.5976559404189943e-05, 'epoch': 0.58}


 20%|█▉        | 1440/7344 [04:26<18:53,  5.21it/s]

{'loss': 0.1387, 'grad_norm': 0.007700781803578138, 'learning_rate': 1.5949544592887627e-05, 'epoch': 0.59}


 20%|█▉        | 1451/7344 [04:28<19:00,  5.17it/s]

{'loss': 0.0002, 'grad_norm': 0.002698668045923114, 'learning_rate': 1.592252978158531e-05, 'epoch': 0.59}


 20%|█▉        | 1461/7344 [04:30<18:56,  5.18it/s]

{'loss': 0.0002, 'grad_norm': 0.013724098913371563, 'learning_rate': 1.5895514970282992e-05, 'epoch': 0.6}


 20%|██        | 1471/7344 [04:32<18:48,  5.21it/s]

{'loss': 0.1852, 'grad_norm': 0.001721831038594246, 'learning_rate': 1.586850015898068e-05, 'epoch': 0.6}


 20%|██        | 1481/7344 [04:34<18:49,  5.19it/s]

{'loss': 0.0051, 'grad_norm': 96.2178955078125, 'learning_rate': 1.584148534767836e-05, 'epoch': 0.6}


 20%|██        | 1491/7344 [04:36<18:55,  5.16it/s]

{'loss': 0.0001, 'grad_norm': 0.004804565571248531, 'learning_rate': 1.5814470536376045e-05, 'epoch': 0.61}


 20%|██        | 1501/7344 [04:38<19:05,  5.10it/s]

{'loss': 0.0001, 'grad_norm': 0.0009502280736342072, 'learning_rate': 1.5787455725073726e-05, 'epoch': 0.61}


 21%|██        | 1511/7344 [04:40<18:46,  5.18it/s]

{'loss': 0.0001, 'grad_norm': 0.00036867507151328027, 'learning_rate': 1.5760440913771414e-05, 'epoch': 0.62}


 21%|██        | 1521/7344 [04:42<18:42,  5.19it/s]

{'loss': 0.0, 'grad_norm': 0.0009024234605021775, 'learning_rate': 1.5733426102469094e-05, 'epoch': 0.62}


 21%|██        | 1531/7344 [04:43<18:38,  5.20it/s]

{'loss': 0.0, 'grad_norm': 0.0018769776215776801, 'learning_rate': 1.570641129116678e-05, 'epoch': 0.62}


 21%|██        | 1541/7344 [04:45<18:48,  5.14it/s]

{'loss': 0.0001, 'grad_norm': 0.0027503313031047583, 'learning_rate': 1.5679396479864463e-05, 'epoch': 0.63}


 21%|██        | 1551/7344 [04:47<18:40,  5.17it/s]

{'loss': 0.0001, 'grad_norm': 0.0007595688803121448, 'learning_rate': 1.5652381668562147e-05, 'epoch': 0.63}


 21%|██▏       | 1561/7344 [04:49<18:30,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.0014027662109583616, 'learning_rate': 1.5625366857259828e-05, 'epoch': 0.64}


 21%|██▏       | 1571/7344 [04:51<18:31,  5.19it/s]

{'loss': 0.0, 'grad_norm': 0.0012469158973544836, 'learning_rate': 1.5598352045957512e-05, 'epoch': 0.64}


 22%|██▏       | 1581/7344 [04:53<18:36,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0006705198902636766, 'learning_rate': 1.5571337234655197e-05, 'epoch': 0.65}


 22%|██▏       | 1591/7344 [04:55<18:35,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0011010259622707963, 'learning_rate': 1.554432242335288e-05, 'epoch': 0.65}


 22%|██▏       | 1601/7344 [04:57<19:01,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.0008100761915557086, 'learning_rate': 1.551730761205056e-05, 'epoch': 0.65}


 22%|██▏       | 1610/7344 [04:59<18:34,  5.15it/s]

{'loss': 0.0003, 'grad_norm': 0.0009338911040686071, 'learning_rate': 1.549029280074825e-05, 'epoch': 0.66}


 22%|██▏       | 1621/7344 [05:01<18:28,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0015734836924821138, 'learning_rate': 1.546327798944593e-05, 'epoch': 0.66}


 22%|██▏       | 1631/7344 [05:03<18:32,  5.14it/s]

{'loss': 0.0001, 'grad_norm': 0.00039795180782675743, 'learning_rate': 1.5436263178143614e-05, 'epoch': 0.67}


 22%|██▏       | 1641/7344 [05:05<18:33,  5.12it/s]

{'loss': 0.0002, 'grad_norm': 0.001214260351844132, 'learning_rate': 1.54092483668413e-05, 'epoch': 0.67}


 22%|██▏       | 1651/7344 [05:07<18:22,  5.16it/s]

{'loss': 0.1021, 'grad_norm': 0.0003552365815266967, 'learning_rate': 1.5382233555538983e-05, 'epoch': 0.67}


 23%|██▎       | 1661/7344 [05:09<18:20,  5.17it/s]

{'loss': 0.0001, 'grad_norm': 0.0019663062412291765, 'learning_rate': 1.5355218744236664e-05, 'epoch': 0.68}


 23%|██▎       | 1671/7344 [05:11<18:19,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0012875401880592108, 'learning_rate': 1.5328203932934348e-05, 'epoch': 0.68}


 23%|██▎       | 1681/7344 [05:13<18:26,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00039309554267674685, 'learning_rate': 1.5301189121632032e-05, 'epoch': 0.69}


 23%|██▎       | 1691/7344 [05:15<18:18,  5.15it/s]

{'loss': 0.0003, 'grad_norm': 0.0010625185677781701, 'learning_rate': 1.5274174310329716e-05, 'epoch': 0.69}


 23%|██▎       | 1701/7344 [05:16<18:18,  5.14it/s]

{'loss': 0.0003, 'grad_norm': 0.001053507556207478, 'learning_rate': 1.5247159499027399e-05, 'epoch': 0.69}


 23%|██▎       | 1711/7344 [05:18<18:13,  5.15it/s]

{'loss': 0.0001, 'grad_norm': 0.0017617949051782489, 'learning_rate': 1.5220144687725083e-05, 'epoch': 0.7}


 23%|██▎       | 1721/7344 [05:20<18:24,  5.09it/s]

{'loss': 0.1223, 'grad_norm': 87.0942611694336, 'learning_rate': 1.5193129876422768e-05, 'epoch': 0.7}


 24%|██▎       | 1731/7344 [05:22<18:18,  5.11it/s]

{'loss': 0.0001, 'grad_norm': 0.000276999082416296, 'learning_rate': 1.516611506512045e-05, 'epoch': 0.71}


 24%|██▎       | 1741/7344 [05:24<18:26,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.0005851354217156768, 'learning_rate': 1.5139100253818133e-05, 'epoch': 0.71}


 24%|██▍       | 1751/7344 [05:26<18:50,  4.95it/s]

{'loss': 0.0002, 'grad_norm': 0.0007721597794443369, 'learning_rate': 1.5112085442515819e-05, 'epoch': 0.71}


 24%|██▍       | 1760/7344 [05:28<18:09,  5.12it/s]

{'loss': 0.0034, 'grad_norm': 0.00046090062824077904, 'learning_rate': 1.5085070631213501e-05, 'epoch': 0.72}


 24%|██▍       | 1771/7344 [05:30<18:12,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.0006644804961979389, 'learning_rate': 1.5058055819911184e-05, 'epoch': 0.72}


 24%|██▍       | 1781/7344 [05:32<18:02,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00044898418127559125, 'learning_rate': 1.503104100860887e-05, 'epoch': 0.73}


 24%|██▍       | 1791/7344 [05:34<18:11,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.00042989812209270895, 'learning_rate': 1.5004026197306552e-05, 'epoch': 0.73}


 25%|██▍       | 1801/7344 [05:36<17:56,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.001574950059875846, 'learning_rate': 1.4977011386004235e-05, 'epoch': 0.74}


 25%|██▍       | 1811/7344 [05:38<18:06,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0005001485114917159, 'learning_rate': 1.4949996574701917e-05, 'epoch': 0.74}


 25%|██▍       | 1821/7344 [05:40<18:01,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.0005133241647854447, 'learning_rate': 1.4922981763399603e-05, 'epoch': 0.74}


 25%|██▍       | 1831/7344 [05:42<18:20,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0018976849969476461, 'learning_rate': 1.4895966952097286e-05, 'epoch': 0.75}


 25%|██▌       | 1841/7344 [05:44<18:01,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.00045162535388953984, 'learning_rate': 1.4868952140794968e-05, 'epoch': 0.75}


 25%|██▌       | 1851/7344 [05:46<17:48,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00072686024941504, 'learning_rate': 1.4841937329492654e-05, 'epoch': 0.76}


 25%|██▌       | 1861/7344 [05:48<17:47,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0008549652411602437, 'learning_rate': 1.4814922518190337e-05, 'epoch': 0.76}


 25%|██▌       | 1871/7344 [05:50<17:39,  5.17it/s]

{'loss': 0.0, 'grad_norm': 0.000828558171633631, 'learning_rate': 1.478790770688802e-05, 'epoch': 0.76}


 26%|██▌       | 1881/7344 [05:52<17:44,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.00023312153643928468, 'learning_rate': 1.4760892895585702e-05, 'epoch': 0.77}


 26%|██▌       | 1890/7344 [05:53<17:46,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00034876458812505007, 'learning_rate': 1.4733878084283388e-05, 'epoch': 0.77}


 26%|██▌       | 1901/7344 [05:56<17:33,  5.17it/s]

{'loss': 0.0, 'grad_norm': 0.00034866429632529616, 'learning_rate': 1.470686327298107e-05, 'epoch': 0.78}


 26%|██▌       | 1911/7344 [05:58<17:39,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0007501731161028147, 'learning_rate': 1.4679848461678753e-05, 'epoch': 0.78}


 26%|██▌       | 1920/7344 [05:59<17:42,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.00029533100314438343, 'learning_rate': 1.4652833650376439e-05, 'epoch': 0.78}


 26%|██▋       | 1930/7344 [06:01<18:55,  4.77it/s]

{'loss': 0.0, 'grad_norm': 0.0005707129021175206, 'learning_rate': 1.4625818839074121e-05, 'epoch': 0.79}


 26%|██▋       | 1941/7344 [06:04<18:41,  4.82it/s]

{'loss': 0.0, 'grad_norm': 0.0004275705141481012, 'learning_rate': 1.4598804027771804e-05, 'epoch': 0.79}


 27%|██▋       | 1951/7344 [06:06<17:32,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.0002108156040776521, 'learning_rate': 1.457178921646949e-05, 'epoch': 0.8}


 27%|██▋       | 1961/7344 [06:08<17:38,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0005143155576661229, 'learning_rate': 1.4544774405167172e-05, 'epoch': 0.8}


 27%|██▋       | 1971/7344 [06:10<17:24,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00032220082357525826, 'learning_rate': 1.4517759593864855e-05, 'epoch': 0.8}


 27%|██▋       | 1981/7344 [06:12<17:24,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.0004460052296053618, 'learning_rate': 1.4490744782562537e-05, 'epoch': 0.81}


 27%|██▋       | 1991/7344 [06:13<17:23,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.000321650062687695, 'learning_rate': 1.4463729971260223e-05, 'epoch': 0.81}


 27%|██▋       | 2001/7344 [06:15<17:14,  5.16it/s]

{'loss': 0.0001, 'grad_norm': 1.0528215169906616, 'learning_rate': 1.4436715159957906e-05, 'epoch': 0.82}


 27%|██▋       | 2011/7344 [06:17<17:12,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.00027995850541628897, 'learning_rate': 1.4409700348655589e-05, 'epoch': 0.82}


 28%|██▊       | 2021/7344 [06:19<17:40,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0002247233787784353, 'learning_rate': 1.4382685537353274e-05, 'epoch': 0.83}


 28%|██▊       | 2030/7344 [06:21<17:09,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.00024072828819043934, 'learning_rate': 1.4355670726050957e-05, 'epoch': 0.83}


 28%|██▊       | 2040/7344 [06:23<17:13,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0004945421824231744, 'learning_rate': 1.432865591474864e-05, 'epoch': 0.83}


 28%|██▊       | 2051/7344 [06:25<17:09,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.0011619670549407601, 'learning_rate': 1.4301641103446324e-05, 'epoch': 0.84}


 28%|██▊       | 2061/7344 [06:27<17:16,  5.10it/s]

{'loss': 0.0519, 'grad_norm': 486.3612976074219, 'learning_rate': 1.4274626292144008e-05, 'epoch': 0.84}


 28%|██▊       | 2070/7344 [06:29<16:58,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.0003264302504248917, 'learning_rate': 1.424761148084169e-05, 'epoch': 0.85}


 28%|██▊       | 2081/7344 [06:31<16:59,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0001716121769277379, 'learning_rate': 1.4220596669539375e-05, 'epoch': 0.85}


 28%|██▊       | 2091/7344 [06:33<16:59,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.00013864561333321035, 'learning_rate': 1.4193581858237059e-05, 'epoch': 0.85}


 29%|██▊       | 2101/7344 [06:35<16:59,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00028096733149141073, 'learning_rate': 1.4166567046934742e-05, 'epoch': 0.86}


 29%|██▊       | 2111/7344 [06:37<16:58,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.0010538978967815638, 'learning_rate': 1.4139552235632426e-05, 'epoch': 0.86}


 29%|██▉       | 2121/7344 [06:39<17:09,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.00022877533046994358, 'learning_rate': 1.4112537424330108e-05, 'epoch': 0.87}


 29%|██▉       | 2130/7344 [06:41<17:13,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.00021171278785914183, 'learning_rate': 1.4085522613027793e-05, 'epoch': 0.87}


 29%|██▉       | 2141/7344 [06:43<16:58,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.00021372009359765798, 'learning_rate': 1.4058507801725477e-05, 'epoch': 0.87}


 29%|██▉       | 2151/7344 [06:45<16:50,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.0003039672737941146, 'learning_rate': 1.403149299042316e-05, 'epoch': 0.88}


 29%|██▉       | 2161/7344 [06:47<16:57,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.00023359849001280963, 'learning_rate': 1.4004478179120844e-05, 'epoch': 0.88}


 30%|██▉       | 2171/7344 [06:49<16:44,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.0009004378225654364, 'learning_rate': 1.3977463367818526e-05, 'epoch': 0.89}


 30%|██▉       | 2181/7344 [06:51<16:40,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.00020672667596954852, 'learning_rate': 1.395044855651621e-05, 'epoch': 0.89}


 30%|██▉       | 2191/7344 [06:52<16:40,  5.15it/s]

{'loss': 0.0034, 'grad_norm': 0.00026926081045530736, 'learning_rate': 1.3923433745213893e-05, 'epoch': 0.89}


 30%|██▉       | 2201/7344 [06:54<16:55,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0003152329591102898, 'learning_rate': 1.3896418933911577e-05, 'epoch': 0.9}


 30%|███       | 2211/7344 [06:56<16:41,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00040824609459377825, 'learning_rate': 1.3869404122609262e-05, 'epoch': 0.9}


 30%|███       | 2221/7344 [06:58<16:38,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0002472535998094827, 'learning_rate': 1.3842389311306944e-05, 'epoch': 0.91}


 30%|███       | 2230/7344 [07:00<16:30,  5.16it/s]

{'loss': 0.0257, 'grad_norm': 0.00015723489923402667, 'learning_rate': 1.3815374500004628e-05, 'epoch': 0.91}


 31%|███       | 2241/7344 [07:02<16:46,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0010815128916874528, 'learning_rate': 1.3788359688702313e-05, 'epoch': 0.92}


 31%|███       | 2251/7344 [07:04<16:48,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.011607338674366474, 'learning_rate': 1.3761344877399995e-05, 'epoch': 0.92}


 31%|███       | 2261/7344 [07:06<16:36,  5.10it/s]

{'loss': 0.1468, 'grad_norm': 0.0001873514847829938, 'learning_rate': 1.3734330066097678e-05, 'epoch': 0.92}


 31%|███       | 2271/7344 [07:08<16:38,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.00042861062684096396, 'learning_rate': 1.3707315254795364e-05, 'epoch': 0.93}


 31%|███       | 2281/7344 [07:10<16:24,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00040436440031044185, 'learning_rate': 1.3680300443493046e-05, 'epoch': 0.93}


 31%|███       | 2291/7344 [07:12<16:38,  5.06it/s]

{'loss': 0.1311, 'grad_norm': 0.0002717890019994229, 'learning_rate': 1.3653285632190729e-05, 'epoch': 0.94}


 31%|███▏      | 2301/7344 [07:14<16:14,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.028838561847805977, 'learning_rate': 1.3626270820888415e-05, 'epoch': 0.94}


 31%|███▏      | 2311/7344 [07:16<16:13,  5.17it/s]

{'loss': 0.0109, 'grad_norm': 0.0012029135832563043, 'learning_rate': 1.3599256009586097e-05, 'epoch': 0.94}


 32%|███▏      | 2321/7344 [07:18<16:27,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0024147755466401577, 'learning_rate': 1.357224119828378e-05, 'epoch': 0.95}


 32%|███▏      | 2331/7344 [07:20<16:18,  5.12it/s]

{'loss': 0.0009, 'grad_norm': 0.0006645803223364055, 'learning_rate': 1.3545226386981464e-05, 'epoch': 0.95}


 32%|███▏      | 2341/7344 [07:22<16:05,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.0004555419727694243, 'learning_rate': 1.3518211575679148e-05, 'epoch': 0.96}


 32%|███▏      | 2351/7344 [07:24<16:25,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.00039657120942138135, 'learning_rate': 1.349119676437683e-05, 'epoch': 0.96}


 32%|███▏      | 2361/7344 [07:26<16:19,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0002748298575170338, 'learning_rate': 1.3464181953074513e-05, 'epoch': 0.96}


 32%|███▏      | 2371/7344 [07:28<16:17,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.00030004241853021085, 'learning_rate': 1.34371671417722e-05, 'epoch': 0.97}


 32%|███▏      | 2381/7344 [07:30<16:14,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0002663831110112369, 'learning_rate': 1.3410152330469882e-05, 'epoch': 0.97}


 33%|███▎      | 2390/7344 [07:31<16:12,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0008799794013611972, 'learning_rate': 1.3383137519167564e-05, 'epoch': 0.98}


 33%|███▎      | 2401/7344 [07:34<16:05,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.0006899660802446306, 'learning_rate': 1.335612270786525e-05, 'epoch': 0.98}


 33%|███▎      | 2411/7344 [07:36<16:04,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.0003870849031955004, 'learning_rate': 1.3329107896562933e-05, 'epoch': 0.98}


 33%|███▎      | 2420/7344 [07:37<16:03,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.00015623605577275157, 'learning_rate': 1.3302093085260615e-05, 'epoch': 0.99}


 33%|███▎      | 2431/7344 [07:39<16:32,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.0004128570144530386, 'learning_rate': 1.3275078273958298e-05, 'epoch': 0.99}


 33%|███▎      | 2441/7344 [07:41<15:54,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00021349856979213655, 'learning_rate': 1.3248063462655984e-05, 'epoch': 1.0}


 33%|███▎      | 2448/7344 [07:43<14:00,  5.83it/s]
 33%|███▎      | 2448/7344 [08:21<14:00,  5.83it/s]

{'eval_loss': 0.014832818880677223, 'eval_accuracy': 0.9983657163609951, 'eval_f1': 0.9983737461392913, 'eval_runtime': 38.3405, 'eval_samples_per_second': 143.634, 'eval_steps_per_second': 17.971, 'epoch': 1.0}


 33%|███▎      | 2451/7344 [08:58<15:09:00, 11.15s/it]

{'loss': 0.0, 'grad_norm': 0.00023803312797099352, 'learning_rate': 1.3221048651353666e-05, 'epoch': 1.0}


 34%|███▎      | 2461/7344 [08:59<36:16,  2.24it/s]   

{'loss': 0.0, 'grad_norm': 0.00035689506330527365, 'learning_rate': 1.3194033840051349e-05, 'epoch': 1.0}


 34%|███▎      | 2471/7344 [09:01<12:09,  6.68it/s]

{'loss': 0.0, 'grad_norm': 0.00015065312618389726, 'learning_rate': 1.3167019028749035e-05, 'epoch': 1.01}


 34%|███▍      | 2481/7344 [09:02<11:23,  7.11it/s]

{'loss': 0.0, 'grad_norm': 0.00020460531231947243, 'learning_rate': 1.3140004217446717e-05, 'epoch': 1.01}


 34%|███▍      | 2491/7344 [09:04<13:39,  5.92it/s]

{'loss': 0.0, 'grad_norm': 0.0004971633316017687, 'learning_rate': 1.31129894061444e-05, 'epoch': 1.02}


 34%|███▍      | 2501/7344 [09:05<12:41,  6.36it/s]

{'loss': 0.0, 'grad_norm': 0.0002058958780253306, 'learning_rate': 1.3085974594842083e-05, 'epoch': 1.02}


 34%|███▍      | 2511/7344 [09:07<11:44,  6.86it/s]

{'loss': 0.0, 'grad_norm': 0.00023370899725705385, 'learning_rate': 1.3058959783539769e-05, 'epoch': 1.03}


 34%|███▍      | 2521/7344 [09:08<11:39,  6.90it/s]

{'loss': 0.0, 'grad_norm': 0.0007656298694200814, 'learning_rate': 1.3031944972237451e-05, 'epoch': 1.03}


 34%|███▍      | 2531/7344 [09:10<11:43,  6.84it/s]

{'loss': 0.0, 'grad_norm': 0.0002913656353484839, 'learning_rate': 1.3004930160935134e-05, 'epoch': 1.03}


 35%|███▍      | 2541/7344 [09:11<12:23,  6.46it/s]

{'loss': 0.0, 'grad_norm': 0.0002279514737892896, 'learning_rate': 1.297791534963282e-05, 'epoch': 1.04}


 35%|███▍      | 2551/7344 [09:13<12:12,  6.54it/s]

{'loss': 0.0, 'grad_norm': 0.0002897336089517921, 'learning_rate': 1.2950900538330502e-05, 'epoch': 1.04}


 35%|███▍      | 2561/7344 [09:14<12:10,  6.55it/s]

{'loss': 0.0, 'grad_norm': 0.00015751062892377377, 'learning_rate': 1.2923885727028185e-05, 'epoch': 1.05}


 35%|███▌      | 2571/7344 [09:16<12:25,  6.40it/s]

{'loss': 0.0, 'grad_norm': 0.00015850474301259965, 'learning_rate': 1.2896870915725869e-05, 'epoch': 1.05}


 35%|███▌      | 2581/7344 [09:17<11:51,  6.70it/s]

{'loss': 0.0, 'grad_norm': 0.00021031859796494246, 'learning_rate': 1.2869856104423553e-05, 'epoch': 1.05}


 35%|███▌      | 2591/7344 [09:19<11:59,  6.61it/s]

{'loss': 0.0, 'grad_norm': 0.0003937811416108161, 'learning_rate': 1.2842841293121236e-05, 'epoch': 1.06}


 35%|███▌      | 2601/7344 [09:20<12:05,  6.54it/s]

{'loss': 0.0, 'grad_norm': 0.00029184765298850834, 'learning_rate': 1.2815826481818918e-05, 'epoch': 1.06}


 36%|███▌      | 2611/7344 [09:22<12:03,  6.54it/s]

{'loss': 0.0, 'grad_norm': 0.00032087252475321293, 'learning_rate': 1.2788811670516604e-05, 'epoch': 1.07}


 36%|███▌      | 2621/7344 [09:24<12:01,  6.55it/s]

{'loss': 0.0, 'grad_norm': 0.00012605107622221112, 'learning_rate': 1.2761796859214287e-05, 'epoch': 1.07}


 36%|███▌      | 2631/7344 [09:25<12:01,  6.53it/s]

{'loss': 0.0, 'grad_norm': 0.0003675012558232993, 'learning_rate': 1.273478204791197e-05, 'epoch': 1.07}


 36%|███▌      | 2641/7344 [09:27<12:34,  6.23it/s]

{'loss': 0.0, 'grad_norm': 0.0006683180690743029, 'learning_rate': 1.2707767236609654e-05, 'epoch': 1.08}


 36%|███▌      | 2651/7344 [09:28<11:52,  6.58it/s]

{'loss': 0.0, 'grad_norm': 0.00019337232515681535, 'learning_rate': 1.2680752425307338e-05, 'epoch': 1.08}


 36%|███▌      | 2661/7344 [09:30<11:52,  6.57it/s]

{'loss': 0.0, 'grad_norm': 0.0003017674316652119, 'learning_rate': 1.265373761400502e-05, 'epoch': 1.09}


 36%|███▋      | 2671/7344 [09:31<11:56,  6.52it/s]

{'loss': 0.0, 'grad_norm': 0.0001759843435138464, 'learning_rate': 1.2626722802702705e-05, 'epoch': 1.09}


 37%|███▋      | 2681/7344 [09:33<12:22,  6.28it/s]

{'loss': 0.0, 'grad_norm': 0.0001618807582417503, 'learning_rate': 1.2599707991400389e-05, 'epoch': 1.09}


 37%|███▋      | 2691/7344 [09:34<12:05,  6.42it/s]

{'loss': 0.0, 'grad_norm': 0.0017096290830522776, 'learning_rate': 1.2572693180098071e-05, 'epoch': 1.1}


 37%|███▋      | 2701/7344 [09:36<11:55,  6.49it/s]

{'loss': 0.0, 'grad_norm': 0.0004315028782002628, 'learning_rate': 1.2545678368795756e-05, 'epoch': 1.1}


 37%|███▋      | 2711/7344 [09:38<12:24,  6.22it/s]

{'loss': 0.0, 'grad_norm': 0.0005302504869177938, 'learning_rate': 1.251866355749344e-05, 'epoch': 1.11}


 37%|███▋      | 2721/7344 [09:39<12:40,  6.08it/s]

{'loss': 0.0, 'grad_norm': 0.000169843333424069, 'learning_rate': 1.2491648746191122e-05, 'epoch': 1.11}


 37%|███▋      | 2731/7344 [09:41<12:25,  6.19it/s]

{'loss': 0.0, 'grad_norm': 0.00015610067930538207, 'learning_rate': 1.2464633934888807e-05, 'epoch': 1.12}


 37%|███▋      | 2741/7344 [09:42<12:33,  6.11it/s]

{'loss': 0.0, 'grad_norm': 0.00014395135804079473, 'learning_rate': 1.243761912358649e-05, 'epoch': 1.12}


 37%|███▋      | 2751/7344 [09:44<12:21,  6.20it/s]

{'loss': 0.0, 'grad_norm': 0.00145146029535681, 'learning_rate': 1.2410604312284173e-05, 'epoch': 1.12}


 38%|███▊      | 2761/7344 [09:46<12:13,  6.25it/s]

{'loss': 0.0, 'grad_norm': 0.00011742673814296722, 'learning_rate': 1.2383589500981856e-05, 'epoch': 1.13}


 38%|███▊      | 2771/7344 [09:47<12:17,  6.20it/s]

{'loss': 0.0, 'grad_norm': 0.00041287459316663444, 'learning_rate': 1.235657468967954e-05, 'epoch': 1.13}


 38%|███▊      | 2781/7344 [09:49<12:09,  6.26it/s]

{'loss': 0.0, 'grad_norm': 0.0003147281822748482, 'learning_rate': 1.2329559878377224e-05, 'epoch': 1.14}


 38%|███▊      | 2791/7344 [09:51<12:15,  6.19it/s]

{'loss': 0.0, 'grad_norm': 0.00014591247600037605, 'learning_rate': 1.2302545067074907e-05, 'epoch': 1.14}


 38%|███▊      | 2801/7344 [09:52<12:01,  6.30it/s]

{'loss': 0.0, 'grad_norm': 0.00048749701818451285, 'learning_rate': 1.2275530255772591e-05, 'epoch': 1.14}


 38%|███▊      | 2811/7344 [09:54<12:29,  6.05it/s]

{'loss': 0.0, 'grad_norm': 0.0004261763533577323, 'learning_rate': 1.2248515444470274e-05, 'epoch': 1.15}


 38%|███▊      | 2821/7344 [09:55<12:23,  6.08it/s]

{'loss': 0.0, 'grad_norm': 0.00014096593076828867, 'learning_rate': 1.2221500633167958e-05, 'epoch': 1.15}


 39%|███▊      | 2831/7344 [09:57<12:22,  6.08it/s]

{'loss': 0.0, 'grad_norm': 0.00025058837491087615, 'learning_rate': 1.2194485821865642e-05, 'epoch': 1.16}


 39%|███▊      | 2841/7344 [09:59<12:42,  5.90it/s]

{'loss': 0.0, 'grad_norm': 0.0003105670621152967, 'learning_rate': 1.2167471010563325e-05, 'epoch': 1.16}


 39%|███▉      | 2850/7344 [10:00<14:34,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.0007619995740242302, 'learning_rate': 1.2140456199261009e-05, 'epoch': 1.16}


 39%|███▉      | 2861/7344 [10:03<13:34,  5.50it/s]

{'loss': 0.0, 'grad_norm': 0.00018063593597617, 'learning_rate': 1.2113441387958693e-05, 'epoch': 1.17}


 39%|███▉      | 2871/7344 [10:04<13:35,  5.49it/s]

{'loss': 0.0, 'grad_norm': 0.00017229831428267062, 'learning_rate': 1.2086426576656376e-05, 'epoch': 1.17}


 39%|███▉      | 2881/7344 [10:06<13:26,  5.53it/s]

{'loss': 0.0, 'grad_norm': 0.0005767125403508544, 'learning_rate': 1.2059411765354058e-05, 'epoch': 1.18}


 39%|███▉      | 2891/7344 [10:08<13:27,  5.51it/s]

{'loss': 0.0, 'grad_norm': 0.0001943550305441022, 'learning_rate': 1.2032396954051744e-05, 'epoch': 1.18}


 40%|███▉      | 2901/7344 [10:10<13:25,  5.51it/s]

{'loss': 0.0, 'grad_norm': 0.00022768489725422114, 'learning_rate': 1.2005382142749427e-05, 'epoch': 1.18}


 40%|███▉      | 2911/7344 [10:12<13:10,  5.61it/s]

{'loss': 0.0, 'grad_norm': 0.00022030595573596656, 'learning_rate': 1.197836733144711e-05, 'epoch': 1.19}


 40%|███▉      | 2921/7344 [10:13<13:16,  5.55it/s]

{'loss': 0.0, 'grad_norm': 0.0002373531024204567, 'learning_rate': 1.1951352520144794e-05, 'epoch': 1.19}


 40%|███▉      | 2931/7344 [10:15<13:10,  5.58it/s]

{'loss': 0.0, 'grad_norm': 0.00018025028111878783, 'learning_rate': 1.1924337708842478e-05, 'epoch': 1.2}


 40%|████      | 2941/7344 [10:17<13:13,  5.55it/s]

{'loss': 0.0, 'grad_norm': 0.00017068134911824018, 'learning_rate': 1.189732289754016e-05, 'epoch': 1.2}


 40%|████      | 2951/7344 [10:19<13:05,  5.59it/s]

{'loss': 0.0, 'grad_norm': 9.929104271577671e-05, 'learning_rate': 1.1870308086237843e-05, 'epoch': 1.21}


 40%|████      | 2961/7344 [10:21<13:15,  5.51it/s]

{'loss': 0.0, 'grad_norm': 0.00018677549087442458, 'learning_rate': 1.1843293274935529e-05, 'epoch': 1.21}


 40%|████      | 2971/7344 [10:22<13:14,  5.50it/s]

{'loss': 0.0, 'grad_norm': 0.00025132723385468125, 'learning_rate': 1.1816278463633212e-05, 'epoch': 1.21}


 41%|████      | 2981/7344 [10:24<13:02,  5.57it/s]

{'loss': 0.0, 'grad_norm': 0.00018672073201742023, 'learning_rate': 1.1789263652330894e-05, 'epoch': 1.22}


 41%|████      | 2991/7344 [10:26<13:14,  5.48it/s]

{'loss': 0.0, 'grad_norm': 0.00013865952496416867, 'learning_rate': 1.176224884102858e-05, 'epoch': 1.22}


 41%|████      | 3001/7344 [10:28<13:11,  5.49it/s]

{'loss': 0.0, 'grad_norm': 0.00013755499094258994, 'learning_rate': 1.1735234029726263e-05, 'epoch': 1.23}


 41%|████      | 3011/7344 [10:30<13:13,  5.46it/s]

{'loss': 0.0, 'grad_norm': 0.0001685416791588068, 'learning_rate': 1.1708219218423945e-05, 'epoch': 1.23}


 41%|████      | 3021/7344 [10:31<13:04,  5.51it/s]

{'loss': 0.0, 'grad_norm': 0.00010082570224767551, 'learning_rate': 1.1681204407121631e-05, 'epoch': 1.23}


 41%|████▏     | 3031/7344 [10:33<13:11,  5.45it/s]

{'loss': 0.0, 'grad_norm': 0.00016310796490870416, 'learning_rate': 1.1654189595819314e-05, 'epoch': 1.24}


 41%|████▏     | 3041/7344 [10:35<13:02,  5.50it/s]

{'loss': 0.0, 'grad_norm': 0.000194360880414024, 'learning_rate': 1.1627174784516996e-05, 'epoch': 1.24}


 42%|████▏     | 3051/7344 [10:37<13:04,  5.47it/s]

{'loss': 0.0, 'grad_norm': 0.00020152707293163985, 'learning_rate': 1.1600159973214679e-05, 'epoch': 1.25}


 42%|████▏     | 3061/7344 [10:39<13:05,  5.45it/s]

{'loss': 0.0, 'grad_norm': 0.0003208431589882821, 'learning_rate': 1.1573145161912365e-05, 'epoch': 1.25}


 42%|████▏     | 3071/7344 [10:41<12:58,  5.49it/s]

{'loss': 0.0004, 'grad_norm': 0.0001834995928220451, 'learning_rate': 1.1546130350610047e-05, 'epoch': 1.25}


 42%|████▏     | 3081/7344 [10:42<13:00,  5.46it/s]

{'loss': 0.0, 'grad_norm': 0.0003102795162703842, 'learning_rate': 1.151911553930773e-05, 'epoch': 1.26}


 42%|████▏     | 3091/7344 [10:44<13:05,  5.41it/s]

{'loss': 0.0, 'grad_norm': 0.00011761405767174438, 'learning_rate': 1.1492100728005416e-05, 'epoch': 1.26}


 42%|████▏     | 3101/7344 [10:46<14:26,  4.90it/s]

{'loss': 0.0, 'grad_norm': 0.0002502723364159465, 'learning_rate': 1.1465085916703098e-05, 'epoch': 1.27}


 42%|████▏     | 3110/7344 [10:48<14:04,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00028324383310973644, 'learning_rate': 1.143807110540078e-05, 'epoch': 1.27}


 42%|████▏     | 3121/7344 [10:50<14:02,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0001258724951185286, 'learning_rate': 1.1411056294098463e-05, 'epoch': 1.27}


 43%|████▎     | 3131/7344 [10:52<14:58,  4.69it/s]

{'loss': 0.0, 'grad_norm': 0.00016609362501185387, 'learning_rate': 1.138404148279615e-05, 'epoch': 1.28}


 43%|████▎     | 3141/7344 [10:54<14:14,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.00015892396913841367, 'learning_rate': 1.1357026671493832e-05, 'epoch': 1.28}


 43%|████▎     | 3151/7344 [10:56<13:56,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00018508773064240813, 'learning_rate': 1.1330011860191514e-05, 'epoch': 1.29}


 43%|████▎     | 3161/7344 [10:59<14:11,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.00016417923325207084, 'learning_rate': 1.13029970488892e-05, 'epoch': 1.29}


 43%|████▎     | 3171/7344 [11:01<14:04,  4.94it/s]

{'loss': 0.0, 'grad_norm': 8.420588710578158e-05, 'learning_rate': 1.1275982237586883e-05, 'epoch': 1.29}


 43%|████▎     | 3180/7344 [11:02<14:45,  4.70it/s]

{'loss': 0.0, 'grad_norm': 0.0001438436156604439, 'learning_rate': 1.1248967426284565e-05, 'epoch': 1.3}


 43%|████▎     | 3190/7344 [11:05<14:03,  4.93it/s]

{'loss': 0.0, 'grad_norm': 9.72920170170255e-05, 'learning_rate': 1.122195261498225e-05, 'epoch': 1.3}


 44%|████▎     | 3200/7344 [11:07<14:43,  4.69it/s]

{'loss': 0.1555, 'grad_norm': 8.993320079753175e-05, 'learning_rate': 1.1194937803679934e-05, 'epoch': 1.31}


 44%|████▎     | 3210/7344 [11:09<18:01,  3.82it/s]

{'loss': 0.0, 'grad_norm': 0.00013378504081629217, 'learning_rate': 1.1167922992377616e-05, 'epoch': 1.31}


 44%|████▍     | 3220/7344 [11:12<18:00,  3.82it/s]

{'loss': 0.0, 'grad_norm': 0.00017709405801724643, 'learning_rate': 1.1140908181075299e-05, 'epoch': 1.32}


 44%|████▍     | 3230/7344 [11:14<15:02,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.00016534455062355846, 'learning_rate': 1.1113893369772985e-05, 'epoch': 1.32}


 44%|████▍     | 3240/7344 [11:16<14:40,  4.66it/s]

{'loss': 0.0, 'grad_norm': 0.00015210149285849184, 'learning_rate': 1.1086878558470667e-05, 'epoch': 1.32}


 44%|████▍     | 3250/7344 [11:19<14:20,  4.76it/s]

{'loss': 0.0, 'grad_norm': 0.0001398246386088431, 'learning_rate': 1.105986374716835e-05, 'epoch': 1.33}


 44%|████▍     | 3260/7344 [11:21<14:48,  4.60it/s]

{'loss': 0.0, 'grad_norm': 9.433408558834344e-05, 'learning_rate': 1.1032848935866034e-05, 'epoch': 1.33}


 45%|████▍     | 3270/7344 [11:23<14:53,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.00021157630544621497, 'learning_rate': 1.1005834124563718e-05, 'epoch': 1.34}


 45%|████▍     | 3281/7344 [11:25<13:50,  4.89it/s]

{'loss': 0.0, 'grad_norm': 0.00021649514383170754, 'learning_rate': 1.0978819313261401e-05, 'epoch': 1.34}


 45%|████▍     | 3291/7344 [11:27<13:29,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0001447007234673947, 'learning_rate': 1.0951804501959085e-05, 'epoch': 1.34}


 45%|████▍     | 3301/7344 [11:29<12:44,  5.29it/s]

{'loss': 0.0059, 'grad_norm': 0.00018351034668739885, 'learning_rate': 1.092478969065677e-05, 'epoch': 1.35}


 45%|████▌     | 3311/7344 [11:31<12:52,  5.22it/s]

{'loss': 0.0, 'grad_norm': 0.00025212750188075006, 'learning_rate': 1.0897774879354452e-05, 'epoch': 1.35}


 45%|████▌     | 3321/7344 [11:33<12:58,  5.16it/s]

{'loss': 0.1132, 'grad_norm': 0.00018730158626567572, 'learning_rate': 1.0870760068052136e-05, 'epoch': 1.36}


 45%|████▌     | 3330/7344 [11:35<16:06,  4.15it/s]

{'loss': 0.0, 'grad_norm': 0.0010115585755556822, 'learning_rate': 1.0843745256749819e-05, 'epoch': 1.36}


 45%|████▌     | 3341/7344 [11:38<15:13,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.0002298595500178635, 'learning_rate': 1.0816730445447503e-05, 'epoch': 1.36}


 46%|████▌     | 3350/7344 [11:40<13:58,  4.76it/s]

{'loss': 0.0, 'grad_norm': 0.0006185909151099622, 'learning_rate': 1.0789715634145187e-05, 'epoch': 1.37}


 46%|████▌     | 3361/7344 [11:42<13:58,  4.75it/s]

{'loss': 0.1294, 'grad_norm': 0.00028210540767759085, 'learning_rate': 1.076270082284287e-05, 'epoch': 1.37}


 46%|████▌     | 3371/7344 [11:44<13:12,  5.01it/s]

{'loss': 0.0001, 'grad_norm': 0.011963019147515297, 'learning_rate': 1.0735686011540554e-05, 'epoch': 1.38}


 46%|████▌     | 3381/7344 [11:46<13:11,  5.01it/s]

{'loss': 0.0001, 'grad_norm': 0.0062603638507425785, 'learning_rate': 1.0708671200238237e-05, 'epoch': 1.38}


 46%|████▌     | 3391/7344 [11:48<13:00,  5.07it/s]

{'loss': 0.0001, 'grad_norm': 0.0021640395279973745, 'learning_rate': 1.0681656388935921e-05, 'epoch': 1.38}


 46%|████▋     | 3401/7344 [11:50<12:57,  5.07it/s]

{'loss': 0.0001, 'grad_norm': 0.00045863271225243807, 'learning_rate': 1.0654641577633605e-05, 'epoch': 1.39}


 46%|████▋     | 3410/7344 [11:52<13:04,  5.01it/s]

{'loss': 0.0001, 'grad_norm': 0.0014637212734669447, 'learning_rate': 1.0627626766331288e-05, 'epoch': 1.39}


 47%|████▋     | 3421/7344 [11:54<12:54,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.09147874265909195, 'learning_rate': 1.0600611955028972e-05, 'epoch': 1.4}


 47%|████▋     | 3430/7344 [11:56<12:48,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.0011002515675500035, 'learning_rate': 1.0573597143726655e-05, 'epoch': 1.4}


 47%|████▋     | 3441/7344 [11:58<12:44,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.0004587400471791625, 'learning_rate': 1.0546582332424339e-05, 'epoch': 1.41}


 47%|████▋     | 3451/7344 [12:00<12:53,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.0007177696679718792, 'learning_rate': 1.0519567521122023e-05, 'epoch': 1.41}


 47%|████▋     | 3461/7344 [12:02<13:15,  4.88it/s]

{'loss': 0.0, 'grad_norm': 0.000418201059801504, 'learning_rate': 1.0492552709819706e-05, 'epoch': 1.41}


 47%|████▋     | 3470/7344 [12:04<14:31,  4.44it/s]

{'loss': 0.0, 'grad_norm': 0.0002093360380968079, 'learning_rate': 1.046553789851739e-05, 'epoch': 1.42}


 47%|████▋     | 3480/7344 [12:06<14:10,  4.54it/s]

{'loss': 0.0, 'grad_norm': 0.00013883346400689334, 'learning_rate': 1.0438523087215074e-05, 'epoch': 1.42}


 48%|████▊     | 3491/7344 [12:08<13:48,  4.65it/s]

{'loss': 0.0, 'grad_norm': 0.0013540183426812291, 'learning_rate': 1.0411508275912757e-05, 'epoch': 1.43}


 48%|████▊     | 3501/7344 [12:10<12:39,  5.06it/s]

{'loss': 0.0, 'grad_norm': 9.62285848800093e-05, 'learning_rate': 1.0384493464610439e-05, 'epoch': 1.43}


 48%|████▊     | 3511/7344 [12:12<12:48,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.002849046839401126, 'learning_rate': 1.0357478653308125e-05, 'epoch': 1.43}


 48%|████▊     | 3521/7344 [12:14<12:58,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.010034131817519665, 'learning_rate': 1.0330463842005808e-05, 'epoch': 1.44}


 48%|████▊     | 3530/7344 [12:16<12:42,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0001470624702051282, 'learning_rate': 1.030344903070349e-05, 'epoch': 1.44}


 48%|████▊     | 3540/7344 [12:18<12:36,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.0004112102906219661, 'learning_rate': 1.0276434219401174e-05, 'epoch': 1.45}


 48%|████▊     | 3551/7344 [12:20<12:20,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00030799314845353365, 'learning_rate': 1.0249419408098859e-05, 'epoch': 1.45}


 48%|████▊     | 3561/7344 [12:22<12:26,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.001760010258294642, 'learning_rate': 1.0222404596796541e-05, 'epoch': 1.45}


 49%|████▊     | 3571/7344 [12:24<12:34,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0006954225827939808, 'learning_rate': 1.0195389785494224e-05, 'epoch': 1.46}


 49%|████▉     | 3581/7344 [12:26<12:28,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0006352567579597235, 'learning_rate': 1.016837497419191e-05, 'epoch': 1.46}


 49%|████▉     | 3591/7344 [12:28<12:20,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0008447975851595402, 'learning_rate': 1.0141360162889592e-05, 'epoch': 1.47}


 49%|████▉     | 3600/7344 [12:30<12:20,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.0007505067624151707, 'learning_rate': 1.0114345351587275e-05, 'epoch': 1.47}


 49%|████▉     | 3611/7344 [12:32<12:16,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0011878738878294826, 'learning_rate': 1.008733054028496e-05, 'epoch': 1.47}


 49%|████▉     | 3621/7344 [12:34<12:23,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00044942632666788995, 'learning_rate': 1.0060315728982643e-05, 'epoch': 1.48}


 49%|████▉     | 3631/7344 [12:36<12:15,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.0002086970634991303, 'learning_rate': 1.0033300917680326e-05, 'epoch': 1.48}


 50%|████▉     | 3640/7344 [12:38<12:17,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0004320916486904025, 'learning_rate': 1.0006286106378008e-05, 'epoch': 1.49}


 50%|████▉     | 3651/7344 [12:40<12:30,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.0005703420611098409, 'learning_rate': 9.979271295075694e-06, 'epoch': 1.49}


 50%|████▉     | 3661/7344 [12:42<12:14,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00030360810342244804, 'learning_rate': 9.952256483773377e-06, 'epoch': 1.5}


 50%|████▉     | 3671/7344 [12:44<12:14,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00025319872656837106, 'learning_rate': 9.92524167247106e-06, 'epoch': 1.5}


 50%|█████     | 3681/7344 [12:46<12:00,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.00023830861027818173, 'learning_rate': 9.898226861168744e-06, 'epoch': 1.5}


 50%|█████     | 3691/7344 [12:48<11:58,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.0005164932226762176, 'learning_rate': 9.871212049866428e-06, 'epoch': 1.51}


 50%|█████     | 3701/7344 [12:50<12:01,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.0002842275716830045, 'learning_rate': 9.84419723856411e-06, 'epoch': 1.51}


 51%|█████     | 3711/7344 [12:52<11:58,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.0009801050182431936, 'learning_rate': 9.817182427261795e-06, 'epoch': 1.52}


 51%|█████     | 3720/7344 [12:54<11:57,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.00013600665261037648, 'learning_rate': 9.790167615959479e-06, 'epoch': 1.52}


 51%|█████     | 3731/7344 [12:56<12:01,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00019046428496949375, 'learning_rate': 9.763152804657161e-06, 'epoch': 1.52}


 51%|█████     | 3741/7344 [12:58<11:55,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00045765325194224715, 'learning_rate': 9.736137993354846e-06, 'epoch': 1.53}


 51%|█████     | 3751/7344 [13:00<11:56,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00030347806750796735, 'learning_rate': 9.709123182052528e-06, 'epoch': 1.53}


 51%|█████     | 3760/7344 [13:02<11:56,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.000264887697994709, 'learning_rate': 9.682108370750213e-06, 'epoch': 1.54}


 51%|█████▏    | 3771/7344 [13:04<11:50,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.0004222161660436541, 'learning_rate': 9.655093559447895e-06, 'epoch': 1.54}


 51%|█████▏    | 3781/7344 [13:06<11:47,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.000656748830806464, 'learning_rate': 9.62807874814558e-06, 'epoch': 1.54}


 52%|█████▏    | 3791/7344 [13:08<11:44,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.00022447766968980432, 'learning_rate': 9.601063936843264e-06, 'epoch': 1.55}


 52%|█████▏    | 3801/7344 [13:10<11:36,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0004219086258672178, 'learning_rate': 9.574049125540946e-06, 'epoch': 1.55}


 52%|█████▏    | 3811/7344 [13:12<11:42,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00036755853216163814, 'learning_rate': 9.54703431423863e-06, 'epoch': 1.56}


 52%|█████▏    | 3821/7344 [13:14<11:37,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.0006873488891869783, 'learning_rate': 9.520019502936313e-06, 'epoch': 1.56}


 52%|█████▏    | 3831/7344 [13:16<11:40,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0005060681141912937, 'learning_rate': 9.493004691633997e-06, 'epoch': 1.56}


 52%|█████▏    | 3841/7344 [13:18<11:30,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.00017983837460633367, 'learning_rate': 9.465989880331681e-06, 'epoch': 1.57}


 52%|█████▏    | 3851/7344 [13:20<11:20,  5.13it/s]

{'loss': 0.0, 'grad_norm': 9.040077566169202e-05, 'learning_rate': 9.438975069029364e-06, 'epoch': 1.57}


 53%|█████▎    | 3861/7344 [13:22<11:22,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.0002434300258755684, 'learning_rate': 9.411960257727048e-06, 'epoch': 1.58}


 53%|█████▎    | 3871/7344 [13:24<11:18,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00013466901145875454, 'learning_rate': 9.38494544642473e-06, 'epoch': 1.58}


 53%|█████▎    | 3881/7344 [13:26<11:15,  5.12it/s]

{'loss': 0.129, 'grad_norm': 0.00021710699365939945, 'learning_rate': 9.357930635122415e-06, 'epoch': 1.58}


 53%|█████▎    | 3890/7344 [13:28<11:10,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.0001896946196211502, 'learning_rate': 9.3309158238201e-06, 'epoch': 1.59}


 53%|█████▎    | 3901/7344 [13:30<11:19,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0005929660401307046, 'learning_rate': 9.303901012517782e-06, 'epoch': 1.59}


 53%|█████▎    | 3911/7344 [13:32<11:09,  5.13it/s]

{'loss': 0.1457, 'grad_norm': 0.0003129600081592798, 'learning_rate': 9.276886201215466e-06, 'epoch': 1.6}


 53%|█████▎    | 3921/7344 [13:34<11:23,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0003113024868071079, 'learning_rate': 9.249871389913149e-06, 'epoch': 1.6}


 54%|█████▎    | 3931/7344 [13:36<11:10,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0012357871746644378, 'learning_rate': 9.222856578610833e-06, 'epoch': 1.61}


 54%|█████▎    | 3940/7344 [13:37<11:05,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.005600873846560717, 'learning_rate': 9.195841767308517e-06, 'epoch': 1.61}


 54%|█████▍    | 3951/7344 [13:40<11:04,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.0014630411751568317, 'learning_rate': 9.1688269560062e-06, 'epoch': 1.61}


 54%|█████▍    | 3961/7344 [13:42<11:00,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.00234877853654325, 'learning_rate': 9.141812144703884e-06, 'epoch': 1.62}


 54%|█████▍    | 3971/7344 [13:43<10:56,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00034493880230002105, 'learning_rate': 9.114797333401568e-06, 'epoch': 1.62}


 54%|█████▍    | 3980/7344 [13:45<10:57,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.000946535263210535, 'learning_rate': 9.08778252209925e-06, 'epoch': 1.63}


 54%|█████▍    | 3991/7344 [13:47<11:03,  5.06it/s]

{'loss': 0.1307, 'grad_norm': 0.0006632840377278626, 'learning_rate': 9.060767710796935e-06, 'epoch': 1.63}


 54%|█████▍    | 4001/7344 [13:49<11:01,  5.06it/s]

{'loss': 0.0004, 'grad_norm': 0.0009287300053983927, 'learning_rate': 9.033752899494617e-06, 'epoch': 1.63}


 55%|█████▍    | 4011/7344 [13:51<10:53,  5.10it/s]

{'loss': 0.0011, 'grad_norm': 0.0007876676390878856, 'learning_rate': 9.006738088192302e-06, 'epoch': 1.64}


 55%|█████▍    | 4021/7344 [13:53<10:51,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.00043257433571852744, 'learning_rate': 8.979723276889986e-06, 'epoch': 1.64}


 55%|█████▍    | 4031/7344 [13:55<10:54,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.0005024208221584558, 'learning_rate': 8.952708465587668e-06, 'epoch': 1.65}


 55%|█████▌    | 4041/7344 [13:57<10:49,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.0004803865449503064, 'learning_rate': 8.925693654285353e-06, 'epoch': 1.65}


 55%|█████▌    | 4051/7344 [13:59<10:43,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.0011343872174620628, 'learning_rate': 8.898678842983037e-06, 'epoch': 1.65}


 55%|█████▌    | 4061/7344 [14:01<10:44,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.00105389510281384, 'learning_rate': 8.87166403168072e-06, 'epoch': 1.66}


 55%|█████▌    | 4071/7344 [14:03<10:42,  5.09it/s]

{'loss': 0.0, 'grad_norm': 0.005195787642151117, 'learning_rate': 8.844649220378404e-06, 'epoch': 1.66}


 56%|█████▌    | 4080/7344 [14:05<10:47,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.0005034256028011441, 'learning_rate': 8.817634409076086e-06, 'epoch': 1.67}


 56%|█████▌    | 4091/7344 [14:07<10:37,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.000441420532297343, 'learning_rate': 8.79061959777377e-06, 'epoch': 1.67}


 56%|█████▌    | 4101/7344 [14:09<10:38,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.00028982656658627093, 'learning_rate': 8.763604786471455e-06, 'epoch': 1.67}


 56%|█████▌    | 4111/7344 [14:11<10:45,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00037873341352678835, 'learning_rate': 8.736589975169137e-06, 'epoch': 1.68}


 56%|█████▌    | 4121/7344 [14:13<10:35,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0006006414187140763, 'learning_rate': 8.709575163866822e-06, 'epoch': 1.68}


 56%|█████▋    | 4131/7344 [14:15<10:36,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.00028551011928357184, 'learning_rate': 8.682560352564504e-06, 'epoch': 1.69}


 56%|█████▋    | 4141/7344 [14:17<10:32,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.0002105693711200729, 'learning_rate': 8.655545541262188e-06, 'epoch': 1.69}


 57%|█████▋    | 4151/7344 [14:19<10:34,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.0011902829864993691, 'learning_rate': 8.628530729959873e-06, 'epoch': 1.7}


 57%|█████▋    | 4161/7344 [14:21<10:35,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0004921344225294888, 'learning_rate': 8.601515918657555e-06, 'epoch': 1.7}


 57%|█████▋    | 4170/7344 [14:23<10:31,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00036667188396677375, 'learning_rate': 8.57450110735524e-06, 'epoch': 1.7}


 57%|█████▋    | 4181/7344 [14:25<10:35,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0004675532109104097, 'learning_rate': 8.547486296052922e-06, 'epoch': 1.71}


 57%|█████▋    | 4191/7344 [14:27<10:42,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.00043277416261844337, 'learning_rate': 8.520471484750606e-06, 'epoch': 1.71}


 57%|█████▋    | 4201/7344 [14:29<10:37,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.0009774825302883983, 'learning_rate': 8.493456673448289e-06, 'epoch': 1.72}


 57%|█████▋    | 4210/7344 [14:31<10:22,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.000323835585732013, 'learning_rate': 8.466441862145973e-06, 'epoch': 1.72}


 57%|█████▋    | 4221/7344 [14:33<10:16,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0018146602669730783, 'learning_rate': 8.439427050843657e-06, 'epoch': 1.72}


 58%|█████▊    | 4231/7344 [14:35<10:13,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.00041512740426696837, 'learning_rate': 8.41241223954134e-06, 'epoch': 1.73}


 58%|█████▊    | 4240/7344 [14:37<10:15,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.0002260417677462101, 'learning_rate': 8.385397428239024e-06, 'epoch': 1.73}


 58%|█████▊    | 4251/7344 [14:39<10:17,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00037333788350224495, 'learning_rate': 8.358382616936707e-06, 'epoch': 1.74}


 58%|█████▊    | 4261/7344 [14:41<10:17,  4.99it/s]

{'loss': 0.1201, 'grad_norm': 0.0004154653288424015, 'learning_rate': 8.33136780563439e-06, 'epoch': 1.74}


 58%|█████▊    | 4271/7344 [14:43<10:22,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.0001908976846607402, 'learning_rate': 8.304352994332073e-06, 'epoch': 1.74}


 58%|█████▊    | 4281/7344 [14:45<10:11,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00033822451950982213, 'learning_rate': 8.277338183029758e-06, 'epoch': 1.75}


 58%|█████▊    | 4291/7344 [14:47<10:14,  4.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0003541315672919154, 'learning_rate': 8.250323371727442e-06, 'epoch': 1.75}


 59%|█████▊    | 4300/7344 [14:49<10:12,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00042913053766824305, 'learning_rate': 8.223308560425124e-06, 'epoch': 1.76}


 59%|█████▊    | 4310/7344 [14:51<10:07,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004995664348825812, 'learning_rate': 8.196293749122809e-06, 'epoch': 1.76}


 59%|█████▉    | 4320/7344 [14:53<10:01,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00026353084831498563, 'learning_rate': 8.169278937820491e-06, 'epoch': 1.76}


 59%|█████▉    | 4331/7344 [14:55<10:05,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.00045197291183285415, 'learning_rate': 8.142264126518175e-06, 'epoch': 1.77}


 59%|█████▉    | 4340/7344 [14:57<10:01,  5.00it/s]

{'loss': 0.108, 'grad_norm': 0.0006447193445637822, 'learning_rate': 8.11524931521586e-06, 'epoch': 1.77}


 59%|█████▉    | 4351/7344 [14:59<10:09,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.0001635177613934502, 'learning_rate': 8.088234503913542e-06, 'epoch': 1.78}


 59%|█████▉    | 4361/7344 [15:01<09:59,  4.98it/s]

{'loss': 0.0001, 'grad_norm': 0.00018126494251191616, 'learning_rate': 8.061219692611226e-06, 'epoch': 1.78}


 60%|█████▉    | 4371/7344 [15:03<09:57,  4.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0022094023879617453, 'learning_rate': 8.034204881308909e-06, 'epoch': 1.79}


 60%|█████▉    | 4381/7344 [15:05<09:53,  4.99it/s]

{'loss': 0.0001, 'grad_norm': 0.0010920708300545812, 'learning_rate': 8.007190070006593e-06, 'epoch': 1.79}


 60%|█████▉    | 4390/7344 [15:07<09:52,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0017521032132208347, 'learning_rate': 7.980175258704276e-06, 'epoch': 1.79}


 60%|█████▉    | 4401/7344 [15:09<10:07,  4.85it/s]

{'loss': 0.0, 'grad_norm': 0.0008230210514739156, 'learning_rate': 7.95316044740196e-06, 'epoch': 1.8}


 60%|██████    | 4411/7344 [15:11<10:28,  4.67it/s]

{'loss': 0.0001, 'grad_norm': 0.002422671765089035, 'learning_rate': 7.926145636099644e-06, 'epoch': 1.8}


 60%|██████    | 4421/7344 [15:13<09:40,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.0029441246297210455, 'learning_rate': 7.899130824797327e-06, 'epoch': 1.81}


 60%|██████    | 4430/7344 [15:15<09:41,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0007296710391528904, 'learning_rate': 7.872116013495011e-06, 'epoch': 1.81}


 60%|██████    | 4441/7344 [15:17<09:41,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0012816094094887376, 'learning_rate': 7.845101202192694e-06, 'epoch': 1.81}


 61%|██████    | 4451/7344 [15:19<09:42,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.001312587526626885, 'learning_rate': 7.818086390890378e-06, 'epoch': 1.82}


 61%|██████    | 4461/7344 [15:21<09:37,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0003734176862053573, 'learning_rate': 7.79107157958806e-06, 'epoch': 1.82}


 61%|██████    | 4470/7344 [15:23<09:31,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00018840651318896562, 'learning_rate': 7.764056768285745e-06, 'epoch': 1.83}


 61%|██████    | 4481/7344 [15:25<09:31,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00017118242976721376, 'learning_rate': 7.737041956983429e-06, 'epoch': 1.83}


 61%|██████    | 4490/7344 [15:27<09:36,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.000946153188124299, 'learning_rate': 7.710027145681111e-06, 'epoch': 1.83}


 61%|██████▏   | 4501/7344 [15:29<09:28,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0011590373469516635, 'learning_rate': 7.683012334378796e-06, 'epoch': 1.84}


 61%|██████▏   | 4511/7344 [15:31<09:28,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.00021462366566993296, 'learning_rate': 7.655997523076478e-06, 'epoch': 1.84}


 62%|██████▏   | 4521/7344 [15:33<09:22,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00042469959589652717, 'learning_rate': 7.628982711774163e-06, 'epoch': 1.85}


 62%|██████▏   | 4530/7344 [15:35<09:18,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.0003230955626349896, 'learning_rate': 7.601967900471847e-06, 'epoch': 1.85}


 62%|██████▏   | 4540/7344 [15:37<09:14,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.0007574424962513149, 'learning_rate': 7.57495308916953e-06, 'epoch': 1.85}


 62%|██████▏   | 4551/7344 [15:39<09:16,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0004212051280774176, 'learning_rate': 7.547938277867214e-06, 'epoch': 1.86}


 62%|██████▏   | 4561/7344 [15:41<09:17,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0005750723066739738, 'learning_rate': 7.520923466564897e-06, 'epoch': 1.86}


 62%|██████▏   | 4571/7344 [15:43<09:12,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0006882556481286883, 'learning_rate': 7.493908655262581e-06, 'epoch': 1.87}


 62%|██████▏   | 4580/7344 [15:45<09:14,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0004532459715846926, 'learning_rate': 7.466893843960264e-06, 'epoch': 1.87}


 62%|██████▎   | 4590/7344 [15:47<09:10,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0006442472222261131, 'learning_rate': 7.439879032657948e-06, 'epoch': 1.88}


 63%|██████▎   | 4601/7344 [15:49<09:10,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0003796767850872129, 'learning_rate': 7.412864221355632e-06, 'epoch': 1.88}


 63%|██████▎   | 4611/7344 [15:51<09:02,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.00028564498643390834, 'learning_rate': 7.385849410053315e-06, 'epoch': 1.88}


 63%|██████▎   | 4620/7344 [15:53<08:56,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.0002641274768393487, 'learning_rate': 7.358834598750999e-06, 'epoch': 1.89}


 63%|██████▎   | 4630/7344 [15:55<09:03,  4.99it/s]

{'loss': 0.0006, 'grad_norm': 0.0005507907480932772, 'learning_rate': 7.3318197874486815e-06, 'epoch': 1.89}


 63%|██████▎   | 4641/7344 [15:57<09:05,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.00035602471325546503, 'learning_rate': 7.304804976146366e-06, 'epoch': 1.9}


 63%|██████▎   | 4651/7344 [15:59<09:03,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.0002944500301964581, 'learning_rate': 7.277790164844049e-06, 'epoch': 1.9}


 63%|██████▎   | 4660/7344 [16:01<08:55,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0006007431074976921, 'learning_rate': 7.250775353541733e-06, 'epoch': 1.9}


 64%|██████▎   | 4671/7344 [16:03<08:59,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.00048229124513454735, 'learning_rate': 7.223760542239417e-06, 'epoch': 1.91}


 64%|██████▎   | 4681/7344 [16:05<08:54,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0008403279935009778, 'learning_rate': 7.196745730937099e-06, 'epoch': 1.91}


 64%|██████▍   | 4691/7344 [16:07<08:53,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002875723293982446, 'learning_rate': 7.169730919634784e-06, 'epoch': 1.92}


 64%|██████▍   | 4701/7344 [16:09<08:45,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.000405158381909132, 'learning_rate': 7.142716108332467e-06, 'epoch': 1.92}


 64%|██████▍   | 4711/7344 [16:11<08:48,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.000526056915987283, 'learning_rate': 7.11570129703015e-06, 'epoch': 1.92}


 64%|██████▍   | 4721/7344 [16:13<08:44,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.000868682749569416, 'learning_rate': 7.088686485727835e-06, 'epoch': 1.93}


 64%|██████▍   | 4731/7344 [16:15<08:40,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00014742842176929116, 'learning_rate': 7.061671674425518e-06, 'epoch': 1.93}


 65%|██████▍   | 4741/7344 [16:17<08:36,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.0004826583026442677, 'learning_rate': 7.0346568631232014e-06, 'epoch': 1.94}


 65%|██████▍   | 4751/7344 [16:19<08:39,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00022390981030184776, 'learning_rate': 7.007642051820885e-06, 'epoch': 1.94}


 65%|██████▍   | 4761/7344 [16:21<08:36,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00036133473622612655, 'learning_rate': 6.980627240518568e-06, 'epoch': 1.94}


 65%|██████▍   | 4770/7344 [16:23<08:31,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.00039778792415745556, 'learning_rate': 6.953612429216252e-06, 'epoch': 1.95}


 65%|██████▌   | 4781/7344 [16:25<08:28,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.00045422837138175964, 'learning_rate': 6.926597617913936e-06, 'epoch': 1.95}


 65%|██████▌   | 4791/7344 [16:27<08:28,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0007794623961672187, 'learning_rate': 6.899582806611619e-06, 'epoch': 1.96}


 65%|██████▌   | 4801/7344 [16:29<08:25,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00028147982084192336, 'learning_rate': 6.872567995309303e-06, 'epoch': 1.96}


 66%|██████▌   | 4811/7344 [16:31<08:35,  4.92it/s]

{'loss': 0.0, 'grad_norm': 9.642764780437574e-05, 'learning_rate': 6.845553184006987e-06, 'epoch': 1.96}


 66%|██████▌   | 4820/7344 [16:33<08:21,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.0003897395508829504, 'learning_rate': 6.8185383727046695e-06, 'epoch': 1.97}


 66%|██████▌   | 4830/7344 [16:35<08:19,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.0007337173447012901, 'learning_rate': 6.791523561402354e-06, 'epoch': 1.97}


 66%|██████▌   | 4840/7344 [16:37<08:17,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.0001563677506055683, 'learning_rate': 6.764508750100036e-06, 'epoch': 1.98}


 66%|██████▌   | 4851/7344 [16:39<08:19,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00025886294315569103, 'learning_rate': 6.7374939387977205e-06, 'epoch': 1.98}


 66%|██████▌   | 4861/7344 [16:41<08:15,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00010151883179787546, 'learning_rate': 6.710479127495405e-06, 'epoch': 1.99}


 66%|██████▋   | 4871/7344 [16:43<08:13,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.000612487958278507, 'learning_rate': 6.683464316193087e-06, 'epoch': 1.99}


 66%|██████▋   | 4880/7344 [16:45<08:05,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.0006440147408284247, 'learning_rate': 6.6564495048907715e-06, 'epoch': 1.99}


 67%|██████▋   | 4890/7344 [16:47<08:06,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.00023761365446262062, 'learning_rate': 6.629434693588454e-06, 'epoch': 2.0}


 67%|██████▋   | 4896/7344 [16:48<06:58,  5.85it/s]
 67%|██████▋   | 4896/7344 [17:27<06:58,  5.85it/s]

{'eval_loss': 0.010150551795959473, 'eval_accuracy': 0.9989104775739968, 'eval_f1': 0.9989134481300921, 'eval_runtime': 39.079, 'eval_samples_per_second': 140.92, 'eval_steps_per_second': 17.631, 'epoch': 2.0}


 67%|██████▋   | 4901/7344 [18:04<3:46:41,  5.57s/it] 

{'loss': 0.0, 'grad_norm': 0.0002886124711949378, 'learning_rate': 6.602419882286138e-06, 'epoch': 2.0}


 67%|██████▋   | 4911/7344 [18:05<11:43,  3.46it/s]  

{'loss': 0.0, 'grad_norm': 0.0006368056056089699, 'learning_rate': 6.5754050709838226e-06, 'epoch': 2.01}


 67%|██████▋   | 4921/7344 [18:07<05:47,  6.98it/s]

{'loss': 0.0, 'grad_norm': 0.0011218157596886158, 'learning_rate': 6.548390259681505e-06, 'epoch': 2.01}


 67%|██████▋   | 4931/7344 [18:08<05:49,  6.91it/s]

{'loss': 0.0, 'grad_norm': 0.00042379548540338874, 'learning_rate': 6.521375448379189e-06, 'epoch': 2.01}


 67%|██████▋   | 4941/7344 [18:10<05:51,  6.84it/s]

{'loss': 0.0, 'grad_norm': 0.0001425036316504702, 'learning_rate': 6.494360637076872e-06, 'epoch': 2.02}


 67%|██████▋   | 4951/7344 [18:11<07:07,  5.60it/s]

{'loss': 0.0, 'grad_norm': 0.00024836414377205074, 'learning_rate': 6.467345825774556e-06, 'epoch': 2.02}


 68%|██████▊   | 4961/7344 [18:13<06:30,  6.10it/s]

{'loss': 0.0, 'grad_norm': 0.00026960932882502675, 'learning_rate': 6.4403310144722395e-06, 'epoch': 2.03}


 68%|██████▊   | 4971/7344 [18:15<05:57,  6.65it/s]

{'loss': 0.0, 'grad_norm': 0.00036357957287691534, 'learning_rate': 6.413316203169923e-06, 'epoch': 2.03}


 68%|██████▊   | 4981/7344 [18:16<05:54,  6.66it/s]

{'loss': 0.0, 'grad_norm': 0.0006206878460943699, 'learning_rate': 6.386301391867607e-06, 'epoch': 2.03}


 68%|██████▊   | 4991/7344 [18:18<05:58,  6.57it/s]

{'loss': 0.0, 'grad_norm': 0.00034232469624839723, 'learning_rate': 6.35928658056529e-06, 'epoch': 2.04}


 68%|██████▊   | 5001/7344 [18:19<05:59,  6.53it/s]

{'loss': 0.0, 'grad_norm': 0.0007049058331176639, 'learning_rate': 6.332271769262974e-06, 'epoch': 2.04}


 68%|██████▊   | 5011/7344 [18:21<06:00,  6.48it/s]

{'loss': 0.0, 'grad_norm': 0.0007927897968329489, 'learning_rate': 6.305256957960657e-06, 'epoch': 2.05}


 68%|██████▊   | 5021/7344 [18:22<05:53,  6.57it/s]

{'loss': 0.0, 'grad_norm': 0.000559261825401336, 'learning_rate': 6.278242146658341e-06, 'epoch': 2.05}


 69%|██████▊   | 5031/7344 [18:24<06:06,  6.31it/s]

{'loss': 0.0, 'grad_norm': 0.00014582628500647843, 'learning_rate': 6.251227335356024e-06, 'epoch': 2.05}


 69%|██████▊   | 5041/7344 [18:25<05:50,  6.56it/s]

{'loss': 0.0, 'grad_norm': 0.00048250207328237593, 'learning_rate': 6.224212524053708e-06, 'epoch': 2.06}


 69%|██████▉   | 5051/7344 [18:27<05:56,  6.44it/s]

{'loss': 0.0, 'grad_norm': 0.00016955178580246866, 'learning_rate': 6.197197712751392e-06, 'epoch': 2.06}


 69%|██████▉   | 5061/7344 [18:28<05:59,  6.36it/s]

{'loss': 0.0, 'grad_norm': 0.00027658080216497183, 'learning_rate': 6.170182901449075e-06, 'epoch': 2.07}


 69%|██████▉   | 5071/7344 [18:30<05:49,  6.51it/s]

{'loss': 0.0, 'grad_norm': 0.00021701070363633335, 'learning_rate': 6.143168090146759e-06, 'epoch': 2.07}


 69%|██████▉   | 5081/7344 [18:32<05:45,  6.56it/s]

{'loss': 0.0, 'grad_norm': 0.0001998090883716941, 'learning_rate': 6.116153278844442e-06, 'epoch': 2.08}


 69%|██████▉   | 5091/7344 [18:33<05:46,  6.49it/s]

{'loss': 0.0, 'grad_norm': 0.0003640317008830607, 'learning_rate': 6.089138467542126e-06, 'epoch': 2.08}


 69%|██████▉   | 5101/7344 [18:35<05:50,  6.39it/s]

{'loss': 0.0, 'grad_norm': 0.00027011509519070387, 'learning_rate': 6.06212365623981e-06, 'epoch': 2.08}


 70%|██████▉   | 5111/7344 [18:36<05:44,  6.47it/s]

{'loss': 0.0, 'grad_norm': 0.0003465226327534765, 'learning_rate': 6.035108844937493e-06, 'epoch': 2.09}


 70%|██████▉   | 5121/7344 [18:38<05:50,  6.34it/s]

{'loss': 0.0, 'grad_norm': 0.0003481245075818151, 'learning_rate': 6.008094033635177e-06, 'epoch': 2.09}


 70%|██████▉   | 5131/7344 [18:39<06:08,  6.01it/s]

{'loss': 0.0, 'grad_norm': 0.00021957566787023097, 'learning_rate': 5.98107922233286e-06, 'epoch': 2.1}


 70%|███████   | 5141/7344 [18:41<05:46,  6.35it/s]

{'loss': 0.0, 'grad_norm': 0.0002584699832368642, 'learning_rate': 5.954064411030544e-06, 'epoch': 2.1}


 70%|███████   | 5151/7344 [18:43<05:48,  6.29it/s]

{'loss': 0.0, 'grad_norm': 0.00029608828481286764, 'learning_rate': 5.927049599728227e-06, 'epoch': 2.1}


 70%|███████   | 5161/7344 [18:44<06:14,  5.83it/s]

{'loss': 0.0, 'grad_norm': 0.0006274620536714792, 'learning_rate': 5.900034788425911e-06, 'epoch': 2.11}


 70%|███████   | 5171/7344 [18:46<05:57,  6.09it/s]

{'loss': 0.0, 'grad_norm': 0.00027463279548101127, 'learning_rate': 5.873019977123595e-06, 'epoch': 2.11}


 71%|███████   | 5181/7344 [18:48<05:42,  6.32it/s]

{'loss': 0.0, 'grad_norm': 0.0002603500906843692, 'learning_rate': 5.846005165821278e-06, 'epoch': 2.12}


 71%|███████   | 5191/7344 [18:49<05:45,  6.23it/s]

{'loss': 0.0, 'grad_norm': 0.00042972771916538477, 'learning_rate': 5.818990354518962e-06, 'epoch': 2.12}


 71%|███████   | 5201/7344 [18:51<05:51,  6.09it/s]

{'loss': 0.0876, 'grad_norm': 0.00019836855062749237, 'learning_rate': 5.7919755432166444e-06, 'epoch': 2.12}


 71%|███████   | 5211/7344 [18:52<05:49,  6.11it/s]

{'loss': 0.0, 'grad_norm': 0.0005431921454146504, 'learning_rate': 5.764960731914329e-06, 'epoch': 2.13}


 71%|███████   | 5221/7344 [18:54<05:51,  6.03it/s]

{'loss': 0.0, 'grad_norm': 0.00032018256024457514, 'learning_rate': 5.737945920612013e-06, 'epoch': 2.13}


 71%|███████   | 5231/7344 [18:56<05:59,  5.87it/s]

{'loss': 0.0, 'grad_norm': 0.0002921915438491851, 'learning_rate': 5.7109311093096955e-06, 'epoch': 2.14}


 71%|███████▏  | 5241/7344 [18:58<05:50,  6.01it/s]

{'loss': 0.0, 'grad_norm': 0.00021452664805110544, 'learning_rate': 5.68391629800738e-06, 'epoch': 2.14}


 72%|███████▏  | 5251/7344 [18:59<05:49,  5.99it/s]

{'loss': 0.0055, 'grad_norm': 0.000636128825135529, 'learning_rate': 5.656901486705062e-06, 'epoch': 2.14}


 72%|███████▏  | 5261/7344 [19:01<05:58,  5.82it/s]

{'loss': 0.0, 'grad_norm': 0.0002321386564290151, 'learning_rate': 5.6298866754027465e-06, 'epoch': 2.15}


 72%|███████▏  | 5270/7344 [19:02<06:50,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.00024367545847781003, 'learning_rate': 5.60287186410043e-06, 'epoch': 2.15}


 72%|███████▏  | 5281/7344 [19:05<07:05,  4.85it/s]

{'loss': 0.0, 'grad_norm': 0.0001992060279008001, 'learning_rate': 5.575857052798113e-06, 'epoch': 2.16}


 72%|███████▏  | 5291/7344 [19:07<06:17,  5.44it/s]

{'loss': 0.0, 'grad_norm': 0.000427309307269752, 'learning_rate': 5.5488422414957976e-06, 'epoch': 2.16}


 72%|███████▏  | 5301/7344 [19:08<06:10,  5.52it/s]

{'loss': 0.0, 'grad_norm': 0.000377879710868001, 'learning_rate': 5.52182743019348e-06, 'epoch': 2.17}


 72%|███████▏  | 5311/7344 [19:10<06:08,  5.51it/s]

{'loss': 0.0237, 'grad_norm': 0.00026614053058438003, 'learning_rate': 5.494812618891164e-06, 'epoch': 2.17}


 72%|███████▏  | 5321/7344 [19:12<06:09,  5.48it/s]

{'loss': 0.0, 'grad_norm': 0.0004479830095078796, 'learning_rate': 5.467797807588848e-06, 'epoch': 2.17}


 73%|███████▎  | 5331/7344 [19:14<06:06,  5.49it/s]

{'loss': 0.0, 'grad_norm': 0.00018850903143174946, 'learning_rate': 5.440782996286531e-06, 'epoch': 2.18}


 73%|███████▎  | 5341/7344 [19:16<06:02,  5.52it/s]

{'loss': 0.0, 'grad_norm': 0.00026690828963182867, 'learning_rate': 5.4137681849842145e-06, 'epoch': 2.18}


 73%|███████▎  | 5351/7344 [19:18<06:04,  5.47it/s]

{'loss': 0.0, 'grad_norm': 0.00020042834512423724, 'learning_rate': 5.386753373681899e-06, 'epoch': 2.19}


 73%|███████▎  | 5361/7344 [19:19<05:56,  5.56it/s]

{'loss': 0.0, 'grad_norm': 0.0003806447493843734, 'learning_rate': 5.359738562379582e-06, 'epoch': 2.19}


 73%|███████▎  | 5371/7344 [19:21<05:57,  5.52it/s]

{'loss': 0.0, 'grad_norm': 0.00017693146946839988, 'learning_rate': 5.3327237510772656e-06, 'epoch': 2.19}


 73%|███████▎  | 5381/7344 [19:23<05:58,  5.47it/s]

{'loss': 0.0128, 'grad_norm': 0.00024995606509037316, 'learning_rate': 5.305708939774949e-06, 'epoch': 2.2}


 73%|███████▎  | 5391/7344 [19:25<05:55,  5.49it/s]

{'loss': 0.0, 'grad_norm': 0.00011072911001974717, 'learning_rate': 5.278694128472632e-06, 'epoch': 2.2}


 74%|███████▎  | 5401/7344 [19:27<05:53,  5.49it/s]

{'loss': 0.0269, 'grad_norm': 0.0004031812131870538, 'learning_rate': 5.251679317170317e-06, 'epoch': 2.21}


 74%|███████▎  | 5411/7344 [19:28<05:56,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.00031443656189367175, 'learning_rate': 5.224664505868e-06, 'epoch': 2.21}


 74%|███████▍  | 5421/7344 [19:30<05:53,  5.43it/s]

{'loss': 0.0, 'grad_norm': 0.00024587579537183046, 'learning_rate': 5.197649694565683e-06, 'epoch': 2.21}


 74%|███████▍  | 5431/7344 [19:32<05:52,  5.43it/s]

{'loss': 0.0, 'grad_norm': 0.0002704060170799494, 'learning_rate': 5.170634883263368e-06, 'epoch': 2.22}


 74%|███████▍  | 5441/7344 [19:34<05:51,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.00019288688781671226, 'learning_rate': 5.14362007196105e-06, 'epoch': 2.22}


 74%|███████▍  | 5451/7344 [19:36<05:50,  5.40it/s]

{'loss': 0.0, 'grad_norm': 7.887304673204198e-05, 'learning_rate': 5.1166052606587344e-06, 'epoch': 2.23}


 74%|███████▍  | 5461/7344 [19:38<05:47,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.00017180094437208027, 'learning_rate': 5.089590449356417e-06, 'epoch': 2.23}


 74%|███████▍  | 5471/7344 [19:40<05:49,  5.36it/s]

{'loss': 0.0, 'grad_norm': 0.0002218029840150848, 'learning_rate': 5.062575638054101e-06, 'epoch': 2.23}


 75%|███████▍  | 5481/7344 [19:41<05:44,  5.41it/s]

{'loss': 0.0, 'grad_norm': 0.0035139338579028845, 'learning_rate': 5.0355608267517855e-06, 'epoch': 2.24}


 75%|███████▍  | 5491/7344 [19:43<05:42,  5.41it/s]

{'loss': 0.0, 'grad_norm': 0.00040779984556138515, 'learning_rate': 5.008546015449468e-06, 'epoch': 2.24}


 75%|███████▍  | 5501/7344 [19:45<05:39,  5.43it/s]

{'loss': 0.0, 'grad_norm': 0.00013239339750725776, 'learning_rate': 4.981531204147152e-06, 'epoch': 2.25}


 75%|███████▌  | 5511/7344 [19:48<07:36,  4.02it/s]

{'loss': 0.0, 'grad_norm': 0.00041133566992357373, 'learning_rate': 4.954516392844836e-06, 'epoch': 2.25}


 75%|███████▌  | 5521/7344 [19:50<06:26,  4.72it/s]

{'loss': 0.0, 'grad_norm': 0.00029626800096593797, 'learning_rate': 4.927501581542519e-06, 'epoch': 2.25}


 75%|███████▌  | 5531/7344 [19:52<06:07,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.00012666646216530353, 'learning_rate': 4.9004867702402024e-06, 'epoch': 2.26}


 75%|███████▌  | 5540/7344 [19:54<06:07,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.00024208986724261194, 'learning_rate': 4.873471958937886e-06, 'epoch': 2.26}


 76%|███████▌  | 5551/7344 [19:56<06:02,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.0002489153703209013, 'learning_rate': 4.846457147635569e-06, 'epoch': 2.27}


 76%|███████▌  | 5561/7344 [19:58<06:02,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.0005824901163578033, 'learning_rate': 4.819442336333253e-06, 'epoch': 2.27}


 76%|███████▌  | 5570/7344 [20:00<06:01,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.00011017303040716797, 'learning_rate': 4.792427525030937e-06, 'epoch': 2.28}


 76%|███████▌  | 5581/7344 [20:02<05:58,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.00015913500101305544, 'learning_rate': 4.76541271372862e-06, 'epoch': 2.28}


 76%|███████▌  | 5590/7344 [20:04<05:55,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.00020760078041348606, 'learning_rate': 4.738397902426304e-06, 'epoch': 2.28}


 76%|███████▋  | 5601/7344 [20:06<05:53,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.0001506251428509131, 'learning_rate': 4.711383091123987e-06, 'epoch': 2.29}


 76%|███████▋  | 5611/7344 [20:08<05:53,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.0006018796702846885, 'learning_rate': 4.6843682798216705e-06, 'epoch': 2.29}


 77%|███████▋  | 5620/7344 [20:10<05:47,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.00011764588271034881, 'learning_rate': 4.657353468519354e-06, 'epoch': 2.3}


 77%|███████▋  | 5631/7344 [20:12<05:46,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.0001435016019968316, 'learning_rate': 4.630338657217038e-06, 'epoch': 2.3}


 77%|███████▋  | 5641/7344 [20:14<05:44,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.00014245801139622927, 'learning_rate': 4.6033238459147215e-06, 'epoch': 2.3}


 77%|███████▋  | 5651/7344 [20:16<05:45,  4.90it/s]

{'loss': 0.0, 'grad_norm': 0.00048116419930011034, 'learning_rate': 4.576309034612405e-06, 'epoch': 2.31}


 77%|███████▋  | 5661/7344 [20:18<05:42,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.00021481334988493472, 'learning_rate': 4.549294223310089e-06, 'epoch': 2.31}


 77%|███████▋  | 5671/7344 [20:20<05:39,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.00016576064808759838, 'learning_rate': 4.5222794120077725e-06, 'epoch': 2.32}


 77%|███████▋  | 5680/7344 [20:22<05:34,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00014551779895555228, 'learning_rate': 4.495264600705456e-06, 'epoch': 2.32}


 77%|███████▋  | 5690/7344 [20:24<05:34,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.00038102734833955765, 'learning_rate': 4.468249789403139e-06, 'epoch': 2.32}


 78%|███████▊  | 5701/7344 [20:26<05:32,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.0003085294156335294, 'learning_rate': 4.4412349781008236e-06, 'epoch': 2.33}


 78%|███████▊  | 5710/7344 [20:28<05:30,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.00014197066775523126, 'learning_rate': 4.414220166798507e-06, 'epoch': 2.33}


 78%|███████▊  | 5721/7344 [20:31<05:29,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.00026947897276841104, 'learning_rate': 4.38720535549619e-06, 'epoch': 2.34}


 78%|███████▊  | 5731/7344 [20:33<05:25,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.00011990372877335176, 'learning_rate': 4.360190544193874e-06, 'epoch': 2.34}


 78%|███████▊  | 5741/7344 [20:35<04:55,  5.43it/s]

{'loss': 0.0, 'grad_norm': 0.00025011858087964356, 'learning_rate': 4.333175732891557e-06, 'epoch': 2.34}


 78%|███████▊  | 5751/7344 [20:36<04:40,  5.68it/s]

{'loss': 0.0, 'grad_norm': 8.26514296932146e-05, 'learning_rate': 4.3061609215892406e-06, 'epoch': 2.35}


 78%|███████▊  | 5761/7344 [20:38<04:40,  5.65it/s]

{'loss': 0.0, 'grad_norm': 0.0002380643127253279, 'learning_rate': 4.279146110286925e-06, 'epoch': 2.35}


 79%|███████▊  | 5771/7344 [20:40<04:35,  5.70it/s]

{'loss': 0.0329, 'grad_norm': 0.0001633158972254023, 'learning_rate': 4.252131298984608e-06, 'epoch': 2.36}


 79%|███████▊  | 5780/7344 [20:41<04:34,  5.69it/s]

{'loss': 0.0, 'grad_norm': 0.00023926277935970575, 'learning_rate': 4.225116487682292e-06, 'epoch': 2.36}


 79%|███████▉  | 5790/7344 [20:44<05:03,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0002759840863291174, 'learning_rate': 4.198101676379975e-06, 'epoch': 2.37}


 79%|███████▉  | 5800/7344 [20:46<05:38,  4.57it/s]

{'loss': 0.0, 'grad_norm': 0.00015423636068589985, 'learning_rate': 4.171086865077658e-06, 'epoch': 2.37}


 79%|███████▉  | 5810/7344 [20:48<05:34,  4.59it/s]

{'loss': 0.0, 'grad_norm': 0.00029103882843628526, 'learning_rate': 4.144072053775342e-06, 'epoch': 2.37}


 79%|███████▉  | 5821/7344 [20:51<04:45,  5.33it/s]

{'loss': 0.0, 'grad_norm': 0.00012247938138898462, 'learning_rate': 4.117057242473026e-06, 'epoch': 2.38}


 79%|███████▉  | 5831/7344 [20:52<04:34,  5.52it/s]

{'loss': 0.0, 'grad_norm': 0.00027878611581400037, 'learning_rate': 4.090042431170709e-06, 'epoch': 2.38}


 80%|███████▉  | 5841/7344 [20:54<04:35,  5.46it/s]

{'loss': 0.0, 'grad_norm': 0.00014307632227428257, 'learning_rate': 4.063027619868393e-06, 'epoch': 2.39}


 80%|███████▉  | 5851/7344 [20:56<04:32,  5.49it/s]

{'loss': 0.0, 'grad_norm': 0.0001338158326689154, 'learning_rate': 4.036012808566076e-06, 'epoch': 2.39}


 80%|███████▉  | 5861/7344 [20:58<04:33,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.0003428422496654093, 'learning_rate': 4.00899799726376e-06, 'epoch': 2.39}


 80%|███████▉  | 5871/7344 [21:00<04:31,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.00017832909361459315, 'learning_rate': 3.981983185961443e-06, 'epoch': 2.4}


 80%|████████  | 5881/7344 [21:02<04:32,  5.38it/s]

{'loss': 0.0, 'grad_norm': 8.350691496161744e-05, 'learning_rate': 3.954968374659127e-06, 'epoch': 2.4}


 80%|████████  | 5891/7344 [21:04<04:29,  5.39it/s]

{'loss': 0.0, 'grad_norm': 0.00012547659571282566, 'learning_rate': 3.927953563356811e-06, 'epoch': 2.41}


 80%|████████  | 5901/7344 [21:05<04:25,  5.44it/s]

{'loss': 0.0, 'grad_norm': 0.00029375546728260815, 'learning_rate': 3.900938752054494e-06, 'epoch': 2.41}


 80%|████████  | 5911/7344 [21:07<04:25,  5.40it/s]

{'loss': 0.0, 'grad_norm': 0.00010386016219854355, 'learning_rate': 3.8739239407521774e-06, 'epoch': 2.41}


 81%|████████  | 5920/7344 [21:09<04:25,  5.36it/s]

{'loss': 0.0, 'grad_norm': 0.00029522107797674835, 'learning_rate': 3.846909129449861e-06, 'epoch': 2.42}


 81%|████████  | 5930/7344 [21:11<04:41,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00016420472820755094, 'learning_rate': 3.819894318147544e-06, 'epoch': 2.42}


 81%|████████  | 5941/7344 [21:13<05:07,  4.57it/s]

{'loss': 0.0, 'grad_norm': 0.00031147798290476203, 'learning_rate': 3.792879506845228e-06, 'epoch': 2.43}


 81%|████████  | 5951/7344 [21:15<04:53,  4.75it/s]

{'loss': 0.0, 'grad_norm': 0.0002129263011738658, 'learning_rate': 3.7658646955429123e-06, 'epoch': 2.43}


 81%|████████  | 5961/7344 [21:17<04:20,  5.31it/s]

{'loss': 0.0, 'grad_norm': 0.00017943917191587389, 'learning_rate': 3.7388498842405957e-06, 'epoch': 2.43}


 81%|████████▏ | 5971/7344 [21:20<07:45,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.00023323156347032636, 'learning_rate': 3.711835072938279e-06, 'epoch': 2.44}


 81%|████████▏ | 5980/7344 [21:22<05:42,  3.98it/s]

{'loss': 0.0, 'grad_norm': 0.04290810599923134, 'learning_rate': 3.6848202616359625e-06, 'epoch': 2.44}


 82%|████████▏ | 5991/7344 [21:25<04:52,  4.63it/s]

{'loss': 0.0, 'grad_norm': 0.00020362823852337897, 'learning_rate': 3.657805450333646e-06, 'epoch': 2.45}


 82%|████████▏ | 6000/7344 [21:27<04:32,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.00014438238576985896, 'learning_rate': 3.6307906390313297e-06, 'epoch': 2.45}


 82%|████████▏ | 6011/7344 [21:29<04:28,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.00010289144120179117, 'learning_rate': 3.6037758277290135e-06, 'epoch': 2.46}


 82%|████████▏ | 6021/7344 [21:31<04:27,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.00016525140381418169, 'learning_rate': 3.576761016426697e-06, 'epoch': 2.46}


 82%|████████▏ | 6031/7344 [21:33<04:22,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00021412801288533956, 'learning_rate': 3.5497462051243803e-06, 'epoch': 2.46}


 82%|████████▏ | 6041/7344 [21:35<04:20,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00022362211893778294, 'learning_rate': 3.522731393822064e-06, 'epoch': 2.47}


 82%|████████▏ | 6051/7344 [21:37<04:19,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00020068870799150318, 'learning_rate': 3.4957165825197475e-06, 'epoch': 2.47}


 83%|████████▎ | 6061/7344 [21:39<04:20,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.00023441753000952303, 'learning_rate': 3.468701771217431e-06, 'epoch': 2.48}


 83%|████████▎ | 6070/7344 [21:41<04:14,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00013904113438911736, 'learning_rate': 3.4416869599151147e-06, 'epoch': 2.48}


 83%|████████▎ | 6081/7344 [21:43<04:11,  5.01it/s]

{'loss': 0.0, 'grad_norm': 9.416371176484972e-05, 'learning_rate': 3.4146721486127986e-06, 'epoch': 2.48}


 83%|████████▎ | 6091/7344 [21:45<04:09,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0001316083944402635, 'learning_rate': 3.387657337310482e-06, 'epoch': 2.49}


 83%|████████▎ | 6101/7344 [21:47<04:07,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00027440174017101526, 'learning_rate': 3.3606425260081654e-06, 'epoch': 2.49}


 83%|████████▎ | 6111/7344 [21:49<04:08,  4.97it/s]

{'loss': 0.0, 'grad_norm': 9.677832713350654e-05, 'learning_rate': 3.3336277147058487e-06, 'epoch': 2.5}


 83%|████████▎ | 6121/7344 [21:51<04:04,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0001867293904069811, 'learning_rate': 3.306612903403532e-06, 'epoch': 2.5}


 83%|████████▎ | 6131/7344 [21:53<04:04,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.00033195415744557977, 'learning_rate': 3.2795980921012155e-06, 'epoch': 2.5}


 84%|████████▎ | 6141/7344 [21:55<04:00,  5.00it/s]

{'loss': 0.0, 'grad_norm': 9.73521382547915e-05, 'learning_rate': 3.2525832807988998e-06, 'epoch': 2.51}


 84%|████████▎ | 6150/7344 [21:57<03:58,  5.00it/s]

{'loss': 0.0, 'grad_norm': 9.690946899354458e-05, 'learning_rate': 3.225568469496583e-06, 'epoch': 2.51}


 84%|████████▍ | 6161/7344 [21:59<03:55,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00020146234601270407, 'learning_rate': 3.1985536581942666e-06, 'epoch': 2.52}


 84%|████████▍ | 6171/7344 [22:01<03:53,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00020023903925903141, 'learning_rate': 3.17153884689195e-06, 'epoch': 2.52}


 84%|████████▍ | 6180/7344 [22:03<03:53,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0007968620047904551, 'learning_rate': 3.144524035589634e-06, 'epoch': 2.52}


 84%|████████▍ | 6191/7344 [22:05<03:49,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00012159167090430856, 'learning_rate': 3.117509224287317e-06, 'epoch': 2.53}


 84%|████████▍ | 6201/7344 [22:07<03:46,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.00015341182006523013, 'learning_rate': 3.090494412985001e-06, 'epoch': 2.53}


 85%|████████▍ | 6211/7344 [22:09<03:47,  4.99it/s]

{'loss': 0.0977, 'grad_norm': 0.0003448521893005818, 'learning_rate': 3.0634796016826844e-06, 'epoch': 2.54}


 85%|████████▍ | 6221/7344 [22:11<03:42,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.00013872231647837907, 'learning_rate': 3.0364647903803682e-06, 'epoch': 2.54}


 85%|████████▍ | 6231/7344 [22:13<03:44,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.0005760265048593283, 'learning_rate': 3.0094499790780516e-06, 'epoch': 2.54}


 85%|████████▍ | 6241/7344 [22:15<03:41,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.00024940152070485055, 'learning_rate': 2.982435167775735e-06, 'epoch': 2.55}


 85%|████████▌ | 6251/7344 [22:17<03:37,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.000529562821611762, 'learning_rate': 2.9554203564734184e-06, 'epoch': 2.55}


 85%|████████▌ | 6261/7344 [22:19<03:35,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0005435401108115911, 'learning_rate': 2.9284055451711027e-06, 'epoch': 2.56}


 85%|████████▌ | 6271/7344 [22:21<03:34,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00035791166010312736, 'learning_rate': 2.901390733868786e-06, 'epoch': 2.56}


 86%|████████▌ | 6281/7344 [22:23<03:32,  5.01it/s]

{'loss': 0.0644, 'grad_norm': 0.0001347628131043166, 'learning_rate': 2.8743759225664694e-06, 'epoch': 2.57}


 86%|████████▌ | 6290/7344 [22:25<03:34,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.0003566901432350278, 'learning_rate': 2.847361111264153e-06, 'epoch': 2.57}


 86%|████████▌ | 6301/7344 [22:27<03:29,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0003951137186959386, 'learning_rate': 2.8203462999618362e-06, 'epoch': 2.57}


 86%|████████▌ | 6311/7344 [22:29<03:25,  5.04it/s]

{'loss': 0.0, 'grad_norm': 0.0003232676535844803, 'learning_rate': 2.7933314886595196e-06, 'epoch': 2.58}


 86%|████████▌ | 6321/7344 [22:31<03:24,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00026674254331737757, 'learning_rate': 2.766316677357204e-06, 'epoch': 2.58}


 86%|████████▌ | 6331/7344 [22:33<03:21,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00045951001811772585, 'learning_rate': 2.7393018660548873e-06, 'epoch': 2.59}


 86%|████████▋ | 6341/7344 [22:35<03:20,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0003352216735947877, 'learning_rate': 2.7122870547525707e-06, 'epoch': 2.59}


 86%|████████▋ | 6351/7344 [22:37<03:17,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00020096133812330663, 'learning_rate': 2.685272243450254e-06, 'epoch': 2.59}


 87%|████████▋ | 6361/7344 [22:39<03:16,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00018356666259933263, 'learning_rate': 2.658257432147938e-06, 'epoch': 2.6}


 87%|████████▋ | 6370/7344 [22:41<03:17,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.00026277321740053594, 'learning_rate': 2.6312426208456213e-06, 'epoch': 2.6}


 87%|████████▋ | 6381/7344 [22:43<03:12,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004216354282107204, 'learning_rate': 2.6042278095433047e-06, 'epoch': 2.61}


 87%|████████▋ | 6391/7344 [22:45<03:11,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00029509130399674177, 'learning_rate': 2.577212998240989e-06, 'epoch': 2.61}


 87%|████████▋ | 6401/7344 [22:47<03:10,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.000302825152175501, 'learning_rate': 2.5501981869386723e-06, 'epoch': 2.61}


 87%|████████▋ | 6410/7344 [22:49<03:06,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00020283102639950812, 'learning_rate': 2.5231833756363557e-06, 'epoch': 2.62}


 87%|████████▋ | 6421/7344 [22:51<03:05,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00013439661415759474, 'learning_rate': 2.496168564334039e-06, 'epoch': 2.62}


 88%|████████▊ | 6431/7344 [22:53<03:01,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.016315650194883347, 'learning_rate': 2.469153753031723e-06, 'epoch': 2.63}


 88%|████████▊ | 6441/7344 [22:55<03:03,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.00044784921919927, 'learning_rate': 2.4421389417294063e-06, 'epoch': 2.63}


 88%|████████▊ | 6450/7344 [22:57<03:01,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.00014404467947315425, 'learning_rate': 2.4151241304270897e-06, 'epoch': 2.63}


 88%|████████▊ | 6461/7344 [22:59<02:57,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00015153869753703475, 'learning_rate': 2.388109319124773e-06, 'epoch': 2.64}


 88%|████████▊ | 6470/7344 [23:01<02:53,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00028507065144367516, 'learning_rate': 2.361094507822457e-06, 'epoch': 2.64}


 88%|████████▊ | 6481/7344 [23:03<02:52,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00024925696197897196, 'learning_rate': 2.3340796965201403e-06, 'epoch': 2.65}


 88%|████████▊ | 6491/7344 [23:05<02:49,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00018822735000867397, 'learning_rate': 2.307064885217824e-06, 'epoch': 2.65}


 89%|████████▊ | 6500/7344 [23:07<02:48,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00032674139947630465, 'learning_rate': 2.2800500739155076e-06, 'epoch': 2.66}


 89%|████████▊ | 6510/7344 [23:09<02:46,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00028872801340185106, 'learning_rate': 2.2530352626131914e-06, 'epoch': 2.66}


 89%|████████▉ | 6520/7344 [23:11<02:44,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0003105745417997241, 'learning_rate': 2.2260204513108748e-06, 'epoch': 2.66}


 89%|████████▉ | 6531/7344 [23:13<02:43,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00010833516716957092, 'learning_rate': 2.1990056400085586e-06, 'epoch': 2.67}


 89%|████████▉ | 6541/7344 [23:15<02:40,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00040511449333280325, 'learning_rate': 2.171990828706242e-06, 'epoch': 2.67}


 89%|████████▉ | 6550/7344 [23:17<02:39,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0004339550796430558, 'learning_rate': 2.1449760174039254e-06, 'epoch': 2.68}


 89%|████████▉ | 6560/7344 [23:19<02:40,  4.89it/s]

{'loss': 0.0, 'grad_norm': 0.0003823484294116497, 'learning_rate': 2.117961206101609e-06, 'epoch': 2.68}


 89%|████████▉ | 6571/7344 [23:21<02:35,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00044609475298784673, 'learning_rate': 2.0909463947992926e-06, 'epoch': 2.68}


 90%|████████▉ | 6581/7344 [23:23<02:32,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00014787359395995736, 'learning_rate': 2.063931583496976e-06, 'epoch': 2.69}


 90%|████████▉ | 6590/7344 [23:25<02:30,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00034679376403801143, 'learning_rate': 2.03691677219466e-06, 'epoch': 2.69}


 90%|████████▉ | 6601/7344 [23:27<02:29,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002605882764328271, 'learning_rate': 2.009901960892343e-06, 'epoch': 2.7}


 90%|█████████ | 6611/7344 [23:29<02:26,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00015947486099321395, 'learning_rate': 1.9828871495900266e-06, 'epoch': 2.7}


 90%|█████████ | 6621/7344 [23:31<02:24,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00040846169576980174, 'learning_rate': 1.9558723382877104e-06, 'epoch': 2.7}


 90%|█████████ | 6631/7344 [23:33<02:22,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.00031015515560284257, 'learning_rate': 1.928857526985394e-06, 'epoch': 2.71}


 90%|█████████ | 6641/7344 [23:35<02:21,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.00028801182634197176, 'learning_rate': 1.9018427156830774e-06, 'epoch': 2.71}


 91%|█████████ | 6651/7344 [23:37<02:18,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0003510585520416498, 'learning_rate': 1.8748279043807612e-06, 'epoch': 2.72}


 91%|█████████ | 6660/7344 [23:39<02:18,  4.94it/s]

{'loss': 0.0, 'grad_norm': 5.942565621808171e-05, 'learning_rate': 1.8478130930784446e-06, 'epoch': 2.72}


 91%|█████████ | 6670/7344 [23:41<02:14,  5.00it/s]

{'loss': 0.1118, 'grad_norm': 0.0003412974183447659, 'learning_rate': 1.820798281776128e-06, 'epoch': 2.72}


 91%|█████████ | 6681/7344 [23:43<02:15,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.001060890150256455, 'learning_rate': 1.7937834704738116e-06, 'epoch': 2.73}


 91%|█████████ | 6690/7344 [23:45<02:13,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.0003627569822128862, 'learning_rate': 1.7667686591714953e-06, 'epoch': 2.73}


 91%|█████████ | 6701/7344 [23:47<02:09,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.0006144187645986676, 'learning_rate': 1.7397538478691789e-06, 'epoch': 2.74}


 91%|█████████▏| 6710/7344 [23:49<02:07,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.0002478647220414132, 'learning_rate': 1.7127390365668623e-06, 'epoch': 2.74}


 92%|█████████▏| 6721/7344 [23:51<02:04,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.0009956950088962913, 'learning_rate': 1.685724225264546e-06, 'epoch': 2.75}


 92%|█████████▏| 6731/7344 [23:53<02:02,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004733443493023515, 'learning_rate': 1.6587094139622295e-06, 'epoch': 2.75}


 92%|█████████▏| 6741/7344 [23:55<02:01,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.00027528926148079336, 'learning_rate': 1.6316946026599129e-06, 'epoch': 2.75}


 92%|█████████▏| 6751/7344 [23:57<01:59,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002195426495745778, 'learning_rate': 1.6046797913575967e-06, 'epoch': 2.76}


 92%|█████████▏| 6761/7344 [23:59<01:56,  4.99it/s]

{'loss': 0.0, 'grad_norm': 9.064433834282681e-05, 'learning_rate': 1.57766498005528e-06, 'epoch': 2.76}


 92%|█████████▏| 6771/7344 [24:01<01:55,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.001237064483575523, 'learning_rate': 1.5506501687529637e-06, 'epoch': 2.77}


 92%|█████████▏| 6780/7344 [24:03<01:52,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.00011163135786773637, 'learning_rate': 1.5236353574506473e-06, 'epoch': 2.77}


 92%|█████████▏| 6791/7344 [24:05<01:50,  4.98it/s]

{'loss': 0.0, 'grad_norm': 8.063870336627588e-05, 'learning_rate': 1.496620546148331e-06, 'epoch': 2.77}


 93%|█████████▎| 6801/7344 [24:07<01:48,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00028497554012574255, 'learning_rate': 1.4696057348460143e-06, 'epoch': 2.78}


 93%|█████████▎| 6811/7344 [24:09<01:46,  5.01it/s]

{'loss': 0.0001, 'grad_norm': 0.00025937522877939045, 'learning_rate': 1.4425909235436981e-06, 'epoch': 2.78}


 93%|█████████▎| 6821/7344 [24:11<01:44,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0005982573493383825, 'learning_rate': 1.4155761122413815e-06, 'epoch': 2.79}


 93%|█████████▎| 6831/7344 [24:13<01:42,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002174513356294483, 'learning_rate': 1.388561300939065e-06, 'epoch': 2.79}


 93%|█████████▎| 6840/7344 [24:15<01:39,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.0013250712072476745, 'learning_rate': 1.3615464896367487e-06, 'epoch': 2.79}


 93%|█████████▎| 6850/7344 [24:18<02:01,  4.07it/s]

{'loss': 0.0, 'grad_norm': 7.08240841049701e-05, 'learning_rate': 1.3345316783344321e-06, 'epoch': 2.8}


 93%|█████████▎| 6860/7344 [24:20<01:41,  4.77it/s]

{'loss': 0.0, 'grad_norm': 0.00029350881231948733, 'learning_rate': 1.3075168670321157e-06, 'epoch': 2.8}


 94%|█████████▎| 6870/7344 [24:22<01:32,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.00027877019601874053, 'learning_rate': 1.2805020557297994e-06, 'epoch': 2.81}


 94%|█████████▎| 6881/7344 [24:24<01:31,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0003212204610463232, 'learning_rate': 1.253487244427483e-06, 'epoch': 2.81}


 94%|█████████▍| 6890/7344 [24:26<01:27,  5.18it/s]

{'loss': 0.0, 'grad_norm': 0.00020224515174049884, 'learning_rate': 1.2264724331251664e-06, 'epoch': 2.81}


 94%|█████████▍| 6900/7344 [24:28<01:33,  4.76it/s]

{'loss': 0.0, 'grad_norm': 0.0003785962762776762, 'learning_rate': 1.19945762182285e-06, 'epoch': 2.82}


 94%|█████████▍| 6910/7344 [24:30<01:41,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0002493724459782243, 'learning_rate': 1.1724428105205336e-06, 'epoch': 2.82}


 94%|█████████▍| 6920/7344 [24:33<01:38,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.00030662264907732606, 'learning_rate': 1.1454279992182172e-06, 'epoch': 2.83}


 94%|█████████▍| 6931/7344 [24:35<01:30,  4.59it/s]

{'loss': 0.0, 'grad_norm': 0.0005577311967499554, 'learning_rate': 1.1184131879159008e-06, 'epoch': 2.83}


 95%|█████████▍| 6941/7344 [24:37<01:20,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004402944177854806, 'learning_rate': 1.0913983766135842e-06, 'epoch': 2.83}


 95%|█████████▍| 6950/7344 [24:39<01:16,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.0009927434148266912, 'learning_rate': 1.0643835653112678e-06, 'epoch': 2.84}


 95%|█████████▍| 6961/7344 [24:41<01:15,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.0007096027256920934, 'learning_rate': 1.0373687540089514e-06, 'epoch': 2.84}


 95%|█████████▍| 6971/7344 [24:43<01:13,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.00024314979964401573, 'learning_rate': 1.0103539427066348e-06, 'epoch': 2.85}


 95%|█████████▌| 6981/7344 [24:45<01:12,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.00020164818852208555, 'learning_rate': 9.833391314043184e-07, 'epoch': 2.85}


 95%|█████████▌| 6991/7344 [24:47<01:05,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.0003158400359097868, 'learning_rate': 9.56324320102002e-07, 'epoch': 2.86}


 95%|█████████▌| 7001/7344 [24:49<01:03,  5.44it/s]

{'loss': 0.0, 'grad_norm': 0.00042545300675556064, 'learning_rate': 9.293095087996855e-07, 'epoch': 2.86}


 95%|█████████▌| 7011/7344 [24:51<01:02,  5.29it/s]

{'loss': 0.0, 'grad_norm': 0.0006608627154491842, 'learning_rate': 9.022946974973691e-07, 'epoch': 2.86}


 96%|█████████▌| 7021/7344 [24:52<00:59,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.0009181667701341212, 'learning_rate': 8.752798861950527e-07, 'epoch': 2.87}


 96%|█████████▌| 7031/7344 [24:55<01:20,  3.88it/s]

{'loss': 0.0, 'grad_norm': 0.0007800509338267148, 'learning_rate': 8.482650748927362e-07, 'epoch': 2.87}


 96%|█████████▌| 7040/7344 [24:57<01:12,  4.19it/s]

{'loss': 0.0, 'grad_norm': 0.0006234825705178082, 'learning_rate': 8.212502635904198e-07, 'epoch': 2.88}


 96%|█████████▌| 7050/7344 [25:00<01:11,  4.11it/s]

{'loss': 0.0, 'grad_norm': 0.0005569570930674672, 'learning_rate': 7.942354522881033e-07, 'epoch': 2.88}


 96%|█████████▌| 7060/7344 [25:02<01:02,  4.55it/s]

{'loss': 0.0, 'grad_norm': 0.0003013577952515334, 'learning_rate': 7.67220640985787e-07, 'epoch': 2.88}


 96%|█████████▋| 7071/7344 [25:04<00:53,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.0001256949472008273, 'learning_rate': 7.402058296834706e-07, 'epoch': 2.89}


 96%|█████████▋| 7080/7344 [25:06<00:51,  5.13it/s]

{'loss': 0.0, 'grad_norm': 9.964378114091232e-05, 'learning_rate': 7.13191018381154e-07, 'epoch': 2.89}


 97%|█████████▋| 7091/7344 [25:08<00:49,  5.10it/s]

{'loss': 0.0, 'grad_norm': 0.000386135681765154, 'learning_rate': 6.861762070788376e-07, 'epoch': 2.9}


 97%|█████████▋| 7101/7344 [25:10<00:47,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.00023420501383952796, 'learning_rate': 6.591613957765212e-07, 'epoch': 2.9}


 97%|█████████▋| 7111/7344 [25:12<00:47,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.00036114169051870704, 'learning_rate': 6.321465844742047e-07, 'epoch': 2.9}


 97%|█████████▋| 7121/7344 [25:14<00:43,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.0002563181333243847, 'learning_rate': 6.051317731718883e-07, 'epoch': 2.91}


 97%|█████████▋| 7131/7344 [25:16<00:41,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.0003828454646281898, 'learning_rate': 5.781169618695718e-07, 'epoch': 2.91}


 97%|█████████▋| 7141/7344 [25:18<00:39,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00026702770264819264, 'learning_rate': 5.511021505672554e-07, 'epoch': 2.92}


 97%|█████████▋| 7151/7344 [25:20<00:37,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.00033460246049799025, 'learning_rate': 5.24087339264939e-07, 'epoch': 2.92}


 98%|█████████▊| 7161/7344 [25:22<00:36,  5.08it/s]

{'loss': 0.0, 'grad_norm': 0.0012241328367963433, 'learning_rate': 4.970725279626225e-07, 'epoch': 2.92}


 98%|█████████▊| 7171/7344 [25:24<00:33,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.000157573027536273, 'learning_rate': 4.7005771666030606e-07, 'epoch': 2.93}


 98%|█████████▊| 7181/7344 [25:26<00:31,  5.17it/s]

{'loss': 0.0, 'grad_norm': 0.00016116633196361363, 'learning_rate': 4.4304290535798967e-07, 'epoch': 2.93}


 98%|█████████▊| 7191/7344 [25:28<00:29,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0006801714189350605, 'learning_rate': 4.160280940556732e-07, 'epoch': 2.94}


 98%|█████████▊| 7201/7344 [25:30<00:28,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.00023316450824495405, 'learning_rate': 3.890132827533568e-07, 'epoch': 2.94}


 98%|█████████▊| 7211/7344 [25:31<00:26,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.00030996871646493673, 'learning_rate': 3.619984714510403e-07, 'epoch': 2.95}


 98%|█████████▊| 7221/7344 [25:33<00:23,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.000253267731750384, 'learning_rate': 3.349836601487239e-07, 'epoch': 2.95}


 98%|█████████▊| 7231/7344 [25:35<00:21,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.0004168545419815928, 'learning_rate': 3.0796884884640744e-07, 'epoch': 2.95}


 99%|█████████▊| 7241/7344 [25:37<00:20,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.0003428510681260377, 'learning_rate': 2.80954037544091e-07, 'epoch': 2.96}


 99%|█████████▊| 7251/7344 [25:39<00:18,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.0002420498349238187, 'learning_rate': 2.5393922624177455e-07, 'epoch': 2.96}


 99%|█████████▉| 7260/7344 [25:41<00:16,  5.15it/s]

{'loss': 0.0, 'grad_norm': 0.00036545039620250463, 'learning_rate': 2.269244149394581e-07, 'epoch': 2.97}


 99%|█████████▉| 7271/7344 [25:43<00:14,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00019423358025960624, 'learning_rate': 1.9990960363714166e-07, 'epoch': 2.97}


 99%|█████████▉| 7281/7344 [25:45<00:12,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0002823711547534913, 'learning_rate': 1.7289479233482524e-07, 'epoch': 2.97}


 99%|█████████▉| 7291/7344 [25:47<00:10,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.0013567854184657335, 'learning_rate': 1.4587998103250877e-07, 'epoch': 2.98}


 99%|█████████▉| 7301/7344 [25:49<00:08,  5.02it/s]

{'loss': 0.0, 'grad_norm': 0.0003685702395159751, 'learning_rate': 1.1886516973019234e-07, 'epoch': 2.98}


100%|█████████▉| 7311/7344 [25:51<00:06,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0007621669210493565, 'learning_rate': 9.18503584278759e-08, 'epoch': 2.99}


100%|█████████▉| 7321/7344 [25:53<00:04,  5.17it/s]

{'loss': 0.0, 'grad_norm': 0.00010587168799247593, 'learning_rate': 6.483554712555946e-08, 'epoch': 2.99}


100%|█████████▉| 7331/7344 [25:55<00:02,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.000565425434615463, 'learning_rate': 3.782073582324302e-08, 'epoch': 2.99}


100%|█████████▉| 7341/7344 [25:57<00:00,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00018151949916500598, 'learning_rate': 1.0805924520926578e-08, 'epoch': 3.0}


100%|██████████| 7344/7344 [25:57<00:00,  5.86it/s]
100%|██████████| 7344/7344 [26:58<00:00,  5.86it/s]

{'eval_loss': 0.006775232031941414, 'eval_accuracy': 0.9992736517159978, 'eval_f1': 0.999273184351784, 'eval_runtime': 24.6385, 'eval_samples_per_second': 223.512, 'eval_steps_per_second': 27.964, 'epoch': 3.0}


100%|██████████| 7344/7344 [27:35<00:00,  4.44it/s]


{'train_runtime': 1655.0153, 'train_samples_per_second': 39.922, 'train_steps_per_second': 4.437, 'train_loss': 0.006435940525423571, 'epoch': 3.0}


100%|██████████| 689/689 [00:23<00:00, 28.88it/s]
  0%|          | 10/2448 [00:02<11:27,  3.54it/s]

{'loss': 0.0, 'grad_norm': 9.988014062400907e-05, 'learning_rate': 2.9914889648209212e-05, 'epoch': 0.01}


  1%|          | 20/2448 [00:05<11:49,  3.42it/s]

{'loss': 0.0, 'grad_norm': 3.7959041947033256e-05, 'learning_rate': 2.9792187065566845e-05, 'epoch': 0.02}


  1%|          | 30/2448 [00:08<12:10,  3.31it/s]

{'loss': 0.0, 'grad_norm': 2.8985663448111154e-05, 'learning_rate': 2.966948448292448e-05, 'epoch': 0.04}


  2%|▏         | 40/2448 [00:11<12:12,  3.29it/s]

{'loss': 0.039, 'grad_norm': 2.8134003514423966e-05, 'learning_rate': 2.9546781900282108e-05, 'epoch': 0.05}


  2%|▏         | 50/2448 [00:15<13:39,  2.93it/s]

{'loss': 0.0, 'grad_norm': 7.611620821990073e-05, 'learning_rate': 2.942407931763974e-05, 'epoch': 0.06}


  2%|▏         | 60/2448 [00:18<13:06,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.00013543182285502553, 'learning_rate': 2.9301376734997375e-05, 'epoch': 0.07}


  3%|▎         | 70/2448 [00:21<12:56,  3.06it/s]

{'loss': 0.0, 'grad_norm': 0.000298638129606843, 'learning_rate': 2.9178674152355004e-05, 'epoch': 0.09}


  3%|▎         | 80/2448 [00:25<15:31,  2.54it/s]

{'loss': 0.0, 'grad_norm': 5.241439430392347e-05, 'learning_rate': 2.9055971569712637e-05, 'epoch': 0.1}


  4%|▎         | 90/2448 [00:29<15:31,  2.53it/s]

{'loss': 0.0, 'grad_norm': 6.117214070400223e-05, 'learning_rate': 2.893326898707027e-05, 'epoch': 0.11}


  4%|▍         | 100/2448 [00:33<15:34,  2.51it/s]

{'loss': 0.0, 'grad_norm': 0.00010355435370001942, 'learning_rate': 2.8810566404427904e-05, 'epoch': 0.12}


  4%|▍         | 110/2448 [00:37<15:29,  2.52it/s]

{'loss': 0.0, 'grad_norm': 6.149170076241717e-05, 'learning_rate': 2.8687863821785537e-05, 'epoch': 0.13}


  5%|▍         | 120/2448 [00:41<15:30,  2.50it/s]

{'loss': 0.0, 'grad_norm': 5.234483251115307e-05, 'learning_rate': 2.8565161239143167e-05, 'epoch': 0.15}


  5%|▌         | 130/2448 [00:46<19:50,  1.95it/s]

{'loss': 0.0, 'grad_norm': 1.9995466573163867e-05, 'learning_rate': 2.84424586565008e-05, 'epoch': 0.16}


  6%|▌         | 140/2448 [00:50<17:03,  2.26it/s]

{'loss': 0.0, 'grad_norm': 9.241941006621346e-05, 'learning_rate': 2.8319756073858433e-05, 'epoch': 0.17}


  6%|▌         | 150/2448 [00:55<16:55,  2.26it/s]

{'loss': 0.0, 'grad_norm': 2.7441559723229147e-05, 'learning_rate': 2.8197053491216066e-05, 'epoch': 0.18}


  7%|▋         | 160/2448 [00:59<17:03,  2.23it/s]

{'loss': 0.0, 'grad_norm': 6.524746277136728e-05, 'learning_rate': 2.80743509085737e-05, 'epoch': 0.2}


  7%|▋         | 170/2448 [01:03<17:01,  2.23it/s]

{'loss': 0.0, 'grad_norm': 5.2684834372485057e-05, 'learning_rate': 2.7951648325931332e-05, 'epoch': 0.21}


  7%|▋         | 180/2448 [01:08<17:02,  2.22it/s]

{'loss': 0.0, 'grad_norm': 5.756105383625254e-05, 'learning_rate': 2.7828945743288965e-05, 'epoch': 0.22}


  8%|▊         | 190/2448 [01:13<22:02,  1.71it/s]

{'loss': 0.0, 'grad_norm': 4.3903561163460836e-05, 'learning_rate': 2.77062431606466e-05, 'epoch': 0.23}


  8%|▊         | 200/2448 [01:18<18:47,  1.99it/s]

{'loss': 0.0, 'grad_norm': 4.317779894336127e-05, 'learning_rate': 2.7583540578004228e-05, 'epoch': 0.25}


  9%|▊         | 210/2448 [01:23<18:18,  2.04it/s]

{'loss': 0.0, 'grad_norm': 4.137796349823475e-05, 'learning_rate': 2.7460837995361858e-05, 'epoch': 0.26}


  9%|▉         | 220/2448 [01:28<18:14,  2.04it/s]

{'loss': 0.0, 'grad_norm': 2.3964166757650673e-05, 'learning_rate': 2.733813541271949e-05, 'epoch': 0.27}


  9%|▉         | 230/2448 [01:33<18:18,  2.02it/s]

{'loss': 0.0, 'grad_norm': 2.2031410480849445e-05, 'learning_rate': 2.7215432830077124e-05, 'epoch': 0.28}


 10%|▉         | 240/2448 [01:38<18:14,  2.02it/s]

{'loss': 0.0, 'grad_norm': 7.074300810927525e-05, 'learning_rate': 2.7092730247434757e-05, 'epoch': 0.29}


 10%|█         | 250/2448 [01:43<18:14,  2.01it/s]

{'loss': 0.0, 'grad_norm': 1.4092050150793511e-05, 'learning_rate': 2.697002766479239e-05, 'epoch': 0.31}


 11%|█         | 260/2448 [01:48<18:06,  2.01it/s]

{'loss': 0.0, 'grad_norm': 3.999785985797644e-05, 'learning_rate': 2.6847325082150024e-05, 'epoch': 0.32}


 11%|█         | 270/2448 [01:53<18:11,  2.00it/s]

{'loss': 0.006, 'grad_norm': 2.1065983673906885e-05, 'learning_rate': 2.6724622499507653e-05, 'epoch': 0.33}


 11%|█▏        | 280/2448 [01:58<17:58,  2.01it/s]

{'loss': 0.0017, 'grad_norm': 1.8615015505929478e-05, 'learning_rate': 2.6601919916865287e-05, 'epoch': 0.34}


 12%|█▏        | 290/2448 [02:03<17:48,  2.02it/s]

{'loss': 0.0, 'grad_norm': 1.895378954941407e-05, 'learning_rate': 2.647921733422292e-05, 'epoch': 0.36}


 12%|█▏        | 300/2448 [02:08<17:58,  1.99it/s]

{'loss': 0.0642, 'grad_norm': 0.0025842615868896246, 'learning_rate': 2.6356514751580553e-05, 'epoch': 0.37}


 13%|█▎        | 310/2448 [02:13<17:43,  2.01it/s]

{'loss': 0.0475, 'grad_norm': 0.0067866467870771885, 'learning_rate': 2.6233812168938186e-05, 'epoch': 0.38}


 13%|█▎        | 320/2448 [02:18<17:41,  2.01it/s]

{'loss': 0.0277, 'grad_norm': 0.11440218985080719, 'learning_rate': 2.611110958629582e-05, 'epoch': 0.39}


 13%|█▎        | 330/2448 [02:23<17:39,  2.00it/s]

{'loss': 0.0147, 'grad_norm': 0.001176147605292499, 'learning_rate': 2.5988407003653452e-05, 'epoch': 0.4}


 14%|█▍        | 340/2448 [02:28<17:23,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.000367685075616464, 'learning_rate': 2.5865704421011082e-05, 'epoch': 0.42}


 14%|█▍        | 350/2448 [02:33<17:16,  2.02it/s]

{'loss': 0.0311, 'grad_norm': 0.0006659377249889076, 'learning_rate': 2.5743001838368712e-05, 'epoch': 0.43}


 15%|█▍        | 360/2448 [02:38<17:07,  2.03it/s]

{'loss': 0.0, 'grad_norm': 0.00048599697765894234, 'learning_rate': 2.5620299255726345e-05, 'epoch': 0.44}


 15%|█▌        | 370/2448 [02:42<16:56,  2.04it/s]

{'loss': 0.0054, 'grad_norm': 0.0032108549494296312, 'learning_rate': 2.5497596673083978e-05, 'epoch': 0.45}


 16%|█▌        | 380/2448 [02:47<16:57,  2.03it/s]

{'loss': 0.0076, 'grad_norm': 0.0006085772765800357, 'learning_rate': 2.537489409044161e-05, 'epoch': 0.47}


 16%|█▌        | 390/2448 [02:52<16:44,  2.05it/s]

{'loss': 0.0164, 'grad_norm': 0.0002485286386217922, 'learning_rate': 2.5252191507799244e-05, 'epoch': 0.48}


 16%|█▋        | 400/2448 [02:57<16:45,  2.04it/s]

{'loss': 0.0483, 'grad_norm': 0.000403997692046687, 'learning_rate': 2.5129488925156877e-05, 'epoch': 0.49}


 17%|█▋        | 410/2448 [03:02<16:41,  2.03it/s]

{'loss': 0.0, 'grad_norm': 0.02267514355480671, 'learning_rate': 2.500678634251451e-05, 'epoch': 0.5}


 17%|█▋        | 420/2448 [03:07<16:37,  2.03it/s]

{'loss': 0.0, 'grad_norm': 0.04352164268493652, 'learning_rate': 2.4884083759872144e-05, 'epoch': 0.51}


 18%|█▊        | 430/2448 [03:12<16:37,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.00033360259840264916, 'learning_rate': 2.4761381177229773e-05, 'epoch': 0.53}


 18%|█▊        | 440/2448 [03:17<16:28,  2.03it/s]

{'loss': 0.0352, 'grad_norm': 0.0012065824121236801, 'learning_rate': 2.4638678594587407e-05, 'epoch': 0.54}


 18%|█▊        | 450/2448 [03:22<16:23,  2.03it/s]

{'loss': 0.0001, 'grad_norm': 0.0001931849110405892, 'learning_rate': 2.451597601194504e-05, 'epoch': 0.55}


 19%|█▉        | 460/2448 [03:27<16:23,  2.02it/s]

{'loss': 0.0559, 'grad_norm': 0.004071404691785574, 'learning_rate': 2.4393273429302673e-05, 'epoch': 0.56}


 19%|█▉        | 470/2448 [03:32<16:23,  2.01it/s]

{'loss': 0.0464, 'grad_norm': 0.0023727617226541042, 'learning_rate': 2.4270570846660306e-05, 'epoch': 0.58}


 20%|█▉        | 480/2448 [03:37<16:25,  2.00it/s]

{'loss': 0.0309, 'grad_norm': 0.0019814271945506334, 'learning_rate': 2.4147868264017936e-05, 'epoch': 0.59}


 20%|██        | 490/2448 [03:42<16:17,  2.00it/s]

{'loss': 0.0318, 'grad_norm': 0.008338532410562038, 'learning_rate': 2.402516568137557e-05, 'epoch': 0.6}


 20%|██        | 500/2448 [03:47<16:14,  2.00it/s]

{'loss': 0.0067, 'grad_norm': 0.0006086708744987845, 'learning_rate': 2.39024630987332e-05, 'epoch': 0.61}


 21%|██        | 510/2448 [03:52<16:09,  2.00it/s]

{'loss': 0.0315, 'grad_norm': 0.09275895357131958, 'learning_rate': 2.377976051609083e-05, 'epoch': 0.62}


 21%|██        | 520/2448 [03:57<16:02,  2.00it/s]

{'loss': 0.0109, 'grad_norm': 0.0005233328556641936, 'learning_rate': 2.3657057933448465e-05, 'epoch': 0.64}


 22%|██▏       | 530/2448 [04:02<15:48,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.00017540875705890357, 'learning_rate': 2.3534355350806098e-05, 'epoch': 0.65}


 22%|██▏       | 540/2448 [04:07<15:42,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.0003825525345746428, 'learning_rate': 2.341165276816373e-05, 'epoch': 0.66}


 22%|██▏       | 550/2448 [04:12<15:41,  2.02it/s]

{'loss': 0.0002, 'grad_norm': 0.0002675089053809643, 'learning_rate': 2.3288950185521364e-05, 'epoch': 0.67}


 23%|██▎       | 560/2448 [04:16<15:36,  2.02it/s]

{'loss': 0.0014, 'grad_norm': 18.770137786865234, 'learning_rate': 2.3166247602878997e-05, 'epoch': 0.69}


 23%|██▎       | 570/2448 [04:21<15:37,  2.00it/s]

{'loss': 0.0306, 'grad_norm': 0.016186760738492012, 'learning_rate': 2.304354502023663e-05, 'epoch': 0.7}


 24%|██▎       | 580/2448 [04:26<15:32,  2.00it/s]

{'loss': 0.0191, 'grad_norm': 0.0003891912056133151, 'learning_rate': 2.292084243759426e-05, 'epoch': 0.71}


 24%|██▍       | 590/2448 [04:31<15:19,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.00022485668887384236, 'learning_rate': 2.2798139854951893e-05, 'epoch': 0.72}


 25%|██▍       | 600/2448 [04:36<15:16,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.0003229960275348276, 'learning_rate': 2.2675437272309526e-05, 'epoch': 0.74}


 25%|██▍       | 610/2448 [04:41<15:17,  2.00it/s]

{'loss': 0.0002, 'grad_norm': 0.0003621232754085213, 'learning_rate': 2.2552734689667156e-05, 'epoch': 0.75}


 25%|██▌       | 620/2448 [04:46<15:15,  2.00it/s]

{'loss': 0.0423, 'grad_norm': 0.004802452865988016, 'learning_rate': 2.243003210702479e-05, 'epoch': 0.76}


 26%|██▌       | 630/2448 [04:51<15:01,  2.02it/s]

{'loss': 0.0001, 'grad_norm': 0.002314092591404915, 'learning_rate': 2.2307329524382422e-05, 'epoch': 0.77}


 26%|██▌       | 640/2448 [04:56<15:03,  2.00it/s]

{'loss': 0.0126, 'grad_norm': 0.00038900214713066816, 'learning_rate': 2.2184626941740056e-05, 'epoch': 0.78}


 27%|██▋       | 650/2448 [05:01<14:55,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.00013376137940213084, 'learning_rate': 2.206192435909769e-05, 'epoch': 0.8}


 27%|██▋       | 660/2448 [05:06<14:50,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0003668167337309569, 'learning_rate': 2.193922177645532e-05, 'epoch': 0.81}


 27%|██▋       | 670/2448 [05:11<14:47,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00038187974132597446, 'learning_rate': 2.181651919381295e-05, 'epoch': 0.82}


 28%|██▊       | 680/2448 [05:16<14:52,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002548850898165256, 'learning_rate': 2.1693816611170585e-05, 'epoch': 0.83}


 28%|██▊       | 690/2448 [05:21<14:39,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0014466859865933657, 'learning_rate': 2.1571114028528218e-05, 'epoch': 0.85}


 29%|██▊       | 700/2448 [05:26<14:28,  2.01it/s]

{'loss': 0.0015, 'grad_norm': 0.00041116320062428713, 'learning_rate': 2.144841144588585e-05, 'epoch': 0.86}


 29%|██▉       | 710/2448 [05:31<14:28,  2.00it/s]

{'loss': 0.0034, 'grad_norm': 0.00032721602474339306, 'learning_rate': 2.1325708863243484e-05, 'epoch': 0.87}


 29%|██▉       | 720/2448 [05:36<14:24,  2.00it/s]

{'loss': 0.006, 'grad_norm': 0.00016935398161876947, 'learning_rate': 2.1203006280601117e-05, 'epoch': 0.88}


 30%|██▉       | 730/2448 [05:41<14:14,  2.01it/s]

{'loss': 0.0616, 'grad_norm': 0.0012879830319434404, 'learning_rate': 2.1080303697958747e-05, 'epoch': 0.89}


 30%|███       | 740/2448 [05:46<14:06,  2.02it/s]

{'loss': 0.0155, 'grad_norm': 0.0009255111217498779, 'learning_rate': 2.095760111531638e-05, 'epoch': 0.91}


 31%|███       | 750/2448 [05:51<14:08,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0002833882754202932, 'learning_rate': 2.083489853267401e-05, 'epoch': 0.92}


 31%|███       | 760/2448 [05:56<14:02,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00030782530666328967, 'learning_rate': 2.0712195950031643e-05, 'epoch': 0.93}


 31%|███▏      | 770/2448 [06:01<13:52,  2.02it/s]

{'loss': 0.0249, 'grad_norm': 0.00033784128027036786, 'learning_rate': 2.0589493367389276e-05, 'epoch': 0.94}


 32%|███▏      | 780/2448 [06:06<13:45,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.00014473681221716106, 'learning_rate': 2.046679078474691e-05, 'epoch': 0.96}


 32%|███▏      | 790/2448 [06:11<13:46,  2.01it/s]

{'loss': 0.0001, 'grad_norm': 0.00012047820200677961, 'learning_rate': 2.0344088202104542e-05, 'epoch': 0.97}


 33%|███▎      | 800/2448 [06:16<13:42,  2.00it/s]

{'loss': 0.0169, 'grad_norm': 64.75691986083984, 'learning_rate': 2.0221385619462176e-05, 'epoch': 0.98}


 33%|███▎      | 810/2448 [06:21<13:47,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.029916197061538696, 'learning_rate': 2.0098683036819805e-05, 'epoch': 0.99}


 33%|███▎      | 816/2448 [06:24<12:38,  2.15it/s]
 33%|███▎      | 816/2448 [07:03<12:38,  2.15it/s]

{'eval_loss': 0.019158244132995605, 'eval_accuracy': 0.9978209551479935, 'eval_f1': 0.9978135484977889, 'eval_runtime': 38.7213, 'eval_samples_per_second': 142.221, 'eval_steps_per_second': 17.794, 'epoch': 1.0}


 33%|███▎      | 820/2448 [07:40<3:36:51,  7.99s/it] 

{'loss': 0.0, 'grad_norm': 0.0003199409693479538, 'learning_rate': 1.997598045417744e-05, 'epoch': 1.0}


 34%|███▍      | 830/2448 [07:42<12:45,  2.11it/s]  

{'loss': 0.0002, 'grad_norm': 0.0001278663839912042, 'learning_rate': 1.985327787153507e-05, 'epoch': 1.02}


 34%|███▍      | 840/2448 [07:45<07:06,  3.77it/s]

{'loss': 0.0037, 'grad_norm': 0.0001626337761990726, 'learning_rate': 1.9730575288892705e-05, 'epoch': 1.03}


 35%|███▍      | 850/2448 [07:48<07:11,  3.70it/s]

{'loss': 0.0, 'grad_norm': 0.027634041383862495, 'learning_rate': 1.9607872706250338e-05, 'epoch': 1.04}


 35%|███▌      | 860/2448 [07:50<07:15,  3.64it/s]

{'loss': 0.0, 'grad_norm': 0.00029522497789002955, 'learning_rate': 1.948517012360797e-05, 'epoch': 1.05}


 36%|███▌      | 870/2448 [07:53<07:24,  3.55it/s]

{'loss': 0.0, 'grad_norm': 0.00047555926721543074, 'learning_rate': 1.9362467540965604e-05, 'epoch': 1.07}


 36%|███▌      | 880/2448 [07:56<07:15,  3.60it/s]

{'loss': 0.0, 'grad_norm': 0.019581178203225136, 'learning_rate': 1.923976495832323e-05, 'epoch': 1.08}


 36%|███▋      | 890/2448 [07:59<07:33,  3.43it/s]

{'loss': 0.0492, 'grad_norm': 0.00024402829876635224, 'learning_rate': 1.9117062375680864e-05, 'epoch': 1.09}


 37%|███▋      | 900/2448 [08:02<07:33,  3.42it/s]

{'loss': 0.0, 'grad_norm': 0.0002195065753767267, 'learning_rate': 1.8994359793038497e-05, 'epoch': 1.1}


 37%|███▋      | 910/2448 [08:05<07:36,  3.37it/s]

{'loss': 0.0001, 'grad_norm': 0.00043351142085157335, 'learning_rate': 1.887165721039613e-05, 'epoch': 1.12}


 38%|███▊      | 920/2448 [08:08<07:42,  3.30it/s]

{'loss': 0.0072, 'grad_norm': 0.0006068152142688632, 'learning_rate': 1.8748954627753763e-05, 'epoch': 1.13}


 38%|███▊      | 930/2448 [08:11<07:48,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.0005209717783145607, 'learning_rate': 1.8626252045111396e-05, 'epoch': 1.14}


 38%|███▊      | 940/2448 [08:14<08:09,  3.08it/s]

{'loss': 0.0, 'grad_norm': 0.00030392786720767617, 'learning_rate': 1.850354946246903e-05, 'epoch': 1.15}


 39%|███▉      | 950/2448 [08:17<08:25,  2.96it/s]

{'loss': 0.0055, 'grad_norm': 19.191442489624023, 'learning_rate': 1.8380846879826662e-05, 'epoch': 1.16}


 39%|███▉      | 960/2448 [08:21<08:47,  2.82it/s]

{'loss': 0.0, 'grad_norm': 0.0002709958062041551, 'learning_rate': 1.8258144297184292e-05, 'epoch': 1.18}


 40%|███▉      | 970/2448 [08:25<09:14,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.00041223817970603704, 'learning_rate': 1.8135441714541925e-05, 'epoch': 1.19}


 40%|████      | 980/2448 [08:28<09:32,  2.56it/s]

{'loss': 0.0, 'grad_norm': 0.0008600922883488238, 'learning_rate': 1.801273913189956e-05, 'epoch': 1.2}


 40%|████      | 990/2448 [08:33<11:03,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.00029739775345660746, 'learning_rate': 1.789003654925719e-05, 'epoch': 1.21}


 41%|████      | 1000/2448 [08:38<11:01,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.0003795278607867658, 'learning_rate': 1.7767333966614825e-05, 'epoch': 1.23}


 41%|████▏     | 1010/2448 [08:42<10:55,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.00017570803174749017, 'learning_rate': 1.7644631383972454e-05, 'epoch': 1.24}


 42%|████▏     | 1020/2448 [08:47<10:52,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.001816297764889896, 'learning_rate': 1.7521928801330088e-05, 'epoch': 1.25}


 42%|████▏     | 1030/2448 [08:51<10:51,  2.18it/s]

{'loss': 0.044, 'grad_norm': 0.00026175519451498985, 'learning_rate': 1.739922621868772e-05, 'epoch': 1.26}


 42%|████▏     | 1040/2448 [08:56<10:55,  2.15it/s]

{'loss': 0.0, 'grad_norm': 0.0009688852587714791, 'learning_rate': 1.727652363604535e-05, 'epoch': 1.27}


 43%|████▎     | 1050/2448 [09:01<10:55,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.000197368543012999, 'learning_rate': 1.7153821053402984e-05, 'epoch': 1.29}


 43%|████▎     | 1060/2448 [09:05<10:43,  2.16it/s]

{'loss': 0.0, 'grad_norm': 0.00021216952882241458, 'learning_rate': 1.7031118470760617e-05, 'epoch': 1.3}


 44%|████▎     | 1070/2448 [09:10<10:40,  2.15it/s]

{'loss': 0.0001, 'grad_norm': 0.00011533712677191943, 'learning_rate': 1.690841588811825e-05, 'epoch': 1.31}


 44%|████▍     | 1080/2448 [09:15<10:37,  2.15it/s]

{'loss': 0.0, 'grad_norm': 0.0002789177233353257, 'learning_rate': 1.6785713305475883e-05, 'epoch': 1.32}


 45%|████▍     | 1090/2448 [09:19<10:35,  2.14it/s]

{'loss': 0.0, 'grad_norm': 0.0002095776580972597, 'learning_rate': 1.6663010722833516e-05, 'epoch': 1.34}


 45%|████▍     | 1100/2448 [09:24<10:27,  2.15it/s]

{'loss': 0.0, 'grad_norm': 0.0006798310787416995, 'learning_rate': 1.654030814019115e-05, 'epoch': 1.35}


 45%|████▌     | 1110/2448 [09:29<10:25,  2.14it/s]

{'loss': 0.0, 'grad_norm': 0.00012822130520362407, 'learning_rate': 1.641760555754878e-05, 'epoch': 1.36}


 46%|████▌     | 1120/2448 [09:33<10:18,  2.15it/s]

{'loss': 0.0391, 'grad_norm': 0.00023638519633095711, 'learning_rate': 1.6294902974906412e-05, 'epoch': 1.37}


 46%|████▌     | 1130/2448 [09:38<10:19,  2.13it/s]

{'loss': 0.0002, 'grad_norm': 0.02309766598045826, 'learning_rate': 1.6172200392264045e-05, 'epoch': 1.38}


 47%|████▋     | 1140/2448 [09:43<10:51,  2.01it/s]

{'loss': 0.0006, 'grad_norm': 0.010310081765055656, 'learning_rate': 1.604949780962168e-05, 'epoch': 1.4}


 47%|████▋     | 1150/2448 [09:48<10:39,  2.03it/s]

{'loss': 0.0002, 'grad_norm': 0.0052373516373336315, 'learning_rate': 1.5926795226979308e-05, 'epoch': 1.41}


 47%|████▋     | 1160/2448 [09:53<10:35,  2.03it/s]

{'loss': 0.0001, 'grad_norm': 0.0005274505238048732, 'learning_rate': 1.580409264433694e-05, 'epoch': 1.42}


 48%|████▊     | 1170/2448 [09:58<10:27,  2.04it/s]

{'loss': 0.0, 'grad_norm': 0.00335763581097126, 'learning_rate': 1.5681390061694574e-05, 'epoch': 1.43}


 48%|████▊     | 1180/2448 [10:03<10:19,  2.05it/s]

{'loss': 0.0, 'grad_norm': 0.00017454152111895382, 'learning_rate': 1.5558687479052208e-05, 'epoch': 1.45}


 49%|████▊     | 1190/2448 [10:08<10:18,  2.03it/s]

{'loss': 0.0, 'grad_norm': 0.0005256859585642815, 'learning_rate': 1.5435984896409837e-05, 'epoch': 1.46}


 49%|████▉     | 1200/2448 [10:13<10:16,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.0010196492075920105, 'learning_rate': 1.531328231376747e-05, 'epoch': 1.47}


 49%|████▉     | 1210/2448 [10:18<10:11,  2.03it/s]

{'loss': 0.0, 'grad_norm': 0.0006500514573417604, 'learning_rate': 1.5190579731125104e-05, 'epoch': 1.48}


 50%|████▉     | 1220/2448 [10:23<10:03,  2.03it/s]

{'loss': 0.0, 'grad_norm': 0.0003363603900652379, 'learning_rate': 1.5067877148482737e-05, 'epoch': 1.5}


 50%|█████     | 1230/2448 [10:28<10:03,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.00025879478198476136, 'learning_rate': 1.494517456584037e-05, 'epoch': 1.51}


 51%|█████     | 1240/2448 [10:33<09:58,  2.02it/s]

{'loss': 0.0, 'grad_norm': 9.94993606582284e-05, 'learning_rate': 1.4822471983198003e-05, 'epoch': 1.52}


 51%|█████     | 1250/2448 [10:38<09:53,  2.02it/s]

{'loss': 0.0001, 'grad_norm': 0.0002990632492583245, 'learning_rate': 1.4699769400555633e-05, 'epoch': 1.53}


 51%|█████▏    | 1260/2448 [10:42<09:50,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0007563018589280546, 'learning_rate': 1.4577066817913266e-05, 'epoch': 1.54}


 52%|█████▏    | 1270/2448 [10:47<09:48,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004676968092098832, 'learning_rate': 1.4454364235270899e-05, 'epoch': 1.56}


 52%|█████▏    | 1280/2448 [10:52<09:38,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.00030441387207247317, 'learning_rate': 1.4331661652628532e-05, 'epoch': 1.57}


 53%|█████▎    | 1290/2448 [10:57<09:34,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0008011031895875931, 'learning_rate': 1.4208959069986164e-05, 'epoch': 1.58}


 53%|█████▎    | 1300/2448 [11:02<09:29,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0002607277419883758, 'learning_rate': 1.4086256487343797e-05, 'epoch': 1.59}


 54%|█████▎    | 1310/2448 [11:07<09:27,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0003980330075137317, 'learning_rate': 1.396355390470143e-05, 'epoch': 1.61}


 54%|█████▍    | 1320/2448 [11:12<09:27,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.00015164217620622367, 'learning_rate': 1.384085132205906e-05, 'epoch': 1.62}


 54%|█████▍    | 1330/2448 [11:17<09:15,  2.01it/s]

{'loss': 0.0468, 'grad_norm': 1.3425439596176147, 'learning_rate': 1.3718148739416693e-05, 'epoch': 1.63}


 55%|█████▍    | 1340/2448 [11:22<09:09,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.0005524896550923586, 'learning_rate': 1.3595446156774326e-05, 'epoch': 1.64}


 55%|█████▌    | 1350/2448 [11:27<09:02,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.0010736272670328617, 'learning_rate': 1.3472743574131959e-05, 'epoch': 1.65}


 56%|█████▌    | 1360/2448 [11:32<09:00,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.002910782117396593, 'learning_rate': 1.335004099148959e-05, 'epoch': 1.67}


 56%|█████▌    | 1370/2448 [11:37<08:54,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.000993042252957821, 'learning_rate': 1.3227338408847223e-05, 'epoch': 1.68}


 56%|█████▋    | 1380/2448 [11:42<08:48,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.0006829677149653435, 'learning_rate': 1.3104635826204855e-05, 'epoch': 1.69}


 57%|█████▋    | 1390/2448 [11:47<08:45,  2.01it/s]

{'loss': 0.052, 'grad_norm': 0.0002868935698643327, 'learning_rate': 1.2981933243562488e-05, 'epoch': 1.7}


 57%|█████▋    | 1400/2448 [11:52<08:40,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0003521047765389085, 'learning_rate': 1.285923066092012e-05, 'epoch': 1.72}


 58%|█████▊    | 1410/2448 [11:57<08:32,  2.03it/s]

{'loss': 0.0002, 'grad_norm': 0.0003978891181759536, 'learning_rate': 1.2736528078277753e-05, 'epoch': 1.73}


 58%|█████▊    | 1420/2448 [12:02<08:33,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0005459488020278513, 'learning_rate': 1.2613825495635386e-05, 'epoch': 1.74}


 58%|█████▊    | 1430/2448 [12:07<08:26,  2.01it/s]

{'loss': 0.0054, 'grad_norm': 0.0005944700096733868, 'learning_rate': 1.2491122912993019e-05, 'epoch': 1.75}


 59%|█████▉    | 1440/2448 [12:12<08:26,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.000764323805924505, 'learning_rate': 1.236842033035065e-05, 'epoch': 1.76}


 59%|█████▉    | 1450/2448 [12:17<08:21,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.0004205608565825969, 'learning_rate': 1.2245717747708282e-05, 'epoch': 1.78}


 60%|█████▉    | 1460/2448 [12:22<08:12,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0005880448152311146, 'learning_rate': 1.2123015165065915e-05, 'epoch': 1.79}


 60%|██████    | 1470/2448 [12:27<08:08,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0003911734092980623, 'learning_rate': 1.2000312582423548e-05, 'epoch': 1.8}


 60%|██████    | 1480/2448 [12:32<08:03,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.000331363728037104, 'learning_rate': 1.187760999978118e-05, 'epoch': 1.81}


 61%|██████    | 1490/2448 [12:37<07:56,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.000597663689404726, 'learning_rate': 1.1754907417138813e-05, 'epoch': 1.83}


 61%|██████▏   | 1500/2448 [12:42<07:53,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0005985140451230109, 'learning_rate': 1.1632204834496446e-05, 'epoch': 1.84}


 62%|██████▏   | 1510/2448 [12:47<07:50,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.00039638910675421357, 'learning_rate': 1.1509502251854079e-05, 'epoch': 1.85}


 62%|██████▏   | 1520/2448 [12:52<07:39,  2.02it/s]

{'loss': 0.0, 'grad_norm': 0.0002918842656072229, 'learning_rate': 1.1386799669211709e-05, 'epoch': 1.86}


 62%|██████▎   | 1530/2448 [12:57<07:38,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00039323631790466607, 'learning_rate': 1.1264097086569342e-05, 'epoch': 1.88}


 63%|██████▎   | 1540/2448 [13:02<07:31,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.00022979293134994805, 'learning_rate': 1.1141394503926975e-05, 'epoch': 1.89}


 63%|██████▎   | 1550/2448 [13:07<07:28,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0002673165872693062, 'learning_rate': 1.1018691921284606e-05, 'epoch': 1.9}


 64%|██████▎   | 1560/2448 [13:12<07:25,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.00045541906729340553, 'learning_rate': 1.089598933864224e-05, 'epoch': 1.91}


 64%|██████▍   | 1570/2448 [13:17<07:19,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0003016412374563515, 'learning_rate': 1.0773286755999873e-05, 'epoch': 1.92}


 65%|██████▍   | 1580/2448 [13:22<07:13,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0002550837234593928, 'learning_rate': 1.0650584173357506e-05, 'epoch': 1.94}


 65%|██████▍   | 1590/2448 [13:27<07:07,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0002469208848197013, 'learning_rate': 1.0527881590715135e-05, 'epoch': 1.95}


 65%|██████▌   | 1600/2448 [13:32<07:02,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0002861385582946241, 'learning_rate': 1.0405179008072769e-05, 'epoch': 1.96}


 66%|██████▌   | 1610/2448 [13:37<06:59,  2.00it/s]

{'loss': 0.0004, 'grad_norm': 0.00027162599144503474, 'learning_rate': 1.0282476425430402e-05, 'epoch': 1.97}


 66%|██████▌   | 1620/2448 [13:42<06:53,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00031139273778535426, 'learning_rate': 1.0159773842788035e-05, 'epoch': 1.99}


 67%|██████▋   | 1630/2448 [13:47<06:47,  2.01it/s]

{'loss': 0.0001, 'grad_norm': 0.000365487823728472, 'learning_rate': 1.0037071260145666e-05, 'epoch': 2.0}


 67%|██████▋   | 1632/2448 [13:48<06:17,  2.16it/s]
 67%|██████▋   | 1632/2448 [14:26<06:17,  2.16it/s]

{'eval_loss': 0.008427019231021404, 'eval_accuracy': 0.9990920646449972, 'eval_f1': 0.999097676740667, 'eval_runtime': 38.5871, 'eval_samples_per_second': 142.716, 'eval_steps_per_second': 17.856, 'epoch': 2.0}


 67%|██████▋   | 1640/2448 [15:04<28:12,  2.10s/it]  

{'loss': 0.0, 'grad_norm': 0.0004106232081539929, 'learning_rate': 9.9143686775033e-06, 'epoch': 2.01}


 67%|██████▋   | 1650/2448 [15:07<04:04,  3.27it/s]

{'loss': 0.0003, 'grad_norm': 0.0003374040243215859, 'learning_rate': 9.791666094860931e-06, 'epoch': 2.02}


 68%|██████▊   | 1660/2448 [15:09<03:28,  3.78it/s]

{'loss': 0.0, 'grad_norm': 0.00040226400597020984, 'learning_rate': 9.668963512218564e-06, 'epoch': 2.03}


 68%|██████▊   | 1670/2448 [15:12<03:29,  3.71it/s]

{'loss': 0.0, 'grad_norm': 0.00032510029268451035, 'learning_rate': 9.546260929576195e-06, 'epoch': 2.05}


 69%|██████▊   | 1680/2448 [15:15<03:32,  3.61it/s]

{'loss': 0.0, 'grad_norm': 0.0002365444670431316, 'learning_rate': 9.423558346933829e-06, 'epoch': 2.06}


 69%|██████▉   | 1690/2448 [15:18<03:29,  3.62it/s]

{'loss': 0.0, 'grad_norm': 0.0002918471582233906, 'learning_rate': 9.300855764291462e-06, 'epoch': 2.07}


 69%|██████▉   | 1700/2448 [15:20<03:32,  3.53it/s]

{'loss': 0.0, 'grad_norm': 0.00027124653570353985, 'learning_rate': 9.178153181649095e-06, 'epoch': 2.08}


 70%|██████▉   | 1710/2448 [15:23<03:30,  3.51it/s]

{'loss': 0.0, 'grad_norm': 0.0002766520483419299, 'learning_rate': 9.055450599006726e-06, 'epoch': 2.1}


 70%|███████   | 1720/2448 [15:26<03:43,  3.25it/s]

{'loss': 0.0, 'grad_norm': 0.00030407615122385323, 'learning_rate': 8.932748016364358e-06, 'epoch': 2.11}


 71%|███████   | 1730/2448 [15:29<03:42,  3.23it/s]

{'loss': 0.0, 'grad_norm': 0.0003204344247933477, 'learning_rate': 8.810045433721991e-06, 'epoch': 2.12}


 71%|███████   | 1740/2448 [15:33<03:41,  3.20it/s]

{'loss': 0.0, 'grad_norm': 0.00025102918152697384, 'learning_rate': 8.687342851079624e-06, 'epoch': 2.13}


 71%|███████▏  | 1750/2448 [15:36<03:33,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.0003313834604341537, 'learning_rate': 8.564640268437255e-06, 'epoch': 2.14}


 72%|███████▏  | 1760/2448 [15:39<03:58,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.0002789387945085764, 'learning_rate': 8.441937685794889e-06, 'epoch': 2.16}


 72%|███████▏  | 1770/2448 [15:43<03:49,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.0003307839797344059, 'learning_rate': 8.319235103152522e-06, 'epoch': 2.17}


 73%|███████▎  | 1780/2448 [15:46<04:10,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.0002184798358939588, 'learning_rate': 8.196532520510153e-06, 'epoch': 2.18}


 73%|███████▎  | 1790/2448 [15:50<04:07,  2.66it/s]

{'loss': 0.0, 'grad_norm': 0.0001837078743847087, 'learning_rate': 8.073829937867785e-06, 'epoch': 2.19}


 74%|███████▎  | 1800/2448 [15:54<04:53,  2.21it/s]

{'loss': 0.0, 'grad_norm': 0.00033983972389250994, 'learning_rate': 7.951127355225418e-06, 'epoch': 2.21}


 74%|███████▍  | 1810/2448 [15:59<04:35,  2.32it/s]

{'loss': 0.0, 'grad_norm': 0.00021898756676819175, 'learning_rate': 7.82842477258305e-06, 'epoch': 2.22}


 74%|███████▍  | 1820/2448 [16:03<04:56,  2.11it/s]

{'loss': 0.0, 'grad_norm': 0.0002584287722129375, 'learning_rate': 7.705722189940682e-06, 'epoch': 2.23}


 75%|███████▍  | 1830/2448 [16:08<04:49,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.0003306757134851068, 'learning_rate': 7.583019607298315e-06, 'epoch': 2.24}


 75%|███████▌  | 1840/2448 [16:12<04:09,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.0004728885251097381, 'learning_rate': 7.460317024655948e-06, 'epoch': 2.25}


 76%|███████▌  | 1850/2448 [16:16<04:30,  2.21it/s]

{'loss': 0.0, 'grad_norm': 0.00028584885876625776, 'learning_rate': 7.33761444201358e-06, 'epoch': 2.27}


 76%|███████▌  | 1860/2448 [16:21<04:38,  2.11it/s]

{'loss': 0.0, 'grad_norm': 0.0001685667666606605, 'learning_rate': 7.214911859371213e-06, 'epoch': 2.28}


 76%|███████▋  | 1870/2448 [16:26<04:30,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.0004901279462501407, 'learning_rate': 7.0922092767288446e-06, 'epoch': 2.29}


 77%|███████▋  | 1880/2448 [16:31<04:26,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.00016750916256569326, 'learning_rate': 6.969506694086478e-06, 'epoch': 2.3}


 77%|███████▋  | 1890/2448 [16:35<04:23,  2.12it/s]

{'loss': 0.0, 'grad_norm': 0.00017209518409799784, 'learning_rate': 6.84680411144411e-06, 'epoch': 2.32}


 78%|███████▊  | 1900/2448 [16:40<04:17,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.00015493927639909089, 'learning_rate': 6.724101528801742e-06, 'epoch': 2.33}


 78%|███████▊  | 1910/2448 [16:45<04:13,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.00026591616915538907, 'learning_rate': 6.6013989461593745e-06, 'epoch': 2.34}


 78%|███████▊  | 1920/2448 [16:50<05:58,  1.47it/s]

{'loss': 0.0, 'grad_norm': 0.0002412954781902954, 'learning_rate': 6.478696363517008e-06, 'epoch': 2.35}


 79%|███████▉  | 1930/2448 [16:55<04:31,  1.91it/s]

{'loss': 0.0, 'grad_norm': 0.00034067610977217555, 'learning_rate': 6.35599378087464e-06, 'epoch': 2.37}


 79%|███████▉  | 1940/2448 [17:00<03:59,  2.12it/s]

{'loss': 0.0, 'grad_norm': 0.00011801864457083866, 'learning_rate': 6.233291198232272e-06, 'epoch': 2.38}


 80%|███████▉  | 1950/2448 [17:05<03:53,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.00011335429007885978, 'learning_rate': 6.1105886155899045e-06, 'epoch': 2.39}


 80%|████████  | 1960/2448 [17:09<03:51,  2.11it/s]

{'loss': 0.0, 'grad_norm': 0.0001370945683447644, 'learning_rate': 5.987886032947538e-06, 'epoch': 2.4}


 80%|████████  | 1970/2448 [17:14<03:45,  2.12it/s]

{'loss': 0.0, 'grad_norm': 0.00023521113325841725, 'learning_rate': 5.865183450305169e-06, 'epoch': 2.41}


 81%|████████  | 1980/2448 [17:20<04:28,  1.75it/s]

{'loss': 0.0, 'grad_norm': 0.00023821930517442524, 'learning_rate': 5.742480867662801e-06, 'epoch': 2.43}


 81%|████████▏ | 1990/2448 [17:25<03:33,  2.14it/s]

{'loss': 0.0, 'grad_norm': 0.00018976586579810828, 'learning_rate': 5.6197782850204345e-06, 'epoch': 2.44}


 82%|████████▏ | 2000/2448 [17:29<03:26,  2.17it/s]

{'loss': 0.0, 'grad_norm': 0.00019166356651112437, 'learning_rate': 5.497075702378067e-06, 'epoch': 2.45}


 82%|████████▏ | 2010/2448 [17:34<03:24,  2.14it/s]

{'loss': 0.0, 'grad_norm': 0.00033312823507003486, 'learning_rate': 5.374373119735699e-06, 'epoch': 2.46}


 83%|████████▎ | 2020/2448 [17:40<04:25,  1.61it/s]

{'loss': 0.0, 'grad_norm': 0.0006519615999422967, 'learning_rate': 5.251670537093331e-06, 'epoch': 2.48}


 83%|████████▎ | 2030/2448 [17:45<03:40,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00017459514492657036, 'learning_rate': 5.1289679544509645e-06, 'epoch': 2.49}


 83%|████████▎ | 2040/2448 [17:50<03:34,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00027113952091895044, 'learning_rate': 5.006265371808596e-06, 'epoch': 2.5}


 84%|████████▎ | 2050/2448 [17:55<02:54,  2.28it/s]

{'loss': 0.0, 'grad_norm': 0.00019533568411134183, 'learning_rate': 4.883562789166229e-06, 'epoch': 2.51}


 84%|████████▍ | 2060/2448 [18:00<03:23,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.0003400749119464308, 'learning_rate': 4.760860206523861e-06, 'epoch': 2.52}


 85%|████████▍ | 2070/2448 [18:05<03:15,  1.93it/s]

{'loss': 0.0355, 'grad_norm': 0.0006195533787831664, 'learning_rate': 4.638157623881494e-06, 'epoch': 2.54}


 85%|████████▍ | 2080/2448 [18:10<03:09,  1.95it/s]

{'loss': 0.0, 'grad_norm': 0.004112912341952324, 'learning_rate': 4.515455041239126e-06, 'epoch': 2.55}


 85%|████████▌ | 2090/2448 [18:16<03:02,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.0014085036236792803, 'learning_rate': 4.392752458596759e-06, 'epoch': 2.56}


 86%|████████▌ | 2100/2448 [18:21<02:58,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0017778510227799416, 'learning_rate': 4.270049875954391e-06, 'epoch': 2.57}


 86%|████████▌ | 2110/2448 [18:26<02:53,  1.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0013585623819380999, 'learning_rate': 4.147347293312024e-06, 'epoch': 2.59}


 87%|████████▋ | 2120/2448 [18:31<02:47,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0012486763298511505, 'learning_rate': 4.024644710669656e-06, 'epoch': 2.6}


 87%|████████▋ | 2130/2448 [18:36<02:41,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.0007297553238458931, 'learning_rate': 3.901942128027289e-06, 'epoch': 2.61}


 87%|████████▋ | 2140/2448 [18:41<02:36,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.001352831837721169, 'learning_rate': 3.779239545384921e-06, 'epoch': 2.62}


 88%|████████▊ | 2150/2448 [18:46<02:31,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.0008539598784409463, 'learning_rate': 3.6565369627425532e-06, 'epoch': 2.63}


 88%|████████▊ | 2160/2448 [18:51<02:01,  2.38it/s]

{'loss': 0.0, 'grad_norm': 0.000247333780862391, 'learning_rate': 3.533834380100186e-06, 'epoch': 2.65}


 89%|████████▊ | 2170/2448 [18:55<02:34,  1.80it/s]

{'loss': 0.0, 'grad_norm': 0.0005187126225791872, 'learning_rate': 3.4111317974578182e-06, 'epoch': 2.66}


 89%|████████▉ | 2180/2448 [19:00<02:08,  2.08it/s]

{'loss': 0.0, 'grad_norm': 0.0006735416827723384, 'learning_rate': 3.2884292148154505e-06, 'epoch': 2.67}


 89%|████████▉ | 2190/2448 [19:05<02:04,  2.07it/s]

{'loss': 0.0, 'grad_norm': 0.0009386182646267116, 'learning_rate': 3.1657266321730832e-06, 'epoch': 2.68}


 90%|████████▉ | 2200/2448 [19:10<01:59,  2.08it/s]

{'loss': 0.0, 'grad_norm': 0.0009317809017375112, 'learning_rate': 3.0430240495307155e-06, 'epoch': 2.7}


 90%|█████████ | 2210/2448 [19:15<01:53,  2.09it/s]

{'loss': 0.0, 'grad_norm': 0.001061650924384594, 'learning_rate': 2.920321466888348e-06, 'epoch': 2.71}


 91%|█████████ | 2220/2448 [19:20<01:49,  2.07it/s]

{'loss': 0.0, 'grad_norm': 0.0005790020804852247, 'learning_rate': 2.7976188842459805e-06, 'epoch': 2.72}


 91%|█████████ | 2230/2448 [19:24<01:44,  2.08it/s]

{'loss': 0.0355, 'grad_norm': 0.0006454297108575702, 'learning_rate': 2.6749163016036128e-06, 'epoch': 2.73}


 92%|█████████▏| 2240/2448 [19:29<01:39,  2.08it/s]

{'loss': 0.0, 'grad_norm': 0.0006923131877556443, 'learning_rate': 2.5522137189612455e-06, 'epoch': 2.75}


 92%|█████████▏| 2250/2448 [19:34<01:35,  2.08it/s]

{'loss': 0.0, 'grad_norm': 0.0008830215665511787, 'learning_rate': 2.4295111363188778e-06, 'epoch': 2.76}


 92%|█████████▏| 2260/2448 [19:39<01:31,  2.06it/s]

{'loss': 0.0, 'grad_norm': 0.00044954020995646715, 'learning_rate': 2.3068085536765105e-06, 'epoch': 2.77}


 93%|█████████▎| 2270/2448 [19:44<01:26,  2.05it/s]

{'loss': 0.0, 'grad_norm': 0.0006510320235975087, 'learning_rate': 2.1841059710341428e-06, 'epoch': 2.78}


 93%|█████████▎| 2280/2448 [19:49<01:22,  2.04it/s]

{'loss': 0.0, 'grad_norm': 0.0007308964850381017, 'learning_rate': 2.061403388391775e-06, 'epoch': 2.79}


 94%|█████████▎| 2290/2448 [19:54<01:25,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.0004148863081354648, 'learning_rate': 1.9387008057494078e-06, 'epoch': 2.81}


 94%|█████████▍| 2300/2448 [20:00<01:22,  1.79it/s]

{'loss': 0.0, 'grad_norm': 0.005515177268534899, 'learning_rate': 1.8159982231070398e-06, 'epoch': 2.82}


 94%|█████████▍| 2310/2448 [20:05<01:15,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0004917629994452, 'learning_rate': 1.6932956404646723e-06, 'epoch': 2.83}


 95%|█████████▍| 2320/2448 [20:11<01:09,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0007577952928841114, 'learning_rate': 1.5705930578223048e-06, 'epoch': 2.84}


 95%|█████████▌| 2330/2448 [20:15<00:52,  2.26it/s]

{'loss': 0.0, 'grad_norm': 0.0015862345462664962, 'learning_rate': 1.4478904751799373e-06, 'epoch': 2.86}


 96%|█████████▌| 2340/2448 [20:20<00:54,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.001098769367672503, 'learning_rate': 1.3251878925375698e-06, 'epoch': 2.87}


 96%|█████████▌| 2350/2448 [20:25<00:49,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.0012781948316842318, 'learning_rate': 1.202485309895202e-06, 'epoch': 2.88}


 96%|█████████▋| 2360/2448 [20:30<00:44,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.00030099391005933285, 'learning_rate': 1.0797827272528344e-06, 'epoch': 2.89}


 97%|█████████▋| 2370/2448 [20:35<00:39,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.0010736832628026605, 'learning_rate': 9.57080144610467e-07, 'epoch': 2.9}


 97%|█████████▋| 2380/2448 [20:40<00:34,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.00025046966038644314, 'learning_rate': 8.343775619680994e-07, 'epoch': 2.92}


 98%|█████████▊| 2390/2448 [20:45<00:29,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.0005545716267079115, 'learning_rate': 7.116749793257318e-07, 'epoch': 2.93}


 98%|█████████▊| 2400/2448 [20:50<00:24,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.00024247310648206621, 'learning_rate': 5.889723966833643e-07, 'epoch': 2.94}


 98%|█████████▊| 2410/2448 [20:55<00:19,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.0008688993402756751, 'learning_rate': 4.6626981404099673e-07, 'epoch': 2.95}


 99%|█████████▉| 2420/2448 [21:00<00:14,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.0005905584548600018, 'learning_rate': 3.435672313986292e-07, 'epoch': 2.97}


 99%|█████████▉| 2430/2448 [21:06<00:09,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.0005870872992090881, 'learning_rate': 2.2086464875626162e-07, 'epoch': 2.98}


100%|█████████▉| 2440/2448 [21:11<00:04,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.0002576276601757854, 'learning_rate': 9.816206611389405e-08, 'epoch': 2.99}


100%|██████████| 2448/2448 [21:15<00:00,  2.14it/s]
100%|██████████| 2448/2448 [22:16<00:00,  2.14it/s]

{'eval_loss': 0.010117585770785809, 'eval_accuracy': 0.9989104775739968, 'eval_f1': 0.9989119068024827, 'eval_runtime': 24.7445, 'eval_samples_per_second': 222.555, 'eval_steps_per_second': 27.845, 'epoch': 3.0}


100%|██████████| 2448/2448 [22:52<00:00,  1.78it/s]


{'train_runtime': 1372.4801, 'train_samples_per_second': 48.141, 'train_steps_per_second': 1.784, 'train_loss': 0.004596610228603677, 'epoch': 3.0}


100%|██████████| 689/689 [00:23<00:00, 28.89it/s]
  0%|          | 10/2361 [00:03<11:48,  3.32it/s]

{'loss': 0.0, 'grad_norm': 0.00013226056762505323, 'learning_rate': 2.460035861567622e-05, 'epoch': 0.01}


  1%|          | 20/2361 [00:06<12:07,  3.22it/s]

{'loss': 0.0, 'grad_norm': 4.8935999075183645e-05, 'learning_rate': 2.4495720765333063e-05, 'epoch': 0.03}


  1%|▏         | 30/2361 [00:09<12:14,  3.17it/s]

{'loss': 0.0, 'grad_norm': 2.344140739296563e-05, 'learning_rate': 2.4391082914989904e-05, 'epoch': 0.04}


  2%|▏         | 40/2361 [00:12<12:32,  3.08it/s]

{'loss': 0.0428, 'grad_norm': 7.197271770564839e-05, 'learning_rate': 2.4286445064646752e-05, 'epoch': 0.05}


  2%|▏         | 50/2361 [00:16<13:42,  2.81it/s]

{'loss': 0.0, 'grad_norm': 0.0005018789088353515, 'learning_rate': 2.4181807214303593e-05, 'epoch': 0.06}


  3%|▎         | 60/2361 [00:20<15:05,  2.54it/s]

{'loss': 0.0, 'grad_norm': 0.0005203394684940577, 'learning_rate': 2.4077169363960434e-05, 'epoch': 0.08}


  3%|▎         | 70/2361 [00:24<16:25,  2.32it/s]

{'loss': 0.0, 'grad_norm': 0.00032179919071495533, 'learning_rate': 2.397253151361728e-05, 'epoch': 0.09}


  3%|▎         | 80/2361 [00:28<14:40,  2.59it/s]

{'loss': 0.0, 'grad_norm': 0.00010211990593234077, 'learning_rate': 2.386789366327412e-05, 'epoch': 0.1}


  4%|▍         | 90/2361 [00:32<14:34,  2.60it/s]

{'loss': 0.0, 'grad_norm': 3.15764409606345e-05, 'learning_rate': 2.3763255812930964e-05, 'epoch': 0.11}


  4%|▍         | 100/2361 [00:36<18:19,  2.06it/s]

{'loss': 0.0001, 'grad_norm': 0.00012377329403534532, 'learning_rate': 2.365861796258781e-05, 'epoch': 0.13}


  5%|▍         | 110/2361 [00:41<18:25,  2.04it/s]

{'loss': 0.0249, 'grad_norm': 4.7751771489856765e-05, 'learning_rate': 2.355398011224465e-05, 'epoch': 0.14}


  5%|▌         | 120/2361 [00:46<18:22,  2.03it/s]

{'loss': 0.0, 'grad_norm': 8.01663045422174e-05, 'learning_rate': 2.3449342261901494e-05, 'epoch': 0.15}


  6%|▌         | 130/2361 [00:51<18:32,  2.00it/s]

{'loss': 0.0, 'grad_norm': 4.8532881919527426e-05, 'learning_rate': 2.3344704411558335e-05, 'epoch': 0.17}


  6%|▌         | 140/2361 [00:56<18:24,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.00020680190937127918, 'learning_rate': 2.324006656121518e-05, 'epoch': 0.18}


  6%|▋         | 150/2361 [01:01<18:15,  2.02it/s]

{'loss': 0.0, 'grad_norm': 4.436536255525425e-05, 'learning_rate': 2.313542871087202e-05, 'epoch': 0.19}


  7%|▋         | 160/2361 [01:06<18:21,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00014964750153012574, 'learning_rate': 2.3030790860528868e-05, 'epoch': 0.2}


  7%|▋         | 170/2361 [01:11<18:17,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0001252527436008677, 'learning_rate': 2.292615301018571e-05, 'epoch': 0.22}


  8%|▊         | 180/2361 [01:16<18:21,  1.98it/s]

{'loss': 0.0, 'grad_norm': 4.981136953574605e-05, 'learning_rate': 2.282151515984255e-05, 'epoch': 0.23}


  8%|▊         | 190/2361 [01:21<18:16,  1.98it/s]

{'loss': 0.0, 'grad_norm': 6.632074655499309e-05, 'learning_rate': 2.2716877309499394e-05, 'epoch': 0.24}


  8%|▊         | 200/2361 [01:26<18:07,  1.99it/s]

{'loss': 0.0, 'grad_norm': 3.888050196110271e-05, 'learning_rate': 2.2612239459156235e-05, 'epoch': 0.25}


  9%|▉         | 210/2361 [01:31<18:11,  1.97it/s]

{'loss': 0.0, 'grad_norm': 1.1507742783578578e-05, 'learning_rate': 2.250760160881308e-05, 'epoch': 0.27}


  9%|▉         | 220/2361 [01:37<21:18,  1.68it/s]

{'loss': 0.0, 'grad_norm': 8.888191223377362e-05, 'learning_rate': 2.2402963758469924e-05, 'epoch': 0.28}


 10%|▉         | 230/2361 [01:42<16:59,  2.09it/s]

{'loss': 0.0, 'grad_norm': 6.287077121669427e-05, 'learning_rate': 2.2298325908126765e-05, 'epoch': 0.29}


 10%|█         | 240/2361 [01:48<21:05,  1.68it/s]

{'loss': 0.0, 'grad_norm': 5.6847045925678685e-05, 'learning_rate': 2.219368805778361e-05, 'epoch': 0.3}


 11%|█         | 250/2361 [01:54<20:37,  1.71it/s]

{'loss': 0.0, 'grad_norm': 5.741528366343118e-05, 'learning_rate': 2.208905020744045e-05, 'epoch': 0.32}


 11%|█         | 260/2361 [01:59<20:32,  1.70it/s]

{'loss': 0.0, 'grad_norm': 9.262777894036844e-05, 'learning_rate': 2.1984412357097295e-05, 'epoch': 0.33}


 11%|█▏        | 270/2361 [02:05<17:02,  2.04it/s]

{'loss': 0.0, 'grad_norm': 0.0010614471975713968, 'learning_rate': 2.1879774506754136e-05, 'epoch': 0.34}


 12%|█▏        | 280/2361 [02:09<16:26,  2.11it/s]

{'loss': 0.0, 'grad_norm': 4.8990663344739005e-05, 'learning_rate': 2.177513665641098e-05, 'epoch': 0.36}


 12%|█▏        | 290/2361 [02:15<17:49,  1.94it/s]

{'loss': 0.0, 'grad_norm': 3.2134186767507344e-05, 'learning_rate': 2.1670498806067825e-05, 'epoch': 0.37}


 13%|█▎        | 300/2361 [02:20<17:25,  1.97it/s]

{'loss': 0.0448, 'grad_norm': 0.0005187679780647159, 'learning_rate': 2.1565860955724666e-05, 'epoch': 0.38}


 13%|█▎        | 310/2361 [02:26<21:45,  1.57it/s]

{'loss': 0.0002, 'grad_norm': 0.001177704893052578, 'learning_rate': 2.146122310538151e-05, 'epoch': 0.39}


 14%|█▎        | 320/2361 [02:32<18:18,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00016609036538284272, 'learning_rate': 2.135658525503835e-05, 'epoch': 0.41}


 14%|█▍        | 330/2361 [02:37<17:02,  1.99it/s]

{'loss': 0.0004, 'grad_norm': 0.0007835347205400467, 'learning_rate': 2.1251947404695196e-05, 'epoch': 0.42}


 14%|█▍        | 340/2361 [02:42<16:56,  1.99it/s]

{'loss': 0.0098, 'grad_norm': 0.00035589426988735795, 'learning_rate': 2.1147309554352037e-05, 'epoch': 0.43}


 15%|█▍        | 350/2361 [02:47<16:46,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004168378945905715, 'learning_rate': 2.104267170400888e-05, 'epoch': 0.44}


 15%|█▌        | 360/2361 [02:53<20:51,  1.60it/s]

{'loss': 0.0355, 'grad_norm': 0.00043178186751902103, 'learning_rate': 2.0938033853665726e-05, 'epoch': 0.46}


 16%|█▌        | 370/2361 [02:58<17:30,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.0001721665757941082, 'learning_rate': 2.0833396003322567e-05, 'epoch': 0.47}


 16%|█▌        | 380/2361 [03:03<16:55,  1.95it/s]

{'loss': 0.0501, 'grad_norm': 0.0002037471131188795, 'learning_rate': 2.072875815297941e-05, 'epoch': 0.48}


 17%|█▋        | 390/2361 [03:08<16:47,  1.96it/s]

{'loss': 0.0221, 'grad_norm': 0.4190562665462494, 'learning_rate': 2.0624120302636252e-05, 'epoch': 0.5}


 17%|█▋        | 400/2361 [03:15<21:53,  1.49it/s]

{'loss': 0.0, 'grad_norm': 0.0002623521722853184, 'learning_rate': 2.0519482452293096e-05, 'epoch': 0.51}


 17%|█▋        | 410/2361 [03:21<19:11,  1.69it/s]

{'loss': 0.0008, 'grad_norm': 0.00038304904592223465, 'learning_rate': 2.041484460194994e-05, 'epoch': 0.52}


 18%|█▊        | 420/2361 [03:26<15:22,  2.10it/s]

{'loss': 0.0, 'grad_norm': 0.00022963277297094464, 'learning_rate': 2.0310206751606782e-05, 'epoch': 0.53}


 18%|█▊        | 430/2361 [03:32<18:31,  1.74it/s]

{'loss': 0.0, 'grad_norm': 0.0002100774581776932, 'learning_rate': 2.0205568901263626e-05, 'epoch': 0.55}


 19%|█▊        | 440/2361 [03:37<18:05,  1.77it/s]

{'loss': 0.0387, 'grad_norm': 0.00026020556106232107, 'learning_rate': 2.0100931050920467e-05, 'epoch': 0.56}


 19%|█▉        | 450/2361 [03:43<17:53,  1.78it/s]

{'loss': 0.0485, 'grad_norm': 0.0005291032139211893, 'learning_rate': 1.999629320057731e-05, 'epoch': 0.57}


 19%|█▉        | 460/2361 [03:48<14:45,  2.15it/s]

{'loss': 0.0001, 'grad_norm': 0.00336427241563797, 'learning_rate': 1.9891655350234153e-05, 'epoch': 0.58}


 20%|█▉        | 470/2361 [03:53<19:24,  1.62it/s]

{'loss': 0.0001, 'grad_norm': 0.0011850936571136117, 'learning_rate': 1.9787017499890997e-05, 'epoch': 0.6}


 20%|██        | 480/2361 [03:58<15:51,  1.98it/s]

{'loss': 0.0001, 'grad_norm': 0.00028672735788859427, 'learning_rate': 1.968237964954784e-05, 'epoch': 0.61}


 21%|██        | 490/2361 [04:03<15:51,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.0008081617997959256, 'learning_rate': 1.9577741799204682e-05, 'epoch': 0.62}


 21%|██        | 500/2361 [04:09<15:42,  1.98it/s]

{'loss': 0.0001, 'grad_norm': 0.13572101294994354, 'learning_rate': 1.9473103948861527e-05, 'epoch': 0.64}


 22%|██▏       | 510/2361 [04:14<20:04,  1.54it/s]

{'loss': 0.0, 'grad_norm': 0.0012429391499608755, 'learning_rate': 1.9368466098518368e-05, 'epoch': 0.65}


 22%|██▏       | 520/2361 [04:21<19:02,  1.61it/s]

{'loss': 0.0055, 'grad_norm': 0.0003092267143074423, 'learning_rate': 1.9263828248175212e-05, 'epoch': 0.66}


 22%|██▏       | 530/2361 [04:26<17:14,  1.77it/s]

{'loss': 0.0, 'grad_norm': 0.00069815554888919, 'learning_rate': 1.9159190397832057e-05, 'epoch': 0.67}


 23%|██▎       | 540/2361 [04:32<17:10,  1.77it/s]

{'loss': 0.0, 'grad_norm': 0.0005612594541162252, 'learning_rate': 1.9054552547488898e-05, 'epoch': 0.69}


 23%|██▎       | 550/2361 [04:38<16:55,  1.78it/s]

{'loss': 0.0, 'grad_norm': 0.0005621662712655962, 'learning_rate': 1.8949914697145742e-05, 'epoch': 0.7}


 24%|██▎       | 560/2361 [04:43<16:48,  1.79it/s]

{'loss': 0.0, 'grad_norm': 0.00040069466922432184, 'learning_rate': 1.8845276846802583e-05, 'epoch': 0.71}


 24%|██▍       | 570/2361 [04:49<16:44,  1.78it/s]

{'loss': 0.0539, 'grad_norm': 0.0004063568194396794, 'learning_rate': 1.8740638996459427e-05, 'epoch': 0.72}


 25%|██▍       | 580/2361 [04:55<16:40,  1.78it/s]

{'loss': 0.0, 'grad_norm': 0.0004568281874526292, 'learning_rate': 1.863600114611627e-05, 'epoch': 0.74}


 25%|██▍       | 590/2361 [05:00<16:33,  1.78it/s]

{'loss': 0.0, 'grad_norm': 0.00035197692341171205, 'learning_rate': 1.853136329577311e-05, 'epoch': 0.75}


 25%|██▌       | 600/2361 [05:06<15:31,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.0005219318554736674, 'learning_rate': 1.8426725445429957e-05, 'epoch': 0.76}


 26%|██▌       | 610/2361 [05:10<13:21,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.0008654495468363166, 'learning_rate': 1.83220875950868e-05, 'epoch': 0.78}


 26%|██▋       | 620/2361 [05:16<16:03,  1.81it/s]

{'loss': 0.0, 'grad_norm': 0.00036018024547956884, 'learning_rate': 1.8217449744743643e-05, 'epoch': 0.79}


 27%|██▋       | 630/2361 [05:22<15:27,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.0003085173084400594, 'learning_rate': 1.8112811894400484e-05, 'epoch': 0.8}


 27%|██▋       | 640/2361 [05:27<15:26,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.0002548445772845298, 'learning_rate': 1.8008174044057325e-05, 'epoch': 0.81}


 28%|██▊       | 650/2361 [05:33<16:45,  1.70it/s]

{'loss': 0.0, 'grad_norm': 0.0002000548702199012, 'learning_rate': 1.790353619371417e-05, 'epoch': 0.83}


 28%|██▊       | 660/2361 [05:38<14:49,  1.91it/s]

{'loss': 0.0, 'grad_norm': 0.0002081327693304047, 'learning_rate': 1.7798898343371014e-05, 'epoch': 0.84}


 28%|██▊       | 670/2361 [05:43<13:37,  2.07it/s]

{'loss': 0.0, 'grad_norm': 0.0002559789572842419, 'learning_rate': 1.7694260493027858e-05, 'epoch': 0.85}


 29%|██▉       | 680/2361 [05:49<17:52,  1.57it/s]

{'loss': 0.0, 'grad_norm': 0.00012572504056151956, 'learning_rate': 1.75896226426847e-05, 'epoch': 0.86}


 29%|██▉       | 690/2361 [05:54<14:34,  1.91it/s]

{'loss': 0.0, 'grad_norm': 0.00027352114557288587, 'learning_rate': 1.7484984792341543e-05, 'epoch': 0.88}


 30%|██▉       | 700/2361 [06:00<14:23,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.00014338965411297977, 'learning_rate': 1.7380346941998384e-05, 'epoch': 0.89}


 30%|███       | 710/2361 [06:05<14:19,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.00022664698190055788, 'learning_rate': 1.7275709091655225e-05, 'epoch': 0.9}


 30%|███       | 720/2361 [06:10<14:25,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00023944744316395372, 'learning_rate': 1.7171071241312073e-05, 'epoch': 0.91}


 31%|███       | 730/2361 [06:15<14:12,  1.91it/s]

{'loss': 0.0, 'grad_norm': 0.00015363476995844394, 'learning_rate': 1.7066433390968914e-05, 'epoch': 0.93}


 31%|███▏      | 740/2361 [06:22<18:32,  1.46it/s]

{'loss': 0.0015, 'grad_norm': 0.0001320288429269567, 'learning_rate': 1.696179554062576e-05, 'epoch': 0.94}


 32%|███▏      | 750/2361 [06:28<16:06,  1.67it/s]

{'loss': 0.0262, 'grad_norm': 0.0008543492294847965, 'learning_rate': 1.68571576902826e-05, 'epoch': 0.95}


 32%|███▏      | 760/2361 [06:34<16:12,  1.65it/s]

{'loss': 0.0097, 'grad_norm': 0.0002283317007822916, 'learning_rate': 1.675251983993944e-05, 'epoch': 0.97}


 33%|███▎      | 770/2361 [06:39<13:30,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.00021942873718217015, 'learning_rate': 1.6647881989596285e-05, 'epoch': 0.98}


 33%|███▎      | 780/2361 [06:45<16:25,  1.60it/s]

{'loss': 0.0, 'grad_norm': 0.00012989442620892078, 'learning_rate': 1.654324413925313e-05, 'epoch': 0.99}


 33%|███▎      | 787/2361 [06:49<13:15,  1.98it/s]
 33%|███▎      | 787/2361 [07:29<13:15,  1.98it/s]

{'eval_loss': 0.01035621389746666, 'eval_accuracy': 0.9990920646449972, 'eval_f1': 0.9990960557617645, 'eval_runtime': 39.9539, 'eval_samples_per_second': 137.834, 'eval_steps_per_second': 17.245, 'epoch': 1.0}


 33%|███▎      | 790/2361 [08:06<5:02:34, 11.56s/it] 

{'loss': 0.0003, 'grad_norm': 0.00016652759222779423, 'learning_rate': 1.6438606288909974e-05, 'epoch': 1.0}


 34%|███▍      | 800/2361 [08:09<15:08,  1.72it/s]  

{'loss': 0.0, 'grad_norm': 0.0002485890581738204, 'learning_rate': 1.6333968438566815e-05, 'epoch': 1.02}


 34%|███▍      | 810/2361 [08:11<07:15,  3.56it/s]

{'loss': 0.0, 'grad_norm': 0.00019958925258833915, 'learning_rate': 1.6229330588223656e-05, 'epoch': 1.03}


 35%|███▍      | 820/2361 [08:14<07:22,  3.48it/s]

{'loss': 0.0, 'grad_norm': 0.00017688039224594831, 'learning_rate': 1.61246927378805e-05, 'epoch': 1.04}


 35%|███▌      | 830/2361 [08:17<07:24,  3.45it/s]

{'loss': 0.0, 'grad_norm': 0.00011857361096190289, 'learning_rate': 1.602005488753734e-05, 'epoch': 1.05}


 36%|███▌      | 840/2361 [08:20<07:28,  3.39it/s]

{'loss': 0.0011, 'grad_norm': 0.0001779523736331612, 'learning_rate': 1.5915417037194186e-05, 'epoch': 1.07}


 36%|███▌      | 850/2361 [08:23<07:26,  3.39it/s]

{'loss': 0.0, 'grad_norm': 0.00012136199802625924, 'learning_rate': 1.581077918685103e-05, 'epoch': 1.08}


 36%|███▋      | 860/2361 [08:26<07:37,  3.28it/s]

{'loss': 0.0013, 'grad_norm': 17.60695457458496, 'learning_rate': 1.570614133650787e-05, 'epoch': 1.09}


 37%|███▋      | 870/2361 [08:29<07:40,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.00011993907537544146, 'learning_rate': 1.5601503486164715e-05, 'epoch': 1.11}


 37%|███▋      | 880/2361 [08:32<07:57,  3.10it/s]

{'loss': 0.0, 'grad_norm': 0.00015206378884613514, 'learning_rate': 1.5496865635821557e-05, 'epoch': 1.12}


 38%|███▊      | 890/2361 [08:36<09:48,  2.50it/s]

{'loss': 0.0001, 'grad_norm': 0.00015086033090483397, 'learning_rate': 1.53922277854784e-05, 'epoch': 1.13}


 38%|███▊      | 900/2361 [08:39<08:46,  2.78it/s]

{'loss': 0.0076, 'grad_norm': 0.0002356408367631957, 'learning_rate': 1.5287589935135242e-05, 'epoch': 1.14}


 39%|███▊      | 910/2361 [08:43<08:39,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.00021363167616073042, 'learning_rate': 1.5182952084792088e-05, 'epoch': 1.16}


 39%|███▉      | 920/2361 [08:47<10:29,  2.29it/s]

{'loss': 0.0, 'grad_norm': 0.00016353810497093946, 'learning_rate': 1.507831423444893e-05, 'epoch': 1.17}


 39%|███▉      | 930/2361 [08:51<09:29,  2.51it/s]

{'loss': 0.037, 'grad_norm': 0.00014408607967197895, 'learning_rate': 1.4973676384105773e-05, 'epoch': 1.18}


 40%|███▉      | 940/2361 [08:55<09:24,  2.52it/s]

{'loss': 0.0, 'grad_norm': 0.0002800167421810329, 'learning_rate': 1.4869038533762616e-05, 'epoch': 1.19}


 40%|████      | 950/2361 [09:00<10:36,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.00015307962894439697, 'learning_rate': 1.4764400683419459e-05, 'epoch': 1.21}


 41%|████      | 960/2361 [09:04<10:36,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.00016116979531943798, 'learning_rate': 1.46597628330763e-05, 'epoch': 1.22}


 41%|████      | 970/2361 [09:09<10:33,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.00036527373595163226, 'learning_rate': 1.4555124982733146e-05, 'epoch': 1.23}


 42%|████▏     | 980/2361 [09:15<13:39,  1.68it/s]

{'loss': 0.0, 'grad_norm': 0.0019889383111149073, 'learning_rate': 1.4450487132389989e-05, 'epoch': 1.25}


 42%|████▏     | 990/2361 [09:20<11:01,  2.07it/s]

{'loss': 0.0, 'grad_norm': 0.00012377715029288083, 'learning_rate': 1.4345849282046831e-05, 'epoch': 1.26}


 42%|████▏     | 1000/2361 [09:25<10:58,  2.07it/s]

{'loss': 0.0, 'grad_norm': 0.0001292264787480235, 'learning_rate': 1.4241211431703674e-05, 'epoch': 1.27}


 43%|████▎     | 1010/2361 [09:30<14:08,  1.59it/s]

{'loss': 0.0, 'grad_norm': 0.00016418442828580737, 'learning_rate': 1.4136573581360515e-05, 'epoch': 1.28}


 43%|████▎     | 1020/2361 [09:35<11:52,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.00012588223034981638, 'learning_rate': 1.4031935731017358e-05, 'epoch': 1.3}


 44%|████▎     | 1030/2361 [09:41<11:52,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00013064125960227102, 'learning_rate': 1.3927297880674204e-05, 'epoch': 1.31}


 44%|████▍     | 1040/2361 [09:46<11:42,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.00018311051826458424, 'learning_rate': 1.3822660030331047e-05, 'epoch': 1.32}


 44%|████▍     | 1050/2361 [09:51<11:44,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.000170693063409999, 'learning_rate': 1.371802217998789e-05, 'epoch': 1.33}


 45%|████▍     | 1060/2361 [09:57<11:37,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00022270227782428265, 'learning_rate': 1.3613384329644732e-05, 'epoch': 1.35}


 45%|████▌     | 1070/2361 [10:02<11:34,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.0001548167347209528, 'learning_rate': 1.3508746479301573e-05, 'epoch': 1.36}


 46%|████▌     | 1080/2361 [10:07<11:29,  1.86it/s]

{'loss': 0.0338, 'grad_norm': 0.000141901895403862, 'learning_rate': 1.3404108628958416e-05, 'epoch': 1.37}


 46%|████▌     | 1090/2361 [10:13<11:20,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.029336372390389442, 'learning_rate': 1.3299470778615258e-05, 'epoch': 1.39}


 47%|████▋     | 1100/2361 [10:18<11:12,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.003809969872236252, 'learning_rate': 1.3194832928272105e-05, 'epoch': 1.4}


 47%|████▋     | 1110/2361 [10:23<11:08,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0008784983074292541, 'learning_rate': 1.3090195077928947e-05, 'epoch': 1.41}


 47%|████▋     | 1120/2361 [10:29<11:05,  1.86it/s]

{'loss': 0.0381, 'grad_norm': 0.0015169585822150111, 'learning_rate': 1.2985557227585788e-05, 'epoch': 1.42}


 48%|████▊     | 1130/2361 [10:34<10:59,  1.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0011627820786088705, 'learning_rate': 1.2880919377242631e-05, 'epoch': 1.44}


 48%|████▊     | 1140/2361 [10:40<10:51,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.0008389922440983355, 'learning_rate': 1.2776281526899474e-05, 'epoch': 1.45}


 49%|████▊     | 1150/2361 [10:45<10:51,  1.86it/s]

{'loss': 0.0001, 'grad_norm': 0.007886151783168316, 'learning_rate': 1.2671643676556316e-05, 'epoch': 1.46}


 49%|████▉     | 1160/2361 [10:50<10:43,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.000618692662101239, 'learning_rate': 1.2567005826213162e-05, 'epoch': 1.47}


 50%|████▉     | 1170/2361 [10:56<10:37,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.0006206062389537692, 'learning_rate': 1.2462367975870005e-05, 'epoch': 1.49}


 50%|████▉     | 1180/2361 [11:01<10:32,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.0029275387059897184, 'learning_rate': 1.2357730125526846e-05, 'epoch': 1.5}


 50%|█████     | 1190/2361 [11:06<10:33,  1.85it/s]

{'loss': 0.0343, 'grad_norm': 31.979129791259766, 'learning_rate': 1.2253092275183689e-05, 'epoch': 1.51}


 51%|█████     | 1200/2361 [11:13<12:42,  1.52it/s]

{'loss': 0.0135, 'grad_norm': 0.0008901014225557446, 'learning_rate': 1.2148454424840533e-05, 'epoch': 1.52}


 51%|█████     | 1210/2361 [11:19<12:06,  1.59it/s]

{'loss': 0.0, 'grad_norm': 0.0009504602639935911, 'learning_rate': 1.2043816574497376e-05, 'epoch': 1.54}


 52%|█████▏    | 1220/2361 [11:25<10:30,  1.81it/s]

{'loss': 0.0, 'grad_norm': 0.008956225588917732, 'learning_rate': 1.1939178724154219e-05, 'epoch': 1.55}


 52%|█████▏    | 1230/2361 [11:30<09:23,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.00013617152580991387, 'learning_rate': 1.1834540873811061e-05, 'epoch': 1.56}


 53%|█████▎    | 1240/2361 [11:35<09:17,  2.01it/s]

{'loss': 0.0003, 'grad_norm': 0.00014428285066969693, 'learning_rate': 1.1729903023467904e-05, 'epoch': 1.58}


 53%|█████▎    | 1250/2361 [11:41<11:13,  1.65it/s]

{'loss': 0.0001, 'grad_norm': 0.002112831687554717, 'learning_rate': 1.1625265173124747e-05, 'epoch': 1.59}


 53%|█████▎    | 1260/2361 [11:47<10:45,  1.71it/s]

{'loss': 0.0, 'grad_norm': 0.0004730023501906544, 'learning_rate': 1.152062732278159e-05, 'epoch': 1.6}


 54%|█████▍    | 1270/2361 [11:52<10:31,  1.73it/s]

{'loss': 0.0, 'grad_norm': 0.00012134607823099941, 'learning_rate': 1.1415989472438434e-05, 'epoch': 1.61}


 54%|█████▍    | 1280/2361 [11:57<08:32,  2.11it/s]

{'loss': 0.0, 'grad_norm': 0.0003217063203919679, 'learning_rate': 1.1311351622095277e-05, 'epoch': 1.63}


 55%|█████▍    | 1290/2361 [12:03<11:22,  1.57it/s]

{'loss': 0.0079, 'grad_norm': 0.0018606610829010606, 'learning_rate': 1.120671377175212e-05, 'epoch': 1.64}


 55%|█████▌    | 1300/2361 [12:09<09:22,  1.89it/s]

{'loss': 0.0001, 'grad_norm': 0.00028720495174638927, 'learning_rate': 1.1102075921408962e-05, 'epoch': 1.65}


 55%|█████▌    | 1310/2361 [12:14<09:15,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.00277296407148242, 'learning_rate': 1.0997438071065805e-05, 'epoch': 1.66}


 56%|█████▌    | 1320/2361 [12:19<09:10,  1.89it/s]

{'loss': 0.0104, 'grad_norm': 0.000248863099841401, 'learning_rate': 1.0892800220722648e-05, 'epoch': 1.68}


 56%|█████▋    | 1330/2361 [12:24<09:02,  1.90it/s]

{'loss': 0.0001, 'grad_norm': 0.0002394756011199206, 'learning_rate': 1.0788162370379492e-05, 'epoch': 1.69}


 57%|█████▋    | 1340/2361 [12:30<08:56,  1.90it/s]

{'loss': 0.0003, 'grad_norm': 0.00024432706413790584, 'learning_rate': 1.0683524520036335e-05, 'epoch': 1.7}


 57%|█████▋    | 1350/2361 [12:35<08:56,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.004595455247908831, 'learning_rate': 1.0578886669693177e-05, 'epoch': 1.72}


 58%|█████▊    | 1360/2361 [12:40<08:50,  1.89it/s]

{'loss': 0.0006, 'grad_norm': 0.00036246023955754936, 'learning_rate': 1.047424881935002e-05, 'epoch': 1.73}


 58%|█████▊    | 1370/2361 [12:46<08:45,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.0002797680499497801, 'learning_rate': 1.0369610969006863e-05, 'epoch': 1.74}


 58%|█████▊    | 1380/2361 [12:51<08:37,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.00014920980902388692, 'learning_rate': 1.0264973118663705e-05, 'epoch': 1.75}


 59%|█████▉    | 1390/2361 [12:57<09:10,  1.76it/s]

{'loss': 0.0, 'grad_norm': 0.0001553236215841025, 'learning_rate': 1.016033526832055e-05, 'epoch': 1.77}


 59%|█████▉    | 1400/2361 [13:03<10:46,  1.49it/s]

{'loss': 0.0181, 'grad_norm': 0.00019937178876716644, 'learning_rate': 1.0055697417977393e-05, 'epoch': 1.78}


 60%|█████▉    | 1410/2361 [13:09<09:01,  1.75it/s]

{'loss': 0.0, 'grad_norm': 0.0002454559726174921, 'learning_rate': 9.951059567634235e-06, 'epoch': 1.79}


 60%|██████    | 1420/2361 [13:14<08:58,  1.75it/s]

{'loss': 0.0, 'grad_norm': 0.00022679756511934102, 'learning_rate': 9.846421717291078e-06, 'epoch': 1.8}


 61%|██████    | 1430/2361 [13:20<08:57,  1.73it/s]

{'loss': 0.0, 'grad_norm': 0.00015037108096294105, 'learning_rate': 9.74178386694792e-06, 'epoch': 1.82}


 61%|██████    | 1440/2361 [13:26<08:48,  1.74it/s]

{'loss': 0.0, 'grad_norm': 0.00024480512365698814, 'learning_rate': 9.637146016604763e-06, 'epoch': 1.83}


 61%|██████▏   | 1450/2361 [13:32<08:34,  1.77it/s]

{'loss': 0.0, 'grad_norm': 0.00022170129523146898, 'learning_rate': 9.532508166261608e-06, 'epoch': 1.84}


 62%|██████▏   | 1460/2361 [13:37<08:55,  1.68it/s]

{'loss': 0.0, 'grad_norm': 0.00017875958292279392, 'learning_rate': 9.42787031591845e-06, 'epoch': 1.86}


 62%|██████▏   | 1470/2361 [13:42<07:41,  1.93it/s]

{'loss': 0.0, 'grad_norm': 0.00013242503337096423, 'learning_rate': 9.323232465575292e-06, 'epoch': 1.87}


 63%|██████▎   | 1480/2361 [13:47<07:36,  1.93it/s]

{'loss': 0.0, 'grad_norm': 0.0003092010738328099, 'learning_rate': 9.218594615232136e-06, 'epoch': 1.88}


 63%|██████▎   | 1490/2361 [13:52<07:32,  1.93it/s]

{'loss': 0.0, 'grad_norm': 0.00020854623289778829, 'learning_rate': 9.113956764888979e-06, 'epoch': 1.89}


 64%|██████▎   | 1500/2361 [13:58<07:27,  1.93it/s]

{'loss': 0.0, 'grad_norm': 7.15778733137995e-05, 'learning_rate': 9.009318914545821e-06, 'epoch': 1.91}


 64%|██████▍   | 1510/2361 [14:03<07:20,  1.93it/s]

{'loss': 0.0, 'grad_norm': 0.00021963394829072058, 'learning_rate': 8.904681064202664e-06, 'epoch': 1.92}


 64%|██████▍   | 1520/2361 [14:09<09:11,  1.53it/s]

{'loss': 0.0, 'grad_norm': 9.344763384433463e-05, 'learning_rate': 8.800043213859508e-06, 'epoch': 1.93}


 65%|██████▍   | 1530/2361 [14:15<07:18,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.0001785804342944175, 'learning_rate': 8.69540536351635e-06, 'epoch': 1.94}


 65%|██████▌   | 1540/2361 [14:20<07:14,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.0002804410760290921, 'learning_rate': 8.590767513173192e-06, 'epoch': 1.96}


 66%|██████▌   | 1550/2361 [14:25<07:07,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00022657832596451044, 'learning_rate': 8.486129662830037e-06, 'epoch': 1.97}


 66%|██████▌   | 1560/2361 [14:30<07:01,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00014825951075181365, 'learning_rate': 8.38149181248688e-06, 'epoch': 1.98}


 66%|██████▋   | 1570/2361 [14:36<06:55,  1.91it/s]

{'loss': 0.0, 'grad_norm': 0.0003997186431661248, 'learning_rate': 8.276853962143722e-06, 'epoch': 1.99}


 67%|██████▋   | 1574/2361 [14:38<06:05,  2.16it/s]
 67%|██████▋   | 1574/2361 [15:16<06:05,  2.16it/s]

{'eval_loss': 0.012632327154278755, 'eval_accuracy': 0.9989104775739968, 'eval_f1': 0.9989170783568813, 'eval_runtime': 37.9554, 'eval_samples_per_second': 145.091, 'eval_steps_per_second': 18.153, 'epoch': 2.0}


 67%|██████▋   | 1580/2361 [15:53<52:17,  4.02s/it]  

{'loss': 0.0, 'grad_norm': 0.00043621117947623134, 'learning_rate': 8.172216111800565e-06, 'epoch': 2.01}


 67%|██████▋   | 1590/2361 [15:56<04:48,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.0002162738237529993, 'learning_rate': 8.067578261457407e-06, 'epoch': 2.02}


 68%|██████▊   | 1600/2361 [15:59<03:30,  3.61it/s]

{'loss': 0.0, 'grad_norm': 0.000410289823776111, 'learning_rate': 7.96294041111425e-06, 'epoch': 2.03}


 68%|██████▊   | 1610/2361 [16:02<03:34,  3.50it/s]

{'loss': 0.0, 'grad_norm': 0.001454283599741757, 'learning_rate': 7.858302560771095e-06, 'epoch': 2.05}


 69%|██████▊   | 1620/2361 [16:04<03:35,  3.44it/s]

{'loss': 0.0, 'grad_norm': 7.911818829597905e-05, 'learning_rate': 7.753664710427937e-06, 'epoch': 2.06}


 69%|██████▉   | 1630/2361 [16:08<04:01,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.0002602731983643025, 'learning_rate': 7.64902686008478e-06, 'epoch': 2.07}


 69%|██████▉   | 1640/2361 [16:11<04:04,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.0014906037831678987, 'learning_rate': 7.5443890097416235e-06, 'epoch': 2.08}


 70%|██████▉   | 1650/2361 [16:14<04:00,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.00027679564664140344, 'learning_rate': 7.439751159398466e-06, 'epoch': 2.1}


 70%|███████   | 1660/2361 [16:18<04:05,  2.86it/s]

{'loss': 0.0, 'grad_norm': 0.00017222754831891507, 'learning_rate': 7.335113309055308e-06, 'epoch': 2.11}


 71%|███████   | 1670/2361 [16:22<04:22,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00018106700736097991, 'learning_rate': 7.2304754587121525e-06, 'epoch': 2.12}


 71%|███████   | 1680/2361 [16:26<04:36,  2.47it/s]

{'loss': 0.0, 'grad_norm': 0.0002751222637016326, 'learning_rate': 7.125837608368994e-06, 'epoch': 2.13}


 72%|███████▏  | 1690/2361 [16:30<04:31,  2.48it/s]

{'loss': 0.0, 'grad_norm': 0.0001267201005248353, 'learning_rate': 7.021199758025837e-06, 'epoch': 2.15}


 72%|███████▏  | 1700/2361 [16:34<04:27,  2.47it/s]

{'loss': 0.0, 'grad_norm': 8.746334060560912e-05, 'learning_rate': 6.916561907682681e-06, 'epoch': 2.16}


 72%|███████▏  | 1710/2361 [16:38<04:27,  2.43it/s]

{'loss': 0.0, 'grad_norm': 0.00021748979634139687, 'learning_rate': 6.811924057339523e-06, 'epoch': 2.17}


 73%|███████▎  | 1720/2361 [16:42<04:23,  2.43it/s]

{'loss': 0.0, 'grad_norm': 0.00015065533807501197, 'learning_rate': 6.707286206996366e-06, 'epoch': 2.19}


 73%|███████▎  | 1730/2361 [16:46<04:21,  2.41it/s]

{'loss': 0.0002, 'grad_norm': 0.00016318778216373175, 'learning_rate': 6.60264835665321e-06, 'epoch': 2.2}


 74%|███████▎  | 1740/2361 [16:51<04:48,  2.15it/s]

{'loss': 0.0001, 'grad_norm': 0.000340794853400439, 'learning_rate': 6.498010506310052e-06, 'epoch': 2.21}


 74%|███████▍  | 1750/2361 [16:56<04:47,  2.12it/s]

{'loss': 0.0, 'grad_norm': 0.0002229640376754105, 'learning_rate': 6.393372655966895e-06, 'epoch': 2.22}


 75%|███████▍  | 1760/2361 [17:00<04:45,  2.11it/s]

{'loss': 0.0069, 'grad_norm': 0.00022938739857636392, 'learning_rate': 6.288734805623739e-06, 'epoch': 2.24}


 75%|███████▍  | 1770/2361 [17:05<04:38,  2.12it/s]

{'loss': 0.0, 'grad_norm': 0.00026561174308881164, 'learning_rate': 6.184096955280581e-06, 'epoch': 2.25}


 75%|███████▌  | 1780/2361 [17:10<06:01,  1.61it/s]

{'loss': 0.0, 'grad_norm': 0.00022621657990384847, 'learning_rate': 6.079459104937424e-06, 'epoch': 2.26}


 76%|███████▌  | 1790/2361 [17:16<05:17,  1.80it/s]

{'loss': 0.0, 'grad_norm': 0.00032190282945521176, 'learning_rate': 5.9748212545942675e-06, 'epoch': 2.27}


 76%|███████▌  | 1800/2361 [17:22<05:10,  1.81it/s]

{'loss': 0.0, 'grad_norm': 0.00020814305753447115, 'learning_rate': 5.87018340425111e-06, 'epoch': 2.29}


 77%|███████▋  | 1810/2361 [17:27<05:05,  1.81it/s]

{'loss': 0.0, 'grad_norm': 0.00021126829960849136, 'learning_rate': 5.765545553907953e-06, 'epoch': 2.3}


 77%|███████▋  | 1820/2361 [17:33<04:57,  1.82it/s]

{'loss': 0.0, 'grad_norm': 0.00012786034494638443, 'learning_rate': 5.6609077035647965e-06, 'epoch': 2.31}


 78%|███████▊  | 1830/2361 [17:38<04:56,  1.79it/s]

{'loss': 0.0, 'grad_norm': 0.0002658629964571446, 'learning_rate': 5.556269853221639e-06, 'epoch': 2.33}


 78%|███████▊  | 1840/2361 [17:44<04:50,  1.80it/s]

{'loss': 0.0, 'grad_norm': 0.0002764590026345104, 'learning_rate': 5.451632002878482e-06, 'epoch': 2.34}


 78%|███████▊  | 1850/2361 [17:48<03:53,  2.18it/s]

{'loss': 0.0, 'grad_norm': 0.0003510981914587319, 'learning_rate': 5.3469941525353254e-06, 'epoch': 2.35}


 79%|███████▉  | 1860/2361 [17:54<04:51,  1.72it/s]

{'loss': 0.0, 'grad_norm': 0.0001637518435018137, 'learning_rate': 5.242356302192167e-06, 'epoch': 2.36}


 79%|███████▉  | 1870/2361 [17:59<04:05,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00015836117381695658, 'learning_rate': 5.137718451849011e-06, 'epoch': 2.38}


 80%|███████▉  | 1880/2361 [18:04<03:54,  2.05it/s]

{'loss': 0.0, 'grad_norm': 0.0001713192614261061, 'learning_rate': 5.0330806015058536e-06, 'epoch': 2.39}


 80%|████████  | 1890/2361 [18:09<03:49,  2.05it/s]

{'loss': 0.0, 'grad_norm': 0.00014353754522744566, 'learning_rate': 4.928442751162696e-06, 'epoch': 2.4}


 80%|████████  | 1900/2361 [18:15<04:23,  1.75it/s]

{'loss': 0.0, 'grad_norm': 0.00014121620915830135, 'learning_rate': 4.82380490081954e-06, 'epoch': 2.41}


 81%|████████  | 1910/2361 [18:21<04:19,  1.74it/s]

{'loss': 0.0, 'grad_norm': 0.00034227565629407763, 'learning_rate': 4.7191670504763825e-06, 'epoch': 2.43}


 81%|████████▏ | 1920/2361 [18:26<04:13,  1.74it/s]

{'loss': 0.0066, 'grad_norm': 0.00024603778729215264, 'learning_rate': 4.614529200133225e-06, 'epoch': 2.44}


 82%|████████▏ | 1930/2361 [18:32<03:40,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.0002270179393235594, 'learning_rate': 4.509891349790069e-06, 'epoch': 2.45}


 82%|████████▏ | 1940/2361 [18:37<03:47,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.00018204053048975766, 'learning_rate': 4.4052534994469115e-06, 'epoch': 2.47}


 83%|████████▎ | 1950/2361 [18:43<03:40,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00013052619760856032, 'learning_rate': 4.300615649103754e-06, 'epoch': 2.48}


 83%|████████▎ | 1960/2361 [18:48<03:22,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002535359817557037, 'learning_rate': 4.195977798760598e-06, 'epoch': 2.49}


 83%|████████▎ | 1970/2361 [18:53<03:17,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.0001430207776138559, 'learning_rate': 4.0913399484174405e-06, 'epoch': 2.5}


 84%|████████▍ | 1980/2361 [18:58<03:13,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.0001752864773152396, 'learning_rate': 3.986702098074283e-06, 'epoch': 2.52}


 84%|████████▍ | 1990/2361 [19:03<03:09,  1.96it/s]

{'loss': 0.0, 'grad_norm': 9.416716784471646e-05, 'learning_rate': 3.882064247731127e-06, 'epoch': 2.53}


 85%|████████▍ | 2000/2361 [19:08<03:03,  1.97it/s]

{'loss': 0.0183, 'grad_norm': 0.00015587157395202667, 'learning_rate': 3.777426397387969e-06, 'epoch': 2.54}


 85%|████████▌ | 2010/2361 [19:14<03:45,  1.56it/s]

{'loss': 0.0, 'grad_norm': 0.00012264272663742304, 'learning_rate': 3.672788547044812e-06, 'epoch': 2.55}


 86%|████████▌ | 2020/2361 [19:20<03:13,  1.76it/s]

{'loss': 0.0177, 'grad_norm': 0.00012400452396832407, 'learning_rate': 3.5681506967016553e-06, 'epoch': 2.57}


 86%|████████▌ | 2030/2361 [19:26<02:57,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00021665565145667642, 'learning_rate': 3.463512846358498e-06, 'epoch': 2.58}


 86%|████████▋ | 2040/2361 [19:31<02:51,  1.87it/s]

{'loss': 0.0008, 'grad_norm': 0.00022383168106898665, 'learning_rate': 3.358874996015341e-06, 'epoch': 2.59}


 87%|████████▋ | 2050/2361 [19:36<02:45,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.00015757202345412225, 'learning_rate': 3.2542371456721842e-06, 'epoch': 2.6}


 87%|████████▋ | 2060/2361 [19:42<02:41,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.0016531796427443624, 'learning_rate': 3.149599295329027e-06, 'epoch': 2.62}


 88%|████████▊ | 2070/2361 [19:47<02:35,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00020604599558282644, 'learning_rate': 3.04496144498587e-06, 'epoch': 2.63}


 88%|████████▊ | 2080/2361 [19:52<02:29,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.00014059485692996532, 'learning_rate': 2.940323594642713e-06, 'epoch': 2.64}


 89%|████████▊ | 2090/2361 [19:58<02:24,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.0001437642058590427, 'learning_rate': 2.835685744299556e-06, 'epoch': 2.66}


 89%|████████▉ | 2100/2361 [20:03<02:19,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00011167574120918289, 'learning_rate': 2.731047893956399e-06, 'epoch': 2.67}


 89%|████████▉ | 2110/2361 [20:08<02:15,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.0003643351374194026, 'learning_rate': 2.6264100436132418e-06, 'epoch': 2.68}


 90%|████████▉ | 2120/2361 [20:14<02:09,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00012290514132473618, 'learning_rate': 2.5217721932700845e-06, 'epoch': 2.69}


 90%|█████████ | 2130/2361 [20:19<02:03,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.000157793503603898, 'learning_rate': 2.417134342926928e-06, 'epoch': 2.71}


 91%|█████████ | 2140/2361 [20:24<01:57,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00018299673683941364, 'learning_rate': 2.3124964925837707e-06, 'epoch': 2.72}


 91%|█████████ | 2150/2361 [20:30<01:53,  1.85it/s]

{'loss': 0.016, 'grad_norm': 0.0002739953633863479, 'learning_rate': 2.2078586422406134e-06, 'epoch': 2.73}


 91%|█████████▏| 2160/2361 [20:35<01:48,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.0003368479083292186, 'learning_rate': 2.1032207918974566e-06, 'epoch': 2.74}


 92%|█████████▏| 2170/2361 [20:42<02:02,  1.56it/s]

{'loss': 0.0, 'grad_norm': 0.00020203898020554334, 'learning_rate': 1.9985829415542997e-06, 'epoch': 2.76}


 92%|█████████▏| 2180/2361 [20:48<01:49,  1.66it/s]

{'loss': 0.0, 'grad_norm': 0.00012121554755140096, 'learning_rate': 1.8939450912111424e-06, 'epoch': 2.77}


 93%|█████████▎| 2190/2361 [20:53<01:36,  1.77it/s]

{'loss': 0.0, 'grad_norm': 0.00017069396562874317, 'learning_rate': 1.7893072408679853e-06, 'epoch': 2.78}


 93%|█████████▎| 2200/2361 [20:59<01:52,  1.43it/s]

{'loss': 0.0, 'grad_norm': 0.00652600871399045, 'learning_rate': 1.6846693905248285e-06, 'epoch': 2.8}


 94%|█████████▎| 2210/2361 [21:04<01:26,  1.74it/s]

{'loss': 0.0, 'grad_norm': 0.0002115869865519926, 'learning_rate': 1.5800315401816714e-06, 'epoch': 2.81}


 94%|█████████▍| 2220/2361 [21:10<01:20,  1.75it/s]

{'loss': 0.0005, 'grad_norm': 0.001298077986575663, 'learning_rate': 1.4753936898385143e-06, 'epoch': 2.82}


 94%|█████████▍| 2230/2361 [21:16<01:15,  1.73it/s]

{'loss': 0.0, 'grad_norm': 0.00042432983173057437, 'learning_rate': 1.3707558394953572e-06, 'epoch': 2.83}


 95%|█████████▍| 2240/2361 [21:21<01:03,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.00010539044887991622, 'learning_rate': 1.2661179891522001e-06, 'epoch': 2.85}


 95%|█████████▌| 2250/2361 [21:27<01:06,  1.68it/s]

{'loss': 0.0, 'grad_norm': 0.00010780462616821751, 'learning_rate': 1.1614801388090433e-06, 'epoch': 2.86}


 96%|█████████▌| 2260/2361 [21:33<00:58,  1.71it/s]

{'loss': 0.0, 'grad_norm': 0.0003568748652469367, 'learning_rate': 1.056842288465886e-06, 'epoch': 2.87}


 96%|█████████▌| 2270/2361 [21:39<00:52,  1.74it/s]

{'loss': 0.0, 'grad_norm': 8.02720314823091e-05, 'learning_rate': 9.522044381227291e-07, 'epoch': 2.88}


 97%|█████████▋| 2280/2361 [21:45<00:47,  1.72it/s]

{'loss': 0.0, 'grad_norm': 0.00024274610041175038, 'learning_rate': 8.475665877795721e-07, 'epoch': 2.9}


 97%|█████████▋| 2290/2361 [21:50<00:37,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.00015336099022533745, 'learning_rate': 7.42928737436415e-07, 'epoch': 2.91}


 97%|█████████▋| 2300/2361 [21:55<00:28,  2.12it/s]

{'loss': 0.0, 'grad_norm': 0.00012742764374706894, 'learning_rate': 6.382908870932579e-07, 'epoch': 2.92}


 98%|█████████▊| 2310/2361 [22:00<00:28,  1.81it/s]

{'loss': 0.0, 'grad_norm': 0.00011073819041484967, 'learning_rate': 5.33653036750101e-07, 'epoch': 2.94}


 98%|█████████▊| 2320/2361 [22:06<00:22,  1.79it/s]

{'loss': 0.0, 'grad_norm': 0.00015683825768064708, 'learning_rate': 4.290151864069439e-07, 'epoch': 2.95}


 99%|█████████▊| 2330/2361 [22:11<00:17,  1.80it/s]

{'loss': 0.0, 'grad_norm': 0.00013958860654383898, 'learning_rate': 3.2437733606378684e-07, 'epoch': 2.96}


 99%|█████████▉| 2340/2361 [22:17<00:11,  1.80it/s]

{'loss': 0.0, 'grad_norm': 0.00010907465912168846, 'learning_rate': 2.197394857206298e-07, 'epoch': 2.97}


100%|█████████▉| 2350/2361 [22:23<00:06,  1.80it/s]

{'loss': 0.0, 'grad_norm': 0.00019565055845305324, 'learning_rate': 1.1510163537747276e-07, 'epoch': 2.99}


100%|█████████▉| 2360/2361 [22:27<00:00,  2.06it/s]

{'loss': 0.0, 'grad_norm': 0.0001345353084616363, 'learning_rate': 1.0463785034315703e-08, 'epoch': 3.0}


100%|██████████| 2361/2361 [22:28<00:00,  2.23it/s]
100%|██████████| 2361/2361 [23:28<00:00,  2.23it/s]

{'eval_loss': 0.016674354672431946, 'eval_accuracy': 0.9985473034319956, 'eval_f1': 0.9985531097666362, 'eval_runtime': 24.7245, 'eval_samples_per_second': 222.735, 'eval_steps_per_second': 27.867, 'epoch': 3.0}


100%|██████████| 2361/2361 [24:04<00:00,  1.63it/s]


{'train_runtime': 1444.6698, 'train_samples_per_second': 45.735, 'train_steps_per_second': 1.634, 'train_loss': 0.002923671354714414, 'epoch': 3.0}


100%|██████████| 689/689 [00:23<00:00, 28.83it/s]
  0%|          | 11/6480 [00:02<22:45,  4.74it/s]

{'loss': 0.0, 'grad_norm': 2.922475141531322e-05, 'learning_rate': 4.4412083416197094e-05, 'epoch': 0.01}


  0%|          | 20/6480 [00:04<23:22,  4.61it/s]

{'loss': 0.0, 'grad_norm': 1.3115737601765431e-05, 'learning_rate': 4.434344031972693e-05, 'epoch': 0.02}


  0%|          | 30/6480 [00:07<30:35,  3.51it/s]

{'loss': 0.0, 'grad_norm': 7.443012691510376e-06, 'learning_rate': 4.427479722325676e-05, 'epoch': 0.02}


  1%|          | 40/6480 [00:09<24:17,  4.42it/s]

{'loss': 0.0, 'grad_norm': 5.546009106183192e-06, 'learning_rate': 4.42061541267866e-05, 'epoch': 0.03}


  1%|          | 50/6480 [00:11<23:41,  4.52it/s]

{'loss': 0.0, 'grad_norm': 5.127305030327989e-06, 'learning_rate': 4.413751103031643e-05, 'epoch': 0.04}


  1%|          | 60/6480 [00:13<25:11,  4.25it/s]

{'loss': 0.0718, 'grad_norm': 1.6029850244522095, 'learning_rate': 4.4068867933846266e-05, 'epoch': 0.05}


  1%|          | 70/6480 [00:16<25:35,  4.17it/s]

{'loss': 0.0, 'grad_norm': 1.0608945558487903e-05, 'learning_rate': 4.40002248373761e-05, 'epoch': 0.05}


  1%|          | 80/6480 [00:18<25:01,  4.26it/s]

{'loss': 0.0, 'grad_norm': 2.198216679971665e-05, 'learning_rate': 4.393158174090593e-05, 'epoch': 0.06}


  1%|▏         | 90/6480 [00:21<24:41,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.00012684561079367995, 'learning_rate': 4.386293864443577e-05, 'epoch': 0.07}


  2%|▏         | 100/6480 [00:23<27:52,  3.81it/s]

{'loss': 0.0082, 'grad_norm': 7.168481533881277e-05, 'learning_rate': 4.3794295547965605e-05, 'epoch': 0.08}


  2%|▏         | 110/6480 [00:26<25:46,  4.12it/s]

{'loss': 0.0, 'grad_norm': 9.274322110286448e-06, 'learning_rate': 4.3725652451495445e-05, 'epoch': 0.08}


  2%|▏         | 120/6480 [00:29<44:21,  2.39it/s]

{'loss': 0.0, 'grad_norm': 1.0751432455435861e-05, 'learning_rate': 4.365700935502528e-05, 'epoch': 0.09}


  2%|▏         | 130/6480 [00:32<27:05,  3.91it/s]

{'loss': 0.0, 'grad_norm': 5.636969581246376e-05, 'learning_rate': 4.358836625855511e-05, 'epoch': 0.1}


  2%|▏         | 140/6480 [00:34<27:40,  3.82it/s]

{'loss': 0.0, 'grad_norm': 7.182989065768197e-05, 'learning_rate': 4.3519723162084944e-05, 'epoch': 0.11}


  2%|▏         | 150/6480 [00:38<32:48,  3.22it/s]

{'loss': 0.0108, 'grad_norm': 5.107741162646562e-05, 'learning_rate': 4.345108006561478e-05, 'epoch': 0.12}


  2%|▏         | 160/6480 [00:41<31:33,  3.34it/s]

{'loss': 0.0002, 'grad_norm': 0.001702904817648232, 'learning_rate': 4.338243696914461e-05, 'epoch': 0.12}


  3%|▎         | 170/6480 [00:44<31:36,  3.33it/s]

{'loss': 0.084, 'grad_norm': 46.37427520751953, 'learning_rate': 4.331379387267445e-05, 'epoch': 0.13}


  3%|▎         | 180/6480 [00:47<31:34,  3.33it/s]

{'loss': 0.1649, 'grad_norm': 7.991537131601945e-05, 'learning_rate': 4.324515077620428e-05, 'epoch': 0.14}


  3%|▎         | 190/6480 [00:50<31:29,  3.33it/s]

{'loss': 0.0738, 'grad_norm': 10.478504180908203, 'learning_rate': 4.3176507679734116e-05, 'epoch': 0.15}


  3%|▎         | 200/6480 [00:53<31:42,  3.30it/s]

{'loss': 0.1779, 'grad_norm': 7.5705952644348145, 'learning_rate': 4.310786458326395e-05, 'epoch': 0.15}


  3%|▎         | 210/6480 [00:56<31:43,  3.29it/s]

{'loss': 0.0001, 'grad_norm': 0.15011848509311676, 'learning_rate': 4.303922148679378e-05, 'epoch': 0.16}


  3%|▎         | 220/6480 [00:59<38:21,  2.72it/s]

{'loss': 0.0, 'grad_norm': 0.0009533340344205499, 'learning_rate': 4.2970578390323615e-05, 'epoch': 0.17}


  4%|▎         | 230/6480 [01:02<32:36,  3.19it/s]

{'loss': 0.0001, 'grad_norm': 0.00014752363495063037, 'learning_rate': 4.290193529385345e-05, 'epoch': 0.18}


  4%|▎         | 240/6480 [01:05<32:17,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.00026214562240056694, 'learning_rate': 4.283329219738329e-05, 'epoch': 0.19}


  4%|▍         | 250/6480 [01:09<32:08,  3.23it/s]

{'loss': 0.0, 'grad_norm': 8.766649989411235e-05, 'learning_rate': 4.276464910091313e-05, 'epoch': 0.19}


  4%|▍         | 260/6480 [01:12<32:23,  3.20it/s]

{'loss': 0.0, 'grad_norm': 0.00014116034435573965, 'learning_rate': 4.269600600444296e-05, 'epoch': 0.2}


  4%|▍         | 270/6480 [01:15<32:07,  3.22it/s]

{'loss': 0.0001, 'grad_norm': 0.16664713621139526, 'learning_rate': 4.2627362907972794e-05, 'epoch': 0.21}


  4%|▍         | 280/6480 [01:18<32:13,  3.21it/s]

{'loss': 0.0881, 'grad_norm': 0.02668153867125511, 'learning_rate': 4.255871981150263e-05, 'epoch': 0.22}


  4%|▍         | 290/6480 [01:21<32:05,  3.21it/s]

{'loss': 0.0, 'grad_norm': 0.0002105176099576056, 'learning_rate': 4.249007671503246e-05, 'epoch': 0.22}


  5%|▍         | 300/6480 [01:25<40:29,  2.54it/s]

{'loss': 0.0001, 'grad_norm': 0.2082071602344513, 'learning_rate': 4.242143361856229e-05, 'epoch': 0.23}


  5%|▍         | 310/6480 [01:29<38:11,  2.69it/s]

{'loss': 0.0, 'grad_norm': 9.35568314162083e-05, 'learning_rate': 4.235279052209213e-05, 'epoch': 0.24}


  5%|▍         | 320/6480 [01:32<38:10,  2.69it/s]

{'loss': 0.0, 'grad_norm': 0.005252174101769924, 'learning_rate': 4.2284147425621966e-05, 'epoch': 0.25}


  5%|▌         | 330/6480 [01:36<38:10,  2.69it/s]

{'loss': 0.0, 'grad_norm': 6.710581510560587e-05, 'learning_rate': 4.22155043291518e-05, 'epoch': 0.25}


  5%|▌         | 340/6480 [01:40<38:00,  2.69it/s]

{'loss': 0.0013, 'grad_norm': 5.3458341426448897e-05, 'learning_rate': 4.214686123268163e-05, 'epoch': 0.26}


  5%|▌         | 350/6480 [01:43<35:45,  2.86it/s]

{'loss': 0.0, 'grad_norm': 8.832883031573147e-05, 'learning_rate': 4.2078218136211465e-05, 'epoch': 0.27}


  6%|▌         | 360/6480 [01:46<30:58,  3.29it/s]

{'loss': 0.0, 'grad_norm': 0.00010221535194432363, 'learning_rate': 4.20095750397413e-05, 'epoch': 0.28}


  6%|▌         | 370/6480 [01:50<30:53,  3.30it/s]

{'loss': 0.0, 'grad_norm': 9.600163321010768e-05, 'learning_rate': 4.194093194327114e-05, 'epoch': 0.29}


  6%|▌         | 380/6480 [01:53<30:47,  3.30it/s]

{'loss': 0.0777, 'grad_norm': 0.0047699990682303905, 'learning_rate': 4.187228884680097e-05, 'epoch': 0.29}


  6%|▌         | 390/6480 [01:56<30:48,  3.29it/s]

{'loss': 0.0563, 'grad_norm': 0.0006962234620004892, 'learning_rate': 4.1803645750330804e-05, 'epoch': 0.3}


  6%|▌         | 400/6480 [01:59<37:10,  2.73it/s]

{'loss': 0.1227, 'grad_norm': 11.095229148864746, 'learning_rate': 4.173500265386064e-05, 'epoch': 0.31}


  6%|▋         | 410/6480 [02:03<39:18,  2.57it/s]

{'loss': 0.0351, 'grad_norm': 21.306257247924805, 'learning_rate': 4.166635955739048e-05, 'epoch': 0.32}


  6%|▋         | 420/6480 [02:07<38:37,  2.61it/s]

{'loss': 0.0, 'grad_norm': 0.017928551882505417, 'learning_rate': 4.159771646092031e-05, 'epoch': 0.32}


  7%|▋         | 430/6480 [02:10<38:27,  2.62it/s]

{'loss': 0.0914, 'grad_norm': 30.155553817749023, 'learning_rate': 4.1529073364450144e-05, 'epoch': 0.33}


  7%|▋         | 440/6480 [02:14<31:39,  3.18it/s]

{'loss': 0.0139, 'grad_norm': 0.00025081756757572293, 'learning_rate': 4.1460430267979977e-05, 'epoch': 0.34}


  7%|▋         | 450/6480 [02:17<31:10,  3.22it/s]

{'loss': 0.0001, 'grad_norm': 0.2546994388103485, 'learning_rate': 4.1391787171509816e-05, 'epoch': 0.35}


  7%|▋         | 460/6480 [02:20<31:18,  3.21it/s]

{'loss': 0.0, 'grad_norm': 0.00013689917977899313, 'learning_rate': 4.132314407503965e-05, 'epoch': 0.35}


  7%|▋         | 470/6480 [02:23<31:13,  3.21it/s]

{'loss': 0.0, 'grad_norm': 0.00012124718341510743, 'learning_rate': 4.125450097856948e-05, 'epoch': 0.36}


  7%|▋         | 480/6480 [02:27<37:19,  2.68it/s]

{'loss': 0.0003, 'grad_norm': 6.195237801875919e-05, 'learning_rate': 4.1185857882099316e-05, 'epoch': 0.37}


  8%|▊         | 490/6480 [02:31<37:45,  2.64it/s]

{'loss': 0.0557, 'grad_norm': 0.8097502589225769, 'learning_rate': 4.111721478562915e-05, 'epoch': 0.38}


  8%|▊         | 500/6480 [02:34<34:28,  2.89it/s]

{'loss': 0.0262, 'grad_norm': 0.00025168395950458944, 'learning_rate': 4.104857168915898e-05, 'epoch': 0.39}


  8%|▊         | 510/6480 [02:38<34:46,  2.86it/s]

{'loss': 0.0406, 'grad_norm': 0.00028945348458364606, 'learning_rate': 4.097992859268882e-05, 'epoch': 0.39}


  8%|▊         | 520/6480 [02:41<34:34,  2.87it/s]

{'loss': 0.0125, 'grad_norm': 0.00019754508684854954, 'learning_rate': 4.0911285496218655e-05, 'epoch': 0.4}


  8%|▊         | 530/6480 [02:45<34:41,  2.86it/s]

{'loss': 0.0001, 'grad_norm': 0.00026912122848443687, 'learning_rate': 4.084264239974849e-05, 'epoch': 0.41}


  8%|▊         | 540/6480 [02:48<34:31,  2.87it/s]

{'loss': 0.0, 'grad_norm': 0.0001574973139213398, 'learning_rate': 4.077399930327832e-05, 'epoch': 0.42}


  8%|▊         | 550/6480 [02:52<34:42,  2.85it/s]

{'loss': 0.0679, 'grad_norm': 0.0001866507955128327, 'learning_rate': 4.0705356206808154e-05, 'epoch': 0.42}


  9%|▊         | 560/6480 [02:55<34:36,  2.85it/s]

{'loss': 0.0, 'grad_norm': 0.00024989753728732467, 'learning_rate': 4.063671311033799e-05, 'epoch': 0.43}


  9%|▉         | 570/6480 [02:59<34:16,  2.87it/s]

{'loss': 0.0044, 'grad_norm': 0.00032121859840117395, 'learning_rate': 4.056807001386783e-05, 'epoch': 0.44}


  9%|▉         | 580/6480 [03:02<34:06,  2.88it/s]

{'loss': 0.0906, 'grad_norm': 0.0001930925209308043, 'learning_rate': 4.049942691739766e-05, 'epoch': 0.45}


  9%|▉         | 590/6480 [03:06<34:25,  2.85it/s]

{'loss': 0.0008, 'grad_norm': 0.00016283016884699464, 'learning_rate': 4.04307838209275e-05, 'epoch': 0.46}


  9%|▉         | 600/6480 [03:09<34:21,  2.85it/s]

{'loss': 0.0138, 'grad_norm': 0.001060887472704053, 'learning_rate': 4.036214072445733e-05, 'epoch': 0.46}


  9%|▉         | 610/6480 [03:13<33:43,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.0013359850272536278, 'learning_rate': 4.0293497627987166e-05, 'epoch': 0.47}


 10%|▉         | 620/6480 [03:16<34:08,  2.86it/s]

{'loss': 0.0024, 'grad_norm': 0.00019394958508200943, 'learning_rate': 4.0224854531517e-05, 'epoch': 0.48}


 10%|▉         | 630/6480 [03:20<34:01,  2.87it/s]

{'loss': 0.0, 'grad_norm': 0.0008056557271629572, 'learning_rate': 4.015621143504683e-05, 'epoch': 0.49}


 10%|▉         | 640/6480 [03:23<34:00,  2.86it/s]

{'loss': 0.001, 'grad_norm': 0.000199145229998976, 'learning_rate': 4.0087568338576665e-05, 'epoch': 0.49}


 10%|█         | 650/6480 [03:27<33:31,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.00012110346142435446, 'learning_rate': 4.0018925242106505e-05, 'epoch': 0.5}


 10%|█         | 660/6480 [03:30<33:43,  2.88it/s]

{'loss': 0.0523, 'grad_norm': 0.0006637690821662545, 'learning_rate': 3.995028214563634e-05, 'epoch': 0.51}


 10%|█         | 670/6480 [03:34<33:27,  2.89it/s]

{'loss': 0.1451, 'grad_norm': 0.002868110779672861, 'learning_rate': 3.988163904916617e-05, 'epoch': 0.52}


 10%|█         | 680/6480 [03:37<33:21,  2.90it/s]

{'loss': 0.0016, 'grad_norm': 0.08434319496154785, 'learning_rate': 3.9812995952696004e-05, 'epoch': 0.52}


 11%|█         | 690/6480 [03:41<33:33,  2.88it/s]

{'loss': 0.0003, 'grad_norm': 0.001279949676245451, 'learning_rate': 3.974435285622584e-05, 'epoch': 0.53}


 11%|█         | 700/6480 [03:44<33:17,  2.89it/s]

{'loss': 0.1108, 'grad_norm': 0.39579981565475464, 'learning_rate': 3.967570975975567e-05, 'epoch': 0.54}


 11%|█         | 710/6480 [03:48<33:47,  2.85it/s]

{'loss': 0.0002, 'grad_norm': 0.19395415484905243, 'learning_rate': 3.960706666328551e-05, 'epoch': 0.55}


 11%|█         | 720/6480 [03:51<34:03,  2.82it/s]

{'loss': 0.0879, 'grad_norm': 0.0006770205218344927, 'learning_rate': 3.953842356681534e-05, 'epoch': 0.56}


 11%|█▏        | 730/6480 [03:55<33:35,  2.85it/s]

{'loss': 0.0617, 'grad_norm': 68.60736083984375, 'learning_rate': 3.946978047034518e-05, 'epoch': 0.56}


 11%|█▏        | 740/6480 [03:58<33:24,  2.86it/s]

{'loss': 0.1297, 'grad_norm': 0.003046046243980527, 'learning_rate': 3.9401137373875016e-05, 'epoch': 0.57}


 12%|█▏        | 750/6480 [04:02<33:39,  2.84it/s]

{'loss': 0.0644, 'grad_norm': 0.11995697021484375, 'learning_rate': 3.933249427740485e-05, 'epoch': 0.58}


 12%|█▏        | 760/6480 [04:05<33:20,  2.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0005772167351096869, 'learning_rate': 3.926385118093468e-05, 'epoch': 0.59}


 12%|█▏        | 770/6480 [04:09<33:09,  2.87it/s]

{'loss': 0.0002, 'grad_norm': 0.0007131662569008768, 'learning_rate': 3.9195208084464515e-05, 'epoch': 0.59}


 12%|█▏        | 780/6480 [04:12<33:09,  2.87it/s]

{'loss': 0.0751, 'grad_norm': 0.0007791721727699041, 'learning_rate': 3.912656498799435e-05, 'epoch': 0.6}


 12%|█▏        | 790/6480 [04:16<33:10,  2.86it/s]

{'loss': 0.0007, 'grad_norm': 0.008751210756599903, 'learning_rate': 3.905792189152419e-05, 'epoch': 0.61}


 12%|█▏        | 800/6480 [04:19<33:21,  2.84it/s]

{'loss': 0.0001, 'grad_norm': 0.002588708885014057, 'learning_rate': 3.898927879505402e-05, 'epoch': 0.62}


 12%|█▎        | 810/6480 [04:23<33:06,  2.85it/s]

{'loss': 0.0001, 'grad_norm': 0.0014283411437645555, 'learning_rate': 3.8920635698583854e-05, 'epoch': 0.62}


 13%|█▎        | 820/6480 [04:26<32:55,  2.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0019149788422510028, 'learning_rate': 3.885199260211369e-05, 'epoch': 0.63}


 13%|█▎        | 830/6480 [04:30<33:11,  2.84it/s]

{'loss': 0.0, 'grad_norm': 0.0010430652182549238, 'learning_rate': 3.878334950564352e-05, 'epoch': 0.64}


 13%|█▎        | 840/6480 [04:33<33:07,  2.84it/s]

{'loss': 0.0249, 'grad_norm': 0.0010465076193213463, 'learning_rate': 3.871470640917335e-05, 'epoch': 0.65}


 13%|█▎        | 850/6480 [04:37<33:10,  2.83it/s]

{'loss': 0.0, 'grad_norm': 0.00024324205878656358, 'learning_rate': 3.864606331270319e-05, 'epoch': 0.66}


 13%|█▎        | 860/6480 [04:40<32:36,  2.87it/s]

{'loss': 0.0, 'grad_norm': 0.0006345286383293569, 'learning_rate': 3.8577420216233026e-05, 'epoch': 0.66}


 13%|█▎        | 870/6480 [04:44<32:44,  2.86it/s]

{'loss': 0.0565, 'grad_norm': 0.010805861093103886, 'learning_rate': 3.850877711976286e-05, 'epoch': 0.67}


 14%|█▎        | 880/6480 [04:47<32:43,  2.85it/s]

{'loss': 0.0194, 'grad_norm': 0.0028694330248981714, 'learning_rate': 3.844013402329269e-05, 'epoch': 0.68}


 14%|█▎        | 890/6480 [04:51<32:21,  2.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0007267159526236355, 'learning_rate': 3.8371490926822525e-05, 'epoch': 0.69}


 14%|█▍        | 900/6480 [04:54<32:09,  2.89it/s]

{'loss': 0.0001, 'grad_norm': 0.016928983852267265, 'learning_rate': 3.8302847830352365e-05, 'epoch': 0.69}


 14%|█▍        | 910/6480 [04:58<31:40,  2.93it/s]

{'loss': 0.0138, 'grad_norm': 0.0008782438235357404, 'learning_rate': 3.82342047338822e-05, 'epoch': 0.7}


 14%|█▍        | 920/6480 [05:01<31:53,  2.90it/s]

{'loss': 0.0112, 'grad_norm': 0.0005720026092603803, 'learning_rate': 3.816556163741203e-05, 'epoch': 0.71}


 14%|█▍        | 930/6480 [05:05<33:54,  2.73it/s]

{'loss': 0.0178, 'grad_norm': 30.911174774169922, 'learning_rate': 3.809691854094187e-05, 'epoch': 0.72}


 15%|█▍        | 940/6480 [05:08<33:04,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.0002934429794549942, 'learning_rate': 3.8028275444471704e-05, 'epoch': 0.73}


 15%|█▍        | 950/6480 [05:12<32:49,  2.81it/s]

{'loss': 0.0001, 'grad_norm': 0.001050902996212244, 'learning_rate': 3.795963234800154e-05, 'epoch': 0.73}


 15%|█▍        | 960/6480 [05:15<31:15,  2.94it/s]

{'loss': 0.0949, 'grad_norm': 10.774733543395996, 'learning_rate': 3.789098925153137e-05, 'epoch': 0.74}


 15%|█▍        | 970/6480 [05:19<32:28,  2.83it/s]

{'loss': 0.0003, 'grad_norm': 0.0016879360191524029, 'learning_rate': 3.7822346155061203e-05, 'epoch': 0.75}


 15%|█▌        | 980/6480 [05:22<31:24,  2.92it/s]

{'loss': 0.0844, 'grad_norm': 0.00043744497816078365, 'learning_rate': 3.7753703058591036e-05, 'epoch': 0.76}


 15%|█▌        | 990/6480 [05:26<34:14,  2.67it/s]

{'loss': 0.0222, 'grad_norm': 0.035206139087677, 'learning_rate': 3.7685059962120876e-05, 'epoch': 0.76}


 15%|█▌        | 1000/6480 [05:30<34:00,  2.69it/s]

{'loss': 0.0007, 'grad_norm': 0.0015216335887089372, 'learning_rate': 3.761641686565071e-05, 'epoch': 0.77}


 16%|█▌        | 1010/6480 [05:33<32:55,  2.77it/s]

{'loss': 0.0001, 'grad_norm': 0.016169726848602295, 'learning_rate': 3.754777376918054e-05, 'epoch': 0.78}


 16%|█▌        | 1020/6480 [05:37<31:11,  2.92it/s]

{'loss': 0.0658, 'grad_norm': 0.00849265418946743, 'learning_rate': 3.7479130672710376e-05, 'epoch': 0.79}


 16%|█▌        | 1030/6480 [05:40<31:22,  2.89it/s]

{'loss': 0.0596, 'grad_norm': 0.0023900417145341635, 'learning_rate': 3.741048757624021e-05, 'epoch': 0.79}


 16%|█▌        | 1040/6480 [05:44<33:22,  2.72it/s]

{'loss': 0.0496, 'grad_norm': 0.0017785456730052829, 'learning_rate': 3.734184447977004e-05, 'epoch': 0.8}


 16%|█▌        | 1050/6480 [05:47<31:21,  2.89it/s]

{'loss': 0.0003, 'grad_norm': 0.0019566076807677746, 'learning_rate': 3.727320138329988e-05, 'epoch': 0.81}


 16%|█▋        | 1060/6480 [05:51<31:19,  2.88it/s]

{'loss': 0.0, 'grad_norm': 0.0005903078708797693, 'learning_rate': 3.7204558286829715e-05, 'epoch': 0.82}


 17%|█▋        | 1070/6480 [05:54<32:47,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.0003530013491399586, 'learning_rate': 3.7135915190359554e-05, 'epoch': 0.83}


 17%|█▋        | 1080/6480 [05:58<30:50,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.0004884079680778086, 'learning_rate': 3.706727209388939e-05, 'epoch': 0.83}


 17%|█▋        | 1090/6480 [06:01<31:01,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.0003441588196437806, 'learning_rate': 3.699862899741922e-05, 'epoch': 0.84}


 17%|█▋        | 1100/6480 [06:05<31:24,  2.85it/s]

{'loss': 0.0, 'grad_norm': 0.0003172934812027961, 'learning_rate': 3.6929985900949054e-05, 'epoch': 0.85}


 17%|█▋        | 1110/6480 [06:08<46:17,  1.93it/s]

{'loss': 0.0, 'grad_norm': 0.0003067949728574604, 'learning_rate': 3.686134280447889e-05, 'epoch': 0.86}


 17%|█▋        | 1120/6480 [06:11<30:25,  2.94it/s]

{'loss': 0.0208, 'grad_norm': 0.0004432818968780339, 'learning_rate': 3.679269970800872e-05, 'epoch': 0.86}


 17%|█▋        | 1130/6480 [06:15<28:46,  3.10it/s]

{'loss': 0.0, 'grad_norm': 0.00026448184507898986, 'learning_rate': 3.672405661153856e-05, 'epoch': 0.87}


 18%|█▊        | 1140/6480 [06:18<28:24,  3.13it/s]

{'loss': 0.0, 'grad_norm': 0.0005015103379264474, 'learning_rate': 3.665541351506839e-05, 'epoch': 0.88}


 18%|█▊        | 1150/6480 [06:21<29:37,  3.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004091427254024893, 'learning_rate': 3.6586770418598226e-05, 'epoch': 0.89}


 18%|█▊        | 1160/6480 [06:24<28:04,  3.16it/s]

{'loss': 0.0169, 'grad_norm': 0.038198698312044144, 'learning_rate': 3.651812732212806e-05, 'epoch': 0.9}


 18%|█▊        | 1170/6480 [06:28<28:31,  3.10it/s]

{'loss': 0.0, 'grad_norm': 0.0008693839772604406, 'learning_rate': 3.644948422565789e-05, 'epoch': 0.9}


 18%|█▊        | 1180/6480 [06:31<28:19,  3.12it/s]

{'loss': 0.0033, 'grad_norm': 0.0007993922336027026, 'learning_rate': 3.6380841129187725e-05, 'epoch': 0.91}


 18%|█▊        | 1190/6480 [06:34<28:30,  3.09it/s]

{'loss': 0.05, 'grad_norm': 0.0005951562779955566, 'learning_rate': 3.6312198032717565e-05, 'epoch': 0.92}


 19%|█▊        | 1200/6480 [06:37<28:48,  3.06it/s]

{'loss': 0.0, 'grad_norm': 0.00045778643107041717, 'learning_rate': 3.62435549362474e-05, 'epoch': 0.93}


 19%|█▊        | 1211/6480 [06:41<26:25,  3.32it/s]

{'loss': 0.0001, 'grad_norm': 0.0010199896059930325, 'learning_rate': 3.617491183977723e-05, 'epoch': 0.93}


 19%|█▉        | 1220/6480 [06:45<31:15,  2.80it/s]

{'loss': 0.0, 'grad_norm': 0.015689382329583168, 'learning_rate': 3.610626874330707e-05, 'epoch': 0.94}


 19%|█▉        | 1230/6480 [06:48<30:06,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.004290105774998665, 'learning_rate': 3.6037625646836904e-05, 'epoch': 0.95}


 19%|█▉        | 1240/6480 [06:52<29:26,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.0002617807185743004, 'learning_rate': 3.596898255036674e-05, 'epoch': 0.96}


 19%|█▉        | 1250/6480 [06:55<29:36,  2.94it/s]

{'loss': 0.0702, 'grad_norm': 8.729697227478027, 'learning_rate': 3.590033945389657e-05, 'epoch': 0.96}


 19%|█▉        | 1260/6480 [06:59<30:06,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.0003316879738122225, 'learning_rate': 3.58316963574264e-05, 'epoch': 0.97}


 20%|█▉        | 1270/6480 [07:02<29:30,  2.94it/s]

{'loss': 0.0001, 'grad_norm': 0.16065660119056702, 'learning_rate': 3.576305326095624e-05, 'epoch': 0.98}


 20%|█▉        | 1280/6480 [07:05<29:13,  2.97it/s]

{'loss': 0.0001, 'grad_norm': 0.004208424594253302, 'learning_rate': 3.5694410164486076e-05, 'epoch': 0.99}


 20%|█▉        | 1290/6480 [07:09<29:50,  2.90it/s]

{'loss': 0.0001, 'grad_norm': 0.0018332988256588578, 'learning_rate': 3.562576706801591e-05, 'epoch': 1.0}


 20%|██        | 1296/6480 [07:11<25:54,  3.33it/s]
 20%|██        | 1296/6480 [07:49<25:54,  3.33it/s]

{'eval_loss': 0.0286853089928627, 'eval_accuracy': 0.9978209551479935, 'eval_f1': 0.9978214050346843, 'eval_runtime': 37.289, 'eval_samples_per_second': 147.684, 'eval_steps_per_second': 18.477, 'epoch': 1.0}


 20%|██        | 1301/6480 [08:26<7:56:55,  5.53s/it] 

{'loss': 0.0, 'grad_norm': 0.0008930446929298341, 'learning_rate': 3.555712397154574e-05, 'epoch': 1.0}


 20%|██        | 1311/6480 [08:28<28:58,  2.97it/s]  

{'loss': 0.0, 'grad_norm': 0.0007819475140422583, 'learning_rate': 3.5488480875075575e-05, 'epoch': 1.01}


 20%|██        | 1321/6480 [08:29<15:13,  5.65it/s]

{'loss': 0.0, 'grad_norm': 0.0004689773777499795, 'learning_rate': 3.541983777860541e-05, 'epoch': 1.02}


 21%|██        | 1331/6480 [08:31<14:56,  5.74it/s]

{'loss': 0.0, 'grad_norm': 0.0006144780199974775, 'learning_rate': 3.535119468213525e-05, 'epoch': 1.03}


 21%|██        | 1341/6480 [08:33<15:47,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.0004727518535219133, 'learning_rate': 3.528255158566508e-05, 'epoch': 1.03}


 21%|██        | 1351/6480 [08:35<15:23,  5.55it/s]

{'loss': 0.0, 'grad_norm': 0.0005059157265350223, 'learning_rate': 3.5213908489194914e-05, 'epoch': 1.04}


 21%|██        | 1361/6480 [08:37<15:29,  5.51it/s]

{'loss': 0.0008, 'grad_norm': 0.000496318272780627, 'learning_rate': 3.514526539272475e-05, 'epoch': 1.05}


 21%|██        | 1371/6480 [08:39<16:11,  5.26it/s]

{'loss': 0.0, 'grad_norm': 0.0002384564431849867, 'learning_rate': 3.507662229625458e-05, 'epoch': 1.06}


 21%|██▏       | 1381/6480 [08:41<16:01,  5.30it/s]

{'loss': 0.0, 'grad_norm': 0.001370112644508481, 'learning_rate': 3.500797919978442e-05, 'epoch': 1.06}


 21%|██▏       | 1390/6480 [08:42<15:59,  5.31it/s]

{'loss': 0.0, 'grad_norm': 0.00030390487518161535, 'learning_rate': 3.493933610331425e-05, 'epoch': 1.07}


 22%|██▏       | 1401/6480 [08:45<15:57,  5.30it/s]

{'loss': 0.0, 'grad_norm': 0.0001872244756668806, 'learning_rate': 3.4870693006844086e-05, 'epoch': 1.08}


 22%|██▏       | 1411/6480 [08:46<16:37,  5.08it/s]

{'loss': 0.0002, 'grad_norm': 0.00017250629025511444, 'learning_rate': 3.4802049910373926e-05, 'epoch': 1.09}


 22%|██▏       | 1421/6480 [08:49<18:08,  4.65it/s]

{'loss': 0.0001, 'grad_norm': 0.0003044841578230262, 'learning_rate': 3.473340681390376e-05, 'epoch': 1.1}


 22%|██▏       | 1430/6480 [08:50<16:28,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.0001401469053234905, 'learning_rate': 3.466476371743359e-05, 'epoch': 1.1}


 22%|██▏       | 1440/6480 [08:52<17:03,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.00014681645552627742, 'learning_rate': 3.4596120620963425e-05, 'epoch': 1.11}


 22%|██▏       | 1450/6480 [08:55<17:21,  4.83it/s]

{'loss': 0.0, 'grad_norm': 0.00017312767158728093, 'learning_rate': 3.452747752449326e-05, 'epoch': 1.12}


 23%|██▎       | 1461/6480 [08:57<16:28,  5.08it/s]

{'loss': 0.0, 'grad_norm': 9.853582741925493e-05, 'learning_rate': 3.445883442802309e-05, 'epoch': 1.13}


 23%|██▎       | 1470/6480 [08:59<20:33,  4.06it/s]

{'loss': 0.0001, 'grad_norm': 0.001514675561338663, 'learning_rate': 3.439019133155293e-05, 'epoch': 1.13}


 23%|██▎       | 1480/6480 [09:01<18:38,  4.47it/s]

{'loss': 0.0, 'grad_norm': 8.627305942354724e-05, 'learning_rate': 3.4321548235082764e-05, 'epoch': 1.14}


 23%|██▎       | 1490/6480 [09:03<18:44,  4.44it/s]

{'loss': 0.0, 'grad_norm': 0.0019321446307003498, 'learning_rate': 3.42529051386126e-05, 'epoch': 1.15}


 23%|██▎       | 1500/6480 [09:06<18:52,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.00019503604562487453, 'learning_rate': 3.418426204214243e-05, 'epoch': 1.16}


 23%|██▎       | 1510/6480 [09:08<18:55,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.0001879131159512326, 'learning_rate': 3.411561894567226e-05, 'epoch': 1.17}


 23%|██▎       | 1520/6480 [09:11<25:35,  3.23it/s]

{'loss': 0.0, 'grad_norm': 0.00021698049386031926, 'learning_rate': 3.4046975849202096e-05, 'epoch': 1.17}


 24%|██▎       | 1530/6480 [09:14<23:35,  3.50it/s]

{'loss': 0.0, 'grad_norm': 0.00024144894268829376, 'learning_rate': 3.3978332752731936e-05, 'epoch': 1.18}


 24%|██▍       | 1540/6480 [09:17<23:05,  3.56it/s]

{'loss': 0.0, 'grad_norm': 0.00018461603031028062, 'learning_rate': 3.390968965626177e-05, 'epoch': 1.19}


 24%|██▍       | 1550/6480 [09:20<21:46,  3.77it/s]

{'loss': 0.0, 'grad_norm': 0.0012135787401348352, 'learning_rate': 3.384104655979161e-05, 'epoch': 1.2}


 24%|██▍       | 1560/6480 [09:22<22:11,  3.70it/s]

{'loss': 0.0, 'grad_norm': 0.00019234890351071954, 'learning_rate': 3.377240346332144e-05, 'epoch': 1.2}


 24%|██▍       | 1570/6480 [09:25<22:31,  3.63it/s]

{'loss': 0.0059, 'grad_norm': 0.00014038111839909106, 'learning_rate': 3.3703760366851275e-05, 'epoch': 1.21}


 24%|██▍       | 1580/6480 [09:28<27:19,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.00023926858557388186, 'learning_rate': 3.363511727038111e-05, 'epoch': 1.22}


 25%|██▍       | 1590/6480 [09:32<29:12,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.0001096538471756503, 'learning_rate': 3.356647417391094e-05, 'epoch': 1.23}


 25%|██▍       | 1600/6480 [09:35<27:18,  2.98it/s]

{'loss': 0.0, 'grad_norm': 0.00017030183516908437, 'learning_rate': 3.3497831077440774e-05, 'epoch': 1.23}


 25%|██▍       | 1610/6480 [09:38<23:48,  3.41it/s]

{'loss': 0.0, 'grad_norm': 9.382975986227393e-05, 'learning_rate': 3.3429187980970614e-05, 'epoch': 1.24}


 25%|██▌       | 1620/6480 [09:41<22:30,  3.60it/s]

{'loss': 0.0, 'grad_norm': 0.00019638973753899336, 'learning_rate': 3.336054488450045e-05, 'epoch': 1.25}


 25%|██▌       | 1630/6480 [09:44<22:40,  3.56it/s]

{'loss': 0.0, 'grad_norm': 0.0001323838805546984, 'learning_rate': 3.329190178803028e-05, 'epoch': 1.26}


 25%|██▌       | 1640/6480 [09:47<22:36,  3.57it/s]

{'loss': 0.0, 'grad_norm': 5.665972639690153e-05, 'learning_rate': 3.3223258691560113e-05, 'epoch': 1.27}


 25%|██▌       | 1650/6480 [09:50<27:34,  2.92it/s]

{'loss': 0.0, 'grad_norm': 9.121825860347599e-05, 'learning_rate': 3.3154615595089947e-05, 'epoch': 1.27}


 26%|██▌       | 1660/6480 [09:54<27:37,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0001644910080358386, 'learning_rate': 3.308597249861978e-05, 'epoch': 1.28}


 26%|██▌       | 1670/6480 [09:57<27:06,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.00014160932914819568, 'learning_rate': 3.301732940214962e-05, 'epoch': 1.29}


 26%|██▌       | 1680/6480 [10:01<27:08,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.00010232179192826152, 'learning_rate': 3.294868630567945e-05, 'epoch': 1.3}


 26%|██▌       | 1690/6480 [10:04<27:50,  2.87it/s]

{'loss': 0.0, 'grad_norm': 0.00013726172619499266, 'learning_rate': 3.2880043209209286e-05, 'epoch': 1.3}


 26%|██▌       | 1700/6480 [10:08<27:15,  2.92it/s]

{'loss': 0.0, 'grad_norm': 8.879030792741105e-05, 'learning_rate': 3.281140011273912e-05, 'epoch': 1.31}


 26%|██▋       | 1710/6480 [10:11<27:07,  2.93it/s]

{'loss': 0.0, 'grad_norm': 5.538366531254724e-05, 'learning_rate': 3.274275701626896e-05, 'epoch': 1.32}


 27%|██▋       | 1720/6480 [10:14<28:50,  2.75it/s]

{'loss': 0.0, 'grad_norm': 7.4611438321881e-05, 'learning_rate': 3.267411391979879e-05, 'epoch': 1.33}


 27%|██▋       | 1730/6480 [10:18<27:15,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.0001174408826045692, 'learning_rate': 3.2605470823328625e-05, 'epoch': 1.33}


 27%|██▋       | 1740/6480 [10:21<22:59,  3.44it/s]

{'loss': 0.0, 'grad_norm': 9.826405585044995e-05, 'learning_rate': 3.253682772685846e-05, 'epoch': 1.34}


 27%|██▋       | 1750/6480 [10:25<42:02,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.00012336173676885664, 'learning_rate': 3.24681846303883e-05, 'epoch': 1.35}


 27%|██▋       | 1760/6480 [10:29<25:39,  3.07it/s]

{'loss': 0.0, 'grad_norm': 9.173750731861219e-05, 'learning_rate': 3.239954153391813e-05, 'epoch': 1.36}


 27%|██▋       | 1770/6480 [10:32<25:24,  3.09it/s]

{'loss': 0.0, 'grad_norm': 0.00012867129407823086, 'learning_rate': 3.2330898437447964e-05, 'epoch': 1.37}


 27%|██▋       | 1780/6480 [10:35<23:40,  3.31it/s]

{'loss': 0.0702, 'grad_norm': 0.0061004385352134705, 'learning_rate': 3.22622553409778e-05, 'epoch': 1.37}


 28%|██▊       | 1790/6480 [10:38<25:03,  3.12it/s]

{'loss': 0.001, 'grad_norm': 0.001080998103134334, 'learning_rate': 3.219361224450763e-05, 'epoch': 1.38}


 28%|██▊       | 1800/6480 [10:41<25:34,  3.05it/s]

{'loss': 0.0482, 'grad_norm': 0.00039661151822656393, 'learning_rate': 3.212496914803746e-05, 'epoch': 1.39}


 28%|██▊       | 1810/6480 [10:45<25:34,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.0008210290689021349, 'learning_rate': 3.20563260515673e-05, 'epoch': 1.4}


 28%|██▊       | 1820/6480 [10:48<26:11,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.0007838441524654627, 'learning_rate': 3.1987682955097136e-05, 'epoch': 1.4}


 28%|██▊       | 1830/6480 [10:51<26:25,  2.93it/s]

{'loss': 0.0001, 'grad_norm': 9.414424857823178e-05, 'learning_rate': 3.191903985862697e-05, 'epoch': 1.41}


 28%|██▊       | 1840/6480 [10:55<27:07,  2.85it/s]

{'loss': 0.0, 'grad_norm': 0.0037215868942439556, 'learning_rate': 3.18503967621568e-05, 'epoch': 1.42}


 29%|██▊       | 1850/6480 [10:58<27:54,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.0005732572753913701, 'learning_rate': 3.1781753665686635e-05, 'epoch': 1.43}


 29%|██▊       | 1860/6480 [11:02<27:42,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.004737242124974728, 'learning_rate': 3.171311056921647e-05, 'epoch': 1.44}


 29%|██▉       | 1870/6480 [11:06<27:15,  2.82it/s]

{'loss': 0.001, 'grad_norm': 0.0006524932105094194, 'learning_rate': 3.164446747274631e-05, 'epoch': 1.44}


 29%|██▉       | 1880/6480 [11:09<27:12,  2.82it/s]

{'loss': 0.0, 'grad_norm': 0.00021499385184142739, 'learning_rate': 3.157582437627614e-05, 'epoch': 1.45}


 29%|██▉       | 1890/6480 [11:12<26:05,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.0003600665368139744, 'learning_rate': 3.150718127980598e-05, 'epoch': 1.46}


 29%|██▉       | 1900/6480 [11:16<25:47,  2.96it/s]

{'loss': 0.0152, 'grad_norm': 0.0005141203873790801, 'learning_rate': 3.1438538183335814e-05, 'epoch': 1.47}


 29%|██▉       | 1910/6480 [11:19<25:50,  2.95it/s]

{'loss': 0.0172, 'grad_norm': 0.00020304109784774482, 'learning_rate': 3.136989508686565e-05, 'epoch': 1.47}


 30%|██▉       | 1920/6480 [11:23<25:52,  2.94it/s]

{'loss': 0.0, 'grad_norm': 0.000275808124570176, 'learning_rate': 3.130125199039548e-05, 'epoch': 1.48}


 30%|██▉       | 1930/6480 [11:26<26:03,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0006546226795762777, 'learning_rate': 3.123260889392531e-05, 'epoch': 1.49}


 30%|██▉       | 1940/6480 [11:29<25:48,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.0009247012203559279, 'learning_rate': 3.1163965797455146e-05, 'epoch': 1.5}


 30%|███       | 1950/6480 [11:33<25:51,  2.92it/s]

{'loss': 0.0051, 'grad_norm': 40.35594177246094, 'learning_rate': 3.1095322700984986e-05, 'epoch': 1.5}


 30%|███       | 1960/6480 [11:36<25:44,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.000292356766294688, 'learning_rate': 3.102667960451482e-05, 'epoch': 1.51}


 30%|███       | 1970/6480 [11:40<25:47,  2.91it/s]

{'loss': 0.0598, 'grad_norm': 0.00034214332117699087, 'learning_rate': 3.095803650804465e-05, 'epoch': 1.52}


 31%|███       | 1980/6480 [11:43<25:23,  2.95it/s]

{'loss': 0.0001, 'grad_norm': 0.011794930323958397, 'learning_rate': 3.0889393411574485e-05, 'epoch': 1.53}


 31%|███       | 1990/6480 [11:47<25:34,  2.93it/s]

{'loss': 0.023, 'grad_norm': 0.012109137140214443, 'learning_rate': 3.082075031510432e-05, 'epoch': 1.54}


 31%|███       | 2000/6480 [11:50<25:16,  2.95it/s]

{'loss': 0.0001, 'grad_norm': 0.000975629489403218, 'learning_rate': 3.075210721863415e-05, 'epoch': 1.54}


 31%|███       | 2010/6480 [11:53<25:20,  2.94it/s]

{'loss': 0.0001, 'grad_norm': 0.0003140016342513263, 'learning_rate': 3.068346412216399e-05, 'epoch': 1.55}


 31%|███       | 2020/6480 [11:57<25:12,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.0007046098471619189, 'learning_rate': 3.0614821025693824e-05, 'epoch': 1.56}


 31%|███▏      | 2030/6480 [12:00<25:06,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.0004938622587360442, 'learning_rate': 3.0546177929223664e-05, 'epoch': 1.57}


 31%|███▏      | 2040/6480 [12:04<25:45,  2.87it/s]

{'loss': 0.0, 'grad_norm': 0.0006130814435891807, 'learning_rate': 3.0477534832753497e-05, 'epoch': 1.57}


 32%|███▏      | 2050/6480 [12:08<29:56,  2.47it/s]

{'loss': 0.0001, 'grad_norm': 0.0009629225824028254, 'learning_rate': 3.040889173628333e-05, 'epoch': 1.58}


 32%|███▏      | 2060/6480 [12:12<28:49,  2.56it/s]

{'loss': 0.0, 'grad_norm': 0.0001594014320289716, 'learning_rate': 3.0340248639813163e-05, 'epoch': 1.59}


 32%|███▏      | 2070/6480 [12:15<27:59,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0002424114354653284, 'learning_rate': 3.0271605543343e-05, 'epoch': 1.6}


 32%|███▏      | 2080/6480 [12:19<27:49,  2.63it/s]

{'loss': 0.0045, 'grad_norm': 0.00022565267863683403, 'learning_rate': 3.0202962446872833e-05, 'epoch': 1.6}


 32%|███▏      | 2090/6480 [12:23<27:57,  2.62it/s]

{'loss': 0.0, 'grad_norm': 0.00046521492186002433, 'learning_rate': 3.0134319350402666e-05, 'epoch': 1.61}


 32%|███▏      | 2100/6480 [12:27<26:31,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00019032909767702222, 'learning_rate': 3.0065676253932502e-05, 'epoch': 1.62}


 33%|███▎      | 2110/6480 [12:30<22:29,  3.24it/s]

{'loss': 0.0405, 'grad_norm': 0.0006389985792338848, 'learning_rate': 2.9997033157462335e-05, 'epoch': 1.63}


 33%|███▎      | 2120/6480 [12:33<29:39,  2.45it/s]

{'loss': 0.0512, 'grad_norm': 0.0075220707803964615, 'learning_rate': 2.9928390060992168e-05, 'epoch': 1.64}


 33%|███▎      | 2130/6480 [12:37<26:15,  2.76it/s]

{'loss': 0.0001, 'grad_norm': 0.0005161985172890127, 'learning_rate': 2.9859746964522005e-05, 'epoch': 1.64}


 33%|███▎      | 2140/6480 [12:41<26:06,  2.77it/s]

{'loss': 0.0001, 'grad_norm': 0.0005527193425223231, 'learning_rate': 2.9791103868051838e-05, 'epoch': 1.65}


 33%|███▎      | 2150/6480 [12:44<25:57,  2.78it/s]

{'loss': 0.0023, 'grad_norm': 20.307540893554688, 'learning_rate': 2.972246077158167e-05, 'epoch': 1.66}


 33%|███▎      | 2160/6480 [12:48<26:44,  2.69it/s]

{'loss': 0.0, 'grad_norm': 0.0005446700379252434, 'learning_rate': 2.9653817675111507e-05, 'epoch': 1.67}


 33%|███▎      | 2170/6480 [12:52<26:14,  2.74it/s]

{'loss': 0.0, 'grad_norm': 0.0005166910705156624, 'learning_rate': 2.958517457864134e-05, 'epoch': 1.67}


 34%|███▎      | 2180/6480 [12:55<25:59,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.000299602746963501, 'learning_rate': 2.9516531482171173e-05, 'epoch': 1.68}


 34%|███▍      | 2190/6480 [12:59<25:50,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.0003511588438414037, 'learning_rate': 2.9447888385701013e-05, 'epoch': 1.69}


 34%|███▍      | 2200/6480 [13:02<24:36,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.0002674263378139585, 'learning_rate': 2.9379245289230846e-05, 'epoch': 1.7}


 34%|███▍      | 2210/6480 [13:06<25:30,  2.79it/s]

{'loss': 0.0087, 'grad_norm': 0.0005921123083680868, 'learning_rate': 2.9310602192760683e-05, 'epoch': 1.71}


 34%|███▍      | 2220/6480 [13:09<23:45,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.00026150885969400406, 'learning_rate': 2.9241959096290516e-05, 'epoch': 1.71}


 34%|███▍      | 2230/6480 [13:13<24:15,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.002478130627423525, 'learning_rate': 2.917331599982035e-05, 'epoch': 1.72}


 35%|███▍      | 2240/6480 [13:16<26:03,  2.71it/s]

{'loss': 0.0, 'grad_norm': 0.000402631500037387, 'learning_rate': 2.9104672903350185e-05, 'epoch': 1.73}


 35%|███▍      | 2250/6480 [13:20<25:25,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00021480322175193578, 'learning_rate': 2.903602980688002e-05, 'epoch': 1.74}


 35%|███▍      | 2260/6480 [13:24<25:25,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00015624435036443174, 'learning_rate': 2.896738671040985e-05, 'epoch': 1.74}


 35%|███▌      | 2270/6480 [13:27<24:56,  2.81it/s]

{'loss': 0.0, 'grad_norm': 0.00025073866709135473, 'learning_rate': 2.8898743613939688e-05, 'epoch': 1.75}


 35%|███▌      | 2280/6480 [13:31<23:57,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.0005462865810841322, 'learning_rate': 2.883010051746952e-05, 'epoch': 1.76}


 35%|███▌      | 2290/6480 [13:34<25:00,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.0005704420036636293, 'learning_rate': 2.8761457420999354e-05, 'epoch': 1.77}


 35%|███▌      | 2300/6480 [13:38<25:20,  2.75it/s]

{'loss': 0.0007, 'grad_norm': 0.00031772287911735475, 'learning_rate': 2.869281432452919e-05, 'epoch': 1.77}


 36%|███▌      | 2310/6480 [13:42<23:42,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.00026369671104475856, 'learning_rate': 2.8624171228059024e-05, 'epoch': 1.78}


 36%|███▌      | 2320/6480 [13:45<25:36,  2.71it/s]

{'loss': 0.0, 'grad_norm': 7.910258864285424e-05, 'learning_rate': 2.8555528131588857e-05, 'epoch': 1.79}


 36%|███▌      | 2330/6480 [13:49<26:02,  2.66it/s]

{'loss': 0.0, 'grad_norm': 0.00014082150300964713, 'learning_rate': 2.8486885035118693e-05, 'epoch': 1.8}


 36%|███▌      | 2340/6480 [13:52<21:22,  3.23it/s]

{'loss': 0.0, 'grad_norm': 0.0004372654657345265, 'learning_rate': 2.8418241938648526e-05, 'epoch': 1.81}


 36%|███▋      | 2350/6480 [13:55<21:21,  3.22it/s]

{'loss': 0.0507, 'grad_norm': 0.0003777985693886876, 'learning_rate': 2.8349598842178366e-05, 'epoch': 1.81}


 36%|███▋      | 2360/6480 [13:59<21:27,  3.20it/s]

{'loss': 0.0799, 'grad_norm': 6.074186967452988e-05, 'learning_rate': 2.82809557457082e-05, 'epoch': 1.82}


 37%|███▋      | 2370/6480 [14:03<24:58,  2.74it/s]

{'loss': 0.0001, 'grad_norm': 8.223574695875868e-05, 'learning_rate': 2.8212312649238032e-05, 'epoch': 1.83}


 37%|███▋      | 2380/6480 [14:06<20:46,  3.29it/s]

{'loss': 0.0, 'grad_norm': 0.0006505280616693199, 'learning_rate': 2.814366955276787e-05, 'epoch': 1.84}


 37%|███▋      | 2390/6480 [14:09<22:49,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0001200627739308402, 'learning_rate': 2.80750264562977e-05, 'epoch': 1.84}


 37%|███▋      | 2400/6480 [14:13<27:23,  2.48it/s]

{'loss': 0.0, 'grad_norm': 0.00028318740078248084, 'learning_rate': 2.8006383359827535e-05, 'epoch': 1.85}


 37%|███▋      | 2410/6480 [14:16<23:07,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.00016472024435643107, 'learning_rate': 2.793774026335737e-05, 'epoch': 1.86}


 37%|███▋      | 2420/6480 [14:20<23:48,  2.84it/s]

{'loss': 0.0, 'grad_norm': 0.00011369962157914415, 'learning_rate': 2.7869097166887204e-05, 'epoch': 1.87}


 38%|███▊      | 2430/6480 [14:23<23:13,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.00020563592261169106, 'learning_rate': 2.7800454070417037e-05, 'epoch': 1.88}


 38%|███▊      | 2440/6480 [14:27<23:17,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.0003467083733994514, 'learning_rate': 2.7731810973946874e-05, 'epoch': 1.88}


 38%|███▊      | 2450/6480 [14:31<27:24,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.0010232471395283937, 'learning_rate': 2.7663167877476707e-05, 'epoch': 1.89}


 38%|███▊      | 2460/6480 [14:35<29:32,  2.27it/s]

{'loss': 0.0, 'grad_norm': 0.00013944011880084872, 'learning_rate': 2.759452478100654e-05, 'epoch': 1.9}


 38%|███▊      | 2470/6480 [14:39<29:11,  2.29it/s]

{'loss': 0.0105, 'grad_norm': 0.00013180483074393123, 'learning_rate': 2.7525881684536376e-05, 'epoch': 1.91}


 38%|███▊      | 2480/6480 [14:43<23:11,  2.87it/s]

{'loss': 0.0, 'grad_norm': 0.00012333456834312528, 'learning_rate': 2.745723858806621e-05, 'epoch': 1.91}


 38%|███▊      | 2490/6480 [14:46<22:58,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.00015033937233965844, 'learning_rate': 2.7388595491596042e-05, 'epoch': 1.92}


 39%|███▊      | 2500/6480 [14:50<21:41,  3.06it/s]

{'loss': 0.0, 'grad_norm': 0.00032743552583269775, 'learning_rate': 2.731995239512588e-05, 'epoch': 1.93}


 39%|███▊      | 2510/6480 [14:53<21:44,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.0001636967936065048, 'learning_rate': 2.7251309298655712e-05, 'epoch': 1.94}


 39%|███▉      | 2520/6480 [14:56<21:49,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.00016234540089499205, 'learning_rate': 2.718266620218555e-05, 'epoch': 1.94}


 39%|███▉      | 2530/6480 [15:00<21:49,  3.02it/s]

{'loss': 0.0733, 'grad_norm': 0.0002441652468405664, 'learning_rate': 2.7114023105715385e-05, 'epoch': 1.95}


 39%|███▉      | 2540/6480 [15:03<21:48,  3.01it/s]

{'loss': 0.0151, 'grad_norm': 0.00015997655282262713, 'learning_rate': 2.7045380009245218e-05, 'epoch': 1.96}


 39%|███▉      | 2550/6480 [15:06<21:55,  2.99it/s]

{'loss': 0.0051, 'grad_norm': 0.00011290823022136465, 'learning_rate': 2.6976736912775054e-05, 'epoch': 1.97}


 40%|███▉      | 2560/6480 [15:10<21:45,  3.00it/s]

{'loss': 0.0, 'grad_norm': 0.00012027563934680074, 'learning_rate': 2.6908093816304887e-05, 'epoch': 1.98}


 40%|███▉      | 2570/6480 [15:14<26:01,  2.50it/s]

{'loss': 0.0671, 'grad_norm': 0.00012413244985509664, 'learning_rate': 2.683945071983472e-05, 'epoch': 1.98}


 40%|███▉      | 2580/6480 [15:17<19:59,  3.25it/s]

{'loss': 0.0099, 'grad_norm': 0.0001468643022235483, 'learning_rate': 2.6770807623364557e-05, 'epoch': 1.99}


 40%|███▉      | 2590/6480 [15:21<21:56,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.00021647567336913198, 'learning_rate': 2.670216452689439e-05, 'epoch': 2.0}


 40%|████      | 2592/6480 [15:21<19:20,  3.35it/s]
 40%|████      | 2592/6480 [15:59<19:20,  3.35it/s]

{'eval_loss': 0.03275727108120918, 'eval_accuracy': 0.9965498456509897, 'eval_f1': 0.9965333960281658, 'eval_runtime': 38.0229, 'eval_samples_per_second': 144.834, 'eval_steps_per_second': 18.121, 'epoch': 2.0}


 40%|████      | 2601/6480 [16:37<1:35:22,  1.48s/it] 

{'loss': 0.0, 'grad_norm': 0.0007680021808482707, 'learning_rate': 2.6633521430424223e-05, 'epoch': 2.01}


 40%|████      | 2611/6480 [16:39<14:24,  4.47it/s]  

{'loss': 0.0, 'grad_norm': 0.040365979075431824, 'learning_rate': 2.656487833395406e-05, 'epoch': 2.01}


 40%|████      | 2621/6480 [16:41<12:35,  5.11it/s]

{'loss': 0.0, 'grad_norm': 0.000278120074653998, 'learning_rate': 2.6496235237483892e-05, 'epoch': 2.02}


 41%|████      | 2630/6480 [16:43<12:45,  5.03it/s]

{'loss': 0.0, 'grad_norm': 0.00029083763365633786, 'learning_rate': 2.6427592141013726e-05, 'epoch': 2.03}


 41%|████      | 2640/6480 [16:45<12:38,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0002542975707910955, 'learning_rate': 2.6358949044543562e-05, 'epoch': 2.04}


 41%|████      | 2651/6480 [16:47<13:03,  4.89it/s]

{'loss': 0.0, 'grad_norm': 0.00023710468667559326, 'learning_rate': 2.6290305948073395e-05, 'epoch': 2.04}


 41%|████      | 2661/6480 [16:49<13:09,  4.84it/s]

{'loss': 0.0, 'grad_norm': 0.000309528288198635, 'learning_rate': 2.6221662851603228e-05, 'epoch': 2.05}


 41%|████      | 2670/6480 [16:51<13:12,  4.81it/s]

{'loss': 0.0009, 'grad_norm': 0.00013642692647408694, 'learning_rate': 2.6153019755133065e-05, 'epoch': 2.06}


 41%|████▏     | 2681/6480 [16:53<13:18,  4.76it/s]

{'loss': 0.1261, 'grad_norm': 97.27104949951172, 'learning_rate': 2.60843766586629e-05, 'epoch': 2.07}


 42%|████▏     | 2690/6480 [16:55<13:18,  4.74it/s]

{'loss': 0.0563, 'grad_norm': 8.34478487377055e-05, 'learning_rate': 2.6015733562192737e-05, 'epoch': 2.08}


 42%|████▏     | 2700/6480 [16:57<13:19,  4.73it/s]

{'loss': 0.0828, 'grad_norm': 0.0002979553828481585, 'learning_rate': 2.594709046572257e-05, 'epoch': 2.08}


 42%|████▏     | 2710/6480 [17:00<14:17,  4.39it/s]

{'loss': 0.0505, 'grad_norm': 43.17318344116211, 'learning_rate': 2.5878447369252404e-05, 'epoch': 2.09}


 42%|████▏     | 2720/6480 [17:02<13:24,  4.68it/s]

{'loss': 0.0, 'grad_norm': 0.0011319206096231937, 'learning_rate': 2.580980427278224e-05, 'epoch': 2.1}


 42%|████▏     | 2730/6480 [17:04<14:03,  4.45it/s]

{'loss': 0.0002, 'grad_norm': 0.0007359612500295043, 'learning_rate': 2.5741161176312073e-05, 'epoch': 2.11}


 42%|████▏     | 2740/6480 [17:06<13:41,  4.55it/s]

{'loss': 0.0, 'grad_norm': 0.000550287717487663, 'learning_rate': 2.5672518079841906e-05, 'epoch': 2.11}


 42%|████▏     | 2750/6480 [17:09<13:51,  4.48it/s]

{'loss': 0.0, 'grad_norm': 0.0002903536369558424, 'learning_rate': 2.5603874983371743e-05, 'epoch': 2.12}


 43%|████▎     | 2760/6480 [17:11<17:17,  3.59it/s]

{'loss': 0.0, 'grad_norm': 0.010996243916451931, 'learning_rate': 2.5535231886901576e-05, 'epoch': 2.13}


 43%|████▎     | 2770/6480 [17:14<19:09,  3.23it/s]

{'loss': 0.0327, 'grad_norm': 0.0006664304528385401, 'learning_rate': 2.546658879043141e-05, 'epoch': 2.14}


 43%|████▎     | 2780/6480 [17:18<21:11,  2.91it/s]

{'loss': 0.02, 'grad_norm': 145.59469604492188, 'learning_rate': 2.5397945693961245e-05, 'epoch': 2.15}


 43%|████▎     | 2790/6480 [17:21<20:01,  3.07it/s]

{'loss': 0.0, 'grad_norm': 0.0017168610356748104, 'learning_rate': 2.5329302597491078e-05, 'epoch': 2.15}


 43%|████▎     | 2800/6480 [17:24<17:22,  3.53it/s]

{'loss': 0.0001, 'grad_norm': 0.00035231042420491576, 'learning_rate': 2.526065950102091e-05, 'epoch': 2.16}


 43%|████▎     | 2810/6480 [17:27<21:08,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.00016585261619184166, 'learning_rate': 2.5192016404550748e-05, 'epoch': 2.17}


 44%|████▎     | 2820/6480 [17:30<18:16,  3.34it/s]

{'loss': 0.0, 'grad_norm': 0.00018644823285285383, 'learning_rate': 2.512337330808058e-05, 'epoch': 2.18}


 44%|████▎     | 2830/6480 [17:33<18:32,  3.28it/s]

{'loss': 0.0, 'grad_norm': 0.00016568659339100122, 'learning_rate': 2.5054730211610414e-05, 'epoch': 2.18}


 44%|████▍     | 2840/6480 [17:37<19:35,  3.10it/s]

{'loss': 0.0, 'grad_norm': 0.00030671225977130234, 'learning_rate': 2.4986087115140254e-05, 'epoch': 2.19}


 44%|████▍     | 2850/6480 [17:40<19:37,  3.08it/s]

{'loss': 0.0, 'grad_norm': 0.00029421327053569257, 'learning_rate': 2.4917444018670087e-05, 'epoch': 2.2}


 44%|████▍     | 2860/6480 [17:43<17:51,  3.38it/s]

{'loss': 0.1431, 'grad_norm': 0.0005421255482360721, 'learning_rate': 2.4848800922199923e-05, 'epoch': 2.21}


 44%|████▍     | 2870/6480 [17:46<18:10,  3.31it/s]

{'loss': 0.0, 'grad_norm': 0.001189019763842225, 'learning_rate': 2.4780157825729756e-05, 'epoch': 2.21}


 44%|████▍     | 2880/6480 [17:49<18:10,  3.30it/s]

{'loss': 0.0, 'grad_norm': 0.0018774737836793065, 'learning_rate': 2.471151472925959e-05, 'epoch': 2.22}


 45%|████▍     | 2890/6480 [17:52<18:41,  3.20it/s]

{'loss': 0.0029, 'grad_norm': 0.001453447388485074, 'learning_rate': 2.4642871632789426e-05, 'epoch': 2.23}


 45%|████▍     | 2900/6480 [17:55<18:06,  3.30it/s]

{'loss': 0.012, 'grad_norm': 0.0006744400016032159, 'learning_rate': 2.457422853631926e-05, 'epoch': 2.24}


 45%|████▍     | 2910/6480 [17:59<25:14,  2.36it/s]

{'loss': 0.0, 'grad_norm': 0.00051178626017645, 'learning_rate': 2.4505585439849092e-05, 'epoch': 2.25}


 45%|████▌     | 2920/6480 [18:02<19:39,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.008134284056723118, 'learning_rate': 2.443694234337893e-05, 'epoch': 2.25}


 45%|████▌     | 2930/6480 [18:05<18:38,  3.17it/s]

{'loss': 0.0, 'grad_norm': 0.0002521686546970159, 'learning_rate': 2.436829924690876e-05, 'epoch': 2.26}


 45%|████▌     | 2940/6480 [18:09<20:36,  2.86it/s]

{'loss': 0.0, 'grad_norm': 0.0005668059457093477, 'learning_rate': 2.4299656150438595e-05, 'epoch': 2.27}


 46%|████▌     | 2950/6480 [18:12<19:38,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.00030140517628751695, 'learning_rate': 2.423101305396843e-05, 'epoch': 2.28}


 46%|████▌     | 2960/6480 [18:16<18:30,  3.17it/s]

{'loss': 0.0836, 'grad_norm': 7.293428421020508, 'learning_rate': 2.4162369957498264e-05, 'epoch': 2.28}


 46%|████▌     | 2970/6480 [18:19<22:13,  2.63it/s]

{'loss': 0.0004, 'grad_norm': 0.005952711217105389, 'learning_rate': 2.4093726861028097e-05, 'epoch': 2.29}


 46%|████▌     | 2980/6480 [18:23<22:11,  2.63it/s]

{'loss': 0.0079, 'grad_norm': 0.0006743426201865077, 'learning_rate': 2.4025083764557934e-05, 'epoch': 2.3}


 46%|████▌     | 2990/6480 [18:27<22:17,  2.61it/s]

{'loss': 0.0, 'grad_norm': 0.04493146017193794, 'learning_rate': 2.3956440668087767e-05, 'epoch': 2.31}


 46%|████▋     | 3000/6480 [18:31<22:01,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00024770325399003923, 'learning_rate': 2.3887797571617606e-05, 'epoch': 2.31}


 46%|████▋     | 3010/6480 [18:34<17:33,  3.30it/s]

{'loss': 0.0, 'grad_norm': 0.000415939895901829, 'learning_rate': 2.381915447514744e-05, 'epoch': 2.32}


 47%|████▋     | 3020/6480 [18:37<17:25,  3.31it/s]

{'loss': 0.0, 'grad_norm': 0.00021713098976761103, 'learning_rate': 2.3750511378677273e-05, 'epoch': 2.33}


 47%|████▋     | 3030/6480 [18:40<19:29,  2.95it/s]

{'loss': 0.0004, 'grad_norm': 0.00026816833997145295, 'learning_rate': 2.368186828220711e-05, 'epoch': 2.34}


 47%|████▋     | 3040/6480 [18:44<20:20,  2.82it/s]

{'loss': 0.0584, 'grad_norm': 0.00029965362045913935, 'learning_rate': 2.3613225185736942e-05, 'epoch': 2.35}


 47%|████▋     | 3050/6480 [18:47<20:06,  2.84it/s]

{'loss': 0.0104, 'grad_norm': 0.0006060100276954472, 'learning_rate': 2.3544582089266775e-05, 'epoch': 2.35}


 47%|████▋     | 3060/6480 [18:51<20:19,  2.80it/s]

{'loss': 0.0003, 'grad_norm': 0.00023317127488553524, 'learning_rate': 2.347593899279661e-05, 'epoch': 2.36}


 47%|████▋     | 3070/6480 [18:55<19:56,  2.85it/s]

{'loss': 0.0, 'grad_norm': 0.0002576257393229753, 'learning_rate': 2.3407295896326445e-05, 'epoch': 2.37}


 48%|████▊     | 3080/6480 [18:59<22:09,  2.56it/s]

{'loss': 0.0, 'grad_norm': 0.00018827059830073267, 'learning_rate': 2.3338652799856278e-05, 'epoch': 2.38}


 48%|████▊     | 3090/6480 [19:02<18:03,  3.13it/s]

{'loss': 0.0002, 'grad_norm': 0.0002554130624048412, 'learning_rate': 2.3270009703386114e-05, 'epoch': 2.38}


 48%|████▊     | 3100/6480 [19:05<17:45,  3.17it/s]

{'loss': 0.0, 'grad_norm': 0.00036731414729729295, 'learning_rate': 2.3201366606915947e-05, 'epoch': 2.39}


 48%|████▊     | 3110/6480 [19:08<17:38,  3.18it/s]

{'loss': 0.0, 'grad_norm': 0.00028460664907470345, 'learning_rate': 2.313272351044578e-05, 'epoch': 2.4}


 48%|████▊     | 3120/6480 [19:11<17:51,  3.14it/s]

{'loss': 0.0, 'grad_norm': 0.00019665609579533339, 'learning_rate': 2.3064080413975617e-05, 'epoch': 2.41}


 48%|████▊     | 3130/6480 [19:15<22:07,  2.52it/s]

{'loss': 0.0, 'grad_norm': 0.0002385964326094836, 'learning_rate': 2.299543731750545e-05, 'epoch': 2.42}


 48%|████▊     | 3140/6480 [19:19<21:01,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0001295803376706317, 'learning_rate': 2.2926794221035283e-05, 'epoch': 2.42}


 49%|████▊     | 3150/6480 [19:22<17:19,  3.20it/s]

{'loss': 0.0, 'grad_norm': 0.00021752226166427135, 'learning_rate': 2.285815112456512e-05, 'epoch': 2.43}


 49%|████▉     | 3160/6480 [19:26<20:22,  2.72it/s]

{'loss': 0.0, 'grad_norm': 0.0001221594720846042, 'learning_rate': 2.2789508028094956e-05, 'epoch': 2.44}


 49%|████▉     | 3170/6480 [19:30<20:58,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00020445245900191367, 'learning_rate': 2.2720864931624792e-05, 'epoch': 2.45}


 49%|████▉     | 3180/6480 [19:33<17:34,  3.13it/s]

{'loss': 0.0, 'grad_norm': 0.0002074363292194903, 'learning_rate': 2.2652221835154625e-05, 'epoch': 2.45}


 49%|████▉     | 3190/6480 [19:36<16:36,  3.30it/s]

{'loss': 0.0, 'grad_norm': 0.00024337512149941176, 'learning_rate': 2.258357873868446e-05, 'epoch': 2.46}


 49%|████▉     | 3200/6480 [19:39<16:32,  3.31it/s]

{'loss': 0.0, 'grad_norm': 0.00029768850072287023, 'learning_rate': 2.2514935642214295e-05, 'epoch': 2.47}


 50%|████▉     | 3210/6480 [19:42<16:29,  3.31it/s]

{'loss': 0.0, 'grad_norm': 0.0003389515040908009, 'learning_rate': 2.2446292545744128e-05, 'epoch': 2.48}


 50%|████▉     | 3220/6480 [19:46<18:59,  2.86it/s]

{'loss': 0.0, 'grad_norm': 0.0001102358874049969, 'learning_rate': 2.237764944927396e-05, 'epoch': 2.48}


 50%|████▉     | 3230/6480 [19:50<18:28,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.00010614118946250528, 'learning_rate': 2.2309006352803797e-05, 'epoch': 2.49}


 50%|█████     | 3240/6480 [19:53<17:26,  3.09it/s]

{'loss': 0.0, 'grad_norm': 0.00022994949540589005, 'learning_rate': 2.224036325633363e-05, 'epoch': 2.5}


 50%|█████     | 3250/6480 [19:56<18:45,  2.87it/s]

{'loss': 0.0, 'grad_norm': 0.0002017452206928283, 'learning_rate': 2.2171720159863463e-05, 'epoch': 2.51}


 50%|█████     | 3260/6480 [20:00<18:35,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.00019992553279735148, 'learning_rate': 2.21030770633933e-05, 'epoch': 2.52}


 50%|█████     | 3270/6480 [20:03<19:43,  2.71it/s]

{'loss': 0.0, 'grad_norm': 0.00016140025400090963, 'learning_rate': 2.2034433966923133e-05, 'epoch': 2.52}


 51%|█████     | 3280/6480 [20:07<18:12,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.00019181882089469582, 'learning_rate': 2.1965790870452966e-05, 'epoch': 2.53}


 51%|█████     | 3290/6480 [20:11<21:39,  2.46it/s]

{'loss': 0.0769, 'grad_norm': 0.0007495548925362527, 'learning_rate': 2.1897147773982803e-05, 'epoch': 2.54}


 51%|█████     | 3300/6480 [20:15<19:05,  2.78it/s]

{'loss': 0.0001, 'grad_norm': 0.007892763242125511, 'learning_rate': 2.182850467751264e-05, 'epoch': 2.55}


 51%|█████     | 3310/6480 [20:19<19:50,  2.66it/s]

{'loss': 0.0849, 'grad_norm': 0.024036934599280357, 'learning_rate': 2.1759861581042472e-05, 'epoch': 2.55}


 51%|█████     | 3320/6480 [20:22<18:15,  2.88it/s]

{'loss': 0.0002, 'grad_norm': 0.003747481619939208, 'learning_rate': 2.1691218484572305e-05, 'epoch': 2.56}


 51%|█████▏    | 3330/6480 [20:26<19:28,  2.70it/s]

{'loss': 0.0899, 'grad_norm': 0.0019298635888844728, 'learning_rate': 2.162257538810214e-05, 'epoch': 2.57}


 52%|█████▏    | 3340/6480 [20:29<18:23,  2.84it/s]

{'loss': 0.0361, 'grad_norm': 0.004546377807855606, 'learning_rate': 2.1553932291631975e-05, 'epoch': 2.58}


 52%|█████▏    | 3350/6480 [20:33<18:30,  2.82it/s]

{'loss': 0.0002, 'grad_norm': 0.0033912616781890392, 'learning_rate': 2.1485289195161808e-05, 'epoch': 2.58}


 52%|█████▏    | 3360/6480 [20:36<18:13,  2.85it/s]

{'loss': 0.0793, 'grad_norm': 0.0009062590543180704, 'learning_rate': 2.1416646098691644e-05, 'epoch': 2.59}


 52%|█████▏    | 3370/6480 [20:40<19:07,  2.71it/s]

{'loss': 0.0003, 'grad_norm': 0.017401641234755516, 'learning_rate': 2.134800300222148e-05, 'epoch': 2.6}


 52%|█████▏    | 3380/6480 [20:43<18:02,  2.86it/s]

{'loss': 0.0002, 'grad_norm': 0.003058631671592593, 'learning_rate': 2.1279359905751314e-05, 'epoch': 2.61}


 52%|█████▏    | 3390/6480 [20:47<17:09,  3.00it/s]

{'loss': 0.0001, 'grad_norm': 0.0011226761853322387, 'learning_rate': 2.1210716809281147e-05, 'epoch': 2.62}


 52%|█████▏    | 3400/6480 [20:50<16:56,  3.03it/s]

{'loss': 0.0001, 'grad_norm': 0.0009688282734714448, 'learning_rate': 2.1142073712810983e-05, 'epoch': 2.62}


 53%|█████▎    | 3410/6480 [20:53<16:59,  3.01it/s]

{'loss': 0.0032, 'grad_norm': 0.0014159928541630507, 'learning_rate': 2.1073430616340816e-05, 'epoch': 2.63}


 53%|█████▎    | 3420/6480 [20:57<16:53,  3.02it/s]

{'loss': 0.0001, 'grad_norm': 0.0009845338063314557, 'learning_rate': 2.100478751987065e-05, 'epoch': 2.64}


 53%|█████▎    | 3430/6480 [21:00<16:41,  3.04it/s]

{'loss': 0.0001, 'grad_norm': 0.0005678745801560581, 'learning_rate': 2.0936144423400486e-05, 'epoch': 2.65}


 53%|█████▎    | 3440/6480 [21:03<16:47,  3.02it/s]

{'loss': 0.0479, 'grad_norm': 0.001377057982608676, 'learning_rate': 2.086750132693032e-05, 'epoch': 2.65}


 53%|█████▎    | 3450/6480 [21:06<16:44,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.0011792265577241778, 'learning_rate': 2.0798858230460155e-05, 'epoch': 2.66}


 53%|█████▎    | 3460/6480 [21:10<16:30,  3.05it/s]

{'loss': 0.0, 'grad_norm': 0.0007299479329958558, 'learning_rate': 2.0730215133989988e-05, 'epoch': 2.67}


 54%|█████▎    | 3470/6480 [21:13<16:32,  3.03it/s]

{'loss': 0.1281, 'grad_norm': 0.0012330745812505484, 'learning_rate': 2.0661572037519825e-05, 'epoch': 2.68}


 54%|█████▎    | 3480/6480 [21:16<16:32,  3.02it/s]

{'loss': 0.0531, 'grad_norm': 0.20090354979038239, 'learning_rate': 2.0592928941049658e-05, 'epoch': 2.69}


 54%|█████▍    | 3490/6480 [21:20<16:29,  3.02it/s]

{'loss': 0.0002, 'grad_norm': 0.001321836025454104, 'learning_rate': 2.052428584457949e-05, 'epoch': 2.69}


 54%|█████▍    | 3500/6480 [21:23<16:22,  3.03it/s]

{'loss': 0.0001, 'grad_norm': 0.0019238174427300692, 'learning_rate': 2.0455642748109327e-05, 'epoch': 2.7}


 54%|█████▍    | 3510/6480 [21:26<16:29,  3.00it/s]

{'loss': 0.0003, 'grad_norm': 0.0009771784534677863, 'learning_rate': 2.038699965163916e-05, 'epoch': 2.71}


 54%|█████▍    | 3520/6480 [21:30<16:29,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0007824121275916696, 'learning_rate': 2.0318356555168993e-05, 'epoch': 2.72}


 54%|█████▍    | 3530/6480 [21:33<16:26,  2.99it/s]

{'loss': 0.0471, 'grad_norm': 0.0012776607181876898, 'learning_rate': 2.024971345869883e-05, 'epoch': 2.72}


 55%|█████▍    | 3540/6480 [21:36<16:20,  3.00it/s]

{'loss': 0.0015, 'grad_norm': 10.015893936157227, 'learning_rate': 2.0181070362228666e-05, 'epoch': 2.73}


 55%|█████▍    | 3550/6480 [21:40<16:10,  3.02it/s]

{'loss': 0.0001, 'grad_norm': 0.000917835277505219, 'learning_rate': 2.01124272657585e-05, 'epoch': 2.74}


 55%|█████▍    | 3560/6480 [21:43<16:05,  3.03it/s]

{'loss': 0.0001, 'grad_norm': 0.0008074601646512747, 'learning_rate': 2.0043784169288332e-05, 'epoch': 2.75}


 55%|█████▌    | 3570/6480 [21:46<16:07,  3.01it/s]

{'loss': 0.0001, 'grad_norm': 0.0007402327610179782, 'learning_rate': 1.997514107281817e-05, 'epoch': 2.75}


 55%|█████▌    | 3580/6480 [21:50<17:34,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.0011988108744844794, 'learning_rate': 1.9906497976348002e-05, 'epoch': 2.76}


 55%|█████▌    | 3590/6480 [21:54<16:18,  2.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0009726969874463975, 'learning_rate': 1.9837854879877835e-05, 'epoch': 2.77}


 56%|█████▌    | 3600/6480 [21:57<16:18,  2.94it/s]

{'loss': 0.0001, 'grad_norm': 0.27674198150634766, 'learning_rate': 1.976921178340767e-05, 'epoch': 2.78}


 56%|█████▌    | 3610/6480 [22:01<16:19,  2.93it/s]

{'loss': 0.0553, 'grad_norm': 0.004844942130148411, 'learning_rate': 1.9700568686937508e-05, 'epoch': 2.79}


 56%|█████▌    | 3620/6480 [22:04<16:04,  2.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0009992201812565327, 'learning_rate': 1.963192559046734e-05, 'epoch': 2.79}


 56%|█████▌    | 3630/6480 [22:07<16:06,  2.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0008731427951715887, 'learning_rate': 1.9563282493997174e-05, 'epoch': 2.8}


 56%|█████▌    | 3640/6480 [22:11<16:00,  2.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0007204405847005546, 'learning_rate': 1.949463939752701e-05, 'epoch': 2.81}


 56%|█████▋    | 3650/6480 [22:14<16:09,  2.92it/s]

{'loss': 0.0001, 'grad_norm': 0.000910691567696631, 'learning_rate': 1.9425996301056844e-05, 'epoch': 2.82}


 56%|█████▋    | 3660/6480 [22:18<16:06,  2.92it/s]

{'loss': 0.0132, 'grad_norm': 0.001542199868708849, 'learning_rate': 1.9357353204586677e-05, 'epoch': 2.82}


 57%|█████▋    | 3670/6480 [22:21<16:05,  2.91it/s]

{'loss': 0.002, 'grad_norm': 0.0012129286769777536, 'learning_rate': 1.9288710108116513e-05, 'epoch': 2.83}


 57%|█████▋    | 3680/6480 [22:24<15:57,  2.93it/s]

{'loss': 0.0001, 'grad_norm': 0.0010891486890614033, 'learning_rate': 1.9220067011646346e-05, 'epoch': 2.84}


 57%|█████▋    | 3690/6480 [22:28<15:53,  2.93it/s]

{'loss': 0.079, 'grad_norm': 0.0028181257657706738, 'learning_rate': 1.9151423915176183e-05, 'epoch': 2.85}


 57%|█████▋    | 3700/6480 [22:31<15:54,  2.91it/s]

{'loss': 0.0004, 'grad_norm': 0.001111309160478413, 'learning_rate': 1.9082780818706016e-05, 'epoch': 2.85}


 57%|█████▋    | 3710/6480 [22:35<15:48,  2.92it/s]

{'loss': 0.0001, 'grad_norm': 0.006024293601512909, 'learning_rate': 1.9014137722235852e-05, 'epoch': 2.86}


 57%|█████▋    | 3720/6480 [22:38<15:42,  2.93it/s]

{'loss': 0.0001, 'grad_norm': 0.0011983379954472184, 'learning_rate': 1.8945494625765685e-05, 'epoch': 2.87}


 58%|█████▊    | 3730/6480 [22:42<15:39,  2.93it/s]

{'loss': 0.0001, 'grad_norm': 0.15397430956363678, 'learning_rate': 1.8876851529295518e-05, 'epoch': 2.88}


 58%|█████▊    | 3740/6480 [22:45<15:34,  2.93it/s]

{'loss': 0.0268, 'grad_norm': 377.0554504394531, 'learning_rate': 1.8808208432825355e-05, 'epoch': 2.89}


 58%|█████▊    | 3750/6480 [22:48<15:34,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.0008562833536416292, 'learning_rate': 1.8739565336355188e-05, 'epoch': 2.89}


 58%|█████▊    | 3760/6480 [22:52<15:27,  2.93it/s]

{'loss': 0.0001, 'grad_norm': 0.0006014655809849501, 'learning_rate': 1.867092223988502e-05, 'epoch': 2.9}


 58%|█████▊    | 3770/6480 [22:55<15:23,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.0006287381984293461, 'learning_rate': 1.8602279143414857e-05, 'epoch': 2.91}


 58%|█████▊    | 3780/6480 [22:59<15:24,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.0004312532255426049, 'learning_rate': 1.8533636046944694e-05, 'epoch': 2.92}


 58%|█████▊    | 3790/6480 [23:02<15:02,  2.98it/s]

{'loss': 0.0, 'grad_norm': 0.0004877574392594397, 'learning_rate': 1.8464992950474527e-05, 'epoch': 2.92}


 59%|█████▊    | 3800/6480 [23:05<15:04,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.000411687302403152, 'learning_rate': 1.839634985400436e-05, 'epoch': 2.93}


 59%|█████▉    | 3810/6480 [23:09<15:06,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.0005094385123811662, 'learning_rate': 1.8327706757534196e-05, 'epoch': 2.94}


 59%|█████▉    | 3820/6480 [23:12<15:08,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.000722396420314908, 'learning_rate': 1.825906366106403e-05, 'epoch': 2.95}


 59%|█████▉    | 3830/6480 [23:16<15:03,  2.93it/s]

{'loss': 0.0004, 'grad_norm': 0.00042377912905067205, 'learning_rate': 1.8190420564593862e-05, 'epoch': 2.96}


 59%|█████▉    | 3840/6480 [23:19<15:03,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.00038781960029155016, 'learning_rate': 1.81217774681237e-05, 'epoch': 2.96}


 59%|█████▉    | 3850/6480 [23:22<14:59,  2.92it/s]

{'loss': 0.0008, 'grad_norm': 24.94965362548828, 'learning_rate': 1.8053134371653535e-05, 'epoch': 2.97}


 60%|█████▉    | 3860/6480 [23:26<14:48,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.0005792702431790531, 'learning_rate': 1.798449127518337e-05, 'epoch': 2.98}


 60%|█████▉    | 3870/6480 [23:29<14:56,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0004711021902039647, 'learning_rate': 1.79158481787132e-05, 'epoch': 2.99}


 60%|█████▉    | 3880/6480 [23:33<14:50,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.00030142487958073616, 'learning_rate': 1.7847205082243038e-05, 'epoch': 2.99}


 60%|██████    | 3888/6480 [23:35<12:59,  3.32it/s]
 60%|██████    | 3888/6480 [24:13<12:59,  3.32it/s]

{'eval_loss': 0.010724775493144989, 'eval_accuracy': 0.9987288905029962, 'eval_f1': 0.9987298369451512, 'eval_runtime': 37.4936, 'eval_samples_per_second': 146.878, 'eval_steps_per_second': 18.376, 'epoch': 3.0}


 60%|██████    | 3891/6480 [24:50<8:02:21, 11.18s/it] 

{'loss': 0.0, 'grad_norm': 0.000421613862272352, 'learning_rate': 1.777856198577287e-05, 'epoch': 3.0}


 60%|██████    | 3901/6480 [24:52<20:39,  2.08it/s]  

{'loss': 0.0, 'grad_norm': 0.0005280245677568018, 'learning_rate': 1.7709918889302704e-05, 'epoch': 3.01}


 60%|██████    | 3911/6480 [24:54<07:36,  5.63it/s]

{'loss': 0.0, 'grad_norm': 0.0008154278039000928, 'learning_rate': 1.764127579283254e-05, 'epoch': 3.02}


 61%|██████    | 3921/6480 [24:55<07:24,  5.76it/s]

{'loss': 0.0, 'grad_norm': 0.0003897045098710805, 'learning_rate': 1.7572632696362374e-05, 'epoch': 3.02}


 61%|██████    | 3930/6480 [24:57<07:31,  5.65it/s]

{'loss': 0.0, 'grad_norm': 0.0005958797410130501, 'learning_rate': 1.750398959989221e-05, 'epoch': 3.03}


 61%|██████    | 3940/6480 [24:59<09:20,  4.53it/s]

{'loss': 0.0, 'grad_norm': 0.0005756670143455267, 'learning_rate': 1.7435346503422043e-05, 'epoch': 3.04}


 61%|██████    | 3951/6480 [25:01<07:50,  5.37it/s]

{'loss': 0.0, 'grad_norm': 0.0003346331068314612, 'learning_rate': 1.736670340695188e-05, 'epoch': 3.05}


 61%|██████    | 3961/6480 [25:03<07:56,  5.29it/s]

{'loss': 0.0518, 'grad_norm': 0.0004883102956227958, 'learning_rate': 1.7298060310481713e-05, 'epoch': 3.06}


 61%|██████▏   | 3971/6480 [25:05<07:48,  5.36it/s]

{'loss': 0.0, 'grad_norm': 0.0004639913095161319, 'learning_rate': 1.7229417214011546e-05, 'epoch': 3.06}


 61%|██████▏   | 3981/6480 [25:07<07:59,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.000654800096526742, 'learning_rate': 1.7160774117541382e-05, 'epoch': 3.07}


 62%|██████▏   | 3991/6480 [25:09<07:51,  5.28it/s]

{'loss': 0.0, 'grad_norm': 0.00048816142953000963, 'learning_rate': 1.7092131021071215e-05, 'epoch': 3.08}


 62%|██████▏   | 4001/6480 [25:11<07:49,  5.28it/s]

{'loss': 0.0, 'grad_norm': 0.0002923999272752553, 'learning_rate': 1.7023487924601048e-05, 'epoch': 3.09}


 62%|██████▏   | 4010/6480 [25:13<09:03,  4.54it/s]

{'loss': 0.0, 'grad_norm': 0.0004332633106969297, 'learning_rate': 1.6954844828130885e-05, 'epoch': 3.09}


 62%|██████▏   | 4021/6480 [25:15<08:07,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.000666088133584708, 'learning_rate': 1.688620173166072e-05, 'epoch': 3.1}


 62%|██████▏   | 4030/6480 [25:17<07:56,  5.14it/s]

{'loss': 0.0, 'grad_norm': 0.00035203370498493314, 'learning_rate': 1.6817558635190554e-05, 'epoch': 3.11}


 62%|██████▏   | 4040/6480 [25:19<08:04,  5.04it/s]

{'loss': 0.0001, 'grad_norm': 0.0004250937490724027, 'learning_rate': 1.6748915538720387e-05, 'epoch': 3.12}


 62%|██████▎   | 4050/6480 [25:21<08:24,  4.81it/s]

{'loss': 0.0701, 'grad_norm': 0.000942839658819139, 'learning_rate': 1.6680272442250224e-05, 'epoch': 3.12}


 63%|██████▎   | 4060/6480 [25:23<08:41,  4.64it/s]

{'loss': 0.0, 'grad_norm': 0.00034823990426957607, 'learning_rate': 1.6611629345780057e-05, 'epoch': 3.13}


 63%|██████▎   | 4070/6480 [25:25<08:25,  4.77it/s]

{'loss': 0.0, 'grad_norm': 0.0006043758476153016, 'learning_rate': 1.654298624930989e-05, 'epoch': 3.14}


 63%|██████▎   | 4080/6480 [25:27<10:27,  3.83it/s]

{'loss': 0.0, 'grad_norm': 0.0006040501175448298, 'learning_rate': 1.6474343152839726e-05, 'epoch': 3.15}


 63%|██████▎   | 4090/6480 [25:30<09:29,  4.20it/s]

{'loss': 0.0, 'grad_norm': 0.0004049509298056364, 'learning_rate': 1.640570005636956e-05, 'epoch': 3.16}


 63%|██████▎   | 4100/6480 [25:32<09:23,  4.22it/s]

{'loss': 0.0, 'grad_norm': 0.00048468270688317716, 'learning_rate': 1.6337056959899396e-05, 'epoch': 3.16}


 63%|██████▎   | 4110/6480 [25:35<09:27,  4.18it/s]

{'loss': 0.0, 'grad_norm': 0.00034931066329590976, 'learning_rate': 1.626841386342923e-05, 'epoch': 3.17}


 64%|██████▎   | 4120/6480 [25:37<09:24,  4.18it/s]

{'loss': 0.0001, 'grad_norm': 0.0003682962560560554, 'learning_rate': 1.6199770766959065e-05, 'epoch': 3.18}


 64%|██████▎   | 4130/6480 [25:39<09:27,  4.14it/s]

{'loss': 0.0, 'grad_norm': 0.000485391792608425, 'learning_rate': 1.61311276704889e-05, 'epoch': 3.19}


 64%|██████▍   | 4140/6480 [25:42<10:20,  3.77it/s]

{'loss': 0.0, 'grad_norm': 0.00029537788941524923, 'learning_rate': 1.606248457401873e-05, 'epoch': 3.19}


 64%|██████▍   | 4150/6480 [25:45<11:00,  3.53it/s]

{'loss': 0.0, 'grad_norm': 0.0005142721929587424, 'learning_rate': 1.5993841477548568e-05, 'epoch': 3.2}


 64%|██████▍   | 4160/6480 [25:48<11:00,  3.51it/s]

{'loss': 0.0, 'grad_norm': 0.0003959008608944714, 'learning_rate': 1.59251983810784e-05, 'epoch': 3.21}


 64%|██████▍   | 4170/6480 [25:51<10:55,  3.53it/s]

{'loss': 0.0003, 'grad_norm': 0.0002569350472185761, 'learning_rate': 1.5856555284608234e-05, 'epoch': 3.22}


 65%|██████▍   | 4180/6480 [25:53<10:51,  3.53it/s]

{'loss': 0.0, 'grad_norm': 0.0004335980338510126, 'learning_rate': 1.578791218813807e-05, 'epoch': 3.23}


 65%|██████▍   | 4190/6480 [25:56<10:52,  3.51it/s]

{'loss': 0.0, 'grad_norm': 0.0002361123770242557, 'learning_rate': 1.5719269091667907e-05, 'epoch': 3.23}


 65%|██████▍   | 4200/6480 [25:59<10:49,  3.51it/s]

{'loss': 0.0, 'grad_norm': 0.0004045026144012809, 'learning_rate': 1.565062599519774e-05, 'epoch': 3.24}


 65%|██████▍   | 4210/6480 [26:02<10:50,  3.49it/s]

{'loss': 0.0, 'grad_norm': 0.0002790119615383446, 'learning_rate': 1.5581982898727573e-05, 'epoch': 3.25}


 65%|██████▌   | 4220/6480 [26:05<10:50,  3.47it/s]

{'loss': 0.0, 'grad_norm': 0.0002938286052085459, 'learning_rate': 1.551333980225741e-05, 'epoch': 3.26}


 65%|██████▌   | 4230/6480 [26:08<10:50,  3.46it/s]

{'loss': 0.0, 'grad_norm': 0.00025495505542494357, 'learning_rate': 1.5444696705787243e-05, 'epoch': 3.26}


 65%|██████▌   | 4240/6480 [26:12<15:23,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.0002479927206877619, 'learning_rate': 1.5376053609317076e-05, 'epoch': 3.27}


 66%|██████▌   | 4250/6480 [26:15<11:32,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.00021587080846074969, 'learning_rate': 1.5307410512846912e-05, 'epoch': 3.28}


 66%|██████▌   | 4260/6480 [26:18<11:17,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.00028981626383028924, 'learning_rate': 1.5238767416376748e-05, 'epoch': 3.29}


 66%|██████▌   | 4270/6480 [26:21<11:16,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.0002439082454657182, 'learning_rate': 1.5170124319906582e-05, 'epoch': 3.29}


 66%|██████▌   | 4280/6480 [26:24<11:17,  3.25it/s]

{'loss': 0.0, 'grad_norm': 0.0002950269263237715, 'learning_rate': 1.5101481223436416e-05, 'epoch': 3.3}


 66%|██████▌   | 4290/6480 [26:27<11:19,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0002333699376322329, 'learning_rate': 1.5032838126966251e-05, 'epoch': 3.31}


 66%|██████▋   | 4300/6480 [26:30<11:17,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0002538496337365359, 'learning_rate': 1.4964195030496084e-05, 'epoch': 3.32}


 67%|██████▋   | 4310/6480 [26:33<11:13,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0003390491765458137, 'learning_rate': 1.4895551934025919e-05, 'epoch': 3.33}


 67%|██████▋   | 4320/6480 [26:37<11:08,  3.23it/s]

{'loss': 0.0, 'grad_norm': 0.0002793129824567586, 'learning_rate': 1.4826908837555754e-05, 'epoch': 3.33}


 67%|██████▋   | 4330/6480 [26:40<11:08,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0003340890980325639, 'learning_rate': 1.4758265741085587e-05, 'epoch': 3.34}


 67%|██████▋   | 4340/6480 [26:44<18:51,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.00037432124372571707, 'learning_rate': 1.4689622644615423e-05, 'epoch': 3.35}


 67%|██████▋   | 4350/6480 [26:47<13:25,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00023358117323368788, 'learning_rate': 1.4620979548145258e-05, 'epoch': 3.36}


 67%|██████▋   | 4360/6480 [26:51<13:17,  2.66it/s]

{'loss': 0.0, 'grad_norm': 0.000267869996605441, 'learning_rate': 1.4552336451675093e-05, 'epoch': 3.36}


 67%|██████▋   | 4370/6480 [26:55<13:10,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.0003222964296583086, 'learning_rate': 1.4483693355204926e-05, 'epoch': 3.37}


 68%|██████▊   | 4380/6480 [26:58<13:12,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0002715394366532564, 'learning_rate': 1.441505025873476e-05, 'epoch': 3.38}


 68%|██████▊   | 4390/6480 [27:01<10:45,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.0007391383987851441, 'learning_rate': 1.4346407162264595e-05, 'epoch': 3.39}


 68%|██████▊   | 4400/6480 [27:04<10:39,  3.25it/s]

{'loss': 0.0, 'grad_norm': 0.0002319222840014845, 'learning_rate': 1.4277764065794428e-05, 'epoch': 3.4}


 68%|██████▊   | 4410/6480 [27:08<10:34,  3.26it/s]

{'loss': 0.0, 'grad_norm': 0.00024267155095003545, 'learning_rate': 1.4209120969324263e-05, 'epoch': 3.4}


 68%|██████▊   | 4420/6480 [27:11<10:34,  3.25it/s]

{'loss': 0.0, 'grad_norm': 0.00018609187100082636, 'learning_rate': 1.41404778728541e-05, 'epoch': 3.41}


 68%|██████▊   | 4430/6480 [27:14<10:34,  3.23it/s]

{'loss': 0.0, 'grad_norm': 0.00021647247194778174, 'learning_rate': 1.4071834776383934e-05, 'epoch': 3.42}


 69%|██████▊   | 4440/6480 [27:17<10:29,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.00017862657841760665, 'learning_rate': 1.4003191679913767e-05, 'epoch': 3.43}


 69%|██████▊   | 4450/6480 [27:20<10:26,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.0002002407709369436, 'learning_rate': 1.3934548583443602e-05, 'epoch': 3.43}


 69%|██████▉   | 4460/6480 [27:24<12:25,  2.71it/s]

{'loss': 0.0, 'grad_norm': 0.00035263944300822914, 'learning_rate': 1.3865905486973437e-05, 'epoch': 3.44}


 69%|██████▉   | 4470/6480 [27:27<09:48,  3.42it/s]

{'loss': 0.0, 'grad_norm': 0.0002440011448925361, 'learning_rate': 1.379726239050327e-05, 'epoch': 3.45}


 69%|██████▉   | 4480/6480 [27:31<12:32,  2.66it/s]

{'loss': 0.0, 'grad_norm': 0.00025058561004698277, 'learning_rate': 1.3728619294033105e-05, 'epoch': 3.46}


 69%|██████▉   | 4490/6480 [27:35<11:08,  2.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002903845452237874, 'learning_rate': 1.365997619756294e-05, 'epoch': 3.46}


 69%|██████▉   | 4500/6480 [27:38<10:58,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.0002149795473087579, 'learning_rate': 1.3591333101092776e-05, 'epoch': 3.47}


 70%|██████▉   | 4510/6480 [27:41<10:54,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.0003691450401674956, 'learning_rate': 1.3522690004622609e-05, 'epoch': 3.48}


 70%|██████▉   | 4520/6480 [27:45<10:57,  2.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002512912906240672, 'learning_rate': 1.3454046908152444e-05, 'epoch': 3.49}


 70%|██████▉   | 4530/6480 [27:48<12:03,  2.70it/s]

{'loss': 0.0011, 'grad_norm': 0.00026307086227461696, 'learning_rate': 1.3385403811682278e-05, 'epoch': 3.5}


 70%|███████   | 4540/6480 [27:52<12:14,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0002005238929996267, 'learning_rate': 1.3316760715212111e-05, 'epoch': 3.5}


 70%|███████   | 4550/6480 [27:55<09:52,  3.26it/s]

{'loss': 0.0, 'grad_norm': 0.00023653428070247173, 'learning_rate': 1.3248117618741946e-05, 'epoch': 3.51}


 70%|███████   | 4560/6480 [27:58<09:48,  3.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0002531507343519479, 'learning_rate': 1.3179474522271781e-05, 'epoch': 3.52}


 71%|███████   | 4570/6480 [28:01<10:15,  3.10it/s]

{'loss': 0.0, 'grad_norm': 0.00023376717581413686, 'learning_rate': 1.3110831425801614e-05, 'epoch': 3.53}


 71%|███████   | 4580/6480 [28:04<09:49,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.00019755965331569314, 'learning_rate': 1.304218832933145e-05, 'epoch': 3.53}


 71%|███████   | 4590/6480 [28:07<09:43,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.00021375853975769132, 'learning_rate': 1.2973545232861285e-05, 'epoch': 3.54}


 71%|███████   | 4600/6480 [28:11<09:43,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0002124725142493844, 'learning_rate': 1.290490213639112e-05, 'epoch': 3.55}


 71%|███████   | 4610/6480 [28:14<09:41,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0003125706280115992, 'learning_rate': 1.2836259039920953e-05, 'epoch': 3.56}


 71%|███████▏  | 4620/6480 [28:18<16:27,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.00017414041212759912, 'learning_rate': 1.2767615943450788e-05, 'epoch': 3.56}


 71%|███████▏  | 4630/6480 [28:21<11:27,  2.69it/s]

{'loss': 0.0, 'grad_norm': 0.00019492951105348766, 'learning_rate': 1.2698972846980623e-05, 'epoch': 3.57}


 72%|███████▏  | 4640/6480 [28:25<11:29,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.0001454206503694877, 'learning_rate': 1.2630329750510456e-05, 'epoch': 3.58}


 72%|███████▏  | 4650/6480 [28:28<11:15,  2.71it/s]

{'loss': 0.0, 'grad_norm': 0.0002380684163654223, 'learning_rate': 1.256168665404029e-05, 'epoch': 3.59}


 72%|███████▏  | 4660/6480 [28:31<09:21,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.0029456699267029762, 'learning_rate': 1.2493043557570127e-05, 'epoch': 3.6}


 72%|███████▏  | 4670/6480 [28:35<09:09,  3.29it/s]

{'loss': 0.0, 'grad_norm': 0.00027934034005738795, 'learning_rate': 1.2424400461099962e-05, 'epoch': 3.6}


 72%|███████▏  | 4680/6480 [28:38<09:10,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.00022885965881869197, 'learning_rate': 1.2355757364629795e-05, 'epoch': 3.61}


 72%|███████▏  | 4690/6480 [28:41<09:32,  3.13it/s]

{'loss': 0.0, 'grad_norm': 0.00021071030641905963, 'learning_rate': 1.228711426815963e-05, 'epoch': 3.62}


 73%|███████▎  | 4700/6480 [28:44<09:05,  3.26it/s]

{'loss': 0.0, 'grad_norm': 0.00016742190928198397, 'learning_rate': 1.2218471171689464e-05, 'epoch': 3.63}


 73%|███████▎  | 4710/6480 [28:47<09:01,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.00018799328245222569, 'learning_rate': 1.2149828075219297e-05, 'epoch': 3.63}


 73%|███████▎  | 4720/6480 [28:51<11:19,  2.59it/s]

{'loss': 0.0, 'grad_norm': 0.00024707629927434027, 'learning_rate': 1.2081184978749132e-05, 'epoch': 3.64}


 73%|███████▎  | 4730/6480 [28:56<12:41,  2.30it/s]

{'loss': 0.0, 'grad_norm': 0.00015900505241006613, 'learning_rate': 1.2012541882278967e-05, 'epoch': 3.65}


 73%|███████▎  | 4740/6480 [28:59<08:51,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.0002885422436520457, 'learning_rate': 1.1943898785808803e-05, 'epoch': 3.66}


 73%|███████▎  | 4750/6480 [29:02<08:27,  3.41it/s]

{'loss': 0.0, 'grad_norm': 0.00025065743830055, 'learning_rate': 1.1875255689338636e-05, 'epoch': 3.67}


 73%|███████▎  | 4760/6480 [29:05<08:27,  3.39it/s]

{'loss': 0.0, 'grad_norm': 0.00026496636564843357, 'learning_rate': 1.1806612592868471e-05, 'epoch': 3.67}


 74%|███████▎  | 4770/6480 [29:09<10:13,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.0002954217488877475, 'learning_rate': 1.1737969496398306e-05, 'epoch': 3.68}


 74%|███████▍  | 4780/6480 [29:13<09:58,  2.84it/s]

{'loss': 0.0, 'grad_norm': 0.00021701908553950489, 'learning_rate': 1.1669326399928139e-05, 'epoch': 3.69}


 74%|███████▍  | 4791/6480 [29:17<07:40,  3.66it/s]

{'loss': 0.0, 'grad_norm': 0.00018319762602914125, 'learning_rate': 1.1600683303457974e-05, 'epoch': 3.7}


 74%|███████▍  | 4800/6480 [29:20<06:44,  4.15it/s]

{'loss': 0.0, 'grad_norm': 0.00038706031045876443, 'learning_rate': 1.1532040206987808e-05, 'epoch': 3.7}


 74%|███████▍  | 4810/6480 [29:23<08:31,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.020924344658851624, 'learning_rate': 1.1463397110517641e-05, 'epoch': 3.71}


 74%|███████▍  | 4820/6480 [29:27<08:32,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.00013644025602843612, 'learning_rate': 1.1394754014047478e-05, 'epoch': 3.72}


 75%|███████▍  | 4830/6480 [29:30<08:32,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0002657647419255227, 'learning_rate': 1.1326110917577313e-05, 'epoch': 3.73}


 75%|███████▍  | 4840/6480 [29:33<08:29,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.00020549325563479215, 'learning_rate': 1.1257467821107147e-05, 'epoch': 3.73}


 75%|███████▍  | 4850/6480 [29:36<08:30,  3.19it/s]

{'loss': 0.0, 'grad_norm': 0.00014200352597981691, 'learning_rate': 1.118882472463698e-05, 'epoch': 3.74}


 75%|███████▌  | 4860/6480 [29:39<08:24,  3.21it/s]

{'loss': 0.0, 'grad_norm': 0.0003341956762596965, 'learning_rate': 1.1120181628166815e-05, 'epoch': 3.75}


 75%|███████▌  | 4870/6480 [29:42<08:19,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.00020213717652950436, 'learning_rate': 1.105153853169665e-05, 'epoch': 3.76}


 75%|███████▌  | 4880/6480 [29:45<08:18,  3.21it/s]

{'loss': 0.0, 'grad_norm': 0.00020288345695007592, 'learning_rate': 1.0982895435226483e-05, 'epoch': 3.77}


 75%|███████▌  | 4891/6480 [29:50<10:35,  2.50it/s]

{'loss': 0.0, 'grad_norm': 0.00017794000450521708, 'learning_rate': 1.091425233875632e-05, 'epoch': 3.77}


 76%|███████▌  | 4900/6480 [29:53<07:47,  3.38it/s]

{'loss': 0.0, 'grad_norm': 0.00011220960004720837, 'learning_rate': 1.0845609242286153e-05, 'epoch': 3.78}


 76%|███████▌  | 4910/6480 [29:56<10:06,  2.59it/s]

{'loss': 0.0, 'grad_norm': 0.00018093599646817893, 'learning_rate': 1.0776966145815987e-05, 'epoch': 3.79}


 76%|███████▌  | 4920/6480 [30:00<10:34,  2.46it/s]

{'loss': 0.0, 'grad_norm': 0.00027897171094082296, 'learning_rate': 1.0708323049345822e-05, 'epoch': 3.8}


 76%|███████▌  | 4930/6480 [30:03<08:19,  3.10it/s]

{'loss': 0.0, 'grad_norm': 0.00012674012396018952, 'learning_rate': 1.0639679952875657e-05, 'epoch': 3.8}


 76%|███████▌  | 4940/6480 [30:07<08:28,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.00017749890685081482, 'learning_rate': 1.0571036856405492e-05, 'epoch': 3.81}


 76%|███████▋  | 4950/6480 [30:10<08:26,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.0001276610273635015, 'learning_rate': 1.0502393759935325e-05, 'epoch': 3.82}


 77%|███████▋  | 4960/6480 [30:13<08:23,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.00032249142532236874, 'learning_rate': 1.043375066346516e-05, 'epoch': 3.83}


 77%|███████▋  | 4970/6480 [30:17<08:23,  3.00it/s]

{'loss': 0.0, 'grad_norm': 0.0002164226461900398, 'learning_rate': 1.0365107566994994e-05, 'epoch': 3.83}


 77%|███████▋  | 4980/6480 [30:20<08:17,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.00020257954020053148, 'learning_rate': 1.0296464470524829e-05, 'epoch': 3.84}


 77%|███████▋  | 4990/6480 [30:23<08:18,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0002155430120183155, 'learning_rate': 1.0227821374054664e-05, 'epoch': 3.85}


 77%|███████▋  | 5000/6480 [30:26<08:09,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.00019477278692647815, 'learning_rate': 1.0159178277584497e-05, 'epoch': 3.86}


 77%|███████▋  | 5010/6480 [30:30<08:05,  3.03it/s]

{'loss': 0.0604, 'grad_norm': 0.0007287117186933756, 'learning_rate': 1.0090535181114333e-05, 'epoch': 3.87}


 77%|███████▋  | 5020/6480 [30:33<08:05,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.00015490618534386158, 'learning_rate': 1.0021892084644166e-05, 'epoch': 3.87}


 78%|███████▊  | 5030/6480 [30:36<07:58,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.0011599671561270952, 'learning_rate': 9.953248988174001e-06, 'epoch': 3.88}


 78%|███████▊  | 5040/6480 [30:40<07:53,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.0019526529358699918, 'learning_rate': 9.884605891703836e-06, 'epoch': 3.89}


 78%|███████▊  | 5050/6480 [30:43<07:54,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.0004254522209521383, 'learning_rate': 9.81596279523367e-06, 'epoch': 3.9}


 78%|███████▊  | 5060/6480 [30:46<07:48,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.001723035122267902, 'learning_rate': 9.747319698763505e-06, 'epoch': 3.9}


 78%|███████▊  | 5070/6480 [30:50<07:49,  3.00it/s]

{'loss': 0.0, 'grad_norm': 0.00012162025086581707, 'learning_rate': 9.678676602293338e-06, 'epoch': 3.91}


 78%|███████▊  | 5080/6480 [30:53<07:48,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0005597223062068224, 'learning_rate': 9.610033505823173e-06, 'epoch': 3.92}


 79%|███████▊  | 5090/6480 [30:56<07:46,  2.98it/s]

{'loss': 0.0, 'grad_norm': 0.0007315195980481803, 'learning_rate': 9.541390409353008e-06, 'epoch': 3.93}


 79%|███████▊  | 5100/6480 [31:00<07:42,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0006550193065777421, 'learning_rate': 9.472747312882843e-06, 'epoch': 3.94}


 79%|███████▉  | 5110/6480 [31:03<08:01,  2.84it/s]

{'loss': 0.0, 'grad_norm': 0.001058090478181839, 'learning_rate': 9.404104216412677e-06, 'epoch': 3.94}


 79%|███████▉  | 5120/6480 [31:06<07:32,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.0004539996443782002, 'learning_rate': 9.33546111994251e-06, 'epoch': 3.95}


 79%|███████▉  | 5130/6480 [31:10<07:29,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.0014470715541392565, 'learning_rate': 9.266818023472347e-06, 'epoch': 3.96}


 79%|███████▉  | 5140/6480 [31:14<07:53,  2.83it/s]

{'loss': 0.0, 'grad_norm': 0.0003246830019634217, 'learning_rate': 9.19817492700218e-06, 'epoch': 3.97}


 79%|███████▉  | 5150/6480 [31:17<07:36,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.0007128870347514749, 'learning_rate': 9.129531830532015e-06, 'epoch': 3.97}


 80%|███████▉  | 5160/6480 [31:21<07:35,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.000616417033597827, 'learning_rate': 9.06088873406185e-06, 'epoch': 3.98}


 80%|███████▉  | 5170/6480 [31:24<07:28,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.0006718743243254721, 'learning_rate': 8.992245637591684e-06, 'epoch': 3.99}


 80%|███████▉  | 5180/6480 [31:27<07:23,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.001384081318974495, 'learning_rate': 8.923602541121519e-06, 'epoch': 4.0}


 80%|████████  | 5184/6480 [31:29<06:32,  3.30it/s]
 80%|████████  | 5184/6480 [32:06<06:32,  3.30it/s]

{'eval_loss': 0.012575944885611534, 'eval_accuracy': 0.9989104775739968, 'eval_f1': 0.9989144157474005, 'eval_runtime': 37.4491, 'eval_samples_per_second': 147.053, 'eval_steps_per_second': 18.398, 'epoch': 4.0}


 80%|████████  | 5191/6480 [32:50<1:05:14,  3.04s/it]

{'loss': 0.0, 'grad_norm': 0.0006987493252381682, 'learning_rate': 8.854959444651352e-06, 'epoch': 4.0}


 80%|████████  | 5200/6480 [32:52<06:33,  3.25it/s]  

{'loss': 0.0, 'grad_norm': 0.0007190979667939246, 'learning_rate': 8.786316348181187e-06, 'epoch': 4.01}


 80%|████████  | 5210/6480 [32:54<04:17,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.0003516324213705957, 'learning_rate': 8.717673251711022e-06, 'epoch': 4.02}


 81%|████████  | 5221/6480 [32:56<04:14,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.0006585748633369803, 'learning_rate': 8.649030155240856e-06, 'epoch': 4.03}


 81%|████████  | 5230/6480 [32:58<04:34,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.0006581960478797555, 'learning_rate': 8.580387058770691e-06, 'epoch': 4.04}


 81%|████████  | 5240/6480 [33:00<04:10,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.0008880927925929427, 'learning_rate': 8.511743962300524e-06, 'epoch': 4.04}


 81%|████████  | 5251/6480 [33:03<04:16,  4.80it/s]

{'loss': 0.0, 'grad_norm': 0.0003166212991345674, 'learning_rate': 8.44310086583036e-06, 'epoch': 4.05}


 81%|████████  | 5261/6480 [33:05<04:40,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.0007000587647780776, 'learning_rate': 8.374457769360194e-06, 'epoch': 4.06}


 81%|████████▏ | 5271/6480 [33:07<04:27,  4.53it/s]

{'loss': 0.0, 'grad_norm': 0.00044775509741157293, 'learning_rate': 8.305814672890028e-06, 'epoch': 4.07}


 81%|████████▏ | 5280/6480 [33:09<04:25,  4.52it/s]

{'loss': 0.0, 'grad_norm': 0.0010882155038416386, 'learning_rate': 8.237171576419863e-06, 'epoch': 4.07}


 82%|████████▏ | 5291/6480 [33:12<04:44,  4.18it/s]

{'loss': 0.0, 'grad_norm': 0.03993447870016098, 'learning_rate': 8.168528479949698e-06, 'epoch': 4.08}


 82%|████████▏ | 5301/6480 [33:14<04:22,  4.50it/s]

{'loss': 0.0, 'grad_norm': 0.000247090618358925, 'learning_rate': 8.099885383479533e-06, 'epoch': 4.09}


 82%|████████▏ | 5310/6480 [33:16<04:16,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.0002180175797548145, 'learning_rate': 8.031242287009366e-06, 'epoch': 4.1}


 82%|████████▏ | 5320/6480 [33:18<04:12,  4.60it/s]

{'loss': 0.0, 'grad_norm': 0.0004231539787724614, 'learning_rate': 7.9625991905392e-06, 'epoch': 4.1}


 82%|████████▏ | 5330/6480 [33:20<04:13,  4.54it/s]

{'loss': 0.0, 'grad_norm': 0.0006679060752503574, 'learning_rate': 7.893956094069035e-06, 'epoch': 4.11}


 82%|████████▏ | 5340/6480 [33:23<04:15,  4.45it/s]

{'loss': 0.0, 'grad_norm': 0.0003513989504426718, 'learning_rate': 7.82531299759887e-06, 'epoch': 4.12}


 83%|████████▎ | 5350/6480 [33:25<04:20,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0005628633080050349, 'learning_rate': 7.756669901128705e-06, 'epoch': 4.13}


 83%|████████▎ | 5360/6480 [33:27<04:10,  4.47it/s]

{'loss': 0.0, 'grad_norm': 0.0008773677982389927, 'learning_rate': 7.688026804658538e-06, 'epoch': 4.14}


 83%|████████▎ | 5370/6480 [33:30<04:17,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0008408486610278487, 'learning_rate': 7.619383708188374e-06, 'epoch': 4.14}


 83%|████████▎ | 5380/6480 [33:32<04:10,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.0008353645680472255, 'learning_rate': 7.550740611718208e-06, 'epoch': 4.15}


 83%|████████▎ | 5390/6480 [33:35<04:13,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0004630674375221133, 'learning_rate': 7.482097515248042e-06, 'epoch': 4.16}


 83%|████████▎ | 5400/6480 [33:37<04:33,  3.95it/s]

{'loss': 0.061, 'grad_norm': 94.81363677978516, 'learning_rate': 7.413454418777877e-06, 'epoch': 4.17}


 83%|████████▎ | 5410/6480 [33:40<04:16,  4.18it/s]

{'loss': 0.0, 'grad_norm': 0.0005354277673177421, 'learning_rate': 7.3448113223077116e-06, 'epoch': 4.17}


 84%|████████▎ | 5420/6480 [33:42<04:35,  3.85it/s]

{'loss': 0.0, 'grad_norm': 0.0007233471260406077, 'learning_rate': 7.276168225837546e-06, 'epoch': 4.18}


 84%|████████▍ | 5430/6480 [33:45<04:35,  3.82it/s]

{'loss': 0.0, 'grad_norm': 0.0003765407018363476, 'learning_rate': 7.20752512936738e-06, 'epoch': 4.19}


 84%|████████▍ | 5440/6480 [33:47<04:33,  3.80it/s]

{'loss': 0.0, 'grad_norm': 0.00054229173110798, 'learning_rate': 7.138882032897214e-06, 'epoch': 4.2}


 84%|████████▍ | 5450/6480 [33:50<04:34,  3.75it/s]

{'loss': 0.0, 'grad_norm': 0.0005485118017531931, 'learning_rate': 7.07023893642705e-06, 'epoch': 4.21}


 84%|████████▍ | 5460/6480 [33:53<05:20,  3.18it/s]

{'loss': 0.0, 'grad_norm': 0.0008427383145317435, 'learning_rate': 7.001595839956884e-06, 'epoch': 4.21}


 84%|████████▍ | 5470/6480 [33:56<04:32,  3.71it/s]

{'loss': 0.0, 'grad_norm': 0.0003303681733086705, 'learning_rate': 6.932952743486718e-06, 'epoch': 4.22}


 85%|████████▍ | 5480/6480 [33:59<04:32,  3.67it/s]

{'loss': 0.0, 'grad_norm': 0.0003119779867120087, 'learning_rate': 6.864309647016552e-06, 'epoch': 4.23}


 85%|████████▍ | 5490/6480 [34:02<06:39,  2.48it/s]

{'loss': 0.0, 'grad_norm': 0.0003116933803539723, 'learning_rate': 6.795666550546388e-06, 'epoch': 4.24}


 85%|████████▍ | 5500/6480 [34:05<04:59,  3.27it/s]

{'loss': 0.0, 'grad_norm': 0.00041299621807411313, 'learning_rate': 6.727023454076222e-06, 'epoch': 4.24}


 85%|████████▌ | 5510/6480 [34:09<05:40,  2.85it/s]

{'loss': 0.0, 'grad_norm': 0.0004762334283441305, 'learning_rate': 6.658380357606056e-06, 'epoch': 4.25}


 85%|████████▌ | 5520/6480 [34:12<05:20,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.00033555307891219854, 'learning_rate': 6.5897372611358905e-06, 'epoch': 4.26}


 85%|████████▌ | 5530/6480 [34:15<04:53,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.00036489119520410895, 'learning_rate': 6.521094164665725e-06, 'epoch': 4.27}


 85%|████████▌ | 5540/6480 [34:18<04:28,  3.50it/s]

{'loss': 0.0, 'grad_norm': 0.0008390456787310541, 'learning_rate': 6.45245106819556e-06, 'epoch': 4.27}


 86%|████████▌ | 5550/6480 [34:22<04:41,  3.30it/s]

{'loss': 0.0, 'grad_norm': 0.00012856324610766023, 'learning_rate': 6.383807971725394e-06, 'epoch': 4.28}


 86%|████████▌ | 5560/6480 [34:25<06:57,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.00042513245716691017, 'learning_rate': 6.315164875255228e-06, 'epoch': 4.29}


 86%|████████▌ | 5570/6480 [34:28<04:24,  3.44it/s]

{'loss': 0.0, 'grad_norm': 0.0008421246893703938, 'learning_rate': 6.2465217787850634e-06, 'epoch': 4.3}


 86%|████████▌ | 5580/6480 [34:32<04:33,  3.30it/s]

{'loss': 0.0, 'grad_norm': 0.00035695949918590486, 'learning_rate': 6.177878682314897e-06, 'epoch': 4.31}


 86%|████████▋ | 5590/6480 [34:35<04:13,  3.51it/s]

{'loss': 0.0, 'grad_norm': 0.0005035786307416856, 'learning_rate': 6.109235585844732e-06, 'epoch': 4.31}


 86%|████████▋ | 5600/6480 [34:38<04:19,  3.40it/s]

{'loss': 0.0, 'grad_norm': 0.00034048614907078445, 'learning_rate': 6.040592489374566e-06, 'epoch': 4.32}


 87%|████████▋ | 5610/6480 [34:41<05:09,  2.81it/s]

{'loss': 0.0, 'grad_norm': 0.000483481417177245, 'learning_rate': 5.971949392904402e-06, 'epoch': 4.33}


 87%|████████▋ | 5620/6480 [34:44<04:27,  3.21it/s]

{'loss': 0.0, 'grad_norm': 0.0004908593255095184, 'learning_rate': 5.9033062964342355e-06, 'epoch': 4.34}


 87%|████████▋ | 5630/6480 [34:47<04:18,  3.29it/s]

{'loss': 0.0, 'grad_norm': 0.0003966478107031435, 'learning_rate': 5.8346631999640694e-06, 'epoch': 4.34}


 87%|████████▋ | 5640/6480 [34:51<04:14,  3.30it/s]

{'loss': 0.0, 'grad_norm': 0.000349645153619349, 'learning_rate': 5.766020103493904e-06, 'epoch': 4.35}


 87%|████████▋ | 5650/6480 [34:54<04:29,  3.08it/s]

{'loss': 0.0, 'grad_norm': 0.0002914679062087089, 'learning_rate': 5.697377007023739e-06, 'epoch': 4.36}


 87%|████████▋ | 5660/6480 [34:57<04:28,  3.05it/s]

{'loss': 0.0, 'grad_norm': 0.0002656271099112928, 'learning_rate': 5.628733910553574e-06, 'epoch': 4.37}


 88%|████████▊ | 5670/6480 [35:00<04:29,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.00036089812056161463, 'learning_rate': 5.560090814083408e-06, 'epoch': 4.38}


 88%|████████▊ | 5680/6480 [35:04<04:22,  3.05it/s]

{'loss': 0.0, 'grad_norm': 0.00012957410945091397, 'learning_rate': 5.4914477176132415e-06, 'epoch': 4.38}


 88%|████████▊ | 5690/6480 [35:07<04:24,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0002806487609632313, 'learning_rate': 5.422804621143076e-06, 'epoch': 4.39}


 88%|████████▊ | 5700/6480 [35:10<04:17,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.00035651159123517573, 'learning_rate': 5.354161524672911e-06, 'epoch': 4.4}


 88%|████████▊ | 5710/6480 [35:14<04:12,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.0003476550045888871, 'learning_rate': 5.285518428202746e-06, 'epoch': 4.41}


 88%|████████▊ | 5720/6480 [35:17<04:09,  3.05it/s]

{'loss': 0.0, 'grad_norm': 0.0001886451937025413, 'learning_rate': 5.21687533173258e-06, 'epoch': 4.41}


 88%|████████▊ | 5730/6480 [35:20<04:06,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.00037147972034290433, 'learning_rate': 5.1482322352624145e-06, 'epoch': 4.42}


 89%|████████▊ | 5740/6480 [35:24<04:09,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.0003276561328675598, 'learning_rate': 5.079589138792248e-06, 'epoch': 4.43}


 89%|████████▊ | 5750/6480 [35:27<04:00,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.00018905197794083506, 'learning_rate': 5.010946042322083e-06, 'epoch': 4.44}


 89%|████████▉ | 5760/6480 [35:30<03:58,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.0004797361616510898, 'learning_rate': 4.942302945851918e-06, 'epoch': 4.44}


 89%|████████▉ | 5770/6480 [35:34<03:54,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.00022681619157083333, 'learning_rate': 4.873659849381753e-06, 'epoch': 4.45}


 89%|████████▉ | 5780/6480 [35:37<03:53,  3.00it/s]

{'loss': 0.0, 'grad_norm': 0.00043259983067400753, 'learning_rate': 4.8050167529115865e-06, 'epoch': 4.46}


 89%|████████▉ | 5790/6480 [35:40<03:47,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.00026855969917960465, 'learning_rate': 4.736373656441421e-06, 'epoch': 4.47}


 90%|████████▉ | 5800/6480 [35:44<03:44,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.000483547686599195, 'learning_rate': 4.667730559971255e-06, 'epoch': 4.48}


 90%|████████▉ | 5810/6480 [35:47<03:40,  3.03it/s]

{'loss': 0.0, 'grad_norm': 0.0005094915395602584, 'learning_rate': 4.59908746350109e-06, 'epoch': 4.48}


 90%|████████▉ | 5820/6480 [35:50<03:38,  3.02it/s]

{'loss': 0.0, 'grad_norm': 0.0002843253896571696, 'learning_rate': 4.530444367030925e-06, 'epoch': 4.49}


 90%|████████▉ | 5830/6480 [35:54<03:39,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.0003615787427406758, 'learning_rate': 4.4618012705607595e-06, 'epoch': 4.5}


 90%|█████████ | 5840/6480 [35:57<03:33,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0007330036605708301, 'learning_rate': 4.393158174090593e-06, 'epoch': 4.51}


 90%|█████████ | 5850/6480 [36:00<03:30,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0002735608140937984, 'learning_rate': 4.324515077620428e-06, 'epoch': 4.51}


 90%|█████████ | 5860/6480 [36:04<03:20,  3.09it/s]

{'loss': 0.0, 'grad_norm': 0.0006993531133048236, 'learning_rate': 4.255871981150262e-06, 'epoch': 4.52}


 91%|█████████ | 5870/6480 [36:07<03:41,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.0004906550166197121, 'learning_rate': 4.187228884680097e-06, 'epoch': 4.53}


 91%|█████████ | 5880/6480 [36:11<04:39,  2.15it/s]

{'loss': 0.0, 'grad_norm': 0.00019636856450233608, 'learning_rate': 4.1185857882099316e-06, 'epoch': 4.54}


 91%|█████████ | 5890/6480 [36:15<03:52,  2.54it/s]

{'loss': 0.0, 'grad_norm': 0.00018111320969182998, 'learning_rate': 4.049942691739766e-06, 'epoch': 4.54}


 91%|█████████ | 5900/6480 [36:18<03:12,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.00025302040739916265, 'learning_rate': 3.9812995952696e-06, 'epoch': 4.55}


 91%|█████████ | 5910/6480 [36:22<04:39,  2.04it/s]

{'loss': 0.0, 'grad_norm': 0.00032651369110681117, 'learning_rate': 3.912656498799435e-06, 'epoch': 4.56}


 91%|█████████▏| 5920/6480 [36:25<03:05,  3.01it/s]

{'loss': 0.0, 'grad_norm': 0.0001855059090303257, 'learning_rate': 3.844013402329269e-06, 'epoch': 4.57}


 92%|█████████▏| 5930/6480 [36:28<02:55,  3.14it/s]

{'loss': 0.0, 'grad_norm': 0.0003366368473507464, 'learning_rate': 3.775370305859104e-06, 'epoch': 4.58}


 92%|█████████▏| 5940/6480 [36:32<02:54,  3.09it/s]

{'loss': 0.0, 'grad_norm': 0.0002688755630515516, 'learning_rate': 3.7067272093889384e-06, 'epoch': 4.58}


 92%|█████████▏| 5950/6480 [36:35<02:48,  3.14it/s]

{'loss': 0.0, 'grad_norm': 0.00032422461663372815, 'learning_rate': 3.638084112918773e-06, 'epoch': 4.59}


 92%|█████████▏| 5960/6480 [36:38<02:46,  3.13it/s]

{'loss': 0.0, 'grad_norm': 0.00028856468270532787, 'learning_rate': 3.569441016448607e-06, 'epoch': 4.6}


 92%|█████████▏| 5970/6480 [36:42<03:19,  2.56it/s]

{'loss': 0.0, 'grad_norm': 9.672551823314279e-05, 'learning_rate': 3.500797919978442e-06, 'epoch': 4.61}


 92%|█████████▏| 5980/6480 [36:46<02:43,  3.07it/s]

{'loss': 0.0, 'grad_norm': 0.0001676825195318088, 'learning_rate': 3.432154823508276e-06, 'epoch': 4.61}


 92%|█████████▏| 5990/6480 [36:49<02:33,  3.19it/s]

{'loss': 0.0, 'grad_norm': 0.00023051697644405067, 'learning_rate': 3.363511727038111e-06, 'epoch': 4.62}


 93%|█████████▎| 6000/6480 [36:52<02:27,  3.25it/s]

{'loss': 0.0, 'grad_norm': 0.00024060255964286625, 'learning_rate': 3.2948686305679452e-06, 'epoch': 4.63}


 93%|█████████▎| 6010/6480 [36:55<02:50,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.0004607760638464242, 'learning_rate': 3.22622553409778e-06, 'epoch': 4.64}


 93%|█████████▎| 6020/6480 [36:59<02:40,  2.86it/s]

{'loss': 0.0, 'grad_norm': 0.0003529145906213671, 'learning_rate': 3.157582437627614e-06, 'epoch': 4.65}


 93%|█████████▎| 6030/6480 [37:02<02:37,  2.86it/s]

{'loss': 0.0, 'grad_norm': 0.00019265999435447156, 'learning_rate': 3.0889393411574487e-06, 'epoch': 4.65}


 93%|█████████▎| 6040/6480 [37:06<02:33,  2.86it/s]

{'loss': 0.0, 'grad_norm': 0.00047330043162219226, 'learning_rate': 3.020296244687283e-06, 'epoch': 4.66}


 93%|█████████▎| 6050/6480 [37:09<02:32,  2.81it/s]

{'loss': 0.0, 'grad_norm': 0.00026055777561850846, 'learning_rate': 2.9516531482171178e-06, 'epoch': 4.67}


 94%|█████████▎| 6060/6480 [37:13<02:56,  2.38it/s]

{'loss': 0.0, 'grad_norm': 5.973831139272079e-05, 'learning_rate': 2.883010051746952e-06, 'epoch': 4.68}


 94%|█████████▎| 6070/6480 [37:17<02:19,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.00013013627904001623, 'learning_rate': 2.814366955276787e-06, 'epoch': 4.68}


 94%|█████████▍| 6080/6480 [37:20<02:14,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.00020925722492393106, 'learning_rate': 2.7457238588066208e-06, 'epoch': 4.69}


 94%|█████████▍| 6090/6480 [37:23<02:11,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.00016017528832890093, 'learning_rate': 2.6770807623364555e-06, 'epoch': 4.7}


 94%|█████████▍| 6100/6480 [37:27<02:08,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.00025510412524454296, 'learning_rate': 2.60843766586629e-06, 'epoch': 4.71}


 94%|█████████▍| 6110/6480 [37:30<02:05,  2.94it/s]

{'loss': 0.0, 'grad_norm': 0.00025497039314359426, 'learning_rate': 2.539794569396124e-06, 'epoch': 4.71}


 94%|█████████▍| 6120/6480 [37:34<02:02,  2.94it/s]

{'loss': 0.0, 'grad_norm': 0.00040758567047305405, 'learning_rate': 2.471151472925959e-06, 'epoch': 4.72}


 95%|█████████▍| 6130/6480 [37:37<01:59,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.0001079351277439855, 'learning_rate': 2.4025083764557933e-06, 'epoch': 4.73}


 95%|█████████▍| 6140/6480 [37:40<01:55,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.00014575482055079192, 'learning_rate': 2.3338652799856276e-06, 'epoch': 4.74}


 95%|█████████▍| 6150/6480 [37:44<01:52,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.0001703607995295897, 'learning_rate': 2.2652221835154624e-06, 'epoch': 4.75}


 95%|█████████▌| 6160/6480 [37:47<01:49,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.00014247963554225862, 'learning_rate': 2.1965790870452967e-06, 'epoch': 4.75}


 95%|█████████▌| 6170/6480 [37:51<01:45,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.00018685200484469533, 'learning_rate': 2.127935990575131e-06, 'epoch': 4.76}


 95%|█████████▌| 6180/6480 [37:54<01:42,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.00017852731980383396, 'learning_rate': 2.0592928941049658e-06, 'epoch': 4.77}


 96%|█████████▌| 6190/6480 [37:57<01:38,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.0004027978575322777, 'learning_rate': 1.9906497976348e-06, 'epoch': 4.78}


 96%|█████████▌| 6200/6480 [38:01<01:34,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.00026932923356071115, 'learning_rate': 1.9220067011646344e-06, 'epoch': 4.78}


 96%|█████████▌| 6210/6480 [38:04<01:31,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.00012875818356405944, 'learning_rate': 1.8533636046944692e-06, 'epoch': 4.79}


 96%|█████████▌| 6220/6480 [38:08<01:27,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.00023355192388407886, 'learning_rate': 1.7847205082243035e-06, 'epoch': 4.8}


 96%|█████████▌| 6230/6480 [38:11<01:25,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.00020158381084911525, 'learning_rate': 1.716077411754138e-06, 'epoch': 4.81}


 96%|█████████▋| 6240/6480 [38:14<01:21,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.00013530408614315093, 'learning_rate': 1.6474343152839726e-06, 'epoch': 4.81}


 96%|█████████▋| 6250/6480 [38:18<01:18,  2.94it/s]

{'loss': 0.0, 'grad_norm': 0.0001547513238620013, 'learning_rate': 1.578791218813807e-06, 'epoch': 4.82}


 97%|█████████▋| 6260/6480 [38:21<01:14,  2.95it/s]

{'loss': 0.0, 'grad_norm': 0.00014545039448421448, 'learning_rate': 1.5101481223436415e-06, 'epoch': 4.83}


 97%|█████████▋| 6270/6480 [38:25<01:12,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0003014960384462029, 'learning_rate': 1.441505025873476e-06, 'epoch': 4.84}


 97%|█████████▋| 6280/6480 [38:28<01:08,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.0001270489883609116, 'learning_rate': 1.3728619294033104e-06, 'epoch': 4.85}


 97%|█████████▋| 6290/6480 [38:32<01:05,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.000146851220051758, 'learning_rate': 1.304218832933145e-06, 'epoch': 4.85}


 97%|█████████▋| 6300/6480 [38:36<01:03,  2.83it/s]

{'loss': 0.0, 'grad_norm': 0.00023523319396190345, 'learning_rate': 1.2355757364629795e-06, 'epoch': 4.86}


 97%|█████████▋| 6310/6480 [38:39<00:58,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.0001304072793573141, 'learning_rate': 1.1669326399928138e-06, 'epoch': 4.87}


 98%|█████████▊| 6320/6480 [38:42<00:54,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.00045407761353999376, 'learning_rate': 1.0982895435226483e-06, 'epoch': 4.88}


 98%|█████████▊| 6330/6480 [38:46<00:51,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.00027399949613027275, 'learning_rate': 1.0296464470524829e-06, 'epoch': 4.88}


 98%|█████████▊| 6340/6480 [38:49<00:48,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.00028026362997479737, 'learning_rate': 9.610033505823172e-07, 'epoch': 4.89}


 98%|█████████▊| 6350/6480 [38:53<00:44,  2.91it/s]

{'loss': 0.0446, 'grad_norm': 0.00010524407844059169, 'learning_rate': 8.923602541121518e-07, 'epoch': 4.9}


 98%|█████████▊| 6360/6480 [38:56<00:41,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.00024123306502588093, 'learning_rate': 8.237171576419863e-07, 'epoch': 4.91}


 98%|█████████▊| 6370/6480 [39:00<00:37,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.00023354766017291695, 'learning_rate': 7.550740611718208e-07, 'epoch': 4.92}


 98%|█████████▊| 6380/6480 [39:03<00:34,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.00014161948638502508, 'learning_rate': 6.864309647016552e-07, 'epoch': 4.92}


 99%|█████████▊| 6390/6480 [39:06<00:31,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.00015461453585885465, 'learning_rate': 6.177878682314897e-07, 'epoch': 4.93}


 99%|█████████▉| 6400/6480 [39:10<00:27,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.00020218391728121787, 'learning_rate': 5.491447717613242e-07, 'epoch': 4.94}


 99%|█████████▉| 6410/6480 [39:13<00:24,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.0003583175712265074, 'learning_rate': 4.805016752911586e-07, 'epoch': 4.95}


 99%|█████████▉| 6420/6480 [39:17<00:20,  2.88it/s]

{'loss': 0.0, 'grad_norm': 0.0001414422004017979, 'learning_rate': 4.1185857882099316e-07, 'epoch': 4.95}


 99%|█████████▉| 6430/6480 [39:20<00:17,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0001408896641805768, 'learning_rate': 3.432154823508276e-07, 'epoch': 4.96}


 99%|█████████▉| 6440/6480 [39:24<00:13,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0004571064200717956, 'learning_rate': 2.745723858806621e-07, 'epoch': 4.97}


100%|█████████▉| 6450/6480 [39:27<00:10,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.011089599691331387, 'learning_rate': 2.0592928941049658e-07, 'epoch': 4.98}


100%|█████████▉| 6460/6480 [39:31<00:06,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0005211643874645233, 'learning_rate': 1.3728619294033104e-07, 'epoch': 4.98}


100%|█████████▉| 6470/6480 [39:34<00:03,  2.92it/s]

{'loss': 0.0616, 'grad_norm': 0.0004480030038394034, 'learning_rate': 6.864309647016552e-08, 'epoch': 4.99}


100%|██████████| 6480/6480 [39:37<00:00,  3.31it/s]

{'loss': 0.0, 'grad_norm': 0.00048037589294835925, 'learning_rate': 0.0, 'epoch': 5.0}



100%|██████████| 6480/6480 [40:37<00:00,  3.31it/s]

{'eval_loss': 0.012435335665941238, 'eval_accuracy': 0.9989104775739968, 'eval_f1': 0.9989144157474005, 'eval_runtime': 23.1276, 'eval_samples_per_second': 238.114, 'eval_steps_per_second': 29.791, 'epoch': 5.0}


100%|██████████| 6480/6480 [41:26<00:00,  2.61it/s]


{'train_runtime': 2486.5068, 'train_samples_per_second': 44.287, 'train_steps_per_second': 2.606, 'train_loss': 0.008262205674483845, 'epoch': 5.0}


100%|██████████| 689/689 [00:20<00:00, 32.93it/s]
  0%|          | 10/2280 [00:02<09:58,  3.79it/s]

{'loss': 0.0, 'grad_norm': 0.00017302211199421436, 'learning_rate': 1.3754404447702525e-05, 'epoch': 0.01}


  1%|          | 20/2280 [00:05<10:02,  3.75it/s]

{'loss': 0.0, 'grad_norm': 0.00010776579438243061, 'learning_rate': 1.369381235762454e-05, 'epoch': 0.03}


  1%|▏         | 30/2280 [00:08<10:23,  3.61it/s]

{'loss': 0.0, 'grad_norm': 0.0028235255740582943, 'learning_rate': 1.3633220267546556e-05, 'epoch': 0.04}


  2%|▏         | 40/2280 [00:10<10:21,  3.60it/s]

{'loss': 0.0395, 'grad_norm': 7.045598613331094e-05, 'learning_rate': 1.357262817746857e-05, 'epoch': 0.05}


  2%|▏         | 50/2280 [00:13<10:32,  3.52it/s]

{'loss': 0.0, 'grad_norm': 8.093477663351223e-05, 'learning_rate': 1.3512036087390587e-05, 'epoch': 0.07}


  3%|▎         | 60/2280 [00:16<12:05,  3.06it/s]

{'loss': 0.0, 'grad_norm': 0.0001049467027769424, 'learning_rate': 1.3451443997312602e-05, 'epoch': 0.08}


  3%|▎         | 70/2280 [00:20<11:57,  3.08it/s]

{'loss': 0.0, 'grad_norm': 0.00012882535520475358, 'learning_rate': 1.3390851907234616e-05, 'epoch': 0.09}


  4%|▎         | 80/2280 [00:23<11:44,  3.12it/s]

{'loss': 0.0, 'grad_norm': 0.00020813869195990264, 'learning_rate': 1.3330259817156633e-05, 'epoch': 0.11}


  4%|▍         | 90/2280 [00:26<11:44,  3.11it/s]

{'loss': 0.0, 'grad_norm': 8.854314364725724e-05, 'learning_rate': 1.3269667727078648e-05, 'epoch': 0.12}


  4%|▍         | 100/2280 [00:29<13:18,  2.73it/s]

{'loss': 0.0, 'grad_norm': 0.00010188895248575136, 'learning_rate': 1.3209075637000662e-05, 'epoch': 0.13}


  5%|▍         | 110/2280 [00:33<13:11,  2.74it/s]

{'loss': 0.0, 'grad_norm': 0.0001423873327439651, 'learning_rate': 1.3148483546922677e-05, 'epoch': 0.14}


  5%|▌         | 120/2280 [00:37<15:16,  2.36it/s]

{'loss': 0.0, 'grad_norm': 8.870956662576646e-05, 'learning_rate': 1.3087891456844693e-05, 'epoch': 0.16}


  6%|▌         | 130/2280 [00:41<14:05,  2.54it/s]

{'loss': 0.0, 'grad_norm': 9.040408622240648e-05, 'learning_rate': 1.302729936676671e-05, 'epoch': 0.17}


  6%|▌         | 140/2280 [00:45<14:34,  2.45it/s]

{'loss': 0.0, 'grad_norm': 6.113629933679476e-05, 'learning_rate': 1.2966707276688725e-05, 'epoch': 0.18}


  7%|▋         | 150/2280 [00:50<17:47,  1.99it/s]

{'loss': 0.0, 'grad_norm': 5.899906318518333e-05, 'learning_rate': 1.290611518661074e-05, 'epoch': 0.2}


  7%|▋         | 160/2280 [00:55<18:13,  1.94it/s]

{'loss': 0.0, 'grad_norm': 5.9554269682848826e-05, 'learning_rate': 1.2845523096532754e-05, 'epoch': 0.21}


  7%|▋         | 170/2280 [01:00<15:04,  2.33it/s]

{'loss': 0.0, 'grad_norm': 8.62253800733015e-05, 'learning_rate': 1.278493100645477e-05, 'epoch': 0.22}


  8%|▊         | 180/2280 [01:04<15:05,  2.32it/s]

{'loss': 0.0, 'grad_norm': 4.67466888949275e-05, 'learning_rate': 1.2724338916376785e-05, 'epoch': 0.24}


  8%|▊         | 190/2280 [01:09<16:53,  2.06it/s]

{'loss': 0.0, 'grad_norm': 4.881905988440849e-05, 'learning_rate': 1.26637468262988e-05, 'epoch': 0.25}


  9%|▉         | 200/2280 [01:14<16:52,  2.05it/s]

{'loss': 0.0, 'grad_norm': 4.7054294554982334e-05, 'learning_rate': 1.2603154736220815e-05, 'epoch': 0.26}


  9%|▉         | 210/2280 [01:19<16:40,  2.07it/s]

{'loss': 0.0073, 'grad_norm': 8.686334609985352, 'learning_rate': 1.2542562646142831e-05, 'epoch': 0.28}


 10%|▉         | 220/2280 [01:24<16:37,  2.07it/s]

{'loss': 0.0, 'grad_norm': 5.606498598353937e-05, 'learning_rate': 1.2481970556064848e-05, 'epoch': 0.29}


 10%|█         | 230/2280 [01:29<20:07,  1.70it/s]

{'loss': 0.0, 'grad_norm': 4.712571171694435e-05, 'learning_rate': 1.2421378465986862e-05, 'epoch': 0.3}


 11%|█         | 240/2280 [01:35<17:54,  1.90it/s]

{'loss': 0.0523, 'grad_norm': 5.606122067547403e-05, 'learning_rate': 1.2360786375908877e-05, 'epoch': 0.32}


 11%|█         | 250/2280 [01:40<17:57,  1.88it/s]

{'loss': 0.0018, 'grad_norm': 8.307497773785144e-05, 'learning_rate': 1.2300194285830892e-05, 'epoch': 0.33}


 11%|█▏        | 260/2280 [01:45<17:38,  1.91it/s]

{'loss': 0.0, 'grad_norm': 6.624351226491854e-05, 'learning_rate': 1.2239602195752908e-05, 'epoch': 0.34}


 12%|█▏        | 270/2280 [01:51<17:39,  1.90it/s]

{'loss': 0.0, 'grad_norm': 5.747470277128741e-05, 'learning_rate': 1.2179010105674923e-05, 'epoch': 0.36}


 12%|█▏        | 280/2280 [01:56<17:33,  1.90it/s]

{'loss': 0.0064, 'grad_norm': 109.61312103271484, 'learning_rate': 1.2118418015596938e-05, 'epoch': 0.37}


 13%|█▎        | 290/2280 [02:01<17:34,  1.89it/s]

{'loss': 0.0366, 'grad_norm': 7.690911297686398e-05, 'learning_rate': 1.2057825925518954e-05, 'epoch': 0.38}


 13%|█▎        | 300/2280 [02:06<17:15,  1.91it/s]

{'loss': 0.0, 'grad_norm': 0.00023942938423715532, 'learning_rate': 1.1997233835440969e-05, 'epoch': 0.39}


 14%|█▎        | 310/2280 [02:12<17:21,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.00040899086161516607, 'learning_rate': 1.1936641745362985e-05, 'epoch': 0.41}


 14%|█▍        | 320/2280 [02:17<17:12,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00011684477794915438, 'learning_rate': 1.1876049655285e-05, 'epoch': 0.42}


 14%|█▍        | 330/2280 [02:22<17:06,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.0001391816622344777, 'learning_rate': 1.1815457565207015e-05, 'epoch': 0.43}


 15%|█▍        | 340/2280 [02:27<16:58,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00021161118638701737, 'learning_rate': 1.175486547512903e-05, 'epoch': 0.45}


 15%|█▌        | 350/2280 [02:33<16:54,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00025775947142392397, 'learning_rate': 1.1694273385051046e-05, 'epoch': 0.46}


 16%|█▌        | 360/2280 [02:38<16:48,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.0002711339038796723, 'learning_rate': 1.163368129497306e-05, 'epoch': 0.47}


 16%|█▌        | 370/2280 [02:43<16:43,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00015847236500121653, 'learning_rate': 1.1573089204895077e-05, 'epoch': 0.49}


 17%|█▋        | 380/2280 [02:48<16:41,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.0002532947401050478, 'learning_rate': 1.1512497114817092e-05, 'epoch': 0.5}


 17%|█▋        | 390/2280 [02:54<16:40,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.00018674906459636986, 'learning_rate': 1.1451905024739107e-05, 'epoch': 0.51}


 18%|█▊        | 400/2280 [02:59<16:28,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00010984754044329748, 'learning_rate': 1.1391312934661123e-05, 'epoch': 0.53}


 18%|█▊        | 410/2280 [03:04<16:24,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.0001217793978867121, 'learning_rate': 1.1330720844583138e-05, 'epoch': 0.54}


 18%|█▊        | 420/2280 [03:10<16:19,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00011540231935214251, 'learning_rate': 1.1270128754505152e-05, 'epoch': 0.55}


 19%|█▉        | 430/2280 [03:15<17:43,  1.74it/s]

{'loss': 0.0, 'grad_norm': 0.00015371802146546543, 'learning_rate': 1.1209536664427167e-05, 'epoch': 0.57}


 19%|█▉        | 440/2280 [03:21<17:32,  1.75it/s]

{'loss': 0.0, 'grad_norm': 0.00015836692182347178, 'learning_rate': 1.1148944574349182e-05, 'epoch': 0.58}


 20%|█▉        | 450/2280 [03:27<17:37,  1.73it/s]

{'loss': 0.0, 'grad_norm': 0.00034967769170179963, 'learning_rate': 1.10883524842712e-05, 'epoch': 0.59}


 20%|██        | 460/2280 [03:32<17:37,  1.72it/s]

{'loss': 0.0, 'grad_norm': 0.00018571743567008525, 'learning_rate': 1.1027760394193215e-05, 'epoch': 0.61}


 21%|██        | 470/2280 [03:38<17:35,  1.71it/s]

{'loss': 0.0, 'grad_norm': 0.0003557096642907709, 'learning_rate': 1.096716830411523e-05, 'epoch': 0.62}


 21%|██        | 480/2280 [03:44<17:24,  1.72it/s]

{'loss': 0.0, 'grad_norm': 0.00014267305959947407, 'learning_rate': 1.0906576214037244e-05, 'epoch': 0.63}


 21%|██▏       | 490/2280 [03:49<16:03,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00017764151562005281, 'learning_rate': 1.084598412395926e-05, 'epoch': 0.64}


 22%|██▏       | 500/2280 [03:55<15:58,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.0003059747687075287, 'learning_rate': 1.0785392033881275e-05, 'epoch': 0.66}


 22%|██▏       | 510/2280 [04:00<15:50,  1.86it/s]

{'loss': 0.0, 'grad_norm': 5.017861622036435e-05, 'learning_rate': 1.072479994380329e-05, 'epoch': 0.67}


 23%|██▎       | 520/2280 [04:06<15:36,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.0001071594306267798, 'learning_rate': 1.0664207853725305e-05, 'epoch': 0.68}


 23%|██▎       | 530/2280 [04:11<15:36,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00022014165006112307, 'learning_rate': 1.0603615763647321e-05, 'epoch': 0.7}


 24%|██▎       | 540/2280 [04:16<15:29,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.0003126283409073949, 'learning_rate': 1.0543023673569338e-05, 'epoch': 0.71}


 24%|██▍       | 550/2280 [04:22<15:23,  1.87it/s]

{'loss': 0.0, 'grad_norm': 8.009822340682149e-05, 'learning_rate': 1.0482431583491352e-05, 'epoch': 0.72}


 25%|██▍       | 560/2280 [04:27<15:18,  1.87it/s]

{'loss': 0.0, 'grad_norm': 6.500387826235965e-05, 'learning_rate': 1.0421839493413367e-05, 'epoch': 0.74}


 25%|██▌       | 570/2280 [04:32<15:16,  1.87it/s]

{'loss': 0.0, 'grad_norm': 6.615985330427065e-05, 'learning_rate': 1.0361247403335382e-05, 'epoch': 0.75}


 25%|██▌       | 580/2280 [04:38<15:11,  1.86it/s]

{'loss': 0.0, 'grad_norm': 3.412799196667038e-05, 'learning_rate': 1.0300655313257397e-05, 'epoch': 0.76}


 26%|██▌       | 590/2280 [04:43<15:04,  1.87it/s]

{'loss': 0.0, 'grad_norm': 0.00017521849076729268, 'learning_rate': 1.0240063223179413e-05, 'epoch': 0.78}


 26%|██▋       | 600/2280 [04:48<15:01,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00018973513215314597, 'learning_rate': 1.0179471133101428e-05, 'epoch': 0.79}


 27%|██▋       | 610/2280 [04:54<14:58,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00015464676835108548, 'learning_rate': 1.0118879043023443e-05, 'epoch': 0.8}


 27%|██▋       | 620/2280 [04:59<14:49,  1.87it/s]

{'loss': 0.0, 'grad_norm': 7.877840107539669e-05, 'learning_rate': 1.0058286952945459e-05, 'epoch': 0.82}


 28%|██▊       | 630/2280 [05:05<14:55,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00011693844135152176, 'learning_rate': 9.997694862867475e-06, 'epoch': 0.83}


 28%|██▊       | 640/2280 [05:11<16:11,  1.69it/s]

{'loss': 0.0, 'grad_norm': 8.514506043866277e-05, 'learning_rate': 9.93710277278949e-06, 'epoch': 0.84}


 29%|██▊       | 650/2280 [05:16<13:31,  2.01it/s]

{'loss': 0.0, 'grad_norm': 7.030837150523439e-05, 'learning_rate': 9.876510682711505e-06, 'epoch': 0.86}


 29%|██▉       | 660/2280 [05:21<13:14,  2.04it/s]

{'loss': 0.0, 'grad_norm': 0.00012566725490614772, 'learning_rate': 9.81591859263352e-06, 'epoch': 0.87}


 29%|██▉       | 670/2280 [05:26<13:08,  2.04it/s]

{'loss': 0.0, 'grad_norm': 0.00014031335012987256, 'learning_rate': 9.755326502555534e-06, 'epoch': 0.88}


 30%|██▉       | 680/2280 [05:31<14:21,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00010993151954608038, 'learning_rate': 9.69473441247755e-06, 'epoch': 0.89}


 30%|███       | 690/2280 [05:37<14:13,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00010395072604296729, 'learning_rate': 9.634142322399566e-06, 'epoch': 0.91}


 31%|███       | 700/2280 [05:42<14:07,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00010273465886712074, 'learning_rate': 9.573550232321582e-06, 'epoch': 0.92}


 31%|███       | 710/2280 [05:48<14:09,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.00020693002443294972, 'learning_rate': 9.512958142243597e-06, 'epoch': 0.93}


 32%|███▏      | 720/2280 [05:53<14:03,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.00010726194159360602, 'learning_rate': 9.452366052165611e-06, 'epoch': 0.95}


 32%|███▏      | 730/2280 [05:58<13:46,  1.88it/s]

{'loss': 0.0, 'grad_norm': 0.00014095986261963844, 'learning_rate': 9.391773962087628e-06, 'epoch': 0.96}


 32%|███▏      | 740/2280 [06:04<13:44,  1.87it/s]

{'loss': 0.0352, 'grad_norm': 5.9423025959404185e-05, 'learning_rate': 9.331181872009643e-06, 'epoch': 0.97}


 33%|███▎      | 750/2280 [06:09<13:40,  1.86it/s]

{'loss': 0.0, 'grad_norm': 0.00025278324028477073, 'learning_rate': 9.270589781931657e-06, 'epoch': 0.99}


 33%|███▎      | 760/2280 [06:14<11:40,  2.17it/s]

{'loss': 0.0, 'grad_norm': 5.7252014812547714e-05, 'learning_rate': 9.209997691853672e-06, 'epoch': 1.0}



 33%|███▎      | 760/2280 [06:52<11:40,  2.17it/s]

{'eval_loss': 0.013491119258105755, 'eval_accuracy': 0.9985473034319956, 'eval_f1': 0.998550173603652, 'eval_runtime': 37.5201, 'eval_samples_per_second': 146.775, 'eval_steps_per_second': 18.363, 'epoch': 1.0}


 34%|███▍      | 770/2280 [07:30<28:58,  1.15s/it]  

{'loss': 0.0, 'grad_norm': 3.583698708098382e-05, 'learning_rate': 9.149405601775689e-06, 'epoch': 1.01}


 34%|███▍      | 780/2280 [07:33<07:34,  3.30it/s]

{'loss': 0.0, 'grad_norm': 9.610415872884914e-05, 'learning_rate': 9.088813511697705e-06, 'epoch': 1.03}


 35%|███▍      | 790/2280 [07:36<06:48,  3.64it/s]

{'loss': 0.0, 'grad_norm': 7.1988622948993e-05, 'learning_rate': 9.02822142161972e-06, 'epoch': 1.04}


 35%|███▌      | 800/2280 [07:39<06:40,  3.69it/s]

{'loss': 0.0, 'grad_norm': 0.00010552298772381619, 'learning_rate': 8.967629331541734e-06, 'epoch': 1.05}


 36%|███▌      | 810/2280 [07:42<06:53,  3.56it/s]

{'loss': 0.0, 'grad_norm': 0.00016880591283552349, 'learning_rate': 8.90703724146375e-06, 'epoch': 1.07}


 36%|███▌      | 820/2280 [07:44<06:50,  3.56it/s]

{'loss': 0.0, 'grad_norm': 0.0004899122286587954, 'learning_rate': 8.846445151385766e-06, 'epoch': 1.08}


 36%|███▋      | 830/2280 [07:47<06:58,  3.46it/s]

{'loss': 0.0, 'grad_norm': 5.011581379221752e-05, 'learning_rate': 8.78585306130778e-06, 'epoch': 1.09}


 37%|███▋      | 840/2280 [07:50<06:52,  3.49it/s]

{'loss': 0.0, 'grad_norm': 6.924477202119306e-05, 'learning_rate': 8.725260971229795e-06, 'epoch': 1.11}


 37%|███▋      | 850/2280 [07:53<07:15,  3.28it/s]

{'loss': 0.0, 'grad_norm': 6.967194349272177e-05, 'learning_rate': 8.66466888115181e-06, 'epoch': 1.12}


 38%|███▊      | 860/2280 [07:56<07:11,  3.29it/s]

{'loss': 0.0, 'grad_norm': 0.0001883042714325711, 'learning_rate': 8.604076791073826e-06, 'epoch': 1.13}


 38%|███▊      | 870/2280 [08:00<07:30,  3.13it/s]

{'loss': 0.0007, 'grad_norm': 0.00011177051783306524, 'learning_rate': 8.543484700995843e-06, 'epoch': 1.14}


 39%|███▊      | 880/2280 [08:03<08:21,  2.79it/s]

{'loss': 0.0, 'grad_norm': 9.794609650271013e-05, 'learning_rate': 8.482892610917857e-06, 'epoch': 1.16}


 39%|███▉      | 890/2280 [08:07<07:51,  2.95it/s]

{'loss': 0.0443, 'grad_norm': 0.00011069445463363081, 'learning_rate': 8.422300520839872e-06, 'epoch': 1.17}


 39%|███▉      | 900/2280 [08:11<09:20,  2.46it/s]

{'loss': 0.0, 'grad_norm': 0.00024673447478562593, 'learning_rate': 8.361708430761887e-06, 'epoch': 1.18}


 40%|███▉      | 910/2280 [08:14<08:38,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00039492035284638405, 'learning_rate': 8.301116340683903e-06, 'epoch': 1.2}


 40%|████      | 920/2280 [08:18<09:15,  2.45it/s]

{'loss': 0.0, 'grad_norm': 6.836222019046545e-05, 'learning_rate': 8.240524250605918e-06, 'epoch': 1.21}


 41%|████      | 930/2280 [08:23<09:17,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.0001956754713319242, 'learning_rate': 8.179932160527933e-06, 'epoch': 1.22}


 41%|████      | 940/2280 [08:27<13:10,  1.70it/s]

{'loss': 0.0, 'grad_norm': 0.0010172778274863958, 'learning_rate': 8.11934007044995e-06, 'epoch': 1.24}


 42%|████▏     | 950/2280 [08:32<13:51,  1.60it/s]

{'loss': 0.0, 'grad_norm': 0.0005741915665566921, 'learning_rate': 8.058747980371964e-06, 'epoch': 1.25}


 42%|████▏     | 960/2280 [08:37<12:35,  1.75it/s]

{'loss': 0.0, 'grad_norm': 0.00013419814058579504, 'learning_rate': 7.99815589029398e-06, 'epoch': 1.26}


 43%|████▎     | 970/2280 [08:42<10:54,  2.00it/s]

{'loss': 0.0004, 'grad_norm': 0.0001813976705307141, 'learning_rate': 7.937563800215995e-06, 'epoch': 1.28}


 43%|████▎     | 980/2280 [08:47<10:50,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00020022706303279847, 'learning_rate': 7.87697171013801e-06, 'epoch': 1.29}


 43%|████▎     | 990/2280 [08:52<10:41,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.0002056427620118484, 'learning_rate': 7.816379620060025e-06, 'epoch': 1.3}


 44%|████▍     | 1000/2280 [08:57<10:41,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.0003616435278672725, 'learning_rate': 7.755787529982041e-06, 'epoch': 1.32}


 44%|████▍     | 1010/2280 [09:02<10:33,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0002931341587100178, 'learning_rate': 7.695195439904056e-06, 'epoch': 1.33}


 45%|████▍     | 1020/2280 [09:07<10:30,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004595788777805865, 'learning_rate': 7.634603349826072e-06, 'epoch': 1.34}


 45%|████▌     | 1030/2280 [09:12<10:30,  1.98it/s]

{'loss': 0.0, 'grad_norm': 4.806550714420155e-05, 'learning_rate': 7.574011259748087e-06, 'epoch': 1.36}


 46%|████▌     | 1040/2280 [09:17<10:24,  1.98it/s]

{'loss': 0.0, 'grad_norm': 6.468750507337973e-05, 'learning_rate': 7.5134191696701025e-06, 'epoch': 1.37}


 46%|████▌     | 1050/2280 [09:22<10:23,  1.97it/s]

{'loss': 0.0215, 'grad_norm': 0.0003089480451308191, 'learning_rate': 7.452827079592117e-06, 'epoch': 1.38}


 46%|████▋     | 1060/2280 [09:28<11:54,  1.71it/s]

{'loss': 0.0, 'grad_norm': 0.0005212171236053109, 'learning_rate': 7.392234989514133e-06, 'epoch': 1.39}


 47%|████▋     | 1070/2280 [09:33<11:33,  1.74it/s]

{'loss': 0.0, 'grad_norm': 0.0010976881021633744, 'learning_rate': 7.3316428994361475e-06, 'epoch': 1.41}


 47%|████▋     | 1080/2280 [09:39<11:24,  1.75it/s]

{'loss': 0.0017, 'grad_norm': 0.0018897150876000524, 'learning_rate': 7.271050809358162e-06, 'epoch': 1.42}


 48%|████▊     | 1090/2280 [09:45<11:20,  1.75it/s]

{'loss': 0.0, 'grad_norm': 0.0008999732090160251, 'learning_rate': 7.210458719280178e-06, 'epoch': 1.43}


 48%|████▊     | 1100/2280 [09:51<11:10,  1.76it/s]

{'loss': 0.0, 'grad_norm': 0.0005907256854698062, 'learning_rate': 7.149866629202194e-06, 'epoch': 1.45}


 49%|████▊     | 1110/2280 [09:56<11:00,  1.77it/s]

{'loss': 0.0, 'grad_norm': 0.0005692269187420607, 'learning_rate': 7.08927453912421e-06, 'epoch': 1.46}


 49%|████▉     | 1120/2280 [10:01<09:05,  2.13it/s]

{'loss': 0.0, 'grad_norm': 0.0001561845128890127, 'learning_rate': 7.028682449046225e-06, 'epoch': 1.47}


 50%|████▉     | 1130/2280 [10:06<12:20,  1.55it/s]

{'loss': 0.0, 'grad_norm': 0.00028605014085769653, 'learning_rate': 6.96809035896824e-06, 'epoch': 1.49}


 50%|█████     | 1140/2280 [10:11<09:04,  2.09it/s]

{'loss': 0.0, 'grad_norm': 0.00010457912139827386, 'learning_rate': 6.907498268890255e-06, 'epoch': 1.5}


 50%|█████     | 1150/2280 [10:17<11:31,  1.63it/s]

{'loss': 0.0, 'grad_norm': 0.00032709274091757834, 'learning_rate': 6.84690617881227e-06, 'epoch': 1.51}


 51%|█████     | 1160/2280 [10:22<10:16,  1.82it/s]

{'loss': 0.0, 'grad_norm': 0.0003139092295896262, 'learning_rate': 6.786314088734285e-06, 'epoch': 1.53}


 51%|█████▏    | 1170/2280 [10:28<10:10,  1.82it/s]

{'loss': 0.0, 'grad_norm': 9.500830492470413e-05, 'learning_rate': 6.725721998656301e-06, 'epoch': 1.54}


 52%|█████▏    | 1180/2280 [10:33<10:09,  1.80it/s]

{'loss': 0.0, 'grad_norm': 0.00019185106793884188, 'learning_rate': 6.665129908578316e-06, 'epoch': 1.55}


 52%|█████▏    | 1190/2280 [10:39<09:54,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00023729867825750262, 'learning_rate': 6.604537818500331e-06, 'epoch': 1.57}


 53%|█████▎    | 1200/2280 [10:44<09:50,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.000146237580338493, 'learning_rate': 6.543945728422347e-06, 'epoch': 1.58}


 53%|█████▎    | 1210/2280 [10:50<09:45,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0001622314885025844, 'learning_rate': 6.483353638344362e-06, 'epoch': 1.59}


 54%|█████▎    | 1220/2280 [10:55<09:35,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00014061707770451903, 'learning_rate': 6.422761548266377e-06, 'epoch': 1.61}


 54%|█████▍    | 1230/2280 [11:01<09:28,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.0002650875539984554, 'learning_rate': 6.362169458188393e-06, 'epoch': 1.62}


 54%|█████▍    | 1240/2280 [11:06<09:25,  1.84it/s]

{'loss': 0.0376, 'grad_norm': 0.0010133801260963082, 'learning_rate': 6.301577368110407e-06, 'epoch': 1.63}


 55%|█████▍    | 1250/2280 [11:11<09:19,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00023196288384497166, 'learning_rate': 6.240985278032424e-06, 'epoch': 1.64}


 55%|█████▌    | 1260/2280 [11:17<09:14,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00017009400471579283, 'learning_rate': 6.1803931879544385e-06, 'epoch': 1.66}


 56%|█████▌    | 1270/2280 [11:22<09:11,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0001484566309954971, 'learning_rate': 6.119801097876454e-06, 'epoch': 1.67}


 56%|█████▌    | 1280/2280 [11:28<09:01,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.0004313942336011678, 'learning_rate': 6.059209007798469e-06, 'epoch': 1.68}


 57%|█████▋    | 1290/2280 [11:33<08:58,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0002482026757206768, 'learning_rate': 5.9986169177204844e-06, 'epoch': 1.7}


 57%|█████▋    | 1300/2280 [11:39<08:50,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.0002199337468482554, 'learning_rate': 5.9380248276425e-06, 'epoch': 1.71}


 57%|█████▋    | 1310/2280 [11:45<09:29,  1.70it/s]

{'loss': 0.0, 'grad_norm': 0.00045899703400209546, 'learning_rate': 5.877432737564515e-06, 'epoch': 1.72}


 58%|█████▊    | 1320/2280 [11:50<08:14,  1.94it/s]

{'loss': 0.0, 'grad_norm': 0.00015614305448252708, 'learning_rate': 5.81684064748653e-06, 'epoch': 1.74}


 58%|█████▊    | 1330/2280 [11:55<08:12,  1.93it/s]

{'loss': 0.0, 'grad_norm': 0.00013931815919931978, 'learning_rate': 5.756248557408546e-06, 'epoch': 1.75}


 59%|█████▉    | 1340/2280 [12:00<08:04,  1.94it/s]

{'loss': 0.0, 'grad_norm': 0.00022089926642365754, 'learning_rate': 5.6956564673305615e-06, 'epoch': 1.76}


 59%|█████▉    | 1350/2280 [12:05<08:01,  1.93it/s]

{'loss': 0.0, 'grad_norm': 0.00021695463510695845, 'learning_rate': 5.635064377252576e-06, 'epoch': 1.78}


 60%|█████▉    | 1360/2280 [12:10<07:59,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.00013117540220264345, 'learning_rate': 5.574472287174591e-06, 'epoch': 1.79}


 60%|██████    | 1370/2280 [12:16<07:54,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.00016123375098686665, 'learning_rate': 5.513880197096607e-06, 'epoch': 1.8}


 61%|██████    | 1380/2280 [12:21<07:48,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.00020336496527306736, 'learning_rate': 5.453288107018622e-06, 'epoch': 1.82}


 61%|██████    | 1390/2280 [12:26<07:42,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.00023841546499170363, 'learning_rate': 5.392696016940638e-06, 'epoch': 1.83}


 61%|██████▏   | 1400/2280 [12:31<07:43,  1.90it/s]

{'loss': 0.0, 'grad_norm': 0.00023474603949580342, 'learning_rate': 5.3321039268626524e-06, 'epoch': 1.84}


 62%|██████▏   | 1410/2280 [12:37<07:37,  1.90it/s]

{'loss': 0.0, 'grad_norm': 7.15252390364185e-05, 'learning_rate': 5.271511836784669e-06, 'epoch': 1.86}


 62%|██████▏   | 1420/2280 [12:42<07:29,  1.91it/s]

{'loss': 0.0, 'grad_norm': 0.00011132177314721048, 'learning_rate': 5.210919746706684e-06, 'epoch': 1.87}


 63%|██████▎   | 1430/2280 [12:49<09:50,  1.44it/s]

{'loss': 0.0, 'grad_norm': 0.0002064662257907912, 'learning_rate': 5.150327656628698e-06, 'epoch': 1.88}


 63%|██████▎   | 1440/2280 [12:54<07:09,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.00014397228369489312, 'learning_rate': 5.089735566550714e-06, 'epoch': 1.89}


 64%|██████▎   | 1450/2280 [12:59<06:56,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.00017830825527198613, 'learning_rate': 5.0291434764727295e-06, 'epoch': 1.91}


 64%|██████▍   | 1460/2280 [13:04<06:52,  1.99it/s]

{'loss': 0.0, 'grad_norm': 0.00016570623847655952, 'learning_rate': 4.968551386394745e-06, 'epoch': 1.92}


 64%|██████▍   | 1470/2280 [13:09<06:49,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.00019258602696936578, 'learning_rate': 4.90795929631676e-06, 'epoch': 1.93}


 65%|██████▍   | 1480/2280 [13:15<08:05,  1.65it/s]

{'loss': 0.0, 'grad_norm': 0.0001943005045177415, 'learning_rate': 4.847367206238775e-06, 'epoch': 1.95}


 65%|██████▌   | 1490/2280 [13:21<08:05,  1.63it/s]

{'loss': 0.0, 'grad_norm': 0.0002574484678916633, 'learning_rate': 4.786775116160791e-06, 'epoch': 1.96}


 66%|██████▌   | 1500/2280 [13:28<07:54,  1.64it/s]

{'loss': 0.0, 'grad_norm': 0.0001586217840667814, 'learning_rate': 4.726183026082806e-06, 'epoch': 1.97}


 66%|██████▌   | 1510/2280 [13:33<06:23,  2.01it/s]

{'loss': 0.0, 'grad_norm': 0.00019790940859820694, 'learning_rate': 4.665590936004821e-06, 'epoch': 1.99}


 67%|██████▋   | 1520/2280 [13:37<05:17,  2.39it/s]

{'loss': 0.0, 'grad_norm': 2.1247791664791293e-05, 'learning_rate': 4.604998845926836e-06, 'epoch': 2.0}



 67%|██████▋   | 1520/2280 [14:14<05:17,  2.39it/s]

{'eval_loss': 0.012316834181547165, 'eval_accuracy': 0.9990920646449972, 'eval_f1': 0.9990962292706679, 'eval_runtime': 35.9409, 'eval_samples_per_second': 153.224, 'eval_steps_per_second': 19.17, 'epoch': 2.0}


 67%|██████▋   | 1530/2280 [14:52<14:03,  1.13s/it]  

{'loss': 0.0, 'grad_norm': 0.00017591526557225734, 'learning_rate': 4.5444067558488525e-06, 'epoch': 2.01}


 68%|██████▊   | 1540/2280 [14:55<03:25,  3.59it/s]

{'loss': 0.0, 'grad_norm': 0.0001277571718674153, 'learning_rate': 4.483814665770867e-06, 'epoch': 2.03}


 68%|██████▊   | 1550/2280 [14:57<03:12,  3.80it/s]

{'loss': 0.0, 'grad_norm': 0.00011613707465585321, 'learning_rate': 4.423222575692883e-06, 'epoch': 2.04}


 68%|██████▊   | 1560/2280 [15:00<03:09,  3.79it/s]

{'loss': 0.0, 'grad_norm': 0.00016704817244317383, 'learning_rate': 4.3626304856148975e-06, 'epoch': 2.05}


 69%|██████▉   | 1570/2280 [15:03<03:15,  3.64it/s]

{'loss': 0.0, 'grad_norm': 0.00012226628314238042, 'learning_rate': 4.302038395536913e-06, 'epoch': 2.07}


 69%|██████▉   | 1580/2280 [15:05<03:11,  3.66it/s]

{'loss': 0.0, 'grad_norm': 0.0002068222383968532, 'learning_rate': 4.241446305458929e-06, 'epoch': 2.08}


 70%|██████▉   | 1590/2280 [15:08<03:14,  3.54it/s]

{'loss': 0.0, 'grad_norm': 0.0001804331550374627, 'learning_rate': 4.1808542153809434e-06, 'epoch': 2.09}


 70%|███████   | 1600/2280 [15:11<03:14,  3.50it/s]

{'loss': 0.0, 'grad_norm': 0.0002245169598609209, 'learning_rate': 4.120262125302959e-06, 'epoch': 2.11}


 71%|███████   | 1610/2280 [15:14<03:31,  3.17it/s]

{'loss': 0.0, 'grad_norm': 0.00015972202527336776, 'learning_rate': 4.059670035224975e-06, 'epoch': 2.12}


 71%|███████   | 1620/2280 [15:17<03:17,  3.35it/s]

{'loss': 0.0, 'grad_norm': 0.00020060883252881467, 'learning_rate': 3.99907794514699e-06, 'epoch': 2.13}


 71%|███████▏  | 1630/2280 [15:20<03:26,  3.15it/s]

{'loss': 0.0, 'grad_norm': 0.0001492616574978456, 'learning_rate': 3.938485855069005e-06, 'epoch': 2.14}


 72%|███████▏  | 1640/2280 [15:24<03:47,  2.81it/s]

{'loss': 0.0, 'grad_norm': 0.0002070144546451047, 'learning_rate': 3.8778937649910205e-06, 'epoch': 2.16}


 72%|███████▏  | 1650/2280 [15:27<03:50,  2.73it/s]

{'loss': 0.0, 'grad_norm': 0.00021720922086387873, 'learning_rate': 3.817301674913036e-06, 'epoch': 2.17}


 73%|███████▎  | 1660/2280 [15:31<03:43,  2.77it/s]

{'loss': 0.0, 'grad_norm': 5.199587030801922e-05, 'learning_rate': 3.7567095848350512e-06, 'epoch': 2.18}


 73%|███████▎  | 1670/2280 [15:35<04:10,  2.44it/s]

{'loss': 0.0, 'grad_norm': 7.730396464467049e-05, 'learning_rate': 3.6961174947570664e-06, 'epoch': 2.2}


 74%|███████▎  | 1680/2280 [15:39<04:08,  2.41it/s]

{'loss': 0.0, 'grad_norm': 0.00014679369633086026, 'learning_rate': 3.635525404679081e-06, 'epoch': 2.21}


 74%|███████▍  | 1690/2280 [15:44<04:06,  2.40it/s]

{'loss': 0.0, 'grad_norm': 0.00014249540981836617, 'learning_rate': 3.574933314601097e-06, 'epoch': 2.22}


 75%|███████▍  | 1700/2280 [15:48<04:18,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.0001811028632801026, 'learning_rate': 3.5143412245231123e-06, 'epoch': 2.24}


 75%|███████▌  | 1710/2280 [15:53<05:50,  1.62it/s]

{'loss': 0.0, 'grad_norm': 0.000253550912020728, 'learning_rate': 3.4537491344451275e-06, 'epoch': 2.25}


 75%|███████▌  | 1720/2280 [15:58<04:43,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.00016679210239090025, 'learning_rate': 3.3931570443671426e-06, 'epoch': 2.26}


 76%|███████▌  | 1730/2280 [16:03<04:37,  1.98it/s]

{'loss': 0.0, 'grad_norm': 0.0001560091186547652, 'learning_rate': 3.332564954289158e-06, 'epoch': 2.28}


 76%|███████▋  | 1740/2280 [16:08<04:34,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.008965528570115566, 'learning_rate': 3.2719728642111734e-06, 'epoch': 2.29}


 77%|███████▋  | 1750/2280 [16:13<04:30,  1.96it/s]

{'loss': 0.0, 'grad_norm': 0.00010541279334574938, 'learning_rate': 3.2113807741331885e-06, 'epoch': 2.3}


 77%|███████▋  | 1760/2280 [16:18<04:24,  1.96it/s]

{'loss': 0.0, 'grad_norm': 7.557702338090166e-05, 'learning_rate': 3.1507886840552037e-06, 'epoch': 2.32}


 78%|███████▊  | 1770/2280 [16:23<04:19,  1.97it/s]

{'loss': 0.0, 'grad_norm': 0.00012163547216914594, 'learning_rate': 3.0901965939772193e-06, 'epoch': 2.33}


 78%|███████▊  | 1780/2280 [16:28<04:09,  2.00it/s]

{'loss': 0.0, 'grad_norm': 0.00011109416664112359, 'learning_rate': 3.0296045038992344e-06, 'epoch': 2.34}


 79%|███████▊  | 1790/2280 [16:34<04:44,  1.72it/s]

{'loss': 0.0, 'grad_norm': 0.0001515924814157188, 'learning_rate': 2.96901241382125e-06, 'epoch': 2.36}


 79%|███████▉  | 1800/2280 [16:39<03:55,  2.04it/s]

{'loss': 0.0, 'grad_norm': 7.508994167437777e-05, 'learning_rate': 2.908420323743265e-06, 'epoch': 2.37}


 79%|███████▉  | 1810/2280 [16:45<05:21,  1.46it/s]

{'loss': 0.0, 'grad_norm': 9.39133096835576e-05, 'learning_rate': 2.8478282336652807e-06, 'epoch': 2.38}


 80%|███████▉  | 1820/2280 [16:50<04:12,  1.82it/s]

{'loss': 0.0, 'grad_norm': 0.00011993025691481307, 'learning_rate': 2.7872361435872955e-06, 'epoch': 2.39}


 80%|████████  | 1830/2280 [16:55<04:06,  1.82it/s]

{'loss': 0.0, 'grad_norm': 0.00011434987391112372, 'learning_rate': 2.726644053509311e-06, 'epoch': 2.41}


 81%|████████  | 1840/2280 [17:01<04:00,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0001409242395311594, 'learning_rate': 2.6660519634313262e-06, 'epoch': 2.42}


 81%|████████  | 1850/2280 [17:06<03:53,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00016789995424915105, 'learning_rate': 2.605459873353342e-06, 'epoch': 2.43}


 82%|████████▏ | 1860/2280 [17:12<03:48,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0001585267309565097, 'learning_rate': 2.544867783275357e-06, 'epoch': 2.45}


 82%|████████▏ | 1870/2280 [17:17<03:42,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00019738171249628067, 'learning_rate': 2.4842756931973725e-06, 'epoch': 2.46}


 82%|████████▏ | 1880/2280 [17:23<03:37,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00019445031648501754, 'learning_rate': 2.4236836031193877e-06, 'epoch': 2.47}


 83%|████████▎ | 1890/2280 [17:28<03:30,  1.86it/s]

{'loss': 0.0, 'grad_norm': 6.116388249211013e-05, 'learning_rate': 2.363091513041403e-06, 'epoch': 2.49}


 83%|████████▎ | 1900/2280 [17:33<03:26,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00012507985229603946, 'learning_rate': 2.302499422963418e-06, 'epoch': 2.5}


 84%|████████▍ | 1910/2280 [17:39<03:20,  1.84it/s]

{'loss': 0.0, 'grad_norm': 7.7214150223881e-05, 'learning_rate': 2.2419073328854336e-06, 'epoch': 2.51}


 84%|████████▍ | 1920/2280 [17:44<03:17,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0001417483581462875, 'learning_rate': 2.1813152428074488e-06, 'epoch': 2.53}


 85%|████████▍ | 1930/2280 [17:50<03:10,  1.84it/s]

{'loss': 0.0262, 'grad_norm': 0.00017083586135413498, 'learning_rate': 2.1207231527294644e-06, 'epoch': 2.54}


 85%|████████▌ | 1940/2280 [17:55<03:05,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0002596661797724664, 'learning_rate': 2.0601310626514795e-06, 'epoch': 2.55}


 86%|████████▌ | 1950/2280 [18:01<03:00,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00017435337940696627, 'learning_rate': 1.999538972573495e-06, 'epoch': 2.57}


 86%|████████▌ | 1960/2280 [18:06<02:53,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0003514302661642432, 'learning_rate': 1.9389468824955103e-06, 'epoch': 2.58}


 86%|████████▋ | 1970/2280 [18:11<02:49,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0001615440269233659, 'learning_rate': 1.8783547924175256e-06, 'epoch': 2.59}


 87%|████████▋ | 1980/2280 [18:17<02:43,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00014259133604355156, 'learning_rate': 1.8177627023395406e-06, 'epoch': 2.61}


 87%|████████▋ | 1990/2280 [18:22<02:38,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00021302544337231666, 'learning_rate': 1.7571706122615562e-06, 'epoch': 2.62}


 88%|████████▊ | 2000/2280 [18:28<02:33,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00016424116620328277, 'learning_rate': 1.6965785221835713e-06, 'epoch': 2.63}


 88%|████████▊ | 2010/2280 [18:33<02:25,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.000179755239514634, 'learning_rate': 1.6359864321055867e-06, 'epoch': 2.64}


 89%|████████▊ | 2020/2280 [18:39<02:22,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00016373672406189144, 'learning_rate': 1.5753943420276018e-06, 'epoch': 2.66}


 89%|████████▉ | 2030/2280 [18:44<02:15,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00015599119069520384, 'learning_rate': 1.5148022519496172e-06, 'epoch': 2.67}


 89%|████████▉ | 2040/2280 [18:50<02:10,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00026562390848994255, 'learning_rate': 1.4542101618716326e-06, 'epoch': 2.68}


 90%|████████▉ | 2050/2280 [18:55<02:05,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0001370542886434123, 'learning_rate': 1.3936180717936477e-06, 'epoch': 2.7}


 90%|█████████ | 2060/2280 [19:00<01:59,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0001267053885385394, 'learning_rate': 1.3330259817156631e-06, 'epoch': 2.71}


 91%|█████████ | 2070/2280 [19:06<01:54,  1.84it/s]

{'loss': 0.016, 'grad_norm': 0.00015315086056943983, 'learning_rate': 1.2724338916376785e-06, 'epoch': 2.72}


 91%|█████████ | 2080/2280 [19:11<01:48,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00019437680020928383, 'learning_rate': 1.2118418015596939e-06, 'epoch': 2.74}


 92%|█████████▏| 2090/2280 [19:17<01:43,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00025594994076527655, 'learning_rate': 1.151249711481709e-06, 'epoch': 2.75}


 92%|█████████▏| 2100/2280 [19:22<01:38,  1.82it/s]

{'loss': 0.0, 'grad_norm': 0.00019686517771333456, 'learning_rate': 1.0906576214037244e-06, 'epoch': 2.76}


 93%|█████████▎| 2110/2280 [19:28<01:32,  1.83it/s]

{'loss': 0.0, 'grad_norm': 9.520402090856805e-05, 'learning_rate': 1.0300655313257398e-06, 'epoch': 2.78}


 93%|█████████▎| 2120/2280 [19:33<01:26,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0002512495266273618, 'learning_rate': 9.694734412477551e-07, 'epoch': 2.79}


 93%|█████████▎| 2130/2280 [19:39<01:19,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.00022378569701686502, 'learning_rate': 9.088813511697703e-07, 'epoch': 2.8}


 94%|█████████▍| 2140/2280 [19:44<01:06,  2.09it/s]

{'loss': 0.0, 'grad_norm': 0.0001030382263706997, 'learning_rate': 8.482892610917857e-07, 'epoch': 2.82}


 94%|█████████▍| 2150/2280 [19:49<01:21,  1.59it/s]

{'loss': 0.0001, 'grad_norm': 5.8837755204876885e-05, 'learning_rate': 7.876971710138009e-07, 'epoch': 2.83}


 95%|█████████▍| 2160/2280 [19:55<01:07,  1.77it/s]

{'loss': 0.0, 'grad_norm': 0.00012514085392467678, 'learning_rate': 7.271050809358163e-07, 'epoch': 2.84}


 95%|█████████▌| 2170/2280 [20:00<00:52,  2.10it/s]

{'loss': 0.0, 'grad_norm': 0.00032772208214737475, 'learning_rate': 6.665129908578316e-07, 'epoch': 2.86}


 96%|█████████▌| 2180/2280 [20:06<01:01,  1.63it/s]

{'loss': 0.0, 'grad_norm': 0.00012830254854634404, 'learning_rate': 6.059209007798469e-07, 'epoch': 2.87}


 96%|█████████▌| 2190/2280 [20:11<00:48,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.00022148435527924448, 'learning_rate': 5.453288107018622e-07, 'epoch': 2.88}


 96%|█████████▋| 2200/2280 [20:16<00:43,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.00010855186701519415, 'learning_rate': 4.847367206238776e-07, 'epoch': 2.89}


 97%|█████████▋| 2210/2280 [20:22<00:38,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00016292616783175617, 'learning_rate': 4.2414463054589283e-07, 'epoch': 2.91}


 97%|█████████▋| 2220/2280 [20:27<00:32,  1.85it/s]

{'loss': 0.0, 'grad_norm': 9.024207975016907e-05, 'learning_rate': 3.6355254046790815e-07, 'epoch': 2.92}


 98%|█████████▊| 2230/2280 [20:33<00:26,  1.85it/s]

{'loss': 0.0, 'grad_norm': 0.0002317498147021979, 'learning_rate': 3.0296045038992346e-07, 'epoch': 2.93}


 98%|█████████▊| 2240/2280 [20:38<00:21,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0002969817433040589, 'learning_rate': 2.423683603119388e-07, 'epoch': 2.95}


 99%|█████████▊| 2250/2280 [20:44<00:16,  1.83it/s]

{'loss': 0.0, 'grad_norm': 0.0003513512492645532, 'learning_rate': 1.8177627023395407e-07, 'epoch': 2.96}


 99%|█████████▉| 2260/2280 [20:49<00:10,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0002008618466788903, 'learning_rate': 1.211841801559694e-07, 'epoch': 2.97}


100%|█████████▉| 2270/2280 [20:54<00:05,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.00015372496272902936, 'learning_rate': 6.05920900779847e-08, 'epoch': 2.99}


100%|██████████| 2280/2280 [21:00<00:00,  2.17it/s]

{'loss': 0.0, 'grad_norm': 0.00015703328244853765, 'learning_rate': 0.0, 'epoch': 3.0}



100%|██████████| 2280/2280 [21:58<00:00,  2.17it/s]

{'eval_loss': 0.012388831935822964, 'eval_accuracy': 0.9990920646449972, 'eval_f1': 0.9990962292706679, 'eval_runtime': 22.6104, 'eval_samples_per_second': 243.561, 'eval_steps_per_second': 30.473, 'epoch': 3.0}


100%|██████████| 2280/2280 [22:34<00:00,  1.68it/s]


{'train_runtime': 1354.7679, 'train_samples_per_second': 48.77, 'train_steps_per_second': 1.683, 'train_loss': 0.0014443817790259729, 'epoch': 3.0}


100%|██████████| 689/689 [00:22<00:00, 30.16it/s]
  0%|          | 10/4408 [00:02<15:31,  4.72it/s]

{'loss': 0.0, 'grad_norm': 1.3571674571721815e-05, 'learning_rate': 6.308475070265811e-05, 'epoch': 0.01}


  0%|          | 20/4408 [00:04<15:23,  4.75it/s]

{'loss': 0.0, 'grad_norm': 4.489991169975838e-06, 'learning_rate': 6.294131106940968e-05, 'epoch': 0.02}


  1%|          | 30/4408 [00:06<16:04,  4.54it/s]

{'loss': 0.0, 'grad_norm': 7.400498361676e-06, 'learning_rate': 6.279787143616126e-05, 'epoch': 0.03}


  1%|          | 40/4408 [00:08<15:53,  4.58it/s]

{'loss': 0.0, 'grad_norm': 3.4911013244709466e-06, 'learning_rate': 6.265443180291283e-05, 'epoch': 0.04}


  1%|          | 50/4408 [00:11<16:38,  4.36it/s]

{'loss': 0.0652, 'grad_norm': 1.8592400010675192e-05, 'learning_rate': 6.25109921696644e-05, 'epoch': 0.05}


  1%|▏         | 60/4408 [00:13<16:34,  4.37it/s]

{'loss': 0.0002, 'grad_norm': 0.00029208193882368505, 'learning_rate': 6.236755253641597e-05, 'epoch': 0.05}


  2%|▏         | 70/4408 [00:15<16:25,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.00013134950131643564, 'learning_rate': 6.222411290316755e-05, 'epoch': 0.06}


  2%|▏         | 80/4408 [00:18<20:16,  3.56it/s]

{'loss': 0.0, 'grad_norm': 4.032221477245912e-05, 'learning_rate': 6.208067326991912e-05, 'epoch': 0.07}


  2%|▏         | 90/4408 [00:20<18:37,  3.86it/s]

{'loss': 0.0, 'grad_norm': 5.435748607851565e-05, 'learning_rate': 6.19372336366707e-05, 'epoch': 0.08}


  2%|▏         | 100/4408 [00:23<18:44,  3.83it/s]

{'loss': 0.0, 'grad_norm': 5.122978109284304e-05, 'learning_rate': 6.179379400342228e-05, 'epoch': 0.09}


  2%|▏         | 110/4408 [00:25<18:35,  3.85it/s]

{'loss': 0.0, 'grad_norm': 1.2697847523668315e-05, 'learning_rate': 6.165035437017384e-05, 'epoch': 0.1}


  3%|▎         | 120/4408 [00:28<18:33,  3.85it/s]

{'loss': 0.0, 'grad_norm': 4.688061017077416e-05, 'learning_rate': 6.150691473692541e-05, 'epoch': 0.11}


  3%|▎         | 130/4408 [00:31<18:35,  3.84it/s]

{'loss': 0.0, 'grad_norm': 5.070429324405268e-05, 'learning_rate': 6.1363475103677e-05, 'epoch': 0.12}


  3%|▎         | 140/4408 [00:34<21:19,  3.34it/s]

{'loss': 0.0688, 'grad_norm': 3.922895484720357e-05, 'learning_rate': 6.122003547042857e-05, 'epoch': 0.13}


  3%|▎         | 150/4408 [00:37<20:49,  3.41it/s]

{'loss': 0.007, 'grad_norm': 0.005051865242421627, 'learning_rate': 6.107659583718014e-05, 'epoch': 0.14}


  4%|▎         | 160/4408 [00:40<20:47,  3.41it/s]

{'loss': 0.0766, 'grad_norm': 0.000151947679114528, 'learning_rate': 6.0933156203931714e-05, 'epoch': 0.15}


  4%|▍         | 170/4408 [00:43<20:54,  3.38it/s]

{'loss': 0.0688, 'grad_norm': 0.028512682765722275, 'learning_rate': 6.078971657068329e-05, 'epoch': 0.15}


  4%|▍         | 180/4408 [00:46<26:03,  2.70it/s]

{'loss': 0.0808, 'grad_norm': 0.007428538054227829, 'learning_rate': 6.064627693743485e-05, 'epoch': 0.16}


  4%|▍         | 190/4408 [00:50<24:15,  2.90it/s]

{'loss': 0.1194, 'grad_norm': 0.054879818111658096, 'learning_rate': 6.0502837304186425e-05, 'epoch': 0.17}


  5%|▍         | 200/4408 [00:53<24:03,  2.91it/s]

{'loss': 0.0362, 'grad_norm': 0.008855519816279411, 'learning_rate': 6.0359397670938005e-05, 'epoch': 0.18}


  5%|▍         | 210/4408 [00:56<23:50,  2.94it/s]

{'loss': 0.2101, 'grad_norm': 34.68146514892578, 'learning_rate': 6.021595803768958e-05, 'epoch': 0.19}


  5%|▍         | 220/4408 [01:00<23:49,  2.93it/s]

{'loss': 0.0002, 'grad_norm': 0.0015295895282179117, 'learning_rate': 6.007251840444115e-05, 'epoch': 0.2}


  5%|▌         | 230/4408 [01:03<23:43,  2.94it/s]

{'loss': 0.153, 'grad_norm': 2.3954198360443115, 'learning_rate': 5.992907877119272e-05, 'epoch': 0.21}


  5%|▌         | 240/4408 [01:07<23:37,  2.94it/s]

{'loss': 0.0007, 'grad_norm': 0.012375611811876297, 'learning_rate': 5.97856391379443e-05, 'epoch': 0.22}


  6%|▌         | 250/4408 [01:10<23:42,  2.92it/s]

{'loss': 0.201, 'grad_norm': 39.623226165771484, 'learning_rate': 5.964219950469587e-05, 'epoch': 0.23}


  6%|▌         | 260/4408 [01:13<23:45,  2.91it/s]

{'loss': 0.0014, 'grad_norm': 0.002297328319400549, 'learning_rate': 5.949875987144744e-05, 'epoch': 0.24}


  6%|▌         | 270/4408 [01:17<23:39,  2.91it/s]

{'loss': 0.0582, 'grad_norm': 0.008073183707892895, 'learning_rate': 5.935532023819901e-05, 'epoch': 0.25}


  6%|▋         | 280/4408 [01:20<23:38,  2.91it/s]

{'loss': 0.0983, 'grad_norm': 0.007604803889989853, 'learning_rate': 5.921188060495059e-05, 'epoch': 0.25}


  7%|▋         | 290/4408 [01:24<23:34,  2.91it/s]

{'loss': 0.0002, 'grad_norm': 0.0042961775325238705, 'learning_rate': 5.9068440971702165e-05, 'epoch': 0.26}


  7%|▋         | 300/4408 [01:27<23:40,  2.89it/s]

{'loss': 0.0151, 'grad_norm': 0.0030118832364678383, 'learning_rate': 5.892500133845374e-05, 'epoch': 0.27}


  7%|▋         | 310/4408 [01:31<23:43,  2.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0074506038799881935, 'learning_rate': 5.878156170520531e-05, 'epoch': 0.28}


  7%|▋         | 320/4408 [01:34<23:43,  2.87it/s]

{'loss': 0.04, 'grad_norm': 0.0022885778453201056, 'learning_rate': 5.8638122071956876e-05, 'epoch': 0.29}


  7%|▋         | 330/4408 [01:38<23:31,  2.89it/s]

{'loss': 0.0002, 'grad_norm': 0.0014618878485634923, 'learning_rate': 5.8494682438708455e-05, 'epoch': 0.3}


  8%|▊         | 340/4408 [01:42<37:21,  1.81it/s]

{'loss': 0.0001, 'grad_norm': 0.0013305714819580317, 'learning_rate': 5.835124280546003e-05, 'epoch': 0.31}


  8%|▊         | 350/4408 [01:46<26:22,  2.56it/s]

{'loss': 0.0094, 'grad_norm': 0.0011984264710918069, 'learning_rate': 5.82078031722116e-05, 'epoch': 0.32}


  8%|▊         | 360/4408 [01:50<26:23,  2.56it/s]

{'loss': 0.064, 'grad_norm': 0.005958015099167824, 'learning_rate': 5.806436353896317e-05, 'epoch': 0.33}


  8%|▊         | 370/4408 [01:54<26:15,  2.56it/s]

{'loss': 0.0001, 'grad_norm': 0.001625548116862774, 'learning_rate': 5.792092390571475e-05, 'epoch': 0.34}


  9%|▊         | 380/4408 [01:58<26:09,  2.57it/s]

{'loss': 0.0019, 'grad_norm': 0.010886901058256626, 'learning_rate': 5.7777484272466325e-05, 'epoch': 0.34}


  9%|▉         | 390/4408 [02:01<22:29,  2.98it/s]

{'loss': 0.0175, 'grad_norm': 57.556182861328125, 'learning_rate': 5.763404463921789e-05, 'epoch': 0.35}


  9%|▉         | 400/4408 [02:05<21:29,  3.11it/s]

{'loss': 0.0001, 'grad_norm': 0.013068735599517822, 'learning_rate': 5.749060500596946e-05, 'epoch': 0.36}


  9%|▉         | 410/4408 [02:08<23:33,  2.83it/s]

{'loss': 0.05, 'grad_norm': 0.0011157236294820905, 'learning_rate': 5.734716537272104e-05, 'epoch': 0.37}


 10%|▉         | 420/4408 [02:12<23:18,  2.85it/s]

{'loss': 0.0381, 'grad_norm': 0.11511731892824173, 'learning_rate': 5.7203725739472615e-05, 'epoch': 0.38}


 10%|▉         | 430/4408 [02:15<23:20,  2.84it/s]

{'loss': 0.0043, 'grad_norm': 126.44449615478516, 'learning_rate': 5.706028610622419e-05, 'epoch': 0.39}


 10%|▉         | 440/4408 [02:19<23:19,  2.84it/s]

{'loss': 0.0001, 'grad_norm': 0.0008770479471422732, 'learning_rate': 5.691684647297576e-05, 'epoch': 0.4}


 10%|█         | 450/4408 [02:23<23:24,  2.82it/s]

{'loss': 0.055, 'grad_norm': 0.001189627917483449, 'learning_rate': 5.677340683972733e-05, 'epoch': 0.41}


 10%|█         | 460/4408 [02:26<23:16,  2.83it/s]

{'loss': 0.0097, 'grad_norm': 193.28419494628906, 'learning_rate': 5.6629967206478905e-05, 'epoch': 0.42}


 11%|█         | 470/4408 [02:30<23:07,  2.84it/s]

{'loss': 0.0, 'grad_norm': 0.000530507299117744, 'learning_rate': 5.648652757323048e-05, 'epoch': 0.43}


 11%|█         | 480/4408 [02:33<23:07,  2.83it/s]

{'loss': 0.0577, 'grad_norm': 0.0007540405495092273, 'learning_rate': 5.634308793998205e-05, 'epoch': 0.44}


 11%|█         | 490/4408 [02:37<28:23,  2.30it/s]

{'loss': 0.1142, 'grad_norm': 0.002024982590228319, 'learning_rate': 5.619964830673362e-05, 'epoch': 0.44}


 11%|█▏        | 500/4408 [02:41<24:46,  2.63it/s]

{'loss': 0.033, 'grad_norm': 0.053420327603816986, 'learning_rate': 5.60562086734852e-05, 'epoch': 0.45}


 12%|█▏        | 510/4408 [02:45<21:51,  2.97it/s]

{'loss': 0.0218, 'grad_norm': 0.010883103124797344, 'learning_rate': 5.5912769040236775e-05, 'epoch': 0.46}


 12%|█▏        | 520/4408 [02:48<21:49,  2.97it/s]

{'loss': 0.2406, 'grad_norm': 2.748021125793457, 'learning_rate': 5.576932940698835e-05, 'epoch': 0.47}


 12%|█▏        | 530/4408 [02:52<23:35,  2.74it/s]

{'loss': 0.1433, 'grad_norm': 0.1876327395439148, 'learning_rate': 5.5625889773739913e-05, 'epoch': 0.48}


 12%|█▏        | 540/4408 [02:56<23:17,  2.77it/s]

{'loss': 0.0044, 'grad_norm': 0.0015268384013324976, 'learning_rate': 5.548245014049149e-05, 'epoch': 0.49}


 12%|█▏        | 550/4408 [02:59<23:11,  2.77it/s]

{'loss': 0.0514, 'grad_norm': 0.0017828651471063495, 'learning_rate': 5.5339010507243065e-05, 'epoch': 0.5}


 13%|█▎        | 560/4408 [03:03<23:04,  2.78it/s]

{'loss': 0.0001, 'grad_norm': 0.002837961772456765, 'learning_rate': 5.519557087399464e-05, 'epoch': 0.51}


 13%|█▎        | 570/4408 [03:07<23:00,  2.78it/s]

{'loss': 0.0001, 'grad_norm': 0.002266952767968178, 'learning_rate': 5.505213124074621e-05, 'epoch': 0.52}


 13%|█▎        | 580/4408 [03:10<22:58,  2.78it/s]

{'loss': 0.0001, 'grad_norm': 0.000827736861538142, 'learning_rate': 5.490869160749778e-05, 'epoch': 0.53}


 13%|█▎        | 590/4408 [03:14<22:53,  2.78it/s]

{'loss': 0.0001, 'grad_norm': 0.0010123745305463672, 'learning_rate': 5.476525197424936e-05, 'epoch': 0.54}


 14%|█▎        | 600/4408 [03:18<32:23,  1.96it/s]

{'loss': 0.0444, 'grad_norm': 0.3360978960990906, 'learning_rate': 5.462181234100093e-05, 'epoch': 0.54}


 14%|█▍        | 610/4408 [03:22<23:23,  2.71it/s]

{'loss': 0.0399, 'grad_norm': 79.53185272216797, 'learning_rate': 5.44783727077525e-05, 'epoch': 0.55}


 14%|█▍        | 620/4408 [03:26<26:08,  2.42it/s]

{'loss': 0.0002, 'grad_norm': 0.0005054599605500698, 'learning_rate': 5.4334933074504074e-05, 'epoch': 0.56}


 14%|█▍        | 630/4408 [03:31<26:01,  2.42it/s]

{'loss': 0.0003, 'grad_norm': 0.0007845619111321867, 'learning_rate': 5.419149344125565e-05, 'epoch': 0.57}


 15%|█▍        | 640/4408 [03:34<21:56,  2.86it/s]

{'loss': 0.0365, 'grad_norm': 0.0005052318447269499, 'learning_rate': 5.4048053808007225e-05, 'epoch': 0.58}


 15%|█▍        | 650/4408 [03:38<21:10,  2.96it/s]

{'loss': 0.0489, 'grad_norm': 0.007362008094787598, 'learning_rate': 5.39046141747588e-05, 'epoch': 0.59}


 15%|█▍        | 660/4408 [03:41<21:06,  2.96it/s]

{'loss': 0.0756, 'grad_norm': 0.004253269638866186, 'learning_rate': 5.376117454151037e-05, 'epoch': 0.6}


 15%|█▌        | 670/4408 [03:44<21:06,  2.95it/s]

{'loss': 0.0514, 'grad_norm': 2.696683645248413, 'learning_rate': 5.361773490826194e-05, 'epoch': 0.61}


 15%|█▌        | 680/4408 [03:48<22:54,  2.71it/s]

{'loss': 0.001, 'grad_norm': 0.010401989333331585, 'learning_rate': 5.3474295275013516e-05, 'epoch': 0.62}


 16%|█▌        | 690/4408 [03:52<22:14,  2.79it/s]

{'loss': 0.0007, 'grad_norm': 0.0013277992838993669, 'learning_rate': 5.333085564176509e-05, 'epoch': 0.63}


 16%|█▌        | 700/4408 [03:56<20:52,  2.96it/s]

{'loss': 0.0002, 'grad_norm': 0.002669799840077758, 'learning_rate': 5.318741600851666e-05, 'epoch': 0.64}


 16%|█▌        | 710/4408 [04:00<22:38,  2.72it/s]

{'loss': 0.0001, 'grad_norm': 0.0007797899306751788, 'learning_rate': 5.304397637526824e-05, 'epoch': 0.64}


 16%|█▋        | 720/4408 [04:03<21:37,  2.84it/s]

{'loss': 0.0001, 'grad_norm': 0.0021795369684696198, 'learning_rate': 5.290053674201981e-05, 'epoch': 0.65}


 17%|█▋        | 730/4408 [04:07<21:34,  2.84it/s]

{'loss': 0.0893, 'grad_norm': 0.10814609378576279, 'learning_rate': 5.2757097108771385e-05, 'epoch': 0.66}


 17%|█▋        | 740/4408 [04:11<26:11,  2.33it/s]

{'loss': 0.0014, 'grad_norm': 0.00036935252137482166, 'learning_rate': 5.261365747552295e-05, 'epoch': 0.67}


 17%|█▋        | 750/4408 [04:15<24:17,  2.51it/s]

{'loss': 0.0002, 'grad_norm': 0.002381575061008334, 'learning_rate': 5.2470217842274524e-05, 'epoch': 0.68}


 17%|█▋        | 760/4408 [04:19<24:01,  2.53it/s]

{'loss': 0.0574, 'grad_norm': 43.76909637451172, 'learning_rate': 5.23267782090261e-05, 'epoch': 0.69}


 17%|█▋        | 770/4408 [04:23<23:51,  2.54it/s]

{'loss': 0.023, 'grad_norm': 0.002206070814281702, 'learning_rate': 5.2183338575777676e-05, 'epoch': 0.7}


 18%|█▊        | 780/4408 [04:27<23:46,  2.54it/s]

{'loss': 0.0989, 'grad_norm': 0.0017784676747396588, 'learning_rate': 5.203989894252925e-05, 'epoch': 0.71}


 18%|█▊        | 790/4408 [04:31<23:39,  2.55it/s]

{'loss': 0.0976, 'grad_norm': 2.4180233478546143, 'learning_rate': 5.189645930928082e-05, 'epoch': 0.72}


 18%|█▊        | 800/4408 [04:35<23:49,  2.52it/s]

{'loss': 0.0761, 'grad_norm': 64.72383117675781, 'learning_rate': 5.17530196760324e-05, 'epoch': 0.73}


 18%|█▊        | 810/4408 [04:39<23:21,  2.57it/s]

{'loss': 0.0002, 'grad_norm': 0.002049514790996909, 'learning_rate': 5.1609580042783966e-05, 'epoch': 0.74}


 19%|█▊        | 820/4408 [04:42<20:40,  2.89it/s]

{'loss': 0.003, 'grad_norm': 0.0035608974285423756, 'learning_rate': 5.146614040953554e-05, 'epoch': 0.74}


 19%|█▉        | 830/4408 [04:46<19:14,  3.10it/s]

{'loss': 0.0856, 'grad_norm': 0.018601788207888603, 'learning_rate': 5.132270077628711e-05, 'epoch': 0.75}


 19%|█▉        | 840/4408 [04:49<19:47,  3.00it/s]

{'loss': 0.0572, 'grad_norm': 0.005316644441336393, 'learning_rate': 5.117926114303869e-05, 'epoch': 0.76}


 19%|█▉        | 850/4408 [04:53<23:06,  2.57it/s]

{'loss': 0.0002, 'grad_norm': 0.003918289206922054, 'learning_rate': 5.103582150979026e-05, 'epoch': 0.77}


 20%|█▉        | 860/4408 [04:57<22:53,  2.58it/s]

{'loss': 0.0208, 'grad_norm': 0.0017750435508787632, 'learning_rate': 5.0892381876541836e-05, 'epoch': 0.78}


 20%|█▉        | 870/4408 [05:01<22:59,  2.56it/s]

{'loss': 0.0001, 'grad_norm': 0.0010429302928969264, 'learning_rate': 5.074894224329341e-05, 'epoch': 0.79}


 20%|█▉        | 880/4408 [05:05<22:58,  2.56it/s]

{'loss': 0.0001, 'grad_norm': 0.0016003209166228771, 'learning_rate': 5.0605502610044974e-05, 'epoch': 0.8}


 20%|██        | 890/4408 [05:08<22:42,  2.58it/s]

{'loss': 0.0001, 'grad_norm': 0.00503810727968812, 'learning_rate': 5.0462062976796554e-05, 'epoch': 0.81}


 20%|██        | 900/4408 [05:12<22:39,  2.58it/s]

{'loss': 0.0437, 'grad_norm': 0.0018726094858720899, 'learning_rate': 5.0318623343548126e-05, 'epoch': 0.82}


 21%|██        | 910/4408 [05:16<22:49,  2.55it/s]

{'loss': 0.0141, 'grad_norm': 0.00309955608099699, 'learning_rate': 5.01751837102997e-05, 'epoch': 0.83}


 21%|██        | 920/4408 [05:20<22:43,  2.56it/s]

{'loss': 0.1131, 'grad_norm': 0.5662965178489685, 'learning_rate': 5.003174407705127e-05, 'epoch': 0.83}


 21%|██        | 930/4408 [05:24<22:44,  2.55it/s]

{'loss': 0.0005, 'grad_norm': 0.0032424426171928644, 'learning_rate': 4.988830444380285e-05, 'epoch': 0.84}


 21%|██▏       | 940/4408 [05:28<23:13,  2.49it/s]

{'loss': 0.0002, 'grad_norm': 0.002236093394458294, 'learning_rate': 4.974486481055442e-05, 'epoch': 0.85}


 22%|██▏       | 950/4408 [05:31<19:01,  3.03it/s]

{'loss': 0.0628, 'grad_norm': 0.00113444565795362, 'learning_rate': 4.960142517730599e-05, 'epoch': 0.86}


 22%|██▏       | 960/4408 [05:34<18:29,  3.11it/s]

{'loss': 0.0019, 'grad_norm': 0.0011339514749124646, 'learning_rate': 4.945798554405756e-05, 'epoch': 0.87}


 22%|██▏       | 970/4408 [05:39<21:47,  2.63it/s]

{'loss': 0.0001, 'grad_norm': 0.001032127533107996, 'learning_rate': 4.931454591080914e-05, 'epoch': 0.88}


 22%|██▏       | 980/4408 [05:42<21:42,  2.63it/s]

{'loss': 0.1553, 'grad_norm': 251.77554321289062, 'learning_rate': 4.9171106277560714e-05, 'epoch': 0.89}


 22%|██▏       | 990/4408 [05:46<21:27,  2.66it/s]

{'loss': 0.1935, 'grad_norm': 0.07961762696504593, 'learning_rate': 4.9027666644312286e-05, 'epoch': 0.9}


 23%|██▎       | 1000/4408 [05:50<24:02,  2.36it/s]

{'loss': 0.0352, 'grad_norm': 0.00477723078802228, 'learning_rate': 4.888422701106386e-05, 'epoch': 0.91}


 23%|██▎       | 1010/4408 [05:54<21:54,  2.58it/s]

{'loss': 0.0715, 'grad_norm': 0.004468279890716076, 'learning_rate': 4.874078737781543e-05, 'epoch': 0.92}


 23%|██▎       | 1020/4408 [05:58<21:43,  2.60it/s]

{'loss': 0.0005, 'grad_norm': 0.22078116238117218, 'learning_rate': 4.8597347744567004e-05, 'epoch': 0.93}


 23%|██▎       | 1030/4408 [06:01<21:36,  2.61it/s]

{'loss': 0.0149, 'grad_norm': 0.004735531751066446, 'learning_rate': 4.8453908111318577e-05, 'epoch': 0.93}


 24%|██▎       | 1040/4408 [06:05<21:39,  2.59it/s]

{'loss': 0.0001, 'grad_norm': 0.004088778514415026, 'learning_rate': 4.831046847807015e-05, 'epoch': 0.94}


 24%|██▍       | 1050/4408 [06:09<19:54,  2.81it/s]

{'loss': 0.0618, 'grad_norm': 0.04111020267009735, 'learning_rate': 4.816702884482172e-05, 'epoch': 0.95}


 24%|██▍       | 1060/4408 [06:12<17:46,  3.14it/s]

{'loss': 0.0515, 'grad_norm': 0.00518681900575757, 'learning_rate': 4.80235892115733e-05, 'epoch': 0.96}


 24%|██▍       | 1070/4408 [06:15<17:45,  3.13it/s]

{'loss': 0.0358, 'grad_norm': 0.01833215542137623, 'learning_rate': 4.7880149578324874e-05, 'epoch': 0.97}


 25%|██▍       | 1080/4408 [06:19<24:01,  2.31it/s]

{'loss': 0.0154, 'grad_norm': 0.009752831421792507, 'learning_rate': 4.7736709945076446e-05, 'epoch': 0.98}


 25%|██▍       | 1090/4408 [06:23<20:31,  2.69it/s]

{'loss': 0.0193, 'grad_norm': 0.002409102860838175, 'learning_rate': 4.759327031182801e-05, 'epoch': 0.99}


 25%|██▍       | 1100/4408 [06:27<19:54,  2.77it/s]

{'loss': 0.0002, 'grad_norm': 0.0017798366025090218, 'learning_rate': 4.744983067857959e-05, 'epoch': 1.0}


 25%|██▌       | 1102/4408 [06:28<16:49,  3.27it/s]
 25%|██▌       | 1102/4408 [07:05<16:49,  3.27it/s]

{'eval_loss': 0.05716467276215553, 'eval_accuracy': 0.9932812783729799, 'eval_f1': 0.9932807582592248, 'eval_runtime': 36.7395, 'eval_samples_per_second': 149.893, 'eval_steps_per_second': 18.754, 'epoch': 1.0}


 25%|██▌       | 1111/4408 [07:42<1:20:00,  1.46s/it] 

{'loss': 0.4002, 'grad_norm': 0.04584014043211937, 'learning_rate': 4.7306391045331164e-05, 'epoch': 1.01}


 25%|██▌       | 1121/4408 [07:44<12:19,  4.45it/s]  

{'loss': 0.0577, 'grad_norm': 24.053937911987305, 'learning_rate': 4.7162951412082737e-05, 'epoch': 1.02}


 26%|██▌       | 1130/4408 [07:46<10:32,  5.18it/s]

{'loss': 0.0002, 'grad_norm': 0.005807691719383001, 'learning_rate': 4.701951177883431e-05, 'epoch': 1.03}


 26%|██▌       | 1141/4408 [07:48<11:02,  4.93it/s]

{'loss': 0.049, 'grad_norm': 0.01151860412210226, 'learning_rate': 4.687607214558588e-05, 'epoch': 1.03}


 26%|██▌       | 1150/4408 [07:50<10:40,  5.09it/s]

{'loss': 0.0006, 'grad_norm': 0.006882757414132357, 'learning_rate': 4.673263251233746e-05, 'epoch': 1.04}


 26%|██▋       | 1160/4408 [07:52<11:00,  4.92it/s]

{'loss': 0.0537, 'grad_norm': 0.0029430577997118235, 'learning_rate': 4.658919287908903e-05, 'epoch': 1.05}


 27%|██▋       | 1171/4408 [07:54<11:01,  4.89it/s]

{'loss': 0.0002, 'grad_norm': 0.0015666974941268563, 'learning_rate': 4.64457532458406e-05, 'epoch': 1.06}


 27%|██▋       | 1180/4408 [07:56<11:19,  4.75it/s]

{'loss': 0.0001, 'grad_norm': 0.0019889865070581436, 'learning_rate': 4.630231361259217e-05, 'epoch': 1.07}


 27%|██▋       | 1190/4408 [07:58<11:27,  4.68it/s]

{'loss': 0.0001, 'grad_norm': 0.0019221804104745388, 'learning_rate': 4.615887397934375e-05, 'epoch': 1.08}


 27%|██▋       | 1201/4408 [08:01<11:17,  4.74it/s]

{'loss': 0.065, 'grad_norm': 0.0016136657213792205, 'learning_rate': 4.6015434346095324e-05, 'epoch': 1.09}


 27%|██▋       | 1210/4408 [08:03<11:32,  4.62it/s]

{'loss': 0.0005, 'grad_norm': 0.0012027196353301406, 'learning_rate': 4.5871994712846897e-05, 'epoch': 1.1}


 28%|██▊       | 1220/4408 [08:05<11:44,  4.53it/s]

{'loss': 0.0001, 'grad_norm': 0.001510193687863648, 'learning_rate': 4.572855507959847e-05, 'epoch': 1.11}


 28%|██▊       | 1230/4408 [08:07<12:05,  4.38it/s]

{'loss': 0.0001, 'grad_norm': 0.001967749325558543, 'learning_rate': 4.558511544635004e-05, 'epoch': 1.12}


 28%|██▊       | 1240/4408 [08:10<12:03,  4.38it/s]

{'loss': 0.0388, 'grad_norm': 0.001223978353664279, 'learning_rate': 4.5441675813101614e-05, 'epoch': 1.13}


 28%|██▊       | 1250/4408 [08:12<13:53,  3.79it/s]

{'loss': 0.0001, 'grad_norm': 0.005764675792306662, 'learning_rate': 4.529823617985319e-05, 'epoch': 1.13}


 29%|██▊       | 1260/4408 [08:14<12:36,  4.16it/s]

{'loss': 0.0199, 'grad_norm': 67.77416229248047, 'learning_rate': 4.515479654660476e-05, 'epoch': 1.14}


 29%|██▉       | 1270/4408 [08:17<12:29,  4.19it/s]

{'loss': 0.0001, 'grad_norm': 0.00218910351395607, 'learning_rate': 4.501135691335634e-05, 'epoch': 1.15}


 29%|██▉       | 1280/4408 [08:19<13:22,  3.90it/s]

{'loss': 0.0825, 'grad_norm': 0.0021449699997901917, 'learning_rate': 4.486791728010791e-05, 'epoch': 1.16}


 29%|██▉       | 1290/4408 [08:22<13:27,  3.86it/s]

{'loss': 0.0002, 'grad_norm': 0.008397082798182964, 'learning_rate': 4.4724477646859484e-05, 'epoch': 1.17}


 29%|██▉       | 1300/4408 [08:25<13:26,  3.85it/s]

{'loss': 0.0534, 'grad_norm': 0.008152052760124207, 'learning_rate': 4.458103801361105e-05, 'epoch': 1.18}


 30%|██▉       | 1310/4408 [08:27<13:20,  3.87it/s]

{'loss': 0.0013, 'grad_norm': 0.04544610530138016, 'learning_rate': 4.443759838036262e-05, 'epoch': 1.19}


 30%|██▉       | 1320/4408 [08:30<16:02,  3.21it/s]

{'loss': 0.0008, 'grad_norm': 0.00373942987062037, 'learning_rate': 4.42941587471142e-05, 'epoch': 1.2}


 30%|███       | 1330/4408 [08:33<16:06,  3.18it/s]

{'loss': 0.0004, 'grad_norm': 0.004219984170049429, 'learning_rate': 4.4150719113865774e-05, 'epoch': 1.21}


 30%|███       | 1340/4408 [08:37<16:02,  3.19it/s]

{'loss': 0.0002, 'grad_norm': 0.004074092023074627, 'learning_rate': 4.400727948061735e-05, 'epoch': 1.22}


 31%|███       | 1350/4408 [08:40<15:53,  3.21it/s]

{'loss': 0.0398, 'grad_norm': 0.0028591060545295477, 'learning_rate': 4.386383984736892e-05, 'epoch': 1.23}


 31%|███       | 1360/4408 [08:43<15:51,  3.20it/s]

{'loss': 0.0002, 'grad_norm': 0.007884755730628967, 'learning_rate': 4.37204002141205e-05, 'epoch': 1.23}


 31%|███       | 1370/4408 [08:46<15:59,  3.17it/s]

{'loss': 0.0423, 'grad_norm': 0.048131104558706284, 'learning_rate': 4.3576960580872065e-05, 'epoch': 1.24}


 31%|███▏      | 1380/4408 [08:49<16:37,  3.04it/s]

{'loss': 0.0007, 'grad_norm': 0.03022325411438942, 'learning_rate': 4.343352094762364e-05, 'epoch': 1.25}


 32%|███▏      | 1390/4408 [08:53<17:19,  2.90it/s]

{'loss': 0.0005, 'grad_norm': 0.012086255475878716, 'learning_rate': 4.329008131437521e-05, 'epoch': 1.26}


 32%|███▏      | 1400/4408 [08:56<17:41,  2.83it/s]

{'loss': 0.0526, 'grad_norm': 0.003213331336155534, 'learning_rate': 4.314664168112679e-05, 'epoch': 1.27}


 32%|███▏      | 1410/4408 [09:00<17:40,  2.83it/s]

{'loss': 0.0002, 'grad_norm': 0.001934711472131312, 'learning_rate': 4.300320204787836e-05, 'epoch': 1.28}


 32%|███▏      | 1420/4408 [09:03<17:30,  2.84it/s]

{'loss': 0.0475, 'grad_norm': 4.035840034484863, 'learning_rate': 4.2859762414629934e-05, 'epoch': 1.29}


 32%|███▏      | 1430/4408 [09:07<17:29,  2.84it/s]

{'loss': 0.0004, 'grad_norm': 0.019696759060025215, 'learning_rate': 4.27163227813815e-05, 'epoch': 1.3}


 33%|███▎      | 1440/4408 [09:10<17:25,  2.84it/s]

{'loss': 0.0006, 'grad_norm': 0.009785114787518978, 'learning_rate': 4.257288314813307e-05, 'epoch': 1.31}


 33%|███▎      | 1450/4408 [09:14<17:22,  2.84it/s]

{'loss': 0.0007, 'grad_norm': 0.00489445636048913, 'learning_rate': 4.242944351488465e-05, 'epoch': 1.32}


 33%|███▎      | 1460/4408 [09:17<17:15,  2.85it/s]

{'loss': 0.0002, 'grad_norm': 0.0022611659951508045, 'learning_rate': 4.2286003881636225e-05, 'epoch': 1.32}


 33%|███▎      | 1470/4408 [09:21<17:29,  2.80it/s]

{'loss': 0.0001, 'grad_norm': 0.0022160778753459454, 'learning_rate': 4.21425642483878e-05, 'epoch': 1.33}


 34%|███▎      | 1480/4408 [09:24<17:26,  2.80it/s]

{'loss': 0.0001, 'grad_norm': 0.0053344168700277805, 'learning_rate': 4.199912461513937e-05, 'epoch': 1.34}


 34%|███▍      | 1490/4408 [09:28<17:21,  2.80it/s]

{'loss': 0.0001, 'grad_norm': 0.0014062707778066397, 'learning_rate': 4.185568498189095e-05, 'epoch': 1.35}


 34%|███▍      | 1500/4408 [09:32<17:20,  2.79it/s]

{'loss': 0.0089, 'grad_norm': 0.001290176180191338, 'learning_rate': 4.1712245348642515e-05, 'epoch': 1.36}


 34%|███▍      | 1510/4408 [09:35<17:18,  2.79it/s]

{'loss': 0.0001, 'grad_norm': 0.0018265282269567251, 'learning_rate': 4.156880571539409e-05, 'epoch': 1.37}


 34%|███▍      | 1520/4408 [09:39<17:17,  2.78it/s]

{'loss': 0.1022, 'grad_norm': 0.004458861891180277, 'learning_rate': 4.142536608214566e-05, 'epoch': 1.38}


 35%|███▍      | 1530/4408 [09:42<17:08,  2.80it/s]

{'loss': 0.0007, 'grad_norm': 0.008912988007068634, 'learning_rate': 4.128192644889724e-05, 'epoch': 1.39}


 35%|███▍      | 1540/4408 [09:46<17:08,  2.79it/s]

{'loss': 0.0012, 'grad_norm': 0.005059586372226477, 'learning_rate': 4.113848681564881e-05, 'epoch': 1.4}


 35%|███▌      | 1550/4408 [09:50<21:52,  2.18it/s]

{'loss': 0.0004, 'grad_norm': 0.003804251551628113, 'learning_rate': 4.0995047182400385e-05, 'epoch': 1.41}


 35%|███▌      | 1560/4408 [09:54<19:01,  2.49it/s]

{'loss': 0.0002, 'grad_norm': 0.0031441375613212585, 'learning_rate': 4.085160754915196e-05, 'epoch': 1.42}


 36%|███▌      | 1570/4408 [09:58<18:53,  2.50it/s]

{'loss': 0.0033, 'grad_norm': 0.0033320297952741385, 'learning_rate': 4.070816791590352e-05, 'epoch': 1.42}


 36%|███▌      | 1580/4408 [10:02<16:17,  2.89it/s]

{'loss': 0.0002, 'grad_norm': 0.004237741231918335, 'learning_rate': 4.05647282826551e-05, 'epoch': 1.43}


 36%|███▌      | 1590/4408 [10:05<17:08,  2.74it/s]

{'loss': 0.0446, 'grad_norm': 0.0024353114422410727, 'learning_rate': 4.0421288649406675e-05, 'epoch': 1.44}


 36%|███▋      | 1600/4408 [10:10<19:18,  2.42it/s]

{'loss': 0.0029, 'grad_norm': 0.006966238841414452, 'learning_rate': 4.027784901615825e-05, 'epoch': 1.45}


 37%|███▋      | 1610/4408 [10:14<18:51,  2.47it/s]

{'loss': 0.0001, 'grad_norm': 0.0018611751729622483, 'learning_rate': 4.013440938290982e-05, 'epoch': 1.46}


 37%|███▋      | 1620/4408 [10:18<18:33,  2.50it/s]

{'loss': 0.0002, 'grad_norm': 0.001947227050550282, 'learning_rate': 3.99909697496614e-05, 'epoch': 1.47}


 37%|███▋      | 1630/4408 [10:22<18:33,  2.50it/s]

{'loss': 0.026, 'grad_norm': 0.0015089662047103047, 'learning_rate': 3.984753011641297e-05, 'epoch': 1.48}


 37%|███▋      | 1640/4408 [10:26<18:31,  2.49it/s]

{'loss': 0.0001, 'grad_norm': 0.0010331581579521298, 'learning_rate': 3.970409048316454e-05, 'epoch': 1.49}


 37%|███▋      | 1650/4408 [10:29<15:40,  2.93it/s]

{'loss': 0.0001, 'grad_norm': 0.002085205167531967, 'learning_rate': 3.956065084991611e-05, 'epoch': 1.5}


 38%|███▊      | 1660/4408 [10:33<19:03,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.0010611480101943016, 'learning_rate': 3.941721121666769e-05, 'epoch': 1.51}


 38%|███▊      | 1670/4408 [10:37<16:06,  2.83it/s]

{'loss': 0.0619, 'grad_norm': 0.0015360291581600904, 'learning_rate': 3.927377158341926e-05, 'epoch': 1.52}


 38%|███▊      | 1680/4408 [10:40<16:51,  2.70it/s]

{'loss': 0.0001, 'grad_norm': 0.012033498845994473, 'learning_rate': 3.9130331950170835e-05, 'epoch': 1.52}


 38%|███▊      | 1690/4408 [10:44<16:59,  2.67it/s]

{'loss': 0.0001, 'grad_norm': 0.002092564944177866, 'learning_rate': 3.898689231692241e-05, 'epoch': 1.53}


 39%|███▊      | 1700/4408 [10:48<17:06,  2.64it/s]

{'loss': 0.0001, 'grad_norm': 0.0024895474780350924, 'learning_rate': 3.884345268367399e-05, 'epoch': 1.54}


 39%|███▉      | 1710/4408 [10:52<16:37,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.0011485395953059196, 'learning_rate': 3.870001305042555e-05, 'epoch': 1.55}


 39%|███▉      | 1720/4408 [10:55<16:32,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.002540301065891981, 'learning_rate': 3.8556573417177125e-05, 'epoch': 1.56}


 39%|███▉      | 1730/4408 [10:59<16:31,  2.70it/s]

{'loss': 0.0006, 'grad_norm': 0.002704308833926916, 'learning_rate': 3.84131337839287e-05, 'epoch': 1.57}


 39%|███▉      | 1740/4408 [11:03<16:26,  2.71it/s]

{'loss': 0.0173, 'grad_norm': 0.003661933122202754, 'learning_rate': 3.826969415068027e-05, 'epoch': 1.58}


 40%|███▉      | 1750/4408 [11:07<16:24,  2.70it/s]

{'loss': 0.0283, 'grad_norm': 0.0008929296163842082, 'learning_rate': 3.812625451743185e-05, 'epoch': 1.59}


 40%|███▉      | 1760/4408 [11:10<16:23,  2.69it/s]

{'loss': 0.0003, 'grad_norm': 0.0026171894278377295, 'learning_rate': 3.798281488418342e-05, 'epoch': 1.6}


 40%|████      | 1770/4408 [11:14<16:16,  2.70it/s]

{'loss': 0.0001, 'grad_norm': 0.0007115409825928509, 'learning_rate': 3.7839375250934995e-05, 'epoch': 1.61}


 40%|████      | 1780/4408 [11:18<16:24,  2.67it/s]

{'loss': 0.0001, 'grad_norm': 0.0007018567994236946, 'learning_rate': 3.769593561768656e-05, 'epoch': 1.62}


 41%|████      | 1790/4408 [11:21<16:07,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.0010386331705376506, 'learning_rate': 3.755249598443814e-05, 'epoch': 1.62}


 41%|████      | 1800/4408 [11:25<16:17,  2.67it/s]

{'loss': 0.0588, 'grad_norm': 0.002118542790412903, 'learning_rate': 3.740905635118971e-05, 'epoch': 1.63}


 41%|████      | 1810/4408 [11:29<16:06,  2.69it/s]

{'loss': 0.0003, 'grad_norm': 0.01139179989695549, 'learning_rate': 3.7265616717941286e-05, 'epoch': 1.64}


 41%|████▏     | 1820/4408 [11:33<16:01,  2.69it/s]

{'loss': 0.0003, 'grad_norm': 0.0062356991693377495, 'learning_rate': 3.712217708469286e-05, 'epoch': 1.65}


 42%|████▏     | 1830/4408 [11:36<16:00,  2.68it/s]

{'loss': 0.0003, 'grad_norm': 0.0077012632973492146, 'learning_rate': 3.697873745144444e-05, 'epoch': 1.66}


 42%|████▏     | 1840/4408 [11:40<15:48,  2.71it/s]

{'loss': 0.0065, 'grad_norm': 149.69403076171875, 'learning_rate': 3.683529781819601e-05, 'epoch': 1.67}


 42%|████▏     | 1850/4408 [11:44<15:41,  2.72it/s]

{'loss': 0.0001, 'grad_norm': 0.0028961787465959787, 'learning_rate': 3.6691858184947576e-05, 'epoch': 1.68}


 42%|████▏     | 1860/4408 [11:47<15:56,  2.66it/s]

{'loss': 0.0001, 'grad_norm': 0.0021468184422701597, 'learning_rate': 3.654841855169915e-05, 'epoch': 1.69}


 42%|████▏     | 1870/4408 [11:51<16:00,  2.64it/s]

{'loss': 0.0003, 'grad_norm': 0.0012359257088974118, 'learning_rate': 3.640497891845072e-05, 'epoch': 1.7}


 43%|████▎     | 1880/4408 [11:55<16:07,  2.61it/s]

{'loss': 0.0001, 'grad_norm': 0.0006963228224776685, 'learning_rate': 3.62615392852023e-05, 'epoch': 1.71}


 43%|████▎     | 1890/4408 [11:59<15:52,  2.64it/s]

{'loss': 0.0419, 'grad_norm': 0.0011803379748016596, 'learning_rate': 3.611809965195387e-05, 'epoch': 1.72}


 43%|████▎     | 1900/4408 [12:02<15:30,  2.69it/s]

{'loss': 0.0001, 'grad_norm': 0.0011490684701129794, 'learning_rate': 3.5974660018705446e-05, 'epoch': 1.72}


 43%|████▎     | 1910/4408 [12:06<15:11,  2.74it/s]

{'loss': 0.0006, 'grad_norm': 0.0010838494636118412, 'learning_rate': 3.583122038545702e-05, 'epoch': 1.73}


 44%|████▎     | 1920/4408 [12:10<15:17,  2.71it/s]

{'loss': 0.0848, 'grad_norm': 0.0010720128193497658, 'learning_rate': 3.568778075220859e-05, 'epoch': 1.74}


 44%|████▍     | 1930/4408 [12:13<15:15,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.0008991379872895777, 'learning_rate': 3.554434111896016e-05, 'epoch': 1.75}


 44%|████▍     | 1940/4408 [12:17<15:14,  2.70it/s]

{'loss': 0.0001, 'grad_norm': 0.001388603006489575, 'learning_rate': 3.5400901485711736e-05, 'epoch': 1.76}


 44%|████▍     | 1950/4408 [12:21<14:59,  2.73it/s]

{'loss': 0.0001, 'grad_norm': 0.0014904035488143563, 'learning_rate': 3.525746185246331e-05, 'epoch': 1.77}


 44%|████▍     | 1960/4408 [12:25<15:02,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.005846754182130098, 'learning_rate': 3.511402221921489e-05, 'epoch': 1.78}


 45%|████▍     | 1970/4408 [12:28<15:08,  2.68it/s]

{'loss': 0.0001, 'grad_norm': 0.0011225085472688079, 'learning_rate': 3.497058258596646e-05, 'epoch': 1.79}


 45%|████▍     | 1980/4408 [12:32<14:54,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.00061488599749282, 'learning_rate': 3.482714295271803e-05, 'epoch': 1.8}


 45%|████▌     | 1990/4408 [12:36<15:00,  2.68it/s]

{'loss': 0.0001, 'grad_norm': 0.0007648607715964317, 'learning_rate': 3.46837033194696e-05, 'epoch': 1.81}


 45%|████▌     | 2000/4408 [12:39<15:02,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.000736960326321423, 'learning_rate': 3.454026368622117e-05, 'epoch': 1.81}


 46%|████▌     | 2010/4408 [12:43<15:00,  2.66it/s]

{'loss': 0.0001, 'grad_norm': 0.0007354289409704506, 'learning_rate': 3.439682405297275e-05, 'epoch': 1.82}


 46%|████▌     | 2020/4408 [12:47<15:33,  2.56it/s]

{'loss': 0.0001, 'grad_norm': 0.0008669107919558883, 'learning_rate': 3.425338441972432e-05, 'epoch': 1.83}


 46%|████▌     | 2030/4408 [12:51<14:44,  2.69it/s]

{'loss': 0.0, 'grad_norm': 0.0016330101061612368, 'learning_rate': 3.4109944786475896e-05, 'epoch': 1.84}


 46%|████▋     | 2040/4408 [12:55<14:47,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.0005794079625047743, 'learning_rate': 3.396650515322747e-05, 'epoch': 1.85}


 47%|████▋     | 2050/4408 [12:58<14:30,  2.71it/s]

{'loss': 0.0, 'grad_norm': 0.001078060013242066, 'learning_rate': 3.382306551997905e-05, 'epoch': 1.86}


 47%|████▋     | 2060/4408 [13:02<14:41,  2.66it/s]

{'loss': 0.0, 'grad_norm': 0.0006041171145625412, 'learning_rate': 3.3679625886730614e-05, 'epoch': 1.87}


 47%|████▋     | 2070/4408 [13:06<14:35,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.0004784655466210097, 'learning_rate': 3.3536186253482186e-05, 'epoch': 1.88}


 47%|████▋     | 2080/4408 [13:11<18:51,  2.06it/s]

{'loss': 0.0, 'grad_norm': 0.0011833050521090627, 'learning_rate': 3.339274662023376e-05, 'epoch': 1.89}


 47%|████▋     | 2090/4408 [13:15<15:50,  2.44it/s]

{'loss': 0.0076, 'grad_norm': 0.0007133893668651581, 'learning_rate': 3.324930698698534e-05, 'epoch': 1.9}


 48%|████▊     | 2100/4408 [13:19<13:48,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.0005630607483908534, 'learning_rate': 3.310586735373691e-05, 'epoch': 1.91}


 48%|████▊     | 2110/4408 [13:23<15:51,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.0005933393258601427, 'learning_rate': 3.296242772048848e-05, 'epoch': 1.91}


 48%|████▊     | 2120/4408 [13:27<15:42,  2.43it/s]

{'loss': 0.0, 'grad_norm': 0.0007848135428503156, 'learning_rate': 3.2818988087240056e-05, 'epoch': 1.92}


 48%|████▊     | 2130/4408 [13:31<15:32,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.0008829876314848661, 'learning_rate': 3.267554845399162e-05, 'epoch': 1.93}


 49%|████▊     | 2140/4408 [13:35<15:49,  2.39it/s]

{'loss': 0.0, 'grad_norm': 0.000549203425180167, 'learning_rate': 3.25321088207432e-05, 'epoch': 1.94}


 49%|████▉     | 2150/4408 [13:39<15:02,  2.50it/s]

{'loss': 0.0, 'grad_norm': 0.0005714828730560839, 'learning_rate': 3.2388669187494774e-05, 'epoch': 1.95}


 49%|████▉     | 2160/4408 [13:43<15:49,  2.37it/s]

{'loss': 0.0, 'grad_norm': 0.0011582408333197236, 'learning_rate': 3.2245229554246346e-05, 'epoch': 1.96}


 49%|████▉     | 2170/4408 [13:47<15:17,  2.44it/s]

{'loss': 0.0369, 'grad_norm': 0.00046178660704754293, 'learning_rate': 3.210178992099792e-05, 'epoch': 1.97}


 49%|████▉     | 2180/4408 [13:51<15:12,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.0004703108570538461, 'learning_rate': 3.19583502877495e-05, 'epoch': 1.98}


 50%|████▉     | 2190/4408 [13:56<15:10,  2.44it/s]

{'loss': 0.0001, 'grad_norm': 0.13010288774967194, 'learning_rate': 3.181491065450107e-05, 'epoch': 1.99}


 50%|████▉     | 2200/4408 [14:00<14:01,  2.62it/s]

{'loss': 0.0229, 'grad_norm': 0.0006437173578888178, 'learning_rate': 3.167147102125264e-05, 'epoch': 2.0}


 50%|█████     | 2204/4408 [14:01<10:25,  3.52it/s]
 50%|█████     | 2204/4408 [14:36<10:25,  3.52it/s]

{'eval_loss': 0.014811618253588676, 'eval_accuracy': 0.998002542218994, 'eval_f1': 0.9980099529019423, 'eval_runtime': 35.5989, 'eval_samples_per_second': 154.696, 'eval_steps_per_second': 19.355, 'epoch': 2.0}


 50%|█████     | 2211/4408 [15:14<1:40:29,  2.74s/it] 

{'loss': 0.0, 'grad_norm': 0.0005520557751879096, 'learning_rate': 3.1528031388004216e-05, 'epoch': 2.01}


 50%|█████     | 2221/4408 [15:16<09:28,  3.84it/s]  

{'loss': 0.0, 'grad_norm': 0.00045930108171887696, 'learning_rate': 3.138459175475579e-05, 'epoch': 2.01}


 51%|█████     | 2231/4408 [15:18<08:20,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.00041425396921113133, 'learning_rate': 3.124115212150736e-05, 'epoch': 2.02}


 51%|█████     | 2240/4408 [15:20<07:55,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.0006001029396429658, 'learning_rate': 3.1097712488258934e-05, 'epoch': 2.03}


 51%|█████     | 2250/4408 [15:22<07:44,  4.65it/s]

{'loss': 0.0, 'grad_norm': 0.00037852476816624403, 'learning_rate': 3.0954272855010506e-05, 'epoch': 2.04}


 51%|█████▏    | 2261/4408 [15:25<07:33,  4.74it/s]

{'loss': 0.0, 'grad_norm': 0.00044908098061569035, 'learning_rate': 3.081083322176208e-05, 'epoch': 2.05}


 52%|█████▏    | 2271/4408 [15:27<07:21,  4.84it/s]

{'loss': 0.0, 'grad_norm': 0.00045075445086695254, 'learning_rate': 3.066739358851365e-05, 'epoch': 2.06}


 52%|█████▏    | 2280/4408 [15:29<07:23,  4.80it/s]

{'loss': 0.0, 'grad_norm': 0.00036988852662034333, 'learning_rate': 3.0523953955265224e-05, 'epoch': 2.07}


 52%|█████▏    | 2290/4408 [15:31<07:27,  4.74it/s]

{'loss': 0.0, 'grad_norm': 0.0005198601866140962, 'learning_rate': 3.0380514322016797e-05, 'epoch': 2.08}


 52%|█████▏    | 2300/4408 [15:33<07:28,  4.70it/s]

{'loss': 0.0, 'grad_norm': 0.0005821505910716951, 'learning_rate': 3.0237074688768373e-05, 'epoch': 2.09}


 52%|█████▏    | 2311/4408 [15:35<07:14,  4.83it/s]

{'loss': 0.0, 'grad_norm': 0.0004504769458435476, 'learning_rate': 3.0093635055519945e-05, 'epoch': 2.1}


 53%|█████▎    | 2320/4408 [15:38<08:45,  3.97it/s]

{'loss': 0.0, 'grad_norm': 0.00047978656948544085, 'learning_rate': 2.9950195422271518e-05, 'epoch': 2.11}


 53%|█████▎    | 2330/4408 [15:40<09:26,  3.67it/s]

{'loss': 0.0, 'grad_norm': 0.0004677001852542162, 'learning_rate': 2.980675578902309e-05, 'epoch': 2.11}


 53%|█████▎    | 2340/4408 [15:43<09:55,  3.47it/s]

{'loss': 0.0, 'grad_norm': 0.00034343849983997643, 'learning_rate': 2.9663316155774666e-05, 'epoch': 2.12}


 53%|█████▎    | 2350/4408 [15:46<08:50,  3.88it/s]

{'loss': 0.0, 'grad_norm': 0.00034761353163048625, 'learning_rate': 2.951987652252624e-05, 'epoch': 2.13}


 54%|█████▎    | 2360/4408 [15:49<09:27,  3.61it/s]

{'loss': 0.0, 'grad_norm': 0.00037919945316389203, 'learning_rate': 2.937643688927781e-05, 'epoch': 2.14}


 54%|█████▍    | 2370/4408 [15:51<09:21,  3.63it/s]

{'loss': 0.0, 'grad_norm': 0.0005478714010678232, 'learning_rate': 2.9232997256029384e-05, 'epoch': 2.15}


 54%|█████▍    | 2380/4408 [15:54<09:04,  3.72it/s]

{'loss': 0.0, 'grad_norm': 0.0005752171273343265, 'learning_rate': 2.908955762278096e-05, 'epoch': 2.16}


 54%|█████▍    | 2390/4408 [15:57<08:51,  3.80it/s]

{'loss': 0.0, 'grad_norm': 0.0003152526915073395, 'learning_rate': 2.894611798953253e-05, 'epoch': 2.17}


 54%|█████▍    | 2400/4408 [16:00<08:56,  3.74it/s]

{'loss': 0.0, 'grad_norm': 0.0005995829124003649, 'learning_rate': 2.8802678356284102e-05, 'epoch': 2.18}


 55%|█████▍    | 2410/4408 [16:02<11:19,  2.94it/s]

{'loss': 0.0, 'grad_norm': 0.00032145314617082477, 'learning_rate': 2.8659238723035678e-05, 'epoch': 2.19}


 55%|█████▍    | 2420/4408 [16:06<09:51,  3.36it/s]

{'loss': 0.0, 'grad_norm': 0.0003447742201387882, 'learning_rate': 2.851579908978725e-05, 'epoch': 2.2}


 55%|█████▌    | 2430/4408 [16:09<09:48,  3.36it/s]

{'loss': 0.0, 'grad_norm': 0.023243581876158714, 'learning_rate': 2.8372359456538823e-05, 'epoch': 2.21}


 55%|█████▌    | 2440/4408 [16:11<09:42,  3.38it/s]

{'loss': 0.0, 'grad_norm': 0.0007904780213721097, 'learning_rate': 2.8228919823290396e-05, 'epoch': 2.21}


 56%|█████▌    | 2450/4408 [16:15<12:07,  2.69it/s]

{'loss': 0.0, 'grad_norm': 0.0021352912299335003, 'learning_rate': 2.808548019004197e-05, 'epoch': 2.22}


 56%|█████▌    | 2460/4408 [16:19<11:48,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00035387350362725556, 'learning_rate': 2.794204055679354e-05, 'epoch': 2.23}


 56%|█████▌    | 2470/4408 [16:22<11:05,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0003900598967447877, 'learning_rate': 2.7798600923545117e-05, 'epoch': 2.24}


 56%|█████▋    | 2480/4408 [16:26<13:17,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.0003426300536375493, 'learning_rate': 2.765516129029669e-05, 'epoch': 2.25}


 56%|█████▋    | 2490/4408 [16:30<12:38,  2.53it/s]

{'loss': 0.026, 'grad_norm': 0.000294852361548692, 'learning_rate': 2.7511721657048265e-05, 'epoch': 2.26}


 57%|█████▋    | 2500/4408 [16:33<11:48,  2.69it/s]

{'loss': 0.0, 'grad_norm': 0.00040813160012476146, 'learning_rate': 2.7368282023799834e-05, 'epoch': 2.27}


 57%|█████▋    | 2510/4408 [16:37<10:35,  2.99it/s]

{'loss': 0.0, 'grad_norm': 0.0002374010655330494, 'learning_rate': 2.722484239055141e-05, 'epoch': 2.28}


 57%|█████▋    | 2520/4408 [16:40<10:13,  3.08it/s]

{'loss': 0.0, 'grad_norm': 0.00028927074163220823, 'learning_rate': 2.7081402757302983e-05, 'epoch': 2.29}


 57%|█████▋    | 2530/4408 [16:44<11:14,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.00043965395889244974, 'learning_rate': 2.6937963124054556e-05, 'epoch': 2.3}


 58%|█████▊    | 2540/4408 [16:48<13:32,  2.30it/s]

{'loss': 0.0, 'grad_norm': 0.0003130600671283901, 'learning_rate': 2.6794523490806128e-05, 'epoch': 2.3}


 58%|█████▊    | 2550/4408 [16:52<13:10,  2.35it/s]

{'loss': 0.0001, 'grad_norm': 0.00042332912562415004, 'learning_rate': 2.66510838575577e-05, 'epoch': 2.31}


 58%|█████▊    | 2560/4408 [16:57<11:54,  2.59it/s]

{'loss': 0.0, 'grad_norm': 0.03774353861808777, 'learning_rate': 2.6507644224309277e-05, 'epoch': 2.32}


 58%|█████▊    | 2570/4408 [17:00<10:01,  3.05it/s]

{'loss': 0.0, 'grad_norm': 0.00025474774884060025, 'learning_rate': 2.6364204591060846e-05, 'epoch': 2.33}


 59%|█████▊    | 2580/4408 [17:03<11:01,  2.76it/s]

{'loss': 0.0475, 'grad_norm': 18.932687759399414, 'learning_rate': 2.6220764957812422e-05, 'epoch': 2.34}


 59%|█████▉    | 2590/4408 [17:07<12:31,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.00033215712755918503, 'learning_rate': 2.6077325324563994e-05, 'epoch': 2.35}


 59%|█████▉    | 2600/4408 [17:11<10:35,  2.85it/s]

{'loss': 0.0, 'grad_norm': 0.00025479134637862444, 'learning_rate': 2.5933885691315567e-05, 'epoch': 2.36}


 59%|█████▉    | 2610/4408 [17:15<10:11,  2.94it/s]

{'loss': 0.0018, 'grad_norm': 0.0002839546068571508, 'learning_rate': 2.579044605806714e-05, 'epoch': 2.37}


 59%|█████▉    | 2620/4408 [17:18<10:14,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0006011008517816663, 'learning_rate': 2.5647006424818716e-05, 'epoch': 2.38}


 60%|█████▉    | 2630/4408 [17:21<10:03,  2.94it/s]

{'loss': 0.0, 'grad_norm': 0.0008527213940396905, 'learning_rate': 2.5503566791570288e-05, 'epoch': 2.39}


 60%|█████▉    | 2640/4408 [17:25<10:06,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.00034825486363843083, 'learning_rate': 2.536012715832186e-05, 'epoch': 2.4}


 60%|██████    | 2650/4408 [17:29<11:10,  2.62it/s]

{'loss': 0.0, 'grad_norm': 0.00048479437828063965, 'learning_rate': 2.5216687525073433e-05, 'epoch': 2.4}


 60%|██████    | 2660/4408 [17:33<10:25,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.0003779477847274393, 'learning_rate': 2.507324789182501e-05, 'epoch': 2.41}


 61%|██████    | 2670/4408 [17:36<10:23,  2.79it/s]

{'loss': 0.0223, 'grad_norm': 0.0003585892263799906, 'learning_rate': 2.492980825857658e-05, 'epoch': 2.42}


 61%|██████    | 2680/4408 [17:40<10:19,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.00019773807434830815, 'learning_rate': 2.4786368625328155e-05, 'epoch': 2.43}


 61%|██████    | 2690/4408 [17:44<10:20,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00040893041295930743, 'learning_rate': 2.4642928992079727e-05, 'epoch': 2.44}


 61%|██████▏   | 2700/4408 [17:47<10:18,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.00032385849044658244, 'learning_rate': 2.44994893588313e-05, 'epoch': 2.45}


 61%|██████▏   | 2710/4408 [17:51<10:12,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00034079357283189893, 'learning_rate': 2.4356049725582872e-05, 'epoch': 2.46}


 62%|██████▏   | 2720/4408 [17:54<10:09,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00027565081836655736, 'learning_rate': 2.4212610092334445e-05, 'epoch': 2.47}


 62%|██████▏   | 2730/4408 [17:58<10:05,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.0003628150443546474, 'learning_rate': 2.406917045908602e-05, 'epoch': 2.48}


 62%|██████▏   | 2740/4408 [18:02<10:03,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.00026573333889245987, 'learning_rate': 2.392573082583759e-05, 'epoch': 2.49}


 62%|██████▏   | 2750/4408 [18:05<09:57,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.0002569317875895649, 'learning_rate': 2.3782291192589166e-05, 'epoch': 2.5}


 63%|██████▎   | 2760/4408 [18:09<13:26,  2.04it/s]

{'loss': 0.0, 'grad_norm': 0.00035799440229311585, 'learning_rate': 2.363885155934074e-05, 'epoch': 2.5}


 63%|██████▎   | 2770/4408 [18:14<10:10,  2.68it/s]

{'loss': 0.0, 'grad_norm': 0.00035830363049171865, 'learning_rate': 2.3495411926092315e-05, 'epoch': 2.51}


 63%|██████▎   | 2780/4408 [18:18<11:03,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.0002668240631464869, 'learning_rate': 2.3351972292843884e-05, 'epoch': 2.52}


 63%|██████▎   | 2790/4408 [18:22<08:52,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.0005343837547115982, 'learning_rate': 2.320853265959546e-05, 'epoch': 2.53}


 64%|██████▎   | 2800/4408 [18:26<10:46,  2.49it/s]

{'loss': 0.0508, 'grad_norm': 0.002006543567404151, 'learning_rate': 2.3065093026347032e-05, 'epoch': 2.54}


 64%|██████▎   | 2810/4408 [18:30<10:13,  2.60it/s]

{'loss': 0.0001, 'grad_norm': 0.006287867669016123, 'learning_rate': 2.2921653393098605e-05, 'epoch': 2.55}


 64%|██████▍   | 2820/4408 [18:34<10:13,  2.59it/s]

{'loss': 0.0001, 'grad_norm': 0.004404056817293167, 'learning_rate': 2.2778213759850177e-05, 'epoch': 2.56}


 64%|██████▍   | 2830/4408 [18:38<10:06,  2.60it/s]

{'loss': 0.0001, 'grad_norm': 0.004689756315201521, 'learning_rate': 2.263477412660175e-05, 'epoch': 2.57}


 64%|██████▍   | 2840/4408 [18:41<10:03,  2.60it/s]

{'loss': 0.0001, 'grad_norm': 0.0043602678924798965, 'learning_rate': 2.2491334493353326e-05, 'epoch': 2.58}


 65%|██████▍   | 2850/4408 [18:45<10:02,  2.59it/s]

{'loss': 0.0001, 'grad_norm': 0.161898672580719, 'learning_rate': 2.2347894860104895e-05, 'epoch': 2.59}


 65%|██████▍   | 2860/4408 [18:49<09:56,  2.59it/s]

{'loss': 0.0001, 'grad_norm': 0.004124073777347803, 'learning_rate': 2.220445522685647e-05, 'epoch': 2.6}


 65%|██████▌   | 2870/4408 [18:53<09:56,  2.58it/s]

{'loss': 0.0, 'grad_norm': 0.0010787677019834518, 'learning_rate': 2.2061015593608044e-05, 'epoch': 2.6}


 65%|██████▌   | 2880/4408 [18:57<09:50,  2.59it/s]

{'loss': 0.0001, 'grad_norm': 0.0018735670018941164, 'learning_rate': 2.1917575960359616e-05, 'epoch': 2.61}


 66%|██████▌   | 2890/4408 [19:01<09:47,  2.59it/s]

{'loss': 0.0001, 'grad_norm': 0.001651913858950138, 'learning_rate': 2.177413632711119e-05, 'epoch': 2.62}


 66%|██████▌   | 2900/4408 [19:05<09:46,  2.57it/s]

{'loss': 0.0001, 'grad_norm': 0.0007792941760271788, 'learning_rate': 2.1630696693862765e-05, 'epoch': 2.63}


 66%|██████▌   | 2910/4408 [19:09<09:39,  2.58it/s]

{'loss': 0.0, 'grad_norm': 0.00047735541011206806, 'learning_rate': 2.1487257060614338e-05, 'epoch': 2.64}


 66%|██████▌   | 2920/4408 [19:12<09:33,  2.59it/s]

{'loss': 0.0, 'grad_norm': 0.0004257996042724699, 'learning_rate': 2.134381742736591e-05, 'epoch': 2.65}


 66%|██████▋   | 2930/4408 [19:16<08:15,  2.98it/s]

{'loss': 0.0, 'grad_norm': 0.0011577227851375937, 'learning_rate': 2.1200377794117483e-05, 'epoch': 2.66}


 67%|██████▋   | 2940/4408 [19:19<07:48,  3.13it/s]

{'loss': 0.0, 'grad_norm': 0.0006678387289866805, 'learning_rate': 2.105693816086906e-05, 'epoch': 2.67}


 67%|██████▋   | 2950/4408 [19:23<08:12,  2.96it/s]

{'loss': 0.0, 'grad_norm': 0.0013309891801327467, 'learning_rate': 2.0913498527620628e-05, 'epoch': 2.68}


 67%|██████▋   | 2960/4408 [19:27<10:24,  2.32it/s]

{'loss': 0.0, 'grad_norm': 0.000307290640193969, 'learning_rate': 2.0770058894372204e-05, 'epoch': 2.69}


 67%|██████▋   | 2970/4408 [19:30<08:03,  2.97it/s]

{'loss': 0.0, 'grad_norm': 0.0014006271958351135, 'learning_rate': 2.0626619261123776e-05, 'epoch': 2.7}


 68%|██████▊   | 2980/4408 [19:34<09:06,  2.61it/s]

{'loss': 0.0, 'grad_norm': 0.0012007097247987986, 'learning_rate': 2.048317962787535e-05, 'epoch': 2.7}


 68%|██████▊   | 2990/4408 [19:38<08:58,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0007374112610705197, 'learning_rate': 2.033973999462692e-05, 'epoch': 2.71}


 68%|██████▊   | 3000/4408 [19:42<08:55,  2.63it/s]

{'loss': 0.0254, 'grad_norm': 0.0008744083461351693, 'learning_rate': 2.0196300361378494e-05, 'epoch': 2.72}


 68%|██████▊   | 3010/4408 [19:46<08:47,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0006082315812818706, 'learning_rate': 2.005286072813007e-05, 'epoch': 2.73}


 69%|██████▊   | 3020/4408 [19:49<08:40,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.0003984139475505799, 'learning_rate': 1.990942109488164e-05, 'epoch': 2.74}


 69%|██████▊   | 3030/4408 [19:53<08:41,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00040344265289604664, 'learning_rate': 1.9765981461633215e-05, 'epoch': 2.75}


 69%|██████▉   | 3040/4408 [19:57<08:38,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0008874128689058125, 'learning_rate': 1.9622541828384788e-05, 'epoch': 2.76}


 69%|██████▉   | 3050/4408 [20:01<08:33,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0005526320310309529, 'learning_rate': 1.9479102195136364e-05, 'epoch': 2.77}


 69%|██████▉   | 3060/4408 [20:05<08:34,  2.62it/s]

{'loss': 0.0, 'grad_norm': 0.0004675632808357477, 'learning_rate': 1.9335662561887933e-05, 'epoch': 2.78}


 70%|██████▉   | 3070/4408 [20:08<08:28,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0005966061726212502, 'learning_rate': 1.919222292863951e-05, 'epoch': 2.79}


 70%|██████▉   | 3080/4408 [20:12<08:23,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0005853971815668046, 'learning_rate': 1.904878329539108e-05, 'epoch': 2.79}


 70%|███████   | 3090/4408 [20:16<08:16,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0003601105127017945, 'learning_rate': 1.8905343662142654e-05, 'epoch': 2.8}


 70%|███████   | 3100/4408 [20:20<08:16,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0004924442619085312, 'learning_rate': 1.8761904028894227e-05, 'epoch': 2.81}


 71%|███████   | 3110/4408 [20:24<08:10,  2.65it/s]

{'loss': 0.0317, 'grad_norm': 0.0004153427726123482, 'learning_rate': 1.8618464395645803e-05, 'epoch': 2.82}


 71%|███████   | 3120/4408 [20:27<08:05,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0004427599487826228, 'learning_rate': 1.8475024762397375e-05, 'epoch': 2.83}


 71%|███████   | 3130/4408 [20:31<08:02,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0003749285242520273, 'learning_rate': 1.8331585129148945e-05, 'epoch': 2.84}


 71%|███████   | 3140/4408 [20:35<07:59,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0005186758935451508, 'learning_rate': 1.818814549590052e-05, 'epoch': 2.85}


 71%|███████▏  | 3150/4408 [20:39<07:58,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00036449951585382223, 'learning_rate': 1.8044705862652093e-05, 'epoch': 2.86}


 72%|███████▏  | 3160/4408 [20:42<07:51,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0003658247587736696, 'learning_rate': 1.7901266229403666e-05, 'epoch': 2.87}


 72%|███████▏  | 3170/4408 [20:46<07:47,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.00025317881954833865, 'learning_rate': 1.7757826596155238e-05, 'epoch': 2.88}


 72%|███████▏  | 3180/4408 [20:50<07:39,  2.67it/s]

{'loss': 0.0, 'grad_norm': 0.00039232231210917234, 'learning_rate': 1.7614386962906814e-05, 'epoch': 2.89}


 72%|███████▏  | 3190/4408 [20:54<07:37,  2.66it/s]

{'loss': 0.0, 'grad_norm': 0.00035229779314249754, 'learning_rate': 1.7470947329658387e-05, 'epoch': 2.89}


 73%|███████▎  | 3200/4408 [20:58<07:37,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00029453294700942934, 'learning_rate': 1.732750769640996e-05, 'epoch': 2.9}


 73%|███████▎  | 3210/4408 [21:01<07:33,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0006225553806871176, 'learning_rate': 1.7184068063161532e-05, 'epoch': 2.91}


 73%|███████▎  | 3220/4408 [21:05<07:28,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0005670671234838665, 'learning_rate': 1.7040628429913108e-05, 'epoch': 2.92}


 73%|███████▎  | 3230/4408 [21:09<07:24,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0002587278140708804, 'learning_rate': 1.6897188796664677e-05, 'epoch': 2.93}


 74%|███████▎  | 3240/4408 [21:13<07:23,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0006645884714089334, 'learning_rate': 1.6753749163416253e-05, 'epoch': 2.94}


 74%|███████▎  | 3250/4408 [21:17<07:21,  2.62it/s]

{'loss': 0.0, 'grad_norm': 0.00047903452650643885, 'learning_rate': 1.6610309530167826e-05, 'epoch': 2.95}


 74%|███████▍  | 3260/4408 [21:20<07:14,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0006491452804766595, 'learning_rate': 1.6466869896919398e-05, 'epoch': 2.96}


 74%|███████▍  | 3270/4408 [21:24<07:11,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0009235258912667632, 'learning_rate': 1.632343026367097e-05, 'epoch': 2.97}


 74%|███████▍  | 3280/4408 [21:28<07:05,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0003005899197887629, 'learning_rate': 1.6179990630422543e-05, 'epoch': 2.98}


 75%|███████▍  | 3290/4408 [21:32<07:04,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0003953156992793083, 'learning_rate': 1.603655099717412e-05, 'epoch': 2.99}


 75%|███████▍  | 3300/4408 [21:35<07:01,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0004379523452371359, 'learning_rate': 1.589311136392569e-05, 'epoch': 2.99}


 75%|███████▌  | 3306/4408 [21:38<05:38,  3.26it/s]
 75%|███████▌  | 3306/4408 [22:16<05:38,  3.26it/s]

{'eval_loss': 0.0063905660063028336, 'eval_accuracy': 0.9990920646449972, 'eval_f1': 0.9990921436286169, 'eval_runtime': 38.4044, 'eval_samples_per_second': 143.395, 'eval_steps_per_second': 17.941, 'epoch': 3.0}


 75%|███████▌  | 3311/4408 [22:54<1:42:40,  5.62s/it]

{'loss': 0.0, 'grad_norm': 0.0006116842851042747, 'learning_rate': 1.5749671730677265e-05, 'epoch': 3.0}


 75%|███████▌  | 3321/4408 [22:55<06:14,  2.90it/s]  

{'loss': 0.0, 'grad_norm': 0.0002597200800664723, 'learning_rate': 1.5606232097428837e-05, 'epoch': 3.01}


 76%|███████▌  | 3331/4408 [22:57<03:28,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0006814161315560341, 'learning_rate': 1.546279246418041e-05, 'epoch': 3.02}


 76%|███████▌  | 3341/4408 [22:59<03:31,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.0003825007879640907, 'learning_rate': 1.5319352830931982e-05, 'epoch': 3.03}


 76%|███████▌  | 3351/4408 [23:01<03:34,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.0006685852422378957, 'learning_rate': 1.5175913197683557e-05, 'epoch': 3.04}


 76%|███████▌  | 3361/4408 [23:04<03:34,  4.89it/s]

{'loss': 0.0022, 'grad_norm': 1.6328343152999878, 'learning_rate': 1.503247356443513e-05, 'epoch': 3.05}


 76%|███████▋  | 3371/4408 [23:06<03:39,  4.73it/s]

{'loss': 0.0, 'grad_norm': 0.00026357517344877124, 'learning_rate': 1.4889033931186703e-05, 'epoch': 3.06}


 77%|███████▋  | 3380/4408 [23:08<03:37,  4.74it/s]

{'loss': 0.0, 'grad_norm': 0.0002559521817602217, 'learning_rate': 1.4745594297938276e-05, 'epoch': 3.07}


 77%|███████▋  | 3390/4408 [23:10<03:37,  4.69it/s]

{'loss': 0.0, 'grad_norm': 0.00028314560768194497, 'learning_rate': 1.460215466468985e-05, 'epoch': 3.08}


 77%|███████▋  | 3400/4408 [23:12<03:34,  4.70it/s]

{'loss': 0.0, 'grad_norm': 0.000404287624405697, 'learning_rate': 1.4458715031441423e-05, 'epoch': 3.09}


 77%|███████▋  | 3410/4408 [23:14<03:36,  4.60it/s]

{'loss': 0.0, 'grad_norm': 0.0003260271914768964, 'learning_rate': 1.4315275398192995e-05, 'epoch': 3.09}


 78%|███████▊  | 3420/4408 [23:16<03:44,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.0003022345481440425, 'learning_rate': 1.417183576494457e-05, 'epoch': 3.1}


 78%|███████▊  | 3430/4408 [23:19<03:39,  4.45it/s]

{'loss': 0.0, 'grad_norm': 0.00022909088875167072, 'learning_rate': 1.4028396131696142e-05, 'epoch': 3.11}


 78%|███████▊  | 3440/4408 [23:21<03:46,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0002762213407550007, 'learning_rate': 1.3884956498447717e-05, 'epoch': 3.12}


 78%|███████▊  | 3450/4408 [23:23<03:40,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0002459533861838281, 'learning_rate': 1.374151686519929e-05, 'epoch': 3.13}


 78%|███████▊  | 3460/4408 [23:26<04:03,  3.89it/s]

{'loss': 0.0174, 'grad_norm': 0.0001877771719591692, 'learning_rate': 1.3598077231950863e-05, 'epoch': 3.14}


 79%|███████▊  | 3470/4408 [23:28<03:42,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.00040853710379451513, 'learning_rate': 1.3454637598702434e-05, 'epoch': 3.15}


 79%|███████▉  | 3480/4408 [23:31<04:34,  3.38it/s]

{'loss': 0.0, 'grad_norm': 0.0002996412222273648, 'learning_rate': 1.3311197965454007e-05, 'epoch': 3.16}


 79%|███████▉  | 3490/4408 [23:34<03:46,  4.06it/s]

{'loss': 0.0, 'grad_norm': 0.0003920088638551533, 'learning_rate': 1.3167758332205581e-05, 'epoch': 3.17}


 79%|███████▉  | 3500/4408 [23:36<04:17,  3.53it/s]

{'loss': 0.0, 'grad_norm': 0.00025248463498428464, 'learning_rate': 1.3024318698957154e-05, 'epoch': 3.18}


 80%|███████▉  | 3510/4408 [23:39<04:06,  3.64it/s]

{'loss': 0.0, 'grad_norm': 0.000836916035041213, 'learning_rate': 1.2880879065708728e-05, 'epoch': 3.19}


 80%|███████▉  | 3520/4408 [23:42<04:04,  3.63it/s]

{'loss': 0.0, 'grad_norm': 0.0003726445429492742, 'learning_rate': 1.27374394324603e-05, 'epoch': 3.19}


 80%|████████  | 3530/4408 [23:45<04:34,  3.19it/s]

{'loss': 0.0055, 'grad_norm': 0.00034076484735123813, 'learning_rate': 1.2593999799211875e-05, 'epoch': 3.2}


 80%|████████  | 3540/4408 [23:48<04:34,  3.16it/s]

{'loss': 0.0, 'grad_norm': 0.00045540338032878935, 'learning_rate': 1.2450560165963448e-05, 'epoch': 3.21}


 81%|████████  | 3550/4408 [23:51<04:32,  3.15it/s]

{'loss': 0.0, 'grad_norm': 0.00025349753559567034, 'learning_rate': 1.230712053271502e-05, 'epoch': 3.22}


 81%|████████  | 3560/4408 [23:55<04:28,  3.15it/s]

{'loss': 0.0, 'grad_norm': 0.00034577419864945114, 'learning_rate': 1.2163680899466594e-05, 'epoch': 3.23}


 81%|████████  | 3570/4408 [23:58<05:17,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00021167038357816637, 'learning_rate': 1.2020241266218167e-05, 'epoch': 3.24}


 81%|████████  | 3580/4408 [24:02<04:19,  3.19it/s]

{'loss': 0.0, 'grad_norm': 0.00033493436058051884, 'learning_rate': 1.1876801632969741e-05, 'epoch': 3.25}


 81%|████████▏ | 3590/4408 [24:05<04:15,  3.21it/s]

{'loss': 0.0, 'grad_norm': 0.00037345776217989624, 'learning_rate': 1.1733361999721314e-05, 'epoch': 3.26}


 82%|████████▏ | 3600/4408 [24:08<05:06,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00023917341604828835, 'learning_rate': 1.1589922366472888e-05, 'epoch': 3.27}


 82%|████████▏ | 3610/4408 [24:12<04:36,  2.89it/s]

{'loss': 0.0, 'grad_norm': 0.00038989531458355486, 'learning_rate': 1.1446482733224459e-05, 'epoch': 3.28}


 82%|████████▏ | 3620/4408 [24:15<04:29,  2.92it/s]

{'loss': 0.0, 'grad_norm': 0.000320238497806713, 'learning_rate': 1.1303043099976032e-05, 'epoch': 3.28}


 82%|████████▏ | 3630/4408 [24:19<04:25,  2.93it/s]

{'loss': 0.0, 'grad_norm': 0.0003043697797693312, 'learning_rate': 1.1159603466727606e-05, 'epoch': 3.29}


 83%|████████▎ | 3640/4408 [24:22<04:23,  2.91it/s]

{'loss': 0.0, 'grad_norm': 0.0003447473281994462, 'learning_rate': 1.1016163833479178e-05, 'epoch': 3.3}


 83%|████████▎ | 3650/4408 [24:26<04:21,  2.90it/s]

{'loss': 0.0, 'grad_norm': 0.0004477000329643488, 'learning_rate': 1.0872724200230753e-05, 'epoch': 3.31}


 83%|████████▎ | 3660/4408 [24:29<04:19,  2.88it/s]

{'loss': 0.0, 'grad_norm': 0.006915181875228882, 'learning_rate': 1.0729284566982325e-05, 'epoch': 3.32}


 83%|████████▎ | 3670/4408 [24:33<06:40,  1.84it/s]

{'loss': 0.0, 'grad_norm': 0.0004266932373866439, 'learning_rate': 1.05858449337339e-05, 'epoch': 3.33}


 83%|████████▎ | 3680/4408 [24:37<05:02,  2.40it/s]

{'loss': 0.0, 'grad_norm': 0.00025976772303692997, 'learning_rate': 1.0442405300485472e-05, 'epoch': 3.34}


 84%|████████▎ | 3690/4408 [24:41<04:16,  2.80it/s]

{'loss': 0.0, 'grad_norm': 0.00033786430140025914, 'learning_rate': 1.0298965667237045e-05, 'epoch': 3.35}


 84%|████████▍ | 3700/4408 [24:44<04:13,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.0003335028304718435, 'learning_rate': 1.0155526033988619e-05, 'epoch': 3.36}


 84%|████████▍ | 3710/4408 [24:48<04:10,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.00031031022081151605, 'learning_rate': 1.0012086400740192e-05, 'epoch': 3.37}


 84%|████████▍ | 3720/4408 [24:52<04:08,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.000266843824647367, 'learning_rate': 9.868646767491766e-06, 'epoch': 3.38}


 85%|████████▍ | 3730/4408 [24:55<04:04,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.00016596735804341733, 'learning_rate': 9.725207134243338e-06, 'epoch': 3.38}


 85%|████████▍ | 3740/4408 [24:59<04:00,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.0003812640788964927, 'learning_rate': 9.581767500994913e-06, 'epoch': 3.39}


 85%|████████▌ | 3750/4408 [25:02<03:56,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.00015801966947037727, 'learning_rate': 9.438327867746484e-06, 'epoch': 3.4}


 85%|████████▌ | 3760/4408 [25:06<03:54,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00036641329643316567, 'learning_rate': 9.294888234498056e-06, 'epoch': 3.41}


 86%|████████▌ | 3770/4408 [25:10<03:50,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.0003396232204977423, 'learning_rate': 9.15144860124963e-06, 'epoch': 3.42}


 86%|████████▌ | 3780/4408 [25:13<03:45,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.00040689067100174725, 'learning_rate': 9.008008968001203e-06, 'epoch': 3.43}


 86%|████████▌ | 3790/4408 [25:17<03:42,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00017499768000561744, 'learning_rate': 8.864569334752777e-06, 'epoch': 3.44}


 86%|████████▌ | 3800/4408 [25:20<03:39,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00017691920220386237, 'learning_rate': 8.72112970150435e-06, 'epoch': 3.45}


 86%|████████▋ | 3810/4408 [25:24<03:35,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.0002999706193804741, 'learning_rate': 8.577690068255923e-06, 'epoch': 3.46}


 87%|████████▋ | 3820/4408 [25:29<04:22,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.00017759145703166723, 'learning_rate': 8.434250435007497e-06, 'epoch': 3.47}


 87%|████████▋ | 3830/4408 [25:33<03:34,  2.69it/s]

{'loss': 0.0, 'grad_norm': 0.00029855562024749815, 'learning_rate': 8.29081080175907e-06, 'epoch': 3.48}


 87%|████████▋ | 3840/4408 [25:37<03:25,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.0006236532935872674, 'learning_rate': 8.147371168510644e-06, 'epoch': 3.48}


 87%|████████▋ | 3850/4408 [25:40<03:21,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.00027428922476246953, 'learning_rate': 8.003931535262216e-06, 'epoch': 3.49}


 88%|████████▊ | 3860/4408 [25:44<03:19,  2.74it/s]

{'loss': 0.0, 'grad_norm': 0.0006078257574699819, 'learning_rate': 7.860491902013789e-06, 'epoch': 3.5}


 88%|████████▊ | 3870/4408 [25:47<03:14,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.0002150318177882582, 'learning_rate': 7.717052268765363e-06, 'epoch': 3.51}


 88%|████████▊ | 3880/4408 [25:51<03:12,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00020560354460030794, 'learning_rate': 7.573612635516936e-06, 'epoch': 3.52}


 88%|████████▊ | 3890/4408 [25:55<03:08,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.0003055798588320613, 'learning_rate': 7.430173002268509e-06, 'epoch': 3.53}


 88%|████████▊ | 3900/4408 [25:58<03:05,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00035704922629520297, 'learning_rate': 7.286733369020083e-06, 'epoch': 3.54}


 89%|████████▊ | 3910/4408 [26:02<03:00,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.00020860588119830936, 'learning_rate': 7.143293735771656e-06, 'epoch': 3.55}


 89%|████████▉ | 3920/4408 [26:06<02:56,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.0004110231820959598, 'learning_rate': 6.999854102523228e-06, 'epoch': 3.56}


 89%|████████▉ | 3930/4408 [26:09<02:54,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00020557329116854817, 'learning_rate': 6.856414469274801e-06, 'epoch': 3.57}


 89%|████████▉ | 3940/4408 [26:13<02:50,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00021130646928213537, 'learning_rate': 6.712974836026375e-06, 'epoch': 3.58}


 90%|████████▉ | 3950/4408 [26:16<02:45,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.0002947322209365666, 'learning_rate': 6.569535202777948e-06, 'epoch': 3.58}


 90%|████████▉ | 3960/4408 [26:20<02:43,  2.74it/s]

{'loss': 0.0, 'grad_norm': 0.00028277645469643176, 'learning_rate': 6.4260955695295215e-06, 'epoch': 3.59}


 90%|█████████ | 3970/4408 [26:24<02:39,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00037529057590290904, 'learning_rate': 6.282655936281095e-06, 'epoch': 3.6}


 90%|█████████ | 3980/4408 [26:27<02:35,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.0003203667001798749, 'learning_rate': 6.1392163030326675e-06, 'epoch': 3.61}


 91%|█████████ | 3990/4408 [26:32<02:45,  2.52it/s]

{'loss': 0.0, 'grad_norm': 0.00040477054426446557, 'learning_rate': 5.995776669784241e-06, 'epoch': 3.62}


 91%|█████████ | 4000/4408 [26:35<02:29,  2.73it/s]

{'loss': 0.0, 'grad_norm': 0.00020842677622567862, 'learning_rate': 5.8523370365358135e-06, 'epoch': 3.63}


 91%|█████████ | 4010/4408 [26:39<02:24,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.00032894551986828446, 'learning_rate': 5.708897403287387e-06, 'epoch': 3.64}


 91%|█████████ | 4020/4408 [26:42<02:21,  2.74it/s]

{'loss': 0.0, 'grad_norm': 0.00017645524349063635, 'learning_rate': 5.56545777003896e-06, 'epoch': 3.65}


 91%|█████████▏| 4030/4408 [26:46<02:17,  2.74it/s]

{'loss': 0.0, 'grad_norm': 0.0006676836055703461, 'learning_rate': 5.422018136790534e-06, 'epoch': 3.66}


 92%|█████████▏| 4040/4408 [26:50<02:15,  2.71it/s]

{'loss': 0.0, 'grad_norm': 0.0001588807353982702, 'learning_rate': 5.278578503542107e-06, 'epoch': 3.67}


 92%|█████████▏| 4050/4408 [26:54<02:48,  2.12it/s]

{'loss': 0.0, 'grad_norm': 0.0002304498484591022, 'learning_rate': 5.13513887029368e-06, 'epoch': 3.68}


 92%|█████████▏| 4060/4408 [26:58<02:34,  2.25it/s]

{'loss': 0.0, 'grad_norm': 0.00025663801352493465, 'learning_rate': 4.991699237045253e-06, 'epoch': 3.68}


 92%|█████████▏| 4070/4408 [27:02<02:00,  2.79it/s]

{'loss': 0.0, 'grad_norm': 0.00019674199575092643, 'learning_rate': 4.848259603796826e-06, 'epoch': 3.69}


 93%|█████████▎| 4080/4408 [27:06<01:57,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.00021748931612819433, 'learning_rate': 4.704819970548399e-06, 'epoch': 3.7}


 93%|█████████▎| 4090/4408 [27:09<01:55,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.0003095786669291556, 'learning_rate': 4.561380337299973e-06, 'epoch': 3.71}


 93%|█████████▎| 4100/4408 [27:13<01:50,  2.78it/s]

{'loss': 0.0, 'grad_norm': 0.0002311486896360293, 'learning_rate': 4.417940704051546e-06, 'epoch': 3.72}


 93%|█████████▎| 4110/4408 [27:16<01:47,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.00025039524189196527, 'learning_rate': 4.2745010708031196e-06, 'epoch': 3.73}


 93%|█████████▎| 4120/4408 [27:20<01:45,  2.74it/s]

{'loss': 0.0, 'grad_norm': 0.00021206559904385358, 'learning_rate': 4.131061437554692e-06, 'epoch': 3.74}


 94%|█████████▎| 4130/4408 [27:24<01:40,  2.76it/s]

{'loss': 0.0, 'grad_norm': 0.0002619866281747818, 'learning_rate': 3.9876218043062656e-06, 'epoch': 3.75}


 94%|█████████▍| 4140/4408 [27:28<01:46,  2.52it/s]

{'loss': 0.0, 'grad_norm': 0.00015470759535674006, 'learning_rate': 3.844182171057838e-06, 'epoch': 3.76}


 94%|█████████▍| 4150/4408 [27:32<01:37,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00016523810336366296, 'learning_rate': 3.700742537809412e-06, 'epoch': 3.77}


 94%|█████████▍| 4160/4408 [27:35<01:33,  2.66it/s]

{'loss': 0.0, 'grad_norm': 0.00026695861015468836, 'learning_rate': 3.557302904560985e-06, 'epoch': 3.77}


 95%|█████████▍| 4170/4408 [27:39<01:30,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00017306499648839235, 'learning_rate': 3.413863271312558e-06, 'epoch': 3.78}


 95%|█████████▍| 4180/4408 [27:43<01:26,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0002730842970777303, 'learning_rate': 3.2704236380641315e-06, 'epoch': 3.79}


 95%|█████████▌| 4190/4408 [27:47<01:22,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.00020500966638792306, 'learning_rate': 3.1269840048157045e-06, 'epoch': 3.8}


 95%|█████████▌| 4200/4408 [27:51<01:18,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.00021394822397269309, 'learning_rate': 2.983544371567278e-06, 'epoch': 3.81}


 96%|█████████▌| 4210/4408 [27:54<01:15,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00029323503258638084, 'learning_rate': 2.840104738318851e-06, 'epoch': 3.82}


 96%|█████████▌| 4220/4408 [27:58<01:11,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.0002199492446379736, 'learning_rate': 2.6966651050704243e-06, 'epoch': 3.83}


 96%|█████████▌| 4230/4408 [28:02<01:07,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00017856886552181095, 'learning_rate': 2.5532254718219973e-06, 'epoch': 3.84}


 96%|█████████▌| 4240/4408 [28:06<01:03,  2.65it/s]

{'loss': 0.0, 'grad_norm': 0.00021128849766682833, 'learning_rate': 2.4097858385735703e-06, 'epoch': 3.85}


 96%|█████████▋| 4250/4408 [28:10<00:59,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.0003023639728780836, 'learning_rate': 2.2663462053251438e-06, 'epoch': 3.86}


 97%|█████████▋| 4260/4408 [28:13<00:56,  2.61it/s]

{'loss': 0.048, 'grad_norm': 0.00023478071670979261, 'learning_rate': 2.1229065720767168e-06, 'epoch': 3.87}


 97%|█████████▋| 4270/4408 [28:17<00:52,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00038416378083638847, 'learning_rate': 1.97946693882829e-06, 'epoch': 3.87}


 97%|█████████▋| 4280/4408 [28:21<00:48,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0003929449594579637, 'learning_rate': 1.8360273055798632e-06, 'epoch': 3.88}


 97%|█████████▋| 4290/4408 [28:25<00:44,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.002199999988079071, 'learning_rate': 1.6925876723314364e-06, 'epoch': 3.89}


 98%|█████████▊| 4300/4408 [28:29<00:41,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.0001918027555802837, 'learning_rate': 1.5491480390830097e-06, 'epoch': 3.9}


 98%|█████████▊| 4310/4408 [28:32<00:37,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00038659072015434504, 'learning_rate': 1.4057084058345829e-06, 'epoch': 3.91}


 98%|█████████▊| 4320/4408 [28:36<00:33,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.000456523266620934, 'learning_rate': 1.2622687725861559e-06, 'epoch': 3.92}


 98%|█████████▊| 4330/4408 [28:40<00:29,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00028540106723085046, 'learning_rate': 1.118829139337729e-06, 'epoch': 3.93}


 98%|█████████▊| 4340/4408 [28:44<00:25,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00019513278675731272, 'learning_rate': 9.753895060893023e-07, 'epoch': 3.94}


 99%|█████████▊| 4350/4408 [28:48<00:22,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.000164900062372908, 'learning_rate': 8.319498728408754e-07, 'epoch': 3.95}


 99%|█████████▉| 4360/4408 [28:51<00:18,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00021209163242019713, 'learning_rate': 6.885102395924487e-07, 'epoch': 3.96}


 99%|█████████▉| 4370/4408 [28:55<00:14,  2.64it/s]

{'loss': 0.0, 'grad_norm': 0.00033745612017810345, 'learning_rate': 5.450706063440219e-07, 'epoch': 3.97}


 99%|█████████▉| 4380/4408 [28:59<00:10,  2.63it/s]

{'loss': 0.0, 'grad_norm': 0.00020102331473026425, 'learning_rate': 4.016309730955951e-07, 'epoch': 3.97}


100%|█████████▉| 4390/4408 [29:03<00:06,  2.61it/s]

{'loss': 0.0, 'grad_norm': 0.00029926246497780085, 'learning_rate': 2.5819133984716826e-07, 'epoch': 3.98}


100%|█████████▉| 4400/4408 [29:07<00:03,  2.61it/s]

{'loss': 0.0, 'grad_norm': 0.0003670209553092718, 'learning_rate': 1.1475170659874145e-07, 'epoch': 3.99}


100%|██████████| 4408/4408 [29:09<00:00,  3.22it/s]
100%|██████████| 4408/4408 [30:10<00:00,  3.22it/s]

{'eval_loss': 0.009808888658881187, 'eval_accuracy': 0.9989104775739968, 'eval_f1': 0.9989127514583862, 'eval_runtime': 24.289, 'eval_samples_per_second': 226.728, 'eval_steps_per_second': 28.367, 'epoch': 4.0}


100%|██████████| 4408/4408 [30:46<00:00,  2.39it/s]


{'train_runtime': 1846.8858, 'train_samples_per_second': 47.7, 'train_steps_per_second': 2.387, 'train_loss': 0.013335893525639998, 'epoch': 4.0}


100%|██████████| 689/689 [00:22<00:00, 31.14it/s]
  0%|          | 10/4008 [00:02<15:30,  4.30it/s]

{'loss': 0.0, 'grad_norm': 4.0769718907540664e-05, 'learning_rate': 5.242612173915316e-05, 'epoch': 0.01}


  0%|          | 20/4008 [00:04<15:57,  4.16it/s]

{'loss': 0.0, 'grad_norm': 2.8923279387527145e-05, 'learning_rate': 5.2294990869370384e-05, 'epoch': 0.02}


  1%|          | 30/4008 [00:07<15:45,  4.21it/s]

{'loss': 0.0, 'grad_norm': 9.717987268231809e-06, 'learning_rate': 5.2163859999587604e-05, 'epoch': 0.03}


  1%|          | 40/4008 [00:09<16:09,  4.09it/s]

{'loss': 0.0, 'grad_norm': 9.579687684890814e-06, 'learning_rate': 5.203272912980483e-05, 'epoch': 0.04}


  1%|          | 50/4008 [00:12<16:19,  4.04it/s]

{'loss': 0.0633, 'grad_norm': 0.000257144623901695, 'learning_rate': 5.190159826002206e-05, 'epoch': 0.05}


  1%|▏         | 60/4008 [00:14<17:17,  3.80it/s]

{'loss': 0.0691, 'grad_norm': 0.0005377043853513896, 'learning_rate': 5.1770467390239285e-05, 'epoch': 0.06}


  2%|▏         | 70/4008 [00:17<17:00,  3.86it/s]

{'loss': 0.0001, 'grad_norm': 0.0016852491535246372, 'learning_rate': 5.163933652045651e-05, 'epoch': 0.07}


  2%|▏         | 80/4008 [00:19<16:53,  3.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0007756651029922068, 'learning_rate': 5.150820565067374e-05, 'epoch': 0.08}


  2%|▏         | 90/4008 [00:22<18:27,  3.54it/s]

{'loss': 0.0, 'grad_norm': 0.0007065762183628976, 'learning_rate': 5.1377074780890965e-05, 'epoch': 0.09}


  2%|▏         | 100/4008 [00:25<18:29,  3.52it/s]

{'loss': 0.0, 'grad_norm': 0.00013867065717931837, 'learning_rate': 5.1245943911108185e-05, 'epoch': 0.1}


  3%|▎         | 110/4008 [00:28<19:49,  3.28it/s]

{'loss': 0.0, 'grad_norm': 0.0001824137580115348, 'learning_rate': 5.111481304132541e-05, 'epoch': 0.11}


  3%|▎         | 120/4008 [00:31<19:54,  3.25it/s]

{'loss': 0.0, 'grad_norm': 0.00021361235121730715, 'learning_rate': 5.098368217154264e-05, 'epoch': 0.12}


  3%|▎         | 130/4008 [00:34<19:56,  3.24it/s]

{'loss': 0.0, 'grad_norm': 0.0003972210397478193, 'learning_rate': 5.0852551301759866e-05, 'epoch': 0.13}


  3%|▎         | 140/4008 [00:37<19:59,  3.22it/s]

{'loss': 0.0, 'grad_norm': 0.0001283803430851549, 'learning_rate': 5.0721420431977086e-05, 'epoch': 0.14}


  4%|▎         | 150/4008 [00:41<26:52,  2.39it/s]

{'loss': 0.0, 'grad_norm': 0.00019315339159220457, 'learning_rate': 5.059028956219431e-05, 'epoch': 0.15}


  4%|▍         | 160/4008 [00:45<22:42,  2.82it/s]

{'loss': 0.0, 'grad_norm': 0.00010235227091470733, 'learning_rate': 5.0459158692411546e-05, 'epoch': 0.16}


  4%|▍         | 170/4008 [00:49<22:19,  2.87it/s]

{'loss': 0.0036, 'grad_norm': 0.00016973733727354556, 'learning_rate': 5.032802782262877e-05, 'epoch': 0.17}


  4%|▍         | 180/4008 [00:52<22:10,  2.88it/s]

{'loss': 0.1215, 'grad_norm': 0.016555018723011017, 'learning_rate': 5.019689695284599e-05, 'epoch': 0.18}


  5%|▍         | 190/4008 [00:56<22:12,  2.87it/s]

{'loss': 0.032, 'grad_norm': 0.1524157077074051, 'learning_rate': 5.006576608306322e-05, 'epoch': 0.19}


  5%|▍         | 200/4008 [00:59<22:11,  2.86it/s]

{'loss': 0.0108, 'grad_norm': 0.002955807140097022, 'learning_rate': 4.993463521328045e-05, 'epoch': 0.2}


  5%|▌         | 210/4008 [01:03<22:19,  2.84it/s]

{'loss': 0.0, 'grad_norm': 0.0005166350165382028, 'learning_rate': 4.9803504343497674e-05, 'epoch': 0.21}


  5%|▌         | 220/4008 [01:07<25:42,  2.46it/s]

{'loss': 0.0027, 'grad_norm': 0.0003002001903951168, 'learning_rate': 4.9672373473714894e-05, 'epoch': 0.22}


  6%|▌         | 230/4008 [01:11<24:45,  2.54it/s]

{'loss': 0.0926, 'grad_norm': 5.1828932762146, 'learning_rate': 4.954124260393212e-05, 'epoch': 0.23}


  6%|▌         | 240/4008 [01:15<24:49,  2.53it/s]

{'loss': 0.0001, 'grad_norm': 0.008960125036537647, 'learning_rate': 4.941011173414935e-05, 'epoch': 0.24}


  6%|▌         | 250/4008 [01:19<24:48,  2.52it/s]

{'loss': 0.0223, 'grad_norm': 0.00515407370403409, 'learning_rate': 4.9278980864366574e-05, 'epoch': 0.25}


  6%|▋         | 260/4008 [01:23<24:46,  2.52it/s]

{'loss': 0.0001, 'grad_norm': 0.005254602525383234, 'learning_rate': 4.9147849994583794e-05, 'epoch': 0.26}


  7%|▋         | 270/4008 [01:27<24:30,  2.54it/s]

{'loss': 0.0, 'grad_norm': 0.0007586683495901525, 'learning_rate': 4.901671912480103e-05, 'epoch': 0.27}


  7%|▋         | 280/4008 [01:31<24:22,  2.55it/s]

{'loss': 0.0, 'grad_norm': 0.0003527594672050327, 'learning_rate': 4.8885588255018255e-05, 'epoch': 0.28}


  7%|▋         | 290/4008 [01:35<24:27,  2.53it/s]

{'loss': 0.0, 'grad_norm': 0.00830614473670721, 'learning_rate': 4.875445738523548e-05, 'epoch': 0.29}


  7%|▋         | 300/4008 [01:38<24:22,  2.53it/s]

{'loss': 0.0386, 'grad_norm': 0.0005432004109025002, 'learning_rate': 4.86233265154527e-05, 'epoch': 0.3}


  8%|▊         | 310/4008 [01:42<24:23,  2.53it/s]

{'loss': 0.0025, 'grad_norm': 0.001784978318028152, 'learning_rate': 4.849219564566993e-05, 'epoch': 0.31}


  8%|▊         | 320/4008 [01:46<24:23,  2.52it/s]

{'loss': 0.0, 'grad_norm': 0.000431996799306944, 'learning_rate': 4.8361064775887155e-05, 'epoch': 0.32}


  8%|▊         | 330/4008 [01:50<24:21,  2.52it/s]

{'loss': 0.0, 'grad_norm': 0.01739891804754734, 'learning_rate': 4.822993390610438e-05, 'epoch': 0.33}


  8%|▊         | 340/4008 [01:54<24:28,  2.50it/s]

{'loss': 0.0, 'grad_norm': 0.0002698141324799508, 'learning_rate': 4.80988030363216e-05, 'epoch': 0.34}


  9%|▊         | 350/4008 [01:58<24:10,  2.52it/s]

{'loss': 0.0001, 'grad_norm': 0.0005928535829298198, 'learning_rate': 4.796767216653883e-05, 'epoch': 0.35}


  9%|▉         | 360/4008 [02:02<24:13,  2.51it/s]

{'loss': 0.0, 'grad_norm': 0.0005890306201763451, 'learning_rate': 4.7836541296756056e-05, 'epoch': 0.36}


  9%|▉         | 370/4008 [02:06<24:12,  2.50it/s]

{'loss': 0.073, 'grad_norm': 0.00014903566625434905, 'learning_rate': 4.770541042697328e-05, 'epoch': 0.37}


  9%|▉         | 380/4008 [02:10<24:14,  2.49it/s]

{'loss': 0.0131, 'grad_norm': 0.0016360570443794131, 'learning_rate': 4.757427955719051e-05, 'epoch': 0.38}


 10%|▉         | 390/4008 [02:15<33:47,  1.78it/s]

{'loss': 0.1248, 'grad_norm': 0.014510099776089191, 'learning_rate': 4.7443148687407736e-05, 'epoch': 0.39}


 10%|▉         | 400/4008 [02:19<22:54,  2.62it/s]

{'loss': 0.077, 'grad_norm': 0.018872903659939766, 'learning_rate': 4.731201781762496e-05, 'epoch': 0.4}


 10%|█         | 410/4008 [02:23<25:19,  2.37it/s]

{'loss': 0.0344, 'grad_norm': 0.002282615751028061, 'learning_rate': 4.718088694784218e-05, 'epoch': 0.41}


 10%|█         | 420/4008 [02:28<28:26,  2.10it/s]

{'loss': 0.0833, 'grad_norm': 0.005056868772953749, 'learning_rate': 4.704975607805941e-05, 'epoch': 0.42}


 11%|█         | 430/4008 [02:31<22:04,  2.70it/s]

{'loss': 0.0005, 'grad_norm': 0.011022644117474556, 'learning_rate': 4.691862520827664e-05, 'epoch': 0.43}


 11%|█         | 440/4008 [02:35<28:35,  2.08it/s]

{'loss': 0.0001, 'grad_norm': 0.0020167764741927385, 'learning_rate': 4.6787494338493864e-05, 'epoch': 0.44}


 11%|█         | 450/4008 [02:40<23:48,  2.49it/s]

{'loss': 0.0082, 'grad_norm': 0.001834783353842795, 'learning_rate': 4.6656363468711084e-05, 'epoch': 0.45}


 11%|█▏        | 460/4008 [02:44<22:05,  2.68it/s]

{'loss': 0.0001, 'grad_norm': 0.0007426958763971925, 'learning_rate': 4.652523259892831e-05, 'epoch': 0.46}


 12%|█▏        | 470/4008 [02:48<22:02,  2.67it/s]

{'loss': 0.0166, 'grad_norm': 0.0007706357282586396, 'learning_rate': 4.639410172914554e-05, 'epoch': 0.47}


 12%|█▏        | 480/4008 [02:51<21:59,  2.67it/s]

{'loss': 0.0001, 'grad_norm': 0.0005356940091587603, 'learning_rate': 4.626297085936277e-05, 'epoch': 0.48}


 12%|█▏        | 490/4008 [02:56<26:13,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.0008952702046371996, 'learning_rate': 4.613183998957999e-05, 'epoch': 0.49}


 12%|█▏        | 500/4008 [03:00<21:29,  2.72it/s]

{'loss': 0.1279, 'grad_norm': 0.000341907114489004, 'learning_rate': 4.600070911979722e-05, 'epoch': 0.5}


 13%|█▎        | 510/4008 [03:04<21:13,  2.75it/s]

{'loss': 0.0001, 'grad_norm': 0.006460547912865877, 'learning_rate': 4.5869578250014445e-05, 'epoch': 0.51}


 13%|█▎        | 520/4008 [03:09<25:25,  2.29it/s]

{'loss': 0.0794, 'grad_norm': 0.004259747918695211, 'learning_rate': 4.573844738023167e-05, 'epoch': 0.52}


 13%|█▎        | 530/4008 [03:13<23:32,  2.46it/s]

{'loss': 0.0003, 'grad_norm': 0.004812640603631735, 'learning_rate': 4.560731651044889e-05, 'epoch': 0.53}


 13%|█▎        | 540/4008 [03:17<23:26,  2.47it/s]

{'loss': 0.0001, 'grad_norm': 0.001162117114290595, 'learning_rate': 4.547618564066612e-05, 'epoch': 0.54}


 14%|█▎        | 550/4008 [03:21<23:28,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0011322851059958339, 'learning_rate': 4.5345054770883345e-05, 'epoch': 0.55}


 14%|█▍        | 560/4008 [03:25<23:28,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0009498985600657761, 'learning_rate': 4.521392390110057e-05, 'epoch': 0.56}


 14%|█▍        | 570/4008 [03:29<23:31,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.0004991692258045077, 'learning_rate': 4.508279303131779e-05, 'epoch': 0.57}


 14%|█▍        | 580/4008 [03:33<23:21,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.0005290708504617214, 'learning_rate': 4.495166216153502e-05, 'epoch': 0.58}


 15%|█▍        | 590/4008 [03:38<25:11,  2.26it/s]

{'loss': 0.0, 'grad_norm': 0.00030971658998169005, 'learning_rate': 4.482053129175225e-05, 'epoch': 0.59}


 15%|█▍        | 600/4008 [03:42<23:31,  2.41it/s]

{'loss': 0.0, 'grad_norm': 0.0005463433917611837, 'learning_rate': 4.468940042196948e-05, 'epoch': 0.6}


 15%|█▌        | 610/4008 [03:46<23:11,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.00038989807944744825, 'learning_rate': 4.45582695521867e-05, 'epoch': 0.61}


 15%|█▌        | 620/4008 [03:50<22:59,  2.46it/s]

{'loss': 0.0, 'grad_norm': 0.0009382702992297709, 'learning_rate': 4.4427138682403926e-05, 'epoch': 0.62}


 16%|█▌        | 630/4008 [03:54<23:14,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.00037244815030135214, 'learning_rate': 4.429600781262115e-05, 'epoch': 0.63}


 16%|█▌        | 640/4008 [03:59<23:17,  2.41it/s]

{'loss': 0.0, 'grad_norm': 0.00038429233245551586, 'learning_rate': 4.416487694283838e-05, 'epoch': 0.64}


 16%|█▌        | 650/4008 [04:03<22:41,  2.47it/s]

{'loss': 0.0, 'grad_norm': 0.0003790776536334306, 'learning_rate': 4.40337460730556e-05, 'epoch': 0.65}


 16%|█▋        | 660/4008 [04:07<22:37,  2.47it/s]

{'loss': 0.0, 'grad_norm': 0.00033895534579642117, 'learning_rate': 4.3902615203272827e-05, 'epoch': 0.66}


 17%|█▋        | 670/4008 [04:11<23:49,  2.34it/s]

{'loss': 0.0, 'grad_norm': 0.0003433245001360774, 'learning_rate': 4.377148433349005e-05, 'epoch': 0.67}


 17%|█▋        | 680/4008 [04:15<22:39,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.00032932896283455193, 'learning_rate': 4.364035346370728e-05, 'epoch': 0.68}


 17%|█▋        | 690/4008 [04:19<22:32,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.0005886831786483526, 'learning_rate': 4.35092225939245e-05, 'epoch': 0.69}


 17%|█▋        | 700/4008 [04:23<23:07,  2.38it/s]

{'loss': 0.0, 'grad_norm': 0.00033810423337854445, 'learning_rate': 4.3378091724141734e-05, 'epoch': 0.7}


 18%|█▊        | 710/4008 [04:28<25:33,  2.15it/s]

{'loss': 0.0, 'grad_norm': 0.00031493010465055704, 'learning_rate': 4.324696085435896e-05, 'epoch': 0.71}


 18%|█▊        | 720/4008 [04:33<24:34,  2.23it/s]

{'loss': 0.0, 'grad_norm': 0.0003213853342458606, 'learning_rate': 4.311582998457618e-05, 'epoch': 0.72}


 18%|█▊        | 730/4008 [04:38<23:53,  2.29it/s]

{'loss': 0.0, 'grad_norm': 0.0006019224529154599, 'learning_rate': 4.298469911479341e-05, 'epoch': 0.73}


 18%|█▊        | 740/4008 [04:42<25:18,  2.15it/s]

{'loss': 0.0, 'grad_norm': 0.0003233076131436974, 'learning_rate': 4.2853568245010634e-05, 'epoch': 0.74}


 19%|█▊        | 750/4008 [04:46<22:25,  2.42it/s]

{'loss': 0.0399, 'grad_norm': 549.3728637695312, 'learning_rate': 4.272243737522786e-05, 'epoch': 0.75}


 19%|█▉        | 760/4008 [04:50<23:16,  2.33it/s]

{'loss': 0.0, 'grad_norm': 0.0003682019596453756, 'learning_rate': 4.259130650544509e-05, 'epoch': 0.76}


 19%|█▉        | 770/4008 [04:55<22:10,  2.43it/s]

{'loss': 0.0, 'grad_norm': 0.0003430365468375385, 'learning_rate': 4.246017563566231e-05, 'epoch': 0.77}


 19%|█▉        | 780/4008 [04:59<21:53,  2.46it/s]

{'loss': 0.0, 'grad_norm': 0.00037652510218322277, 'learning_rate': 4.2329044765879535e-05, 'epoch': 0.78}


 20%|█▉        | 790/4008 [05:03<21:55,  2.45it/s]

{'loss': 0.0263, 'grad_norm': 0.0004924763343296945, 'learning_rate': 4.219791389609676e-05, 'epoch': 0.79}


 20%|█▉        | 800/4008 [05:07<22:27,  2.38it/s]

{'loss': 0.0422, 'grad_norm': 0.0034167154226452112, 'learning_rate': 4.206678302631399e-05, 'epoch': 0.8}


 20%|██        | 810/4008 [05:11<21:46,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.0004473291337490082, 'learning_rate': 4.1935652156531215e-05, 'epoch': 0.81}


 20%|██        | 820/4008 [05:15<22:45,  2.33it/s]

{'loss': 0.0001, 'grad_norm': 0.0018503714818507433, 'learning_rate': 4.180452128674844e-05, 'epoch': 0.82}


 21%|██        | 830/4008 [05:19<21:54,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.0003210988361388445, 'learning_rate': 4.167339041696567e-05, 'epoch': 0.83}


 21%|██        | 840/4008 [05:24<21:45,  2.43it/s]

{'loss': 0.0664, 'grad_norm': 0.0003893700195476413, 'learning_rate': 4.154225954718289e-05, 'epoch': 0.84}


 21%|██        | 850/4008 [05:28<21:33,  2.44it/s]

{'loss': 0.0526, 'grad_norm': 19.15935707092285, 'learning_rate': 4.1411128677400116e-05, 'epoch': 0.85}


 21%|██▏       | 860/4008 [05:32<21:24,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.0038622182328253984, 'learning_rate': 4.127999780761734e-05, 'epoch': 0.86}


 22%|██▏       | 870/4008 [05:36<21:20,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.000708964595105499, 'learning_rate': 4.114886693783457e-05, 'epoch': 0.87}


 22%|██▏       | 880/4008 [05:40<21:27,  2.43it/s]

{'loss': 0.0, 'grad_norm': 0.0015645741950720549, 'learning_rate': 4.101773606805179e-05, 'epoch': 0.88}


 22%|██▏       | 890/4008 [05:44<22:25,  2.32it/s]

{'loss': 0.0001, 'grad_norm': 0.00032882625237107277, 'learning_rate': 4.0886605198269016e-05, 'epoch': 0.89}


 22%|██▏       | 900/4008 [05:48<21:10,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.00025295771774835885, 'learning_rate': 4.075547432848624e-05, 'epoch': 0.9}


 23%|██▎       | 910/4008 [05:53<22:08,  2.33it/s]

{'loss': 0.0639, 'grad_norm': 0.0002125627943314612, 'learning_rate': 4.062434345870348e-05, 'epoch': 0.91}


 23%|██▎       | 920/4008 [05:57<20:43,  2.48it/s]

{'loss': 0.001, 'grad_norm': 0.0011542979627847672, 'learning_rate': 4.04932125889207e-05, 'epoch': 0.92}


 23%|██▎       | 930/4008 [06:01<20:37,  2.49it/s]

{'loss': 0.0001, 'grad_norm': 0.008036023005843163, 'learning_rate': 4.0362081719137924e-05, 'epoch': 0.93}


 23%|██▎       | 940/4008 [06:05<20:33,  2.49it/s]

{'loss': 0.0207, 'grad_norm': 0.00156430306378752, 'learning_rate': 4.023095084935515e-05, 'epoch': 0.94}


 24%|██▎       | 950/4008 [06:09<20:41,  2.46it/s]

{'loss': 0.0, 'grad_norm': 0.0005864502163603902, 'learning_rate': 4.009981997957238e-05, 'epoch': 0.95}


 24%|██▍       | 960/4008 [06:13<20:22,  2.49it/s]

{'loss': 0.0, 'grad_norm': 0.0007519757491536438, 'learning_rate': 3.99686891097896e-05, 'epoch': 0.96}


 24%|██▍       | 970/4008 [06:17<20:29,  2.47it/s]

{'loss': 0.0694, 'grad_norm': 0.02132737822830677, 'learning_rate': 3.9837558240006824e-05, 'epoch': 0.97}


 24%|██▍       | 980/4008 [06:21<22:01,  2.29it/s]

{'loss': 0.0005, 'grad_norm': 0.0043093422427773476, 'learning_rate': 3.970642737022405e-05, 'epoch': 0.98}


 25%|██▍       | 990/4008 [06:25<20:25,  2.46it/s]

{'loss': 0.0511, 'grad_norm': 0.14981330931186676, 'learning_rate': 3.957529650044128e-05, 'epoch': 0.99}


 25%|██▍       | 1000/4008 [06:29<20:19,  2.47it/s]

{'loss': 0.0007, 'grad_norm': 0.003044114913791418, 'learning_rate': 3.94441656306585e-05, 'epoch': 1.0}


 25%|██▌       | 1002/4008 [06:30<16:32,  3.03it/s]
 25%|██▌       | 1002/4008 [07:08<16:32,  3.03it/s]

{'eval_loss': 0.015496013686060905, 'eval_accuracy': 0.9981841292899946, 'eval_f1': 0.9981935223448437, 'eval_runtime': 37.9784, 'eval_samples_per_second': 145.004, 'eval_steps_per_second': 18.142, 'epoch': 1.0}


 25%|██▌       | 1010/4008 [07:45<1:41:39,  2.03s/it] 

{'loss': 0.0001, 'grad_norm': 0.0015943404287099838, 'learning_rate': 3.9313034760875725e-05, 'epoch': 1.01}


 25%|██▌       | 1020/4008 [07:48<14:21,  3.47it/s]  

{'loss': 0.0001, 'grad_norm': 0.0006881195004098117, 'learning_rate': 3.918190389109296e-05, 'epoch': 1.02}


 26%|██▌       | 1030/4008 [07:50<11:59,  4.14it/s]

{'loss': 0.0001, 'grad_norm': 0.0019305263413116336, 'learning_rate': 3.9050773021310185e-05, 'epoch': 1.03}


 26%|██▌       | 1040/4008 [07:52<11:30,  4.30it/s]

{'loss': 0.0003, 'grad_norm': 0.0007100834627635777, 'learning_rate': 3.8919642151527405e-05, 'epoch': 1.04}


 26%|██▌       | 1050/4008 [07:55<11:28,  4.29it/s]

{'loss': 0.0646, 'grad_norm': 0.000992041314020753, 'learning_rate': 3.878851128174463e-05, 'epoch': 1.05}


 26%|██▋       | 1060/4008 [07:57<11:48,  4.16it/s]

{'loss': 0.0002, 'grad_norm': 12.071292877197266, 'learning_rate': 3.865738041196186e-05, 'epoch': 1.06}


 27%|██▋       | 1070/4008 [07:59<11:36,  4.22it/s]

{'loss': 0.067, 'grad_norm': 0.004238842520862818, 'learning_rate': 3.8526249542179086e-05, 'epoch': 1.07}


 27%|██▋       | 1080/4008 [08:02<11:43,  4.16it/s]

{'loss': 0.0001, 'grad_norm': 0.0180573221296072, 'learning_rate': 3.8395118672396306e-05, 'epoch': 1.08}


 27%|██▋       | 1090/4008 [08:04<12:22,  3.93it/s]

{'loss': 0.0775, 'grad_norm': 0.008050666190683842, 'learning_rate': 3.826398780261353e-05, 'epoch': 1.09}


 27%|██▋       | 1100/4008 [08:07<11:55,  4.07it/s]

{'loss': 0.0379, 'grad_norm': 0.037129923701286316, 'learning_rate': 3.813285693283076e-05, 'epoch': 1.1}


 28%|██▊       | 1110/4008 [08:09<12:32,  3.85it/s]

{'loss': 0.0183, 'grad_norm': 0.0014253116678446531, 'learning_rate': 3.8001726063047986e-05, 'epoch': 1.11}


 28%|██▊       | 1120/4008 [08:12<12:36,  3.82it/s]

{'loss': 0.0533, 'grad_norm': 0.002510491292923689, 'learning_rate': 3.787059519326521e-05, 'epoch': 1.12}


 28%|██▊       | 1130/4008 [08:15<13:15,  3.62it/s]

{'loss': 0.1119, 'grad_norm': 0.30975526571273804, 'learning_rate': 3.773946432348244e-05, 'epoch': 1.13}


 28%|██▊       | 1140/4008 [08:18<13:40,  3.50it/s]

{'loss': 0.0016, 'grad_norm': 0.008321492001414299, 'learning_rate': 3.760833345369967e-05, 'epoch': 1.14}


 29%|██▊       | 1150/4008 [08:21<13:32,  3.52it/s]

{'loss': 0.0003, 'grad_norm': 0.003373863408342004, 'learning_rate': 3.747720258391689e-05, 'epoch': 1.15}


 29%|██▉       | 1160/4008 [08:24<15:07,  3.14it/s]

{'loss': 0.0002, 'grad_norm': 0.0019850677344948053, 'learning_rate': 3.7346071714134114e-05, 'epoch': 1.16}


 29%|██▉       | 1170/4008 [08:27<15:07,  3.13it/s]

{'loss': 0.0182, 'grad_norm': 0.0025871905963867903, 'learning_rate': 3.721494084435134e-05, 'epoch': 1.17}


 29%|██▉       | 1180/4008 [08:30<15:45,  2.99it/s]

{'loss': 0.0001, 'grad_norm': 0.0018322429386898875, 'learning_rate': 3.708380997456857e-05, 'epoch': 1.18}


 30%|██▉       | 1190/4008 [08:34<15:42,  2.99it/s]

{'loss': 0.0001, 'grad_norm': 0.001639191759750247, 'learning_rate': 3.6952679104785794e-05, 'epoch': 1.19}


 30%|██▉       | 1200/4008 [08:37<17:08,  2.73it/s]

{'loss': 0.0474, 'grad_norm': 0.002114575821906328, 'learning_rate': 3.6821548235003014e-05, 'epoch': 1.2}


 30%|███       | 1210/4008 [08:42<19:50,  2.35it/s]

{'loss': 0.0002, 'grad_norm': 0.004422286059707403, 'learning_rate': 3.669041736522024e-05, 'epoch': 1.21}


 30%|███       | 1220/4008 [08:45<16:54,  2.75it/s]

{'loss': 0.0001, 'grad_norm': 0.0024065906181931496, 'learning_rate': 3.655928649543747e-05, 'epoch': 1.22}


 31%|███       | 1230/4008 [08:49<16:03,  2.88it/s]

{'loss': 0.0001, 'grad_norm': 0.0035096248611807823, 'learning_rate': 3.6428155625654695e-05, 'epoch': 1.23}


 31%|███       | 1240/4008 [08:52<16:03,  2.87it/s]

{'loss': 0.0009, 'grad_norm': 0.0009247504058293998, 'learning_rate': 3.629702475587192e-05, 'epoch': 1.24}


 31%|███       | 1250/4008 [08:57<19:50,  2.32it/s]

{'loss': 0.0001, 'grad_norm': 0.004862665664404631, 'learning_rate': 3.616589388608915e-05, 'epoch': 1.25}


 31%|███▏      | 1260/4008 [09:01<18:58,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0017995551461353898, 'learning_rate': 3.6034763016306375e-05, 'epoch': 1.26}


 32%|███▏      | 1270/4008 [09:06<19:19,  2.36it/s]

{'loss': 0.0001, 'grad_norm': 0.0008057696395553648, 'learning_rate': 3.5903632146523595e-05, 'epoch': 1.27}


 32%|███▏      | 1280/4008 [09:10<19:09,  2.37it/s]

{'loss': 0.0001, 'grad_norm': 0.0031348804477602243, 'learning_rate': 3.577250127674082e-05, 'epoch': 1.28}


 32%|███▏      | 1290/4008 [09:14<18:39,  2.43it/s]

{'loss': 0.0001, 'grad_norm': 0.000840717286337167, 'learning_rate': 3.564137040695805e-05, 'epoch': 1.29}


 32%|███▏      | 1300/4008 [09:18<18:41,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0007470997516065836, 'learning_rate': 3.5510239537175276e-05, 'epoch': 1.3}


 33%|███▎      | 1310/4008 [09:22<19:14,  2.34it/s]

{'loss': 0.0001, 'grad_norm': 0.36026817560195923, 'learning_rate': 3.5379108667392496e-05, 'epoch': 1.31}


 33%|███▎      | 1320/4008 [09:26<15:37,  2.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0015686940168961883, 'learning_rate': 3.524797779760972e-05, 'epoch': 1.32}


 33%|███▎      | 1330/4008 [09:30<18:54,  2.36it/s]

{'loss': 0.0001, 'grad_norm': 0.0007323301979340613, 'learning_rate': 3.511684692782695e-05, 'epoch': 1.33}


 33%|███▎      | 1340/4008 [09:35<20:27,  2.17it/s]

{'loss': 0.0001, 'grad_norm': 0.0014339085901156068, 'learning_rate': 3.498571605804418e-05, 'epoch': 1.34}


 34%|███▎      | 1350/4008 [09:39<20:00,  2.21it/s]

{'loss': 0.0001, 'grad_norm': 0.0010764191392809153, 'learning_rate': 3.48545851882614e-05, 'epoch': 1.35}


 34%|███▍      | 1360/4008 [09:44<18:02,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0010381108149886131, 'learning_rate': 3.472345431847863e-05, 'epoch': 1.36}


 34%|███▍      | 1370/4008 [09:47<16:08,  2.72it/s]

{'loss': 0.0001, 'grad_norm': 0.0010738634737208486, 'learning_rate': 3.4592323448695857e-05, 'epoch': 1.37}


 34%|███▍      | 1380/4008 [09:52<25:24,  1.72it/s]

{'loss': 0.0662, 'grad_norm': 0.04319175332784653, 'learning_rate': 3.446119257891308e-05, 'epoch': 1.38}


 35%|███▍      | 1390/4008 [09:56<18:10,  2.40it/s]

{'loss': 0.0497, 'grad_norm': 0.00045222864719107747, 'learning_rate': 3.4330061709130303e-05, 'epoch': 1.39}


 35%|███▍      | 1400/4008 [10:00<17:42,  2.45it/s]

{'loss': 0.0423, 'grad_norm': 0.0009641291690059006, 'learning_rate': 3.419893083934753e-05, 'epoch': 1.4}


 35%|███▌      | 1410/4008 [10:05<17:18,  2.50it/s]

{'loss': 0.0583, 'grad_norm': 0.0009501706808805466, 'learning_rate': 3.406779996956476e-05, 'epoch': 1.41}


 35%|███▌      | 1420/4008 [10:09<17:06,  2.52it/s]

{'loss': 0.0001, 'grad_norm': 0.0010626229923218489, 'learning_rate': 3.3936669099781984e-05, 'epoch': 1.42}


 36%|███▌      | 1430/4008 [10:13<17:40,  2.43it/s]

{'loss': 0.0449, 'grad_norm': 0.1440768837928772, 'learning_rate': 3.3805538229999204e-05, 'epoch': 1.43}


 36%|███▌      | 1440/4008 [10:17<17:22,  2.46it/s]

{'loss': 0.0007, 'grad_norm': 0.007877872325479984, 'learning_rate': 3.367440736021644e-05, 'epoch': 1.44}


 36%|███▌      | 1450/4008 [10:21<17:16,  2.47it/s]

{'loss': 0.0002, 'grad_norm': 0.004195201210677624, 'learning_rate': 3.3543276490433664e-05, 'epoch': 1.45}


 36%|███▋      | 1460/4008 [10:25<18:00,  2.36it/s]

{'loss': 0.0002, 'grad_norm': 0.005716098006814718, 'learning_rate': 3.341214562065089e-05, 'epoch': 1.46}


 37%|███▋      | 1470/4008 [10:30<20:59,  2.02it/s]

{'loss': 0.0001, 'grad_norm': 0.0013414428103715181, 'learning_rate': 3.328101475086811e-05, 'epoch': 1.47}


 37%|███▋      | 1480/4008 [10:35<20:37,  2.04it/s]

{'loss': 0.0001, 'grad_norm': 0.00203517428599298, 'learning_rate': 3.314988388108534e-05, 'epoch': 1.48}


 37%|███▋      | 1490/4008 [10:39<17:04,  2.46it/s]

{'loss': 0.0001, 'grad_norm': 0.0020424448885023594, 'learning_rate': 3.3018753011302565e-05, 'epoch': 1.49}


 37%|███▋      | 1500/4008 [10:43<16:22,  2.55it/s]

{'loss': 0.0001, 'grad_norm': 0.0010626950534060597, 'learning_rate': 3.288762214151979e-05, 'epoch': 1.5}


 38%|███▊      | 1510/4008 [10:47<17:56,  2.32it/s]

{'loss': 0.0001, 'grad_norm': 0.0015973564004525542, 'learning_rate': 3.275649127173701e-05, 'epoch': 1.51}


 38%|███▊      | 1520/4008 [10:52<17:28,  2.37it/s]

{'loss': 0.0001, 'grad_norm': 0.0012180203339084983, 'learning_rate': 3.262536040195424e-05, 'epoch': 1.52}


 38%|███▊      | 1530/4008 [10:57<26:37,  1.55it/s]

{'loss': 0.0001, 'grad_norm': 0.0005237468285486102, 'learning_rate': 3.2494229532171465e-05, 'epoch': 1.53}


 38%|███▊      | 1540/4008 [11:01<17:01,  2.42it/s]

{'loss': 0.0001, 'grad_norm': 0.0005113857914693654, 'learning_rate': 3.236309866238869e-05, 'epoch': 1.54}


 39%|███▊      | 1550/4008 [11:05<17:23,  2.35it/s]

{'loss': 0.0001, 'grad_norm': 0.0011488533345982432, 'learning_rate': 3.223196779260592e-05, 'epoch': 1.55}


 39%|███▉      | 1560/4008 [11:10<18:59,  2.15it/s]

{'loss': 0.0001, 'grad_norm': 0.0017213221872225404, 'learning_rate': 3.2100836922823146e-05, 'epoch': 1.56}


 39%|███▉      | 1570/4008 [11:13<15:26,  2.63it/s]

{'loss': 0.0001, 'grad_norm': 0.0009191197459585965, 'learning_rate': 3.196970605304037e-05, 'epoch': 1.57}


 39%|███▉      | 1580/4008 [11:17<15:26,  2.62it/s]

{'loss': 0.0001, 'grad_norm': 0.0011013895273208618, 'learning_rate': 3.183857518325759e-05, 'epoch': 1.58}


 40%|███▉      | 1590/4008 [11:21<15:23,  2.62it/s]

{'loss': 0.0001, 'grad_norm': 0.00042944957385770977, 'learning_rate': 3.170744431347482e-05, 'epoch': 1.59}


 40%|███▉      | 1600/4008 [11:25<15:33,  2.58it/s]

{'loss': 0.0, 'grad_norm': 0.0007724465103819966, 'learning_rate': 3.1576313443692046e-05, 'epoch': 1.6}


 40%|████      | 1610/4008 [11:29<15:20,  2.61it/s]

{'loss': 0.0, 'grad_norm': 0.0005092307692393661, 'learning_rate': 3.144518257390927e-05, 'epoch': 1.61}


 40%|████      | 1620/4008 [11:33<15:28,  2.57it/s]

{'loss': 0.0, 'grad_norm': 0.0005348991835489869, 'learning_rate': 3.131405170412649e-05, 'epoch': 1.62}


 41%|████      | 1630/4008 [11:37<18:05,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.0006868949858471751, 'learning_rate': 3.118292083434372e-05, 'epoch': 1.63}


 41%|████      | 1640/4008 [11:42<16:36,  2.38it/s]

{'loss': 0.1037, 'grad_norm': 0.013482123613357544, 'learning_rate': 3.105178996456095e-05, 'epoch': 1.64}


 41%|████      | 1650/4008 [11:46<16:42,  2.35it/s]

{'loss': 0.0005, 'grad_norm': 0.002055170712992549, 'learning_rate': 3.0920659094778174e-05, 'epoch': 1.65}


 41%|████▏     | 1660/4008 [11:50<16:49,  2.33it/s]

{'loss': 0.0255, 'grad_norm': 0.003123676870018244, 'learning_rate': 3.07895282249954e-05, 'epoch': 1.66}


 42%|████▏     | 1670/4008 [11:54<16:20,  2.38it/s]

{'loss': 0.0523, 'grad_norm': 0.0031740530394017696, 'learning_rate': 3.065839735521263e-05, 'epoch': 1.67}


 42%|████▏     | 1680/4008 [11:58<16:16,  2.38it/s]

{'loss': 0.0015, 'grad_norm': 0.0060355886816978455, 'learning_rate': 3.0527266485429854e-05, 'epoch': 1.68}


 42%|████▏     | 1690/4008 [12:03<16:16,  2.37it/s]

{'loss': 0.0001, 'grad_norm': 0.0063383798114955425, 'learning_rate': 3.0396135615647078e-05, 'epoch': 1.69}


 42%|████▏     | 1700/4008 [12:07<16:14,  2.37it/s]

{'loss': 0.063, 'grad_norm': 0.003516783704981208, 'learning_rate': 3.0265004745864304e-05, 'epoch': 1.7}


 43%|████▎     | 1710/4008 [12:11<15:34,  2.46it/s]

{'loss': 0.0822, 'grad_norm': 0.010276732966303825, 'learning_rate': 3.0133873876081528e-05, 'epoch': 1.71}


 43%|████▎     | 1720/4008 [12:15<16:18,  2.34it/s]

{'loss': 0.0006, 'grad_norm': 0.007612522691488266, 'learning_rate': 3.0002743006298755e-05, 'epoch': 1.72}


 43%|████▎     | 1730/4008 [12:19<15:13,  2.49it/s]

{'loss': 0.0062, 'grad_norm': 0.004957320634275675, 'learning_rate': 2.9871612136515978e-05, 'epoch': 1.73}


 43%|████▎     | 1740/4008 [12:23<15:06,  2.50it/s]

{'loss': 0.0004, 'grad_norm': 0.006675093900412321, 'learning_rate': 2.9740481266733205e-05, 'epoch': 1.74}


 44%|████▎     | 1750/4008 [12:28<15:22,  2.45it/s]

{'loss': 0.0002, 'grad_norm': 0.0053002433851361275, 'learning_rate': 2.960935039695043e-05, 'epoch': 1.75}


 44%|████▍     | 1760/4008 [12:32<15:15,  2.46it/s]

{'loss': 0.0001, 'grad_norm': 0.002750579733401537, 'learning_rate': 2.9478219527167662e-05, 'epoch': 1.76}


 44%|████▍     | 1770/4008 [12:36<14:58,  2.49it/s]

{'loss': 0.0001, 'grad_norm': 0.005507949274033308, 'learning_rate': 2.9347088657384885e-05, 'epoch': 1.77}


 44%|████▍     | 1780/4008 [12:40<14:57,  2.48it/s]

{'loss': 0.0002, 'grad_norm': 1.2241917848587036, 'learning_rate': 2.9215957787602112e-05, 'epoch': 1.78}


 45%|████▍     | 1790/4008 [12:44<14:55,  2.48it/s]

{'loss': 0.0001, 'grad_norm': 0.003246022155508399, 'learning_rate': 2.9084826917819336e-05, 'epoch': 1.79}


 45%|████▍     | 1800/4008 [12:48<14:49,  2.48it/s]

{'loss': 0.0001, 'grad_norm': 0.001245720311999321, 'learning_rate': 2.8953696048036563e-05, 'epoch': 1.8}


 45%|████▌     | 1810/4008 [12:52<15:10,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0012270001461729407, 'learning_rate': 2.8822565178253786e-05, 'epoch': 1.81}


 45%|████▌     | 1820/4008 [12:56<15:11,  2.40it/s]

{'loss': 0.0591, 'grad_norm': 23.021780014038086, 'learning_rate': 2.8691434308471013e-05, 'epoch': 1.82}


 46%|████▌     | 1830/4008 [13:00<14:45,  2.46it/s]

{'loss': 0.0001, 'grad_norm': 0.001613782485947013, 'learning_rate': 2.8560303438688236e-05, 'epoch': 1.83}


 46%|████▌     | 1840/4008 [13:04<15:52,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.00107765628490597, 'learning_rate': 2.8429172568905463e-05, 'epoch': 1.84}


 46%|████▌     | 1850/4008 [13:09<15:22,  2.34it/s]

{'loss': 0.0001, 'grad_norm': 0.0011733844876289368, 'learning_rate': 2.8298041699122686e-05, 'epoch': 1.85}


 46%|████▋     | 1860/4008 [13:13<14:49,  2.42it/s]

{'loss': 0.0153, 'grad_norm': 0.0015804534777998924, 'learning_rate': 2.8166910829339913e-05, 'epoch': 1.86}


 47%|████▋     | 1870/4008 [13:17<14:33,  2.45it/s]

{'loss': 0.0001, 'grad_norm': 0.0021395934745669365, 'learning_rate': 2.8035779959557144e-05, 'epoch': 1.87}


 47%|████▋     | 1880/4008 [13:21<14:37,  2.42it/s]

{'loss': 0.0001, 'grad_norm': 0.0006011819932609797, 'learning_rate': 2.7904649089774367e-05, 'epoch': 1.88}


 47%|████▋     | 1890/4008 [13:26<15:28,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0009416997199878097, 'learning_rate': 2.7773518219991594e-05, 'epoch': 1.89}


 47%|████▋     | 1900/4008 [13:30<14:20,  2.45it/s]

{'loss': 0.0011, 'grad_norm': 0.0008757790201343596, 'learning_rate': 2.7642387350208817e-05, 'epoch': 1.9}


 48%|████▊     | 1910/4008 [13:34<14:16,  2.45it/s]

{'loss': 0.004, 'grad_norm': 0.006873201113194227, 'learning_rate': 2.7511256480426044e-05, 'epoch': 1.91}


 48%|████▊     | 1920/4008 [13:38<14:21,  2.42it/s]

{'loss': 0.0, 'grad_norm': 0.0005594073445536196, 'learning_rate': 2.738012561064327e-05, 'epoch': 1.92}


 48%|████▊     | 1930/4008 [13:43<15:19,  2.26it/s]

{'loss': 0.1193, 'grad_norm': 0.0007963670650497079, 'learning_rate': 2.7248994740860494e-05, 'epoch': 1.93}


 48%|████▊     | 1940/4008 [13:49<19:43,  1.75it/s]

{'loss': 0.0015, 'grad_norm': 0.0008084636647254229, 'learning_rate': 2.711786387107772e-05, 'epoch': 1.94}


 49%|████▊     | 1950/4008 [13:53<17:44,  1.93it/s]

{'loss': 0.0001, 'grad_norm': 0.00069323496427387, 'learning_rate': 2.6986733001294945e-05, 'epoch': 1.95}


 49%|████▉     | 1960/4008 [13:58<14:33,  2.35it/s]

{'loss': 0.0001, 'grad_norm': 0.0011196454288437963, 'learning_rate': 2.685560213151217e-05, 'epoch': 1.96}


 49%|████▉     | 1970/4008 [14:02<13:46,  2.47it/s]

{'loss': 0.0001, 'grad_norm': 0.00060412532184273, 'learning_rate': 2.6724471261729395e-05, 'epoch': 1.97}


 49%|████▉     | 1980/4008 [14:06<14:19,  2.36it/s]

{'loss': 0.0584, 'grad_norm': 0.0009147585951723158, 'learning_rate': 2.6593340391946625e-05, 'epoch': 1.98}


 50%|████▉     | 1990/4008 [14:10<13:51,  2.43it/s]

{'loss': 0.0001, 'grad_norm': 0.0030254472512751818, 'learning_rate': 2.6462209522163852e-05, 'epoch': 1.99}


 50%|████▉     | 2000/4008 [14:14<13:54,  2.41it/s]

{'loss': 0.1009, 'grad_norm': 0.010134857147932053, 'learning_rate': 2.6331078652381075e-05, 'epoch': 2.0}


 50%|█████     | 2004/4008 [14:15<10:57,  3.05it/s]
 50%|█████     | 2004/4008 [14:54<10:57,  3.05it/s]

{'eval_loss': 0.02278709039092064, 'eval_accuracy': 0.9969130197929907, 'eval_f1': 0.9969127372284569, 'eval_runtime': 38.618, 'eval_samples_per_second': 142.602, 'eval_steps_per_second': 17.841, 'epoch': 2.0}


 50%|█████     | 2010/4008 [15:31<2:12:39,  3.98s/it] 

{'loss': 0.0003, 'grad_norm': 0.03772679343819618, 'learning_rate': 2.6199947782598302e-05, 'epoch': 2.01}


 50%|█████     | 2020/4008 [15:34<11:21,  2.92it/s]  

{'loss': 0.0004, 'grad_norm': 0.0037182634696364403, 'learning_rate': 2.6068816912815526e-05, 'epoch': 2.02}


 51%|█████     | 2030/4008 [15:36<08:08,  4.05it/s]

{'loss': 0.0002, 'grad_norm': 0.0027076788246631622, 'learning_rate': 2.5937686043032752e-05, 'epoch': 2.03}


 51%|█████     | 2040/4008 [15:39<08:50,  3.71it/s]

{'loss': 0.0002, 'grad_norm': 0.004076503682881594, 'learning_rate': 2.5806555173249976e-05, 'epoch': 2.04}


 51%|█████     | 2050/4008 [15:41<07:55,  4.12it/s]

{'loss': 0.0002, 'grad_norm': 0.5045998692512512, 'learning_rate': 2.5675424303467203e-05, 'epoch': 2.05}


 51%|█████▏    | 2060/4008 [15:44<07:55,  4.10it/s]

{'loss': 0.0001, 'grad_norm': 0.0020847900304943323, 'learning_rate': 2.554429343368443e-05, 'epoch': 2.06}


 52%|█████▏    | 2070/4008 [15:46<07:40,  4.21it/s]

{'loss': 0.0568, 'grad_norm': 0.0014093427453190088, 'learning_rate': 2.5413162563901656e-05, 'epoch': 2.07}


 52%|█████▏    | 2080/4008 [15:48<07:34,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0009373064967803657, 'learning_rate': 2.528203169411888e-05, 'epoch': 2.08}


 52%|█████▏    | 2090/4008 [15:51<07:42,  4.15it/s]

{'loss': 0.0001, 'grad_norm': 0.0016371324891224504, 'learning_rate': 2.5150900824336107e-05, 'epoch': 2.09}


 52%|█████▏    | 2100/4008 [15:53<07:59,  3.98it/s]

{'loss': 0.0001, 'grad_norm': 0.002931815106421709, 'learning_rate': 2.501976995455333e-05, 'epoch': 2.1}


 53%|█████▎    | 2110/4008 [15:56<08:17,  3.81it/s]

{'loss': 0.0001, 'grad_norm': 0.0021900744177401066, 'learning_rate': 2.488863908477056e-05, 'epoch': 2.11}


 53%|█████▎    | 2120/4008 [15:59<08:29,  3.71it/s]

{'loss': 0.0001, 'grad_norm': 0.002202142495661974, 'learning_rate': 2.4757508214987784e-05, 'epoch': 2.12}


 53%|█████▎    | 2130/4008 [16:02<08:31,  3.67it/s]

{'loss': 0.0001, 'grad_norm': 0.0019447680097073317, 'learning_rate': 2.462637734520501e-05, 'epoch': 2.13}


 53%|█████▎    | 2140/4008 [16:05<10:03,  3.10it/s]

{'loss': 0.0001, 'grad_norm': 0.0007400853792205453, 'learning_rate': 2.4495246475422234e-05, 'epoch': 2.14}


 54%|█████▎    | 2150/4008 [16:08<10:33,  2.93it/s]

{'loss': 0.1579, 'grad_norm': 0.001922838157042861, 'learning_rate': 2.436411560563946e-05, 'epoch': 2.15}


 54%|█████▍    | 2160/4008 [16:11<09:51,  3.12it/s]

{'loss': 0.0011, 'grad_norm': 0.06275380402803421, 'learning_rate': 2.4232984735856688e-05, 'epoch': 2.16}


 54%|█████▍    | 2170/4008 [16:15<10:30,  2.92it/s]

{'loss': 0.0432, 'grad_norm': 21.198835372924805, 'learning_rate': 2.4101853866073914e-05, 'epoch': 2.17}


 54%|█████▍    | 2180/4008 [16:18<10:32,  2.89it/s]

{'loss': 0.0001, 'grad_norm': 0.05841837078332901, 'learning_rate': 2.3970722996291138e-05, 'epoch': 2.18}


 55%|█████▍    | 2190/4008 [16:22<10:32,  2.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0013665936421602964, 'learning_rate': 2.3839592126508365e-05, 'epoch': 2.19}


 55%|█████▍    | 2200/4008 [16:25<10:34,  2.85it/s]

{'loss': 0.0004, 'grad_norm': 0.0015030355425551534, 'learning_rate': 2.3708461256725588e-05, 'epoch': 2.2}


 55%|█████▌    | 2210/4008 [16:29<10:27,  2.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0009969469392672181, 'learning_rate': 2.3577330386942815e-05, 'epoch': 2.21}


 55%|█████▌    | 2220/4008 [16:32<13:19,  2.24it/s]

{'loss': 0.0007, 'grad_norm': 0.0013150657759979367, 'learning_rate': 2.3446199517160042e-05, 'epoch': 2.22}


 56%|█████▌    | 2230/4008 [16:36<11:02,  2.68it/s]

{'loss': 0.0012, 'grad_norm': 51.525726318359375, 'learning_rate': 2.331506864737727e-05, 'epoch': 2.23}


 56%|█████▌    | 2240/4008 [16:40<10:53,  2.71it/s]

{'loss': 0.0001, 'grad_norm': 0.003735259873792529, 'learning_rate': 2.3183937777594492e-05, 'epoch': 2.24}


 56%|█████▌    | 2250/4008 [16:44<13:04,  2.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0014846763806417584, 'learning_rate': 2.305280690781172e-05, 'epoch': 2.25}


 56%|█████▋    | 2260/4008 [16:49<12:12,  2.39it/s]

{'loss': 0.0001, 'grad_norm': 0.001288795261643827, 'learning_rate': 2.2921676038028942e-05, 'epoch': 2.26}


 57%|█████▋    | 2270/4008 [16:53<12:02,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0005217543221078813, 'learning_rate': 2.279054516824617e-05, 'epoch': 2.27}


 57%|█████▋    | 2280/4008 [16:57<12:01,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.0013467989629134536, 'learning_rate': 2.2659414298463396e-05, 'epoch': 2.28}


 57%|█████▋    | 2290/4008 [17:01<11:52,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.001007570419460535, 'learning_rate': 2.2528283428680623e-05, 'epoch': 2.29}


 57%|█████▋    | 2300/4008 [17:05<11:46,  2.42it/s]

{'loss': 0.0001, 'grad_norm': 0.000926462933421135, 'learning_rate': 2.2397152558897846e-05, 'epoch': 2.3}


 58%|█████▊    | 2310/4008 [17:09<11:46,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.000937825592700392, 'learning_rate': 2.2266021689115073e-05, 'epoch': 2.31}


 58%|█████▊    | 2320/4008 [17:14<11:38,  2.42it/s]

{'loss': 0.0001, 'grad_norm': 0.0007828616071492434, 'learning_rate': 2.21348908193323e-05, 'epoch': 2.32}


 58%|█████▊    | 2330/4008 [17:18<11:36,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.001243269769474864, 'learning_rate': 2.2003759949549523e-05, 'epoch': 2.33}


 58%|█████▊    | 2340/4008 [17:22<11:30,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.000990551896393299, 'learning_rate': 2.187262907976675e-05, 'epoch': 2.34}


 59%|█████▊    | 2350/4008 [17:26<11:25,  2.42it/s]

{'loss': 0.0489, 'grad_norm': 0.0034713016357272863, 'learning_rate': 2.1741498209983973e-05, 'epoch': 2.35}


 59%|█████▉    | 2360/4008 [17:30<11:22,  2.41it/s]

{'loss': 0.0003, 'grad_norm': 0.005011634901165962, 'learning_rate': 2.16103673402012e-05, 'epoch': 2.36}


 59%|█████▉    | 2370/4008 [17:34<11:21,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.0022878278978168964, 'learning_rate': 2.1479236470418424e-05, 'epoch': 2.37}


 59%|█████▉    | 2380/4008 [17:38<11:21,  2.39it/s]

{'loss': 0.0001, 'grad_norm': 0.001108625903725624, 'learning_rate': 2.1348105600635654e-05, 'epoch': 2.38}


 60%|█████▉    | 2390/4008 [17:43<11:17,  2.39it/s]

{'loss': 0.0001, 'grad_norm': 0.0010768430074676871, 'learning_rate': 2.1216974730852877e-05, 'epoch': 2.39}


 60%|█████▉    | 2400/4008 [17:47<11:14,  2.38it/s]

{'loss': 0.0001, 'grad_norm': 0.0008933165227063, 'learning_rate': 2.1085843861070104e-05, 'epoch': 2.4}


 60%|██████    | 2410/4008 [17:51<11:05,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.0023051879834383726, 'learning_rate': 2.0954712991287328e-05, 'epoch': 2.41}


 60%|██████    | 2420/4008 [17:55<11:03,  2.39it/s]

{'loss': 0.0001, 'grad_norm': 0.0009599314071238041, 'learning_rate': 2.0823582121504554e-05, 'epoch': 2.42}


 61%|██████    | 2430/4008 [17:59<11:05,  2.37it/s]

{'loss': 0.0429, 'grad_norm': 23.912866592407227, 'learning_rate': 2.069245125172178e-05, 'epoch': 2.43}


 61%|██████    | 2440/4008 [18:04<10:58,  2.38it/s]

{'loss': 0.0001, 'grad_norm': 0.0005898454110138118, 'learning_rate': 2.0561320381939008e-05, 'epoch': 2.44}


 61%|██████    | 2450/4008 [18:08<10:56,  2.37it/s]

{'loss': 0.0001, 'grad_norm': 0.00098281423561275, 'learning_rate': 2.043018951215623e-05, 'epoch': 2.45}


 61%|██████▏   | 2460/4008 [18:13<13:11,  1.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0006201549549587071, 'learning_rate': 2.029905864237346e-05, 'epoch': 2.46}


 62%|██████▏   | 2470/4008 [18:18<11:03,  2.32it/s]

{'loss': 0.0002, 'grad_norm': 0.0010811780812218785, 'learning_rate': 2.0167927772590682e-05, 'epoch': 2.47}


 62%|██████▏   | 2480/4008 [18:22<11:33,  2.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0007596552604809403, 'learning_rate': 2.0036796902807912e-05, 'epoch': 2.48}


 62%|██████▏   | 2490/4008 [18:27<11:08,  2.27it/s]

{'loss': 0.0001, 'grad_norm': 0.0007478402694687247, 'learning_rate': 1.9905666033025135e-05, 'epoch': 2.49}


 62%|██████▏   | 2500/4008 [18:31<11:02,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.001062626950442791, 'learning_rate': 1.9774535163242362e-05, 'epoch': 2.5}


 63%|██████▎   | 2510/4008 [18:36<10:53,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.002033461816608906, 'learning_rate': 1.9643404293459586e-05, 'epoch': 2.5}


 63%|██████▎   | 2520/4008 [18:40<10:50,  2.29it/s]

{'loss': 0.0, 'grad_norm': 0.0007276144460774958, 'learning_rate': 1.9512273423676813e-05, 'epoch': 2.51}


 63%|██████▎   | 2530/4008 [18:44<10:47,  2.28it/s]

{'loss': 0.0, 'grad_norm': 0.0022078605834394693, 'learning_rate': 1.9381142553894036e-05, 'epoch': 2.52}


 63%|██████▎   | 2540/4008 [18:49<10:38,  2.30it/s]

{'loss': 0.0328, 'grad_norm': 3.508925437927246, 'learning_rate': 1.9250011684111266e-05, 'epoch': 2.53}


 64%|██████▎   | 2550/4008 [18:53<10:37,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.001436839229427278, 'learning_rate': 1.911888081432849e-05, 'epoch': 2.54}


 64%|██████▍   | 2560/4008 [18:58<10:32,  2.29it/s]

{'loss': 0.0005, 'grad_norm': 0.004934257827699184, 'learning_rate': 1.8987749944545716e-05, 'epoch': 2.55}


 64%|██████▍   | 2570/4008 [19:02<10:27,  2.29it/s]

{'loss': 0.0012, 'grad_norm': 0.8240576386451721, 'learning_rate': 1.885661907476294e-05, 'epoch': 2.56}


 64%|██████▍   | 2580/4008 [19:06<10:23,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0007596546784043312, 'learning_rate': 1.8725488204980167e-05, 'epoch': 2.57}


 65%|██████▍   | 2590/4008 [19:11<10:23,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0008880712557584047, 'learning_rate': 1.8594357335197394e-05, 'epoch': 2.58}


 65%|██████▍   | 2600/4008 [19:15<10:17,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0006849822821095586, 'learning_rate': 1.846322646541462e-05, 'epoch': 2.59}


 65%|██████▌   | 2610/4008 [19:19<10:13,  2.28it/s]

{'loss': 0.0, 'grad_norm': 0.0007190839387476444, 'learning_rate': 1.8332095595631844e-05, 'epoch': 2.6}


 65%|██████▌   | 2620/4008 [19:24<10:11,  2.27it/s]

{'loss': 0.0, 'grad_norm': 0.0007540471269749105, 'learning_rate': 1.820096472584907e-05, 'epoch': 2.61}


 66%|██████▌   | 2630/4008 [19:28<10:11,  2.25it/s]

{'loss': 0.0, 'grad_norm': 0.0006930321105755866, 'learning_rate': 1.8069833856066294e-05, 'epoch': 2.62}


 66%|██████▌   | 2640/4008 [19:33<10:02,  2.27it/s]

{'loss': 0.0, 'grad_norm': 0.00046575593296438456, 'learning_rate': 1.7938702986283524e-05, 'epoch': 2.63}


 66%|██████▌   | 2650/4008 [19:37<10:02,  2.25it/s]

{'loss': 0.0001, 'grad_norm': 0.0011324519291520119, 'learning_rate': 1.7807572116500748e-05, 'epoch': 2.64}


 66%|██████▋   | 2660/4008 [19:42<10:00,  2.25it/s]

{'loss': 0.0, 'grad_norm': 0.0006895652040839195, 'learning_rate': 1.7676441246717975e-05, 'epoch': 2.65}


 67%|██████▋   | 2670/4008 [19:46<09:55,  2.25it/s]

{'loss': 0.0, 'grad_norm': 0.00060094497166574, 'learning_rate': 1.7545310376935198e-05, 'epoch': 2.66}


 67%|██████▋   | 2680/4008 [19:50<09:52,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.00045613371185027063, 'learning_rate': 1.7414179507152425e-05, 'epoch': 2.67}


 67%|██████▋   | 2690/4008 [19:55<09:44,  2.26it/s]

{'loss': 0.0, 'grad_norm': 0.0007110284641385078, 'learning_rate': 1.7283048637369648e-05, 'epoch': 2.68}


 67%|██████▋   | 2700/4008 [19:59<09:40,  2.25it/s]

{'loss': 0.0, 'grad_norm': 0.000547239847946912, 'learning_rate': 1.7151917767586875e-05, 'epoch': 2.69}


 68%|██████▊   | 2710/4008 [20:04<09:36,  2.25it/s]

{'loss': 0.0, 'grad_norm': 0.0007800437742844224, 'learning_rate': 1.7020786897804102e-05, 'epoch': 2.7}


 68%|██████▊   | 2720/4008 [20:08<09:35,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.0006505275378003716, 'learning_rate': 1.6889656028021325e-05, 'epoch': 2.71}


 68%|██████▊   | 2730/4008 [20:13<09:25,  2.26it/s]

{'loss': 0.0206, 'grad_norm': 0.0006294454797171056, 'learning_rate': 1.6758525158238552e-05, 'epoch': 2.72}


 68%|██████▊   | 2740/4008 [20:17<09:22,  2.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0012011624639853835, 'learning_rate': 1.662739428845578e-05, 'epoch': 2.73}


 69%|██████▊   | 2750/4008 [20:22<09:11,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.02544442191720009, 'learning_rate': 1.6496263418673006e-05, 'epoch': 2.74}


 69%|██████▉   | 2760/4008 [20:26<09:04,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0032832727301865816, 'learning_rate': 1.636513254889023e-05, 'epoch': 2.75}


 69%|██████▉   | 2770/4008 [20:30<09:02,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0013645021244883537, 'learning_rate': 1.6234001679107456e-05, 'epoch': 2.76}


 69%|██████▉   | 2780/4008 [20:35<08:58,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0020741503685712814, 'learning_rate': 1.610287080932468e-05, 'epoch': 2.77}


 70%|██████▉   | 2790/4008 [20:39<08:51,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.003017644863575697, 'learning_rate': 1.5971739939541906e-05, 'epoch': 2.78}


 70%|██████▉   | 2800/4008 [20:43<08:44,  2.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0021193427965044975, 'learning_rate': 1.5840609069759133e-05, 'epoch': 2.79}


 70%|███████   | 2810/4008 [20:48<08:43,  2.29it/s]

{'loss': 0.0001, 'grad_norm': 0.002117254538461566, 'learning_rate': 1.570947819997636e-05, 'epoch': 2.8}


 70%|███████   | 2820/4008 [20:52<08:38,  2.29it/s]

{'loss': 0.032, 'grad_norm': 0.0004097767814528197, 'learning_rate': 1.5578347330193583e-05, 'epoch': 2.81}


 71%|███████   | 2830/4008 [20:57<08:31,  2.30it/s]

{'loss': 0.02, 'grad_norm': 0.004676866345107555, 'learning_rate': 1.544721646041081e-05, 'epoch': 2.82}


 71%|███████   | 2840/4008 [21:01<08:55,  2.18it/s]

{'loss': 0.0004, 'grad_norm': 0.006985582411289215, 'learning_rate': 1.5316085590628034e-05, 'epoch': 2.83}


 71%|███████   | 2850/4008 [21:05<08:05,  2.39it/s]

{'loss': 0.0003, 'grad_norm': 0.014941509813070297, 'learning_rate': 1.518495472084526e-05, 'epoch': 2.84}


 71%|███████▏  | 2860/4008 [21:09<07:26,  2.57it/s]

{'loss': 0.0001, 'grad_norm': 0.0005692485137842596, 'learning_rate': 1.5053823851062487e-05, 'epoch': 2.85}


 72%|███████▏  | 2870/4008 [21:13<07:27,  2.55it/s]

{'loss': 0.0001, 'grad_norm': 0.0011493093334138393, 'learning_rate': 1.4922692981279714e-05, 'epoch': 2.86}


 72%|███████▏  | 2880/4008 [21:17<07:18,  2.57it/s]

{'loss': 0.0001, 'grad_norm': 0.0010775602422654629, 'learning_rate': 1.479156211149694e-05, 'epoch': 2.87}


 72%|███████▏  | 2890/4008 [21:22<09:45,  1.91it/s]

{'loss': 0.0001, 'grad_norm': 0.0008073455537669361, 'learning_rate': 1.4660431241714164e-05, 'epoch': 2.88}


 72%|███████▏  | 2900/4008 [21:26<07:52,  2.35it/s]

{'loss': 0.0001, 'grad_norm': 0.001822356483899057, 'learning_rate': 1.452930037193139e-05, 'epoch': 2.89}


 73%|███████▎  | 2910/4008 [21:31<07:34,  2.42it/s]

{'loss': 0.0001, 'grad_norm': 0.000778259476646781, 'learning_rate': 1.4398169502148616e-05, 'epoch': 2.9}


 73%|███████▎  | 2920/4008 [21:35<07:28,  2.43it/s]

{'loss': 0.0312, 'grad_norm': 0.0016092128353193402, 'learning_rate': 1.4267038632365841e-05, 'epoch': 2.91}


 73%|███████▎  | 2930/4008 [21:39<07:26,  2.42it/s]

{'loss': 0.0001, 'grad_norm': 0.001123614376410842, 'learning_rate': 1.4135907762583067e-05, 'epoch': 2.92}


 73%|███████▎  | 2940/4008 [21:43<07:22,  2.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0005181582528166473, 'learning_rate': 1.4004776892800292e-05, 'epoch': 2.93}


 74%|███████▎  | 2950/4008 [21:47<07:20,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.0006981772021390498, 'learning_rate': 1.3873646023017517e-05, 'epoch': 2.94}


 74%|███████▍  | 2960/4008 [21:51<07:15,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.000718163326382637, 'learning_rate': 1.3742515153234745e-05, 'epoch': 2.95}


 74%|███████▍  | 2970/4008 [21:55<07:12,  2.40it/s]

{'loss': 0.0001, 'grad_norm': 0.0012987579684704542, 'learning_rate': 1.361138428345197e-05, 'epoch': 2.96}


 74%|███████▍  | 2980/4008 [22:00<09:37,  1.78it/s]

{'loss': 0.0001, 'grad_norm': 0.0009094218257814646, 'learning_rate': 1.3480253413669196e-05, 'epoch': 2.97}


 75%|███████▍  | 2990/4008 [22:05<07:26,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0008307128446176648, 'learning_rate': 1.334912254388642e-05, 'epoch': 2.98}


 75%|███████▍  | 3000/4008 [22:09<07:07,  2.36it/s]

{'loss': 0.0, 'grad_norm': 0.0005563674494624138, 'learning_rate': 1.3217991674103646e-05, 'epoch': 2.99}


 75%|███████▌  | 3006/4008 [22:11<05:36,  2.97it/s]
 75%|███████▌  | 3006/4008 [22:50<05:36,  2.97it/s]

{'eval_loss': 0.01640760526061058, 'eval_accuracy': 0.9983657163609951, 'eval_f1': 0.998364483233096, 'eval_runtime': 38.3663, 'eval_samples_per_second': 143.538, 'eval_steps_per_second': 17.958, 'epoch': 3.0}


 75%|███████▌  | 3010/4008 [23:27<2:12:16,  7.95s/it]

{'loss': 0.0, 'grad_norm': 0.0012225433019921184, 'learning_rate': 1.3086860804320873e-05, 'epoch': 3.0}


 75%|███████▌  | 3020/4008 [23:29<07:08,  2.30it/s]  

{'loss': 0.0001, 'grad_norm': 0.0006221947260200977, 'learning_rate': 1.2955729934538098e-05, 'epoch': 3.01}


 76%|███████▌  | 3030/4008 [23:32<03:48,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.000784299336373806, 'learning_rate': 1.2824599064755325e-05, 'epoch': 3.02}


 76%|███████▌  | 3040/4008 [23:34<03:42,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0009234835742972791, 'learning_rate': 1.269346819497255e-05, 'epoch': 3.03}


 76%|███████▌  | 3050/4008 [23:36<03:47,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.0007657610694877803, 'learning_rate': 1.2562337325189775e-05, 'epoch': 3.04}


 76%|███████▋  | 3060/4008 [23:39<03:52,  4.08it/s]

{'loss': 0.0163, 'grad_norm': 0.0008810827857814729, 'learning_rate': 1.2431206455407002e-05, 'epoch': 3.05}


 77%|███████▋  | 3070/4008 [23:41<03:52,  4.04it/s]

{'loss': 0.0, 'grad_norm': 0.000870127696543932, 'learning_rate': 1.2300075585624227e-05, 'epoch': 3.06}


 77%|███████▋  | 3080/4008 [23:44<03:53,  3.97it/s]

{'loss': 0.0001, 'grad_norm': 0.0017562482971698046, 'learning_rate': 1.2168944715841454e-05, 'epoch': 3.07}


 77%|███████▋  | 3090/4008 [23:47<03:50,  3.99it/s]

{'loss': 0.0001, 'grad_norm': 0.001382511924020946, 'learning_rate': 1.2037813846058679e-05, 'epoch': 3.08}


 77%|███████▋  | 3100/4008 [23:49<03:56,  3.84it/s]

{'loss': 0.0, 'grad_norm': 0.0004519853100646287, 'learning_rate': 1.1906682976275904e-05, 'epoch': 3.09}


 78%|███████▊  | 3110/4008 [23:52<03:56,  3.79it/s]

{'loss': 0.0055, 'grad_norm': 0.0012168055400252342, 'learning_rate': 1.177555210649313e-05, 'epoch': 3.1}


 78%|███████▊  | 3120/4008 [23:55<04:14,  3.49it/s]

{'loss': 0.0, 'grad_norm': 0.0009716587956063449, 'learning_rate': 1.1644421236710356e-05, 'epoch': 3.11}


 78%|███████▊  | 3130/4008 [23:57<03:58,  3.68it/s]

{'loss': 0.0353, 'grad_norm': 0.0006292601465247571, 'learning_rate': 1.1513290366927581e-05, 'epoch': 3.12}


 78%|███████▊  | 3140/4008 [24:00<04:01,  3.60it/s]

{'loss': 0.0, 'grad_norm': 0.000946642248891294, 'learning_rate': 1.1382159497144808e-05, 'epoch': 3.13}


 79%|███████▊  | 3150/4008 [24:03<03:59,  3.58it/s]

{'loss': 0.0129, 'grad_norm': 0.008305725641548634, 'learning_rate': 1.1251028627362033e-05, 'epoch': 3.14}


 79%|███████▉  | 3160/4008 [24:06<04:34,  3.09it/s]

{'loss': 0.0001, 'grad_norm': 0.000994000700302422, 'learning_rate': 1.111989775757926e-05, 'epoch': 3.15}


 79%|███████▉  | 3170/4008 [24:09<04:30,  3.10it/s]

{'loss': 0.0001, 'grad_norm': 0.0011873997282236814, 'learning_rate': 1.0988766887796485e-05, 'epoch': 3.16}


 79%|███████▉  | 3180/4008 [24:13<04:27,  3.10it/s]

{'loss': 0.0, 'grad_norm': 0.0008038656669668853, 'learning_rate': 1.085763601801371e-05, 'epoch': 3.17}


 80%|███████▉  | 3190/4008 [24:16<04:25,  3.08it/s]

{'loss': 0.0, 'grad_norm': 0.0004791697720065713, 'learning_rate': 1.0726505148230937e-05, 'epoch': 3.18}


 80%|███████▉  | 3200/4008 [24:19<04:23,  3.07it/s]

{'loss': 0.0, 'grad_norm': 0.0008061968255788088, 'learning_rate': 1.0595374278448162e-05, 'epoch': 3.19}


 80%|████████  | 3210/4008 [24:22<04:20,  3.06it/s]

{'loss': 0.0, 'grad_norm': 0.0005550816422328353, 'learning_rate': 1.0464243408665387e-05, 'epoch': 3.2}


 80%|████████  | 3220/4008 [24:26<04:46,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.0013759071007370949, 'learning_rate': 1.0333112538882614e-05, 'epoch': 3.21}


 81%|████████  | 3230/4008 [24:30<04:40,  2.77it/s]

{'loss': 0.0, 'grad_norm': 0.0007414015708491206, 'learning_rate': 1.0201981669099839e-05, 'epoch': 3.22}


 81%|████████  | 3240/4008 [24:34<05:18,  2.41it/s]

{'loss': 0.0, 'grad_norm': 0.0002948915644083172, 'learning_rate': 1.0070850799317066e-05, 'epoch': 3.23}


 81%|████████  | 3250/4008 [24:38<05:28,  2.31it/s]

{'loss': 0.0, 'grad_norm': 0.0011645593913272023, 'learning_rate': 9.939719929534291e-06, 'epoch': 3.24}


 81%|████████▏ | 3260/4008 [24:42<05:25,  2.30it/s]

{'loss': 0.0, 'grad_norm': 0.0004206150770187378, 'learning_rate': 9.808589059751516e-06, 'epoch': 3.25}


 82%|████████▏ | 3270/4008 [24:47<05:21,  2.29it/s]

{'loss': 0.0, 'grad_norm': 0.0005624503246508539, 'learning_rate': 9.677458189968741e-06, 'epoch': 3.26}


 82%|████████▏ | 3280/4008 [24:51<05:15,  2.31it/s]

{'loss': 0.0022, 'grad_norm': 0.0005646173958666623, 'learning_rate': 9.546327320185968e-06, 'epoch': 3.27}


 82%|████████▏ | 3290/4008 [24:55<05:14,  2.29it/s]

{'loss': 0.0, 'grad_norm': 0.00061830721097067, 'learning_rate': 9.415196450403193e-06, 'epoch': 3.28}


 82%|████████▏ | 3300/4008 [25:00<05:07,  2.30it/s]

{'loss': 0.0, 'grad_norm': 0.0004962459788657725, 'learning_rate': 9.284065580620418e-06, 'epoch': 3.29}


 83%|████████▎ | 3310/4008 [25:04<05:07,  2.27it/s]

{'loss': 0.0, 'grad_norm': 0.0006133184651844203, 'learning_rate': 9.152934710837644e-06, 'epoch': 3.3}


 83%|████████▎ | 3320/4008 [25:08<05:01,  2.28it/s]

{'loss': 0.0, 'grad_norm': 0.0008280304609797895, 'learning_rate': 9.02180384105487e-06, 'epoch': 3.31}


 83%|████████▎ | 3330/4008 [25:13<04:22,  2.59it/s]

{'loss': 0.0, 'grad_norm': 0.0006831407081335783, 'learning_rate': 8.890672971272096e-06, 'epoch': 3.32}


 83%|████████▎ | 3340/4008 [25:16<04:02,  2.75it/s]

{'loss': 0.0, 'grad_norm': 0.0005484902067109942, 'learning_rate': 8.75954210148932e-06, 'epoch': 3.33}


 84%|████████▎ | 3350/4008 [25:21<04:56,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.0008216174901463091, 'learning_rate': 8.628411231706547e-06, 'epoch': 3.34}


 84%|████████▍ | 3360/4008 [25:25<04:54,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.0006037991843186319, 'learning_rate': 8.497280361923773e-06, 'epoch': 3.35}


 84%|████████▍ | 3370/4008 [25:30<04:48,  2.21it/s]

{'loss': 0.0, 'grad_norm': 0.0006215222529135644, 'learning_rate': 8.366149492140998e-06, 'epoch': 3.36}


 84%|████████▍ | 3380/4008 [25:34<04:41,  2.23it/s]

{'loss': 0.0, 'grad_norm': 0.0007436815649271011, 'learning_rate': 8.235018622358225e-06, 'epoch': 3.37}


 85%|████████▍ | 3390/4008 [25:39<04:38,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.0005372601444832981, 'learning_rate': 8.10388775257545e-06, 'epoch': 3.38}


 85%|████████▍ | 3400/4008 [25:43<03:59,  2.54it/s]

{'loss': 0.0, 'grad_norm': 0.00031520563061349094, 'learning_rate': 7.972756882792677e-06, 'epoch': 3.39}


 85%|████████▌ | 3410/4008 [25:47<03:55,  2.54it/s]

{'loss': 0.0, 'grad_norm': 0.0003336587396916002, 'learning_rate': 7.841626013009902e-06, 'epoch': 3.4}


 85%|████████▌ | 3420/4008 [25:51<04:10,  2.35it/s]

{'loss': 0.0, 'grad_norm': 0.0007374232518486679, 'learning_rate': 7.710495143227127e-06, 'epoch': 3.41}


 86%|████████▌ | 3430/4008 [25:55<04:09,  2.32it/s]

{'loss': 0.0, 'grad_norm': 0.000895169039722532, 'learning_rate': 7.579364273444354e-06, 'epoch': 3.42}


 86%|████████▌ | 3440/4008 [25:59<04:03,  2.33it/s]

{'loss': 0.0, 'grad_norm': 0.0004881525528617203, 'learning_rate': 7.448233403661579e-06, 'epoch': 3.43}


 86%|████████▌ | 3450/4008 [26:04<03:58,  2.34it/s]

{'loss': 0.0, 'grad_norm': 0.0007316980045288801, 'learning_rate': 7.317102533878804e-06, 'epoch': 3.44}


 86%|████████▋ | 3460/4008 [26:08<03:52,  2.36it/s]

{'loss': 0.0, 'grad_norm': 0.0007525929831899703, 'learning_rate': 7.185971664096031e-06, 'epoch': 3.45}


 87%|████████▋ | 3470/4008 [26:12<03:49,  2.35it/s]

{'loss': 0.0, 'grad_norm': 0.0004453982401173562, 'learning_rate': 7.054840794313256e-06, 'epoch': 3.46}


 87%|████████▋ | 3480/4008 [26:17<03:46,  2.33it/s]

{'loss': 0.0, 'grad_norm': 0.0002491089981049299, 'learning_rate': 6.923709924530483e-06, 'epoch': 3.47}


 87%|████████▋ | 3490/4008 [26:21<03:42,  2.33it/s]

{'loss': 0.0, 'grad_norm': 0.00031809433130547404, 'learning_rate': 6.792579054747708e-06, 'epoch': 3.48}


 87%|████████▋ | 3500/4008 [26:25<03:38,  2.33it/s]

{'loss': 0.0, 'grad_norm': 0.0005810430156998336, 'learning_rate': 6.661448184964933e-06, 'epoch': 3.49}


 88%|████████▊ | 3510/4008 [26:29<03:33,  2.34it/s]

{'loss': 0.0, 'grad_norm': 0.0006985113141126931, 'learning_rate': 6.530317315182159e-06, 'epoch': 3.5}


 88%|████████▊ | 3520/4008 [26:34<03:27,  2.35it/s]

{'loss': 0.0, 'grad_norm': 0.0006326667498797178, 'learning_rate': 6.399186445399385e-06, 'epoch': 3.51}


 88%|████████▊ | 3530/4008 [26:38<03:24,  2.34it/s]

{'loss': 0.0, 'grad_norm': 0.0006532156257890165, 'learning_rate': 6.268055575616611e-06, 'epoch': 3.52}


 88%|████████▊ | 3540/4008 [26:42<03:18,  2.36it/s]

{'loss': 0.0, 'grad_norm': 0.00043081771582365036, 'learning_rate': 6.136924705833837e-06, 'epoch': 3.53}


 89%|████████▊ | 3550/4008 [26:47<03:16,  2.33it/s]

{'loss': 0.0, 'grad_norm': 0.0006891028606332839, 'learning_rate': 6.005793836051062e-06, 'epoch': 3.54}


 89%|████████▉ | 3560/4008 [26:51<03:10,  2.35it/s]

{'loss': 0.0, 'grad_norm': 0.0031246573198586702, 'learning_rate': 5.874662966268288e-06, 'epoch': 3.55}


 89%|████████▉ | 3570/4008 [26:55<03:28,  2.10it/s]

{'loss': 0.0, 'grad_norm': 0.0006215018802322447, 'learning_rate': 5.743532096485513e-06, 'epoch': 3.56}


 89%|████████▉ | 3580/4008 [27:00<02:54,  2.46it/s]

{'loss': 0.0, 'grad_norm': 0.0002134296955773607, 'learning_rate': 5.612401226702739e-06, 'epoch': 3.57}


 90%|████████▉ | 3590/4008 [27:04<02:44,  2.54it/s]

{'loss': 0.0, 'grad_norm': 0.00036527455085888505, 'learning_rate': 5.481270356919964e-06, 'epoch': 3.58}


 90%|████████▉ | 3600/4008 [27:08<02:41,  2.53it/s]

{'loss': 0.0, 'grad_norm': 0.00032309372909367085, 'learning_rate': 5.35013948713719e-06, 'epoch': 3.59}


 90%|█████████ | 3610/4008 [27:11<02:37,  2.53it/s]

{'loss': 0.0, 'grad_norm': 0.000620953447651118, 'learning_rate': 5.219008617354416e-06, 'epoch': 3.6}


 90%|█████████ | 3620/4008 [27:16<02:56,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.0004051898140460253, 'learning_rate': 5.087877747571642e-06, 'epoch': 3.61}


 91%|█████████ | 3630/4008 [27:21<02:54,  2.17it/s]

{'loss': 0.0, 'grad_norm': 0.0004900831845588982, 'learning_rate': 4.956746877788867e-06, 'epoch': 3.62}


 91%|█████████ | 3640/4008 [27:25<02:30,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.0008231851970776916, 'learning_rate': 4.825616008006093e-06, 'epoch': 3.63}


 91%|█████████ | 3650/4008 [27:29<02:27,  2.43it/s]

{'loss': 0.0, 'grad_norm': 0.00032448084675706923, 'learning_rate': 4.694485138223319e-06, 'epoch': 3.64}


 91%|█████████▏| 3660/4008 [27:33<02:22,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.00042444016435183585, 'learning_rate': 4.563354268440545e-06, 'epoch': 3.65}


 92%|█████████▏| 3670/4008 [27:37<02:18,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.0004600703250616789, 'learning_rate': 4.43222339865777e-06, 'epoch': 3.66}


 92%|█████████▏| 3680/4008 [27:41<02:14,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.0003186134563293308, 'learning_rate': 4.301092528874996e-06, 'epoch': 3.67}


 92%|█████████▏| 3690/4008 [27:45<02:10,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.000281884684227407, 'learning_rate': 4.169961659092222e-06, 'epoch': 3.68}


 92%|█████████▏| 3700/4008 [27:49<02:06,  2.44it/s]

{'loss': 0.0, 'grad_norm': 0.00036102699232287705, 'learning_rate': 4.038830789309448e-06, 'epoch': 3.69}


 93%|█████████▎| 3710/4008 [27:54<02:01,  2.45it/s]

{'loss': 0.0, 'grad_norm': 0.0006570426048710942, 'learning_rate': 3.907699919526673e-06, 'epoch': 3.7}


 93%|█████████▎| 3720/4008 [27:58<01:58,  2.43it/s]

{'loss': 0.0, 'grad_norm': 0.0003821116697508842, 'learning_rate': 3.776569049743899e-06, 'epoch': 3.71}


 93%|█████████▎| 3730/4008 [28:03<02:24,  1.92it/s]

{'loss': 0.0, 'grad_norm': 0.0006373951327987015, 'learning_rate': 3.645438179961125e-06, 'epoch': 3.72}


 93%|█████████▎| 3740/4008 [28:08<01:55,  2.32it/s]

{'loss': 0.0, 'grad_norm': 0.0006360767874866724, 'learning_rate': 3.514307310178351e-06, 'epoch': 3.73}


 94%|█████████▎| 3750/4008 [28:12<01:43,  2.49it/s]

{'loss': 0.0, 'grad_norm': 0.0005509201437234879, 'learning_rate': 3.383176440395576e-06, 'epoch': 3.74}


 94%|█████████▍| 3760/4008 [28:16<01:39,  2.49it/s]

{'loss': 0.0, 'grad_norm': 0.00037558574695140123, 'learning_rate': 3.252045570612802e-06, 'epoch': 3.75}


 94%|█████████▍| 3770/4008 [28:20<01:47,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.0007634463836438954, 'learning_rate': 3.120914700830028e-06, 'epoch': 3.76}


 94%|█████████▍| 3780/4008 [28:25<01:43,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.000619059894233942, 'learning_rate': 2.9897838310472535e-06, 'epoch': 3.77}


 95%|█████████▍| 3790/4008 [28:29<01:38,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.0003920616873074323, 'learning_rate': 2.8586529612644795e-06, 'epoch': 3.78}


 95%|█████████▍| 3800/4008 [28:34<01:34,  2.21it/s]

{'loss': 0.0, 'grad_norm': 0.0003274773480370641, 'learning_rate': 2.727522091481705e-06, 'epoch': 3.79}


 95%|█████████▌| 3810/4008 [28:38<01:30,  2.19it/s]

{'loss': 0.0, 'grad_norm': 0.00021465889585670084, 'learning_rate': 2.5963912216989306e-06, 'epoch': 3.8}


 95%|█████████▌| 3820/4008 [28:43<01:24,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.0003391538339201361, 'learning_rate': 2.465260351916156e-06, 'epoch': 3.81}


 96%|█████████▌| 3830/4008 [28:47<01:20,  2.22it/s]

{'loss': 0.0, 'grad_norm': 0.00024380463582929224, 'learning_rate': 2.334129482133382e-06, 'epoch': 3.82}


 96%|█████████▌| 3840/4008 [28:52<01:15,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.0006073917611502111, 'learning_rate': 2.2029986123506077e-06, 'epoch': 3.83}


 96%|█████████▌| 3850/4008 [28:56<01:10,  2.23it/s]

{'loss': 0.0, 'grad_norm': 0.0008841282688081264, 'learning_rate': 2.0718677425678336e-06, 'epoch': 3.84}


 96%|█████████▋| 3860/4008 [29:01<01:06,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.0005706953234039247, 'learning_rate': 1.940736872785059e-06, 'epoch': 3.85}


 97%|█████████▋| 3870/4008 [29:05<01:01,  2.24it/s]

{'loss': 0.0, 'grad_norm': 0.00040822289884090424, 'learning_rate': 1.8096060030022852e-06, 'epoch': 3.86}


 97%|█████████▋| 3880/4008 [29:10<00:57,  2.22it/s]

{'loss': 0.0264, 'grad_norm': 0.0014206147752702236, 'learning_rate': 1.6784751332195107e-06, 'epoch': 3.87}


 97%|█████████▋| 3890/4008 [29:14<00:52,  2.23it/s]

{'loss': 0.0, 'grad_norm': 0.0006425161263905466, 'learning_rate': 1.5473442634367365e-06, 'epoch': 3.88}


 97%|█████████▋| 3900/4008 [29:19<00:48,  2.20it/s]

{'loss': 0.0, 'grad_norm': 0.0004737989802379161, 'learning_rate': 1.4162133936539622e-06, 'epoch': 3.89}


 98%|█████████▊| 3910/4008 [29:23<00:43,  2.23it/s]

{'loss': 0.0, 'grad_norm': 0.0009283243562094867, 'learning_rate': 1.285082523871188e-06, 'epoch': 3.9}


 98%|█████████▊| 3920/4008 [29:28<00:39,  2.26it/s]

{'loss': 0.0, 'grad_norm': 0.00044553299085237086, 'learning_rate': 1.1539516540884138e-06, 'epoch': 3.91}


 98%|█████████▊| 3930/4008 [29:32<00:34,  2.25it/s]

{'loss': 0.0, 'grad_norm': 0.000512670143507421, 'learning_rate': 1.0228207843056393e-06, 'epoch': 3.92}


 98%|█████████▊| 3940/4008 [29:36<00:24,  2.73it/s]

{'loss': 0.0, 'grad_norm': 0.0003464019391685724, 'learning_rate': 8.916899145228651e-07, 'epoch': 3.93}


 99%|█████████▊| 3950/4008 [29:40<00:30,  1.89it/s]

{'loss': 0.0, 'grad_norm': 0.0005388805293478072, 'learning_rate': 7.605590447400909e-07, 'epoch': 3.94}


 99%|█████████▉| 3960/4008 [29:45<00:21,  2.26it/s]

{'loss': 0.0, 'grad_norm': 0.0003724734124261886, 'learning_rate': 6.294281749573166e-07, 'epoch': 3.95}


 99%|█████████▉| 3970/4008 [29:49<00:16,  2.27it/s]

{'loss': 0.0, 'grad_norm': 0.00036084488965570927, 'learning_rate': 4.982973051745423e-07, 'epoch': 3.96}


 99%|█████████▉| 3980/4008 [29:54<00:12,  2.26it/s]

{'loss': 0.0, 'grad_norm': 0.000340597442118451, 'learning_rate': 3.67166435391768e-07, 'epoch': 3.97}


100%|█████████▉| 3990/4008 [29:58<00:07,  2.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0007041376666165888, 'learning_rate': 2.3603556560899368e-07, 'epoch': 3.98}


100%|█████████▉| 4000/4008 [30:02<00:03,  2.28it/s]

{'loss': 0.0, 'grad_norm': 0.00031665703863836825, 'learning_rate': 1.0490469582621942e-07, 'epoch': 3.99}


100%|██████████| 4008/4008 [30:06<00:00,  2.90it/s]
100%|██████████| 4008/4008 [31:06<00:00,  2.90it/s]

{'eval_loss': 0.008535980246961117, 'eval_accuracy': 0.9992736517159978, 'eval_f1': 0.9992780517828329, 'eval_runtime': 24.6561, 'eval_samples_per_second': 223.352, 'eval_steps_per_second': 27.944, 'epoch': 4.0}


100%|██████████| 4008/4008 [31:42<00:00,  2.11it/s]


{'train_runtime': 1902.7264, 'train_samples_per_second': 46.3, 'train_steps_per_second': 2.106, 'train_loss': 0.008977433190116943, 'epoch': 4.0}


100%|██████████| 689/689 [00:24<00:00, 28.49it/s]
  0%|          | 11/6009 [00:01<17:32,  5.70it/s]

{'loss': 0.0, 'grad_norm': 3.4156993933720514e-05, 'learning_rate': 5.726539784083926e-05, 'epoch': 0.0}


  0%|          | 21/6009 [00:03<17:15,  5.78it/s]

{'loss': 0.0, 'grad_norm': 3.589507832657546e-05, 'learning_rate': 5.716993960139795e-05, 'epoch': 0.01}


  1%|          | 31/6009 [00:05<16:55,  5.88it/s]

{'loss': 0.0, 'grad_norm': 7.3673327278811485e-06, 'learning_rate': 5.707448136195665e-05, 'epoch': 0.01}


  1%|          | 41/6009 [00:07<17:16,  5.76it/s]

{'loss': 0.0, 'grad_norm': 9.728026270749979e-06, 'learning_rate': 5.697902312251534e-05, 'epoch': 0.02}


  1%|          | 51/6009 [00:09<17:10,  5.78it/s]

{'loss': 0.0, 'grad_norm': 4.1115695239568595e-06, 'learning_rate': 5.688356488307404e-05, 'epoch': 0.02}


  1%|          | 61/6009 [00:10<17:05,  5.80it/s]

{'loss': 0.0, 'grad_norm': 3.733493940671906e-06, 'learning_rate': 5.678810664363273e-05, 'epoch': 0.03}


  1%|          | 71/6009 [00:12<17:11,  5.76it/s]

{'loss': 0.1664, 'grad_norm': 6.106925138738006e-05, 'learning_rate': 5.669264840419142e-05, 'epoch': 0.03}


  1%|▏         | 81/6009 [00:14<17:16,  5.72it/s]

{'loss': 0.1053, 'grad_norm': 0.0011504451977089047, 'learning_rate': 5.659719016475012e-05, 'epoch': 0.04}


  2%|▏         | 91/6009 [00:16<17:11,  5.74it/s]

{'loss': 0.1726, 'grad_norm': 0.06585656851530075, 'learning_rate': 5.650173192530881e-05, 'epoch': 0.04}


  2%|▏         | 101/6009 [00:17<17:34,  5.60it/s]

{'loss': 0.0001, 'grad_norm': 0.021707838401198387, 'learning_rate': 5.640627368586751e-05, 'epoch': 0.05}


  2%|▏         | 111/6009 [00:19<18:17,  5.38it/s]

{'loss': 0.001, 'grad_norm': 0.0005782552761957049, 'learning_rate': 5.6310815446426205e-05, 'epoch': 0.05}


  2%|▏         | 121/6009 [00:21<18:31,  5.30it/s]

{'loss': 0.0, 'grad_norm': 0.001781991682946682, 'learning_rate': 5.6215357206984894e-05, 'epoch': 0.06}


  2%|▏         | 131/6009 [00:23<18:06,  5.41it/s]

{'loss': 0.0, 'grad_norm': 0.0003231308946851641, 'learning_rate': 5.611989896754359e-05, 'epoch': 0.06}


  2%|▏         | 141/6009 [00:25<17:40,  5.53it/s]

{'loss': 0.0, 'grad_norm': 0.0003042332245968282, 'learning_rate': 5.602444072810228e-05, 'epoch': 0.07}


  3%|▎         | 151/6009 [00:27<17:35,  5.55it/s]

{'loss': 0.0, 'grad_norm': 8.8368498836644e-05, 'learning_rate': 5.592898248866098e-05, 'epoch': 0.07}


  3%|▎         | 161/6009 [00:29<18:23,  5.30it/s]

{'loss': 0.0, 'grad_norm': 0.00022151897428557277, 'learning_rate': 5.583352424921968e-05, 'epoch': 0.08}


  3%|▎         | 171/6009 [00:31<18:33,  5.25it/s]

{'loss': 0.0, 'grad_norm': 0.0003082979819737375, 'learning_rate': 5.5738066009778366e-05, 'epoch': 0.08}


  3%|▎         | 181/6009 [00:32<18:37,  5.21it/s]

{'loss': 0.0, 'grad_norm': 0.0001316075649810955, 'learning_rate': 5.564260777033706e-05, 'epoch': 0.09}


  3%|▎         | 191/6009 [00:34<18:15,  5.31it/s]

{'loss': 0.0, 'grad_norm': 0.00027255737222731113, 'learning_rate': 5.554714953089575e-05, 'epoch': 0.09}


  3%|▎         | 201/6009 [00:36<18:15,  5.30it/s]

{'loss': 0.0, 'grad_norm': 0.00026007447740994394, 'learning_rate': 5.5451691291454454e-05, 'epoch': 0.1}


  4%|▎         | 211/6009 [00:38<18:37,  5.19it/s]

{'loss': 0.0, 'grad_norm': 0.00011854161130031571, 'learning_rate': 5.535623305201315e-05, 'epoch': 0.1}


  4%|▎         | 221/6009 [00:40<18:25,  5.24it/s]

{'loss': 0.0, 'grad_norm': 0.0003807540924753994, 'learning_rate': 5.526077481257184e-05, 'epoch': 0.11}


  4%|▍         | 230/6009 [00:42<21:56,  4.39it/s]

{'loss': 0.0, 'grad_norm': 9.115180728258565e-05, 'learning_rate': 5.5165316573130535e-05, 'epoch': 0.11}


  4%|▍         | 241/6009 [00:44<19:23,  4.96it/s]

{'loss': 0.0, 'grad_norm': 6.165377999423072e-05, 'learning_rate': 5.506985833368923e-05, 'epoch': 0.12}


  4%|▍         | 251/6009 [00:46<18:59,  5.05it/s]

{'loss': 0.0, 'grad_norm': 7.368786464212462e-05, 'learning_rate': 5.497440009424792e-05, 'epoch': 0.12}


  4%|▍         | 261/6009 [00:48<19:14,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.00021892697259318084, 'learning_rate': 5.487894185480662e-05, 'epoch': 0.13}


  5%|▍         | 271/6009 [00:51<19:13,  4.97it/s]

{'loss': 0.0, 'grad_norm': 0.00012781105760950595, 'learning_rate': 5.478348361536531e-05, 'epoch': 0.13}


  5%|▍         | 281/6009 [00:53<18:52,  5.06it/s]

{'loss': 0.0, 'grad_norm': 9.230784053215757e-05, 'learning_rate': 5.468802537592401e-05, 'epoch': 0.14}


  5%|▍         | 291/6009 [00:55<19:08,  4.98it/s]

{'loss': 0.0, 'grad_norm': 4.532918319455348e-05, 'learning_rate': 5.45925671364827e-05, 'epoch': 0.14}


  5%|▌         | 301/6009 [00:57<19:19,  4.92it/s]

{'loss': 0.0, 'grad_norm': 2.198884976678528e-05, 'learning_rate': 5.449710889704139e-05, 'epoch': 0.15}


  5%|▌         | 311/6009 [00:59<19:11,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.00014154499513097107, 'learning_rate': 5.440165065760009e-05, 'epoch': 0.15}


  5%|▌         | 320/6009 [01:00<19:05,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.00016192218754440546, 'learning_rate': 5.4306192418158784e-05, 'epoch': 0.16}


  5%|▌         | 330/6009 [01:04<19:26,  4.87it/s]

{'loss': 0.0, 'grad_norm': 6.30784998065792e-05, 'learning_rate': 5.421073417871748e-05, 'epoch': 0.16}


  6%|▌         | 341/6009 [01:06<19:17,  4.90it/s]

{'loss': 0.0, 'grad_norm': 0.00014552600623574108, 'learning_rate': 5.4115275939276175e-05, 'epoch': 0.17}


  6%|▌         | 350/6009 [01:08<23:18,  4.05it/s]

{'loss': 0.0, 'grad_norm': 4.588506635627709e-05, 'learning_rate': 5.4019817699834864e-05, 'epoch': 0.17}


  6%|▌         | 360/6009 [01:10<23:42,  3.97it/s]

{'loss': 0.0, 'grad_norm': 5.022474942961708e-05, 'learning_rate': 5.392435946039356e-05, 'epoch': 0.18}


  6%|▌         | 370/6009 [01:13<20:00,  4.70it/s]

{'loss': 0.0, 'grad_norm': 8.401740342378616e-05, 'learning_rate': 5.3828901220952256e-05, 'epoch': 0.18}


  6%|▋         | 380/6009 [01:15<19:45,  4.75it/s]

{'loss': 0.0, 'grad_norm': 0.0001780950406100601, 'learning_rate': 5.373344298151095e-05, 'epoch': 0.19}


  6%|▋         | 390/6009 [01:17<19:44,  4.74it/s]

{'loss': 0.0, 'grad_norm': 5.16545660502743e-05, 'learning_rate': 5.363798474206965e-05, 'epoch': 0.19}


  7%|▋         | 401/6009 [01:19<19:59,  4.68it/s]

{'loss': 0.0, 'grad_norm': 2.650930400704965e-05, 'learning_rate': 5.354252650262834e-05, 'epoch': 0.2}


  7%|▋         | 410/6009 [01:21<19:43,  4.73it/s]

{'loss': 0.0, 'grad_norm': 6.13796291872859e-05, 'learning_rate': 5.344706826318703e-05, 'epoch': 0.2}


  7%|▋         | 421/6009 [01:23<19:41,  4.73it/s]

{'loss': 0.0, 'grad_norm': 0.00010375602869316936, 'learning_rate': 5.335161002374572e-05, 'epoch': 0.21}


  7%|▋         | 430/6009 [01:25<19:48,  4.69it/s]

{'loss': 0.0, 'grad_norm': 1.1045178325730376e-05, 'learning_rate': 5.3256151784304424e-05, 'epoch': 0.21}


  7%|▋         | 440/6009 [01:28<19:40,  4.72it/s]

{'loss': 0.0, 'grad_norm': 8.779280324233696e-05, 'learning_rate': 5.316069354486312e-05, 'epoch': 0.22}


  8%|▊         | 451/6009 [01:30<19:39,  4.71it/s]

{'loss': 0.0, 'grad_norm': 5.428400618257001e-05, 'learning_rate': 5.306523530542181e-05, 'epoch': 0.22}


  8%|▊         | 460/6009 [01:32<26:33,  3.48it/s]

{'loss': 0.0, 'grad_norm': 4.437097595655359e-05, 'learning_rate': 5.2969777065980505e-05, 'epoch': 0.23}


  8%|▊         | 470/6009 [01:35<22:02,  4.19it/s]

{'loss': 0.0, 'grad_norm': 0.0001245718012796715, 'learning_rate': 5.2874318826539194e-05, 'epoch': 0.23}


  8%|▊         | 480/6009 [01:37<21:26,  4.30it/s]

{'loss': 0.0, 'grad_norm': 7.497344631701708e-05, 'learning_rate': 5.277886058709789e-05, 'epoch': 0.24}


  8%|▊         | 490/6009 [01:40<21:28,  4.28it/s]

{'loss': 0.0, 'grad_norm': 7.293189992196858e-05, 'learning_rate': 5.268340234765659e-05, 'epoch': 0.24}


  8%|▊         | 500/6009 [01:42<21:49,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.00011279990576440468, 'learning_rate': 5.258794410821528e-05, 'epoch': 0.25}


  8%|▊         | 510/6009 [01:44<21:24,  4.28it/s]

{'loss': 0.0, 'grad_norm': 3.1214425689540803e-05, 'learning_rate': 5.249248586877398e-05, 'epoch': 0.25}


  9%|▊         | 520/6009 [01:47<21:48,  4.20it/s]

{'loss': 0.0, 'grad_norm': 6.904877227498218e-05, 'learning_rate': 5.2397027629332666e-05, 'epoch': 0.26}


  9%|▉         | 530/6009 [01:49<21:23,  4.27it/s]

{'loss': 0.0, 'grad_norm': 5.263775528874248e-05, 'learning_rate': 5.230156938989136e-05, 'epoch': 0.26}


  9%|▉         | 540/6009 [01:51<21:31,  4.23it/s]

{'loss': 0.0, 'grad_norm': 5.928717291681096e-05, 'learning_rate': 5.220611115045006e-05, 'epoch': 0.27}


  9%|▉         | 550/6009 [01:54<21:27,  4.24it/s]

{'loss': 0.0, 'grad_norm': 2.0573575966409408e-05, 'learning_rate': 5.2110652911008754e-05, 'epoch': 0.27}


  9%|▉         | 560/6009 [01:56<21:19,  4.26it/s]

{'loss': 0.0003, 'grad_norm': 3.1140145438257605e-05, 'learning_rate': 5.201519467156745e-05, 'epoch': 0.28}


  9%|▉         | 570/6009 [01:58<21:19,  4.25it/s]

{'loss': 0.0, 'grad_norm': 2.7768357540480793e-05, 'learning_rate': 5.191973643212614e-05, 'epoch': 0.28}


 10%|▉         | 581/6009 [02:01<18:58,  4.77it/s]

{'loss': 0.0, 'grad_norm': 3.656021726783365e-05, 'learning_rate': 5.1824278192684835e-05, 'epoch': 0.29}


 10%|▉         | 591/6009 [02:03<18:21,  4.92it/s]

{'loss': 0.0, 'grad_norm': 2.6687996069085784e-05, 'learning_rate': 5.172881995324353e-05, 'epoch': 0.29}


 10%|█         | 601/6009 [02:05<18:23,  4.90it/s]

{'loss': 0.1246, 'grad_norm': 0.0011652617249637842, 'learning_rate': 5.1633361713802226e-05, 'epoch': 0.3}


 10%|█         | 610/6009 [02:07<20:35,  4.37it/s]

{'loss': 0.1533, 'grad_norm': 0.0025253857020288706, 'learning_rate': 5.153790347436092e-05, 'epoch': 0.3}


 10%|█         | 620/6009 [02:10<24:58,  3.60it/s]

{'loss': 0.0009, 'grad_norm': 0.0002855365164577961, 'learning_rate': 5.144244523491962e-05, 'epoch': 0.31}


 10%|█         | 630/6009 [02:12<23:23,  3.83it/s]

{'loss': 0.0001, 'grad_norm': 0.0017147090984508395, 'learning_rate': 5.134698699547831e-05, 'epoch': 0.31}


 11%|█         | 640/6009 [02:14<19:28,  4.59it/s]

{'loss': 0.0, 'grad_norm': 0.12737888097763062, 'learning_rate': 5.1251528756037e-05, 'epoch': 0.32}


 11%|█         | 650/6009 [02:17<19:14,  4.64it/s]

{'loss': 0.0, 'grad_norm': 0.0004102980892639607, 'learning_rate': 5.115607051659569e-05, 'epoch': 0.32}


 11%|█         | 660/6009 [02:19<19:23,  4.60it/s]

{'loss': 0.0, 'grad_norm': 0.000531757075805217, 'learning_rate': 5.1060612277154394e-05, 'epoch': 0.33}


 11%|█         | 670/6009 [02:21<19:12,  4.63it/s]

{'loss': 0.0, 'grad_norm': 0.0009127967641688883, 'learning_rate': 5.096515403771309e-05, 'epoch': 0.33}


 11%|█▏        | 680/6009 [02:23<18:57,  4.69it/s]

{'loss': 0.0, 'grad_norm': 0.0003115274594165385, 'learning_rate': 5.086969579827178e-05, 'epoch': 0.34}


 11%|█▏        | 690/6009 [02:25<19:03,  4.65it/s]

{'loss': 0.0, 'grad_norm': 0.00038755303830839694, 'learning_rate': 5.0774237558830475e-05, 'epoch': 0.34}


 12%|█▏        | 701/6009 [02:28<19:04,  4.64it/s]

{'loss': 0.0316, 'grad_norm': 0.0002707921084947884, 'learning_rate': 5.0678779319389164e-05, 'epoch': 0.35}


 12%|█▏        | 711/6009 [02:30<19:03,  4.63it/s]

{'loss': 0.0, 'grad_norm': 0.0008451403700746596, 'learning_rate': 5.058332107994786e-05, 'epoch': 0.35}


 12%|█▏        | 720/6009 [02:32<18:52,  4.67it/s]

{'loss': 0.0, 'grad_norm': 0.0013484139926731586, 'learning_rate': 5.048786284050656e-05, 'epoch': 0.36}


 12%|█▏        | 730/6009 [02:34<18:50,  4.67it/s]

{'loss': 0.0, 'grad_norm': 0.0003909412189386785, 'learning_rate': 5.039240460106525e-05, 'epoch': 0.36}


 12%|█▏        | 740/6009 [02:36<18:45,  4.68it/s]

{'loss': 0.2445, 'grad_norm': 0.0009275181218981743, 'learning_rate': 5.029694636162395e-05, 'epoch': 0.37}


 12%|█▏        | 750/6009 [02:38<19:00,  4.61it/s]

{'loss': 0.332, 'grad_norm': 104.48899841308594, 'learning_rate': 5.020148812218264e-05, 'epoch': 0.37}


 13%|█▎        | 760/6009 [02:41<23:11,  3.77it/s]

{'loss': 0.1406, 'grad_norm': 0.0004958486533723772, 'learning_rate': 5.010602988274133e-05, 'epoch': 0.38}


 13%|█▎        | 770/6009 [02:44<22:34,  3.87it/s]

{'loss': 0.142, 'grad_norm': 16.293922424316406, 'learning_rate': 5.0010571643300035e-05, 'epoch': 0.38}


 13%|█▎        | 780/6009 [02:46<22:13,  3.92it/s]

{'loss': 0.1199, 'grad_norm': 0.012889736331999302, 'learning_rate': 4.9915113403858724e-05, 'epoch': 0.39}


 13%|█▎        | 790/6009 [02:49<22:15,  3.91it/s]

{'loss': 0.0927, 'grad_norm': 0.038806475698947906, 'learning_rate': 4.981965516441742e-05, 'epoch': 0.39}


 13%|█▎        | 800/6009 [02:51<22:10,  3.92it/s]

{'loss': 0.0621, 'grad_norm': 0.004238388035446405, 'learning_rate': 4.972419692497611e-05, 'epoch': 0.4}


 13%|█▎        | 811/6009 [02:54<20:10,  4.29it/s]

{'loss': 0.0015, 'grad_norm': 0.004416682291775942, 'learning_rate': 4.9628738685534805e-05, 'epoch': 0.4}


 14%|█▎        | 820/6009 [02:56<18:33,  4.66it/s]

{'loss': 0.27, 'grad_norm': 145.69378662109375, 'learning_rate': 4.95332804460935e-05, 'epoch': 0.41}


 14%|█▍        | 831/6009 [02:58<18:27,  4.67it/s]

{'loss': 0.1379, 'grad_norm': 0.02480713091790676, 'learning_rate': 4.9437822206652197e-05, 'epoch': 0.41}


 14%|█▍        | 840/6009 [03:00<18:20,  4.70it/s]

{'loss': 0.0009, 'grad_norm': 0.012086103670299053, 'learning_rate': 4.934236396721089e-05, 'epoch': 0.42}


 14%|█▍        | 850/6009 [03:03<18:13,  4.72it/s]

{'loss': 0.0008, 'grad_norm': 0.02029472403228283, 'learning_rate': 4.924690572776958e-05, 'epoch': 0.42}


 14%|█▍        | 860/6009 [03:05<18:33,  4.63it/s]

{'loss': 0.0001, 'grad_norm': 0.007145610637962818, 'learning_rate': 4.915144748832828e-05, 'epoch': 0.43}


 14%|█▍        | 870/6009 [03:07<18:27,  4.64it/s]

{'loss': 0.0001, 'grad_norm': 0.001243840204551816, 'learning_rate': 4.905598924888697e-05, 'epoch': 0.43}


 15%|█▍        | 880/6009 [03:09<18:29,  4.62it/s]

{'loss': 0.0684, 'grad_norm': 0.002050847513601184, 'learning_rate': 4.896053100944566e-05, 'epoch': 0.44}


 15%|█▍        | 890/6009 [03:11<18:24,  4.63it/s]

{'loss': 0.0001, 'grad_norm': 0.001442120410501957, 'learning_rate': 4.8865072770004365e-05, 'epoch': 0.44}


 15%|█▍        | 900/6009 [03:14<23:25,  3.63it/s]

{'loss': 0.1049, 'grad_norm': 0.0020642210729420185, 'learning_rate': 4.8769614530563054e-05, 'epoch': 0.45}


 15%|█▌        | 910/6009 [03:17<23:19,  3.64it/s]

{'loss': 0.0, 'grad_norm': 0.0028603975661098957, 'learning_rate': 4.867415629112175e-05, 'epoch': 0.45}


 15%|█▌        | 920/6009 [03:19<22:16,  3.81it/s]

{'loss': 0.0, 'grad_norm': 0.0011391950538381934, 'learning_rate': 4.8578698051680446e-05, 'epoch': 0.46}


 15%|█▌        | 930/6009 [03:21<17:04,  4.96it/s]

{'loss': 0.0, 'grad_norm': 0.0005182134918868542, 'learning_rate': 4.8483239812239135e-05, 'epoch': 0.46}


 16%|█▌        | 940/6009 [03:24<20:02,  4.22it/s]

{'loss': 0.0001, 'grad_norm': 0.0011997140245512128, 'learning_rate': 4.838778157279784e-05, 'epoch': 0.47}


 16%|█▌        | 950/6009 [03:26<19:47,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0017071517650038004, 'learning_rate': 4.8292323333356526e-05, 'epoch': 0.47}


 16%|█▌        | 960/6009 [03:29<19:45,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0010583337862044573, 'learning_rate': 4.819686509391522e-05, 'epoch': 0.48}


 16%|█▌        | 970/6009 [03:31<19:55,  4.22it/s]

{'loss': 0.0, 'grad_norm': 0.0009224255918525159, 'learning_rate': 4.810140685447392e-05, 'epoch': 0.48}


 16%|█▋        | 980/6009 [03:34<19:38,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0007530600996688008, 'learning_rate': 4.800594861503261e-05, 'epoch': 0.49}


 16%|█▋        | 990/6009 [03:36<19:37,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.00030461023561656475, 'learning_rate': 4.79104903755913e-05, 'epoch': 0.49}


 17%|█▋        | 1000/6009 [03:38<19:35,  4.26it/s]

{'loss': 0.2169, 'grad_norm': 0.04060198366641998, 'learning_rate': 4.7815032136150005e-05, 'epoch': 0.5}


 17%|█▋        | 1010/6009 [03:41<19:33,  4.26it/s]

{'loss': 0.2365, 'grad_norm': 102.45979309082031, 'learning_rate': 4.7719573896708694e-05, 'epoch': 0.5}


 17%|█▋        | 1020/6009 [03:43<19:46,  4.20it/s]

{'loss': 0.0074, 'grad_norm': 0.027035236358642578, 'learning_rate': 4.762411565726739e-05, 'epoch': 0.51}


 17%|█▋        | 1030/6009 [03:45<19:32,  4.25it/s]

{'loss': 0.0815, 'grad_norm': 0.008368775248527527, 'learning_rate': 4.752865741782608e-05, 'epoch': 0.51}


 17%|█▋        | 1040/6009 [03:48<19:28,  4.25it/s]

{'loss': 0.2047, 'grad_norm': 2.5767810344696045, 'learning_rate': 4.7433199178384775e-05, 'epoch': 0.52}


 17%|█▋        | 1050/6009 [03:50<19:28,  4.24it/s]

{'loss': 0.0688, 'grad_norm': 0.007208889350295067, 'learning_rate': 4.733774093894347e-05, 'epoch': 0.52}


 18%|█▊        | 1060/6009 [03:52<19:04,  4.32it/s]

{'loss': 0.0004, 'grad_norm': 0.0515529066324234, 'learning_rate': 4.724228269950217e-05, 'epoch': 0.53}


 18%|█▊        | 1070/6009 [03:55<19:16,  4.27it/s]

{'loss': 0.0002, 'grad_norm': 0.018211688846349716, 'learning_rate': 4.714682446006086e-05, 'epoch': 0.53}


 18%|█▊        | 1080/6009 [03:57<19:14,  4.27it/s]

{'loss': 0.0003, 'grad_norm': 0.005733289755880833, 'learning_rate': 4.705136622061955e-05, 'epoch': 0.54}


 18%|█▊        | 1090/6009 [03:59<19:11,  4.27it/s]

{'loss': 0.0002, 'grad_norm': 0.07240112870931625, 'learning_rate': 4.695590798117825e-05, 'epoch': 0.54}


 18%|█▊        | 1100/6009 [04:02<19:13,  4.25it/s]

{'loss': 0.0002, 'grad_norm': 0.002748107071965933, 'learning_rate': 4.6860449741736943e-05, 'epoch': 0.55}


 18%|█▊        | 1110/6009 [04:04<19:11,  4.25it/s]

{'loss': 0.0001, 'grad_norm': 0.0010558614740148187, 'learning_rate': 4.676499150229564e-05, 'epoch': 0.55}


 19%|█▊        | 1120/6009 [04:06<19:07,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0015790531178936362, 'learning_rate': 4.6669533262854335e-05, 'epoch': 0.56}


 19%|█▉        | 1130/6009 [04:09<18:55,  4.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0014232613611966372, 'learning_rate': 4.6574075023413024e-05, 'epoch': 0.56}


 19%|█▉        | 1140/6009 [04:11<18:57,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0011339712655171752, 'learning_rate': 4.647861678397172e-05, 'epoch': 0.57}


 19%|█▉        | 1150/6009 [04:13<18:59,  4.26it/s]

{'loss': 0.0003, 'grad_norm': 13.351258277893066, 'learning_rate': 4.6383158544530416e-05, 'epoch': 0.57}


 19%|█▉        | 1160/6009 [04:16<18:57,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0024532731622457504, 'learning_rate': 4.6287700305089105e-05, 'epoch': 0.58}


 19%|█▉        | 1170/6009 [04:18<18:32,  4.35it/s]

{'loss': 0.1228, 'grad_norm': 5.566581726074219, 'learning_rate': 4.619224206564781e-05, 'epoch': 0.58}


 20%|█▉        | 1180/6009 [04:20<18:50,  4.27it/s]

{'loss': 0.0004, 'grad_norm': 0.0012783007696270943, 'learning_rate': 4.6096783826206497e-05, 'epoch': 0.59}


 20%|█▉        | 1190/6009 [04:23<18:43,  4.29it/s]

{'loss': 0.0009, 'grad_norm': 0.00782789010554552, 'learning_rate': 4.600132558676519e-05, 'epoch': 0.59}


 20%|█▉        | 1200/6009 [04:25<18:48,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.09816748648881912, 'learning_rate': 4.590586734732389e-05, 'epoch': 0.6}


 20%|██        | 1210/6009 [04:27<18:36,  4.30it/s]

{'loss': 0.077, 'grad_norm': 0.003193835262209177, 'learning_rate': 4.581040910788258e-05, 'epoch': 0.6}


 20%|██        | 1220/6009 [04:30<18:26,  4.33it/s]

{'loss': 0.001, 'grad_norm': 0.012920456938445568, 'learning_rate': 4.571495086844127e-05, 'epoch': 0.61}


 20%|██        | 1230/6009 [04:32<18:19,  4.35it/s]

{'loss': 0.0006, 'grad_norm': 0.0015935003757476807, 'learning_rate': 4.561949262899997e-05, 'epoch': 0.61}


 21%|██        | 1240/6009 [04:34<18:26,  4.31it/s]

{'loss': 0.0001, 'grad_norm': 0.0030881776474416256, 'learning_rate': 4.5524034389558665e-05, 'epoch': 0.62}


 21%|██        | 1250/6009 [04:37<18:33,  4.27it/s]

{'loss': 0.0004, 'grad_norm': 2.319129467010498, 'learning_rate': 4.542857615011736e-05, 'epoch': 0.62}


 21%|██        | 1260/6009 [04:39<18:31,  4.27it/s]

{'loss': 0.1901, 'grad_norm': 0.00627175671979785, 'learning_rate': 4.533311791067605e-05, 'epoch': 0.63}


 21%|██        | 1270/6009 [04:41<18:33,  4.25it/s]

{'loss': 0.4461, 'grad_norm': 105.19635009765625, 'learning_rate': 4.5237659671234746e-05, 'epoch': 0.63}


 21%|██▏       | 1280/6009 [04:44<18:38,  4.23it/s]

{'loss': 0.1672, 'grad_norm': 0.008650344796478748, 'learning_rate': 4.514220143179344e-05, 'epoch': 0.64}


 21%|██▏       | 1290/6009 [04:46<18:29,  4.25it/s]

{'loss': 0.1653, 'grad_norm': 0.027598921209573746, 'learning_rate': 4.504674319235214e-05, 'epoch': 0.64}


 22%|██▏       | 1300/6009 [04:49<18:25,  4.26it/s]

{'loss': 0.0404, 'grad_norm': 0.013512571342289448, 'learning_rate': 4.495128495291083e-05, 'epoch': 0.65}


 22%|██▏       | 1310/6009 [04:51<18:21,  4.27it/s]

{'loss': 0.0333, 'grad_norm': 0.03109121322631836, 'learning_rate': 4.485582671346952e-05, 'epoch': 0.65}


 22%|██▏       | 1320/6009 [04:53<18:13,  4.29it/s]

{'loss': 0.1089, 'grad_norm': 0.006157951895147562, 'learning_rate': 4.476036847402822e-05, 'epoch': 0.66}


 22%|██▏       | 1330/6009 [04:56<18:27,  4.23it/s]

{'loss': 0.0002, 'grad_norm': 0.004821047652512789, 'learning_rate': 4.466491023458691e-05, 'epoch': 0.66}


 22%|██▏       | 1340/6009 [04:58<18:24,  4.23it/s]

{'loss': 0.0002, 'grad_norm': 0.003442603861913085, 'learning_rate': 4.456945199514561e-05, 'epoch': 0.67}


 22%|██▏       | 1350/6009 [05:00<18:14,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0028845935594290495, 'learning_rate': 4.4473993755704305e-05, 'epoch': 0.67}


 23%|██▎       | 1360/6009 [05:03<18:10,  4.26it/s]

{'loss': 0.0551, 'grad_norm': 0.0027375570498406887, 'learning_rate': 4.4378535516262994e-05, 'epoch': 0.68}


 23%|██▎       | 1370/6009 [05:05<18:07,  4.27it/s]

{'loss': 0.0001, 'grad_norm': 0.007746538612991571, 'learning_rate': 4.428307727682169e-05, 'epoch': 0.68}


 23%|██▎       | 1380/6009 [05:07<18:12,  4.24it/s]

{'loss': 0.0002, 'grad_norm': 0.001978206215426326, 'learning_rate': 4.4187619037380386e-05, 'epoch': 0.69}


 23%|██▎       | 1390/6009 [05:10<18:02,  4.27it/s]

{'loss': 0.0001, 'grad_norm': 0.0013299055863171816, 'learning_rate': 4.4092160797939075e-05, 'epoch': 0.69}


 23%|██▎       | 1400/6009 [05:12<18:02,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0022868220694363117, 'learning_rate': 4.399670255849778e-05, 'epoch': 0.7}


 23%|██▎       | 1410/6009 [05:15<18:00,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.001804026192985475, 'learning_rate': 4.390124431905647e-05, 'epoch': 0.7}


 24%|██▎       | 1420/6009 [05:17<18:02,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0013317831326276064, 'learning_rate': 4.380578607961516e-05, 'epoch': 0.71}


 24%|██▍       | 1430/6009 [05:19<18:10,  4.20it/s]

{'loss': 0.0389, 'grad_norm': 0.0012393180513754487, 'learning_rate': 4.371032784017386e-05, 'epoch': 0.71}


 24%|██▍       | 1440/6009 [05:22<18:01,  4.23it/s]

{'loss': 0.0892, 'grad_norm': 0.0036940798163414, 'learning_rate': 4.361486960073255e-05, 'epoch': 0.72}


 24%|██▍       | 1450/6009 [05:24<17:56,  4.23it/s]

{'loss': 0.0007, 'grad_norm': 0.004106780514121056, 'learning_rate': 4.3519411361291243e-05, 'epoch': 0.72}


 24%|██▍       | 1460/6009 [05:26<17:38,  4.30it/s]

{'loss': 0.0001, 'grad_norm': 0.001714808284305036, 'learning_rate': 4.342395312184994e-05, 'epoch': 0.73}


 24%|██▍       | 1470/6009 [05:29<17:44,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.003436589613556862, 'learning_rate': 4.3328494882408635e-05, 'epoch': 0.73}


 25%|██▍       | 1480/6009 [05:31<17:44,  4.25it/s]

{'loss': 0.0001, 'grad_norm': 0.11412051320075989, 'learning_rate': 4.323303664296733e-05, 'epoch': 0.74}


 25%|██▍       | 1490/6009 [05:33<17:48,  4.23it/s]

{'loss': 0.104, 'grad_norm': 0.0018464111490175128, 'learning_rate': 4.313757840352602e-05, 'epoch': 0.74}


 25%|██▍       | 1500/6009 [05:36<17:35,  4.27it/s]

{'loss': 0.0001, 'grad_norm': 0.0015474745305255055, 'learning_rate': 4.3042120164084716e-05, 'epoch': 0.75}


 25%|██▌       | 1510/6009 [05:38<17:30,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.001322024269029498, 'learning_rate': 4.294666192464341e-05, 'epoch': 0.75}


 25%|██▌       | 1520/6009 [05:40<17:30,  4.27it/s]

{'loss': 0.0001, 'grad_norm': 0.0043940674513578415, 'learning_rate': 4.285120368520211e-05, 'epoch': 0.76}


 25%|██▌       | 1530/6009 [05:43<17:22,  4.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0011268401285633445, 'learning_rate': 4.27557454457608e-05, 'epoch': 0.76}


 26%|██▌       | 1540/6009 [05:45<17:32,  4.25it/s]

{'loss': 0.1145, 'grad_norm': 0.0013362416066229343, 'learning_rate': 4.266028720631949e-05, 'epoch': 0.77}


 26%|██▌       | 1550/6009 [05:48<17:28,  4.25it/s]

{'loss': 0.0998, 'grad_norm': 0.030643709003925323, 'learning_rate': 4.256482896687819e-05, 'epoch': 0.77}


 26%|██▌       | 1560/6009 [05:50<17:30,  4.24it/s]

{'loss': 0.1029, 'grad_norm': 0.04137719050049782, 'learning_rate': 4.246937072743688e-05, 'epoch': 0.78}


 26%|██▌       | 1570/6009 [05:52<17:11,  4.30it/s]

{'loss': 0.0006, 'grad_norm': 0.029740143567323685, 'learning_rate': 4.237391248799558e-05, 'epoch': 0.78}


 26%|██▋       | 1580/6009 [05:55<17:15,  4.28it/s]

{'loss': 0.0007, 'grad_norm': 0.008345046080648899, 'learning_rate': 4.2278454248554276e-05, 'epoch': 0.79}


 26%|██▋       | 1590/6009 [05:57<17:11,  4.28it/s]

{'loss': 0.0718, 'grad_norm': 0.15665240585803986, 'learning_rate': 4.2182996009112965e-05, 'epoch': 0.79}


 27%|██▋       | 1600/6009 [05:59<17:01,  4.32it/s]

{'loss': 0.001, 'grad_norm': 0.5231048464775085, 'learning_rate': 4.208753776967166e-05, 'epoch': 0.8}


 27%|██▋       | 1610/6009 [06:02<17:04,  4.29it/s]

{'loss': 0.0002, 'grad_norm': 0.004049438983201981, 'learning_rate': 4.199207953023035e-05, 'epoch': 0.8}


 27%|██▋       | 1620/6009 [06:04<16:55,  4.32it/s]

{'loss': 0.0002, 'grad_norm': 0.0015690302243456244, 'learning_rate': 4.1896621290789046e-05, 'epoch': 0.81}


 27%|██▋       | 1630/6009 [06:06<16:50,  4.33it/s]

{'loss': 0.0506, 'grad_norm': 0.0015017414698377252, 'learning_rate': 4.180116305134775e-05, 'epoch': 0.81}


 27%|██▋       | 1640/6009 [06:09<17:04,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0012426855973899364, 'learning_rate': 4.170570481190644e-05, 'epoch': 0.82}


 27%|██▋       | 1650/6009 [06:11<16:53,  4.30it/s]

{'loss': 0.002, 'grad_norm': 0.0012673817109316587, 'learning_rate': 4.161024657246513e-05, 'epoch': 0.82}


 28%|██▊       | 1660/6009 [06:13<16:53,  4.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0014489026507362723, 'learning_rate': 4.151478833302382e-05, 'epoch': 0.83}


 28%|██▊       | 1670/6009 [06:16<16:53,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0009869046043604612, 'learning_rate': 4.141933009358252e-05, 'epoch': 0.83}


 28%|██▊       | 1680/6009 [06:18<16:53,  4.27it/s]

{'loss': 0.0001, 'grad_norm': 0.0020712416153401136, 'learning_rate': 4.132387185414122e-05, 'epoch': 0.84}


 28%|██▊       | 1690/6009 [06:20<16:53,  4.26it/s]

{'loss': 0.0012, 'grad_norm': 3.141587495803833, 'learning_rate': 4.122841361469991e-05, 'epoch': 0.84}


 28%|██▊       | 1700/6009 [06:23<16:46,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0020436719059944153, 'learning_rate': 4.1132955375258605e-05, 'epoch': 0.85}


 28%|██▊       | 1710/6009 [06:25<16:51,  4.25it/s]

{'loss': 0.0314, 'grad_norm': 0.0011053128400817513, 'learning_rate': 4.1037497135817294e-05, 'epoch': 0.85}


 29%|██▊       | 1720/6009 [06:27<16:50,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0009366495069116354, 'learning_rate': 4.094203889637599e-05, 'epoch': 0.86}


 29%|██▉       | 1730/6009 [06:30<16:47,  4.25it/s]

{'loss': 0.094, 'grad_norm': 0.001048416132107377, 'learning_rate': 4.0846580656934686e-05, 'epoch': 0.86}


 29%|██▉       | 1740/6009 [06:32<16:55,  4.20it/s]

{'loss': 0.0001, 'grad_norm': 0.0018267633859068155, 'learning_rate': 4.075112241749338e-05, 'epoch': 0.87}


 29%|██▉       | 1750/6009 [06:34<16:48,  4.22it/s]

{'loss': 0.0001, 'grad_norm': 0.0023839985951781273, 'learning_rate': 4.065566417805208e-05, 'epoch': 0.87}


 29%|██▉       | 1760/6009 [06:37<16:43,  4.23it/s]

{'loss': 0.0001, 'grad_norm': 0.004875402431935072, 'learning_rate': 4.0560205938610774e-05, 'epoch': 0.88}


 29%|██▉       | 1770/6009 [06:39<16:37,  4.25it/s]

{'loss': 0.0397, 'grad_norm': 0.0012585476506501436, 'learning_rate': 4.046474769916946e-05, 'epoch': 0.88}


 30%|██▉       | 1780/6009 [06:42<16:45,  4.21it/s]

{'loss': 0.0001, 'grad_norm': 0.0006709538283757865, 'learning_rate': 4.036928945972816e-05, 'epoch': 0.89}


 30%|██▉       | 1790/6009 [06:44<16:29,  4.26it/s]

{'loss': 0.0001, 'grad_norm': 0.0014187372289597988, 'learning_rate': 4.0273831220286854e-05, 'epoch': 0.89}


 30%|██▉       | 1800/6009 [06:46<16:33,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0025077806785702705, 'learning_rate': 4.017837298084555e-05, 'epoch': 0.9}


 30%|███       | 1810/6009 [06:49<16:28,  4.25it/s]

{'loss': 0.0001, 'grad_norm': 0.0011879070661962032, 'learning_rate': 4.0082914741404246e-05, 'epoch': 0.9}


 30%|███       | 1820/6009 [06:51<16:15,  4.30it/s]

{'loss': 0.0052, 'grad_norm': 0.0010104182874783874, 'learning_rate': 3.9987456501962935e-05, 'epoch': 0.91}


 30%|███       | 1830/6009 [06:53<16:14,  4.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0019988592248409986, 'learning_rate': 3.989199826252163e-05, 'epoch': 0.91}


 31%|███       | 1840/6009 [06:56<16:27,  4.22it/s]

{'loss': 0.0, 'grad_norm': 0.0008753404254093766, 'learning_rate': 3.979654002308032e-05, 'epoch': 0.92}


 31%|███       | 1850/6009 [06:58<16:20,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.003763555083423853, 'learning_rate': 3.970108178363902e-05, 'epoch': 0.92}


 31%|███       | 1860/6009 [07:00<16:06,  4.29it/s]

{'loss': 0.1473, 'grad_norm': 0.000991007429547608, 'learning_rate': 3.960562354419772e-05, 'epoch': 0.93}


 31%|███       | 1870/6009 [07:03<16:07,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0009478619322180748, 'learning_rate': 3.951016530475641e-05, 'epoch': 0.93}


 31%|███▏      | 1880/6009 [07:05<16:06,  4.27it/s]

{'loss': 0.0001, 'grad_norm': 0.007337411865592003, 'learning_rate': 3.94147070653151e-05, 'epoch': 0.94}


 31%|███▏      | 1890/6009 [07:08<16:01,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.00559651805087924, 'learning_rate': 3.931924882587379e-05, 'epoch': 0.94}


 32%|███▏      | 1900/6009 [07:10<16:08,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0007202362176030874, 'learning_rate': 3.922379058643249e-05, 'epoch': 0.95}


 32%|███▏      | 1910/6009 [07:12<16:04,  4.25it/s]

{'loss': 0.0001, 'grad_norm': 0.0009440925205126405, 'learning_rate': 3.912833234699119e-05, 'epoch': 0.95}


 32%|███▏      | 1920/6009 [07:15<15:50,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0006043380126357079, 'learning_rate': 3.903287410754988e-05, 'epoch': 0.96}


 32%|███▏      | 1930/6009 [07:17<15:54,  4.27it/s]

{'loss': 0.0001, 'grad_norm': 0.001749495160765946, 'learning_rate': 3.8937415868108576e-05, 'epoch': 0.96}


 32%|███▏      | 1940/6009 [07:19<16:06,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.0006006264011375606, 'learning_rate': 3.8841957628667265e-05, 'epoch': 0.97}


 32%|███▏      | 1950/6009 [07:22<15:53,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0013682999415323138, 'learning_rate': 3.874649938922596e-05, 'epoch': 0.97}


 33%|███▎      | 1960/6009 [07:24<15:55,  4.24it/s]

{'loss': 0.0001, 'grad_norm': 0.0008262417977675796, 'learning_rate': 3.8651041149784656e-05, 'epoch': 0.98}


 33%|███▎      | 1970/6009 [07:26<15:37,  4.31it/s]

{'loss': 0.0001, 'grad_norm': 0.0008710011024959385, 'learning_rate': 3.855558291034335e-05, 'epoch': 0.98}


 33%|███▎      | 1980/6009 [07:29<15:52,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.0009476117556914687, 'learning_rate': 3.846012467090205e-05, 'epoch': 0.99}


 33%|███▎      | 1990/6009 [07:31<15:43,  4.26it/s]

{'loss': 0.0671, 'grad_norm': 0.002019951120018959, 'learning_rate': 3.836466643146074e-05, 'epoch': 0.99}


 33%|███▎      | 2000/6009 [07:34<15:34,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.001960469875484705, 'learning_rate': 3.826920819201943e-05, 'epoch': 1.0}


 33%|███▎      | 2003/6009 [07:34<13:28,  4.95it/s]
 33%|███▎      | 2003/6009 [08:13<13:28,  4.95it/s]

{'eval_loss': 0.018911486491560936, 'eval_accuracy': 0.998002542218994, 'eval_f1': 0.9980053102305637, 'eval_runtime': 38.8829, 'eval_samples_per_second': 141.63, 'eval_steps_per_second': 17.72, 'epoch': 1.0}


 33%|███▎      | 2011/6009 [08:50<2:12:58,  2.00s/it] 

{'loss': 0.0728, 'grad_norm': 0.001589214545674622, 'learning_rate': 3.817374995257813e-05, 'epoch': 1.0}


 34%|███▎      | 2021/6009 [08:52<13:37,  4.88it/s]  

{'loss': 0.0003, 'grad_norm': 0.021693704649806023, 'learning_rate': 3.8078291713136825e-05, 'epoch': 1.01}


 34%|███▍      | 2031/6009 [08:53<10:28,  6.33it/s]

{'loss': 0.0006, 'grad_norm': 0.0025377424899488688, 'learning_rate': 3.798283347369552e-05, 'epoch': 1.01}


 34%|███▍      | 2041/6009 [08:55<10:12,  6.48it/s]

{'loss': 0.0002, 'grad_norm': 0.00361918774433434, 'learning_rate': 3.788737523425421e-05, 'epoch': 1.02}


 34%|███▍      | 2051/6009 [08:56<10:28,  6.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0004592329787556082, 'learning_rate': 3.7791916994812905e-05, 'epoch': 1.02}


 34%|███▍      | 2061/6009 [08:58<11:03,  5.95it/s]

{'loss': 0.0001, 'grad_norm': 0.0026801207568496466, 'learning_rate': 3.76964587553716e-05, 'epoch': 1.03}


 34%|███▍      | 2071/6009 [09:00<10:34,  6.21it/s]

{'loss': 0.0001, 'grad_norm': 0.0005396011983975768, 'learning_rate': 3.760100051593029e-05, 'epoch': 1.03}


 35%|███▍      | 2081/6009 [09:01<10:45,  6.09it/s]

{'loss': 0.0001, 'grad_norm': 0.002132091438397765, 'learning_rate': 3.750554227648899e-05, 'epoch': 1.04}


 35%|███▍      | 2091/6009 [09:03<11:16,  5.79it/s]

{'loss': 0.0, 'grad_norm': 0.0006070200470276177, 'learning_rate': 3.741008403704768e-05, 'epoch': 1.04}


 35%|███▍      | 2101/6009 [09:05<10:40,  6.10it/s]

{'loss': 0.0001, 'grad_norm': 0.0017986227758228779, 'learning_rate': 3.731462579760638e-05, 'epoch': 1.05}


 35%|███▌      | 2111/6009 [09:06<10:53,  5.96it/s]

{'loss': 0.0001, 'grad_norm': 0.0019440014148131013, 'learning_rate': 3.7219167558165074e-05, 'epoch': 1.05}


 35%|███▌      | 2121/6009 [09:08<11:16,  5.75it/s]

{'loss': 0.0, 'grad_norm': 0.0003454208781477064, 'learning_rate': 3.712370931872376e-05, 'epoch': 1.06}


 35%|███▌      | 2131/6009 [09:10<11:02,  5.85it/s]

{'loss': 0.0, 'grad_norm': 0.0008398258942179382, 'learning_rate': 3.702825107928246e-05, 'epoch': 1.06}


 36%|███▌      | 2141/6009 [09:12<10:59,  5.86it/s]

{'loss': 0.0, 'grad_norm': 0.0007449322147294879, 'learning_rate': 3.693279283984116e-05, 'epoch': 1.07}


 36%|███▌      | 2151/6009 [09:13<11:03,  5.81it/s]

{'loss': 0.0, 'grad_norm': 0.0003284361446276307, 'learning_rate': 3.683733460039985e-05, 'epoch': 1.07}


 36%|███▌      | 2161/6009 [09:15<10:57,  5.85it/s]

{'loss': 0.0, 'grad_norm': 0.0009382208809256554, 'learning_rate': 3.6741876360958546e-05, 'epoch': 1.08}


 36%|███▌      | 2171/6009 [09:17<10:48,  5.92it/s]

{'loss': 0.0, 'grad_norm': 0.0008820172515697777, 'learning_rate': 3.6646418121517235e-05, 'epoch': 1.08}


 36%|███▋      | 2181/6009 [09:19<10:55,  5.84it/s]

{'loss': 0.0, 'grad_norm': 0.0005379956564866006, 'learning_rate': 3.655095988207593e-05, 'epoch': 1.09}


 36%|███▋      | 2191/6009 [09:20<11:00,  5.78it/s]

{'loss': 0.0, 'grad_norm': 0.0013056200696155429, 'learning_rate': 3.645550164263463e-05, 'epoch': 1.09}


 37%|███▋      | 2201/6009 [09:22<11:20,  5.60it/s]

{'loss': 0.0, 'grad_norm': 0.0009809667244553566, 'learning_rate': 3.636004340319332e-05, 'epoch': 1.1}


 37%|███▋      | 2211/6009 [09:24<11:01,  5.74it/s]

{'loss': 0.0, 'grad_norm': 0.0008997442200779915, 'learning_rate': 3.626458516375202e-05, 'epoch': 1.1}


 37%|███▋      | 2221/6009 [09:26<11:10,  5.65it/s]

{'loss': 0.0, 'grad_norm': 0.0005577366682700813, 'learning_rate': 3.616912692431071e-05, 'epoch': 1.11}


 37%|███▋      | 2231/6009 [09:28<11:24,  5.52it/s]

{'loss': 0.0, 'grad_norm': 0.0006594000151380897, 'learning_rate': 3.60736686848694e-05, 'epoch': 1.11}


 37%|███▋      | 2241/6009 [09:29<11:20,  5.54it/s]

{'loss': 0.0, 'grad_norm': 0.000725703255739063, 'learning_rate': 3.59782104454281e-05, 'epoch': 1.12}


 37%|███▋      | 2251/6009 [09:31<11:07,  5.63it/s]

{'loss': 0.0, 'grad_norm': 0.00037493606214411557, 'learning_rate': 3.5882752205986795e-05, 'epoch': 1.12}


 38%|███▊      | 2261/6009 [09:33<11:04,  5.64it/s]

{'loss': 0.0, 'grad_norm': 0.0007157989894039929, 'learning_rate': 3.578729396654549e-05, 'epoch': 1.13}


 38%|███▊      | 2271/6009 [09:35<11:07,  5.60it/s]

{'loss': 0.0, 'grad_norm': 0.0009760917164385319, 'learning_rate': 3.569183572710418e-05, 'epoch': 1.13}


 38%|███▊      | 2281/6009 [09:37<12:36,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.0004132581234443933, 'learning_rate': 3.5596377487662876e-05, 'epoch': 1.14}


 38%|███▊      | 2291/6009 [09:39<11:43,  5.28it/s]

{'loss': 0.0, 'grad_norm': 0.0005591081571765244, 'learning_rate': 3.550091924822157e-05, 'epoch': 1.14}


 38%|███▊      | 2301/6009 [09:41<11:44,  5.26it/s]

{'loss': 0.0, 'grad_norm': 0.00042555254185572267, 'learning_rate': 3.540546100878026e-05, 'epoch': 1.15}


 38%|███▊      | 2311/6009 [09:43<11:31,  5.35it/s]

{'loss': 0.0, 'grad_norm': 0.00044045201502740383, 'learning_rate': 3.531000276933896e-05, 'epoch': 1.15}


 39%|███▊      | 2321/6009 [09:45<11:24,  5.39it/s]

{'loss': 0.0, 'grad_norm': 0.0017372852889820933, 'learning_rate': 3.521454452989765e-05, 'epoch': 1.16}


 39%|███▉      | 2330/6009 [09:46<12:47,  4.79it/s]

{'loss': 0.0, 'grad_norm': 0.000582089473027736, 'learning_rate': 3.511908629045635e-05, 'epoch': 1.16}


 39%|███▉      | 2341/6009 [09:49<13:23,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.0005218436708673835, 'learning_rate': 3.5023628051015044e-05, 'epoch': 1.17}


 39%|███▉      | 2350/6009 [09:51<12:03,  5.06it/s]

{'loss': 0.0, 'grad_norm': 0.0004126518324483186, 'learning_rate': 3.492816981157373e-05, 'epoch': 1.17}


 39%|███▉      | 2361/6009 [09:53<12:08,  5.01it/s]

{'loss': 0.0, 'grad_norm': 0.00037308226455934346, 'learning_rate': 3.4832711572132436e-05, 'epoch': 1.18}


 39%|███▉      | 2371/6009 [09:55<12:14,  4.95it/s]

{'loss': 0.0, 'grad_norm': 0.0003087517980020493, 'learning_rate': 3.4737253332691125e-05, 'epoch': 1.18}


 40%|███▉      | 2381/6009 [09:57<12:21,  4.90it/s]

{'loss': 0.0, 'grad_norm': 0.0006328963791020215, 'learning_rate': 3.464179509324982e-05, 'epoch': 1.19}


 40%|███▉      | 2391/6009 [09:59<12:05,  4.99it/s]

{'loss': 0.0, 'grad_norm': 0.0003172205470036715, 'learning_rate': 3.4546336853808516e-05, 'epoch': 1.19}


 40%|███▉      | 2401/6009 [10:01<12:12,  4.92it/s]

{'loss': 0.0, 'grad_norm': 0.000803993025328964, 'learning_rate': 3.4450878614367205e-05, 'epoch': 1.2}


 40%|████      | 2411/6009 [10:03<12:14,  4.90it/s]

{'loss': 0.0, 'grad_norm': 0.00038663329905830324, 'learning_rate': 3.43554203749259e-05, 'epoch': 1.2}


 40%|████      | 2421/6009 [10:05<12:00,  4.98it/s]

{'loss': 0.0, 'grad_norm': 0.0002302040666108951, 'learning_rate': 3.42599621354846e-05, 'epoch': 1.21}


 40%|████      | 2431/6009 [10:07<12:08,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.00037343442090786994, 'learning_rate': 3.416450389604329e-05, 'epoch': 1.21}


 41%|████      | 2441/6009 [10:09<12:02,  4.94it/s]

{'loss': 0.0, 'grad_norm': 0.0004537204513326287, 'learning_rate': 3.406904565660199e-05, 'epoch': 1.22}


 41%|████      | 2450/6009 [10:11<11:51,  5.00it/s]

{'loss': 0.0, 'grad_norm': 0.0004450192500371486, 'learning_rate': 3.397358741716068e-05, 'epoch': 1.22}


 41%|████      | 2461/6009 [10:13<12:07,  4.88it/s]

{'loss': 0.0, 'grad_norm': 0.0003247777058277279, 'learning_rate': 3.3878129177719374e-05, 'epoch': 1.23}


 41%|████      | 2471/6009 [10:15<11:57,  4.93it/s]

{'loss': 0.0, 'grad_norm': 0.0006156996241770685, 'learning_rate': 3.378267093827806e-05, 'epoch': 1.23}


 41%|████▏     | 2481/6009 [10:17<12:02,  4.88it/s]

{'loss': 0.0, 'grad_norm': 0.0002553234517108649, 'learning_rate': 3.3687212698836765e-05, 'epoch': 1.24}


 41%|████▏     | 2490/6009 [10:20<17:17,  3.39it/s]

{'loss': 0.0, 'grad_norm': 0.0005020683747716248, 'learning_rate': 3.359175445939546e-05, 'epoch': 1.24}


 42%|████▏     | 2500/6009 [10:23<15:31,  3.77it/s]

{'loss': 0.0, 'grad_norm': 0.0004213400825392455, 'learning_rate': 3.349629621995415e-05, 'epoch': 1.25}


 42%|████▏     | 2510/6009 [10:25<15:33,  3.75it/s]

{'loss': 0.0, 'grad_norm': 0.0004534140753094107, 'learning_rate': 3.3400837980512846e-05, 'epoch': 1.25}


 42%|████▏     | 2520/6009 [10:27<12:41,  4.58it/s]

{'loss': 0.0, 'grad_norm': 0.00019716474344022572, 'learning_rate': 3.330537974107154e-05, 'epoch': 1.26}


 42%|████▏     | 2530/6009 [10:30<12:36,  4.60it/s]

{'loss': 0.0, 'grad_norm': 0.0007670646882615983, 'learning_rate': 3.320992150163024e-05, 'epoch': 1.26}


 42%|████▏     | 2540/6009 [10:32<12:22,  4.67it/s]

{'loss': 0.0, 'grad_norm': 0.000244549592025578, 'learning_rate': 3.3114463262188934e-05, 'epoch': 1.27}


 42%|████▏     | 2550/6009 [10:34<12:31,  4.60it/s]

{'loss': 0.0, 'grad_norm': 0.00023438807693310082, 'learning_rate': 3.301900502274762e-05, 'epoch': 1.27}


 43%|████▎     | 2560/6009 [10:36<12:24,  4.63it/s]

{'loss': 0.0, 'grad_norm': 0.0003072727704420686, 'learning_rate': 3.292354678330632e-05, 'epoch': 1.28}


 43%|████▎     | 2570/6009 [10:38<12:24,  4.62it/s]

{'loss': 0.0, 'grad_norm': 0.0003019783180207014, 'learning_rate': 3.2828088543865014e-05, 'epoch': 1.28}


 43%|████▎     | 2580/6009 [10:41<12:20,  4.63it/s]

{'loss': 0.0, 'grad_norm': 0.0004921117215417325, 'learning_rate': 3.27326303044237e-05, 'epoch': 1.29}


 43%|████▎     | 2590/6009 [10:43<12:21,  4.61it/s]

{'loss': 0.0, 'grad_norm': 0.0006467135972343385, 'learning_rate': 3.2637172064982406e-05, 'epoch': 1.29}


 43%|████▎     | 2600/6009 [10:45<12:22,  4.59it/s]

{'loss': 0.0, 'grad_norm': 0.0003809767367783934, 'learning_rate': 3.2541713825541095e-05, 'epoch': 1.3}


 43%|████▎     | 2610/6009 [10:47<12:18,  4.60it/s]

{'loss': 0.0941, 'grad_norm': 0.0013253245269879699, 'learning_rate': 3.244625558609979e-05, 'epoch': 1.3}


 44%|████▎     | 2620/6009 [10:49<12:24,  4.55it/s]

{'loss': 0.0001, 'grad_norm': 0.00017752843268681318, 'learning_rate': 3.235079734665849e-05, 'epoch': 1.31}


 44%|████▍     | 2630/6009 [10:52<14:39,  3.84it/s]

{'loss': 0.0001, 'grad_norm': 0.006212135311216116, 'learning_rate': 3.2255339107217176e-05, 'epoch': 1.31}


 44%|████▍     | 2640/6009 [10:55<16:12,  3.46it/s]

{'loss': 0.0001, 'grad_norm': 0.001088864984922111, 'learning_rate': 3.215988086777587e-05, 'epoch': 1.32}


 44%|████▍     | 2650/6009 [10:57<13:24,  4.18it/s]

{'loss': 0.0, 'grad_norm': 0.003223378211259842, 'learning_rate': 3.206442262833457e-05, 'epoch': 1.32}


 44%|████▍     | 2660/6009 [11:00<12:42,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.0007975961780175567, 'learning_rate': 3.196896438889326e-05, 'epoch': 1.33}


 44%|████▍     | 2670/6009 [11:02<12:50,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.0016237114323303103, 'learning_rate': 3.187350614945196e-05, 'epoch': 1.33}


 45%|████▍     | 2680/6009 [11:04<12:42,  4.36it/s]

{'loss': 0.0001, 'grad_norm': 0.00022110558347776532, 'learning_rate': 3.177804791001065e-05, 'epoch': 1.34}


 45%|████▍     | 2690/6009 [11:06<12:41,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.0020889556035399437, 'learning_rate': 3.1682589670569344e-05, 'epoch': 1.34}


 45%|████▍     | 2700/6009 [11:09<12:30,  4.41it/s]

{'loss': 0.0, 'grad_norm': 0.0003771654737647623, 'learning_rate': 3.158713143112804e-05, 'epoch': 1.35}


 45%|████▌     | 2710/6009 [11:11<12:32,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.0015000305138528347, 'learning_rate': 3.1491673191686736e-05, 'epoch': 1.35}


 45%|████▌     | 2720/6009 [11:13<12:32,  4.37it/s]

{'loss': 0.0, 'grad_norm': 0.0004391488910187036, 'learning_rate': 3.139621495224543e-05, 'epoch': 1.36}


 45%|████▌     | 2730/6009 [11:16<12:26,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.0005819897633045912, 'learning_rate': 3.130075671280412e-05, 'epoch': 1.36}


 46%|████▌     | 2740/6009 [11:18<12:31,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.0008981414721347392, 'learning_rate': 3.1205298473362816e-05, 'epoch': 1.37}


 46%|████▌     | 2750/6009 [11:20<12:29,  4.35it/s]

{'loss': 0.0798, 'grad_norm': 0.003155941143631935, 'learning_rate': 3.1109840233921505e-05, 'epoch': 1.37}


 46%|████▌     | 2760/6009 [11:23<12:29,  4.34it/s]

{'loss': 0.0003, 'grad_norm': 0.0020180554129183292, 'learning_rate': 3.101438199448021e-05, 'epoch': 1.38}


 46%|████▌     | 2770/6009 [11:25<12:21,  4.37it/s]

{'loss': 0.0001, 'grad_norm': 0.0016445731744170189, 'learning_rate': 3.0918923755038904e-05, 'epoch': 1.38}


 46%|████▋     | 2780/6009 [11:27<12:20,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.0009536047000437975, 'learning_rate': 3.082346551559759e-05, 'epoch': 1.39}


 46%|████▋     | 2790/6009 [11:29<12:19,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.0009615632006898522, 'learning_rate': 3.072800727615629e-05, 'epoch': 1.39}


 47%|████▋     | 2800/6009 [11:32<12:18,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0005485292640514672, 'learning_rate': 3.063254903671498e-05, 'epoch': 1.4}


 47%|████▋     | 2810/6009 [11:34<12:16,  4.34it/s]

{'loss': 0.0389, 'grad_norm': 0.0009539310703985393, 'learning_rate': 3.0537090797273674e-05, 'epoch': 1.4}


 47%|████▋     | 2820/6009 [11:36<12:14,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0003346050507389009, 'learning_rate': 3.0441632557832373e-05, 'epoch': 1.41}


 47%|████▋     | 2831/6009 [11:39<15:32,  3.41it/s]

{'loss': 0.0, 'grad_norm': 0.0006363766733556986, 'learning_rate': 3.0346174318391065e-05, 'epoch': 1.41}


 47%|████▋     | 2840/6009 [11:41<12:52,  4.10it/s]

{'loss': 0.2806, 'grad_norm': 0.06278640031814575, 'learning_rate': 3.025071607894976e-05, 'epoch': 1.42}


 47%|████▋     | 2850/6009 [11:44<12:50,  4.10it/s]

{'loss': 0.1179, 'grad_norm': 0.006679096259176731, 'learning_rate': 3.015525783950845e-05, 'epoch': 1.42}


 48%|████▊     | 2860/6009 [11:46<12:49,  4.09it/s]

{'loss': 0.0001, 'grad_norm': 0.0024173681158572435, 'learning_rate': 3.005979960006715e-05, 'epoch': 1.43}


 48%|████▊     | 2870/6009 [11:49<12:42,  4.12it/s]

{'loss': 0.0001, 'grad_norm': 0.001006662962026894, 'learning_rate': 2.9964341360625845e-05, 'epoch': 1.43}


 48%|████▊     | 2880/6009 [11:51<12:41,  4.11it/s]

{'loss': 0.0001, 'grad_norm': 0.0012805660953745246, 'learning_rate': 2.9868883121184534e-05, 'epoch': 1.44}


 48%|████▊     | 2890/6009 [11:53<10:51,  4.79it/s]

{'loss': 0.0875, 'grad_norm': 0.0005360650829970837, 'learning_rate': 2.9773424881743233e-05, 'epoch': 1.44}


 48%|████▊     | 2900/6009 [11:56<13:53,  3.73it/s]

{'loss': 0.0003, 'grad_norm': 0.004221260081976652, 'learning_rate': 2.967796664230193e-05, 'epoch': 1.45}


 48%|████▊     | 2910/6009 [11:58<12:43,  4.06it/s]

{'loss': 0.0001, 'grad_norm': 0.00132282474078238, 'learning_rate': 2.958250840286062e-05, 'epoch': 1.45}


 49%|████▊     | 2920/6009 [12:01<12:35,  4.09it/s]

{'loss': 0.0, 'grad_norm': 0.001308365142904222, 'learning_rate': 2.9487050163419318e-05, 'epoch': 1.46}


 49%|████▉     | 2930/6009 [12:03<12:25,  4.13it/s]

{'loss': 0.0091, 'grad_norm': 0.0005335345049388707, 'learning_rate': 2.9391591923978007e-05, 'epoch': 1.46}


 49%|████▉     | 2940/6009 [12:06<12:19,  4.15it/s]

{'loss': 0.0001, 'grad_norm': 0.00046456270501948893, 'learning_rate': 2.9296133684536702e-05, 'epoch': 1.47}


 49%|████▉     | 2950/6009 [12:08<12:25,  4.10it/s]

{'loss': 0.0197, 'grad_norm': 0.002150643151253462, 'learning_rate': 2.9200675445095402e-05, 'epoch': 1.47}


 49%|████▉     | 2960/6009 [12:10<12:16,  4.14it/s]

{'loss': 0.0001, 'grad_norm': 0.0014398571802303195, 'learning_rate': 2.910521720565409e-05, 'epoch': 1.48}


 49%|████▉     | 2970/6009 [12:13<12:15,  4.13it/s]

{'loss': 0.1015, 'grad_norm': 0.0006371423951350152, 'learning_rate': 2.9009758966212787e-05, 'epoch': 1.48}


 50%|████▉     | 2980/6009 [12:15<12:12,  4.13it/s]

{'loss': 0.0, 'grad_norm': 0.0007472119177691638, 'learning_rate': 2.891430072677148e-05, 'epoch': 1.49}


 50%|████▉     | 2990/6009 [12:18<12:03,  4.17it/s]

{'loss': 0.0001, 'grad_norm': 0.0023673749528825283, 'learning_rate': 2.8818842487330175e-05, 'epoch': 1.49}


 50%|████▉     | 3000/6009 [12:20<12:15,  4.09it/s]

{'loss': 0.0001, 'grad_norm': 0.0011106490856036544, 'learning_rate': 2.872338424788887e-05, 'epoch': 1.5}


 50%|█████     | 3010/6009 [12:22<11:56,  4.19it/s]

{'loss': 0.0884, 'grad_norm': 0.0013035561423748732, 'learning_rate': 2.8627926008447563e-05, 'epoch': 1.5}


 50%|█████     | 3020/6009 [12:25<11:48,  4.22it/s]

{'loss': 0.0001, 'grad_norm': 0.002851048018783331, 'learning_rate': 2.853246776900626e-05, 'epoch': 1.51}


 50%|█████     | 3030/6009 [12:27<10:14,  4.84it/s]

{'loss': 0.0003, 'grad_norm': 0.09033336490392685, 'learning_rate': 2.8437009529564955e-05, 'epoch': 1.51}


 51%|█████     | 3040/6009 [12:29<10:07,  4.89it/s]

{'loss': 0.0001, 'grad_norm': 0.00464892853051424, 'learning_rate': 2.8341551290123647e-05, 'epoch': 1.52}


 51%|█████     | 3050/6009 [12:31<10:14,  4.81it/s]

{'loss': 0.0758, 'grad_norm': 0.0022821426391601562, 'learning_rate': 2.824609305068234e-05, 'epoch': 1.52}


 51%|█████     | 3060/6009 [12:33<10:05,  4.87it/s]

{'loss': 0.0001, 'grad_norm': 0.0007497681071981788, 'learning_rate': 2.8150634811241036e-05, 'epoch': 1.53}


 51%|█████     | 3070/6009 [12:36<13:30,  3.63it/s]

{'loss': 0.0001, 'grad_norm': 0.0030900388956069946, 'learning_rate': 2.805517657179973e-05, 'epoch': 1.53}


 51%|█████▏    | 3080/6009 [12:38<11:24,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0008607271010987461, 'learning_rate': 2.7959718332358424e-05, 'epoch': 1.54}


 51%|█████▏    | 3090/6009 [12:40<11:08,  4.37it/s]

{'loss': 0.0, 'grad_norm': 0.0008349770214408636, 'learning_rate': 2.786426009291712e-05, 'epoch': 1.54}


 52%|█████▏    | 3100/6009 [12:43<11:12,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0006185344536788762, 'learning_rate': 2.7768801853475812e-05, 'epoch': 1.55}


 52%|█████▏    | 3110/6009 [12:45<11:14,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0007305452600121498, 'learning_rate': 2.7673343614034505e-05, 'epoch': 1.55}


 52%|█████▏    | 3120/6009 [12:47<11:08,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0005265554063953459, 'learning_rate': 2.7577885374593204e-05, 'epoch': 1.56}


 52%|█████▏    | 3130/6009 [12:50<11:03,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0008637614664621651, 'learning_rate': 2.7482427135151896e-05, 'epoch': 1.56}


 52%|█████▏    | 3140/6009 [12:52<10:54,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.000545445189345628, 'learning_rate': 2.738696889571059e-05, 'epoch': 1.57}


 52%|█████▏    | 3150/6009 [12:54<11:09,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0012065029004588723, 'learning_rate': 2.7291510656269285e-05, 'epoch': 1.57}


 53%|█████▎    | 3160/6009 [12:57<10:53,  4.36it/s]

{'loss': 0.1032, 'grad_norm': 0.0003596295427996665, 'learning_rate': 2.719605241682798e-05, 'epoch': 1.58}


 53%|█████▎    | 3170/6009 [12:59<10:53,  4.35it/s]

{'loss': 0.0001, 'grad_norm': 0.005469547584652901, 'learning_rate': 2.7100594177386676e-05, 'epoch': 1.58}


 53%|█████▎    | 3180/6009 [13:01<10:50,  4.35it/s]

{'loss': 0.0005, 'grad_norm': 0.0026375192683190107, 'learning_rate': 2.700513593794537e-05, 'epoch': 1.59}


 53%|█████▎    | 3190/6009 [13:04<10:48,  4.35it/s]

{'loss': 0.0001, 'grad_norm': 0.0008058810490183532, 'learning_rate': 2.690967769850406e-05, 'epoch': 1.59}


 53%|█████▎    | 3200/6009 [13:06<10:49,  4.33it/s]

{'loss': 0.0001, 'grad_norm': 0.026375746354460716, 'learning_rate': 2.6814219459062757e-05, 'epoch': 1.6}


 53%|█████▎    | 3210/6009 [13:08<10:45,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.000574341625906527, 'learning_rate': 2.6718761219621453e-05, 'epoch': 1.6}


 54%|█████▎    | 3220/6009 [13:11<10:41,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.0005278342869132757, 'learning_rate': 2.6623302980180145e-05, 'epoch': 1.61}


 54%|█████▍    | 3230/6009 [13:13<10:51,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.000483000825624913, 'learning_rate': 2.652784474073884e-05, 'epoch': 1.61}


 54%|█████▍    | 3240/6009 [13:15<10:38,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.00127159315161407, 'learning_rate': 2.6432386501297533e-05, 'epoch': 1.62}


 54%|█████▍    | 3250/6009 [13:17<10:30,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.0015500948065891862, 'learning_rate': 2.6336928261856226e-05, 'epoch': 1.62}


 54%|█████▍    | 3260/6009 [13:20<10:30,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.000490575737785548, 'learning_rate': 2.6241470022414925e-05, 'epoch': 1.63}


 54%|█████▍    | 3270/6009 [13:22<10:28,  4.36it/s]

{'loss': 0.1164, 'grad_norm': 0.01047488022595644, 'learning_rate': 2.6146011782973618e-05, 'epoch': 1.63}


 55%|█████▍    | 3280/6009 [13:24<10:34,  4.30it/s]

{'loss': 0.034, 'grad_norm': 0.008039530366659164, 'learning_rate': 2.605055354353231e-05, 'epoch': 1.64}


 55%|█████▍    | 3290/6009 [13:27<10:33,  4.29it/s]

{'loss': 0.0002, 'grad_norm': 0.002920705359429121, 'learning_rate': 2.5955095304091006e-05, 'epoch': 1.64}


 55%|█████▍    | 3300/6009 [13:29<10:29,  4.31it/s]

{'loss': 0.0001, 'grad_norm': 0.00100624468177557, 'learning_rate': 2.58596370646497e-05, 'epoch': 1.65}


 55%|█████▌    | 3310/6009 [13:31<10:19,  4.36it/s]

{'loss': 0.0067, 'grad_norm': 0.0007537126075476408, 'learning_rate': 2.5764178825208394e-05, 'epoch': 1.65}


 55%|█████▌    | 3320/6009 [13:34<10:18,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.000570157018955797, 'learning_rate': 2.566872058576709e-05, 'epoch': 1.66}


 55%|█████▌    | 3330/6009 [13:36<10:19,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.0006636499310843647, 'learning_rate': 2.5573262346325782e-05, 'epoch': 1.66}


 56%|█████▌    | 3340/6009 [13:38<10:15,  4.33it/s]

{'loss': 0.0818, 'grad_norm': 0.0005637675640173256, 'learning_rate': 2.5477804106884478e-05, 'epoch': 1.67}


 56%|█████▌    | 3350/6009 [13:41<10:11,  4.35it/s]

{'loss': 0.0922, 'grad_norm': 0.0005598980933427811, 'learning_rate': 2.5382345867443174e-05, 'epoch': 1.67}


 56%|█████▌    | 3360/6009 [13:43<10:09,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.0011089296313002706, 'learning_rate': 2.5286887628001867e-05, 'epoch': 1.68}


 56%|█████▌    | 3370/6009 [13:45<10:09,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.001198116922751069, 'learning_rate': 2.5191429388560562e-05, 'epoch': 1.68}


 56%|█████▌    | 3380/6009 [13:48<10:07,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.0016899975016713142, 'learning_rate': 2.5095971149119255e-05, 'epoch': 1.69}


 56%|█████▋    | 3390/6009 [13:50<10:08,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0009331614710390568, 'learning_rate': 2.5000512909677947e-05, 'epoch': 1.69}


 57%|█████▋    | 3400/6009 [13:52<10:05,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.0008078539394773543, 'learning_rate': 2.4905054670236646e-05, 'epoch': 1.7}


 57%|█████▋    | 3410/6009 [13:55<10:00,  4.33it/s]

{'loss': 0.0278, 'grad_norm': 0.0008968893089331686, 'learning_rate': 2.480959643079534e-05, 'epoch': 1.7}


 57%|█████▋    | 3420/6009 [13:57<10:01,  4.30it/s]

{'loss': 0.0001, 'grad_norm': 0.000697533949278295, 'learning_rate': 2.471413819135403e-05, 'epoch': 1.71}


 57%|█████▋    | 3430/6009 [13:59<09:53,  4.35it/s]

{'loss': 0.0001, 'grad_norm': 0.0005428377771750093, 'learning_rate': 2.4618679951912727e-05, 'epoch': 1.71}


 57%|█████▋    | 3440/6009 [14:02<09:51,  4.35it/s]

{'loss': 0.0001, 'grad_norm': 0.0017576079117134213, 'learning_rate': 2.452322171247142e-05, 'epoch': 1.72}


 57%|█████▋    | 3450/6009 [14:04<09:54,  4.31it/s]

{'loss': 0.0097, 'grad_norm': 0.0019632987678050995, 'learning_rate': 2.4427763473030116e-05, 'epoch': 1.72}


 58%|█████▊    | 3460/6009 [14:06<09:46,  4.35it/s]

{'loss': 0.0001, 'grad_norm': 0.0014049226883798838, 'learning_rate': 2.433230523358881e-05, 'epoch': 1.73}


 58%|█████▊    | 3470/6009 [14:09<09:39,  4.38it/s]

{'loss': 0.0001, 'grad_norm': 0.0023024803958833218, 'learning_rate': 2.4236846994147504e-05, 'epoch': 1.73}


 58%|█████▊    | 3480/6009 [14:11<09:48,  4.30it/s]

{'loss': 0.0001, 'grad_norm': 0.0008971652714535594, 'learning_rate': 2.4141388754706196e-05, 'epoch': 1.74}


 58%|█████▊    | 3490/6009 [14:13<09:42,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0006750529282726347, 'learning_rate': 2.4045930515264892e-05, 'epoch': 1.74}


 58%|█████▊    | 3500/6009 [14:16<09:41,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.0005625173216685653, 'learning_rate': 2.3950472275823588e-05, 'epoch': 1.75}


 58%|█████▊    | 3510/6009 [14:18<09:46,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0009622787474654615, 'learning_rate': 2.385501403638228e-05, 'epoch': 1.75}


 59%|█████▊    | 3520/6009 [14:20<09:32,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.0007160023669712245, 'learning_rate': 2.3759555796940976e-05, 'epoch': 1.76}


 59%|█████▊    | 3530/6009 [14:23<09:33,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0008490859181620181, 'learning_rate': 2.366409755749967e-05, 'epoch': 1.76}


 59%|█████▉    | 3540/6009 [14:25<09:33,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.000715659698471427, 'learning_rate': 2.3568639318058368e-05, 'epoch': 1.77}


 59%|█████▉    | 3550/6009 [14:27<09:32,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.0008534127846360207, 'learning_rate': 2.347318107861706e-05, 'epoch': 1.77}


 59%|█████▉    | 3560/6009 [14:30<09:32,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0005991093348711729, 'learning_rate': 2.3377722839175753e-05, 'epoch': 1.78}


 59%|█████▉    | 3570/6009 [14:32<09:22,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.0006439742282964289, 'learning_rate': 2.328226459973445e-05, 'epoch': 1.78}


 60%|█████▉    | 3580/6009 [14:34<09:21,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.00037922110641375184, 'learning_rate': 2.318680636029314e-05, 'epoch': 1.79}


 60%|█████▉    | 3590/6009 [14:37<09:17,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0004143767000641674, 'learning_rate': 2.3091348120851837e-05, 'epoch': 1.79}


 60%|█████▉    | 3600/6009 [14:39<09:17,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0006929004448466003, 'learning_rate': 2.2995889881410533e-05, 'epoch': 1.8}


 60%|██████    | 3610/6009 [14:41<09:14,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.000387213978683576, 'learning_rate': 2.2900431641969225e-05, 'epoch': 1.8}


 60%|██████    | 3620/6009 [14:43<09:16,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.0005729069234803319, 'learning_rate': 2.2804973402527918e-05, 'epoch': 1.81}


 60%|██████    | 3630/6009 [14:46<09:13,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.000311233481625095, 'learning_rate': 2.2709515163086613e-05, 'epoch': 1.81}


 61%|██████    | 3640/6009 [14:48<09:13,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.00041893235174939036, 'learning_rate': 2.261405692364531e-05, 'epoch': 1.82}


 61%|██████    | 3650/6009 [14:51<09:03,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0006855251267552376, 'learning_rate': 2.2518598684204e-05, 'epoch': 1.82}


 61%|██████    | 3660/6009 [14:53<09:04,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0005845575942657888, 'learning_rate': 2.2423140444762698e-05, 'epoch': 1.83}


 61%|██████    | 3670/6009 [14:55<09:04,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0006211617146618664, 'learning_rate': 2.232768220532139e-05, 'epoch': 1.83}


 61%|██████    | 3680/6009 [14:58<08:57,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.00032555608777329326, 'learning_rate': 2.2232223965880082e-05, 'epoch': 1.84}


 61%|██████▏   | 3690/6009 [15:00<09:01,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.00041625823359936476, 'learning_rate': 2.213676572643878e-05, 'epoch': 1.84}


 62%|██████▏   | 3700/6009 [15:02<08:56,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0003756778023671359, 'learning_rate': 2.2041307486997474e-05, 'epoch': 1.85}


 62%|██████▏   | 3710/6009 [15:04<08:49,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0005108646000735462, 'learning_rate': 2.194584924755617e-05, 'epoch': 1.85}


 62%|██████▏   | 3720/6009 [15:07<08:55,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0005483799031935632, 'learning_rate': 2.1850391008114862e-05, 'epoch': 1.86}


 62%|██████▏   | 3730/6009 [15:09<08:50,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.00040483451448380947, 'learning_rate': 2.1754932768673558e-05, 'epoch': 1.86}


 62%|██████▏   | 3740/6009 [15:12<08:44,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.00035621048300527036, 'learning_rate': 2.1659474529232254e-05, 'epoch': 1.87}


 62%|██████▏   | 3750/6009 [15:14<08:46,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.00025740661658346653, 'learning_rate': 2.1564016289790946e-05, 'epoch': 1.87}


 63%|██████▎   | 3760/6009 [15:16<08:49,  4.25it/s]

{'loss': 0.1206, 'grad_norm': 0.000695627648383379, 'learning_rate': 2.146855805034964e-05, 'epoch': 1.88}


 63%|██████▎   | 3770/6009 [15:19<08:40,  4.31it/s]

{'loss': 0.0001, 'grad_norm': 0.0008693341515026987, 'learning_rate': 2.1373099810908335e-05, 'epoch': 1.88}


 63%|██████▎   | 3780/6009 [15:21<08:39,  4.29it/s]

{'loss': 0.0986, 'grad_norm': 0.0009675762848928571, 'learning_rate': 2.127764157146703e-05, 'epoch': 1.89}


 63%|██████▎   | 3790/6009 [15:23<08:37,  4.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0013494972372427583, 'learning_rate': 2.1182183332025723e-05, 'epoch': 1.89}


 63%|██████▎   | 3800/6009 [15:26<08:38,  4.26it/s]

{'loss': 0.0866, 'grad_norm': 0.0018268181011080742, 'learning_rate': 2.108672509258442e-05, 'epoch': 1.9}


 63%|██████▎   | 3810/6009 [15:28<08:33,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.0030601583421230316, 'learning_rate': 2.099126685314311e-05, 'epoch': 1.9}


 64%|██████▎   | 3820/6009 [15:30<08:27,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.0015023141168057919, 'learning_rate': 2.0895808613701804e-05, 'epoch': 1.91}


 64%|██████▎   | 3830/6009 [15:33<08:28,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0005108428886160254, 'learning_rate': 2.0800350374260503e-05, 'epoch': 1.91}


 64%|██████▍   | 3840/6009 [15:35<08:27,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0006117122829891741, 'learning_rate': 2.0704892134819195e-05, 'epoch': 1.92}


 64%|██████▍   | 3850/6009 [15:37<08:24,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.00046666248817928135, 'learning_rate': 2.0609433895377888e-05, 'epoch': 1.92}


 64%|██████▍   | 3860/6009 [15:40<08:25,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.0003761467814911157, 'learning_rate': 2.0513975655936584e-05, 'epoch': 1.93}


 64%|██████▍   | 3870/6009 [15:42<08:24,  4.24it/s]

{'loss': 0.0, 'grad_norm': 0.0006231545121408999, 'learning_rate': 2.0418517416495276e-05, 'epoch': 1.93}


 65%|██████▍   | 3880/6009 [15:44<08:19,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0006296713836491108, 'learning_rate': 2.0323059177053972e-05, 'epoch': 1.94}


 65%|██████▍   | 3890/6009 [15:47<08:19,  4.24it/s]

{'loss': 0.1259, 'grad_norm': 0.0009961583418771625, 'learning_rate': 2.0227600937612668e-05, 'epoch': 1.94}


 65%|██████▍   | 3900/6009 [15:49<08:11,  4.29it/s]

{'loss': 0.0001, 'grad_norm': 0.0011182503076270223, 'learning_rate': 2.013214269817136e-05, 'epoch': 1.95}


 65%|██████▌   | 3910/6009 [15:51<08:10,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.01141839288175106, 'learning_rate': 2.0036684458730056e-05, 'epoch': 1.95}


 65%|██████▌   | 3920/6009 [15:54<08:04,  4.31it/s]

{'loss': 0.0001, 'grad_norm': 0.0037837796844542027, 'learning_rate': 1.9941226219288752e-05, 'epoch': 1.96}


 65%|██████▌   | 3930/6009 [15:56<08:08,  4.26it/s]

{'loss': 0.0897, 'grad_norm': 0.0008455688366666436, 'learning_rate': 1.9845767979847444e-05, 'epoch': 1.96}


 66%|██████▌   | 3940/6009 [15:58<08:03,  4.28it/s]

{'loss': 0.0001, 'grad_norm': 0.001068992423824966, 'learning_rate': 1.975030974040614e-05, 'epoch': 1.97}


 66%|██████▌   | 3950/6009 [16:01<08:09,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.0010457060998305678, 'learning_rate': 1.9654851500964833e-05, 'epoch': 1.97}


 66%|██████▌   | 3960/6009 [16:03<08:00,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0006709059816785157, 'learning_rate': 1.9559393261523525e-05, 'epoch': 1.98}


 66%|██████▌   | 3970/6009 [16:06<07:55,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.0008344240486621857, 'learning_rate': 1.9463935022082224e-05, 'epoch': 1.98}


 66%|██████▌   | 3980/6009 [16:08<07:52,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.003009696723893285, 'learning_rate': 1.9368476782640917e-05, 'epoch': 1.99}


 66%|██████▋   | 3990/6009 [16:10<07:54,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0009335539652965963, 'learning_rate': 1.927301854319961e-05, 'epoch': 1.99}


 67%|██████▋   | 4000/6009 [16:13<07:49,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0014194250106811523, 'learning_rate': 1.9177560303758305e-05, 'epoch': 2.0}


 67%|██████▋   | 4006/6009 [16:14<06:38,  5.03it/s]
 67%|██████▋   | 4006/6009 [16:53<06:38,  5.03it/s]

{'eval_loss': 0.007847392000257969, 'eval_accuracy': 0.9990920646449972, 'eval_f1': 0.9990962292706679, 'eval_runtime': 38.8418, 'eval_samples_per_second': 141.78, 'eval_steps_per_second': 17.739, 'epoch': 2.0}


 67%|██████▋   | 4011/6009 [17:30<3:06:02,  5.59s/it] 

{'loss': 0.0363, 'grad_norm': 0.0006611381541006267, 'learning_rate': 1.9082102064316998e-05, 'epoch': 2.0}


 67%|██████▋   | 4021/6009 [17:32<10:16,  3.22it/s]  

{'loss': 0.0001, 'grad_norm': 0.0008508415194228292, 'learning_rate': 1.8986643824875693e-05, 'epoch': 2.01}


 67%|██████▋   | 4031/6009 [17:33<05:12,  6.32it/s]

{'loss': 0.0002, 'grad_norm': 0.0026948966551572084, 'learning_rate': 1.889118558543439e-05, 'epoch': 2.01}


 67%|██████▋   | 4041/6009 [17:35<05:02,  6.51it/s]

{'loss': 0.0004, 'grad_norm': 0.0005404296680353582, 'learning_rate': 1.879572734599308e-05, 'epoch': 2.02}


 67%|██████▋   | 4051/6009 [17:36<05:08,  6.35it/s]

{'loss': 0.0, 'grad_norm': 0.0006596838939003646, 'learning_rate': 1.8700269106551774e-05, 'epoch': 2.02}


 68%|██████▊   | 4061/6009 [17:38<05:11,  6.24it/s]

{'loss': 0.0, 'grad_norm': 0.0004670000053010881, 'learning_rate': 1.860481086711047e-05, 'epoch': 2.03}


 68%|██████▊   | 4071/6009 [17:40<05:14,  6.17it/s]

{'loss': 0.0, 'grad_norm': 0.0004620961844921112, 'learning_rate': 1.8509352627669166e-05, 'epoch': 2.03}


 68%|██████▊   | 4081/6009 [17:41<05:17,  6.08it/s]

{'loss': 0.0, 'grad_norm': 0.0006454222602769732, 'learning_rate': 1.841389438822786e-05, 'epoch': 2.04}


 68%|██████▊   | 4091/6009 [17:43<05:20,  5.99it/s]

{'loss': 0.0, 'grad_norm': 0.00042254518484696746, 'learning_rate': 1.8318436148786554e-05, 'epoch': 2.04}


 68%|██████▊   | 4101/6009 [17:45<05:22,  5.92it/s]

{'loss': 0.0, 'grad_norm': 0.002815761836245656, 'learning_rate': 1.8222977909345246e-05, 'epoch': 2.05}


 68%|██████▊   | 4111/6009 [17:47<05:17,  5.98it/s]

{'loss': 0.1949, 'grad_norm': 0.0007194578647613525, 'learning_rate': 1.8127519669903946e-05, 'epoch': 2.05}


 69%|██████▊   | 4121/6009 [17:48<05:18,  5.93it/s]

{'loss': 0.0, 'grad_norm': 0.0015784597489982843, 'learning_rate': 1.8032061430462638e-05, 'epoch': 2.06}


 69%|██████▊   | 4131/6009 [17:50<05:18,  5.90it/s]

{'loss': 0.0, 'grad_norm': 0.000602853309828788, 'learning_rate': 1.793660319102133e-05, 'epoch': 2.06}


 69%|██████▉   | 4141/6009 [17:52<05:18,  5.86it/s]

{'loss': 0.1026, 'grad_norm': 0.002911353949457407, 'learning_rate': 1.7841144951580026e-05, 'epoch': 2.07}


 69%|██████▉   | 4151/6009 [17:53<05:19,  5.82it/s]

{'loss': 0.0001, 'grad_norm': 0.0020713380072265863, 'learning_rate': 1.774568671213872e-05, 'epoch': 2.07}


 69%|██████▉   | 4161/6009 [17:55<05:20,  5.77it/s]

{'loss': 0.0001, 'grad_norm': 0.0022085977252572775, 'learning_rate': 1.7650228472697415e-05, 'epoch': 2.08}


 69%|██████▉   | 4171/6009 [17:57<05:12,  5.88it/s]

{'loss': 0.0001, 'grad_norm': 0.00037775113014504313, 'learning_rate': 1.755477023325611e-05, 'epoch': 2.08}


 70%|██████▉   | 4181/6009 [17:59<05:20,  5.70it/s]

{'loss': 0.0001, 'grad_norm': 0.0008889061282388866, 'learning_rate': 1.7459311993814803e-05, 'epoch': 2.09}


 70%|██████▉   | 4191/6009 [18:01<05:18,  5.72it/s]

{'loss': 0.0001, 'grad_norm': 0.00048200690071098506, 'learning_rate': 1.7363853754373495e-05, 'epoch': 2.09}


 70%|██████▉   | 4201/6009 [18:02<05:15,  5.73it/s]

{'loss': 0.0001, 'grad_norm': 0.001526690204627812, 'learning_rate': 1.726839551493219e-05, 'epoch': 2.1}


 70%|███████   | 4211/6009 [18:04<05:19,  5.62it/s]

{'loss': 0.0001, 'grad_norm': 0.0005146550247445703, 'learning_rate': 1.7172937275490887e-05, 'epoch': 2.1}


 70%|███████   | 4221/6009 [18:06<05:11,  5.74it/s]

{'loss': 0.0001, 'grad_norm': 0.002356237033382058, 'learning_rate': 1.707747903604958e-05, 'epoch': 2.11}


 70%|███████   | 4231/6009 [18:08<05:18,  5.59it/s]

{'loss': 0.0001, 'grad_norm': 0.00039083458250388503, 'learning_rate': 1.6982020796608275e-05, 'epoch': 2.11}


 71%|███████   | 4241/6009 [18:10<05:19,  5.53it/s]

{'loss': 0.0001, 'grad_norm': 0.001522949431091547, 'learning_rate': 1.6886562557166968e-05, 'epoch': 2.12}


 71%|███████   | 4251/6009 [18:11<05:16,  5.55it/s]

{'loss': 0.0001, 'grad_norm': 0.0021605060901492834, 'learning_rate': 1.6791104317725664e-05, 'epoch': 2.12}


 71%|███████   | 4261/6009 [18:13<05:14,  5.55it/s]

{'loss': 0.0001, 'grad_norm': 0.0022031650878489017, 'learning_rate': 1.669564607828436e-05, 'epoch': 2.13}


 71%|███████   | 4271/6009 [18:15<05:20,  5.42it/s]

{'loss': 0.0, 'grad_norm': 0.00046007271157577634, 'learning_rate': 1.6600187838843052e-05, 'epoch': 2.13}


 71%|███████   | 4281/6009 [18:17<05:10,  5.57it/s]

{'loss': 0.0, 'grad_norm': 0.0013540037907660007, 'learning_rate': 1.6504729599401748e-05, 'epoch': 2.14}


 71%|███████▏  | 4291/6009 [18:19<05:07,  5.59it/s]

{'loss': 0.0, 'grad_norm': 0.001295410213060677, 'learning_rate': 1.640927135996044e-05, 'epoch': 2.14}


 72%|███████▏  | 4300/6009 [18:21<06:19,  4.50it/s]

{'loss': 0.0001, 'grad_norm': 0.000525492534507066, 'learning_rate': 1.6313813120519136e-05, 'epoch': 2.15}


 72%|███████▏  | 4311/6009 [18:23<05:28,  5.17it/s]

{'loss': 0.0, 'grad_norm': 0.0005880799144506454, 'learning_rate': 1.6218354881077832e-05, 'epoch': 2.15}


 72%|███████▏  | 4320/6009 [18:25<05:29,  5.12it/s]

{'loss': 0.0, 'grad_norm': 0.00026419811183586717, 'learning_rate': 1.6122896641636524e-05, 'epoch': 2.16}


 72%|███████▏  | 4331/6009 [18:27<05:24,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0012379121035337448, 'learning_rate': 1.6027438402195217e-05, 'epoch': 2.16}


 72%|███████▏  | 4341/6009 [18:29<05:25,  5.13it/s]

{'loss': 0.0, 'grad_norm': 0.0014683306217193604, 'learning_rate': 1.5931980162753913e-05, 'epoch': 2.17}


 72%|███████▏  | 4351/6009 [18:31<05:28,  5.05it/s]

{'loss': 0.0, 'grad_norm': 0.000440363452071324, 'learning_rate': 1.583652192331261e-05, 'epoch': 2.17}


 73%|███████▎  | 4361/6009 [18:33<05:20,  5.14it/s]

{'loss': 0.0001, 'grad_norm': 0.4029892086982727, 'learning_rate': 1.57410636838713e-05, 'epoch': 2.18}


 73%|███████▎  | 4370/6009 [18:35<05:17,  5.16it/s]

{'loss': 0.0, 'grad_norm': 0.0011314384173601866, 'learning_rate': 1.5645605444429997e-05, 'epoch': 2.18}


 73%|███████▎  | 4381/6009 [18:37<05:14,  5.17it/s]

{'loss': 0.0, 'grad_norm': 0.0005531618371605873, 'learning_rate': 1.555014720498869e-05, 'epoch': 2.19}


 73%|███████▎  | 4391/6009 [18:39<05:19,  5.07it/s]

{'loss': 0.0003, 'grad_norm': 0.0012710833689197898, 'learning_rate': 1.545468896554738e-05, 'epoch': 2.19}


 73%|███████▎  | 4401/6009 [18:41<05:27,  4.91it/s]

{'loss': 0.0, 'grad_norm': 0.000840242370031774, 'learning_rate': 1.535923072610608e-05, 'epoch': 2.2}


 73%|███████▎  | 4411/6009 [18:43<05:15,  5.07it/s]

{'loss': 0.0, 'grad_norm': 0.0008066763402894139, 'learning_rate': 1.5263772486664773e-05, 'epoch': 2.2}


 74%|███████▎  | 4420/6009 [18:46<07:21,  3.60it/s]

{'loss': 0.0, 'grad_norm': 0.0010155683849006891, 'learning_rate': 1.5168314247223467e-05, 'epoch': 2.21}


 74%|███████▎  | 4430/6009 [18:48<05:59,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.0007770173833705485, 'learning_rate': 1.5072856007782162e-05, 'epoch': 2.21}


 74%|███████▍  | 4440/6009 [18:50<05:58,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.0003452148230280727, 'learning_rate': 1.4977397768340854e-05, 'epoch': 2.22}


 74%|███████▍  | 4450/6009 [18:53<05:51,  4.43it/s]

{'loss': 0.0, 'grad_norm': 0.000978526077233255, 'learning_rate': 1.4881939528899552e-05, 'epoch': 2.22}


 74%|███████▍  | 4460/6009 [18:55<05:50,  4.42it/s]

{'loss': 0.0014, 'grad_norm': 0.00027967820642516017, 'learning_rate': 1.4786481289458246e-05, 'epoch': 2.23}


 74%|███████▍  | 4470/6009 [18:57<05:48,  4.41it/s]

{'loss': 0.0001, 'grad_norm': 0.0003675020707305521, 'learning_rate': 1.469102305001694e-05, 'epoch': 2.23}


 75%|███████▍  | 4480/6009 [18:59<05:42,  4.47it/s]

{'loss': 0.0, 'grad_norm': 0.0021205542143434286, 'learning_rate': 1.4595564810575632e-05, 'epoch': 2.24}


 75%|███████▍  | 4490/6009 [19:02<05:43,  4.42it/s]

{'loss': 0.0, 'grad_norm': 0.0006402221042662859, 'learning_rate': 1.450010657113433e-05, 'epoch': 2.24}


 75%|███████▍  | 4500/6009 [19:04<05:41,  4.42it/s]

{'loss': 0.0, 'grad_norm': 0.00018892009393312037, 'learning_rate': 1.4404648331693024e-05, 'epoch': 2.25}


 75%|███████▌  | 4510/6009 [19:06<05:38,  4.43it/s]

{'loss': 0.0, 'grad_norm': 0.0004343772598076612, 'learning_rate': 1.4309190092251716e-05, 'epoch': 2.25}


 75%|███████▌  | 4520/6009 [19:09<05:41,  4.37it/s]

{'loss': 0.0, 'grad_norm': 0.00033997633727267385, 'learning_rate': 1.421373185281041e-05, 'epoch': 2.26}


 75%|███████▌  | 4530/6009 [19:11<05:34,  4.42it/s]

{'loss': 0.0, 'grad_norm': 0.0004944905522279441, 'learning_rate': 1.4118273613369106e-05, 'epoch': 2.26}


 76%|███████▌  | 4540/6009 [19:13<05:33,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.000656275253277272, 'learning_rate': 1.4022815373927799e-05, 'epoch': 2.27}


 76%|███████▌  | 4550/6009 [19:15<05:28,  4.44it/s]

{'loss': 0.0002, 'grad_norm': 0.0010679401457309723, 'learning_rate': 1.3927357134486495e-05, 'epoch': 2.27}


 76%|███████▌  | 4560/6009 [19:18<05:29,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.0006002325681038201, 'learning_rate': 1.3831898895045189e-05, 'epoch': 2.28}


 76%|███████▌  | 4570/6009 [19:20<05:27,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.0005189693765714765, 'learning_rate': 1.3736440655603883e-05, 'epoch': 2.28}


 76%|███████▌  | 4580/6009 [19:22<05:28,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.0004294779209885746, 'learning_rate': 1.3640982416162577e-05, 'epoch': 2.29}


 76%|███████▋  | 4590/6009 [19:25<05:23,  4.39it/s]

{'loss': 0.0067, 'grad_norm': 0.0002525453455746174, 'learning_rate': 1.3545524176721271e-05, 'epoch': 2.29}


 77%|███████▋  | 4600/6009 [19:27<05:20,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.0006561392801813781, 'learning_rate': 1.3450065937279967e-05, 'epoch': 2.3}


 77%|███████▋  | 4610/6009 [19:29<05:19,  4.37it/s]

{'loss': 0.0, 'grad_norm': 0.00028967446996830404, 'learning_rate': 1.335460769783866e-05, 'epoch': 2.3}


 77%|███████▋  | 4620/6009 [19:31<05:15,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.00016182906983885914, 'learning_rate': 1.3259149458397355e-05, 'epoch': 2.31}


 77%|███████▋  | 4630/6009 [19:34<05:14,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.0003512940602377057, 'learning_rate': 1.316369121895605e-05, 'epoch': 2.31}


 77%|███████▋  | 4640/6009 [19:36<05:14,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.00021879746054764837, 'learning_rate': 1.3068232979514742e-05, 'epoch': 2.32}


 77%|███████▋  | 4650/6009 [19:38<05:08,  4.41it/s]

{'loss': 0.0, 'grad_norm': 0.00019592122407630086, 'learning_rate': 1.2972774740073438e-05, 'epoch': 2.32}


 78%|███████▊  | 4660/6009 [19:41<05:07,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.001002093544229865, 'learning_rate': 1.2877316500632132e-05, 'epoch': 2.33}


 78%|███████▊  | 4670/6009 [19:43<05:03,  4.41it/s]

{'loss': 0.0, 'grad_norm': 0.00041446604882366955, 'learning_rate': 1.2781858261190828e-05, 'epoch': 2.33}


 78%|███████▊  | 4680/6009 [19:45<05:02,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.000739902607165277, 'learning_rate': 1.268640002174952e-05, 'epoch': 2.34}


 78%|███████▊  | 4690/6009 [19:47<04:56,  4.45it/s]

{'loss': 0.0, 'grad_norm': 0.000885116052813828, 'learning_rate': 1.2590941782308214e-05, 'epoch': 2.34}


 78%|███████▊  | 4700/6009 [19:50<04:55,  4.43it/s]

{'loss': 0.0, 'grad_norm': 0.00033781802630983293, 'learning_rate': 1.249548354286691e-05, 'epoch': 2.35}


 78%|███████▊  | 4710/6009 [19:52<04:57,  4.37it/s]

{'loss': 0.0, 'grad_norm': 0.0002270035183755681, 'learning_rate': 1.2400025303425603e-05, 'epoch': 2.35}


 79%|███████▊  | 4720/6009 [19:54<04:52,  4.40it/s]

{'loss': 0.0, 'grad_norm': 0.0004333262622822076, 'learning_rate': 1.2304567063984298e-05, 'epoch': 2.36}


 79%|███████▊  | 4730/6009 [19:57<04:53,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.0006241194787435234, 'learning_rate': 1.2209108824542993e-05, 'epoch': 2.36}


 79%|███████▉  | 4740/6009 [19:59<04:49,  4.39it/s]

{'loss': 0.0, 'grad_norm': 0.00035634892992675304, 'learning_rate': 1.2113650585101687e-05, 'epoch': 2.37}


 79%|███████▉  | 4750/6009 [20:01<04:45,  4.41it/s]

{'loss': 0.0, 'grad_norm': 0.0005461355322040617, 'learning_rate': 1.201819234566038e-05, 'epoch': 2.37}


 79%|███████▉  | 4760/6009 [20:03<04:43,  4.41it/s]

{'loss': 0.0, 'grad_norm': 0.0006431650836020708, 'learning_rate': 1.1922734106219075e-05, 'epoch': 2.38}


 79%|███████▉  | 4770/6009 [20:06<04:44,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.00018781679682433605, 'learning_rate': 1.182727586677777e-05, 'epoch': 2.38}


 80%|███████▉  | 4780/6009 [20:08<04:41,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.00024892983492463827, 'learning_rate': 1.1731817627336463e-05, 'epoch': 2.39}


 80%|███████▉  | 4790/6009 [20:10<04:38,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.0009064676123671234, 'learning_rate': 1.1636359387895159e-05, 'epoch': 2.39}


 80%|███████▉  | 4800/6009 [20:13<04:36,  4.38it/s]

{'loss': 0.0, 'grad_norm': 0.0001766413770383224, 'learning_rate': 1.1540901148453853e-05, 'epoch': 2.4}


 80%|████████  | 4810/6009 [20:15<04:34,  4.37it/s]

{'loss': 0.0, 'grad_norm': 0.00017285606008954346, 'learning_rate': 1.1445442909012547e-05, 'epoch': 2.4}


 80%|████████  | 4820/6009 [20:17<04:33,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.000603490334469825, 'learning_rate': 1.1349984669571241e-05, 'epoch': 2.41}


 80%|████████  | 4830/6009 [20:20<04:30,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.0003793993382714689, 'learning_rate': 1.1254526430129936e-05, 'epoch': 2.41}


 81%|████████  | 4840/6009 [20:22<04:30,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.0004649037728086114, 'learning_rate': 1.1159068190688631e-05, 'epoch': 2.42}


 81%|████████  | 4850/6009 [20:24<04:26,  4.35it/s]

{'loss': 0.0, 'grad_norm': 0.00022441349574364722, 'learning_rate': 1.1063609951247324e-05, 'epoch': 2.42}


 81%|████████  | 4860/6009 [20:27<04:25,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.00025074410950765014, 'learning_rate': 1.096815171180602e-05, 'epoch': 2.43}


 81%|████████  | 4870/6009 [20:29<04:23,  4.32it/s]

{'loss': 0.0, 'grad_norm': 0.0002696884039323777, 'learning_rate': 1.0872693472364714e-05, 'epoch': 2.43}


 81%|████████  | 4880/6009 [20:31<04:19,  4.36it/s]

{'loss': 0.0, 'grad_norm': 0.00018615451699588448, 'learning_rate': 1.0777235232923406e-05, 'epoch': 2.44}


 81%|████████▏ | 4890/6009 [20:34<04:18,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.00024499709252268076, 'learning_rate': 1.0681776993482102e-05, 'epoch': 2.44}


 82%|████████▏ | 4900/6009 [20:36<04:15,  4.33it/s]

{'loss': 0.0, 'grad_norm': 0.00027426634915173054, 'learning_rate': 1.0586318754040796e-05, 'epoch': 2.45}


 82%|████████▏ | 4910/6009 [20:38<04:13,  4.34it/s]

{'loss': 0.0462, 'grad_norm': 0.00024379798560403287, 'learning_rate': 1.049086051459949e-05, 'epoch': 2.45}


 82%|████████▏ | 4920/6009 [20:40<04:10,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.00017285285866819322, 'learning_rate': 1.0395402275158185e-05, 'epoch': 2.46}


 82%|████████▏ | 4930/6009 [20:44<04:52,  3.69it/s]

{'loss': 0.0, 'grad_norm': 0.0003064929915126413, 'learning_rate': 1.029994403571688e-05, 'epoch': 2.46}


 82%|████████▏ | 4940/6009 [20:46<04:42,  3.79it/s]

{'loss': 0.0, 'grad_norm': 0.00021703577658627182, 'learning_rate': 1.0204485796275575e-05, 'epoch': 2.47}


 82%|████████▏ | 4950/6009 [20:49<04:42,  3.75it/s]

{'loss': 0.0, 'grad_norm': 0.0002546142495702952, 'learning_rate': 1.0109027556834267e-05, 'epoch': 2.47}


 83%|████████▎ | 4960/6009 [20:51<04:38,  3.77it/s]

{'loss': 0.0, 'grad_norm': 0.0003492017276585102, 'learning_rate': 1.0013569317392963e-05, 'epoch': 2.48}


 83%|████████▎ | 4970/6009 [20:54<04:34,  3.79it/s]

{'loss': 0.0, 'grad_norm': 0.00024860992562025785, 'learning_rate': 9.918111077951657e-06, 'epoch': 2.48}


 83%|████████▎ | 4980/6009 [20:57<04:33,  3.77it/s]

{'loss': 0.0, 'grad_norm': 0.0008052322082221508, 'learning_rate': 9.822652838510351e-06, 'epoch': 2.49}


 83%|████████▎ | 4990/6009 [20:59<04:29,  3.78it/s]

{'loss': 0.0, 'grad_norm': 0.00029575283406302333, 'learning_rate': 9.727194599069045e-06, 'epoch': 2.49}


 83%|████████▎ | 5000/6009 [21:02<04:03,  4.15it/s]

{'loss': 0.0, 'grad_norm': 0.00020630971994251013, 'learning_rate': 9.631736359627741e-06, 'epoch': 2.5}


 83%|████████▎ | 5010/6009 [21:04<03:38,  4.57it/s]

{'loss': 0.0, 'grad_norm': 0.0001820406032493338, 'learning_rate': 9.536278120186435e-06, 'epoch': 2.5}


 84%|████████▎ | 5020/6009 [21:06<03:33,  4.62it/s]

{'loss': 0.0, 'grad_norm': 0.0003501802566461265, 'learning_rate': 9.440819880745128e-06, 'epoch': 2.51}


 84%|████████▎ | 5030/6009 [21:08<03:32,  4.61it/s]

{'loss': 0.0, 'grad_norm': 0.00037778005935251713, 'learning_rate': 9.345361641303824e-06, 'epoch': 2.51}


 84%|████████▍ | 5040/6009 [21:11<03:32,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.00023793942818883806, 'learning_rate': 9.249903401862518e-06, 'epoch': 2.52}


 84%|████████▍ | 5050/6009 [21:13<03:33,  4.48it/s]

{'loss': 0.0, 'grad_norm': 0.0002054272044915706, 'learning_rate': 9.154445162421212e-06, 'epoch': 2.52}


 84%|████████▍ | 5060/6009 [21:15<03:28,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.0001551522291265428, 'learning_rate': 9.058986922979906e-06, 'epoch': 2.53}


 84%|████████▍ | 5070/6009 [21:17<03:26,  4.56it/s]

{'loss': 0.0, 'grad_norm': 0.00020683355978690088, 'learning_rate': 8.9635286835386e-06, 'epoch': 2.53}


 85%|████████▍ | 5080/6009 [21:20<04:38,  3.33it/s]

{'loss': 0.104, 'grad_norm': 0.00045767996925860643, 'learning_rate': 8.868070444097294e-06, 'epoch': 2.54}


 85%|████████▍ | 5090/6009 [21:23<03:52,  3.95it/s]

{'loss': 0.0, 'grad_norm': 0.0017839197535067797, 'learning_rate': 8.772612204655988e-06, 'epoch': 2.54}


 85%|████████▍ | 5100/6009 [21:25<03:45,  4.04it/s]

{'loss': 0.003, 'grad_norm': 0.019424743950366974, 'learning_rate': 8.677153965214684e-06, 'epoch': 2.55}


 85%|████████▌ | 5110/6009 [21:28<03:42,  4.05it/s]

{'loss': 0.0001, 'grad_norm': 0.007218342274427414, 'learning_rate': 8.581695725773378e-06, 'epoch': 2.55}


 85%|████████▌ | 5120/6009 [21:30<03:41,  4.01it/s]

{'loss': 0.0001, 'grad_norm': 0.001394794206134975, 'learning_rate': 8.486237486332072e-06, 'epoch': 2.56}


 85%|████████▌ | 5130/6009 [21:33<03:36,  4.06it/s]

{'loss': 0.0001, 'grad_norm': 0.0014228118816390634, 'learning_rate': 8.390779246890767e-06, 'epoch': 2.56}


 86%|████████▌ | 5140/6009 [21:35<03:34,  4.05it/s]

{'loss': 0.0006, 'grad_norm': 0.0005215114797465503, 'learning_rate': 8.29532100744946e-06, 'epoch': 2.57}


 86%|████████▌ | 5150/6009 [21:37<03:30,  4.09it/s]

{'loss': 0.0, 'grad_norm': 0.0011897607473656535, 'learning_rate': 8.199862768008155e-06, 'epoch': 2.57}


 86%|████████▌ | 5160/6009 [21:40<03:27,  4.10it/s]

{'loss': 0.0, 'grad_norm': 0.0009657428017817438, 'learning_rate': 8.104404528566849e-06, 'epoch': 2.58}


 86%|████████▌ | 5170/6009 [21:42<03:27,  4.04it/s]

{'loss': 0.0003, 'grad_norm': 0.0004981554229743779, 'learning_rate': 8.008946289125545e-06, 'epoch': 2.58}


 86%|████████▌ | 5180/6009 [21:45<03:23,  4.07it/s]

{'loss': 0.0, 'grad_norm': 0.0014495322247967124, 'learning_rate': 7.913488049684237e-06, 'epoch': 2.59}


 86%|████████▋ | 5190/6009 [21:47<03:21,  4.07it/s]

{'loss': 0.0, 'grad_norm': 0.0011464841663837433, 'learning_rate': 7.818029810242933e-06, 'epoch': 2.59}


 87%|████████▋ | 5200/6009 [21:50<03:18,  4.07it/s]

{'loss': 0.0, 'grad_norm': 0.0004786027129739523, 'learning_rate': 7.722571570801627e-06, 'epoch': 2.6}


 87%|████████▋ | 5211/6009 [21:52<02:48,  4.75it/s]

{'loss': 0.0, 'grad_norm': 0.0009000729187391698, 'learning_rate': 7.627113331360321e-06, 'epoch': 2.6}


 87%|████████▋ | 5221/6009 [21:54<02:42,  4.84it/s]

{'loss': 0.0, 'grad_norm': 0.0003846146573778242, 'learning_rate': 7.531655091919016e-06, 'epoch': 2.61}


 87%|████████▋ | 5231/6009 [21:56<02:42,  4.78it/s]

{'loss': 0.0, 'grad_norm': 0.0004717435222119093, 'learning_rate': 7.43619685247771e-06, 'epoch': 2.61}


 87%|████████▋ | 5241/6009 [21:59<02:42,  4.71it/s]

{'loss': 0.0, 'grad_norm': 0.0004111916641704738, 'learning_rate': 7.340738613036405e-06, 'epoch': 2.62}


 87%|████████▋ | 5250/6009 [22:00<02:38,  4.79it/s]

{'loss': 0.0, 'grad_norm': 0.0004209129838272929, 'learning_rate': 7.245280373595099e-06, 'epoch': 2.62}


 88%|████████▊ | 5260/6009 [22:03<04:06,  3.04it/s]

{'loss': 0.0, 'grad_norm': 0.000358700257493183, 'learning_rate': 7.149822134153793e-06, 'epoch': 2.63}


 88%|████████▊ | 5270/6009 [22:06<03:00,  4.10it/s]

{'loss': 0.0, 'grad_norm': 0.00046843389282003045, 'learning_rate': 7.054363894712488e-06, 'epoch': 2.63}


 88%|████████▊ | 5280/6009 [22:08<02:49,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.0009375339723192155, 'learning_rate': 6.958905655271182e-06, 'epoch': 2.64}


 88%|████████▊ | 5290/6009 [22:11<02:47,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0002436694485368207, 'learning_rate': 6.863447415829875e-06, 'epoch': 2.64}


 88%|████████▊ | 5300/6009 [22:13<02:44,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.0005299696931615472, 'learning_rate': 6.76798917638857e-06, 'epoch': 2.65}


 88%|████████▊ | 5310/6009 [22:15<02:41,  4.34it/s]

{'loss': 0.0047, 'grad_norm': 0.0008653503027744591, 'learning_rate': 6.6725309369472645e-06, 'epoch': 2.65}


 89%|████████▊ | 5320/6009 [22:18<02:38,  4.34it/s]

{'loss': 0.0, 'grad_norm': 0.0008970028138719499, 'learning_rate': 6.5770726975059595e-06, 'epoch': 2.66}


 89%|████████▊ | 5330/6009 [22:20<02:37,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0011135681997984648, 'learning_rate': 6.481614458064654e-06, 'epoch': 2.66}


 89%|████████▉ | 5340/6009 [22:22<02:35,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.001217971439473331, 'learning_rate': 6.386156218623348e-06, 'epoch': 2.67}


 89%|████████▉ | 5350/6009 [22:25<02:34,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.010203789919614792, 'learning_rate': 6.290697979182043e-06, 'epoch': 2.67}


 89%|████████▉ | 5360/6009 [22:27<02:31,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0005313789588399231, 'learning_rate': 6.195239739740736e-06, 'epoch': 2.68}


 89%|████████▉ | 5370/6009 [22:29<02:28,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0005044633871875703, 'learning_rate': 6.099781500299431e-06, 'epoch': 2.68}


 90%|████████▉ | 5380/6009 [22:32<02:28,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.0005739290500059724, 'learning_rate': 6.004323260858125e-06, 'epoch': 2.69}


 90%|████████▉ | 5390/6009 [22:34<02:25,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.00044182929559610784, 'learning_rate': 5.908865021416819e-06, 'epoch': 2.69}


 90%|████████▉ | 5400/6009 [22:36<02:22,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.00045893187052570283, 'learning_rate': 5.813406781975514e-06, 'epoch': 2.7}


 90%|█████████ | 5410/6009 [22:39<02:20,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0004862007044721395, 'learning_rate': 5.7179485425342085e-06, 'epoch': 2.7}


 90%|█████████ | 5420/6009 [22:41<02:17,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0004906863905489445, 'learning_rate': 5.622490303092903e-06, 'epoch': 2.71}


 90%|█████████ | 5430/6009 [22:43<02:15,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.00034311757190153003, 'learning_rate': 5.527032063651597e-06, 'epoch': 2.71}


 91%|█████████ | 5440/6009 [22:46<02:12,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.00021328902221284807, 'learning_rate': 5.431573824210292e-06, 'epoch': 2.72}


 91%|█████████ | 5450/6009 [22:48<02:10,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0005534220836125314, 'learning_rate': 5.336115584768986e-06, 'epoch': 2.72}


 91%|█████████ | 5460/6009 [22:50<02:08,  4.27it/s]

{'loss': 0.0904, 'grad_norm': 0.0005253626732155681, 'learning_rate': 5.24065734532768e-06, 'epoch': 2.73}


 91%|█████████ | 5470/6009 [22:53<02:05,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.0005665382486768067, 'learning_rate': 5.145199105886375e-06, 'epoch': 2.73}


 91%|█████████ | 5480/6009 [22:55<02:05,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.00030717090703547, 'learning_rate': 5.049740866445068e-06, 'epoch': 2.74}


 91%|█████████▏| 5490/6009 [22:57<02:00,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0005677022854797542, 'learning_rate': 4.954282627003763e-06, 'epoch': 2.74}


 92%|█████████▏| 5500/6009 [23:00<01:58,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0007070759311318398, 'learning_rate': 4.8588243875624574e-06, 'epoch': 2.75}


 92%|█████████▏| 5510/6009 [23:02<01:55,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.00035593818756751716, 'learning_rate': 4.7633661481211516e-06, 'epoch': 2.75}


 92%|█████████▏| 5520/6009 [23:04<01:53,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.00048593489918857813, 'learning_rate': 4.6679079086798466e-06, 'epoch': 2.76}


 92%|█████████▏| 5530/6009 [23:07<01:53,  4.24it/s]

{'loss': 0.0, 'grad_norm': 0.0006893441313877702, 'learning_rate': 4.572449669238541e-06, 'epoch': 2.76}


 92%|█████████▏| 5540/6009 [23:09<01:49,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0057245781645178795, 'learning_rate': 4.476991429797236e-06, 'epoch': 2.77}


 92%|█████████▏| 5550/6009 [23:12<01:47,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0008939564577303827, 'learning_rate': 4.381533190355929e-06, 'epoch': 2.77}


 93%|█████████▎| 5560/6009 [23:14<01:44,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.00042872808990068734, 'learning_rate': 4.286074950914623e-06, 'epoch': 2.78}


 93%|█████████▎| 5570/6009 [23:16<01:44,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.0015787469455972314, 'learning_rate': 4.190616711473318e-06, 'epoch': 2.78}


 93%|█████████▎| 5580/6009 [23:19<01:40,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.001616608933545649, 'learning_rate': 4.095158472032012e-06, 'epoch': 2.79}


 93%|█████████▎| 5590/6009 [23:21<01:37,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0014044709969311953, 'learning_rate': 3.999700232590707e-06, 'epoch': 2.79}


 93%|█████████▎| 5600/6009 [23:23<01:35,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.001121573499403894, 'learning_rate': 3.904241993149401e-06, 'epoch': 2.8}


 93%|█████████▎| 5610/6009 [23:26<01:33,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0007794832927174866, 'learning_rate': 3.808783753708095e-06, 'epoch': 2.8}


 94%|█████████▎| 5620/6009 [23:28<01:31,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.000413476605899632, 'learning_rate': 3.7133255142667896e-06, 'epoch': 2.81}


 94%|█████████▎| 5630/6009 [23:30<01:29,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.0004050789575558156, 'learning_rate': 3.617867274825484e-06, 'epoch': 2.81}


 94%|█████████▍| 5640/6009 [23:33<01:27,  4.20it/s]

{'loss': 0.0, 'grad_norm': 0.0003872224478982389, 'learning_rate': 3.5224090353841784e-06, 'epoch': 2.82}


 94%|█████████▍| 5650/6009 [23:35<01:24,  4.27it/s]

{'loss': 0.0002, 'grad_norm': 0.0005585122271440923, 'learning_rate': 3.426950795942873e-06, 'epoch': 2.82}


 94%|█████████▍| 5660/6009 [23:37<01:22,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.00025170325534418225, 'learning_rate': 3.331492556501567e-06, 'epoch': 2.83}


 94%|█████████▍| 5670/6009 [23:40<01:19,  4.24it/s]

{'loss': 0.0, 'grad_norm': 0.0006412551738321781, 'learning_rate': 3.2360343170602616e-06, 'epoch': 2.83}


 95%|█████████▍| 5680/6009 [23:42<01:17,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.0006829867488704622, 'learning_rate': 3.140576077618956e-06, 'epoch': 2.84}


 95%|█████████▍| 5690/6009 [23:44<01:15,  4.24it/s]

{'loss': 0.0, 'grad_norm': 0.0012108280789107084, 'learning_rate': 3.04511783817765e-06, 'epoch': 2.84}


 95%|█████████▍| 5700/6009 [23:47<01:12,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.0006798707181587815, 'learning_rate': 2.9496595987363445e-06, 'epoch': 2.85}


 95%|█████████▌| 5710/6009 [23:49<01:10,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.00042191610555164516, 'learning_rate': 2.854201359295039e-06, 'epoch': 2.85}


 95%|█████████▌| 5720/6009 [23:52<01:07,  4.29it/s]

{'loss': 0.0, 'grad_norm': 0.00035886012483388186, 'learning_rate': 2.758743119853733e-06, 'epoch': 2.86}


 95%|█████████▌| 5730/6009 [23:54<01:06,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.0007405068608932197, 'learning_rate': 2.6632848804124277e-06, 'epoch': 2.86}


 96%|█████████▌| 5740/6009 [23:56<01:02,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.0005902461125515401, 'learning_rate': 2.567826640971122e-06, 'epoch': 2.87}


 96%|█████████▌| 5750/6009 [23:59<01:00,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.01997440494596958, 'learning_rate': 2.472368401529816e-06, 'epoch': 2.87}


 96%|█████████▌| 5760/6009 [24:01<00:58,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0007294571842066944, 'learning_rate': 2.3769101620885106e-06, 'epoch': 2.88}


 96%|█████████▌| 5770/6009 [24:03<00:56,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.0006938056903891265, 'learning_rate': 2.281451922647205e-06, 'epoch': 2.88}


 96%|█████████▌| 5780/6009 [24:06<00:54,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.01215821597725153, 'learning_rate': 2.1859936832058993e-06, 'epoch': 2.89}


 96%|█████████▋| 5790/6009 [24:08<00:51,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.0009781927801668644, 'learning_rate': 2.090535443764594e-06, 'epoch': 2.89}


 97%|█████████▋| 5800/6009 [24:10<00:49,  4.21it/s]

{'loss': 0.0, 'grad_norm': 0.0003099770692642778, 'learning_rate': 1.995077204323288e-06, 'epoch': 2.9}


 97%|█████████▋| 5810/6009 [24:13<00:46,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0010522600496187806, 'learning_rate': 1.8996189648819821e-06, 'epoch': 2.9}


 97%|█████████▋| 5820/6009 [24:15<00:44,  4.23it/s]

{'loss': 0.0, 'grad_norm': 0.00047398291644640267, 'learning_rate': 1.8041607254406767e-06, 'epoch': 2.91}


 97%|█████████▋| 5830/6009 [24:18<00:42,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.0022916244342923164, 'learning_rate': 1.7087024859993712e-06, 'epoch': 2.91}


 97%|█████████▋| 5840/6009 [24:20<00:39,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.00025056840968318284, 'learning_rate': 1.6132442465580654e-06, 'epoch': 2.92}


 97%|█████████▋| 5850/6009 [24:22<00:37,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.0006148010725155473, 'learning_rate': 1.5177860071167597e-06, 'epoch': 2.92}


 98%|█████████▊| 5860/6009 [24:25<00:34,  4.31it/s]

{'loss': 0.0, 'grad_norm': 0.0008179240976460278, 'learning_rate': 1.4223277676754543e-06, 'epoch': 2.93}


 98%|█████████▊| 5870/6009 [24:27<00:32,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.00048678385792300105, 'learning_rate': 1.3268695282341484e-06, 'epoch': 2.93}


 98%|█████████▊| 5880/6009 [24:29<00:30,  4.28it/s]

{'loss': 0.0, 'grad_norm': 0.0002687475935090333, 'learning_rate': 1.231411288792843e-06, 'epoch': 2.94}


 98%|█████████▊| 5890/6009 [24:32<00:28,  4.24it/s]

{'loss': 0.0, 'grad_norm': 0.0003538761520758271, 'learning_rate': 1.1359530493515371e-06, 'epoch': 2.94}


 98%|█████████▊| 5900/6009 [24:34<00:25,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0004623357090167701, 'learning_rate': 1.0404948099102315e-06, 'epoch': 2.95}


 98%|█████████▊| 5910/6009 [24:36<00:23,  4.20it/s]

{'loss': 0.0, 'grad_norm': 0.0005836295895278454, 'learning_rate': 9.45036570468926e-07, 'epoch': 2.95}


 99%|█████████▊| 5920/6009 [24:39<00:21,  4.22it/s]

{'loss': 0.0, 'grad_norm': 0.0003545522631611675, 'learning_rate': 8.495783310276203e-07, 'epoch': 2.96}


 99%|█████████▊| 5930/6009 [24:41<00:18,  4.25it/s]

{'loss': 0.0, 'grad_norm': 0.0004780888557434082, 'learning_rate': 7.541200915863147e-07, 'epoch': 2.96}


 99%|█████████▉| 5940/6009 [24:43<00:16,  4.22it/s]

{'loss': 0.0, 'grad_norm': 0.0018116694409400225, 'learning_rate': 6.58661852145009e-07, 'epoch': 2.97}


 99%|█████████▉| 5950/6009 [24:46<00:13,  4.27it/s]

{'loss': 0.0, 'grad_norm': 0.0002920727711170912, 'learning_rate': 5.632036127037033e-07, 'epoch': 2.97}


 99%|█████████▉| 5960/6009 [24:48<00:11,  4.26it/s]

{'loss': 0.0, 'grad_norm': 0.007836651988327503, 'learning_rate': 4.6774537326239767e-07, 'epoch': 2.98}


 99%|█████████▉| 5970/6009 [24:51<00:09,  4.30it/s]

{'loss': 0.0, 'grad_norm': 0.0007714222883805633, 'learning_rate': 3.72287133821092e-07, 'epoch': 2.98}


100%|█████████▉| 5980/6009 [24:53<00:06,  4.24it/s]

{'loss': 0.0, 'grad_norm': 0.000561643042601645, 'learning_rate': 2.7682889437978637e-07, 'epoch': 2.99}


100%|█████████▉| 5990/6009 [24:55<00:04,  4.20it/s]

{'loss': 0.0, 'grad_norm': 0.0006868945201858878, 'learning_rate': 1.8137065493848075e-07, 'epoch': 2.99}


100%|█████████▉| 6000/6009 [24:58<00:02,  4.19it/s]

{'loss': 0.0, 'grad_norm': 0.0006214907625690103, 'learning_rate': 8.591241549717507e-08, 'epoch': 3.0}


100%|██████████| 6009/6009 [25:00<00:00,  4.88it/s]
100%|██████████| 6009/6009 [26:01<00:00,  4.88it/s]

{'eval_loss': 0.012767656706273556, 'eval_accuracy': 0.9987288905029962, 'eval_f1': 0.998730593978032, 'eval_runtime': 24.8996, 'eval_samples_per_second': 221.168, 'eval_steps_per_second': 27.671, 'epoch': 3.0}


100%|██████████| 6009/6009 [26:37<00:00,  3.76it/s]


{'train_runtime': 1597.2577, 'train_samples_per_second': 41.366, 'train_steps_per_second': 3.762, 'train_loss': 0.014041052434696598, 'epoch': 3.0}


100%|██████████| 689/689 [00:24<00:00, 28.62it/s]

Best hyperparameters: Learning Rate = 3.916017448632163e-05, Batch Size = 28, Num Epochs = 5





In [32]:
# 최적화된 하이퍼파라미터 출력
print(f"Best hyperparameters: Learning Rate = {result.x[0]}, Batch Size = {result.x[1]}, Num Epochs = {result.x[2]}")

Best hyperparameters: Learning Rate = 3.916017448632163e-05, Batch Size = 28, Num Epochs = 5


In [33]:
eval_results = trainer.evaluate()
print(eval_results)


#{'eval_loss': 0.020677322521805763,
#  'eval_runtime': 30.2996,
#  'eval_samples_per_second': 227.495,
#  'eval_steps_per_second': 28.449,
#  'epoch': 3.0}
# {'eval_loss': 0.01164562813937664, 'eval_runtime': 32.5923, 'eval_samples_per_second': 211.4, 'eval_steps_per_second': 26.448, 'epoch': 3.0}

100%|██████████| 689/689 [00:26<00:00, 25.69it/s]

{'eval_loss': 0.0060028089210391045, 'eval_runtime': 26.855, 'eval_samples_per_second': 205.064, 'eval_steps_per_second': 25.656, 'epoch': 3.0}





In [34]:
# 학습된 모델과 토크나이저 저장
model.save_pretrained('./bayesian_saved_model')
tokenizer.save_pretrained('./bayesian_saved_model')

('./bayesian_saved_model\\tokenizer_config.json',
 './bayesian_saved_model\\special_tokens_map.json',
 './bayesian_saved_model\\vocab.txt',
 './bayesian_saved_model\\added_tokens.json',
 './bayesian_saved_model\\tokenizer.json')

In [35]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# 저장된 모델과 토크나이저 로드
model = AutoModelForSequenceClassification.from_pretrained('./bayesian_saved_model')
tokenizer = AutoTokenizer.from_pretrained('./bayesian_saved_model')

In [36]:
model.eval()

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30000, 768, padding_idx=0)
      (position_embeddings): Embedding(300, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e

In [37]:
import numpy as np
import torch
questions = df['question'].tolist()
answers = df['answer'].tolist()

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model.to(device)

def get_embeddings(questions, tokenizer, model):
    model.eval()  # 평가 모드로 전환
    embeddings = []

    with torch.no_grad():
        for question in questions:
            # 입력 토큰화 (입력을 GPU로 이동)
            inputs = tokenizer(question, return_tensors="pt", padding=True, truncation=True).to(device)

            # 출력 얻기
            outputs = model(**inputs, output_hidden_states=True)  # hidden_states를 반환하도록 설정
            
            # BERT의 마지막 레이어 hidden_states에서 [CLS] 토큰의 임베딩을 사용
            cls_embedding = outputs.hidden_states[-1][:, 0, :]  # [batch_size, hidden_size]

            # CPU로 이동하고 numpy 배열로 변환하여 임베딩 목록에 추가
            embeddings.append(cls_embedding.squeeze().cpu().numpy())

    return np.array(embeddings)  # 모든 임베딩을 NumPy 배열로 반환


# fine-tuning 후 새로운 임베딩 생성
question_embeddings = get_embeddings(questions, tokenizer, model)

# 저장할 폴더 경로
save_dir = 'embeddings'

# 폴더가 없으면 생성
os.makedirs(save_dir, exist_ok=True)

# 저장할 파일 경로
save_path = os.path.join(save_dir, 'health_BO_question_embeddings.pth')

# 임베딩 저장
torch.save(question_embeddings, save_path)

In [40]:
import torch
import torch.nn.functional as F
import numpy as np

# numpy의 _reconstruct 함수를 허용 목록에 추가
torch.serialization.add_safe_globals([np.core.multiarray._reconstruct])

# 신뢰할 수 있는 데이터 파일을 로드
question_embeddings = torch.load('embeddings/health_BO_question_embeddings.pth')

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 평가 모드로 설정
model.eval()

def get_embedding(input_question, tokenizer, model, device):
    # 입력 문장을 토크나이즈하고 GPU/CPU로 이동
    inputs = tokenizer(input_question, return_tensors="pt", padding=True, truncation=True).to(device)
    
    with torch.no_grad():
        # hidden states를 포함하도록 설정
        outputs = model(**inputs, output_hidden_states=True)
        
        # 마지막 hidden state에서 [CLS] 토큰의 임베딩을 가져옴
        cls_embedding = outputs.hidden_states[-1][:, 0, :]  # [CLS] 토큰의 임베딩
    
    return cls_embedding.squeeze().to(device)  # 텐서를 GPU로 반환

# 코사인 유사도를 계산하여 가장 유사한 답변을 찾는 함수
def find_most_similar_answer_cosine(input_question, question_embeddings, answers, tokenizer, model, device):
    # 입력 질문 임베딩 생성
    input_embedding = get_embedding(input_question, tokenizer, model, device)

    max_similarity = -1
    best_answer = None
    
    # 각 질문 임베딩과 유사도 비교
    for i, question_embedding in enumerate(question_embeddings):
        # question_embedding이 numpy 배열인 경우 텐서로 변환
        if isinstance(question_embedding, np.ndarray):
            question_embedding = torch.tensor(question_embedding).to(device)
        
        # 코사인 유사도 계산
        similarity = F.cosine_similarity(input_embedding.unsqueeze(0), question_embedding.unsqueeze(0)).item()
        
        if similarity > max_similarity:
            max_similarity = similarity
            best_answer = answers[i]

    return best_answer, max_similarity

# 챗봇 응답 함수
def chatbot_response(input_question, tokenizer, model, question_embeddings, answers, df, device):
    # 1차 필터링: 분류 모델로 레이블 예측
    inputs = tokenizer(input_question, return_tensors="pt", padding=True, truncation=True).to(device)
    
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        predicted_label = torch.argmax(logits, dim=-1).item()

    # 2차 필터링: 같은 카테고리 내에서 코사인 유사도 계산
    # 같은 레이블의 질문들과 임베딩 필터링
    filtered_df = df[df['label'] == predicted_label]
    filtered_indices = filtered_df.index.tolist()

    # 필터링된 질문에 해당하는 미리 계산된 임베딩과 답변 가져오기
    filtered_question_embeddings = [question_embeddings[i] for i in filtered_indices]
    filtered_answers = [answers[i] for i in filtered_indices]

    # 코사인 유사도를 통해 가장 유사한 답변 찾기
    best_answer, cosine_similarity = find_most_similar_answer_cosine(input_question, filtered_question_embeddings, filtered_answers, tokenizer, model, device)
    
    return best_answer, cosine_similarity, predicted_label

  question_embeddings = torch.load('embeddings/health_BO_question_embeddings.pth')


In [42]:
# 예시 질문
input_question = "너무 목이 마른데요, 혹시 정수기 같은 건 없나요?"

# 챗봇 응답 호출
best_answer, cosine_similarity, predicted_label = chatbot_response(
    input_question, tokenizer, model, question_embeddings, answers, df, device
)

# 결과 출력

print("예측된 레이블:", predicted_label)
print("최고 유사도 답변:", best_answer)
print("코사인 유사도:", cosine_similarity)



예측된 레이블: 6
최고 유사도 답변: 정수기는 진료 대기실 앞 쪽에 있습니다. 감사합니다.
코사인 유사도: 1.0


In [44]:
# 예시 질문
input_question = "정수기는 위치가 어디죠?"

# 챗봇 응답 호출
best_answer, cosine_similarity, predicted_label = chatbot_response(
    input_question, tokenizer, model, question_embeddings, answers, df, device
)

# 결과 출력

print("예측된 레이블:", predicted_label)
print("최고 유사도 답변:", best_answer)
print("코사인 유사도:", cosine_similarity)



예측된 레이블: 6
최고 유사도 답변: 저와 함께 이동해 주시면 직접 안내를 도와드릴 수 있습니다.
코사인 유사도: 0.9997997283935547
