### Reference

1. https://github.com/ashishpatel26/LLM-Finetuning/blob/main/7.FineTune_LLAMA2_with_QLORA.ipynb  
2. https://huggingface.co/blog/4bit-transformers-bitsandbytes  
3. https://pytorch.org/blog/finetune-llms/  
4. https://colab.research.google.com/drive/1vIjBtePIZwUaHWfjfNHzBjwuXOyU_ugD?usp=sharing#scrollTo=6k_nL6xJMZW2  

# 1. Weight and Bias Login

In [1]:
import wandb
import os
os.environ["WANDB_PROJECT"]="QLoRA_Instruction_finetune_08"

wandb.login()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33maeolian83[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

# 2. Login Huggingface

In [2]:
from huggingface_hub import login
from dotenv import load_dotenv

load_dotenv()


login(token= os.environ["HF_TOKEN"])

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/aeolian83/.cache/huggingface/token
Login successful


# 3. Dataset Load

In [3]:
from datasets import load_dataset

In [4]:
ko_instruction_01 = load_dataset("aeolian83/OpenOrca-gugugo-ko_test", cache_dir="/mnt/t7/.cache/huggingface/datasets")

In [5]:
ko_instruction_01 = ko_instruction_01.shuffle(seed=2160)

In [6]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 1008132
    })
    test: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 1232162
    })
})

In [7]:
ko_instruction_01 = ko_instruction_01["train"]

In [8]:
ko_instruction_01

Dataset({
    features: ['question', 'system_prompt', 'response', 'id'],
    num_rows: 1008132
})

In [9]:
ko_instruction_01 = ko_instruction_01.train_test_split(test_size=0.2)

In [10]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 806505
    })
    test: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 201627
    })
})

In [11]:
ko_instruction_01["train"][100]

{'question': '다음 질문에 답하세요: 1~5점 척도(1은 가장 불리한 점수, 5는 가장 유리한 점수)로 이 리뷰를 평가한다면? "안녕하세요, 이 제품을 사용해보고 싶습니다."\n답변:',
 'system_prompt': '당신은 인공지능 비서입니다. 사용자가 과제를 부여할 것입니다. 당신의 목표는 가능한 한 충실하게 과제를 완료하는 것입니다. 과제를 수행하는 동안 단계별로 생각하고 단계를 정당화하세요.',
 'response': '1\n\n단계별 프로세스:\n\n1. 리뷰를 이해합니다: 사용자가 작성한 리뷰 "안녕하세요, 이 제품을 사용해보고 싶습니다."는 실제로 리뷰가 아니라 제품이나 서비스를 사용해보고 싶다는 의사를 표현한 문구입니다. 리뷰에는 일반적으로 특정 제품이나 서비스를 사용한 후의 피드백이나 의견이 포함됩니다.\n\n2. 평가 기준: 일반적으로 1~5점 척도에서 5는 가장 긍정적이고 1은 가장 부정적이거나 가장 호의적이지 않은 평가입니다.\n\n3. 리뷰 분석: 사용자가 제품이나 서비스를 아직 사용해보지 않았기 때문에 사용자의 경험에 대한 긍정적 또는 부정적 피드백을 제공하지 않았기 때문에 평점을 부여할 수 없습니다. \n\n4. 결론: 따라서 해당 제품/서비스에 대한 사용자의 경험에 대한 구체적인 정보가 없기 때문에 가장 불리한 평점인 1점을 부여합니다. 그러나 이는 제품이나 서비스에 대한 부정적인 평가를 반영하는 것이 아니라 리뷰에 정보가 없는 콘텐츠가 부족하다는 것을 반영할 뿐입니다.',
 'id': 't0.263840'}

In [12]:
dataset_name = "aeolian83/OpenOrca-gugugo-ko_test"

# 4. Loading the Model

In [13]:
model_id = "beomi/llama-2-ko-7b"
device_map = {"": 0}
cache_model_dir="/mnt/t7/.cache/huggingface/models"

In [14]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

In [15]:
# Settings for 4-bit QLoRA Training(4bit QLoRA 학습을 위한 설정)
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True, 
    bnb_4bit_compute_dtype=torch.bfloat16, # Nvidia의 Ampere 아키텍처 이후 가속기는 bf16으로 속도 향상을 꾀할수 있다. 
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

# bnb_4bit_quant_type="nf4" 설정상 기본값은 bnb_4bit_quant_type="fp4"이나 허깅페이스 저자들에 의하면
# 경험적 결과로 "nf4"가 결과가 더 좋았다고 한다. https://huggingface.co/blog/4bit-transformers-bitsandbytes
# bnb_4bit_use_double_quant=True로 하면 매개변수단 0.4bit을 추가로 절약 할 수 있다고 한다. 

In [16]:
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config, device_map=device_map, cache_dir=cache_model_dir, trust_remote_code=True)
model.config.use_cache = False

# model.config.pretraining_tp = 1
# 종종 QLoRA 코드에 이 코드가 보이는데 병렬 학습에 쓰이는 코드로 보인다. 

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

In [17]:
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True, cache_dir=cache_model_dir)
tokenizer.add_special_tokens({'pad_token': '<PAD>'})



1

In [18]:
# 이 코드를 쓰지 않는 경우(물론 패딩 토큰을 별도로 사용하는 경우에 해당됨) loss가 0으로 떨어지는 경우가 있다함
tokenizer.padding_side = "right"

In [19]:
model.resize_token_embeddings(len(tokenizer)) # pad_token이 추가되었으므로 embedding과 language modeling head를 resize

Embedding(46337, 4096)

# 5. LoRA Setup

In [20]:
from peft import LoraConfig, get_peft_model

lora_alpha = 16
lora_dropout = 0.1
lora_r = 64

In [21]:
peft_config = LoraConfig(
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    r=lora_r,
    bias="none",
    task_type="CAUSAL_LM"
)

# 6. Formatting Dataset

In [22]:
def format_instruction(sample):
    system_prompt = f"### system prompt: {sample['system_prompt']}"
    input = f"### question: {sample['question']}" if len(sample["question"]) > 0 else None
    output = f"### response: {sample['response']}"
    # join all the parts together
    prompt = "\n\n".join([i for i in [system_prompt, input, output] if i is not None])
    return prompt

# template dataset to add prompt to each sample
def template_dataset(sample):
    sample["text"] = f"{format_instruction(sample)}{tokenizer.eos_token}"
    return sample

In [23]:
train_dataset = ko_instruction_01['train'].map(template_dataset, remove_columns=list(ko_instruction_01['train'].features), num_proc=10)

Map (num_proc=10):   0%|          | 0/806505 [00:00<?, ? examples/s]

In [24]:
train_dataset["text"][100]

'### system prompt: 당신은 인공지능 비서입니다. 사용자가 과제를 부여할 것입니다. 당신의 목표는 가능한 한 충실하게 과제를 완료하는 것입니다. 과제를 수행하는 동안 단계별로 생각하고 단계를 정당화하세요.\n\n### question: 다음 질문에 답하세요: 1~5점 척도(1은 가장 불리한 점수, 5는 가장 유리한 점수)로 이 리뷰를 평가한다면? "안녕하세요, 이 제품을 사용해보고 싶습니다."\n답변:\n\n### response: 1\n\n단계별 프로세스:\n\n1. 리뷰를 이해합니다: 사용자가 작성한 리뷰 "안녕하세요, 이 제품을 사용해보고 싶습니다."는 실제로 리뷰가 아니라 제품이나 서비스를 사용해보고 싶다는 의사를 표현한 문구입니다. 리뷰에는 일반적으로 특정 제품이나 서비스를 사용한 후의 피드백이나 의견이 포함됩니다.\n\n2. 평가 기준: 일반적으로 1~5점 척도에서 5는 가장 긍정적이고 1은 가장 부정적이거나 가장 호의적이지 않은 평가입니다.\n\n3. 리뷰 분석: 사용자가 제품이나 서비스를 아직 사용해보지 않았기 때문에 사용자의 경험에 대한 긍정적 또는 부정적 피드백을 제공하지 않았기 때문에 평점을 부여할 수 없습니다. \n\n4. 결론: 따라서 해당 제품/서비스에 대한 사용자의 경험에 대한 구체적인 정보가 없기 때문에 가장 불리한 평점인 1점을 부여합니다. 그러나 이는 제품이나 서비스에 대한 부정적인 평가를 반영하는 것이 아니라 리뷰에 정보가 없는 콘텐츠가 부족하다는 것을 반영할 뿐입니다.</s>'

# 7. Training Argument Setup

In [25]:
from transformers import TrainingArguments

In [26]:
checkpoint_dir = "./checkpoint/gugugo-experi_01"

In [27]:
output_dir = checkpoint_dir
per_device_train_batch_size = 1
gradient_accumulation_steps = 2
optim = "paged_adamw_32bit"
report_to="wandb"
save_steps = 500
save_total_limit=5
num_train_epochs = 0.9
logging_steps = 20
learning_rate = 2e-4
max_grad_norm = 0.3
warmup_ratio = 0.03
lr_scheduler_type = "linear"

In [28]:
training_arguments = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim=optim,
    num_train_epochs=num_train_epochs,
    save_steps=save_steps,
    save_total_limit=save_total_limit,
    logging_steps=logging_steps,
    report_to = report_to,
    learning_rate=learning_rate,
    bf16=True,
    max_grad_norm=max_grad_norm,
    warmup_ratio=warmup_ratio,
    group_by_length=True,
    lr_scheduler_type=lr_scheduler_type,
)

In [29]:
from trl import SFTTrainer

max_seq_length = 1024

In [30]:
trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    # max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
)



Map:   0%|          | 0/806505 [00:00<?, ? examples/s]

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [31]:
for name, module in trainer.model.named_modules():
    if "norm" in name:
        module = module.to(torch.float32)

# 8. Training

In [32]:
# trainer.train()

In [33]:
trainer.train(resume_from_checkpoint=True)

  0%|          | 0/362927 [00:00<?, ?it/s]

{'loss': 1.0349, 'grad_norm': 0.53125, 'learning_rate': 2.3524098182303667e-05, 'epoch': 0.8}
{'loss': 1.1966, 'grad_norm': 0.64453125, 'learning_rate': 2.3512735804839805e-05, 'epoch': 0.8}
{'loss': 1.2557, 'grad_norm': 0.51171875, 'learning_rate': 2.3501373427375943e-05, 'epoch': 0.8}
{'loss': 1.296, 'grad_norm': 0.640625, 'learning_rate': 2.3490011049912084e-05, 'epoch': 0.8}
{'loss': 1.0313, 'grad_norm': 0.7734375, 'learning_rate': 2.3478648672448226e-05, 'epoch': 0.8}
{'loss': 1.2645, 'grad_norm': 0.9140625, 'learning_rate': 2.3467286294984363e-05, 'epoch': 0.8}
{'loss': 1.1992, 'grad_norm': 1.203125, 'learning_rate': 2.3455923917520505e-05, 'epoch': 0.8}
{'loss': 1.1567, 'grad_norm': 0.462890625, 'learning_rate': 2.3444561540056643e-05, 'epoch': 0.8}
{'loss': 1.1183, 'grad_norm': 0.625, 'learning_rate': 2.343319916259278e-05, 'epoch': 0.8}
{'loss': 1.0736, 'grad_norm': 0.92578125, 'learning_rate': 2.342183678512892e-05, 'epoch': 0.8}
{'loss': 1.1836, 'grad_norm': 0.7265625, 'lear



{'loss': 1.4249, 'grad_norm': 0.734375, 'learning_rate': 2.324003874570715e-05, 'epoch': 0.8}
{'loss': 1.1613, 'grad_norm': 0.6640625, 'learning_rate': 2.3228676368243292e-05, 'epoch': 0.8}
{'loss': 1.2463, 'grad_norm': 0.3984375, 'learning_rate': 2.3217313990779434e-05, 'epoch': 0.8}
{'loss': 1.3271, 'grad_norm': 0.76953125, 'learning_rate': 2.320595161331557e-05, 'epoch': 0.8}
{'loss': 1.052, 'grad_norm': 0.9453125, 'learning_rate': 2.319458923585171e-05, 'epoch': 0.8}
{'loss': 1.3381, 'grad_norm': 0.484375, 'learning_rate': 2.318322685838785e-05, 'epoch': 0.8}
{'loss': 1.1833, 'grad_norm': 0.84375, 'learning_rate': 2.3171864480923992e-05, 'epoch': 0.8}
{'loss': 1.24, 'grad_norm': 0.51171875, 'learning_rate': 2.316050210346013e-05, 'epoch': 0.8}
{'loss': 1.1762, 'grad_norm': 0.57421875, 'learning_rate': 2.3149139725996267e-05, 'epoch': 0.8}
{'loss': 1.0722, 'grad_norm': 0.99609375, 'learning_rate': 2.313777734853241e-05, 'epoch': 0.8}
{'loss': 1.2813, 'grad_norm': 0.515625, 'learning



{'loss': 1.2913, 'grad_norm': 0.494140625, 'learning_rate': 2.2955979309110638e-05, 'epoch': 0.8}
{'loss': 1.1713, 'grad_norm': 0.609375, 'learning_rate': 2.294461693164678e-05, 'epoch': 0.8}
{'loss': 1.1763, 'grad_norm': 0.48828125, 'learning_rate': 2.2933254554182917e-05, 'epoch': 0.8}
{'loss': 1.2305, 'grad_norm': 0.76171875, 'learning_rate': 2.2921892176719055e-05, 'epoch': 0.8}
{'loss': 0.9746, 'grad_norm': 0.53125, 'learning_rate': 2.29105297992552e-05, 'epoch': 0.8}
{'loss': 1.2763, 'grad_norm': 0.7265625, 'learning_rate': 2.2899167421791338e-05, 'epoch': 0.8}
{'loss': 1.1676, 'grad_norm': 0.8828125, 'learning_rate': 2.2887805044327475e-05, 'epoch': 0.8}
{'loss': 1.2308, 'grad_norm': 0.50390625, 'learning_rate': 2.2876442666863617e-05, 'epoch': 0.8}
{'loss': 1.4059, 'grad_norm': 0.53125, 'learning_rate': 2.2865080289399754e-05, 'epoch': 0.8}
{'loss': 1.0617, 'grad_norm': 1.078125, 'learning_rate': 2.2853717911935896e-05, 'epoch': 0.8}
{'loss': 1.3119, 'grad_norm': 0.54296875, 'l



{'loss': 1.3385, 'grad_norm': 0.47265625, 'learning_rate': 2.2671919872514125e-05, 'epoch': 0.8}
{'loss': 1.2526, 'grad_norm': 0.7421875, 'learning_rate': 2.2660557495050266e-05, 'epoch': 0.8}
{'loss': 1.188, 'grad_norm': 0.5078125, 'learning_rate': 2.2649195117586404e-05, 'epoch': 0.8}
{'loss': 1.123, 'grad_norm': 0.46484375, 'learning_rate': 2.2637832740122545e-05, 'epoch': 0.8}
{'loss': 1.1429, 'grad_norm': 0.9765625, 'learning_rate': 2.2626470362658683e-05, 'epoch': 0.8}
{'loss': 1.303, 'grad_norm': 0.58203125, 'learning_rate': 2.261510798519482e-05, 'epoch': 0.8}
{'loss': 1.1711, 'grad_norm': 0.70703125, 'learning_rate': 2.2603745607730962e-05, 'epoch': 0.8}
{'loss': 1.2651, 'grad_norm': 0.63671875, 'learning_rate': 2.2592383230267104e-05, 'epoch': 0.8}
{'loss': 1.1746, 'grad_norm': 0.546875, 'learning_rate': 2.258102085280324e-05, 'epoch': 0.8}
{'loss': 1.0262, 'grad_norm': 0.62890625, 'learning_rate': 2.256965847533938e-05, 'epoch': 0.8}
{'loss': 1.3517, 'grad_norm': 0.51171875,



{'loss': 1.3637, 'grad_norm': 0.55859375, 'learning_rate': 2.2387860435917612e-05, 'epoch': 0.8}
{'loss': 1.1227, 'grad_norm': 0.66015625, 'learning_rate': 2.237649805845375e-05, 'epoch': 0.8}
{'loss': 1.2414, 'grad_norm': 0.5546875, 'learning_rate': 2.236513568098989e-05, 'epoch': 0.8}
{'loss': 1.3207, 'grad_norm': 0.703125, 'learning_rate': 2.2353773303526032e-05, 'epoch': 0.8}
{'loss': 0.9666, 'grad_norm': 0.6875, 'learning_rate': 2.234241092606217e-05, 'epoch': 0.8}
{'loss': 1.4026, 'grad_norm': 0.546875, 'learning_rate': 2.233104854859831e-05, 'epoch': 0.8}
{'loss': 1.2989, 'grad_norm': 1.046875, 'learning_rate': 2.231968617113445e-05, 'epoch': 0.8}
{'loss': 1.1186, 'grad_norm': 0.75, 'learning_rate': 2.2308323793670587e-05, 'epoch': 0.8}
{'loss': 1.2061, 'grad_norm': 0.7109375, 'learning_rate': 2.229696141620673e-05, 'epoch': 0.8}
{'loss': 1.1219, 'grad_norm': 0.7890625, 'learning_rate': 2.228559903874287e-05, 'epoch': 0.8}
{'loss': 1.3391, 'grad_norm': 0.765625, 'learning_rate':



{'loss': 1.3862, 'grad_norm': 0.5078125, 'learning_rate': 2.21038009993211e-05, 'epoch': 0.8}
{'loss': 1.0769, 'grad_norm': 0.8203125, 'learning_rate': 2.209243862185724e-05, 'epoch': 0.8}
{'loss': 1.0847, 'grad_norm': 0.6953125, 'learning_rate': 2.2081076244393378e-05, 'epoch': 0.8}
{'loss': 1.1747, 'grad_norm': 0.6171875, 'learning_rate': 2.2069713866929516e-05, 'epoch': 0.8}
{'loss': 1.0775, 'grad_norm': 0.77734375, 'learning_rate': 2.2058351489465657e-05, 'epoch': 0.8}
{'loss': 1.2913, 'grad_norm': 0.63671875, 'learning_rate': 2.2046989112001795e-05, 'epoch': 0.8}
{'loss': 1.2186, 'grad_norm': 0.71484375, 'learning_rate': 2.2035626734537936e-05, 'epoch': 0.8}
{'loss': 1.2465, 'grad_norm': 0.439453125, 'learning_rate': 2.2024264357074074e-05, 'epoch': 0.8}
{'loss': 1.3558, 'grad_norm': 0.58203125, 'learning_rate': 2.2012901979610216e-05, 'epoch': 0.8}
{'loss': 1.0275, 'grad_norm': 1.3984375, 'learning_rate': 2.2001539602146353e-05, 'epoch': 0.8}
{'loss': 1.2255, 'grad_norm': 0.57812



{'loss': 1.3257, 'grad_norm': 0.45703125, 'learning_rate': 2.1819741562724586e-05, 'epoch': 0.8}
{'loss': 1.165, 'grad_norm': 1.0234375, 'learning_rate': 2.1808379185260724e-05, 'epoch': 0.8}
{'loss': 1.2688, 'grad_norm': 0.48828125, 'learning_rate': 2.1797016807796862e-05, 'epoch': 0.8}
{'loss': 1.2601, 'grad_norm': 0.62890625, 'learning_rate': 2.1785654430333006e-05, 'epoch': 0.8}
{'loss': 1.175, 'grad_norm': 1.015625, 'learning_rate': 2.1774292052869144e-05, 'epoch': 0.8}
{'loss': 1.1887, 'grad_norm': 0.54296875, 'learning_rate': 2.1762929675405282e-05, 'epoch': 0.81}
{'loss': 1.1248, 'grad_norm': 0.734375, 'learning_rate': 2.1751567297941423e-05, 'epoch': 0.81}
{'loss': 1.1702, 'grad_norm': 0.455078125, 'learning_rate': 2.174020492047756e-05, 'epoch': 0.81}
{'loss': 1.3117, 'grad_norm': 0.70703125, 'learning_rate': 2.17288425430137e-05, 'epoch': 0.81}
{'loss': 0.9415, 'grad_norm': 0.53515625, 'learning_rate': 2.171748016554984e-05, 'epoch': 0.81}
{'loss': 1.2933, 'grad_norm': 0.527



{'loss': 1.2521, 'grad_norm': 0.58203125, 'learning_rate': 2.1535682126128073e-05, 'epoch': 0.81}
{'loss': 1.1436, 'grad_norm': 0.6015625, 'learning_rate': 2.152431974866421e-05, 'epoch': 0.81}
{'loss': 1.2174, 'grad_norm': 0.55078125, 'learning_rate': 2.1512957371200352e-05, 'epoch': 0.81}
{'loss': 1.2029, 'grad_norm': 0.6640625, 'learning_rate': 2.150159499373649e-05, 'epoch': 0.81}
{'loss': 0.9642, 'grad_norm': 0.86328125, 'learning_rate': 2.1490232616272628e-05, 'epoch': 0.81}
{'loss': 1.3166, 'grad_norm': 0.55078125, 'learning_rate': 2.147887023880877e-05, 'epoch': 0.81}
{'loss': 1.1776, 'grad_norm': 0.75390625, 'learning_rate': 2.146750786134491e-05, 'epoch': 0.81}
{'loss': 1.1805, 'grad_norm': 0.435546875, 'learning_rate': 2.1456145483881048e-05, 'epoch': 0.81}
{'loss': 1.1913, 'grad_norm': 0.93359375, 'learning_rate': 2.1444783106417186e-05, 'epoch': 0.81}
{'loss': 1.1049, 'grad_norm': 1.1171875, 'learning_rate': 2.1433420728953327e-05, 'epoch': 0.81}
{'loss': 1.289, 'grad_norm



{'loss': 1.2789, 'grad_norm': 0.73046875, 'learning_rate': 2.1251622689531557e-05, 'epoch': 0.81}
{'loss': 1.1326, 'grad_norm': 0.8984375, 'learning_rate': 2.1240260312067698e-05, 'epoch': 0.81}
{'loss': 1.1599, 'grad_norm': 1.0234375, 'learning_rate': 2.1228897934603836e-05, 'epoch': 0.81}
{'loss': 1.3633, 'grad_norm': 0.93359375, 'learning_rate': 2.1217535557139977e-05, 'epoch': 0.81}
{'loss': 1.0845, 'grad_norm': 0.85546875, 'learning_rate': 2.120617317967612e-05, 'epoch': 0.81}
{'loss': 1.2192, 'grad_norm': 0.8203125, 'learning_rate': 2.1194810802212256e-05, 'epoch': 0.81}
{'loss': 1.1252, 'grad_norm': 0.7421875, 'learning_rate': 2.1183448424748394e-05, 'epoch': 0.81}
{'loss': 1.0795, 'grad_norm': 0.42578125, 'learning_rate': 2.1172086047284535e-05, 'epoch': 0.81}
{'loss': 1.2199, 'grad_norm': 0.6640625, 'learning_rate': 2.1160723669820677e-05, 'epoch': 0.81}
{'loss': 1.1227, 'grad_norm': 0.8828125, 'learning_rate': 2.1149361292356814e-05, 'epoch': 0.81}
{'loss': 1.2637, 'grad_norm



{'loss': 1.3448, 'grad_norm': 0.58984375, 'learning_rate': 2.0967563252935047e-05, 'epoch': 0.81}
{'loss': 1.1631, 'grad_norm': 0.7109375, 'learning_rate': 2.0956200875471185e-05, 'epoch': 0.81}
{'loss': 1.2491, 'grad_norm': 0.4296875, 'learning_rate': 2.0944838498007323e-05, 'epoch': 0.81}
{'loss': 1.2311, 'grad_norm': 0.6328125, 'learning_rate': 2.0933476120543464e-05, 'epoch': 0.81}
{'loss': 1.0578, 'grad_norm': 0.546875, 'learning_rate': 2.0922113743079602e-05, 'epoch': 0.81}
{'loss': 1.2746, 'grad_norm': 0.7734375, 'learning_rate': 2.091075136561574e-05, 'epoch': 0.81}
{'loss': 1.0893, 'grad_norm': 0.796875, 'learning_rate': 2.0899388988151884e-05, 'epoch': 0.81}
{'loss': 1.119, 'grad_norm': 0.443359375, 'learning_rate': 2.0888026610688022e-05, 'epoch': 0.81}
{'loss': 1.2933, 'grad_norm': 0.6171875, 'learning_rate': 2.087666423322416e-05, 'epoch': 0.81}
{'loss': 1.0516, 'grad_norm': 1.03125, 'learning_rate': 2.0865301855760298e-05, 'epoch': 0.81}
{'loss': 1.2632, 'grad_norm': 0.50



{'loss': 1.1607, 'grad_norm': 0.52734375, 'learning_rate': 2.068350381633853e-05, 'epoch': 0.81}
{'loss': 1.1504, 'grad_norm': 0.74609375, 'learning_rate': 2.067214143887467e-05, 'epoch': 0.81}
{'loss': 1.0933, 'grad_norm': 0.52734375, 'learning_rate': 2.066077906141081e-05, 'epoch': 0.81}
{'loss': 1.1251, 'grad_norm': 0.546875, 'learning_rate': 2.064941668394695e-05, 'epoch': 0.81}
{'loss': 1.0969, 'grad_norm': 1.265625, 'learning_rate': 2.063805430648309e-05, 'epoch': 0.81}
{'loss': 1.3522, 'grad_norm': 0.54296875, 'learning_rate': 2.062669192901923e-05, 'epoch': 0.81}
{'loss': 1.0769, 'grad_norm': 0.68359375, 'learning_rate': 2.0615329551555368e-05, 'epoch': 0.81}
{'loss': 1.2058, 'grad_norm': 0.41796875, 'learning_rate': 2.0603967174091506e-05, 'epoch': 0.81}
{'loss': 1.2621, 'grad_norm': 0.6484375, 'learning_rate': 2.0592604796627647e-05, 'epoch': 0.81}
{'loss': 0.9556, 'grad_norm': 0.62109375, 'learning_rate': 2.058124241916379e-05, 'epoch': 0.81}
{'loss': 1.2667, 'grad_norm': 0.



{'loss': 1.3144, 'grad_norm': 0.56640625, 'learning_rate': 2.0399444379742018e-05, 'epoch': 0.81}
{'loss': 1.1804, 'grad_norm': 0.87890625, 'learning_rate': 2.038808200227816e-05, 'epoch': 0.81}
{'loss': 1.1255, 'grad_norm': 0.5078125, 'learning_rate': 2.0376719624814297e-05, 'epoch': 0.81}
{'loss': 1.3566, 'grad_norm': 0.56640625, 'learning_rate': 2.0365357247350435e-05, 'epoch': 0.81}
{'loss': 1.1488, 'grad_norm': 1.0546875, 'learning_rate': 2.0353994869886576e-05, 'epoch': 0.81}
{'loss': 1.4385, 'grad_norm': 0.55859375, 'learning_rate': 2.0342632492422717e-05, 'epoch': 0.81}
{'loss': 1.1001, 'grad_norm': 0.71875, 'learning_rate': 2.0331270114958855e-05, 'epoch': 0.81}
{'loss': 1.3204, 'grad_norm': 0.671875, 'learning_rate': 2.0319907737494996e-05, 'epoch': 0.81}
{'loss': 1.2276, 'grad_norm': 0.6796875, 'learning_rate': 2.0308545360031134e-05, 'epoch': 0.81}
{'loss': 1.0461, 'grad_norm': 1.171875, 'learning_rate': 2.0297182982567272e-05, 'epoch': 0.81}
{'loss': 1.2253, 'grad_norm': 0



{'loss': 1.3328, 'grad_norm': 0.5234375, 'learning_rate': 2.0115384943145505e-05, 'epoch': 0.81}
{'loss': 1.1754, 'grad_norm': 0.9921875, 'learning_rate': 2.0104022565681643e-05, 'epoch': 0.81}
{'loss': 1.2633, 'grad_norm': 0.498046875, 'learning_rate': 2.0092660188217784e-05, 'epoch': 0.81}
{'loss': 1.2775, 'grad_norm': 0.6171875, 'learning_rate': 2.0081297810753925e-05, 'epoch': 0.81}
{'loss': 1.0414, 'grad_norm': 1.0078125, 'learning_rate': 2.0069935433290063e-05, 'epoch': 0.81}
{'loss': 1.3985, 'grad_norm': 0.5625, 'learning_rate': 2.00585730558262e-05, 'epoch': 0.81}
{'loss': 1.3099, 'grad_norm': 0.72265625, 'learning_rate': 2.0047210678362342e-05, 'epoch': 0.81}
{'loss': 1.1801, 'grad_norm': 0.4453125, 'learning_rate': 2.003584830089848e-05, 'epoch': 0.81}
{'loss': 1.2579, 'grad_norm': 0.60546875, 'learning_rate': 2.002448592343462e-05, 'epoch': 0.81}
{'loss': 0.9769, 'grad_norm': 0.69140625, 'learning_rate': 2.001312354597076e-05, 'epoch': 0.81}
{'loss': 1.2723, 'grad_norm': 0.5



{'loss': 1.3293, 'grad_norm': 0.5, 'learning_rate': 1.9831325506548992e-05, 'epoch': 0.81}
{'loss': 1.1059, 'grad_norm': 0.828125, 'learning_rate': 1.981996312908513e-05, 'epoch': 0.81}
{'loss': 1.3733, 'grad_norm': 0.48828125, 'learning_rate': 1.980860075162127e-05, 'epoch': 0.81}
{'loss': 1.1777, 'grad_norm': 0.59375, 'learning_rate': 1.979723837415741e-05, 'epoch': 0.81}
{'loss': 1.0967, 'grad_norm': 0.94140625, 'learning_rate': 1.9785875996693547e-05, 'epoch': 0.81}
{'loss': 1.3964, 'grad_norm': 0.5625, 'learning_rate': 1.977451361922969e-05, 'epoch': 0.81}
{'loss': 1.0644, 'grad_norm': 0.65625, 'learning_rate': 1.976315124176583e-05, 'epoch': 0.81}
{'loss': 1.1518, 'grad_norm': 0.462890625, 'learning_rate': 1.9751788864301967e-05, 'epoch': 0.81}
{'loss': 1.1988, 'grad_norm': 0.62109375, 'learning_rate': 1.9740426486838108e-05, 'epoch': 0.81}
{'loss': 1.074, 'grad_norm': 0.89453125, 'learning_rate': 1.9729064109374246e-05, 'epoch': 0.81}
{'loss': 1.314, 'grad_norm': 0.53125, 'learn



{'loss': 1.1658, 'grad_norm': 0.578125, 'learning_rate': 1.954726606995248e-05, 'epoch': 0.81}
{'loss': 1.1352, 'grad_norm': 1.09375, 'learning_rate': 1.9535903692488617e-05, 'epoch': 0.81}
{'loss': 1.2801, 'grad_norm': 0.462890625, 'learning_rate': 1.9524541315024758e-05, 'epoch': 0.81}
{'loss': 1.2097, 'grad_norm': 0.5859375, 'learning_rate': 1.9513178937560896e-05, 'epoch': 0.81}
{'loss': 0.9188, 'grad_norm': 1.21875, 'learning_rate': 1.9501816560097037e-05, 'epoch': 0.81}
{'loss': 1.3338, 'grad_norm': 0.6015625, 'learning_rate': 1.9490454182633175e-05, 'epoch': 0.81}
{'loss': 1.2286, 'grad_norm': 0.65234375, 'learning_rate': 1.9479091805169313e-05, 'epoch': 0.81}
{'loss': 1.2103, 'grad_norm': 0.640625, 'learning_rate': 1.9467729427705454e-05, 'epoch': 0.82}
{'loss': 1.3135, 'grad_norm': 0.78125, 'learning_rate': 1.9456367050241595e-05, 'epoch': 0.82}
{'loss': 1.0036, 'grad_norm': 1.0, 'learning_rate': 1.9445004672777733e-05, 'epoch': 0.82}
{'loss': 1.3072, 'grad_norm': 0.5, 'learni



{'loss': 1.3554, 'grad_norm': 1.0703125, 'learning_rate': 1.9263206633355966e-05, 'epoch': 0.82}
{'loss': 1.2144, 'grad_norm': 0.8125, 'learning_rate': 1.9251844255892104e-05, 'epoch': 0.82}
{'loss': 1.2709, 'grad_norm': 0.5625, 'learning_rate': 1.924048187842824e-05, 'epoch': 0.82}
{'loss': 1.2313, 'grad_norm': 0.88671875, 'learning_rate': 1.9229119500964383e-05, 'epoch': 0.82}
{'loss': 0.984, 'grad_norm': 1.140625, 'learning_rate': 1.921775712350052e-05, 'epoch': 0.82}
{'loss': 1.2897, 'grad_norm': 0.609375, 'learning_rate': 1.9206394746036662e-05, 'epoch': 0.82}
{'loss': 1.1652, 'grad_norm': 0.640625, 'learning_rate': 1.9195032368572803e-05, 'epoch': 0.82}
{'loss': 1.1271, 'grad_norm': 0.5546875, 'learning_rate': 1.918366999110894e-05, 'epoch': 0.82}
{'loss': 1.2481, 'grad_norm': 0.62109375, 'learning_rate': 1.917230761364508e-05, 'epoch': 0.82}
{'loss': 1.015, 'grad_norm': 0.921875, 'learning_rate': 1.916094523618122e-05, 'epoch': 0.82}
{'loss': 1.435, 'grad_norm': 0.58984375, 'lea



{'loss': 1.2652, 'grad_norm': 0.5546875, 'learning_rate': 1.897914719675945e-05, 'epoch': 0.82}
{'loss': 1.1491, 'grad_norm': 0.75, 'learning_rate': 1.896778481929559e-05, 'epoch': 0.82}
{'loss': 1.1977, 'grad_norm': 0.451171875, 'learning_rate': 1.8956422441831732e-05, 'epoch': 0.82}
{'loss': 1.2727, 'grad_norm': 0.6015625, 'learning_rate': 1.894506006436787e-05, 'epoch': 0.82}
{'loss': 1.1729, 'grad_norm': 1.1953125, 'learning_rate': 1.8933697686904008e-05, 'epoch': 0.82}
{'loss': 1.3858, 'grad_norm': 0.65625, 'learning_rate': 1.892233530944015e-05, 'epoch': 0.82}
{'loss': 1.1933, 'grad_norm': 0.69140625, 'learning_rate': 1.8910972931976287e-05, 'epoch': 0.82}
{'loss': 1.0928, 'grad_norm': 0.51953125, 'learning_rate': 1.8899610554512425e-05, 'epoch': 0.82}
{'loss': 1.1335, 'grad_norm': 0.609375, 'learning_rate': 1.8888248177048566e-05, 'epoch': 0.82}
{'loss': 1.0412, 'grad_norm': 0.82421875, 'learning_rate': 1.8876885799584707e-05, 'epoch': 0.82}
{'loss': 1.15, 'grad_norm': 0.7539062



{'loss': 1.3698, 'grad_norm': 0.6171875, 'learning_rate': 1.8695087760162937e-05, 'epoch': 0.82}
{'loss': 1.2019, 'grad_norm': 0.71484375, 'learning_rate': 1.8683725382699078e-05, 'epoch': 0.82}
{'loss': 1.1767, 'grad_norm': 0.490234375, 'learning_rate': 1.8672363005235216e-05, 'epoch': 0.82}
{'loss': 1.2676, 'grad_norm': 0.84765625, 'learning_rate': 1.8661000627771353e-05, 'epoch': 0.82}
{'loss': 0.9091, 'grad_norm': 0.81640625, 'learning_rate': 1.8649638250307495e-05, 'epoch': 0.82}
{'loss': 1.2322, 'grad_norm': 0.73828125, 'learning_rate': 1.8638275872843636e-05, 'epoch': 0.82}
{'loss': 1.0936, 'grad_norm': 0.7421875, 'learning_rate': 1.8626913495379774e-05, 'epoch': 0.82}
{'loss': 1.1216, 'grad_norm': 0.50390625, 'learning_rate': 1.8615551117915915e-05, 'epoch': 0.82}
{'loss': 1.3156, 'grad_norm': 0.66796875, 'learning_rate': 1.8604188740452053e-05, 'epoch': 0.82}
{'loss': 1.0686, 'grad_norm': 1.25, 'learning_rate': 1.859282636298819e-05, 'epoch': 0.82}
{'loss': 1.3758, 'grad_norm'



{'loss': 1.1996, 'grad_norm': 0.75390625, 'learning_rate': 1.8411028323566424e-05, 'epoch': 0.82}
{'loss': 1.1616, 'grad_norm': 0.8125, 'learning_rate': 1.839966594610256e-05, 'epoch': 0.82}
{'loss': 1.1528, 'grad_norm': 0.69140625, 'learning_rate': 1.8388303568638703e-05, 'epoch': 0.82}
{'loss': 1.139, 'grad_norm': 0.65234375, 'learning_rate': 1.8376941191174844e-05, 'epoch': 0.82}
{'loss': 1.1389, 'grad_norm': 0.7578125, 'learning_rate': 1.8365578813710982e-05, 'epoch': 0.82}
{'loss': 1.2307, 'grad_norm': 0.50390625, 'learning_rate': 1.835421643624712e-05, 'epoch': 0.82}
{'loss': 1.3235, 'grad_norm': 0.80859375, 'learning_rate': 1.834285405878326e-05, 'epoch': 0.82}
{'loss': 1.2665, 'grad_norm': 0.490234375, 'learning_rate': 1.8331491681319402e-05, 'epoch': 0.82}
{'loss': 1.1834, 'grad_norm': 0.66015625, 'learning_rate': 1.832012930385554e-05, 'epoch': 0.82}
{'loss': 1.143, 'grad_norm': 0.70703125, 'learning_rate': 1.8308766926391678e-05, 'epoch': 0.82}
{'loss': 1.3552, 'grad_norm': 



{'loss': 1.3393, 'grad_norm': 0.5703125, 'learning_rate': 1.812696888696991e-05, 'epoch': 0.82}
{'loss': 1.1839, 'grad_norm': 0.7265625, 'learning_rate': 1.811560650950605e-05, 'epoch': 0.82}
{'loss': 1.2258, 'grad_norm': 0.47265625, 'learning_rate': 1.810424413204219e-05, 'epoch': 0.82}
{'loss': 1.2719, 'grad_norm': 0.59765625, 'learning_rate': 1.8092881754578328e-05, 'epoch': 0.82}
{'loss': 1.1152, 'grad_norm': 0.71875, 'learning_rate': 1.8081519377114465e-05, 'epoch': 0.82}
{'loss': 1.5681, 'grad_norm': 0.474609375, 'learning_rate': 1.807015699965061e-05, 'epoch': 0.82}
{'loss': 1.2001, 'grad_norm': 0.6015625, 'learning_rate': 1.8058794622186748e-05, 'epoch': 0.82}
{'loss': 1.2674, 'grad_norm': 0.5, 'learning_rate': 1.8047432244722886e-05, 'epoch': 0.82}
{'loss': 1.2408, 'grad_norm': 0.6875, 'learning_rate': 1.8036069867259027e-05, 'epoch': 0.82}
{'loss': 1.1204, 'grad_norm': 0.8828125, 'learning_rate': 1.8024707489795165e-05, 'epoch': 0.82}
{'loss': 1.3219, 'grad_norm': 0.74609375,



{'loss': 1.3031, 'grad_norm': 0.63671875, 'learning_rate': 1.7842909450373398e-05, 'epoch': 0.82}
{'loss': 1.1681, 'grad_norm': 0.65234375, 'learning_rate': 1.7831547072909535e-05, 'epoch': 0.82}
{'loss': 1.1919, 'grad_norm': 0.49609375, 'learning_rate': 1.7820184695445677e-05, 'epoch': 0.82}
{'loss': 1.2366, 'grad_norm': 0.7890625, 'learning_rate': 1.7808822317981815e-05, 'epoch': 0.82}
{'loss': 1.1627, 'grad_norm': 0.9921875, 'learning_rate': 1.7797459940517956e-05, 'epoch': 0.82}
{'loss': 1.3122, 'grad_norm': 0.51171875, 'learning_rate': 1.7786097563054094e-05, 'epoch': 0.82}
{'loss': 1.2124, 'grad_norm': 0.65625, 'learning_rate': 1.777473518559023e-05, 'epoch': 0.82}
{'loss': 1.1488, 'grad_norm': 0.59765625, 'learning_rate': 1.7763372808126376e-05, 'epoch': 0.82}
{'loss': 1.1259, 'grad_norm': 0.7734375, 'learning_rate': 1.7752010430662514e-05, 'epoch': 0.82}
{'loss': 1.0627, 'grad_norm': 1.453125, 'learning_rate': 1.7740648053198652e-05, 'epoch': 0.82}
{'loss': 1.1974, 'grad_norm':



{'loss': 1.32, 'grad_norm': 0.5703125, 'learning_rate': 1.7558850013776885e-05, 'epoch': 0.82}
{'loss': 1.1261, 'grad_norm': 1.0078125, 'learning_rate': 1.7547487636313022e-05, 'epoch': 0.82}
{'loss': 1.143, 'grad_norm': 0.63671875, 'learning_rate': 1.7536125258849164e-05, 'epoch': 0.82}
{'loss': 1.2104, 'grad_norm': 1.03125, 'learning_rate': 1.75247628813853e-05, 'epoch': 0.82}
{'loss': 1.001, 'grad_norm': 0.65625, 'learning_rate': 1.7513400503921443e-05, 'epoch': 0.82}
{'loss': 1.2328, 'grad_norm': 0.65234375, 'learning_rate': 1.750203812645758e-05, 'epoch': 0.82}
{'loss': 1.1926, 'grad_norm': 0.72265625, 'learning_rate': 1.7490675748993722e-05, 'epoch': 0.82}
{'loss': 1.1166, 'grad_norm': 0.484375, 'learning_rate': 1.747931337152986e-05, 'epoch': 0.82}
{'loss': 1.1335, 'grad_norm': 0.58984375, 'learning_rate': 1.7467950994065998e-05, 'epoch': 0.82}
{'loss': 0.9814, 'grad_norm': 0.84765625, 'learning_rate': 1.745658861660214e-05, 'epoch': 0.82}
{'loss': 1.4799, 'grad_norm': 0.6992187



{'loss': 1.3525, 'grad_norm': 0.67578125, 'learning_rate': 1.7274790577180368e-05, 'epoch': 0.82}
{'loss': 1.1688, 'grad_norm': 0.77734375, 'learning_rate': 1.726342819971651e-05, 'epoch': 0.82}
{'loss': 1.0781, 'grad_norm': 0.59375, 'learning_rate': 1.725206582225265e-05, 'epoch': 0.82}
{'loss': 1.0927, 'grad_norm': 0.77734375, 'learning_rate': 1.724070344478879e-05, 'epoch': 0.82}
{'loss': 1.0559, 'grad_norm': 0.828125, 'learning_rate': 1.7229341067324926e-05, 'epoch': 0.82}
{'loss': 1.4361, 'grad_norm': 0.609375, 'learning_rate': 1.7217978689861068e-05, 'epoch': 0.82}
{'loss': 1.1288, 'grad_norm': 1.1015625, 'learning_rate': 1.7206616312397206e-05, 'epoch': 0.82}
{'loss': 1.2518, 'grad_norm': 0.640625, 'learning_rate': 1.7195253934933347e-05, 'epoch': 0.82}
{'loss': 1.1441, 'grad_norm': 0.7265625, 'learning_rate': 1.7183891557469488e-05, 'epoch': 0.82}
{'loss': 1.1165, 'grad_norm': 1.0234375, 'learning_rate': 1.7172529180005626e-05, 'epoch': 0.83}
{'loss': 1.3152, 'grad_norm': 0.570



{'loss': 1.3003, 'grad_norm': 0.6796875, 'learning_rate': 1.699073114058386e-05, 'epoch': 0.83}
{'loss': 1.0694, 'grad_norm': 0.65625, 'learning_rate': 1.6979368763119997e-05, 'epoch': 0.83}
{'loss': 1.1797, 'grad_norm': 0.51953125, 'learning_rate': 1.6968006385656134e-05, 'epoch': 0.83}
{'loss': 1.4159, 'grad_norm': 0.59765625, 'learning_rate': 1.6956644008192276e-05, 'epoch': 0.83}
{'loss': 1.0962, 'grad_norm': 0.71484375, 'learning_rate': 1.6945281630728417e-05, 'epoch': 0.83}
{'loss': 1.1859, 'grad_norm': 0.4921875, 'learning_rate': 1.6933919253264555e-05, 'epoch': 0.83}
{'loss': 1.1475, 'grad_norm': 0.87109375, 'learning_rate': 1.6922556875800693e-05, 'epoch': 0.83}
{'loss': 1.1932, 'grad_norm': 0.50390625, 'learning_rate': 1.6911194498336834e-05, 'epoch': 0.83}
{'loss': 1.3676, 'grad_norm': 0.66015625, 'learning_rate': 1.689983212087297e-05, 'epoch': 0.83}
{'loss': 1.0084, 'grad_norm': 0.66015625, 'learning_rate': 1.688846974340911e-05, 'epoch': 0.83}
{'loss': 1.3223, 'grad_norm'



{'loss': 1.3726, 'grad_norm': 0.4921875, 'learning_rate': 1.6706671703987342e-05, 'epoch': 0.83}
{'loss': 1.1995, 'grad_norm': 0.84765625, 'learning_rate': 1.6695309326523484e-05, 'epoch': 0.83}
{'loss': 1.138, 'grad_norm': 0.4609375, 'learning_rate': 1.668394694905962e-05, 'epoch': 0.83}
{'loss': 1.2189, 'grad_norm': 0.7265625, 'learning_rate': 1.6672584571595763e-05, 'epoch': 0.83}
{'loss': 1.1275, 'grad_norm': 0.8671875, 'learning_rate': 1.66612221941319e-05, 'epoch': 0.83}
{'loss': 1.447, 'grad_norm': 0.5078125, 'learning_rate': 1.664985981666804e-05, 'epoch': 0.83}
{'loss': 1.1054, 'grad_norm': 0.5859375, 'learning_rate': 1.663849743920418e-05, 'epoch': 0.83}
{'loss': 1.1924, 'grad_norm': 0.4765625, 'learning_rate': 1.662713506174032e-05, 'epoch': 0.83}
{'loss': 1.193, 'grad_norm': 0.7578125, 'learning_rate': 1.661577268427646e-05, 'epoch': 0.83}
{'loss': 1.052, 'grad_norm': 0.8203125, 'learning_rate': 1.66044103068126e-05, 'epoch': 0.83}
{'loss': 1.3155, 'grad_norm': 0.578125, 'l



{'loss': 1.1664, 'grad_norm': 0.6484375, 'learning_rate': 1.642261226739083e-05, 'epoch': 0.83}
{'loss': 1.0336, 'grad_norm': 0.70703125, 'learning_rate': 1.641124988992697e-05, 'epoch': 0.83}
{'loss': 1.1999, 'grad_norm': 0.48828125, 'learning_rate': 1.639988751246311e-05, 'epoch': 0.83}
{'loss': 1.1737, 'grad_norm': 0.5, 'learning_rate': 1.6388525134999246e-05, 'epoch': 0.83}
{'loss': 1.0702, 'grad_norm': 0.703125, 'learning_rate': 1.6377162757535387e-05, 'epoch': 0.83}
{'loss': 1.4588, 'grad_norm': 0.62890625, 'learning_rate': 1.636580038007153e-05, 'epoch': 0.83}
{'loss': 1.2311, 'grad_norm': 0.796875, 'learning_rate': 1.6354438002607667e-05, 'epoch': 0.83}
{'loss': 1.2294, 'grad_norm': 0.45703125, 'learning_rate': 1.6343075625143804e-05, 'epoch': 0.83}
{'loss': 1.2411, 'grad_norm': 0.75, 'learning_rate': 1.6331713247679946e-05, 'epoch': 0.83}
{'loss': 1.0501, 'grad_norm': 1.3359375, 'learning_rate': 1.6320350870216084e-05, 'epoch': 0.83}
{'loss': 1.4245, 'grad_norm': 0.59375, 'lea



{'loss': 1.2753, 'grad_norm': 0.6171875, 'learning_rate': 1.6138552830794316e-05, 'epoch': 0.83}
{'loss': 1.1304, 'grad_norm': 0.67578125, 'learning_rate': 1.6127190453330458e-05, 'epoch': 0.83}
{'loss': 1.1647, 'grad_norm': 0.63671875, 'learning_rate': 1.6115828075866595e-05, 'epoch': 0.83}
{'loss': 1.1967, 'grad_norm': 0.625, 'learning_rate': 1.6104465698402733e-05, 'epoch': 0.83}
{'loss': 0.974, 'grad_norm': 0.73046875, 'learning_rate': 1.6093103320938875e-05, 'epoch': 0.83}
{'loss': 1.3828, 'grad_norm': 0.482421875, 'learning_rate': 1.6081740943475012e-05, 'epoch': 0.83}
{'loss': 1.0496, 'grad_norm': 0.93359375, 'learning_rate': 1.607037856601115e-05, 'epoch': 0.83}
{'loss': 1.1736, 'grad_norm': 0.498046875, 'learning_rate': 1.6059016188547295e-05, 'epoch': 0.83}
{'loss': 1.3585, 'grad_norm': 0.64453125, 'learning_rate': 1.6047653811083433e-05, 'epoch': 0.83}
{'loss': 1.013, 'grad_norm': 1.625, 'learning_rate': 1.603629143361957e-05, 'epoch': 0.83}
{'loss': 1.199, 'grad_norm': 0.55



{'loss': 1.2406, 'grad_norm': 0.50390625, 'learning_rate': 1.5854493394197803e-05, 'epoch': 0.83}
{'loss': 1.0636, 'grad_norm': 0.7421875, 'learning_rate': 1.584313101673394e-05, 'epoch': 0.83}
{'loss': 1.1666, 'grad_norm': 0.455078125, 'learning_rate': 1.5831768639270082e-05, 'epoch': 0.83}
{'loss': 1.2528, 'grad_norm': 0.80859375, 'learning_rate': 1.582040626180622e-05, 'epoch': 0.83}
{'loss': 0.9951, 'grad_norm': 1.0703125, 'learning_rate': 1.580904388434236e-05, 'epoch': 0.83}
{'loss': 1.2722, 'grad_norm': 0.66015625, 'learning_rate': 1.57976815068785e-05, 'epoch': 0.83}
{'loss': 1.154, 'grad_norm': 0.71484375, 'learning_rate': 1.578631912941464e-05, 'epoch': 0.83}
{'loss': 1.1129, 'grad_norm': 0.59765625, 'learning_rate': 1.577495675195078e-05, 'epoch': 0.83}
{'loss': 1.2381, 'grad_norm': 0.63671875, 'learning_rate': 1.5763594374486916e-05, 'epoch': 0.83}
{'loss': 1.0188, 'grad_norm': 0.85546875, 'learning_rate': 1.5752231997023058e-05, 'epoch': 0.83}
{'loss': 1.3452, 'grad_norm':



{'loss': 1.2901, 'grad_norm': 0.875, 'learning_rate': 1.5570433957601287e-05, 'epoch': 0.83}
{'loss': 1.0755, 'grad_norm': 0.76171875, 'learning_rate': 1.5559071580137428e-05, 'epoch': 0.83}
{'loss': 1.2566, 'grad_norm': 0.52734375, 'learning_rate': 1.554770920267357e-05, 'epoch': 0.83}
{'loss': 1.2408, 'grad_norm': 0.65234375, 'learning_rate': 1.5536346825209707e-05, 'epoch': 0.83}
{'loss': 1.0432, 'grad_norm': 0.73046875, 'learning_rate': 1.5524984447745845e-05, 'epoch': 0.83}
{'loss': 1.3062, 'grad_norm': 0.6171875, 'learning_rate': 1.5513622070281986e-05, 'epoch': 0.83}
{'loss': 1.1333, 'grad_norm': 0.62890625, 'learning_rate': 1.5502259692818124e-05, 'epoch': 0.83}
{'loss': 1.0532, 'grad_norm': 0.703125, 'learning_rate': 1.5490897315354265e-05, 'epoch': 0.83}
{'loss': 1.186, 'grad_norm': 0.640625, 'learning_rate': 1.5479534937890407e-05, 'epoch': 0.83}
{'loss': 1.0429, 'grad_norm': 0.7265625, 'learning_rate': 1.5468172560426545e-05, 'epoch': 0.83}
{'loss': 1.2555, 'grad_norm': 0.7



{'loss': 1.2684, 'grad_norm': 0.66015625, 'learning_rate': 1.5286374521004777e-05, 'epoch': 0.83}
{'loss': 1.198, 'grad_norm': 0.90625, 'learning_rate': 1.5275012143540915e-05, 'epoch': 0.83}
{'loss': 1.1226, 'grad_norm': 0.4765625, 'learning_rate': 1.5263649766077053e-05, 'epoch': 0.83}
{'loss': 1.1094, 'grad_norm': 0.62890625, 'learning_rate': 1.5252287388613193e-05, 'epoch': 0.83}
{'loss': 1.143, 'grad_norm': 0.5703125, 'learning_rate': 1.5240925011149334e-05, 'epoch': 0.83}
{'loss': 1.269, 'grad_norm': 0.494140625, 'learning_rate': 1.5229562633685473e-05, 'epoch': 0.83}
{'loss': 1.0712, 'grad_norm': 0.7109375, 'learning_rate': 1.5218200256221613e-05, 'epoch': 0.83}
{'loss': 1.225, 'grad_norm': 0.46484375, 'learning_rate': 1.520683787875775e-05, 'epoch': 0.83}
{'loss': 1.1677, 'grad_norm': 0.5859375, 'learning_rate': 1.519547550129389e-05, 'epoch': 0.83}
{'loss': 1.1001, 'grad_norm': 0.7734375, 'learning_rate': 1.5184113123830032e-05, 'epoch': 0.83}
{'loss': 1.1374, 'grad_norm': 0.6



{'loss': 1.2689, 'grad_norm': 0.59765625, 'learning_rate': 1.5002315084408261e-05, 'epoch': 0.83}
{'loss': 1.2192, 'grad_norm': 1.3828125, 'learning_rate': 1.4990952706944402e-05, 'epoch': 0.83}
{'loss': 1.2195, 'grad_norm': 0.4765625, 'learning_rate': 1.4979590329480542e-05, 'epoch': 0.83}
{'loss': 1.3445, 'grad_norm': 0.5859375, 'learning_rate': 1.4968227952016681e-05, 'epoch': 0.83}
{'loss': 1.1372, 'grad_norm': 0.99609375, 'learning_rate': 1.495686557455282e-05, 'epoch': 0.83}
{'loss': 1.3717, 'grad_norm': 0.6796875, 'learning_rate': 1.4945503197088959e-05, 'epoch': 0.83}
{'loss': 1.0886, 'grad_norm': 0.5625, 'learning_rate': 1.49341408196251e-05, 'epoch': 0.83}
{'loss': 1.2655, 'grad_norm': 0.46484375, 'learning_rate': 1.492277844216124e-05, 'epoch': 0.83}
{'loss': 1.2847, 'grad_norm': 0.6328125, 'learning_rate': 1.4911416064697379e-05, 'epoch': 0.83}
{'loss': 1.1704, 'grad_norm': 1.03125, 'learning_rate': 1.4900053687233517e-05, 'epoch': 0.83}
{'loss': 1.2857, 'grad_norm': 0.6367



{'loss': 1.2831, 'grad_norm': 0.65234375, 'learning_rate': 1.471825564781175e-05, 'epoch': 0.84}
{'loss': 1.286, 'grad_norm': 0.640625, 'learning_rate': 1.4706893270347888e-05, 'epoch': 0.84}
{'loss': 1.2175, 'grad_norm': 0.50390625, 'learning_rate': 1.4695530892884027e-05, 'epoch': 0.84}
{'loss': 1.2885, 'grad_norm': 0.54296875, 'learning_rate': 1.4684168515420168e-05, 'epoch': 0.84}
{'loss': 1.1129, 'grad_norm': 0.8984375, 'learning_rate': 1.4672806137956308e-05, 'epoch': 0.84}
{'loss': 1.361, 'grad_norm': 0.5078125, 'learning_rate': 1.4661443760492446e-05, 'epoch': 0.84}
{'loss': 1.183, 'grad_norm': 0.67578125, 'learning_rate': 1.4650081383028585e-05, 'epoch': 0.84}
{'loss': 1.136, 'grad_norm': 0.51171875, 'learning_rate': 1.4638719005564725e-05, 'epoch': 0.84}
{'loss': 1.1832, 'grad_norm': 0.70703125, 'learning_rate': 1.4627356628100863e-05, 'epoch': 0.84}
{'loss': 1.0391, 'grad_norm': 0.82421875, 'learning_rate': 1.4615994250637006e-05, 'epoch': 0.84}
{'loss': 1.408, 'grad_norm': 



{'loss': 1.4412, 'grad_norm': 0.5703125, 'learning_rate': 1.4434196211215233e-05, 'epoch': 0.84}
{'loss': 1.1908, 'grad_norm': 0.6875, 'learning_rate': 1.4422833833751376e-05, 'epoch': 0.84}
{'loss': 1.0938, 'grad_norm': 0.515625, 'learning_rate': 1.4411471456287514e-05, 'epoch': 0.84}
{'loss': 1.2185, 'grad_norm': 0.71484375, 'learning_rate': 1.4400109078823654e-05, 'epoch': 0.84}
{'loss': 1.184, 'grad_norm': 0.6328125, 'learning_rate': 1.4388746701359793e-05, 'epoch': 0.84}
{'loss': 1.2607, 'grad_norm': 0.80078125, 'learning_rate': 1.4377384323895931e-05, 'epoch': 0.84}
{'loss': 1.0612, 'grad_norm': 1.2421875, 'learning_rate': 1.4366021946432074e-05, 'epoch': 0.84}
{'loss': 1.2662, 'grad_norm': 0.474609375, 'learning_rate': 1.4354659568968212e-05, 'epoch': 0.84}
{'loss': 1.1909, 'grad_norm': 0.6640625, 'learning_rate': 1.4343297191504351e-05, 'epoch': 0.84}
{'loss': 1.0776, 'grad_norm': 1.0859375, 'learning_rate': 1.4331934814040491e-05, 'epoch': 0.84}
{'loss': 1.2947, 'grad_norm': 0



{'loss': 1.5343, 'grad_norm': 0.51171875, 'learning_rate': 1.4150136774618722e-05, 'epoch': 0.84}
{'loss': 1.1665, 'grad_norm': 0.7890625, 'learning_rate': 1.4138774397154862e-05, 'epoch': 0.84}
{'loss': 1.1772, 'grad_norm': 0.96484375, 'learning_rate': 1.4127412019691e-05, 'epoch': 0.84}
{'loss': 1.2779, 'grad_norm': 0.46875, 'learning_rate': 1.4116049642227142e-05, 'epoch': 0.84}
{'loss': 1.0624, 'grad_norm': 2.0625, 'learning_rate': 1.410468726476328e-05, 'epoch': 0.84}
{'loss': 1.3326, 'grad_norm': 0.58984375, 'learning_rate': 1.409332488729942e-05, 'epoch': 0.84}
{'loss': 1.1224, 'grad_norm': 0.73046875, 'learning_rate': 1.4081962509835558e-05, 'epoch': 0.84}
{'loss': 1.1676, 'grad_norm': 0.47265625, 'learning_rate': 1.4070600132371697e-05, 'epoch': 0.84}
{'loss': 1.1685, 'grad_norm': 0.734375, 'learning_rate': 1.4059237754907837e-05, 'epoch': 0.84}
{'loss': 0.9561, 'grad_norm': 2.53125, 'learning_rate': 1.4047875377443978e-05, 'epoch': 0.84}
{'loss': 1.3137, 'grad_norm': 1.0625, 



{'loss': 1.2918, 'grad_norm': 0.53125, 'learning_rate': 1.3866077338022209e-05, 'epoch': 0.84}
{'loss': 1.0641, 'grad_norm': 0.68359375, 'learning_rate': 1.3854714960558349e-05, 'epoch': 0.84}
{'loss': 1.1827, 'grad_norm': 0.447265625, 'learning_rate': 1.3843352583094488e-05, 'epoch': 0.84}
{'loss': 1.2911, 'grad_norm': 0.59375, 'learning_rate': 1.3831990205630626e-05, 'epoch': 0.84}
{'loss': 1.0158, 'grad_norm': 0.87109375, 'learning_rate': 1.3820627828166766e-05, 'epoch': 0.84}
{'loss': 1.386, 'grad_norm': 0.53125, 'learning_rate': 1.3809265450702905e-05, 'epoch': 0.84}
{'loss': 1.1305, 'grad_norm': 0.62109375, 'learning_rate': 1.3797903073239046e-05, 'epoch': 0.84}
{'loss': 1.2333, 'grad_norm': 0.453125, 'learning_rate': 1.3786540695775186e-05, 'epoch': 0.84}
{'loss': 1.185, 'grad_norm': 0.63671875, 'learning_rate': 1.3775178318311324e-05, 'epoch': 0.84}
{'loss': 1.0852, 'grad_norm': 0.921875, 'learning_rate': 1.3763815940847463e-05, 'epoch': 0.84}
{'loss': 1.4241, 'grad_norm': 0.76



{'loss': 1.228, 'grad_norm': 0.765625, 'learning_rate': 1.3582017901425694e-05, 'epoch': 0.84}
{'loss': 1.1097, 'grad_norm': 0.83203125, 'learning_rate': 1.3570655523961834e-05, 'epoch': 0.84}
{'loss': 1.1475, 'grad_norm': 0.439453125, 'learning_rate': 1.3559293146497973e-05, 'epoch': 0.84}
{'loss': 1.2312, 'grad_norm': 0.64453125, 'learning_rate': 1.3547930769034115e-05, 'epoch': 0.84}
{'loss': 1.1653, 'grad_norm': 1.3125, 'learning_rate': 1.3536568391570254e-05, 'epoch': 0.84}
{'loss': 1.208, 'grad_norm': 0.5, 'learning_rate': 1.3525206014106392e-05, 'epoch': 0.84}
{'loss': 1.2065, 'grad_norm': 0.69140625, 'learning_rate': 1.3513843636642532e-05, 'epoch': 0.84}
{'loss': 1.2049, 'grad_norm': 0.47265625, 'learning_rate': 1.350248125917867e-05, 'epoch': 0.84}
{'loss': 1.2643, 'grad_norm': 0.61328125, 'learning_rate': 1.3491118881714809e-05, 'epoch': 0.84}
{'loss': 1.1039, 'grad_norm': 0.671875, 'learning_rate': 1.347975650425095e-05, 'epoch': 0.84}
{'loss': 1.3231, 'grad_norm': 0.597656



{'loss': 1.2141, 'grad_norm': 0.48828125, 'learning_rate': 1.3297958464829183e-05, 'epoch': 0.84}
{'loss': 1.366, 'grad_norm': 0.74609375, 'learning_rate': 1.3286596087365321e-05, 'epoch': 0.84}
{'loss': 1.0209, 'grad_norm': 0.484375, 'learning_rate': 1.327523370990146e-05, 'epoch': 0.84}
{'loss': 1.2072, 'grad_norm': 0.65234375, 'learning_rate': 1.32638713324376e-05, 'epoch': 0.84}
{'loss': 0.9705, 'grad_norm': 0.640625, 'learning_rate': 1.3252508954973738e-05, 'epoch': 0.84}
{'loss': 1.3039, 'grad_norm': 0.5546875, 'learning_rate': 1.3241146577509877e-05, 'epoch': 0.84}
{'loss': 1.1949, 'grad_norm': 0.765625, 'learning_rate': 1.3229784200046019e-05, 'epoch': 0.84}
{'loss': 1.1907, 'grad_norm': 0.578125, 'learning_rate': 1.3218421822582158e-05, 'epoch': 0.84}
{'loss': 1.1102, 'grad_norm': 0.72265625, 'learning_rate': 1.3207059445118298e-05, 'epoch': 0.84}
{'loss': 1.1208, 'grad_norm': 1.0625, 'learning_rate': 1.3195697067654436e-05, 'epoch': 0.84}
{'loss': 1.4077, 'grad_norm': 0.48437



{'loss': 1.2826, 'grad_norm': 0.734375, 'learning_rate': 1.3013899028232668e-05, 'epoch': 0.84}
{'loss': 1.0673, 'grad_norm': 0.7734375, 'learning_rate': 1.3002536650768806e-05, 'epoch': 0.84}
{'loss': 1.2093, 'grad_norm': 0.484375, 'learning_rate': 1.2991174273304946e-05, 'epoch': 0.84}
{'loss': 1.1094, 'grad_norm': 0.98828125, 'learning_rate': 1.2979811895841087e-05, 'epoch': 0.84}
{'loss': 1.1374, 'grad_norm': 1.1171875, 'learning_rate': 1.2968449518377227e-05, 'epoch': 0.84}
{'loss': 1.38, 'grad_norm': 0.53515625, 'learning_rate': 1.2957087140913366e-05, 'epoch': 0.84}
{'loss': 1.1463, 'grad_norm': 0.8046875, 'learning_rate': 1.2945724763449504e-05, 'epoch': 0.84}
{'loss': 1.3292, 'grad_norm': 0.578125, 'learning_rate': 1.2934362385985644e-05, 'epoch': 0.84}
{'loss': 1.2235, 'grad_norm': 0.76171875, 'learning_rate': 1.2923000008521785e-05, 'epoch': 0.84}
{'loss': 1.234, 'grad_norm': 1.15625, 'learning_rate': 1.2911637631057924e-05, 'epoch': 0.84}
{'loss': 1.2856, 'grad_norm': 0.539



{'loss': 1.3623, 'grad_norm': 0.5390625, 'learning_rate': 1.2729839591636155e-05, 'epoch': 0.84}
{'loss': 1.1342, 'grad_norm': 0.69921875, 'learning_rate': 1.2718477214172295e-05, 'epoch': 0.84}
{'loss': 1.0736, 'grad_norm': 0.4609375, 'learning_rate': 1.2707114836708433e-05, 'epoch': 0.84}
{'loss': 1.3404, 'grad_norm': 0.515625, 'learning_rate': 1.2695752459244572e-05, 'epoch': 0.84}
{'loss': 1.0589, 'grad_norm': 1.09375, 'learning_rate': 1.2684390081780712e-05, 'epoch': 0.84}
{'loss': 1.3261, 'grad_norm': 0.56640625, 'learning_rate': 1.267302770431685e-05, 'epoch': 0.84}
{'loss': 1.0872, 'grad_norm': 0.84765625, 'learning_rate': 1.2661665326852993e-05, 'epoch': 0.84}
{'loss': 1.1325, 'grad_norm': 0.5, 'learning_rate': 1.265030294938913e-05, 'epoch': 0.84}
{'loss': 1.2964, 'grad_norm': 0.74609375, 'learning_rate': 1.263894057192527e-05, 'epoch': 0.84}
{'loss': 1.0837, 'grad_norm': 1.3203125, 'learning_rate': 1.262757819446141e-05, 'epoch': 0.84}
{'loss': 1.2936, 'grad_norm': 0.546875,



{'loss': 1.4194, 'grad_norm': 0.60546875, 'learning_rate': 1.244578015503964e-05, 'epoch': 0.85}
{'loss': 1.1526, 'grad_norm': 0.6875, 'learning_rate': 1.243441777757578e-05, 'epoch': 0.85}
{'loss': 0.9847, 'grad_norm': 0.54296875, 'learning_rate': 1.242305540011192e-05, 'epoch': 0.85}
{'loss': 1.1266, 'grad_norm': 0.69140625, 'learning_rate': 1.241169302264806e-05, 'epoch': 0.85}
{'loss': 0.9922, 'grad_norm': 1.4765625, 'learning_rate': 1.2400330645184199e-05, 'epoch': 0.85}
{'loss': 1.2756, 'grad_norm': 0.482421875, 'learning_rate': 1.2388968267720338e-05, 'epoch': 0.85}
{'loss': 1.1464, 'grad_norm': 0.84375, 'learning_rate': 1.2377605890256478e-05, 'epoch': 0.85}
{'loss': 1.1666, 'grad_norm': 0.5078125, 'learning_rate': 1.2366243512792618e-05, 'epoch': 0.85}
{'loss': 1.1377, 'grad_norm': 0.64453125, 'learning_rate': 1.2354881135328757e-05, 'epoch': 0.85}
{'loss': 1.0142, 'grad_norm': 1.0546875, 'learning_rate': 1.2343518757864895e-05, 'epoch': 0.85}
{'loss': 1.4022, 'grad_norm': 0.6



{'loss': 1.3297, 'grad_norm': 0.5859375, 'learning_rate': 1.2161720718443128e-05, 'epoch': 0.85}
{'loss': 1.1905, 'grad_norm': 0.91796875, 'learning_rate': 1.2150358340979267e-05, 'epoch': 0.85}
{'loss': 1.1381, 'grad_norm': 0.5546875, 'learning_rate': 1.2138995963515407e-05, 'epoch': 0.85}
{'loss': 1.2075, 'grad_norm': 0.75, 'learning_rate': 1.2127633586051545e-05, 'epoch': 0.85}
{'loss': 1.154, 'grad_norm': 1.15625, 'learning_rate': 1.2116271208587686e-05, 'epoch': 0.85}
{'loss': 1.287, 'grad_norm': 0.55859375, 'learning_rate': 1.2104908831123826e-05, 'epoch': 0.85}
{'loss': 1.1429, 'grad_norm': 0.7890625, 'learning_rate': 1.2093546453659963e-05, 'epoch': 0.85}
{'loss': 1.1537, 'grad_norm': 0.4765625, 'learning_rate': 1.2082184076196105e-05, 'epoch': 0.85}
{'loss': 1.1712, 'grad_norm': 0.62890625, 'learning_rate': 1.2070821698732242e-05, 'epoch': 0.85}
{'loss': 1.0205, 'grad_norm': 0.828125, 'learning_rate': 1.2059459321268384e-05, 'epoch': 0.85}
{'loss': 1.3817, 'grad_norm': 0.51953



{'loss': 1.2548, 'grad_norm': 0.5625, 'learning_rate': 1.1877661281846613e-05, 'epoch': 0.85}
{'loss': 1.109, 'grad_norm': 0.62890625, 'learning_rate': 1.1866298904382754e-05, 'epoch': 0.85}
{'loss': 1.1496, 'grad_norm': 0.73046875, 'learning_rate': 1.1854936526918894e-05, 'epoch': 0.85}
{'loss': 1.1102, 'grad_norm': 0.7890625, 'learning_rate': 1.1843574149455032e-05, 'epoch': 0.85}
{'loss': 1.263, 'grad_norm': 0.859375, 'learning_rate': 1.1832211771991173e-05, 'epoch': 0.85}
{'loss': 1.3475, 'grad_norm': 0.87109375, 'learning_rate': 1.182084939452731e-05, 'epoch': 0.85}
{'loss': 1.1507, 'grad_norm': 0.7890625, 'learning_rate': 1.180948701706345e-05, 'epoch': 0.85}
{'loss': 1.1534, 'grad_norm': 0.5625, 'learning_rate': 1.179812463959959e-05, 'epoch': 0.85}
{'loss': 1.3242, 'grad_norm': 0.5703125, 'learning_rate': 1.178676226213573e-05, 'epoch': 0.85}
{'loss': 1.0335, 'grad_norm': 0.94140625, 'learning_rate': 1.177539988467187e-05, 'epoch': 0.85}
{'loss': 1.3814, 'grad_norm': 0.546875, 



{'loss': 1.3911, 'grad_norm': 0.5546875, 'learning_rate': 1.15936018452501e-05, 'epoch': 0.85}
{'loss': 1.189, 'grad_norm': 0.8515625, 'learning_rate': 1.1582239467786241e-05, 'epoch': 0.85}
{'loss': 1.0174, 'grad_norm': 0.4765625, 'learning_rate': 1.157087709032238e-05, 'epoch': 0.85}
{'loss': 1.1453, 'grad_norm': 0.8203125, 'learning_rate': 1.1559514712858519e-05, 'epoch': 0.85}
{'loss': 0.9961, 'grad_norm': 0.6015625, 'learning_rate': 1.1548152335394658e-05, 'epoch': 0.85}
{'loss': 1.2671, 'grad_norm': 0.734375, 'learning_rate': 1.1536789957930798e-05, 'epoch': 0.85}
{'loss': 1.1136, 'grad_norm': 0.71875, 'learning_rate': 1.1525427580466937e-05, 'epoch': 0.85}
{'loss': 1.2964, 'grad_norm': 0.5390625, 'learning_rate': 1.1514065203003077e-05, 'epoch': 0.85}
{'loss': 1.3827, 'grad_norm': 0.50390625, 'learning_rate': 1.1502702825539216e-05, 'epoch': 0.85}
{'loss': 1.0736, 'grad_norm': 1.1328125, 'learning_rate': 1.1491340448075356e-05, 'epoch': 0.85}
{'loss': 1.3072, 'grad_norm': 0.5351



{'loss': 1.2867, 'grad_norm': 0.51171875, 'learning_rate': 1.1309542408653587e-05, 'epoch': 0.85}
{'loss': 1.0357, 'grad_norm': 0.73828125, 'learning_rate': 1.1298180031189727e-05, 'epoch': 0.85}
{'loss': 1.2809, 'grad_norm': 0.4453125, 'learning_rate': 1.1286817653725866e-05, 'epoch': 0.85}
{'loss': 1.2341, 'grad_norm': 0.63671875, 'learning_rate': 1.1275455276262006e-05, 'epoch': 0.85}
{'loss': 1.0858, 'grad_norm': 1.15625, 'learning_rate': 1.1264092898798145e-05, 'epoch': 0.85}
{'loss': 1.195, 'grad_norm': 0.82421875, 'learning_rate': 1.1252730521334285e-05, 'epoch': 0.85}
{'loss': 1.1019, 'grad_norm': 0.953125, 'learning_rate': 1.1241368143870424e-05, 'epoch': 0.85}
{'loss': 1.1745, 'grad_norm': 0.494140625, 'learning_rate': 1.1230005766406564e-05, 'epoch': 0.85}
{'loss': 1.2373, 'grad_norm': 0.65625, 'learning_rate': 1.1218643388942702e-05, 'epoch': 0.85}
{'loss': 1.0655, 'grad_norm': 0.82421875, 'learning_rate': 1.1207281011478843e-05, 'epoch': 0.85}
{'loss': 1.4096, 'grad_norm':



{'loss': 1.2692, 'grad_norm': 0.5546875, 'learning_rate': 1.1025482972057072e-05, 'epoch': 0.85}
{'loss': 1.1734, 'grad_norm': 0.90234375, 'learning_rate': 1.1014120594593214e-05, 'epoch': 0.85}
{'loss': 1.1265, 'grad_norm': 0.486328125, 'learning_rate': 1.1002758217129353e-05, 'epoch': 0.85}
{'loss': 1.2648, 'grad_norm': 0.765625, 'learning_rate': 1.0991395839665491e-05, 'epoch': 0.85}
{'loss': 1.0446, 'grad_norm': 0.625, 'learning_rate': 1.0980033462201632e-05, 'epoch': 0.85}
{'loss': 1.3282, 'grad_norm': 0.921875, 'learning_rate': 1.096867108473777e-05, 'epoch': 0.85}
{'loss': 1.1543, 'grad_norm': 0.63671875, 'learning_rate': 1.0957308707273911e-05, 'epoch': 0.85}
{'loss': 1.2262, 'grad_norm': 0.46875, 'learning_rate': 1.094594632981005e-05, 'epoch': 0.85}
{'loss': 1.2032, 'grad_norm': 0.59765625, 'learning_rate': 1.0934583952346189e-05, 'epoch': 0.85}
{'loss': 1.0628, 'grad_norm': 0.86328125, 'learning_rate': 1.092322157488233e-05, 'epoch': 0.85}
{'loss': 1.2953, 'grad_norm': 0.550



{'loss': 1.4231, 'grad_norm': 0.78515625, 'learning_rate': 1.074142353546056e-05, 'epoch': 0.85}
{'loss': 1.1429, 'grad_norm': 0.8046875, 'learning_rate': 1.07300611579967e-05, 'epoch': 0.85}
{'loss': 1.1885, 'grad_norm': 0.60546875, 'learning_rate': 1.0718698780532839e-05, 'epoch': 0.85}
{'loss': 1.0657, 'grad_norm': 0.80859375, 'learning_rate': 1.070733640306898e-05, 'epoch': 0.85}
{'loss': 0.9256, 'grad_norm': 1.078125, 'learning_rate': 1.0695974025605118e-05, 'epoch': 0.85}
{'loss': 1.2998, 'grad_norm': 0.5546875, 'learning_rate': 1.0684611648141257e-05, 'epoch': 0.85}
{'loss': 1.1531, 'grad_norm': 0.65625, 'learning_rate': 1.0673249270677398e-05, 'epoch': 0.85}
{'loss': 1.2697, 'grad_norm': 0.490234375, 'learning_rate': 1.0661886893213536e-05, 'epoch': 0.85}
{'loss': 1.0797, 'grad_norm': 0.53125, 'learning_rate': 1.0650524515749676e-05, 'epoch': 0.85}
{'loss': 1.1501, 'grad_norm': 0.95703125, 'learning_rate': 1.0639162138285815e-05, 'epoch': 0.85}
{'loss': 1.4053, 'grad_norm': 0.5



{'loss': 1.2933, 'grad_norm': 0.5546875, 'learning_rate': 1.0457364098864046e-05, 'epoch': 0.85}
{'loss': 1.1311, 'grad_norm': 0.5859375, 'learning_rate': 1.0446001721400186e-05, 'epoch': 0.85}
{'loss': 1.188, 'grad_norm': 0.54296875, 'learning_rate': 1.0434639343936326e-05, 'epoch': 0.85}
{'loss': 1.3877, 'grad_norm': 0.76171875, 'learning_rate': 1.0423276966472465e-05, 'epoch': 0.85}
{'loss': 1.0821, 'grad_norm': 0.79296875, 'learning_rate': 1.0411914589008605e-05, 'epoch': 0.85}
{'loss': 1.3237, 'grad_norm': 0.734375, 'learning_rate': 1.0400552211544744e-05, 'epoch': 0.85}
{'loss': 1.1331, 'grad_norm': 0.78515625, 'learning_rate': 1.0389189834080884e-05, 'epoch': 0.85}
{'loss': 1.1762, 'grad_norm': 0.412109375, 'learning_rate': 1.0377827456617023e-05, 'epoch': 0.85}
{'loss': 1.1882, 'grad_norm': 0.59375, 'learning_rate': 1.0366465079153161e-05, 'epoch': 0.85}
{'loss': 1.082, 'grad_norm': 0.95703125, 'learning_rate': 1.0355102701689302e-05, 'epoch': 0.85}
{'loss': 1.4057, 'grad_norm'



{'loss': 1.2904, 'grad_norm': 0.58984375, 'learning_rate': 1.0173304662267533e-05, 'epoch': 0.86}
{'loss': 1.1232, 'grad_norm': 1.0078125, 'learning_rate': 1.0161942284803673e-05, 'epoch': 0.86}
{'loss': 1.1241, 'grad_norm': 0.47265625, 'learning_rate': 1.0150579907339813e-05, 'epoch': 0.86}
{'loss': 1.3101, 'grad_norm': 0.72265625, 'learning_rate': 1.0139217529875952e-05, 'epoch': 0.86}
{'loss': 1.0225, 'grad_norm': 1.046875, 'learning_rate': 1.0127855152412092e-05, 'epoch': 0.86}
{'loss': 1.4849, 'grad_norm': 0.46875, 'learning_rate': 1.011649277494823e-05, 'epoch': 0.86}
{'loss': 1.2072, 'grad_norm': 0.71484375, 'learning_rate': 1.010513039748437e-05, 'epoch': 0.86}
{'loss': 1.1914, 'grad_norm': 0.5859375, 'learning_rate': 1.009376802002051e-05, 'epoch': 0.86}
{'loss': 1.3901, 'grad_norm': 0.4609375, 'learning_rate': 1.0082405642556648e-05, 'epoch': 0.86}
{'loss': 1.0962, 'grad_norm': 0.60546875, 'learning_rate': 1.007104326509279e-05, 'epoch': 0.86}
{'loss': 1.2623, 'grad_norm': 0.



{'loss': 1.4372, 'grad_norm': 0.68359375, 'learning_rate': 9.88924522567102e-06, 'epoch': 0.86}
{'loss': 1.0565, 'grad_norm': 0.68359375, 'learning_rate': 9.87788284820716e-06, 'epoch': 0.86}
{'loss': 1.2063, 'grad_norm': 0.51953125, 'learning_rate': 9.866520470743298e-06, 'epoch': 0.86}
{'loss': 1.2419, 'grad_norm': 0.6640625, 'learning_rate': 9.85515809327944e-06, 'epoch': 0.86}
{'loss': 0.9716, 'grad_norm': 0.57421875, 'learning_rate': 9.843795715815577e-06, 'epoch': 0.86}
{'loss': 1.2696, 'grad_norm': 0.5078125, 'learning_rate': 9.832433338351717e-06, 'epoch': 0.86}
{'loss': 0.966, 'grad_norm': 0.98828125, 'learning_rate': 9.821070960887858e-06, 'epoch': 0.86}
{'loss': 1.2577, 'grad_norm': 0.546875, 'learning_rate': 9.809708583423996e-06, 'epoch': 0.86}
{'loss': 1.2708, 'grad_norm': 0.73046875, 'learning_rate': 9.798346205960135e-06, 'epoch': 0.86}
{'loss': 1.0694, 'grad_norm': 0.62109375, 'learning_rate': 9.786983828496275e-06, 'epoch': 0.86}
{'loss': 1.3304, 'grad_norm': 0.625, '



{'loss': 1.2098, 'grad_norm': 0.54296875, 'learning_rate': 9.605185789074508e-06, 'epoch': 0.86}
{'loss': 1.2502, 'grad_norm': 0.62109375, 'learning_rate': 9.593823411610645e-06, 'epoch': 0.86}
{'loss': 1.1329, 'grad_norm': 0.55859375, 'learning_rate': 9.582461034146785e-06, 'epoch': 0.86}
{'loss': 1.1739, 'grad_norm': 0.72265625, 'learning_rate': 9.571098656682924e-06, 'epoch': 0.86}
{'loss': 1.0462, 'grad_norm': 1.140625, 'learning_rate': 9.559736279219064e-06, 'epoch': 0.86}
{'loss': 1.3165, 'grad_norm': 0.61328125, 'learning_rate': 9.548373901755204e-06, 'epoch': 0.86}
{'loss': 0.9949, 'grad_norm': 0.52734375, 'learning_rate': 9.537011524291343e-06, 'epoch': 0.86}
{'loss': 1.222, 'grad_norm': 0.443359375, 'learning_rate': 9.525649146827483e-06, 'epoch': 0.86}
{'loss': 1.1798, 'grad_norm': 0.52734375, 'learning_rate': 9.514286769363622e-06, 'epoch': 0.86}
{'loss': 1.0891, 'grad_norm': 0.82421875, 'learning_rate': 9.502924391899762e-06, 'epoch': 0.86}
{'loss': 1.274, 'grad_norm': 0.5



{'loss': 1.3018, 'grad_norm': 0.515625, 'learning_rate': 9.321126352477993e-06, 'epoch': 0.86}
{'loss': 1.1044, 'grad_norm': 1.03125, 'learning_rate': 9.309763975014132e-06, 'epoch': 0.86}
{'loss': 1.2279, 'grad_norm': 0.5390625, 'learning_rate': 9.298401597550272e-06, 'epoch': 0.86}
{'loss': 1.1821, 'grad_norm': 0.5390625, 'learning_rate': 9.287039220086411e-06, 'epoch': 0.86}
{'loss': 1.0717, 'grad_norm': 1.0234375, 'learning_rate': 9.275676842622551e-06, 'epoch': 0.86}
{'loss': 1.2964, 'grad_norm': 0.71484375, 'learning_rate': 9.264314465158689e-06, 'epoch': 0.86}
{'loss': 1.1725, 'grad_norm': 1.0078125, 'learning_rate': 9.25295208769483e-06, 'epoch': 0.86}
{'loss': 1.296, 'grad_norm': 0.4921875, 'learning_rate': 9.24158971023097e-06, 'epoch': 0.86}
{'loss': 1.181, 'grad_norm': 0.59765625, 'learning_rate': 9.23022733276711e-06, 'epoch': 0.86}
{'loss': 1.0489, 'grad_norm': 0.9453125, 'learning_rate': 9.218864955303249e-06, 'epoch': 0.86}
{'loss': 1.2421, 'grad_norm': 0.609375, 'learn



{'loss': 1.4523, 'grad_norm': 0.57421875, 'learning_rate': 9.03706691588148e-06, 'epoch': 0.86}
{'loss': 1.2242, 'grad_norm': 0.8515625, 'learning_rate': 9.02570453841762e-06, 'epoch': 0.86}
{'loss': 1.2004, 'grad_norm': 0.48046875, 'learning_rate': 9.014342160953757e-06, 'epoch': 0.86}
{'loss': 1.2628, 'grad_norm': 0.67578125, 'learning_rate': 9.002979783489899e-06, 'epoch': 0.86}
{'loss': 0.9786, 'grad_norm': 0.578125, 'learning_rate': 8.991617406026036e-06, 'epoch': 0.86}
{'loss': 1.2885, 'grad_norm': 0.4453125, 'learning_rate': 8.980255028562176e-06, 'epoch': 0.86}
{'loss': 1.1851, 'grad_norm': 0.76171875, 'learning_rate': 8.968892651098317e-06, 'epoch': 0.86}
{'loss': 1.1328, 'grad_norm': 0.455078125, 'learning_rate': 8.957530273634455e-06, 'epoch': 0.86}
{'loss': 1.2054, 'grad_norm': 0.59375, 'learning_rate': 8.946167896170596e-06, 'epoch': 0.86}
{'loss': 1.1229, 'grad_norm': 0.66796875, 'learning_rate': 8.934805518706734e-06, 'epoch': 0.86}
{'loss': 1.271, 'grad_norm': 0.5820312



{'loss': 1.3518, 'grad_norm': 0.609375, 'learning_rate': 8.753007479284967e-06, 'epoch': 0.86}
{'loss': 1.1928, 'grad_norm': 0.8046875, 'learning_rate': 8.741645101821105e-06, 'epoch': 0.86}
{'loss': 1.1219, 'grad_norm': 0.51171875, 'learning_rate': 8.730282724357244e-06, 'epoch': 0.86}
{'loss': 1.2409, 'grad_norm': 0.5078125, 'learning_rate': 8.718920346893386e-06, 'epoch': 0.86}
{'loss': 1.1525, 'grad_norm': 2.03125, 'learning_rate': 8.707557969429523e-06, 'epoch': 0.86}
{'loss': 1.4512, 'grad_norm': 0.59765625, 'learning_rate': 8.696195591965663e-06, 'epoch': 0.86}
{'loss': 1.1898, 'grad_norm': 0.765625, 'learning_rate': 8.684833214501802e-06, 'epoch': 0.86}
{'loss': 1.1558, 'grad_norm': 0.486328125, 'learning_rate': 8.673470837037942e-06, 'epoch': 0.86}
{'loss': 1.186, 'grad_norm': 0.59765625, 'learning_rate': 8.662108459574082e-06, 'epoch': 0.86}
{'loss': 1.227, 'grad_norm': 1.203125, 'learning_rate': 8.650746082110221e-06, 'epoch': 0.86}
{'loss': 1.2994, 'grad_norm': 0.7109375, '



{'loss': 1.2138, 'grad_norm': 0.62109375, 'learning_rate': 8.468948042688452e-06, 'epoch': 0.86}
{'loss': 1.2319, 'grad_norm': 0.9765625, 'learning_rate': 8.457585665224592e-06, 'epoch': 0.86}
{'loss': 1.2024, 'grad_norm': 0.5, 'learning_rate': 8.446223287760731e-06, 'epoch': 0.86}
{'loss': 1.28, 'grad_norm': 0.5703125, 'learning_rate': 8.434860910296871e-06, 'epoch': 0.86}
{'loss': 1.0741, 'grad_norm': 0.9140625, 'learning_rate': 8.42349853283301e-06, 'epoch': 0.86}
{'loss': 1.3546, 'grad_norm': 0.58203125, 'learning_rate': 8.41213615536915e-06, 'epoch': 0.86}
{'loss': 1.2099, 'grad_norm': 0.93359375, 'learning_rate': 8.40077377790529e-06, 'epoch': 0.86}
{'loss': 1.1761, 'grad_norm': 0.439453125, 'learning_rate': 8.389411400441429e-06, 'epoch': 0.86}
{'loss': 1.2763, 'grad_norm': 0.875, 'learning_rate': 8.378049022977569e-06, 'epoch': 0.86}
{'loss': 1.0679, 'grad_norm': 1.1171875, 'learning_rate': 8.366686645513708e-06, 'epoch': 0.86}
{'loss': 1.2942, 'grad_norm': 0.640625, 'learning_



{'loss': 1.1649, 'grad_norm': 0.515625, 'learning_rate': 8.18488860609194e-06, 'epoch': 0.86}
{'loss': 0.9037, 'grad_norm': 0.8984375, 'learning_rate': 8.173526228628079e-06, 'epoch': 0.86}
{'loss': 1.1325, 'grad_norm': 0.392578125, 'learning_rate': 8.162163851164217e-06, 'epoch': 0.86}
{'loss': 1.1736, 'grad_norm': 0.92578125, 'learning_rate': 8.150801473700358e-06, 'epoch': 0.86}
{'loss': 1.0737, 'grad_norm': 0.8125, 'learning_rate': 8.139439096236497e-06, 'epoch': 0.86}
{'loss': 1.2352, 'grad_norm': 0.55078125, 'learning_rate': 8.128076718772637e-06, 'epoch': 0.86}
{'loss': 1.0075, 'grad_norm': 0.59765625, 'learning_rate': 8.116714341308777e-06, 'epoch': 0.86}
{'loss': 1.1931, 'grad_norm': 0.62890625, 'learning_rate': 8.105351963844914e-06, 'epoch': 0.86}
{'loss': 1.1771, 'grad_norm': 0.62890625, 'learning_rate': 8.093989586381056e-06, 'epoch': 0.86}
{'loss': 0.8746, 'grad_norm': 0.8984375, 'learning_rate': 8.082627208917193e-06, 'epoch': 0.86}
{'loss': 1.3068, 'grad_norm': 0.542968



{'loss': 1.2266, 'grad_norm': 0.48046875, 'learning_rate': 7.900829169495426e-06, 'epoch': 0.87}
{'loss': 1.1591, 'grad_norm': 0.6796875, 'learning_rate': 7.889466792031564e-06, 'epoch': 0.87}
{'loss': 1.2426, 'grad_norm': 0.498046875, 'learning_rate': 7.878104414567705e-06, 'epoch': 0.87}
{'loss': 1.265, 'grad_norm': 0.6953125, 'learning_rate': 7.866742037103845e-06, 'epoch': 0.87}
{'loss': 1.0251, 'grad_norm': 1.1875, 'learning_rate': 7.855379659639983e-06, 'epoch': 0.87}
{'loss': 1.3854, 'grad_norm': 0.5078125, 'learning_rate': 7.844017282176124e-06, 'epoch': 0.87}
{'loss': 1.0559, 'grad_norm': 0.74609375, 'learning_rate': 7.832654904712262e-06, 'epoch': 0.87}
{'loss': 1.385, 'grad_norm': 0.97265625, 'learning_rate': 7.821292527248401e-06, 'epoch': 0.87}
{'loss': 1.1701, 'grad_norm': 0.5859375, 'learning_rate': 7.809930149784541e-06, 'epoch': 0.87}
{'loss': 1.0043, 'grad_norm': 0.83984375, 'learning_rate': 7.79856777232068e-06, 'epoch': 0.87}
{'loss': 1.3571, 'grad_norm': 0.5625, 'l



{'loss': 1.2579, 'grad_norm': 0.53125, 'learning_rate': 7.616769732898912e-06, 'epoch': 0.87}
{'loss': 1.0847, 'grad_norm': 0.82421875, 'learning_rate': 7.605407355435051e-06, 'epoch': 0.87}
{'loss': 1.2017, 'grad_norm': 0.57421875, 'learning_rate': 7.5940449779711915e-06, 'epoch': 0.87}
{'loss': 1.2001, 'grad_norm': 0.6328125, 'learning_rate': 7.582682600507331e-06, 'epoch': 0.87}
{'loss': 1.1393, 'grad_norm': 1.1875, 'learning_rate': 7.57132022304347e-06, 'epoch': 0.87}
{'loss': 1.3301, 'grad_norm': 0.5, 'learning_rate': 7.55995784557961e-06, 'epoch': 0.87}
{'loss': 1.1564, 'grad_norm': 0.75, 'learning_rate': 7.548595468115749e-06, 'epoch': 0.87}
{'loss': 1.1099, 'grad_norm': 0.51953125, 'learning_rate': 7.5372330906518876e-06, 'epoch': 0.87}
{'loss': 1.1551, 'grad_norm': 0.7109375, 'learning_rate': 7.525870713188028e-06, 'epoch': 0.87}
{'loss': 1.0132, 'grad_norm': 0.765625, 'learning_rate': 7.5145083357241675e-06, 'epoch': 0.87}
{'loss': 1.3209, 'grad_norm': 0.6015625, 'learning_ra



{'loss': 1.2488, 'grad_norm': 0.765625, 'learning_rate': 7.332710296302399e-06, 'epoch': 0.87}
{'loss': 1.2183, 'grad_norm': 0.69921875, 'learning_rate': 7.321347918838538e-06, 'epoch': 0.87}
{'loss': 1.3253, 'grad_norm': 0.44921875, 'learning_rate': 7.3099855413746785e-06, 'epoch': 0.87}
{'loss': 1.2029, 'grad_norm': 0.53515625, 'learning_rate': 7.298623163910817e-06, 'epoch': 0.87}
{'loss': 0.988, 'grad_norm': 0.546875, 'learning_rate': 7.287260786446956e-06, 'epoch': 0.87}
{'loss': 1.3938, 'grad_norm': 0.59375, 'learning_rate': 7.275898408983096e-06, 'epoch': 0.87}
{'loss': 1.0868, 'grad_norm': 0.7734375, 'learning_rate': 7.264536031519235e-06, 'epoch': 0.87}
{'loss': 1.259, 'grad_norm': 0.69921875, 'learning_rate': 7.2531736540553746e-06, 'epoch': 0.87}
{'loss': 1.3082, 'grad_norm': 0.65625, 'learning_rate': 7.241811276591515e-06, 'epoch': 0.87}
{'loss': 1.1288, 'grad_norm': 0.7421875, 'learning_rate': 7.230448899127654e-06, 'epoch': 0.87}
{'loss': 1.3627, 'grad_norm': 0.640625, 'l



{'loss': 1.2688, 'grad_norm': 0.55859375, 'learning_rate': 7.048650859705886e-06, 'epoch': 0.87}
{'loss': 1.2, 'grad_norm': 0.6875, 'learning_rate': 7.037288482242024e-06, 'epoch': 0.87}
{'loss': 1.0925, 'grad_norm': 0.71875, 'learning_rate': 7.025926104778165e-06, 'epoch': 0.87}
{'loss': 1.3521, 'grad_norm': 0.55078125, 'learning_rate': 7.014563727314303e-06, 'epoch': 0.87}
{'loss': 0.9693, 'grad_norm': 0.93359375, 'learning_rate': 7.003201349850443e-06, 'epoch': 0.87}
{'loss': 1.2294, 'grad_norm': 0.48046875, 'learning_rate': 6.991838972386583e-06, 'epoch': 0.87}
{'loss': 1.2042, 'grad_norm': 0.82421875, 'learning_rate': 6.980476594922722e-06, 'epoch': 0.87}
{'loss': 1.1751, 'grad_norm': 0.458984375, 'learning_rate': 6.969114217458861e-06, 'epoch': 0.87}
{'loss': 1.2672, 'grad_norm': 0.80859375, 'learning_rate': 6.957751839995001e-06, 'epoch': 0.87}
{'loss': 0.9804, 'grad_norm': 0.96484375, 'learning_rate': 6.94638946253114e-06, 'epoch': 0.87}
{'loss': 1.319, 'grad_norm': 0.96484375,



{'loss': 1.4, 'grad_norm': 0.5703125, 'learning_rate': 6.764591423109372e-06, 'epoch': 0.87}
{'loss': 1.1144, 'grad_norm': 0.498046875, 'learning_rate': 6.7532290456455105e-06, 'epoch': 0.87}
{'loss': 1.2359, 'grad_norm': 0.41796875, 'learning_rate': 6.741866668181651e-06, 'epoch': 0.87}
{'loss': 1.1329, 'grad_norm': 0.796875, 'learning_rate': 6.73050429071779e-06, 'epoch': 0.87}
{'loss': 1.0488, 'grad_norm': 0.90625, 'learning_rate': 6.719141913253929e-06, 'epoch': 0.87}
{'loss': 1.323, 'grad_norm': 0.51953125, 'learning_rate': 6.7077795357900695e-06, 'epoch': 0.87}
{'loss': 1.1721, 'grad_norm': 1.0234375, 'learning_rate': 6.696417158326208e-06, 'epoch': 0.87}
{'loss': 1.1435, 'grad_norm': 0.4609375, 'learning_rate': 6.685054780862347e-06, 'epoch': 0.87}
{'loss': 1.2172, 'grad_norm': 0.7265625, 'learning_rate': 6.673692403398487e-06, 'epoch': 0.87}
{'loss': 1.198, 'grad_norm': 1.5234375, 'learning_rate': 6.662330025934627e-06, 'epoch': 0.87}
{'loss': 1.3829, 'grad_norm': 0.57421875, '



{'loss': 1.3717, 'grad_norm': 0.5625, 'learning_rate': 6.480531986512858e-06, 'epoch': 0.87}
{'loss': 1.2045, 'grad_norm': 0.69140625, 'learning_rate': 6.4691696090489975e-06, 'epoch': 0.87}
{'loss': 1.3242, 'grad_norm': 0.515625, 'learning_rate': 6.457807231585138e-06, 'epoch': 0.87}
{'loss': 1.2676, 'grad_norm': 0.7421875, 'learning_rate': 6.446444854121277e-06, 'epoch': 0.87}
{'loss': 1.0713, 'grad_norm': 0.828125, 'learning_rate': 6.435082476657415e-06, 'epoch': 0.87}
{'loss': 1.475, 'grad_norm': 0.6015625, 'learning_rate': 6.423720099193556e-06, 'epoch': 0.87}
{'loss': 1.1793, 'grad_norm': 0.6328125, 'learning_rate': 6.412357721729695e-06, 'epoch': 0.87}
{'loss': 1.3024, 'grad_norm': 0.45703125, 'learning_rate': 6.400995344265834e-06, 'epoch': 0.87}
{'loss': 1.1087, 'grad_norm': 0.88671875, 'learning_rate': 6.389632966801974e-06, 'epoch': 0.87}
{'loss': 1.0329, 'grad_norm': 1.1875, 'learning_rate': 6.378270589338113e-06, 'epoch': 0.87}
{'loss': 1.2222, 'grad_norm': 0.58203125, 'le



{'loss': 1.3464, 'grad_norm': 0.53125, 'learning_rate': 6.196472549916345e-06, 'epoch': 0.87}
{'loss': 1.0206, 'grad_norm': 1.1796875, 'learning_rate': 6.1851101724524845e-06, 'epoch': 0.87}
{'loss': 1.2829, 'grad_norm': 0.82421875, 'learning_rate': 6.173747794988623e-06, 'epoch': 0.87}
{'loss': 1.1442, 'grad_norm': 0.6953125, 'learning_rate': 6.162385417524763e-06, 'epoch': 0.87}
{'loss': 0.9992, 'grad_norm': 0.8046875, 'learning_rate': 6.151023040060902e-06, 'epoch': 0.87}
{'loss': 1.2257, 'grad_norm': 0.53515625, 'learning_rate': 6.139660662597043e-06, 'epoch': 0.87}
{'loss': 1.0694, 'grad_norm': 0.90625, 'learning_rate': 6.128298285133181e-06, 'epoch': 0.87}
{'loss': 1.1848, 'grad_norm': 0.5703125, 'learning_rate': 6.116935907669321e-06, 'epoch': 0.87}
{'loss': 1.3985, 'grad_norm': 0.66015625, 'learning_rate': 6.1055735302054605e-06, 'epoch': 0.87}
{'loss': 1.0776, 'grad_norm': 1.1484375, 'learning_rate': 6.0942111527416e-06, 'epoch': 0.87}
{'loss': 1.3029, 'grad_norm': 0.490234375



{'loss': 1.2579, 'grad_norm': 1.0390625, 'learning_rate': 5.912413113319831e-06, 'epoch': 0.87}
{'loss': 1.2325, 'grad_norm': 0.73828125, 'learning_rate': 5.901050735855971e-06, 'epoch': 0.87}
{'loss': 1.1942, 'grad_norm': 0.57421875, 'learning_rate': 5.88968835839211e-06, 'epoch': 0.87}
{'loss': 1.3072, 'grad_norm': 0.58984375, 'learning_rate': 5.87832598092825e-06, 'epoch': 0.87}
{'loss': 1.1427, 'grad_norm': 0.70703125, 'learning_rate': 5.866963603464389e-06, 'epoch': 0.87}
{'loss': 1.2843, 'grad_norm': 0.546875, 'learning_rate': 5.855601226000529e-06, 'epoch': 0.87}
{'loss': 1.2012, 'grad_norm': 0.87109375, 'learning_rate': 5.8442388485366676e-06, 'epoch': 0.87}
{'loss': 1.1629, 'grad_norm': 0.498046875, 'learning_rate': 5.832876471072807e-06, 'epoch': 0.87}
{'loss': 1.1611, 'grad_norm': 0.84375, 'learning_rate': 5.8215140936089475e-06, 'epoch': 0.87}
{'loss': 0.9897, 'grad_norm': 0.91796875, 'learning_rate': 5.810151716145087e-06, 'epoch': 0.87}
{'loss': 1.3039, 'grad_norm': 0.523



{'loss': 1.3487, 'grad_norm': 0.73046875, 'learning_rate': 5.628353676723318e-06, 'epoch': 0.88}
{'loss': 1.192, 'grad_norm': 0.75, 'learning_rate': 5.616991299259458e-06, 'epoch': 0.88}
{'loss': 1.2016, 'grad_norm': 0.447265625, 'learning_rate': 5.605628921795597e-06, 'epoch': 0.88}
{'loss': 1.2773, 'grad_norm': 0.91015625, 'learning_rate': 5.594266544331736e-06, 'epoch': 0.88}
{'loss': 1.0201, 'grad_norm': 0.61328125, 'learning_rate': 5.5829041668678755e-06, 'epoch': 0.88}
{'loss': 1.3848, 'grad_norm': 0.54296875, 'learning_rate': 5.571541789404015e-06, 'epoch': 0.88}
{'loss': 1.0686, 'grad_norm': 1.09375, 'learning_rate': 5.560179411940155e-06, 'epoch': 0.88}
{'loss': 1.0941, 'grad_norm': 0.55078125, 'learning_rate': 5.548817034476294e-06, 'epoch': 0.88}
{'loss': 1.2553, 'grad_norm': 0.5390625, 'learning_rate': 5.537454657012434e-06, 'epoch': 0.88}
{'loss': 1.0047, 'grad_norm': 0.84375, 'learning_rate': 5.526092279548573e-06, 'epoch': 0.88}
{'loss': 1.299, 'grad_norm': 0.53515625, '



{'loss': 1.2752, 'grad_norm': 0.83984375, 'learning_rate': 5.344294240126804e-06, 'epoch': 0.88}
{'loss': 0.9267, 'grad_norm': 0.83203125, 'learning_rate': 5.332931862662944e-06, 'epoch': 0.88}
{'loss': 1.2597, 'grad_norm': 0.72265625, 'learning_rate': 5.321569485199083e-06, 'epoch': 0.88}
{'loss': 1.1758, 'grad_norm': 0.63671875, 'learning_rate': 5.310207107735222e-06, 'epoch': 0.88}
{'loss': 1.1307, 'grad_norm': 1.34375, 'learning_rate': 5.2988447302713625e-06, 'epoch': 0.88}
{'loss': 1.293, 'grad_norm': 0.8125, 'learning_rate': 5.287482352807502e-06, 'epoch': 0.88}
{'loss': 1.1353, 'grad_norm': 0.640625, 'learning_rate': 5.276119975343642e-06, 'epoch': 0.88}
{'loss': 1.1092, 'grad_norm': 0.5234375, 'learning_rate': 5.26475759787978e-06, 'epoch': 0.88}
{'loss': 1.2669, 'grad_norm': 0.60546875, 'learning_rate': 5.25339522041592e-06, 'epoch': 0.88}
{'loss': 0.9508, 'grad_norm': 0.51171875, 'learning_rate': 5.242032842952059e-06, 'epoch': 0.88}
{'loss': 1.3771, 'grad_norm': 0.6015625, '



{'loss': 1.2963, 'grad_norm': 0.625, 'learning_rate': 5.0602348035302905e-06, 'epoch': 0.88}
{'loss': 1.138, 'grad_norm': 0.65625, 'learning_rate': 5.04887242606643e-06, 'epoch': 0.88}
{'loss': 1.2187, 'grad_norm': 0.65234375, 'learning_rate': 5.03751004860257e-06, 'epoch': 0.88}
{'loss': 1.2543, 'grad_norm': 0.6015625, 'learning_rate': 5.026147671138709e-06, 'epoch': 0.88}
{'loss': 1.1514, 'grad_norm': 0.78125, 'learning_rate': 5.014785293674849e-06, 'epoch': 0.88}
{'loss': 1.2926, 'grad_norm': 0.5546875, 'learning_rate': 5.003422916210988e-06, 'epoch': 0.88}
{'loss': 1.0856, 'grad_norm': 0.55859375, 'learning_rate': 4.992060538747128e-06, 'epoch': 0.88}
{'loss': 1.2761, 'grad_norm': 0.59765625, 'learning_rate': 4.980698161283267e-06, 'epoch': 0.88}
{'loss': 1.1433, 'grad_norm': 0.65625, 'learning_rate': 4.969335783819407e-06, 'epoch': 0.88}
{'loss': 1.0429, 'grad_norm': 0.796875, 'learning_rate': 4.957973406355546e-06, 'epoch': 0.88}
{'loss': 1.3927, 'grad_norm': 0.484375, 'learning_



{'loss': 1.4369, 'grad_norm': 0.7109375, 'learning_rate': 4.7761753669337775e-06, 'epoch': 0.88}
{'loss': 1.0457, 'grad_norm': 0.9296875, 'learning_rate': 4.764812989469917e-06, 'epoch': 0.88}
{'loss': 1.0931, 'grad_norm': 0.578125, 'learning_rate': 4.753450612006057e-06, 'epoch': 0.88}
{'loss': 1.4026, 'grad_norm': 0.6171875, 'learning_rate': 4.742088234542196e-06, 'epoch': 0.88}
{'loss': 1.1032, 'grad_norm': 1.140625, 'learning_rate': 4.730725857078335e-06, 'epoch': 0.88}
{'loss': 1.2805, 'grad_norm': 0.490234375, 'learning_rate': 4.719363479614474e-06, 'epoch': 0.88}
{'loss': 1.0201, 'grad_norm': 0.6328125, 'learning_rate': 4.708001102150615e-06, 'epoch': 0.88}
{'loss': 1.2175, 'grad_norm': 0.6484375, 'learning_rate': 4.6966387246867535e-06, 'epoch': 0.88}
{'loss': 1.1115, 'grad_norm': 0.5625, 'learning_rate': 4.685276347222893e-06, 'epoch': 0.88}
{'loss': 1.0268, 'grad_norm': 0.78125, 'learning_rate': 4.673913969759033e-06, 'epoch': 0.88}
{'loss': 1.443, 'grad_norm': 0.5703125, 'le



{'loss': 1.2597, 'grad_norm': 0.447265625, 'learning_rate': 4.492115930337264e-06, 'epoch': 0.88}
{'loss': 1.1663, 'grad_norm': 0.8828125, 'learning_rate': 4.480753552873403e-06, 'epoch': 0.88}
{'loss': 1.2175, 'grad_norm': 0.4296875, 'learning_rate': 4.469391175409543e-06, 'epoch': 0.88}
{'loss': 1.2133, 'grad_norm': 0.70703125, 'learning_rate': 4.458028797945682e-06, 'epoch': 0.88}
{'loss': 1.0887, 'grad_norm': 0.86328125, 'learning_rate': 4.446666420481822e-06, 'epoch': 0.88}
{'loss': 1.3812, 'grad_norm': 0.59765625, 'learning_rate': 4.435304043017961e-06, 'epoch': 0.88}
{'loss': 1.1307, 'grad_norm': 0.703125, 'learning_rate': 4.423941665554101e-06, 'epoch': 0.88}
{'loss': 1.0899, 'grad_norm': 0.546875, 'learning_rate': 4.41257928809024e-06, 'epoch': 0.88}
{'loss': 1.3062, 'grad_norm': 0.5390625, 'learning_rate': 4.401216910626379e-06, 'epoch': 0.88}
{'loss': 1.1001, 'grad_norm': 0.76171875, 'learning_rate': 4.38985453316252e-06, 'epoch': 0.88}
{'loss': 1.3365, 'grad_norm': 0.558593



{'loss': 1.4079, 'grad_norm': 0.6484375, 'learning_rate': 4.20805649374075e-06, 'epoch': 0.88}
{'loss': 1.1607, 'grad_norm': 0.78515625, 'learning_rate': 4.19669411627689e-06, 'epoch': 0.88}
{'loss': 1.267, 'grad_norm': 0.43359375, 'learning_rate': 4.18533173881303e-06, 'epoch': 0.88}
{'loss': 1.0694, 'grad_norm': 0.62890625, 'learning_rate': 4.173969361349169e-06, 'epoch': 0.88}
{'loss': 1.1433, 'grad_norm': 1.1171875, 'learning_rate': 4.162606983885308e-06, 'epoch': 0.88}
{'loss': 1.3096, 'grad_norm': 0.51953125, 'learning_rate': 4.1512446064214476e-06, 'epoch': 0.88}
{'loss': 1.0904, 'grad_norm': 0.734375, 'learning_rate': 4.139882228957587e-06, 'epoch': 0.88}
{'loss': 1.2552, 'grad_norm': 0.458984375, 'learning_rate': 4.128519851493727e-06, 'epoch': 0.88}
{'loss': 1.0884, 'grad_norm': 0.61328125, 'learning_rate': 4.117157474029866e-06, 'epoch': 0.88}
{'loss': 0.9744, 'grad_norm': 1.0234375, 'learning_rate': 4.105795096566006e-06, 'epoch': 0.88}
{'loss': 1.4075, 'grad_norm': 0.64453



{'loss': 1.2273, 'grad_norm': 0.45703125, 'learning_rate': 3.923997057144238e-06, 'epoch': 0.88}
{'loss': 1.1494, 'grad_norm': 0.7265625, 'learning_rate': 3.912634679680376e-06, 'epoch': 0.88}
{'loss': 1.2386, 'grad_norm': 0.515625, 'learning_rate': 3.901272302216516e-06, 'epoch': 0.88}
{'loss': 1.3495, 'grad_norm': 0.578125, 'learning_rate': 3.8899099247526555e-06, 'epoch': 0.88}
{'loss': 0.995, 'grad_norm': 1.5703125, 'learning_rate': 3.878547547288794e-06, 'epoch': 0.88}
{'loss': 1.3309, 'grad_norm': 0.55859375, 'learning_rate': 3.867185169824935e-06, 'epoch': 0.88}
{'loss': 1.164, 'grad_norm': 0.84375, 'learning_rate': 3.855822792361074e-06, 'epoch': 0.88}
{'loss': 1.0741, 'grad_norm': 0.5390625, 'learning_rate': 3.844460414897214e-06, 'epoch': 0.88}
{'loss': 1.1755, 'grad_norm': 0.56640625, 'learning_rate': 3.833098037433352e-06, 'epoch': 0.88}
{'loss': 1.0064, 'grad_norm': 1.078125, 'learning_rate': 3.821735659969492e-06, 'epoch': 0.88}
{'loss': 1.3458, 'grad_norm': 0.77734375, '



{'loss': 1.3785, 'grad_norm': 0.62109375, 'learning_rate': 3.639937620547724e-06, 'epoch': 0.88}
{'loss': 1.2292, 'grad_norm': 0.796875, 'learning_rate': 3.628575243083863e-06, 'epoch': 0.88}
{'loss': 1.2197, 'grad_norm': 0.50390625, 'learning_rate': 3.6172128656200025e-06, 'epoch': 0.88}
{'loss': 1.2155, 'grad_norm': 0.482421875, 'learning_rate': 3.605850488156142e-06, 'epoch': 0.88}
{'loss': 1.0398, 'grad_norm': 0.78515625, 'learning_rate': 3.5944881106922816e-06, 'epoch': 0.88}
{'loss': 1.3994, 'grad_norm': 0.58984375, 'learning_rate': 3.5831257332284208e-06, 'epoch': 0.88}
{'loss': 1.089, 'grad_norm': 0.78125, 'learning_rate': 3.5717633557645603e-06, 'epoch': 0.88}
{'loss': 1.1571, 'grad_norm': 0.5234375, 'learning_rate': 3.5604009783007e-06, 'epoch': 0.88}
{'loss': 1.1644, 'grad_norm': 0.609375, 'learning_rate': 3.549038600836839e-06, 'epoch': 0.88}
{'loss': 0.9482, 'grad_norm': 1.265625, 'learning_rate': 3.5376762233729785e-06, 'epoch': 0.88}
{'loss': 1.1406, 'grad_norm': 0.64062



{'loss': 1.1567, 'grad_norm': 0.55078125, 'learning_rate': 3.3558781839512105e-06, 'epoch': 0.89}
{'loss': 1.0369, 'grad_norm': 0.75390625, 'learning_rate': 3.344515806487349e-06, 'epoch': 0.89}
{'loss': 1.2289, 'grad_norm': 0.486328125, 'learning_rate': 3.333153429023489e-06, 'epoch': 0.89}
{'loss': 1.2159, 'grad_norm': 0.6796875, 'learning_rate': 3.3217910515596287e-06, 'epoch': 0.89}
{'loss': 1.1248, 'grad_norm': 1.09375, 'learning_rate': 3.3104286740957682e-06, 'epoch': 0.89}
{'loss': 1.439, 'grad_norm': 0.70703125, 'learning_rate': 3.2990662966319074e-06, 'epoch': 0.89}
{'loss': 1.1883, 'grad_norm': 0.6015625, 'learning_rate': 3.287703919168047e-06, 'epoch': 0.89}
{'loss': 1.1418, 'grad_norm': 0.57421875, 'learning_rate': 3.2763415417041865e-06, 'epoch': 0.89}
{'loss': 1.2918, 'grad_norm': 0.83984375, 'learning_rate': 3.2649791642403256e-06, 'epoch': 0.89}
{'loss': 0.9687, 'grad_norm': 0.9296875, 'learning_rate': 3.253616786776465e-06, 'epoch': 0.89}
{'loss': 1.3367, 'grad_norm': 



{'loss': 1.3353, 'grad_norm': 0.5078125, 'learning_rate': 3.0718187473546966e-06, 'epoch': 0.89}
{'loss': 1.1028, 'grad_norm': 0.6640625, 'learning_rate': 3.060456369890836e-06, 'epoch': 0.89}
{'loss': 1.1817, 'grad_norm': 0.455078125, 'learning_rate': 3.0490939924269753e-06, 'epoch': 0.89}
{'loss': 1.277, 'grad_norm': 0.62890625, 'learning_rate': 3.0377316149631153e-06, 'epoch': 0.89}
{'loss': 1.119, 'grad_norm': 0.89453125, 'learning_rate': 3.0263692374992544e-06, 'epoch': 0.89}
{'loss': 1.2591, 'grad_norm': 0.490234375, 'learning_rate': 3.015006860035394e-06, 'epoch': 0.89}
{'loss': 1.1653, 'grad_norm': 0.90625, 'learning_rate': 3.0036444825715335e-06, 'epoch': 0.89}
{'loss': 1.1338, 'grad_norm': 0.4140625, 'learning_rate': 2.992282105107673e-06, 'epoch': 0.89}
{'loss': 1.2033, 'grad_norm': 0.640625, 'learning_rate': 2.980919727643812e-06, 'epoch': 0.89}
{'loss': 1.0119, 'grad_norm': 0.796875, 'learning_rate': 2.969557350179952e-06, 'epoch': 0.89}
{'loss': 1.4024, 'grad_norm': 0.507



{'loss': 1.3244, 'grad_norm': 0.51171875, 'learning_rate': 2.7877593107581832e-06, 'epoch': 0.89}
{'loss': 1.1961, 'grad_norm': 0.77734375, 'learning_rate': 2.7763969332943228e-06, 'epoch': 0.89}
{'loss': 1.1862, 'grad_norm': 0.474609375, 'learning_rate': 2.7650345558304623e-06, 'epoch': 0.89}
{'loss': 1.23, 'grad_norm': 0.6875, 'learning_rate': 2.7536721783666014e-06, 'epoch': 0.89}
{'loss': 1.1331, 'grad_norm': 0.73046875, 'learning_rate': 2.742309800902741e-06, 'epoch': 0.89}
{'loss': 1.1572, 'grad_norm': 0.6953125, 'learning_rate': 2.7309474234388805e-06, 'epoch': 0.89}
{'loss': 1.0888, 'grad_norm': 0.8203125, 'learning_rate': 2.7195850459750197e-06, 'epoch': 0.89}
{'loss': 1.1452, 'grad_norm': 0.87890625, 'learning_rate': 2.7082226685111596e-06, 'epoch': 0.89}
{'loss': 1.156, 'grad_norm': 0.703125, 'learning_rate': 2.6968602910472988e-06, 'epoch': 0.89}
{'loss': 1.0649, 'grad_norm': 1.0390625, 'learning_rate': 2.6854979135834383e-06, 'epoch': 0.89}
{'loss': 1.2639, 'grad_norm': 0.



{'loss': 1.2435, 'grad_norm': 0.609375, 'learning_rate': 2.50369987416167e-06, 'epoch': 0.89}
{'loss': 1.1888, 'grad_norm': 0.7890625, 'learning_rate': 2.492337496697809e-06, 'epoch': 0.89}
{'loss': 1.1406, 'grad_norm': 0.47265625, 'learning_rate': 2.480975119233949e-06, 'epoch': 0.89}
{'loss': 1.2727, 'grad_norm': 0.703125, 'learning_rate': 2.469612741770088e-06, 'epoch': 0.89}
{'loss': 1.0229, 'grad_norm': 0.77734375, 'learning_rate': 2.4582503643062276e-06, 'epoch': 0.89}
{'loss': 1.2929, 'grad_norm': 0.55078125, 'learning_rate': 2.446887986842367e-06, 'epoch': 0.89}
{'loss': 1.2137, 'grad_norm': 0.9140625, 'learning_rate': 2.4355256093785067e-06, 'epoch': 0.89}
{'loss': 1.2223, 'grad_norm': 0.4765625, 'learning_rate': 2.424163231914646e-06, 'epoch': 0.89}
{'loss': 1.2211, 'grad_norm': 0.53515625, 'learning_rate': 2.4128008544507854e-06, 'epoch': 0.89}
{'loss': 1.0924, 'grad_norm': 0.8828125, 'learning_rate': 2.401438476986925e-06, 'epoch': 0.89}
{'loss': 1.2535, 'grad_norm': 0.6679



{'loss': 1.4341, 'grad_norm': 0.5546875, 'learning_rate': 2.2196404375651564e-06, 'epoch': 0.89}
{'loss': 1.1755, 'grad_norm': 0.70703125, 'learning_rate': 2.2082780601012955e-06, 'epoch': 0.89}
{'loss': 1.0504, 'grad_norm': 0.734375, 'learning_rate': 2.196915682637435e-06, 'epoch': 0.89}
{'loss': 1.1634, 'grad_norm': 0.6640625, 'learning_rate': 2.1855533051735746e-06, 'epoch': 0.89}
{'loss': 1.0925, 'grad_norm': 0.85546875, 'learning_rate': 2.174190927709714e-06, 'epoch': 0.89}
{'loss': 1.2862, 'grad_norm': 0.58984375, 'learning_rate': 2.1628285502458533e-06, 'epoch': 0.89}
{'loss': 1.1895, 'grad_norm': 0.7890625, 'learning_rate': 2.1514661727819933e-06, 'epoch': 0.89}
{'loss': 1.2808, 'grad_norm': 0.45703125, 'learning_rate': 2.1401037953181324e-06, 'epoch': 0.89}
{'loss': 1.2486, 'grad_norm': 0.6171875, 'learning_rate': 2.128741417854272e-06, 'epoch': 0.89}
{'loss': 0.8894, 'grad_norm': 0.84375, 'learning_rate': 2.1173790403904115e-06, 'epoch': 0.89}
{'loss': 1.313, 'grad_norm': 0.5



{'loss': 1.2988, 'grad_norm': 0.69140625, 'learning_rate': 1.9355810009686426e-06, 'epoch': 0.89}
{'loss': 1.0287, 'grad_norm': 0.73046875, 'learning_rate': 1.9242186235047826e-06, 'epoch': 0.89}
{'loss': 1.1134, 'grad_norm': 0.4765625, 'learning_rate': 1.9128562460409217e-06, 'epoch': 0.89}
{'loss': 1.1751, 'grad_norm': 0.68359375, 'learning_rate': 1.901493868577061e-06, 'epoch': 0.89}
{'loss': 1.0971, 'grad_norm': 0.73046875, 'learning_rate': 1.8901314911132006e-06, 'epoch': 0.89}
{'loss': 1.1851, 'grad_norm': 0.66796875, 'learning_rate': 1.87876911364934e-06, 'epoch': 0.89}
{'loss': 1.1755, 'grad_norm': 0.8671875, 'learning_rate': 1.8674067361854797e-06, 'epoch': 0.89}
{'loss': 1.1371, 'grad_norm': 0.6640625, 'learning_rate': 1.856044358721619e-06, 'epoch': 0.89}
{'loss': 1.2677, 'grad_norm': 0.6640625, 'learning_rate': 1.8446819812577585e-06, 'epoch': 0.89}
{'loss': 1.1184, 'grad_norm': 1.015625, 'learning_rate': 1.8333196037938979e-06, 'epoch': 0.89}
{'loss': 1.345, 'grad_norm': 0



{'loss': 1.3566, 'grad_norm': 0.44921875, 'learning_rate': 1.6515215643721292e-06, 'epoch': 0.89}
{'loss': 1.206, 'grad_norm': 0.82421875, 'learning_rate': 1.640159186908269e-06, 'epoch': 0.89}
{'loss': 1.3162, 'grad_norm': 0.484375, 'learning_rate': 1.6287968094444083e-06, 'epoch': 0.89}
{'loss': 1.2483, 'grad_norm': 0.7421875, 'learning_rate': 1.6174344319805478e-06, 'epoch': 0.89}
{'loss': 1.0773, 'grad_norm': 0.58203125, 'learning_rate': 1.6060720545166872e-06, 'epoch': 0.89}
{'loss': 1.3792, 'grad_norm': 0.734375, 'learning_rate': 1.5947096770528265e-06, 'epoch': 0.89}
{'loss': 1.2543, 'grad_norm': 0.7890625, 'learning_rate': 1.583347299588966e-06, 'epoch': 0.89}
{'loss': 1.2767, 'grad_norm': 0.51953125, 'learning_rate': 1.5719849221251054e-06, 'epoch': 0.89}
{'loss': 1.2167, 'grad_norm': 0.74609375, 'learning_rate': 1.5606225446612451e-06, 'epoch': 0.89}
{'loss': 1.1152, 'grad_norm': 1.203125, 'learning_rate': 1.5492601671973845e-06, 'epoch': 0.89}
{'loss': 1.2269, 'grad_norm': 0



{'loss': 1.448, 'grad_norm': 0.61328125, 'learning_rate': 1.3674621277756158e-06, 'epoch': 0.89}
{'loss': 1.1765, 'grad_norm': 1.140625, 'learning_rate': 1.3560997503117553e-06, 'epoch': 0.89}
{'loss': 1.3306, 'grad_norm': 0.5625, 'learning_rate': 1.3447373728478949e-06, 'epoch': 0.89}
{'loss': 1.1517, 'grad_norm': 0.51953125, 'learning_rate': 1.3333749953840342e-06, 'epoch': 0.89}
{'loss': 1.0768, 'grad_norm': 1.390625, 'learning_rate': 1.3220126179201735e-06, 'epoch': 0.89}
{'loss': 1.3641, 'grad_norm': 0.60546875, 'learning_rate': 1.310650240456313e-06, 'epoch': 0.89}
{'loss': 1.1696, 'grad_norm': 1.2578125, 'learning_rate': 1.2992878629924526e-06, 'epoch': 0.89}
{'loss': 1.1005, 'grad_norm': 0.4921875, 'learning_rate': 1.287925485528592e-06, 'epoch': 0.89}
{'loss': 1.1661, 'grad_norm': 0.5078125, 'learning_rate': 1.2765631080647315e-06, 'epoch': 0.89}
{'loss': 1.1382, 'grad_norm': 1.2578125, 'learning_rate': 1.265200730600871e-06, 'epoch': 0.89}
{'loss': 1.3849, 'grad_norm': 0.4589



{'loss': 1.2837, 'grad_norm': 0.67578125, 'learning_rate': 1.0834026911791024e-06, 'epoch': 0.9}
{'loss': 1.0815, 'grad_norm': 0.671875, 'learning_rate': 1.072040313715242e-06, 'epoch': 0.9}
{'loss': 1.1613, 'grad_norm': 0.400390625, 'learning_rate': 1.0606779362513812e-06, 'epoch': 0.9}
{'loss': 1.2489, 'grad_norm': 0.6328125, 'learning_rate': 1.0493155587875208e-06, 'epoch': 0.9}
{'loss': 0.9531, 'grad_norm': 0.63671875, 'learning_rate': 1.0379531813236603e-06, 'epoch': 0.9}
{'loss': 1.2966, 'grad_norm': 0.734375, 'learning_rate': 1.0265908038597997e-06, 'epoch': 0.9}
{'loss': 1.1149, 'grad_norm': 0.63671875, 'learning_rate': 1.015228426395939e-06, 'epoch': 0.9}
{'loss': 1.2621, 'grad_norm': 0.451171875, 'learning_rate': 1.0038660489320786e-06, 'epoch': 0.9}
{'loss': 1.2336, 'grad_norm': 0.5390625, 'learning_rate': 9.925036714682181e-07, 'epoch': 0.9}
{'loss': 1.051, 'grad_norm': 1.1640625, 'learning_rate': 9.811412940043574e-07, 'epoch': 0.9}
{'loss': 1.3283, 'grad_norm': 0.4609375,



{'loss': 1.3093, 'grad_norm': 0.5, 'learning_rate': 7.993432545825888e-07, 'epoch': 0.9}
{'loss': 1.1292, 'grad_norm': 0.68359375, 'learning_rate': 7.879808771187283e-07, 'epoch': 0.9}
{'loss': 1.1307, 'grad_norm': 0.46875, 'learning_rate': 7.766184996548678e-07, 'epoch': 0.9}
{'loss': 1.2661, 'grad_norm': 0.66796875, 'learning_rate': 7.652561221910073e-07, 'epoch': 0.9}
{'loss': 1.061, 'grad_norm': 0.86328125, 'learning_rate': 7.538937447271467e-07, 'epoch': 0.9}
{'loss': 1.2208, 'grad_norm': 0.50390625, 'learning_rate': 7.425313672632863e-07, 'epoch': 0.9}
{'loss': 1.1065, 'grad_norm': 0.68359375, 'learning_rate': 7.311689897994256e-07, 'epoch': 0.9}
{'loss': 1.2842, 'grad_norm': 0.55078125, 'learning_rate': 7.198066123355652e-07, 'epoch': 0.9}
{'loss': 1.2045, 'grad_norm': 0.6015625, 'learning_rate': 7.084442348717046e-07, 'epoch': 0.9}
{'loss': 1.0571, 'grad_norm': 1.0703125, 'learning_rate': 6.97081857407844e-07, 'epoch': 0.9}
{'loss': 1.2026, 'grad_norm': 0.5546875, 'learning_rat



{'loss': 1.3042, 'grad_norm': 0.50390625, 'learning_rate': 5.152838179860754e-07, 'epoch': 0.9}
{'loss': 1.2142, 'grad_norm': 0.72265625, 'learning_rate': 5.039214405222149e-07, 'epoch': 0.9}
{'loss': 1.3196, 'grad_norm': 0.51953125, 'learning_rate': 4.925590630583543e-07, 'epoch': 0.9}
{'loss': 1.089, 'grad_norm': 0.5078125, 'learning_rate': 4.811966855944939e-07, 'epoch': 0.9}
{'loss': 1.0441, 'grad_norm': 1.34375, 'learning_rate': 4.698343081306332e-07, 'epoch': 0.9}
{'loss': 1.386, 'grad_norm': 0.515625, 'learning_rate': 4.584719306667727e-07, 'epoch': 0.9}
{'loss': 1.179, 'grad_norm': 0.828125, 'learning_rate': 4.471095532029122e-07, 'epoch': 0.9}
{'loss': 1.2427, 'grad_norm': 0.58984375, 'learning_rate': 4.357471757390517e-07, 'epoch': 0.9}
{'loss': 1.2359, 'grad_norm': 0.57421875, 'learning_rate': 4.2438479827519114e-07, 'epoch': 0.9}
{'loss': 1.024, 'grad_norm': 1.34375, 'learning_rate': 4.1302242081133053e-07, 'epoch': 0.9}
{'loss': 1.3356, 'grad_norm': 0.64453125, 'learning_r



{'loss': 1.2982, 'grad_norm': 0.65625, 'learning_rate': 2.3122438138956198e-07, 'epoch': 0.9}
{'loss': 1.1463, 'grad_norm': 0.69921875, 'learning_rate': 2.198620039257014e-07, 'epoch': 0.9}
{'loss': 1.1995, 'grad_norm': 0.490234375, 'learning_rate': 2.084996264618409e-07, 'epoch': 0.9}
{'loss': 1.0831, 'grad_norm': 0.59765625, 'learning_rate': 1.9713724899798036e-07, 'epoch': 0.9}
{'loss': 1.0388, 'grad_norm': 0.91796875, 'learning_rate': 1.857748715341198e-07, 'epoch': 0.9}
{'loss': 1.3806, 'grad_norm': 0.46875, 'learning_rate': 1.7441249407025927e-07, 'epoch': 0.9}
{'loss': 1.1799, 'grad_norm': 0.6640625, 'learning_rate': 1.6305011660639871e-07, 'epoch': 0.9}
{'loss': 1.1103, 'grad_norm': 0.60546875, 'learning_rate': 1.516877391425382e-07, 'epoch': 0.9}
{'loss': 1.1816, 'grad_norm': 0.7265625, 'learning_rate': 1.4032536167867765e-07, 'epoch': 0.9}
{'loss': 0.9829, 'grad_norm': 1.0625, 'learning_rate': 1.2896298421481712e-07, 'epoch': 0.9}
{'loss': 1.1696, 'grad_norm': 0.625, 'learnin

TrainOutput(global_step=362927, training_loss=0.1352296082772137, metrics={'train_runtime': 34616.5275, 'train_samples_per_second': 20.968, 'train_steps_per_second': 10.484, 'train_loss': 0.1352296082772137, 'epoch': 0.9})

In [34]:
lora_model_save_dir = "./results/gugugo-experi_01"

In [35]:
model_to_save = trainer.model.module if hasattr(trainer.model, 'module') else trainer.model  # Take care of distributed/parallel training
model_to_save.save_pretrained(lora_model_save_dir, save_embedding_layers = True)

In [36]:
lora_config = LoraConfig.from_pretrained(lora_model_save_dir)
model = get_peft_model(model, lora_config)

In [37]:
tokenizer.push_to_hub('aeolian83/llama_ko_sft_gugugo_experi_01')

CommitInfo(commit_url='https://huggingface.co/aeolian83/llama_ko_sft_gugugo_experi_01/commit/19dd71bb9c3aebf4c5be4ad2c4a15d34a7a999d6', commit_message='Upload tokenizer', commit_description='', oid='19dd71bb9c3aebf4c5be4ad2c4a15d34a7a999d6', pr_url=None, pr_revision=None, pr_num=None)