### Reference

1. https://github.com/ashishpatel26/LLM-Finetuning/blob/main/7.FineTune_LLAMA2_with_QLORA.ipynb  
2. https://huggingface.co/blog/4bit-transformers-bitsandbytes  
3. https://pytorch.org/blog/finetune-llms/  
4. https://colab.research.google.com/drive/1vIjBtePIZwUaHWfjfNHzBjwuXOyU_ugD?usp=sharing#scrollTo=6k_nL6xJMZW2  

# 1. Weight and Bias Login

In [1]:
import wandb
import os
os.environ["WANDB_PROJECT"]="QLoRA_Instruction_finetune_08"

wandb.login()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33maeolian83[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

# 2. Login Huggingface

In [2]:
from huggingface_hub import login
from dotenv import load_dotenv

load_dotenv()


login(token= os.environ["HF_TOKEN"])

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/aeolian83/.cache/huggingface/token
Login successful


# 3. Dataset Load

In [3]:
from datasets import load_dataset

In [4]:
ko_instruction_01 = load_dataset("aeolian83/OpenOrca-gugugo-ko_test", cache_dir="/mnt/t7/.cache/huggingface/datasets")

In [5]:
ko_instruction_01 = ko_instruction_01.shuffle(seed=2160)

In [6]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 1008132
    })
    test: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 1232162
    })
})

In [7]:
ko_instruction_01 = ko_instruction_01["train"]

In [8]:
ko_instruction_01

Dataset({
    features: ['question', 'system_prompt', 'response', 'id'],
    num_rows: 1008132
})

In [9]:
ko_instruction_01 = ko_instruction_01.train_test_split(test_size=0.2)

In [10]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 806505
    })
    test: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 201627
    })
})

In [11]:
ko_instruction_01["train"][100]

{'question': "과제 정의와 입력이 주어졌을 때 출력으로 답하세요. 이 과제에서는 자연어로 작성된 5개의 문장으로 구성된 짧은 이야기가 주어집니다. 그러나 주어진 이야기의 순서가 올바르지 않습니다. 주어진 5개의 문장을 올바른 순서로 반환하여 올바른 순서로 새로운 흐름이 있는 일관된 짧은 이야기를 만드는 것이 여러분의 임무입니다. 올바른 순서로 5개의 문장이 주어졌을 때 '23415'와 같이 올바른 순서로 답을 생성하세요.\n\n문장1: 그는 가까운 병원으로 비틀거리며 걸어갔습니다. 문장2: 조는 어느 날 밤 집으로 걸어가고 있었습니다. 문장3: 갑자기 한 남자가 다가와 그를 찌르고 말았습니다. 문장4: 그는 회복하는 데 2주 동안 병원에서 입원했습니다. 문장5: 조는 심하게 다쳤어요!\n",
 'system_prompt': '정의에 어떻게 사용했는지 설명해 주세요.',
 'response': "문장이 일관되게 전개되도록 문장의 올바른 순서는 '25314'입니다. 이 순서는 논리적 순서를 제공합니다: 먼저 조는 어느 날 밤 집으로 걸어가고 있었습니다(문장2), 그 다음에는 한 남자가 다가와 그를 찌르고(문장3), 그 결과 그는 심하게 다쳤습니다(문장5). 그 후 그는 가까운 병원으로 비틀거리며 걸어갔고(문장1), 회복을 위해 2주 동안 그곳에 있었습니다(문장4).",
 'id': 'niv.379769'}

In [12]:
dataset_name = "aeolian83/OpenOrca-gugugo-ko_test"

# 4. Loading the Model

In [13]:
model_id = "beomi/llama-2-ko-7b"
device_map = {"": 0}
cache_model_dir="/mnt/t7/.cache/huggingface/models"

In [14]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

In [15]:
# Settings for 4-bit QLoRA Training(4bit QLoRA 학습을 위한 설정)
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True, 
    bnb_4bit_compute_dtype=torch.bfloat16, # Nvidia의 Ampere 아키텍처 이후 가속기는 bf16으로 속도 향상을 꾀할수 있다. 
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

# bnb_4bit_quant_type="nf4" 설정상 기본값은 bnb_4bit_quant_type="fp4"이나 허깅페이스 저자들에 의하면
# 경험적 결과로 "nf4"가 결과가 더 좋았다고 한다. https://huggingface.co/blog/4bit-transformers-bitsandbytes
# bnb_4bit_use_double_quant=True로 하면 매개변수단 0.4bit을 추가로 절약 할 수 있다고 한다. 

In [16]:
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config, device_map=device_map, cache_dir=cache_model_dir, trust_remote_code=True)
model.config.use_cache = False

# model.config.pretraining_tp = 1
# 종종 QLoRA 코드에 이 코드가 보이는데 병렬 학습에 쓰이는 코드로 보인다. 

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

In [17]:
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True, cache_dir=cache_model_dir)
tokenizer.add_special_tokens({'pad_token': '<PAD>'})



1

In [18]:
# 이 코드를 쓰지 않는 경우(물론 패딩 토큰을 별도로 사용하는 경우에 해당됨) loss가 0으로 떨어지는 경우가 있다함
tokenizer.padding_side = "right"

In [19]:
model.resize_token_embeddings(len(tokenizer)) # pad_token이 추가되었으므로 embedding과 language modeling head를 resize

Embedding(46337, 4096)

# 5. LoRA Setup

In [20]:
from peft import LoraConfig, get_peft_model

lora_alpha = 16
lora_dropout = 0.1
lora_r = 64

In [21]:
peft_config = LoraConfig(
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    r=lora_r,
    bias="none",
    task_type="CAUSAL_LM"
)

# 6. Formatting Dataset

In [22]:
def format_instruction(sample):
    system_prompt = f"### system prompt: {sample['system_prompt']}"
    input = f"### question: {sample['question']}" if len(sample["question"]) > 0 else None
    output = f"### response: {sample['response']}"
    # join all the parts together
    prompt = "\n\n".join([i for i in [system_prompt, input, output] if i is not None])
    return prompt

# template dataset to add prompt to each sample
def template_dataset(sample):
    sample["text"] = f"{format_instruction(sample)}{tokenizer.eos_token}"
    return sample

In [23]:
train_dataset = ko_instruction_01['train'].map(template_dataset, remove_columns=list(ko_instruction_01['train'].features), num_proc=10)

Map (num_proc=10):   0%|          | 0/806505 [00:00<?, ? examples/s]

In [24]:
train_dataset["text"][100]

"### system prompt: 정의에 어떻게 사용했는지 설명해 주세요.\n\n### question: 과제 정의와 입력이 주어졌을 때 출력으로 답하세요. 이 과제에서는 자연어로 작성된 5개의 문장으로 구성된 짧은 이야기가 주어집니다. 그러나 주어진 이야기의 순서가 올바르지 않습니다. 주어진 5개의 문장을 올바른 순서로 반환하여 올바른 순서로 새로운 흐름이 있는 일관된 짧은 이야기를 만드는 것이 여러분의 임무입니다. 올바른 순서로 5개의 문장이 주어졌을 때 '23415'와 같이 올바른 순서로 답을 생성하세요.\n\n문장1: 그는 가까운 병원으로 비틀거리며 걸어갔습니다. 문장2: 조는 어느 날 밤 집으로 걸어가고 있었습니다. 문장3: 갑자기 한 남자가 다가와 그를 찌르고 말았습니다. 문장4: 그는 회복하는 데 2주 동안 병원에서 입원했습니다. 문장5: 조는 심하게 다쳤어요!\n\n\n### response: 문장이 일관되게 전개되도록 문장의 올바른 순서는 '25314'입니다. 이 순서는 논리적 순서를 제공합니다: 먼저 조는 어느 날 밤 집으로 걸어가고 있었습니다(문장2), 그 다음에는 한 남자가 다가와 그를 찌르고(문장3), 그 결과 그는 심하게 다쳤습니다(문장5). 그 후 그는 가까운 병원으로 비틀거리며 걸어갔고(문장1), 회복을 위해 2주 동안 그곳에 있었습니다(문장4).</s>"

# 7. Training Argument Setup

In [25]:
from transformers import TrainingArguments

In [26]:
checkpoint_dir = "./checkpoint/gugugo-experi_01"

In [27]:
output_dir = checkpoint_dir
per_device_train_batch_size = 1
gradient_accumulation_steps = 2
optim = "paged_adamw_32bit"
report_to="wandb"
save_steps = 500
save_total_limit=5
num_train_epochs = 0.9
logging_steps = 20
learning_rate = 2e-4
max_grad_norm = 0.3
warmup_ratio = 0.03
lr_scheduler_type = "linear"

In [28]:
training_arguments = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim=optim,
    num_train_epochs=num_train_epochs,
    save_steps=save_steps,
    save_total_limit=save_total_limit,
    logging_steps=logging_steps,
    report_to = report_to,
    learning_rate=learning_rate,
    bf16=True,
    max_grad_norm=max_grad_norm,
    warmup_ratio=warmup_ratio,
    group_by_length=True,
    lr_scheduler_type=lr_scheduler_type,
)

In [29]:
from trl import SFTTrainer

max_seq_length = 1024

In [30]:
trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    # max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
)



Map:   0%|          | 0/806505 [00:00<?, ? examples/s]

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [31]:
for name, module in trainer.model.named_modules():
    if "norm" in name:
        module = module.to(torch.float32)

# 8. Training

In [32]:
# trainer.train()

  0%|          | 0/362927 [00:00<?, ?it/s]

{'loss': 2.9643, 'grad_norm': 0.11669921875, 'learning_rate': 3.6737692872887585e-07, 'epoch': 0.0}
{'loss': 3.5213, 'grad_norm': 0.1728515625, 'learning_rate': 7.347538574577517e-07, 'epoch': 0.0}
{'loss': 3.5268, 'grad_norm': 0.107421875, 'learning_rate': 1.1021307861866277e-06, 'epoch': 0.0}
{'loss': 3.2377, 'grad_norm': 0.1513671875, 'learning_rate': 1.4695077149155034e-06, 'epoch': 0.0}
{'loss': 3.9255, 'grad_norm': 0.2294921875, 'learning_rate': 1.8368846436443793e-06, 'epoch': 0.0}
{'loss': 3.0301, 'grad_norm': 0.1513671875, 'learning_rate': 2.2042615723732554e-06, 'epoch': 0.0}
{'loss': 3.4576, 'grad_norm': 0.185546875, 'learning_rate': 2.571638501102131e-06, 'epoch': 0.0}
{'loss': 3.6152, 'grad_norm': 0.126953125, 'learning_rate': 2.9390154298310068e-06, 'epoch': 0.0}
{'loss': 3.1777, 'grad_norm': 0.1455078125, 'learning_rate': 3.3063923585598822e-06, 'epoch': 0.0}
{'loss': 4.0159, 'grad_norm': 0.361328125, 'learning_rate': 3.6737692872887586e-06, 'epoch': 0.0}
{'loss': 2.9886



{'loss': 2.4219, 'grad_norm': 0.51171875, 'learning_rate': 9.551800146950773e-06, 'epoch': 0.0}
{'loss': 2.6931, 'grad_norm': 0.88671875, 'learning_rate': 9.919177075679648e-06, 'epoch': 0.0}
{'loss': 2.5441, 'grad_norm': 0.369140625, 'learning_rate': 1.0286554004408523e-05, 'epoch': 0.0}
{'loss': 2.3462, 'grad_norm': 0.66796875, 'learning_rate': 1.06539309331374e-05, 'epoch': 0.0}
{'loss': 2.4817, 'grad_norm': 1.0859375, 'learning_rate': 1.1021307861866276e-05, 'epoch': 0.0}
{'loss': 2.1198, 'grad_norm': 0.400390625, 'learning_rate': 1.1388684790595152e-05, 'epoch': 0.0}
{'loss': 2.2072, 'grad_norm': 0.81640625, 'learning_rate': 1.1756061719324027e-05, 'epoch': 0.0}
{'loss': 2.1549, 'grad_norm': 0.515625, 'learning_rate': 1.2123438648052903e-05, 'epoch': 0.0}
{'loss': 2.0403, 'grad_norm': 0.482421875, 'learning_rate': 1.2490815576781778e-05, 'epoch': 0.0}
{'loss': 2.1956, 'grad_norm': 1.6015625, 'learning_rate': 1.2858192505510655e-05, 'epoch': 0.0}
{'loss': 1.9375, 'grad_norm': 0.542



{'loss': 1.8854, 'grad_norm': 0.640625, 'learning_rate': 1.8736223365172666e-05, 'epoch': 0.0}
{'loss': 1.8857, 'grad_norm': 0.68359375, 'learning_rate': 1.9103600293901545e-05, 'epoch': 0.0}
{'loss': 1.872, 'grad_norm': 0.333984375, 'learning_rate': 1.947097722263042e-05, 'epoch': 0.0}
{'loss': 1.9026, 'grad_norm': 0.470703125, 'learning_rate': 1.9838354151359296e-05, 'epoch': 0.0}
{'loss': 1.8504, 'grad_norm': 1.2890625, 'learning_rate': 2.020573108008817e-05, 'epoch': 0.0}
{'loss': 1.871, 'grad_norm': 0.4609375, 'learning_rate': 2.0573108008817047e-05, 'epoch': 0.0}
{'loss': 1.8168, 'grad_norm': 0.59765625, 'learning_rate': 2.0940484937545922e-05, 'epoch': 0.0}
{'loss': 1.934, 'grad_norm': 0.5390625, 'learning_rate': 2.13078618662748e-05, 'epoch': 0.0}
{'loss': 1.7372, 'grad_norm': 0.578125, 'learning_rate': 2.1675238795003673e-05, 'epoch': 0.0}
{'loss': 1.7659, 'grad_norm': 2.3125, 'learning_rate': 2.2042615723732552e-05, 'epoch': 0.0}
{'loss': 1.7805, 'grad_norm': 0.6640625, 'lear



{'loss': 1.7352, 'grad_norm': 0.455078125, 'learning_rate': 2.7920646583394567e-05, 'epoch': 0.0}
{'loss': 1.8085, 'grad_norm': 0.78515625, 'learning_rate': 2.8288023512123442e-05, 'epoch': 0.0}
{'loss': 1.8156, 'grad_norm': 0.37890625, 'learning_rate': 2.8655400440852314e-05, 'epoch': 0.0}
{'loss': 1.784, 'grad_norm': 0.62109375, 'learning_rate': 2.9022777369581193e-05, 'epoch': 0.0}
{'loss': 1.7057, 'grad_norm': 2.046875, 'learning_rate': 2.939015429831007e-05, 'epoch': 0.0}
{'loss': 1.7688, 'grad_norm': 0.5859375, 'learning_rate': 2.9757531227038944e-05, 'epoch': 0.0}
{'loss': 1.8208, 'grad_norm': 0.8984375, 'learning_rate': 3.0124908155767816e-05, 'epoch': 0.0}
{'loss': 1.8159, 'grad_norm': 0.58203125, 'learning_rate': 3.04922850844967e-05, 'epoch': 0.0}
{'loss': 1.8248, 'grad_norm': 0.5546875, 'learning_rate': 3.0859662013225574e-05, 'epoch': 0.0}
{'loss': 1.7353, 'grad_norm': 1.625, 'learning_rate': 3.122703894195444e-05, 'epoch': 0.0}
{'loss': 1.7967, 'grad_norm': 0.56640625, 'l



{'loss': 1.8515, 'grad_norm': 0.45703125, 'learning_rate': 3.710506980161646e-05, 'epoch': 0.01}
{'loss': 1.8024, 'grad_norm': 0.89453125, 'learning_rate': 3.747244673034533e-05, 'epoch': 0.01}
{'loss': 1.6921, 'grad_norm': 0.419921875, 'learning_rate': 3.7839823659074215e-05, 'epoch': 0.01}
{'loss': 1.7351, 'grad_norm': 0.58203125, 'learning_rate': 3.820720058780309e-05, 'epoch': 0.01}
{'loss': 1.5749, 'grad_norm': 1.234375, 'learning_rate': 3.8574577516531966e-05, 'epoch': 0.01}
{'loss': 1.7235, 'grad_norm': 0.40234375, 'learning_rate': 3.894195444526084e-05, 'epoch': 0.01}
{'loss': 1.6393, 'grad_norm': 0.97265625, 'learning_rate': 3.9309331373989717e-05, 'epoch': 0.01}
{'loss': 1.6461, 'grad_norm': 0.490234375, 'learning_rate': 3.967670830271859e-05, 'epoch': 0.01}
{'loss': 1.7391, 'grad_norm': 0.5859375, 'learning_rate': 4.004408523144747e-05, 'epoch': 0.01}
{'loss': 1.5823, 'grad_norm': 1.3046875, 'learning_rate': 4.041146216017634e-05, 'epoch': 0.01}
{'loss': 1.7615, 'grad_norm':



{'loss': 1.7087, 'grad_norm': 0.5390625, 'learning_rate': 4.628949301983835e-05, 'epoch': 0.01}
{'loss': 1.6815, 'grad_norm': 0.75390625, 'learning_rate': 4.665686994856723e-05, 'epoch': 0.01}
{'loss': 1.6942, 'grad_norm': 0.451171875, 'learning_rate': 4.702424687729611e-05, 'epoch': 0.01}
{'loss': 1.6611, 'grad_norm': 0.71875, 'learning_rate': 4.7391623806024984e-05, 'epoch': 0.01}
{'loss': 1.6035, 'grad_norm': 1.5, 'learning_rate': 4.775900073475386e-05, 'epoch': 0.01}
{'loss': 1.6575, 'grad_norm': 0.458984375, 'learning_rate': 4.8126377663482735e-05, 'epoch': 0.01}
{'loss': 1.772, 'grad_norm': 0.83984375, 'learning_rate': 4.849375459221161e-05, 'epoch': 0.01}
{'loss': 1.6794, 'grad_norm': 0.5, 'learning_rate': 4.886113152094049e-05, 'epoch': 0.01}
{'loss': 1.7404, 'grad_norm': 0.5859375, 'learning_rate': 4.922850844966936e-05, 'epoch': 0.01}
{'loss': 1.5972, 'grad_norm': 1.7109375, 'learning_rate': 4.959588537839824e-05, 'epoch': 0.01}
{'loss': 1.7994, 'grad_norm': 0.53515625, 'lear



{'loss': 1.7749, 'grad_norm': 0.4765625, 'learning_rate': 5.547391623806025e-05, 'epoch': 0.01}
{'loss': 1.6471, 'grad_norm': 0.7265625, 'learning_rate': 5.584129316678913e-05, 'epoch': 0.01}
{'loss': 1.6566, 'grad_norm': 0.46484375, 'learning_rate': 5.6208670095518e-05, 'epoch': 0.01}
{'loss': 1.6909, 'grad_norm': 0.765625, 'learning_rate': 5.6576047024246884e-05, 'epoch': 0.01}
{'loss': 1.5659, 'grad_norm': 2.125, 'learning_rate': 5.694342395297576e-05, 'epoch': 0.01}
{'loss': 1.6413, 'grad_norm': 0.6796875, 'learning_rate': 5.731080088170463e-05, 'epoch': 0.01}
{'loss': 1.6662, 'grad_norm': 1.234375, 'learning_rate': 5.767817781043351e-05, 'epoch': 0.01}
{'loss': 1.5013, 'grad_norm': 0.404296875, 'learning_rate': 5.8045554739162386e-05, 'epoch': 0.01}
{'loss': 1.7278, 'grad_norm': 0.56640625, 'learning_rate': 5.8412931667891255e-05, 'epoch': 0.01}
{'loss': 1.6139, 'grad_norm': 1.3515625, 'learning_rate': 5.878030859662014e-05, 'epoch': 0.01}
{'loss': 1.6731, 'grad_norm': 0.56640625,



{'loss': 1.7274, 'grad_norm': 0.5625, 'learning_rate': 6.465833945628215e-05, 'epoch': 0.01}
{'loss': 1.6169, 'grad_norm': 0.82421875, 'learning_rate': 6.502571638501103e-05, 'epoch': 0.01}
{'loss': 1.6289, 'grad_norm': 0.419921875, 'learning_rate': 6.539309331373989e-05, 'epoch': 0.01}
{'loss': 1.5871, 'grad_norm': 0.61328125, 'learning_rate': 6.576047024246878e-05, 'epoch': 0.01}
{'loss': 1.5834, 'grad_norm': 1.390625, 'learning_rate': 6.612784717119765e-05, 'epoch': 0.01}
{'loss': 1.8325, 'grad_norm': 0.46875, 'learning_rate': 6.649522409992653e-05, 'epoch': 0.01}
{'loss': 1.6316, 'grad_norm': 0.83203125, 'learning_rate': 6.68626010286554e-05, 'epoch': 0.01}
{'loss': 1.569, 'grad_norm': 0.51953125, 'learning_rate': 6.722997795738428e-05, 'epoch': 0.01}
{'loss': 1.7475, 'grad_norm': 0.6015625, 'learning_rate': 6.759735488611316e-05, 'epoch': 0.01}
{'loss': 1.4786, 'grad_norm': 1.53125, 'learning_rate': 6.796473181484203e-05, 'epoch': 0.01}
{'loss': 1.7496, 'grad_norm': 0.51171875, 'l



{'loss': 1.6526, 'grad_norm': 0.55078125, 'learning_rate': 7.384276267450404e-05, 'epoch': 0.01}
{'loss': 1.697, 'grad_norm': 0.87109375, 'learning_rate': 7.421013960323291e-05, 'epoch': 0.01}
{'loss': 1.6136, 'grad_norm': 0.416015625, 'learning_rate': 7.45775165319618e-05, 'epoch': 0.01}
{'loss': 1.7351, 'grad_norm': 0.59375, 'learning_rate': 7.494489346069066e-05, 'epoch': 0.01}
{'loss': 1.484, 'grad_norm': 1.5859375, 'learning_rate': 7.531227038941955e-05, 'epoch': 0.01}
{'loss': 1.7454, 'grad_norm': 0.396484375, 'learning_rate': 7.567964731814843e-05, 'epoch': 0.01}
{'loss': 1.5718, 'grad_norm': 0.921875, 'learning_rate': 7.604702424687729e-05, 'epoch': 0.01}
{'loss': 1.5922, 'grad_norm': 0.66015625, 'learning_rate': 7.641440117560618e-05, 'epoch': 0.01}
{'loss': 1.6329, 'grad_norm': 0.734375, 'learning_rate': 7.678177810433506e-05, 'epoch': 0.01}
{'loss': 1.5405, 'grad_norm': 1.703125, 'learning_rate': 7.714915503306393e-05, 'epoch': 0.01}
{'loss': 1.6435, 'grad_norm': 0.390625, '



{'loss': 1.6648, 'grad_norm': 0.55859375, 'learning_rate': 8.302718589272594e-05, 'epoch': 0.01}
{'loss': 1.546, 'grad_norm': 0.81640625, 'learning_rate': 8.339456282145481e-05, 'epoch': 0.01}
{'loss': 1.5867, 'grad_norm': 0.4609375, 'learning_rate': 8.376193975018369e-05, 'epoch': 0.01}
{'loss': 1.557, 'grad_norm': 0.58984375, 'learning_rate': 8.412931667891258e-05, 'epoch': 0.01}
{'loss': 1.4922, 'grad_norm': 1.34375, 'learning_rate': 8.449669360764144e-05, 'epoch': 0.01}
{'loss': 1.6145, 'grad_norm': 0.412109375, 'learning_rate': 8.486407053637032e-05, 'epoch': 0.01}
{'loss': 1.6395, 'grad_norm': 0.890625, 'learning_rate': 8.52314474650992e-05, 'epoch': 0.01}
{'loss': 1.5828, 'grad_norm': 0.400390625, 'learning_rate': 8.559882439382807e-05, 'epoch': 0.01}
{'loss': 1.5504, 'grad_norm': 0.5859375, 'learning_rate': 8.596620132255696e-05, 'epoch': 0.01}
{'loss': 1.5433, 'grad_norm': 1.28125, 'learning_rate': 8.633357825128582e-05, 'epoch': 0.01}
{'loss': 1.6983, 'grad_norm': 0.6796875, 



{'loss': 1.6386, 'grad_norm': 0.515625, 'learning_rate': 9.221160911094784e-05, 'epoch': 0.01}
{'loss': 1.4872, 'grad_norm': 1.1015625, 'learning_rate': 9.25789860396767e-05, 'epoch': 0.01}
{'loss': 1.5197, 'grad_norm': 0.50390625, 'learning_rate': 9.294636296840559e-05, 'epoch': 0.01}
{'loss': 1.5165, 'grad_norm': 0.59375, 'learning_rate': 9.331373989713447e-05, 'epoch': 0.01}
{'loss': 1.6111, 'grad_norm': 1.8828125, 'learning_rate': 9.368111682586334e-05, 'epoch': 0.01}
{'loss': 1.6338, 'grad_norm': 0.5234375, 'learning_rate': 9.404849375459222e-05, 'epoch': 0.01}
{'loss': 1.6055, 'grad_norm': 0.78125, 'learning_rate': 9.441587068332109e-05, 'epoch': 0.01}
{'loss': 1.5963, 'grad_norm': 0.5546875, 'learning_rate': 9.478324761204997e-05, 'epoch': 0.01}
{'loss': 1.5608, 'grad_norm': 0.5859375, 'learning_rate': 9.515062454077884e-05, 'epoch': 0.01}
{'loss': 1.46, 'grad_norm': 1.25, 'learning_rate': 9.551800146950772e-05, 'epoch': 0.01}
{'loss': 1.6898, 'grad_norm': 0.474609375, 'learning



{'loss': 1.5482, 'grad_norm': 0.474609375, 'learning_rate': 0.00010139603232916974, 'epoch': 0.01}
{'loss': 1.5635, 'grad_norm': 0.734375, 'learning_rate': 0.0001017634092578986, 'epoch': 0.01}
{'loss': 1.536, 'grad_norm': 0.4609375, 'learning_rate': 0.00010213078618662748, 'epoch': 0.01}
{'loss': 1.5047, 'grad_norm': 0.671875, 'learning_rate': 0.00010249816311535637, 'epoch': 0.01}
{'loss': 1.5079, 'grad_norm': 1.375, 'learning_rate': 0.00010286554004408524, 'epoch': 0.01}
{'loss': 1.6525, 'grad_norm': 0.67578125, 'learning_rate': 0.00010323291697281412, 'epoch': 0.01}
{'loss': 1.6795, 'grad_norm': 0.75, 'learning_rate': 0.00010360029390154298, 'epoch': 0.01}
{'loss': 1.5907, 'grad_norm': 0.4375, 'learning_rate': 0.00010396767083027185, 'epoch': 0.01}
{'loss': 1.5335, 'grad_norm': 0.54296875, 'learning_rate': 0.00010433504775900074, 'epoch': 0.01}
{'loss': 1.4349, 'grad_norm': 0.9140625, 'learning_rate': 0.00010470242468772962, 'epoch': 0.01}
{'loss': 1.6058, 'grad_norm': 0.470703125,



{'loss': 1.6902, 'grad_norm': 0.5546875, 'learning_rate': 0.00011058045554739163, 'epoch': 0.01}
{'loss': 1.5565, 'grad_norm': 0.82421875, 'learning_rate': 0.0001109478324761205, 'epoch': 0.01}
{'loss': 1.5602, 'grad_norm': 0.4375, 'learning_rate': 0.00011131520940484939, 'epoch': 0.02}
{'loss': 1.4281, 'grad_norm': 0.58203125, 'learning_rate': 0.00011168258633357827, 'epoch': 0.02}
{'loss': 1.427, 'grad_norm': 1.453125, 'learning_rate': 0.00011204996326230713, 'epoch': 0.02}
{'loss': 1.6441, 'grad_norm': 0.5546875, 'learning_rate': 0.000112417340191036, 'epoch': 0.02}
{'loss': 1.3127, 'grad_norm': 0.75390625, 'learning_rate': 0.00011278471711976488, 'epoch': 0.02}
{'loss': 1.5335, 'grad_norm': 0.4296875, 'learning_rate': 0.00011315209404849377, 'epoch': 0.02}
{'loss': 1.4675, 'grad_norm': 0.546875, 'learning_rate': 0.00011351947097722264, 'epoch': 0.02}
{'loss': 1.2993, 'grad_norm': 1.28125, 'learning_rate': 0.00011388684790595152, 'epoch': 0.02}
{'loss': 1.5628, 'grad_norm': 0.640625



{'loss': 1.534, 'grad_norm': 0.55078125, 'learning_rate': 0.00011976487876561353, 'epoch': 0.02}
{'loss': 1.4839, 'grad_norm': 0.9140625, 'learning_rate': 0.00012013225569434242, 'epoch': 0.02}
{'loss': 1.4577, 'grad_norm': 0.345703125, 'learning_rate': 0.00012049963262307126, 'epoch': 0.02}
{'loss': 1.5781, 'grad_norm': 0.44140625, 'learning_rate': 0.00012086700955180015, 'epoch': 0.02}
{'loss': 1.3562, 'grad_norm': 1.140625, 'learning_rate': 0.00012123438648052903, 'epoch': 0.02}
{'loss': 1.686, 'grad_norm': 0.43359375, 'learning_rate': 0.0001216017634092579, 'epoch': 0.02}
{'loss': 1.5392, 'grad_norm': 0.8046875, 'learning_rate': 0.0001219691403379868, 'epoch': 0.02}
{'loss': 1.4505, 'grad_norm': 0.376953125, 'learning_rate': 0.00012233651726671567, 'epoch': 0.02}
{'loss': 1.5848, 'grad_norm': 0.54296875, 'learning_rate': 0.00012270389419544452, 'epoch': 0.02}
{'loss': 1.5188, 'grad_norm': 1.328125, 'learning_rate': 0.0001230712711241734, 'epoch': 0.02}
{'loss': 1.6225, 'grad_norm':



{'loss': 1.5653, 'grad_norm': 0.4609375, 'learning_rate': 0.0001289493019838354, 'epoch': 0.02}
{'loss': 1.5036, 'grad_norm': 0.466796875, 'learning_rate': 0.0001293166789125643, 'epoch': 0.02}
{'loss': 1.5995, 'grad_norm': 0.462890625, 'learning_rate': 0.00012968405584129318, 'epoch': 0.02}
{'loss': 1.6066, 'grad_norm': 0.57421875, 'learning_rate': 0.00013005143277002205, 'epoch': 0.02}
{'loss': 1.38, 'grad_norm': 1.140625, 'learning_rate': 0.00013041880969875093, 'epoch': 0.02}
{'loss': 1.6557, 'grad_norm': 0.451171875, 'learning_rate': 0.00013078618662747978, 'epoch': 0.02}
{'loss': 1.4926, 'grad_norm': 0.8203125, 'learning_rate': 0.00013115356355620868, 'epoch': 0.02}
{'loss': 1.3958, 'grad_norm': 0.4140625, 'learning_rate': 0.00013152094048493756, 'epoch': 0.02}
{'loss': 1.5295, 'grad_norm': 0.7265625, 'learning_rate': 0.00013188831741366643, 'epoch': 0.02}
{'loss': 1.5282, 'grad_norm': 1.28125, 'learning_rate': 0.0001322556943423953, 'epoch': 0.02}
{'loss': 1.5115, 'grad_norm': 0



{'loss': 1.55, 'grad_norm': 0.45703125, 'learning_rate': 0.00013813372520205731, 'epoch': 0.02}
{'loss': 1.4852, 'grad_norm': 0.71484375, 'learning_rate': 0.0001385011021307862, 'epoch': 0.02}
{'loss': 1.4986, 'grad_norm': 0.41796875, 'learning_rate': 0.00013886847905951507, 'epoch': 0.02}
{'loss': 1.4363, 'grad_norm': 0.57421875, 'learning_rate': 0.00013923585598824394, 'epoch': 0.02}
{'loss': 1.3618, 'grad_norm': 0.96484375, 'learning_rate': 0.00013960323291697282, 'epoch': 0.02}
{'loss': 1.5539, 'grad_norm': 0.44921875, 'learning_rate': 0.0001399706098457017, 'epoch': 0.02}
{'loss': 1.4871, 'grad_norm': 0.9296875, 'learning_rate': 0.00014033798677443057, 'epoch': 0.02}
{'loss': 1.4629, 'grad_norm': 0.490234375, 'learning_rate': 0.00014070536370315944, 'epoch': 0.02}
{'loss': 1.5603, 'grad_norm': 0.3984375, 'learning_rate': 0.00014107274063188835, 'epoch': 0.02}
{'loss': 1.4042, 'grad_norm': 1.5703125, 'learning_rate': 0.0001414401175606172, 'epoch': 0.02}
{'loss': 1.656, 'grad_norm'



{'loss': 1.55, 'grad_norm': 0.55859375, 'learning_rate': 0.00014731814842027923, 'epoch': 0.02}
{'loss': 1.5389, 'grad_norm': 0.76171875, 'learning_rate': 0.00014768552534900808, 'epoch': 0.02}
{'loss': 1.5074, 'grad_norm': 0.41015625, 'learning_rate': 0.00014805290227773695, 'epoch': 0.02}
{'loss': 1.5687, 'grad_norm': 0.49609375, 'learning_rate': 0.00014842027920646583, 'epoch': 0.02}
{'loss': 1.4023, 'grad_norm': 1.171875, 'learning_rate': 0.00014878765613519473, 'epoch': 0.02}
{'loss': 1.6255, 'grad_norm': 0.45703125, 'learning_rate': 0.0001491550330639236, 'epoch': 0.02}
{'loss': 1.3731, 'grad_norm': 0.69921875, 'learning_rate': 0.00014952240999265248, 'epoch': 0.02}
{'loss': 1.507, 'grad_norm': 0.40234375, 'learning_rate': 0.00014988978692138133, 'epoch': 0.02}
{'loss': 1.4951, 'grad_norm': 0.5390625, 'learning_rate': 0.0001502571638501102, 'epoch': 0.02}
{'loss': 1.357, 'grad_norm': 0.83984375, 'learning_rate': 0.0001506245407788391, 'epoch': 0.02}
{'loss': 1.6624, 'grad_norm': 



{'loss': 1.6105, 'grad_norm': 0.435546875, 'learning_rate': 0.00015650257163850112, 'epoch': 0.02}
{'loss': 1.3696, 'grad_norm': 0.46484375, 'learning_rate': 0.00015686994856723, 'epoch': 0.02}
{'loss': 1.4257, 'grad_norm': 0.3984375, 'learning_rate': 0.00015723732549595887, 'epoch': 0.02}
{'loss': 1.5419, 'grad_norm': 0.53515625, 'learning_rate': 0.00015760470242468774, 'epoch': 0.02}
{'loss': 1.3389, 'grad_norm': 1.796875, 'learning_rate': 0.0001579720793534166, 'epoch': 0.02}
{'loss': 1.5226, 'grad_norm': 0.462890625, 'learning_rate': 0.0001583394562821455, 'epoch': 0.02}
{'loss': 1.4611, 'grad_norm': 0.65234375, 'learning_rate': 0.00015870683321087437, 'epoch': 0.02}
{'loss': 1.4665, 'grad_norm': 0.35546875, 'learning_rate': 0.00015907421013960324, 'epoch': 0.02}
{'loss': 1.482, 'grad_norm': 0.52734375, 'learning_rate': 0.00015944158706833212, 'epoch': 0.02}
{'loss': 1.4562, 'grad_norm': 0.734375, 'learning_rate': 0.000159808963997061, 'epoch': 0.02}
{'loss': 1.5894, 'grad_norm': 0



{'loss': 1.6878, 'grad_norm': 0.37890625, 'learning_rate': 0.000165686994856723, 'epoch': 0.02}
{'loss': 1.4233, 'grad_norm': 0.6484375, 'learning_rate': 0.00016605437178545188, 'epoch': 0.02}
{'loss': 1.4807, 'grad_norm': 0.3828125, 'learning_rate': 0.00016642174871418075, 'epoch': 0.02}
{'loss': 1.4015, 'grad_norm': 0.498046875, 'learning_rate': 0.00016678912564290963, 'epoch': 0.02}
{'loss': 1.3194, 'grad_norm': 1.09375, 'learning_rate': 0.0001671565025716385, 'epoch': 0.02}
{'loss': 1.5582, 'grad_norm': 0.5390625, 'learning_rate': 0.00016752387950036738, 'epoch': 0.02}
{'loss': 1.4363, 'grad_norm': 0.62109375, 'learning_rate': 0.00016789125642909626, 'epoch': 0.02}
{'loss': 1.5102, 'grad_norm': 0.38671875, 'learning_rate': 0.00016825863335782516, 'epoch': 0.02}
{'loss': 1.5714, 'grad_norm': 0.47265625, 'learning_rate': 0.000168626010286554, 'epoch': 0.02}
{'loss': 1.3245, 'grad_norm': 0.8125, 'learning_rate': 0.00016899338721528288, 'epoch': 0.02}
{'loss': 1.5239, 'grad_norm': 0.46



{'loss': 1.449, 'grad_norm': 0.447265625, 'learning_rate': 0.0001748714180749449, 'epoch': 0.02}
{'loss': 1.4704, 'grad_norm': 0.58203125, 'learning_rate': 0.00017523879500367376, 'epoch': 0.02}
{'loss': 1.5236, 'grad_norm': 0.375, 'learning_rate': 0.00017560617193240264, 'epoch': 0.02}
{'loss': 1.4977, 'grad_norm': 0.58203125, 'learning_rate': 0.00017597354886113154, 'epoch': 0.02}
{'loss': 1.371, 'grad_norm': 1.4765625, 'learning_rate': 0.00017634092578986042, 'epoch': 0.02}
{'loss': 1.5638, 'grad_norm': 0.45703125, 'learning_rate': 0.0001767083027185893, 'epoch': 0.02}
{'loss': 1.3612, 'grad_norm': 0.6640625, 'learning_rate': 0.00017707567964731814, 'epoch': 0.02}
{'loss': 1.3901, 'grad_norm': 0.3125, 'learning_rate': 0.00017744305657604702, 'epoch': 0.02}
{'loss': 1.4795, 'grad_norm': 0.5234375, 'learning_rate': 0.00017781043350477592, 'epoch': 0.02}
{'loss': 1.332, 'grad_norm': 0.53125, 'learning_rate': 0.0001781778104335048, 'epoch': 0.02}
{'loss': 1.5336, 'grad_norm': 0.39257812



{'loss': 1.6298, 'grad_norm': 0.359375, 'learning_rate': 0.0001840558412931668, 'epoch': 0.02}
{'loss': 1.3906, 'grad_norm': 0.6015625, 'learning_rate': 0.00018442321822189568, 'epoch': 0.02}
{'loss': 1.4109, 'grad_norm': 0.35546875, 'learning_rate': 0.00018479059515062455, 'epoch': 0.02}
{'loss': 1.4233, 'grad_norm': 0.490234375, 'learning_rate': 0.0001851579720793534, 'epoch': 0.02}
{'loss': 1.3589, 'grad_norm': 0.87890625, 'learning_rate': 0.0001855253490080823, 'epoch': 0.03}
{'loss': 1.4421, 'grad_norm': 0.396484375, 'learning_rate': 0.00018589272593681118, 'epoch': 0.03}
{'loss': 1.3791, 'grad_norm': 0.546875, 'learning_rate': 0.00018626010286554006, 'epoch': 0.03}
{'loss': 1.3988, 'grad_norm': 0.279296875, 'learning_rate': 0.00018662747979426893, 'epoch': 0.03}
{'loss': 1.5662, 'grad_norm': 0.671875, 'learning_rate': 0.0001869948567229978, 'epoch': 0.03}
{'loss': 1.2653, 'grad_norm': 1.4609375, 'learning_rate': 0.00018736223365172668, 'epoch': 0.03}
{'loss': 1.6625, 'grad_norm':



{'loss': 1.4949, 'grad_norm': 0.455078125, 'learning_rate': 0.0001932402645113887, 'epoch': 0.03}
{'loss': 1.452, 'grad_norm': 0.66015625, 'learning_rate': 0.00019360764144011757, 'epoch': 0.03}
{'loss': 1.6242, 'grad_norm': 0.376953125, 'learning_rate': 0.00019397501836884644, 'epoch': 0.03}
{'loss': 1.5251, 'grad_norm': 0.439453125, 'learning_rate': 0.00019434239529757532, 'epoch': 0.03}
{'loss': 1.3971, 'grad_norm': 0.73828125, 'learning_rate': 0.0001947097722263042, 'epoch': 0.03}
{'loss': 1.4373, 'grad_norm': 0.455078125, 'learning_rate': 0.00019507714915503307, 'epoch': 0.03}
{'loss': 1.4068, 'grad_norm': 0.5078125, 'learning_rate': 0.00019544452608376197, 'epoch': 0.03}
{'loss': 1.3793, 'grad_norm': 0.306640625, 'learning_rate': 0.00019581190301249082, 'epoch': 0.03}
{'loss': 1.4675, 'grad_norm': 0.51171875, 'learning_rate': 0.0001961792799412197, 'epoch': 0.03}
{'loss': 1.4064, 'grad_norm': 0.7109375, 'learning_rate': 0.00019654665686994857, 'epoch': 0.03}
{'loss': 1.5163, 'gra



{'loss': 1.7151, 'grad_norm': 0.5, 'learning_rate': 0.00019992500830873854, 'epoch': 0.03}
{'loss': 1.3562, 'grad_norm': 0.61328125, 'learning_rate': 0.00019991364593127466, 'epoch': 0.03}
{'loss': 1.5192, 'grad_norm': 0.349609375, 'learning_rate': 0.0001999022835538108, 'epoch': 0.03}
{'loss': 1.4471, 'grad_norm': 0.435546875, 'learning_rate': 0.00019989092117634697, 'epoch': 0.03}
{'loss': 1.3053, 'grad_norm': 0.7734375, 'learning_rate': 0.0001998795587988831, 'epoch': 0.03}
{'loss': 1.6444, 'grad_norm': 0.37890625, 'learning_rate': 0.00019986819642141924, 'epoch': 0.03}
{'loss': 1.493, 'grad_norm': 0.7578125, 'learning_rate': 0.00019985683404395537, 'epoch': 0.03}
{'loss': 1.3418, 'grad_norm': 0.32421875, 'learning_rate': 0.0001998454716664915, 'epoch': 0.03}
{'loss': 1.4951, 'grad_norm': 0.56640625, 'learning_rate': 0.00019983410928902764, 'epoch': 0.03}
{'loss': 1.3543, 'grad_norm': 0.84375, 'learning_rate': 0.0001998227469115638, 'epoch': 0.03}
{'loss': 1.4359, 'grad_norm': 0.392



{'loss': 1.5006, 'grad_norm': 0.345703125, 'learning_rate': 0.00019964094887214203, 'epoch': 0.03}
{'loss': 1.4135, 'grad_norm': 0.5078125, 'learning_rate': 0.00019962958649467815, 'epoch': 0.03}
{'loss': 1.5884, 'grad_norm': 0.333984375, 'learning_rate': 0.0001996182241172143, 'epoch': 0.03}
{'loss': 1.4273, 'grad_norm': 0.4921875, 'learning_rate': 0.00019960686173975043, 'epoch': 0.03}
{'loss': 1.2563, 'grad_norm': 0.5859375, 'learning_rate': 0.00019959549936228658, 'epoch': 0.03}
{'loss': 1.4811, 'grad_norm': 0.431640625, 'learning_rate': 0.00019958413698482273, 'epoch': 0.03}
{'loss': 1.3883, 'grad_norm': 0.67578125, 'learning_rate': 0.00019957277460735885, 'epoch': 0.03}
{'loss': 1.3552, 'grad_norm': 0.333984375, 'learning_rate': 0.000199561412229895, 'epoch': 0.03}
{'loss': 1.4603, 'grad_norm': 0.41015625, 'learning_rate': 0.00019955004985243113, 'epoch': 0.03}
{'loss': 1.395, 'grad_norm': 0.765625, 'learning_rate': 0.00019953868747496728, 'epoch': 0.03}
{'loss': 1.4815, 'grad_no



{'loss': 1.4699, 'grad_norm': 0.412109375, 'learning_rate': 0.0001993568894355455, 'epoch': 0.03}
{'loss': 1.4423, 'grad_norm': 0.546875, 'learning_rate': 0.00019934552705808164, 'epoch': 0.03}
{'loss': 1.4563, 'grad_norm': 0.322265625, 'learning_rate': 0.0001993341646806178, 'epoch': 0.03}
{'loss': 1.4558, 'grad_norm': 0.353515625, 'learning_rate': 0.0001993228023031539, 'epoch': 0.03}
{'loss': 1.2705, 'grad_norm': 1.2265625, 'learning_rate': 0.00019931143992569006, 'epoch': 0.03}
{'loss': 1.5716, 'grad_norm': 0.419921875, 'learning_rate': 0.0001993000775482262, 'epoch': 0.03}
{'loss': 1.4652, 'grad_norm': 0.625, 'learning_rate': 0.00019928871517076234, 'epoch': 0.03}
{'loss': 1.4366, 'grad_norm': 0.373046875, 'learning_rate': 0.0001992773527932985, 'epoch': 0.03}
{'loss': 1.4438, 'grad_norm': 0.53515625, 'learning_rate': 0.00019926599041583462, 'epoch': 0.03}
{'loss': 1.3157, 'grad_norm': 1.0390625, 'learning_rate': 0.00019925462803837077, 'epoch': 0.03}
{'loss': 1.6117, 'grad_norm':



{'loss': 1.5396, 'grad_norm': 0.51953125, 'learning_rate': 0.00019907282999894897, 'epoch': 0.03}
{'loss': 1.4538, 'grad_norm': 0.58203125, 'learning_rate': 0.00019906146762148512, 'epoch': 0.03}
{'loss': 1.3493, 'grad_norm': 0.3671875, 'learning_rate': 0.00019905010524402128, 'epoch': 0.03}
{'loss': 1.4911, 'grad_norm': 0.60546875, 'learning_rate': 0.00019903874286655743, 'epoch': 0.03}
{'loss': 1.3203, 'grad_norm': 0.67578125, 'learning_rate': 0.00019902738048909355, 'epoch': 0.03}
{'loss': 1.4651, 'grad_norm': 0.318359375, 'learning_rate': 0.00019901601811162968, 'epoch': 0.03}
{'loss': 1.3667, 'grad_norm': 0.62109375, 'learning_rate': 0.00019900465573416583, 'epoch': 0.03}
{'loss': 1.4568, 'grad_norm': 0.33984375, 'learning_rate': 0.00019899329335670195, 'epoch': 0.03}
{'loss': 1.4633, 'grad_norm': 0.423828125, 'learning_rate': 0.0001989819309792381, 'epoch': 0.03}
{'loss': 1.2692, 'grad_norm': 0.94921875, 'learning_rate': 0.00019897056860177425, 'epoch': 0.03}
{'loss': 1.5815, 'gr



{'loss': 1.4148, 'grad_norm': 0.375, 'learning_rate': 0.0001987887705623525, 'epoch': 0.03}
{'loss': 1.3681, 'grad_norm': 0.5546875, 'learning_rate': 0.0001987774081848886, 'epoch': 0.03}
{'loss': 1.351, 'grad_norm': 0.30859375, 'learning_rate': 0.00019876604580742476, 'epoch': 0.03}
{'loss': 1.4042, 'grad_norm': 0.46875, 'learning_rate': 0.0001987546834299609, 'epoch': 0.03}
{'loss': 1.289, 'grad_norm': 0.443359375, 'learning_rate': 0.00019874332105249704, 'epoch': 0.03}
{'loss': 1.6349, 'grad_norm': 0.3203125, 'learning_rate': 0.0001987319586750332, 'epoch': 0.03}
{'loss': 1.33, 'grad_norm': 0.439453125, 'learning_rate': 0.00019872059629756931, 'epoch': 0.03}
{'loss': 1.2393, 'grad_norm': 0.359375, 'learning_rate': 0.00019870923392010546, 'epoch': 0.03}
{'loss': 1.5247, 'grad_norm': 0.5703125, 'learning_rate': 0.0001986978715426416, 'epoch': 0.03}
{'loss': 1.3285, 'grad_norm': 0.83203125, 'learning_rate': 0.00019868650916517771, 'epoch': 0.03}
{'loss': 1.5434, 'grad_norm': 0.4140625,



{'loss': 1.5333, 'grad_norm': 0.353515625, 'learning_rate': 0.00019850471112575597, 'epoch': 0.03}
{'loss': 1.3668, 'grad_norm': 0.56640625, 'learning_rate': 0.0001984933487482921, 'epoch': 0.03}
{'loss': 1.4056, 'grad_norm': 0.291015625, 'learning_rate': 0.00019848198637082825, 'epoch': 0.03}
{'loss': 1.4487, 'grad_norm': 0.44140625, 'learning_rate': 0.00019847062399336437, 'epoch': 0.03}
{'loss': 1.2323, 'grad_norm': 0.66015625, 'learning_rate': 0.00019845926161590052, 'epoch': 0.03}
{'loss': 1.5099, 'grad_norm': 0.4140625, 'learning_rate': 0.00019844789923843665, 'epoch': 0.03}
{'loss': 1.356, 'grad_norm': 0.5078125, 'learning_rate': 0.0001984365368609728, 'epoch': 0.03}
{'loss': 1.3402, 'grad_norm': 0.423828125, 'learning_rate': 0.00019842517448350895, 'epoch': 0.03}
{'loss': 1.405, 'grad_norm': 0.46484375, 'learning_rate': 0.00019841381210604508, 'epoch': 0.03}
{'loss': 1.2102, 'grad_norm': 0.58984375, 'learning_rate': 0.00019840244972858123, 'epoch': 0.03}
{'loss': 1.6028, 'grad_



{'loss': 1.5855, 'grad_norm': 0.498046875, 'learning_rate': 0.00019822065168915943, 'epoch': 0.03}
{'loss': 1.3986, 'grad_norm': 0.439453125, 'learning_rate': 0.00019820928931169558, 'epoch': 0.03}
{'loss': 1.2686, 'grad_norm': 0.357421875, 'learning_rate': 0.00019819792693423174, 'epoch': 0.03}
{'loss': 1.504, 'grad_norm': 0.41015625, 'learning_rate': 0.00019818656455676786, 'epoch': 0.03}
{'loss': 1.3525, 'grad_norm': 0.98046875, 'learning_rate': 0.000198175202179304, 'epoch': 0.03}
{'loss': 1.5887, 'grad_norm': 0.4140625, 'learning_rate': 0.00019816383980184014, 'epoch': 0.04}
{'loss': 1.3351, 'grad_norm': 0.64453125, 'learning_rate': 0.0001981524774243763, 'epoch': 0.04}
{'loss': 1.5316, 'grad_norm': 0.33203125, 'learning_rate': 0.0001981411150469124, 'epoch': 0.04}
{'loss': 1.3955, 'grad_norm': 0.421875, 'learning_rate': 0.00019812975266944856, 'epoch': 0.04}
{'loss': 1.2497, 'grad_norm': 0.8203125, 'learning_rate': 0.00019811839029198471, 'epoch': 0.04}
{'loss': 1.6473, 'grad_nor



{'loss': 1.4593, 'grad_norm': 0.3828125, 'learning_rate': 0.00019793659225256295, 'epoch': 0.04}
{'loss': 1.3713, 'grad_norm': 0.63671875, 'learning_rate': 0.00019792522987509907, 'epoch': 0.04}
{'loss': 1.2593, 'grad_norm': 0.341796875, 'learning_rate': 0.0001979138674976352, 'epoch': 0.04}
{'loss': 1.3846, 'grad_norm': 0.4140625, 'learning_rate': 0.00019790250512017135, 'epoch': 0.04}
{'loss': 1.2418, 'grad_norm': 0.6171875, 'learning_rate': 0.0001978911427427075, 'epoch': 0.04}
{'loss': 1.391, 'grad_norm': 0.322265625, 'learning_rate': 0.00019787978036524365, 'epoch': 0.04}
{'loss': 1.4197, 'grad_norm': 0.43359375, 'learning_rate': 0.00019786841798777977, 'epoch': 0.04}
{'loss': 1.4299, 'grad_norm': 0.36328125, 'learning_rate': 0.0001978570556103159, 'epoch': 0.04}
{'loss': 1.41, 'grad_norm': 0.451171875, 'learning_rate': 0.00019784569323285205, 'epoch': 0.04}
{'loss': 1.2851, 'grad_norm': 0.81640625, 'learning_rate': 0.00019783433085538817, 'epoch': 0.04}
{'loss': 1.4332, 'grad_nor



{'loss': 1.3517, 'grad_norm': 0.439453125, 'learning_rate': 0.00019765253281596643, 'epoch': 0.04}
{'loss': 1.4764, 'grad_norm': 0.46484375, 'learning_rate': 0.00019764117043850256, 'epoch': 0.04}
{'loss': 1.3906, 'grad_norm': 0.33203125, 'learning_rate': 0.0001976298080610387, 'epoch': 0.04}
{'loss': 1.4589, 'grad_norm': 0.419921875, 'learning_rate': 0.00019761844568357483, 'epoch': 0.04}
{'loss': 1.2786, 'grad_norm': 1.4609375, 'learning_rate': 0.00019760708330611099, 'epoch': 0.04}
{'loss': 1.5267, 'grad_norm': 0.384765625, 'learning_rate': 0.0001975957209286471, 'epoch': 0.04}
{'loss': 1.3908, 'grad_norm': 0.482421875, 'learning_rate': 0.00019758435855118326, 'epoch': 0.04}
{'loss': 1.3815, 'grad_norm': 0.357421875, 'learning_rate': 0.0001975729961737194, 'epoch': 0.04}
{'loss': 1.3151, 'grad_norm': 0.52734375, 'learning_rate': 0.00019756163379625554, 'epoch': 0.04}
{'loss': 1.2508, 'grad_norm': 0.58203125, 'learning_rate': 0.0001975502714187917, 'epoch': 0.04}
{'loss': 1.4161, 'gr



{'loss': 1.5846, 'grad_norm': 0.447265625, 'learning_rate': 0.0001973684733793699, 'epoch': 0.04}
{'loss': 1.29, 'grad_norm': 0.5234375, 'learning_rate': 0.00019735711100190605, 'epoch': 0.04}
{'loss': 1.3406, 'grad_norm': 0.353515625, 'learning_rate': 0.0001973457486244422, 'epoch': 0.04}
{'loss': 1.4892, 'grad_norm': 0.400390625, 'learning_rate': 0.00019733438624697832, 'epoch': 0.04}
{'loss': 1.2971, 'grad_norm': 0.6796875, 'learning_rate': 0.00019732302386951447, 'epoch': 0.04}
{'loss': 1.6048, 'grad_norm': 0.3984375, 'learning_rate': 0.0001973116614920506, 'epoch': 0.04}
{'loss': 1.4503, 'grad_norm': 0.478515625, 'learning_rate': 0.00019730029911458675, 'epoch': 0.04}
{'loss': 1.3054, 'grad_norm': 0.32421875, 'learning_rate': 0.00019728893673712287, 'epoch': 0.04}
{'loss': 1.407, 'grad_norm': 0.3984375, 'learning_rate': 0.00019727757435965902, 'epoch': 0.04}
{'loss': 1.2904, 'grad_norm': 0.765625, 'learning_rate': 0.00019726621198219518, 'epoch': 0.04}
{'loss': 1.5528, 'grad_norm'



{'loss': 1.4859, 'grad_norm': 0.361328125, 'learning_rate': 0.00019708441394277338, 'epoch': 0.04}
{'loss': 1.403, 'grad_norm': 0.56640625, 'learning_rate': 0.00019707305156530953, 'epoch': 0.04}
{'loss': 1.2701, 'grad_norm': 0.384765625, 'learning_rate': 0.00019706168918784566, 'epoch': 0.04}
{'loss': 1.3584, 'grad_norm': 0.373046875, 'learning_rate': 0.00019705032681038184, 'epoch': 0.04}
{'loss': 1.1147, 'grad_norm': 0.73046875, 'learning_rate': 0.00019703896443291796, 'epoch': 0.04}
{'loss': 1.5502, 'grad_norm': 0.4609375, 'learning_rate': 0.00019702760205545408, 'epoch': 0.04}
{'loss': 1.4373, 'grad_norm': 0.486328125, 'learning_rate': 0.00019701623967799024, 'epoch': 0.04}
{'loss': 1.3555, 'grad_norm': 0.37109375, 'learning_rate': 0.00019700487730052636, 'epoch': 0.04}
{'loss': 1.4615, 'grad_norm': 0.59765625, 'learning_rate': 0.0001969935149230625, 'epoch': 0.04}
{'loss': 1.1639, 'grad_norm': 0.63671875, 'learning_rate': 0.00019698215254559864, 'epoch': 0.04}
{'loss': 1.4425, 'g



{'loss': 1.4266, 'grad_norm': 0.384765625, 'learning_rate': 0.0001968003545061769, 'epoch': 0.04}
{'loss': 1.2717, 'grad_norm': 0.68359375, 'learning_rate': 0.00019678899212871302, 'epoch': 0.04}
{'loss': 1.3519, 'grad_norm': 0.310546875, 'learning_rate': 0.00019677762975124917, 'epoch': 0.04}
{'loss': 1.3955, 'grad_norm': 0.53515625, 'learning_rate': 0.0001967662673737853, 'epoch': 0.04}
{'loss': 1.2594, 'grad_norm': 0.6640625, 'learning_rate': 0.00019675490499632142, 'epoch': 0.04}
{'loss': 1.6632, 'grad_norm': 0.333984375, 'learning_rate': 0.00019674354261885757, 'epoch': 0.04}
{'loss': 1.2164, 'grad_norm': 0.609375, 'learning_rate': 0.00019673218024139372, 'epoch': 0.04}
{'loss': 1.4057, 'grad_norm': 0.41015625, 'learning_rate': 0.00019672081786392987, 'epoch': 0.04}
{'loss': 1.3642, 'grad_norm': 0.57421875, 'learning_rate': 0.000196709455486466, 'epoch': 0.04}
{'loss': 1.3726, 'grad_norm': 0.6484375, 'learning_rate': 0.00019669809310900212, 'epoch': 0.04}
{'loss': 1.436, 'grad_nor



{'loss': 1.4462, 'grad_norm': 0.416015625, 'learning_rate': 0.00019651629506958036, 'epoch': 0.04}
{'loss': 1.3626, 'grad_norm': 0.72265625, 'learning_rate': 0.0001965049326921165, 'epoch': 0.04}
{'loss': 1.2896, 'grad_norm': 0.4296875, 'learning_rate': 0.00019649357031465266, 'epoch': 0.04}
{'loss': 1.4359, 'grad_norm': 0.384765625, 'learning_rate': 0.00019648220793718878, 'epoch': 0.04}
{'loss': 1.2309, 'grad_norm': 0.765625, 'learning_rate': 0.00019647084555972493, 'epoch': 0.04}
{'loss': 1.3232, 'grad_norm': 0.36328125, 'learning_rate': 0.00019645948318226106, 'epoch': 0.04}
{'loss': 1.2915, 'grad_norm': 0.455078125, 'learning_rate': 0.0001964481208047972, 'epoch': 0.04}
{'loss': 1.3296, 'grad_norm': 0.353515625, 'learning_rate': 0.00019643675842733333, 'epoch': 0.04}
{'loss': 1.4576, 'grad_norm': 0.390625, 'learning_rate': 0.00019642539604986949, 'epoch': 0.04}
{'loss': 1.1429, 'grad_norm': 1.2421875, 'learning_rate': 0.00019641403367240564, 'epoch': 0.04}
{'loss': 1.5802, 'grad_n



{'loss': 1.4018, 'grad_norm': 0.458984375, 'learning_rate': 0.00019623223563298384, 'epoch': 0.04}
{'loss': 1.2725, 'grad_norm': 0.484375, 'learning_rate': 0.00019622087325552, 'epoch': 0.04}
{'loss': 1.4552, 'grad_norm': 0.337890625, 'learning_rate': 0.00019620951087805612, 'epoch': 0.04}
{'loss': 1.3176, 'grad_norm': 0.4375, 'learning_rate': 0.00019619814850059227, 'epoch': 0.04}
{'loss': 1.3849, 'grad_norm': 0.68359375, 'learning_rate': 0.00019618678612312842, 'epoch': 0.04}
{'loss': 1.5007, 'grad_norm': 0.365234375, 'learning_rate': 0.00019617542374566455, 'epoch': 0.04}
{'loss': 1.348, 'grad_norm': 0.50390625, 'learning_rate': 0.0001961640613682007, 'epoch': 0.04}
{'loss': 1.5162, 'grad_norm': 0.314453125, 'learning_rate': 0.00019615269899073682, 'epoch': 0.04}
{'loss': 1.3994, 'grad_norm': 0.3984375, 'learning_rate': 0.00019614133661327297, 'epoch': 0.04}
{'loss': 1.1821, 'grad_norm': 0.79296875, 'learning_rate': 0.0001961299742358091, 'epoch': 0.04}
{'loss': 1.3958, 'grad_norm':



{'loss': 1.4851, 'grad_norm': 0.38671875, 'learning_rate': 0.00019594817619638736, 'epoch': 0.04}
{'loss': 1.3009, 'grad_norm': 0.3828125, 'learning_rate': 0.00019593681381892348, 'epoch': 0.04}
{'loss': 1.3831, 'grad_norm': 0.333984375, 'learning_rate': 0.0001959254514414596, 'epoch': 0.04}
{'loss': 1.3156, 'grad_norm': 0.384765625, 'learning_rate': 0.00019591408906399576, 'epoch': 0.04}
{'loss': 1.2949, 'grad_norm': 0.51171875, 'learning_rate': 0.00019590272668653188, 'epoch': 0.04}
{'loss': 1.4841, 'grad_norm': 0.4140625, 'learning_rate': 0.00019589136430906806, 'epoch': 0.04}
{'loss': 1.3711, 'grad_norm': 0.59375, 'learning_rate': 0.00019588000193160418, 'epoch': 0.04}
{'loss': 1.3643, 'grad_norm': 0.3046875, 'learning_rate': 0.0001958686395541403, 'epoch': 0.05}
{'loss': 1.4005, 'grad_norm': 0.5078125, 'learning_rate': 0.00019585727717667646, 'epoch': 0.05}
{'loss': 1.1387, 'grad_norm': 0.87109375, 'learning_rate': 0.00019584591479921258, 'epoch': 0.05}
{'loss': 1.5078, 'grad_norm



{'loss': 1.5834, 'grad_norm': 0.384765625, 'learning_rate': 0.00019566411675979084, 'epoch': 0.05}
{'loss': 1.2668, 'grad_norm': 0.67578125, 'learning_rate': 0.00019565275438232697, 'epoch': 0.05}
{'loss': 1.3686, 'grad_norm': 0.478515625, 'learning_rate': 0.00019564139200486312, 'epoch': 0.05}
{'loss': 1.4549, 'grad_norm': 0.427734375, 'learning_rate': 0.00019563002962739924, 'epoch': 0.05}
{'loss': 1.3383, 'grad_norm': 0.53515625, 'learning_rate': 0.0001956186672499354, 'epoch': 0.05}
{'loss': 1.4703, 'grad_norm': 0.349609375, 'learning_rate': 0.00019560730487247152, 'epoch': 0.05}
{'loss': 1.3162, 'grad_norm': 0.46484375, 'learning_rate': 0.00019559594249500764, 'epoch': 0.05}
{'loss': 1.3075, 'grad_norm': 0.333984375, 'learning_rate': 0.00019558458011754382, 'epoch': 0.05}
{'loss': 1.458, 'grad_norm': 0.404296875, 'learning_rate': 0.00019557321774007995, 'epoch': 0.05}
{'loss': 1.2391, 'grad_norm': 0.5234375, 'learning_rate': 0.0001955618553626161, 'epoch': 0.05}
{'loss': 1.319, 'g



{'loss': 1.4162, 'grad_norm': 0.462890625, 'learning_rate': 0.0001953800573231943, 'epoch': 0.05}
{'loss': 1.3904, 'grad_norm': 0.4765625, 'learning_rate': 0.00019536869494573045, 'epoch': 0.05}
{'loss': 1.3521, 'grad_norm': 0.33984375, 'learning_rate': 0.0001953573325682666, 'epoch': 0.05}
{'loss': 1.4078, 'grad_norm': 0.447265625, 'learning_rate': 0.00019534597019080273, 'epoch': 0.05}
{'loss': 1.243, 'grad_norm': 1.0703125, 'learning_rate': 0.00019533460781333888, 'epoch': 0.05}
{'loss': 1.4502, 'grad_norm': 0.41015625, 'learning_rate': 0.000195323245435875, 'epoch': 0.05}
{'loss': 1.3578, 'grad_norm': 0.55859375, 'learning_rate': 0.00019531188305841116, 'epoch': 0.05}
{'loss': 1.3223, 'grad_norm': 0.359375, 'learning_rate': 0.00019530052068094728, 'epoch': 0.05}
{'loss': 1.4114, 'grad_norm': 0.50390625, 'learning_rate': 0.00019528915830348343, 'epoch': 0.05}
{'loss': 1.1517, 'grad_norm': 0.5546875, 'learning_rate': 0.00019527779592601958, 'epoch': 0.05}
{'loss': 1.4807, 'grad_norm'



{'loss': 1.4645, 'grad_norm': 0.4609375, 'learning_rate': 0.0001950959978865978, 'epoch': 0.05}
{'loss': 1.3362, 'grad_norm': 0.60546875, 'learning_rate': 0.00019508463550913394, 'epoch': 0.05}
{'loss': 1.1783, 'grad_norm': 0.28125, 'learning_rate': 0.00019507327313167007, 'epoch': 0.05}
{'loss': 1.2998, 'grad_norm': 0.451171875, 'learning_rate': 0.00019506191075420622, 'epoch': 0.05}
{'loss': 1.2498, 'grad_norm': 0.376953125, 'learning_rate': 0.00019505054837674234, 'epoch': 0.05}
{'loss': 1.6009, 'grad_norm': 0.4296875, 'learning_rate': 0.0001950391859992785, 'epoch': 0.05}
{'loss': 1.1968, 'grad_norm': 0.59765625, 'learning_rate': 0.00019502782362181464, 'epoch': 0.05}
{'loss': 1.3352, 'grad_norm': 0.37109375, 'learning_rate': 0.00019501646124435077, 'epoch': 0.05}
{'loss': 1.4253, 'grad_norm': 0.515625, 'learning_rate': 0.00019500509886688692, 'epoch': 0.05}
{'loss': 1.2769, 'grad_norm': 0.490234375, 'learning_rate': 0.00019499373648942304, 'epoch': 0.05}
{'loss': 1.4335, 'grad_nor



{'loss': 1.4227, 'grad_norm': 0.353515625, 'learning_rate': 0.0001948119384500013, 'epoch': 0.05}
{'loss': 1.365, 'grad_norm': 0.609375, 'learning_rate': 0.00019480057607253743, 'epoch': 0.05}
{'loss': 1.3187, 'grad_norm': 0.365234375, 'learning_rate': 0.00019478921369507358, 'epoch': 0.05}
{'loss': 1.4362, 'grad_norm': 0.4609375, 'learning_rate': 0.0001947778513176097, 'epoch': 0.05}
{'loss': 1.2711, 'grad_norm': 1.0234375, 'learning_rate': 0.00019476648894014583, 'epoch': 0.05}
{'loss': 1.4497, 'grad_norm': 0.318359375, 'learning_rate': 0.00019475512656268198, 'epoch': 0.05}
{'loss': 1.2486, 'grad_norm': 0.6875, 'learning_rate': 0.0001947437641852181, 'epoch': 0.05}
{'loss': 1.2849, 'grad_norm': 0.3671875, 'learning_rate': 0.00019473240180775428, 'epoch': 0.05}
{'loss': 1.3625, 'grad_norm': 0.453125, 'learning_rate': 0.0001947210394302904, 'epoch': 0.05}
{'loss': 1.2248, 'grad_norm': 0.52734375, 'learning_rate': 0.00019470967705282653, 'epoch': 0.05}
{'loss': 1.4377, 'grad_norm': 0.3



{'loss': 1.6033, 'grad_norm': 0.40234375, 'learning_rate': 0.00019452787901340476, 'epoch': 0.05}
{'loss': 1.3642, 'grad_norm': 0.53125, 'learning_rate': 0.00019451651663594092, 'epoch': 0.05}
{'loss': 1.2797, 'grad_norm': 0.33203125, 'learning_rate': 0.00019450515425847707, 'epoch': 0.05}
{'loss': 1.4025, 'grad_norm': 0.478515625, 'learning_rate': 0.0001944937918810132, 'epoch': 0.05}
{'loss': 1.3168, 'grad_norm': 0.55859375, 'learning_rate': 0.00019448242950354934, 'epoch': 0.05}
{'loss': 1.5567, 'grad_norm': 0.35546875, 'learning_rate': 0.00019447106712608547, 'epoch': 0.05}
{'loss': 1.2968, 'grad_norm': 0.5546875, 'learning_rate': 0.00019445970474862162, 'epoch': 0.05}
{'loss': 1.3217, 'grad_norm': 0.302734375, 'learning_rate': 0.00019444834237115774, 'epoch': 0.05}
{'loss': 1.4308, 'grad_norm': 0.427734375, 'learning_rate': 0.00019443697999369387, 'epoch': 0.05}
{'loss': 1.1525, 'grad_norm': 0.7421875, 'learning_rate': 0.00019442561761623005, 'epoch': 0.05}
{'loss': 1.406, 'grad_n



{'loss': 1.4418, 'grad_norm': 0.35546875, 'learning_rate': 0.00019424381957680825, 'epoch': 0.05}
{'loss': 1.2316, 'grad_norm': 0.6484375, 'learning_rate': 0.0001942324571993444, 'epoch': 0.05}
{'loss': 1.4433, 'grad_norm': 0.31640625, 'learning_rate': 0.00019422109482188053, 'epoch': 0.05}
{'loss': 1.4267, 'grad_norm': 0.4140625, 'learning_rate': 0.00019420973244441668, 'epoch': 0.05}
{'loss': 1.186, 'grad_norm': 0.63671875, 'learning_rate': 0.00019419837006695283, 'epoch': 0.05}
{'loss': 1.5375, 'grad_norm': 0.50390625, 'learning_rate': 0.00019418700768948895, 'epoch': 0.05}
{'loss': 1.2646, 'grad_norm': 0.69140625, 'learning_rate': 0.0001941756453120251, 'epoch': 0.05}
{'loss': 1.3581, 'grad_norm': 0.30859375, 'learning_rate': 0.00019416428293456123, 'epoch': 0.05}
{'loss': 1.4178, 'grad_norm': 0.474609375, 'learning_rate': 0.00019415292055709738, 'epoch': 0.05}
{'loss': 1.1761, 'grad_norm': 0.7734375, 'learning_rate': 0.0001941415581796335, 'epoch': 0.05}
{'loss': 1.5123, 'grad_nor



{'loss': 1.4363, 'grad_norm': 0.3359375, 'learning_rate': 0.00019395976014021177, 'epoch': 0.05}
{'loss': 1.2358, 'grad_norm': 0.609375, 'learning_rate': 0.0001939483977627479, 'epoch': 0.05}
{'loss': 1.3288, 'grad_norm': 0.33984375, 'learning_rate': 0.00019393703538528401, 'epoch': 0.05}
{'loss': 1.4801, 'grad_norm': 0.455078125, 'learning_rate': 0.00019392567300782017, 'epoch': 0.05}
{'loss': 1.1363, 'grad_norm': 0.94921875, 'learning_rate': 0.0001939143106303563, 'epoch': 0.05}
{'loss': 1.531, 'grad_norm': 0.37109375, 'learning_rate': 0.00019390294825289244, 'epoch': 0.05}
{'loss': 1.2766, 'grad_norm': 0.412109375, 'learning_rate': 0.0001938915858754286, 'epoch': 0.05}
{'loss': 1.3649, 'grad_norm': 0.328125, 'learning_rate': 0.00019388022349796472, 'epoch': 0.05}
{'loss': 1.5306, 'grad_norm': 0.462890625, 'learning_rate': 0.00019386886112050087, 'epoch': 0.05}
{'loss': 1.2956, 'grad_norm': 0.72265625, 'learning_rate': 0.000193857498743037, 'epoch': 0.05}
{'loss': 1.4934, 'grad_norm'



{'loss': 1.4357, 'grad_norm': 0.51171875, 'learning_rate': 0.00019367570070361523, 'epoch': 0.05}
{'loss': 1.2642, 'grad_norm': 0.69140625, 'learning_rate': 0.00019366433832615135, 'epoch': 0.05}
{'loss': 1.2346, 'grad_norm': 0.345703125, 'learning_rate': 0.00019365297594868753, 'epoch': 0.05}
{'loss': 1.458, 'grad_norm': 0.447265625, 'learning_rate': 0.00019364161357122365, 'epoch': 0.05}
{'loss': 1.3129, 'grad_norm': 0.89453125, 'learning_rate': 0.0001936302511937598, 'epoch': 0.05}
{'loss': 1.5765, 'grad_norm': 0.408203125, 'learning_rate': 0.00019361888881629593, 'epoch': 0.05}
{'loss': 1.3264, 'grad_norm': 0.58984375, 'learning_rate': 0.00019360752643883205, 'epoch': 0.05}
{'loss': 1.4462, 'grad_norm': 0.455078125, 'learning_rate': 0.0001935961640613682, 'epoch': 0.05}
{'loss': 1.3879, 'grad_norm': 0.44140625, 'learning_rate': 0.00019358480168390436, 'epoch': 0.06}
{'loss': 1.2201, 'grad_norm': 0.76953125, 'learning_rate': 0.0001935734393064405, 'epoch': 0.06}
{'loss': 1.584, 'gra



{'loss': 1.6069, 'grad_norm': 0.361328125, 'learning_rate': 0.0001933916412670187, 'epoch': 0.06}
{'loss': 1.3709, 'grad_norm': 0.7421875, 'learning_rate': 0.00019338027888955486, 'epoch': 0.06}
{'loss': 1.4052, 'grad_norm': 0.2890625, 'learning_rate': 0.000193368916512091, 'epoch': 0.06}
{'loss': 1.4592, 'grad_norm': 0.455078125, 'learning_rate': 0.00019335755413462714, 'epoch': 0.06}
{'loss': 1.2163, 'grad_norm': 0.55078125, 'learning_rate': 0.0001933461917571633, 'epoch': 0.06}
{'loss': 1.3872, 'grad_norm': 0.421875, 'learning_rate': 0.00019333482937969942, 'epoch': 0.06}
{'loss': 1.3615, 'grad_norm': 0.5078125, 'learning_rate': 0.00019332346700223557, 'epoch': 0.06}
{'loss': 1.3316, 'grad_norm': 0.369140625, 'learning_rate': 0.0001933121046247717, 'epoch': 0.06}
{'loss': 1.3017, 'grad_norm': 0.51171875, 'learning_rate': 0.00019330074224730784, 'epoch': 0.06}
{'loss': 1.18, 'grad_norm': 0.66015625, 'learning_rate': 0.00019328937986984397, 'epoch': 0.06}
{'loss': 1.4439, 'grad_norm':



{'loss': 1.3999, 'grad_norm': 0.41796875, 'learning_rate': 0.0001931075818304222, 'epoch': 0.06}
{'loss': 1.3498, 'grad_norm': 0.4453125, 'learning_rate': 0.00019309621945295835, 'epoch': 0.06}
{'loss': 1.3394, 'grad_norm': 0.353515625, 'learning_rate': 0.00019308485707549448, 'epoch': 0.06}
{'loss': 1.5841, 'grad_norm': 0.5078125, 'learning_rate': 0.00019307349469803063, 'epoch': 0.06}
{'loss': 1.1924, 'grad_norm': 0.412109375, 'learning_rate': 0.00019306213232056675, 'epoch': 0.06}
{'loss': 1.4191, 'grad_norm': 0.380859375, 'learning_rate': 0.0001930507699431029, 'epoch': 0.06}
{'loss': 1.3756, 'grad_norm': 0.56640625, 'learning_rate': 0.00019303940756563905, 'epoch': 0.06}
{'loss': 1.3663, 'grad_norm': 0.43359375, 'learning_rate': 0.00019302804518817518, 'epoch': 0.06}
{'loss': 1.3481, 'grad_norm': 0.46875, 'learning_rate': 0.00019301668281071133, 'epoch': 0.06}
{'loss': 1.2458, 'grad_norm': 0.83203125, 'learning_rate': 0.00019300532043324745, 'epoch': 0.06}
{'loss': 1.4319, 'grad_n



{'loss': 1.4715, 'grad_norm': 0.380859375, 'learning_rate': 0.0001928235223938257, 'epoch': 0.06}
{'loss': 1.3997, 'grad_norm': 0.59375, 'learning_rate': 0.00019281216001636184, 'epoch': 0.06}
{'loss': 1.3282, 'grad_norm': 0.333984375, 'learning_rate': 0.000192800797638898, 'epoch': 0.06}
{'loss': 1.4961, 'grad_norm': 0.453125, 'learning_rate': 0.00019278943526143411, 'epoch': 0.06}
{'loss': 1.1619, 'grad_norm': 0.8828125, 'learning_rate': 0.00019277807288397024, 'epoch': 0.06}
{'loss': 1.5268, 'grad_norm': 0.4140625, 'learning_rate': 0.0001927667105065064, 'epoch': 0.06}
{'loss': 1.3452, 'grad_norm': 0.51953125, 'learning_rate': 0.00019275534812904251, 'epoch': 0.06}
{'loss': 1.3709, 'grad_norm': 0.3359375, 'learning_rate': 0.00019274398575157867, 'epoch': 0.06}
{'loss': 1.3796, 'grad_norm': 0.427734375, 'learning_rate': 0.00019273262337411482, 'epoch': 0.06}
{'loss': 1.2868, 'grad_norm': 1.0078125, 'learning_rate': 0.00019272126099665094, 'epoch': 0.06}
{'loss': 1.4498, 'grad_norm': 



{'loss': 1.4842, 'grad_norm': 0.451171875, 'learning_rate': 0.00019253946295722917, 'epoch': 0.06}
{'loss': 1.2018, 'grad_norm': 0.55078125, 'learning_rate': 0.00019252810057976533, 'epoch': 0.06}
{'loss': 1.4215, 'grad_norm': 0.41015625, 'learning_rate': 0.00019251673820230145, 'epoch': 0.06}
{'loss': 1.3445, 'grad_norm': 0.53125, 'learning_rate': 0.0001925053758248376, 'epoch': 0.06}
{'loss': 1.1354, 'grad_norm': 0.91015625, 'learning_rate': 0.00019249401344737375, 'epoch': 0.06}
{'loss': 1.47, 'grad_norm': 0.375, 'learning_rate': 0.00019248265106990988, 'epoch': 0.06}
{'loss': 1.3811, 'grad_norm': 0.5546875, 'learning_rate': 0.00019247128869244603, 'epoch': 0.06}
{'loss': 1.3217, 'grad_norm': 0.34375, 'learning_rate': 0.00019245992631498215, 'epoch': 0.06}
{'loss': 1.3041, 'grad_norm': 0.390625, 'learning_rate': 0.00019244856393751828, 'epoch': 0.06}
{'loss': 1.2214, 'grad_norm': 0.64453125, 'learning_rate': 0.00019243720156005443, 'epoch': 0.06}
{'loss': 1.5567, 'grad_norm': 0.4492



{'loss': 1.4847, 'grad_norm': 0.361328125, 'learning_rate': 0.00019225540352063266, 'epoch': 0.06}
{'loss': 1.3311, 'grad_norm': 0.6171875, 'learning_rate': 0.0001922440411431688, 'epoch': 0.06}
{'loss': 1.3761, 'grad_norm': 0.353515625, 'learning_rate': 0.00019223267876570494, 'epoch': 0.06}
{'loss': 1.4157, 'grad_norm': 0.498046875, 'learning_rate': 0.0001922213163882411, 'epoch': 0.06}
{'loss': 1.178, 'grad_norm': 0.484375, 'learning_rate': 0.0001922099540107772, 'epoch': 0.06}
{'loss': 1.3822, 'grad_norm': 0.4453125, 'learning_rate': 0.00019219859163331336, 'epoch': 0.06}
{'loss': 1.2657, 'grad_norm': 0.515625, 'learning_rate': 0.00019218722925584951, 'epoch': 0.06}
{'loss': 1.2588, 'grad_norm': 0.388671875, 'learning_rate': 0.00019217586687838564, 'epoch': 0.06}
{'loss': 1.304, 'grad_norm': 0.453125, 'learning_rate': 0.0001921645045009218, 'epoch': 0.06}
{'loss': 1.2055, 'grad_norm': 0.4765625, 'learning_rate': 0.00019215314212345791, 'epoch': 0.06}
{'loss': 1.4694, 'grad_norm': 0



{'loss': 1.5585, 'grad_norm': 0.421875, 'learning_rate': 0.00019197134408403615, 'epoch': 0.06}
{'loss': 1.3391, 'grad_norm': 0.6484375, 'learning_rate': 0.0001919599817065723, 'epoch': 0.06}
{'loss': 1.3822, 'grad_norm': 0.359375, 'learning_rate': 0.00019194861932910842, 'epoch': 0.06}
{'loss': 1.427, 'grad_norm': 0.53515625, 'learning_rate': 0.00019193725695164457, 'epoch': 0.06}
{'loss': 1.1129, 'grad_norm': 0.5390625, 'learning_rate': 0.0001919258945741807, 'epoch': 0.06}
{'loss': 1.5694, 'grad_norm': 0.38671875, 'learning_rate': 0.00019191453219671685, 'epoch': 0.06}
{'loss': 1.341, 'grad_norm': 0.53515625, 'learning_rate': 0.00019190316981925297, 'epoch': 0.06}
{'loss': 1.2459, 'grad_norm': 0.32421875, 'learning_rate': 0.00019189180744178913, 'epoch': 0.06}
{'loss': 1.2911, 'grad_norm': 0.61328125, 'learning_rate': 0.00019188044506432528, 'epoch': 0.06}
{'loss': 1.1896, 'grad_norm': 0.8046875, 'learning_rate': 0.0001918690826868614, 'epoch': 0.06}
{'loss': 1.4103, 'grad_norm': 0.



{'loss': 1.4129, 'grad_norm': 0.33984375, 'learning_rate': 0.00019168728464743963, 'epoch': 0.06}
{'loss': 1.3644, 'grad_norm': 0.59375, 'learning_rate': 0.00019167592226997576, 'epoch': 0.06}
{'loss': 1.3783, 'grad_norm': 0.380859375, 'learning_rate': 0.0001916645598925119, 'epoch': 0.06}
{'loss': 1.3848, 'grad_norm': 0.5078125, 'learning_rate': 0.00019165319751504806, 'epoch': 0.06}
{'loss': 1.1834, 'grad_norm': 0.396484375, 'learning_rate': 0.0001916418351375842, 'epoch': 0.06}
{'loss': 1.4153, 'grad_norm': 0.375, 'learning_rate': 0.00019163047276012034, 'epoch': 0.06}
{'loss': 1.3035, 'grad_norm': 0.470703125, 'learning_rate': 0.00019161911038265646, 'epoch': 0.06}
{'loss': 1.3439, 'grad_norm': 0.33203125, 'learning_rate': 0.0001916077480051926, 'epoch': 0.06}
{'loss': 1.3536, 'grad_norm': 0.546875, 'learning_rate': 0.00019159638562772874, 'epoch': 0.06}
{'loss': 1.1813, 'grad_norm': 0.6875, 'learning_rate': 0.00019158502325026492, 'epoch': 0.06}
{'loss': 1.5411, 'grad_norm': 0.373



{'loss': 1.5082, 'grad_norm': 0.369140625, 'learning_rate': 0.00019140322521084312, 'epoch': 0.06}
{'loss': 1.3675, 'grad_norm': 0.49609375, 'learning_rate': 0.00019139186283337927, 'epoch': 0.06}
{'loss': 1.2234, 'grad_norm': 0.373046875, 'learning_rate': 0.0001913805004559154, 'epoch': 0.06}
{'loss': 1.3151, 'grad_norm': 0.419921875, 'learning_rate': 0.00019136913807845155, 'epoch': 0.06}
{'loss': 1.1672, 'grad_norm': 0.6328125, 'learning_rate': 0.00019135777570098767, 'epoch': 0.06}
{'loss': 1.536, 'grad_norm': 0.41796875, 'learning_rate': 0.00019134641332352382, 'epoch': 0.06}
{'loss': 1.3802, 'grad_norm': 0.578125, 'learning_rate': 0.00019133505094605998, 'epoch': 0.06}
{'loss': 1.3567, 'grad_norm': 0.306640625, 'learning_rate': 0.0001913236885685961, 'epoch': 0.06}
{'loss': 1.4555, 'grad_norm': 0.333984375, 'learning_rate': 0.00019131232619113225, 'epoch': 0.06}
{'loss': 1.3361, 'grad_norm': 0.796875, 'learning_rate': 0.00019130096381366838, 'epoch': 0.06}
{'loss': 1.5003, 'grad_



{'loss': 1.3822, 'grad_norm': 0.384765625, 'learning_rate': 0.00019111916577424664, 'epoch': 0.07}
{'loss': 1.2709, 'grad_norm': 0.67578125, 'learning_rate': 0.00019110780339678276, 'epoch': 0.07}
{'loss': 1.3498, 'grad_norm': 0.29296875, 'learning_rate': 0.00019109644101931888, 'epoch': 0.07}
{'loss': 1.3511, 'grad_norm': 0.5234375, 'learning_rate': 0.00019108507864185504, 'epoch': 0.07}
{'loss': 1.299, 'grad_norm': 0.83203125, 'learning_rate': 0.00019107371626439116, 'epoch': 0.07}
{'loss': 1.3856, 'grad_norm': 0.478515625, 'learning_rate': 0.0001910623538869273, 'epoch': 0.07}
{'loss': 1.3401, 'grad_norm': 0.53125, 'learning_rate': 0.00019105099150946344, 'epoch': 0.07}
{'loss': 1.266, 'grad_norm': 0.37890625, 'learning_rate': 0.0001910396291319996, 'epoch': 0.07}
{'loss': 1.4249, 'grad_norm': 0.435546875, 'learning_rate': 0.00019102826675453574, 'epoch': 0.07}
{'loss': 1.1649, 'grad_norm': 0.5390625, 'learning_rate': 0.00019101690437707186, 'epoch': 0.07}
{'loss': 1.4052, 'grad_nor



{'loss': 1.4755, 'grad_norm': 0.451171875, 'learning_rate': 0.0001908351063376501, 'epoch': 0.07}
{'loss': 1.3143, 'grad_norm': 0.609375, 'learning_rate': 0.00019082374396018622, 'epoch': 0.07}
{'loss': 1.2527, 'grad_norm': 0.34765625, 'learning_rate': 0.0001908123815827224, 'epoch': 0.07}
{'loss': 1.2575, 'grad_norm': 0.482421875, 'learning_rate': 0.00019080101920525852, 'epoch': 0.07}
{'loss': 1.1835, 'grad_norm': 0.56640625, 'learning_rate': 0.00019078965682779465, 'epoch': 0.07}
{'loss': 1.5343, 'grad_norm': 0.384765625, 'learning_rate': 0.0001907782944503308, 'epoch': 0.07}
{'loss': 1.2613, 'grad_norm': 0.70703125, 'learning_rate': 0.00019076693207286692, 'epoch': 0.07}
{'loss': 1.3509, 'grad_norm': 0.330078125, 'learning_rate': 0.00019075556969540307, 'epoch': 0.07}
{'loss': 1.3702, 'grad_norm': 0.5390625, 'learning_rate': 0.0001907442073179392, 'epoch': 0.07}
{'loss': 1.3227, 'grad_norm': 0.6328125, 'learning_rate': 0.00019073284494047538, 'epoch': 0.07}
{'loss': 1.4548, 'grad_n



{'loss': 1.4723, 'grad_norm': 0.443359375, 'learning_rate': 0.00019055104690105358, 'epoch': 0.07}
{'loss': 1.3388, 'grad_norm': 0.67578125, 'learning_rate': 0.00019053968452358973, 'epoch': 0.07}
{'loss': 1.2848, 'grad_norm': 0.3984375, 'learning_rate': 0.00019052832214612586, 'epoch': 0.07}
{'loss': 1.4583, 'grad_norm': 0.45703125, 'learning_rate': 0.00019051695976866198, 'epoch': 0.07}
{'loss': 1.1407, 'grad_norm': 0.5546875, 'learning_rate': 0.00019050559739119816, 'epoch': 0.07}
{'loss': 1.4988, 'grad_norm': 0.33984375, 'learning_rate': 0.00019049423501373429, 'epoch': 0.07}
{'loss': 1.3384, 'grad_norm': 0.734375, 'learning_rate': 0.00019048287263627044, 'epoch': 0.07}
{'loss': 1.4214, 'grad_norm': 0.376953125, 'learning_rate': 0.00019047151025880656, 'epoch': 0.07}
{'loss': 1.4437, 'grad_norm': 0.50390625, 'learning_rate': 0.00019046014788134269, 'epoch': 0.07}
{'loss': 1.2164, 'grad_norm': 0.62109375, 'learning_rate': 0.00019044878550387884, 'epoch': 0.07}
{'loss': 1.4971, 'grad



{'loss': 1.4738, 'grad_norm': 0.451171875, 'learning_rate': 0.00019026698746445707, 'epoch': 0.07}
{'loss': 1.3056, 'grad_norm': 0.62890625, 'learning_rate': 0.00019025562508699322, 'epoch': 0.07}
{'loss': 1.2779, 'grad_norm': 0.359375, 'learning_rate': 0.00019024426270952935, 'epoch': 0.07}
{'loss': 1.1979, 'grad_norm': 0.46875, 'learning_rate': 0.0001902329003320655, 'epoch': 0.07}
{'loss': 1.1835, 'grad_norm': 1.1953125, 'learning_rate': 0.00019022153795460162, 'epoch': 0.07}
{'loss': 1.5132, 'grad_norm': 0.443359375, 'learning_rate': 0.00019021017557713777, 'epoch': 0.07}
{'loss': 1.3148, 'grad_norm': 0.6875, 'learning_rate': 0.00019019881319967392, 'epoch': 0.07}
{'loss': 1.3525, 'grad_norm': 0.3515625, 'learning_rate': 0.00019018745082221005, 'epoch': 0.07}
{'loss': 1.3236, 'grad_norm': 0.4453125, 'learning_rate': 0.0001901760884447462, 'epoch': 0.07}
{'loss': 1.289, 'grad_norm': 0.55078125, 'learning_rate': 0.00019016472606728232, 'epoch': 0.07}
{'loss': 1.5, 'grad_norm': 0.3925



{'loss': 1.4426, 'grad_norm': 0.470703125, 'learning_rate': 0.00018998292802786056, 'epoch': 0.07}
{'loss': 1.4239, 'grad_norm': 0.609375, 'learning_rate': 0.00018997156565039668, 'epoch': 0.07}
{'loss': 1.3893, 'grad_norm': 0.345703125, 'learning_rate': 0.00018996020327293286, 'epoch': 0.07}
{'loss': 1.2875, 'grad_norm': 0.52734375, 'learning_rate': 0.00018994884089546898, 'epoch': 0.07}
{'loss': 1.1316, 'grad_norm': 0.703125, 'learning_rate': 0.0001899374785180051, 'epoch': 0.07}
{'loss': 1.4498, 'grad_norm': 0.32421875, 'learning_rate': 0.00018992611614054126, 'epoch': 0.07}
{'loss': 1.3339, 'grad_norm': 0.75390625, 'learning_rate': 0.00018991475376307738, 'epoch': 0.07}
{'loss': 1.2397, 'grad_norm': 0.359375, 'learning_rate': 0.00018990339138561354, 'epoch': 0.07}
{'loss': 1.2903, 'grad_norm': 0.47265625, 'learning_rate': 0.00018989202900814966, 'epoch': 0.07}
{'loss': 1.224, 'grad_norm': 0.59765625, 'learning_rate': 0.0001898806666306858, 'epoch': 0.07}
{'loss': 1.3736, 'grad_norm



{'loss': 1.3539, 'grad_norm': 0.43359375, 'learning_rate': 0.00018969886859126404, 'epoch': 0.07}
{'loss': 1.2925, 'grad_norm': 0.578125, 'learning_rate': 0.00018968750621380017, 'epoch': 0.07}
{'loss': 1.3957, 'grad_norm': 0.333984375, 'learning_rate': 0.00018967614383633632, 'epoch': 0.07}
{'loss': 1.3125, 'grad_norm': 0.3828125, 'learning_rate': 0.00018966478145887244, 'epoch': 0.07}
{'loss': 1.2018, 'grad_norm': 1.0390625, 'learning_rate': 0.00018965341908140862, 'epoch': 0.07}
{'loss': 1.4904, 'grad_norm': 0.447265625, 'learning_rate': 0.00018964205670394475, 'epoch': 0.07}
{'loss': 1.3022, 'grad_norm': 0.5234375, 'learning_rate': 0.00018963069432648087, 'epoch': 0.07}
{'loss': 1.4076, 'grad_norm': 0.3125, 'learning_rate': 0.00018961933194901702, 'epoch': 0.07}
{'loss': 1.418, 'grad_norm': 0.48828125, 'learning_rate': 0.00018960796957155315, 'epoch': 0.07}
{'loss': 1.1223, 'grad_norm': 1.0390625, 'learning_rate': 0.0001895966071940893, 'epoch': 0.07}
{'loss': 1.3485, 'grad_norm': 



{'loss': 1.383, 'grad_norm': 0.55078125, 'learning_rate': 0.00018941480915466753, 'epoch': 0.07}
{'loss': 1.3374, 'grad_norm': 0.69140625, 'learning_rate': 0.00018940344677720368, 'epoch': 0.07}
{'loss': 1.3714, 'grad_norm': 0.3203125, 'learning_rate': 0.0001893920843997398, 'epoch': 0.07}
{'loss': 1.3434, 'grad_norm': 0.46875, 'learning_rate': 0.00018938072202227596, 'epoch': 0.07}
{'loss': 1.1374, 'grad_norm': 0.310546875, 'learning_rate': 0.00018936935964481208, 'epoch': 0.07}
{'loss': 1.3951, 'grad_norm': 0.384765625, 'learning_rate': 0.0001893579972673482, 'epoch': 0.07}
{'loss': 1.3574, 'grad_norm': 0.435546875, 'learning_rate': 0.00018934663488988439, 'epoch': 0.07}
{'loss': 1.2508, 'grad_norm': 0.353515625, 'learning_rate': 0.0001893352725124205, 'epoch': 0.07}
{'loss': 1.3413, 'grad_norm': 0.53515625, 'learning_rate': 0.00018932391013495666, 'epoch': 0.07}
{'loss': 1.1438, 'grad_norm': 0.59375, 'learning_rate': 0.00018931254775749279, 'epoch': 0.07}
{'loss': 1.5064, 'grad_norm



{'loss': 1.4223, 'grad_norm': 0.412109375, 'learning_rate': 0.00018913074971807102, 'epoch': 0.07}
{'loss': 1.3578, 'grad_norm': 0.53515625, 'learning_rate': 0.00018911938734060717, 'epoch': 0.07}
{'loss': 1.2725, 'grad_norm': 0.349609375, 'learning_rate': 0.0001891080249631433, 'epoch': 0.07}
{'loss': 1.3489, 'grad_norm': 0.44921875, 'learning_rate': 0.00018909666258567945, 'epoch': 0.07}
{'loss': 1.2247, 'grad_norm': 0.443359375, 'learning_rate': 0.00018908530020821557, 'epoch': 0.07}
{'loss': 1.343, 'grad_norm': 0.353515625, 'learning_rate': 0.00018907393783075172, 'epoch': 0.07}
{'loss': 1.3918, 'grad_norm': 0.5234375, 'learning_rate': 0.00018906257545328785, 'epoch': 0.07}
{'loss': 1.2495, 'grad_norm': 0.322265625, 'learning_rate': 0.000189051213075824, 'epoch': 0.07}
{'loss': 1.5646, 'grad_norm': 0.53125, 'learning_rate': 0.00018903985069836015, 'epoch': 0.07}
{'loss': 1.1988, 'grad_norm': 0.80078125, 'learning_rate': 0.00018902848832089627, 'epoch': 0.07}
{'loss': 1.4649, 'grad_



{'loss': 1.4791, 'grad_norm': 0.5, 'learning_rate': 0.0001888466902814745, 'epoch': 0.08}
{'loss': 1.2612, 'grad_norm': 0.474609375, 'learning_rate': 0.00018883532790401063, 'epoch': 0.08}
{'loss': 1.2984, 'grad_norm': 0.330078125, 'learning_rate': 0.00018882396552654678, 'epoch': 0.08}
{'loss': 1.4619, 'grad_norm': 0.5234375, 'learning_rate': 0.00018881260314908293, 'epoch': 0.08}
{'loss': 1.1468, 'grad_norm': 0.8984375, 'learning_rate': 0.00018880124077161908, 'epoch': 0.08}
{'loss': 1.4439, 'grad_norm': 0.349609375, 'learning_rate': 0.0001887898783941552, 'epoch': 0.08}
{'loss': 1.2734, 'grad_norm': 0.4765625, 'learning_rate': 0.00018877851601669133, 'epoch': 0.08}
{'loss': 1.3551, 'grad_norm': 0.30859375, 'learning_rate': 0.00018876715363922748, 'epoch': 0.08}
{'loss': 1.2853, 'grad_norm': 0.4453125, 'learning_rate': 0.0001887557912617636, 'epoch': 0.08}
{'loss': 1.3232, 'grad_norm': 0.474609375, 'learning_rate': 0.00018874442888429976, 'epoch': 0.08}
{'loss': 1.3605, 'grad_norm': 



{'loss': 1.5473, 'grad_norm': 0.412109375, 'learning_rate': 0.000188562630844878, 'epoch': 0.08}
{'loss': 1.4594, 'grad_norm': 0.609375, 'learning_rate': 0.00018855126846741414, 'epoch': 0.08}
{'loss': 1.2023, 'grad_norm': 0.326171875, 'learning_rate': 0.00018853990608995027, 'epoch': 0.08}
{'loss': 1.3512, 'grad_norm': 0.5859375, 'learning_rate': 0.0001885285437124864, 'epoch': 0.08}
{'loss': 1.2969, 'grad_norm': 0.5390625, 'learning_rate': 0.00018851718133502254, 'epoch': 0.08}
{'loss': 1.297, 'grad_norm': 0.42578125, 'learning_rate': 0.0001885058189575587, 'epoch': 0.08}
{'loss': 1.3863, 'grad_norm': 0.5703125, 'learning_rate': 0.00018849445658009485, 'epoch': 0.08}
{'loss': 1.1969, 'grad_norm': 0.3515625, 'learning_rate': 0.00018848309420263097, 'epoch': 0.08}
{'loss': 1.3725, 'grad_norm': 0.5625, 'learning_rate': 0.0001884717318251671, 'epoch': 0.08}
{'loss': 1.1739, 'grad_norm': 0.482421875, 'learning_rate': 0.00018846036944770325, 'epoch': 0.08}
{'loss': 1.3597, 'grad_norm': 0.4



{'loss': 1.3993, 'grad_norm': 0.384765625, 'learning_rate': 0.00018827857140828148, 'epoch': 0.08}
{'loss': 1.3373, 'grad_norm': 1.4609375, 'learning_rate': 0.00018826720903081763, 'epoch': 0.08}
{'loss': 1.272, 'grad_norm': 0.34765625, 'learning_rate': 0.00018825584665335375, 'epoch': 0.08}
{'loss': 1.3613, 'grad_norm': 0.443359375, 'learning_rate': 0.0001882444842758899, 'epoch': 0.08}
{'loss': 1.2012, 'grad_norm': 0.7578125, 'learning_rate': 0.00018823312189842603, 'epoch': 0.08}
{'loss': 1.412, 'grad_norm': 0.46875, 'learning_rate': 0.00018822175952096218, 'epoch': 0.08}
{'loss': 1.3429, 'grad_norm': 0.65234375, 'learning_rate': 0.0001882103971434983, 'epoch': 0.08}
{'loss': 1.2491, 'grad_norm': 0.42578125, 'learning_rate': 0.00018819903476603443, 'epoch': 0.08}
{'loss': 1.3053, 'grad_norm': 0.443359375, 'learning_rate': 0.0001881876723885706, 'epoch': 0.08}
{'loss': 1.1449, 'grad_norm': 0.490234375, 'learning_rate': 0.00018817631001110673, 'epoch': 0.08}
{'loss': 1.657, 'grad_norm



{'loss': 1.4366, 'grad_norm': 0.34375, 'learning_rate': 0.00018799451197168497, 'epoch': 0.08}
{'loss': 1.3764, 'grad_norm': 0.7109375, 'learning_rate': 0.0001879831495942211, 'epoch': 0.08}
{'loss': 1.3356, 'grad_norm': 0.50390625, 'learning_rate': 0.00018797178721675724, 'epoch': 0.08}
{'loss': 1.445, 'grad_norm': 0.453125, 'learning_rate': 0.0001879604248392934, 'epoch': 0.08}
{'loss': 1.1651, 'grad_norm': 0.6640625, 'learning_rate': 0.00018794906246182952, 'epoch': 0.08}
{'loss': 1.3584, 'grad_norm': 0.392578125, 'learning_rate': 0.00018793770008436567, 'epoch': 0.08}
{'loss': 1.319, 'grad_norm': 0.5703125, 'learning_rate': 0.0001879263377069018, 'epoch': 0.08}
{'loss': 1.2455, 'grad_norm': 0.40625, 'learning_rate': 0.00018791497532943794, 'epoch': 0.08}
{'loss': 1.2928, 'grad_norm': 0.62109375, 'learning_rate': 0.00018790361295197407, 'epoch': 0.08}
{'loss': 1.2046, 'grad_norm': 0.671875, 'learning_rate': 0.00018789225057451022, 'epoch': 0.08}
{'loss': 1.4621, 'grad_norm': 0.55859



{'loss': 1.4468, 'grad_norm': 0.404296875, 'learning_rate': 0.00018771045253508845, 'epoch': 0.08}
{'loss': 1.2513, 'grad_norm': 0.5078125, 'learning_rate': 0.00018769909015762458, 'epoch': 0.08}
{'loss': 1.2476, 'grad_norm': 0.37109375, 'learning_rate': 0.00018768772778016073, 'epoch': 0.08}
{'loss': 1.452, 'grad_norm': 0.42578125, 'learning_rate': 0.00018767636540269685, 'epoch': 0.08}
{'loss': 1.2553, 'grad_norm': 0.41796875, 'learning_rate': 0.000187665003025233, 'epoch': 0.08}
{'loss': 1.3483, 'grad_norm': 0.357421875, 'learning_rate': 0.00018765364064776916, 'epoch': 0.08}
{'loss': 1.352, 'grad_norm': 0.83203125, 'learning_rate': 0.0001876422782703053, 'epoch': 0.08}
{'loss': 1.3058, 'grad_norm': 0.4296875, 'learning_rate': 0.00018763091589284143, 'epoch': 0.08}
{'loss': 1.221, 'grad_norm': 0.474609375, 'learning_rate': 0.00018761955351537756, 'epoch': 0.08}
{'loss': 1.1859, 'grad_norm': 0.51171875, 'learning_rate': 0.0001876081911379137, 'epoch': 0.08}
{'loss': 1.4494, 'grad_nor



{'loss': 1.4746, 'grad_norm': 0.419921875, 'learning_rate': 0.00018742639309849194, 'epoch': 0.08}
{'loss': 1.2231, 'grad_norm': 0.4609375, 'learning_rate': 0.0001874150307210281, 'epoch': 0.08}
{'loss': 1.2069, 'grad_norm': 0.32421875, 'learning_rate': 0.00018740366834356422, 'epoch': 0.08}
{'loss': 1.3622, 'grad_norm': 0.62109375, 'learning_rate': 0.00018739230596610037, 'epoch': 0.08}
{'loss': 1.1945, 'grad_norm': 0.625, 'learning_rate': 0.0001873809435886365, 'epoch': 0.08}
{'loss': 1.4361, 'grad_norm': 0.376953125, 'learning_rate': 0.00018736958121117262, 'epoch': 0.08}
{'loss': 1.2511, 'grad_norm': 0.52734375, 'learning_rate': 0.00018735821883370877, 'epoch': 0.08}
{'loss': 1.2171, 'grad_norm': 0.390625, 'learning_rate': 0.00018734685645624492, 'epoch': 0.08}
{'loss': 1.4371, 'grad_norm': 0.57421875, 'learning_rate': 0.00018733549407878107, 'epoch': 0.08}
{'loss': 1.2679, 'grad_norm': 1.0546875, 'learning_rate': 0.0001873241317013172, 'epoch': 0.08}
{'loss': 1.4341, 'grad_norm': 



{'loss': 1.4753, 'grad_norm': 0.33984375, 'learning_rate': 0.00018714233366189543, 'epoch': 0.08}
{'loss': 1.2641, 'grad_norm': 0.5546875, 'learning_rate': 0.00018713097128443155, 'epoch': 0.08}
{'loss': 1.1859, 'grad_norm': 0.38671875, 'learning_rate': 0.0001871196089069677, 'epoch': 0.08}
{'loss': 1.2619, 'grad_norm': 0.53125, 'learning_rate': 0.00018710824652950385, 'epoch': 0.08}
{'loss': 1.235, 'grad_norm': 0.6953125, 'learning_rate': 0.00018709688415203998, 'epoch': 0.08}
{'loss': 1.3819, 'grad_norm': 0.357421875, 'learning_rate': 0.00018708552177457613, 'epoch': 0.08}
{'loss': 1.2655, 'grad_norm': 0.54296875, 'learning_rate': 0.00018707415939711225, 'epoch': 0.08}
{'loss': 1.3604, 'grad_norm': 0.408203125, 'learning_rate': 0.0001870627970196484, 'epoch': 0.08}
{'loss': 1.2148, 'grad_norm': 0.46484375, 'learning_rate': 0.00018705143464218453, 'epoch': 0.08}
{'loss': 1.2029, 'grad_norm': 1.0703125, 'learning_rate': 0.00018704007226472068, 'epoch': 0.08}
{'loss': 1.4858, 'grad_norm



{'loss': 1.3307, 'grad_norm': 0.3671875, 'learning_rate': 0.00018685827422529891, 'epoch': 0.08}
{'loss': 1.3369, 'grad_norm': 0.484375, 'learning_rate': 0.00018684691184783504, 'epoch': 0.08}
{'loss': 1.2284, 'grad_norm': 0.41015625, 'learning_rate': 0.0001868355494703712, 'epoch': 0.08}
{'loss': 1.3249, 'grad_norm': 0.50390625, 'learning_rate': 0.00018682418709290731, 'epoch': 0.08}
{'loss': 1.0992, 'grad_norm': 0.83203125, 'learning_rate': 0.00018681282471544347, 'epoch': 0.08}
{'loss': 1.4822, 'grad_norm': 0.369140625, 'learning_rate': 0.00018680146233797962, 'epoch': 0.08}
{'loss': 1.2843, 'grad_norm': 0.474609375, 'learning_rate': 0.00018679009996051574, 'epoch': 0.08}
{'loss': 1.415, 'grad_norm': 0.435546875, 'learning_rate': 0.0001867787375830519, 'epoch': 0.08}
{'loss': 1.3093, 'grad_norm': 0.416015625, 'learning_rate': 0.00018676737520558802, 'epoch': 0.08}
{'loss': 1.2318, 'grad_norm': 0.71875, 'learning_rate': 0.00018675601282812417, 'epoch': 0.08}
{'loss': 1.4096, 'grad_no



{'loss': 1.4081, 'grad_norm': 0.5078125, 'learning_rate': 0.0001865742147887024, 'epoch': 0.09}
{'loss': 1.3163, 'grad_norm': 0.58984375, 'learning_rate': 0.00018656285241123855, 'epoch': 0.09}
{'loss': 1.2132, 'grad_norm': 0.361328125, 'learning_rate': 0.00018655149003377468, 'epoch': 0.09}
{'loss': 1.3514, 'grad_norm': 0.4921875, 'learning_rate': 0.00018654012765631083, 'epoch': 0.09}
{'loss': 1.1708, 'grad_norm': 0.41796875, 'learning_rate': 0.00018652876527884695, 'epoch': 0.09}
{'loss': 1.4447, 'grad_norm': 0.388671875, 'learning_rate': 0.00018651740290138308, 'epoch': 0.09}
{'loss': 1.2789, 'grad_norm': 0.640625, 'learning_rate': 0.00018650604052391923, 'epoch': 0.09}
{'loss': 1.3242, 'grad_norm': 0.39453125, 'learning_rate': 0.00018649467814645538, 'epoch': 0.09}
{'loss': 1.3467, 'grad_norm': 0.4296875, 'learning_rate': 0.00018648331576899153, 'epoch': 0.09}
{'loss': 1.1834, 'grad_norm': 0.56640625, 'learning_rate': 0.00018647195339152766, 'epoch': 0.09}
{'loss': 1.3643, 'grad_n



{'loss': 1.4697, 'grad_norm': 0.439453125, 'learning_rate': 0.0001862901553521059, 'epoch': 0.09}
{'loss': 1.2623, 'grad_norm': 0.64453125, 'learning_rate': 0.000186278792974642, 'epoch': 0.09}
{'loss': 1.428, 'grad_norm': 0.33984375, 'learning_rate': 0.00018626743059717816, 'epoch': 0.09}
{'loss': 1.3683, 'grad_norm': 0.43359375, 'learning_rate': 0.00018625606821971432, 'epoch': 0.09}
{'loss': 1.1203, 'grad_norm': 0.75390625, 'learning_rate': 0.00018624470584225044, 'epoch': 0.09}
{'loss': 1.4122, 'grad_norm': 0.392578125, 'learning_rate': 0.0001862333434647866, 'epoch': 0.09}
{'loss': 1.2735, 'grad_norm': 0.58203125, 'learning_rate': 0.00018622198108732272, 'epoch': 0.09}
{'loss': 1.2578, 'grad_norm': 0.4296875, 'learning_rate': 0.00018621061870985884, 'epoch': 0.09}
{'loss': 1.2367, 'grad_norm': 0.52734375, 'learning_rate': 0.000186199256332395, 'epoch': 0.09}
{'loss': 1.1995, 'grad_norm': 0.8671875, 'learning_rate': 0.00018618789395493114, 'epoch': 0.09}
{'loss': 1.4205, 'grad_norm



{'loss': 1.425, 'grad_norm': 0.4296875, 'learning_rate': 0.00018600609591550938, 'epoch': 0.09}
{'loss': 1.1943, 'grad_norm': 0.59375, 'learning_rate': 0.0001859947335380455, 'epoch': 0.09}
{'loss': 1.2653, 'grad_norm': 0.365234375, 'learning_rate': 0.00018598337116058165, 'epoch': 0.09}
{'loss': 1.2613, 'grad_norm': 0.453125, 'learning_rate': 0.00018597200878311778, 'epoch': 0.09}
{'loss': 1.0635, 'grad_norm': 0.48046875, 'learning_rate': 0.00018596064640565393, 'epoch': 0.09}
{'loss': 1.4262, 'grad_norm': 0.4140625, 'learning_rate': 0.00018594928402819008, 'epoch': 0.09}
{'loss': 1.2958, 'grad_norm': 0.51171875, 'learning_rate': 0.0001859379216507262, 'epoch': 0.09}
{'loss': 1.4099, 'grad_norm': 0.416015625, 'learning_rate': 0.00018592655927326235, 'epoch': 0.09}
{'loss': 1.3693, 'grad_norm': 0.44921875, 'learning_rate': 0.00018591519689579848, 'epoch': 0.09}
{'loss': 1.0542, 'grad_norm': 0.60546875, 'learning_rate': 0.00018590383451833463, 'epoch': 0.09}
{'loss': 1.5357, 'grad_norm'



{'loss': 1.3897, 'grad_norm': 0.56640625, 'learning_rate': 0.00018572203647891286, 'epoch': 0.09}
{'loss': 1.1534, 'grad_norm': 0.4609375, 'learning_rate': 0.000185710674101449, 'epoch': 0.09}
{'loss': 1.2545, 'grad_norm': 0.330078125, 'learning_rate': 0.00018569931172398514, 'epoch': 0.09}
{'loss': 1.3367, 'grad_norm': 0.51953125, 'learning_rate': 0.00018568794934652126, 'epoch': 0.09}
{'loss': 1.1908, 'grad_norm': 0.84375, 'learning_rate': 0.0001856765869690574, 'epoch': 0.09}
{'loss': 1.4473, 'grad_norm': 0.36328125, 'learning_rate': 0.00018566522459159354, 'epoch': 0.09}
{'loss': 1.306, 'grad_norm': 0.76171875, 'learning_rate': 0.00018565386221412972, 'epoch': 0.09}
{'loss': 1.2971, 'grad_norm': 0.390625, 'learning_rate': 0.00018564249983666584, 'epoch': 0.09}
{'loss': 1.3174, 'grad_norm': 0.45703125, 'learning_rate': 0.00018563113745920196, 'epoch': 0.09}
{'loss': 1.173, 'grad_norm': 0.5390625, 'learning_rate': 0.00018561977508173812, 'epoch': 0.09}
{'loss': 1.5138, 'grad_norm': 0



{'loss': 1.3251, 'grad_norm': 0.3828125, 'learning_rate': 0.00018543797704231632, 'epoch': 0.09}
{'loss': 1.3191, 'grad_norm': 0.640625, 'learning_rate': 0.00018542661466485247, 'epoch': 0.09}
{'loss': 1.3179, 'grad_norm': 0.400390625, 'learning_rate': 0.00018541525228738862, 'epoch': 0.09}
{'loss': 1.4555, 'grad_norm': 0.455078125, 'learning_rate': 0.00018540388990992478, 'epoch': 0.09}
{'loss': 1.1935, 'grad_norm': 0.70703125, 'learning_rate': 0.0001853925275324609, 'epoch': 0.09}
{'loss': 1.5373, 'grad_norm': 0.49609375, 'learning_rate': 0.00018538116515499705, 'epoch': 0.09}
{'loss': 1.2417, 'grad_norm': 0.52734375, 'learning_rate': 0.00018536980277753318, 'epoch': 0.09}
{'loss': 1.2363, 'grad_norm': 0.384765625, 'learning_rate': 0.0001853584404000693, 'epoch': 0.09}
{'loss': 1.3606, 'grad_norm': 0.427734375, 'learning_rate': 0.00018534707802260548, 'epoch': 0.09}
{'loss': 1.1562, 'grad_norm': 0.53515625, 'learning_rate': 0.0001853357156451416, 'epoch': 0.09}
{'loss': 1.5171, 'grad



{'loss': 1.5561, 'grad_norm': 0.447265625, 'learning_rate': 0.00018515391760571984, 'epoch': 0.09}
{'loss': 1.164, 'grad_norm': 0.58203125, 'learning_rate': 0.00018514255522825596, 'epoch': 0.09}
{'loss': 1.2369, 'grad_norm': 0.5234375, 'learning_rate': 0.0001851311928507921, 'epoch': 0.09}
{'loss': 1.4062, 'grad_norm': 0.43359375, 'learning_rate': 0.00018511983047332824, 'epoch': 0.09}
{'loss': 1.0879, 'grad_norm': 0.51171875, 'learning_rate': 0.0001851084680958644, 'epoch': 0.09}
{'loss': 1.4361, 'grad_norm': 0.40625, 'learning_rate': 0.00018509710571840054, 'epoch': 0.09}
{'loss': 1.1617, 'grad_norm': 0.56640625, 'learning_rate': 0.00018508574334093666, 'epoch': 0.09}
{'loss': 1.2692, 'grad_norm': 0.34375, 'learning_rate': 0.00018507438096347281, 'epoch': 0.09}
{'loss': 1.3032, 'grad_norm': 0.455078125, 'learning_rate': 0.00018506301858600894, 'epoch': 0.09}
{'loss': 1.1778, 'grad_norm': 0.3828125, 'learning_rate': 0.00018505165620854506, 'epoch': 0.09}
{'loss': 1.518, 'grad_norm': 



{'loss': 1.4589, 'grad_norm': 0.52734375, 'learning_rate': 0.00018486985816912332, 'epoch': 0.09}
{'loss': 1.3568, 'grad_norm': 0.4609375, 'learning_rate': 0.00018485849579165945, 'epoch': 0.09}
{'loss': 1.2142, 'grad_norm': 0.35546875, 'learning_rate': 0.0001848471334141956, 'epoch': 0.09}
{'loss': 1.378, 'grad_norm': 0.6484375, 'learning_rate': 0.00018483577103673172, 'epoch': 0.09}
{'loss': 1.1816, 'grad_norm': 1.734375, 'learning_rate': 0.00018482440865926787, 'epoch': 0.09}
{'loss': 1.4909, 'grad_norm': 0.39453125, 'learning_rate': 0.000184813046281804, 'epoch': 0.09}
{'loss': 1.2722, 'grad_norm': 0.6171875, 'learning_rate': 0.00018480168390434015, 'epoch': 0.09}
{'loss': 1.3335, 'grad_norm': 0.369140625, 'learning_rate': 0.0001847903215268763, 'epoch': 0.09}
{'loss': 1.419, 'grad_norm': 0.52734375, 'learning_rate': 0.00018477895914941243, 'epoch': 0.09}
{'loss': 1.2597, 'grad_norm': 0.65234375, 'learning_rate': 0.00018476759677194858, 'epoch': 0.09}
{'loss': 1.4453, 'grad_norm': 



{'loss': 1.4137, 'grad_norm': 0.404296875, 'learning_rate': 0.00018458579873252678, 'epoch': 0.09}
{'loss': 1.2568, 'grad_norm': 0.59765625, 'learning_rate': 0.00018457443635506296, 'epoch': 0.09}
{'loss': 1.2323, 'grad_norm': 0.3828125, 'learning_rate': 0.00018456307397759909, 'epoch': 0.09}
{'loss': 1.3923, 'grad_norm': 0.5, 'learning_rate': 0.00018455171160013524, 'epoch': 0.09}
{'loss': 1.1564, 'grad_norm': 0.578125, 'learning_rate': 0.00018454034922267136, 'epoch': 0.09}
{'loss': 1.4098, 'grad_norm': 0.53515625, 'learning_rate': 0.00018452898684520749, 'epoch': 0.09}
{'loss': 1.3001, 'grad_norm': 0.52734375, 'learning_rate': 0.00018451762446774364, 'epoch': 0.09}
{'loss': 1.2568, 'grad_norm': 0.3203125, 'learning_rate': 0.00018450626209027976, 'epoch': 0.09}
{'loss': 1.3608, 'grad_norm': 0.478515625, 'learning_rate': 0.00018449489971281594, 'epoch': 0.09}
{'loss': 1.2164, 'grad_norm': 0.59765625, 'learning_rate': 0.00018448353733535206, 'epoch': 0.09}
{'loss': 1.5122, 'grad_norm':



{'loss': 1.4223, 'grad_norm': 0.439453125, 'learning_rate': 0.0001843017392959303, 'epoch': 0.1}
{'loss': 1.3073, 'grad_norm': 0.71875, 'learning_rate': 0.00018429037691846642, 'epoch': 0.1}
{'loss': 1.3237, 'grad_norm': 0.41015625, 'learning_rate': 0.00018427901454100255, 'epoch': 0.1}
{'loss': 1.302, 'grad_norm': 0.5390625, 'learning_rate': 0.00018426765216353872, 'epoch': 0.1}
{'loss': 1.2609, 'grad_norm': 0.96875, 'learning_rate': 0.00018425628978607485, 'epoch': 0.1}
{'loss': 1.3378, 'grad_norm': 0.353515625, 'learning_rate': 0.000184244927408611, 'epoch': 0.1}
{'loss': 1.2376, 'grad_norm': 0.65625, 'learning_rate': 0.00018423356503114712, 'epoch': 0.1}
{'loss': 1.3051, 'grad_norm': 0.33203125, 'learning_rate': 0.00018422220265368328, 'epoch': 0.1}
{'loss': 1.4745, 'grad_norm': 0.423828125, 'learning_rate': 0.0001842108402762194, 'epoch': 0.1}
{'loss': 1.1491, 'grad_norm': 0.484375, 'learning_rate': 0.00018419947789875552, 'epoch': 0.1}
{'loss': 1.3469, 'grad_norm': 0.341796875, '



{'loss': 1.5225, 'grad_norm': 0.51171875, 'learning_rate': 0.00018401767985933378, 'epoch': 0.1}
{'loss': 1.2764, 'grad_norm': 0.58984375, 'learning_rate': 0.0001840063174818699, 'epoch': 0.1}
{'loss': 1.2093, 'grad_norm': 0.51953125, 'learning_rate': 0.00018399495510440606, 'epoch': 0.1}
{'loss': 1.2246, 'grad_norm': 0.4609375, 'learning_rate': 0.00018398359272694218, 'epoch': 0.1}
{'loss': 1.2443, 'grad_norm': 0.92578125, 'learning_rate': 0.00018397223034947834, 'epoch': 0.1}
{'loss': 1.4571, 'grad_norm': 0.427734375, 'learning_rate': 0.0001839608679720145, 'epoch': 0.1}
{'loss': 1.3114, 'grad_norm': 0.625, 'learning_rate': 0.0001839495055945506, 'epoch': 0.1}
{'loss': 1.3562, 'grad_norm': 0.35546875, 'learning_rate': 0.00018393814321708676, 'epoch': 0.1}
{'loss': 1.3465, 'grad_norm': 0.46484375, 'learning_rate': 0.0001839267808396229, 'epoch': 0.1}
{'loss': 1.2597, 'grad_norm': 1.078125, 'learning_rate': 0.00018391541846215904, 'epoch': 0.1}
{'loss': 1.4988, 'grad_norm': 0.53125, 'l



{'loss': 1.3942, 'grad_norm': 0.458984375, 'learning_rate': 0.00018373362042273724, 'epoch': 0.1}
{'loss': 1.1844, 'grad_norm': 0.5234375, 'learning_rate': 0.00018372225804527342, 'epoch': 0.1}
{'loss': 1.4133, 'grad_norm': 0.419921875, 'learning_rate': 0.00018371089566780955, 'epoch': 0.1}
{'loss': 1.3529, 'grad_norm': 0.62890625, 'learning_rate': 0.00018369953329034567, 'epoch': 0.1}
{'loss': 1.1899, 'grad_norm': 0.81640625, 'learning_rate': 0.00018368817091288182, 'epoch': 0.1}
{'loss': 1.3942, 'grad_norm': 0.498046875, 'learning_rate': 0.00018367680853541795, 'epoch': 0.1}
{'loss': 1.1977, 'grad_norm': 0.55078125, 'learning_rate': 0.0001836654461579541, 'epoch': 0.1}
{'loss': 1.2857, 'grad_norm': 0.38671875, 'learning_rate': 0.00018365408378049025, 'epoch': 0.1}
{'loss': 1.2839, 'grad_norm': 0.56640625, 'learning_rate': 0.00018364272140302637, 'epoch': 0.1}
{'loss': 1.1295, 'grad_norm': 0.65234375, 'learning_rate': 0.00018363135902556253, 'epoch': 0.1}
{'loss': 1.4672, 'grad_norm':



{'loss': 1.5554, 'grad_norm': 0.380859375, 'learning_rate': 0.00018344956098614076, 'epoch': 0.1}
{'loss': 1.1929, 'grad_norm': 0.57421875, 'learning_rate': 0.00018343819860867688, 'epoch': 0.1}
{'loss': 1.3089, 'grad_norm': 0.390625, 'learning_rate': 0.000183426836231213, 'epoch': 0.1}
{'loss': 1.3308, 'grad_norm': 0.6171875, 'learning_rate': 0.00018341547385374919, 'epoch': 0.1}
{'loss': 1.1406, 'grad_norm': 1.1015625, 'learning_rate': 0.0001834041114762853, 'epoch': 0.1}
{'loss': 1.4468, 'grad_norm': 0.439453125, 'learning_rate': 0.00018339274909882146, 'epoch': 0.1}
{'loss': 1.3425, 'grad_norm': 0.51953125, 'learning_rate': 0.00018338138672135759, 'epoch': 0.1}
{'loss': 1.2181, 'grad_norm': 0.375, 'learning_rate': 0.0001833700243438937, 'epoch': 0.1}
{'loss': 1.4153, 'grad_norm': 0.52734375, 'learning_rate': 0.00018335866196642986, 'epoch': 0.1}
{'loss': 1.1818, 'grad_norm': 1.125, 'learning_rate': 0.000183347299588966, 'epoch': 0.1}
{'loss': 1.4549, 'grad_norm': 0.43359375, 'learn



{'loss': 1.2769, 'grad_norm': 0.404296875, 'learning_rate': 0.00018316550154954425, 'epoch': 0.1}
{'loss': 1.3471, 'grad_norm': 0.55078125, 'learning_rate': 0.00018315413917208037, 'epoch': 0.1}
{'loss': 1.3927, 'grad_norm': 0.380859375, 'learning_rate': 0.00018314277679461652, 'epoch': 0.1}
{'loss': 1.2275, 'grad_norm': 0.48828125, 'learning_rate': 0.00018313141441715265, 'epoch': 0.1}
{'loss': 1.2106, 'grad_norm': 0.69140625, 'learning_rate': 0.00018312005203968877, 'epoch': 0.1}
{'loss': 1.3226, 'grad_norm': 0.5625, 'learning_rate': 0.00018310868966222495, 'epoch': 0.1}
{'loss': 1.2592, 'grad_norm': 0.59765625, 'learning_rate': 0.00018309732728476107, 'epoch': 0.1}
{'loss': 1.3329, 'grad_norm': 0.3671875, 'learning_rate': 0.00018308596490729722, 'epoch': 0.1}
{'loss': 1.4159, 'grad_norm': 0.51171875, 'learning_rate': 0.00018307460252983335, 'epoch': 0.1}
{'loss': 1.182, 'grad_norm': 0.79296875, 'learning_rate': 0.0001830632401523695, 'epoch': 0.1}
{'loss': 1.4109, 'grad_norm': 0.478



{'loss': 1.3099, 'grad_norm': 0.46484375, 'learning_rate': 0.00018288144211294773, 'epoch': 0.1}
{'loss': 1.35, 'grad_norm': 0.671875, 'learning_rate': 0.00018287007973548386, 'epoch': 0.1}
{'loss': 1.3243, 'grad_norm': 0.439453125, 'learning_rate': 0.00018285871735802, 'epoch': 0.1}
{'loss': 1.3428, 'grad_norm': 0.435546875, 'learning_rate': 0.00018284735498055613, 'epoch': 0.1}
{'loss': 1.1694, 'grad_norm': 0.353515625, 'learning_rate': 0.00018283599260309228, 'epoch': 0.1}
{'loss': 1.4163, 'grad_norm': 0.45703125, 'learning_rate': 0.0001828246302256284, 'epoch': 0.1}
{'loss': 1.3442, 'grad_norm': 0.625, 'learning_rate': 0.00018281326784816456, 'epoch': 0.1}
{'loss': 1.346, 'grad_norm': 0.373046875, 'learning_rate': 0.0001828019054707007, 'epoch': 0.1}
{'loss': 1.2985, 'grad_norm': 0.59765625, 'learning_rate': 0.00018279054309323684, 'epoch': 0.1}
{'loss': 1.2164, 'grad_norm': 0.73828125, 'learning_rate': 0.000182779180715773, 'epoch': 0.1}
{'loss': 1.414, 'grad_norm': 0.427734375, '



{'loss': 1.3806, 'grad_norm': 0.45703125, 'learning_rate': 0.0001825973826763512, 'epoch': 0.1}
{'loss': 1.2315, 'grad_norm': 0.578125, 'learning_rate': 0.00018258602029888734, 'epoch': 0.1}
{'loss': 1.2611, 'grad_norm': 0.37890625, 'learning_rate': 0.0001825746579214235, 'epoch': 0.1}
{'loss': 1.305, 'grad_norm': 0.466796875, 'learning_rate': 0.00018256329554395965, 'epoch': 0.1}
{'loss': 1.2537, 'grad_norm': 0.8203125, 'learning_rate': 0.00018255193316649577, 'epoch': 0.1}
{'loss': 1.4194, 'grad_norm': 0.388671875, 'learning_rate': 0.0001825405707890319, 'epoch': 0.1}
{'loss': 1.2502, 'grad_norm': 0.765625, 'learning_rate': 0.00018252920841156805, 'epoch': 0.1}
{'loss': 1.2764, 'grad_norm': 0.400390625, 'learning_rate': 0.00018251784603410417, 'epoch': 0.1}
{'loss': 1.275, 'grad_norm': 0.482421875, 'learning_rate': 0.00018250648365664032, 'epoch': 0.1}
{'loss': 1.2712, 'grad_norm': 0.69921875, 'learning_rate': 0.00018249512127917647, 'epoch': 0.1}
{'loss': 1.459, 'grad_norm': 0.40429



{'loss': 1.4338, 'grad_norm': 0.482421875, 'learning_rate': 0.0001823133232397547, 'epoch': 0.1}
{'loss': 1.2641, 'grad_norm': 0.34765625, 'learning_rate': 0.00018230196086229083, 'epoch': 0.1}
{'loss': 1.3553, 'grad_norm': 0.3671875, 'learning_rate': 0.00018229059848482698, 'epoch': 0.1}
{'loss': 1.3367, 'grad_norm': 0.447265625, 'learning_rate': 0.0001822792361073631, 'epoch': 0.1}
{'loss': 1.2276, 'grad_norm': 1.1640625, 'learning_rate': 0.00018226787372989926, 'epoch': 0.1}
{'loss': 1.4188, 'grad_norm': 0.416015625, 'learning_rate': 0.0001822565113524354, 'epoch': 0.1}
{'loss': 1.2196, 'grad_norm': 0.68359375, 'learning_rate': 0.00018224514897497153, 'epoch': 0.1}
{'loss': 1.3294, 'grad_norm': 0.345703125, 'learning_rate': 0.00018223378659750768, 'epoch': 0.1}
{'loss': 1.3168, 'grad_norm': 0.46875, 'learning_rate': 0.0001822224242200438, 'epoch': 0.1}
{'loss': 1.1171, 'grad_norm': 0.546875, 'learning_rate': 0.00018221106184257993, 'epoch': 0.1}
{'loss': 1.3701, 'grad_norm': 0.40820



{'loss': 1.4004, 'grad_norm': 0.466796875, 'learning_rate': 0.0001820292638031582, 'epoch': 0.11}
{'loss': 1.2357, 'grad_norm': 0.71484375, 'learning_rate': 0.00018201790142569432, 'epoch': 0.11}
{'loss': 1.2905, 'grad_norm': 0.35546875, 'learning_rate': 0.00018200653904823047, 'epoch': 0.11}
{'loss': 1.3181, 'grad_norm': 0.53125, 'learning_rate': 0.0001819951766707666, 'epoch': 0.11}
{'loss': 1.1381, 'grad_norm': 0.5234375, 'learning_rate': 0.00018198381429330274, 'epoch': 0.11}
{'loss': 1.3189, 'grad_norm': 0.4453125, 'learning_rate': 0.00018197245191583887, 'epoch': 0.11}
{'loss': 1.2947, 'grad_norm': 0.53515625, 'learning_rate': 0.00018196108953837502, 'epoch': 0.11}
{'loss': 1.2631, 'grad_norm': 0.376953125, 'learning_rate': 0.00018194972716091117, 'epoch': 0.11}
{'loss': 1.3255, 'grad_norm': 0.51953125, 'learning_rate': 0.0001819383647834473, 'epoch': 0.11}
{'loss': 1.1005, 'grad_norm': 0.349609375, 'learning_rate': 0.00018192700240598345, 'epoch': 0.11}
{'loss': 1.5827, 'grad_no



{'loss': 1.2978, 'grad_norm': 0.52734375, 'learning_rate': 0.00018174520436656165, 'epoch': 0.11}
{'loss': 1.2901, 'grad_norm': 0.5625, 'learning_rate': 0.0001817338419890978, 'epoch': 0.11}
{'loss': 1.3221, 'grad_norm': 0.4453125, 'learning_rate': 0.00018172247961163396, 'epoch': 0.11}
{'loss': 1.2885, 'grad_norm': 0.64453125, 'learning_rate': 0.00018171111723417008, 'epoch': 0.11}
{'loss': 1.1434, 'grad_norm': 0.71484375, 'learning_rate': 0.00018169975485670623, 'epoch': 0.11}
{'loss': 1.465, 'grad_norm': 0.38671875, 'learning_rate': 0.00018168839247924236, 'epoch': 0.11}
{'loss': 1.1574, 'grad_norm': 0.3984375, 'learning_rate': 0.0001816770301017785, 'epoch': 0.11}
{'loss': 1.231, 'grad_norm': 0.49609375, 'learning_rate': 0.00018166566772431463, 'epoch': 0.11}
{'loss': 1.303, 'grad_norm': 0.482421875, 'learning_rate': 0.00018165430534685078, 'epoch': 0.11}
{'loss': 1.1889, 'grad_norm': 0.6328125, 'learning_rate': 0.00018164294296938693, 'epoch': 0.11}
{'loss': 1.3454, 'grad_norm': 0



{'loss': 1.389, 'grad_norm': 0.390625, 'learning_rate': 0.00018146114492996517, 'epoch': 0.11}
{'loss': 1.4181, 'grad_norm': 0.470703125, 'learning_rate': 0.0001814497825525013, 'epoch': 0.11}
{'loss': 1.1712, 'grad_norm': 0.328125, 'learning_rate': 0.00018143842017503742, 'epoch': 0.11}
{'loss': 1.2787, 'grad_norm': 0.44140625, 'learning_rate': 0.00018142705779757357, 'epoch': 0.11}
{'loss': 1.201, 'grad_norm': 0.5859375, 'learning_rate': 0.00018141569542010972, 'epoch': 0.11}
{'loss': 1.4761, 'grad_norm': 0.376953125, 'learning_rate': 0.00018140433304264587, 'epoch': 0.11}
{'loss': 1.3978, 'grad_norm': 0.494140625, 'learning_rate': 0.000181392970665182, 'epoch': 0.11}
{'loss': 1.3747, 'grad_norm': 0.392578125, 'learning_rate': 0.00018138160828771812, 'epoch': 0.11}
{'loss': 1.2069, 'grad_norm': 0.470703125, 'learning_rate': 0.00018137024591025427, 'epoch': 0.11}
{'loss': 1.1001, 'grad_norm': 0.251953125, 'learning_rate': 0.0001813588835327904, 'epoch': 0.11}
{'loss': 1.2902, 'grad_no



{'loss': 1.229, 'grad_norm': 0.337890625, 'learning_rate': 0.00018117708549336865, 'epoch': 0.11}
{'loss': 1.1911, 'grad_norm': 0.6796875, 'learning_rate': 0.00018116572311590478, 'epoch': 0.11}
{'loss': 1.1853, 'grad_norm': 0.396484375, 'learning_rate': 0.00018115436073844093, 'epoch': 0.11}
{'loss': 1.3318, 'grad_norm': 0.466796875, 'learning_rate': 0.00018114299836097705, 'epoch': 0.11}
{'loss': 1.1536, 'grad_norm': 0.337890625, 'learning_rate': 0.0001811316359835132, 'epoch': 0.11}
{'loss': 1.505, 'grad_norm': 0.427734375, 'learning_rate': 0.00018112027360604933, 'epoch': 0.11}
{'loss': 1.3354, 'grad_norm': 0.63671875, 'learning_rate': 0.00018110891122858548, 'epoch': 0.11}
{'loss': 1.3234, 'grad_norm': 0.37890625, 'learning_rate': 0.00018109754885112163, 'epoch': 0.11}
{'loss': 1.2827, 'grad_norm': 0.416015625, 'learning_rate': 0.00018108618647365776, 'epoch': 0.11}
{'loss': 1.263, 'grad_norm': 0.6171875, 'learning_rate': 0.0001810748240961939, 'epoch': 0.11}
{'loss': 1.4439, 'gra



{'loss': 1.4155, 'grad_norm': 0.515625, 'learning_rate': 0.00018089302605677211, 'epoch': 0.11}
{'loss': 1.1835, 'grad_norm': 0.47265625, 'learning_rate': 0.00018088166367930827, 'epoch': 0.11}
{'loss': 1.2644, 'grad_norm': 0.423828125, 'learning_rate': 0.00018087030130184442, 'epoch': 0.11}
{'loss': 1.3429, 'grad_norm': 0.54296875, 'learning_rate': 0.00018085893892438054, 'epoch': 0.11}
{'loss': 1.2616, 'grad_norm': 0.73828125, 'learning_rate': 0.0001808475765469167, 'epoch': 0.11}
{'loss': 1.4414, 'grad_norm': 0.490234375, 'learning_rate': 0.00018083621416945282, 'epoch': 0.11}
{'loss': 1.2767, 'grad_norm': 0.48828125, 'learning_rate': 0.00018082485179198897, 'epoch': 0.11}
{'loss': 1.2503, 'grad_norm': 0.39453125, 'learning_rate': 0.0001808134894145251, 'epoch': 0.11}
{'loss': 1.3451, 'grad_norm': 0.703125, 'learning_rate': 0.00018080212703706124, 'epoch': 0.11}
{'loss': 1.0463, 'grad_norm': 0.6640625, 'learning_rate': 0.0001807907646595974, 'epoch': 0.11}
{'loss': 1.5209, 'grad_nor



{'loss': 1.3358, 'grad_norm': 0.431640625, 'learning_rate': 0.0001806089666201756, 'epoch': 0.11}
{'loss': 1.1552, 'grad_norm': 0.640625, 'learning_rate': 0.00018059760424271175, 'epoch': 0.11}
{'loss': 1.2324, 'grad_norm': 0.400390625, 'learning_rate': 0.00018058624186524788, 'epoch': 0.11}
{'loss': 1.2959, 'grad_norm': 0.46875, 'learning_rate': 0.00018057487948778406, 'epoch': 0.11}
{'loss': 1.2288, 'grad_norm': 0.90234375, 'learning_rate': 0.00018056351711032018, 'epoch': 0.11}
{'loss': 1.4718, 'grad_norm': 0.451171875, 'learning_rate': 0.0001805521547328563, 'epoch': 0.11}
{'loss': 1.1365, 'grad_norm': 0.703125, 'learning_rate': 0.00018054079235539246, 'epoch': 0.11}
{'loss': 1.3361, 'grad_norm': 0.443359375, 'learning_rate': 0.00018052942997792858, 'epoch': 0.11}
{'loss': 1.3655, 'grad_norm': 0.52734375, 'learning_rate': 0.00018051806760046473, 'epoch': 0.11}
{'loss': 1.2132, 'grad_norm': 0.484375, 'learning_rate': 0.00018050670522300086, 'epoch': 0.11}
{'loss': 1.5244, 'grad_norm



{'loss': 1.5292, 'grad_norm': 0.439453125, 'learning_rate': 0.00018032490718357912, 'epoch': 0.11}
{'loss': 1.1751, 'grad_norm': 0.51953125, 'learning_rate': 0.00018031354480611524, 'epoch': 0.11}
{'loss': 1.2045, 'grad_norm': 0.35546875, 'learning_rate': 0.0001803021824286514, 'epoch': 0.11}
{'loss': 1.3165, 'grad_norm': 0.5859375, 'learning_rate': 0.00018029082005118752, 'epoch': 0.11}
{'loss': 1.1036, 'grad_norm': 0.765625, 'learning_rate': 0.00018027945767372364, 'epoch': 0.11}
{'loss': 1.3057, 'grad_norm': 0.44140625, 'learning_rate': 0.00018026809529625982, 'epoch': 0.11}
{'loss': 1.244, 'grad_norm': 0.62109375, 'learning_rate': 0.00018025673291879594, 'epoch': 0.11}
{'loss': 1.288, 'grad_norm': 0.345703125, 'learning_rate': 0.0001802453705413321, 'epoch': 0.11}
{'loss': 1.3474, 'grad_norm': 0.546875, 'learning_rate': 0.00018023400816386822, 'epoch': 0.11}
{'loss': 1.1948, 'grad_norm': 0.6875, 'learning_rate': 0.00018022264578640434, 'epoch': 0.11}
{'loss': 1.416, 'grad_norm': 0.



{'loss': 1.3845, 'grad_norm': 0.423828125, 'learning_rate': 0.00018004084774698258, 'epoch': 0.11}
{'loss': 1.3268, 'grad_norm': 0.404296875, 'learning_rate': 0.00018002948536951873, 'epoch': 0.11}
{'loss': 1.3475, 'grad_norm': 0.447265625, 'learning_rate': 0.00018001812299205488, 'epoch': 0.11}
{'loss': 1.231, 'grad_norm': 0.640625, 'learning_rate': 0.000180006760614591, 'epoch': 0.11}
{'loss': 1.1027, 'grad_norm': 1.3046875, 'learning_rate': 0.00017999539823712715, 'epoch': 0.11}
{'loss': 1.3924, 'grad_norm': 0.404296875, 'learning_rate': 0.00017998403585966328, 'epoch': 0.11}
{'loss': 1.1719, 'grad_norm': 0.58984375, 'learning_rate': 0.00017997267348219943, 'epoch': 0.11}
{'loss': 1.3199, 'grad_norm': 0.318359375, 'learning_rate': 0.00017996131110473555, 'epoch': 0.11}
{'loss': 1.3816, 'grad_norm': 0.421875, 'learning_rate': 0.0001799499487272717, 'epoch': 0.11}
{'loss': 1.1447, 'grad_norm': 1.1015625, 'learning_rate': 0.00017993858634980786, 'epoch': 0.11}
{'loss': 1.3271, 'grad_no



{'loss': 1.3448, 'grad_norm': 0.48828125, 'learning_rate': 0.00017975678831038606, 'epoch': 0.12}
{'loss': 1.1635, 'grad_norm': 0.546875, 'learning_rate': 0.00017974542593292221, 'epoch': 0.12}
{'loss': 1.2393, 'grad_norm': 0.357421875, 'learning_rate': 0.00017973406355545834, 'epoch': 0.12}
{'loss': 1.2451, 'grad_norm': 0.59375, 'learning_rate': 0.0001797227011779945, 'epoch': 0.12}
{'loss': 1.1865, 'grad_norm': 1.109375, 'learning_rate': 0.00017971133880053064, 'epoch': 0.12}
{'loss': 1.2509, 'grad_norm': 0.392578125, 'learning_rate': 0.00017969997642306677, 'epoch': 0.12}
{'loss': 1.2526, 'grad_norm': 0.67578125, 'learning_rate': 0.00017968861404560292, 'epoch': 0.12}
{'loss': 1.3249, 'grad_norm': 0.427734375, 'learning_rate': 0.00017967725166813904, 'epoch': 0.12}
{'loss': 1.2493, 'grad_norm': 0.46875, 'learning_rate': 0.0001796658892906752, 'epoch': 0.12}
{'loss': 1.2706, 'grad_norm': 0.70703125, 'learning_rate': 0.00017965452691321132, 'epoch': 0.12}
{'loss': 1.5338, 'grad_norm':



{'loss': 1.3846, 'grad_norm': 0.484375, 'learning_rate': 0.00017947272887378958, 'epoch': 0.12}
{'loss': 1.2786, 'grad_norm': 0.56640625, 'learning_rate': 0.0001794613664963257, 'epoch': 0.12}
{'loss': 1.2735, 'grad_norm': 0.349609375, 'learning_rate': 0.00017945000411886183, 'epoch': 0.12}
{'loss': 1.2035, 'grad_norm': 0.54296875, 'learning_rate': 0.00017943864174139798, 'epoch': 0.12}
{'loss': 1.1293, 'grad_norm': 0.890625, 'learning_rate': 0.0001794272793639341, 'epoch': 0.12}
{'loss': 1.5313, 'grad_norm': 0.5234375, 'learning_rate': 0.00017941591698647028, 'epoch': 0.12}
{'loss': 1.2093, 'grad_norm': 0.40625, 'learning_rate': 0.0001794045546090064, 'epoch': 0.12}
{'loss': 1.1726, 'grad_norm': 0.423828125, 'learning_rate': 0.00017939319223154253, 'epoch': 0.12}
{'loss': 1.3151, 'grad_norm': 0.4765625, 'learning_rate': 0.00017938182985407868, 'epoch': 0.12}
{'loss': 1.2937, 'grad_norm': 0.95703125, 'learning_rate': 0.0001793704674766148, 'epoch': 0.12}
{'loss': 1.551, 'grad_norm': 0.



{'loss': 1.4442, 'grad_norm': 0.435546875, 'learning_rate': 0.00017918866943719306, 'epoch': 0.12}
{'loss': 1.2725, 'grad_norm': 0.60546875, 'learning_rate': 0.0001791773070597292, 'epoch': 0.12}
{'loss': 1.2343, 'grad_norm': 0.34765625, 'learning_rate': 0.00017916594468226534, 'epoch': 0.12}
{'loss': 1.262, 'grad_norm': 0.455078125, 'learning_rate': 0.00017915458230480146, 'epoch': 0.12}
{'loss': 1.2874, 'grad_norm': 0.828125, 'learning_rate': 0.00017914321992733761, 'epoch': 0.12}
{'loss': 1.3284, 'grad_norm': 0.49609375, 'learning_rate': 0.00017913185754987374, 'epoch': 0.12}
{'loss': 1.2457, 'grad_norm': 0.69140625, 'learning_rate': 0.00017912049517240986, 'epoch': 0.12}
{'loss': 1.198, 'grad_norm': 0.375, 'learning_rate': 0.00017910913279494604, 'epoch': 0.12}
{'loss': 1.2941, 'grad_norm': 0.515625, 'learning_rate': 0.00017909777041748217, 'epoch': 0.12}
{'loss': 1.2839, 'grad_norm': 0.84375, 'learning_rate': 0.00017908640804001832, 'epoch': 0.12}
{'loss': 1.3772, 'grad_norm': 0.4



{'loss': 1.3738, 'grad_norm': 0.4296875, 'learning_rate': 0.00017890461000059652, 'epoch': 0.12}
{'loss': 1.2288, 'grad_norm': 0.57421875, 'learning_rate': 0.00017889324762313267, 'epoch': 0.12}
{'loss': 1.3723, 'grad_norm': 0.421875, 'learning_rate': 0.00017888188524566883, 'epoch': 0.12}
{'loss': 1.3049, 'grad_norm': 0.52734375, 'learning_rate': 0.00017887052286820495, 'epoch': 0.12}
{'loss': 1.0192, 'grad_norm': 0.921875, 'learning_rate': 0.0001788591604907411, 'epoch': 0.12}
{'loss': 1.4162, 'grad_norm': 0.56640625, 'learning_rate': 0.00017884779811327723, 'epoch': 0.12}
{'loss': 1.2847, 'grad_norm': 0.43359375, 'learning_rate': 0.00017883643573581338, 'epoch': 0.12}
{'loss': 1.2389, 'grad_norm': 0.4140625, 'learning_rate': 0.0001788250733583495, 'epoch': 0.12}
{'loss': 1.3675, 'grad_norm': 0.72265625, 'learning_rate': 0.00017881371098088565, 'epoch': 0.12}
{'loss': 1.209, 'grad_norm': 0.671875, 'learning_rate': 0.0001788023486034218, 'epoch': 0.12}
{'loss': 1.4238, 'grad_norm': 0.



{'loss': 1.439, 'grad_norm': 0.390625, 'learning_rate': 0.000178620550564, 'epoch': 0.12}
{'loss': 1.2316, 'grad_norm': 0.52734375, 'learning_rate': 0.00017860918818653616, 'epoch': 0.12}
{'loss': 1.4314, 'grad_norm': 0.314453125, 'learning_rate': 0.00017859782580907229, 'epoch': 0.12}
{'loss': 1.2794, 'grad_norm': 0.51171875, 'learning_rate': 0.00017858646343160844, 'epoch': 0.12}
{'loss': 1.2407, 'grad_norm': 0.8671875, 'learning_rate': 0.00017857510105414456, 'epoch': 0.12}
{'loss': 1.4601, 'grad_norm': 0.482421875, 'learning_rate': 0.0001785637386766807, 'epoch': 0.12}
{'loss': 1.2862, 'grad_norm': 0.66796875, 'learning_rate': 0.00017855237629921686, 'epoch': 0.12}
{'loss': 1.3481, 'grad_norm': 0.37890625, 'learning_rate': 0.000178541013921753, 'epoch': 0.12}
{'loss': 1.3491, 'grad_norm': 0.44921875, 'learning_rate': 0.00017852965154428914, 'epoch': 0.12}
{'loss': 1.1995, 'grad_norm': 0.7578125, 'learning_rate': 0.00017851828916682526, 'epoch': 0.12}
{'loss': 1.5001, 'grad_norm': 0



{'loss': 1.5388, 'grad_norm': 0.65234375, 'learning_rate': 0.00017833649112740352, 'epoch': 0.12}
{'loss': 1.2043, 'grad_norm': 0.60546875, 'learning_rate': 0.00017832512874993965, 'epoch': 0.12}
{'loss': 1.1888, 'grad_norm': 0.48828125, 'learning_rate': 0.0001783137663724758, 'epoch': 0.12}
{'loss': 1.1959, 'grad_norm': 0.56640625, 'learning_rate': 0.00017830240399501192, 'epoch': 0.12}
{'loss': 1.3619, 'grad_norm': 0.90625, 'learning_rate': 0.00017829104161754805, 'epoch': 0.12}
{'loss': 1.4302, 'grad_norm': 0.470703125, 'learning_rate': 0.0001782796792400842, 'epoch': 0.12}
{'loss': 1.2201, 'grad_norm': 0.478515625, 'learning_rate': 0.00017826831686262032, 'epoch': 0.12}
{'loss': 1.2174, 'grad_norm': 0.33984375, 'learning_rate': 0.0001782569544851565, 'epoch': 0.12}
{'loss': 1.3618, 'grad_norm': 0.498046875, 'learning_rate': 0.00017824559210769263, 'epoch': 0.12}
{'loss': 1.0557, 'grad_norm': 0.44921875, 'learning_rate': 0.00017823422973022875, 'epoch': 0.12}
{'loss': 1.4926, 'grad_



{'loss': 1.478, 'grad_norm': 0.466796875, 'learning_rate': 0.00017805243169080698, 'epoch': 0.12}
{'loss': 1.1881, 'grad_norm': 0.60546875, 'learning_rate': 0.00017804106931334314, 'epoch': 0.12}
{'loss': 1.3247, 'grad_norm': 0.4140625, 'learning_rate': 0.0001780297069358793, 'epoch': 0.12}
{'loss': 1.2284, 'grad_norm': 0.5, 'learning_rate': 0.0001780183445584154, 'epoch': 0.12}
{'loss': 1.0334, 'grad_norm': 0.69921875, 'learning_rate': 0.00017800698218095156, 'epoch': 0.12}
{'loss': 1.3949, 'grad_norm': 0.384765625, 'learning_rate': 0.0001779956198034877, 'epoch': 0.12}
{'loss': 1.2848, 'grad_norm': 0.5859375, 'learning_rate': 0.00017798425742602384, 'epoch': 0.12}
{'loss': 1.3495, 'grad_norm': 0.39453125, 'learning_rate': 0.00017797289504855996, 'epoch': 0.12}
{'loss': 1.2785, 'grad_norm': 0.46875, 'learning_rate': 0.0001779615326710961, 'epoch': 0.12}
{'loss': 1.1435, 'grad_norm': 0.59765625, 'learning_rate': 0.00017795017029363227, 'epoch': 0.12}
{'loss': 1.5202, 'grad_norm': 0.419



{'loss': 1.3182, 'grad_norm': 0.56640625, 'learning_rate': 0.00017776837225421047, 'epoch': 0.12}
{'loss': 1.1485, 'grad_norm': 0.5, 'learning_rate': 0.00017775700987674662, 'epoch': 0.12}
{'loss': 1.2892, 'grad_norm': 0.48828125, 'learning_rate': 0.00017774564749928275, 'epoch': 0.12}
{'loss': 1.4199, 'grad_norm': 0.58984375, 'learning_rate': 0.0001777342851218189, 'epoch': 0.12}
{'loss': 1.1218, 'grad_norm': 1.5390625, 'learning_rate': 0.00017772292274435505, 'epoch': 0.12}
{'loss': 1.6259, 'grad_norm': 0.419921875, 'learning_rate': 0.00017771156036689117, 'epoch': 0.12}
{'loss': 1.1909, 'grad_norm': 0.482421875, 'learning_rate': 0.00017770019798942733, 'epoch': 0.12}
{'loss': 1.2842, 'grad_norm': 0.349609375, 'learning_rate': 0.00017768883561196345, 'epoch': 0.12}
{'loss': 1.317, 'grad_norm': 0.439453125, 'learning_rate': 0.0001776774732344996, 'epoch': 0.12}
{'loss': 1.1769, 'grad_norm': 0.8515625, 'learning_rate': 0.00017766611085703573, 'epoch': 0.12}
{'loss': 1.4654, 'grad_norm'



{'loss': 1.3709, 'grad_norm': 0.408203125, 'learning_rate': 0.00017748431281761399, 'epoch': 0.13}
{'loss': 1.2462, 'grad_norm': 0.7109375, 'learning_rate': 0.0001774729504401501, 'epoch': 0.13}
{'loss': 1.1796, 'grad_norm': 0.4609375, 'learning_rate': 0.00017746158806268623, 'epoch': 0.13}
{'loss': 1.3572, 'grad_norm': 0.50390625, 'learning_rate': 0.00017745022568522239, 'epoch': 0.13}
{'loss': 1.1572, 'grad_norm': 0.72265625, 'learning_rate': 0.0001774388633077585, 'epoch': 0.13}
{'loss': 1.3409, 'grad_norm': 0.41796875, 'learning_rate': 0.00017742750093029466, 'epoch': 0.13}
{'loss': 1.1541, 'grad_norm': 0.703125, 'learning_rate': 0.0001774161385528308, 'epoch': 0.13}
{'loss': 1.3077, 'grad_norm': 0.36328125, 'learning_rate': 0.00017740477617536694, 'epoch': 0.13}
{'loss': 1.2703, 'grad_norm': 0.4921875, 'learning_rate': 0.0001773934137979031, 'epoch': 0.13}
{'loss': 1.1574, 'grad_norm': 0.76953125, 'learning_rate': 0.0001773820514204392, 'epoch': 0.13}
{'loss': 1.4585, 'grad_norm':



{'loss': 1.3748, 'grad_norm': 0.451171875, 'learning_rate': 0.00017720025338101745, 'epoch': 0.13}
{'loss': 1.2342, 'grad_norm': 0.55859375, 'learning_rate': 0.00017718889100355357, 'epoch': 0.13}
{'loss': 1.2998, 'grad_norm': 0.462890625, 'learning_rate': 0.00017717752862608975, 'epoch': 0.13}
{'loss': 1.2125, 'grad_norm': 0.390625, 'learning_rate': 0.00017716616624862587, 'epoch': 0.13}
{'loss': 1.1803, 'grad_norm': 0.58984375, 'learning_rate': 0.00017715480387116202, 'epoch': 0.13}
{'loss': 1.3752, 'grad_norm': 0.447265625, 'learning_rate': 0.00017714344149369815, 'epoch': 0.13}
{'loss': 1.1603, 'grad_norm': 0.447265625, 'learning_rate': 0.00017713207911623427, 'epoch': 0.13}
{'loss': 1.349, 'grad_norm': 0.39453125, 'learning_rate': 0.00017712071673877042, 'epoch': 0.13}
{'loss': 1.3866, 'grad_norm': 0.640625, 'learning_rate': 0.00017710935436130658, 'epoch': 0.13}
{'loss': 1.1788, 'grad_norm': 0.66796875, 'learning_rate': 0.00017709799198384273, 'epoch': 0.13}
{'loss': 1.386, 'grad



{'loss': 1.4325, 'grad_norm': 0.484375, 'learning_rate': 0.00017691619394442093, 'epoch': 0.13}
{'loss': 1.22, 'grad_norm': 0.48046875, 'learning_rate': 0.00017690483156695708, 'epoch': 0.13}
{'loss': 1.426, 'grad_norm': 0.34765625, 'learning_rate': 0.0001768934691894932, 'epoch': 0.13}
{'loss': 1.2661, 'grad_norm': 0.484375, 'learning_rate': 0.00017688210681202936, 'epoch': 0.13}
{'loss': 1.0998, 'grad_norm': 0.859375, 'learning_rate': 0.0001768707444345655, 'epoch': 0.13}
{'loss': 1.4371, 'grad_norm': 0.373046875, 'learning_rate': 0.00017685938205710164, 'epoch': 0.13}
{'loss': 1.2512, 'grad_norm': 0.578125, 'learning_rate': 0.0001768480196796378, 'epoch': 0.13}
{'loss': 1.2287, 'grad_norm': 0.484375, 'learning_rate': 0.0001768366573021739, 'epoch': 0.13}
{'loss': 1.2277, 'grad_norm': 1.390625, 'learning_rate': 0.00017682529492471006, 'epoch': 0.13}
{'loss': 1.1727, 'grad_norm': 0.451171875, 'learning_rate': 0.0001768139325472462, 'epoch': 0.13}
{'loss': 1.3811, 'grad_norm': 0.494140



{'loss': 1.3646, 'grad_norm': 0.46875, 'learning_rate': 0.00017663213450782442, 'epoch': 0.13}
{'loss': 1.2709, 'grad_norm': 0.609375, 'learning_rate': 0.00017662077213036057, 'epoch': 0.13}
{'loss': 1.2635, 'grad_norm': 0.359375, 'learning_rate': 0.0001766094097528967, 'epoch': 0.13}
{'loss': 1.3783, 'grad_norm': 0.53125, 'learning_rate': 0.00017659804737543285, 'epoch': 0.13}
{'loss': 1.0729, 'grad_norm': 0.71484375, 'learning_rate': 0.00017658668499796897, 'epoch': 0.13}
{'loss': 1.4213, 'grad_norm': 0.431640625, 'learning_rate': 0.00017657532262050512, 'epoch': 0.13}
{'loss': 1.2384, 'grad_norm': 0.68359375, 'learning_rate': 0.00017656396024304127, 'epoch': 0.13}
{'loss': 1.1982, 'grad_norm': 0.458984375, 'learning_rate': 0.0001765525978655774, 'epoch': 0.13}
{'loss': 1.3939, 'grad_norm': 0.486328125, 'learning_rate': 0.00017654123548811355, 'epoch': 0.13}
{'loss': 1.1539, 'grad_norm': 0.4609375, 'learning_rate': 0.00017652987311064967, 'epoch': 0.13}
{'loss': 1.3476, 'grad_norm': 



{'loss': 1.4145, 'grad_norm': 0.62890625, 'learning_rate': 0.0001763480750712279, 'epoch': 0.13}
{'loss': 1.1768, 'grad_norm': 0.58984375, 'learning_rate': 0.00017633671269376406, 'epoch': 0.13}
{'loss': 1.2864, 'grad_norm': 0.4609375, 'learning_rate': 0.0001763253503163002, 'epoch': 0.13}
{'loss': 1.2191, 'grad_norm': 0.48046875, 'learning_rate': 0.00017631398793883633, 'epoch': 0.13}
{'loss': 1.0717, 'grad_norm': 0.8515625, 'learning_rate': 0.00017630262556137246, 'epoch': 0.13}
{'loss': 1.3486, 'grad_norm': 0.5234375, 'learning_rate': 0.0001762912631839086, 'epoch': 0.13}
{'loss': 1.1892, 'grad_norm': 0.419921875, 'learning_rate': 0.00017627990080644473, 'epoch': 0.13}
{'loss': 1.3412, 'grad_norm': 0.421875, 'learning_rate': 0.00017626853842898089, 'epoch': 0.13}
{'loss': 1.3034, 'grad_norm': 0.5703125, 'learning_rate': 0.00017625717605151704, 'epoch': 0.13}
{'loss': 1.2677, 'grad_norm': 0.69921875, 'learning_rate': 0.00017624581367405316, 'epoch': 0.13}
{'loss': 1.2608, 'grad_norm'



{'loss': 1.4867, 'grad_norm': 0.5625, 'learning_rate': 0.0001760640156346314, 'epoch': 0.13}
{'loss': 1.261, 'grad_norm': 0.56640625, 'learning_rate': 0.00017605265325716754, 'epoch': 0.13}
{'loss': 1.3618, 'grad_norm': 0.37109375, 'learning_rate': 0.00017604129087970367, 'epoch': 0.13}
{'loss': 1.3055, 'grad_norm': 0.431640625, 'learning_rate': 0.00017602992850223982, 'epoch': 0.13}
{'loss': 1.1574, 'grad_norm': 1.78125, 'learning_rate': 0.00017601856612477597, 'epoch': 0.13}
{'loss': 1.3781, 'grad_norm': 0.453125, 'learning_rate': 0.0001760072037473121, 'epoch': 0.13}
{'loss': 1.2709, 'grad_norm': 0.6328125, 'learning_rate': 0.00017599584136984825, 'epoch': 0.13}
{'loss': 1.2538, 'grad_norm': 0.3515625, 'learning_rate': 0.00017598447899238437, 'epoch': 0.13}
{'loss': 1.3761, 'grad_norm': 0.50390625, 'learning_rate': 0.0001759731166149205, 'epoch': 0.13}
{'loss': 1.1149, 'grad_norm': 0.8046875, 'learning_rate': 0.00017596175423745665, 'epoch': 0.13}
{'loss': 1.408, 'grad_norm': 0.3535



{'loss': 1.353, 'grad_norm': 0.5234375, 'learning_rate': 0.00017577995619803488, 'epoch': 0.13}
{'loss': 1.1531, 'grad_norm': 0.546875, 'learning_rate': 0.00017576859382057103, 'epoch': 0.13}
{'loss': 1.2895, 'grad_norm': 0.8671875, 'learning_rate': 0.00017575723144310716, 'epoch': 0.13}
{'loss': 1.2528, 'grad_norm': 0.59375, 'learning_rate': 0.0001757458690656433, 'epoch': 0.13}
{'loss': 1.1266, 'grad_norm': 0.78515625, 'learning_rate': 0.00017573450668817943, 'epoch': 0.13}
{'loss': 1.377, 'grad_norm': 0.55859375, 'learning_rate': 0.00017572314431071558, 'epoch': 0.13}
{'loss': 1.2472, 'grad_norm': 0.71875, 'learning_rate': 0.00017571178193325173, 'epoch': 0.13}
{'loss': 1.2233, 'grad_norm': 0.43359375, 'learning_rate': 0.00017570041955578786, 'epoch': 0.13}
{'loss': 1.2568, 'grad_norm': 0.484375, 'learning_rate': 0.000175689057178324, 'epoch': 0.13}
{'loss': 1.1149, 'grad_norm': 1.078125, 'learning_rate': 0.00017567769480086013, 'epoch': 0.13}
{'loss': 1.3818, 'grad_norm': 0.4199218



{'loss': 1.3854, 'grad_norm': 0.51953125, 'learning_rate': 0.00017549589676143837, 'epoch': 0.13}
{'loss': 1.1979, 'grad_norm': 0.5390625, 'learning_rate': 0.00017548453438397452, 'epoch': 0.13}
{'loss': 1.231, 'grad_norm': 0.36328125, 'learning_rate': 0.00017547317200651064, 'epoch': 0.13}
{'loss': 1.238, 'grad_norm': 0.5234375, 'learning_rate': 0.0001754618096290468, 'epoch': 0.13}
{'loss': 1.1159, 'grad_norm': 0.73828125, 'learning_rate': 0.00017545044725158292, 'epoch': 0.13}
{'loss': 1.3581, 'grad_norm': 0.455078125, 'learning_rate': 0.00017543908487411907, 'epoch': 0.13}
{'loss': 1.3091, 'grad_norm': 0.69921875, 'learning_rate': 0.0001754277224966552, 'epoch': 0.13}
{'loss': 1.0669, 'grad_norm': 0.466796875, 'learning_rate': 0.00017541636011919135, 'epoch': 0.13}
{'loss': 1.335, 'grad_norm': 0.5234375, 'learning_rate': 0.0001754049977417275, 'epoch': 0.13}
{'loss': 1.0528, 'grad_norm': 0.6796875, 'learning_rate': 0.00017539363536426362, 'epoch': 0.13}
{'loss': 1.4268, 'grad_norm'



{'loss': 1.3746, 'grad_norm': 0.515625, 'learning_rate': 0.00017521183732484185, 'epoch': 0.14}
{'loss': 1.2755, 'grad_norm': 0.37890625, 'learning_rate': 0.00017520047494737798, 'epoch': 0.14}
{'loss': 1.5216, 'grad_norm': 0.43359375, 'learning_rate': 0.00017518911256991413, 'epoch': 0.14}
{'loss': 1.3897, 'grad_norm': 0.7109375, 'learning_rate': 0.00017517775019245028, 'epoch': 0.14}
{'loss': 1.2277, 'grad_norm': 0.97265625, 'learning_rate': 0.00017516638781498643, 'epoch': 0.14}
{'loss': 1.4748, 'grad_norm': 0.482421875, 'learning_rate': 0.00017515502543752256, 'epoch': 0.14}
{'loss': 1.3783, 'grad_norm': 0.484375, 'learning_rate': 0.00017514366306005868, 'epoch': 0.14}
{'loss': 1.2694, 'grad_norm': 0.380859375, 'learning_rate': 0.00017513230068259483, 'epoch': 0.14}
{'loss': 1.1934, 'grad_norm': 0.625, 'learning_rate': 0.00017512093830513096, 'epoch': 0.14}
{'loss': 1.1172, 'grad_norm': 0.46484375, 'learning_rate': 0.00017510957592766714, 'epoch': 0.14}
{'loss': 1.3338, 'grad_norm'



{'loss': 1.3648, 'grad_norm': 0.435546875, 'learning_rate': 0.00017492777788824534, 'epoch': 0.14}
{'loss': 1.3229, 'grad_norm': 0.81640625, 'learning_rate': 0.0001749164155107815, 'epoch': 0.14}
{'loss': 1.3568, 'grad_norm': 0.458984375, 'learning_rate': 0.00017490505313331762, 'epoch': 0.14}
{'loss': 1.2478, 'grad_norm': 0.66015625, 'learning_rate': 0.00017489369075585377, 'epoch': 0.14}
{'loss': 1.144, 'grad_norm': 0.427734375, 'learning_rate': 0.0001748823283783899, 'epoch': 0.14}
{'loss': 1.4027, 'grad_norm': 0.75, 'learning_rate': 0.00017487096600092604, 'epoch': 0.14}
{'loss': 1.2885, 'grad_norm': 0.6328125, 'learning_rate': 0.0001748596036234622, 'epoch': 0.14}
{'loss': 1.2653, 'grad_norm': 0.369140625, 'learning_rate': 0.00017484824124599832, 'epoch': 0.14}
{'loss': 1.4024, 'grad_norm': 0.466796875, 'learning_rate': 0.00017483687886853447, 'epoch': 0.14}
{'loss': 1.1822, 'grad_norm': 0.7734375, 'learning_rate': 0.0001748255164910706, 'epoch': 0.14}
{'loss': 1.419, 'grad_norm':



{'loss': 1.2785, 'grad_norm': 0.44921875, 'learning_rate': 0.00017464371845164883, 'epoch': 0.14}
{'loss': 1.2872, 'grad_norm': 0.67578125, 'learning_rate': 0.00017463235607418498, 'epoch': 0.14}
{'loss': 1.2714, 'grad_norm': 0.458984375, 'learning_rate': 0.0001746209936967211, 'epoch': 0.14}
{'loss': 1.345, 'grad_norm': 0.55078125, 'learning_rate': 0.00017460963131925726, 'epoch': 0.14}
{'loss': 1.2373, 'grad_norm': 0.447265625, 'learning_rate': 0.00017459826894179338, 'epoch': 0.14}
{'loss': 1.3199, 'grad_norm': 0.44921875, 'learning_rate': 0.00017458690656432953, 'epoch': 0.14}
{'loss': 1.251, 'grad_norm': 0.66796875, 'learning_rate': 0.00017457554418686566, 'epoch': 0.14}
{'loss': 1.3499, 'grad_norm': 0.390625, 'learning_rate': 0.0001745641818094018, 'epoch': 0.14}
{'loss': 1.3071, 'grad_norm': 0.62890625, 'learning_rate': 0.00017455281943193796, 'epoch': 0.14}
{'loss': 1.0921, 'grad_norm': 0.400390625, 'learning_rate': 0.00017454145705447408, 'epoch': 0.14}
{'loss': 1.4367, 'grad_



{'loss': 1.3618, 'grad_norm': 0.51953125, 'learning_rate': 0.00017435965901505232, 'epoch': 0.14}
{'loss': 1.2248, 'grad_norm': 0.423828125, 'learning_rate': 0.00017434829663758844, 'epoch': 0.14}
{'loss': 1.1898, 'grad_norm': 0.4140625, 'learning_rate': 0.00017433693426012462, 'epoch': 0.14}
{'loss': 1.3176, 'grad_norm': 0.484375, 'learning_rate': 0.00017432557188266074, 'epoch': 0.14}
{'loss': 1.2456, 'grad_norm': 0.703125, 'learning_rate': 0.00017431420950519687, 'epoch': 0.14}
{'loss': 1.4008, 'grad_norm': 0.55078125, 'learning_rate': 0.00017430284712773302, 'epoch': 0.14}
{'loss': 1.2884, 'grad_norm': 0.5390625, 'learning_rate': 0.00017429148475026914, 'epoch': 0.14}
{'loss': 1.2443, 'grad_norm': 0.44140625, 'learning_rate': 0.0001742801223728053, 'epoch': 0.14}
{'loss': 1.2354, 'grad_norm': 0.5703125, 'learning_rate': 0.00017426875999534142, 'epoch': 0.14}
{'loss': 1.2666, 'grad_norm': 0.65234375, 'learning_rate': 0.00017425739761787757, 'epoch': 0.14}
{'loss': 1.353, 'grad_norm'



{'loss': 1.2796, 'grad_norm': 0.37890625, 'learning_rate': 0.0001740755995784558, 'epoch': 0.14}
{'loss': 1.2569, 'grad_norm': 0.92578125, 'learning_rate': 0.00017406423720099195, 'epoch': 0.14}
{'loss': 1.1939, 'grad_norm': 0.369140625, 'learning_rate': 0.00017405287482352808, 'epoch': 0.14}
{'loss': 1.4035, 'grad_norm': 0.4921875, 'learning_rate': 0.0001740415124460642, 'epoch': 0.14}
{'loss': 1.0957, 'grad_norm': 0.52734375, 'learning_rate': 0.00017403015006860038, 'epoch': 0.14}
{'loss': 1.4258, 'grad_norm': 0.400390625, 'learning_rate': 0.0001740187876911365, 'epoch': 0.14}
{'loss': 1.1992, 'grad_norm': 0.5390625, 'learning_rate': 0.00017400742531367266, 'epoch': 0.14}
{'loss': 1.2558, 'grad_norm': 0.46484375, 'learning_rate': 0.00017399606293620878, 'epoch': 0.14}
{'loss': 1.1538, 'grad_norm': 0.55859375, 'learning_rate': 0.0001739847005587449, 'epoch': 0.14}
{'loss': 1.1673, 'grad_norm': 0.7109375, 'learning_rate': 0.00017397333818128106, 'epoch': 0.14}
{'loss': 1.4393, 'grad_no



{'loss': 1.5199, 'grad_norm': 0.54296875, 'learning_rate': 0.0001737915401418593, 'epoch': 0.14}
{'loss': 1.3207, 'grad_norm': 0.5234375, 'learning_rate': 0.00017378017776439544, 'epoch': 0.14}
{'loss': 1.3839, 'grad_norm': 0.4296875, 'learning_rate': 0.00017376881538693157, 'epoch': 0.14}
{'loss': 1.3016, 'grad_norm': 0.51953125, 'learning_rate': 0.00017375745300946772, 'epoch': 0.14}
{'loss': 1.2025, 'grad_norm': 0.76953125, 'learning_rate': 0.00017374609063200384, 'epoch': 0.14}
{'loss': 1.3251, 'grad_norm': 0.54296875, 'learning_rate': 0.00017373472825454, 'epoch': 0.14}
{'loss': 1.2884, 'grad_norm': 0.73046875, 'learning_rate': 0.00017372336587707614, 'epoch': 0.14}
{'loss': 1.2998, 'grad_norm': 0.400390625, 'learning_rate': 0.00017371200349961227, 'epoch': 0.14}
{'loss': 1.3535, 'grad_norm': 0.462890625, 'learning_rate': 0.00017370064112214842, 'epoch': 0.14}
{'loss': 1.215, 'grad_norm': 0.65625, 'learning_rate': 0.00017368927874468454, 'epoch': 0.14}
{'loss': 1.2008, 'grad_norm'



{'loss': 1.3134, 'grad_norm': 0.4609375, 'learning_rate': 0.00017350748070526278, 'epoch': 0.14}
{'loss': 1.2623, 'grad_norm': 0.81640625, 'learning_rate': 0.0001734961183277989, 'epoch': 0.14}
{'loss': 1.3928, 'grad_norm': 0.462890625, 'learning_rate': 0.00017348475595033505, 'epoch': 0.14}
{'loss': 1.2772, 'grad_norm': 0.392578125, 'learning_rate': 0.0001734733935728712, 'epoch': 0.14}
{'loss': 1.1526, 'grad_norm': 0.5546875, 'learning_rate': 0.00017346203119540733, 'epoch': 0.14}
{'loss': 1.4417, 'grad_norm': 0.470703125, 'learning_rate': 0.00017345066881794348, 'epoch': 0.14}
{'loss': 1.2811, 'grad_norm': 0.625, 'learning_rate': 0.0001734393064404796, 'epoch': 0.14}
{'loss': 1.1109, 'grad_norm': 0.36328125, 'learning_rate': 0.00017342794406301576, 'epoch': 0.14}
{'loss': 1.255, 'grad_norm': 0.6484375, 'learning_rate': 0.00017341658168555188, 'epoch': 0.14}
{'loss': 1.0955, 'grad_norm': 0.88671875, 'learning_rate': 0.00017340521930808803, 'epoch': 0.14}
{'loss': 1.4037, 'grad_norm':



{'loss': 1.3769, 'grad_norm': 0.58203125, 'learning_rate': 0.00017322342126866626, 'epoch': 0.14}
{'loss': 1.3347, 'grad_norm': 0.49609375, 'learning_rate': 0.0001732120588912024, 'epoch': 0.14}
{'loss': 1.194, 'grad_norm': 0.44921875, 'learning_rate': 0.00017320069651373854, 'epoch': 0.14}
{'loss': 1.281, 'grad_norm': 0.5, 'learning_rate': 0.00017318933413627466, 'epoch': 0.14}
{'loss': 1.1655, 'grad_norm': 0.95703125, 'learning_rate': 0.00017317797175881084, 'epoch': 0.14}
{'loss': 1.4435, 'grad_norm': 0.50390625, 'learning_rate': 0.00017316660938134697, 'epoch': 0.14}
{'loss': 1.2115, 'grad_norm': 0.5390625, 'learning_rate': 0.0001731552470038831, 'epoch': 0.14}
{'loss': 1.31, 'grad_norm': 0.40625, 'learning_rate': 0.00017314388462641924, 'epoch': 0.14}
{'loss': 1.3538, 'grad_norm': 0.5078125, 'learning_rate': 0.00017313252224895537, 'epoch': 0.14}
{'loss': 1.2115, 'grad_norm': 0.92578125, 'learning_rate': 0.00017312115987149152, 'epoch': 0.14}
{'loss': 1.5685, 'grad_norm': 0.470703



{'loss': 1.4726, 'grad_norm': 0.609375, 'learning_rate': 0.00017293936183206975, 'epoch': 0.15}
{'loss': 1.2824, 'grad_norm': 0.61328125, 'learning_rate': 0.0001729279994546059, 'epoch': 0.15}
{'loss': 1.2789, 'grad_norm': 0.49609375, 'learning_rate': 0.00017291663707714203, 'epoch': 0.15}
{'loss': 1.3871, 'grad_norm': 0.5390625, 'learning_rate': 0.00017290527469967818, 'epoch': 0.15}
{'loss': 1.1868, 'grad_norm': 0.66796875, 'learning_rate': 0.0001728939123222143, 'epoch': 0.15}
{'loss': 1.3778, 'grad_norm': 0.48046875, 'learning_rate': 0.00017288254994475043, 'epoch': 0.15}
{'loss': 1.1481, 'grad_norm': 0.71875, 'learning_rate': 0.0001728711875672866, 'epoch': 0.15}
{'loss': 1.2995, 'grad_norm': 0.44140625, 'learning_rate': 0.00017285982518982273, 'epoch': 0.15}
{'loss': 1.2824, 'grad_norm': 0.46875, 'learning_rate': 0.00017284846281235888, 'epoch': 0.15}
{'loss': 1.2176, 'grad_norm': 0.81640625, 'learning_rate': 0.000172837100434895, 'epoch': 0.15}
{'loss': 1.4019, 'grad_norm': 0.57



{'loss': 1.3648, 'grad_norm': 0.419921875, 'learning_rate': 0.00017265530239547324, 'epoch': 0.15}
{'loss': 1.2049, 'grad_norm': 0.55078125, 'learning_rate': 0.0001726439400180094, 'epoch': 0.15}
{'loss': 1.1346, 'grad_norm': 0.376953125, 'learning_rate': 0.0001726325776405455, 'epoch': 0.15}
{'loss': 1.2305, 'grad_norm': 0.43359375, 'learning_rate': 0.00017262121526308166, 'epoch': 0.15}
{'loss': 1.1524, 'grad_norm': 0.73046875, 'learning_rate': 0.0001726098528856178, 'epoch': 0.15}
{'loss': 1.3814, 'grad_norm': 0.53515625, 'learning_rate': 0.00017259849050815394, 'epoch': 0.15}
{'loss': 1.3995, 'grad_norm': 0.91796875, 'learning_rate': 0.00017258712813069006, 'epoch': 0.15}
{'loss': 1.3106, 'grad_norm': 0.4140625, 'learning_rate': 0.00017257576575322622, 'epoch': 0.15}
{'loss': 1.2978, 'grad_norm': 0.49609375, 'learning_rate': 0.00017256440337576237, 'epoch': 0.15}
{'loss': 1.0091, 'grad_norm': 0.498046875, 'learning_rate': 0.0001725530409982985, 'epoch': 0.15}
{'loss': 1.524, 'grad_



{'loss': 1.4514, 'grad_norm': 0.52734375, 'learning_rate': 0.00017237124295887672, 'epoch': 0.15}
{'loss': 1.2967, 'grad_norm': 0.66796875, 'learning_rate': 0.00017235988058141285, 'epoch': 0.15}
{'loss': 1.32, 'grad_norm': 0.392578125, 'learning_rate': 0.000172348518203949, 'epoch': 0.15}
{'loss': 1.3108, 'grad_norm': 0.578125, 'learning_rate': 0.00017233715582648515, 'epoch': 0.15}
{'loss': 1.1833, 'grad_norm': 0.640625, 'learning_rate': 0.00017232579344902128, 'epoch': 0.15}
{'loss': 1.425, 'grad_norm': 0.365234375, 'learning_rate': 0.00017231443107155743, 'epoch': 0.15}
{'loss': 1.2676, 'grad_norm': 0.58203125, 'learning_rate': 0.00017230306869409355, 'epoch': 0.15}
{'loss': 1.3969, 'grad_norm': 0.408203125, 'learning_rate': 0.0001722917063166297, 'epoch': 0.15}
{'loss': 1.2164, 'grad_norm': 0.52734375, 'learning_rate': 0.00017228034393916583, 'epoch': 0.15}
{'loss': 1.2236, 'grad_norm': 0.6953125, 'learning_rate': 0.00017226898156170198, 'epoch': 0.15}
{'loss': 1.3822, 'grad_norm'



{'loss': 1.3444, 'grad_norm': 0.462890625, 'learning_rate': 0.0001720871835222802, 'epoch': 0.15}
{'loss': 1.1938, 'grad_norm': 0.546875, 'learning_rate': 0.00017207582114481636, 'epoch': 0.15}
{'loss': 1.3022, 'grad_norm': 0.453125, 'learning_rate': 0.0001720644587673525, 'epoch': 0.15}
{'loss': 1.3644, 'grad_norm': 0.48046875, 'learning_rate': 0.0001720530963898886, 'epoch': 0.15}
{'loss': 1.2028, 'grad_norm': 0.56640625, 'learning_rate': 0.00017204173401242476, 'epoch': 0.15}
{'loss': 1.4609, 'grad_norm': 0.419921875, 'learning_rate': 0.00017203037163496091, 'epoch': 0.15}
{'loss': 1.1773, 'grad_norm': 0.65625, 'learning_rate': 0.00017201900925749707, 'epoch': 0.15}
{'loss': 1.1561, 'grad_norm': 0.439453125, 'learning_rate': 0.0001720076468800332, 'epoch': 0.15}
{'loss': 1.2873, 'grad_norm': 0.59765625, 'learning_rate': 0.00017199628450256931, 'epoch': 0.15}
{'loss': 1.2022, 'grad_norm': 0.8515625, 'learning_rate': 0.00017198492212510547, 'epoch': 0.15}
{'loss': 1.4195, 'grad_norm':



{'loss': 1.2636, 'grad_norm': 0.5390625, 'learning_rate': 0.0001718031240856837, 'epoch': 0.15}
{'loss': 1.2981, 'grad_norm': 0.86328125, 'learning_rate': 0.00017179176170821985, 'epoch': 0.15}
{'loss': 1.2446, 'grad_norm': 0.369140625, 'learning_rate': 0.00017178039933075597, 'epoch': 0.15}
{'loss': 1.2713, 'grad_norm': 0.58984375, 'learning_rate': 0.00017176903695329213, 'epoch': 0.15}
{'loss': 1.0126, 'grad_norm': 0.51171875, 'learning_rate': 0.00017175767457582825, 'epoch': 0.15}
{'loss': 1.391, 'grad_norm': 0.55078125, 'learning_rate': 0.0001717463121983644, 'epoch': 0.15}
{'loss': 1.138, 'grad_norm': 0.8671875, 'learning_rate': 0.00017173494982090053, 'epoch': 0.15}
{'loss': 1.2897, 'grad_norm': 0.40234375, 'learning_rate': 0.00017172358744343665, 'epoch': 0.15}
{'loss': 1.3067, 'grad_norm': 0.44921875, 'learning_rate': 0.00017171222506597283, 'epoch': 0.15}
{'loss': 1.0925, 'grad_norm': 1.03125, 'learning_rate': 0.00017170086268850895, 'epoch': 0.15}
{'loss': 1.3199, 'grad_norm'



{'loss': 1.3934, 'grad_norm': 0.5390625, 'learning_rate': 0.00017151906464908719, 'epoch': 0.15}
{'loss': 1.2101, 'grad_norm': 1.03125, 'learning_rate': 0.0001715077022716233, 'epoch': 0.15}
{'loss': 1.3344, 'grad_norm': 0.376953125, 'learning_rate': 0.00017149633989415946, 'epoch': 0.15}
{'loss': 1.2387, 'grad_norm': 0.55078125, 'learning_rate': 0.0001714849775166956, 'epoch': 0.15}
{'loss': 1.1072, 'grad_norm': 0.353515625, 'learning_rate': 0.00017147361513923174, 'epoch': 0.15}
{'loss': 1.4004, 'grad_norm': 0.470703125, 'learning_rate': 0.0001714622527617679, 'epoch': 0.15}
{'loss': 1.2599, 'grad_norm': 0.390625, 'learning_rate': 0.000171450890384304, 'epoch': 0.15}
{'loss': 1.1939, 'grad_norm': 0.33984375, 'learning_rate': 0.00017143952800684016, 'epoch': 0.15}
{'loss': 1.2399, 'grad_norm': 0.5234375, 'learning_rate': 0.0001714281656293763, 'epoch': 0.15}
{'loss': 1.0816, 'grad_norm': 0.62890625, 'learning_rate': 0.00017141680325191244, 'epoch': 0.15}
{'loss': 1.3989, 'grad_norm': 



{'loss': 1.4834, 'grad_norm': 0.6640625, 'learning_rate': 0.00017123500521249067, 'epoch': 0.15}
{'loss': 1.2234, 'grad_norm': 0.54296875, 'learning_rate': 0.0001712236428350268, 'epoch': 0.15}
{'loss': 1.3485, 'grad_norm': 0.400390625, 'learning_rate': 0.00017121228045756295, 'epoch': 0.15}
{'loss': 1.2926, 'grad_norm': 0.765625, 'learning_rate': 0.00017120091808009907, 'epoch': 0.15}
{'loss': 1.1703, 'grad_norm': 0.828125, 'learning_rate': 0.00017118955570263522, 'epoch': 0.15}
{'loss': 1.4908, 'grad_norm': 0.515625, 'learning_rate': 0.00017117819332517138, 'epoch': 0.15}
{'loss': 1.1392, 'grad_norm': 0.76953125, 'learning_rate': 0.0001711668309477075, 'epoch': 0.15}
{'loss': 1.2821, 'grad_norm': 0.341796875, 'learning_rate': 0.00017115546857024365, 'epoch': 0.15}
{'loss': 1.3382, 'grad_norm': 0.427734375, 'learning_rate': 0.00017114410619277978, 'epoch': 0.15}
{'loss': 1.1022, 'grad_norm': 0.89453125, 'learning_rate': 0.00017113274381531593, 'epoch': 0.15}
{'loss': 1.3966, 'grad_nor



{'loss': 1.4043, 'grad_norm': 0.5546875, 'learning_rate': 0.00017095094577589416, 'epoch': 0.15}
{'loss': 1.257, 'grad_norm': 0.9453125, 'learning_rate': 0.0001709395833984303, 'epoch': 0.15}
{'loss': 1.3344, 'grad_norm': 0.361328125, 'learning_rate': 0.00017092822102096644, 'epoch': 0.15}
{'loss': 1.2065, 'grad_norm': 0.44140625, 'learning_rate': 0.0001709168586435026, 'epoch': 0.15}
{'loss': 1.1036, 'grad_norm': 1.4765625, 'learning_rate': 0.0001709054962660387, 'epoch': 0.15}
{'loss': 1.3485, 'grad_norm': 0.44921875, 'learning_rate': 0.00017089413388857484, 'epoch': 0.15}
{'loss': 1.2558, 'grad_norm': 0.66796875, 'learning_rate': 0.000170882771511111, 'epoch': 0.15}
{'loss': 1.2761, 'grad_norm': 0.3828125, 'learning_rate': 0.00017087140913364714, 'epoch': 0.15}
{'loss': 1.2614, 'grad_norm': 0.6015625, 'learning_rate': 0.0001708600467561833, 'epoch': 0.15}
{'loss': 1.1177, 'grad_norm': 0.6953125, 'learning_rate': 0.00017084868437871941, 'epoch': 0.15}
{'loss': 1.4452, 'grad_norm': 0.



{'loss': 1.4552, 'grad_norm': 0.38671875, 'learning_rate': 0.00017066688633929765, 'epoch': 0.16}
{'loss': 1.3534, 'grad_norm': 0.640625, 'learning_rate': 0.00017065552396183377, 'epoch': 0.16}
{'loss': 1.2219, 'grad_norm': 0.455078125, 'learning_rate': 0.00017064416158436992, 'epoch': 0.16}
{'loss': 1.3531, 'grad_norm': 0.578125, 'learning_rate': 0.00017063279920690607, 'epoch': 0.16}
{'loss': 1.1115, 'grad_norm': 0.54296875, 'learning_rate': 0.0001706214368294422, 'epoch': 0.16}
{'loss': 1.2015, 'grad_norm': 0.388671875, 'learning_rate': 0.00017061007445197835, 'epoch': 0.16}
{'loss': 1.1907, 'grad_norm': 0.62890625, 'learning_rate': 0.00017059871207451447, 'epoch': 0.16}
{'loss': 1.3059, 'grad_norm': 0.36328125, 'learning_rate': 0.00017058734969705063, 'epoch': 0.16}
{'loss': 1.2105, 'grad_norm': 0.44140625, 'learning_rate': 0.00017057598731958675, 'epoch': 0.16}
{'loss': 1.1929, 'grad_norm': 0.90625, 'learning_rate': 0.0001705646249421229, 'epoch': 0.16}
{'loss': 1.4093, 'grad_norm



{'loss': 1.2604, 'grad_norm': 0.490234375, 'learning_rate': 0.00017038282690270113, 'epoch': 0.16}
{'loss': 1.2157, 'grad_norm': 0.9453125, 'learning_rate': 0.00017037146452523726, 'epoch': 0.16}
{'loss': 1.3081, 'grad_norm': 0.369140625, 'learning_rate': 0.0001703601021477734, 'epoch': 0.16}
{'loss': 1.2645, 'grad_norm': 0.53515625, 'learning_rate': 0.00017034873977030953, 'epoch': 0.16}
{'loss': 1.1347, 'grad_norm': 0.3359375, 'learning_rate': 0.00017033737739284569, 'epoch': 0.16}
{'loss': 1.3909, 'grad_norm': 0.482421875, 'learning_rate': 0.00017032601501538184, 'epoch': 0.16}
{'loss': 1.4437, 'grad_norm': 0.5703125, 'learning_rate': 0.00017031465263791796, 'epoch': 0.16}
{'loss': 1.1952, 'grad_norm': 0.5, 'learning_rate': 0.0001703032902604541, 'epoch': 0.16}
{'loss': 1.3299, 'grad_norm': 0.7578125, 'learning_rate': 0.00017029192788299024, 'epoch': 0.16}
{'loss': 1.1616, 'grad_norm': 0.859375, 'learning_rate': 0.0001702805655055264, 'epoch': 0.16}
{'loss': 1.4579, 'grad_norm': 0.4



{'loss': 1.4455, 'grad_norm': 0.421875, 'learning_rate': 0.00017009876746610462, 'epoch': 0.16}
{'loss': 1.1699, 'grad_norm': 0.765625, 'learning_rate': 0.00017008740508864077, 'epoch': 0.16}
{'loss': 1.2755, 'grad_norm': 0.48046875, 'learning_rate': 0.0001700760427111769, 'epoch': 0.16}
{'loss': 1.2681, 'grad_norm': 0.5078125, 'learning_rate': 0.00017006468033371302, 'epoch': 0.16}
{'loss': 1.2252, 'grad_norm': 0.8203125, 'learning_rate': 0.00017005331795624917, 'epoch': 0.16}
{'loss': 1.2431, 'grad_norm': 0.423828125, 'learning_rate': 0.0001700419555787853, 'epoch': 0.16}
{'loss': 1.2177, 'grad_norm': 0.55859375, 'learning_rate': 0.00017003059320132145, 'epoch': 0.16}
{'loss': 1.192, 'grad_norm': 0.470703125, 'learning_rate': 0.0001700192308238576, 'epoch': 0.16}
{'loss': 1.3022, 'grad_norm': 0.486328125, 'learning_rate': 0.00017000786844639372, 'epoch': 0.16}
{'loss': 0.9348, 'grad_norm': 0.5, 'learning_rate': 0.00016999650606892988, 'epoch': 0.16}
{'loss': 1.5349, 'grad_norm': 0.44



{'loss': 1.3448, 'grad_norm': 0.478515625, 'learning_rate': 0.0001698147080295081, 'epoch': 0.16}
{'loss': 1.2306, 'grad_norm': 0.5859375, 'learning_rate': 0.00016980334565204423, 'epoch': 0.16}
{'loss': 1.2994, 'grad_norm': 0.41015625, 'learning_rate': 0.00016979198327458038, 'epoch': 0.16}
{'loss': 1.3011, 'grad_norm': 0.54296875, 'learning_rate': 0.00016978062089711654, 'epoch': 0.16}
{'loss': 1.1458, 'grad_norm': 0.75, 'learning_rate': 0.00016976925851965266, 'epoch': 0.16}
{'loss': 1.3889, 'grad_norm': 0.443359375, 'learning_rate': 0.0001697578961421888, 'epoch': 0.16}
{'loss': 1.2873, 'grad_norm': 0.6015625, 'learning_rate': 0.00016974653376472494, 'epoch': 0.16}
{'loss': 1.307, 'grad_norm': 0.404296875, 'learning_rate': 0.00016973517138726106, 'epoch': 0.16}
{'loss': 1.37, 'grad_norm': 0.470703125, 'learning_rate': 0.0001697238090097972, 'epoch': 0.16}
{'loss': 1.1408, 'grad_norm': 0.53515625, 'learning_rate': 0.00016971244663233336, 'epoch': 0.16}
{'loss': 1.3443, 'grad_norm': 



{'loss': 1.4038, 'grad_norm': 0.50390625, 'learning_rate': 0.0001695306485929116, 'epoch': 0.16}
{'loss': 1.1809, 'grad_norm': 0.50390625, 'learning_rate': 0.00016951928621544772, 'epoch': 0.16}
{'loss': 1.2301, 'grad_norm': 0.4453125, 'learning_rate': 0.00016950792383798387, 'epoch': 0.16}
{'loss': 1.1189, 'grad_norm': 0.462890625, 'learning_rate': 0.00016949656146052, 'epoch': 0.16}
{'loss': 1.1755, 'grad_norm': 0.640625, 'learning_rate': 0.00016948519908305615, 'epoch': 0.16}
{'loss': 1.459, 'grad_norm': 0.408203125, 'learning_rate': 0.0001694738367055923, 'epoch': 0.16}
{'loss': 1.3012, 'grad_norm': 0.7421875, 'learning_rate': 0.00016946247432812842, 'epoch': 0.16}
{'loss': 1.2759, 'grad_norm': 0.3515625, 'learning_rate': 0.00016945111195066457, 'epoch': 0.16}
{'loss': 1.2258, 'grad_norm': 0.345703125, 'learning_rate': 0.0001694397495732007, 'epoch': 0.16}
{'loss': 1.0647, 'grad_norm': 0.37109375, 'learning_rate': 0.00016942838719573685, 'epoch': 0.16}
{'loss': 1.3201, 'grad_norm':



{'loss': 1.3764, 'grad_norm': 0.5, 'learning_rate': 0.00016924658915631508, 'epoch': 0.16}
{'loss': 1.251, 'grad_norm': 0.57421875, 'learning_rate': 0.0001692352267788512, 'epoch': 0.16}
{'loss': 1.2201, 'grad_norm': 0.365234375, 'learning_rate': 0.00016922386440138736, 'epoch': 0.16}
{'loss': 1.3625, 'grad_norm': 0.498046875, 'learning_rate': 0.00016921250202392348, 'epoch': 0.16}
{'loss': 1.1108, 'grad_norm': 1.1171875, 'learning_rate': 0.00016920113964645963, 'epoch': 0.16}
{'loss': 1.4884, 'grad_norm': 0.482421875, 'learning_rate': 0.00016918977726899576, 'epoch': 0.16}
{'loss': 1.1918, 'grad_norm': 0.59375, 'learning_rate': 0.0001691784148915319, 'epoch': 0.16}
{'loss': 1.3004, 'grad_norm': 0.4453125, 'learning_rate': 0.00016916705251406806, 'epoch': 0.16}
{'loss': 1.2687, 'grad_norm': 0.8359375, 'learning_rate': 0.00016915569013660418, 'epoch': 0.16}
{'loss': 1.0972, 'grad_norm': 0.62890625, 'learning_rate': 0.00016914432775914034, 'epoch': 0.16}
{'loss': 1.3995, 'grad_norm': 0.4



{'loss': 1.3855, 'grad_norm': 0.51171875, 'learning_rate': 0.00016896252971971854, 'epoch': 0.16}
{'loss': 1.2398, 'grad_norm': 0.66015625, 'learning_rate': 0.00016895116734225472, 'epoch': 0.16}
{'loss': 1.4978, 'grad_norm': 0.36328125, 'learning_rate': 0.00016893980496479084, 'epoch': 0.16}
{'loss': 1.2403, 'grad_norm': 0.466796875, 'learning_rate': 0.000168928442587327, 'epoch': 0.16}
{'loss': 1.085, 'grad_norm': 1.140625, 'learning_rate': 0.00016891708020986312, 'epoch': 0.16}
{'loss': 1.4365, 'grad_norm': 0.484375, 'learning_rate': 0.00016890571783239924, 'epoch': 0.16}
{'loss': 1.1817, 'grad_norm': 0.63671875, 'learning_rate': 0.0001688943554549354, 'epoch': 0.16}
{'loss': 1.2673, 'grad_norm': 0.48828125, 'learning_rate': 0.00016888299307747152, 'epoch': 0.16}
{'loss': 1.3567, 'grad_norm': 0.5390625, 'learning_rate': 0.0001688716307000077, 'epoch': 0.16}
{'loss': 1.1845, 'grad_norm': 0.408203125, 'learning_rate': 0.00016886026832254382, 'epoch': 0.16}
{'loss': 1.3329, 'grad_norm'



{'loss': 1.5238, 'grad_norm': 0.51953125, 'learning_rate': 0.00016867847028312206, 'epoch': 0.16}
{'loss': 1.1466, 'grad_norm': 0.5859375, 'learning_rate': 0.00016866710790565818, 'epoch': 0.16}
{'loss': 1.3943, 'grad_norm': 0.5390625, 'learning_rate': 0.00016865574552819433, 'epoch': 0.16}
{'loss': 1.2886, 'grad_norm': 0.5390625, 'learning_rate': 0.00016864438315073046, 'epoch': 0.16}
{'loss': 1.2666, 'grad_norm': 0.625, 'learning_rate': 0.0001686330207732666, 'epoch': 0.16}
{'loss': 1.3276, 'grad_norm': 0.40234375, 'learning_rate': 0.00016862165839580276, 'epoch': 0.16}
{'loss': 1.2177, 'grad_norm': 0.6171875, 'learning_rate': 0.00016861029601833888, 'epoch': 0.16}
{'loss': 1.3474, 'grad_norm': 0.37890625, 'learning_rate': 0.00016859893364087503, 'epoch': 0.16}
{'loss': 1.3145, 'grad_norm': 0.48828125, 'learning_rate': 0.00016858757126341116, 'epoch': 0.16}
{'loss': 1.1574, 'grad_norm': 0.5703125, 'learning_rate': 0.00016857620888594728, 'epoch': 0.16}
{'loss': 1.4392, 'grad_norm': 0



{'loss': 1.3656, 'grad_norm': 0.419921875, 'learning_rate': 0.00016839441084652554, 'epoch': 0.16}
{'loss': 1.1907, 'grad_norm': 0.5625, 'learning_rate': 0.00016838304846906167, 'epoch': 0.17}
{'loss': 1.286, 'grad_norm': 0.375, 'learning_rate': 0.00016837168609159782, 'epoch': 0.17}
{'loss': 1.1937, 'grad_norm': 0.4765625, 'learning_rate': 0.00016836032371413394, 'epoch': 0.17}
{'loss': 1.1752, 'grad_norm': 0.6875, 'learning_rate': 0.0001683489613366701, 'epoch': 0.17}
{'loss': 1.5061, 'grad_norm': 0.490234375, 'learning_rate': 0.00016833759895920622, 'epoch': 0.17}
{'loss': 1.3477, 'grad_norm': 0.8671875, 'learning_rate': 0.00016832623658174237, 'epoch': 0.17}
{'loss': 1.3483, 'grad_norm': 0.4765625, 'learning_rate': 0.00016831487420427852, 'epoch': 0.17}
{'loss': 1.4167, 'grad_norm': 0.58984375, 'learning_rate': 0.00016830351182681465, 'epoch': 0.17}
{'loss': 1.0713, 'grad_norm': 0.63671875, 'learning_rate': 0.0001682921494493508, 'epoch': 0.17}
{'loss': 1.3576, 'grad_norm': 0.39062



{'loss': 1.3058, 'grad_norm': 0.546875, 'learning_rate': 0.000168110351409929, 'epoch': 0.17}
{'loss': 1.146, 'grad_norm': 0.578125, 'learning_rate': 0.00016809898903246518, 'epoch': 0.17}
{'loss': 1.2105, 'grad_norm': 0.443359375, 'learning_rate': 0.0001680876266550013, 'epoch': 0.17}
{'loss': 1.394, 'grad_norm': 0.63671875, 'learning_rate': 0.00016807626427753743, 'epoch': 0.17}
{'loss': 1.0838, 'grad_norm': 0.63671875, 'learning_rate': 0.00016806490190007358, 'epoch': 0.17}
{'loss': 1.4601, 'grad_norm': 0.74609375, 'learning_rate': 0.0001680535395226097, 'epoch': 0.17}
{'loss': 1.2954, 'grad_norm': 0.46484375, 'learning_rate': 0.00016804217714514586, 'epoch': 0.17}
{'loss': 1.2763, 'grad_norm': 0.474609375, 'learning_rate': 0.00016803081476768198, 'epoch': 0.17}
{'loss': 1.2036, 'grad_norm': 0.52734375, 'learning_rate': 0.00016801945239021813, 'epoch': 0.17}
{'loss': 1.0812, 'grad_norm': 1.046875, 'learning_rate': 0.00016800809001275428, 'epoch': 0.17}
{'loss': 1.4324, 'grad_norm': 



{'loss': 1.3977, 'grad_norm': 0.6328125, 'learning_rate': 0.00016782629197333252, 'epoch': 0.17}
{'loss': 1.2299, 'grad_norm': 0.60546875, 'learning_rate': 0.00016781492959586864, 'epoch': 0.17}
{'loss': 1.3774, 'grad_norm': 0.41015625, 'learning_rate': 0.00016780356721840477, 'epoch': 0.17}
{'loss': 1.2379, 'grad_norm': 0.43359375, 'learning_rate': 0.00016779220484094094, 'epoch': 0.17}
{'loss': 1.187, 'grad_norm': 0.63671875, 'learning_rate': 0.00016778084246347707, 'epoch': 0.17}
{'loss': 1.2771, 'grad_norm': 0.388671875, 'learning_rate': 0.00016776948008601322, 'epoch': 0.17}
{'loss': 1.1629, 'grad_norm': 0.9375, 'learning_rate': 0.00016775811770854934, 'epoch': 0.17}
{'loss': 1.0561, 'grad_norm': 0.357421875, 'learning_rate': 0.00016774675533108547, 'epoch': 0.17}
{'loss': 1.2311, 'grad_norm': 0.373046875, 'learning_rate': 0.00016773539295362162, 'epoch': 0.17}
{'loss': 1.1451, 'grad_norm': 1.53125, 'learning_rate': 0.00016772403057615774, 'epoch': 0.17}
{'loss': 1.4821, 'grad_nor



{'loss': 1.4765, 'grad_norm': 0.400390625, 'learning_rate': 0.000167542232536736, 'epoch': 0.17}
{'loss': 1.1851, 'grad_norm': 0.5859375, 'learning_rate': 0.00016753087015927213, 'epoch': 0.17}
{'loss': 1.275, 'grad_norm': 0.353515625, 'learning_rate': 0.00016751950778180828, 'epoch': 0.17}
{'loss': 1.3772, 'grad_norm': 0.74609375, 'learning_rate': 0.0001675081454043444, 'epoch': 0.17}
{'loss': 1.1061, 'grad_norm': 0.51953125, 'learning_rate': 0.00016749678302688056, 'epoch': 0.17}
{'loss': 1.2844, 'grad_norm': 0.48046875, 'learning_rate': 0.0001674854206494167, 'epoch': 0.17}
{'loss': 1.2589, 'grad_norm': 1.5234375, 'learning_rate': 0.00016747405827195283, 'epoch': 0.17}
{'loss': 1.3881, 'grad_norm': 0.35546875, 'learning_rate': 0.00016746269589448898, 'epoch': 0.17}
{'loss': 1.2991, 'grad_norm': 0.921875, 'learning_rate': 0.0001674513335170251, 'epoch': 0.17}
{'loss': 1.0372, 'grad_norm': 0.71484375, 'learning_rate': 0.00016743997113956126, 'epoch': 0.17}
{'loss': 1.208, 'grad_norm':



{'loss': 1.459, 'grad_norm': 0.435546875, 'learning_rate': 0.00016725817310013946, 'epoch': 0.17}
{'loss': 1.1896, 'grad_norm': 0.474609375, 'learning_rate': 0.00016724681072267562, 'epoch': 0.17}
{'loss': 1.2448, 'grad_norm': 0.453125, 'learning_rate': 0.00016723544834521177, 'epoch': 0.17}
{'loss': 1.1896, 'grad_norm': 0.75, 'learning_rate': 0.0001672240859677479, 'epoch': 0.17}
{'loss': 1.0299, 'grad_norm': 0.9453125, 'learning_rate': 0.00016721272359028404, 'epoch': 0.17}
{'loss': 1.3967, 'grad_norm': 0.45703125, 'learning_rate': 0.00016720136121282017, 'epoch': 0.17}
{'loss': 1.2043, 'grad_norm': 0.69140625, 'learning_rate': 0.00016718999883535632, 'epoch': 0.17}
{'loss': 1.2393, 'grad_norm': 0.37109375, 'learning_rate': 0.00016717863645789247, 'epoch': 0.17}
{'loss': 1.2266, 'grad_norm': 0.416015625, 'learning_rate': 0.0001671672740804286, 'epoch': 0.17}
{'loss': 1.1814, 'grad_norm': 0.59375, 'learning_rate': 0.00016715591170296475, 'epoch': 0.17}
{'loss': 1.4251, 'grad_norm': 0.



{'loss': 1.3928, 'grad_norm': 0.392578125, 'learning_rate': 0.00016697411366354295, 'epoch': 0.17}
{'loss': 1.2356, 'grad_norm': 0.51171875, 'learning_rate': 0.0001669627512860791, 'epoch': 0.17}
{'loss': 1.2247, 'grad_norm': 0.455078125, 'learning_rate': 0.00016695138890861523, 'epoch': 0.17}
{'loss': 1.2647, 'grad_norm': 0.455078125, 'learning_rate': 0.0001669400265311514, 'epoch': 0.17}
{'loss': 1.0369, 'grad_norm': 0.6796875, 'learning_rate': 0.00016692866415368753, 'epoch': 0.17}
{'loss': 1.3229, 'grad_norm': 0.44921875, 'learning_rate': 0.00016691730177622365, 'epoch': 0.17}
{'loss': 1.1391, 'grad_norm': 0.85546875, 'learning_rate': 0.0001669059393987598, 'epoch': 0.17}
{'loss': 1.3359, 'grad_norm': 0.40625, 'learning_rate': 0.00016689457702129593, 'epoch': 0.17}
{'loss': 1.3105, 'grad_norm': 0.5546875, 'learning_rate': 0.00016688321464383208, 'epoch': 0.17}
{'loss': 1.157, 'grad_norm': 0.4296875, 'learning_rate': 0.00016687185226636823, 'epoch': 0.17}
{'loss': 1.3596, 'grad_norm



{'loss': 1.37, 'grad_norm': 0.41015625, 'learning_rate': 0.00016669005422694647, 'epoch': 0.17}
{'loss': 1.2095, 'grad_norm': 0.7421875, 'learning_rate': 0.0001666786918494826, 'epoch': 0.17}
{'loss': 1.3104, 'grad_norm': 0.443359375, 'learning_rate': 0.00016666732947201874, 'epoch': 0.17}
{'loss': 1.3109, 'grad_norm': 0.65625, 'learning_rate': 0.00016665596709455487, 'epoch': 0.17}
{'loss': 1.2389, 'grad_norm': 0.90234375, 'learning_rate': 0.000166644604717091, 'epoch': 0.17}
{'loss': 1.3746, 'grad_norm': 0.48046875, 'learning_rate': 0.00016663324233962717, 'epoch': 0.17}
{'loss': 1.2765, 'grad_norm': 0.71875, 'learning_rate': 0.0001666218799621633, 'epoch': 0.17}
{'loss': 1.2105, 'grad_norm': 0.4375, 'learning_rate': 0.00016661051758469944, 'epoch': 0.17}
{'loss': 1.2807, 'grad_norm': 0.6484375, 'learning_rate': 0.00016659915520723557, 'epoch': 0.17}
{'loss': 1.1114, 'grad_norm': 0.8203125, 'learning_rate': 0.0001665877928297717, 'epoch': 0.17}
{'loss': 1.3715, 'grad_norm': 0.4667968



{'loss': 1.3878, 'grad_norm': 0.7109375, 'learning_rate': 0.00016640599479034995, 'epoch': 0.17}
{'loss': 1.1832, 'grad_norm': 0.55859375, 'learning_rate': 0.00016639463241288608, 'epoch': 0.17}
{'loss': 1.1939, 'grad_norm': 0.439453125, 'learning_rate': 0.00016638327003542223, 'epoch': 0.17}
{'loss': 1.3268, 'grad_norm': 0.62109375, 'learning_rate': 0.00016637190765795835, 'epoch': 0.17}
{'loss': 1.1182, 'grad_norm': 0.7734375, 'learning_rate': 0.0001663605452804945, 'epoch': 0.17}
{'loss': 1.3303, 'grad_norm': 0.453125, 'learning_rate': 0.00016634918290303063, 'epoch': 0.17}
{'loss': 1.1988, 'grad_norm': 0.55859375, 'learning_rate': 0.00016633782052556678, 'epoch': 0.17}
{'loss': 1.2688, 'grad_norm': 0.37109375, 'learning_rate': 0.00016632645814810293, 'epoch': 0.17}
{'loss': 1.3621, 'grad_norm': 0.498046875, 'learning_rate': 0.00016631509577063905, 'epoch': 0.17}
{'loss': 1.1849, 'grad_norm': 0.92578125, 'learning_rate': 0.0001663037333931752, 'epoch': 0.17}
{'loss': 1.4296, 'grad_n



{'loss': 1.3407, 'grad_norm': 0.49609375, 'learning_rate': 0.0001661219353537534, 'epoch': 0.17}
{'loss': 1.2614, 'grad_norm': 0.400390625, 'learning_rate': 0.00016611057297628956, 'epoch': 0.17}
{'loss': 1.293, 'grad_norm': 0.44140625, 'learning_rate': 0.00016609921059882571, 'epoch': 0.17}
{'loss': 1.3053, 'grad_norm': 0.55078125, 'learning_rate': 0.00016608784822136184, 'epoch': 0.18}
{'loss': 1.1486, 'grad_norm': 0.71875, 'learning_rate': 0.000166076485843898, 'epoch': 0.18}
{'loss': 1.4876, 'grad_norm': 0.498046875, 'learning_rate': 0.00016606512346643411, 'epoch': 0.18}
{'loss': 1.236, 'grad_norm': 0.6875, 'learning_rate': 0.00016605376108897027, 'epoch': 0.18}
{'loss': 1.219, 'grad_norm': 0.3984375, 'learning_rate': 0.0001660423987115064, 'epoch': 0.18}
{'loss': 1.2214, 'grad_norm': 0.5, 'learning_rate': 0.00016603103633404254, 'epoch': 0.18}
{'loss': 1.2456, 'grad_norm': 0.828125, 'learning_rate': 0.0001660196739565787, 'epoch': 0.18}
{'loss': 1.5043, 'grad_norm': 0.3828125, 'l



{'loss': 1.2633, 'grad_norm': 0.427734375, 'learning_rate': 0.00016583787591715693, 'epoch': 0.18}
{'loss': 1.2292, 'grad_norm': 0.89453125, 'learning_rate': 0.00016582651353969305, 'epoch': 0.18}
{'loss': 1.2362, 'grad_norm': 0.3984375, 'learning_rate': 0.00016581515116222917, 'epoch': 0.18}
{'loss': 1.266, 'grad_norm': 0.76171875, 'learning_rate': 0.00016580378878476533, 'epoch': 0.18}
{'loss': 1.1181, 'grad_norm': 1.0546875, 'learning_rate': 0.00016579242640730148, 'epoch': 0.18}
{'loss': 1.3519, 'grad_norm': 0.54296875, 'learning_rate': 0.00016578106402983763, 'epoch': 0.18}
{'loss': 1.3683, 'grad_norm': 1.046875, 'learning_rate': 0.00016576970165237375, 'epoch': 0.18}
{'loss': 1.0437, 'grad_norm': 0.34375, 'learning_rate': 0.00016575833927490988, 'epoch': 0.18}
{'loss': 1.3932, 'grad_norm': 0.53515625, 'learning_rate': 0.00016574697689744603, 'epoch': 0.18}
{'loss': 1.1431, 'grad_norm': 1.34375, 'learning_rate': 0.00016573561451998215, 'epoch': 0.18}
{'loss': 1.2853, 'grad_norm': 



{'loss': 1.362, 'grad_norm': 0.5078125, 'learning_rate': 0.0001655538164805604, 'epoch': 0.18}
{'loss': 1.1806, 'grad_norm': 0.494140625, 'learning_rate': 0.00016554245410309654, 'epoch': 0.18}
{'loss': 1.2524, 'grad_norm': 0.443359375, 'learning_rate': 0.0001655310917256327, 'epoch': 0.18}
{'loss': 1.321, 'grad_norm': 0.50390625, 'learning_rate': 0.0001655197293481688, 'epoch': 0.18}
{'loss': 1.0909, 'grad_norm': 0.765625, 'learning_rate': 0.00016550836697070496, 'epoch': 0.18}
{'loss': 1.3111, 'grad_norm': 0.427734375, 'learning_rate': 0.0001654970045932411, 'epoch': 0.18}
{'loss': 1.2229, 'grad_norm': 0.671875, 'learning_rate': 0.00016548564221577724, 'epoch': 0.18}
{'loss': 1.2913, 'grad_norm': 0.35546875, 'learning_rate': 0.0001654742798383134, 'epoch': 0.18}
{'loss': 1.3128, 'grad_norm': 0.5625, 'learning_rate': 0.00016546291746084952, 'epoch': 0.18}
{'loss': 1.1799, 'grad_norm': 0.984375, 'learning_rate': 0.00016545155508338567, 'epoch': 0.18}
{'loss': 1.4842, 'grad_norm': 0.511



{'loss': 1.4538, 'grad_norm': 0.443359375, 'learning_rate': 0.00016526975704396387, 'epoch': 0.18}
{'loss': 1.2231, 'grad_norm': 0.7578125, 'learning_rate': 0.00016525839466650002, 'epoch': 0.18}
{'loss': 1.1982, 'grad_norm': 0.4375, 'learning_rate': 0.00016524703228903618, 'epoch': 0.18}
{'loss': 1.2928, 'grad_norm': 0.49609375, 'learning_rate': 0.0001652356699115723, 'epoch': 0.18}
{'loss': 1.1907, 'grad_norm': 0.6640625, 'learning_rate': 0.00016522430753410845, 'epoch': 0.18}
{'loss': 1.3517, 'grad_norm': 0.470703125, 'learning_rate': 0.00016521294515664458, 'epoch': 0.18}
{'loss': 1.1835, 'grad_norm': 0.48828125, 'learning_rate': 0.00016520158277918073, 'epoch': 0.18}
{'loss': 1.385, 'grad_norm': 0.375, 'learning_rate': 0.00016519022040171685, 'epoch': 0.18}
{'loss': 1.3431, 'grad_norm': 0.66015625, 'learning_rate': 0.000165178858024253, 'epoch': 0.18}
{'loss': 1.2088, 'grad_norm': 1.078125, 'learning_rate': 0.00016516749564678915, 'epoch': 0.18}
{'loss': 1.3072, 'grad_norm': 0.566



{'loss': 1.3606, 'grad_norm': 0.404296875, 'learning_rate': 0.00016498569760736736, 'epoch': 0.18}
{'loss': 1.3298, 'grad_norm': 0.59765625, 'learning_rate': 0.0001649743352299035, 'epoch': 0.18}
{'loss': 1.2473, 'grad_norm': 0.3671875, 'learning_rate': 0.00016496297285243964, 'epoch': 0.18}
{'loss': 1.2631, 'grad_norm': 0.6171875, 'learning_rate': 0.0001649516104749758, 'epoch': 0.18}
{'loss': 1.1744, 'grad_norm': 1.1171875, 'learning_rate': 0.00016494024809751194, 'epoch': 0.18}
{'loss': 1.4257, 'grad_norm': 0.58203125, 'learning_rate': 0.00016492888572004806, 'epoch': 0.18}
{'loss': 1.1059, 'grad_norm': 0.5078125, 'learning_rate': 0.00016491752334258421, 'epoch': 0.18}
{'loss': 1.1898, 'grad_norm': 0.44921875, 'learning_rate': 0.00016490616096512034, 'epoch': 0.18}
{'loss': 1.228, 'grad_norm': 0.5703125, 'learning_rate': 0.0001648947985876565, 'epoch': 0.18}
{'loss': 1.1369, 'grad_norm': 0.63671875, 'learning_rate': 0.00016488343621019261, 'epoch': 0.18}
{'loss': 1.3408, 'grad_norm'



{'loss': 1.3595, 'grad_norm': 0.58203125, 'learning_rate': 0.00016470163817077087, 'epoch': 0.18}
{'loss': 1.2613, 'grad_norm': 0.54296875, 'learning_rate': 0.000164690275793307, 'epoch': 0.18}
{'loss': 1.1908, 'grad_norm': 0.439453125, 'learning_rate': 0.00016467891341584315, 'epoch': 0.18}
{'loss': 1.2312, 'grad_norm': 0.453125, 'learning_rate': 0.00016466755103837927, 'epoch': 0.18}
{'loss': 1.096, 'grad_norm': 0.419921875, 'learning_rate': 0.0001646561886609154, 'epoch': 0.18}
{'loss': 1.4056, 'grad_norm': 0.6015625, 'learning_rate': 0.00016464482628345155, 'epoch': 0.18}
{'loss': 1.1874, 'grad_norm': 0.515625, 'learning_rate': 0.0001646334639059877, 'epoch': 0.18}
{'loss': 1.3006, 'grad_norm': 0.59765625, 'learning_rate': 0.00016462210152852385, 'epoch': 0.18}
{'loss': 1.2047, 'grad_norm': 0.54296875, 'learning_rate': 0.00016461073915105998, 'epoch': 0.18}
{'loss': 1.1127, 'grad_norm': 0.462890625, 'learning_rate': 0.0001645993767735961, 'epoch': 0.18}
{'loss': 1.2826, 'grad_norm'



{'loss': 1.3261, 'grad_norm': 0.56640625, 'learning_rate': 0.00016441757873417433, 'epoch': 0.18}
{'loss': 1.2493, 'grad_norm': 0.466796875, 'learning_rate': 0.00016440621635671049, 'epoch': 0.18}
{'loss': 1.3164, 'grad_norm': 0.40234375, 'learning_rate': 0.00016439485397924664, 'epoch': 0.18}
{'loss': 1.242, 'grad_norm': 0.47265625, 'learning_rate': 0.00016438349160178276, 'epoch': 0.18}
{'loss': 1.1572, 'grad_norm': 0.890625, 'learning_rate': 0.0001643721292243189, 'epoch': 0.18}
{'loss': 1.3552, 'grad_norm': 0.59765625, 'learning_rate': 0.00016436076684685504, 'epoch': 0.18}
{'loss': 1.2761, 'grad_norm': 0.80078125, 'learning_rate': 0.0001643494044693912, 'epoch': 0.18}
{'loss': 1.2353, 'grad_norm': 0.412109375, 'learning_rate': 0.0001643380420919273, 'epoch': 0.18}
{'loss': 1.271, 'grad_norm': 0.41796875, 'learning_rate': 0.00016432667971446346, 'epoch': 0.18}
{'loss': 1.1965, 'grad_norm': 0.67578125, 'learning_rate': 0.00016431531733699962, 'epoch': 0.18}
{'loss': 1.4185, 'grad_no



{'loss': 1.241, 'grad_norm': 0.5, 'learning_rate': 0.00016413351929757782, 'epoch': 0.18}
{'loss': 1.2045, 'grad_norm': 0.625, 'learning_rate': 0.00016412215692011397, 'epoch': 0.18}
{'loss': 1.2742, 'grad_norm': 0.408203125, 'learning_rate': 0.0001641107945426501, 'epoch': 0.18}
{'loss': 1.2547, 'grad_norm': 0.62109375, 'learning_rate': 0.00016409943216518628, 'epoch': 0.18}
{'loss': 1.1977, 'grad_norm': 1.046875, 'learning_rate': 0.0001640880697877224, 'epoch': 0.18}
{'loss': 1.2689, 'grad_norm': 0.42578125, 'learning_rate': 0.00016407670741025852, 'epoch': 0.18}
{'loss': 1.2406, 'grad_norm': 0.703125, 'learning_rate': 0.00016406534503279468, 'epoch': 0.18}
{'loss': 1.3085, 'grad_norm': 0.35546875, 'learning_rate': 0.0001640539826553308, 'epoch': 0.18}
{'loss': 1.2195, 'grad_norm': 0.80859375, 'learning_rate': 0.00016404262027786695, 'epoch': 0.18}
{'loss': 1.1551, 'grad_norm': 0.48828125, 'learning_rate': 0.00016403125790040308, 'epoch': 0.18}
{'loss': 1.4577, 'grad_norm': 0.4980468



{'loss': 1.3389, 'grad_norm': 0.44140625, 'learning_rate': 0.00016384945986098134, 'epoch': 0.18}
{'loss': 1.0987, 'grad_norm': 0.828125, 'learning_rate': 0.00016383809748351746, 'epoch': 0.18}
{'loss': 1.2929, 'grad_norm': 0.400390625, 'learning_rate': 0.00016382673510605358, 'epoch': 0.18}
{'loss': 1.2953, 'grad_norm': 0.5234375, 'learning_rate': 0.00016381537272858974, 'epoch': 0.18}
{'loss': 1.1022, 'grad_norm': 0.765625, 'learning_rate': 0.00016380401035112586, 'epoch': 0.18}
{'loss': 1.3949, 'grad_norm': 0.43359375, 'learning_rate': 0.00016379264797366204, 'epoch': 0.19}
{'loss': 1.2087, 'grad_norm': 0.75, 'learning_rate': 0.00016378128559619816, 'epoch': 0.19}
{'loss': 1.2654, 'grad_norm': 0.44140625, 'learning_rate': 0.0001637699232187343, 'epoch': 0.19}
{'loss': 1.2961, 'grad_norm': 0.50390625, 'learning_rate': 0.00016375856084127044, 'epoch': 0.19}
{'loss': 1.3032, 'grad_norm': 0.78125, 'learning_rate': 0.00016374719846380656, 'epoch': 0.19}
{'loss': 1.4196, 'grad_norm': 0.42



{'loss': 1.2921, 'grad_norm': 0.4765625, 'learning_rate': 0.0001635654004243848, 'epoch': 0.19}
{'loss': 1.2044, 'grad_norm': 0.93359375, 'learning_rate': 0.00016355403804692095, 'epoch': 0.19}
{'loss': 1.1285, 'grad_norm': 0.494140625, 'learning_rate': 0.0001635426756694571, 'epoch': 0.19}
{'loss': 1.3135, 'grad_norm': 0.5, 'learning_rate': 0.00016353131329199322, 'epoch': 0.19}
{'loss': 1.1879, 'grad_norm': 0.546875, 'learning_rate': 0.00016351995091452937, 'epoch': 0.19}
{'loss': 1.4942, 'grad_norm': 0.49609375, 'learning_rate': 0.0001635085885370655, 'epoch': 0.19}
{'loss': 1.261, 'grad_norm': 0.88671875, 'learning_rate': 0.00016349722615960162, 'epoch': 0.19}
{'loss': 1.3704, 'grad_norm': 0.345703125, 'learning_rate': 0.00016348586378213777, 'epoch': 0.19}
{'loss': 1.3178, 'grad_norm': 0.5234375, 'learning_rate': 0.00016347450140467393, 'epoch': 0.19}
{'loss': 1.0646, 'grad_norm': 0.875, 'learning_rate': 0.00016346313902721008, 'epoch': 0.19}
{'loss': 1.56, 'grad_norm': 0.53125, '



{'loss': 1.4187, 'grad_norm': 0.451171875, 'learning_rate': 0.00016328134098778828, 'epoch': 0.19}
{'loss': 1.1953, 'grad_norm': 0.734375, 'learning_rate': 0.00016326997861032443, 'epoch': 0.19}
{'loss': 1.1535, 'grad_norm': 0.3515625, 'learning_rate': 0.00016325861623286056, 'epoch': 0.19}
{'loss': 1.2722, 'grad_norm': 0.6015625, 'learning_rate': 0.0001632472538553967, 'epoch': 0.19}
{'loss': 1.1464, 'grad_norm': 1.625, 'learning_rate': 0.00016323589147793286, 'epoch': 0.19}
{'loss': 1.3352, 'grad_norm': 0.51953125, 'learning_rate': 0.00016322452910046899, 'epoch': 0.19}
{'loss': 1.2468, 'grad_norm': 0.7265625, 'learning_rate': 0.00016321316672300514, 'epoch': 0.19}
{'loss': 1.3166, 'grad_norm': 0.498046875, 'learning_rate': 0.00016320180434554126, 'epoch': 0.19}
{'loss': 1.1936, 'grad_norm': 0.6640625, 'learning_rate': 0.0001631904419680774, 'epoch': 0.19}
{'loss': 1.1571, 'grad_norm': 0.72265625, 'learning_rate': 0.00016317907959061354, 'epoch': 0.19}
{'loss': 1.4478, 'grad_norm': 0



{'loss': 1.3461, 'grad_norm': 0.4609375, 'learning_rate': 0.00016299728155119177, 'epoch': 0.19}
{'loss': 1.2097, 'grad_norm': 0.50390625, 'learning_rate': 0.00016298591917372792, 'epoch': 0.19}
{'loss': 1.2634, 'grad_norm': 0.58984375, 'learning_rate': 0.00016297455679626404, 'epoch': 0.19}
{'loss': 1.2048, 'grad_norm': 0.55859375, 'learning_rate': 0.0001629631944188002, 'epoch': 0.19}
{'loss': 1.0733, 'grad_norm': 0.62109375, 'learning_rate': 0.00016295183204133632, 'epoch': 0.19}
{'loss': 1.3516, 'grad_norm': 0.5546875, 'learning_rate': 0.0001629404696638725, 'epoch': 0.19}
{'loss': 1.2474, 'grad_norm': 0.7265625, 'learning_rate': 0.00016292910728640862, 'epoch': 0.19}
{'loss': 1.165, 'grad_norm': 0.451171875, 'learning_rate': 0.00016291774490894475, 'epoch': 0.19}
{'loss': 1.1635, 'grad_norm': 0.5, 'learning_rate': 0.0001629063825314809, 'epoch': 0.19}
{'loss': 1.1031, 'grad_norm': 0.5390625, 'learning_rate': 0.00016289502015401702, 'epoch': 0.19}
{'loss': 1.3074, 'grad_norm': 0.42



{'loss': 1.5122, 'grad_norm': 0.44921875, 'learning_rate': 0.00016271322211459528, 'epoch': 0.19}
{'loss': 1.2733, 'grad_norm': 0.6484375, 'learning_rate': 0.0001627018597371314, 'epoch': 0.19}
{'loss': 1.2121, 'grad_norm': 0.4140625, 'learning_rate': 0.00016269049735966756, 'epoch': 0.19}
{'loss': 1.2264, 'grad_norm': 0.78515625, 'learning_rate': 0.00016267913498220368, 'epoch': 0.19}
{'loss': 1.2029, 'grad_norm': 0.890625, 'learning_rate': 0.0001626677726047398, 'epoch': 0.19}
{'loss': 1.3412, 'grad_norm': 0.49609375, 'learning_rate': 0.00016265641022727596, 'epoch': 0.19}
{'loss': 1.2475, 'grad_norm': 0.96484375, 'learning_rate': 0.00016264504784981208, 'epoch': 0.19}
{'loss': 1.0746, 'grad_norm': 0.41796875, 'learning_rate': 0.00016263368547234826, 'epoch': 0.19}
{'loss': 1.3369, 'grad_norm': 0.62109375, 'learning_rate': 0.00016262232309488439, 'epoch': 0.19}
{'loss': 1.1467, 'grad_norm': 0.8203125, 'learning_rate': 0.00016261096071742054, 'epoch': 0.19}
{'loss': 1.4315, 'grad_norm



{'loss': 1.3476, 'grad_norm': 0.4921875, 'learning_rate': 0.00016242916267799874, 'epoch': 0.19}
{'loss': 1.4006, 'grad_norm': 0.59765625, 'learning_rate': 0.0001624178003005349, 'epoch': 0.19}
{'loss': 1.2002, 'grad_norm': 0.3359375, 'learning_rate': 0.00016240643792307105, 'epoch': 0.19}
{'loss': 1.3553, 'grad_norm': 0.52734375, 'learning_rate': 0.00016239507554560717, 'epoch': 0.19}
{'loss': 1.3343, 'grad_norm': 0.8671875, 'learning_rate': 0.00016238371316814332, 'epoch': 0.19}
{'loss': 1.3075, 'grad_norm': 0.74609375, 'learning_rate': 0.00016237235079067945, 'epoch': 0.19}
{'loss': 1.2162, 'grad_norm': 0.77734375, 'learning_rate': 0.0001623609884132156, 'epoch': 0.19}
{'loss': 1.2674, 'grad_norm': 0.498046875, 'learning_rate': 0.00016234962603575172, 'epoch': 0.19}
{'loss': 1.2577, 'grad_norm': 0.53515625, 'learning_rate': 0.00016233826365828785, 'epoch': 0.19}
{'loss': 1.1653, 'grad_norm': 0.578125, 'learning_rate': 0.00016232690128082402, 'epoch': 0.19}
{'loss': 1.2949, 'grad_nor



{'loss': 1.508, 'grad_norm': 0.46875, 'learning_rate': 0.00016214510324140223, 'epoch': 0.19}
{'loss': 1.1784, 'grad_norm': 0.5390625, 'learning_rate': 0.00016213374086393838, 'epoch': 0.19}
{'loss': 1.2609, 'grad_norm': 0.392578125, 'learning_rate': 0.0001621223784864745, 'epoch': 0.19}
{'loss': 1.3204, 'grad_norm': 0.474609375, 'learning_rate': 0.00016211101610901066, 'epoch': 0.19}
{'loss': 1.1901, 'grad_norm': 0.765625, 'learning_rate': 0.00016209965373154678, 'epoch': 0.19}
{'loss': 1.3679, 'grad_norm': 0.4140625, 'learning_rate': 0.00016208829135408293, 'epoch': 0.19}
{'loss': 1.2137, 'grad_norm': 0.83203125, 'learning_rate': 0.00016207692897661908, 'epoch': 0.19}
{'loss': 1.2599, 'grad_norm': 0.54296875, 'learning_rate': 0.0001620655665991552, 'epoch': 0.19}
{'loss': 1.2158, 'grad_norm': 0.56640625, 'learning_rate': 0.00016205420422169136, 'epoch': 0.19}
{'loss': 1.0769, 'grad_norm': 0.84375, 'learning_rate': 0.00016204284184422748, 'epoch': 0.19}
{'loss': 1.2662, 'grad_norm': 0



{'loss': 1.3433, 'grad_norm': 0.384765625, 'learning_rate': 0.00016186104380480574, 'epoch': 0.19}
{'loss': 1.2506, 'grad_norm': 0.98828125, 'learning_rate': 0.00016184968142734187, 'epoch': 0.19}
{'loss': 1.1856, 'grad_norm': 0.423828125, 'learning_rate': 0.00016183831904987802, 'epoch': 0.19}
{'loss': 1.2574, 'grad_norm': 0.73046875, 'learning_rate': 0.00016182695667241414, 'epoch': 0.19}
{'loss': 1.1755, 'grad_norm': 0.90234375, 'learning_rate': 0.00016181559429495027, 'epoch': 0.19}
{'loss': 1.4086, 'grad_norm': 0.65625, 'learning_rate': 0.00016180423191748642, 'epoch': 0.19}
{'loss': 1.1846, 'grad_norm': 0.52734375, 'learning_rate': 0.00016179286954002254, 'epoch': 0.19}
{'loss': 1.071, 'grad_norm': 0.384765625, 'learning_rate': 0.00016178150716255872, 'epoch': 0.19}
{'loss': 1.0617, 'grad_norm': 0.6484375, 'learning_rate': 0.00016177014478509485, 'epoch': 0.19}
{'loss': 1.0579, 'grad_norm': 1.046875, 'learning_rate': 0.00016175878240763097, 'epoch': 0.19}
{'loss': 1.4691, 'grad_n



{'loss': 1.3498, 'grad_norm': 0.421875, 'learning_rate': 0.0001615769843682092, 'epoch': 0.19}
{'loss': 1.2046, 'grad_norm': 0.515625, 'learning_rate': 0.00016156562199074533, 'epoch': 0.19}
{'loss': 1.2782, 'grad_norm': 0.39453125, 'learning_rate': 0.0001615542596132815, 'epoch': 0.19}
{'loss': 1.3058, 'grad_norm': 0.5859375, 'learning_rate': 0.00016154289723581763, 'epoch': 0.19}
{'loss': 1.1431, 'grad_norm': 0.69140625, 'learning_rate': 0.00016153153485835378, 'epoch': 0.19}
{'loss': 1.346, 'grad_norm': 0.40625, 'learning_rate': 0.0001615201724808899, 'epoch': 0.19}
{'loss': 1.1936, 'grad_norm': 0.55859375, 'learning_rate': 0.00016150881010342603, 'epoch': 0.2}
{'loss': 1.2229, 'grad_norm': 0.408203125, 'learning_rate': 0.00016149744772596218, 'epoch': 0.2}
{'loss': 1.2502, 'grad_norm': 0.78515625, 'learning_rate': 0.0001614860853484983, 'epoch': 0.2}
{'loss': 1.1083, 'grad_norm': 1.171875, 'learning_rate': 0.00016147472297103449, 'epoch': 0.2}
{'loss': 1.4244, 'grad_norm': 0.652343



{'loss': 1.3728, 'grad_norm': 0.42578125, 'learning_rate': 0.0001612929249316127, 'epoch': 0.2}
{'loss': 1.1821, 'grad_norm': 0.78515625, 'learning_rate': 0.00016128156255414884, 'epoch': 0.2}
{'loss': 1.291, 'grad_norm': 0.443359375, 'learning_rate': 0.00016127020017668497, 'epoch': 0.2}
{'loss': 1.262, 'grad_norm': 0.5078125, 'learning_rate': 0.00016125883779922112, 'epoch': 0.2}
{'loss': 1.12, 'grad_norm': 0.65625, 'learning_rate': 0.00016124747542175727, 'epoch': 0.2}
{'loss': 1.5349, 'grad_norm': 0.6796875, 'learning_rate': 0.0001612361130442934, 'epoch': 0.2}
{'loss': 1.2396, 'grad_norm': 0.73046875, 'learning_rate': 0.00016122475066682955, 'epoch': 0.2}
{'loss': 1.3662, 'grad_norm': 0.3828125, 'learning_rate': 0.00016121338828936567, 'epoch': 0.2}
{'loss': 1.4055, 'grad_norm': 0.49609375, 'learning_rate': 0.00016120202591190182, 'epoch': 0.2}
{'loss': 1.2475, 'grad_norm': 0.83203125, 'learning_rate': 0.00016119066353443795, 'epoch': 0.2}
{'loss': 1.3652, 'grad_norm': 0.5859375, 



{'loss': 1.314, 'grad_norm': 0.4765625, 'learning_rate': 0.0001610088654950162, 'epoch': 0.2}
{'loss': 1.1876, 'grad_norm': 0.703125, 'learning_rate': 0.00016099750311755233, 'epoch': 0.2}
{'loss': 1.283, 'grad_norm': 0.396484375, 'learning_rate': 0.00016098614074008845, 'epoch': 0.2}
{'loss': 1.2506, 'grad_norm': 0.88671875, 'learning_rate': 0.0001609747783626246, 'epoch': 0.2}
{'loss': 1.0375, 'grad_norm': 1.1640625, 'learning_rate': 0.00016096341598516073, 'epoch': 0.2}
{'loss': 1.3355, 'grad_norm': 0.404296875, 'learning_rate': 0.00016095205360769688, 'epoch': 0.2}
{'loss': 1.1236, 'grad_norm': 0.765625, 'learning_rate': 0.00016094069123023303, 'epoch': 0.2}
{'loss': 1.2103, 'grad_norm': 0.484375, 'learning_rate': 0.00016092932885276916, 'epoch': 0.2}
{'loss': 1.1601, 'grad_norm': 0.73828125, 'learning_rate': 0.0001609179664753053, 'epoch': 0.2}
{'loss': 1.093, 'grad_norm': 0.7578125, 'learning_rate': 0.00016090660409784143, 'epoch': 0.2}
{'loss': 1.382, 'grad_norm': 0.6484375, 'le



{'loss': 1.3775, 'grad_norm': 0.40234375, 'learning_rate': 0.00016072480605841967, 'epoch': 0.2}
{'loss': 1.0992, 'grad_norm': 0.79296875, 'learning_rate': 0.00016071344368095582, 'epoch': 0.2}
{'loss': 1.2799, 'grad_norm': 0.48828125, 'learning_rate': 0.00016070208130349197, 'epoch': 0.2}
{'loss': 1.143, 'grad_norm': 0.54296875, 'learning_rate': 0.0001606907189260281, 'epoch': 0.2}
{'loss': 1.1741, 'grad_norm': 0.419921875, 'learning_rate': 0.00016067935654856424, 'epoch': 0.2}
{'loss': 1.3943, 'grad_norm': 0.44921875, 'learning_rate': 0.00016066799417110037, 'epoch': 0.2}
{'loss': 1.1792, 'grad_norm': 0.546875, 'learning_rate': 0.0001606566317936365, 'epoch': 0.2}
{'loss': 1.1957, 'grad_norm': 0.423828125, 'learning_rate': 0.00016064526941617264, 'epoch': 0.2}
{'loss': 1.3417, 'grad_norm': 0.423828125, 'learning_rate': 0.0001606339070387088, 'epoch': 0.2}
{'loss': 1.1469, 'grad_norm': 0.671875, 'learning_rate': 0.00016062254466124495, 'epoch': 0.2}
{'loss': 1.3818, 'grad_norm': 0.632



{'loss': 1.323, 'grad_norm': 0.52734375, 'learning_rate': 0.00016044074662182315, 'epoch': 0.2}
{'loss': 1.1142, 'grad_norm': 0.734375, 'learning_rate': 0.0001604293842443593, 'epoch': 0.2}
{'loss': 1.2357, 'grad_norm': 0.388671875, 'learning_rate': 0.00016041802186689543, 'epoch': 0.2}
{'loss': 1.2645, 'grad_norm': 0.51953125, 'learning_rate': 0.00016040665948943155, 'epoch': 0.2}
{'loss': 1.1108, 'grad_norm': 0.7265625, 'learning_rate': 0.00016039529711196773, 'epoch': 0.2}
{'loss': 1.3481, 'grad_norm': 0.458984375, 'learning_rate': 0.00016038393473450386, 'epoch': 0.2}
{'loss': 1.2032, 'grad_norm': 0.6015625, 'learning_rate': 0.00016037257235704, 'epoch': 0.2}
{'loss': 1.2086, 'grad_norm': 0.62109375, 'learning_rate': 0.00016036120997957613, 'epoch': 0.2}
{'loss': 1.1281, 'grad_norm': 0.71875, 'learning_rate': 0.00016034984760211226, 'epoch': 0.2}
{'loss': 1.1212, 'grad_norm': 0.640625, 'learning_rate': 0.0001603384852246484, 'epoch': 0.2}
{'loss': 1.377, 'grad_norm': 0.578125, 'lea



{'loss': 1.3626, 'grad_norm': 0.482421875, 'learning_rate': 0.00016015668718522664, 'epoch': 0.2}
{'loss': 1.2431, 'grad_norm': 0.71484375, 'learning_rate': 0.0001601453248077628, 'epoch': 0.2}
{'loss': 1.2694, 'grad_norm': 0.419921875, 'learning_rate': 0.00016013396243029892, 'epoch': 0.2}
{'loss': 1.2826, 'grad_norm': 0.5703125, 'learning_rate': 0.00016012260005283507, 'epoch': 0.2}
{'loss': 1.0804, 'grad_norm': 0.8046875, 'learning_rate': 0.0001601112376753712, 'epoch': 0.2}
{'loss': 1.3577, 'grad_norm': 0.5234375, 'learning_rate': 0.00016009987529790734, 'epoch': 0.2}
{'loss': 1.1232, 'grad_norm': 0.482421875, 'learning_rate': 0.0001600885129204435, 'epoch': 0.2}
{'loss': 1.2725, 'grad_norm': 0.466796875, 'learning_rate': 0.00016007715054297962, 'epoch': 0.2}
{'loss': 1.355, 'grad_norm': 0.68359375, 'learning_rate': 0.00016006578816551577, 'epoch': 0.2}
{'loss': 1.1815, 'grad_norm': 0.83203125, 'learning_rate': 0.0001600544257880519, 'epoch': 0.2}
{'loss': 1.1598, 'grad_norm': 0.51



{'loss': 1.2557, 'grad_norm': 0.40625, 'learning_rate': 0.00015987262774863013, 'epoch': 0.2}
{'loss': 1.3251, 'grad_norm': 0.59375, 'learning_rate': 0.00015986126537116628, 'epoch': 0.2}
{'loss': 1.2267, 'grad_norm': 0.388671875, 'learning_rate': 0.00015984990299370243, 'epoch': 0.2}
{'loss': 1.4118, 'grad_norm': 0.498046875, 'learning_rate': 0.00015983854061623855, 'epoch': 0.2}
{'loss': 1.0847, 'grad_norm': 0.6875, 'learning_rate': 0.00015982717823877468, 'epoch': 0.2}
{'loss': 1.3698, 'grad_norm': 0.40625, 'learning_rate': 0.00015981581586131083, 'epoch': 0.2}
{'loss': 1.2162, 'grad_norm': 0.5703125, 'learning_rate': 0.00015980445348384695, 'epoch': 0.2}
{'loss': 1.4082, 'grad_norm': 0.400390625, 'learning_rate': 0.0001597930911063831, 'epoch': 0.2}
{'loss': 1.2697, 'grad_norm': 0.70703125, 'learning_rate': 0.00015978172872891926, 'epoch': 0.2}
{'loss': 1.1447, 'grad_norm': 0.84375, 'learning_rate': 0.00015977036635145538, 'epoch': 0.2}
{'loss': 1.395, 'grad_norm': 0.484375, 'learn



{'loss': 1.3663, 'grad_norm': 0.431640625, 'learning_rate': 0.0001595885683120336, 'epoch': 0.2}
{'loss': 1.2458, 'grad_norm': 0.6171875, 'learning_rate': 0.00015957720593456974, 'epoch': 0.2}
{'loss': 1.2204, 'grad_norm': 0.41015625, 'learning_rate': 0.0001595658435571059, 'epoch': 0.2}
{'loss': 1.2855, 'grad_norm': 0.58984375, 'learning_rate': 0.00015955448117964204, 'epoch': 0.2}
{'loss': 1.1149, 'grad_norm': 0.72265625, 'learning_rate': 0.0001595431188021782, 'epoch': 0.2}
{'loss': 1.39, 'grad_norm': 0.46484375, 'learning_rate': 0.00015953175642471432, 'epoch': 0.2}
{'loss': 1.3049, 'grad_norm': 0.92578125, 'learning_rate': 0.00015952039404725047, 'epoch': 0.2}
{'loss': 1.2482, 'grad_norm': 0.416015625, 'learning_rate': 0.0001595090316697866, 'epoch': 0.2}
{'loss': 1.368, 'grad_norm': 0.6640625, 'learning_rate': 0.00015949766929232272, 'epoch': 0.2}
{'loss': 1.0918, 'grad_norm': 0.8984375, 'learning_rate': 0.00015948630691485887, 'epoch': 0.2}
{'loss': 1.2904, 'grad_norm': 0.488281



{'loss': 1.4957, 'grad_norm': 0.443359375, 'learning_rate': 0.0001593045088754371, 'epoch': 0.2}
{'loss': 1.1789, 'grad_norm': 0.59375, 'learning_rate': 0.00015929314649797325, 'epoch': 0.2}
{'loss': 1.186, 'grad_norm': 0.458984375, 'learning_rate': 0.00015928178412050938, 'epoch': 0.2}
{'loss': 1.3734, 'grad_norm': 0.404296875, 'learning_rate': 0.00015927042174304553, 'epoch': 0.2}
{'loss': 1.1531, 'grad_norm': 0.99609375, 'learning_rate': 0.00015925905936558165, 'epoch': 0.2}
{'loss': 1.3717, 'grad_norm': 0.5, 'learning_rate': 0.0001592476969881178, 'epoch': 0.2}
{'loss': 1.2734, 'grad_norm': 0.70703125, 'learning_rate': 0.00015923633461065395, 'epoch': 0.2}
{'loss': 1.2017, 'grad_norm': 0.4296875, 'learning_rate': 0.00015922497223319008, 'epoch': 0.2}
{'loss': 1.3023, 'grad_norm': 0.48828125, 'learning_rate': 0.00015921360985572623, 'epoch': 0.21}
{'loss': 1.1528, 'grad_norm': 0.58203125, 'learning_rate': 0.00015920224747826235, 'epoch': 0.21}
{'loss': 1.3597, 'grad_norm': 0.515625,



{'loss': 1.4082, 'grad_norm': 0.4375, 'learning_rate': 0.0001590204494388406, 'epoch': 0.21}
{'loss': 1.1206, 'grad_norm': 0.55859375, 'learning_rate': 0.00015900908706137674, 'epoch': 0.21}
{'loss': 1.2925, 'grad_norm': 0.404296875, 'learning_rate': 0.00015899772468391286, 'epoch': 0.21}
{'loss': 1.2246, 'grad_norm': 0.73046875, 'learning_rate': 0.00015898636230644901, 'epoch': 0.21}
{'loss': 1.0237, 'grad_norm': 0.7578125, 'learning_rate': 0.00015897499992898514, 'epoch': 0.21}
{'loss': 1.3798, 'grad_norm': 0.65625, 'learning_rate': 0.0001589636375515213, 'epoch': 0.21}
{'loss': 1.3047, 'grad_norm': 0.75390625, 'learning_rate': 0.00015895227517405741, 'epoch': 0.21}
{'loss': 1.3238, 'grad_norm': 0.373046875, 'learning_rate': 0.00015894091279659357, 'epoch': 0.21}
{'loss': 1.2847, 'grad_norm': 0.47265625, 'learning_rate': 0.00015892955041912972, 'epoch': 0.21}
{'loss': 1.2056, 'grad_norm': 1.0234375, 'learning_rate': 0.00015891818804166584, 'epoch': 0.21}
{'loss': 1.3839, 'grad_norm':



{'loss': 1.2707, 'grad_norm': 0.4375, 'learning_rate': 0.00015873639000224407, 'epoch': 0.21}
{'loss': 1.2042, 'grad_norm': 0.5234375, 'learning_rate': 0.0001587250276247802, 'epoch': 0.21}
{'loss': 1.0958, 'grad_norm': 0.41015625, 'learning_rate': 0.00015871366524731635, 'epoch': 0.21}
{'loss': 1.1879, 'grad_norm': 0.49609375, 'learning_rate': 0.0001587023028698525, 'epoch': 0.21}
{'loss': 1.1016, 'grad_norm': 0.9140625, 'learning_rate': 0.00015869094049238865, 'epoch': 0.21}
{'loss': 1.4124, 'grad_norm': 0.40234375, 'learning_rate': 0.00015867957811492478, 'epoch': 0.21}
{'loss': 1.1343, 'grad_norm': 0.6015625, 'learning_rate': 0.0001586682157374609, 'epoch': 0.21}
{'loss': 1.2165, 'grad_norm': 0.458984375, 'learning_rate': 0.00015865685335999705, 'epoch': 0.21}
{'loss': 1.3242, 'grad_norm': 0.458984375, 'learning_rate': 0.00015864549098253318, 'epoch': 0.21}
{'loss': 1.0673, 'grad_norm': 0.4609375, 'learning_rate': 0.00015863412860506936, 'epoch': 0.21}
{'loss': 1.4079, 'grad_norm':



{'loss': 1.3952, 'grad_norm': 0.435546875, 'learning_rate': 0.00015845233056564756, 'epoch': 0.21}
{'loss': 1.2707, 'grad_norm': 0.486328125, 'learning_rate': 0.0001584409681881837, 'epoch': 0.21}
{'loss': 1.2569, 'grad_norm': 0.43359375, 'learning_rate': 0.00015842960581071984, 'epoch': 0.21}
{'loss': 1.1872, 'grad_norm': 0.66796875, 'learning_rate': 0.00015841824343325596, 'epoch': 0.21}
{'loss': 1.2332, 'grad_norm': 0.69140625, 'learning_rate': 0.0001584068810557921, 'epoch': 0.21}
{'loss': 1.3846, 'grad_norm': 0.49609375, 'learning_rate': 0.00015839551867832826, 'epoch': 0.21}
{'loss': 1.242, 'grad_norm': 0.57421875, 'learning_rate': 0.00015838415630086442, 'epoch': 0.21}
{'loss': 1.1554, 'grad_norm': 0.326171875, 'learning_rate': 0.00015837279392340054, 'epoch': 0.21}
{'loss': 1.3217, 'grad_norm': 0.5390625, 'learning_rate': 0.0001583614315459367, 'epoch': 0.21}
{'loss': 1.1655, 'grad_norm': 0.75, 'learning_rate': 0.00015835006916847282, 'epoch': 0.21}
{'loss': 1.3244, 'grad_norm'



{'loss': 1.3352, 'grad_norm': 0.421875, 'learning_rate': 0.00015816827112905105, 'epoch': 0.21}
{'loss': 1.275, 'grad_norm': 0.63671875, 'learning_rate': 0.0001581569087515872, 'epoch': 0.21}
{'loss': 1.1696, 'grad_norm': 0.390625, 'learning_rate': 0.00015814554637412332, 'epoch': 0.21}
{'loss': 1.3, 'grad_norm': 0.7578125, 'learning_rate': 0.00015813418399665948, 'epoch': 0.21}
{'loss': 1.1361, 'grad_norm': 0.294921875, 'learning_rate': 0.0001581228216191956, 'epoch': 0.21}
{'loss': 1.5602, 'grad_norm': 0.75390625, 'learning_rate': 0.00015811145924173175, 'epoch': 0.21}
{'loss': 1.2012, 'grad_norm': 0.59375, 'learning_rate': 0.00015810009686426788, 'epoch': 0.21}
{'loss': 1.2663, 'grad_norm': 0.515625, 'learning_rate': 0.00015808873448680403, 'epoch': 0.21}
{'loss': 1.33, 'grad_norm': 0.78515625, 'learning_rate': 0.00015807737210934018, 'epoch': 0.21}
{'loss': 1.0322, 'grad_norm': 1.0, 'learning_rate': 0.0001580660097318763, 'epoch': 0.21}
{'loss': 1.4295, 'grad_norm': 0.59765625, 'le



{'loss': 1.4775, 'grad_norm': 0.58203125, 'learning_rate': 0.00015788421169245454, 'epoch': 0.21}
{'loss': 1.194, 'grad_norm': 0.69140625, 'learning_rate': 0.00015787284931499066, 'epoch': 0.21}
{'loss': 1.292, 'grad_norm': 0.4375, 'learning_rate': 0.00015786148693752684, 'epoch': 0.21}
{'loss': 1.2622, 'grad_norm': 0.6015625, 'learning_rate': 0.00015785012456006296, 'epoch': 0.21}
{'loss': 1.0854, 'grad_norm': 0.734375, 'learning_rate': 0.0001578387621825991, 'epoch': 0.21}
{'loss': 1.3629, 'grad_norm': 0.47265625, 'learning_rate': 0.00015782739980513524, 'epoch': 0.21}
{'loss': 1.1603, 'grad_norm': 0.5703125, 'learning_rate': 0.00015781603742767136, 'epoch': 0.21}
{'loss': 1.1872, 'grad_norm': 0.45703125, 'learning_rate': 0.00015780467505020751, 'epoch': 0.21}
{'loss': 1.324, 'grad_norm': 0.578125, 'learning_rate': 0.00015779331267274364, 'epoch': 0.21}
{'loss': 1.0681, 'grad_norm': 0.578125, 'learning_rate': 0.0001577819502952798, 'epoch': 0.21}
{'loss': 1.4501, 'grad_norm': 0.50781



{'loss': 1.4124, 'grad_norm': 0.609375, 'learning_rate': 0.00015760015225585802, 'epoch': 0.21}
{'loss': 1.2602, 'grad_norm': 0.734375, 'learning_rate': 0.00015758878987839417, 'epoch': 0.21}
{'loss': 1.1999, 'grad_norm': 0.359375, 'learning_rate': 0.0001575774275009303, 'epoch': 0.21}
{'loss': 1.3583, 'grad_norm': 0.6328125, 'learning_rate': 0.00015756606512346642, 'epoch': 0.21}
{'loss': 1.1383, 'grad_norm': 0.87109375, 'learning_rate': 0.0001575547027460026, 'epoch': 0.21}
{'loss': 1.2054, 'grad_norm': 0.5625, 'learning_rate': 0.00015754334036853873, 'epoch': 0.21}
{'loss': 1.384, 'grad_norm': 0.66015625, 'learning_rate': 0.00015753197799107488, 'epoch': 0.21}
{'loss': 1.1582, 'grad_norm': 0.376953125, 'learning_rate': 0.000157520615613611, 'epoch': 0.21}
{'loss': 1.3118, 'grad_norm': 0.59765625, 'learning_rate': 0.00015750925323614713, 'epoch': 0.21}
{'loss': 1.0903, 'grad_norm': 1.390625, 'learning_rate': 0.00015749789085868328, 'epoch': 0.21}
{'loss': 1.4267, 'grad_norm': 0.62890



{'loss': 1.374, 'grad_norm': 0.40625, 'learning_rate': 0.0001573160928192615, 'epoch': 0.21}
{'loss': 1.1639, 'grad_norm': 0.58984375, 'learning_rate': 0.00015730473044179766, 'epoch': 0.21}
{'loss': 1.3036, 'grad_norm': 0.451171875, 'learning_rate': 0.00015729336806433379, 'epoch': 0.21}
{'loss': 1.1918, 'grad_norm': 0.71484375, 'learning_rate': 0.00015728200568686994, 'epoch': 0.21}
{'loss': 1.2284, 'grad_norm': 0.69140625, 'learning_rate': 0.00015727064330940606, 'epoch': 0.21}
{'loss': 1.419, 'grad_norm': 0.47265625, 'learning_rate': 0.0001572592809319422, 'epoch': 0.21}
{'loss': 1.1051, 'grad_norm': 0.6953125, 'learning_rate': 0.00015724791855447836, 'epoch': 0.21}
{'loss': 1.3392, 'grad_norm': 0.41015625, 'learning_rate': 0.0001572365561770145, 'epoch': 0.21}
{'loss': 1.3285, 'grad_norm': 0.380859375, 'learning_rate': 0.00015722519379955064, 'epoch': 0.21}
{'loss': 1.1222, 'grad_norm': 0.83203125, 'learning_rate': 0.00015721383142208676, 'epoch': 0.21}
{'loss': 1.3407, 'grad_norm



{'loss': 1.3902, 'grad_norm': 0.4921875, 'learning_rate': 0.000157032033382665, 'epoch': 0.21}
{'loss': 1.1365, 'grad_norm': 0.67578125, 'learning_rate': 0.00015702067100520112, 'epoch': 0.21}
{'loss': 1.1352, 'grad_norm': 0.466796875, 'learning_rate': 0.00015700930862773727, 'epoch': 0.21}
{'loss': 1.3633, 'grad_norm': 0.51953125, 'learning_rate': 0.00015699794625027342, 'epoch': 0.21}
{'loss': 1.2318, 'grad_norm': 0.85546875, 'learning_rate': 0.00015698658387280955, 'epoch': 0.21}
{'loss': 1.4342, 'grad_norm': 0.431640625, 'learning_rate': 0.0001569752214953457, 'epoch': 0.21}
{'loss': 1.3021, 'grad_norm': 0.625, 'learning_rate': 0.00015696385911788182, 'epoch': 0.21}
{'loss': 1.2305, 'grad_norm': 0.49609375, 'learning_rate': 0.00015695249674041798, 'epoch': 0.21}
{'loss': 1.3113, 'grad_norm': 0.65234375, 'learning_rate': 0.00015694113436295413, 'epoch': 0.21}
{'loss': 1.0555, 'grad_norm': 0.46875, 'learning_rate': 0.00015692977198549025, 'epoch': 0.22}
{'loss': 1.4437, 'grad_norm': 



{'loss': 1.317, 'grad_norm': 0.462890625, 'learning_rate': 0.00015674797394606848, 'epoch': 0.22}
{'loss': 1.2166, 'grad_norm': 0.609375, 'learning_rate': 0.0001567366115686046, 'epoch': 0.22}
{'loss': 1.1959, 'grad_norm': 0.4609375, 'learning_rate': 0.00015672524919114076, 'epoch': 0.22}
{'loss': 1.2424, 'grad_norm': 0.51171875, 'learning_rate': 0.00015671388681367688, 'epoch': 0.22}
{'loss': 1.0858, 'grad_norm': 0.67578125, 'learning_rate': 0.00015670252443621306, 'epoch': 0.22}
{'loss': 1.5275, 'grad_norm': 0.490234375, 'learning_rate': 0.00015669116205874919, 'epoch': 0.22}
{'loss': 1.2169, 'grad_norm': 0.640625, 'learning_rate': 0.0001566797996812853, 'epoch': 0.22}
{'loss': 1.2103, 'grad_norm': 0.4140625, 'learning_rate': 0.00015666843730382146, 'epoch': 0.22}
{'loss': 1.2293, 'grad_norm': 0.70703125, 'learning_rate': 0.0001566570749263576, 'epoch': 0.22}
{'loss': 1.0434, 'grad_norm': 0.9375, 'learning_rate': 0.00015664571254889374, 'epoch': 0.22}
{'loss': 1.2669, 'grad_norm': 0.



{'loss': 1.3875, 'grad_norm': 0.4453125, 'learning_rate': 0.00015646391450947197, 'epoch': 0.22}
{'loss': 1.1597, 'grad_norm': 0.73046875, 'learning_rate': 0.00015645255213200812, 'epoch': 0.22}
{'loss': 1.1549, 'grad_norm': 0.4609375, 'learning_rate': 0.00015644118975454425, 'epoch': 0.22}
{'loss': 1.359, 'grad_norm': 0.52734375, 'learning_rate': 0.0001564298273770804, 'epoch': 0.22}
{'loss': 1.1381, 'grad_norm': 1.09375, 'learning_rate': 0.00015641846499961652, 'epoch': 0.22}
{'loss': 1.4207, 'grad_norm': 0.7578125, 'learning_rate': 0.00015640710262215265, 'epoch': 0.22}
{'loss': 1.2037, 'grad_norm': 0.65234375, 'learning_rate': 0.00015639574024468882, 'epoch': 0.22}
{'loss': 1.2048, 'grad_norm': 0.4609375, 'learning_rate': 0.00015638437786722495, 'epoch': 0.22}
{'loss': 1.2311, 'grad_norm': 0.49609375, 'learning_rate': 0.0001563730154897611, 'epoch': 0.22}
{'loss': 1.1147, 'grad_norm': 0.78125, 'learning_rate': 0.00015636165311229722, 'epoch': 0.22}
{'loss': 1.315, 'grad_norm': 0.47



{'loss': 1.3764, 'grad_norm': 0.478515625, 'learning_rate': 0.00015617985507287546, 'epoch': 0.22}
{'loss': 1.2295, 'grad_norm': 0.62890625, 'learning_rate': 0.0001561684926954116, 'epoch': 0.22}
{'loss': 1.3822, 'grad_norm': 0.52734375, 'learning_rate': 0.00015615713031794773, 'epoch': 0.22}
{'loss': 1.3576, 'grad_norm': 0.50390625, 'learning_rate': 0.00015614576794048388, 'epoch': 0.22}
{'loss': 1.0385, 'grad_norm': 0.546875, 'learning_rate': 0.00015613440556302, 'epoch': 0.22}
{'loss': 1.3104, 'grad_norm': 0.419921875, 'learning_rate': 0.00015612304318555616, 'epoch': 0.22}
{'loss': 1.2213, 'grad_norm': 0.46484375, 'learning_rate': 0.00015611168080809228, 'epoch': 0.22}
{'loss': 1.1753, 'grad_norm': 0.490234375, 'learning_rate': 0.00015610031843062844, 'epoch': 0.22}
{'loss': 1.3196, 'grad_norm': 0.55859375, 'learning_rate': 0.0001560889560531646, 'epoch': 0.22}
{'loss': 1.1096, 'grad_norm': 0.75, 'learning_rate': 0.0001560775936757007, 'epoch': 0.22}
{'loss': 1.5076, 'grad_norm': 0



{'loss': 1.3063, 'grad_norm': 0.57421875, 'learning_rate': 0.00015589579563627894, 'epoch': 0.22}
{'loss': 1.3032, 'grad_norm': 0.7890625, 'learning_rate': 0.00015588443325881507, 'epoch': 0.22}
{'loss': 1.259, 'grad_norm': 0.390625, 'learning_rate': 0.00015587307088135122, 'epoch': 0.22}
{'loss': 1.2903, 'grad_norm': 0.76171875, 'learning_rate': 0.00015586170850388737, 'epoch': 0.22}
{'loss': 1.1698, 'grad_norm': 1.1328125, 'learning_rate': 0.0001558503461264235, 'epoch': 0.22}
{'loss': 1.4593, 'grad_norm': 0.52734375, 'learning_rate': 0.00015583898374895965, 'epoch': 0.22}
{'loss': 1.2702, 'grad_norm': 0.71875, 'learning_rate': 0.00015582762137149577, 'epoch': 0.22}
{'loss': 1.4536, 'grad_norm': 0.65625, 'learning_rate': 0.00015581625899403192, 'epoch': 0.22}
{'loss': 1.2752, 'grad_norm': 0.53515625, 'learning_rate': 0.00015580489661656805, 'epoch': 0.22}
{'loss': 1.0472, 'grad_norm': 0.56640625, 'learning_rate': 0.0001557935342391042, 'epoch': 0.22}
{'loss': 1.3736, 'grad_norm': 0.4



{'loss': 1.3398, 'grad_norm': 0.43359375, 'learning_rate': 0.00015561173619968243, 'epoch': 0.22}
{'loss': 1.2401, 'grad_norm': 0.80859375, 'learning_rate': 0.00015560037382221858, 'epoch': 0.22}
{'loss': 1.2168, 'grad_norm': 0.423828125, 'learning_rate': 0.0001555890114447547, 'epoch': 0.22}
{'loss': 1.3299, 'grad_norm': 0.53515625, 'learning_rate': 0.00015557764906729083, 'epoch': 0.22}
{'loss': 1.0693, 'grad_norm': 1.5, 'learning_rate': 0.00015556628668982698, 'epoch': 0.22}
{'loss': 1.3079, 'grad_norm': 0.5546875, 'learning_rate': 0.00015555492431236313, 'epoch': 0.22}
{'loss': 1.2274, 'grad_norm': 0.6875, 'learning_rate': 0.00015554356193489929, 'epoch': 0.22}
{'loss': 1.2539, 'grad_norm': 0.37109375, 'learning_rate': 0.0001555321995574354, 'epoch': 0.22}
{'loss': 1.2072, 'grad_norm': 0.57421875, 'learning_rate': 0.00015552083717997153, 'epoch': 0.22}
{'loss': 1.1114, 'grad_norm': 0.82421875, 'learning_rate': 0.00015550947480250769, 'epoch': 0.22}
{'loss': 1.2716, 'grad_norm': 0.6



{'loss': 1.5333, 'grad_norm': 0.453125, 'learning_rate': 0.00015532767676308592, 'epoch': 0.22}
{'loss': 1.1953, 'grad_norm': 0.80078125, 'learning_rate': 0.00015531631438562207, 'epoch': 0.22}
{'loss': 1.1985, 'grad_norm': 0.46875, 'learning_rate': 0.0001553049520081582, 'epoch': 0.22}
{'loss': 1.2899, 'grad_norm': 0.71875, 'learning_rate': 0.00015529358963069435, 'epoch': 0.22}
{'loss': 1.1523, 'grad_norm': 1.15625, 'learning_rate': 0.00015528222725323047, 'epoch': 0.22}
{'loss': 1.3227, 'grad_norm': 0.455078125, 'learning_rate': 0.00015527086487576662, 'epoch': 0.22}
{'loss': 1.2808, 'grad_norm': 0.75, 'learning_rate': 0.00015525950249830275, 'epoch': 0.22}
{'loss': 1.2674, 'grad_norm': 0.455078125, 'learning_rate': 0.00015524814012083887, 'epoch': 0.22}
{'loss': 1.2439, 'grad_norm': 0.47265625, 'learning_rate': 0.00015523677774337505, 'epoch': 0.22}
{'loss': 1.1094, 'grad_norm': 1.234375, 'learning_rate': 0.00015522541536591117, 'epoch': 0.22}
{'loss': 1.4438, 'grad_norm': 0.507812



{'loss': 1.331, 'grad_norm': 0.494140625, 'learning_rate': 0.0001550436173264894, 'epoch': 0.22}
{'loss': 1.0456, 'grad_norm': 0.84765625, 'learning_rate': 0.00015503225494902553, 'epoch': 0.22}
{'loss': 1.2912, 'grad_norm': 0.443359375, 'learning_rate': 0.00015502089257156168, 'epoch': 0.22}
{'loss': 1.3235, 'grad_norm': 0.482421875, 'learning_rate': 0.00015500953019409783, 'epoch': 0.22}
{'loss': 1.1574, 'grad_norm': 0.57421875, 'learning_rate': 0.00015499816781663396, 'epoch': 0.22}
{'loss': 1.448, 'grad_norm': 0.5703125, 'learning_rate': 0.0001549868054391701, 'epoch': 0.22}
{'loss': 1.2937, 'grad_norm': 0.62109375, 'learning_rate': 0.00015497544306170623, 'epoch': 0.22}
{'loss': 1.2709, 'grad_norm': 0.435546875, 'learning_rate': 0.00015496408068424238, 'epoch': 0.22}
{'loss': 1.3562, 'grad_norm': 0.5625, 'learning_rate': 0.0001549527183067785, 'epoch': 0.22}
{'loss': 1.1411, 'grad_norm': 0.73828125, 'learning_rate': 0.00015494135592931466, 'epoch': 0.22}
{'loss': 1.3266, 'grad_nor



{'loss': 1.3796, 'grad_norm': 0.4375, 'learning_rate': 0.0001547595578898929, 'epoch': 0.22}
{'loss': 1.2794, 'grad_norm': 0.71875, 'learning_rate': 0.00015474819551242902, 'epoch': 0.22}
{'loss': 1.2164, 'grad_norm': 0.578125, 'learning_rate': 0.00015473683313496517, 'epoch': 0.22}
{'loss': 1.2527, 'grad_norm': 0.8125, 'learning_rate': 0.0001547254707575013, 'epoch': 0.22}
{'loss': 1.122, 'grad_norm': 0.91796875, 'learning_rate': 0.00015471410838003744, 'epoch': 0.22}
{'loss': 1.5108, 'grad_norm': 0.52734375, 'learning_rate': 0.0001547027460025736, 'epoch': 0.22}
{'loss': 1.3069, 'grad_norm': 0.57421875, 'learning_rate': 0.00015469138362510972, 'epoch': 0.22}
{'loss': 1.2721, 'grad_norm': 0.52734375, 'learning_rate': 0.00015468002124764587, 'epoch': 0.22}
{'loss': 1.1592, 'grad_norm': 0.60546875, 'learning_rate': 0.000154668658870182, 'epoch': 0.22}
{'loss': 1.1433, 'grad_norm': 0.76171875, 'learning_rate': 0.00015465729649271815, 'epoch': 0.22}
{'loss': 1.3011, 'grad_norm': 0.4140625



{'loss': 1.3266, 'grad_norm': 0.478515625, 'learning_rate': 0.00015447549845329638, 'epoch': 0.23}
{'loss': 1.0799, 'grad_norm': 0.6328125, 'learning_rate': 0.00015446413607583253, 'epoch': 0.23}
{'loss': 1.2087, 'grad_norm': 0.38671875, 'learning_rate': 0.00015445277369836866, 'epoch': 0.23}
{'loss': 1.3064, 'grad_norm': 0.48828125, 'learning_rate': 0.0001544414113209048, 'epoch': 0.23}
{'loss': 1.0885, 'grad_norm': 0.609375, 'learning_rate': 0.00015443004894344093, 'epoch': 0.23}
{'loss': 1.3152, 'grad_norm': 0.54296875, 'learning_rate': 0.00015441868656597706, 'epoch': 0.23}
{'loss': 1.2492, 'grad_norm': 0.6640625, 'learning_rate': 0.0001544073241885132, 'epoch': 0.23}
{'loss': 1.1121, 'grad_norm': 0.341796875, 'learning_rate': 0.00015439596181104936, 'epoch': 0.23}
{'loss': 1.0956, 'grad_norm': 0.578125, 'learning_rate': 0.0001543845994335855, 'epoch': 0.23}
{'loss': 1.189, 'grad_norm': 1.0625, 'learning_rate': 0.00015437323705612163, 'epoch': 0.23}
{'loss': 1.31, 'grad_norm': 0.52



{'loss': 1.429, 'grad_norm': 0.49609375, 'learning_rate': 0.00015419143901669987, 'epoch': 0.23}
{'loss': 1.2662, 'grad_norm': 0.6484375, 'learning_rate': 0.000154180076639236, 'epoch': 0.23}
{'loss': 1.1891, 'grad_norm': 0.431640625, 'learning_rate': 0.00015416871426177214, 'epoch': 0.23}
{'loss': 1.2541, 'grad_norm': 0.546875, 'learning_rate': 0.0001541573518843083, 'epoch': 0.23}
{'loss': 1.2352, 'grad_norm': 0.65625, 'learning_rate': 0.00015414598950684442, 'epoch': 0.23}
{'loss': 1.4191, 'grad_norm': 0.5, 'learning_rate': 0.00015413462712938057, 'epoch': 0.23}
{'loss': 1.2035, 'grad_norm': 0.5859375, 'learning_rate': 0.0001541232647519167, 'epoch': 0.23}
{'loss': 1.3266, 'grad_norm': 0.375, 'learning_rate': 0.00015411190237445285, 'epoch': 0.23}
{'loss': 1.3062, 'grad_norm': 0.7734375, 'learning_rate': 0.00015410053999698897, 'epoch': 0.23}
{'loss': 1.0941, 'grad_norm': 0.63671875, 'learning_rate': 0.00015408917761952512, 'epoch': 0.23}
{'loss': 1.5387, 'grad_norm': 0.63671875, 'l



{'loss': 1.4594, 'grad_norm': 0.51953125, 'learning_rate': 0.00015390737958010335, 'epoch': 0.23}
{'loss': 1.1492, 'grad_norm': 0.56640625, 'learning_rate': 0.00015389601720263948, 'epoch': 0.23}
{'loss': 1.1771, 'grad_norm': 0.46875, 'learning_rate': 0.00015388465482517563, 'epoch': 0.23}
{'loss': 1.2209, 'grad_norm': 0.458984375, 'learning_rate': 0.00015387329244771175, 'epoch': 0.23}
{'loss': 1.0643, 'grad_norm': 0.84765625, 'learning_rate': 0.0001538619300702479, 'epoch': 0.23}
{'loss': 1.6579, 'grad_norm': 0.4765625, 'learning_rate': 0.00015385056769278406, 'epoch': 0.23}
{'loss': 1.2212, 'grad_norm': 0.5546875, 'learning_rate': 0.00015383920531532018, 'epoch': 0.23}
{'loss': 1.3083, 'grad_norm': 0.349609375, 'learning_rate': 0.00015382784293785633, 'epoch': 0.23}
{'loss': 1.2167, 'grad_norm': 0.66796875, 'learning_rate': 0.00015381648056039246, 'epoch': 0.23}
{'loss': 1.2401, 'grad_norm': 1.0625, 'learning_rate': 0.0001538051181829286, 'epoch': 0.23}
{'loss': 1.1777, 'grad_norm':



{'loss': 1.4343, 'grad_norm': 0.470703125, 'learning_rate': 0.00015362332014350684, 'epoch': 0.23}
{'loss': 1.1789, 'grad_norm': 0.59765625, 'learning_rate': 0.000153611957766043, 'epoch': 0.23}
{'loss': 1.2164, 'grad_norm': 0.5, 'learning_rate': 0.00015360059538857912, 'epoch': 0.23}
{'loss': 1.1618, 'grad_norm': 0.48828125, 'learning_rate': 0.00015358923301111524, 'epoch': 0.23}
{'loss': 1.0583, 'grad_norm': 0.91015625, 'learning_rate': 0.0001535778706336514, 'epoch': 0.23}
{'loss': 1.3078, 'grad_norm': 0.486328125, 'learning_rate': 0.00015356650825618752, 'epoch': 0.23}
{'loss': 1.2561, 'grad_norm': 0.66796875, 'learning_rate': 0.00015355514587872367, 'epoch': 0.23}
{'loss': 1.2602, 'grad_norm': 0.408203125, 'learning_rate': 0.00015354378350125982, 'epoch': 0.23}
{'loss': 1.2971, 'grad_norm': 0.51953125, 'learning_rate': 0.00015353242112379594, 'epoch': 0.23}
{'loss': 1.0832, 'grad_norm': 1.1640625, 'learning_rate': 0.0001535210587463321, 'epoch': 0.23}
{'loss': 1.3183, 'grad_norm':



{'loss': 1.3159, 'grad_norm': 0.5234375, 'learning_rate': 0.00015333926070691033, 'epoch': 0.23}
{'loss': 1.2665, 'grad_norm': 0.57421875, 'learning_rate': 0.00015332789832944645, 'epoch': 0.23}
{'loss': 1.2882, 'grad_norm': 0.4765625, 'learning_rate': 0.0001533165359519826, 'epoch': 0.23}
{'loss': 1.3576, 'grad_norm': 1.0078125, 'learning_rate': 0.00015330517357451875, 'epoch': 0.23}
{'loss': 1.2058, 'grad_norm': 1.0, 'learning_rate': 0.00015329381119705488, 'epoch': 0.23}
{'loss': 1.4366, 'grad_norm': 0.71875, 'learning_rate': 0.00015328244881959103, 'epoch': 0.23}
{'loss': 1.177, 'grad_norm': 0.58984375, 'learning_rate': 0.00015327108644212715, 'epoch': 0.23}
{'loss': 1.168, 'grad_norm': 0.59765625, 'learning_rate': 0.00015325972406466328, 'epoch': 0.23}
{'loss': 1.3302, 'grad_norm': 0.482421875, 'learning_rate': 0.00015324836168719943, 'epoch': 0.23}
{'loss': 1.1108, 'grad_norm': 0.70703125, 'learning_rate': 0.00015323699930973558, 'epoch': 0.23}
{'loss': 1.2929, 'grad_norm': 0.429



{'loss': 1.3258, 'grad_norm': 0.625, 'learning_rate': 0.00015305520127031381, 'epoch': 0.23}
{'loss': 1.1565, 'grad_norm': 0.69140625, 'learning_rate': 0.00015304383889284994, 'epoch': 0.23}
{'loss': 1.2815, 'grad_norm': 0.46875, 'learning_rate': 0.0001530324765153861, 'epoch': 0.23}
{'loss': 1.3235, 'grad_norm': 0.625, 'learning_rate': 0.00015302111413792221, 'epoch': 0.23}
{'loss': 1.1908, 'grad_norm': 0.67578125, 'learning_rate': 0.00015300975176045837, 'epoch': 0.23}
{'loss': 1.2498, 'grad_norm': 0.51953125, 'learning_rate': 0.00015299838938299452, 'epoch': 0.23}
{'loss': 1.2934, 'grad_norm': 0.57421875, 'learning_rate': 0.00015298702700553064, 'epoch': 0.23}
{'loss': 1.2054, 'grad_norm': 0.4609375, 'learning_rate': 0.0001529756646280668, 'epoch': 0.23}
{'loss': 1.2431, 'grad_norm': 0.57421875, 'learning_rate': 0.00015296430225060292, 'epoch': 0.23}
{'loss': 0.9835, 'grad_norm': 0.36328125, 'learning_rate': 0.00015295293987313907, 'epoch': 0.23}
{'loss': 1.3631, 'grad_norm': 0.7187



{'loss': 1.3474, 'grad_norm': 0.470703125, 'learning_rate': 0.0001527711418337173, 'epoch': 0.23}
{'loss': 1.2896, 'grad_norm': 0.68359375, 'learning_rate': 0.00015275977945625343, 'epoch': 0.23}
{'loss': 1.1274, 'grad_norm': 0.7265625, 'learning_rate': 0.00015274841707878958, 'epoch': 0.23}
{'loss': 1.2745, 'grad_norm': 0.5, 'learning_rate': 0.0001527370547013257, 'epoch': 0.23}
{'loss': 1.1048, 'grad_norm': 0.609375, 'learning_rate': 0.00015272569232386185, 'epoch': 0.23}
{'loss': 1.2468, 'grad_norm': 0.458984375, 'learning_rate': 0.00015271432994639798, 'epoch': 0.23}
{'loss': 1.2599, 'grad_norm': 0.51953125, 'learning_rate': 0.00015270296756893413, 'epoch': 0.23}
{'loss': 1.2612, 'grad_norm': 0.40234375, 'learning_rate': 0.00015269160519147028, 'epoch': 0.23}
{'loss': 1.2571, 'grad_norm': 0.66015625, 'learning_rate': 0.0001526802428140064, 'epoch': 0.23}
{'loss': 1.1094, 'grad_norm': 0.67578125, 'learning_rate': 0.00015266888043654256, 'epoch': 0.23}
{'loss': 1.3868, 'grad_norm': 0



{'loss': 1.3722, 'grad_norm': 0.466796875, 'learning_rate': 0.00015248708239712076, 'epoch': 0.23}
{'loss': 1.0704, 'grad_norm': 0.79296875, 'learning_rate': 0.00015247572001965694, 'epoch': 0.23}
{'loss': 1.0844, 'grad_norm': 0.494140625, 'learning_rate': 0.00015246435764219306, 'epoch': 0.23}
{'loss': 1.2589, 'grad_norm': 0.71875, 'learning_rate': 0.00015245299526472922, 'epoch': 0.23}
{'loss': 1.2375, 'grad_norm': 0.515625, 'learning_rate': 0.00015244163288726534, 'epoch': 0.23}
{'loss': 1.4066, 'grad_norm': 0.431640625, 'learning_rate': 0.00015243027050980146, 'epoch': 0.23}
{'loss': 1.2973, 'grad_norm': 0.62109375, 'learning_rate': 0.00015241890813233762, 'epoch': 0.23}
{'loss': 1.2905, 'grad_norm': 0.443359375, 'learning_rate': 0.00015240754575487374, 'epoch': 0.23}
{'loss': 1.2211, 'grad_norm': 0.59375, 'learning_rate': 0.00015239618337740992, 'epoch': 0.23}
{'loss': 1.0309, 'grad_norm': 0.2470703125, 'learning_rate': 0.00015238482099994604, 'epoch': 0.23}
{'loss': 1.299, 'grad_



{'loss': 1.3663, 'grad_norm': 0.4609375, 'learning_rate': 0.00015220302296052428, 'epoch': 0.24}
{'loss': 1.2499, 'grad_norm': 0.8125, 'learning_rate': 0.0001521916605830604, 'epoch': 0.24}
{'loss': 1.3923, 'grad_norm': 0.376953125, 'learning_rate': 0.00015218029820559655, 'epoch': 0.24}
{'loss': 1.2183, 'grad_norm': 0.51953125, 'learning_rate': 0.00015216893582813268, 'epoch': 0.24}
{'loss': 1.1211, 'grad_norm': 0.828125, 'learning_rate': 0.00015215757345066883, 'epoch': 0.24}
{'loss': 1.3775, 'grad_norm': 0.4921875, 'learning_rate': 0.00015214621107320498, 'epoch': 0.24}
{'loss': 1.2182, 'grad_norm': 0.52734375, 'learning_rate': 0.0001521348486957411, 'epoch': 0.24}
{'loss': 1.1755, 'grad_norm': 0.458984375, 'learning_rate': 0.00015212348631827725, 'epoch': 0.24}
{'loss': 1.1818, 'grad_norm': 0.466796875, 'learning_rate': 0.00015211212394081338, 'epoch': 0.24}
{'loss': 1.1721, 'grad_norm': 0.75, 'learning_rate': 0.0001521007615633495, 'epoch': 0.24}
{'loss': 1.3065, 'grad_norm': 0.60



{'loss': 1.4715, 'grad_norm': 0.43359375, 'learning_rate': 0.00015191896352392776, 'epoch': 0.24}
{'loss': 1.2952, 'grad_norm': 0.546875, 'learning_rate': 0.0001519076011464639, 'epoch': 0.24}
{'loss': 1.2885, 'grad_norm': 0.37890625, 'learning_rate': 0.00015189623876900004, 'epoch': 0.24}
{'loss': 1.2902, 'grad_norm': 0.5625, 'learning_rate': 0.00015188487639153616, 'epoch': 0.24}
{'loss': 1.0948, 'grad_norm': 0.92578125, 'learning_rate': 0.00015187351401407231, 'epoch': 0.24}
{'loss': 1.3694, 'grad_norm': 0.447265625, 'learning_rate': 0.00015186215163660844, 'epoch': 0.24}
{'loss': 1.1164, 'grad_norm': 0.5703125, 'learning_rate': 0.0001518507892591446, 'epoch': 0.24}
{'loss': 1.2786, 'grad_norm': 0.37890625, 'learning_rate': 0.00015183942688168074, 'epoch': 0.24}
{'loss': 1.2512, 'grad_norm': 0.494140625, 'learning_rate': 0.00015182806450421687, 'epoch': 0.24}
{'loss': 1.0999, 'grad_norm': 0.91796875, 'learning_rate': 0.00015181670212675302, 'epoch': 0.24}
{'loss': 1.3329, 'grad_norm



{'loss': 1.3446, 'grad_norm': 0.4375, 'learning_rate': 0.00015163490408733122, 'epoch': 0.24}
{'loss': 1.215, 'grad_norm': 0.384765625, 'learning_rate': 0.0001516235417098674, 'epoch': 0.24}
{'loss': 1.1869, 'grad_norm': 0.404296875, 'learning_rate': 0.00015161217933240353, 'epoch': 0.24}
{'loss': 1.2757, 'grad_norm': 0.578125, 'learning_rate': 0.00015160081695493965, 'epoch': 0.24}
{'loss': 1.1473, 'grad_norm': 0.83203125, 'learning_rate': 0.0001515894545774758, 'epoch': 0.24}
{'loss': 1.3649, 'grad_norm': 0.5078125, 'learning_rate': 0.00015157809220001193, 'epoch': 0.24}
{'loss': 1.1073, 'grad_norm': 0.54296875, 'learning_rate': 0.00015156672982254808, 'epoch': 0.24}
{'loss': 1.3201, 'grad_norm': 0.41796875, 'learning_rate': 0.0001515553674450842, 'epoch': 0.24}
{'loss': 1.2372, 'grad_norm': 0.53125, 'learning_rate': 0.00015154400506762035, 'epoch': 0.24}
{'loss': 1.3478, 'grad_norm': 0.96484375, 'learning_rate': 0.0001515326426901565, 'epoch': 0.24}
{'loss': 1.3615, 'grad_norm': 0.6



{'loss': 1.4397, 'grad_norm': 0.51171875, 'learning_rate': 0.00015135084465073474, 'epoch': 0.24}
{'loss': 1.1965, 'grad_norm': 0.6171875, 'learning_rate': 0.00015133948227327086, 'epoch': 0.24}
{'loss': 1.1629, 'grad_norm': 0.3828125, 'learning_rate': 0.00015132811989580699, 'epoch': 0.24}
{'loss': 1.1509, 'grad_norm': 0.49609375, 'learning_rate': 0.00015131675751834316, 'epoch': 0.24}
{'loss': 1.0531, 'grad_norm': 0.6640625, 'learning_rate': 0.0001513053951408793, 'epoch': 0.24}
{'loss': 1.2875, 'grad_norm': 0.451171875, 'learning_rate': 0.00015129403276341544, 'epoch': 0.24}
{'loss': 1.1643, 'grad_norm': 0.78125, 'learning_rate': 0.00015128267038595156, 'epoch': 0.24}
{'loss': 1.3136, 'grad_norm': 0.408203125, 'learning_rate': 0.0001512713080084877, 'epoch': 0.24}
{'loss': 1.2404, 'grad_norm': 0.796875, 'learning_rate': 0.00015125994563102384, 'epoch': 0.24}
{'loss': 1.1426, 'grad_norm': 1.34375, 'learning_rate': 0.00015124858325355996, 'epoch': 0.24}
{'loss': 1.3847, 'grad_norm': 0



{'loss': 1.4551, 'grad_norm': 0.62890625, 'learning_rate': 0.00015106678521413822, 'epoch': 0.24}
{'loss': 1.2739, 'grad_norm': 0.5546875, 'learning_rate': 0.00015105542283667435, 'epoch': 0.24}
{'loss': 1.2013, 'grad_norm': 0.384765625, 'learning_rate': 0.0001510440604592105, 'epoch': 0.24}
{'loss': 1.2294, 'grad_norm': 1.015625, 'learning_rate': 0.00015103269808174662, 'epoch': 0.24}
{'loss': 1.0632, 'grad_norm': 0.84375, 'learning_rate': 0.00015102133570428278, 'epoch': 0.24}
{'loss': 1.272, 'grad_norm': 0.6328125, 'learning_rate': 0.00015100997332681893, 'epoch': 0.24}
{'loss': 1.2855, 'grad_norm': 0.5078125, 'learning_rate': 0.00015099861094935505, 'epoch': 0.24}
{'loss': 1.2484, 'grad_norm': 0.416015625, 'learning_rate': 0.0001509872485718912, 'epoch': 0.24}
{'loss': 1.2256, 'grad_norm': 0.828125, 'learning_rate': 0.00015097588619442733, 'epoch': 0.24}
{'loss': 1.1751, 'grad_norm': 0.92578125, 'learning_rate': 0.00015096452381696348, 'epoch': 0.24}
{'loss': 1.3195, 'grad_norm': 0



{'loss': 1.2862, 'grad_norm': 0.44921875, 'learning_rate': 0.00015078272577754168, 'epoch': 0.24}
{'loss': 1.0897, 'grad_norm': 0.515625, 'learning_rate': 0.00015077136340007784, 'epoch': 0.24}
{'loss': 1.2625, 'grad_norm': 0.52734375, 'learning_rate': 0.000150760001022614, 'epoch': 0.24}
{'loss': 1.3115, 'grad_norm': 0.90625, 'learning_rate': 0.0001507486386451501, 'epoch': 0.24}
{'loss': 1.1108, 'grad_norm': 0.84375, 'learning_rate': 0.00015073727626768626, 'epoch': 0.24}
{'loss': 1.3144, 'grad_norm': 0.5625, 'learning_rate': 0.0001507259138902224, 'epoch': 0.24}
{'loss': 1.1363, 'grad_norm': 0.98828125, 'learning_rate': 0.00015071455151275854, 'epoch': 0.24}
{'loss': 1.1696, 'grad_norm': 0.4921875, 'learning_rate': 0.0001507031891352947, 'epoch': 0.24}
{'loss': 1.256, 'grad_norm': 0.578125, 'learning_rate': 0.00015069182675783081, 'epoch': 0.24}
{'loss': 1.1643, 'grad_norm': 0.61328125, 'learning_rate': 0.00015068046438036697, 'epoch': 0.24}
{'loss': 1.3421, 'grad_norm': 0.67578125,



{'loss': 1.5021, 'grad_norm': 0.578125, 'learning_rate': 0.00015049866634094517, 'epoch': 0.24}
{'loss': 1.1898, 'grad_norm': 0.6171875, 'learning_rate': 0.00015048730396348132, 'epoch': 0.24}
{'loss': 1.3124, 'grad_norm': 0.5234375, 'learning_rate': 0.00015047594158601745, 'epoch': 0.24}
{'loss': 1.204, 'grad_norm': 0.443359375, 'learning_rate': 0.00015046457920855363, 'epoch': 0.24}
{'loss': 1.077, 'grad_norm': 0.56640625, 'learning_rate': 0.00015045321683108975, 'epoch': 0.24}
{'loss': 1.2598, 'grad_norm': 0.455078125, 'learning_rate': 0.00015044185445362587, 'epoch': 0.24}
{'loss': 1.2334, 'grad_norm': 0.6953125, 'learning_rate': 0.00015043049207616203, 'epoch': 0.24}
{'loss': 1.255, 'grad_norm': 0.62109375, 'learning_rate': 0.00015041912969869815, 'epoch': 0.24}
{'loss': 1.2228, 'grad_norm': 0.5234375, 'learning_rate': 0.0001504077673212343, 'epoch': 0.24}
{'loss': 1.1827, 'grad_norm': 0.8203125, 'learning_rate': 0.00015039640494377045, 'epoch': 0.24}
{'loss': 1.4488, 'grad_norm':



{'loss': 1.3466, 'grad_norm': 0.447265625, 'learning_rate': 0.00015021460690434868, 'epoch': 0.24}
{'loss': 1.1706, 'grad_norm': 0.64453125, 'learning_rate': 0.0001502032445268848, 'epoch': 0.24}
{'loss': 1.3304, 'grad_norm': 0.431640625, 'learning_rate': 0.00015019188214942096, 'epoch': 0.24}
{'loss': 1.1749, 'grad_norm': 0.455078125, 'learning_rate': 0.00015018051977195709, 'epoch': 0.24}
{'loss': 1.0733, 'grad_norm': 0.76171875, 'learning_rate': 0.0001501691573944932, 'epoch': 0.24}
{'loss': 1.2793, 'grad_norm': 0.48046875, 'learning_rate': 0.0001501577950170294, 'epoch': 0.24}
{'loss': 1.1952, 'grad_norm': 1.1015625, 'learning_rate': 0.0001501464326395655, 'epoch': 0.24}
{'loss': 1.1788, 'grad_norm': 0.5078125, 'learning_rate': 0.00015013507026210166, 'epoch': 0.24}
{'loss': 1.1662, 'grad_norm': 0.458984375, 'learning_rate': 0.0001501237078846378, 'epoch': 0.24}
{'loss': 1.0497, 'grad_norm': 0.8515625, 'learning_rate': 0.0001501123455071739, 'epoch': 0.24}
{'loss': 1.4017, 'grad_no



{'loss': 1.4551, 'grad_norm': 0.62890625, 'learning_rate': 0.00014993054746775217, 'epoch': 0.25}
{'loss': 1.2179, 'grad_norm': 0.78515625, 'learning_rate': 0.0001499191850902883, 'epoch': 0.25}
{'loss': 1.2495, 'grad_norm': 0.53125, 'learning_rate': 0.00014990782271282445, 'epoch': 0.25}
{'loss': 1.2471, 'grad_norm': 0.49609375, 'learning_rate': 0.00014989646033536057, 'epoch': 0.25}
{'loss': 0.965, 'grad_norm': 0.53125, 'learning_rate': 0.00014988509795789672, 'epoch': 0.25}
{'loss': 1.2563, 'grad_norm': 0.455078125, 'learning_rate': 0.00014987373558043285, 'epoch': 0.25}
{'loss': 1.1893, 'grad_norm': 0.6875, 'learning_rate': 0.000149862373202969, 'epoch': 0.25}
{'loss': 1.3251, 'grad_norm': 0.353515625, 'learning_rate': 0.00014985101082550515, 'epoch': 0.25}
{'loss': 1.1881, 'grad_norm': 0.6484375, 'learning_rate': 0.00014983964844804127, 'epoch': 0.25}
{'loss': 1.1179, 'grad_norm': 0.87109375, 'learning_rate': 0.00014982828607057743, 'epoch': 0.25}
{'loss': 1.294, 'grad_norm': 0.40



{'loss': 1.4544, 'grad_norm': 0.455078125, 'learning_rate': 0.00014964648803115563, 'epoch': 0.25}
{'loss': 1.2149, 'grad_norm': 0.7890625, 'learning_rate': 0.00014963512565369178, 'epoch': 0.25}
{'loss': 1.1653, 'grad_norm': 0.427734375, 'learning_rate': 0.00014962376327622793, 'epoch': 0.25}
{'loss': 1.129, 'grad_norm': 0.6171875, 'learning_rate': 0.00014961240089876406, 'epoch': 0.25}
{'loss': 1.1171, 'grad_norm': 0.74609375, 'learning_rate': 0.0001496010385213002, 'epoch': 0.25}
{'loss': 1.3794, 'grad_norm': 0.4921875, 'learning_rate': 0.00014958967614383633, 'epoch': 0.25}
{'loss': 1.227, 'grad_norm': 0.64453125, 'learning_rate': 0.00014957831376637249, 'epoch': 0.25}
{'loss': 1.1004, 'grad_norm': 0.482421875, 'learning_rate': 0.0001495669513889086, 'epoch': 0.25}
{'loss': 1.2917, 'grad_norm': 0.5859375, 'learning_rate': 0.00014955558901144476, 'epoch': 0.25}
{'loss': 1.0575, 'grad_norm': 0.859375, 'learning_rate': 0.0001495442266339809, 'epoch': 0.25}
{'loss': 1.379, 'grad_norm':



{'loss': 1.3995, 'grad_norm': 0.498046875, 'learning_rate': 0.00014936242859455915, 'epoch': 0.25}
{'loss': 1.2155, 'grad_norm': 0.6953125, 'learning_rate': 0.00014935106621709527, 'epoch': 0.25}
{'loss': 1.1145, 'grad_norm': 0.51171875, 'learning_rate': 0.0001493397038396314, 'epoch': 0.25}
{'loss': 1.2414, 'grad_norm': 0.55859375, 'learning_rate': 0.00014932834146216755, 'epoch': 0.25}
{'loss': 1.1983, 'grad_norm': 0.75, 'learning_rate': 0.0001493169790847037, 'epoch': 0.25}
{'loss': 1.3237, 'grad_norm': 0.53125, 'learning_rate': 0.00014930561670723985, 'epoch': 0.25}
{'loss': 1.1777, 'grad_norm': 0.458984375, 'learning_rate': 0.00014929425432977597, 'epoch': 0.25}
{'loss': 1.2302, 'grad_norm': 0.443359375, 'learning_rate': 0.0001492828919523121, 'epoch': 0.25}
{'loss': 1.1842, 'grad_norm': 0.490234375, 'learning_rate': 0.00014927152957484825, 'epoch': 0.25}
{'loss': 1.1043, 'grad_norm': 0.5546875, 'learning_rate': 0.00014926016719738437, 'epoch': 0.25}
{'loss': 1.4536, 'grad_norm': 



{'loss': 1.3499, 'grad_norm': 0.59375, 'learning_rate': 0.00014907836915796263, 'epoch': 0.25}
{'loss': 1.3153, 'grad_norm': 0.515625, 'learning_rate': 0.00014906700678049876, 'epoch': 0.25}
{'loss': 1.1563, 'grad_norm': 0.76171875, 'learning_rate': 0.0001490556444030349, 'epoch': 0.25}
{'loss': 1.1933, 'grad_norm': 0.515625, 'learning_rate': 0.00014904428202557103, 'epoch': 0.25}
{'loss': 1.1314, 'grad_norm': 0.6796875, 'learning_rate': 0.00014903291964810718, 'epoch': 0.25}
{'loss': 1.3963, 'grad_norm': 0.734375, 'learning_rate': 0.0001490215572706433, 'epoch': 0.25}
{'loss': 1.1502, 'grad_norm': 0.53515625, 'learning_rate': 0.00014901019489317946, 'epoch': 0.25}
{'loss': 1.2312, 'grad_norm': 0.458984375, 'learning_rate': 0.0001489988325157156, 'epoch': 0.25}
{'loss': 1.2566, 'grad_norm': 0.703125, 'learning_rate': 0.00014898747013825174, 'epoch': 0.25}
{'loss': 0.9751, 'grad_norm': 0.609375, 'learning_rate': 0.0001489761077607879, 'epoch': 0.25}
{'loss': 1.2968, 'grad_norm': 0.47656



{'loss': 1.3941, 'grad_norm': 0.484375, 'learning_rate': 0.0001487943097213661, 'epoch': 0.25}
{'loss': 1.2117, 'grad_norm': 0.60546875, 'learning_rate': 0.00014878294734390224, 'epoch': 0.25}
{'loss': 1.3288, 'grad_norm': 0.48046875, 'learning_rate': 0.0001487715849664384, 'epoch': 0.25}
{'loss': 1.2776, 'grad_norm': 0.7578125, 'learning_rate': 0.00014876022258897452, 'epoch': 0.25}
{'loss': 0.9892, 'grad_norm': 1.0625, 'learning_rate': 0.00014874886021151067, 'epoch': 0.25}
{'loss': 1.4115, 'grad_norm': 0.49609375, 'learning_rate': 0.0001487374978340468, 'epoch': 0.25}
{'loss': 1.2532, 'grad_norm': 0.63671875, 'learning_rate': 0.00014872613545658295, 'epoch': 0.25}
{'loss': 1.1776, 'grad_norm': 0.41015625, 'learning_rate': 0.00014871477307911907, 'epoch': 0.25}
{'loss': 1.1583, 'grad_norm': 0.59375, 'learning_rate': 0.00014870341070165522, 'epoch': 0.25}
{'loss': 1.0652, 'grad_norm': 0.9296875, 'learning_rate': 0.00014869204832419137, 'epoch': 0.25}
{'loss': 1.3114, 'grad_norm': 0.46



{'loss': 1.3416, 'grad_norm': 0.91015625, 'learning_rate': 0.00014851025028476958, 'epoch': 0.25}
{'loss': 1.2233, 'grad_norm': 0.71484375, 'learning_rate': 0.00014849888790730573, 'epoch': 0.25}
{'loss': 1.3681, 'grad_norm': 0.443359375, 'learning_rate': 0.00014848752552984186, 'epoch': 0.25}
{'loss': 1.2214, 'grad_norm': 0.451171875, 'learning_rate': 0.000148476163152378, 'epoch': 0.25}
{'loss': 1.1618, 'grad_norm': 0.7734375, 'learning_rate': 0.00014846480077491416, 'epoch': 0.25}
{'loss': 1.3686, 'grad_norm': 0.640625, 'learning_rate': 0.00014845343839745028, 'epoch': 0.25}
{'loss': 1.2393, 'grad_norm': 0.859375, 'learning_rate': 0.00014844207601998643, 'epoch': 0.25}
{'loss': 1.3098, 'grad_norm': 0.486328125, 'learning_rate': 0.00014843071364252256, 'epoch': 0.25}
{'loss': 1.2654, 'grad_norm': 0.51953125, 'learning_rate': 0.0001484193512650587, 'epoch': 0.25}
{'loss': 1.1285, 'grad_norm': 0.984375, 'learning_rate': 0.00014840798888759483, 'epoch': 0.25}
{'loss': 1.2957, 'grad_norm



{'loss': 1.3805, 'grad_norm': 0.65625, 'learning_rate': 0.0001482261908481731, 'epoch': 0.25}
{'loss': 1.1713, 'grad_norm': 0.95703125, 'learning_rate': 0.00014821482847070922, 'epoch': 0.25}
{'loss': 1.2185, 'grad_norm': 0.41015625, 'learning_rate': 0.00014820346609324537, 'epoch': 0.25}
{'loss': 1.3214, 'grad_norm': 0.53515625, 'learning_rate': 0.0001481921037157815, 'epoch': 0.25}
{'loss': 1.1555, 'grad_norm': 0.69921875, 'learning_rate': 0.00014818074133831762, 'epoch': 0.25}
{'loss': 1.4421, 'grad_norm': 0.52734375, 'learning_rate': 0.00014816937896085377, 'epoch': 0.25}
{'loss': 1.0741, 'grad_norm': 0.4765625, 'learning_rate': 0.00014815801658338992, 'epoch': 0.25}
{'loss': 1.222, 'grad_norm': 0.421875, 'learning_rate': 0.00014814665420592607, 'epoch': 0.25}
{'loss': 1.3337, 'grad_norm': 0.609375, 'learning_rate': 0.0001481352918284622, 'epoch': 0.25}
{'loss': 1.1892, 'grad_norm': 0.765625, 'learning_rate': 0.00014812392945099832, 'epoch': 0.25}
{'loss': 1.3188, 'grad_norm': 0.45



{'loss': 1.4661, 'grad_norm': 0.5625, 'learning_rate': 0.00014794213141157655, 'epoch': 0.25}
{'loss': 1.151, 'grad_norm': 0.50390625, 'learning_rate': 0.0001479307690341127, 'epoch': 0.25}
{'loss': 1.2604, 'grad_norm': 0.400390625, 'learning_rate': 0.00014791940665664886, 'epoch': 0.25}
{'loss': 1.2549, 'grad_norm': 0.59375, 'learning_rate': 0.00014790804427918498, 'epoch': 0.25}
{'loss': 1.0904, 'grad_norm': 1.125, 'learning_rate': 0.00014789668190172113, 'epoch': 0.25}
{'loss': 1.3391, 'grad_norm': 0.74609375, 'learning_rate': 0.00014788531952425726, 'epoch': 0.25}
{'loss': 1.176, 'grad_norm': 0.74609375, 'learning_rate': 0.0001478739571467934, 'epoch': 0.25}
{'loss': 1.1616, 'grad_norm': 0.439453125, 'learning_rate': 0.00014786259476932953, 'epoch': 0.25}
{'loss': 1.278, 'grad_norm': 0.5, 'learning_rate': 0.00014785123239186568, 'epoch': 0.25}
{'loss': 0.9703, 'grad_norm': 0.88671875, 'learning_rate': 0.00014783987001440184, 'epoch': 0.25}
{'loss': 1.3644, 'grad_norm': 0.400390625,



{'loss': 1.3184, 'grad_norm': 0.451171875, 'learning_rate': 0.00014765807197498004, 'epoch': 0.26}
{'loss': 1.283, 'grad_norm': 0.6640625, 'learning_rate': 0.0001476467095975162, 'epoch': 0.26}
{'loss': 1.326, 'grad_norm': 0.439453125, 'learning_rate': 0.00014763534722005232, 'epoch': 0.26}
{'loss': 1.2803, 'grad_norm': 0.6171875, 'learning_rate': 0.00014762398484258847, 'epoch': 0.26}
{'loss': 1.048, 'grad_norm': 0.87890625, 'learning_rate': 0.00014761262246512462, 'epoch': 0.26}
{'loss': 1.4995, 'grad_norm': 0.55078125, 'learning_rate': 0.00014760126008766074, 'epoch': 0.26}
{'loss': 1.3639, 'grad_norm': 0.65625, 'learning_rate': 0.0001475898977101969, 'epoch': 0.26}
{'loss': 1.264, 'grad_norm': 0.54296875, 'learning_rate': 0.00014757853533273302, 'epoch': 0.26}
{'loss': 1.2408, 'grad_norm': 0.515625, 'learning_rate': 0.00014756717295526917, 'epoch': 0.26}
{'loss': 1.1352, 'grad_norm': 0.76171875, 'learning_rate': 0.0001475558105778053, 'epoch': 0.26}
{'loss': 1.2899, 'grad_norm': 0.



{'loss': 1.3969, 'grad_norm': 0.46875, 'learning_rate': 0.00014737401253838356, 'epoch': 0.26}
{'loss': 1.1226, 'grad_norm': 0.52734375, 'learning_rate': 0.00014736265016091968, 'epoch': 0.26}
{'loss': 1.2372, 'grad_norm': 0.4921875, 'learning_rate': 0.0001473512877834558, 'epoch': 0.26}
{'loss': 1.2491, 'grad_norm': 0.5703125, 'learning_rate': 0.00014733992540599196, 'epoch': 0.26}
{'loss': 1.0916, 'grad_norm': 0.62109375, 'learning_rate': 0.00014732856302852808, 'epoch': 0.26}
{'loss': 1.4524, 'grad_norm': 0.482421875, 'learning_rate': 0.00014731720065106426, 'epoch': 0.26}
{'loss': 1.243, 'grad_norm': 0.63671875, 'learning_rate': 0.00014730583827360038, 'epoch': 0.26}
{'loss': 1.1956, 'grad_norm': 0.423828125, 'learning_rate': 0.0001472944758961365, 'epoch': 0.26}
{'loss': 1.3182, 'grad_norm': 0.5078125, 'learning_rate': 0.00014728311351867266, 'epoch': 0.26}
{'loss': 1.1371, 'grad_norm': 0.62890625, 'learning_rate': 0.00014727175114120878, 'epoch': 0.26}
{'loss': 1.3001, 'grad_norm



{'loss': 1.2902, 'grad_norm': 0.66796875, 'learning_rate': 0.00014708995310178702, 'epoch': 0.26}
{'loss': 1.1129, 'grad_norm': 0.74609375, 'learning_rate': 0.00014707859072432317, 'epoch': 0.26}
{'loss': 1.1591, 'grad_norm': 0.4296875, 'learning_rate': 0.00014706722834685932, 'epoch': 0.26}
{'loss': 1.2012, 'grad_norm': 0.5625, 'learning_rate': 0.00014705586596939544, 'epoch': 0.26}
{'loss': 1.1086, 'grad_norm': 0.9609375, 'learning_rate': 0.0001470445035919316, 'epoch': 0.26}
{'loss': 1.2807, 'grad_norm': 0.4921875, 'learning_rate': 0.00014703314121446772, 'epoch': 0.26}
{'loss': 1.3037, 'grad_norm': 0.7890625, 'learning_rate': 0.00014702177883700384, 'epoch': 0.26}
{'loss': 1.1402, 'grad_norm': 0.5390625, 'learning_rate': 0.00014701041645954, 'epoch': 0.26}
{'loss': 1.1835, 'grad_norm': 0.53515625, 'learning_rate': 0.00014699905408207615, 'epoch': 0.26}
{'loss': 0.8907, 'grad_norm': 0.5859375, 'learning_rate': 0.0001469876917046123, 'epoch': 0.26}
{'loss': 1.4966, 'grad_norm': 0.482



{'loss': 1.3413, 'grad_norm': 0.43359375, 'learning_rate': 0.0001468058936651905, 'epoch': 0.26}
{'loss': 1.1736, 'grad_norm': 0.73046875, 'learning_rate': 0.00014679453128772665, 'epoch': 0.26}
{'loss': 1.1202, 'grad_norm': 0.51953125, 'learning_rate': 0.00014678316891026278, 'epoch': 0.26}
{'loss': 1.2189, 'grad_norm': 0.48046875, 'learning_rate': 0.00014677180653279893, 'epoch': 0.26}
{'loss': 1.1498, 'grad_norm': 0.53125, 'learning_rate': 0.00014676044415533508, 'epoch': 0.26}
{'loss': 1.313, 'grad_norm': 0.5234375, 'learning_rate': 0.0001467490817778712, 'epoch': 0.26}
{'loss': 1.0595, 'grad_norm': 0.7421875, 'learning_rate': 0.00014673771940040736, 'epoch': 0.26}
{'loss': 1.1918, 'grad_norm': 0.5, 'learning_rate': 0.00014672635702294348, 'epoch': 0.26}
{'loss': 1.2048, 'grad_norm': 0.6015625, 'learning_rate': 0.00014671499464547963, 'epoch': 0.26}
{'loss': 1.1136, 'grad_norm': 0.81640625, 'learning_rate': 0.00014670363226801576, 'epoch': 0.26}
{'loss': 1.2835, 'grad_norm': 0.8867



{'loss': 1.3031, 'grad_norm': 0.466796875, 'learning_rate': 0.000146521834228594, 'epoch': 0.26}
{'loss': 1.2234, 'grad_norm': 0.703125, 'learning_rate': 0.00014651047185113014, 'epoch': 0.26}
{'loss': 1.3208, 'grad_norm': 0.3984375, 'learning_rate': 0.00014649910947366626, 'epoch': 0.26}
{'loss': 1.1949, 'grad_norm': 0.51953125, 'learning_rate': 0.00014648774709620242, 'epoch': 0.26}
{'loss': 1.1822, 'grad_norm': 0.59375, 'learning_rate': 0.00014647638471873854, 'epoch': 0.26}
{'loss': 1.4009, 'grad_norm': 0.68359375, 'learning_rate': 0.0001464650223412747, 'epoch': 0.26}
{'loss': 1.1457, 'grad_norm': 0.482421875, 'learning_rate': 0.00014645365996381084, 'epoch': 0.26}
{'loss': 1.1832, 'grad_norm': 0.400390625, 'learning_rate': 0.00014644229758634697, 'epoch': 0.26}
{'loss': 1.1437, 'grad_norm': 0.7109375, 'learning_rate': 0.00014643093520888312, 'epoch': 0.26}
{'loss': 1.0825, 'grad_norm': 0.6875, 'learning_rate': 0.00014641957283141924, 'epoch': 0.26}
{'loss': 1.3505, 'grad_norm': 0



{'loss': 1.4047, 'grad_norm': 0.3984375, 'learning_rate': 0.0001462377747919975, 'epoch': 0.26}
{'loss': 1.2595, 'grad_norm': 0.68359375, 'learning_rate': 0.00014622641241453363, 'epoch': 0.26}
{'loss': 1.1563, 'grad_norm': 0.5390625, 'learning_rate': 0.00014621505003706978, 'epoch': 0.26}
{'loss': 1.301, 'grad_norm': 0.55859375, 'learning_rate': 0.0001462036876596059, 'epoch': 0.26}
{'loss': 1.0657, 'grad_norm': 0.5703125, 'learning_rate': 0.00014619232528214203, 'epoch': 0.26}
{'loss': 1.415, 'grad_norm': 0.396484375, 'learning_rate': 0.00014618096290467818, 'epoch': 0.26}
{'loss': 1.1516, 'grad_norm': 0.55859375, 'learning_rate': 0.0001461696005272143, 'epoch': 0.26}
{'loss': 1.2135, 'grad_norm': 0.421875, 'learning_rate': 0.00014615823814975048, 'epoch': 0.26}
{'loss': 1.3639, 'grad_norm': 0.61328125, 'learning_rate': 0.0001461468757722866, 'epoch': 0.26}
{'loss': 1.1575, 'grad_norm': 0.9453125, 'learning_rate': 0.00014613551339482273, 'epoch': 0.26}
{'loss': 1.4027, 'grad_norm': 0



{'loss': 1.345, 'grad_norm': 0.470703125, 'learning_rate': 0.00014595371535540096, 'epoch': 0.26}
{'loss': 1.1673, 'grad_norm': 0.74609375, 'learning_rate': 0.00014594235297793711, 'epoch': 0.26}
{'loss': 1.1766, 'grad_norm': 0.462890625, 'learning_rate': 0.00014593099060047327, 'epoch': 0.26}
{'loss': 1.263, 'grad_norm': 0.54296875, 'learning_rate': 0.0001459196282230094, 'epoch': 0.26}
{'loss': 1.0991, 'grad_norm': 0.7265625, 'learning_rate': 0.00014590826584554554, 'epoch': 0.26}
{'loss': 1.4142, 'grad_norm': 0.46484375, 'learning_rate': 0.00014589690346808167, 'epoch': 0.26}
{'loss': 1.2804, 'grad_norm': 0.7578125, 'learning_rate': 0.00014588554109061782, 'epoch': 0.26}
{'loss': 1.314, 'grad_norm': 0.53125, 'learning_rate': 0.00014587417871315394, 'epoch': 0.26}
{'loss': 1.2442, 'grad_norm': 0.62890625, 'learning_rate': 0.00014586281633569007, 'epoch': 0.26}
{'loss': 1.1926, 'grad_norm': 0.91796875, 'learning_rate': 0.00014585145395822624, 'epoch': 0.26}
{'loss': 1.3317, 'grad_norm



{'loss': 1.252, 'grad_norm': 0.453125, 'learning_rate': 0.00014566965591880445, 'epoch': 0.26}
{'loss': 1.2202, 'grad_norm': 0.515625, 'learning_rate': 0.0001456582935413406, 'epoch': 0.26}
{'loss': 1.2845, 'grad_norm': 0.421875, 'learning_rate': 0.00014564693116387673, 'epoch': 0.26}
{'loss': 1.1759, 'grad_norm': 0.60546875, 'learning_rate': 0.00014563556878641288, 'epoch': 0.26}
{'loss': 1.1415, 'grad_norm': 0.4765625, 'learning_rate': 0.00014562420640894903, 'epoch': 0.26}
{'loss': 1.4411, 'grad_norm': 0.58203125, 'learning_rate': 0.00014561284403148515, 'epoch': 0.26}
{'loss': 1.1527, 'grad_norm': 0.58203125, 'learning_rate': 0.0001456014816540213, 'epoch': 0.26}
{'loss': 1.2021, 'grad_norm': 0.51953125, 'learning_rate': 0.00014559011927655743, 'epoch': 0.26}
{'loss': 1.2182, 'grad_norm': 0.64453125, 'learning_rate': 0.00014557875689909358, 'epoch': 0.26}
{'loss': 1.0669, 'grad_norm': 1.046875, 'learning_rate': 0.0001455673945216297, 'epoch': 0.26}
{'loss': 1.2376, 'grad_norm': 0.5



{'loss': 1.3882, 'grad_norm': 0.484375, 'learning_rate': 0.00014538559648220796, 'epoch': 0.27}
{'loss': 1.1784, 'grad_norm': 0.828125, 'learning_rate': 0.0001453742341047441, 'epoch': 0.27}
{'loss': 1.3063, 'grad_norm': 0.4609375, 'learning_rate': 0.0001453628717272802, 'epoch': 0.27}
{'loss': 1.3628, 'grad_norm': 0.515625, 'learning_rate': 0.00014535150934981636, 'epoch': 0.27}
{'loss': 1.1543, 'grad_norm': 0.94921875, 'learning_rate': 0.0001453401469723525, 'epoch': 0.27}
{'loss': 1.3696, 'grad_norm': 0.427734375, 'learning_rate': 0.00014532878459488864, 'epoch': 0.27}
{'loss': 1.302, 'grad_norm': 0.64453125, 'learning_rate': 0.00014531742221742476, 'epoch': 0.27}
{'loss': 1.2417, 'grad_norm': 0.60546875, 'learning_rate': 0.00014530605983996092, 'epoch': 0.27}
{'loss': 1.2024, 'grad_norm': 0.67578125, 'learning_rate': 0.00014529469746249707, 'epoch': 0.27}
{'loss': 1.1249, 'grad_norm': 0.76171875, 'learning_rate': 0.0001452833350850332, 'epoch': 0.27}
{'loss': 1.3515, 'grad_norm': 0



{'loss': 1.4276, 'grad_norm': 0.50390625, 'learning_rate': 0.00014510153704561142, 'epoch': 0.27}
{'loss': 1.2543, 'grad_norm': 0.78125, 'learning_rate': 0.00014509017466814755, 'epoch': 0.27}
{'loss': 1.2587, 'grad_norm': 0.359375, 'learning_rate': 0.00014507881229068373, 'epoch': 0.27}
{'loss': 1.4029, 'grad_norm': 0.63671875, 'learning_rate': 0.00014506744991321985, 'epoch': 0.27}
{'loss': 1.1235, 'grad_norm': 0.83203125, 'learning_rate': 0.000145056087535756, 'epoch': 0.27}
{'loss': 1.3804, 'grad_norm': 0.494140625, 'learning_rate': 0.00014504472515829213, 'epoch': 0.27}
{'loss': 1.194, 'grad_norm': 0.5546875, 'learning_rate': 0.00014503336278082825, 'epoch': 0.27}
{'loss': 1.1211, 'grad_norm': 0.48828125, 'learning_rate': 0.0001450220004033644, 'epoch': 0.27}
{'loss': 1.2785, 'grad_norm': 0.55859375, 'learning_rate': 0.00014501063802590053, 'epoch': 0.27}
{'loss': 1.1739, 'grad_norm': 0.92578125, 'learning_rate': 0.0001449992756484367, 'epoch': 0.27}
{'loss': 1.3466, 'grad_norm': 



{'loss': 1.293, 'grad_norm': 0.47265625, 'learning_rate': 0.0001448174776090149, 'epoch': 0.27}
{'loss': 1.177, 'grad_norm': 0.59765625, 'learning_rate': 0.00014480611523155106, 'epoch': 0.27}
{'loss': 1.3864, 'grad_norm': 0.390625, 'learning_rate': 0.0001447947528540872, 'epoch': 0.27}
{'loss': 1.2665, 'grad_norm': 0.56640625, 'learning_rate': 0.00014478339047662334, 'epoch': 0.27}
{'loss': 1.058, 'grad_norm': 0.59375, 'learning_rate': 0.0001447720280991595, 'epoch': 0.27}
{'loss': 1.2073, 'grad_norm': 0.470703125, 'learning_rate': 0.00014476066572169561, 'epoch': 0.27}
{'loss': 1.2311, 'grad_norm': 0.625, 'learning_rate': 0.00014474930334423177, 'epoch': 0.27}
{'loss': 1.2659, 'grad_norm': 0.353515625, 'learning_rate': 0.0001447379409667679, 'epoch': 0.27}
{'loss': 1.3417, 'grad_norm': 0.52734375, 'learning_rate': 0.00014472657858930404, 'epoch': 0.27}
{'loss': 1.1856, 'grad_norm': 0.89453125, 'learning_rate': 0.00014471521621184017, 'epoch': 0.27}
{'loss': 1.393, 'grad_norm': 0.4492



{'loss': 1.3537, 'grad_norm': 0.484375, 'learning_rate': 0.0001445334181724184, 'epoch': 0.27}
{'loss': 1.2616, 'grad_norm': 0.76171875, 'learning_rate': 0.00014452205579495455, 'epoch': 0.27}
{'loss': 1.2753, 'grad_norm': 0.47265625, 'learning_rate': 0.00014451069341749067, 'epoch': 0.27}
{'loss': 1.2182, 'grad_norm': 0.56640625, 'learning_rate': 0.00014449933104002683, 'epoch': 0.27}
{'loss': 1.0737, 'grad_norm': 1.09375, 'learning_rate': 0.00014448796866256295, 'epoch': 0.27}
{'loss': 1.3062, 'grad_norm': 0.41796875, 'learning_rate': 0.0001444766062850991, 'epoch': 0.27}
{'loss': 1.2123, 'grad_norm': 0.59375, 'learning_rate': 0.00014446524390763525, 'epoch': 0.27}
{'loss': 1.3055, 'grad_norm': 0.486328125, 'learning_rate': 0.00014445388153017138, 'epoch': 0.27}
{'loss': 1.2629, 'grad_norm': 0.53515625, 'learning_rate': 0.00014444251915270753, 'epoch': 0.27}
{'loss': 1.2148, 'grad_norm': 0.75, 'learning_rate': 0.00014443115677524365, 'epoch': 0.27}
{'loss': 1.5131, 'grad_norm': 0.480



{'loss': 1.4692, 'grad_norm': 0.474609375, 'learning_rate': 0.00014424935873582189, 'epoch': 0.27}
{'loss': 1.2366, 'grad_norm': 0.66015625, 'learning_rate': 0.00014423799635835804, 'epoch': 0.27}
{'loss': 1.1091, 'grad_norm': 0.447265625, 'learning_rate': 0.0001442266339808942, 'epoch': 0.27}
{'loss': 1.3147, 'grad_norm': 0.546875, 'learning_rate': 0.0001442152716034303, 'epoch': 0.27}
{'loss': 1.0878, 'grad_norm': 0.97265625, 'learning_rate': 0.00014420390922596644, 'epoch': 0.27}
{'loss': 1.3561, 'grad_norm': 0.64453125, 'learning_rate': 0.0001441925468485026, 'epoch': 0.27}
{'loss': 1.3444, 'grad_norm': 0.6171875, 'learning_rate': 0.0001441811844710387, 'epoch': 0.27}
{'loss': 1.1497, 'grad_norm': 0.50390625, 'learning_rate': 0.00014416982209357486, 'epoch': 0.27}
{'loss': 1.3379, 'grad_norm': 0.65625, 'learning_rate': 0.00014415845971611102, 'epoch': 0.27}
{'loss': 1.1122, 'grad_norm': 1.28125, 'learning_rate': 0.00014414709733864714, 'epoch': 0.27}
{'loss': 1.2707, 'grad_norm': 0



{'loss': 1.3515, 'grad_norm': 0.5625, 'learning_rate': 0.00014396529929922537, 'epoch': 0.27}
{'loss': 1.3066, 'grad_norm': 0.7578125, 'learning_rate': 0.00014395393692176152, 'epoch': 0.27}
{'loss': 1.3057, 'grad_norm': 0.609375, 'learning_rate': 0.00014394257454429765, 'epoch': 0.27}
{'loss': 1.2341, 'grad_norm': 0.57421875, 'learning_rate': 0.00014393121216683377, 'epoch': 0.27}
{'loss': 1.0584, 'grad_norm': 0.6796875, 'learning_rate': 0.00014391984978936995, 'epoch': 0.27}
{'loss': 1.2529, 'grad_norm': 0.546875, 'learning_rate': 0.00014390848741190608, 'epoch': 0.27}
{'loss': 1.1832, 'grad_norm': 0.86328125, 'learning_rate': 0.00014389712503444223, 'epoch': 0.27}
{'loss': 1.25, 'grad_norm': 0.388671875, 'learning_rate': 0.00014388576265697835, 'epoch': 0.27}
{'loss': 1.3365, 'grad_norm': 0.83203125, 'learning_rate': 0.00014387440027951448, 'epoch': 0.27}
{'loss': 1.1464, 'grad_norm': 0.66796875, 'learning_rate': 0.00014386303790205063, 'epoch': 0.27}
{'loss': 1.3287, 'grad_norm': 0



{'loss': 1.3411, 'grad_norm': 0.484375, 'learning_rate': 0.00014368123986262886, 'epoch': 0.27}
{'loss': 1.2135, 'grad_norm': 1.0703125, 'learning_rate': 0.000143669877485165, 'epoch': 0.27}
{'loss': 1.2085, 'grad_norm': 0.474609375, 'learning_rate': 0.00014365851510770113, 'epoch': 0.27}
{'loss': 1.1792, 'grad_norm': 0.5546875, 'learning_rate': 0.00014364715273023729, 'epoch': 0.27}
{'loss': 1.0357, 'grad_norm': 0.99609375, 'learning_rate': 0.0001436357903527734, 'epoch': 0.27}
{'loss': 1.261, 'grad_norm': 0.51953125, 'learning_rate': 0.00014362442797530956, 'epoch': 0.27}
{'loss': 1.2041, 'grad_norm': 0.6015625, 'learning_rate': 0.0001436130655978457, 'epoch': 0.27}
{'loss': 1.2766, 'grad_norm': 0.447265625, 'learning_rate': 0.00014360170322038184, 'epoch': 0.27}
{'loss': 1.319, 'grad_norm': 0.515625, 'learning_rate': 0.000143590340842918, 'epoch': 0.27}
{'loss': 1.167, 'grad_norm': 0.89453125, 'learning_rate': 0.0001435789784654541, 'epoch': 0.27}
{'loss': 1.453, 'grad_norm': 0.6406



{'loss': 1.2963, 'grad_norm': 0.6640625, 'learning_rate': 0.00014339718042603235, 'epoch': 0.27}
{'loss': 1.195, 'grad_norm': 0.80859375, 'learning_rate': 0.0001433858180485685, 'epoch': 0.27}
{'loss': 1.1383, 'grad_norm': 0.3984375, 'learning_rate': 0.00014337445567110462, 'epoch': 0.27}
{'loss': 1.2784, 'grad_norm': 0.466796875, 'learning_rate': 0.00014336309329364077, 'epoch': 0.27}
{'loss': 0.9964, 'grad_norm': 1.1171875, 'learning_rate': 0.0001433517309161769, 'epoch': 0.27}
{'loss': 1.3477, 'grad_norm': 0.55859375, 'learning_rate': 0.00014334036853871305, 'epoch': 0.27}
{'loss': 1.1996, 'grad_norm': 0.75390625, 'learning_rate': 0.00014332900616124917, 'epoch': 0.27}
{'loss': 1.2757, 'grad_norm': 0.462890625, 'learning_rate': 0.00014331764378378532, 'epoch': 0.27}
{'loss': 1.3789, 'grad_norm': 0.5859375, 'learning_rate': 0.00014330628140632148, 'epoch': 0.27}
{'loss': 1.1507, 'grad_norm': 0.84765625, 'learning_rate': 0.0001432949190288576, 'epoch': 0.27}
{'loss': 1.3306, 'grad_nor



{'loss': 1.3398, 'grad_norm': 0.4921875, 'learning_rate': 0.00014311312098943583, 'epoch': 0.28}
{'loss': 1.3456, 'grad_norm': 0.65625, 'learning_rate': 0.00014310175861197196, 'epoch': 0.28}
{'loss': 1.1674, 'grad_norm': 0.412109375, 'learning_rate': 0.0001430903962345081, 'epoch': 0.28}
{'loss': 1.1917, 'grad_norm': 0.7109375, 'learning_rate': 0.00014307903385704426, 'epoch': 0.28}
{'loss': 1.0514, 'grad_norm': 0.91796875, 'learning_rate': 0.0001430676714795804, 'epoch': 0.28}
{'loss': 1.3661, 'grad_norm': 0.53515625, 'learning_rate': 0.00014305630910211654, 'epoch': 0.28}
{'loss': 1.1899, 'grad_norm': 0.59765625, 'learning_rate': 0.00014304494672465266, 'epoch': 0.28}
{'loss': 1.2454, 'grad_norm': 0.44921875, 'learning_rate': 0.0001430335843471888, 'epoch': 0.28}
{'loss': 1.203, 'grad_norm': 0.58203125, 'learning_rate': 0.00014302222196972494, 'epoch': 0.28}
{'loss': 1.0817, 'grad_norm': 1.046875, 'learning_rate': 0.0001430108595922611, 'epoch': 0.28}
{'loss': 1.5726, 'grad_norm': 0



{'loss': 1.5477, 'grad_norm': 0.51953125, 'learning_rate': 0.00014282906155283932, 'epoch': 0.28}
{'loss': 1.2386, 'grad_norm': 0.64453125, 'learning_rate': 0.00014281769917537547, 'epoch': 0.28}
{'loss': 1.3231, 'grad_norm': 0.373046875, 'learning_rate': 0.0001428063367979116, 'epoch': 0.28}
{'loss': 1.2383, 'grad_norm': 0.609375, 'learning_rate': 0.00014279497442044775, 'epoch': 0.28}
{'loss': 1.122, 'grad_norm': 1.1640625, 'learning_rate': 0.00014278361204298387, 'epoch': 0.28}
{'loss': 1.4638, 'grad_norm': 0.50390625, 'learning_rate': 0.00014277224966552002, 'epoch': 0.28}
{'loss': 1.1976, 'grad_norm': 0.62890625, 'learning_rate': 0.00014276088728805617, 'epoch': 0.28}
{'loss': 1.1822, 'grad_norm': 0.451171875, 'learning_rate': 0.0001427495249105923, 'epoch': 0.28}
{'loss': 1.2146, 'grad_norm': 0.6328125, 'learning_rate': 0.00014273816253312845, 'epoch': 0.28}
{'loss': 1.0129, 'grad_norm': 0.51171875, 'learning_rate': 0.00014272680015566457, 'epoch': 0.28}
{'loss': 1.2874, 'grad_no



{'loss': 1.3123, 'grad_norm': 0.494140625, 'learning_rate': 0.0001425450021162428, 'epoch': 0.28}
{'loss': 1.0732, 'grad_norm': 0.68359375, 'learning_rate': 0.00014253363973877896, 'epoch': 0.28}
{'loss': 1.2157, 'grad_norm': 0.56640625, 'learning_rate': 0.00014252227736131508, 'epoch': 0.28}
{'loss': 1.2943, 'grad_norm': 0.494140625, 'learning_rate': 0.00014251091498385123, 'epoch': 0.28}
{'loss': 1.1288, 'grad_norm': 0.765625, 'learning_rate': 0.00014249955260638736, 'epoch': 0.28}
{'loss': 1.3316, 'grad_norm': 0.52734375, 'learning_rate': 0.0001424881902289235, 'epoch': 0.28}
{'loss': 1.1646, 'grad_norm': 0.765625, 'learning_rate': 0.00014247682785145963, 'epoch': 0.28}
{'loss': 1.2451, 'grad_norm': 0.455078125, 'learning_rate': 0.00014246546547399579, 'epoch': 0.28}
{'loss': 1.2639, 'grad_norm': 0.59375, 'learning_rate': 0.00014245410309653194, 'epoch': 0.28}
{'loss': 1.1109, 'grad_norm': 0.7109375, 'learning_rate': 0.00014244274071906806, 'epoch': 0.28}
{'loss': 1.4417, 'grad_norm



{'loss': 1.2995, 'grad_norm': 0.47265625, 'learning_rate': 0.0001422609426796463, 'epoch': 0.28}
{'loss': 1.2362, 'grad_norm': 0.70703125, 'learning_rate': 0.00014224958030218242, 'epoch': 0.28}
{'loss': 1.1848, 'grad_norm': 0.41796875, 'learning_rate': 0.00014223821792471857, 'epoch': 0.28}
{'loss': 1.3562, 'grad_norm': 0.58984375, 'learning_rate': 0.00014222685554725472, 'epoch': 0.28}
{'loss': 1.0612, 'grad_norm': 0.287109375, 'learning_rate': 0.00014221549316979085, 'epoch': 0.28}
{'loss': 1.316, 'grad_norm': 0.51953125, 'learning_rate': 0.000142204130792327, 'epoch': 0.28}
{'loss': 1.1934, 'grad_norm': 0.486328125, 'learning_rate': 0.00014219276841486312, 'epoch': 0.28}
{'loss': 1.2309, 'grad_norm': 0.42578125, 'learning_rate': 0.00014218140603739927, 'epoch': 0.28}
{'loss': 1.2926, 'grad_norm': 0.47265625, 'learning_rate': 0.0001421700436599354, 'epoch': 0.28}
{'loss': 1.1607, 'grad_norm': 0.9375, 'learning_rate': 0.00014215868128247155, 'epoch': 0.28}
{'loss': 1.3424, 'grad_norm



{'loss': 1.3759, 'grad_norm': 0.470703125, 'learning_rate': 0.00014197688324304978, 'epoch': 0.28}
{'loss': 1.2846, 'grad_norm': 1.0078125, 'learning_rate': 0.00014196552086558593, 'epoch': 0.28}
{'loss': 1.2326, 'grad_norm': 0.416015625, 'learning_rate': 0.00014195415848812206, 'epoch': 0.28}
{'loss': 1.2679, 'grad_norm': 0.6875, 'learning_rate': 0.00014194279611065818, 'epoch': 0.28}
{'loss': 1.0611, 'grad_norm': 0.5703125, 'learning_rate': 0.00014193143373319433, 'epoch': 0.28}
{'loss': 1.2751, 'grad_norm': 0.79296875, 'learning_rate': 0.00014192007135573048, 'epoch': 0.28}
{'loss': 1.2632, 'grad_norm': 0.67578125, 'learning_rate': 0.00014190870897826664, 'epoch': 0.28}
{'loss': 1.1515, 'grad_norm': 0.388671875, 'learning_rate': 0.00014189734660080276, 'epoch': 0.28}
{'loss': 1.2288, 'grad_norm': 0.84375, 'learning_rate': 0.00014188598422333888, 'epoch': 0.28}
{'loss': 0.9731, 'grad_norm': 1.1015625, 'learning_rate': 0.00014187462184587504, 'epoch': 0.28}
{'loss': 1.4848, 'grad_norm



{'loss': 1.3243, 'grad_norm': 0.546875, 'learning_rate': 0.00014169282380645327, 'epoch': 0.28}
{'loss': 1.2295, 'grad_norm': 0.65625, 'learning_rate': 0.00014168146142898942, 'epoch': 0.28}
{'loss': 1.363, 'grad_norm': 0.451171875, 'learning_rate': 0.00014167009905152554, 'epoch': 0.28}
{'loss': 1.2395, 'grad_norm': 0.46875, 'learning_rate': 0.0001416587366740617, 'epoch': 0.28}
{'loss': 1.0045, 'grad_norm': 0.609375, 'learning_rate': 0.00014164737429659782, 'epoch': 0.28}
{'loss': 1.4104, 'grad_norm': 0.421875, 'learning_rate': 0.00014163601191913397, 'epoch': 0.28}
{'loss': 1.2139, 'grad_norm': 0.6953125, 'learning_rate': 0.0001416246495416701, 'epoch': 0.28}
{'loss': 1.2367, 'grad_norm': 0.61328125, 'learning_rate': 0.00014161328716420625, 'epoch': 0.28}
{'loss': 1.3574, 'grad_norm': 0.447265625, 'learning_rate': 0.0001416019247867424, 'epoch': 0.28}
{'loss': 0.985, 'grad_norm': 0.70703125, 'learning_rate': 0.00014159056240927852, 'epoch': 0.28}
{'loss': 1.4028, 'grad_norm': 0.4765



{'loss': 1.3753, 'grad_norm': 0.4765625, 'learning_rate': 0.00014140876436985676, 'epoch': 0.28}
{'loss': 1.2578, 'grad_norm': 1.0078125, 'learning_rate': 0.00014139740199239288, 'epoch': 0.28}
{'loss': 1.1802, 'grad_norm': 0.6171875, 'learning_rate': 0.00014138603961492903, 'epoch': 0.28}
{'loss': 1.3187, 'grad_norm': 0.5234375, 'learning_rate': 0.00014137467723746518, 'epoch': 0.28}
{'loss': 1.0822, 'grad_norm': 0.67578125, 'learning_rate': 0.0001413633148600013, 'epoch': 0.28}
{'loss': 1.3891, 'grad_norm': 0.5390625, 'learning_rate': 0.00014135195248253746, 'epoch': 0.28}
{'loss': 1.1062, 'grad_norm': 0.6484375, 'learning_rate': 0.00014134059010507358, 'epoch': 0.28}
{'loss': 1.4129, 'grad_norm': 0.421875, 'learning_rate': 0.00014132922772760973, 'epoch': 0.28}
{'loss': 1.3341, 'grad_norm': 0.51171875, 'learning_rate': 0.00014131786535014586, 'epoch': 0.28}
{'loss': 1.0635, 'grad_norm': 0.94140625, 'learning_rate': 0.000141306502972682, 'epoch': 0.28}
{'loss': 1.3288, 'grad_norm': 0



{'loss': 1.2706, 'grad_norm': 0.43359375, 'learning_rate': 0.00014112470493326024, 'epoch': 0.28}
{'loss': 1.1569, 'grad_norm': 0.80078125, 'learning_rate': 0.00014111334255579637, 'epoch': 0.28}
{'loss': 1.2666, 'grad_norm': 0.408203125, 'learning_rate': 0.00014110198017833252, 'epoch': 0.28}
{'loss': 1.2201, 'grad_norm': 1.0390625, 'learning_rate': 0.00014109061780086864, 'epoch': 0.28}
{'loss': 1.1225, 'grad_norm': 0.68359375, 'learning_rate': 0.00014107925542340482, 'epoch': 0.28}
{'loss': 1.346, 'grad_norm': 0.6640625, 'learning_rate': 0.00014106789304594095, 'epoch': 0.28}
{'loss': 1.0869, 'grad_norm': 0.76171875, 'learning_rate': 0.00014105653066847707, 'epoch': 0.28}
{'loss': 1.0632, 'grad_norm': 0.4765625, 'learning_rate': 0.00014104516829101322, 'epoch': 0.28}
{'loss': 1.1447, 'grad_norm': 0.51953125, 'learning_rate': 0.00014103380591354935, 'epoch': 0.28}
{'loss': 1.1171, 'grad_norm': 0.78515625, 'learning_rate': 0.0001410224435360855, 'epoch': 0.28}
{'loss': 1.3585, 'grad_n



{'loss': 1.3237, 'grad_norm': 0.69140625, 'learning_rate': 0.00014084064549666373, 'epoch': 0.29}
{'loss': 1.1935, 'grad_norm': 0.58203125, 'learning_rate': 0.00014082928311919988, 'epoch': 0.29}
{'loss': 1.1912, 'grad_norm': 0.40625, 'learning_rate': 0.000140817920741736, 'epoch': 0.29}
{'loss': 1.2903, 'grad_norm': 0.5390625, 'learning_rate': 0.00014080655836427216, 'epoch': 0.29}
{'loss': 1.1726, 'grad_norm': 0.75, 'learning_rate': 0.00014079519598680828, 'epoch': 0.29}
{'loss': 1.2774, 'grad_norm': 0.64453125, 'learning_rate': 0.0001407838336093444, 'epoch': 0.29}
{'loss': 1.0904, 'grad_norm': 0.76171875, 'learning_rate': 0.00014077247123188058, 'epoch': 0.29}
{'loss': 1.1802, 'grad_norm': 0.3828125, 'learning_rate': 0.0001407611088544167, 'epoch': 0.29}
{'loss': 1.2044, 'grad_norm': 0.5859375, 'learning_rate': 0.00014074974647695286, 'epoch': 0.29}
{'loss': 1.1521, 'grad_norm': 0.63671875, 'learning_rate': 0.00014073838409948898, 'epoch': 0.29}
{'loss': 1.34, 'grad_norm': 0.486328



{'loss': 1.4481, 'grad_norm': 0.45703125, 'learning_rate': 0.00014055658606006722, 'epoch': 0.29}
{'loss': 1.0893, 'grad_norm': 0.78515625, 'learning_rate': 0.00014054522368260334, 'epoch': 0.29}
{'loss': 1.308, 'grad_norm': 0.546875, 'learning_rate': 0.0001405338613051395, 'epoch': 0.29}
{'loss': 1.2407, 'grad_norm': 0.671875, 'learning_rate': 0.00014052249892767564, 'epoch': 0.29}
{'loss': 1.1437, 'grad_norm': 0.72265625, 'learning_rate': 0.00014051113655021177, 'epoch': 0.29}
{'loss': 1.4751, 'grad_norm': 0.458984375, 'learning_rate': 0.00014049977417274792, 'epoch': 0.29}
{'loss': 1.2151, 'grad_norm': 0.5, 'learning_rate': 0.00014048841179528404, 'epoch': 0.29}
{'loss': 1.0905, 'grad_norm': 0.41796875, 'learning_rate': 0.0001404770494178202, 'epoch': 0.29}
{'loss': 1.2348, 'grad_norm': 0.640625, 'learning_rate': 0.00014046568704035635, 'epoch': 0.29}
{'loss': 1.0137, 'grad_norm': 0.462890625, 'learning_rate': 0.00014045432466289247, 'epoch': 0.29}
{'loss': 1.4426, 'grad_norm': 0.45



{'loss': 1.3971, 'grad_norm': 0.443359375, 'learning_rate': 0.0001402725266234707, 'epoch': 0.29}
{'loss': 1.2572, 'grad_norm': 0.65234375, 'learning_rate': 0.00014026116424600683, 'epoch': 0.29}
{'loss': 1.3152, 'grad_norm': 0.462890625, 'learning_rate': 0.00014024980186854298, 'epoch': 0.29}
{'loss': 1.3406, 'grad_norm': 0.59765625, 'learning_rate': 0.0001402384394910791, 'epoch': 0.29}
{'loss': 1.045, 'grad_norm': 0.8125, 'learning_rate': 0.00014022707711361525, 'epoch': 0.29}
{'loss': 1.3784, 'grad_norm': 0.5078125, 'learning_rate': 0.0001402157147361514, 'epoch': 0.29}
{'loss': 1.2285, 'grad_norm': 0.8203125, 'learning_rate': 0.00014020435235868753, 'epoch': 0.29}
{'loss': 1.2422, 'grad_norm': 0.62109375, 'learning_rate': 0.00014019298998122368, 'epoch': 0.29}
{'loss': 1.2532, 'grad_norm': 0.7265625, 'learning_rate': 0.0001401816276037598, 'epoch': 0.29}
{'loss': 1.028, 'grad_norm': 0.89453125, 'learning_rate': 0.00014017026522629596, 'epoch': 0.29}
{'loss': 1.2597, 'grad_norm': 0



{'loss': 1.317, 'grad_norm': 0.431640625, 'learning_rate': 0.0001399884671868742, 'epoch': 0.29}
{'loss': 1.1669, 'grad_norm': 0.609375, 'learning_rate': 0.00013997710480941034, 'epoch': 0.29}
{'loss': 1.0697, 'grad_norm': 0.71875, 'learning_rate': 0.00013996574243194647, 'epoch': 0.29}
{'loss': 1.2716, 'grad_norm': 0.5546875, 'learning_rate': 0.0001399543800544826, 'epoch': 0.29}
{'loss': 1.1376, 'grad_norm': 1.25, 'learning_rate': 0.00013994301767701874, 'epoch': 0.29}
{'loss': 1.4435, 'grad_norm': 0.44140625, 'learning_rate': 0.00013993165529955487, 'epoch': 0.29}
{'loss': 1.2856, 'grad_norm': 0.62109375, 'learning_rate': 0.00013992029292209104, 'epoch': 0.29}
{'loss': 1.147, 'grad_norm': 0.4296875, 'learning_rate': 0.00013990893054462717, 'epoch': 0.29}
{'loss': 1.3042, 'grad_norm': 0.5625, 'learning_rate': 0.0001398975681671633, 'epoch': 0.29}
{'loss': 1.1385, 'grad_norm': 0.58984375, 'learning_rate': 0.00013988620578969944, 'epoch': 0.29}
{'loss': 1.3551, 'grad_norm': 0.640625, '



{'loss': 1.3671, 'grad_norm': 0.5078125, 'learning_rate': 0.00013970440775027768, 'epoch': 0.29}
{'loss': 1.181, 'grad_norm': 0.609375, 'learning_rate': 0.00013969304537281383, 'epoch': 0.29}
{'loss': 1.1959, 'grad_norm': 0.35546875, 'learning_rate': 0.00013968168299534995, 'epoch': 0.29}
{'loss': 1.2646, 'grad_norm': 0.58984375, 'learning_rate': 0.0001396703206178861, 'epoch': 0.29}
{'loss': 1.2577, 'grad_norm': 0.84765625, 'learning_rate': 0.00013965895824042223, 'epoch': 0.29}
{'loss': 1.2637, 'grad_norm': 0.5234375, 'learning_rate': 0.00013964759586295838, 'epoch': 0.29}
{'loss': 1.0014, 'grad_norm': 0.9140625, 'learning_rate': 0.0001396362334854945, 'epoch': 0.29}
{'loss': 1.3388, 'grad_norm': 0.44921875, 'learning_rate': 0.00013962487110803063, 'epoch': 0.29}
{'loss': 1.1174, 'grad_norm': 0.5703125, 'learning_rate': 0.0001396135087305668, 'epoch': 0.29}
{'loss': 1.125, 'grad_norm': 1.078125, 'learning_rate': 0.00013960214635310293, 'epoch': 0.29}
{'loss': 1.3121, 'grad_norm': 0.5



{'loss': 1.3183, 'grad_norm': 0.455078125, 'learning_rate': 0.00013942034831368116, 'epoch': 0.29}
{'loss': 1.2254, 'grad_norm': 0.6015625, 'learning_rate': 0.0001394089859362173, 'epoch': 0.29}
{'loss': 1.2086, 'grad_norm': 0.443359375, 'learning_rate': 0.00013939762355875344, 'epoch': 0.29}
{'loss': 1.3399, 'grad_norm': 0.455078125, 'learning_rate': 0.0001393862611812896, 'epoch': 0.29}
{'loss': 1.0567, 'grad_norm': 0.8125, 'learning_rate': 0.00013937489880382572, 'epoch': 0.29}
{'loss': 1.3834, 'grad_norm': 0.478515625, 'learning_rate': 0.00013936353642636187, 'epoch': 0.29}
{'loss': 1.143, 'grad_norm': 0.5859375, 'learning_rate': 0.000139352174048898, 'epoch': 0.29}
{'loss': 1.2323, 'grad_norm': 0.455078125, 'learning_rate': 0.00013934081167143414, 'epoch': 0.29}
{'loss': 1.255, 'grad_norm': 0.51171875, 'learning_rate': 0.00013932944929397027, 'epoch': 0.29}
{'loss': 1.1208, 'grad_norm': 0.81640625, 'learning_rate': 0.00013931808691650642, 'epoch': 0.29}
{'loss': 1.305, 'grad_norm'



{'loss': 1.3241, 'grad_norm': 0.46875, 'learning_rate': 0.00013913628887708465, 'epoch': 0.29}
{'loss': 1.1538, 'grad_norm': 0.60546875, 'learning_rate': 0.00013912492649962078, 'epoch': 0.29}
{'loss': 1.321, 'grad_norm': 0.6875, 'learning_rate': 0.00013911356412215693, 'epoch': 0.29}
{'loss': 1.2339, 'grad_norm': 0.625, 'learning_rate': 0.00013910220174469305, 'epoch': 0.29}
{'loss': 1.0265, 'grad_norm': 1.0390625, 'learning_rate': 0.0001390908393672292, 'epoch': 0.29}
{'loss': 1.2514, 'grad_norm': 0.53125, 'learning_rate': 0.00013907947698976535, 'epoch': 0.29}
{'loss': 1.161, 'grad_norm': 0.7421875, 'learning_rate': 0.00013906811461230148, 'epoch': 0.29}
{'loss': 1.2274, 'grad_norm': 0.49609375, 'learning_rate': 0.00013905675223483763, 'epoch': 0.29}
{'loss': 1.2894, 'grad_norm': 0.5859375, 'learning_rate': 0.00013904538985737375, 'epoch': 0.29}
{'loss': 1.0203, 'grad_norm': 0.82421875, 'learning_rate': 0.0001390340274799099, 'epoch': 0.29}
{'loss': 1.4621, 'grad_norm': 0.4765625, '



{'loss': 1.3724, 'grad_norm': 0.55859375, 'learning_rate': 0.0001388522294404881, 'epoch': 0.29}
{'loss': 1.0912, 'grad_norm': 1.140625, 'learning_rate': 0.0001388408670630243, 'epoch': 0.29}
{'loss': 1.3368, 'grad_norm': 0.48828125, 'learning_rate': 0.00013882950468556041, 'epoch': 0.29}
{'loss': 1.1761, 'grad_norm': 0.57421875, 'learning_rate': 0.00013881814230809657, 'epoch': 0.29}
{'loss': 1.0487, 'grad_norm': 1.234375, 'learning_rate': 0.0001388067799306327, 'epoch': 0.29}
{'loss': 1.4263, 'grad_norm': 0.50390625, 'learning_rate': 0.00013879541755316881, 'epoch': 0.29}
{'loss': 1.2477, 'grad_norm': 0.60546875, 'learning_rate': 0.00013878405517570497, 'epoch': 0.29}
{'loss': 1.1992, 'grad_norm': 0.4765625, 'learning_rate': 0.0001387726927982411, 'epoch': 0.29}
{'loss': 1.2906, 'grad_norm': 0.5234375, 'learning_rate': 0.00013876133042077727, 'epoch': 0.29}
{'loss': 0.9946, 'grad_norm': 0.79296875, 'learning_rate': 0.0001387499680433134, 'epoch': 0.29}
{'loss': 1.4664, 'grad_norm': 0



{'loss': 1.408, 'grad_norm': 0.6171875, 'learning_rate': 0.00013856817000389163, 'epoch': 0.3}
{'loss': 1.1829, 'grad_norm': 0.5390625, 'learning_rate': 0.00013855680762642775, 'epoch': 0.3}
{'loss': 1.2844, 'grad_norm': 0.5859375, 'learning_rate': 0.0001385454452489639, 'epoch': 0.3}
{'loss': 1.2709, 'grad_norm': 0.53515625, 'learning_rate': 0.00013853408287150005, 'epoch': 0.3}
{'loss': 1.0954, 'grad_norm': 0.5703125, 'learning_rate': 0.00013852272049403618, 'epoch': 0.3}
{'loss': 1.4405, 'grad_norm': 0.5, 'learning_rate': 0.00013851135811657233, 'epoch': 0.3}
{'loss': 1.4105, 'grad_norm': 0.82421875, 'learning_rate': 0.00013849999573910845, 'epoch': 0.3}
{'loss': 1.1626, 'grad_norm': 0.63671875, 'learning_rate': 0.0001384886333616446, 'epoch': 0.3}
{'loss': 1.2983, 'grad_norm': 0.546875, 'learning_rate': 0.00013847727098418073, 'epoch': 0.3}
{'loss': 1.1579, 'grad_norm': 0.56640625, 'learning_rate': 0.00013846590860671685, 'epoch': 0.3}
{'loss': 1.4625, 'grad_norm': 0.50390625, 'lea



{'loss': 1.28, 'grad_norm': 0.6875, 'learning_rate': 0.0001382841105672951, 'epoch': 0.3}
{'loss': 1.0739, 'grad_norm': 0.625, 'learning_rate': 0.00013827274818983124, 'epoch': 0.3}
{'loss': 1.2294, 'grad_norm': 0.40625, 'learning_rate': 0.0001382613858123674, 'epoch': 0.3}
{'loss': 1.3, 'grad_norm': 0.40234375, 'learning_rate': 0.0001382500234349035, 'epoch': 0.3}
{'loss': 1.154, 'grad_norm': 0.71484375, 'learning_rate': 0.00013823866105743966, 'epoch': 0.3}
{'loss': 1.3485, 'grad_norm': 0.72265625, 'learning_rate': 0.00013822729867997582, 'epoch': 0.3}
{'loss': 1.1697, 'grad_norm': 0.640625, 'learning_rate': 0.00013821593630251194, 'epoch': 0.3}
{'loss': 1.3097, 'grad_norm': 0.54296875, 'learning_rate': 0.0001382045739250481, 'epoch': 0.3}
{'loss': 1.2822, 'grad_norm': 0.57421875, 'learning_rate': 0.00013819321154758422, 'epoch': 0.3}
{'loss': 1.0991, 'grad_norm': 0.69921875, 'learning_rate': 0.00013818184917012037, 'epoch': 0.3}
{'loss': 1.331, 'grad_norm': 0.486328125, 'learning_ra



{'loss': 1.338, 'grad_norm': 0.49609375, 'learning_rate': 0.0001380000511306986, 'epoch': 0.3}
{'loss': 1.1859, 'grad_norm': 1.046875, 'learning_rate': 0.00013798868875323475, 'epoch': 0.3}
{'loss': 1.1048, 'grad_norm': 0.376953125, 'learning_rate': 0.00013797732637577088, 'epoch': 0.3}
{'loss': 1.3003, 'grad_norm': 0.4921875, 'learning_rate': 0.000137965963998307, 'epoch': 0.3}
{'loss': 1.0671, 'grad_norm': 0.62109375, 'learning_rate': 0.00013795460162084315, 'epoch': 0.3}
{'loss': 1.4684, 'grad_norm': 0.455078125, 'learning_rate': 0.00013794323924337928, 'epoch': 0.3}
{'loss': 1.0884, 'grad_norm': 0.5859375, 'learning_rate': 0.00013793187686591543, 'epoch': 0.3}
{'loss': 1.1295, 'grad_norm': 0.5546875, 'learning_rate': 0.00013792051448845158, 'epoch': 0.3}
{'loss': 1.2803, 'grad_norm': 0.57421875, 'learning_rate': 0.00013790915211098773, 'epoch': 0.3}
{'loss': 1.0982, 'grad_norm': 0.91796875, 'learning_rate': 0.00013789778973352385, 'epoch': 0.3}
{'loss': 1.2454, 'grad_norm': 0.51562



{'loss': 1.1928, 'grad_norm': 0.62109375, 'learning_rate': 0.0001377159916941021, 'epoch': 0.3}
{'loss': 1.2262, 'grad_norm': 0.6953125, 'learning_rate': 0.0001377046293166382, 'epoch': 0.3}
{'loss': 1.2396, 'grad_norm': 0.416015625, 'learning_rate': 0.00013769326693917436, 'epoch': 0.3}
{'loss': 1.2169, 'grad_norm': 0.5, 'learning_rate': 0.00013768190456171051, 'epoch': 0.3}
{'loss': 0.9945, 'grad_norm': 0.66796875, 'learning_rate': 0.00013767054218424664, 'epoch': 0.3}
{'loss': 1.2543, 'grad_norm': 0.5078125, 'learning_rate': 0.0001376591798067828, 'epoch': 0.3}
{'loss': 1.2233, 'grad_norm': 1.15625, 'learning_rate': 0.00013764781742931891, 'epoch': 0.3}
{'loss': 1.2059, 'grad_norm': 0.625, 'learning_rate': 0.00013763645505185504, 'epoch': 0.3}
{'loss': 1.3335, 'grad_norm': 0.50390625, 'learning_rate': 0.0001376250926743912, 'epoch': 0.3}
{'loss': 1.0574, 'grad_norm': 0.484375, 'learning_rate': 0.00013761373029692734, 'epoch': 0.3}
{'loss': 1.3356, 'grad_norm': 0.408203125, 'learning



{'loss': 1.2915, 'grad_norm': 0.5390625, 'learning_rate': 0.00013743193225750557, 'epoch': 0.3}
{'loss': 1.3022, 'grad_norm': 1.1796875, 'learning_rate': 0.0001374205698800417, 'epoch': 0.3}
{'loss': 1.2096, 'grad_norm': 0.51171875, 'learning_rate': 0.00013740920750257785, 'epoch': 0.3}
{'loss': 1.2585, 'grad_norm': 0.61328125, 'learning_rate': 0.00013739784512511397, 'epoch': 0.3}
{'loss': 1.0475, 'grad_norm': 0.94921875, 'learning_rate': 0.00013738648274765013, 'epoch': 0.3}
{'loss': 1.3534, 'grad_norm': 0.4375, 'learning_rate': 0.00013737512037018628, 'epoch': 0.3}
{'loss': 1.1471, 'grad_norm': 0.5625, 'learning_rate': 0.0001373637579927224, 'epoch': 0.3}
{'loss': 1.2583, 'grad_norm': 0.44140625, 'learning_rate': 0.00013735239561525855, 'epoch': 0.3}
{'loss': 1.2686, 'grad_norm': 0.6015625, 'learning_rate': 0.00013734103323779468, 'epoch': 0.3}
{'loss': 1.0437, 'grad_norm': 0.9296875, 'learning_rate': 0.00013732967086033083, 'epoch': 0.3}
{'loss': 1.41, 'grad_norm': 0.486328125, 'le



{'loss': 1.4805, 'grad_norm': 0.474609375, 'learning_rate': 0.00013714787282090906, 'epoch': 0.3}
{'loss': 1.2438, 'grad_norm': 0.60546875, 'learning_rate': 0.0001371365104434452, 'epoch': 0.3}
{'loss': 1.1754, 'grad_norm': 0.416015625, 'learning_rate': 0.00013712514806598134, 'epoch': 0.3}
{'loss': 1.2983, 'grad_norm': 0.515625, 'learning_rate': 0.00013711378568851746, 'epoch': 0.3}
{'loss': 1.136, 'grad_norm': 0.7578125, 'learning_rate': 0.0001371024233110536, 'epoch': 0.3}
{'loss': 1.2764, 'grad_norm': 0.89453125, 'learning_rate': 0.00013709106093358974, 'epoch': 0.3}
{'loss': 1.1201, 'grad_norm': 0.71875, 'learning_rate': 0.0001370796985561259, 'epoch': 0.3}
{'loss': 1.2403, 'grad_norm': 0.458984375, 'learning_rate': 0.00013706833617866204, 'epoch': 0.3}
{'loss': 1.188, 'grad_norm': 0.5703125, 'learning_rate': 0.00013705697380119816, 'epoch': 0.3}
{'loss': 1.0622, 'grad_norm': 0.89453125, 'learning_rate': 0.00013704561142373431, 'epoch': 0.3}
{'loss': 1.2627, 'grad_norm': 0.4824218



{'loss': 1.4684, 'grad_norm': 0.77734375, 'learning_rate': 0.00013686381338431252, 'epoch': 0.3}
{'loss': 1.1985, 'grad_norm': 0.52734375, 'learning_rate': 0.00013685245100684867, 'epoch': 0.3}
{'loss': 1.2711, 'grad_norm': 0.408203125, 'learning_rate': 0.00013684108862938482, 'epoch': 0.3}
{'loss': 1.3313, 'grad_norm': 1.1328125, 'learning_rate': 0.00013682972625192097, 'epoch': 0.3}
{'loss': 1.0635, 'grad_norm': 0.671875, 'learning_rate': 0.0001368183638744571, 'epoch': 0.3}
{'loss': 1.3014, 'grad_norm': 0.396484375, 'learning_rate': 0.00013680700149699322, 'epoch': 0.3}
{'loss': 1.1283, 'grad_norm': 0.75, 'learning_rate': 0.00013679563911952937, 'epoch': 0.3}
{'loss': 1.2426, 'grad_norm': 0.42578125, 'learning_rate': 0.0001367842767420655, 'epoch': 0.3}
{'loss': 1.3011, 'grad_norm': 0.8671875, 'learning_rate': 0.00013677291436460165, 'epoch': 0.3}
{'loss': 1.1583, 'grad_norm': 0.7109375, 'learning_rate': 0.0001367615519871378, 'epoch': 0.3}
{'loss': 1.3508, 'grad_norm': 0.54296875, 



{'loss': 1.3653, 'grad_norm': 0.46875, 'learning_rate': 0.00013657975394771603, 'epoch': 0.3}
{'loss': 1.1844, 'grad_norm': 0.6171875, 'learning_rate': 0.00013656839157025216, 'epoch': 0.3}
{'loss': 1.1436, 'grad_norm': 0.39453125, 'learning_rate': 0.0001365570291927883, 'epoch': 0.3}
{'loss': 1.2228, 'grad_norm': 0.5546875, 'learning_rate': 0.00013654566681532443, 'epoch': 0.3}
{'loss': 0.9752, 'grad_norm': 0.703125, 'learning_rate': 0.00013653430443786059, 'epoch': 0.3}
{'loss': 1.3876, 'grad_norm': 0.3984375, 'learning_rate': 0.00013652294206039674, 'epoch': 0.3}
{'loss': 1.1623, 'grad_norm': 0.7734375, 'learning_rate': 0.00013651157968293286, 'epoch': 0.3}
{'loss': 1.1825, 'grad_norm': 0.4453125, 'learning_rate': 0.000136500217305469, 'epoch': 0.3}
{'loss': 1.4012, 'grad_norm': 0.443359375, 'learning_rate': 0.00013648885492800514, 'epoch': 0.3}
{'loss': 1.0638, 'grad_norm': 0.640625, 'learning_rate': 0.00013647749255054126, 'epoch': 0.3}
{'loss': 1.4423, 'grad_norm': 0.60546875, 'l



{'loss': 1.4749, 'grad_norm': 0.388671875, 'learning_rate': 0.00013629569451111952, 'epoch': 0.31}
{'loss': 1.218, 'grad_norm': 0.5546875, 'learning_rate': 0.00013628433213365565, 'epoch': 0.31}
{'loss': 1.109, 'grad_norm': 0.400390625, 'learning_rate': 0.0001362729697561918, 'epoch': 0.31}
{'loss': 1.2377, 'grad_norm': 0.81640625, 'learning_rate': 0.00013626160737872792, 'epoch': 0.31}
{'loss': 0.9893, 'grad_norm': 0.78515625, 'learning_rate': 0.00013625024500126407, 'epoch': 0.31}
{'loss': 1.3314, 'grad_norm': 0.44921875, 'learning_rate': 0.0001362388826238002, 'epoch': 0.31}
{'loss': 1.1044, 'grad_norm': 0.53125, 'learning_rate': 0.00013622752024633635, 'epoch': 0.31}
{'loss': 1.2322, 'grad_norm': 0.486328125, 'learning_rate': 0.0001362161578688725, 'epoch': 0.31}
{'loss': 1.3506, 'grad_norm': 0.64453125, 'learning_rate': 0.00013620479549140862, 'epoch': 0.31}
{'loss': 1.1789, 'grad_norm': 0.9453125, 'learning_rate': 0.00013619343311394478, 'epoch': 0.31}
{'loss': 1.4265, 'grad_norm



{'loss': 1.3207, 'grad_norm': 0.458984375, 'learning_rate': 0.00013601163507452298, 'epoch': 0.31}
{'loss': 1.1523, 'grad_norm': 0.74609375, 'learning_rate': 0.00013600027269705916, 'epoch': 0.31}
{'loss': 1.2335, 'grad_norm': 0.67578125, 'learning_rate': 0.00013598891031959528, 'epoch': 0.31}
{'loss': 1.2271, 'grad_norm': 0.56640625, 'learning_rate': 0.00013597754794213144, 'epoch': 0.31}
{'loss': 1.1437, 'grad_norm': 0.734375, 'learning_rate': 0.00013596618556466756, 'epoch': 0.31}
{'loss': 1.3596, 'grad_norm': 0.703125, 'learning_rate': 0.00013595482318720368, 'epoch': 0.31}
{'loss': 1.1601, 'grad_norm': 0.83984375, 'learning_rate': 0.00013594346080973984, 'epoch': 0.31}
{'loss': 1.2029, 'grad_norm': 0.5234375, 'learning_rate': 0.00013593209843227596, 'epoch': 0.31}
{'loss': 1.2394, 'grad_norm': 0.55859375, 'learning_rate': 0.00013592073605481214, 'epoch': 0.31}
{'loss': 1.1349, 'grad_norm': 0.73046875, 'learning_rate': 0.00013590937367734826, 'epoch': 0.31}
{'loss': 1.2719, 'grad_n



{'loss': 1.4083, 'grad_norm': 0.7265625, 'learning_rate': 0.0001357275756379265, 'epoch': 0.31}
{'loss': 1.1724, 'grad_norm': 0.50390625, 'learning_rate': 0.00013571621326046262, 'epoch': 0.31}
{'loss': 1.1723, 'grad_norm': 0.5078125, 'learning_rate': 0.00013570485088299874, 'epoch': 0.31}
{'loss': 1.2717, 'grad_norm': 0.83203125, 'learning_rate': 0.0001356934885055349, 'epoch': 0.31}
{'loss': 1.124, 'grad_norm': 0.546875, 'learning_rate': 0.00013568212612807105, 'epoch': 0.31}
{'loss': 1.4453, 'grad_norm': 0.640625, 'learning_rate': 0.0001356707637506072, 'epoch': 0.31}
{'loss': 1.2876, 'grad_norm': 0.640625, 'learning_rate': 0.00013565940137314332, 'epoch': 0.31}
{'loss': 1.1659, 'grad_norm': 0.396484375, 'learning_rate': 0.00013564803899567945, 'epoch': 0.31}
{'loss': 1.2344, 'grad_norm': 0.515625, 'learning_rate': 0.0001356366766182156, 'epoch': 0.31}
{'loss': 1.1624, 'grad_norm': 0.421875, 'learning_rate': 0.00013562531424075172, 'epoch': 0.31}
{'loss': 1.3488, 'grad_norm': 0.4335



{'loss': 1.3881, 'grad_norm': 0.5234375, 'learning_rate': 0.00013544351620132998, 'epoch': 0.31}
{'loss': 1.1933, 'grad_norm': 0.8046875, 'learning_rate': 0.0001354321538238661, 'epoch': 0.31}
{'loss': 1.1779, 'grad_norm': 0.6015625, 'learning_rate': 0.00013542079144640226, 'epoch': 0.31}
{'loss': 1.2216, 'grad_norm': 0.5546875, 'learning_rate': 0.00013540942906893838, 'epoch': 0.31}
{'loss': 1.071, 'grad_norm': 0.7734375, 'learning_rate': 0.00013539806669147453, 'epoch': 0.31}
{'loss': 1.347, 'grad_norm': 0.609375, 'learning_rate': 0.00013538670431401066, 'epoch': 0.31}
{'loss': 1.1754, 'grad_norm': 0.78515625, 'learning_rate': 0.0001353753419365468, 'epoch': 0.31}
{'loss': 1.3325, 'grad_norm': 0.421875, 'learning_rate': 0.00013536397955908296, 'epoch': 0.31}
{'loss': 1.2432, 'grad_norm': 0.58984375, 'learning_rate': 0.00013535261718161909, 'epoch': 0.31}
{'loss': 1.1334, 'grad_norm': 0.80859375, 'learning_rate': 0.00013534125480415524, 'epoch': 0.31}
{'loss': 1.3012, 'grad_norm': 0.6



{'loss': 1.2866, 'grad_norm': 0.546875, 'learning_rate': 0.00013515945676473344, 'epoch': 0.31}
{'loss': 1.0589, 'grad_norm': 0.50390625, 'learning_rate': 0.00013514809438726962, 'epoch': 0.31}
{'loss': 1.2516, 'grad_norm': 0.400390625, 'learning_rate': 0.00013513673200980575, 'epoch': 0.31}
{'loss': 1.2756, 'grad_norm': 0.515625, 'learning_rate': 0.00013512536963234187, 'epoch': 0.31}
{'loss': 1.1498, 'grad_norm': 0.828125, 'learning_rate': 0.00013511400725487802, 'epoch': 0.31}
{'loss': 1.3438, 'grad_norm': 0.48046875, 'learning_rate': 0.00013510264487741415, 'epoch': 0.31}
{'loss': 1.2684, 'grad_norm': 0.7265625, 'learning_rate': 0.0001350912824999503, 'epoch': 0.31}
{'loss': 1.1173, 'grad_norm': 0.41015625, 'learning_rate': 0.00013507992012248642, 'epoch': 0.31}
{'loss': 1.3077, 'grad_norm': 0.455078125, 'learning_rate': 0.00013506855774502257, 'epoch': 0.31}
{'loss': 0.9965, 'grad_norm': 0.93359375, 'learning_rate': 0.00013505719536755872, 'epoch': 0.31}
{'loss': 1.4141, 'grad_nor



{'loss': 1.475, 'grad_norm': 0.44140625, 'learning_rate': 0.00013487539732813693, 'epoch': 0.31}
{'loss': 1.1799, 'grad_norm': 0.65234375, 'learning_rate': 0.00013486403495067308, 'epoch': 0.31}
{'loss': 1.316, 'grad_norm': 0.46484375, 'learning_rate': 0.0001348526725732092, 'epoch': 0.31}
{'loss': 1.2804, 'grad_norm': 0.56640625, 'learning_rate': 0.00013484131019574538, 'epoch': 0.31}
{'loss': 1.0025, 'grad_norm': 0.58203125, 'learning_rate': 0.0001348299478182815, 'epoch': 0.31}
{'loss': 1.3843, 'grad_norm': 0.70703125, 'learning_rate': 0.00013481858544081766, 'epoch': 0.31}
{'loss': 1.2303, 'grad_norm': 0.7421875, 'learning_rate': 0.00013480722306335378, 'epoch': 0.31}
{'loss': 1.2717, 'grad_norm': 0.5234375, 'learning_rate': 0.0001347958606858899, 'epoch': 0.31}
{'loss': 1.3032, 'grad_norm': 0.65625, 'learning_rate': 0.00013478449830842606, 'epoch': 0.31}
{'loss': 1.1126, 'grad_norm': 0.43359375, 'learning_rate': 0.00013477313593096218, 'epoch': 0.31}
{'loss': 1.5063, 'grad_norm': 



{'loss': 1.3702, 'grad_norm': 0.447265625, 'learning_rate': 0.00013459133789154044, 'epoch': 0.31}
{'loss': 1.1512, 'grad_norm': 0.72265625, 'learning_rate': 0.00013457997551407657, 'epoch': 0.31}
{'loss': 1.1504, 'grad_norm': 0.498046875, 'learning_rate': 0.00013456861313661272, 'epoch': 0.31}
{'loss': 1.3325, 'grad_norm': 0.5078125, 'learning_rate': 0.00013455725075914884, 'epoch': 0.31}
{'loss': 1.171, 'grad_norm': 0.69140625, 'learning_rate': 0.00013454588838168497, 'epoch': 0.31}
{'loss': 1.3793, 'grad_norm': 0.451171875, 'learning_rate': 0.00013453452600422115, 'epoch': 0.31}
{'loss': 1.3068, 'grad_norm': 0.94140625, 'learning_rate': 0.00013452316362675727, 'epoch': 0.31}
{'loss': 1.1709, 'grad_norm': 0.52734375, 'learning_rate': 0.00013451180124929342, 'epoch': 0.31}
{'loss': 1.2398, 'grad_norm': 0.5234375, 'learning_rate': 0.00013450043887182955, 'epoch': 0.31}
{'loss': 1.1685, 'grad_norm': 0.70703125, 'learning_rate': 0.00013448907649436567, 'epoch': 0.31}
{'loss': 1.3528, 'gr



{'loss': 1.4092, 'grad_norm': 0.734375, 'learning_rate': 0.0001343072784549439, 'epoch': 0.31}
{'loss': 1.2032, 'grad_norm': 0.6171875, 'learning_rate': 0.00013429591607748006, 'epoch': 0.31}
{'loss': 1.1922, 'grad_norm': 0.50390625, 'learning_rate': 0.0001342845537000162, 'epoch': 0.31}
{'loss': 1.21, 'grad_norm': 0.51953125, 'learning_rate': 0.00013427319132255233, 'epoch': 0.31}
{'loss': 1.0667, 'grad_norm': 0.58203125, 'learning_rate': 0.00013426182894508848, 'epoch': 0.31}
{'loss': 1.446, 'grad_norm': 0.5859375, 'learning_rate': 0.0001342504665676246, 'epoch': 0.31}
{'loss': 1.2652, 'grad_norm': 0.61328125, 'learning_rate': 0.00013423910419016076, 'epoch': 0.31}
{'loss': 1.2198, 'grad_norm': 0.443359375, 'learning_rate': 0.0001342277418126969, 'epoch': 0.31}
{'loss': 1.1721, 'grad_norm': 0.515625, 'learning_rate': 0.00013421637943523303, 'epoch': 0.31}
{'loss': 1.0057, 'grad_norm': 0.703125, 'learning_rate': 0.00013420501705776919, 'epoch': 0.31}
{'loss': 1.4876, 'grad_norm': 0.58



{'loss': 1.3788, 'grad_norm': 0.51953125, 'learning_rate': 0.0001340232190183474, 'epoch': 0.31}
{'loss': 1.1361, 'grad_norm': 0.6796875, 'learning_rate': 0.00013401185664088354, 'epoch': 0.32}
{'loss': 1.0951, 'grad_norm': 0.37109375, 'learning_rate': 0.00013400049426341967, 'epoch': 0.32}
{'loss': 1.2606, 'grad_norm': 0.74609375, 'learning_rate': 0.00013398913188595584, 'epoch': 0.32}
{'loss': 1.1653, 'grad_norm': 0.71875, 'learning_rate': 0.00013397776950849197, 'epoch': 0.32}
{'loss': 1.3199, 'grad_norm': 0.455078125, 'learning_rate': 0.0001339664071310281, 'epoch': 0.32}
{'loss': 1.301, 'grad_norm': 0.796875, 'learning_rate': 0.00013395504475356424, 'epoch': 0.32}
{'loss': 1.343, 'grad_norm': 0.47265625, 'learning_rate': 0.00013394368237610037, 'epoch': 0.32}
{'loss': 1.322, 'grad_norm': 0.5078125, 'learning_rate': 0.00013393231999863652, 'epoch': 0.32}
{'loss': 1.0582, 'grad_norm': 0.302734375, 'learning_rate': 0.00013392095762117267, 'epoch': 0.32}
{'loss': 1.3483, 'grad_norm': 



{'loss': 1.3001, 'grad_norm': 0.453125, 'learning_rate': 0.0001337391595817509, 'epoch': 0.32}
{'loss': 1.1681, 'grad_norm': 0.53125, 'learning_rate': 0.00013372779720428703, 'epoch': 0.32}
{'loss': 1.2554, 'grad_norm': 0.55078125, 'learning_rate': 0.00013371643482682318, 'epoch': 0.32}
{'loss': 1.3013, 'grad_norm': 0.546875, 'learning_rate': 0.0001337050724493593, 'epoch': 0.32}
{'loss': 1.0144, 'grad_norm': 0.66015625, 'learning_rate': 0.00013369371007189543, 'epoch': 0.32}
{'loss': 1.3918, 'grad_norm': 0.51953125, 'learning_rate': 0.0001336823476944316, 'epoch': 0.32}
{'loss': 1.1901, 'grad_norm': 0.79296875, 'learning_rate': 0.00013367098531696773, 'epoch': 0.32}
{'loss': 1.1319, 'grad_norm': 0.478515625, 'learning_rate': 0.00013365962293950388, 'epoch': 0.32}
{'loss': 1.4106, 'grad_norm': 0.47265625, 'learning_rate': 0.00013364826056204, 'epoch': 0.32}
{'loss': 1.0231, 'grad_norm': 1.1171875, 'learning_rate': 0.00013363689818457613, 'epoch': 0.32}
{'loss': 1.4316, 'grad_norm': 0.3



{'loss': 1.2358, 'grad_norm': 0.671875, 'learning_rate': 0.0001334551001451544, 'epoch': 0.32}
{'loss': 1.1858, 'grad_norm': 0.578125, 'learning_rate': 0.00013344373776769052, 'epoch': 0.32}
{'loss': 1.1755, 'grad_norm': 0.4296875, 'learning_rate': 0.00013343237539022667, 'epoch': 0.32}
{'loss': 1.3793, 'grad_norm': 0.515625, 'learning_rate': 0.0001334210130127628, 'epoch': 0.32}
{'loss': 1.1321, 'grad_norm': 1.296875, 'learning_rate': 0.00013340965063529894, 'epoch': 0.32}
{'loss': 1.2964, 'grad_norm': 0.57421875, 'learning_rate': 0.00013339828825783507, 'epoch': 0.32}
{'loss': 1.199, 'grad_norm': 0.84765625, 'learning_rate': 0.0001333869258803712, 'epoch': 0.32}
{'loss': 1.2961, 'grad_norm': 0.375, 'learning_rate': 0.00013337556350290737, 'epoch': 0.32}
{'loss': 1.2782, 'grad_norm': 0.56640625, 'learning_rate': 0.0001333642011254435, 'epoch': 0.32}
{'loss': 1.1173, 'grad_norm': 0.953125, 'learning_rate': 0.00013335283874797965, 'epoch': 0.32}
{'loss': 1.3643, 'grad_norm': 0.57421875,



{'loss': 1.3504, 'grad_norm': 0.52734375, 'learning_rate': 0.00013317104070855785, 'epoch': 0.32}
{'loss': 1.2054, 'grad_norm': 0.796875, 'learning_rate': 0.000133159678331094, 'epoch': 0.32}
{'loss': 1.2733, 'grad_norm': 0.435546875, 'learning_rate': 0.00013314831595363015, 'epoch': 0.32}
{'loss': 1.1535, 'grad_norm': 0.71875, 'learning_rate': 0.00013313695357616628, 'epoch': 0.32}
{'loss': 1.1921, 'grad_norm': 0.703125, 'learning_rate': 0.00013312559119870243, 'epoch': 0.32}
{'loss': 1.3084, 'grad_norm': 0.66796875, 'learning_rate': 0.00013311422882123855, 'epoch': 0.32}
{'loss': 1.1845, 'grad_norm': 0.51953125, 'learning_rate': 0.0001331028664437747, 'epoch': 0.32}
{'loss': 1.3343, 'grad_norm': 0.38671875, 'learning_rate': 0.00013309150406631083, 'epoch': 0.32}
{'loss': 1.3001, 'grad_norm': 1.171875, 'learning_rate': 0.00013308014168884698, 'epoch': 0.32}
{'loss': 1.0786, 'grad_norm': 0.4765625, 'learning_rate': 0.00013306877931138313, 'epoch': 0.32}
{'loss': 1.2686, 'grad_norm': 0.



{'loss': 1.4412, 'grad_norm': 0.64453125, 'learning_rate': 0.00013288698127196137, 'epoch': 0.32}
{'loss': 1.1448, 'grad_norm': 0.66796875, 'learning_rate': 0.0001328756188944975, 'epoch': 0.32}
{'loss': 1.2236, 'grad_norm': 0.5234375, 'learning_rate': 0.00013286425651703361, 'epoch': 0.32}
{'loss': 1.2957, 'grad_norm': 0.5234375, 'learning_rate': 0.00013285289413956977, 'epoch': 0.32}
{'loss': 1.1041, 'grad_norm': 0.99609375, 'learning_rate': 0.00013284153176210592, 'epoch': 0.32}
{'loss': 1.3236, 'grad_norm': 0.51953125, 'learning_rate': 0.00013283016938464207, 'epoch': 0.32}
{'loss': 1.1604, 'grad_norm': 0.796875, 'learning_rate': 0.0001328188070071782, 'epoch': 0.32}
{'loss': 1.1817, 'grad_norm': 0.482421875, 'learning_rate': 0.00013280744462971432, 'epoch': 0.32}
{'loss': 1.3122, 'grad_norm': 0.546875, 'learning_rate': 0.00013279608225225047, 'epoch': 0.32}
{'loss': 1.0104, 'grad_norm': 0.8046875, 'learning_rate': 0.0001327847198747866, 'epoch': 0.32}
{'loss': 1.4464, 'grad_norm':



{'loss': 1.356, 'grad_norm': 0.65234375, 'learning_rate': 0.00013260292183536485, 'epoch': 0.32}
{'loss': 1.2399, 'grad_norm': 0.9375, 'learning_rate': 0.00013259155945790098, 'epoch': 0.32}
{'loss': 1.2718, 'grad_norm': 0.421875, 'learning_rate': 0.00013258019708043713, 'epoch': 0.32}
{'loss': 1.2791, 'grad_norm': 0.54296875, 'learning_rate': 0.00013256883470297325, 'epoch': 0.32}
{'loss': 1.1112, 'grad_norm': 0.43359375, 'learning_rate': 0.0001325574723255094, 'epoch': 0.32}
{'loss': 1.3766, 'grad_norm': 0.50390625, 'learning_rate': 0.00013254610994804553, 'epoch': 0.32}
{'loss': 1.1701, 'grad_norm': 0.62109375, 'learning_rate': 0.00013253474757058168, 'epoch': 0.32}
{'loss': 1.23, 'grad_norm': 0.43359375, 'learning_rate': 0.00013252338519311783, 'epoch': 0.32}
{'loss': 1.2384, 'grad_norm': 0.65625, 'learning_rate': 0.00013251202281565396, 'epoch': 0.32}
{'loss': 1.0775, 'grad_norm': 1.1484375, 'learning_rate': 0.0001325006604381901, 'epoch': 0.32}
{'loss': 1.3561, 'grad_norm': 0.494



{'loss': 1.3414, 'grad_norm': 0.48046875, 'learning_rate': 0.0001323188623987683, 'epoch': 0.32}
{'loss': 1.1026, 'grad_norm': 0.5234375, 'learning_rate': 0.00013230750002130446, 'epoch': 0.32}
{'loss': 1.1842, 'grad_norm': 0.400390625, 'learning_rate': 0.00013229613764384062, 'epoch': 0.32}
{'loss': 1.2538, 'grad_norm': 0.6484375, 'learning_rate': 0.00013228477526637674, 'epoch': 0.32}
{'loss': 1.1452, 'grad_norm': 1.1015625, 'learning_rate': 0.0001322734128889129, 'epoch': 0.32}
{'loss': 1.328, 'grad_norm': 0.50390625, 'learning_rate': 0.00013226205051144902, 'epoch': 0.32}
{'loss': 1.189, 'grad_norm': 0.6640625, 'learning_rate': 0.00013225068813398517, 'epoch': 0.32}
{'loss': 1.2578, 'grad_norm': 0.451171875, 'learning_rate': 0.0001322393257565213, 'epoch': 0.32}
{'loss': 1.2282, 'grad_norm': 0.6328125, 'learning_rate': 0.00013222796337905744, 'epoch': 0.32}
{'loss': 1.1206, 'grad_norm': 0.82421875, 'learning_rate': 0.0001322166010015936, 'epoch': 0.32}
{'loss': 1.3721, 'grad_norm':



{'loss': 1.3376, 'grad_norm': 0.57421875, 'learning_rate': 0.0001320348029621718, 'epoch': 0.32}
{'loss': 1.2303, 'grad_norm': 0.78125, 'learning_rate': 0.00013202344058470795, 'epoch': 0.32}
{'loss': 1.3132, 'grad_norm': 0.4765625, 'learning_rate': 0.00013201207820724408, 'epoch': 0.32}
{'loss': 1.1661, 'grad_norm': 0.578125, 'learning_rate': 0.00013200071582978023, 'epoch': 0.32}
{'loss': 1.0609, 'grad_norm': 0.76953125, 'learning_rate': 0.00013198935345231638, 'epoch': 0.32}
{'loss': 1.3965, 'grad_norm': 0.515625, 'learning_rate': 0.0001319779910748525, 'epoch': 0.32}
{'loss': 1.1766, 'grad_norm': 0.6640625, 'learning_rate': 0.00013196662869738865, 'epoch': 0.32}
{'loss': 1.2946, 'grad_norm': 0.62109375, 'learning_rate': 0.00013195526631992478, 'epoch': 0.32}
{'loss': 1.2704, 'grad_norm': 0.6015625, 'learning_rate': 0.00013194390394246093, 'epoch': 0.32}
{'loss': 1.1324, 'grad_norm': 1.3671875, 'learning_rate': 0.00013193254156499705, 'epoch': 0.32}
{'loss': 1.241, 'grad_norm': 0.49



{'loss': 1.2274, 'grad_norm': 0.6171875, 'learning_rate': 0.00013175074352557531, 'epoch': 0.32}
{'loss': 1.1565, 'grad_norm': 0.70703125, 'learning_rate': 0.00013173938114811144, 'epoch': 0.32}
{'loss': 1.2668, 'grad_norm': 0.50390625, 'learning_rate': 0.0001317280187706476, 'epoch': 0.33}
{'loss': 1.3121, 'grad_norm': 0.81640625, 'learning_rate': 0.00013171665639318371, 'epoch': 0.33}
{'loss': 1.0173, 'grad_norm': 1.21875, 'learning_rate': 0.00013170529401571984, 'epoch': 0.33}
{'loss': 1.3579, 'grad_norm': 0.48828125, 'learning_rate': 0.000131693931638256, 'epoch': 0.33}
{'loss': 1.2302, 'grad_norm': 0.75, 'learning_rate': 0.00013168256926079214, 'epoch': 0.33}
{'loss': 1.2464, 'grad_norm': 0.41796875, 'learning_rate': 0.0001316712068833283, 'epoch': 0.33}
{'loss': 1.1361, 'grad_norm': 0.55078125, 'learning_rate': 0.00013165984450586442, 'epoch': 0.33}
{'loss': 1.0968, 'grad_norm': 2.0, 'learning_rate': 0.00013164848212840054, 'epoch': 0.33}
{'loss': 1.3377, 'grad_norm': 0.4140625, 



{'loss': 1.3775, 'grad_norm': 0.515625, 'learning_rate': 0.00013146668408897877, 'epoch': 0.33}
{'loss': 1.1674, 'grad_norm': 0.73828125, 'learning_rate': 0.00013145532171151493, 'epoch': 0.33}
{'loss': 1.2318, 'grad_norm': 0.376953125, 'learning_rate': 0.00013144395933405108, 'epoch': 0.33}
{'loss': 1.1813, 'grad_norm': 0.78515625, 'learning_rate': 0.0001314325969565872, 'epoch': 0.33}
{'loss': 1.2277, 'grad_norm': 1.1171875, 'learning_rate': 0.00013142123457912335, 'epoch': 0.33}
{'loss': 1.3032, 'grad_norm': 0.6171875, 'learning_rate': 0.00013140987220165948, 'epoch': 0.33}
{'loss': 1.1657, 'grad_norm': 0.671875, 'learning_rate': 0.00013139850982419563, 'epoch': 0.33}
{'loss': 1.1508, 'grad_norm': 0.41015625, 'learning_rate': 0.00013138714744673175, 'epoch': 0.33}
{'loss': 1.2186, 'grad_norm': 0.53125, 'learning_rate': 0.0001313757850692679, 'epoch': 0.33}
{'loss': 0.9971, 'grad_norm': 0.828125, 'learning_rate': 0.00013136442269180406, 'epoch': 0.33}
{'loss': 1.2972, 'grad_norm': 0.



{'loss': 1.3706, 'grad_norm': 0.55859375, 'learning_rate': 0.00013118262465238226, 'epoch': 0.33}
{'loss': 1.3102, 'grad_norm': 0.640625, 'learning_rate': 0.0001311712622749184, 'epoch': 0.33}
{'loss': 1.333, 'grad_norm': 0.43359375, 'learning_rate': 0.00013115989989745454, 'epoch': 0.33}
{'loss': 1.2157, 'grad_norm': 0.6953125, 'learning_rate': 0.0001311485375199907, 'epoch': 0.33}
{'loss': 1.1809, 'grad_norm': 0.90234375, 'learning_rate': 0.00013113717514252684, 'epoch': 0.33}
{'loss': 1.2153, 'grad_norm': 0.8203125, 'learning_rate': 0.00013112581276506296, 'epoch': 0.33}
{'loss': 1.1787, 'grad_norm': 0.6953125, 'learning_rate': 0.00013111445038759912, 'epoch': 0.33}
{'loss': 1.1647, 'grad_norm': 0.51953125, 'learning_rate': 0.00013110308801013524, 'epoch': 0.33}
{'loss': 1.205, 'grad_norm': 0.7265625, 'learning_rate': 0.0001310917256326714, 'epoch': 0.33}
{'loss': 0.9776, 'grad_norm': 0.41796875, 'learning_rate': 0.00013108036325520752, 'epoch': 0.33}
{'loss': 1.4955, 'grad_norm': 0



{'loss': 1.3268, 'grad_norm': 0.57421875, 'learning_rate': 0.00013089856521578578, 'epoch': 0.33}
{'loss': 1.125, 'grad_norm': 0.498046875, 'learning_rate': 0.0001308872028383219, 'epoch': 0.33}
{'loss': 1.2843, 'grad_norm': 0.45703125, 'learning_rate': 0.00013087584046085802, 'epoch': 0.33}
{'loss': 1.2502, 'grad_norm': 0.5546875, 'learning_rate': 0.00013086447808339418, 'epoch': 0.33}
{'loss': 1.0354, 'grad_norm': 0.62109375, 'learning_rate': 0.0001308531157059303, 'epoch': 0.33}
{'loss': 1.2869, 'grad_norm': 0.498046875, 'learning_rate': 0.00013084175332846648, 'epoch': 0.33}
{'loss': 1.2414, 'grad_norm': 0.44921875, 'learning_rate': 0.0001308303909510026, 'epoch': 0.33}
{'loss': 1.3017, 'grad_norm': 0.44140625, 'learning_rate': 0.00013081902857353873, 'epoch': 0.33}
{'loss': 1.2653, 'grad_norm': 0.55078125, 'learning_rate': 0.00013080766619607488, 'epoch': 0.33}
{'loss': 1.13, 'grad_norm': 0.9375, 'learning_rate': 0.000130796303818611, 'epoch': 0.33}
{'loss': 1.4039, 'grad_norm': 0



{'loss': 1.3251, 'grad_norm': 0.55078125, 'learning_rate': 0.00013061450577918923, 'epoch': 0.33}
{'loss': 1.1159, 'grad_norm': 0.7109375, 'learning_rate': 0.00013060314340172539, 'epoch': 0.33}
{'loss': 1.2347, 'grad_norm': 0.458984375, 'learning_rate': 0.00013059178102426154, 'epoch': 0.33}
{'loss': 1.3, 'grad_norm': 0.55859375, 'learning_rate': 0.00013058041864679766, 'epoch': 0.33}
{'loss': 1.1, 'grad_norm': 1.1875, 'learning_rate': 0.0001305690562693338, 'epoch': 0.33}
{'loss': 1.2565, 'grad_norm': 0.45703125, 'learning_rate': 0.00013055769389186994, 'epoch': 0.33}
{'loss': 1.2677, 'grad_norm': 0.59375, 'learning_rate': 0.00013054633151440606, 'epoch': 0.33}
{'loss': 1.2122, 'grad_norm': 0.4296875, 'learning_rate': 0.0001305349691369422, 'epoch': 0.33}
{'loss': 1.18, 'grad_norm': 0.51171875, 'learning_rate': 0.00013052360675947836, 'epoch': 0.33}
{'loss': 1.0395, 'grad_norm': 0.6171875, 'learning_rate': 0.00013051224438201452, 'epoch': 0.33}
{'loss': 1.3898, 'grad_norm': 0.5820312



{'loss': 1.3475, 'grad_norm': 0.87890625, 'learning_rate': 0.00013033044634259272, 'epoch': 0.33}
{'loss': 1.0902, 'grad_norm': 0.55859375, 'learning_rate': 0.00013031908396512887, 'epoch': 0.33}
{'loss': 1.2977, 'grad_norm': 0.484375, 'learning_rate': 0.000130307721587665, 'epoch': 0.33}
{'loss': 1.3682, 'grad_norm': 0.7109375, 'learning_rate': 0.00013029635921020115, 'epoch': 0.33}
{'loss': 1.0416, 'grad_norm': 1.03125, 'learning_rate': 0.0001302849968327373, 'epoch': 0.33}
{'loss': 1.3061, 'grad_norm': 0.490234375, 'learning_rate': 0.00013027363445527342, 'epoch': 0.33}
{'loss': 1.2547, 'grad_norm': 0.6484375, 'learning_rate': 0.00013026227207780958, 'epoch': 0.33}
{'loss': 1.2215, 'grad_norm': 0.46875, 'learning_rate': 0.0001302509097003457, 'epoch': 0.33}
{'loss': 1.2837, 'grad_norm': 0.6328125, 'learning_rate': 0.00013023954732288185, 'epoch': 0.33}
{'loss': 1.1437, 'grad_norm': 0.8671875, 'learning_rate': 0.00013022818494541798, 'epoch': 0.33}
{'loss': 1.3295, 'grad_norm': 0.519



{'loss': 1.2492, 'grad_norm': 0.44140625, 'learning_rate': 0.0001300463869059962, 'epoch': 0.33}
{'loss': 1.0863, 'grad_norm': 0.66015625, 'learning_rate': 0.00013003502452853236, 'epoch': 0.33}
{'loss': 1.1296, 'grad_norm': 0.443359375, 'learning_rate': 0.00013002366215106848, 'epoch': 0.33}
{'loss': 1.2507, 'grad_norm': 0.6875, 'learning_rate': 0.00013001229977360464, 'epoch': 0.33}
{'loss': 1.1081, 'grad_norm': 0.82421875, 'learning_rate': 0.00013000093739614076, 'epoch': 0.33}
{'loss': 1.3633, 'grad_norm': 0.609375, 'learning_rate': 0.0001299895750186769, 'epoch': 0.33}
{'loss': 1.1993, 'grad_norm': 0.62890625, 'learning_rate': 0.00012997821264121306, 'epoch': 0.33}
{'loss': 1.2318, 'grad_norm': 0.44921875, 'learning_rate': 0.0001299668502637492, 'epoch': 0.33}
{'loss': 1.204, 'grad_norm': 0.5234375, 'learning_rate': 0.00012995548788628534, 'epoch': 0.33}
{'loss': 1.1892, 'grad_norm': 1.109375, 'learning_rate': 0.00012994412550882146, 'epoch': 0.33}
{'loss': 1.2749, 'grad_norm': 0.



{'loss': 1.3279, 'grad_norm': 0.412109375, 'learning_rate': 0.00012976232746939972, 'epoch': 0.33}
{'loss': 1.1902, 'grad_norm': 0.78125, 'learning_rate': 0.00012975096509193585, 'epoch': 0.33}
{'loss': 1.2124, 'grad_norm': 0.51953125, 'learning_rate': 0.000129739602714472, 'epoch': 0.33}
{'loss': 1.1643, 'grad_norm': 0.8046875, 'learning_rate': 0.00012972824033700812, 'epoch': 0.33}
{'loss': 1.1211, 'grad_norm': 0.83984375, 'learning_rate': 0.00012971687795954425, 'epoch': 0.33}
{'loss': 1.353, 'grad_norm': 0.51953125, 'learning_rate': 0.0001297055155820804, 'epoch': 0.33}
{'loss': 1.1341, 'grad_norm': 0.8828125, 'learning_rate': 0.00012969415320461652, 'epoch': 0.33}
{'loss': 1.1815, 'grad_norm': 0.451171875, 'learning_rate': 0.0001296827908271527, 'epoch': 0.33}
{'loss': 1.2204, 'grad_norm': 0.64453125, 'learning_rate': 0.00012967142844968883, 'epoch': 0.33}
{'loss': 0.966, 'grad_norm': 0.5546875, 'learning_rate': 0.00012966006607222495, 'epoch': 0.33}
{'loss': 1.263, 'grad_norm': 0



{'loss': 1.3754, 'grad_norm': 0.5078125, 'learning_rate': 0.00012947826803280318, 'epoch': 0.33}
{'loss': 1.2189, 'grad_norm': 0.6328125, 'learning_rate': 0.00012946690565533933, 'epoch': 0.33}
{'loss': 1.1597, 'grad_norm': 0.66015625, 'learning_rate': 0.00012945554327787549, 'epoch': 0.33}
{'loss': 1.1975, 'grad_norm': 0.59375, 'learning_rate': 0.0001294441809004116, 'epoch': 0.33}
{'loss': 1.0416, 'grad_norm': 0.80078125, 'learning_rate': 0.00012943281852294776, 'epoch': 0.34}
{'loss': 1.3504, 'grad_norm': 0.482421875, 'learning_rate': 0.00012942145614548389, 'epoch': 0.34}
{'loss': 1.2575, 'grad_norm': 0.6953125, 'learning_rate': 0.00012941009376802004, 'epoch': 0.34}
{'loss': 1.1745, 'grad_norm': 0.421875, 'learning_rate': 0.00012939873139055616, 'epoch': 0.34}
{'loss': 1.2705, 'grad_norm': 0.4921875, 'learning_rate': 0.00012938736901309229, 'epoch': 0.34}
{'loss': 1.1978, 'grad_norm': 0.64453125, 'learning_rate': 0.00012937600663562846, 'epoch': 0.34}
{'loss': 1.3386, 'grad_norm':



{'loss': 1.2573, 'grad_norm': 0.5078125, 'learning_rate': 0.00012919420859620667, 'epoch': 0.34}
{'loss': 1.225, 'grad_norm': 0.6796875, 'learning_rate': 0.00012918284621874282, 'epoch': 0.34}
{'loss': 1.2613, 'grad_norm': 0.46875, 'learning_rate': 0.00012917148384127895, 'epoch': 0.34}
{'loss': 1.2447, 'grad_norm': 0.6640625, 'learning_rate': 0.0001291601214638151, 'epoch': 0.34}
{'loss': 1.1103, 'grad_norm': 1.2734375, 'learning_rate': 0.00012914875908635125, 'epoch': 0.34}
{'loss': 1.4779, 'grad_norm': 0.56640625, 'learning_rate': 0.00012913739670888737, 'epoch': 0.34}
{'loss': 1.0615, 'grad_norm': 0.77734375, 'learning_rate': 0.00012912603433142352, 'epoch': 0.34}
{'loss': 1.1128, 'grad_norm': 0.515625, 'learning_rate': 0.00012911467195395965, 'epoch': 0.34}
{'loss': 1.3183, 'grad_norm': 0.69140625, 'learning_rate': 0.0001291033095764958, 'epoch': 0.34}
{'loss': 1.1047, 'grad_norm': 0.6484375, 'learning_rate': 0.00012909194719903192, 'epoch': 0.34}
{'loss': 1.3174, 'grad_norm': 0.4



{'loss': 1.4646, 'grad_norm': 0.7421875, 'learning_rate': 0.00012891014915961018, 'epoch': 0.34}
{'loss': 1.2155, 'grad_norm': 0.6875, 'learning_rate': 0.0001288987867821463, 'epoch': 0.34}
{'loss': 1.1868, 'grad_norm': 0.486328125, 'learning_rate': 0.00012888742440468243, 'epoch': 0.34}
{'loss': 1.2522, 'grad_norm': 0.65234375, 'learning_rate': 0.00012887606202721858, 'epoch': 0.34}
{'loss': 1.163, 'grad_norm': 0.86328125, 'learning_rate': 0.0001288646996497547, 'epoch': 0.34}
{'loss': 1.2984, 'grad_norm': 0.55078125, 'learning_rate': 0.00012885333727229086, 'epoch': 0.34}
{'loss': 1.1866, 'grad_norm': 0.85546875, 'learning_rate': 0.00012884197489482698, 'epoch': 0.34}
{'loss': 1.0641, 'grad_norm': 0.48046875, 'learning_rate': 0.00012883061251736314, 'epoch': 0.34}
{'loss': 1.1806, 'grad_norm': 0.5703125, 'learning_rate': 0.0001288192501398993, 'epoch': 0.34}
{'loss': 1.0135, 'grad_norm': 0.5703125, 'learning_rate': 0.0001288078877624354, 'epoch': 0.34}
{'loss': 1.3072, 'grad_norm': 0



{'loss': 1.2672, 'grad_norm': 0.44921875, 'learning_rate': 0.00012862608972301364, 'epoch': 0.34}
{'loss': 1.1313, 'grad_norm': 0.6484375, 'learning_rate': 0.00012861472734554977, 'epoch': 0.34}
{'loss': 1.1179, 'grad_norm': 0.482421875, 'learning_rate': 0.00012860336496808595, 'epoch': 0.34}
{'loss': 1.3188, 'grad_norm': 0.5078125, 'learning_rate': 0.00012859200259062207, 'epoch': 0.34}
{'loss': 1.1316, 'grad_norm': 0.96875, 'learning_rate': 0.00012858064021315822, 'epoch': 0.34}
{'loss': 1.4657, 'grad_norm': 0.47265625, 'learning_rate': 0.00012856927783569435, 'epoch': 0.34}
{'loss': 1.2632, 'grad_norm': 0.56640625, 'learning_rate': 0.00012855791545823047, 'epoch': 0.34}
{'loss': 1.1539, 'grad_norm': 0.44140625, 'learning_rate': 0.00012854655308076662, 'epoch': 0.34}
{'loss': 1.2593, 'grad_norm': 0.52734375, 'learning_rate': 0.00012853519070330275, 'epoch': 0.34}
{'loss': 1.0412, 'grad_norm': 1.0078125, 'learning_rate': 0.00012852382832583893, 'epoch': 0.34}
{'loss': 1.3155, 'grad_no



{'loss': 1.3719, 'grad_norm': 0.5546875, 'learning_rate': 0.00012834203028641713, 'epoch': 0.34}
{'loss': 1.1458, 'grad_norm': 0.9453125, 'learning_rate': 0.00012833066790895328, 'epoch': 0.34}
{'loss': 1.1919, 'grad_norm': 0.431640625, 'learning_rate': 0.0001283193055314894, 'epoch': 0.34}
{'loss': 1.3307, 'grad_norm': 0.4921875, 'learning_rate': 0.00012830794315402556, 'epoch': 0.34}
{'loss': 1.0752, 'grad_norm': 0.57421875, 'learning_rate': 0.0001282965807765617, 'epoch': 0.34}
{'loss': 1.4101, 'grad_norm': 0.546875, 'learning_rate': 0.00012828521839909783, 'epoch': 0.34}
{'loss': 1.251, 'grad_norm': 0.921875, 'learning_rate': 0.00012827385602163399, 'epoch': 0.34}
{'loss': 1.1607, 'grad_norm': 0.58984375, 'learning_rate': 0.0001282624936441701, 'epoch': 0.34}
{'loss': 1.2488, 'grad_norm': 0.546875, 'learning_rate': 0.00012825113126670626, 'epoch': 0.34}
{'loss': 1.0967, 'grad_norm': 1.2109375, 'learning_rate': 0.00012823976888924239, 'epoch': 0.34}
{'loss': 1.3308, 'grad_norm': 0.4



{'loss': 1.2587, 'grad_norm': 0.498046875, 'learning_rate': 0.00012805797084982062, 'epoch': 0.34}
{'loss': 1.1367, 'grad_norm': 1.046875, 'learning_rate': 0.00012804660847235677, 'epoch': 0.34}
{'loss': 1.2425, 'grad_norm': 0.38671875, 'learning_rate': 0.0001280352460948929, 'epoch': 0.34}
{'loss': 1.2383, 'grad_norm': 0.56640625, 'learning_rate': 0.00012802388371742905, 'epoch': 0.34}
{'loss': 1.1224, 'grad_norm': 0.99609375, 'learning_rate': 0.00012801252133996517, 'epoch': 0.34}
{'loss': 1.4284, 'grad_norm': 0.61328125, 'learning_rate': 0.00012800115896250132, 'epoch': 0.34}
{'loss': 1.0869, 'grad_norm': 0.61328125, 'learning_rate': 0.00012798979658503747, 'epoch': 0.34}
{'loss': 1.2513, 'grad_norm': 0.55859375, 'learning_rate': 0.0001279784342075736, 'epoch': 0.34}
{'loss': 1.2441, 'grad_norm': 0.66796875, 'learning_rate': 0.00012796707183010975, 'epoch': 0.34}
{'loss': 1.2332, 'grad_norm': 0.61328125, 'learning_rate': 0.00012795570945264587, 'epoch': 0.34}
{'loss': 1.4164, 'grad_



{'loss': 1.3173, 'grad_norm': 0.51171875, 'learning_rate': 0.0001277739114132241, 'epoch': 0.34}
{'loss': 1.0676, 'grad_norm': 0.63671875, 'learning_rate': 0.00012776254903576026, 'epoch': 0.34}
{'loss': 1.2931, 'grad_norm': 0.443359375, 'learning_rate': 0.0001277511866582964, 'epoch': 0.34}
{'loss': 1.1932, 'grad_norm': 0.61328125, 'learning_rate': 0.00012773982428083253, 'epoch': 0.34}
{'loss': 1.0929, 'grad_norm': 0.71875, 'learning_rate': 0.00012772846190336866, 'epoch': 0.34}
{'loss': 1.3465, 'grad_norm': 0.46484375, 'learning_rate': 0.0001277170995259048, 'epoch': 0.34}
{'loss': 1.2116, 'grad_norm': 0.73046875, 'learning_rate': 0.00012770573714844093, 'epoch': 0.34}
{'loss': 1.0936, 'grad_norm': 0.416015625, 'learning_rate': 0.00012769437477097708, 'epoch': 0.34}
{'loss': 1.1799, 'grad_norm': 0.5859375, 'learning_rate': 0.00012768301239351324, 'epoch': 0.34}
{'loss': 1.0855, 'grad_norm': 0.470703125, 'learning_rate': 0.00012767165001604936, 'epoch': 0.34}
{'loss': 1.3534, 'grad_n



{'loss': 1.365, 'grad_norm': 0.45703125, 'learning_rate': 0.0001274898519766276, 'epoch': 0.34}
{'loss': 1.2002, 'grad_norm': 0.60546875, 'learning_rate': 0.00012747848959916374, 'epoch': 0.34}
{'loss': 1.1314, 'grad_norm': 0.4140625, 'learning_rate': 0.00012746712722169987, 'epoch': 0.34}
{'loss': 1.2042, 'grad_norm': 0.54296875, 'learning_rate': 0.000127455764844236, 'epoch': 0.34}
{'loss': 1.1072, 'grad_norm': 0.6796875, 'learning_rate': 0.00012744440246677217, 'epoch': 0.34}
{'loss': 1.4103, 'grad_norm': 0.57421875, 'learning_rate': 0.0001274330400893083, 'epoch': 0.34}
{'loss': 1.1825, 'grad_norm': 0.478515625, 'learning_rate': 0.00012742167771184445, 'epoch': 0.34}
{'loss': 1.1735, 'grad_norm': 0.462890625, 'learning_rate': 0.00012741031533438057, 'epoch': 0.34}
{'loss': 1.249, 'grad_norm': 0.5390625, 'learning_rate': 0.0001273989529569167, 'epoch': 0.34}
{'loss': 0.9412, 'grad_norm': 0.3203125, 'learning_rate': 0.00012738759057945285, 'epoch': 0.34}
{'loss': 1.369, 'grad_norm': 



{'loss': 1.4548, 'grad_norm': 0.4765625, 'learning_rate': 0.00012720579254003108, 'epoch': 0.34}
{'loss': 1.3444, 'grad_norm': 0.82421875, 'learning_rate': 0.00012719443016256723, 'epoch': 0.34}
{'loss': 1.1655, 'grad_norm': 0.53515625, 'learning_rate': 0.00012718306778510335, 'epoch': 0.34}
{'loss': 1.2133, 'grad_norm': 0.58984375, 'learning_rate': 0.0001271717054076395, 'epoch': 0.34}
{'loss': 0.9408, 'grad_norm': 1.5703125, 'learning_rate': 0.00012716034303017563, 'epoch': 0.34}
{'loss': 1.3858, 'grad_norm': 0.5, 'learning_rate': 0.00012714898065271178, 'epoch': 0.34}
{'loss': 1.2343, 'grad_norm': 1.234375, 'learning_rate': 0.00012713761827524793, 'epoch': 0.35}
{'loss': 1.2434, 'grad_norm': 0.396484375, 'learning_rate': 0.00012712625589778406, 'epoch': 0.35}
{'loss': 1.2067, 'grad_norm': 0.5546875, 'learning_rate': 0.0001271148935203202, 'epoch': 0.35}
{'loss': 1.0712, 'grad_norm': 0.64453125, 'learning_rate': 0.00012710353114285633, 'epoch': 0.35}
{'loss': 1.2975, 'grad_norm': 0.5



{'loss': 1.4222, 'grad_norm': 0.48828125, 'learning_rate': 0.00012692173310343457, 'epoch': 0.35}
{'loss': 1.1439, 'grad_norm': 1.1015625, 'learning_rate': 0.00012691037072597072, 'epoch': 0.35}
{'loss': 1.2004, 'grad_norm': 0.55078125, 'learning_rate': 0.00012689900834850684, 'epoch': 0.35}
{'loss': 1.2262, 'grad_norm': 0.482421875, 'learning_rate': 0.000126887645971043, 'epoch': 0.35}
{'loss': 1.0554, 'grad_norm': 0.64453125, 'learning_rate': 0.00012687628359357912, 'epoch': 0.35}
{'loss': 1.3177, 'grad_norm': 0.51171875, 'learning_rate': 0.00012686492121611527, 'epoch': 0.35}
{'loss': 1.1286, 'grad_norm': 0.828125, 'learning_rate': 0.0001268535588386514, 'epoch': 0.35}
{'loss': 1.3205, 'grad_norm': 0.470703125, 'learning_rate': 0.00012684219646118754, 'epoch': 0.35}
{'loss': 1.2941, 'grad_norm': 0.515625, 'learning_rate': 0.0001268308340837237, 'epoch': 0.35}
{'loss': 1.1345, 'grad_norm': 0.703125, 'learning_rate': 0.00012681947170625982, 'epoch': 0.35}
{'loss': 1.4006, 'grad_norm':



{'loss': 1.2837, 'grad_norm': 0.453125, 'learning_rate': 0.00012663767366683805, 'epoch': 0.35}
{'loss': 1.202, 'grad_norm': 0.8359375, 'learning_rate': 0.00012662631128937418, 'epoch': 0.35}
{'loss': 1.203, 'grad_norm': 0.5703125, 'learning_rate': 0.00012661494891191033, 'epoch': 0.35}
{'loss': 1.2216, 'grad_norm': 0.6171875, 'learning_rate': 0.00012660358653444648, 'epoch': 0.35}
{'loss': 1.0261, 'grad_norm': 0.578125, 'learning_rate': 0.00012659222415698263, 'epoch': 0.35}
{'loss': 1.2912, 'grad_norm': 0.59765625, 'learning_rate': 0.00012658086177951876, 'epoch': 0.35}
{'loss': 1.1843, 'grad_norm': 0.67578125, 'learning_rate': 0.00012656949940205488, 'epoch': 0.35}
{'loss': 1.3222, 'grad_norm': 0.431640625, 'learning_rate': 0.00012655813702459103, 'epoch': 0.35}
{'loss': 1.3234, 'grad_norm': 0.6875, 'learning_rate': 0.00012654677464712716, 'epoch': 0.35}
{'loss': 1.0396, 'grad_norm': 0.330078125, 'learning_rate': 0.0001265354122696633, 'epoch': 0.35}
{'loss': 1.2729, 'grad_norm': 0.



{'loss': 1.4407, 'grad_norm': 0.5, 'learning_rate': 0.00012635361423024154, 'epoch': 0.35}
{'loss': 1.1508, 'grad_norm': 0.9140625, 'learning_rate': 0.0001263422518527777, 'epoch': 0.35}
{'loss': 1.2246, 'grad_norm': 0.578125, 'learning_rate': 0.00012633088947531382, 'epoch': 0.35}
{'loss': 1.2462, 'grad_norm': 0.7109375, 'learning_rate': 0.00012631952709784997, 'epoch': 0.35}
{'loss': 1.1302, 'grad_norm': 0.57421875, 'learning_rate': 0.0001263081647203861, 'epoch': 0.35}
{'loss': 1.3122, 'grad_norm': 0.52734375, 'learning_rate': 0.00012629680234292224, 'epoch': 0.35}
{'loss': 1.1894, 'grad_norm': 0.80078125, 'learning_rate': 0.0001262854399654584, 'epoch': 0.35}
{'loss': 1.3451, 'grad_norm': 0.421875, 'learning_rate': 0.00012627407758799452, 'epoch': 0.35}
{'loss': 1.1006, 'grad_norm': 0.59375, 'learning_rate': 0.00012626271521053067, 'epoch': 0.35}
{'loss': 1.1581, 'grad_norm': 0.91796875, 'learning_rate': 0.0001262513528330668, 'epoch': 0.35}
{'loss': 1.2978, 'grad_norm': 0.53515625



{'loss': 1.4335, 'grad_norm': 0.51171875, 'learning_rate': 0.00012606955479364503, 'epoch': 0.35}
{'loss': 1.1768, 'grad_norm': 0.5859375, 'learning_rate': 0.00012605819241618118, 'epoch': 0.35}
{'loss': 1.2197, 'grad_norm': 0.48046875, 'learning_rate': 0.0001260468300387173, 'epoch': 0.35}
{'loss': 1.2815, 'grad_norm': 0.55078125, 'learning_rate': 0.00012603546766125345, 'epoch': 0.35}
{'loss': 1.0134, 'grad_norm': 1.0, 'learning_rate': 0.00012602410528378958, 'epoch': 0.35}
{'loss': 1.3133, 'grad_norm': 0.49609375, 'learning_rate': 0.00012601274290632573, 'epoch': 0.35}
{'loss': 1.2197, 'grad_norm': 0.8046875, 'learning_rate': 0.00012600138052886185, 'epoch': 0.35}
{'loss': 1.2035, 'grad_norm': 0.4921875, 'learning_rate': 0.000125990018151398, 'epoch': 0.35}
{'loss': 1.4076, 'grad_norm': 0.52734375, 'learning_rate': 0.00012597865577393416, 'epoch': 0.35}
{'loss': 1.0915, 'grad_norm': 1.3125, 'learning_rate': 0.00012596729339647028, 'epoch': 0.35}
{'loss': 1.3971, 'grad_norm': 0.45117



{'loss': 1.271, 'grad_norm': 0.60546875, 'learning_rate': 0.00012578549535704851, 'epoch': 0.35}
{'loss': 1.1645, 'grad_norm': 0.71875, 'learning_rate': 0.00012577413297958464, 'epoch': 0.35}
{'loss': 1.3127, 'grad_norm': 0.546875, 'learning_rate': 0.0001257627706021208, 'epoch': 0.35}
{'loss': 1.2364, 'grad_norm': 0.75, 'learning_rate': 0.00012575140822465694, 'epoch': 0.35}
{'loss': 1.1469, 'grad_norm': 0.72265625, 'learning_rate': 0.00012574004584719307, 'epoch': 0.35}
{'loss': 1.2854, 'grad_norm': 0.5859375, 'learning_rate': 0.00012572868346972922, 'epoch': 0.35}
{'loss': 1.1541, 'grad_norm': 0.796875, 'learning_rate': 0.00012571732109226534, 'epoch': 0.35}
{'loss': 1.1824, 'grad_norm': 0.51171875, 'learning_rate': 0.0001257059587148015, 'epoch': 0.35}
{'loss': 1.3056, 'grad_norm': 0.54296875, 'learning_rate': 0.00012569459633733762, 'epoch': 0.35}
{'loss': 1.1382, 'grad_norm': 1.0546875, 'learning_rate': 0.00012568323395987377, 'epoch': 0.35}
{'loss': 1.2783, 'grad_norm': 0.535156



{'loss': 1.4016, 'grad_norm': 0.4296875, 'learning_rate': 0.000125501435920452, 'epoch': 0.35}
{'loss': 1.2314, 'grad_norm': 0.73828125, 'learning_rate': 0.00012549007354298815, 'epoch': 0.35}
{'loss': 1.1986, 'grad_norm': 0.46875, 'learning_rate': 0.00012547871116552428, 'epoch': 0.35}
{'loss': 1.2432, 'grad_norm': 0.73828125, 'learning_rate': 0.0001254673487880604, 'epoch': 0.35}
{'loss': 1.0313, 'grad_norm': 1.0859375, 'learning_rate': 0.00012545598641059655, 'epoch': 0.35}
{'loss': 1.4518, 'grad_norm': 0.53125, 'learning_rate': 0.0001254446240331327, 'epoch': 0.35}
{'loss': 1.2111, 'grad_norm': 1.125, 'learning_rate': 0.00012543326165566886, 'epoch': 0.35}
{'loss': 1.1813, 'grad_norm': 0.828125, 'learning_rate': 0.00012542189927820498, 'epoch': 0.35}
{'loss': 1.2074, 'grad_norm': 0.62890625, 'learning_rate': 0.0001254105369007411, 'epoch': 0.35}
{'loss': 1.1101, 'grad_norm': 0.71875, 'learning_rate': 0.00012539917452327726, 'epoch': 0.35}
{'loss': 1.3937, 'grad_norm': 0.546875, 'le



{'loss': 1.3497, 'grad_norm': 0.72265625, 'learning_rate': 0.0001252173764838555, 'epoch': 0.35}
{'loss': 1.1209, 'grad_norm': 0.4921875, 'learning_rate': 0.00012520601410639164, 'epoch': 0.35}
{'loss': 1.3119, 'grad_norm': 0.5078125, 'learning_rate': 0.00012519465172892776, 'epoch': 0.35}
{'loss': 1.265, 'grad_norm': 0.6796875, 'learning_rate': 0.00012518328935146392, 'epoch': 0.35}
{'loss': 1.1663, 'grad_norm': 0.796875, 'learning_rate': 0.00012517192697400004, 'epoch': 0.35}
{'loss': 1.4253, 'grad_norm': 0.451171875, 'learning_rate': 0.0001251605645965362, 'epoch': 0.35}
{'loss': 1.1761, 'grad_norm': 0.79296875, 'learning_rate': 0.00012514920221907232, 'epoch': 0.35}
{'loss': 1.1956, 'grad_norm': 0.59375, 'learning_rate': 0.00012513783984160847, 'epoch': 0.35}
{'loss': 1.3636, 'grad_norm': 0.56640625, 'learning_rate': 0.00012512647746414462, 'epoch': 0.35}
{'loss': 1.0196, 'grad_norm': 0.71875, 'learning_rate': 0.00012511511508668074, 'epoch': 0.35}
{'loss': 1.2645, 'grad_norm': 0.4



{'loss': 1.343, 'grad_norm': 0.5078125, 'learning_rate': 0.00012493331704725898, 'epoch': 0.35}
{'loss': 1.2459, 'grad_norm': 0.83203125, 'learning_rate': 0.0001249219546697951, 'epoch': 0.35}
{'loss': 1.2479, 'grad_norm': 0.484375, 'learning_rate': 0.00012491059229233125, 'epoch': 0.35}
{'loss': 1.2031, 'grad_norm': 0.400390625, 'learning_rate': 0.0001248992299148674, 'epoch': 0.35}
{'loss': 1.142, 'grad_norm': 0.84375, 'learning_rate': 0.00012488786753740353, 'epoch': 0.35}
{'loss': 1.3999, 'grad_norm': 0.498046875, 'learning_rate': 0.00012487650515993968, 'epoch': 0.35}
{'loss': 1.1433, 'grad_norm': 0.74609375, 'learning_rate': 0.0001248651427824758, 'epoch': 0.35}
{'loss': 1.1116, 'grad_norm': 0.47265625, 'learning_rate': 0.00012485378040501195, 'epoch': 0.36}
{'loss': 1.1783, 'grad_norm': 0.5625, 'learning_rate': 0.00012484241802754808, 'epoch': 0.36}
{'loss': 1.076, 'grad_norm': 0.78125, 'learning_rate': 0.00012483105565008423, 'epoch': 0.36}
{'loss': 1.4631, 'grad_norm': 0.58203



{'loss': 1.2713, 'grad_norm': 0.5546875, 'learning_rate': 0.00012464925761066246, 'epoch': 0.36}
{'loss': 1.0972, 'grad_norm': 0.5703125, 'learning_rate': 0.0001246378952331986, 'epoch': 0.36}
{'loss': 1.2041, 'grad_norm': 0.392578125, 'learning_rate': 0.00012462653285573474, 'epoch': 0.36}
{'loss': 1.2822, 'grad_norm': 0.59375, 'learning_rate': 0.00012461517047827086, 'epoch': 0.36}
{'loss': 1.0404, 'grad_norm': 0.640625, 'learning_rate': 0.00012460380810080704, 'epoch': 0.36}
{'loss': 1.4476, 'grad_norm': 0.609375, 'learning_rate': 0.00012459244572334317, 'epoch': 0.36}
{'loss': 1.2322, 'grad_norm': 0.6875, 'learning_rate': 0.0001245810833458793, 'epoch': 0.36}
{'loss': 1.2925, 'grad_norm': 0.474609375, 'learning_rate': 0.00012456972096841544, 'epoch': 0.36}
{'loss': 1.2353, 'grad_norm': 0.5234375, 'learning_rate': 0.00012455835859095157, 'epoch': 0.36}
{'loss': 1.1282, 'grad_norm': 1.3359375, 'learning_rate': 0.00012454699621348772, 'epoch': 0.36}
{'loss': 1.2958, 'grad_norm': 0.636



{'loss': 1.2907, 'grad_norm': 0.51953125, 'learning_rate': 0.00012436519817406595, 'epoch': 0.36}
{'loss': 1.2332, 'grad_norm': 0.859375, 'learning_rate': 0.0001243538357966021, 'epoch': 0.36}
{'loss': 1.291, 'grad_norm': 0.34375, 'learning_rate': 0.00012434247341913823, 'epoch': 0.36}
{'loss': 1.2238, 'grad_norm': 0.5546875, 'learning_rate': 0.00012433111104167438, 'epoch': 0.36}
{'loss': 1.1675, 'grad_norm': 0.9296875, 'learning_rate': 0.0001243197486642105, 'epoch': 0.36}
{'loss': 1.4592, 'grad_norm': 0.453125, 'learning_rate': 0.00012430838628674663, 'epoch': 0.36}
{'loss': 1.2097, 'grad_norm': 0.703125, 'learning_rate': 0.0001242970239092828, 'epoch': 0.36}
{'loss': 1.237, 'grad_norm': 0.45703125, 'learning_rate': 0.00012428566153181893, 'epoch': 0.36}
{'loss': 1.2607, 'grad_norm': 0.640625, 'learning_rate': 0.00012427429915435508, 'epoch': 0.36}
{'loss': 1.1975, 'grad_norm': 0.921875, 'learning_rate': 0.0001242629367768912, 'epoch': 0.36}
{'loss': 1.4322, 'grad_norm': 0.578125, '



{'loss': 1.2934, 'grad_norm': 0.44921875, 'learning_rate': 0.00012408113873746944, 'epoch': 0.36}
{'loss': 1.2298, 'grad_norm': 0.69921875, 'learning_rate': 0.00012406977636000556, 'epoch': 0.36}
{'loss': 1.2268, 'grad_norm': 0.39453125, 'learning_rate': 0.0001240584139825417, 'epoch': 0.36}
{'loss': 1.0445, 'grad_norm': 0.8046875, 'learning_rate': 0.00012404705160507786, 'epoch': 0.36}
{'loss': 1.0416, 'grad_norm': 1.1015625, 'learning_rate': 0.000124035689227614, 'epoch': 0.36}
{'loss': 1.2701, 'grad_norm': 0.5546875, 'learning_rate': 0.00012402432685015014, 'epoch': 0.36}
{'loss': 1.1745, 'grad_norm': 0.59765625, 'learning_rate': 0.00012401296447268626, 'epoch': 0.36}
{'loss': 1.1281, 'grad_norm': 0.412109375, 'learning_rate': 0.00012400160209522241, 'epoch': 0.36}
{'loss': 1.2669, 'grad_norm': 0.51171875, 'learning_rate': 0.00012399023971775857, 'epoch': 0.36}
{'loss': 0.9091, 'grad_norm': 1.15625, 'learning_rate': 0.0001239788773402947, 'epoch': 0.36}
{'loss': 1.1825, 'grad_norm':



{'loss': 1.5103, 'grad_norm': 0.49609375, 'learning_rate': 0.00012379707930087292, 'epoch': 0.36}
{'loss': 1.1731, 'grad_norm': 0.84765625, 'learning_rate': 0.00012378571692340905, 'epoch': 0.36}
{'loss': 1.3302, 'grad_norm': 0.462890625, 'learning_rate': 0.0001237743545459452, 'epoch': 0.36}
{'loss': 1.3633, 'grad_norm': 0.6328125, 'learning_rate': 0.00012376299216848132, 'epoch': 0.36}
{'loss': 1.1111, 'grad_norm': 1.2265625, 'learning_rate': 0.00012375162979101747, 'epoch': 0.36}
{'loss': 1.3451, 'grad_norm': 0.484375, 'learning_rate': 0.00012374026741355363, 'epoch': 0.36}
{'loss': 1.151, 'grad_norm': 0.515625, 'learning_rate': 0.00012372890503608975, 'epoch': 0.36}
{'loss': 1.0795, 'grad_norm': 0.455078125, 'learning_rate': 0.0001237175426586259, 'epoch': 0.36}
{'loss': 1.1814, 'grad_norm': 0.828125, 'learning_rate': 0.00012370618028116203, 'epoch': 0.36}
{'loss': 0.9943, 'grad_norm': 0.84765625, 'learning_rate': 0.00012369481790369818, 'epoch': 0.36}
{'loss': 1.4174, 'grad_norm':



{'loss': 1.2744, 'grad_norm': 0.80078125, 'learning_rate': 0.0001235130198642764, 'epoch': 0.36}
{'loss': 1.2175, 'grad_norm': 0.7421875, 'learning_rate': 0.00012350165748681256, 'epoch': 0.36}
{'loss': 1.1472, 'grad_norm': 0.34375, 'learning_rate': 0.00012349029510934869, 'epoch': 0.36}
{'loss': 1.4457, 'grad_norm': 0.46484375, 'learning_rate': 0.0001234789327318848, 'epoch': 0.36}
{'loss': 1.0228, 'grad_norm': 0.76171875, 'learning_rate': 0.00012346757035442096, 'epoch': 0.36}
{'loss': 1.2596, 'grad_norm': 0.52734375, 'learning_rate': 0.00012345620797695709, 'epoch': 0.36}
{'loss': 1.1074, 'grad_norm': 0.76953125, 'learning_rate': 0.00012344484559949326, 'epoch': 0.36}
{'loss': 1.213, 'grad_norm': 0.4921875, 'learning_rate': 0.0001234334832220294, 'epoch': 0.36}
{'loss': 1.2473, 'grad_norm': 0.6640625, 'learning_rate': 0.0001234221208445655, 'epoch': 0.36}
{'loss': 0.9978, 'grad_norm': 0.71484375, 'learning_rate': 0.00012341075846710166, 'epoch': 0.36}
{'loss': 1.4297, 'grad_norm': 0



{'loss': 1.4119, 'grad_norm': 0.5078125, 'learning_rate': 0.0001232289604276799, 'epoch': 0.36}
{'loss': 1.1857, 'grad_norm': 0.75, 'learning_rate': 0.00012321759805021605, 'epoch': 0.36}
{'loss': 1.1743, 'grad_norm': 0.515625, 'learning_rate': 0.00012320623567275217, 'epoch': 0.36}
{'loss': 1.2316, 'grad_norm': 0.66796875, 'learning_rate': 0.00012319487329528832, 'epoch': 0.36}
{'loss': 1.0439, 'grad_norm': 0.515625, 'learning_rate': 0.00012318351091782445, 'epoch': 0.36}
{'loss': 1.3124, 'grad_norm': 0.5078125, 'learning_rate': 0.0001231721485403606, 'epoch': 0.36}
{'loss': 1.2252, 'grad_norm': 0.61328125, 'learning_rate': 0.00012316078616289672, 'epoch': 0.36}
{'loss': 1.2157, 'grad_norm': 0.408203125, 'learning_rate': 0.00012314942378543285, 'epoch': 0.36}
{'loss': 1.0575, 'grad_norm': 0.5859375, 'learning_rate': 0.00012313806140796903, 'epoch': 0.36}
{'loss': 1.0265, 'grad_norm': 0.8046875, 'learning_rate': 0.00012312669903050515, 'epoch': 0.36}
{'loss': 1.5457, 'grad_norm': 0.511



{'loss': 1.328, 'grad_norm': 0.45703125, 'learning_rate': 0.00012294490099108338, 'epoch': 0.36}
{'loss': 1.1396, 'grad_norm': 0.41015625, 'learning_rate': 0.0001229335386136195, 'epoch': 0.36}
{'loss': 1.3083, 'grad_norm': 0.51171875, 'learning_rate': 0.00012292217623615566, 'epoch': 0.36}
{'loss': 1.3007, 'grad_norm': 0.50390625, 'learning_rate': 0.0001229108138586918, 'epoch': 0.36}
{'loss': 1.0549, 'grad_norm': 0.76953125, 'learning_rate': 0.00012289945148122794, 'epoch': 0.36}
{'loss': 1.526, 'grad_norm': 0.51953125, 'learning_rate': 0.0001228880891037641, 'epoch': 0.36}
{'loss': 1.3096, 'grad_norm': 0.5546875, 'learning_rate': 0.0001228767267263002, 'epoch': 0.36}
{'loss': 1.2158, 'grad_norm': 0.478515625, 'learning_rate': 0.00012286536434883636, 'epoch': 0.36}
{'loss': 1.2691, 'grad_norm': 0.59765625, 'learning_rate': 0.0001228540019713725, 'epoch': 0.36}
{'loss': 1.018, 'grad_norm': 0.5, 'learning_rate': 0.00012284263959390864, 'epoch': 0.36}
{'loss': 1.4061, 'grad_norm': 0.589



{'loss': 1.3979, 'grad_norm': 0.57421875, 'learning_rate': 0.00012266084155448687, 'epoch': 0.36}
{'loss': 1.1407, 'grad_norm': 0.4609375, 'learning_rate': 0.000122649479177023, 'epoch': 0.36}
{'loss': 1.4433, 'grad_norm': 0.439453125, 'learning_rate': 0.00012263811679955915, 'epoch': 0.36}
{'loss': 1.2947, 'grad_norm': 0.474609375, 'learning_rate': 0.00012262675442209527, 'epoch': 0.36}
{'loss': 1.0059, 'grad_norm': 0.859375, 'learning_rate': 0.00012261539204463142, 'epoch': 0.36}
{'loss': 1.4469, 'grad_norm': 0.62890625, 'learning_rate': 0.00012260402966716757, 'epoch': 0.36}
{'loss': 1.09, 'grad_norm': 0.75, 'learning_rate': 0.0001225926672897037, 'epoch': 0.36}
{'loss': 1.0896, 'grad_norm': 0.478515625, 'learning_rate': 0.00012258130491223985, 'epoch': 0.36}
{'loss': 1.1463, 'grad_norm': 0.59375, 'learning_rate': 0.00012256994253477597, 'epoch': 0.36}
{'loss': 1.1335, 'grad_norm': 0.30859375, 'learning_rate': 0.00012255858015731213, 'epoch': 0.37}
{'loss': 1.2572, 'grad_norm': 0.52



{'loss': 1.3724, 'grad_norm': 0.482421875, 'learning_rate': 0.00012237678211789033, 'epoch': 0.37}
{'loss': 1.207, 'grad_norm': 0.72265625, 'learning_rate': 0.0001223654197404265, 'epoch': 0.37}
{'loss': 1.3937, 'grad_norm': 0.439453125, 'learning_rate': 0.00012235405736296263, 'epoch': 0.37}
{'loss': 1.2909, 'grad_norm': 0.50390625, 'learning_rate': 0.00012234269498549879, 'epoch': 0.37}
{'loss': 1.0326, 'grad_norm': 1.453125, 'learning_rate': 0.0001223313326080349, 'epoch': 0.37}
{'loss': 1.3773, 'grad_norm': 0.59765625, 'learning_rate': 0.00012231997023057103, 'epoch': 0.37}
{'loss': 1.2721, 'grad_norm': 0.671875, 'learning_rate': 0.00012230860785310719, 'epoch': 0.37}
{'loss': 1.0568, 'grad_norm': 0.515625, 'learning_rate': 0.00012229724547564334, 'epoch': 0.37}
{'loss': 1.222, 'grad_norm': 0.76171875, 'learning_rate': 0.0001222858830981795, 'epoch': 0.37}
{'loss': 1.1128, 'grad_norm': 0.71875, 'learning_rate': 0.0001222745207207156, 'epoch': 0.37}
{'loss': 1.3397, 'grad_norm': 0.5



{'loss': 1.3111, 'grad_norm': 0.6171875, 'learning_rate': 0.00012209272268129385, 'epoch': 0.37}
{'loss': 1.2553, 'grad_norm': 0.6640625, 'learning_rate': 0.00012208136030382997, 'epoch': 0.37}
{'loss': 1.2974, 'grad_norm': 0.4296875, 'learning_rate': 0.00012206999792636611, 'epoch': 0.37}
{'loss': 1.1002, 'grad_norm': 0.55078125, 'learning_rate': 0.00012205863554890227, 'epoch': 0.37}
{'loss': 1.0242, 'grad_norm': 1.0390625, 'learning_rate': 0.0001220472731714384, 'epoch': 0.37}
{'loss': 1.4013, 'grad_norm': 0.44921875, 'learning_rate': 0.00012203591079397453, 'epoch': 0.37}
{'loss': 1.1898, 'grad_norm': 0.8671875, 'learning_rate': 0.00012202454841651067, 'epoch': 0.37}
{'loss': 1.1932, 'grad_norm': 0.515625, 'learning_rate': 0.00012201318603904681, 'epoch': 0.37}
{'loss': 1.053, 'grad_norm': 0.4375, 'learning_rate': 0.00012200182366158295, 'epoch': 0.37}
{'loss': 1.0131, 'grad_norm': 1.15625, 'learning_rate': 0.00012199046128411909, 'epoch': 0.37}
{'loss': 1.3134, 'grad_norm': 0.4531



{'loss': 1.3235, 'grad_norm': 0.578125, 'learning_rate': 0.00012180866324469733, 'epoch': 0.37}
{'loss': 1.1521, 'grad_norm': 0.609375, 'learning_rate': 0.00012179730086723347, 'epoch': 0.37}
{'loss': 1.1678, 'grad_norm': 0.3984375, 'learning_rate': 0.00012178593848976961, 'epoch': 0.37}
{'loss': 1.3113, 'grad_norm': 0.58984375, 'learning_rate': 0.00012177457611230573, 'epoch': 0.37}
{'loss': 0.9926, 'grad_norm': 0.875, 'learning_rate': 0.00012176321373484187, 'epoch': 0.37}
{'loss': 1.2449, 'grad_norm': 0.50390625, 'learning_rate': 0.00012175185135737804, 'epoch': 0.37}
{'loss': 1.2199, 'grad_norm': 0.60546875, 'learning_rate': 0.00012174048897991417, 'epoch': 0.37}
{'loss': 1.3686, 'grad_norm': 0.53515625, 'learning_rate': 0.00012172912660245031, 'epoch': 0.37}
{'loss': 1.3267, 'grad_norm': 1.0390625, 'learning_rate': 0.00012171776422498644, 'epoch': 0.37}
{'loss': 0.9533, 'grad_norm': 1.0546875, 'learning_rate': 0.00012170640184752257, 'epoch': 0.37}
{'loss': 1.3096, 'grad_norm': 0.



{'loss': 1.3798, 'grad_norm': 0.62109375, 'learning_rate': 0.00012152460380810082, 'epoch': 0.37}
{'loss': 1.2881, 'grad_norm': 0.58984375, 'learning_rate': 0.00012151324143063696, 'epoch': 0.37}
{'loss': 1.2227, 'grad_norm': 0.412109375, 'learning_rate': 0.0001215018790531731, 'epoch': 0.37}
{'loss': 1.1275, 'grad_norm': 0.60546875, 'learning_rate': 0.00012149051667570923, 'epoch': 0.37}
{'loss': 1.007, 'grad_norm': 0.7578125, 'learning_rate': 0.00012147915429824537, 'epoch': 0.37}
{'loss': 1.3277, 'grad_norm': 0.54296875, 'learning_rate': 0.00012146779192078151, 'epoch': 0.37}
{'loss': 1.1803, 'grad_norm': 0.81640625, 'learning_rate': 0.00012145642954331765, 'epoch': 0.37}
{'loss': 1.2511, 'grad_norm': 0.458984375, 'learning_rate': 0.0001214450671658538, 'epoch': 0.37}
{'loss': 1.2968, 'grad_norm': 0.76171875, 'learning_rate': 0.00012143370478838994, 'epoch': 0.37}
{'loss': 0.9547, 'grad_norm': 0.91015625, 'learning_rate': 0.00012142234241092607, 'epoch': 0.37}
{'loss': 1.4027, 'grad



{'loss': 1.3077, 'grad_norm': 0.65234375, 'learning_rate': 0.00012124054437150429, 'epoch': 0.37}
{'loss': 1.2245, 'grad_norm': 0.83984375, 'learning_rate': 0.00012122918199404043, 'epoch': 0.37}
{'loss': 1.2341, 'grad_norm': 0.427734375, 'learning_rate': 0.00012121781961657658, 'epoch': 0.37}
{'loss': 1.1904, 'grad_norm': 0.63671875, 'learning_rate': 0.00012120645723911272, 'epoch': 0.37}
{'loss': 1.167, 'grad_norm': 0.8359375, 'learning_rate': 0.00012119509486164886, 'epoch': 0.37}
{'loss': 1.3213, 'grad_norm': 0.4609375, 'learning_rate': 0.000121183732484185, 'epoch': 0.37}
{'loss': 1.2628, 'grad_norm': 0.61328125, 'learning_rate': 0.00012117237010672113, 'epoch': 0.37}
{'loss': 1.1881, 'grad_norm': 0.53515625, 'learning_rate': 0.00012116100772925727, 'epoch': 0.37}
{'loss': 1.13, 'grad_norm': 0.609375, 'learning_rate': 0.00012114964535179341, 'epoch': 0.37}
{'loss': 1.1002, 'grad_norm': 0.65625, 'learning_rate': 0.00012113828297432956, 'epoch': 0.37}
{'loss': 1.2915, 'grad_norm': 0



{'loss': 1.271, 'grad_norm': 0.69921875, 'learning_rate': 0.0001209564849349078, 'epoch': 0.37}
{'loss': 1.2091, 'grad_norm': 0.62109375, 'learning_rate': 0.00012094512255744392, 'epoch': 0.37}
{'loss': 1.1559, 'grad_norm': 0.41796875, 'learning_rate': 0.00012093376017998006, 'epoch': 0.37}
{'loss': 1.2885, 'grad_norm': 0.69921875, 'learning_rate': 0.0001209223978025162, 'epoch': 0.37}
{'loss': 1.0665, 'grad_norm': 0.7421875, 'learning_rate': 0.00012091103542505236, 'epoch': 0.37}
{'loss': 1.3322, 'grad_norm': 0.53515625, 'learning_rate': 0.0001208996730475885, 'epoch': 0.37}
{'loss': 1.2493, 'grad_norm': 0.62890625, 'learning_rate': 0.00012088831067012462, 'epoch': 0.37}
{'loss': 1.3258, 'grad_norm': 0.50390625, 'learning_rate': 0.00012087694829266076, 'epoch': 0.37}
{'loss': 1.2973, 'grad_norm': 0.78125, 'learning_rate': 0.0001208655859151969, 'epoch': 0.37}
{'loss': 1.0858, 'grad_norm': 1.140625, 'learning_rate': 0.00012085422353773303, 'epoch': 0.37}
{'loss': 1.2832, 'grad_norm': 0



{'loss': 1.2841, 'grad_norm': 0.5234375, 'learning_rate': 0.00012067242549831128, 'epoch': 0.37}
{'loss': 1.0709, 'grad_norm': 0.5234375, 'learning_rate': 0.00012066106312084742, 'epoch': 0.37}
{'loss': 1.1009, 'grad_norm': 0.384765625, 'learning_rate': 0.00012064970074338356, 'epoch': 0.37}
{'loss': 1.2032, 'grad_norm': 0.56640625, 'learning_rate': 0.0001206383383659197, 'epoch': 0.37}
{'loss': 1.092, 'grad_norm': 0.9375, 'learning_rate': 0.00012062697598845583, 'epoch': 0.37}
{'loss': 1.4852, 'grad_norm': 0.6640625, 'learning_rate': 0.00012061561361099196, 'epoch': 0.37}
{'loss': 1.1266, 'grad_norm': 0.6953125, 'learning_rate': 0.0001206042512335281, 'epoch': 0.37}
{'loss': 1.178, 'grad_norm': 0.4296875, 'learning_rate': 0.00012059288885606426, 'epoch': 0.37}
{'loss': 1.2485, 'grad_norm': 0.451171875, 'learning_rate': 0.0001205815264786004, 'epoch': 0.37}
{'loss': 0.9881, 'grad_norm': 0.8984375, 'learning_rate': 0.00012057016410113653, 'epoch': 0.37}
{'loss': 1.3192, 'grad_norm': 0.4



{'loss': 1.3184, 'grad_norm': 0.65234375, 'learning_rate': 0.00012038836606171475, 'epoch': 0.37}
{'loss': 1.0386, 'grad_norm': 0.671875, 'learning_rate': 0.00012037700368425089, 'epoch': 0.37}
{'loss': 1.0203, 'grad_norm': 0.57421875, 'learning_rate': 0.00012036564130678704, 'epoch': 0.37}
{'loss': 1.2307, 'grad_norm': 0.58203125, 'learning_rate': 0.00012035427892932318, 'epoch': 0.37}
{'loss': 1.1234, 'grad_norm': 0.93359375, 'learning_rate': 0.00012034291655185932, 'epoch': 0.37}
{'loss': 1.2005, 'grad_norm': 0.478515625, 'learning_rate': 0.00012033155417439546, 'epoch': 0.37}
{'loss': 1.1472, 'grad_norm': 0.74609375, 'learning_rate': 0.0001203201917969316, 'epoch': 0.37}
{'loss': 1.155, 'grad_norm': 0.50390625, 'learning_rate': 0.00012030882941946773, 'epoch': 0.37}
{'loss': 1.1694, 'grad_norm': 0.57421875, 'learning_rate': 0.00012029746704200387, 'epoch': 0.37}
{'loss': 1.1502, 'grad_norm': 0.7109375, 'learning_rate': 0.00012028610466454002, 'epoch': 0.37}
{'loss': 1.3301, 'grad_n



{'loss': 1.2137, 'grad_norm': 0.52734375, 'learning_rate': 0.00012010430662511824, 'epoch': 0.38}
{'loss': 1.286, 'grad_norm': 0.7109375, 'learning_rate': 0.00012009294424765438, 'epoch': 0.38}
{'loss': 1.3037, 'grad_norm': 0.48828125, 'learning_rate': 0.00012008158187019052, 'epoch': 0.38}
{'loss': 1.2234, 'grad_norm': 0.625, 'learning_rate': 0.00012007021949272665, 'epoch': 0.38}
{'loss': 1.0399, 'grad_norm': 0.32421875, 'learning_rate': 0.00012005885711526282, 'epoch': 0.38}
{'loss': 1.294, 'grad_norm': 0.46875, 'learning_rate': 0.00012004749473779894, 'epoch': 0.38}
{'loss': 1.186, 'grad_norm': 0.85546875, 'learning_rate': 0.00012003613236033508, 'epoch': 0.38}
{'loss': 1.2815, 'grad_norm': 0.419921875, 'learning_rate': 0.00012002476998287122, 'epoch': 0.38}
{'loss': 1.1742, 'grad_norm': 0.5703125, 'learning_rate': 0.00012001340760540736, 'epoch': 0.38}
{'loss': 1.1371, 'grad_norm': 0.90625, 'learning_rate': 0.0001200020452279435, 'epoch': 0.38}
{'loss': 1.2339, 'grad_norm': 0.6953



{'loss': 1.3237, 'grad_norm': 0.60546875, 'learning_rate': 0.00011982024718852174, 'epoch': 0.38}
{'loss': 1.1345, 'grad_norm': 0.78515625, 'learning_rate': 0.00011980888481105788, 'epoch': 0.38}
{'loss': 1.2682, 'grad_norm': 0.455078125, 'learning_rate': 0.00011979752243359402, 'epoch': 0.38}
{'loss': 1.1959, 'grad_norm': 0.74609375, 'learning_rate': 0.00011978616005613014, 'epoch': 0.38}
{'loss': 1.0733, 'grad_norm': 0.79296875, 'learning_rate': 0.00011977479767866628, 'epoch': 0.38}
{'loss': 1.3197, 'grad_norm': 0.69140625, 'learning_rate': 0.00011976343530120242, 'epoch': 0.38}
{'loss': 1.1132, 'grad_norm': 0.98046875, 'learning_rate': 0.00011975207292373858, 'epoch': 0.38}
{'loss': 1.1919, 'grad_norm': 0.45703125, 'learning_rate': 0.00011974071054627472, 'epoch': 0.38}
{'loss': 1.1815, 'grad_norm': 0.72265625, 'learning_rate': 0.00011972934816881084, 'epoch': 0.38}
{'loss': 1.0967, 'grad_norm': 0.96484375, 'learning_rate': 0.00011971798579134698, 'epoch': 0.38}
{'loss': 1.3237, 'g



{'loss': 1.3794, 'grad_norm': 0.482421875, 'learning_rate': 0.00011953618775192522, 'epoch': 0.38}
{'loss': 1.1126, 'grad_norm': 0.7890625, 'learning_rate': 0.00011952482537446137, 'epoch': 0.38}
{'loss': 1.1088, 'grad_norm': 0.439453125, 'learning_rate': 0.0001195134629969975, 'epoch': 0.38}
{'loss': 1.3368, 'grad_norm': 0.48828125, 'learning_rate': 0.00011950210061953364, 'epoch': 0.38}
{'loss': 1.1872, 'grad_norm': 1.2578125, 'learning_rate': 0.00011949073824206978, 'epoch': 0.38}
{'loss': 1.314, 'grad_norm': 0.69140625, 'learning_rate': 0.00011947937586460592, 'epoch': 0.38}
{'loss': 1.1655, 'grad_norm': 0.56640625, 'learning_rate': 0.00011946801348714206, 'epoch': 0.38}
{'loss': 1.3492, 'grad_norm': 0.458984375, 'learning_rate': 0.00011945665110967818, 'epoch': 0.38}
{'loss': 1.2408, 'grad_norm': 0.5390625, 'learning_rate': 0.00011944528873221434, 'epoch': 0.38}
{'loss': 1.1254, 'grad_norm': 0.62890625, 'learning_rate': 0.00011943392635475048, 'epoch': 0.38}
{'loss': 1.3043, 'grad



{'loss': 1.3651, 'grad_norm': 0.58203125, 'learning_rate': 0.0001192521283153287, 'epoch': 0.38}
{'loss': 1.2511, 'grad_norm': 0.67578125, 'learning_rate': 0.00011924076593786484, 'epoch': 0.38}
{'loss': 1.2211, 'grad_norm': 0.46875, 'learning_rate': 0.00011922940356040098, 'epoch': 0.38}
{'loss': 1.2419, 'grad_norm': 0.474609375, 'learning_rate': 0.00011921804118293712, 'epoch': 0.38}
{'loss': 1.1549, 'grad_norm': 0.578125, 'learning_rate': 0.00011920667880547327, 'epoch': 0.38}
{'loss': 1.3001, 'grad_norm': 0.416015625, 'learning_rate': 0.0001191953164280094, 'epoch': 0.38}
{'loss': 1.2694, 'grad_norm': 1.0078125, 'learning_rate': 0.00011918395405054554, 'epoch': 0.38}
{'loss': 1.0933, 'grad_norm': 0.443359375, 'learning_rate': 0.00011917259167308168, 'epoch': 0.38}
{'loss': 1.1512, 'grad_norm': 0.59375, 'learning_rate': 0.00011916122929561782, 'epoch': 0.38}
{'loss': 1.1132, 'grad_norm': 0.87109375, 'learning_rate': 0.00011914986691815396, 'epoch': 0.38}
{'loss': 1.4066, 'grad_norm'



{'loss': 1.3168, 'grad_norm': 0.5625, 'learning_rate': 0.0001189680688787322, 'epoch': 0.38}
{'loss': 1.3133, 'grad_norm': 0.6171875, 'learning_rate': 0.00011895670650126833, 'epoch': 0.38}
{'loss': 1.1891, 'grad_norm': 0.470703125, 'learning_rate': 0.00011894534412380446, 'epoch': 0.38}
{'loss': 1.2425, 'grad_norm': 0.84765625, 'learning_rate': 0.0001189339817463406, 'epoch': 0.38}
{'loss': 1.1754, 'grad_norm': 0.796875, 'learning_rate': 0.00011892261936887674, 'epoch': 0.38}
{'loss': 1.3653, 'grad_norm': 0.57421875, 'learning_rate': 0.00011891125699141288, 'epoch': 0.38}
{'loss': 1.2207, 'grad_norm': 0.73828125, 'learning_rate': 0.00011889989461394904, 'epoch': 0.38}
{'loss': 1.207, 'grad_norm': 0.48828125, 'learning_rate': 0.00011888853223648517, 'epoch': 0.38}
{'loss': 1.264, 'grad_norm': 0.78125, 'learning_rate': 0.0001188771698590213, 'epoch': 0.38}
{'loss': 1.0368, 'grad_norm': 1.140625, 'learning_rate': 0.00011886580748155744, 'epoch': 0.38}
{'loss': 1.3466, 'grad_norm': 0.6093



{'loss': 1.2033, 'grad_norm': 0.486328125, 'learning_rate': 0.00011868400944213566, 'epoch': 0.38}
{'loss': 1.0113, 'grad_norm': 0.85546875, 'learning_rate': 0.00011867264706467183, 'epoch': 0.38}
{'loss': 1.1805, 'grad_norm': 0.51171875, 'learning_rate': 0.00011866128468720797, 'epoch': 0.38}
{'loss': 1.2204, 'grad_norm': 0.5, 'learning_rate': 0.0001186499223097441, 'epoch': 0.38}
{'loss': 1.1033, 'grad_norm': 0.87890625, 'learning_rate': 0.00011863855993228024, 'epoch': 0.38}
{'loss': 1.3977, 'grad_norm': 0.451171875, 'learning_rate': 0.00011862719755481637, 'epoch': 0.38}
{'loss': 1.2032, 'grad_norm': 0.9609375, 'learning_rate': 0.0001186158351773525, 'epoch': 0.38}
{'loss': 1.1585, 'grad_norm': 0.46484375, 'learning_rate': 0.00011860447279988864, 'epoch': 0.38}
{'loss': 1.2337, 'grad_norm': 0.65625, 'learning_rate': 0.0001185931104224248, 'epoch': 0.38}
{'loss': 1.0872, 'grad_norm': 0.73828125, 'learning_rate': 0.00011858174804496094, 'epoch': 0.38}
{'loss': 1.3937, 'grad_norm': 0.



{'loss': 1.4161, 'grad_norm': 0.50390625, 'learning_rate': 0.00011839995000553916, 'epoch': 0.38}
{'loss': 1.2314, 'grad_norm': 0.63671875, 'learning_rate': 0.0001183885876280753, 'epoch': 0.38}
{'loss': 1.2491, 'grad_norm': 0.4609375, 'learning_rate': 0.00011837722525061144, 'epoch': 0.38}
{'loss': 1.2043, 'grad_norm': 0.5859375, 'learning_rate': 0.00011836586287314759, 'epoch': 0.38}
{'loss': 1.0286, 'grad_norm': 0.9765625, 'learning_rate': 0.00011835450049568373, 'epoch': 0.38}
{'loss': 1.4109, 'grad_norm': 0.498046875, 'learning_rate': 0.00011834313811821987, 'epoch': 0.38}
{'loss': 1.0835, 'grad_norm': 0.98046875, 'learning_rate': 0.000118331775740756, 'epoch': 0.38}
{'loss': 1.2299, 'grad_norm': 0.5078125, 'learning_rate': 0.00011832041336329214, 'epoch': 0.38}
{'loss': 1.4122, 'grad_norm': 0.58984375, 'learning_rate': 0.00011830905098582828, 'epoch': 0.38}
{'loss': 1.1407, 'grad_norm': 0.421875, 'learning_rate': 0.0001182976886083644, 'epoch': 0.38}
{'loss': 1.3135, 'grad_norm':



{'loss': 1.3086, 'grad_norm': 0.7578125, 'learning_rate': 0.00011811589056894265, 'epoch': 0.38}
{'loss': 1.1118, 'grad_norm': 0.73828125, 'learning_rate': 0.00011810452819147879, 'epoch': 0.38}
{'loss': 1.2836, 'grad_norm': 0.412109375, 'learning_rate': 0.00011809316581401493, 'epoch': 0.38}
{'loss': 1.3111, 'grad_norm': 0.6171875, 'learning_rate': 0.00011808180343655106, 'epoch': 0.38}
{'loss': 1.0236, 'grad_norm': 0.6484375, 'learning_rate': 0.0001180704410590872, 'epoch': 0.38}
{'loss': 1.3663, 'grad_norm': 0.490234375, 'learning_rate': 0.00011805907868162335, 'epoch': 0.38}
{'loss': 1.2706, 'grad_norm': 0.82421875, 'learning_rate': 0.00011804771630415949, 'epoch': 0.38}
{'loss': 1.2303, 'grad_norm': 0.55859375, 'learning_rate': 0.00011803635392669563, 'epoch': 0.38}
{'loss': 1.197, 'grad_norm': 0.61328125, 'learning_rate': 0.00011802499154923177, 'epoch': 0.38}
{'loss': 1.1551, 'grad_norm': 0.51953125, 'learning_rate': 0.0001180136291717679, 'epoch': 0.38}
{'loss': 1.4184, 'grad_n



{'loss': 1.3416, 'grad_norm': 0.47265625, 'learning_rate': 0.00011783183113234615, 'epoch': 0.39}
{'loss': 1.1393, 'grad_norm': 0.75390625, 'learning_rate': 0.00011782046875488229, 'epoch': 0.39}
{'loss': 1.3839, 'grad_norm': 0.451171875, 'learning_rate': 0.00011780910637741843, 'epoch': 0.39}
{'loss': 1.1163, 'grad_norm': 0.67578125, 'learning_rate': 0.00011779774399995455, 'epoch': 0.39}
{'loss': 1.1439, 'grad_norm': 1.0859375, 'learning_rate': 0.00011778638162249069, 'epoch': 0.39}
{'loss': 1.3291, 'grad_norm': 0.5234375, 'learning_rate': 0.00011777501924502683, 'epoch': 0.39}
{'loss': 1.2136, 'grad_norm': 0.97265625, 'learning_rate': 0.00011776365686756296, 'epoch': 0.39}
{'loss': 1.2403, 'grad_norm': 0.427734375, 'learning_rate': 0.00011775229449009913, 'epoch': 0.39}
{'loss': 1.1602, 'grad_norm': 0.9765625, 'learning_rate': 0.00011774093211263527, 'epoch': 0.39}
{'loss': 1.0848, 'grad_norm': 1.0234375, 'learning_rate': 0.00011772956973517139, 'epoch': 0.39}
{'loss': 1.389, 'grad_



{'loss': 1.427, 'grad_norm': 0.46875, 'learning_rate': 0.00011754777169574962, 'epoch': 0.39}
{'loss': 1.118, 'grad_norm': 0.60546875, 'learning_rate': 0.00011753640931828576, 'epoch': 0.39}
{'loss': 1.3162, 'grad_norm': 0.43359375, 'learning_rate': 0.00011752504694082189, 'epoch': 0.39}
{'loss': 1.3521, 'grad_norm': 0.5390625, 'learning_rate': 0.00011751368456335805, 'epoch': 0.39}
{'loss': 1.1427, 'grad_norm': 0.8203125, 'learning_rate': 0.00011750232218589419, 'epoch': 0.39}
{'loss': 1.2609, 'grad_norm': 0.5703125, 'learning_rate': 0.00011749095980843033, 'epoch': 0.39}
{'loss': 1.187, 'grad_norm': 0.6640625, 'learning_rate': 0.00011747959743096646, 'epoch': 0.39}
{'loss': 1.1635, 'grad_norm': 0.61328125, 'learning_rate': 0.00011746823505350259, 'epoch': 0.39}
{'loss': 1.1797, 'grad_norm': 0.5859375, 'learning_rate': 0.00011745687267603873, 'epoch': 0.39}
{'loss': 1.1524, 'grad_norm': 1.03125, 'learning_rate': 0.00011744551029857489, 'epoch': 0.39}
{'loss': 1.2942, 'grad_norm': 0.57



{'loss': 1.2354, 'grad_norm': 0.4765625, 'learning_rate': 0.00011726371225915311, 'epoch': 0.39}
{'loss': 1.1567, 'grad_norm': 0.7265625, 'learning_rate': 0.00011725234988168925, 'epoch': 0.39}
{'loss': 1.1908, 'grad_norm': 0.5, 'learning_rate': 0.00011724098750422539, 'epoch': 0.39}
{'loss': 1.4158, 'grad_norm': 0.69140625, 'learning_rate': 0.00011722962512676152, 'epoch': 0.39}
{'loss': 1.0196, 'grad_norm': 1.2734375, 'learning_rate': 0.00011721826274929766, 'epoch': 0.39}
{'loss': 1.3936, 'grad_norm': 0.51953125, 'learning_rate': 0.00011720690037183381, 'epoch': 0.39}
{'loss': 1.1453, 'grad_norm': 0.69140625, 'learning_rate': 0.00011719553799436995, 'epoch': 0.39}
{'loss': 1.3724, 'grad_norm': 0.453125, 'learning_rate': 0.00011718417561690609, 'epoch': 0.39}
{'loss': 1.2753, 'grad_norm': 0.54296875, 'learning_rate': 0.00011717281323944223, 'epoch': 0.39}
{'loss': 1.1132, 'grad_norm': 0.9765625, 'learning_rate': 0.00011716145086197837, 'epoch': 0.39}
{'loss': 1.3491, 'grad_norm': 0.5



{'loss': 1.3217, 'grad_norm': 0.455078125, 'learning_rate': 0.00011697965282255661, 'epoch': 0.39}
{'loss': 1.1754, 'grad_norm': 0.76171875, 'learning_rate': 0.00011696829044509275, 'epoch': 0.39}
{'loss': 1.0691, 'grad_norm': 0.49609375, 'learning_rate': 0.00011695692806762887, 'epoch': 0.39}
{'loss': 1.2597, 'grad_norm': 0.64453125, 'learning_rate': 0.00011694556569016501, 'epoch': 0.39}
{'loss': 1.1901, 'grad_norm': 0.77734375, 'learning_rate': 0.00011693420331270115, 'epoch': 0.39}
{'loss': 1.2809, 'grad_norm': 0.515625, 'learning_rate': 0.00011692284093523729, 'epoch': 0.39}
{'loss': 1.2623, 'grad_norm': 0.52734375, 'learning_rate': 0.00011691147855777343, 'epoch': 0.39}
{'loss': 1.2297, 'grad_norm': 0.56640625, 'learning_rate': 0.00011690011618030958, 'epoch': 0.39}
{'loss': 1.2145, 'grad_norm': 0.46875, 'learning_rate': 0.00011688875380284571, 'epoch': 0.39}
{'loss': 0.9836, 'grad_norm': 0.6015625, 'learning_rate': 0.00011687739142538185, 'epoch': 0.39}
{'loss': 1.4258, 'grad_no



{'loss': 1.3279, 'grad_norm': 0.6640625, 'learning_rate': 0.00011669559338596007, 'epoch': 0.39}
{'loss': 1.2221, 'grad_norm': 0.84765625, 'learning_rate': 0.00011668423100849621, 'epoch': 0.39}
{'loss': 1.2727, 'grad_norm': 0.6796875, 'learning_rate': 0.00011667286863103237, 'epoch': 0.39}
{'loss': 1.2926, 'grad_norm': 0.6484375, 'learning_rate': 0.00011666150625356851, 'epoch': 0.39}
{'loss': 1.0145, 'grad_norm': 1.3046875, 'learning_rate': 0.00011665014387610465, 'epoch': 0.39}
{'loss': 1.2708, 'grad_norm': 0.6953125, 'learning_rate': 0.00011663878149864077, 'epoch': 0.39}
{'loss': 1.1136, 'grad_norm': 0.63671875, 'learning_rate': 0.00011662741912117691, 'epoch': 0.39}
{'loss': 1.1851, 'grad_norm': 0.76171875, 'learning_rate': 0.00011661605674371305, 'epoch': 0.39}
{'loss': 1.295, 'grad_norm': 0.62890625, 'learning_rate': 0.00011660469436624919, 'epoch': 0.39}
{'loss': 1.0692, 'grad_norm': 0.91796875, 'learning_rate': 0.00011659333198878535, 'epoch': 0.39}
{'loss': 1.2752, 'grad_nor



{'loss': 1.274, 'grad_norm': 0.53515625, 'learning_rate': 0.00011641153394936357, 'epoch': 0.39}
{'loss': 1.0545, 'grad_norm': 0.73828125, 'learning_rate': 0.00011640017157189971, 'epoch': 0.39}
{'loss': 1.2248, 'grad_norm': 0.44140625, 'learning_rate': 0.00011638880919443585, 'epoch': 0.39}
{'loss': 1.2662, 'grad_norm': 0.5703125, 'learning_rate': 0.00011637744681697199, 'epoch': 0.39}
{'loss': 1.0389, 'grad_norm': 0.7109375, 'learning_rate': 0.00011636608443950814, 'epoch': 0.39}
{'loss': 1.452, 'grad_norm': 0.47265625, 'learning_rate': 0.00011635472206204428, 'epoch': 0.39}
{'loss': 1.114, 'grad_norm': 0.59375, 'learning_rate': 0.00011634335968458041, 'epoch': 0.39}
{'loss': 1.078, 'grad_norm': 0.439453125, 'learning_rate': 0.00011633199730711655, 'epoch': 0.39}
{'loss': 1.2553, 'grad_norm': 0.50390625, 'learning_rate': 0.00011632063492965269, 'epoch': 0.39}
{'loss': 1.0802, 'grad_norm': 0.75, 'learning_rate': 0.00011630927255218881, 'epoch': 0.39}
{'loss': 1.3646, 'grad_norm': 0.45



{'loss': 1.3208, 'grad_norm': 0.484375, 'learning_rate': 0.00011612747451276706, 'epoch': 0.39}
{'loss': 1.1373, 'grad_norm': 0.8046875, 'learning_rate': 0.0001161161121353032, 'epoch': 0.39}
{'loss': 1.1636, 'grad_norm': 0.47265625, 'learning_rate': 0.00011610474975783933, 'epoch': 0.39}
{'loss': 1.2103, 'grad_norm': 0.50390625, 'learning_rate': 0.00011609338738037547, 'epoch': 0.39}
{'loss': 0.9213, 'grad_norm': 0.328125, 'learning_rate': 0.00011608202500291161, 'epoch': 0.39}
{'loss': 1.2876, 'grad_norm': 0.498046875, 'learning_rate': 0.00011607066262544775, 'epoch': 0.39}
{'loss': 1.2122, 'grad_norm': 0.71875, 'learning_rate': 0.0001160593002479839, 'epoch': 0.39}
{'loss': 1.1152, 'grad_norm': 0.431640625, 'learning_rate': 0.00011604793787052004, 'epoch': 0.39}
{'loss': 1.2258, 'grad_norm': 0.72265625, 'learning_rate': 0.00011603657549305618, 'epoch': 0.39}
{'loss': 1.0168, 'grad_norm': 0.498046875, 'learning_rate': 0.00011602521311559231, 'epoch': 0.39}
{'loss': 1.3065, 'grad_norm



{'loss': 1.3934, 'grad_norm': 0.66796875, 'learning_rate': 0.00011584341507617053, 'epoch': 0.39}
{'loss': 1.3002, 'grad_norm': 0.625, 'learning_rate': 0.00011583205269870667, 'epoch': 0.39}
{'loss': 1.1749, 'grad_norm': 0.486328125, 'learning_rate': 0.00011582069032124284, 'epoch': 0.39}
{'loss': 1.2222, 'grad_norm': 0.546875, 'learning_rate': 0.00011580932794377897, 'epoch': 0.39}
{'loss': 1.0532, 'grad_norm': 0.83203125, 'learning_rate': 0.0001157979655663151, 'epoch': 0.39}
{'loss': 1.4821, 'grad_norm': 0.44921875, 'learning_rate': 0.00011578660318885124, 'epoch': 0.39}
{'loss': 1.0909, 'grad_norm': 0.6875, 'learning_rate': 0.00011577524081138737, 'epoch': 0.39}
{'loss': 1.2383, 'grad_norm': 0.46875, 'learning_rate': 0.00011576387843392351, 'epoch': 0.39}
{'loss': 1.1328, 'grad_norm': 0.5703125, 'learning_rate': 0.00011575251605645968, 'epoch': 0.39}
{'loss': 1.0888, 'grad_norm': 0.796875, 'learning_rate': 0.0001157411536789958, 'epoch': 0.39}
{'loss': 1.2252, 'grad_norm': 0.71875,



{'loss': 1.1942, 'grad_norm': 0.609375, 'learning_rate': 0.00011555935563957403, 'epoch': 0.4}
{'loss': 1.125, 'grad_norm': 0.65234375, 'learning_rate': 0.00011554799326211017, 'epoch': 0.4}
{'loss': 1.194, 'grad_norm': 0.5078125, 'learning_rate': 0.0001155366308846463, 'epoch': 0.4}
{'loss': 1.2034, 'grad_norm': 0.6953125, 'learning_rate': 0.00011552526850718243, 'epoch': 0.4}
{'loss': 1.1012, 'grad_norm': 0.474609375, 'learning_rate': 0.0001155139061297186, 'epoch': 0.4}
{'loss': 1.4354, 'grad_norm': 0.52734375, 'learning_rate': 0.00011550254375225474, 'epoch': 0.4}
{'loss': 1.2527, 'grad_norm': 1.09375, 'learning_rate': 0.00011549118137479087, 'epoch': 0.4}
{'loss': 1.0118, 'grad_norm': 0.478515625, 'learning_rate': 0.00011547981899732701, 'epoch': 0.4}
{'loss': 1.177, 'grad_norm': 0.63671875, 'learning_rate': 0.00011546845661986314, 'epoch': 0.4}
{'loss': 1.1151, 'grad_norm': 0.83203125, 'learning_rate': 0.00011545709424239927, 'epoch': 0.4}
{'loss': 1.3934, 'grad_norm': 0.5078125,



{'loss': 1.2486, 'grad_norm': 0.5703125, 'learning_rate': 0.00011527529620297752, 'epoch': 0.4}
{'loss': 1.2424, 'grad_norm': 0.7890625, 'learning_rate': 0.00011526393382551366, 'epoch': 0.4}
{'loss': 1.2463, 'grad_norm': 0.421875, 'learning_rate': 0.0001152525714480498, 'epoch': 0.4}
{'loss': 1.1865, 'grad_norm': 0.67578125, 'learning_rate': 0.00011524120907058593, 'epoch': 0.4}
{'loss': 1.0899, 'grad_norm': 1.625, 'learning_rate': 0.00011522984669312207, 'epoch': 0.4}
{'loss': 1.3165, 'grad_norm': 0.51171875, 'learning_rate': 0.00011521848431565821, 'epoch': 0.4}
{'loss': 1.1972, 'grad_norm': 0.79296875, 'learning_rate': 0.00011520712193819436, 'epoch': 0.4}
{'loss': 1.0892, 'grad_norm': 0.40625, 'learning_rate': 0.0001151957595607305, 'epoch': 0.4}
{'loss': 1.3146, 'grad_norm': 0.68359375, 'learning_rate': 0.00011518439718326664, 'epoch': 0.4}
{'loss': 1.1066, 'grad_norm': 0.78515625, 'learning_rate': 0.00011517303480580277, 'epoch': 0.4}
{'loss': 1.372, 'grad_norm': 0.470703125, 'l



{'loss': 1.2659, 'grad_norm': 0.44921875, 'learning_rate': 0.000114991236766381, 'epoch': 0.4}
{'loss': 1.0932, 'grad_norm': 0.6640625, 'learning_rate': 0.00011497987438891716, 'epoch': 0.4}
{'loss': 1.2582, 'grad_norm': 0.447265625, 'learning_rate': 0.00011496851201145328, 'epoch': 0.4}
{'loss': 1.2546, 'grad_norm': 0.68359375, 'learning_rate': 0.00011495714963398942, 'epoch': 0.4}
{'loss': 1.0795, 'grad_norm': 0.81640625, 'learning_rate': 0.00011494578725652556, 'epoch': 0.4}
{'loss': 1.3519, 'grad_norm': 0.462890625, 'learning_rate': 0.0001149344248790617, 'epoch': 0.4}
{'loss': 1.0679, 'grad_norm': 0.6875, 'learning_rate': 0.00011492306250159783, 'epoch': 0.4}
{'loss': 1.0785, 'grad_norm': 0.404296875, 'learning_rate': 0.00011491170012413397, 'epoch': 0.4}
{'loss': 1.2129, 'grad_norm': 0.52734375, 'learning_rate': 0.00011490033774667012, 'epoch': 0.4}
{'loss': 1.1147, 'grad_norm': 0.52734375, 'learning_rate': 0.00011488897536920626, 'epoch': 0.4}
{'loss': 1.4026, 'grad_norm': 0.589



{'loss': 1.2206, 'grad_norm': 0.45703125, 'learning_rate': 0.0001147071773297845, 'epoch': 0.4}
{'loss': 1.1719, 'grad_norm': 0.80078125, 'learning_rate': 0.00011469581495232062, 'epoch': 0.4}
{'loss': 1.1025, 'grad_norm': 0.58203125, 'learning_rate': 0.00011468445257485676, 'epoch': 0.4}
{'loss': 1.2492, 'grad_norm': 0.5859375, 'learning_rate': 0.00011467309019739292, 'epoch': 0.4}
{'loss': 1.0311, 'grad_norm': 0.8125, 'learning_rate': 0.00011466172781992906, 'epoch': 0.4}
{'loss': 1.3014, 'grad_norm': 0.5625, 'learning_rate': 0.0001146503654424652, 'epoch': 0.4}
{'loss': 1.197, 'grad_norm': 0.62109375, 'learning_rate': 0.00011463900306500132, 'epoch': 0.4}
{'loss': 1.2534, 'grad_norm': 0.60546875, 'learning_rate': 0.00011462764068753746, 'epoch': 0.4}
{'loss': 1.2019, 'grad_norm': 0.55078125, 'learning_rate': 0.0001146162783100736, 'epoch': 0.4}
{'loss': 1.157, 'grad_norm': 0.8828125, 'learning_rate': 0.00011460491593260974, 'epoch': 0.4}
{'loss': 1.3668, 'grad_norm': 0.46875, 'learn



{'loss': 1.4, 'grad_norm': 0.50390625, 'learning_rate': 0.00011442311789318798, 'epoch': 0.4}
{'loss': 1.1413, 'grad_norm': 1.53125, 'learning_rate': 0.00011441175551572412, 'epoch': 0.4}
{'loss': 1.0914, 'grad_norm': 0.416015625, 'learning_rate': 0.00011440039313826026, 'epoch': 0.4}
{'loss': 1.1523, 'grad_norm': 0.640625, 'learning_rate': 0.0001143890307607964, 'epoch': 0.4}
{'loss': 0.9501, 'grad_norm': 0.953125, 'learning_rate': 0.00011437766838333252, 'epoch': 0.4}
{'loss': 1.2215, 'grad_norm': 0.57421875, 'learning_rate': 0.00011436630600586868, 'epoch': 0.4}
{'loss': 1.2111, 'grad_norm': 0.53515625, 'learning_rate': 0.00011435494362840482, 'epoch': 0.4}
{'loss': 1.2059, 'grad_norm': 0.34765625, 'learning_rate': 0.00011434358125094096, 'epoch': 0.4}
{'loss': 1.2283, 'grad_norm': 0.52734375, 'learning_rate': 0.0001143322188734771, 'epoch': 0.4}
{'loss': 1.1153, 'grad_norm': 0.8046875, 'learning_rate': 0.00011432085649601324, 'epoch': 0.4}
{'loss': 1.4299, 'grad_norm': 0.48828125, 



{'loss': 1.3501, 'grad_norm': 0.64453125, 'learning_rate': 0.00011413905845659145, 'epoch': 0.4}
{'loss': 1.2902, 'grad_norm': 0.6875, 'learning_rate': 0.0001141276960791276, 'epoch': 0.4}
{'loss': 1.099, 'grad_norm': 0.5, 'learning_rate': 0.00011411633370166374, 'epoch': 0.4}
{'loss': 1.284, 'grad_norm': 0.423828125, 'learning_rate': 0.00011410497132419988, 'epoch': 0.4}
{'loss': 1.151, 'grad_norm': 0.875, 'learning_rate': 0.00011409360894673602, 'epoch': 0.4}
{'loss': 1.4204, 'grad_norm': 0.5, 'learning_rate': 0.00011408224656927216, 'epoch': 0.4}
{'loss': 1.1238, 'grad_norm': 0.498046875, 'learning_rate': 0.0001140708841918083, 'epoch': 0.4}
{'loss': 1.2148, 'grad_norm': 0.4921875, 'learning_rate': 0.00011405952181434445, 'epoch': 0.4}
{'loss': 1.2473, 'grad_norm': 0.56640625, 'learning_rate': 0.00011404815943688058, 'epoch': 0.4}
{'loss': 0.9658, 'grad_norm': 1.296875, 'learning_rate': 0.00011403679705941672, 'epoch': 0.4}
{'loss': 1.3005, 'grad_norm': 0.5078125, 'learning_rate': 0



{'loss': 1.3646, 'grad_norm': 0.451171875, 'learning_rate': 0.00011385499901999494, 'epoch': 0.4}
{'loss': 1.2003, 'grad_norm': 0.6953125, 'learning_rate': 0.00011384363664253108, 'epoch': 0.4}
{'loss': 1.1917, 'grad_norm': 0.41796875, 'learning_rate': 0.00011383227426506722, 'epoch': 0.4}
{'loss': 1.1854, 'grad_norm': 0.55859375, 'learning_rate': 0.00011382091188760338, 'epoch': 0.4}
{'loss': 1.1227, 'grad_norm': 0.6796875, 'learning_rate': 0.00011380954951013951, 'epoch': 0.4}
{'loss': 1.4079, 'grad_norm': 0.578125, 'learning_rate': 0.00011379818713267564, 'epoch': 0.4}
{'loss': 1.2461, 'grad_norm': 0.53125, 'learning_rate': 0.00011378682475521178, 'epoch': 0.4}
{'loss': 1.2862, 'grad_norm': 0.443359375, 'learning_rate': 0.00011377546237774792, 'epoch': 0.4}
{'loss': 1.2049, 'grad_norm': 0.5078125, 'learning_rate': 0.00011376410000028406, 'epoch': 0.4}
{'loss': 1.0529, 'grad_norm': 0.62109375, 'learning_rate': 0.0001137527376228202, 'epoch': 0.4}
{'loss': 1.3543, 'grad_norm': 0.45117



{'loss': 1.3347, 'grad_norm': 0.49609375, 'learning_rate': 0.00011357093958339844, 'epoch': 0.4}
{'loss': 1.1429, 'grad_norm': 0.81640625, 'learning_rate': 0.00011355957720593458, 'epoch': 0.4}
{'loss': 1.1184, 'grad_norm': 0.53125, 'learning_rate': 0.00011354821482847072, 'epoch': 0.4}
{'loss': 1.1612, 'grad_norm': 0.80078125, 'learning_rate': 0.00011353685245100684, 'epoch': 0.4}
{'loss': 1.0188, 'grad_norm': 0.4765625, 'learning_rate': 0.00011352549007354298, 'epoch': 0.4}
{'loss': 1.1998, 'grad_norm': 0.515625, 'learning_rate': 0.00011351412769607915, 'epoch': 0.4}
{'loss': 1.0211, 'grad_norm': 0.63671875, 'learning_rate': 0.00011350276531861528, 'epoch': 0.4}
{'loss': 1.1501, 'grad_norm': 0.546875, 'learning_rate': 0.00011349140294115142, 'epoch': 0.4}
{'loss': 1.1028, 'grad_norm': 0.79296875, 'learning_rate': 0.00011348004056368755, 'epoch': 0.4}
{'loss': 0.9874, 'grad_norm': 0.7734375, 'learning_rate': 0.00011346867818622368, 'epoch': 0.4}
{'loss': 1.3145, 'grad_norm': 0.6835937



{'loss': 1.3376, 'grad_norm': 0.86328125, 'learning_rate': 0.00011328688014680193, 'epoch': 0.41}
{'loss': 1.1442, 'grad_norm': 0.62890625, 'learning_rate': 0.00011327551776933807, 'epoch': 0.41}
{'loss': 1.1722, 'grad_norm': 0.478515625, 'learning_rate': 0.0001132641553918742, 'epoch': 0.41}
{'loss': 1.2481, 'grad_norm': 0.68359375, 'learning_rate': 0.00011325279301441034, 'epoch': 0.41}
{'loss': 1.1003, 'grad_norm': 1.0234375, 'learning_rate': 0.00011324143063694648, 'epoch': 0.41}
{'loss': 1.463, 'grad_norm': 0.48046875, 'learning_rate': 0.00011323006825948262, 'epoch': 0.41}
{'loss': 1.15, 'grad_norm': 0.61328125, 'learning_rate': 0.00011321870588201874, 'epoch': 0.41}
{'loss': 1.0984, 'grad_norm': 0.515625, 'learning_rate': 0.00011320734350455491, 'epoch': 0.41}
{'loss': 1.1582, 'grad_norm': 0.546875, 'learning_rate': 0.00011319598112709105, 'epoch': 0.41}
{'loss': 1.1362, 'grad_norm': 0.59765625, 'learning_rate': 0.00011318461874962718, 'epoch': 0.41}
{'loss': 1.4247, 'grad_norm'



{'loss': 1.2477, 'grad_norm': 0.45703125, 'learning_rate': 0.0001130028207102054, 'epoch': 0.41}
{'loss': 1.2399, 'grad_norm': 0.79296875, 'learning_rate': 0.00011299145833274154, 'epoch': 0.41}
{'loss': 1.2196, 'grad_norm': 0.447265625, 'learning_rate': 0.00011298009595527769, 'epoch': 0.41}
{'loss': 1.3353, 'grad_norm': 0.62109375, 'learning_rate': 0.00011296873357781383, 'epoch': 0.41}
{'loss': 1.0812, 'grad_norm': 0.7421875, 'learning_rate': 0.00011295737120034997, 'epoch': 0.41}
{'loss': 1.5166, 'grad_norm': 0.50390625, 'learning_rate': 0.0001129460088228861, 'epoch': 0.41}
{'loss': 1.1854, 'grad_norm': 0.73828125, 'learning_rate': 0.00011293464644542224, 'epoch': 0.41}
{'loss': 1.1928, 'grad_norm': 0.41796875, 'learning_rate': 0.00011292328406795838, 'epoch': 0.41}
{'loss': 1.2195, 'grad_norm': 0.56640625, 'learning_rate': 0.00011291192169049452, 'epoch': 0.41}
{'loss': 1.0889, 'grad_norm': 0.60546875, 'learning_rate': 0.00011290055931303067, 'epoch': 0.41}
{'loss': 1.4559, 'grad



{'loss': 1.4483, 'grad_norm': 0.466796875, 'learning_rate': 0.0001127187612736089, 'epoch': 0.41}
{'loss': 1.1486, 'grad_norm': 0.498046875, 'learning_rate': 0.00011270739889614503, 'epoch': 0.41}
{'loss': 1.2445, 'grad_norm': 0.49609375, 'learning_rate': 0.00011269603651868117, 'epoch': 0.41}
{'loss': 1.2445, 'grad_norm': 0.71484375, 'learning_rate': 0.0001126846741412173, 'epoch': 0.41}
{'loss': 1.1254, 'grad_norm': 0.890625, 'learning_rate': 0.00011267331176375347, 'epoch': 0.41}
{'loss': 1.29, 'grad_norm': 0.6640625, 'learning_rate': 0.0001126619493862896, 'epoch': 0.41}
{'loss': 1.1184, 'grad_norm': 1.328125, 'learning_rate': 0.00011265058700882573, 'epoch': 0.41}
{'loss': 1.284, 'grad_norm': 0.431640625, 'learning_rate': 0.00011263922463136187, 'epoch': 0.41}
{'loss': 1.2041, 'grad_norm': 0.4765625, 'learning_rate': 0.000112627862253898, 'epoch': 0.41}
{'loss': 1.1505, 'grad_norm': 0.6875, 'learning_rate': 0.00011261649987643414, 'epoch': 0.41}
{'loss': 1.2106, 'grad_norm': 0.527



{'loss': 1.2802, 'grad_norm': 0.498046875, 'learning_rate': 0.00011243470183701239, 'epoch': 0.41}
{'loss': 1.2581, 'grad_norm': 0.50390625, 'learning_rate': 0.00011242333945954853, 'epoch': 0.41}
{'loss': 1.2608, 'grad_norm': 0.45703125, 'learning_rate': 0.00011241197708208467, 'epoch': 0.41}
{'loss': 1.1585, 'grad_norm': 0.8515625, 'learning_rate': 0.0001124006147046208, 'epoch': 0.41}
{'loss': 0.9737, 'grad_norm': 0.546875, 'learning_rate': 0.00011238925232715694, 'epoch': 0.41}
{'loss': 1.3632, 'grad_norm': 0.390625, 'learning_rate': 0.00011237788994969307, 'epoch': 0.41}
{'loss': 1.1662, 'grad_norm': 0.5390625, 'learning_rate': 0.0001123665275722292, 'epoch': 0.41}
{'loss': 1.2858, 'grad_norm': 0.4296875, 'learning_rate': 0.00011235516519476537, 'epoch': 0.41}
{'loss': 1.3077, 'grad_norm': 0.5234375, 'learning_rate': 0.00011234380281730151, 'epoch': 0.41}
{'loss': 1.1279, 'grad_norm': 0.59375, 'learning_rate': 0.00011233244043983764, 'epoch': 0.41}
{'loss': 1.3394, 'grad_norm': 0.



{'loss': 1.2994, 'grad_norm': 0.625, 'learning_rate': 0.00011215064240041586, 'epoch': 0.41}
{'loss': 1.23, 'grad_norm': 0.65234375, 'learning_rate': 0.000112139280022952, 'epoch': 0.41}
{'loss': 1.2128, 'grad_norm': 0.40234375, 'learning_rate': 0.00011212791764548815, 'epoch': 0.41}
{'loss': 1.2476, 'grad_norm': 0.6484375, 'learning_rate': 0.00011211655526802429, 'epoch': 0.41}
{'loss': 0.9271, 'grad_norm': 0.88671875, 'learning_rate': 0.00011210519289056043, 'epoch': 0.41}
{'loss': 1.2534, 'grad_norm': 0.494140625, 'learning_rate': 0.00011209383051309657, 'epoch': 0.41}
{'loss': 1.1472, 'grad_norm': 0.65625, 'learning_rate': 0.0001120824681356327, 'epoch': 0.41}
{'loss': 1.2409, 'grad_norm': 0.79296875, 'learning_rate': 0.00011207110575816884, 'epoch': 0.41}
{'loss': 1.3267, 'grad_norm': 0.458984375, 'learning_rate': 0.00011205974338070497, 'epoch': 0.41}
{'loss': 0.9913, 'grad_norm': 0.435546875, 'learning_rate': 0.00011204838100324113, 'epoch': 0.41}
{'loss': 1.2004, 'grad_norm': 0



{'loss': 1.3448, 'grad_norm': 0.57421875, 'learning_rate': 0.00011186658296381935, 'epoch': 0.41}
{'loss': 1.2281, 'grad_norm': 0.8125, 'learning_rate': 0.00011185522058635549, 'epoch': 0.41}
{'loss': 1.166, 'grad_norm': 0.6484375, 'learning_rate': 0.00011184385820889163, 'epoch': 0.41}
{'loss': 1.3382, 'grad_norm': 0.55859375, 'learning_rate': 0.00011183249583142776, 'epoch': 0.41}
{'loss': 1.0742, 'grad_norm': 0.7109375, 'learning_rate': 0.00011182113345396392, 'epoch': 0.41}
{'loss': 1.3607, 'grad_norm': 0.84375, 'learning_rate': 0.00011180977107650005, 'epoch': 0.41}
{'loss': 1.1644, 'grad_norm': 0.72265625, 'learning_rate': 0.00011179840869903619, 'epoch': 0.41}
{'loss': 1.1662, 'grad_norm': 0.45703125, 'learning_rate': 0.00011178704632157233, 'epoch': 0.41}
{'loss': 1.4424, 'grad_norm': 0.578125, 'learning_rate': 0.00011177568394410847, 'epoch': 0.41}
{'loss': 1.1021, 'grad_norm': 0.78515625, 'learning_rate': 0.0001117643215666446, 'epoch': 0.41}
{'loss': 1.4194, 'grad_norm': 0.5



{'loss': 1.4727, 'grad_norm': 0.51953125, 'learning_rate': 0.00011158252352722285, 'epoch': 0.41}
{'loss': 1.1192, 'grad_norm': 0.68359375, 'learning_rate': 0.00011157116114975899, 'epoch': 0.41}
{'loss': 1.1498, 'grad_norm': 0.431640625, 'learning_rate': 0.00011155979877229513, 'epoch': 0.41}
{'loss': 1.2699, 'grad_norm': 0.55859375, 'learning_rate': 0.00011154843639483125, 'epoch': 0.41}
{'loss': 1.123, 'grad_norm': 1.1953125, 'learning_rate': 0.00011153707401736739, 'epoch': 0.41}
{'loss': 1.4332, 'grad_norm': 0.466796875, 'learning_rate': 0.00011152571163990353, 'epoch': 0.41}
{'loss': 1.1465, 'grad_norm': 0.6875, 'learning_rate': 0.00011151434926243969, 'epoch': 0.41}
{'loss': 1.2291, 'grad_norm': 0.474609375, 'learning_rate': 0.00011150298688497583, 'epoch': 0.41}
{'loss': 1.1866, 'grad_norm': 0.515625, 'learning_rate': 0.00011149162450751195, 'epoch': 0.41}
{'loss': 1.1032, 'grad_norm': 0.357421875, 'learning_rate': 0.00011148026213004809, 'epoch': 0.41}
{'loss': 1.2382, 'grad_n



{'loss': 1.4905, 'grad_norm': 0.5234375, 'learning_rate': 0.00011129846409062632, 'epoch': 0.41}
{'loss': 1.116, 'grad_norm': 0.62890625, 'learning_rate': 0.00011128710171316248, 'epoch': 0.41}
{'loss': 1.1192, 'grad_norm': 0.5546875, 'learning_rate': 0.00011127573933569861, 'epoch': 0.41}
{'loss': 1.2885, 'grad_norm': 0.5234375, 'learning_rate': 0.00011126437695823475, 'epoch': 0.41}
{'loss': 1.0763, 'grad_norm': 0.72265625, 'learning_rate': 0.00011125301458077089, 'epoch': 0.41}
{'loss': 1.2519, 'grad_norm': 0.494140625, 'learning_rate': 0.00011124165220330703, 'epoch': 0.41}
{'loss': 1.144, 'grad_norm': 0.78515625, 'learning_rate': 0.00011123028982584317, 'epoch': 0.41}
{'loss': 1.2064, 'grad_norm': 0.5625, 'learning_rate': 0.00011121892744837929, 'epoch': 0.41}
{'loss': 1.2573, 'grad_norm': 0.65234375, 'learning_rate': 0.00011120756507091545, 'epoch': 0.41}
{'loss': 1.0723, 'grad_norm': 0.78515625, 'learning_rate': 0.00011119620269345159, 'epoch': 0.41}
{'loss': 1.3272, 'grad_norm'



{'loss': 1.3399, 'grad_norm': 0.498046875, 'learning_rate': 0.00011101440465402981, 'epoch': 0.42}
{'loss': 1.1458, 'grad_norm': 0.71484375, 'learning_rate': 0.00011100304227656595, 'epoch': 0.42}
{'loss': 1.1375, 'grad_norm': 0.458984375, 'learning_rate': 0.00011099167989910209, 'epoch': 0.42}
{'loss': 1.3448, 'grad_norm': 0.66796875, 'learning_rate': 0.00011098031752163823, 'epoch': 0.42}
{'loss': 1.0795, 'grad_norm': 0.76953125, 'learning_rate': 0.00011096895514417438, 'epoch': 0.42}
{'loss': 1.2416, 'grad_norm': 0.5703125, 'learning_rate': 0.00011095759276671051, 'epoch': 0.42}
{'loss': 1.087, 'grad_norm': 0.921875, 'learning_rate': 0.00011094623038924665, 'epoch': 0.42}
{'loss': 1.2373, 'grad_norm': 0.455078125, 'learning_rate': 0.00011093486801178279, 'epoch': 0.42}
{'loss': 1.2276, 'grad_norm': 0.63671875, 'learning_rate': 0.00011092350563431893, 'epoch': 0.42}
{'loss': 1.1141, 'grad_norm': 1.171875, 'learning_rate': 0.00011091214325685507, 'epoch': 0.42}
{'loss': 1.2862, 'grad_



{'loss': 1.3701, 'grad_norm': 0.5859375, 'learning_rate': 0.00011073034521743331, 'epoch': 0.42}
{'loss': 1.1848, 'grad_norm': 0.65625, 'learning_rate': 0.00011071898283996944, 'epoch': 0.42}
{'loss': 1.2742, 'grad_norm': 0.57421875, 'learning_rate': 0.00011070762046250557, 'epoch': 0.42}
{'loss': 1.1349, 'grad_norm': 0.58984375, 'learning_rate': 0.00011069625808504171, 'epoch': 0.42}
{'loss': 1.0888, 'grad_norm': 1.0859375, 'learning_rate': 0.00011068489570757785, 'epoch': 0.42}
{'loss': 1.4619, 'grad_norm': 0.58984375, 'learning_rate': 0.00011067353333011399, 'epoch': 0.42}
{'loss': 1.1895, 'grad_norm': 0.50390625, 'learning_rate': 0.00011066217095265014, 'epoch': 0.42}
{'loss': 1.3541, 'grad_norm': 0.48828125, 'learning_rate': 0.00011065080857518628, 'epoch': 0.42}
{'loss': 1.1523, 'grad_norm': 0.6484375, 'learning_rate': 0.00011063944619772242, 'epoch': 0.42}
{'loss': 1.1893, 'grad_norm': 0.8046875, 'learning_rate': 0.00011062808382025855, 'epoch': 0.42}
{'loss': 1.2659, 'grad_norm



{'loss': 1.3721, 'grad_norm': 0.58984375, 'learning_rate': 0.00011044628578083677, 'epoch': 0.42}
{'loss': 1.159, 'grad_norm': 0.81640625, 'learning_rate': 0.00011043492340337294, 'epoch': 0.42}
{'loss': 1.1907, 'grad_norm': 0.45703125, 'learning_rate': 0.00011042356102590908, 'epoch': 0.42}
{'loss': 1.311, 'grad_norm': 0.75, 'learning_rate': 0.00011041219864844521, 'epoch': 0.42}
{'loss': 1.0773, 'grad_norm': 0.6484375, 'learning_rate': 0.00011040083627098135, 'epoch': 0.42}
{'loss': 1.285, 'grad_norm': 0.52734375, 'learning_rate': 0.00011038947389351748, 'epoch': 0.42}
{'loss': 1.3067, 'grad_norm': 0.9453125, 'learning_rate': 0.00011037811151605361, 'epoch': 0.42}
{'loss': 1.1675, 'grad_norm': 0.46875, 'learning_rate': 0.00011036674913858975, 'epoch': 0.42}
{'loss': 1.2584, 'grad_norm': 0.59765625, 'learning_rate': 0.00011035538676112592, 'epoch': 0.42}
{'loss': 1.1943, 'grad_norm': 0.330078125, 'learning_rate': 0.00011034402438366205, 'epoch': 0.42}
{'loss': 1.2377, 'grad_norm': 0.5



{'loss': 1.392, 'grad_norm': 0.484375, 'learning_rate': 0.00011016222634424027, 'epoch': 0.42}
{'loss': 1.2456, 'grad_norm': 0.66796875, 'learning_rate': 0.00011015086396677641, 'epoch': 0.42}
{'loss': 1.2556, 'grad_norm': 0.431640625, 'learning_rate': 0.00011013950158931255, 'epoch': 0.42}
{'loss': 1.0886, 'grad_norm': 0.68359375, 'learning_rate': 0.0001101281392118487, 'epoch': 0.42}
{'loss': 0.9838, 'grad_norm': 0.6328125, 'learning_rate': 0.00011011677683438484, 'epoch': 0.42}
{'loss': 1.3427, 'grad_norm': 0.578125, 'learning_rate': 0.00011010541445692098, 'epoch': 0.42}
{'loss': 1.1683, 'grad_norm': 0.7578125, 'learning_rate': 0.00011009405207945711, 'epoch': 0.42}
{'loss': 1.0803, 'grad_norm': 0.51953125, 'learning_rate': 0.00011008268970199325, 'epoch': 0.42}
{'loss': 1.371, 'grad_norm': 0.58984375, 'learning_rate': 0.00011007132732452939, 'epoch': 0.42}
{'loss': 1.0406, 'grad_norm': 0.91796875, 'learning_rate': 0.00011005996494706551, 'epoch': 0.42}
{'loss': 1.3563, 'grad_norm'



{'loss': 1.3408, 'grad_norm': 0.5625, 'learning_rate': 0.00010987816690764376, 'epoch': 0.42}
{'loss': 1.1827, 'grad_norm': 0.9296875, 'learning_rate': 0.0001098668045301799, 'epoch': 0.42}
{'loss': 1.1404, 'grad_norm': 0.375, 'learning_rate': 0.00010985544215271604, 'epoch': 0.42}
{'loss': 1.2626, 'grad_norm': 0.69921875, 'learning_rate': 0.00010984407977525217, 'epoch': 0.42}
{'loss': 1.0949, 'grad_norm': 0.65234375, 'learning_rate': 0.00010983271739778831, 'epoch': 0.42}
{'loss': 1.2635, 'grad_norm': 0.5625, 'learning_rate': 0.00010982135502032446, 'epoch': 0.42}
{'loss': 1.3309, 'grad_norm': 0.8203125, 'learning_rate': 0.0001098099926428606, 'epoch': 0.42}
{'loss': 1.2871, 'grad_norm': 0.80859375, 'learning_rate': 0.00010979863026539674, 'epoch': 0.42}
{'loss': 1.2468, 'grad_norm': 0.87109375, 'learning_rate': 0.00010978726788793288, 'epoch': 0.42}
{'loss': 1.0805, 'grad_norm': 1.15625, 'learning_rate': 0.00010977590551046901, 'epoch': 0.42}
{'loss': 1.3571, 'grad_norm': 0.68359375



{'loss': 1.2897, 'grad_norm': 0.54296875, 'learning_rate': 0.00010959410747104726, 'epoch': 0.42}
{'loss': 1.2779, 'grad_norm': 0.515625, 'learning_rate': 0.0001095827450935834, 'epoch': 0.42}
{'loss': 1.2284, 'grad_norm': 0.451171875, 'learning_rate': 0.00010957138271611954, 'epoch': 0.42}
{'loss': 1.2386, 'grad_norm': 0.703125, 'learning_rate': 0.00010956002033865566, 'epoch': 0.42}
{'loss': 1.0164, 'grad_norm': 0.71875, 'learning_rate': 0.0001095486579611918, 'epoch': 0.42}
{'loss': 1.3932, 'grad_norm': 0.482421875, 'learning_rate': 0.00010953729558372794, 'epoch': 0.42}
{'loss': 1.113, 'grad_norm': 0.67578125, 'learning_rate': 0.00010952593320626407, 'epoch': 0.42}
{'loss': 1.2266, 'grad_norm': 0.50390625, 'learning_rate': 0.00010951457082880024, 'epoch': 0.42}
{'loss': 1.2936, 'grad_norm': 0.63671875, 'learning_rate': 0.00010950320845133636, 'epoch': 0.42}
{'loss': 1.2555, 'grad_norm': 1.140625, 'learning_rate': 0.0001094918460738725, 'epoch': 0.42}
{'loss': 1.4044, 'grad_norm': 0



{'loss': 1.3899, 'grad_norm': 0.5, 'learning_rate': 0.00010931004803445073, 'epoch': 0.42}
{'loss': 1.1863, 'grad_norm': 0.90234375, 'learning_rate': 0.00010929868565698687, 'epoch': 0.42}
{'loss': 1.2429, 'grad_norm': 0.59375, 'learning_rate': 0.000109287323279523, 'epoch': 0.42}
{'loss': 1.1443, 'grad_norm': 0.54296875, 'learning_rate': 0.00010927596090205916, 'epoch': 0.42}
{'loss': 1.0387, 'grad_norm': 1.4140625, 'learning_rate': 0.0001092645985245953, 'epoch': 0.42}
{'loss': 1.2447, 'grad_norm': 0.52734375, 'learning_rate': 0.00010925323614713144, 'epoch': 0.42}
{'loss': 1.0804, 'grad_norm': 0.70703125, 'learning_rate': 0.00010924187376966757, 'epoch': 0.42}
{'loss': 1.2333, 'grad_norm': 0.419921875, 'learning_rate': 0.0001092305113922037, 'epoch': 0.42}
{'loss': 1.2181, 'grad_norm': 0.61328125, 'learning_rate': 0.00010921914901473984, 'epoch': 0.42}
{'loss': 1.1231, 'grad_norm': 0.734375, 'learning_rate': 0.000109207786637276, 'epoch': 0.42}
{'loss': 1.3321, 'grad_norm': 0.523437



{'loss': 1.3218, 'grad_norm': 0.51171875, 'learning_rate': 0.00010902598859785422, 'epoch': 0.42}
{'loss': 1.138, 'grad_norm': 0.5625, 'learning_rate': 0.00010901462622039036, 'epoch': 0.42}
{'loss': 1.1515, 'grad_norm': 0.4921875, 'learning_rate': 0.0001090032638429265, 'epoch': 0.42}
{'loss': 1.3038, 'grad_norm': 0.61328125, 'learning_rate': 0.00010899190146546263, 'epoch': 0.42}
{'loss': 1.0682, 'grad_norm': 1.015625, 'learning_rate': 0.00010898053908799877, 'epoch': 0.42}
{'loss': 1.3049, 'grad_norm': 0.486328125, 'learning_rate': 0.00010896917671053492, 'epoch': 0.42}
{'loss': 1.1771, 'grad_norm': 0.72265625, 'learning_rate': 0.00010895781433307106, 'epoch': 0.42}
{'loss': 1.2358, 'grad_norm': 0.408203125, 'learning_rate': 0.0001089464519556072, 'epoch': 0.42}
{'loss': 1.0863, 'grad_norm': 0.76953125, 'learning_rate': 0.00010893508957814334, 'epoch': 0.42}
{'loss': 1.059, 'grad_norm': 0.94921875, 'learning_rate': 0.00010892372720067948, 'epoch': 0.42}
{'loss': 1.3641, 'grad_norm':



{'loss': 1.3532, 'grad_norm': 0.48828125, 'learning_rate': 0.00010874192916125772, 'epoch': 0.43}
{'loss': 1.0975, 'grad_norm': 0.80859375, 'learning_rate': 0.00010873056678379385, 'epoch': 0.43}
{'loss': 1.2384, 'grad_norm': 0.490234375, 'learning_rate': 0.00010871920440632998, 'epoch': 0.43}
{'loss': 1.2826, 'grad_norm': 0.6484375, 'learning_rate': 0.00010870784202886612, 'epoch': 0.43}
{'loss': 1.0524, 'grad_norm': 0.68359375, 'learning_rate': 0.00010869647965140226, 'epoch': 0.43}
{'loss': 1.2286, 'grad_norm': 0.65234375, 'learning_rate': 0.0001086851172739384, 'epoch': 0.43}
{'loss': 1.2015, 'grad_norm': 0.7734375, 'learning_rate': 0.00010867375489647454, 'epoch': 0.43}
{'loss': 1.1625, 'grad_norm': 0.515625, 'learning_rate': 0.00010866239251901069, 'epoch': 0.43}
{'loss': 1.2121, 'grad_norm': 0.56640625, 'learning_rate': 0.00010865103014154682, 'epoch': 0.43}
{'loss': 1.1627, 'grad_norm': 0.96875, 'learning_rate': 0.00010863966776408296, 'epoch': 0.43}
{'loss': 1.3089, 'grad_norm



{'loss': 1.3356, 'grad_norm': 0.462890625, 'learning_rate': 0.00010845786972466118, 'epoch': 0.43}
{'loss': 1.1675, 'grad_norm': 0.6484375, 'learning_rate': 0.00010844650734719732, 'epoch': 0.43}
{'loss': 1.3071, 'grad_norm': 0.42578125, 'learning_rate': 0.00010843514496973348, 'epoch': 0.43}
{'loss': 1.2023, 'grad_norm': 0.6171875, 'learning_rate': 0.00010842378259226962, 'epoch': 0.43}
{'loss': 1.1421, 'grad_norm': 0.7265625, 'learning_rate': 0.00010841242021480576, 'epoch': 0.43}
{'loss': 1.3189, 'grad_norm': 0.5703125, 'learning_rate': 0.00010840105783734188, 'epoch': 0.43}
{'loss': 1.1184, 'grad_norm': 0.5625, 'learning_rate': 0.00010838969545987802, 'epoch': 0.43}
{'loss': 1.2911, 'grad_norm': 0.50390625, 'learning_rate': 0.00010837833308241416, 'epoch': 0.43}
{'loss': 1.1887, 'grad_norm': 0.72265625, 'learning_rate': 0.0001083669707049503, 'epoch': 0.43}
{'loss': 1.1422, 'grad_norm': 0.64453125, 'learning_rate': 0.00010835560832748646, 'epoch': 0.43}
{'loss': 1.2967, 'grad_norm'



{'loss': 1.3061, 'grad_norm': 0.72265625, 'learning_rate': 0.00010817381028806468, 'epoch': 0.43}
{'loss': 1.1625, 'grad_norm': 0.703125, 'learning_rate': 0.00010816244791060082, 'epoch': 0.43}
{'loss': 1.1336, 'grad_norm': 0.51171875, 'learning_rate': 0.00010815108553313696, 'epoch': 0.43}
{'loss': 1.3566, 'grad_norm': 0.58984375, 'learning_rate': 0.0001081397231556731, 'epoch': 0.43}
{'loss': 1.064, 'grad_norm': 0.671875, 'learning_rate': 0.00010812836077820925, 'epoch': 0.43}
{'loss': 1.3878, 'grad_norm': 0.75, 'learning_rate': 0.00010811699840074538, 'epoch': 0.43}
{'loss': 1.127, 'grad_norm': 0.93359375, 'learning_rate': 0.00010810563602328152, 'epoch': 0.43}
{'loss': 1.1546, 'grad_norm': 0.4453125, 'learning_rate': 0.00010809427364581766, 'epoch': 0.43}
{'loss': 1.0866, 'grad_norm': 0.71875, 'learning_rate': 0.0001080829112683538, 'epoch': 0.43}
{'loss': 0.9517, 'grad_norm': 1.328125, 'learning_rate': 0.00010807154889088992, 'epoch': 0.43}
{'loss': 1.2471, 'grad_norm': 0.68359375



{'loss': 1.3753, 'grad_norm': 0.59375, 'learning_rate': 0.00010788975085146817, 'epoch': 0.43}
{'loss': 1.1574, 'grad_norm': 0.7109375, 'learning_rate': 0.00010787838847400431, 'epoch': 0.43}
{'loss': 1.21, 'grad_norm': 0.390625, 'learning_rate': 0.00010786702609654044, 'epoch': 0.43}
{'loss': 1.2773, 'grad_norm': 0.5703125, 'learning_rate': 0.00010785566371907658, 'epoch': 0.43}
{'loss': 0.9716, 'grad_norm': 0.84375, 'learning_rate': 0.00010784430134161272, 'epoch': 0.43}
{'loss': 1.2951, 'grad_norm': 0.52734375, 'learning_rate': 0.00010783293896414886, 'epoch': 0.43}
{'loss': 1.3193, 'grad_norm': 0.63671875, 'learning_rate': 0.00010782157658668501, 'epoch': 0.43}
{'loss': 1.0862, 'grad_norm': 0.412109375, 'learning_rate': 0.00010781021420922115, 'epoch': 0.43}
{'loss': 1.2661, 'grad_norm': 0.5859375, 'learning_rate': 0.00010779885183175729, 'epoch': 0.43}
{'loss': 1.0951, 'grad_norm': 1.6796875, 'learning_rate': 0.00010778748945429342, 'epoch': 0.43}
{'loss': 1.4223, 'grad_norm': 0.4



{'loss': 1.2885, 'grad_norm': 0.7578125, 'learning_rate': 0.00010760569141487164, 'epoch': 0.43}
{'loss': 1.2258, 'grad_norm': 1.0, 'learning_rate': 0.00010759432903740778, 'epoch': 0.43}
{'loss': 1.3119, 'grad_norm': 0.380859375, 'learning_rate': 0.00010758296665994395, 'epoch': 0.43}
{'loss': 1.2391, 'grad_norm': 0.53125, 'learning_rate': 0.00010757160428248007, 'epoch': 0.43}
{'loss': 1.0524, 'grad_norm': 0.6640625, 'learning_rate': 0.00010756024190501621, 'epoch': 0.43}
{'loss': 1.4569, 'grad_norm': 0.5, 'learning_rate': 0.00010754887952755235, 'epoch': 0.43}
{'loss': 1.221, 'grad_norm': 0.82421875, 'learning_rate': 0.00010753751715008848, 'epoch': 0.43}
{'loss': 1.2768, 'grad_norm': 0.48828125, 'learning_rate': 0.00010752615477262462, 'epoch': 0.43}
{'loss': 1.2888, 'grad_norm': 0.55078125, 'learning_rate': 0.00010751479239516079, 'epoch': 0.43}
{'loss': 1.1087, 'grad_norm': 0.6015625, 'learning_rate': 0.00010750343001769691, 'epoch': 0.43}
{'loss': 1.2388, 'grad_norm': 0.4296875,



{'loss': 1.3005, 'grad_norm': 0.94140625, 'learning_rate': 0.00010732163197827514, 'epoch': 0.43}
{'loss': 1.1535, 'grad_norm': 0.7265625, 'learning_rate': 0.00010731026960081128, 'epoch': 0.43}
{'loss': 1.2257, 'grad_norm': 0.65625, 'learning_rate': 0.0001072989072233474, 'epoch': 0.43}
{'loss': 1.2549, 'grad_norm': 0.52734375, 'learning_rate': 0.00010728754484588354, 'epoch': 0.43}
{'loss': 1.2113, 'grad_norm': 1.0390625, 'learning_rate': 0.00010727618246841971, 'epoch': 0.43}
{'loss': 1.245, 'grad_norm': 0.671875, 'learning_rate': 0.00010726482009095585, 'epoch': 0.43}
{'loss': 1.176, 'grad_norm': 0.828125, 'learning_rate': 0.00010725345771349198, 'epoch': 0.43}
{'loss': 1.1971, 'grad_norm': 0.5859375, 'learning_rate': 0.00010724209533602811, 'epoch': 0.43}
{'loss': 1.2641, 'grad_norm': 0.6796875, 'learning_rate': 0.00010723073295856425, 'epoch': 0.43}
{'loss': 0.9793, 'grad_norm': 1.078125, 'learning_rate': 0.00010721937058110038, 'epoch': 0.43}
{'loss': 1.2981, 'grad_norm': 0.6015



{'loss': 1.3083, 'grad_norm': 0.498046875, 'learning_rate': 0.00010703757254167863, 'epoch': 0.43}
{'loss': 1.2584, 'grad_norm': 0.6640625, 'learning_rate': 0.00010702621016421477, 'epoch': 0.43}
{'loss': 1.1409, 'grad_norm': 0.384765625, 'learning_rate': 0.0001070148477867509, 'epoch': 0.43}
{'loss': 1.253, 'grad_norm': 0.62109375, 'learning_rate': 0.00010700348540928704, 'epoch': 0.43}
{'loss': 1.1572, 'grad_norm': 1.2578125, 'learning_rate': 0.00010699212303182318, 'epoch': 0.43}
{'loss': 1.405, 'grad_norm': 0.70703125, 'learning_rate': 0.00010698076065435932, 'epoch': 0.43}
{'loss': 1.1454, 'grad_norm': 0.5859375, 'learning_rate': 0.00010696939827689547, 'epoch': 0.43}
{'loss': 1.2256, 'grad_norm': 0.484375, 'learning_rate': 0.00010695803589943161, 'epoch': 0.43}
{'loss': 1.2638, 'grad_norm': 0.6015625, 'learning_rate': 0.00010694667352196775, 'epoch': 0.43}
{'loss': 1.0543, 'grad_norm': 0.74609375, 'learning_rate': 0.00010693531114450388, 'epoch': 0.43}
{'loss': 1.3916, 'grad_norm



{'loss': 1.2457, 'grad_norm': 0.478515625, 'learning_rate': 0.0001067535131050821, 'epoch': 0.43}
{'loss': 1.2271, 'grad_norm': 0.77734375, 'learning_rate': 0.00010674215072761827, 'epoch': 0.43}
{'loss': 1.1154, 'grad_norm': 0.5546875, 'learning_rate': 0.00010673078835015439, 'epoch': 0.43}
{'loss': 1.2062, 'grad_norm': 0.451171875, 'learning_rate': 0.00010671942597269053, 'epoch': 0.43}
{'loss': 1.0216, 'grad_norm': 0.59765625, 'learning_rate': 0.00010670806359522667, 'epoch': 0.43}
{'loss': 1.2908, 'grad_norm': 0.6796875, 'learning_rate': 0.0001066967012177628, 'epoch': 0.43}
{'loss': 1.1981, 'grad_norm': 0.64453125, 'learning_rate': 0.00010668533884029894, 'epoch': 0.43}
{'loss': 1.133, 'grad_norm': 0.5546875, 'learning_rate': 0.00010667397646283508, 'epoch': 0.43}
{'loss': 1.2575, 'grad_norm': 0.64453125, 'learning_rate': 0.00010666261408537123, 'epoch': 0.43}
{'loss': 0.945, 'grad_norm': 1.15625, 'learning_rate': 0.00010665125170790737, 'epoch': 0.43}
{'loss': 1.3498, 'grad_norm'



{'loss': 1.304, 'grad_norm': 0.55078125, 'learning_rate': 0.00010646945366848559, 'epoch': 0.44}
{'loss': 1.2463, 'grad_norm': 0.71875, 'learning_rate': 0.00010645809129102173, 'epoch': 0.44}
{'loss': 1.2092, 'grad_norm': 0.625, 'learning_rate': 0.00010644672891355787, 'epoch': 0.44}
{'loss': 1.1954, 'grad_norm': 0.57421875, 'learning_rate': 0.00010643536653609403, 'epoch': 0.44}
{'loss': 1.0298, 'grad_norm': 0.96875, 'learning_rate': 0.00010642400415863017, 'epoch': 0.44}
{'loss': 1.4395, 'grad_norm': 0.515625, 'learning_rate': 0.0001064126417811663, 'epoch': 0.44}
{'loss': 1.2909, 'grad_norm': 1.0546875, 'learning_rate': 0.00010640127940370243, 'epoch': 0.44}
{'loss': 1.1649, 'grad_norm': 0.443359375, 'learning_rate': 0.00010638991702623857, 'epoch': 0.44}
{'loss': 1.2017, 'grad_norm': 0.73046875, 'learning_rate': 0.00010637855464877471, 'epoch': 0.44}
{'loss': 1.0493, 'grad_norm': 0.546875, 'learning_rate': 0.00010636719227131084, 'epoch': 0.44}
{'loss': 1.3334, 'grad_norm': 0.60156



{'loss': 1.2686, 'grad_norm': 0.458984375, 'learning_rate': 0.00010618539423188909, 'epoch': 0.44}
{'loss': 1.1703, 'grad_norm': 0.6953125, 'learning_rate': 0.00010617403185442523, 'epoch': 0.44}
{'loss': 1.1794, 'grad_norm': 0.4765625, 'learning_rate': 0.00010616266947696137, 'epoch': 0.44}
{'loss': 1.2087, 'grad_norm': 0.6640625, 'learning_rate': 0.0001061513070994975, 'epoch': 0.44}
{'loss': 1.0166, 'grad_norm': 0.87890625, 'learning_rate': 0.00010613994472203363, 'epoch': 0.44}
{'loss': 1.2162, 'grad_norm': 0.6015625, 'learning_rate': 0.0001061285823445698, 'epoch': 0.44}
{'loss': 1.2164, 'grad_norm': 0.609375, 'learning_rate': 0.00010611721996710593, 'epoch': 0.44}
{'loss': 1.2427, 'grad_norm': 0.482421875, 'learning_rate': 0.00010610585758964207, 'epoch': 0.44}
{'loss': 1.286, 'grad_norm': 0.58203125, 'learning_rate': 0.00010609449521217821, 'epoch': 0.44}
{'loss': 1.0952, 'grad_norm': 1.1484375, 'learning_rate': 0.00010608313283471433, 'epoch': 0.44}
{'loss': 1.244, 'grad_norm':



{'loss': 1.3727, 'grad_norm': 0.54296875, 'learning_rate': 0.00010590133479529256, 'epoch': 0.44}
{'loss': 1.0816, 'grad_norm': 0.98828125, 'learning_rate': 0.00010588997241782872, 'epoch': 0.44}
{'loss': 1.1929, 'grad_norm': 0.48046875, 'learning_rate': 0.00010587861004036485, 'epoch': 0.44}
{'loss': 1.2653, 'grad_norm': 0.578125, 'learning_rate': 0.00010586724766290099, 'epoch': 0.44}
{'loss': 1.08, 'grad_norm': 0.546875, 'learning_rate': 0.00010585588528543713, 'epoch': 0.44}
{'loss': 1.3348, 'grad_norm': 0.52734375, 'learning_rate': 0.00010584452290797327, 'epoch': 0.44}
{'loss': 1.0742, 'grad_norm': 0.75390625, 'learning_rate': 0.0001058331605305094, 'epoch': 0.44}
{'loss': 1.1259, 'grad_norm': 0.4921875, 'learning_rate': 0.00010582179815304556, 'epoch': 0.44}
{'loss': 1.2585, 'grad_norm': 0.703125, 'learning_rate': 0.0001058104357755817, 'epoch': 0.44}
{'loss': 1.1021, 'grad_norm': 0.90625, 'learning_rate': 0.00010579907339811783, 'epoch': 0.44}
{'loss': 1.3817, 'grad_norm': 0.59



{'loss': 1.2691, 'grad_norm': 0.53515625, 'learning_rate': 0.00010561727535869605, 'epoch': 0.44}
{'loss': 1.1686, 'grad_norm': 0.6875, 'learning_rate': 0.00010560591298123219, 'epoch': 0.44}
{'loss': 1.2358, 'grad_norm': 0.54296875, 'learning_rate': 0.00010559455060376833, 'epoch': 0.44}
{'loss': 1.2589, 'grad_norm': 0.57421875, 'learning_rate': 0.00010558318822630449, 'epoch': 0.44}
{'loss': 1.2762, 'grad_norm': 0.62890625, 'learning_rate': 0.00010557182584884062, 'epoch': 0.44}
{'loss': 1.3616, 'grad_norm': 0.609375, 'learning_rate': 0.00010556046347137675, 'epoch': 0.44}
{'loss': 1.2898, 'grad_norm': 0.8125, 'learning_rate': 0.00010554910109391289, 'epoch': 0.44}
{'loss': 1.1627, 'grad_norm': 0.703125, 'learning_rate': 0.00010553773871644903, 'epoch': 0.44}
{'loss': 1.1976, 'grad_norm': 0.76171875, 'learning_rate': 0.00010552637633898517, 'epoch': 0.44}
{'loss': 1.1146, 'grad_norm': 1.109375, 'learning_rate': 0.0001055150139615213, 'epoch': 0.44}
{'loss': 1.4996, 'grad_norm': 0.550



{'loss': 1.1765, 'grad_norm': 0.5625, 'learning_rate': 0.00010533321592209955, 'epoch': 0.44}
{'loss': 1.1151, 'grad_norm': 0.8671875, 'learning_rate': 0.00010532185354463569, 'epoch': 0.44}
{'loss': 1.1626, 'grad_norm': 0.44921875, 'learning_rate': 0.00010531049116717181, 'epoch': 0.44}
{'loss': 1.2575, 'grad_norm': 0.5546875, 'learning_rate': 0.00010529912878970795, 'epoch': 0.44}
{'loss': 1.0453, 'grad_norm': 0.828125, 'learning_rate': 0.00010528776641224409, 'epoch': 0.44}
{'loss': 1.271, 'grad_norm': 0.64453125, 'learning_rate': 0.00010527640403478026, 'epoch': 0.44}
{'loss': 1.2389, 'grad_norm': 0.44140625, 'learning_rate': 0.00010526504165731639, 'epoch': 0.44}
{'loss': 1.2329, 'grad_norm': 0.4140625, 'learning_rate': 0.00010525367927985252, 'epoch': 0.44}
{'loss': 1.18, 'grad_norm': 0.625, 'learning_rate': 0.00010524231690238866, 'epoch': 0.44}
{'loss': 1.149, 'grad_norm': 0.9609375, 'learning_rate': 0.00010523095452492479, 'epoch': 0.44}
{'loss': 1.4359, 'grad_norm': 0.5664062



{'loss': 1.3311, 'grad_norm': 0.462890625, 'learning_rate': 0.00010504915648550304, 'epoch': 0.44}
{'loss': 1.201, 'grad_norm': 0.67578125, 'learning_rate': 0.00010503779410803918, 'epoch': 0.44}
{'loss': 1.1577, 'grad_norm': 0.38671875, 'learning_rate': 0.00010502643173057532, 'epoch': 0.44}
{'loss': 1.1974, 'grad_norm': 0.46875, 'learning_rate': 0.00010501506935311145, 'epoch': 0.44}
{'loss': 1.0831, 'grad_norm': 0.96875, 'learning_rate': 0.00010500370697564759, 'epoch': 0.44}
{'loss': 1.2801, 'grad_norm': 0.51171875, 'learning_rate': 0.00010499234459818373, 'epoch': 0.44}
{'loss': 1.2253, 'grad_norm': 0.6328125, 'learning_rate': 0.00010498098222071985, 'epoch': 0.44}
{'loss': 1.124, 'grad_norm': 0.62890625, 'learning_rate': 0.00010496961984325602, 'epoch': 0.44}
{'loss': 1.3083, 'grad_norm': 0.66796875, 'learning_rate': 0.00010495825746579216, 'epoch': 0.44}
{'loss': 1.137, 'grad_norm': 0.83203125, 'learning_rate': 0.0001049468950883283, 'epoch': 0.44}
{'loss': 1.3464, 'grad_norm': 



{'loss': 1.3254, 'grad_norm': 0.447265625, 'learning_rate': 0.00010476509704890651, 'epoch': 0.44}
{'loss': 1.3093, 'grad_norm': 0.7578125, 'learning_rate': 0.00010475373467144265, 'epoch': 0.44}
{'loss': 1.2214, 'grad_norm': 0.4375, 'learning_rate': 0.0001047423722939788, 'epoch': 0.44}
{'loss': 1.2158, 'grad_norm': 0.56640625, 'learning_rate': 0.00010473100991651494, 'epoch': 0.44}
{'loss': 1.1466, 'grad_norm': 0.9609375, 'learning_rate': 0.00010471964753905108, 'epoch': 0.44}
{'loss': 1.284, 'grad_norm': 0.53515625, 'learning_rate': 0.00010470828516158722, 'epoch': 0.44}
{'loss': 1.1529, 'grad_norm': 0.76171875, 'learning_rate': 0.00010469692278412335, 'epoch': 0.44}
{'loss': 1.2731, 'grad_norm': 0.427734375, 'learning_rate': 0.00010468556040665949, 'epoch': 0.44}
{'loss': 1.1989, 'grad_norm': 0.65625, 'learning_rate': 0.00010467419802919563, 'epoch': 0.44}
{'loss': 1.1343, 'grad_norm': 0.8046875, 'learning_rate': 0.00010466283565173178, 'epoch': 0.44}
{'loss': 1.4683, 'grad_norm': 



{'loss': 1.2829, 'grad_norm': 0.4765625, 'learning_rate': 0.00010448103761231, 'epoch': 0.44}
{'loss': 1.118, 'grad_norm': 0.6328125, 'learning_rate': 0.00010446967523484614, 'epoch': 0.44}
{'loss': 1.2403, 'grad_norm': 0.48828125, 'learning_rate': 0.00010445831285738228, 'epoch': 0.44}
{'loss': 1.1168, 'grad_norm': 0.62109375, 'learning_rate': 0.00010444695047991841, 'epoch': 0.44}
{'loss': 1.0847, 'grad_norm': 0.78515625, 'learning_rate': 0.00010443558810245458, 'epoch': 0.44}
{'loss': 1.277, 'grad_norm': 0.72265625, 'learning_rate': 0.00010442422572499072, 'epoch': 0.44}
{'loss': 1.1553, 'grad_norm': 0.6953125, 'learning_rate': 0.00010441286334752684, 'epoch': 0.44}
{'loss': 1.2727, 'grad_norm': 0.68359375, 'learning_rate': 0.00010440150097006298, 'epoch': 0.44}
{'loss': 1.3023, 'grad_norm': 0.55078125, 'learning_rate': 0.00010439013859259912, 'epoch': 0.44}
{'loss': 0.9807, 'grad_norm': 0.46484375, 'learning_rate': 0.00010437877621513525, 'epoch': 0.44}
{'loss': 1.2889, 'grad_norm'



{'loss': 1.3328, 'grad_norm': 0.58984375, 'learning_rate': 0.0001041969781757135, 'epoch': 0.45}
{'loss': 1.1159, 'grad_norm': 0.87890625, 'learning_rate': 0.00010418561579824964, 'epoch': 0.45}
{'loss': 1.2159, 'grad_norm': 0.578125, 'learning_rate': 0.00010417425342078578, 'epoch': 0.45}
{'loss': 1.2109, 'grad_norm': 0.92578125, 'learning_rate': 0.00010416289104332191, 'epoch': 0.45}
{'loss': 1.0986, 'grad_norm': 0.71484375, 'learning_rate': 0.00010415152866585804, 'epoch': 0.45}
{'loss': 1.3701, 'grad_norm': 0.578125, 'learning_rate': 0.00010414016628839418, 'epoch': 0.45}
{'loss': 1.1315, 'grad_norm': 0.703125, 'learning_rate': 0.00010412880391093031, 'epoch': 0.45}
{'loss': 1.2059, 'grad_norm': 0.478515625, 'learning_rate': 0.00010411744153346648, 'epoch': 0.45}
{'loss': 1.3457, 'grad_norm': 0.7578125, 'learning_rate': 0.00010410607915600262, 'epoch': 0.45}
{'loss': 1.0562, 'grad_norm': 1.265625, 'learning_rate': 0.00010409471677853874, 'epoch': 0.45}
{'loss': 1.305, 'grad_norm': 



{'loss': 1.2665, 'grad_norm': 0.50390625, 'learning_rate': 0.00010391291873911697, 'epoch': 0.45}
{'loss': 1.3194, 'grad_norm': 0.71875, 'learning_rate': 0.00010390155636165311, 'epoch': 0.45}
{'loss': 1.222, 'grad_norm': 0.53515625, 'learning_rate': 0.00010389019398418926, 'epoch': 0.45}
{'loss': 1.167, 'grad_norm': 0.9921875, 'learning_rate': 0.0001038788316067254, 'epoch': 0.45}
{'loss': 0.9872, 'grad_norm': 0.91796875, 'learning_rate': 0.00010386746922926154, 'epoch': 0.45}
{'loss': 1.4259, 'grad_norm': 0.5546875, 'learning_rate': 0.00010385610685179768, 'epoch': 0.45}
{'loss': 1.2928, 'grad_norm': 0.59765625, 'learning_rate': 0.00010384474447433381, 'epoch': 0.45}
{'loss': 1.2289, 'grad_norm': 0.546875, 'learning_rate': 0.00010383338209686995, 'epoch': 0.45}
{'loss': 1.2124, 'grad_norm': 0.494140625, 'learning_rate': 0.00010382201971940608, 'epoch': 0.45}
{'loss': 1.0271, 'grad_norm': 0.91796875, 'learning_rate': 0.00010381065734194224, 'epoch': 0.45}
{'loss': 1.3832, 'grad_norm':



{'loss': 1.3081, 'grad_norm': 0.76953125, 'learning_rate': 0.00010362885930252046, 'epoch': 0.45}
{'loss': 1.2504, 'grad_norm': 0.921875, 'learning_rate': 0.0001036174969250566, 'epoch': 0.45}
{'loss': 1.1833, 'grad_norm': 0.482421875, 'learning_rate': 0.00010360613454759274, 'epoch': 0.45}
{'loss': 1.2003, 'grad_norm': 0.6484375, 'learning_rate': 0.00010359477217012887, 'epoch': 0.45}
{'loss': 1.0031, 'grad_norm': 0.6484375, 'learning_rate': 0.00010358340979266503, 'epoch': 0.45}
{'loss': 1.3446, 'grad_norm': 0.52734375, 'learning_rate': 0.00010357204741520116, 'epoch': 0.45}
{'loss': 1.0766, 'grad_norm': 0.76953125, 'learning_rate': 0.0001035606850377373, 'epoch': 0.45}
{'loss': 1.2198, 'grad_norm': 0.61328125, 'learning_rate': 0.00010354932266027344, 'epoch': 0.45}
{'loss': 1.1486, 'grad_norm': 0.5859375, 'learning_rate': 0.00010353796028280958, 'epoch': 0.45}
{'loss': 1.0157, 'grad_norm': 0.64453125, 'learning_rate': 0.00010352659790534572, 'epoch': 0.45}
{'loss': 1.4707, 'grad_nor



{'loss': 1.3003, 'grad_norm': 0.58984375, 'learning_rate': 0.00010334479986592396, 'epoch': 0.45}
{'loss': 1.1892, 'grad_norm': 0.53515625, 'learning_rate': 0.0001033334374884601, 'epoch': 0.45}
{'loss': 1.3972, 'grad_norm': 0.5078125, 'learning_rate': 0.00010332207511099624, 'epoch': 0.45}
{'loss': 1.2153, 'grad_norm': 0.53515625, 'learning_rate': 0.00010331071273353236, 'epoch': 0.45}
{'loss': 1.1081, 'grad_norm': 0.71875, 'learning_rate': 0.0001032993503560685, 'epoch': 0.45}
{'loss': 1.4633, 'grad_norm': 0.470703125, 'learning_rate': 0.00010328798797860464, 'epoch': 0.45}
{'loss': 1.1808, 'grad_norm': 0.69921875, 'learning_rate': 0.0001032766256011408, 'epoch': 0.45}
{'loss': 1.0888, 'grad_norm': 0.470703125, 'learning_rate': 0.00010326526322367694, 'epoch': 0.45}
{'loss': 1.2175, 'grad_norm': 0.7421875, 'learning_rate': 0.00010325390084621306, 'epoch': 0.45}
{'loss': 0.9763, 'grad_norm': 0.90234375, 'learning_rate': 0.0001032425384687492, 'epoch': 0.45}
{'loss': 1.3529, 'grad_norm



{'loss': 1.3538, 'grad_norm': 0.46875, 'learning_rate': 0.00010306074042932743, 'epoch': 0.45}
{'loss': 1.2381, 'grad_norm': 0.58984375, 'learning_rate': 0.00010304937805186359, 'epoch': 0.45}
{'loss': 1.2352, 'grad_norm': 0.53515625, 'learning_rate': 0.00010303801567439972, 'epoch': 0.45}
{'loss': 1.1879, 'grad_norm': 0.8125, 'learning_rate': 0.00010302665329693586, 'epoch': 0.45}
{'loss': 1.138, 'grad_norm': 0.81640625, 'learning_rate': 0.000103015290919472, 'epoch': 0.45}
{'loss': 1.3265, 'grad_norm': 0.51953125, 'learning_rate': 0.00010300392854200814, 'epoch': 0.45}
{'loss': 1.1386, 'grad_norm': 0.8515625, 'learning_rate': 0.00010299256616454426, 'epoch': 0.45}
{'loss': 1.2928, 'grad_norm': 0.42578125, 'learning_rate': 0.0001029812037870804, 'epoch': 0.45}
{'loss': 1.2412, 'grad_norm': 0.578125, 'learning_rate': 0.00010296984140961656, 'epoch': 0.45}
{'loss': 1.1106, 'grad_norm': 1.265625, 'learning_rate': 0.0001029584790321527, 'epoch': 0.45}
{'loss': 1.2753, 'grad_norm': 0.46875



{'loss': 1.4595, 'grad_norm': 0.5859375, 'learning_rate': 0.00010277668099273092, 'epoch': 0.45}
{'loss': 1.1667, 'grad_norm': 1.1953125, 'learning_rate': 0.00010276531861526706, 'epoch': 0.45}
{'loss': 1.0578, 'grad_norm': 0.41015625, 'learning_rate': 0.0001027539562378032, 'epoch': 0.45}
{'loss': 1.2466, 'grad_norm': 0.6484375, 'learning_rate': 0.00010274259386033935, 'epoch': 0.45}
{'loss': 1.2077, 'grad_norm': 0.6953125, 'learning_rate': 0.00010273123148287549, 'epoch': 0.45}
{'loss': 1.2153, 'grad_norm': 0.5625, 'learning_rate': 0.00010271986910541162, 'epoch': 0.45}
{'loss': 1.2792, 'grad_norm': 0.56640625, 'learning_rate': 0.00010270850672794776, 'epoch': 0.45}
{'loss': 1.1705, 'grad_norm': 0.419921875, 'learning_rate': 0.0001026971443504839, 'epoch': 0.45}
{'loss': 1.2852, 'grad_norm': 0.58203125, 'learning_rate': 0.00010268578197302004, 'epoch': 0.45}
{'loss': 0.9846, 'grad_norm': 0.921875, 'learning_rate': 0.00010267441959555618, 'epoch': 0.45}
{'loss': 1.3128, 'grad_norm': 0



{'loss': 1.3197, 'grad_norm': 0.59375, 'learning_rate': 0.00010249262155613442, 'epoch': 0.45}
{'loss': 1.218, 'grad_norm': 0.640625, 'learning_rate': 0.00010248125917867055, 'epoch': 0.45}
{'loss': 1.1655, 'grad_norm': 0.494140625, 'learning_rate': 0.00010246989680120668, 'epoch': 0.45}
{'loss': 1.2644, 'grad_norm': 0.7421875, 'learning_rate': 0.00010245853442374282, 'epoch': 0.45}
{'loss': 1.0472, 'grad_norm': 0.78125, 'learning_rate': 0.00010244717204627896, 'epoch': 0.45}
{'loss': 1.2834, 'grad_norm': 0.625, 'learning_rate': 0.0001024358096688151, 'epoch': 0.45}
{'loss': 1.0694, 'grad_norm': 0.61328125, 'learning_rate': 0.00010242444729135125, 'epoch': 0.45}
{'loss': 1.1679, 'grad_norm': 0.45703125, 'learning_rate': 0.00010241308491388739, 'epoch': 0.45}
{'loss': 1.1792, 'grad_norm': 0.484375, 'learning_rate': 0.00010240172253642353, 'epoch': 0.45}
{'loss': 1.0211, 'grad_norm': 0.640625, 'learning_rate': 0.00010239036015895966, 'epoch': 0.45}
{'loss': 1.4266, 'grad_norm': 0.5351562



{'loss': 1.352, 'grad_norm': 0.4765625, 'learning_rate': 0.00010220856211953788, 'epoch': 0.45}
{'loss': 1.1316, 'grad_norm': 0.625, 'learning_rate': 0.00010219719974207405, 'epoch': 0.45}
{'loss': 1.2642, 'grad_norm': 0.423828125, 'learning_rate': 0.00010218583736461019, 'epoch': 0.45}
{'loss': 1.2242, 'grad_norm': 0.8203125, 'learning_rate': 0.00010217447498714632, 'epoch': 0.45}
{'loss': 1.1757, 'grad_norm': 0.72265625, 'learning_rate': 0.00010216311260968246, 'epoch': 0.45}
{'loss': 1.2813, 'grad_norm': 0.478515625, 'learning_rate': 0.00010215175023221859, 'epoch': 0.45}
{'loss': 1.2165, 'grad_norm': 1.1328125, 'learning_rate': 0.00010214038785475472, 'epoch': 0.45}
{'loss': 1.1998, 'grad_norm': 0.51953125, 'learning_rate': 0.00010212902547729086, 'epoch': 0.45}
{'loss': 1.2155, 'grad_norm': 0.83203125, 'learning_rate': 0.00010211766309982703, 'epoch': 0.45}
{'loss': 1.133, 'grad_norm': 0.76171875, 'learning_rate': 0.00010210630072236316, 'epoch': 0.45}
{'loss': 1.3923, 'grad_norm'



{'loss': 1.3267, 'grad_norm': 0.69921875, 'learning_rate': 0.00010192450268294138, 'epoch': 0.46}
{'loss': 1.1928, 'grad_norm': 0.81640625, 'learning_rate': 0.00010191314030547752, 'epoch': 0.46}
{'loss': 1.3162, 'grad_norm': 0.455078125, 'learning_rate': 0.00010190177792801366, 'epoch': 0.46}
{'loss': 1.2592, 'grad_norm': 0.59765625, 'learning_rate': 0.00010189041555054981, 'epoch': 0.46}
{'loss': 1.1086, 'grad_norm': 0.7265625, 'learning_rate': 0.00010187905317308595, 'epoch': 0.46}
{'loss': 1.2895, 'grad_norm': 0.5390625, 'learning_rate': 0.00010186769079562209, 'epoch': 0.46}
{'loss': 1.1314, 'grad_norm': 0.9140625, 'learning_rate': 0.00010185632841815822, 'epoch': 0.46}
{'loss': 1.1389, 'grad_norm': 0.431640625, 'learning_rate': 0.00010184496604069436, 'epoch': 0.46}
{'loss': 1.3545, 'grad_norm': 0.765625, 'learning_rate': 0.00010183360366323049, 'epoch': 0.46}
{'loss': 1.0053, 'grad_norm': 0.77734375, 'learning_rate': 0.00010182224128576662, 'epoch': 0.46}
{'loss': 1.3175, 'grad_



{'loss': 1.3117, 'grad_norm': 0.78125, 'learning_rate': 0.00010164044324634487, 'epoch': 0.46}
{'loss': 1.235, 'grad_norm': 0.7109375, 'learning_rate': 0.00010162908086888101, 'epoch': 0.46}
{'loss': 1.2625, 'grad_norm': 0.4140625, 'learning_rate': 0.00010161771849141715, 'epoch': 0.46}
{'loss': 1.2669, 'grad_norm': 0.6171875, 'learning_rate': 0.00010160635611395328, 'epoch': 0.46}
{'loss': 1.0713, 'grad_norm': 0.9765625, 'learning_rate': 0.00010159499373648942, 'epoch': 0.46}
{'loss': 1.2951, 'grad_norm': 0.52734375, 'learning_rate': 0.00010158363135902557, 'epoch': 0.46}
{'loss': 1.2122, 'grad_norm': 0.875, 'learning_rate': 0.00010157226898156171, 'epoch': 0.46}
{'loss': 1.1762, 'grad_norm': 0.458984375, 'learning_rate': 0.00010156090660409785, 'epoch': 0.46}
{'loss': 1.1846, 'grad_norm': 0.515625, 'learning_rate': 0.00010154954422663399, 'epoch': 0.46}
{'loss': 1.0757, 'grad_norm': 0.80859375, 'learning_rate': 0.00010153818184917012, 'epoch': 0.46}
{'loss': 1.4144, 'grad_norm': 0.66



{'loss': 1.3185, 'grad_norm': 0.6796875, 'learning_rate': 0.00010135638380974837, 'epoch': 0.46}
{'loss': 1.1391, 'grad_norm': 0.65234375, 'learning_rate': 0.00010134502143228451, 'epoch': 0.46}
{'loss': 1.2166, 'grad_norm': 0.498046875, 'learning_rate': 0.00010133365905482065, 'epoch': 0.46}
{'loss': 1.2302, 'grad_norm': 0.59375, 'learning_rate': 0.00010132229667735677, 'epoch': 0.46}
{'loss': 1.1137, 'grad_norm': 0.8046875, 'learning_rate': 0.00010131093429989291, 'epoch': 0.46}
{'loss': 1.29, 'grad_norm': 0.52734375, 'learning_rate': 0.00010129957192242905, 'epoch': 0.46}
{'loss': 1.1286, 'grad_norm': 0.63671875, 'learning_rate': 0.00010128820954496518, 'epoch': 0.46}
{'loss': 1.1438, 'grad_norm': 0.69921875, 'learning_rate': 0.00010127684716750135, 'epoch': 0.46}
{'loss': 1.2874, 'grad_norm': 0.5, 'learning_rate': 0.00010126548479003747, 'epoch': 0.46}
{'loss': 1.0671, 'grad_norm': 0.75390625, 'learning_rate': 0.00010125412241257361, 'epoch': 0.46}
{'loss': 1.2754, 'grad_norm': 0.6



{'loss': 1.4411, 'grad_norm': 0.546875, 'learning_rate': 0.00010107232437315184, 'epoch': 0.46}
{'loss': 1.1244, 'grad_norm': 0.82421875, 'learning_rate': 0.00010106096199568797, 'epoch': 0.46}
{'loss': 1.2425, 'grad_norm': 0.50390625, 'learning_rate': 0.0001010495996182241, 'epoch': 0.46}
{'loss': 1.2958, 'grad_norm': 0.5859375, 'learning_rate': 0.00010103823724076027, 'epoch': 0.46}
{'loss': 1.1385, 'grad_norm': 0.78125, 'learning_rate': 0.00010102687486329641, 'epoch': 0.46}
{'loss': 1.2447, 'grad_norm': 0.51171875, 'learning_rate': 0.00010101551248583255, 'epoch': 0.46}
{'loss': 1.1374, 'grad_norm': 0.5859375, 'learning_rate': 0.00010100415010836868, 'epoch': 0.46}
{'loss': 1.1566, 'grad_norm': 0.419921875, 'learning_rate': 0.00010099278773090481, 'epoch': 0.46}
{'loss': 1.1599, 'grad_norm': 0.76953125, 'learning_rate': 0.00010098142535344095, 'epoch': 0.46}
{'loss': 1.1641, 'grad_norm': 1.046875, 'learning_rate': 0.00010097006297597711, 'epoch': 0.46}
{'loss': 1.2495, 'grad_norm':



{'loss': 1.356, 'grad_norm': 0.478515625, 'learning_rate': 0.00010078826493655533, 'epoch': 0.46}
{'loss': 1.2092, 'grad_norm': 0.68359375, 'learning_rate': 0.00010077690255909147, 'epoch': 0.46}
{'loss': 1.2305, 'grad_norm': 0.482421875, 'learning_rate': 0.0001007655401816276, 'epoch': 0.46}
{'loss': 1.2107, 'grad_norm': 0.8515625, 'learning_rate': 0.00010075417780416374, 'epoch': 0.46}
{'loss': 1.0717, 'grad_norm': 0.8046875, 'learning_rate': 0.00010074281542669988, 'epoch': 0.46}
{'loss': 1.3294, 'grad_norm': 0.58203125, 'learning_rate': 0.00010073145304923603, 'epoch': 0.46}
{'loss': 1.1325, 'grad_norm': 0.62109375, 'learning_rate': 0.00010072009067177217, 'epoch': 0.46}
{'loss': 1.3207, 'grad_norm': 0.4609375, 'learning_rate': 0.00010070872829430831, 'epoch': 0.46}
{'loss': 1.1716, 'grad_norm': 0.65234375, 'learning_rate': 0.00010069736591684445, 'epoch': 0.46}
{'loss': 1.0952, 'grad_norm': 0.66015625, 'learning_rate': 0.00010068600353938059, 'epoch': 0.46}
{'loss': 1.3169, 'grad_



{'loss': 1.3704, 'grad_norm': 0.671875, 'learning_rate': 0.00010050420549995883, 'epoch': 0.46}
{'loss': 1.1878, 'grad_norm': 0.66015625, 'learning_rate': 0.00010049284312249496, 'epoch': 0.46}
{'loss': 1.2621, 'grad_norm': 0.6484375, 'learning_rate': 0.0001004814807450311, 'epoch': 0.46}
{'loss': 1.1007, 'grad_norm': 0.62109375, 'learning_rate': 0.00010047011836756723, 'epoch': 0.46}
{'loss': 1.1282, 'grad_norm': 0.98828125, 'learning_rate': 0.00010045875599010337, 'epoch': 0.46}
{'loss': 1.4017, 'grad_norm': 0.8359375, 'learning_rate': 0.00010044739361263951, 'epoch': 0.46}
{'loss': 1.1847, 'grad_norm': 0.79296875, 'learning_rate': 0.00010043603123517565, 'epoch': 0.46}
{'loss': 1.1761, 'grad_norm': 0.51171875, 'learning_rate': 0.0001004246688577118, 'epoch': 0.46}
{'loss': 1.2546, 'grad_norm': 0.58203125, 'learning_rate': 0.00010041330648024793, 'epoch': 0.46}
{'loss': 1.0892, 'grad_norm': 0.70703125, 'learning_rate': 0.00010040194410278407, 'epoch': 0.46}
{'loss': 1.2617, 'grad_nor



{'loss': 1.3131, 'grad_norm': 0.5078125, 'learning_rate': 0.00010022014606336229, 'epoch': 0.46}
{'loss': 1.0966, 'grad_norm': 0.6484375, 'learning_rate': 0.00010020878368589843, 'epoch': 0.46}
{'loss': 1.297, 'grad_norm': 0.427734375, 'learning_rate': 0.0001001974213084346, 'epoch': 0.46}
{'loss': 1.2695, 'grad_norm': 0.6171875, 'learning_rate': 0.00010018605893097073, 'epoch': 0.46}
{'loss': 1.1212, 'grad_norm': 1.015625, 'learning_rate': 0.00010017469655350687, 'epoch': 0.46}
{'loss': 1.2059, 'grad_norm': 0.5546875, 'learning_rate': 0.000100163334176043, 'epoch': 0.46}
{'loss': 1.1292, 'grad_norm': 1.1953125, 'learning_rate': 0.00010015197179857913, 'epoch': 0.46}
{'loss': 1.2742, 'grad_norm': 0.62890625, 'learning_rate': 0.00010014060942111527, 'epoch': 0.46}
{'loss': 1.2441, 'grad_norm': 0.6015625, 'learning_rate': 0.00010012924704365141, 'epoch': 0.46}
{'loss': 1.0218, 'grad_norm': 0.8828125, 'learning_rate': 0.00010011788466618757, 'epoch': 0.46}
{'loss': 1.2499, 'grad_norm': 0.



{'loss': 1.3322, 'grad_norm': 0.7734375, 'learning_rate': 9.993608662676579e-05, 'epoch': 0.46}
{'loss': 1.1737, 'grad_norm': 0.71484375, 'learning_rate': 9.992472424930193e-05, 'epoch': 0.46}
{'loss': 1.2092, 'grad_norm': 0.50390625, 'learning_rate': 9.991336187183807e-05, 'epoch': 0.46}
{'loss': 1.3203, 'grad_norm': 0.62109375, 'learning_rate': 9.99019994943742e-05, 'epoch': 0.46}
{'loss': 1.1352, 'grad_norm': 0.76953125, 'learning_rate': 9.989063711691034e-05, 'epoch': 0.46}
{'loss': 1.3153, 'grad_norm': 0.5234375, 'learning_rate': 9.987927473944648e-05, 'epoch': 0.46}
{'loss': 1.2069, 'grad_norm': 0.69140625, 'learning_rate': 9.986791236198263e-05, 'epoch': 0.46}
{'loss': 1.1079, 'grad_norm': 0.51953125, 'learning_rate': 9.985654998451877e-05, 'epoch': 0.46}
{'loss': 1.2131, 'grad_norm': 0.56640625, 'learning_rate': 9.984518760705491e-05, 'epoch': 0.46}
{'loss': 1.0107, 'grad_norm': 0.6171875, 'learning_rate': 9.983382522959105e-05, 'epoch': 0.46}
{'loss': 1.377, 'grad_norm': 0.632



{'loss': 1.1952, 'grad_norm': 0.625, 'learning_rate': 9.965202719016928e-05, 'epoch': 0.47}
{'loss': 1.1995, 'grad_norm': 1.140625, 'learning_rate': 9.964066481270542e-05, 'epoch': 0.47}
{'loss': 1.2641, 'grad_norm': 0.42578125, 'learning_rate': 9.962930243524155e-05, 'epoch': 0.47}
{'loss': 1.3105, 'grad_norm': 0.7421875, 'learning_rate': 9.961794005777769e-05, 'epoch': 0.47}
{'loss': 1.0891, 'grad_norm': 0.83203125, 'learning_rate': 9.960657768031383e-05, 'epoch': 0.47}
{'loss': 1.4802, 'grad_norm': 0.5390625, 'learning_rate': 9.959521530284998e-05, 'epoch': 0.47}
{'loss': 1.1613, 'grad_norm': 0.9140625, 'learning_rate': 9.95838529253861e-05, 'epoch': 0.47}
{'loss': 1.2254, 'grad_norm': 0.5, 'learning_rate': 9.957249054792224e-05, 'epoch': 0.47}
{'loss': 1.1819, 'grad_norm': 0.609375, 'learning_rate': 9.95611281704584e-05, 'epoch': 0.47}
{'loss': 1.0905, 'grad_norm': 0.91015625, 'learning_rate': 9.954976579299453e-05, 'epoch': 0.47}
{'loss': 1.4257, 'grad_norm': 0.60546875, 'learning



{'loss': 1.3935, 'grad_norm': 0.7890625, 'learning_rate': 9.936796775357277e-05, 'epoch': 0.47}
{'loss': 1.1968, 'grad_norm': 0.6796875, 'learning_rate': 9.93566053761089e-05, 'epoch': 0.47}
{'loss': 1.3094, 'grad_norm': 0.52734375, 'learning_rate': 9.934524299864504e-05, 'epoch': 0.47}
{'loss': 1.1925, 'grad_norm': 0.439453125, 'learning_rate': 9.933388062118118e-05, 'epoch': 0.47}
{'loss': 1.1379, 'grad_norm': 1.1015625, 'learning_rate': 9.932251824371732e-05, 'epoch': 0.47}
{'loss': 1.2749, 'grad_norm': 0.56640625, 'learning_rate': 9.931115586625346e-05, 'epoch': 0.47}
{'loss': 1.2003, 'grad_norm': 0.75, 'learning_rate': 9.92997934887896e-05, 'epoch': 0.47}
{'loss': 1.2471, 'grad_norm': 0.47265625, 'learning_rate': 9.928843111132574e-05, 'epoch': 0.47}
{'loss': 1.3177, 'grad_norm': 0.640625, 'learning_rate': 9.927706873386188e-05, 'epoch': 0.47}
{'loss': 1.0464, 'grad_norm': 1.234375, 'learning_rate': 9.926570635639802e-05, 'epoch': 0.47}
{'loss': 1.3127, 'grad_norm': 0.62109375, 'l



{'loss': 1.5003, 'grad_norm': 0.74609375, 'learning_rate': 9.908390831697625e-05, 'epoch': 0.47}
{'loss': 1.2304, 'grad_norm': 0.6953125, 'learning_rate': 9.907254593951239e-05, 'epoch': 0.47}
{'loss': 1.1649, 'grad_norm': 0.466796875, 'learning_rate': 9.906118356204853e-05, 'epoch': 0.47}
{'loss': 1.199, 'grad_norm': 0.90234375, 'learning_rate': 9.904982118458467e-05, 'epoch': 0.47}
{'loss': 1.0973, 'grad_norm': 1.0703125, 'learning_rate': 9.90384588071208e-05, 'epoch': 0.47}
{'loss': 1.3342, 'grad_norm': 0.546875, 'learning_rate': 9.902709642965696e-05, 'epoch': 0.47}
{'loss': 1.1102, 'grad_norm': 1.484375, 'learning_rate': 9.90157340521931e-05, 'epoch': 0.47}
{'loss': 1.2222, 'grad_norm': 0.40625, 'learning_rate': 9.900437167472922e-05, 'epoch': 0.47}
{'loss': 1.2988, 'grad_norm': 0.93359375, 'learning_rate': 9.899300929726536e-05, 'epoch': 0.47}
{'loss': 0.9797, 'grad_norm': 0.625, 'learning_rate': 9.898164691980151e-05, 'epoch': 0.47}
{'loss': 1.4054, 'grad_norm': 0.62109375, 'lea



{'loss': 1.2896, 'grad_norm': 0.50390625, 'learning_rate': 9.879984888037973e-05, 'epoch': 0.47}
{'loss': 1.1473, 'grad_norm': 0.78515625, 'learning_rate': 9.878848650291588e-05, 'epoch': 0.47}
{'loss': 1.1946, 'grad_norm': 0.546875, 'learning_rate': 9.877712412545202e-05, 'epoch': 0.47}
{'loss': 1.2292, 'grad_norm': 0.59375, 'learning_rate': 9.876576174798815e-05, 'epoch': 0.47}
{'loss': 0.9123, 'grad_norm': 0.359375, 'learning_rate': 9.875439937052429e-05, 'epoch': 0.47}
{'loss': 1.2984, 'grad_norm': 0.6171875, 'learning_rate': 9.874303699306043e-05, 'epoch': 0.47}
{'loss': 1.1592, 'grad_norm': 0.703125, 'learning_rate': 9.873167461559657e-05, 'epoch': 0.47}
{'loss': 1.1942, 'grad_norm': 0.51171875, 'learning_rate': 9.87203122381327e-05, 'epoch': 0.47}
{'loss': 1.3726, 'grad_norm': 0.494140625, 'learning_rate': 9.870894986066886e-05, 'epoch': 0.47}
{'loss': 1.1176, 'grad_norm': 0.92578125, 'learning_rate': 9.8697587483205e-05, 'epoch': 0.47}
{'loss': 1.2482, 'grad_norm': 0.4921875, '



{'loss': 1.3172, 'grad_norm': 0.58984375, 'learning_rate': 9.851578944378323e-05, 'epoch': 0.47}
{'loss': 1.2866, 'grad_norm': 0.61328125, 'learning_rate': 9.850442706631937e-05, 'epoch': 0.47}
{'loss': 1.2308, 'grad_norm': 0.51171875, 'learning_rate': 9.84930646888555e-05, 'epoch': 0.47}
{'loss': 1.3052, 'grad_norm': 0.498046875, 'learning_rate': 9.848170231139164e-05, 'epoch': 0.47}
{'loss': 1.0496, 'grad_norm': 0.51953125, 'learning_rate': 9.847033993392778e-05, 'epoch': 0.47}
{'loss': 1.2451, 'grad_norm': 0.73046875, 'learning_rate': 9.845897755646392e-05, 'epoch': 0.47}
{'loss': 1.1631, 'grad_norm': 0.77734375, 'learning_rate': 9.844761517900007e-05, 'epoch': 0.47}
{'loss': 1.1515, 'grad_norm': 0.515625, 'learning_rate': 9.84362528015362e-05, 'epoch': 0.47}
{'loss': 1.3255, 'grad_norm': 0.5859375, 'learning_rate': 9.842489042407233e-05, 'epoch': 0.47}
{'loss': 1.0918, 'grad_norm': 0.79296875, 'learning_rate': 9.841352804660847e-05, 'epoch': 0.47}
{'loss': 1.2743, 'grad_norm': 0.53



{'loss': 1.2039, 'grad_norm': 0.7578125, 'learning_rate': 9.82317300071867e-05, 'epoch': 0.47}
{'loss': 1.2778, 'grad_norm': 0.72265625, 'learning_rate': 9.822036762972284e-05, 'epoch': 0.47}
{'loss': 1.2484, 'grad_norm': 0.70703125, 'learning_rate': 9.820900525225899e-05, 'epoch': 0.47}
{'loss': 1.097, 'grad_norm': 0.52734375, 'learning_rate': 9.819764287479513e-05, 'epoch': 0.47}
{'loss': 1.0851, 'grad_norm': 0.98046875, 'learning_rate': 9.818628049733127e-05, 'epoch': 0.47}
{'loss': 1.3508, 'grad_norm': 0.63671875, 'learning_rate': 9.81749181198674e-05, 'epoch': 0.47}
{'loss': 1.2071, 'grad_norm': 1.03125, 'learning_rate': 9.816355574240354e-05, 'epoch': 0.47}
{'loss': 1.1709, 'grad_norm': 0.546875, 'learning_rate': 9.815219336493968e-05, 'epoch': 0.47}
{'loss': 1.1307, 'grad_norm': 0.5234375, 'learning_rate': 9.814083098747583e-05, 'epoch': 0.47}
{'loss': 1.0817, 'grad_norm': 0.86328125, 'learning_rate': 9.812946861001197e-05, 'epoch': 0.47}
{'loss': 1.2654, 'grad_norm': 0.609375, 



{'loss': 1.4137, 'grad_norm': 0.546875, 'learning_rate': 9.79476705705902e-05, 'epoch': 0.47}
{'loss': 1.0693, 'grad_norm': 0.76953125, 'learning_rate': 9.793630819312634e-05, 'epoch': 0.47}
{'loss': 1.2202, 'grad_norm': 0.494140625, 'learning_rate': 9.792494581566248e-05, 'epoch': 0.47}
{'loss': 1.2013, 'grad_norm': 0.53515625, 'learning_rate': 9.791358343819861e-05, 'epoch': 0.47}
{'loss': 1.1267, 'grad_norm': 0.6484375, 'learning_rate': 9.790222106073475e-05, 'epoch': 0.47}
{'loss': 1.2867, 'grad_norm': 0.63671875, 'learning_rate': 9.789085868327089e-05, 'epoch': 0.47}
{'loss': 1.2099, 'grad_norm': 0.78515625, 'learning_rate': 9.787949630580703e-05, 'epoch': 0.47}
{'loss': 1.2152, 'grad_norm': 0.546875, 'learning_rate': 9.786813392834318e-05, 'epoch': 0.47}
{'loss': 1.2337, 'grad_norm': 0.515625, 'learning_rate': 9.785677155087932e-05, 'epoch': 0.47}
{'loss': 1.1539, 'grad_norm': 1.0, 'learning_rate': 9.784540917341544e-05, 'epoch': 0.47}
{'loss': 1.4174, 'grad_norm': 0.5625, 'learn



{'loss': 1.4431, 'grad_norm': 0.53515625, 'learning_rate': 9.766361113399369e-05, 'epoch': 0.47}
{'loss': 1.1499, 'grad_norm': 0.5859375, 'learning_rate': 9.765224875652981e-05, 'epoch': 0.47}
{'loss': 1.2132, 'grad_norm': 0.53125, 'learning_rate': 9.764088637906596e-05, 'epoch': 0.47}
{'loss': 1.3744, 'grad_norm': 0.890625, 'learning_rate': 9.76295240016021e-05, 'epoch': 0.47}
{'loss': 1.0722, 'grad_norm': 1.2265625, 'learning_rate': 9.761816162413824e-05, 'epoch': 0.47}
{'loss': 1.3284, 'grad_norm': 0.5234375, 'learning_rate': 9.760679924667438e-05, 'epoch': 0.47}
{'loss': 1.1555, 'grad_norm': 0.62109375, 'learning_rate': 9.759543686921052e-05, 'epoch': 0.47}
{'loss': 1.2312, 'grad_norm': 0.3671875, 'learning_rate': 9.758407449174665e-05, 'epoch': 0.47}
{'loss': 1.2176, 'grad_norm': 0.578125, 'learning_rate': 9.757271211428279e-05, 'epoch': 0.47}
{'loss': 1.1123, 'grad_norm': 0.7421875, 'learning_rate': 9.756134973681894e-05, 'epoch': 0.47}
{'loss': 1.4862, 'grad_norm': 0.51953125, '



{'loss': 1.3003, 'grad_norm': 0.50390625, 'learning_rate': 9.737955169739716e-05, 'epoch': 0.47}
{'loss': 1.2056, 'grad_norm': 0.50390625, 'learning_rate': 9.736818931993331e-05, 'epoch': 0.47}
{'loss': 1.1554, 'grad_norm': 0.5234375, 'learning_rate': 9.735682694246945e-05, 'epoch': 0.48}
{'loss': 1.4076, 'grad_norm': 0.6484375, 'learning_rate': 9.734546456500559e-05, 'epoch': 0.48}
{'loss': 1.133, 'grad_norm': 1.5703125, 'learning_rate': 9.733410218754173e-05, 'epoch': 0.48}
{'loss': 1.3292, 'grad_norm': 1.2421875, 'learning_rate': 9.732273981007786e-05, 'epoch': 0.48}
{'loss': 1.1799, 'grad_norm': 0.7109375, 'learning_rate': 9.7311377432614e-05, 'epoch': 0.48}
{'loss': 1.2293, 'grad_norm': 0.58203125, 'learning_rate': 9.730001505515014e-05, 'epoch': 0.48}
{'loss': 1.1394, 'grad_norm': 0.5703125, 'learning_rate': 9.728865267768629e-05, 'epoch': 0.48}
{'loss': 1.1676, 'grad_norm': 0.90234375, 'learning_rate': 9.727729030022243e-05, 'epoch': 0.48}
{'loss': 1.3669, 'grad_norm': 0.671875,



{'loss': 1.3256, 'grad_norm': 0.55859375, 'learning_rate': 9.709549226080066e-05, 'epoch': 0.48}
{'loss': 1.1583, 'grad_norm': 0.69921875, 'learning_rate': 9.70841298833368e-05, 'epoch': 0.48}
{'loss': 1.2042, 'grad_norm': 0.388671875, 'learning_rate': 9.707276750587292e-05, 'epoch': 0.48}
{'loss': 1.2546, 'grad_norm': 0.4609375, 'learning_rate': 9.706140512840908e-05, 'epoch': 0.48}
{'loss': 1.1577, 'grad_norm': 0.7734375, 'learning_rate': 9.705004275094521e-05, 'epoch': 0.48}
{'loss': 1.2032, 'grad_norm': 0.52734375, 'learning_rate': 9.703868037348135e-05, 'epoch': 0.48}
{'loss': 1.208, 'grad_norm': 0.65625, 'learning_rate': 9.702731799601749e-05, 'epoch': 0.48}
{'loss': 1.1656, 'grad_norm': 0.478515625, 'learning_rate': 9.701595561855363e-05, 'epoch': 0.48}
{'loss': 1.2395, 'grad_norm': 0.9921875, 'learning_rate': 9.700459324108977e-05, 'epoch': 0.48}
{'loss': 1.0517, 'grad_norm': 0.57421875, 'learning_rate': 9.69932308636259e-05, 'epoch': 0.48}
{'loss': 1.39, 'grad_norm': 0.7460937



{'loss': 1.3323, 'grad_norm': 0.609375, 'learning_rate': 9.681143282420414e-05, 'epoch': 0.48}
{'loss': 1.1302, 'grad_norm': 0.8828125, 'learning_rate': 9.680007044674027e-05, 'epoch': 0.48}
{'loss': 1.247, 'grad_norm': 0.46875, 'learning_rate': 9.678870806927642e-05, 'epoch': 0.48}
{'loss': 1.303, 'grad_norm': 0.53125, 'learning_rate': 9.677734569181256e-05, 'epoch': 0.48}
{'loss': 1.0911, 'grad_norm': 1.0234375, 'learning_rate': 9.67659833143487e-05, 'epoch': 0.48}
{'loss': 1.2859, 'grad_norm': 0.6640625, 'learning_rate': 9.675462093688484e-05, 'epoch': 0.48}
{'loss': 1.1864, 'grad_norm': 0.90234375, 'learning_rate': 9.674325855942098e-05, 'epoch': 0.48}
{'loss': 1.1522, 'grad_norm': 0.51953125, 'learning_rate': 9.673189618195711e-05, 'epoch': 0.48}
{'loss': 1.2389, 'grad_norm': 0.84765625, 'learning_rate': 9.672053380449325e-05, 'epoch': 0.48}
{'loss': 1.13, 'grad_norm': 0.5078125, 'learning_rate': 9.67091714270294e-05, 'epoch': 0.48}
{'loss': 1.4651, 'grad_norm': 0.4921875, 'learni



{'loss': 1.4218, 'grad_norm': 0.5078125, 'learning_rate': 9.652737338760762e-05, 'epoch': 0.48}
{'loss': 1.145, 'grad_norm': 0.88671875, 'learning_rate': 9.651601101014377e-05, 'epoch': 0.48}
{'loss': 1.2016, 'grad_norm': 0.388671875, 'learning_rate': 9.650464863267991e-05, 'epoch': 0.48}
{'loss': 1.1261, 'grad_norm': 0.97265625, 'learning_rate': 9.649328625521604e-05, 'epoch': 0.48}
{'loss': 1.1498, 'grad_norm': 0.890625, 'learning_rate': 9.648192387775219e-05, 'epoch': 0.48}
{'loss': 1.3336, 'grad_norm': 0.53125, 'learning_rate': 9.647056150028833e-05, 'epoch': 0.48}
{'loss': 1.1921, 'grad_norm': 1.125, 'learning_rate': 9.645919912282446e-05, 'epoch': 0.48}
{'loss': 1.2313, 'grad_norm': 0.431640625, 'learning_rate': 9.644783674536061e-05, 'epoch': 0.48}
{'loss': 1.2731, 'grad_norm': 0.5859375, 'learning_rate': 9.643647436789674e-05, 'epoch': 0.48}
{'loss': 1.0909, 'grad_norm': 0.6484375, 'learning_rate': 9.642511199043288e-05, 'epoch': 0.48}
{'loss': 1.4339, 'grad_norm': 1.265625, 'l



{'loss': 1.252, 'grad_norm': 0.5234375, 'learning_rate': 9.624331395101111e-05, 'epoch': 0.48}
{'loss': 1.2379, 'grad_norm': 0.6328125, 'learning_rate': 9.623195157354725e-05, 'epoch': 0.48}
{'loss': 1.1392, 'grad_norm': 0.47265625, 'learning_rate': 9.622058919608339e-05, 'epoch': 0.48}
{'loss': 1.1325, 'grad_norm': 0.76171875, 'learning_rate': 9.620922681861954e-05, 'epoch': 0.48}
{'loss': 1.0885, 'grad_norm': 0.83984375, 'learning_rate': 9.619786444115567e-05, 'epoch': 0.48}
{'loss': 1.2375, 'grad_norm': 0.375, 'learning_rate': 9.618650206369181e-05, 'epoch': 0.48}
{'loss': 1.1519, 'grad_norm': 0.69921875, 'learning_rate': 9.617513968622795e-05, 'epoch': 0.48}
{'loss': 1.2161, 'grad_norm': 0.388671875, 'learning_rate': 9.616377730876409e-05, 'epoch': 0.48}
{'loss': 1.2347, 'grad_norm': 0.8046875, 'learning_rate': 9.615241493130023e-05, 'epoch': 0.48}
{'loss': 1.0588, 'grad_norm': 0.82421875, 'learning_rate': 9.614105255383636e-05, 'epoch': 0.48}
{'loss': 1.3392, 'grad_norm': 0.613281



{'loss': 1.3357, 'grad_norm': 0.66796875, 'learning_rate': 9.59592545144146e-05, 'epoch': 0.48}
{'loss': 1.1572, 'grad_norm': 0.60546875, 'learning_rate': 9.594789213695075e-05, 'epoch': 0.48}
{'loss': 1.2151, 'grad_norm': 0.52734375, 'learning_rate': 9.593652975948689e-05, 'epoch': 0.48}
{'loss': 1.1947, 'grad_norm': 0.7734375, 'learning_rate': 9.592516738202302e-05, 'epoch': 0.48}
{'loss': 0.9879, 'grad_norm': 0.74609375, 'learning_rate': 9.591380500455915e-05, 'epoch': 0.48}
{'loss': 1.2945, 'grad_norm': 0.5078125, 'learning_rate': 9.59024426270953e-05, 'epoch': 0.48}
{'loss': 1.1558, 'grad_norm': 1.0234375, 'learning_rate': 9.589108024963144e-05, 'epoch': 0.48}
{'loss': 1.2028, 'grad_norm': 0.4765625, 'learning_rate': 9.587971787216758e-05, 'epoch': 0.48}
{'loss': 1.19, 'grad_norm': 0.60546875, 'learning_rate': 9.586835549470373e-05, 'epoch': 0.48}
{'loss': 1.0574, 'grad_norm': 1.5234375, 'learning_rate': 9.585699311723985e-05, 'epoch': 0.48}
{'loss': 1.3183, 'grad_norm': 0.75, 'le



{'loss': 1.1666, 'grad_norm': 0.54296875, 'learning_rate': 9.56751950778181e-05, 'epoch': 0.48}
{'loss': 1.209, 'grad_norm': 0.70703125, 'learning_rate': 9.566383270035422e-05, 'epoch': 0.48}
{'loss': 1.2322, 'grad_norm': 0.400390625, 'learning_rate': 9.565247032289036e-05, 'epoch': 0.48}
{'loss': 1.3089, 'grad_norm': 0.6328125, 'learning_rate': 9.56411079454265e-05, 'epoch': 0.48}
{'loss': 0.9658, 'grad_norm': 0.439453125, 'learning_rate': 9.562974556796265e-05, 'epoch': 0.48}
{'loss': 1.2791, 'grad_norm': 0.482421875, 'learning_rate': 9.561838319049879e-05, 'epoch': 0.48}
{'loss': 1.1403, 'grad_norm': 0.609375, 'learning_rate': 9.560702081303492e-05, 'epoch': 0.48}
{'loss': 1.2092, 'grad_norm': 0.51171875, 'learning_rate': 9.559565843557106e-05, 'epoch': 0.48}
{'loss': 1.3179, 'grad_norm': 0.6953125, 'learning_rate': 9.55842960581072e-05, 'epoch': 0.48}
{'loss': 0.9814, 'grad_norm': 0.4375, 'learning_rate': 9.557293368064334e-05, 'epoch': 0.48}
{'loss': 1.3117, 'grad_norm': 0.5195312



{'loss': 1.2847, 'grad_norm': 0.53515625, 'learning_rate': 9.539113564122157e-05, 'epoch': 0.48}
{'loss': 1.174, 'grad_norm': 0.73046875, 'learning_rate': 9.537977326375771e-05, 'epoch': 0.48}
{'loss': 1.0902, 'grad_norm': 0.451171875, 'learning_rate': 9.536841088629386e-05, 'epoch': 0.48}
{'loss': 1.1928, 'grad_norm': 0.59765625, 'learning_rate': 9.535704850883e-05, 'epoch': 0.48}
{'loss': 1.0403, 'grad_norm': 0.70703125, 'learning_rate': 9.534568613136614e-05, 'epoch': 0.48}
{'loss': 1.3305, 'grad_norm': 0.7578125, 'learning_rate': 9.533432375390226e-05, 'epoch': 0.48}
{'loss': 1.2615, 'grad_norm': 0.8046875, 'learning_rate': 9.532296137643841e-05, 'epoch': 0.48}
{'loss': 1.2575, 'grad_norm': 0.443359375, 'learning_rate': 9.531159899897455e-05, 'epoch': 0.48}
{'loss': 1.2473, 'grad_norm': 0.48828125, 'learning_rate': 9.530023662151069e-05, 'epoch': 0.48}
{'loss': 1.025, 'grad_norm': 0.6796875, 'learning_rate': 9.528887424404684e-05, 'epoch': 0.48}
{'loss': 1.3203, 'grad_norm': 0.4804



{'loss': 1.2658, 'grad_norm': 0.546875, 'learning_rate': 9.510707620462506e-05, 'epoch': 0.48}
{'loss': 1.1449, 'grad_norm': 0.78515625, 'learning_rate': 9.509571382716121e-05, 'epoch': 0.48}
{'loss': 1.1565, 'grad_norm': 0.4921875, 'learning_rate': 9.508435144969733e-05, 'epoch': 0.48}
{'loss': 1.2988, 'grad_norm': 0.80859375, 'learning_rate': 9.507298907223347e-05, 'epoch': 0.49}
{'loss': 1.0435, 'grad_norm': 0.859375, 'learning_rate': 9.506162669476962e-05, 'epoch': 0.49}
{'loss': 1.3353, 'grad_norm': 0.51171875, 'learning_rate': 9.505026431730576e-05, 'epoch': 0.49}
{'loss': 1.124, 'grad_norm': 0.59375, 'learning_rate': 9.50389019398419e-05, 'epoch': 0.49}
{'loss': 1.1195, 'grad_norm': 0.53515625, 'learning_rate': 9.502753956237804e-05, 'epoch': 0.49}
{'loss': 1.1377, 'grad_norm': 0.59375, 'learning_rate': 9.501617718491417e-05, 'epoch': 0.49}
{'loss': 1.0826, 'grad_norm': 0.61328125, 'learning_rate': 9.500481480745031e-05, 'epoch': 0.49}
{'loss': 1.2722, 'grad_norm': 0.4609375, 'l



{'loss': 1.3557, 'grad_norm': 0.51171875, 'learning_rate': 9.482301676802854e-05, 'epoch': 0.49}
{'loss': 1.1254, 'grad_norm': 0.4453125, 'learning_rate': 9.481165439056468e-05, 'epoch': 0.49}
{'loss': 1.2592, 'grad_norm': 0.40625, 'learning_rate': 9.480029201310082e-05, 'epoch': 0.49}
{'loss': 1.2675, 'grad_norm': 0.75, 'learning_rate': 9.478892963563697e-05, 'epoch': 0.49}
{'loss': 1.1891, 'grad_norm': 0.921875, 'learning_rate': 9.477756725817311e-05, 'epoch': 0.49}
{'loss': 1.3592, 'grad_norm': 0.5859375, 'learning_rate': 9.476620488070925e-05, 'epoch': 0.49}
{'loss': 1.1425, 'grad_norm': 0.66796875, 'learning_rate': 9.475484250324539e-05, 'epoch': 0.49}
{'loss': 1.1444, 'grad_norm': 0.4453125, 'learning_rate': 9.474348012578152e-05, 'epoch': 0.49}
{'loss': 1.2028, 'grad_norm': 0.52734375, 'learning_rate': 9.473211774831766e-05, 'epoch': 0.49}
{'loss': 0.9627, 'grad_norm': 0.8359375, 'learning_rate': 9.47207553708538e-05, 'epoch': 0.49}
{'loss': 1.416, 'grad_norm': 0.54296875, 'lear



{'loss': 1.3658, 'grad_norm': 0.486328125, 'learning_rate': 9.453895733143203e-05, 'epoch': 0.49}
{'loss': 1.1655, 'grad_norm': 0.7265625, 'learning_rate': 9.452759495396817e-05, 'epoch': 0.49}
{'loss': 1.1531, 'grad_norm': 0.63671875, 'learning_rate': 9.451623257650432e-05, 'epoch': 0.49}
{'loss': 1.304, 'grad_norm': 0.5859375, 'learning_rate': 9.450487019904045e-05, 'epoch': 0.49}
{'loss': 1.0327, 'grad_norm': 0.7734375, 'learning_rate': 9.449350782157658e-05, 'epoch': 0.49}
{'loss': 1.3124, 'grad_norm': 0.484375, 'learning_rate': 9.448214544411273e-05, 'epoch': 0.49}
{'loss': 1.2323, 'grad_norm': 0.75390625, 'learning_rate': 9.447078306664887e-05, 'epoch': 0.49}
{'loss': 1.1453, 'grad_norm': 0.484375, 'learning_rate': 9.445942068918501e-05, 'epoch': 0.49}
{'loss': 1.2446, 'grad_norm': 0.498046875, 'learning_rate': 9.444805831172115e-05, 'epoch': 0.49}
{'loss': 1.1746, 'grad_norm': 0.97265625, 'learning_rate': 9.443669593425729e-05, 'epoch': 0.49}
{'loss': 1.4246, 'grad_norm': 0.6328



{'loss': 1.388, 'grad_norm': 0.73828125, 'learning_rate': 9.425489789483552e-05, 'epoch': 0.49}
{'loss': 1.1005, 'grad_norm': 0.63671875, 'learning_rate': 9.424353551737166e-05, 'epoch': 0.49}
{'loss': 1.2505, 'grad_norm': 0.44921875, 'learning_rate': 9.42321731399078e-05, 'epoch': 0.49}
{'loss': 1.2064, 'grad_norm': 0.546875, 'learning_rate': 9.422081076244393e-05, 'epoch': 0.49}
{'loss': 1.0593, 'grad_norm': 0.5390625, 'learning_rate': 9.420944838498008e-05, 'epoch': 0.49}
{'loss': 1.3621, 'grad_norm': 0.71484375, 'learning_rate': 9.419808600751622e-05, 'epoch': 0.49}
{'loss': 1.1164, 'grad_norm': 0.609375, 'learning_rate': 9.418672363005236e-05, 'epoch': 0.49}
{'loss': 1.237, 'grad_norm': 0.453125, 'learning_rate': 9.41753612525885e-05, 'epoch': 0.49}
{'loss': 1.1891, 'grad_norm': 0.6171875, 'learning_rate': 9.416399887512464e-05, 'epoch': 0.49}
{'loss': 1.1836, 'grad_norm': 1.375, 'learning_rate': 9.415263649766077e-05, 'epoch': 0.49}
{'loss': 1.265, 'grad_norm': 0.5390625, 'learni



{'loss': 1.38, 'grad_norm': 0.515625, 'learning_rate': 9.3970838458239e-05, 'epoch': 0.49}
{'loss': 1.1105, 'grad_norm': 0.86328125, 'learning_rate': 9.395947608077514e-05, 'epoch': 0.49}
{'loss': 1.1735, 'grad_norm': 0.63671875, 'learning_rate': 9.394811370331128e-05, 'epoch': 0.49}
{'loss': 1.2314, 'grad_norm': 0.6328125, 'learning_rate': 9.393675132584743e-05, 'epoch': 0.49}
{'loss': 0.9534, 'grad_norm': 0.53125, 'learning_rate': 9.392538894838356e-05, 'epoch': 0.49}
{'loss': 1.3206, 'grad_norm': 0.6484375, 'learning_rate': 9.39140265709197e-05, 'epoch': 0.49}
{'loss': 1.1797, 'grad_norm': 0.50390625, 'learning_rate': 9.390266419345585e-05, 'epoch': 0.49}
{'loss': 1.1286, 'grad_norm': 0.734375, 'learning_rate': 9.389130181599198e-05, 'epoch': 0.49}
{'loss': 1.1671, 'grad_norm': 1.296875, 'learning_rate': 9.387993943852812e-05, 'epoch': 0.49}
{'loss': 1.1536, 'grad_norm': 0.82421875, 'learning_rate': 9.386857706106426e-05, 'epoch': 0.49}
{'loss': 1.3514, 'grad_norm': 1.1796875, 'lear



{'loss': 1.2756, 'grad_norm': 0.4609375, 'learning_rate': 9.368677902164249e-05, 'epoch': 0.49}
{'loss': 1.2024, 'grad_norm': 0.703125, 'learning_rate': 9.367541664417863e-05, 'epoch': 0.49}
{'loss': 1.2566, 'grad_norm': 0.6328125, 'learning_rate': 9.366405426671477e-05, 'epoch': 0.49}
{'loss': 1.2213, 'grad_norm': 0.66796875, 'learning_rate': 9.36526918892509e-05, 'epoch': 0.49}
{'loss': 1.1112, 'grad_norm': 1.140625, 'learning_rate': 9.364132951178704e-05, 'epoch': 0.49}
{'loss': 1.331, 'grad_norm': 0.5703125, 'learning_rate': 9.36299671343232e-05, 'epoch': 0.49}
{'loss': 1.2623, 'grad_norm': 0.76953125, 'learning_rate': 9.361860475685933e-05, 'epoch': 0.49}
{'loss': 1.2549, 'grad_norm': 0.494140625, 'learning_rate': 9.360724237939547e-05, 'epoch': 0.49}
{'loss': 1.2733, 'grad_norm': 0.6171875, 'learning_rate': 9.359588000193161e-05, 'epoch': 0.49}
{'loss': 1.0214, 'grad_norm': 0.6484375, 'learning_rate': 9.358451762446775e-05, 'epoch': 0.49}
{'loss': 1.3138, 'grad_norm': 0.470703125



{'loss': 1.3982, 'grad_norm': 0.5390625, 'learning_rate': 9.340271958504598e-05, 'epoch': 0.49}
{'loss': 1.2835, 'grad_norm': 0.79296875, 'learning_rate': 9.339135720758212e-05, 'epoch': 0.49}
{'loss': 1.255, 'grad_norm': 0.52734375, 'learning_rate': 9.337999483011826e-05, 'epoch': 0.49}
{'loss': 1.2207, 'grad_norm': 0.5703125, 'learning_rate': 9.336863245265441e-05, 'epoch': 0.49}
{'loss': 1.044, 'grad_norm': 0.984375, 'learning_rate': 9.335727007519054e-05, 'epoch': 0.49}
{'loss': 1.2383, 'grad_norm': 0.44140625, 'learning_rate': 9.334590769772667e-05, 'epoch': 0.49}
{'loss': 1.136, 'grad_norm': 0.69921875, 'learning_rate': 9.333454532026281e-05, 'epoch': 0.49}
{'loss': 1.2653, 'grad_norm': 0.42578125, 'learning_rate': 9.332318294279896e-05, 'epoch': 0.49}
{'loss': 1.2614, 'grad_norm': 0.625, 'learning_rate': 9.33118205653351e-05, 'epoch': 0.49}
{'loss': 1.1711, 'grad_norm': 0.796875, 'learning_rate': 9.330045818787123e-05, 'epoch': 0.49}
{'loss': 1.3152, 'grad_norm': 0.6796875, 'lea



{'loss': 1.2866, 'grad_norm': 0.6328125, 'learning_rate': 9.311866014844947e-05, 'epoch': 0.49}
{'loss': 1.1797, 'grad_norm': 0.671875, 'learning_rate': 9.31072977709856e-05, 'epoch': 0.49}
{'loss': 1.2111, 'grad_norm': 0.4140625, 'learning_rate': 9.309593539352174e-05, 'epoch': 0.49}
{'loss': 1.2178, 'grad_norm': 0.486328125, 'learning_rate': 9.308457301605788e-05, 'epoch': 0.49}
{'loss': 1.0984, 'grad_norm': 0.69140625, 'learning_rate': 9.307321063859402e-05, 'epoch': 0.49}
{'loss': 1.2872, 'grad_norm': 0.55859375, 'learning_rate': 9.306184826113016e-05, 'epoch': 0.49}
{'loss': 1.2254, 'grad_norm': 0.76953125, 'learning_rate': 9.305048588366631e-05, 'epoch': 0.49}
{'loss': 1.2963, 'grad_norm': 0.5, 'learning_rate': 9.303912350620245e-05, 'epoch': 0.49}
{'loss': 1.347, 'grad_norm': 0.62890625, 'learning_rate': 9.302776112873858e-05, 'epoch': 0.49}
{'loss': 1.0078, 'grad_norm': 1.6171875, 'learning_rate': 9.301639875127472e-05, 'epoch': 0.49}
{'loss': 1.3747, 'grad_norm': 0.46484375, '



{'loss': 1.3145, 'grad_norm': 0.58203125, 'learning_rate': 9.283460071185295e-05, 'epoch': 0.49}
{'loss': 1.1853, 'grad_norm': 0.8203125, 'learning_rate': 9.282323833438909e-05, 'epoch': 0.49}
{'loss': 1.1315, 'grad_norm': 0.5390625, 'learning_rate': 9.281187595692523e-05, 'epoch': 0.49}
{'loss': 1.2553, 'grad_norm': 0.80078125, 'learning_rate': 9.280051357946137e-05, 'epoch': 0.49}
{'loss': 1.1456, 'grad_norm': 0.953125, 'learning_rate': 9.278915120199752e-05, 'epoch': 0.49}
{'loss': 1.3604, 'grad_norm': 1.0625, 'learning_rate': 9.277778882453366e-05, 'epoch': 0.5}
{'loss': 1.1675, 'grad_norm': 0.625, 'learning_rate': 9.276642644706978e-05, 'epoch': 0.5}
{'loss': 1.1831, 'grad_norm': 0.44140625, 'learning_rate': 9.275506406960592e-05, 'epoch': 0.5}
{'loss': 1.2906, 'grad_norm': 0.66015625, 'learning_rate': 9.274370169214207e-05, 'epoch': 0.5}
{'loss': 1.1032, 'grad_norm': 0.86328125, 'learning_rate': 9.273233931467821e-05, 'epoch': 0.5}
{'loss': 1.2765, 'grad_norm': 0.515625, 'learnin



{'loss': 1.4273, 'grad_norm': 0.578125, 'learning_rate': 9.255054127525644e-05, 'epoch': 0.5}
{'loss': 1.2055, 'grad_norm': 1.1953125, 'learning_rate': 9.253917889779258e-05, 'epoch': 0.5}
{'loss': 1.2702, 'grad_norm': 0.427734375, 'learning_rate': 9.252781652032872e-05, 'epoch': 0.5}
{'loss': 1.1687, 'grad_norm': 0.498046875, 'learning_rate': 9.251645414286485e-05, 'epoch': 0.5}
{'loss': 1.015, 'grad_norm': 0.8125, 'learning_rate': 9.250509176540099e-05, 'epoch': 0.5}
{'loss': 1.2806, 'grad_norm': 0.48046875, 'learning_rate': 9.249372938793713e-05, 'epoch': 0.5}
{'loss': 1.1743, 'grad_norm': 0.73046875, 'learning_rate': 9.248236701047328e-05, 'epoch': 0.5}
{'loss': 1.1427, 'grad_norm': 0.447265625, 'learning_rate': 9.247100463300942e-05, 'epoch': 0.5}
{'loss': 1.2174, 'grad_norm': 0.87890625, 'learning_rate': 9.245964225554556e-05, 'epoch': 0.5}
{'loss': 1.1932, 'grad_norm': 0.80859375, 'learning_rate': 9.24482798780817e-05, 'epoch': 0.5}
{'loss': 1.4746, 'grad_norm': 0.83984375, 'lea



{'loss': 1.4053, 'grad_norm': 0.5390625, 'learning_rate': 9.226648183865993e-05, 'epoch': 0.5}
{'loss': 1.1449, 'grad_norm': 0.5703125, 'learning_rate': 9.225511946119607e-05, 'epoch': 0.5}
{'loss': 1.3148, 'grad_norm': 0.5078125, 'learning_rate': 9.22437570837322e-05, 'epoch': 0.5}
{'loss': 1.2642, 'grad_norm': 0.66796875, 'learning_rate': 9.223239470626834e-05, 'epoch': 0.5}
{'loss': 1.0747, 'grad_norm': 1.1015625, 'learning_rate': 9.222103232880448e-05, 'epoch': 0.5}
{'loss': 1.2837, 'grad_norm': 0.55078125, 'learning_rate': 9.220966995134063e-05, 'epoch': 0.5}
{'loss': 1.179, 'grad_norm': 0.73046875, 'learning_rate': 9.219830757387677e-05, 'epoch': 0.5}
{'loss': 1.061, 'grad_norm': 0.408203125, 'learning_rate': 9.218694519641289e-05, 'epoch': 0.5}
{'loss': 1.1815, 'grad_norm': 0.5859375, 'learning_rate': 9.217558281894904e-05, 'epoch': 0.5}
{'loss': 1.035, 'grad_norm': 0.875, 'learning_rate': 9.216422044148518e-05, 'epoch': 0.5}
{'loss': 1.3293, 'grad_norm': 0.5625, 'learning_rate'



{'loss': 1.3185, 'grad_norm': 0.7109375, 'learning_rate': 9.198242240206341e-05, 'epoch': 0.5}
{'loss': 1.3808, 'grad_norm': 0.57421875, 'learning_rate': 9.197106002459955e-05, 'epoch': 0.5}
{'loss': 1.2277, 'grad_norm': 0.455078125, 'learning_rate': 9.195969764713569e-05, 'epoch': 0.5}
{'loss': 1.1561, 'grad_norm': 0.5625, 'learning_rate': 9.194833526967183e-05, 'epoch': 0.5}
{'loss': 1.1686, 'grad_norm': 0.95703125, 'learning_rate': 9.193697289220797e-05, 'epoch': 0.5}
{'loss': 1.3378, 'grad_norm': 0.828125, 'learning_rate': 9.19256105147441e-05, 'epoch': 0.5}
{'loss': 1.2052, 'grad_norm': 0.65234375, 'learning_rate': 9.191424813728024e-05, 'epoch': 0.5}
{'loss': 1.2263, 'grad_norm': 0.396484375, 'learning_rate': 9.19028857598164e-05, 'epoch': 0.5}
{'loss': 1.1952, 'grad_norm': 0.6484375, 'learning_rate': 9.189152338235253e-05, 'epoch': 0.5}
{'loss': 1.1135, 'grad_norm': 0.953125, 'learning_rate': 9.188016100488867e-05, 'epoch': 0.5}
{'loss': 1.2092, 'grad_norm': 0.5390625, 'learning



{'loss': 1.3045, 'grad_norm': 0.55859375, 'learning_rate': 9.16983629654669e-05, 'epoch': 0.5}
{'loss': 1.3055, 'grad_norm': 0.96484375, 'learning_rate': 9.168700058800304e-05, 'epoch': 0.5}
{'loss': 1.2711, 'grad_norm': 0.94921875, 'learning_rate': 9.167563821053918e-05, 'epoch': 0.5}
{'loss': 1.2205, 'grad_norm': 0.6328125, 'learning_rate': 9.166427583307532e-05, 'epoch': 0.5}
{'loss': 1.0702, 'grad_norm': 0.85546875, 'learning_rate': 9.165291345561145e-05, 'epoch': 0.5}
{'loss': 1.309, 'grad_norm': 0.53125, 'learning_rate': 9.164155107814759e-05, 'epoch': 0.5}
{'loss': 1.3168, 'grad_norm': 0.62109375, 'learning_rate': 9.163018870068374e-05, 'epoch': 0.5}
{'loss': 1.2188, 'grad_norm': 0.50390625, 'learning_rate': 9.161882632321988e-05, 'epoch': 0.5}
{'loss': 1.3409, 'grad_norm': 0.6328125, 'learning_rate': 9.1607463945756e-05, 'epoch': 0.5}
{'loss': 1.2486, 'grad_norm': 0.8828125, 'learning_rate': 9.159610156829216e-05, 'epoch': 0.5}
{'loss': 1.3132, 'grad_norm': 0.482421875, 'learni



{'loss': 1.3563, 'grad_norm': 0.462890625, 'learning_rate': 9.141430352887038e-05, 'epoch': 0.5}
{'loss': 1.1392, 'grad_norm': 0.75, 'learning_rate': 9.140294115140653e-05, 'epoch': 0.5}
{'loss': 1.2658, 'grad_norm': 0.7109375, 'learning_rate': 9.139157877394266e-05, 'epoch': 0.5}
{'loss': 1.3554, 'grad_norm': 0.984375, 'learning_rate': 9.13802163964788e-05, 'epoch': 0.5}
{'loss': 1.1262, 'grad_norm': 0.90625, 'learning_rate': 9.136885401901494e-05, 'epoch': 0.5}
{'loss': 1.2954, 'grad_norm': 0.50390625, 'learning_rate': 9.135749164155109e-05, 'epoch': 0.5}
{'loss': 1.0962, 'grad_norm': 0.79296875, 'learning_rate': 9.134612926408722e-05, 'epoch': 0.5}
{'loss': 1.1342, 'grad_norm': 0.5, 'learning_rate': 9.133476688662335e-05, 'epoch': 0.5}
{'loss': 1.1754, 'grad_norm': 0.8828125, 'learning_rate': 9.13234045091595e-05, 'epoch': 0.5}
{'loss': 1.2737, 'grad_norm': 1.0546875, 'learning_rate': 9.131204213169564e-05, 'epoch': 0.5}
{'loss': 1.3173, 'grad_norm': 0.5546875, 'learning_rate': 9.13



{'loss': 1.3459, 'grad_norm': 0.73828125, 'learning_rate': 9.113024409227388e-05, 'epoch': 0.5}
{'loss': 1.1112, 'grad_norm': 0.458984375, 'learning_rate': 9.111888171481001e-05, 'epoch': 0.5}
{'loss': 1.1517, 'grad_norm': 0.4375, 'learning_rate': 9.110751933734615e-05, 'epoch': 0.5}
{'loss': 1.302, 'grad_norm': 0.5234375, 'learning_rate': 9.109615695988229e-05, 'epoch': 0.5}
{'loss': 0.9951, 'grad_norm': 0.91796875, 'learning_rate': 9.108479458241843e-05, 'epoch': 0.5}
{'loss': 1.2765, 'grad_norm': 0.64453125, 'learning_rate': 9.107343220495457e-05, 'epoch': 0.5}
{'loss': 1.1815, 'grad_norm': 0.83984375, 'learning_rate': 9.10620698274907e-05, 'epoch': 0.5}
{'loss': 1.2578, 'grad_norm': 0.4375, 'learning_rate': 9.105070745002685e-05, 'epoch': 0.5}
{'loss': 1.229, 'grad_norm': 0.61328125, 'learning_rate': 9.103934507256299e-05, 'epoch': 0.5}
{'loss': 1.1039, 'grad_norm': 0.9140625, 'learning_rate': 9.102798269509912e-05, 'epoch': 0.5}
{'loss': 1.4653, 'grad_norm': 0.5078125, 'learning_r



{'loss': 1.3468, 'grad_norm': 0.515625, 'learning_rate': 9.084618465567736e-05, 'epoch': 0.5}
{'loss': 1.142, 'grad_norm': 0.578125, 'learning_rate': 9.083482227821349e-05, 'epoch': 0.5}
{'loss': 1.17, 'grad_norm': 0.4453125, 'learning_rate': 9.082345990074964e-05, 'epoch': 0.5}
{'loss': 1.1765, 'grad_norm': 0.64453125, 'learning_rate': 9.081209752328578e-05, 'epoch': 0.5}
{'loss': 0.9749, 'grad_norm': 0.6640625, 'learning_rate': 9.080073514582191e-05, 'epoch': 0.5}
{'loss': 1.3887, 'grad_norm': 0.5625, 'learning_rate': 9.078937276835807e-05, 'epoch': 0.5}
{'loss': 1.0456, 'grad_norm': 0.6484375, 'learning_rate': 9.07780103908942e-05, 'epoch': 0.5}
{'loss': 1.1599, 'grad_norm': 0.58984375, 'learning_rate': 9.076664801343033e-05, 'epoch': 0.5}
{'loss': 1.3027, 'grad_norm': 1.28125, 'learning_rate': 9.075528563596647e-05, 'epoch': 0.5}
{'loss': 1.1223, 'grad_norm': 0.93359375, 'learning_rate': 9.074392325850262e-05, 'epoch': 0.5}
{'loss': 1.2915, 'grad_norm': 0.69921875, 'learning_rate':



{'loss': 1.2282, 'grad_norm': 0.66015625, 'learning_rate': 9.056212521908084e-05, 'epoch': 0.5}
{'loss': 1.0299, 'grad_norm': 0.82421875, 'learning_rate': 9.055076284161699e-05, 'epoch': 0.5}
{'loss': 1.1784, 'grad_norm': 0.4453125, 'learning_rate': 9.053940046415313e-05, 'epoch': 0.5}
{'loss': 1.2954, 'grad_norm': 0.81640625, 'learning_rate': 9.052803808668926e-05, 'epoch': 0.5}
{'loss': 1.089, 'grad_norm': 0.6015625, 'learning_rate': 9.05166757092254e-05, 'epoch': 0.5}
{'loss': 1.3356, 'grad_norm': 0.75, 'learning_rate': 9.050531333176154e-05, 'epoch': 0.5}
{'loss': 1.023, 'grad_norm': 0.625, 'learning_rate': 9.049395095429768e-05, 'epoch': 0.5}
{'loss': 1.1138, 'grad_norm': 0.5625, 'learning_rate': 9.048258857683382e-05, 'epoch': 0.51}
{'loss': 1.2539, 'grad_norm': 0.76953125, 'learning_rate': 9.047122619936997e-05, 'epoch': 0.51}
{'loss': 1.0402, 'grad_norm': 0.8828125, 'learning_rate': 9.04598638219061e-05, 'epoch': 0.51}
{'loss': 1.363, 'grad_norm': 0.5234375, 'learning_rate': 9.



{'loss': 1.1792, 'grad_norm': 0.5546875, 'learning_rate': 9.027806578248434e-05, 'epoch': 0.51}
{'loss': 1.1398, 'grad_norm': 0.68359375, 'learning_rate': 9.026670340502047e-05, 'epoch': 0.51}
{'loss': 1.1094, 'grad_norm': 0.51171875, 'learning_rate': 9.02553410275566e-05, 'epoch': 0.51}
{'loss': 1.3003, 'grad_norm': 0.60546875, 'learning_rate': 9.024397865009275e-05, 'epoch': 0.51}
{'loss': 0.9343, 'grad_norm': 1.140625, 'learning_rate': 9.023261627262889e-05, 'epoch': 0.51}
{'loss': 1.2454, 'grad_norm': 0.58984375, 'learning_rate': 9.022125389516503e-05, 'epoch': 0.51}
{'loss': 1.2143, 'grad_norm': 0.6796875, 'learning_rate': 9.020989151770118e-05, 'epoch': 0.51}
{'loss': 1.2119, 'grad_norm': 0.71484375, 'learning_rate': 9.019852914023732e-05, 'epoch': 0.51}
{'loss': 1.179, 'grad_norm': 0.578125, 'learning_rate': 9.018716676277344e-05, 'epoch': 0.51}
{'loss': 1.1995, 'grad_norm': 1.15625, 'learning_rate': 9.017580438530958e-05, 'epoch': 0.51}
{'loss': 1.4413, 'grad_norm': 0.53125, 'l



{'loss': 1.2843, 'grad_norm': 0.64453125, 'learning_rate': 8.999400634588781e-05, 'epoch': 0.51}
{'loss': 1.1711, 'grad_norm': 0.68359375, 'learning_rate': 8.998264396842395e-05, 'epoch': 0.51}
{'loss': 1.1851, 'grad_norm': 0.498046875, 'learning_rate': 8.99712815909601e-05, 'epoch': 0.51}
{'loss': 1.2053, 'grad_norm': 0.52734375, 'learning_rate': 8.995991921349624e-05, 'epoch': 0.51}
{'loss': 1.0552, 'grad_norm': 0.75, 'learning_rate': 8.994855683603238e-05, 'epoch': 0.51}
{'loss': 1.2648, 'grad_norm': 0.546875, 'learning_rate': 8.993719445856851e-05, 'epoch': 0.51}
{'loss': 1.1966, 'grad_norm': 0.51171875, 'learning_rate': 8.992583208110465e-05, 'epoch': 0.51}
{'loss': 1.3109, 'grad_norm': 0.412109375, 'learning_rate': 8.991446970364079e-05, 'epoch': 0.51}
{'loss': 1.2548, 'grad_norm': 0.9609375, 'learning_rate': 8.990310732617694e-05, 'epoch': 0.51}
{'loss': 1.049, 'grad_norm': 0.71484375, 'learning_rate': 8.989174494871308e-05, 'epoch': 0.51}
{'loss': 1.2816, 'grad_norm': 0.4863281



{'loss': 1.3053, 'grad_norm': 0.9453125, 'learning_rate': 8.970994690929131e-05, 'epoch': 0.51}
{'loss': 1.126, 'grad_norm': 1.3515625, 'learning_rate': 8.969858453182745e-05, 'epoch': 0.51}
{'loss': 1.2616, 'grad_norm': 0.40625, 'learning_rate': 8.968722215436359e-05, 'epoch': 0.51}
{'loss': 1.2378, 'grad_norm': 0.75390625, 'learning_rate': 8.967585977689971e-05, 'epoch': 0.51}
{'loss': 1.0129, 'grad_norm': 0.6796875, 'learning_rate': 8.966449739943586e-05, 'epoch': 0.51}
{'loss': 1.3937, 'grad_norm': 0.62890625, 'learning_rate': 8.9653135021972e-05, 'epoch': 0.51}
{'loss': 1.193, 'grad_norm': 0.74609375, 'learning_rate': 8.964177264450814e-05, 'epoch': 0.51}
{'loss': 1.2831, 'grad_norm': 0.455078125, 'learning_rate': 8.963041026704429e-05, 'epoch': 0.51}
{'loss': 1.2842, 'grad_norm': 0.7265625, 'learning_rate': 8.961904788958043e-05, 'epoch': 0.51}
{'loss': 1.0782, 'grad_norm': 0.8046875, 'learning_rate': 8.960768551211655e-05, 'epoch': 0.51}
{'loss': 1.3003, 'grad_norm': 0.7421875, 



{'loss': 1.1967, 'grad_norm': 0.69140625, 'learning_rate': 8.94258874726948e-05, 'epoch': 0.51}
{'loss': 1.0898, 'grad_norm': 0.703125, 'learning_rate': 8.941452509523092e-05, 'epoch': 0.51}
{'loss': 1.1231, 'grad_norm': 0.5390625, 'learning_rate': 8.940316271776707e-05, 'epoch': 0.51}
{'loss': 1.2183, 'grad_norm': 0.6640625, 'learning_rate': 8.939180034030321e-05, 'epoch': 0.51}
{'loss': 1.0347, 'grad_norm': 0.70703125, 'learning_rate': 8.938043796283935e-05, 'epoch': 0.51}
{'loss': 1.2291, 'grad_norm': 0.5625, 'learning_rate': 8.936907558537549e-05, 'epoch': 0.51}
{'loss': 1.1175, 'grad_norm': 0.5390625, 'learning_rate': 8.935771320791163e-05, 'epoch': 0.51}
{'loss': 1.2394, 'grad_norm': 0.474609375, 'learning_rate': 8.934635083044776e-05, 'epoch': 0.51}
{'loss': 1.2515, 'grad_norm': 0.53515625, 'learning_rate': 8.93349884529839e-05, 'epoch': 0.51}
{'loss': 1.1118, 'grad_norm': 1.2734375, 'learning_rate': 8.932362607552005e-05, 'epoch': 0.51}
{'loss': 1.1789, 'grad_norm': 0.5390625, 



{'loss': 1.3114, 'grad_norm': 0.5, 'learning_rate': 8.914182803609827e-05, 'epoch': 0.51}
{'loss': 1.0588, 'grad_norm': 0.73046875, 'learning_rate': 8.913046565863442e-05, 'epoch': 0.51}
{'loss': 1.1726, 'grad_norm': 0.42578125, 'learning_rate': 8.911910328117056e-05, 'epoch': 0.51}
{'loss': 1.2073, 'grad_norm': 0.79296875, 'learning_rate': 8.91077409037067e-05, 'epoch': 0.51}
{'loss': 1.0412, 'grad_norm': 0.69921875, 'learning_rate': 8.909637852624284e-05, 'epoch': 0.51}
{'loss': 1.2882, 'grad_norm': 0.765625, 'learning_rate': 8.908501614877897e-05, 'epoch': 0.51}
{'loss': 1.265, 'grad_norm': 0.8203125, 'learning_rate': 8.907365377131511e-05, 'epoch': 0.51}
{'loss': 1.1308, 'grad_norm': 0.431640625, 'learning_rate': 8.906229139385125e-05, 'epoch': 0.51}
{'loss': 1.368, 'grad_norm': 0.55859375, 'learning_rate': 8.90509290163874e-05, 'epoch': 0.51}
{'loss': 1.1432, 'grad_norm': 0.87890625, 'learning_rate': 8.903956663892354e-05, 'epoch': 0.51}
{'loss': 1.201, 'grad_norm': 0.49609375, 'l



{'loss': 1.3194, 'grad_norm': 0.60546875, 'learning_rate': 8.885776859950177e-05, 'epoch': 0.51}
{'loss': 1.1125, 'grad_norm': 0.6953125, 'learning_rate': 8.884640622203791e-05, 'epoch': 0.51}
{'loss': 1.2119, 'grad_norm': 0.50390625, 'learning_rate': 8.883504384457403e-05, 'epoch': 0.51}
{'loss': 1.2636, 'grad_norm': 0.6328125, 'learning_rate': 8.882368146711019e-05, 'epoch': 0.51}
{'loss': 1.0957, 'grad_norm': 1.2421875, 'learning_rate': 8.881231908964632e-05, 'epoch': 0.51}
{'loss': 1.242, 'grad_norm': 0.79296875, 'learning_rate': 8.880095671218246e-05, 'epoch': 0.51}
{'loss': 1.1486, 'grad_norm': 0.546875, 'learning_rate': 8.87895943347186e-05, 'epoch': 0.51}
{'loss': 1.204, 'grad_norm': 0.419921875, 'learning_rate': 8.877823195725474e-05, 'epoch': 0.51}
{'loss': 1.1926, 'grad_norm': 0.53125, 'learning_rate': 8.876686957979088e-05, 'epoch': 0.51}
{'loss': 1.0566, 'grad_norm': 0.373046875, 'learning_rate': 8.875550720232701e-05, 'epoch': 0.51}
{'loss': 1.4456, 'grad_norm': 0.4804687



{'loss': 1.3831, 'grad_norm': 0.61328125, 'learning_rate': 8.857370916290525e-05, 'epoch': 0.51}
{'loss': 1.2224, 'grad_norm': 0.67578125, 'learning_rate': 8.856234678544138e-05, 'epoch': 0.51}
{'loss': 1.2745, 'grad_norm': 0.578125, 'learning_rate': 8.855098440797753e-05, 'epoch': 0.51}
{'loss': 1.1944, 'grad_norm': 0.703125, 'learning_rate': 8.853962203051367e-05, 'epoch': 0.51}
{'loss': 1.0614, 'grad_norm': 0.765625, 'learning_rate': 8.852825965304981e-05, 'epoch': 0.51}
{'loss': 1.3097, 'grad_norm': 0.5546875, 'learning_rate': 8.851689727558595e-05, 'epoch': 0.51}
{'loss': 1.1908, 'grad_norm': 0.90625, 'learning_rate': 8.850553489812209e-05, 'epoch': 0.51}
{'loss': 1.3599, 'grad_norm': 0.5234375, 'learning_rate': 8.849417252065822e-05, 'epoch': 0.51}
{'loss': 1.2412, 'grad_norm': 0.5625, 'learning_rate': 8.848281014319436e-05, 'epoch': 0.51}
{'loss': 1.0864, 'grad_norm': 0.94140625, 'learning_rate': 8.847144776573051e-05, 'epoch': 0.51}
{'loss': 1.3304, 'grad_norm': 0.59375, 'learn



{'loss': 1.2813, 'grad_norm': 0.578125, 'learning_rate': 8.828964972630873e-05, 'epoch': 0.51}
{'loss': 1.2036, 'grad_norm': 0.83203125, 'learning_rate': 8.827828734884488e-05, 'epoch': 0.51}
{'loss': 1.2096, 'grad_norm': 0.76171875, 'learning_rate': 8.826692497138102e-05, 'epoch': 0.51}
{'loss': 1.2488, 'grad_norm': 0.67578125, 'learning_rate': 8.825556259391715e-05, 'epoch': 0.51}
{'loss': 1.0657, 'grad_norm': 0.8359375, 'learning_rate': 8.82442002164533e-05, 'epoch': 0.51}
{'loss': 1.3024, 'grad_norm': 0.55859375, 'learning_rate': 8.823283783898944e-05, 'epoch': 0.51}
{'loss': 1.2172, 'grad_norm': 1.2265625, 'learning_rate': 8.822147546152557e-05, 'epoch': 0.51}
{'loss': 1.1312, 'grad_norm': 0.5078125, 'learning_rate': 8.821011308406172e-05, 'epoch': 0.51}
{'loss': 1.1518, 'grad_norm': 0.67578125, 'learning_rate': 8.819875070659785e-05, 'epoch': 0.52}
{'loss': 0.9906, 'grad_norm': 0.7890625, 'learning_rate': 8.818738832913399e-05, 'epoch': 0.52}
{'loss': 1.2966, 'grad_norm': 0.52343



{'loss': 1.2745, 'grad_norm': 0.7734375, 'learning_rate': 8.800559028971222e-05, 'epoch': 0.52}
{'loss': 1.1634, 'grad_norm': 0.73828125, 'learning_rate': 8.799422791224836e-05, 'epoch': 0.52}
{'loss': 1.0974, 'grad_norm': 0.5546875, 'learning_rate': 8.79828655347845e-05, 'epoch': 0.52}
{'loss': 1.2249, 'grad_norm': 0.63671875, 'learning_rate': 8.797150315732065e-05, 'epoch': 0.52}
{'loss': 1.2093, 'grad_norm': 1.0546875, 'learning_rate': 8.796014077985678e-05, 'epoch': 0.52}
{'loss': 1.2974, 'grad_norm': 0.66015625, 'learning_rate': 8.794877840239292e-05, 'epoch': 0.52}
{'loss': 1.2655, 'grad_norm': 1.0859375, 'learning_rate': 8.793741602492906e-05, 'epoch': 0.52}
{'loss': 1.1994, 'grad_norm': 0.46875, 'learning_rate': 8.79260536474652e-05, 'epoch': 0.52}
{'loss': 1.3739, 'grad_norm': 0.953125, 'learning_rate': 8.791469127000134e-05, 'epoch': 0.52}
{'loss': 1.0907, 'grad_norm': 0.81640625, 'learning_rate': 8.790332889253749e-05, 'epoch': 0.52}
{'loss': 1.3295, 'grad_norm': 0.75, 'lear



{'loss': 1.4329, 'grad_norm': 0.578125, 'learning_rate': 8.77215308531157e-05, 'epoch': 0.52}
{'loss': 1.2101, 'grad_norm': 0.640625, 'learning_rate': 8.771016847565186e-05, 'epoch': 0.52}
{'loss': 1.2306, 'grad_norm': 0.53515625, 'learning_rate': 8.7698806098188e-05, 'epoch': 0.52}
{'loss': 1.2516, 'grad_norm': 0.828125, 'learning_rate': 8.768744372072413e-05, 'epoch': 0.52}
{'loss': 1.1256, 'grad_norm': 1.421875, 'learning_rate': 8.767608134326026e-05, 'epoch': 0.52}
{'loss': 1.1768, 'grad_norm': 0.67578125, 'learning_rate': 8.766471896579641e-05, 'epoch': 0.52}
{'loss': 1.1212, 'grad_norm': 0.91796875, 'learning_rate': 8.765335658833255e-05, 'epoch': 0.52}
{'loss': 1.3066, 'grad_norm': 0.4921875, 'learning_rate': 8.764199421086869e-05, 'epoch': 0.52}
{'loss': 1.307, 'grad_norm': 0.98828125, 'learning_rate': 8.763063183340484e-05, 'epoch': 0.52}
{'loss': 1.1189, 'grad_norm': 0.83203125, 'learning_rate': 8.761926945594096e-05, 'epoch': 0.52}
{'loss': 1.3663, 'grad_norm': 0.5859375, 'l



{'loss': 1.3574, 'grad_norm': 0.6875, 'learning_rate': 8.743747141651921e-05, 'epoch': 0.52}
{'loss': 1.1657, 'grad_norm': 0.859375, 'learning_rate': 8.742610903905533e-05, 'epoch': 0.52}
{'loss': 1.0942, 'grad_norm': 0.4296875, 'learning_rate': 8.741474666159147e-05, 'epoch': 0.52}
{'loss': 1.2409, 'grad_norm': 0.6875, 'learning_rate': 8.740338428412761e-05, 'epoch': 0.52}
{'loss': 1.0779, 'grad_norm': 1.25, 'learning_rate': 8.739202190666376e-05, 'epoch': 0.52}
{'loss': 1.2535, 'grad_norm': 0.640625, 'learning_rate': 8.73806595291999e-05, 'epoch': 0.52}
{'loss': 1.1779, 'grad_norm': 2.09375, 'learning_rate': 8.736929715173603e-05, 'epoch': 0.52}
{'loss': 1.2204, 'grad_norm': 0.421875, 'learning_rate': 8.735793477427217e-05, 'epoch': 0.52}
{'loss': 1.3367, 'grad_norm': 0.68359375, 'learning_rate': 8.734657239680831e-05, 'epoch': 0.52}
{'loss': 1.1251, 'grad_norm': 1.125, 'learning_rate': 8.733521001934445e-05, 'epoch': 0.52}
{'loss': 1.4176, 'grad_norm': 0.5234375, 'learning_rate': 8.



{'loss': 1.4218, 'grad_norm': 0.6015625, 'learning_rate': 8.715341197992268e-05, 'epoch': 0.52}
{'loss': 1.175, 'grad_norm': 0.6796875, 'learning_rate': 8.714204960245882e-05, 'epoch': 0.52}
{'loss': 1.225, 'grad_norm': 0.458984375, 'learning_rate': 8.713068722499497e-05, 'epoch': 0.52}
{'loss': 1.1743, 'grad_norm': 0.734375, 'learning_rate': 8.711932484753111e-05, 'epoch': 0.52}
{'loss': 1.0922, 'grad_norm': 0.8984375, 'learning_rate': 8.710796247006725e-05, 'epoch': 0.52}
{'loss': 1.2478, 'grad_norm': 0.451171875, 'learning_rate': 8.709660009260337e-05, 'epoch': 0.52}
{'loss': 0.9959, 'grad_norm': 0.73046875, 'learning_rate': 8.708523771513952e-05, 'epoch': 0.52}
{'loss': 1.2632, 'grad_norm': 0.44140625, 'learning_rate': 8.707387533767566e-05, 'epoch': 0.52}
{'loss': 1.0626, 'grad_norm': 0.71875, 'learning_rate': 8.70625129602118e-05, 'epoch': 0.52}
{'loss': 1.1293, 'grad_norm': 0.31640625, 'learning_rate': 8.705115058274795e-05, 'epoch': 0.52}
{'loss': 1.3337, 'grad_norm': 0.5429687



{'loss': 1.3621, 'grad_norm': 0.67578125, 'learning_rate': 8.686935254332617e-05, 'epoch': 0.52}
{'loss': 1.0507, 'grad_norm': 0.734375, 'learning_rate': 8.685799016586232e-05, 'epoch': 0.52}
{'loss': 1.2306, 'grad_norm': 0.455078125, 'learning_rate': 8.684662778839844e-05, 'epoch': 0.52}
{'loss': 1.2561, 'grad_norm': 0.88671875, 'learning_rate': 8.683526541093458e-05, 'epoch': 0.52}
{'loss': 1.195, 'grad_norm': 0.578125, 'learning_rate': 8.682390303347073e-05, 'epoch': 0.52}
{'loss': 1.2652, 'grad_norm': 0.5234375, 'learning_rate': 8.681254065600687e-05, 'epoch': 0.52}
{'loss': 1.0349, 'grad_norm': 0.875, 'learning_rate': 8.680117827854301e-05, 'epoch': 0.52}
{'loss': 1.1836, 'grad_norm': 0.62109375, 'learning_rate': 8.678981590107915e-05, 'epoch': 0.52}
{'loss': 1.317, 'grad_norm': 0.59375, 'learning_rate': 8.677845352361528e-05, 'epoch': 0.52}
{'loss': 1.1418, 'grad_norm': 0.9921875, 'learning_rate': 8.676709114615142e-05, 'epoch': 0.52}
{'loss': 1.4232, 'grad_norm': 0.8515625, 'lea



{'loss': 1.3396, 'grad_norm': 0.53125, 'learning_rate': 8.658529310672965e-05, 'epoch': 0.52}
{'loss': 1.2032, 'grad_norm': 0.77734375, 'learning_rate': 8.657393072926579e-05, 'epoch': 0.52}
{'loss': 1.2558, 'grad_norm': 0.400390625, 'learning_rate': 8.656256835180193e-05, 'epoch': 0.52}
{'loss': 1.1747, 'grad_norm': 0.68359375, 'learning_rate': 8.655120597433808e-05, 'epoch': 0.52}
{'loss': 1.2154, 'grad_norm': 0.7734375, 'learning_rate': 8.653984359687422e-05, 'epoch': 0.52}
{'loss': 1.4196, 'grad_norm': 0.5078125, 'learning_rate': 8.652848121941036e-05, 'epoch': 0.52}
{'loss': 1.1194, 'grad_norm': 0.91796875, 'learning_rate': 8.65171188419465e-05, 'epoch': 0.52}
{'loss': 1.2996, 'grad_norm': 0.486328125, 'learning_rate': 8.650575646448263e-05, 'epoch': 0.52}
{'loss': 1.286, 'grad_norm': 0.53515625, 'learning_rate': 8.649439408701877e-05, 'epoch': 0.52}
{'loss': 0.9713, 'grad_norm': 1.0078125, 'learning_rate': 8.648303170955491e-05, 'epoch': 0.52}
{'loss': 1.2507, 'grad_norm': 0.7031



{'loss': 1.4109, 'grad_norm': 0.7734375, 'learning_rate': 8.630123367013314e-05, 'epoch': 0.52}
{'loss': 1.152, 'grad_norm': 0.7421875, 'learning_rate': 8.628987129266928e-05, 'epoch': 0.52}
{'loss': 1.2324, 'grad_norm': 0.474609375, 'learning_rate': 8.627850891520543e-05, 'epoch': 0.52}
{'loss': 1.1896, 'grad_norm': 0.5234375, 'learning_rate': 8.626714653774156e-05, 'epoch': 0.52}
{'loss': 0.9395, 'grad_norm': 0.546875, 'learning_rate': 8.625578416027769e-05, 'epoch': 0.52}
{'loss': 1.2549, 'grad_norm': 0.62890625, 'learning_rate': 8.624442178281384e-05, 'epoch': 0.52}
{'loss': 1.2707, 'grad_norm': 0.76171875, 'learning_rate': 8.623305940534998e-05, 'epoch': 0.52}
{'loss': 1.2177, 'grad_norm': 0.462890625, 'learning_rate': 8.622169702788612e-05, 'epoch': 0.52}
{'loss': 1.1248, 'grad_norm': 0.65625, 'learning_rate': 8.621033465042226e-05, 'epoch': 0.52}
{'loss': 1.0902, 'grad_norm': 0.455078125, 'learning_rate': 8.61989722729584e-05, 'epoch': 0.52}
{'loss': 1.3809, 'grad_norm': 0.57421



{'loss': 1.2712, 'grad_norm': 0.58203125, 'learning_rate': 8.601717423353663e-05, 'epoch': 0.52}
{'loss': 1.1802, 'grad_norm': 0.609375, 'learning_rate': 8.600581185607277e-05, 'epoch': 0.52}
{'loss': 1.2866, 'grad_norm': 0.47265625, 'learning_rate': 8.59944494786089e-05, 'epoch': 0.52}
{'loss': 1.1994, 'grad_norm': 0.859375, 'learning_rate': 8.598308710114504e-05, 'epoch': 0.52}
{'loss': 1.1447, 'grad_norm': 1.046875, 'learning_rate': 8.59717247236812e-05, 'epoch': 0.52}
{'loss': 1.2958, 'grad_norm': 0.5, 'learning_rate': 8.596036234621733e-05, 'epoch': 0.52}
{'loss': 1.19, 'grad_norm': 0.90234375, 'learning_rate': 8.594899996875347e-05, 'epoch': 0.52}
{'loss': 1.2264, 'grad_norm': 0.396484375, 'learning_rate': 8.593763759128961e-05, 'epoch': 0.52}
{'loss': 1.1811, 'grad_norm': 0.5859375, 'learning_rate': 8.592627521382575e-05, 'epoch': 0.52}
{'loss': 1.0523, 'grad_norm': 1.0546875, 'learning_rate': 8.591491283636188e-05, 'epoch': 0.52}
{'loss': 1.361, 'grad_norm': 0.4921875, 'learnin



{'loss': 1.4637, 'grad_norm': 0.7578125, 'learning_rate': 8.573311479694012e-05, 'epoch': 0.53}
{'loss': 1.0821, 'grad_norm': 0.62109375, 'learning_rate': 8.572175241947625e-05, 'epoch': 0.53}
{'loss': 1.2241, 'grad_norm': 0.484375, 'learning_rate': 8.571039004201239e-05, 'epoch': 0.53}
{'loss': 1.2532, 'grad_norm': 0.4921875, 'learning_rate': 8.569902766454854e-05, 'epoch': 0.53}
{'loss': 1.0745, 'grad_norm': 0.9296875, 'learning_rate': 8.568766528708467e-05, 'epoch': 0.53}
{'loss': 1.3987, 'grad_norm': 0.51953125, 'learning_rate': 8.56763029096208e-05, 'epoch': 0.53}
{'loss': 1.0756, 'grad_norm': 0.828125, 'learning_rate': 8.566494053215696e-05, 'epoch': 0.53}
{'loss': 1.2102, 'grad_norm': 0.52734375, 'learning_rate': 8.56535781546931e-05, 'epoch': 0.53}
{'loss': 1.2147, 'grad_norm': 0.59765625, 'learning_rate': 8.564221577722923e-05, 'epoch': 0.53}
{'loss': 1.1342, 'grad_norm': 4.0, 'learning_rate': 8.563085339976537e-05, 'epoch': 0.53}
{'loss': 1.31, 'grad_norm': 0.53515625, 'learn



{'loss': 1.2833, 'grad_norm': 0.578125, 'learning_rate': 8.54490553603436e-05, 'epoch': 0.53}
{'loss': 1.2937, 'grad_norm': 0.84765625, 'learning_rate': 8.543769298287974e-05, 'epoch': 0.53}
{'loss': 1.1343, 'grad_norm': 0.412109375, 'learning_rate': 8.542633060541588e-05, 'epoch': 0.53}
{'loss': 1.1832, 'grad_norm': 0.71484375, 'learning_rate': 8.541496822795202e-05, 'epoch': 0.53}
{'loss': 1.0995, 'grad_norm': 1.015625, 'learning_rate': 8.540360585048815e-05, 'epoch': 0.53}
{'loss': 1.2856, 'grad_norm': 0.466796875, 'learning_rate': 8.53922434730243e-05, 'epoch': 0.53}
{'loss': 1.2167, 'grad_norm': 0.76171875, 'learning_rate': 8.538088109556044e-05, 'epoch': 0.53}
{'loss': 1.1541, 'grad_norm': 0.5078125, 'learning_rate': 8.536951871809658e-05, 'epoch': 0.53}
{'loss': 1.2268, 'grad_norm': 0.93359375, 'learning_rate': 8.535815634063272e-05, 'epoch': 0.53}
{'loss': 1.0663, 'grad_norm': 1.0234375, 'learning_rate': 8.534679396316886e-05, 'epoch': 0.53}
{'loss': 1.3582, 'grad_norm': 0.7617



{'loss': 1.3479, 'grad_norm': 0.49609375, 'learning_rate': 8.516499592374709e-05, 'epoch': 0.53}
{'loss': 1.2364, 'grad_norm': 0.67578125, 'learning_rate': 8.515363354628323e-05, 'epoch': 0.53}
{'loss': 1.2878, 'grad_norm': 0.482421875, 'learning_rate': 8.514227116881937e-05, 'epoch': 0.53}
{'loss': 1.2527, 'grad_norm': 0.6171875, 'learning_rate': 8.513090879135552e-05, 'epoch': 0.53}
{'loss': 0.9772, 'grad_norm': 0.431640625, 'learning_rate': 8.511954641389165e-05, 'epoch': 0.53}
{'loss': 1.2565, 'grad_norm': 0.66015625, 'learning_rate': 8.510818403642778e-05, 'epoch': 0.53}
{'loss': 1.1249, 'grad_norm': 0.53515625, 'learning_rate': 8.509682165896392e-05, 'epoch': 0.53}
{'loss': 1.2279, 'grad_norm': 0.5859375, 'learning_rate': 8.508545928150007e-05, 'epoch': 0.53}
{'loss': 1.194, 'grad_norm': 0.474609375, 'learning_rate': 8.50740969040362e-05, 'epoch': 0.53}
{'loss': 1.0354, 'grad_norm': 0.91015625, 'learning_rate': 8.506273452657234e-05, 'epoch': 0.53}
{'loss': 1.5205, 'grad_norm': 0



{'loss': 1.273, 'grad_norm': 0.45703125, 'learning_rate': 8.488093648715058e-05, 'epoch': 0.53}
{'loss': 1.0801, 'grad_norm': 0.80078125, 'learning_rate': 8.486957410968671e-05, 'epoch': 0.53}
{'loss': 1.1891, 'grad_norm': 0.49609375, 'learning_rate': 8.485821173222285e-05, 'epoch': 0.53}
{'loss': 1.3394, 'grad_norm': 0.640625, 'learning_rate': 8.484684935475899e-05, 'epoch': 0.53}
{'loss': 1.0926, 'grad_norm': 0.6015625, 'learning_rate': 8.483548697729513e-05, 'epoch': 0.53}
{'loss': 1.2552, 'grad_norm': 0.55859375, 'learning_rate': 8.482412459983127e-05, 'epoch': 0.53}
{'loss': 1.1058, 'grad_norm': 0.62890625, 'learning_rate': 8.481276222236742e-05, 'epoch': 0.53}
{'loss': 1.1178, 'grad_norm': 0.42578125, 'learning_rate': 8.480139984490356e-05, 'epoch': 0.53}
{'loss': 1.2527, 'grad_norm': 0.498046875, 'learning_rate': 8.47900374674397e-05, 'epoch': 0.53}
{'loss': 1.195, 'grad_norm': 0.703125, 'learning_rate': 8.477867508997583e-05, 'epoch': 0.53}
{'loss': 1.2734, 'grad_norm': 0.48632



{'loss': 1.2063, 'grad_norm': 0.7265625, 'learning_rate': 8.459687705055406e-05, 'epoch': 0.53}
{'loss': 1.1271, 'grad_norm': 0.68359375, 'learning_rate': 8.45855146730902e-05, 'epoch': 0.53}
{'loss': 1.1376, 'grad_norm': 0.50390625, 'learning_rate': 8.457415229562634e-05, 'epoch': 0.53}
{'loss': 1.2279, 'grad_norm': 0.51171875, 'learning_rate': 8.456278991816248e-05, 'epoch': 0.53}
{'loss': 1.0432, 'grad_norm': 0.92578125, 'learning_rate': 8.455142754069863e-05, 'epoch': 0.53}
{'loss': 1.259, 'grad_norm': 0.68359375, 'learning_rate': 8.454006516323477e-05, 'epoch': 0.53}
{'loss': 1.1592, 'grad_norm': 0.94140625, 'learning_rate': 8.452870278577089e-05, 'epoch': 0.53}
{'loss': 1.1781, 'grad_norm': 0.53515625, 'learning_rate': 8.451734040830703e-05, 'epoch': 0.53}
{'loss': 1.1698, 'grad_norm': 0.56640625, 'learning_rate': 8.450597803084318e-05, 'epoch': 0.53}
{'loss': 0.9974, 'grad_norm': 0.400390625, 'learning_rate': 8.449461565337932e-05, 'epoch': 0.53}
{'loss': 1.2005, 'grad_norm': 0.



{'loss': 1.1412, 'grad_norm': 0.51953125, 'learning_rate': 8.431281761395755e-05, 'epoch': 0.53}
{'loss': 1.0877, 'grad_norm': 0.73046875, 'learning_rate': 8.430145523649369e-05, 'epoch': 0.53}
{'loss': 1.1809, 'grad_norm': 0.439453125, 'learning_rate': 8.429009285902983e-05, 'epoch': 0.53}
{'loss': 1.2581, 'grad_norm': 0.5859375, 'learning_rate': 8.427873048156596e-05, 'epoch': 0.53}
{'loss': 1.0466, 'grad_norm': 1.6328125, 'learning_rate': 8.42673681041021e-05, 'epoch': 0.53}
{'loss': 1.3074, 'grad_norm': 0.490234375, 'learning_rate': 8.425600572663824e-05, 'epoch': 0.53}
{'loss': 1.1842, 'grad_norm': 0.62890625, 'learning_rate': 8.424464334917439e-05, 'epoch': 0.53}
{'loss': 1.1562, 'grad_norm': 0.412109375, 'learning_rate': 8.423328097171053e-05, 'epoch': 0.53}
{'loss': 1.2039, 'grad_norm': 0.6015625, 'learning_rate': 8.422191859424667e-05, 'epoch': 0.53}
{'loss': 1.0124, 'grad_norm': 0.828125, 'learning_rate': 8.42105562167828e-05, 'epoch': 0.53}
{'loss': 1.2637, 'grad_norm': 0.54



{'loss': 1.3254, 'grad_norm': 0.5078125, 'learning_rate': 8.402875817736104e-05, 'epoch': 0.53}
{'loss': 1.0231, 'grad_norm': 0.83984375, 'learning_rate': 8.401739579989718e-05, 'epoch': 0.53}
{'loss': 1.2635, 'grad_norm': 0.490234375, 'learning_rate': 8.400603342243331e-05, 'epoch': 0.53}
{'loss': 1.221, 'grad_norm': 0.5546875, 'learning_rate': 8.399467104496945e-05, 'epoch': 0.53}
{'loss': 1.0552, 'grad_norm': 0.75, 'learning_rate': 8.398330866750559e-05, 'epoch': 0.53}
{'loss': 1.4078, 'grad_norm': 0.609375, 'learning_rate': 8.397194629004174e-05, 'epoch': 0.53}
{'loss': 1.1989, 'grad_norm': 0.7109375, 'learning_rate': 8.396058391257788e-05, 'epoch': 0.53}
{'loss': 1.2169, 'grad_norm': 0.46875, 'learning_rate': 8.3949221535114e-05, 'epoch': 0.53}
{'loss': 1.315, 'grad_norm': 0.55078125, 'learning_rate': 8.393785915765015e-05, 'epoch': 0.53}
{'loss': 1.0276, 'grad_norm': 0.76953125, 'learning_rate': 8.392649678018629e-05, 'epoch': 0.53}
{'loss': 1.416, 'grad_norm': 0.6484375, 'learni



{'loss': 1.4188, 'grad_norm': 0.455078125, 'learning_rate': 8.374469874076452e-05, 'epoch': 0.53}
{'loss': 1.1002, 'grad_norm': 0.6171875, 'learning_rate': 8.373333636330066e-05, 'epoch': 0.53}
{'loss': 1.1847, 'grad_norm': 0.48828125, 'learning_rate': 8.37219739858368e-05, 'epoch': 0.53}
{'loss': 1.3124, 'grad_norm': 0.6015625, 'learning_rate': 8.371061160837294e-05, 'epoch': 0.53}
{'loss': 1.0425, 'grad_norm': 1.3828125, 'learning_rate': 8.369924923090908e-05, 'epoch': 0.53}
{'loss': 1.26, 'grad_norm': 0.5234375, 'learning_rate': 8.368788685344521e-05, 'epoch': 0.53}
{'loss': 1.0918, 'grad_norm': 0.796875, 'learning_rate': 8.367652447598135e-05, 'epoch': 0.53}
{'loss': 1.2348, 'grad_norm': 0.5, 'learning_rate': 8.36651620985175e-05, 'epoch': 0.53}
{'loss': 1.238, 'grad_norm': 0.66015625, 'learning_rate': 8.365379972105364e-05, 'epoch': 0.53}
{'loss': 1.0305, 'grad_norm': 0.66796875, 'learning_rate': 8.364243734358978e-05, 'epoch': 0.53}
{'loss': 1.264, 'grad_norm': 0.59375, 'learning



{'loss': 1.3625, 'grad_norm': 0.478515625, 'learning_rate': 8.346063930416801e-05, 'epoch': 0.54}
{'loss': 1.1485, 'grad_norm': 0.71484375, 'learning_rate': 8.344927692670415e-05, 'epoch': 0.54}
{'loss': 1.1312, 'grad_norm': 0.427734375, 'learning_rate': 8.343791454924029e-05, 'epoch': 0.54}
{'loss': 1.1462, 'grad_norm': 0.546875, 'learning_rate': 8.342655217177643e-05, 'epoch': 0.54}
{'loss': 1.1554, 'grad_norm': 0.87109375, 'learning_rate': 8.341518979431256e-05, 'epoch': 0.54}
{'loss': 1.214, 'grad_norm': 0.6171875, 'learning_rate': 8.34038274168487e-05, 'epoch': 0.54}
{'loss': 1.1652, 'grad_norm': 0.59375, 'learning_rate': 8.339246503938485e-05, 'epoch': 0.54}
{'loss': 1.2596, 'grad_norm': 0.55078125, 'learning_rate': 8.338110266192099e-05, 'epoch': 0.54}
{'loss': 1.1987, 'grad_norm': 0.6015625, 'learning_rate': 8.336974028445711e-05, 'epoch': 0.54}
{'loss': 1.1052, 'grad_norm': 0.9765625, 'learning_rate': 8.335837790699327e-05, 'epoch': 0.54}
{'loss': 1.3719, 'grad_norm': 0.792968



{'loss': 1.3439, 'grad_norm': 0.54296875, 'learning_rate': 8.317657986757149e-05, 'epoch': 0.54}
{'loss': 1.1837, 'grad_norm': 0.6796875, 'learning_rate': 8.316521749010764e-05, 'epoch': 0.54}
{'loss': 1.0746, 'grad_norm': 0.5546875, 'learning_rate': 8.315385511264377e-05, 'epoch': 0.54}
{'loss': 1.3663, 'grad_norm': 0.54296875, 'learning_rate': 8.314249273517991e-05, 'epoch': 0.54}
{'loss': 1.0914, 'grad_norm': 0.53125, 'learning_rate': 8.313113035771605e-05, 'epoch': 0.54}
{'loss': 1.3738, 'grad_norm': 0.462890625, 'learning_rate': 8.311976798025219e-05, 'epoch': 0.54}
{'loss': 1.1356, 'grad_norm': 0.57421875, 'learning_rate': 8.310840560278833e-05, 'epoch': 0.54}
{'loss': 1.1444, 'grad_norm': 0.455078125, 'learning_rate': 8.309704322532446e-05, 'epoch': 0.54}
{'loss': 1.3016, 'grad_norm': 0.69921875, 'learning_rate': 8.308568084786062e-05, 'epoch': 0.54}
{'loss': 1.0453, 'grad_norm': 0.56640625, 'learning_rate': 8.307431847039675e-05, 'epoch': 0.54}
{'loss': 1.369, 'grad_norm': 0.98



{'loss': 1.2991, 'grad_norm': 0.578125, 'learning_rate': 8.289252043097499e-05, 'epoch': 0.54}
{'loss': 1.0645, 'grad_norm': 0.84375, 'learning_rate': 8.288115805351112e-05, 'epoch': 0.54}
{'loss': 1.2507, 'grad_norm': 0.470703125, 'learning_rate': 8.286979567604726e-05, 'epoch': 0.54}
{'loss': 1.2107, 'grad_norm': 0.5390625, 'learning_rate': 8.28584332985834e-05, 'epoch': 0.54}
{'loss': 1.157, 'grad_norm': 0.478515625, 'learning_rate': 8.284707092111954e-05, 'epoch': 0.54}
{'loss': 1.3762, 'grad_norm': 0.6015625, 'learning_rate': 8.283570854365568e-05, 'epoch': 0.54}
{'loss': 1.066, 'grad_norm': 0.9453125, 'learning_rate': 8.282434616619181e-05, 'epoch': 0.54}
{'loss': 1.112, 'grad_norm': 0.48828125, 'learning_rate': 8.281298378872796e-05, 'epoch': 0.54}
{'loss': 1.1871, 'grad_norm': 0.5859375, 'learning_rate': 8.28016214112641e-05, 'epoch': 0.54}
{'loss': 1.1371, 'grad_norm': 2.1875, 'learning_rate': 8.279025903380023e-05, 'epoch': 0.54}
{'loss': 1.3054, 'grad_norm': 0.5, 'learning_r



{'loss': 1.2589, 'grad_norm': 0.6484375, 'learning_rate': 8.260846099437847e-05, 'epoch': 0.54}
{'loss': 1.1485, 'grad_norm': 1.234375, 'learning_rate': 8.25970986169146e-05, 'epoch': 0.54}
{'loss': 1.2761, 'grad_norm': 0.462890625, 'learning_rate': 8.258573623945075e-05, 'epoch': 0.54}
{'loss': 1.2434, 'grad_norm': 0.59375, 'learning_rate': 8.257437386198689e-05, 'epoch': 0.54}
{'loss': 1.1003, 'grad_norm': 0.86328125, 'learning_rate': 8.256301148452302e-05, 'epoch': 0.54}
{'loss': 1.3731, 'grad_norm': 0.54296875, 'learning_rate': 8.255164910705918e-05, 'epoch': 0.54}
{'loss': 1.08, 'grad_norm': 0.5546875, 'learning_rate': 8.25402867295953e-05, 'epoch': 0.54}
{'loss': 1.2069, 'grad_norm': 0.439453125, 'learning_rate': 8.252892435213144e-05, 'epoch': 0.54}
{'loss': 1.1677, 'grad_norm': 0.52734375, 'learning_rate': 8.251756197466758e-05, 'epoch': 0.54}
{'loss': 1.0837, 'grad_norm': 0.58984375, 'learning_rate': 8.250619959720373e-05, 'epoch': 0.54}
{'loss': 1.3004, 'grad_norm': 0.515625,



{'loss': 1.3005, 'grad_norm': 0.609375, 'learning_rate': 8.232440155778195e-05, 'epoch': 0.54}
{'loss': 1.07, 'grad_norm': 1.3671875, 'learning_rate': 8.23130391803181e-05, 'epoch': 0.54}
{'loss': 1.155, 'grad_norm': 0.53515625, 'learning_rate': 8.230167680285424e-05, 'epoch': 0.54}
{'loss': 1.2515, 'grad_norm': 0.8828125, 'learning_rate': 8.229031442539037e-05, 'epoch': 0.54}
{'loss': 1.1137, 'grad_norm': 0.82421875, 'learning_rate': 8.227895204792651e-05, 'epoch': 0.54}
{'loss': 1.2407, 'grad_norm': 0.5390625, 'learning_rate': 8.226758967046265e-05, 'epoch': 0.54}
{'loss': 1.089, 'grad_norm': 0.91015625, 'learning_rate': 8.225622729299879e-05, 'epoch': 0.54}
{'loss': 1.0022, 'grad_norm': 0.4296875, 'learning_rate': 8.224486491553494e-05, 'epoch': 0.54}
{'loss': 1.3203, 'grad_norm': 0.640625, 'learning_rate': 8.223350253807108e-05, 'epoch': 0.54}
{'loss': 1.1161, 'grad_norm': 0.66015625, 'learning_rate': 8.222214016060721e-05, 'epoch': 0.54}
{'loss': 1.4356, 'grad_norm': 0.55859375, '



{'loss': 1.3341, 'grad_norm': 0.54296875, 'learning_rate': 8.204034212118545e-05, 'epoch': 0.54}
{'loss': 1.1331, 'grad_norm': 0.76953125, 'learning_rate': 8.202897974372158e-05, 'epoch': 0.54}
{'loss': 1.1995, 'grad_norm': 0.5078125, 'learning_rate': 8.201761736625771e-05, 'epoch': 0.54}
{'loss': 1.2562, 'grad_norm': 0.62109375, 'learning_rate': 8.200625498879386e-05, 'epoch': 0.54}
{'loss': 0.9814, 'grad_norm': 0.419921875, 'learning_rate': 8.199489261133e-05, 'epoch': 0.54}
{'loss': 1.3605, 'grad_norm': 0.470703125, 'learning_rate': 8.198353023386614e-05, 'epoch': 0.54}
{'loss': 1.1807, 'grad_norm': 0.609375, 'learning_rate': 8.197216785640229e-05, 'epoch': 0.54}
{'loss': 1.139, 'grad_norm': 0.5078125, 'learning_rate': 8.196080547893841e-05, 'epoch': 0.54}
{'loss': 1.2226, 'grad_norm': 0.67578125, 'learning_rate': 8.194944310147455e-05, 'epoch': 0.54}
{'loss': 1.0768, 'grad_norm': 1.359375, 'learning_rate': 8.193808072401069e-05, 'epoch': 0.54}
{'loss': 1.286, 'grad_norm': 0.6914062



{'loss': 1.4013, 'grad_norm': 0.58984375, 'learning_rate': 8.175628268458892e-05, 'epoch': 0.54}
{'loss': 1.1865, 'grad_norm': 0.6484375, 'learning_rate': 8.174492030712506e-05, 'epoch': 0.54}
{'loss': 1.2276, 'grad_norm': 0.5703125, 'learning_rate': 8.173355792966121e-05, 'epoch': 0.54}
{'loss': 1.1922, 'grad_norm': 0.8359375, 'learning_rate': 8.172219555219735e-05, 'epoch': 0.54}
{'loss': 1.1805, 'grad_norm': 0.95703125, 'learning_rate': 8.171083317473349e-05, 'epoch': 0.54}
{'loss': 1.3514, 'grad_norm': 0.46484375, 'learning_rate': 8.169947079726962e-05, 'epoch': 0.54}
{'loss': 1.2364, 'grad_norm': 0.6796875, 'learning_rate': 8.168810841980576e-05, 'epoch': 0.54}
{'loss': 1.2608, 'grad_norm': 0.44140625, 'learning_rate': 8.16767460423419e-05, 'epoch': 0.54}
{'loss': 1.3035, 'grad_norm': 0.8203125, 'learning_rate': 8.166538366487805e-05, 'epoch': 0.54}
{'loss': 0.9889, 'grad_norm': 0.44921875, 'learning_rate': 8.165402128741419e-05, 'epoch': 0.54}
{'loss': 1.35, 'grad_norm': 0.458984



{'loss': 1.2855, 'grad_norm': 0.6171875, 'learning_rate': 8.147222324799242e-05, 'epoch': 0.54}
{'loss': 1.1334, 'grad_norm': 0.7578125, 'learning_rate': 8.146086087052856e-05, 'epoch': 0.54}
{'loss': 1.1244, 'grad_norm': 0.5, 'learning_rate': 8.14494984930647e-05, 'epoch': 0.54}
{'loss': 1.3075, 'grad_norm': 0.6953125, 'learning_rate': 8.143813611560082e-05, 'epoch': 0.54}
{'loss': 1.1398, 'grad_norm': 0.81640625, 'learning_rate': 8.142677373813697e-05, 'epoch': 0.54}
{'loss': 1.2985, 'grad_norm': 0.58984375, 'learning_rate': 8.141541136067311e-05, 'epoch': 0.54}
{'loss': 1.1388, 'grad_norm': 0.62890625, 'learning_rate': 8.140404898320925e-05, 'epoch': 0.54}
{'loss': 1.2104, 'grad_norm': 0.447265625, 'learning_rate': 8.13926866057454e-05, 'epoch': 0.54}
{'loss': 1.1169, 'grad_norm': 0.59765625, 'learning_rate': 8.138132422828152e-05, 'epoch': 0.54}
{'loss': 1.1343, 'grad_norm': 0.66015625, 'learning_rate': 8.136996185081766e-05, 'epoch': 0.54}
{'loss': 1.3856, 'grad_norm': 0.8984375, 



{'loss': 1.3214, 'grad_norm': 0.52734375, 'learning_rate': 8.11881638113959e-05, 'epoch': 0.55}
{'loss': 1.112, 'grad_norm': 0.7109375, 'learning_rate': 8.117680143393203e-05, 'epoch': 0.55}
{'loss': 1.1573, 'grad_norm': 0.62109375, 'learning_rate': 8.116543905646818e-05, 'epoch': 0.55}
{'loss': 1.2646, 'grad_norm': 0.6484375, 'learning_rate': 8.115407667900432e-05, 'epoch': 0.55}
{'loss': 1.0256, 'grad_norm': 1.1484375, 'learning_rate': 8.114271430154046e-05, 'epoch': 0.55}
{'loss': 1.3166, 'grad_norm': 0.47265625, 'learning_rate': 8.11313519240766e-05, 'epoch': 0.55}
{'loss': 1.1931, 'grad_norm': 0.71484375, 'learning_rate': 8.111998954661274e-05, 'epoch': 0.55}
{'loss': 1.2004, 'grad_norm': 0.4765625, 'learning_rate': 8.110862716914887e-05, 'epoch': 0.55}
{'loss': 1.1744, 'grad_norm': 0.56640625, 'learning_rate': 8.109726479168501e-05, 'epoch': 0.55}
{'loss': 1.1363, 'grad_norm': 0.98046875, 'learning_rate': 8.108590241422116e-05, 'epoch': 0.55}
{'loss': 1.3497, 'grad_norm': 0.63281



{'loss': 1.4138, 'grad_norm': 0.5078125, 'learning_rate': 8.090410437479938e-05, 'epoch': 0.55}
{'loss': 1.2599, 'grad_norm': 0.91015625, 'learning_rate': 8.089274199733553e-05, 'epoch': 0.55}
{'loss': 1.2152, 'grad_norm': 0.8828125, 'learning_rate': 8.088137961987167e-05, 'epoch': 0.55}
{'loss': 1.1614, 'grad_norm': 0.69921875, 'learning_rate': 8.087001724240781e-05, 'epoch': 0.55}
{'loss': 1.0197, 'grad_norm': 0.97265625, 'learning_rate': 8.085865486494395e-05, 'epoch': 0.55}
{'loss': 1.263, 'grad_norm': 0.65234375, 'learning_rate': 8.084729248748008e-05, 'epoch': 0.55}
{'loss': 1.1945, 'grad_norm': 0.65234375, 'learning_rate': 8.083593011001622e-05, 'epoch': 0.55}
{'loss': 1.0892, 'grad_norm': 0.52734375, 'learning_rate': 8.082456773255236e-05, 'epoch': 0.55}
{'loss': 1.1997, 'grad_norm': 0.55859375, 'learning_rate': 8.081320535508851e-05, 'epoch': 0.55}
{'loss': 1.0329, 'grad_norm': 0.859375, 'learning_rate': 8.080184297762464e-05, 'epoch': 0.55}
{'loss': 1.3618, 'grad_norm': 0.488



{'loss': 1.3179, 'grad_norm': 0.6171875, 'learning_rate': 8.062004493820288e-05, 'epoch': 0.55}
{'loss': 1.2748, 'grad_norm': 0.56640625, 'learning_rate': 8.0608682560739e-05, 'epoch': 0.55}
{'loss': 1.2197, 'grad_norm': 0.4765625, 'learning_rate': 8.059732018327514e-05, 'epoch': 0.55}
{'loss': 1.2063, 'grad_norm': 0.50390625, 'learning_rate': 8.05859578058113e-05, 'epoch': 0.55}
{'loss': 1.1699, 'grad_norm': 0.8828125, 'learning_rate': 8.057459542834743e-05, 'epoch': 0.55}
{'loss': 1.3447, 'grad_norm': 0.46484375, 'learning_rate': 8.056323305088357e-05, 'epoch': 0.55}
{'loss': 1.1873, 'grad_norm': 0.7265625, 'learning_rate': 8.055187067341971e-05, 'epoch': 0.55}
{'loss': 1.1659, 'grad_norm': 0.55859375, 'learning_rate': 8.054050829595585e-05, 'epoch': 0.55}
{'loss': 1.2826, 'grad_norm': 0.60546875, 'learning_rate': 8.052914591849198e-05, 'epoch': 0.55}
{'loss': 1.2123, 'grad_norm': 0.65234375, 'learning_rate': 8.051778354102812e-05, 'epoch': 0.55}
{'loss': 1.2572, 'grad_norm': 0.48046



{'loss': 1.3908, 'grad_norm': 0.53515625, 'learning_rate': 8.033598550160636e-05, 'epoch': 0.55}
{'loss': 1.1103, 'grad_norm': 0.76953125, 'learning_rate': 8.03246231241425e-05, 'epoch': 0.55}
{'loss': 1.1825, 'grad_norm': 0.53125, 'learning_rate': 8.031326074667864e-05, 'epoch': 0.55}
{'loss': 1.1098, 'grad_norm': 0.671875, 'learning_rate': 8.030189836921478e-05, 'epoch': 0.55}
{'loss': 1.0356, 'grad_norm': 0.5078125, 'learning_rate': 8.029053599175092e-05, 'epoch': 0.55}
{'loss': 1.3532, 'grad_norm': 0.53125, 'learning_rate': 8.027917361428706e-05, 'epoch': 0.55}
{'loss': 1.1236, 'grad_norm': 0.74609375, 'learning_rate': 8.02678112368232e-05, 'epoch': 0.55}
{'loss': 1.3474, 'grad_norm': 0.44921875, 'learning_rate': 8.025644885935933e-05, 'epoch': 0.55}
{'loss': 1.1848, 'grad_norm': 0.62109375, 'learning_rate': 8.024508648189547e-05, 'epoch': 0.55}
{'loss': 0.9946, 'grad_norm': 0.490234375, 'learning_rate': 8.023372410443162e-05, 'epoch': 0.55}
{'loss': 1.3317, 'grad_norm': 0.55078125



{'loss': 1.4565, 'grad_norm': 0.53125, 'learning_rate': 8.005192606500984e-05, 'epoch': 0.55}
{'loss': 1.0728, 'grad_norm': 0.75, 'learning_rate': 8.0040563687546e-05, 'epoch': 0.55}
{'loss': 0.9691, 'grad_norm': 0.57421875, 'learning_rate': 8.002920131008212e-05, 'epoch': 0.55}
{'loss': 1.2303, 'grad_norm': 0.83203125, 'learning_rate': 8.001783893261826e-05, 'epoch': 0.55}
{'loss': 1.1177, 'grad_norm': 1.1796875, 'learning_rate': 8.000647655515441e-05, 'epoch': 0.55}
{'loss': 1.3305, 'grad_norm': 0.6640625, 'learning_rate': 7.999511417769055e-05, 'epoch': 0.55}
{'loss': 1.1142, 'grad_norm': 0.6015625, 'learning_rate': 7.998375180022668e-05, 'epoch': 0.55}
{'loss': 1.0092, 'grad_norm': 0.609375, 'learning_rate': 7.997238942276282e-05, 'epoch': 0.55}
{'loss': 1.2366, 'grad_norm': 0.51171875, 'learning_rate': 7.996102704529896e-05, 'epoch': 0.55}
{'loss': 1.1097, 'grad_norm': 0.90625, 'learning_rate': 7.99496646678351e-05, 'epoch': 0.55}
{'loss': 1.2385, 'grad_norm': 0.5078125, 'learning



{'loss': 1.3317, 'grad_norm': 0.66796875, 'learning_rate': 7.976786662841333e-05, 'epoch': 0.55}
{'loss': 1.0912, 'grad_norm': 0.64453125, 'learning_rate': 7.975650425094947e-05, 'epoch': 0.55}
{'loss': 1.1701, 'grad_norm': 0.50390625, 'learning_rate': 7.97451418734856e-05, 'epoch': 0.55}
{'loss': 1.2711, 'grad_norm': 0.59765625, 'learning_rate': 7.973377949602176e-05, 'epoch': 0.55}
{'loss': 1.084, 'grad_norm': 0.71484375, 'learning_rate': 7.97224171185579e-05, 'epoch': 0.55}
{'loss': 1.3456, 'grad_norm': 0.51171875, 'learning_rate': 7.971105474109403e-05, 'epoch': 0.55}
{'loss': 1.0965, 'grad_norm': 0.6796875, 'learning_rate': 7.969969236363017e-05, 'epoch': 0.55}
{'loss': 1.1697, 'grad_norm': 0.62890625, 'learning_rate': 7.968832998616631e-05, 'epoch': 0.55}
{'loss': 1.2373, 'grad_norm': 0.48046875, 'learning_rate': 7.967696760870245e-05, 'epoch': 0.55}
{'loss': 1.1352, 'grad_norm': 0.7890625, 'learning_rate': 7.96656052312386e-05, 'epoch': 0.55}
{'loss': 1.2874, 'grad_norm': 0.5312



{'loss': 1.2626, 'grad_norm': 0.5703125, 'learning_rate': 7.948380719181682e-05, 'epoch': 0.55}
{'loss': 1.1923, 'grad_norm': 0.71875, 'learning_rate': 7.947244481435297e-05, 'epoch': 0.55}
{'loss': 1.1547, 'grad_norm': 0.52734375, 'learning_rate': 7.94610824368891e-05, 'epoch': 0.55}
{'loss': 1.2042, 'grad_norm': 0.49609375, 'learning_rate': 7.944972005942523e-05, 'epoch': 0.55}
{'loss': 1.0286, 'grad_norm': 0.8203125, 'learning_rate': 7.943835768196137e-05, 'epoch': 0.55}
{'loss': 1.2741, 'grad_norm': 0.72265625, 'learning_rate': 7.942699530449752e-05, 'epoch': 0.55}
{'loss': 1.1817, 'grad_norm': 0.73046875, 'learning_rate': 7.941563292703366e-05, 'epoch': 0.55}
{'loss': 1.0513, 'grad_norm': 0.373046875, 'learning_rate': 7.94042705495698e-05, 'epoch': 0.55}
{'loss': 1.1919, 'grad_norm': 0.546875, 'learning_rate': 7.939290817210593e-05, 'epoch': 0.55}
{'loss': 1.1131, 'grad_norm': 0.71484375, 'learning_rate': 7.938154579464207e-05, 'epoch': 0.55}
{'loss': 1.376, 'grad_norm': 0.5859375



{'loss': 1.2457, 'grad_norm': 0.51953125, 'learning_rate': 7.919974775522032e-05, 'epoch': 0.55}
{'loss': 1.1476, 'grad_norm': 0.8828125, 'learning_rate': 7.918838537775644e-05, 'epoch': 0.55}
{'loss': 1.2221, 'grad_norm': 0.38671875, 'learning_rate': 7.917702300029258e-05, 'epoch': 0.55}
{'loss': 1.1741, 'grad_norm': 0.5234375, 'learning_rate': 7.916566062282872e-05, 'epoch': 0.55}
{'loss': 1.0538, 'grad_norm': 0.859375, 'learning_rate': 7.915429824536487e-05, 'epoch': 0.55}
{'loss': 1.3042, 'grad_norm': 0.48046875, 'learning_rate': 7.9142935867901e-05, 'epoch': 0.55}
{'loss': 1.156, 'grad_norm': 0.5859375, 'learning_rate': 7.913157349043714e-05, 'epoch': 0.55}
{'loss': 1.1238, 'grad_norm': 0.5625, 'learning_rate': 7.912021111297328e-05, 'epoch': 0.55}
{'loss': 1.3776, 'grad_norm': 0.5703125, 'learning_rate': 7.910884873550942e-05, 'epoch': 0.55}
{'loss': 1.0072, 'grad_norm': 0.78125, 'learning_rate': 7.909748635804556e-05, 'epoch': 0.55}
{'loss': 1.2601, 'grad_norm': 0.5703125, 'lear



{'loss': 1.3454, 'grad_norm': 0.490234375, 'learning_rate': 7.891568831862379e-05, 'epoch': 0.56}
{'loss': 1.131, 'grad_norm': 0.73828125, 'learning_rate': 7.890432594115993e-05, 'epoch': 0.56}
{'loss': 1.2977, 'grad_norm': 0.546875, 'learning_rate': 7.889296356369608e-05, 'epoch': 0.56}
{'loss': 1.3488, 'grad_norm': 0.62890625, 'learning_rate': 7.888160118623222e-05, 'epoch': 0.56}
{'loss': 1.0886, 'grad_norm': 0.8359375, 'learning_rate': 7.887023880876834e-05, 'epoch': 0.56}
{'loss': 1.2773, 'grad_norm': 0.828125, 'learning_rate': 7.885887643130448e-05, 'epoch': 0.56}
{'loss': 1.4032, 'grad_norm': 0.625, 'learning_rate': 7.884751405384063e-05, 'epoch': 0.56}
{'loss': 1.278, 'grad_norm': 0.486328125, 'learning_rate': 7.883615167637677e-05, 'epoch': 0.56}
{'loss': 1.1236, 'grad_norm': 0.59765625, 'learning_rate': 7.882478929891291e-05, 'epoch': 0.56}
{'loss': 1.1285, 'grad_norm': 1.5703125, 'learning_rate': 7.881342692144906e-05, 'epoch': 0.56}
{'loss': 1.3614, 'grad_norm': 0.66796875,



{'loss': 1.3888, 'grad_norm': 0.54296875, 'learning_rate': 7.863162888202728e-05, 'epoch': 0.56}
{'loss': 1.1979, 'grad_norm': 0.55078125, 'learning_rate': 7.862026650456343e-05, 'epoch': 0.56}
{'loss': 1.2757, 'grad_norm': 0.439453125, 'learning_rate': 7.860890412709955e-05, 'epoch': 0.56}
{'loss': 1.1258, 'grad_norm': 0.5625, 'learning_rate': 7.859754174963569e-05, 'epoch': 0.56}
{'loss': 0.9834, 'grad_norm': 0.47265625, 'learning_rate': 7.858617937217184e-05, 'epoch': 0.56}
{'loss': 1.5165, 'grad_norm': 0.55859375, 'learning_rate': 7.857481699470798e-05, 'epoch': 0.56}
{'loss': 1.2093, 'grad_norm': 0.68359375, 'learning_rate': 7.856345461724412e-05, 'epoch': 0.56}
{'loss': 1.2005, 'grad_norm': 0.482421875, 'learning_rate': 7.855209223978026e-05, 'epoch': 0.56}
{'loss': 1.1594, 'grad_norm': 0.5234375, 'learning_rate': 7.85407298623164e-05, 'epoch': 0.56}
{'loss': 1.1634, 'grad_norm': 0.78515625, 'learning_rate': 7.852936748485253e-05, 'epoch': 0.56}
{'loss': 1.3011, 'grad_norm': 0.58



{'loss': 1.3082, 'grad_norm': 0.53515625, 'learning_rate': 7.834756944543076e-05, 'epoch': 0.56}
{'loss': 1.2588, 'grad_norm': 0.703125, 'learning_rate': 7.83362070679669e-05, 'epoch': 0.56}
{'loss': 1.2246, 'grad_norm': 0.4453125, 'learning_rate': 7.832484469050304e-05, 'epoch': 0.56}
{'loss': 1.3401, 'grad_norm': 0.6015625, 'learning_rate': 7.831348231303919e-05, 'epoch': 0.56}
{'loss': 1.1846, 'grad_norm': 0.8515625, 'learning_rate': 7.830211993557533e-05, 'epoch': 0.56}
{'loss': 1.3166, 'grad_norm': 0.54296875, 'learning_rate': 7.829075755811145e-05, 'epoch': 0.56}
{'loss': 1.1482, 'grad_norm': 0.7421875, 'learning_rate': 7.82793951806476e-05, 'epoch': 0.56}
{'loss': 1.2927, 'grad_norm': 0.484375, 'learning_rate': 7.826803280318374e-05, 'epoch': 0.56}
{'loss': 1.2243, 'grad_norm': 0.64453125, 'learning_rate': 7.825667042571988e-05, 'epoch': 0.56}
{'loss': 1.0338, 'grad_norm': 1.2421875, 'learning_rate': 7.824530804825602e-05, 'epoch': 0.56}
{'loss': 1.3055, 'grad_norm': 0.6171875, 



{'loss': 1.3116, 'grad_norm': 0.51953125, 'learning_rate': 7.806351000883425e-05, 'epoch': 0.56}
{'loss': 1.1335, 'grad_norm': 0.9921875, 'learning_rate': 7.805214763137039e-05, 'epoch': 0.56}
{'loss': 1.1983, 'grad_norm': 0.412109375, 'learning_rate': 7.804078525390654e-05, 'epoch': 0.56}
{'loss': 1.243, 'grad_norm': 0.6328125, 'learning_rate': 7.802942287644267e-05, 'epoch': 0.56}
{'loss': 1.0251, 'grad_norm': 0.62890625, 'learning_rate': 7.80180604989788e-05, 'epoch': 0.56}
{'loss': 1.33, 'grad_norm': 0.5, 'learning_rate': 7.800669812151495e-05, 'epoch': 0.56}
{'loss': 1.1434, 'grad_norm': 0.69921875, 'learning_rate': 7.799533574405109e-05, 'epoch': 0.56}
{'loss': 1.223, 'grad_norm': 0.39453125, 'learning_rate': 7.798397336658723e-05, 'epoch': 0.56}
{'loss': 1.3682, 'grad_norm': 0.59375, 'learning_rate': 7.797261098912337e-05, 'epoch': 0.56}
{'loss': 1.1841, 'grad_norm': 0.93359375, 'learning_rate': 7.79612486116595e-05, 'epoch': 0.56}
{'loss': 1.4507, 'grad_norm': 1.03125, 'learnin



{'loss': 1.3202, 'grad_norm': 0.60546875, 'learning_rate': 7.777945057223774e-05, 'epoch': 0.56}
{'loss': 1.2147, 'grad_norm': 0.80859375, 'learning_rate': 7.776808819477388e-05, 'epoch': 0.56}
{'loss': 1.2065, 'grad_norm': 0.447265625, 'learning_rate': 7.775672581731001e-05, 'epoch': 0.56}
{'loss': 1.1905, 'grad_norm': 0.67578125, 'learning_rate': 7.774536343984615e-05, 'epoch': 0.56}
{'loss': 1.1447, 'grad_norm': 0.796875, 'learning_rate': 7.77340010623823e-05, 'epoch': 0.56}
{'loss': 1.2143, 'grad_norm': 0.6171875, 'learning_rate': 7.772263868491844e-05, 'epoch': 0.56}
{'loss': 1.1434, 'grad_norm': 0.76953125, 'learning_rate': 7.771127630745457e-05, 'epoch': 0.56}
{'loss': 1.2915, 'grad_norm': 0.421875, 'learning_rate': 7.769991392999072e-05, 'epoch': 0.56}
{'loss': 1.2473, 'grad_norm': 0.73046875, 'learning_rate': 7.768855155252686e-05, 'epoch': 0.56}
{'loss': 1.0568, 'grad_norm': 1.078125, 'learning_rate': 7.767718917506299e-05, 'epoch': 0.56}
{'loss': 1.4727, 'grad_norm': 0.53125



{'loss': 1.4388, 'grad_norm': 0.51953125, 'learning_rate': 7.749539113564123e-05, 'epoch': 0.56}
{'loss': 1.1719, 'grad_norm': 0.7265625, 'learning_rate': 7.748402875817736e-05, 'epoch': 0.56}
{'loss': 1.2144, 'grad_norm': 0.478515625, 'learning_rate': 7.74726663807135e-05, 'epoch': 0.56}
{'loss': 1.3509, 'grad_norm': 0.6015625, 'learning_rate': 7.746130400324965e-05, 'epoch': 0.56}
{'loss': 1.1408, 'grad_norm': 0.73828125, 'learning_rate': 7.744994162578578e-05, 'epoch': 0.56}
{'loss': 1.3026, 'grad_norm': 0.83984375, 'learning_rate': 7.743857924832192e-05, 'epoch': 0.56}
{'loss': 1.2196, 'grad_norm': 0.765625, 'learning_rate': 7.742721687085807e-05, 'epoch': 0.56}
{'loss': 1.1454, 'grad_norm': 0.359375, 'learning_rate': 7.74158544933942e-05, 'epoch': 0.56}
{'loss': 1.2987, 'grad_norm': 0.55859375, 'learning_rate': 7.740449211593034e-05, 'epoch': 0.56}
{'loss': 1.1946, 'grad_norm': 2.96875, 'learning_rate': 7.739312973846648e-05, 'epoch': 0.56}
{'loss': 1.3414, 'grad_norm': 0.71484375



{'loss': 1.2585, 'grad_norm': 0.63671875, 'learning_rate': 7.721133169904471e-05, 'epoch': 0.56}
{'loss': 1.0916, 'grad_norm': 0.8046875, 'learning_rate': 7.719996932158085e-05, 'epoch': 0.56}
{'loss': 1.4476, 'grad_norm': 0.4375, 'learning_rate': 7.718860694411699e-05, 'epoch': 0.56}
{'loss': 1.2028, 'grad_norm': 0.53515625, 'learning_rate': 7.717724456665313e-05, 'epoch': 0.56}
{'loss': 1.117, 'grad_norm': 0.7265625, 'learning_rate': 7.716588218918926e-05, 'epoch': 0.56}
{'loss': 1.3065, 'grad_norm': 0.546875, 'learning_rate': 7.715451981172542e-05, 'epoch': 0.56}
{'loss': 1.0902, 'grad_norm': 0.72265625, 'learning_rate': 7.714315743426155e-05, 'epoch': 0.56}
{'loss': 1.1609, 'grad_norm': 0.62109375, 'learning_rate': 7.713179505679768e-05, 'epoch': 0.56}
{'loss': 1.2874, 'grad_norm': 0.62890625, 'learning_rate': 7.712043267933383e-05, 'epoch': 0.56}
{'loss': 1.2359, 'grad_norm': 2.03125, 'learning_rate': 7.710907030186997e-05, 'epoch': 0.56}
{'loss': 1.235, 'grad_norm': 0.58984375, '



{'loss': 1.4233, 'grad_norm': 0.478515625, 'learning_rate': 7.69272722624482e-05, 'epoch': 0.56}
{'loss': 1.2128, 'grad_norm': 1.296875, 'learning_rate': 7.691590988498434e-05, 'epoch': 0.56}
{'loss': 1.2367, 'grad_norm': 1.3203125, 'learning_rate': 7.690454750752048e-05, 'epoch': 0.56}
{'loss': 1.156, 'grad_norm': 0.8359375, 'learning_rate': 7.689318513005663e-05, 'epoch': 0.56}
{'loss': 1.0677, 'grad_norm': 1.09375, 'learning_rate': 7.688182275259276e-05, 'epoch': 0.56}
{'loss': 1.4062, 'grad_norm': 0.71484375, 'learning_rate': 7.687046037512889e-05, 'epoch': 0.56}
{'loss': 1.1369, 'grad_norm': 1.0078125, 'learning_rate': 7.685909799766503e-05, 'epoch': 0.56}
{'loss': 1.139, 'grad_norm': 0.4765625, 'learning_rate': 7.684773562020118e-05, 'epoch': 0.56}
{'loss': 1.4321, 'grad_norm': 0.61328125, 'learning_rate': 7.683637324273732e-05, 'epoch': 0.56}
{'loss': 1.1171, 'grad_norm': 0.68359375, 'learning_rate': 7.682501086527345e-05, 'epoch': 0.56}
{'loss': 1.2161, 'grad_norm': 0.875, 'lea



{'loss': 1.288, 'grad_norm': 0.51171875, 'learning_rate': 7.664321282585169e-05, 'epoch': 0.57}
{'loss': 1.2011, 'grad_norm': 0.7890625, 'learning_rate': 7.663185044838782e-05, 'epoch': 0.57}
{'loss': 1.2465, 'grad_norm': 0.53515625, 'learning_rate': 7.662048807092396e-05, 'epoch': 0.57}
{'loss': 1.3258, 'grad_norm': 0.61328125, 'learning_rate': 7.66091256934601e-05, 'epoch': 0.57}
{'loss': 0.9667, 'grad_norm': 0.78515625, 'learning_rate': 7.659776331599624e-05, 'epoch': 0.57}
{'loss': 1.2782, 'grad_norm': 0.67578125, 'learning_rate': 7.658640093853239e-05, 'epoch': 0.57}
{'loss': 1.0076, 'grad_norm': 0.76953125, 'learning_rate': 7.657503856106853e-05, 'epoch': 0.57}
{'loss': 1.1374, 'grad_norm': 0.47265625, 'learning_rate': 7.656367618360467e-05, 'epoch': 0.57}
{'loss': 1.2749, 'grad_norm': 0.64453125, 'learning_rate': 7.655231380614079e-05, 'epoch': 0.57}
{'loss': 0.9916, 'grad_norm': 0.71875, 'learning_rate': 7.654095142867694e-05, 'epoch': 0.57}
{'loss': 1.1597, 'grad_norm': 0.6171



{'loss': 1.2724, 'grad_norm': 0.60546875, 'learning_rate': 7.635915338925516e-05, 'epoch': 0.57}
{'loss': 1.2956, 'grad_norm': 0.6328125, 'learning_rate': 7.634779101179131e-05, 'epoch': 0.57}
{'loss': 1.1173, 'grad_norm': 0.494140625, 'learning_rate': 7.633642863432745e-05, 'epoch': 0.57}
{'loss': 1.2619, 'grad_norm': 0.67578125, 'learning_rate': 7.632506625686359e-05, 'epoch': 0.57}
{'loss': 1.2246, 'grad_norm': 0.859375, 'learning_rate': 7.631370387939974e-05, 'epoch': 0.57}
{'loss': 1.4162, 'grad_norm': 0.609375, 'learning_rate': 7.630234150193588e-05, 'epoch': 0.57}
{'loss': 1.2964, 'grad_norm': 0.66796875, 'learning_rate': 7.6290979124472e-05, 'epoch': 0.57}
{'loss': 1.1594, 'grad_norm': 0.73828125, 'learning_rate': 7.627961674700814e-05, 'epoch': 0.57}
{'loss': 1.1589, 'grad_norm': 0.69921875, 'learning_rate': 7.626825436954429e-05, 'epoch': 0.57}
{'loss': 1.0679, 'grad_norm': 1.15625, 'learning_rate': 7.625689199208043e-05, 'epoch': 0.57}
{'loss': 1.3776, 'grad_norm': 0.4980468



{'loss': 1.32, 'grad_norm': 0.62109375, 'learning_rate': 7.607509395265866e-05, 'epoch': 0.57}
{'loss': 1.0139, 'grad_norm': 0.546875, 'learning_rate': 7.60637315751948e-05, 'epoch': 0.57}
{'loss': 1.172, 'grad_norm': 0.43359375, 'learning_rate': 7.605236919773094e-05, 'epoch': 0.57}
{'loss': 1.1739, 'grad_norm': 0.69921875, 'learning_rate': 7.604100682026707e-05, 'epoch': 0.57}
{'loss': 1.0211, 'grad_norm': 0.5390625, 'learning_rate': 7.602964444280321e-05, 'epoch': 0.57}
{'loss': 1.2924, 'grad_norm': 0.51953125, 'learning_rate': 7.601828206533935e-05, 'epoch': 0.57}
{'loss': 1.1345, 'grad_norm': 0.7109375, 'learning_rate': 7.60069196878755e-05, 'epoch': 0.57}
{'loss': 1.3053, 'grad_norm': 0.427734375, 'learning_rate': 7.599555731041164e-05, 'epoch': 0.57}
{'loss': 1.2543, 'grad_norm': 0.6796875, 'learning_rate': 7.598419493294778e-05, 'epoch': 0.57}
{'loss': 1.1005, 'grad_norm': 0.51171875, 'learning_rate': 7.59728325554839e-05, 'epoch': 0.57}
{'loss': 1.3254, 'grad_norm': 0.58203125



{'loss': 1.4728, 'grad_norm': 0.5546875, 'learning_rate': 7.579103451606215e-05, 'epoch': 0.57}
{'loss': 1.198, 'grad_norm': 0.7578125, 'learning_rate': 7.577967213859827e-05, 'epoch': 0.57}
{'loss': 1.2861, 'grad_norm': 0.43359375, 'learning_rate': 7.576830976113442e-05, 'epoch': 0.57}
{'loss': 1.2275, 'grad_norm': 0.609375, 'learning_rate': 7.575694738367056e-05, 'epoch': 0.57}
{'loss': 0.9572, 'grad_norm': 0.498046875, 'learning_rate': 7.57455850062067e-05, 'epoch': 0.57}
{'loss': 1.359, 'grad_norm': 0.70703125, 'learning_rate': 7.573422262874285e-05, 'epoch': 0.57}
{'loss': 1.0973, 'grad_norm': 0.8125, 'learning_rate': 7.572286025127899e-05, 'epoch': 0.57}
{'loss': 1.1587, 'grad_norm': 0.427734375, 'learning_rate': 7.571149787381511e-05, 'epoch': 0.57}
{'loss': 1.1479, 'grad_norm': 0.61328125, 'learning_rate': 7.570013549635126e-05, 'epoch': 0.57}
{'loss': 1.0943, 'grad_norm': 1.0, 'learning_rate': 7.56887731188874e-05, 'epoch': 0.57}
{'loss': 1.4015, 'grad_norm': 0.56640625, 'lear



{'loss': 1.3612, 'grad_norm': 0.53515625, 'learning_rate': 7.550697507946563e-05, 'epoch': 0.57}
{'loss': 1.2378, 'grad_norm': 0.7890625, 'learning_rate': 7.549561270200177e-05, 'epoch': 0.57}
{'loss': 1.2316, 'grad_norm': 0.55078125, 'learning_rate': 7.548425032453791e-05, 'epoch': 0.57}
{'loss': 1.2544, 'grad_norm': 0.84375, 'learning_rate': 7.547288794707405e-05, 'epoch': 0.57}
{'loss': 1.0766, 'grad_norm': 0.6640625, 'learning_rate': 7.546152556961019e-05, 'epoch': 0.57}
{'loss': 1.2466, 'grad_norm': 0.5546875, 'learning_rate': 7.545016319214632e-05, 'epoch': 0.57}
{'loss': 1.0604, 'grad_norm': 0.90234375, 'learning_rate': 7.543880081468246e-05, 'epoch': 0.57}
{'loss': 1.2218, 'grad_norm': 0.52734375, 'learning_rate': 7.542743843721861e-05, 'epoch': 0.57}
{'loss': 1.2864, 'grad_norm': 1.0078125, 'learning_rate': 7.541607605975475e-05, 'epoch': 0.57}
{'loss': 1.122, 'grad_norm': 0.7890625, 'learning_rate': 7.540471368229089e-05, 'epoch': 0.57}
{'loss': 1.3779, 'grad_norm': 0.859375,



{'loss': 1.2736, 'grad_norm': 0.60546875, 'learning_rate': 7.522291564286912e-05, 'epoch': 0.57}
{'loss': 1.1445, 'grad_norm': 0.95703125, 'learning_rate': 7.521155326540526e-05, 'epoch': 0.57}
{'loss': 1.1988, 'grad_norm': 0.62890625, 'learning_rate': 7.52001908879414e-05, 'epoch': 0.57}
{'loss': 1.161, 'grad_norm': 0.57421875, 'learning_rate': 7.518882851047754e-05, 'epoch': 0.57}
{'loss': 1.0543, 'grad_norm': 1.125, 'learning_rate': 7.517746613301367e-05, 'epoch': 0.57}
{'loss': 1.1893, 'grad_norm': 0.5234375, 'learning_rate': 7.516610375554981e-05, 'epoch': 0.57}
{'loss': 1.1922, 'grad_norm': 0.6015625, 'learning_rate': 7.515474137808596e-05, 'epoch': 0.57}
{'loss': 1.2064, 'grad_norm': 0.490234375, 'learning_rate': 7.51433790006221e-05, 'epoch': 0.57}
{'loss': 1.3311, 'grad_norm': 0.58203125, 'learning_rate': 7.513201662315822e-05, 'epoch': 0.57}
{'loss': 1.0015, 'grad_norm': 1.6015625, 'learning_rate': 7.512065424569438e-05, 'epoch': 0.57}
{'loss': 1.4354, 'grad_norm': 0.58984375



{'loss': 1.2968, 'grad_norm': 0.80859375, 'learning_rate': 7.49388562062726e-05, 'epoch': 0.57}
{'loss': 1.1457, 'grad_norm': 1.0078125, 'learning_rate': 7.492749382880875e-05, 'epoch': 0.57}
{'loss': 1.206, 'grad_norm': 0.451171875, 'learning_rate': 7.491613145134488e-05, 'epoch': 0.57}
{'loss': 1.2043, 'grad_norm': 0.57421875, 'learning_rate': 7.490476907388102e-05, 'epoch': 0.57}
{'loss': 1.1495, 'grad_norm': 0.6640625, 'learning_rate': 7.489340669641716e-05, 'epoch': 0.57}
{'loss': 1.3302, 'grad_norm': 0.4296875, 'learning_rate': 7.48820443189533e-05, 'epoch': 0.57}
{'loss': 1.153, 'grad_norm': 0.8125, 'learning_rate': 7.487068194148944e-05, 'epoch': 0.57}
{'loss': 1.073, 'grad_norm': 0.5078125, 'learning_rate': 7.485931956402557e-05, 'epoch': 0.57}
{'loss': 1.1845, 'grad_norm': 0.94140625, 'learning_rate': 7.484795718656173e-05, 'epoch': 0.57}
{'loss': 1.0927, 'grad_norm': 1.328125, 'learning_rate': 7.483659480909786e-05, 'epoch': 0.57}
{'loss': 1.3969, 'grad_norm': 0.486328125, '



{'loss': 1.2937, 'grad_norm': 0.625, 'learning_rate': 7.46547967696761e-05, 'epoch': 0.57}
{'loss': 1.0286, 'grad_norm': 0.74609375, 'learning_rate': 7.464343439221223e-05, 'epoch': 0.57}
{'loss': 1.3307, 'grad_norm': 0.71875, 'learning_rate': 7.463207201474837e-05, 'epoch': 0.57}
{'loss': 1.1896, 'grad_norm': 0.70703125, 'learning_rate': 7.462070963728451e-05, 'epoch': 0.57}
{'loss': 1.0892, 'grad_norm': 0.51953125, 'learning_rate': 7.460934725982065e-05, 'epoch': 0.57}
{'loss': 1.445, 'grad_norm': 0.56640625, 'learning_rate': 7.459798488235679e-05, 'epoch': 0.57}
{'loss': 1.0636, 'grad_norm': 0.5859375, 'learning_rate': 7.458662250489292e-05, 'epoch': 0.57}
{'loss': 1.2104, 'grad_norm': 0.4453125, 'learning_rate': 7.457526012742907e-05, 'epoch': 0.57}
{'loss': 1.1853, 'grad_norm': 0.7421875, 'learning_rate': 7.456389774996521e-05, 'epoch': 0.57}
{'loss': 1.0557, 'grad_norm': 0.875, 'learning_rate': 7.455253537250134e-05, 'epoch': 0.57}
{'loss': 1.3229, 'grad_norm': 0.58203125, 'learn



{'loss': 1.3624, 'grad_norm': 0.4609375, 'learning_rate': 7.437073733307958e-05, 'epoch': 0.58}
{'loss': 1.1651, 'grad_norm': 0.80078125, 'learning_rate': 7.435937495561571e-05, 'epoch': 0.58}
{'loss': 1.2006, 'grad_norm': 0.392578125, 'learning_rate': 7.434801257815186e-05, 'epoch': 0.58}
{'loss': 1.238, 'grad_norm': 0.62890625, 'learning_rate': 7.4336650200688e-05, 'epoch': 0.58}
{'loss': 1.0539, 'grad_norm': 1.09375, 'learning_rate': 7.432528782322413e-05, 'epoch': 0.58}
{'loss': 1.1832, 'grad_norm': 0.54296875, 'learning_rate': 7.431392544576029e-05, 'epoch': 0.58}
{'loss': 1.1944, 'grad_norm': 0.984375, 'learning_rate': 7.430256306829641e-05, 'epoch': 0.58}
{'loss': 1.1409, 'grad_norm': 0.40625, 'learning_rate': 7.429120069083255e-05, 'epoch': 0.58}
{'loss': 1.1674, 'grad_norm': 0.51953125, 'learning_rate': 7.427983831336869e-05, 'epoch': 0.58}
{'loss': 1.1226, 'grad_norm': 0.8125, 'learning_rate': 7.426847593590484e-05, 'epoch': 0.58}
{'loss': 1.254, 'grad_norm': 0.6484375, 'lear



{'loss': 1.4125, 'grad_norm': 0.7890625, 'learning_rate': 7.408667789648306e-05, 'epoch': 0.58}
{'loss': 1.1397, 'grad_norm': 0.56640625, 'learning_rate': 7.407531551901921e-05, 'epoch': 0.58}
{'loss': 1.1752, 'grad_norm': 0.4375, 'learning_rate': 7.406395314155535e-05, 'epoch': 0.58}
{'loss': 1.1383, 'grad_norm': 0.55859375, 'learning_rate': 7.405259076409148e-05, 'epoch': 0.58}
{'loss': 1.0539, 'grad_norm': 0.6484375, 'learning_rate': 7.404122838662762e-05, 'epoch': 0.58}
{'loss': 1.3365, 'grad_norm': 0.53515625, 'learning_rate': 7.402986600916376e-05, 'epoch': 0.58}
{'loss': 1.0855, 'grad_norm': 0.59765625, 'learning_rate': 7.40185036316999e-05, 'epoch': 0.58}
{'loss': 1.2353, 'grad_norm': 0.478515625, 'learning_rate': 7.400714125423605e-05, 'epoch': 0.58}
{'loss': 1.2706, 'grad_norm': 0.6484375, 'learning_rate': 7.399577887677219e-05, 'epoch': 0.58}
{'loss': 1.0693, 'grad_norm': 0.98828125, 'learning_rate': 7.398441649930832e-05, 'epoch': 0.58}
{'loss': 1.3948, 'grad_norm': 0.5625,



{'loss': 1.3509, 'grad_norm': 0.55078125, 'learning_rate': 7.380261845988656e-05, 'epoch': 0.58}
{'loss': 1.1688, 'grad_norm': 0.80859375, 'learning_rate': 7.37912560824227e-05, 'epoch': 0.58}
{'loss': 1.1962, 'grad_norm': 0.51171875, 'learning_rate': 7.377989370495882e-05, 'epoch': 0.58}
{'loss': 1.2333, 'grad_norm': 0.6953125, 'learning_rate': 7.376853132749497e-05, 'epoch': 0.58}
{'loss': 1.0511, 'grad_norm': 0.8046875, 'learning_rate': 7.375716895003111e-05, 'epoch': 0.58}
{'loss': 1.2736, 'grad_norm': 0.58984375, 'learning_rate': 7.374580657256725e-05, 'epoch': 0.58}
{'loss': 1.0814, 'grad_norm': 0.75390625, 'learning_rate': 7.37344441951034e-05, 'epoch': 0.58}
{'loss': 1.0729, 'grad_norm': 0.7109375, 'learning_rate': 7.372308181763952e-05, 'epoch': 0.58}
{'loss': 1.2837, 'grad_norm': 0.8046875, 'learning_rate': 7.371171944017566e-05, 'epoch': 0.58}
{'loss': 1.2264, 'grad_norm': 1.1328125, 'learning_rate': 7.37003570627118e-05, 'epoch': 0.58}
{'loss': 1.3275, 'grad_norm': 0.527343



{'loss': 1.3359, 'grad_norm': 0.52734375, 'learning_rate': 7.351855902329003e-05, 'epoch': 0.58}
{'loss': 1.1578, 'grad_norm': 0.466796875, 'learning_rate': 7.350719664582617e-05, 'epoch': 0.58}
{'loss': 1.1766, 'grad_norm': 0.49609375, 'learning_rate': 7.349583426836232e-05, 'epoch': 0.58}
{'loss': 1.2404, 'grad_norm': 0.9609375, 'learning_rate': 7.348447189089846e-05, 'epoch': 0.58}
{'loss': 0.9319, 'grad_norm': 0.37890625, 'learning_rate': 7.34731095134346e-05, 'epoch': 0.58}
{'loss': 1.2801, 'grad_norm': 0.5625, 'learning_rate': 7.346174713597073e-05, 'epoch': 0.58}
{'loss': 1.2027, 'grad_norm': 0.62890625, 'learning_rate': 7.345038475850687e-05, 'epoch': 0.58}
{'loss': 1.3008, 'grad_norm': 0.45703125, 'learning_rate': 7.343902238104301e-05, 'epoch': 0.58}
{'loss': 1.2012, 'grad_norm': 0.6328125, 'learning_rate': 7.342766000357916e-05, 'epoch': 0.58}
{'loss': 1.0574, 'grad_norm': 1.1953125, 'learning_rate': 7.34162976261153e-05, 'epoch': 0.58}
{'loss': 1.2682, 'grad_norm': 0.464843



{'loss': 1.2734, 'grad_norm': 0.546875, 'learning_rate': 7.323449958669353e-05, 'epoch': 0.58}
{'loss': 1.1367, 'grad_norm': 1.0, 'learning_rate': 7.322313720922967e-05, 'epoch': 0.58}
{'loss': 1.0433, 'grad_norm': 0.49609375, 'learning_rate': 7.32117748317658e-05, 'epoch': 0.58}
{'loss': 1.2996, 'grad_norm': 0.578125, 'learning_rate': 7.320041245430193e-05, 'epoch': 0.58}
{'loss': 0.958, 'grad_norm': 1.28125, 'learning_rate': 7.318905007683808e-05, 'epoch': 0.58}
{'loss': 1.2078, 'grad_norm': 0.625, 'learning_rate': 7.317768769937422e-05, 'epoch': 0.58}
{'loss': 1.0768, 'grad_norm': 0.71875, 'learning_rate': 7.316632532191036e-05, 'epoch': 0.58}
{'loss': 1.0983, 'grad_norm': 0.470703125, 'learning_rate': 7.315496294444651e-05, 'epoch': 0.58}
{'loss': 1.2849, 'grad_norm': 0.55859375, 'learning_rate': 7.314360056698263e-05, 'epoch': 0.58}
{'loss': 1.0728, 'grad_norm': 1.140625, 'learning_rate': 7.313223818951877e-05, 'epoch': 0.58}
{'loss': 1.3963, 'grad_norm': 0.6328125, 'learning_rate



{'loss': 1.3088, 'grad_norm': 0.52734375, 'learning_rate': 7.2950440150097e-05, 'epoch': 0.58}
{'loss': 1.293, 'grad_norm': 0.91796875, 'learning_rate': 7.293907777263314e-05, 'epoch': 0.58}
{'loss': 1.3309, 'grad_norm': 0.44140625, 'learning_rate': 7.29277153951693e-05, 'epoch': 0.58}
{'loss': 1.2372, 'grad_norm': 0.484375, 'learning_rate': 7.291635301770543e-05, 'epoch': 0.58}
{'loss': 1.0379, 'grad_norm': 0.7265625, 'learning_rate': 7.290499064024157e-05, 'epoch': 0.58}
{'loss': 1.3196, 'grad_norm': 0.48046875, 'learning_rate': 7.289362826277771e-05, 'epoch': 0.58}
{'loss': 1.1073, 'grad_norm': 0.640625, 'learning_rate': 7.288226588531385e-05, 'epoch': 0.58}
{'loss': 1.2566, 'grad_norm': 0.458984375, 'learning_rate': 7.287090350784998e-05, 'epoch': 0.58}
{'loss': 1.1972, 'grad_norm': 1.25, 'learning_rate': 7.285954113038612e-05, 'epoch': 0.58}
{'loss': 1.1462, 'grad_norm': 0.7578125, 'learning_rate': 7.284817875292227e-05, 'epoch': 0.58}
{'loss': 1.5144, 'grad_norm': 0.58984375, 'le



{'loss': 1.2899, 'grad_norm': 0.48828125, 'learning_rate': 7.266638071350049e-05, 'epoch': 0.58}
{'loss': 1.1827, 'grad_norm': 0.765625, 'learning_rate': 7.265501833603664e-05, 'epoch': 0.58}
{'loss': 1.2626, 'grad_norm': 0.451171875, 'learning_rate': 7.264365595857278e-05, 'epoch': 0.58}
{'loss': 1.3149, 'grad_norm': 0.55078125, 'learning_rate': 7.263229358110892e-05, 'epoch': 0.58}
{'loss': 1.1541, 'grad_norm': 0.859375, 'learning_rate': 7.262093120364506e-05, 'epoch': 0.58}
{'loss': 1.271, 'grad_norm': 0.64453125, 'learning_rate': 7.26095688261812e-05, 'epoch': 0.58}
{'loss': 1.1443, 'grad_norm': 0.73046875, 'learning_rate': 7.259820644871733e-05, 'epoch': 0.58}
{'loss': 1.1499, 'grad_norm': 0.59375, 'learning_rate': 7.258684407125347e-05, 'epoch': 0.58}
{'loss': 1.3272, 'grad_norm': 0.5859375, 'learning_rate': 7.257548169378962e-05, 'epoch': 0.58}
{'loss': 1.0829, 'grad_norm': 1.21875, 'learning_rate': 7.256411931632575e-05, 'epoch': 0.58}
{'loss': 1.2578, 'grad_norm': 0.61328125, 



{'loss': 1.3064, 'grad_norm': 0.91796875, 'learning_rate': 7.238232127690399e-05, 'epoch': 0.58}
{'loss': 1.1615, 'grad_norm': 0.796875, 'learning_rate': 7.237095889944012e-05, 'epoch': 0.58}
{'loss': 1.1077, 'grad_norm': 0.51171875, 'learning_rate': 7.235959652197625e-05, 'epoch': 0.58}
{'loss': 1.1934, 'grad_norm': 0.68359375, 'learning_rate': 7.23482341445124e-05, 'epoch': 0.58}
{'loss': 1.122, 'grad_norm': 0.828125, 'learning_rate': 7.233687176704854e-05, 'epoch': 0.58}
{'loss': 1.2212, 'grad_norm': 0.515625, 'learning_rate': 7.232550938958468e-05, 'epoch': 0.58}
{'loss': 1.225, 'grad_norm': 0.78125, 'learning_rate': 7.231414701212082e-05, 'epoch': 0.58}
{'loss': 1.1695, 'grad_norm': 0.447265625, 'learning_rate': 7.230278463465696e-05, 'epoch': 0.58}
{'loss': 1.2272, 'grad_norm': 0.69921875, 'learning_rate': 7.22914222571931e-05, 'epoch': 0.58}
{'loss': 1.0733, 'grad_norm': 0.51171875, 'learning_rate': 7.228005987972923e-05, 'epoch': 0.58}
{'loss': 1.3055, 'grad_norm': 0.53515625, 



{'loss': 1.2934, 'grad_norm': 0.609375, 'learning_rate': 7.209826184030747e-05, 'epoch': 0.59}
{'loss': 1.1814, 'grad_norm': 1.0078125, 'learning_rate': 7.20868994628436e-05, 'epoch': 0.59}
{'loss': 1.2845, 'grad_norm': 0.404296875, 'learning_rate': 7.207553708537975e-05, 'epoch': 0.59}
{'loss': 1.38, 'grad_norm': 0.58984375, 'learning_rate': 7.206417470791589e-05, 'epoch': 0.59}
{'loss': 0.9516, 'grad_norm': 0.6328125, 'learning_rate': 7.205281233045203e-05, 'epoch': 0.59}
{'loss': 1.2646, 'grad_norm': 0.5390625, 'learning_rate': 7.204144995298817e-05, 'epoch': 0.59}
{'loss': 1.2841, 'grad_norm': 1.5234375, 'learning_rate': 7.20300875755243e-05, 'epoch': 0.59}
{'loss': 1.2004, 'grad_norm': 0.5234375, 'learning_rate': 7.201872519806044e-05, 'epoch': 0.59}
{'loss': 1.1155, 'grad_norm': 0.62890625, 'learning_rate': 7.200736282059658e-05, 'epoch': 0.59}
{'loss': 1.0076, 'grad_norm': 1.0, 'learning_rate': 7.199600044313273e-05, 'epoch': 0.59}
{'loss': 1.3744, 'grad_norm': 0.51171875, 'lear



{'loss': 1.3408, 'grad_norm': 0.51953125, 'learning_rate': 7.181420240371095e-05, 'epoch': 0.59}
{'loss': 1.1977, 'grad_norm': 0.7890625, 'learning_rate': 7.18028400262471e-05, 'epoch': 0.59}
{'loss': 1.1794, 'grad_norm': 0.5, 'learning_rate': 7.179147764878323e-05, 'epoch': 0.59}
{'loss': 1.3156, 'grad_norm': 0.49609375, 'learning_rate': 7.178011527131937e-05, 'epoch': 0.59}
{'loss': 1.0494, 'grad_norm': 0.462890625, 'learning_rate': 7.176875289385552e-05, 'epoch': 0.59}
{'loss': 1.3413, 'grad_norm': 0.66015625, 'learning_rate': 7.175739051639166e-05, 'epoch': 0.59}
{'loss': 1.2252, 'grad_norm': 0.87890625, 'learning_rate': 7.174602813892779e-05, 'epoch': 0.59}
{'loss': 1.1995, 'grad_norm': 0.48828125, 'learning_rate': 7.173466576146393e-05, 'epoch': 0.59}
{'loss': 1.2755, 'grad_norm': 0.8203125, 'learning_rate': 7.172330338400007e-05, 'epoch': 0.59}
{'loss': 1.062, 'grad_norm': 0.77734375, 'learning_rate': 7.17119410065362e-05, 'epoch': 0.59}
{'loss': 1.3386, 'grad_norm': 0.474609375



{'loss': 1.439, 'grad_norm': 0.69140625, 'learning_rate': 7.153014296711444e-05, 'epoch': 0.59}
{'loss': 1.2355, 'grad_norm': 0.69921875, 'learning_rate': 7.151878058965058e-05, 'epoch': 0.59}
{'loss': 1.0788, 'grad_norm': 0.44921875, 'learning_rate': 7.150741821218672e-05, 'epoch': 0.59}
{'loss': 1.1987, 'grad_norm': 0.58203125, 'learning_rate': 7.149605583472287e-05, 'epoch': 0.59}
{'loss': 1.1359, 'grad_norm': 1.1796875, 'learning_rate': 7.1484693457259e-05, 'epoch': 0.59}
{'loss': 1.3212, 'grad_norm': 0.5703125, 'learning_rate': 7.147333107979514e-05, 'epoch': 0.59}
{'loss': 1.1692, 'grad_norm': 0.69140625, 'learning_rate': 7.146196870233128e-05, 'epoch': 0.59}
{'loss': 1.1698, 'grad_norm': 0.6015625, 'learning_rate': 7.145060632486742e-05, 'epoch': 0.59}
{'loss': 1.2053, 'grad_norm': 0.56640625, 'learning_rate': 7.143924394740356e-05, 'epoch': 0.59}
{'loss': 1.1451, 'grad_norm': 1.0078125, 'learning_rate': 7.142788156993971e-05, 'epoch': 0.59}
{'loss': 1.2919, 'grad_norm': 0.80859



{'loss': 1.1952, 'grad_norm': 0.4765625, 'learning_rate': 7.124608353051793e-05, 'epoch': 0.59}
{'loss': 1.1746, 'grad_norm': 0.9375, 'learning_rate': 7.123472115305408e-05, 'epoch': 0.59}
{'loss': 1.2107, 'grad_norm': 0.625, 'learning_rate': 7.122335877559022e-05, 'epoch': 0.59}
{'loss': 1.19, 'grad_norm': 0.546875, 'learning_rate': 7.121199639812634e-05, 'epoch': 0.59}
{'loss': 0.9553, 'grad_norm': 0.82421875, 'learning_rate': 7.120063402066248e-05, 'epoch': 0.59}
{'loss': 1.3091, 'grad_norm': 0.482421875, 'learning_rate': 7.118927164319863e-05, 'epoch': 0.59}
{'loss': 1.1859, 'grad_norm': 0.53125, 'learning_rate': 7.117790926573477e-05, 'epoch': 0.59}
{'loss': 1.2516, 'grad_norm': 0.4140625, 'learning_rate': 7.11665468882709e-05, 'epoch': 0.59}
{'loss': 1.1369, 'grad_norm': 0.625, 'learning_rate': 7.115518451080704e-05, 'epoch': 0.59}
{'loss': 1.1217, 'grad_norm': 1.3203125, 'learning_rate': 7.114382213334318e-05, 'epoch': 0.59}
{'loss': 1.2883, 'grad_norm': 0.6015625, 'learning_rat



{'loss': 1.3072, 'grad_norm': 0.625, 'learning_rate': 7.096202409392141e-05, 'epoch': 0.59}
{'loss': 1.0733, 'grad_norm': 0.74609375, 'learning_rate': 7.095066171645755e-05, 'epoch': 0.59}
{'loss': 1.0919, 'grad_norm': 0.55078125, 'learning_rate': 7.093929933899369e-05, 'epoch': 0.59}
{'loss': 1.2485, 'grad_norm': 0.6875, 'learning_rate': 7.092793696152983e-05, 'epoch': 0.59}
{'loss': 1.0965, 'grad_norm': 1.1875, 'learning_rate': 7.091657458406598e-05, 'epoch': 0.59}
{'loss': 1.3445, 'grad_norm': 0.5546875, 'learning_rate': 7.090521220660212e-05, 'epoch': 0.59}
{'loss': 1.3035, 'grad_norm': 1.0625, 'learning_rate': 7.089384982913825e-05, 'epoch': 0.59}
{'loss': 1.2977, 'grad_norm': 0.396484375, 'learning_rate': 7.088248745167439e-05, 'epoch': 0.59}
{'loss': 1.277, 'grad_norm': 0.59375, 'learning_rate': 7.087112507421053e-05, 'epoch': 0.59}
{'loss': 1.1498, 'grad_norm': 0.8671875, 'learning_rate': 7.085976269674667e-05, 'epoch': 0.59}
{'loss': 1.3957, 'grad_norm': 0.55078125, 'learning_



{'loss': 1.2554, 'grad_norm': 0.6953125, 'learning_rate': 7.06779646573249e-05, 'epoch': 0.59}
{'loss': 1.1242, 'grad_norm': 1.140625, 'learning_rate': 7.066660227986104e-05, 'epoch': 0.59}
{'loss': 1.2234, 'grad_norm': 0.54296875, 'learning_rate': 7.065523990239719e-05, 'epoch': 0.59}
{'loss': 1.3705, 'grad_norm': 0.6171875, 'learning_rate': 7.064387752493333e-05, 'epoch': 0.59}
{'loss': 1.0248, 'grad_norm': 0.396484375, 'learning_rate': 7.063251514746945e-05, 'epoch': 0.59}
{'loss': 1.3015, 'grad_norm': 0.52734375, 'learning_rate': 7.062115277000559e-05, 'epoch': 0.59}
{'loss': 1.1751, 'grad_norm': 0.75, 'learning_rate': 7.060979039254174e-05, 'epoch': 0.59}
{'loss': 1.241, 'grad_norm': 0.7578125, 'learning_rate': 7.059842801507788e-05, 'epoch': 0.59}
{'loss': 1.2989, 'grad_norm': 0.6328125, 'learning_rate': 7.058706563761402e-05, 'epoch': 0.59}
{'loss': 0.997, 'grad_norm': 1.1953125, 'learning_rate': 7.057570326015015e-05, 'epoch': 0.59}
{'loss': 1.4323, 'grad_norm': 0.55859375, 'le



{'loss': 1.3744, 'grad_norm': 0.5078125, 'learning_rate': 7.039390522072839e-05, 'epoch': 0.59}
{'loss': 1.1194, 'grad_norm': 0.75, 'learning_rate': 7.038254284326453e-05, 'epoch': 0.59}
{'loss': 1.1957, 'grad_norm': 0.4296875, 'learning_rate': 7.037118046580066e-05, 'epoch': 0.59}
{'loss': 1.3075, 'grad_norm': 0.79296875, 'learning_rate': 7.03598180883368e-05, 'epoch': 0.59}
{'loss': 1.16, 'grad_norm': 0.859375, 'learning_rate': 7.034845571087295e-05, 'epoch': 0.59}
{'loss': 1.2285, 'grad_norm': 0.55859375, 'learning_rate': 7.033709333340909e-05, 'epoch': 0.59}
{'loss': 1.0303, 'grad_norm': 0.474609375, 'learning_rate': 7.032573095594523e-05, 'epoch': 0.59}
{'loss': 1.2895, 'grad_norm': 0.5625, 'learning_rate': 7.031436857848137e-05, 'epoch': 0.59}
{'loss': 1.1962, 'grad_norm': 0.671875, 'learning_rate': 7.03030062010175e-05, 'epoch': 0.59}
{'loss': 1.0562, 'grad_norm': 1.046875, 'learning_rate': 7.029164382355364e-05, 'epoch': 0.59}
{'loss': 1.4639, 'grad_norm': 0.455078125, 'learnin



{'loss': 1.3069, 'grad_norm': 0.54296875, 'learning_rate': 7.010984578413187e-05, 'epoch': 0.59}
{'loss': 1.1372, 'grad_norm': 0.9453125, 'learning_rate': 7.009848340666801e-05, 'epoch': 0.59}
{'loss': 1.1865, 'grad_norm': 0.43359375, 'learning_rate': 7.008712102920415e-05, 'epoch': 0.59}
{'loss': 1.2372, 'grad_norm': 0.55859375, 'learning_rate': 7.00757586517403e-05, 'epoch': 0.59}
{'loss': 0.9978, 'grad_norm': 0.91796875, 'learning_rate': 7.006439627427644e-05, 'epoch': 0.59}
{'loss': 1.2225, 'grad_norm': 0.60546875, 'learning_rate': 7.005303389681256e-05, 'epoch': 0.59}
{'loss': 1.2063, 'grad_norm': 0.90234375, 'learning_rate': 7.004167151934872e-05, 'epoch': 0.59}
{'loss': 1.2561, 'grad_norm': 0.421875, 'learning_rate': 7.003030914188485e-05, 'epoch': 0.59}
{'loss': 1.2659, 'grad_norm': 0.83203125, 'learning_rate': 7.001894676442099e-05, 'epoch': 0.59}
{'loss': 0.9756, 'grad_norm': 1.171875, 'learning_rate': 7.000758438695713e-05, 'epoch': 0.59}
{'loss': 1.316, 'grad_norm': 0.64062



{'loss': 1.4069, 'grad_norm': 0.734375, 'learning_rate': 6.982578634753536e-05, 'epoch': 0.6}
{'loss': 1.1494, 'grad_norm': 0.59375, 'learning_rate': 6.98144239700715e-05, 'epoch': 0.6}
{'loss': 1.266, 'grad_norm': 0.53515625, 'learning_rate': 6.980306159260764e-05, 'epoch': 0.6}
{'loss': 1.1419, 'grad_norm': 0.74609375, 'learning_rate': 6.979169921514378e-05, 'epoch': 0.6}
{'loss': 1.1186, 'grad_norm': 1.890625, 'learning_rate': 6.978033683767991e-05, 'epoch': 0.6}
{'loss': 1.3356, 'grad_norm': 0.703125, 'learning_rate': 6.976897446021606e-05, 'epoch': 0.6}
{'loss': 1.1285, 'grad_norm': 0.71484375, 'learning_rate': 6.97576120827522e-05, 'epoch': 0.6}
{'loss': 1.2713, 'grad_norm': 0.7265625, 'learning_rate': 6.974624970528834e-05, 'epoch': 0.6}
{'loss': 1.3287, 'grad_norm': 0.61328125, 'learning_rate': 6.973488732782448e-05, 'epoch': 0.6}
{'loss': 1.0227, 'grad_norm': 0.423828125, 'learning_rate': 6.972352495036062e-05, 'epoch': 0.6}
{'loss': 1.3148, 'grad_norm': 0.55859375, 'learning_



{'loss': 1.261, 'grad_norm': 0.6171875, 'learning_rate': 6.954172691093885e-05, 'epoch': 0.6}
{'loss': 1.0883, 'grad_norm': 1.1484375, 'learning_rate': 6.953036453347499e-05, 'epoch': 0.6}
{'loss': 1.1375, 'grad_norm': 0.5390625, 'learning_rate': 6.951900215601112e-05, 'epoch': 0.6}
{'loss': 1.3199, 'grad_norm': 0.765625, 'learning_rate': 6.950763977854726e-05, 'epoch': 0.6}
{'loss': 1.046, 'grad_norm': 0.546875, 'learning_rate': 6.949627740108341e-05, 'epoch': 0.6}
{'loss': 1.2968, 'grad_norm': 0.6953125, 'learning_rate': 6.948491502361955e-05, 'epoch': 0.6}
{'loss': 1.2199, 'grad_norm': 1.1015625, 'learning_rate': 6.947355264615568e-05, 'epoch': 0.6}
{'loss': 1.26, 'grad_norm': 0.412109375, 'learning_rate': 6.946219026869183e-05, 'epoch': 0.6}
{'loss': 1.1797, 'grad_norm': 0.76171875, 'learning_rate': 6.945082789122797e-05, 'epoch': 0.6}
{'loss': 1.0662, 'grad_norm': 1.0234375, 'learning_rate': 6.94394655137641e-05, 'epoch': 0.6}
{'loss': 1.3258, 'grad_norm': 0.55859375, 'learning_ra



{'loss': 1.3933, 'grad_norm': 0.69921875, 'learning_rate': 6.925766747434234e-05, 'epoch': 0.6}
{'loss': 1.192, 'grad_norm': 0.78125, 'learning_rate': 6.924630509687847e-05, 'epoch': 0.6}
{'loss': 1.3064, 'grad_norm': 0.458984375, 'learning_rate': 6.923494271941461e-05, 'epoch': 0.6}
{'loss': 1.2997, 'grad_norm': 0.84375, 'learning_rate': 6.922358034195075e-05, 'epoch': 0.6}
{'loss': 1.1157, 'grad_norm': 0.9140625, 'learning_rate': 6.921221796448689e-05, 'epoch': 0.6}
{'loss': 1.3728, 'grad_norm': 0.5, 'learning_rate': 6.920085558702302e-05, 'epoch': 0.6}
{'loss': 1.0222, 'grad_norm': 0.62890625, 'learning_rate': 6.918949320955918e-05, 'epoch': 0.6}
{'loss': 1.2117, 'grad_norm': 0.439453125, 'learning_rate': 6.917813083209531e-05, 'epoch': 0.6}
{'loss': 1.1842, 'grad_norm': 0.6484375, 'learning_rate': 6.916676845463145e-05, 'epoch': 0.6}
{'loss': 1.0488, 'grad_norm': 0.60546875, 'learning_rate': 6.915540607716759e-05, 'epoch': 0.6}
{'loss': 1.2295, 'grad_norm': 0.53125, 'learning_rate'



{'loss': 1.3066, 'grad_norm': 0.71484375, 'learning_rate': 6.897360803774582e-05, 'epoch': 0.6}
{'loss': 1.2093, 'grad_norm': 0.48828125, 'learning_rate': 6.896224566028196e-05, 'epoch': 0.6}
{'loss': 1.2995, 'grad_norm': 0.3984375, 'learning_rate': 6.89508832828181e-05, 'epoch': 0.6}
{'loss': 1.2334, 'grad_norm': 0.87890625, 'learning_rate': 6.893952090535424e-05, 'epoch': 0.6}
{'loss': 0.9084, 'grad_norm': 0.421875, 'learning_rate': 6.892815852789037e-05, 'epoch': 0.6}
{'loss': 1.3264, 'grad_norm': 0.5, 'learning_rate': 6.891679615042653e-05, 'epoch': 0.6}
{'loss': 1.1222, 'grad_norm': 0.9453125, 'learning_rate': 6.890543377296266e-05, 'epoch': 0.6}
{'loss': 1.1986, 'grad_norm': 0.439453125, 'learning_rate': 6.889407139549879e-05, 'epoch': 0.6}
{'loss': 1.2996, 'grad_norm': 0.6015625, 'learning_rate': 6.888270901803494e-05, 'epoch': 0.6}
{'loss': 1.1365, 'grad_norm': 1.09375, 'learning_rate': 6.887134664057108e-05, 'epoch': 0.6}
{'loss': 1.3034, 'grad_norm': 0.423828125, 'learning_ra



{'loss': 1.4088, 'grad_norm': 0.61328125, 'learning_rate': 6.868954860114931e-05, 'epoch': 0.6}
{'loss': 1.1354, 'grad_norm': 0.7734375, 'learning_rate': 6.867818622368545e-05, 'epoch': 0.6}
{'loss': 1.2332, 'grad_norm': 0.41796875, 'learning_rate': 6.866682384622159e-05, 'epoch': 0.6}
{'loss': 1.297, 'grad_norm': 0.65234375, 'learning_rate': 6.865546146875774e-05, 'epoch': 0.6}
{'loss': 1.0725, 'grad_norm': 0.97265625, 'learning_rate': 6.864409909129386e-05, 'epoch': 0.6}
{'loss': 1.2716, 'grad_norm': 0.55078125, 'learning_rate': 6.863273671383e-05, 'epoch': 0.6}
{'loss': 1.2174, 'grad_norm': 0.69921875, 'learning_rate': 6.862137433636614e-05, 'epoch': 0.6}
{'loss': 1.3418, 'grad_norm': 0.3828125, 'learning_rate': 6.861001195890229e-05, 'epoch': 0.6}
{'loss': 1.3114, 'grad_norm': 0.59765625, 'learning_rate': 6.859864958143843e-05, 'epoch': 0.6}
{'loss': 1.0672, 'grad_norm': 0.83984375, 'learning_rate': 6.858728720397456e-05, 'epoch': 0.6}
{'loss': 1.1803, 'grad_norm': 0.53515625, 'lea



{'loss': 1.4649, 'grad_norm': 0.5546875, 'learning_rate': 6.84054891645528e-05, 'epoch': 0.6}
{'loss': 1.1968, 'grad_norm': 0.79296875, 'learning_rate': 6.839412678708893e-05, 'epoch': 0.6}
{'loss': 1.3337, 'grad_norm': 0.55078125, 'learning_rate': 6.838276440962507e-05, 'epoch': 0.6}
{'loss': 1.1892, 'grad_norm': 0.73046875, 'learning_rate': 6.837140203216121e-05, 'epoch': 0.6}
{'loss': 1.2281, 'grad_norm': 0.98046875, 'learning_rate': 6.836003965469735e-05, 'epoch': 0.6}
{'loss': 1.3803, 'grad_norm': 0.6640625, 'learning_rate': 6.83486772772335e-05, 'epoch': 0.6}
{'loss': 1.2259, 'grad_norm': 0.7578125, 'learning_rate': 6.833731489976964e-05, 'epoch': 0.6}
{'loss': 1.3023, 'grad_norm': 0.53125, 'learning_rate': 6.832595252230578e-05, 'epoch': 0.6}
{'loss': 1.1457, 'grad_norm': 0.51953125, 'learning_rate': 6.83145901448419e-05, 'epoch': 0.6}
{'loss': 1.0389, 'grad_norm': 0.875, 'learning_rate': 6.830322776737805e-05, 'epoch': 0.6}
{'loss': 1.243, 'grad_norm': 0.6015625, 'learning_rate



{'loss': 1.3576, 'grad_norm': 0.490234375, 'learning_rate': 6.812142972795627e-05, 'epoch': 0.6}
{'loss': 1.1927, 'grad_norm': 0.5, 'learning_rate': 6.811006735049242e-05, 'epoch': 0.6}
{'loss': 1.2315, 'grad_norm': 0.4765625, 'learning_rate': 6.809870497302856e-05, 'epoch': 0.6}
{'loss': 1.2176, 'grad_norm': 0.6171875, 'learning_rate': 6.80873425955647e-05, 'epoch': 0.6}
{'loss': 1.1588, 'grad_norm': 1.671875, 'learning_rate': 6.807598021810085e-05, 'epoch': 0.6}
{'loss': 1.388, 'grad_norm': 0.53125, 'learning_rate': 6.806461784063697e-05, 'epoch': 0.6}
{'loss': 1.1584, 'grad_norm': 0.61328125, 'learning_rate': 6.805325546317311e-05, 'epoch': 0.6}
{'loss': 1.1511, 'grad_norm': 0.56640625, 'learning_rate': 6.804189308570925e-05, 'epoch': 0.6}
{'loss': 1.2774, 'grad_norm': 0.51171875, 'learning_rate': 6.80305307082454e-05, 'epoch': 0.6}
{'loss': 1.1095, 'grad_norm': 0.73828125, 'learning_rate': 6.801916833078154e-05, 'epoch': 0.6}
{'loss': 1.364, 'grad_norm': 0.53515625, 'learning_rate'



{'loss': 1.3165, 'grad_norm': 0.69140625, 'learning_rate': 6.783737029135977e-05, 'epoch': 0.6}
{'loss': 1.2116, 'grad_norm': 0.73828125, 'learning_rate': 6.782600791389591e-05, 'epoch': 0.6}
{'loss': 1.227, 'grad_norm': 0.4609375, 'learning_rate': 6.781464553643205e-05, 'epoch': 0.6}
{'loss': 1.2969, 'grad_norm': 0.56640625, 'learning_rate': 6.780328315896818e-05, 'epoch': 0.6}
{'loss': 1.1105, 'grad_norm': 1.921875, 'learning_rate': 6.779192078150432e-05, 'epoch': 0.6}
{'loss': 1.5052, 'grad_norm': 0.58984375, 'learning_rate': 6.778055840404046e-05, 'epoch': 0.6}
{'loss': 1.3734, 'grad_norm': 0.65234375, 'learning_rate': 6.776919602657661e-05, 'epoch': 0.6}
{'loss': 1.0889, 'grad_norm': 0.474609375, 'learning_rate': 6.775783364911275e-05, 'epoch': 0.6}
{'loss': 1.1128, 'grad_norm': 0.6015625, 'learning_rate': 6.774647127164889e-05, 'epoch': 0.6}
{'loss': 1.0503, 'grad_norm': 0.94921875, 'learning_rate': 6.773510889418501e-05, 'epoch': 0.6}
{'loss': 1.3827, 'grad_norm': 0.5078125, 'le



{'loss': 1.2538, 'grad_norm': 0.7578125, 'learning_rate': 6.755331085476326e-05, 'epoch': 0.61}
{'loss': 1.1834, 'grad_norm': 0.61328125, 'learning_rate': 6.754194847729938e-05, 'epoch': 0.61}
{'loss': 1.2794, 'grad_norm': 0.48828125, 'learning_rate': 6.753058609983553e-05, 'epoch': 0.61}
{'loss': 1.1744, 'grad_norm': 0.4921875, 'learning_rate': 6.751922372237167e-05, 'epoch': 0.61}
{'loss': 1.124, 'grad_norm': 0.88671875, 'learning_rate': 6.750786134490781e-05, 'epoch': 0.61}
{'loss': 1.4898, 'grad_norm': 1.3671875, 'learning_rate': 6.749649896744396e-05, 'epoch': 0.61}
{'loss': 1.1956, 'grad_norm': 0.71875, 'learning_rate': 6.748513658998008e-05, 'epoch': 0.61}
{'loss': 1.1682, 'grad_norm': 0.494140625, 'learning_rate': 6.747377421251622e-05, 'epoch': 0.61}
{'loss': 1.1959, 'grad_norm': 0.70703125, 'learning_rate': 6.746241183505237e-05, 'epoch': 0.61}
{'loss': 1.139, 'grad_norm': 0.65625, 'learning_rate': 6.745104945758851e-05, 'epoch': 0.61}
{'loss': 1.3506, 'grad_norm': 0.59375, '



{'loss': 1.4411, 'grad_norm': 0.5234375, 'learning_rate': 6.726925141816674e-05, 'epoch': 0.61}
{'loss': 1.3418, 'grad_norm': 0.796875, 'learning_rate': 6.725788904070288e-05, 'epoch': 0.61}
{'loss': 1.1937, 'grad_norm': 0.4140625, 'learning_rate': 6.724652666323902e-05, 'epoch': 0.61}
{'loss': 1.2716, 'grad_norm': 0.53515625, 'learning_rate': 6.723516428577516e-05, 'epoch': 0.61}
{'loss': 1.1621, 'grad_norm': 0.97265625, 'learning_rate': 6.72238019083113e-05, 'epoch': 0.61}
{'loss': 1.3186, 'grad_norm': 0.451171875, 'learning_rate': 6.721243953084743e-05, 'epoch': 0.61}
{'loss': 1.129, 'grad_norm': 0.61328125, 'learning_rate': 6.720107715338357e-05, 'epoch': 0.61}
{'loss': 1.2753, 'grad_norm': 0.5625, 'learning_rate': 6.718971477591972e-05, 'epoch': 0.61}
{'loss': 1.2667, 'grad_norm': 0.71484375, 'learning_rate': 6.717835239845586e-05, 'epoch': 0.61}
{'loss': 1.0679, 'grad_norm': 0.76953125, 'learning_rate': 6.7166990020992e-05, 'epoch': 0.61}
{'loss': 1.399, 'grad_norm': 0.4609375, '



{'loss': 1.3016, 'grad_norm': 0.7421875, 'learning_rate': 6.698519198157023e-05, 'epoch': 0.61}
{'loss': 1.1553, 'grad_norm': 0.78125, 'learning_rate': 6.697382960410637e-05, 'epoch': 0.61}
{'loss': 1.0779, 'grad_norm': 0.5546875, 'learning_rate': 6.696246722664251e-05, 'epoch': 0.61}
{'loss': 1.2475, 'grad_norm': 0.5390625, 'learning_rate': 6.695110484917865e-05, 'epoch': 0.61}
{'loss': 1.0975, 'grad_norm': 0.91015625, 'learning_rate': 6.693974247171478e-05, 'epoch': 0.61}
{'loss': 1.2521, 'grad_norm': 0.515625, 'learning_rate': 6.692838009425092e-05, 'epoch': 0.61}
{'loss': 1.1766, 'grad_norm': 0.9765625, 'learning_rate': 6.691701771678707e-05, 'epoch': 0.61}
{'loss': 1.1821, 'grad_norm': 0.45703125, 'learning_rate': 6.69056553393232e-05, 'epoch': 0.61}
{'loss': 1.1272, 'grad_norm': 0.5, 'learning_rate': 6.689429296185933e-05, 'epoch': 0.61}
{'loss': 1.0745, 'grad_norm': 0.90234375, 'learning_rate': 6.688293058439549e-05, 'epoch': 0.61}
{'loss': 1.2967, 'grad_norm': 0.671875, 'learni



{'loss': 1.214, 'grad_norm': 0.72265625, 'learning_rate': 6.67011325449737e-05, 'epoch': 0.61}
{'loss': 1.2165, 'grad_norm': 0.8203125, 'learning_rate': 6.668977016750986e-05, 'epoch': 0.61}
{'loss': 1.0534, 'grad_norm': 0.5, 'learning_rate': 6.6678407790046e-05, 'epoch': 0.61}
{'loss': 1.1551, 'grad_norm': 0.57421875, 'learning_rate': 6.666704541258213e-05, 'epoch': 0.61}
{'loss': 1.0318, 'grad_norm': 0.69140625, 'learning_rate': 6.665568303511827e-05, 'epoch': 0.61}
{'loss': 1.442, 'grad_norm': 0.5625, 'learning_rate': 6.664432065765441e-05, 'epoch': 0.61}
{'loss': 1.0437, 'grad_norm': 0.6953125, 'learning_rate': 6.663295828019055e-05, 'epoch': 0.61}
{'loss': 1.2121, 'grad_norm': 0.546875, 'learning_rate': 6.662159590272668e-05, 'epoch': 0.61}
{'loss': 1.2307, 'grad_norm': 0.84765625, 'learning_rate': 6.661023352526284e-05, 'epoch': 0.61}
{'loss': 1.2055, 'grad_norm': 1.046875, 'learning_rate': 6.659887114779897e-05, 'epoch': 0.61}
{'loss': 1.3948, 'grad_norm': 0.55859375, 'learning_



{'loss': 1.384, 'grad_norm': 0.51953125, 'learning_rate': 6.64170731083772e-05, 'epoch': 0.61}
{'loss': 0.9928, 'grad_norm': 0.83984375, 'learning_rate': 6.640571073091334e-05, 'epoch': 0.61}
{'loss': 1.1971, 'grad_norm': 0.462890625, 'learning_rate': 6.639434835344948e-05, 'epoch': 0.61}
{'loss': 1.164, 'grad_norm': 0.52734375, 'learning_rate': 6.638298597598562e-05, 'epoch': 0.61}
{'loss': 1.1713, 'grad_norm': 1.1640625, 'learning_rate': 6.637162359852176e-05, 'epoch': 0.61}
{'loss': 1.3759, 'grad_norm': 0.51953125, 'learning_rate': 6.63602612210579e-05, 'epoch': 0.61}
{'loss': 1.2756, 'grad_norm': 0.62890625, 'learning_rate': 6.634889884359403e-05, 'epoch': 0.61}
{'loss': 1.1908, 'grad_norm': 0.5390625, 'learning_rate': 6.633753646613018e-05, 'epoch': 0.61}
{'loss': 1.1634, 'grad_norm': 0.56640625, 'learning_rate': 6.632617408866631e-05, 'epoch': 0.61}
{'loss': 1.1163, 'grad_norm': 1.125, 'learning_rate': 6.631481171120245e-05, 'epoch': 0.61}
{'loss': 1.2989, 'grad_norm': 0.52734375



{'loss': 1.2544, 'grad_norm': 0.5, 'learning_rate': 6.613301367178068e-05, 'epoch': 0.61}
{'loss': 1.0559, 'grad_norm': 0.76171875, 'learning_rate': 6.612165129431682e-05, 'epoch': 0.61}
{'loss': 1.2615, 'grad_norm': 0.515625, 'learning_rate': 6.611028891685297e-05, 'epoch': 0.61}
{'loss': 1.3574, 'grad_norm': 0.9765625, 'learning_rate': 6.60989265393891e-05, 'epoch': 0.61}
{'loss': 1.0102, 'grad_norm': 1.3828125, 'learning_rate': 6.608756416192524e-05, 'epoch': 0.61}
{'loss': 1.2865, 'grad_norm': 0.47265625, 'learning_rate': 6.60762017844614e-05, 'epoch': 0.61}
{'loss': 1.3126, 'grad_norm': 0.66015625, 'learning_rate': 6.606483940699752e-05, 'epoch': 0.61}
{'loss': 1.3418, 'grad_norm': 0.640625, 'learning_rate': 6.605347702953366e-05, 'epoch': 0.61}
{'loss': 1.2524, 'grad_norm': 0.5625, 'learning_rate': 6.60421146520698e-05, 'epoch': 0.61}
{'loss': 0.9324, 'grad_norm': 0.578125, 'learning_rate': 6.603075227460595e-05, 'epoch': 0.61}
{'loss': 1.3499, 'grad_norm': 0.515625, 'learning_ra



{'loss': 1.2941, 'grad_norm': 0.68359375, 'learning_rate': 6.584895423518417e-05, 'epoch': 0.61}
{'loss': 1.1427, 'grad_norm': 0.71875, 'learning_rate': 6.583759185772032e-05, 'epoch': 0.61}
{'loss': 1.2441, 'grad_norm': 0.50390625, 'learning_rate': 6.582622948025646e-05, 'epoch': 0.61}
{'loss': 1.3195, 'grad_norm': 0.6484375, 'learning_rate': 6.58148671027926e-05, 'epoch': 0.61}
{'loss': 1.0155, 'grad_norm': 0.92578125, 'learning_rate': 6.580350472532873e-05, 'epoch': 0.61}
{'loss': 1.1864, 'grad_norm': 0.7265625, 'learning_rate': 6.579214234786487e-05, 'epoch': 0.61}
{'loss': 1.1455, 'grad_norm': 0.99609375, 'learning_rate': 6.578077997040101e-05, 'epoch': 0.61}
{'loss': 1.2461, 'grad_norm': 0.66015625, 'learning_rate': 6.576941759293716e-05, 'epoch': 0.61}
{'loss': 1.2429, 'grad_norm': 0.7109375, 'learning_rate': 6.57580552154733e-05, 'epoch': 0.61}
{'loss': 1.0601, 'grad_norm': 0.7578125, 'learning_rate': 6.574669283800942e-05, 'epoch': 0.61}
{'loss': 1.3096, 'grad_norm': 0.71875, 



{'loss': 1.2213, 'grad_norm': 0.52734375, 'learning_rate': 6.556489479858767e-05, 'epoch': 0.61}
{'loss': 1.2258, 'grad_norm': 0.91796875, 'learning_rate': 6.555353242112379e-05, 'epoch': 0.61}
{'loss': 1.0536, 'grad_norm': 0.5390625, 'learning_rate': 6.554217004365993e-05, 'epoch': 0.61}
{'loss': 1.2878, 'grad_norm': 0.60546875, 'learning_rate': 6.553080766619608e-05, 'epoch': 0.61}
{'loss': 1.1633, 'grad_norm': 0.78515625, 'learning_rate': 6.551944528873222e-05, 'epoch': 0.61}
{'loss': 1.3887, 'grad_norm': 0.5, 'learning_rate': 6.550808291126836e-05, 'epoch': 0.61}
{'loss': 1.0872, 'grad_norm': 0.65625, 'learning_rate': 6.549672053380451e-05, 'epoch': 0.61}
{'loss': 1.3522, 'grad_norm': 0.53515625, 'learning_rate': 6.548535815634063e-05, 'epoch': 0.61}
{'loss': 1.1002, 'grad_norm': 0.703125, 'learning_rate': 6.547399577887677e-05, 'epoch': 0.61}
{'loss': 1.2029, 'grad_norm': 0.734375, 'learning_rate': 6.546263340141291e-05, 'epoch': 0.61}
{'loss': 1.2888, 'grad_norm': 0.5390625, 'lea



{'loss': 1.2246, 'grad_norm': 0.54296875, 'learning_rate': 6.528083536199114e-05, 'epoch': 0.62}
{'loss': 1.1028, 'grad_norm': 0.63671875, 'learning_rate': 6.526947298452728e-05, 'epoch': 0.62}
{'loss': 1.2117, 'grad_norm': 0.484375, 'learning_rate': 6.525811060706343e-05, 'epoch': 0.62}
{'loss': 1.1026, 'grad_norm': 0.578125, 'learning_rate': 6.524674822959957e-05, 'epoch': 0.62}
{'loss': 1.0527, 'grad_norm': 1.03125, 'learning_rate': 6.52353858521357e-05, 'epoch': 0.62}
{'loss': 1.2226, 'grad_norm': 0.5546875, 'learning_rate': 6.522402347467184e-05, 'epoch': 0.62}
{'loss': 1.2293, 'grad_norm': 0.7421875, 'learning_rate': 6.521266109720798e-05, 'epoch': 0.62}
{'loss': 1.1385, 'grad_norm': 0.6484375, 'learning_rate': 6.520129871974412e-05, 'epoch': 0.62}
{'loss': 1.1966, 'grad_norm': 0.53515625, 'learning_rate': 6.518993634228027e-05, 'epoch': 0.62}
{'loss': 1.0131, 'grad_norm': 1.0078125, 'learning_rate': 6.517857396481641e-05, 'epoch': 0.62}
{'loss': 1.4037, 'grad_norm': 0.5546875, '



{'loss': 1.3492, 'grad_norm': 0.609375, 'learning_rate': 6.499677592539464e-05, 'epoch': 0.62}
{'loss': 1.2318, 'grad_norm': 0.9765625, 'learning_rate': 6.498541354793078e-05, 'epoch': 0.62}
{'loss': 1.1466, 'grad_norm': 0.453125, 'learning_rate': 6.49740511704669e-05, 'epoch': 0.62}
{'loss': 1.2213, 'grad_norm': 0.73046875, 'learning_rate': 6.496268879300304e-05, 'epoch': 0.62}
{'loss': 1.0706, 'grad_norm': 1.1328125, 'learning_rate': 6.495132641553919e-05, 'epoch': 0.62}
{'loss': 1.3612, 'grad_norm': 0.55078125, 'learning_rate': 6.493996403807533e-05, 'epoch': 0.62}
{'loss': 1.0864, 'grad_norm': 0.8359375, 'learning_rate': 6.492860166061147e-05, 'epoch': 0.62}
{'loss': 1.1665, 'grad_norm': 0.47265625, 'learning_rate': 6.491723928314762e-05, 'epoch': 0.62}
{'loss': 1.2296, 'grad_norm': 0.56640625, 'learning_rate': 6.490587690568374e-05, 'epoch': 0.62}
{'loss': 0.9707, 'grad_norm': 0.88671875, 'learning_rate': 6.489451452821988e-05, 'epoch': 0.62}
{'loss': 1.1972, 'grad_norm': 0.777343



{'loss': 1.4763, 'grad_norm': 0.546875, 'learning_rate': 6.471271648879811e-05, 'epoch': 0.62}
{'loss': 1.2626, 'grad_norm': 0.6796875, 'learning_rate': 6.470135411133425e-05, 'epoch': 0.62}
{'loss': 1.1454, 'grad_norm': 0.55078125, 'learning_rate': 6.46899917338704e-05, 'epoch': 0.62}
{'loss': 1.2588, 'grad_norm': 0.6015625, 'learning_rate': 6.467862935640654e-05, 'epoch': 0.62}
{'loss': 0.9836, 'grad_norm': 0.431640625, 'learning_rate': 6.466726697894268e-05, 'epoch': 0.62}
{'loss': 1.1951, 'grad_norm': 0.57421875, 'learning_rate': 6.465590460147882e-05, 'epoch': 0.62}
{'loss': 1.2013, 'grad_norm': 0.68359375, 'learning_rate': 6.464454222401496e-05, 'epoch': 0.62}
{'loss': 1.1943, 'grad_norm': 0.63671875, 'learning_rate': 6.463317984655109e-05, 'epoch': 0.62}
{'loss': 1.2272, 'grad_norm': 0.5546875, 'learning_rate': 6.462181746908723e-05, 'epoch': 0.62}
{'loss': 0.9717, 'grad_norm': 0.640625, 'learning_rate': 6.461045509162338e-05, 'epoch': 0.62}
{'loss': 1.362, 'grad_norm': 0.53125,



{'loss': 1.3567, 'grad_norm': 0.7421875, 'learning_rate': 6.44286570522016e-05, 'epoch': 0.62}
{'loss': 1.1946, 'grad_norm': 0.82421875, 'learning_rate': 6.441729467473775e-05, 'epoch': 0.62}
{'loss': 1.1665, 'grad_norm': 0.5546875, 'learning_rate': 6.440593229727389e-05, 'epoch': 0.62}
{'loss': 1.2485, 'grad_norm': 0.51171875, 'learning_rate': 6.439456991981001e-05, 'epoch': 0.62}
{'loss': 1.1087, 'grad_norm': 0.92578125, 'learning_rate': 6.438320754234617e-05, 'epoch': 0.62}
{'loss': 1.4632, 'grad_norm': 0.5703125, 'learning_rate': 6.43718451648823e-05, 'epoch': 0.62}
{'loss': 1.3285, 'grad_norm': 0.71484375, 'learning_rate': 6.436048278741844e-05, 'epoch': 0.62}
{'loss': 1.1111, 'grad_norm': 0.5859375, 'learning_rate': 6.434912040995458e-05, 'epoch': 0.62}
{'loss': 1.2723, 'grad_norm': 0.55859375, 'learning_rate': 6.433775803249073e-05, 'epoch': 0.62}
{'loss': 1.0408, 'grad_norm': 0.625, 'learning_rate': 6.432639565502686e-05, 'epoch': 0.62}
{'loss': 1.3633, 'grad_norm': 0.466796875



{'loss': 1.3826, 'grad_norm': 0.66015625, 'learning_rate': 6.41445976156051e-05, 'epoch': 0.62}
{'loss': 1.1769, 'grad_norm': 0.73046875, 'learning_rate': 6.413323523814123e-05, 'epoch': 0.62}
{'loss': 1.132, 'grad_norm': 0.671875, 'learning_rate': 6.412187286067736e-05, 'epoch': 0.62}
{'loss': 1.2054, 'grad_norm': 0.5234375, 'learning_rate': 6.411051048321352e-05, 'epoch': 0.62}
{'loss': 1.0586, 'grad_norm': 0.8359375, 'learning_rate': 6.409914810574965e-05, 'epoch': 0.62}
{'loss': 1.3318, 'grad_norm': 0.5390625, 'learning_rate': 6.408778572828579e-05, 'epoch': 0.62}
{'loss': 1.1524, 'grad_norm': 0.68359375, 'learning_rate': 6.407642335082193e-05, 'epoch': 0.62}
{'loss': 1.2609, 'grad_norm': 0.5, 'learning_rate': 6.406506097335807e-05, 'epoch': 0.62}
{'loss': 1.2256, 'grad_norm': 0.7421875, 'learning_rate': 6.40536985958942e-05, 'epoch': 0.62}
{'loss': 1.0151, 'grad_norm': 0.94140625, 'learning_rate': 6.404233621843034e-05, 'epoch': 0.62}
{'loss': 1.4284, 'grad_norm': 0.56640625, 'lea



{'loss': 1.2944, 'grad_norm': 0.5078125, 'learning_rate': 6.386053817900858e-05, 'epoch': 0.62}
{'loss': 1.1868, 'grad_norm': 1.0078125, 'learning_rate': 6.384917580154471e-05, 'epoch': 0.62}
{'loss': 1.2235, 'grad_norm': 0.55859375, 'learning_rate': 6.383781342408086e-05, 'epoch': 0.62}
{'loss': 1.283, 'grad_norm': 0.55859375, 'learning_rate': 6.3826451046617e-05, 'epoch': 0.62}
{'loss': 1.0974, 'grad_norm': 1.3046875, 'learning_rate': 6.381508866915313e-05, 'epoch': 0.62}
{'loss': 1.2964, 'grad_norm': 0.5078125, 'learning_rate': 6.380372629168928e-05, 'epoch': 0.62}
{'loss': 1.1874, 'grad_norm': 0.67578125, 'learning_rate': 6.379236391422542e-05, 'epoch': 0.62}
{'loss': 1.1284, 'grad_norm': 0.388671875, 'learning_rate': 6.378100153676155e-05, 'epoch': 0.62}
{'loss': 1.1316, 'grad_norm': 0.7890625, 'learning_rate': 6.376963915929769e-05, 'epoch': 0.62}
{'loss': 1.0924, 'grad_norm': 0.80078125, 'learning_rate': 6.375827678183384e-05, 'epoch': 0.62}
{'loss': 1.3785, 'grad_norm': 0.64062



{'loss': 1.4489, 'grad_norm': 0.5390625, 'learning_rate': 6.357647874241206e-05, 'epoch': 0.62}
{'loss': 1.2375, 'grad_norm': 0.73828125, 'learning_rate': 6.356511636494821e-05, 'epoch': 0.62}
{'loss': 1.2227, 'grad_norm': 0.48828125, 'learning_rate': 6.355375398748434e-05, 'epoch': 0.62}
{'loss': 1.2649, 'grad_norm': 0.65625, 'learning_rate': 6.354239161002048e-05, 'epoch': 0.62}
{'loss': 1.1853, 'grad_norm': 0.59375, 'learning_rate': 6.353102923255663e-05, 'epoch': 0.62}
{'loss': 1.3469, 'grad_norm': 0.494140625, 'learning_rate': 6.351966685509277e-05, 'epoch': 0.62}
{'loss': 1.1905, 'grad_norm': 0.7265625, 'learning_rate': 6.35083044776289e-05, 'epoch': 0.62}
{'loss': 1.0571, 'grad_norm': 0.447265625, 'learning_rate': 6.349694210016504e-05, 'epoch': 0.62}
{'loss': 1.2462, 'grad_norm': 0.58203125, 'learning_rate': 6.348557972270118e-05, 'epoch': 0.62}
{'loss': 1.0232, 'grad_norm': 0.609375, 'learning_rate': 6.347421734523732e-05, 'epoch': 0.62}
{'loss': 1.3149, 'grad_norm': 0.46875, 



{'loss': 1.3869, 'grad_norm': 0.58203125, 'learning_rate': 6.329241930581555e-05, 'epoch': 0.62}
{'loss': 1.0413, 'grad_norm': 0.84765625, 'learning_rate': 6.328105692835169e-05, 'epoch': 0.62}
{'loss': 1.2227, 'grad_norm': 0.416015625, 'learning_rate': 6.326969455088783e-05, 'epoch': 0.62}
{'loss': 1.2998, 'grad_norm': 0.609375, 'learning_rate': 6.325833217342398e-05, 'epoch': 0.62}
{'loss': 1.0402, 'grad_norm': 0.8046875, 'learning_rate': 6.324696979596011e-05, 'epoch': 0.62}
{'loss': 1.372, 'grad_norm': 0.64453125, 'learning_rate': 6.323560741849624e-05, 'epoch': 0.62}
{'loss': 1.1651, 'grad_norm': 0.55078125, 'learning_rate': 6.322424504103239e-05, 'epoch': 0.62}
{'loss': 1.2405, 'grad_norm': 0.40234375, 'learning_rate': 6.321288266356853e-05, 'epoch': 0.62}
{'loss': 1.3193, 'grad_norm': 0.640625, 'learning_rate': 6.320152028610467e-05, 'epoch': 0.62}
{'loss': 1.0679, 'grad_norm': 0.65625, 'learning_rate': 6.319015790864082e-05, 'epoch': 0.62}
{'loss': 1.2627, 'grad_norm': 0.503906



{'loss': 1.4025, 'grad_norm': 0.5703125, 'learning_rate': 6.300835986921904e-05, 'epoch': 0.62}
{'loss': 1.1288, 'grad_norm': 0.953125, 'learning_rate': 6.299699749175519e-05, 'epoch': 0.63}
{'loss': 1.2647, 'grad_norm': 0.5546875, 'learning_rate': 6.298563511429133e-05, 'epoch': 0.63}
{'loss': 1.1627, 'grad_norm': 0.703125, 'learning_rate': 6.297427273682745e-05, 'epoch': 0.63}
{'loss': 1.0151, 'grad_norm': 0.95703125, 'learning_rate': 6.296291035936359e-05, 'epoch': 0.63}
{'loss': 1.2735, 'grad_norm': 0.5390625, 'learning_rate': 6.295154798189974e-05, 'epoch': 0.63}
{'loss': 1.3088, 'grad_norm': 0.71484375, 'learning_rate': 6.294018560443588e-05, 'epoch': 0.63}
{'loss': 1.1377, 'grad_norm': 0.5078125, 'learning_rate': 6.292882322697202e-05, 'epoch': 0.63}
{'loss': 1.1672, 'grad_norm': 0.65625, 'learning_rate': 6.291746084950815e-05, 'epoch': 0.63}
{'loss': 1.0218, 'grad_norm': 0.55859375, 'learning_rate': 6.290609847204429e-05, 'epoch': 0.63}
{'loss': 1.3776, 'grad_norm': 0.58984375,



{'loss': 1.2747, 'grad_norm': 0.625, 'learning_rate': 6.272430043262252e-05, 'epoch': 0.63}
{'loss': 1.2164, 'grad_norm': 0.74609375, 'learning_rate': 6.271293805515866e-05, 'epoch': 0.63}
{'loss': 1.2342, 'grad_norm': 0.42578125, 'learning_rate': 6.27015756776948e-05, 'epoch': 0.63}
{'loss': 1.1718, 'grad_norm': 0.95703125, 'learning_rate': 6.269021330023095e-05, 'epoch': 0.63}
{'loss': 1.1585, 'grad_norm': 0.74609375, 'learning_rate': 6.267885092276709e-05, 'epoch': 0.63}
{'loss': 1.3825, 'grad_norm': 0.66796875, 'learning_rate': 6.266748854530323e-05, 'epoch': 0.63}
{'loss': 1.1437, 'grad_norm': 0.59765625, 'learning_rate': 6.265612616783935e-05, 'epoch': 0.63}
{'loss': 1.3206, 'grad_norm': 0.5234375, 'learning_rate': 6.26447637903755e-05, 'epoch': 0.63}
{'loss': 1.1257, 'grad_norm': 0.5390625, 'learning_rate': 6.263340141291164e-05, 'epoch': 0.63}
{'loss': 1.2873, 'grad_norm': 0.78125, 'learning_rate': 6.262203903544778e-05, 'epoch': 0.63}
{'loss': 1.2852, 'grad_norm': 0.6015625, '



{'loss': 1.1238, 'grad_norm': 0.5859375, 'learning_rate': 6.244024099602601e-05, 'epoch': 0.63}
{'loss': 1.0941, 'grad_norm': 0.9296875, 'learning_rate': 6.242887861856215e-05, 'epoch': 0.63}
{'loss': 1.1332, 'grad_norm': 0.50390625, 'learning_rate': 6.24175162410983e-05, 'epoch': 0.63}
{'loss': 1.2391, 'grad_norm': 0.57421875, 'learning_rate': 6.240615386363444e-05, 'epoch': 0.63}
{'loss': 0.9, 'grad_norm': 0.5078125, 'learning_rate': 6.239479148617056e-05, 'epoch': 0.63}
{'loss': 1.5506, 'grad_norm': 0.5625, 'learning_rate': 6.23834291087067e-05, 'epoch': 0.63}
{'loss': 1.1564, 'grad_norm': 0.8984375, 'learning_rate': 6.237206673124285e-05, 'epoch': 0.63}
{'loss': 1.0449, 'grad_norm': 0.578125, 'learning_rate': 6.236070435377899e-05, 'epoch': 0.63}
{'loss': 1.1981, 'grad_norm': 0.59375, 'learning_rate': 6.234934197631513e-05, 'epoch': 0.63}
{'loss': 1.0549, 'grad_norm': 2.671875, 'learning_rate': 6.233797959885126e-05, 'epoch': 0.63}
{'loss': 1.2819, 'grad_norm': 0.6484375, 'learning



{'loss': 1.2739, 'grad_norm': 0.52734375, 'learning_rate': 6.21561815594295e-05, 'epoch': 0.63}
{'loss': 1.1475, 'grad_norm': 0.62890625, 'learning_rate': 6.214481918196564e-05, 'epoch': 0.63}
{'loss': 1.2331, 'grad_norm': 0.515625, 'learning_rate': 6.213345680450177e-05, 'epoch': 0.63}
{'loss': 1.2757, 'grad_norm': 0.6640625, 'learning_rate': 6.212209442703791e-05, 'epoch': 0.63}
{'loss': 1.1695, 'grad_norm': 0.88671875, 'learning_rate': 6.211073204957406e-05, 'epoch': 0.63}
{'loss': 1.2785, 'grad_norm': 0.50390625, 'learning_rate': 6.20993696721102e-05, 'epoch': 0.63}
{'loss': 1.2306, 'grad_norm': 0.6015625, 'learning_rate': 6.208800729464634e-05, 'epoch': 0.63}
{'loss': 1.1721, 'grad_norm': 0.52734375, 'learning_rate': 6.207664491718248e-05, 'epoch': 0.63}
{'loss': 1.1736, 'grad_norm': 0.55078125, 'learning_rate': 6.206528253971861e-05, 'epoch': 0.63}
{'loss': 1.0248, 'grad_norm': 1.03125, 'learning_rate': 6.205392016225475e-05, 'epoch': 0.63}
{'loss': 1.3784, 'grad_norm': 0.734375,



{'loss': 1.3851, 'grad_norm': 0.5546875, 'learning_rate': 6.187212212283298e-05, 'epoch': 0.63}
{'loss': 1.1622, 'grad_norm': 0.86328125, 'learning_rate': 6.186075974536912e-05, 'epoch': 0.63}
{'loss': 1.1125, 'grad_norm': 0.5703125, 'learning_rate': 6.184939736790526e-05, 'epoch': 0.63}
{'loss': 1.3785, 'grad_norm': 0.53125, 'learning_rate': 6.183803499044141e-05, 'epoch': 0.63}
{'loss': 0.9272, 'grad_norm': 0.79296875, 'learning_rate': 6.182667261297755e-05, 'epoch': 0.63}
{'loss': 1.2978, 'grad_norm': 0.71875, 'learning_rate': 6.181531023551367e-05, 'epoch': 0.63}
{'loss': 1.1817, 'grad_norm': 0.66796875, 'learning_rate': 6.180394785804983e-05, 'epoch': 0.63}
{'loss': 1.1467, 'grad_norm': 0.65234375, 'learning_rate': 6.179258548058596e-05, 'epoch': 0.63}
{'loss': 1.2131, 'grad_norm': 0.58203125, 'learning_rate': 6.17812231031221e-05, 'epoch': 0.63}
{'loss': 1.1659, 'grad_norm': 1.296875, 'learning_rate': 6.176986072565824e-05, 'epoch': 0.63}
{'loss': 1.255, 'grad_norm': 0.49609375, 



{'loss': 1.5337, 'grad_norm': 0.59765625, 'learning_rate': 6.158806268623647e-05, 'epoch': 0.63}
{'loss': 1.0791, 'grad_norm': 0.7890625, 'learning_rate': 6.157670030877261e-05, 'epoch': 0.63}
{'loss': 1.3069, 'grad_norm': 0.400390625, 'learning_rate': 6.156533793130875e-05, 'epoch': 0.63}
{'loss': 1.2164, 'grad_norm': 0.6171875, 'learning_rate': 6.155397555384489e-05, 'epoch': 0.63}
{'loss': 1.0556, 'grad_norm': 1.453125, 'learning_rate': 6.154261317638102e-05, 'epoch': 0.63}
{'loss': 1.4597, 'grad_norm': 0.51953125, 'learning_rate': 6.153125079891717e-05, 'epoch': 0.63}
{'loss': 1.1601, 'grad_norm': 0.85546875, 'learning_rate': 6.151988842145331e-05, 'epoch': 0.63}
{'loss': 1.1449, 'grad_norm': 0.44921875, 'learning_rate': 6.150852604398945e-05, 'epoch': 0.63}
{'loss': 1.1831, 'grad_norm': 0.66796875, 'learning_rate': 6.149716366652559e-05, 'epoch': 0.63}
{'loss': 1.0929, 'grad_norm': 0.84375, 'learning_rate': 6.148580128906173e-05, 'epoch': 0.63}
{'loss': 1.3998, 'grad_norm': 0.7539



{'loss': 1.227, 'grad_norm': 0.515625, 'learning_rate': 6.130400324963996e-05, 'epoch': 0.63}
{'loss': 1.1295, 'grad_norm': 0.6875, 'learning_rate': 6.12926408721761e-05, 'epoch': 0.63}
{'loss': 1.2083, 'grad_norm': 0.65625, 'learning_rate': 6.128127849471223e-05, 'epoch': 0.63}
{'loss': 1.2168, 'grad_norm': 0.67578125, 'learning_rate': 6.126991611724837e-05, 'epoch': 0.63}
{'loss': 1.1939, 'grad_norm': 0.953125, 'learning_rate': 6.125855373978452e-05, 'epoch': 0.63}
{'loss': 1.3007, 'grad_norm': 0.78515625, 'learning_rate': 6.124719136232066e-05, 'epoch': 0.63}
{'loss': 1.1393, 'grad_norm': 0.8515625, 'learning_rate': 6.123582898485679e-05, 'epoch': 0.63}
{'loss': 1.1688, 'grad_norm': 0.59375, 'learning_rate': 6.122446660739294e-05, 'epoch': 0.63}
{'loss': 1.2905, 'grad_norm': 0.77734375, 'learning_rate': 6.121310422992907e-05, 'epoch': 0.63}
{'loss': 1.0921, 'grad_norm': 0.9453125, 'learning_rate': 6.120174185246521e-05, 'epoch': 0.63}
{'loss': 1.3999, 'grad_norm': 0.55859375, 'learn



{'loss': 1.2214, 'grad_norm': 0.5234375, 'learning_rate': 6.1019943813043446e-05, 'epoch': 0.63}
{'loss': 1.1695, 'grad_norm': 0.79296875, 'learning_rate': 6.1008581435579583e-05, 'epoch': 0.63}
{'loss': 1.28, 'grad_norm': 0.478515625, 'learning_rate': 6.0997219058115715e-05, 'epoch': 0.63}
{'loss': 1.1878, 'grad_norm': 0.6328125, 'learning_rate': 6.0985856680651866e-05, 'epoch': 0.63}
{'loss': 1.0853, 'grad_norm': 0.8984375, 'learning_rate': 6.0974494303188004e-05, 'epoch': 0.63}
{'loss': 1.3896, 'grad_norm': 0.5234375, 'learning_rate': 6.0963131925724135e-05, 'epoch': 0.63}
{'loss': 1.0941, 'grad_norm': 1.0234375, 'learning_rate': 6.0951769548260286e-05, 'epoch': 0.63}
{'loss': 1.2476, 'grad_norm': 0.423828125, 'learning_rate': 6.0940407170796424e-05, 'epoch': 0.63}
{'loss': 1.2485, 'grad_norm': 0.73046875, 'learning_rate': 6.0929044793332555e-05, 'epoch': 0.63}
{'loss': 0.9677, 'grad_norm': 0.63671875, 'learning_rate': 6.091768241586871e-05, 'epoch': 0.63}
{'loss': 1.2608, 'grad_nor



{'loss': 1.3475, 'grad_norm': 0.50390625, 'learning_rate': 6.0735884376446926e-05, 'epoch': 0.63}
{'loss': 1.1689, 'grad_norm': 0.59375, 'learning_rate': 6.072452199898308e-05, 'epoch': 0.63}
{'loss': 1.1293, 'grad_norm': 0.52734375, 'learning_rate': 6.071315962151921e-05, 'epoch': 0.63}
{'loss': 1.2781, 'grad_norm': 0.59765625, 'learning_rate': 6.0701797244055346e-05, 'epoch': 0.64}
{'loss': 1.1545, 'grad_norm': 0.4609375, 'learning_rate': 6.0690434866591484e-05, 'epoch': 0.64}
{'loss': 1.3087, 'grad_norm': 0.5625, 'learning_rate': 6.067907248912763e-05, 'epoch': 0.64}
{'loss': 1.2216, 'grad_norm': 0.6484375, 'learning_rate': 6.0667710111663767e-05, 'epoch': 0.64}
{'loss': 1.2464, 'grad_norm': 0.48828125, 'learning_rate': 6.0656347734199904e-05, 'epoch': 0.64}
{'loss': 1.0771, 'grad_norm': 0.52734375, 'learning_rate': 6.064498535673605e-05, 'epoch': 0.64}
{'loss': 0.9518, 'grad_norm': 0.671875, 'learning_rate': 6.063362297927219e-05, 'epoch': 0.64}
{'loss': 1.3169, 'grad_norm': 0.5898



{'loss': 1.3909, 'grad_norm': 0.484375, 'learning_rate': 6.045182493985042e-05, 'epoch': 0.64}
{'loss': 1.0708, 'grad_norm': 0.8125, 'learning_rate': 6.044046256238656e-05, 'epoch': 0.64}
{'loss': 1.2407, 'grad_norm': 0.5546875, 'learning_rate': 6.0429100184922695e-05, 'epoch': 0.64}
{'loss': 1.2318, 'grad_norm': 0.63671875, 'learning_rate': 6.041773780745884e-05, 'epoch': 0.64}
{'loss': 0.9885, 'grad_norm': 0.57421875, 'learning_rate': 6.040637542999498e-05, 'epoch': 0.64}
{'loss': 1.2892, 'grad_norm': 0.54296875, 'learning_rate': 6.0395013052531116e-05, 'epoch': 0.64}
{'loss': 1.2073, 'grad_norm': 0.7734375, 'learning_rate': 6.038365067506725e-05, 'epoch': 0.64}
{'loss': 1.26, 'grad_norm': 0.50390625, 'learning_rate': 6.03722882976034e-05, 'epoch': 0.64}
{'loss': 1.1685, 'grad_norm': 0.640625, 'learning_rate': 6.0360925920139536e-05, 'epoch': 0.64}
{'loss': 1.0877, 'grad_norm': 0.59375, 'learning_rate': 6.034956354267567e-05, 'epoch': 0.64}
{'loss': 1.336, 'grad_norm': 0.51171875, 'l



{'loss': 1.3125, 'grad_norm': 0.51953125, 'learning_rate': 6.016776550325391e-05, 'epoch': 0.64}
{'loss': 1.1329, 'grad_norm': 1.1015625, 'learning_rate': 6.015640312579004e-05, 'epoch': 0.64}
{'loss': 0.9443, 'grad_norm': 0.6953125, 'learning_rate': 6.014504074832619e-05, 'epoch': 0.64}
{'loss': 1.1712, 'grad_norm': 0.90625, 'learning_rate': 6.013367837086232e-05, 'epoch': 0.64}
{'loss': 1.0775, 'grad_norm': 1.5078125, 'learning_rate': 6.012231599339846e-05, 'epoch': 0.64}
{'loss': 1.1226, 'grad_norm': 0.6171875, 'learning_rate': 6.011095361593461e-05, 'epoch': 0.64}
{'loss': 1.1186, 'grad_norm': 0.76171875, 'learning_rate': 6.009959123847074e-05, 'epoch': 0.64}
{'loss': 1.2216, 'grad_norm': 0.3984375, 'learning_rate': 6.008822886100688e-05, 'epoch': 0.64}
{'loss': 1.2264, 'grad_norm': 0.69140625, 'learning_rate': 6.0076866483543016e-05, 'epoch': 0.64}
{'loss': 1.1993, 'grad_norm': 0.89453125, 'learning_rate': 6.006550410607916e-05, 'epoch': 0.64}
{'loss': 1.2728, 'grad_norm': 0.45117



{'loss': 1.4082, 'grad_norm': 0.5078125, 'learning_rate': 5.988370606665739e-05, 'epoch': 0.64}
{'loss': 1.1613, 'grad_norm': 0.61328125, 'learning_rate': 5.987234368919353e-05, 'epoch': 0.64}
{'loss': 1.302, 'grad_norm': 0.498046875, 'learning_rate': 5.986098131172967e-05, 'epoch': 0.64}
{'loss': 1.2208, 'grad_norm': 1.109375, 'learning_rate': 5.984961893426581e-05, 'epoch': 0.64}
{'loss': 1.0804, 'grad_norm': 0.8359375, 'learning_rate': 5.983825655680195e-05, 'epoch': 0.64}
{'loss': 1.3649, 'grad_norm': 0.69140625, 'learning_rate': 5.982689417933809e-05, 'epoch': 0.64}
{'loss': 1.1639, 'grad_norm': 0.578125, 'learning_rate': 5.981553180187423e-05, 'epoch': 0.64}
{'loss': 1.1628, 'grad_norm': 0.65234375, 'learning_rate': 5.980416942441036e-05, 'epoch': 0.64}
{'loss': 1.2231, 'grad_norm': 0.609375, 'learning_rate': 5.979280704694651e-05, 'epoch': 0.64}
{'loss': 0.9923, 'grad_norm': 0.83203125, 'learning_rate': 5.978144466948265e-05, 'epoch': 0.64}
{'loss': 1.4125, 'grad_norm': 0.554687



{'loss': 1.3762, 'grad_norm': 0.51953125, 'learning_rate': 5.959964663006088e-05, 'epoch': 0.64}
{'loss': 1.1431, 'grad_norm': 0.82421875, 'learning_rate': 5.958828425259702e-05, 'epoch': 0.64}
{'loss': 1.0015, 'grad_norm': 0.49609375, 'learning_rate': 5.957692187513315e-05, 'epoch': 0.64}
{'loss': 1.189, 'grad_norm': 0.609375, 'learning_rate': 5.95655594976693e-05, 'epoch': 0.64}
{'loss': 1.1484, 'grad_norm': 2.09375, 'learning_rate': 5.955419712020543e-05, 'epoch': 0.64}
{'loss': 1.3077, 'grad_norm': 0.52734375, 'learning_rate': 5.954283474274157e-05, 'epoch': 0.64}
{'loss': 1.1836, 'grad_norm': 0.59765625, 'learning_rate': 5.953147236527772e-05, 'epoch': 0.64}
{'loss': 1.1066, 'grad_norm': 0.52734375, 'learning_rate': 5.952010998781385e-05, 'epoch': 0.64}
{'loss': 1.1561, 'grad_norm': 0.57421875, 'learning_rate': 5.950874761034999e-05, 'epoch': 0.64}
{'loss': 0.9505, 'grad_norm': 0.91796875, 'learning_rate': 5.949738523288613e-05, 'epoch': 0.64}
{'loss': 1.3523, 'grad_norm': 0.63671



{'loss': 1.3923, 'grad_norm': 0.65625, 'learning_rate': 5.931558719346436e-05, 'epoch': 0.64}
{'loss': 1.0003, 'grad_norm': 0.66015625, 'learning_rate': 5.93042248160005e-05, 'epoch': 0.64}
{'loss': 1.3178, 'grad_norm': 0.578125, 'learning_rate': 5.9292862438536643e-05, 'epoch': 0.64}
{'loss': 1.2284, 'grad_norm': 0.482421875, 'learning_rate': 5.928150006107278e-05, 'epoch': 0.64}
{'loss': 1.0789, 'grad_norm': 0.6640625, 'learning_rate': 5.927013768360892e-05, 'epoch': 0.64}
{'loss': 1.3665, 'grad_norm': 0.490234375, 'learning_rate': 5.9258775306145064e-05, 'epoch': 0.64}
{'loss': 1.2159, 'grad_norm': 0.51171875, 'learning_rate': 5.92474129286812e-05, 'epoch': 0.64}
{'loss': 1.3641, 'grad_norm': 0.470703125, 'learning_rate': 5.923605055121734e-05, 'epoch': 0.64}
{'loss': 1.2401, 'grad_norm': 0.6171875, 'learning_rate': 5.9224688173753484e-05, 'epoch': 0.64}
{'loss': 1.1089, 'grad_norm': 0.84765625, 'learning_rate': 5.921332579628962e-05, 'epoch': 0.64}
{'loss': 1.4046, 'grad_norm': 0.5



{'loss': 1.2576, 'grad_norm': 0.55859375, 'learning_rate': 5.9031527756867855e-05, 'epoch': 0.64}
{'loss': 1.2182, 'grad_norm': 0.65234375, 'learning_rate': 5.902016537940399e-05, 'epoch': 0.64}
{'loss': 1.3085, 'grad_norm': 0.515625, 'learning_rate': 5.900880300194013e-05, 'epoch': 0.64}
{'loss': 1.2258, 'grad_norm': 0.5546875, 'learning_rate': 5.899744062447626e-05, 'epoch': 0.64}
{'loss': 1.0741, 'grad_norm': 0.984375, 'learning_rate': 5.898607824701241e-05, 'epoch': 0.64}
{'loss': 1.1732, 'grad_norm': 0.60546875, 'learning_rate': 5.8974715869548544e-05, 'epoch': 0.64}
{'loss': 1.2449, 'grad_norm': 0.6875, 'learning_rate': 5.896335349208468e-05, 'epoch': 0.64}
{'loss': 1.1184, 'grad_norm': 0.458984375, 'learning_rate': 5.895199111462083e-05, 'epoch': 0.64}
{'loss': 1.2357, 'grad_norm': 0.640625, 'learning_rate': 5.8940628737156964e-05, 'epoch': 0.64}
{'loss': 1.1323, 'grad_norm': 1.1015625, 'learning_rate': 5.89292663596931e-05, 'epoch': 0.64}
{'loss': 1.2825, 'grad_norm': 0.6210937



{'loss': 1.2863, 'grad_norm': 0.9375, 'learning_rate': 5.8747468320271335e-05, 'epoch': 0.64}
{'loss': 1.2358, 'grad_norm': 0.7734375, 'learning_rate': 5.873610594280747e-05, 'epoch': 0.64}
{'loss': 1.1827, 'grad_norm': 0.490234375, 'learning_rate': 5.872474356534362e-05, 'epoch': 0.64}
{'loss': 1.1623, 'grad_norm': 0.65234375, 'learning_rate': 5.8713381187879755e-05, 'epoch': 0.64}
{'loss': 0.9933, 'grad_norm': 0.625, 'learning_rate': 5.870201881041589e-05, 'epoch': 0.64}
{'loss': 1.3575, 'grad_norm': 0.859375, 'learning_rate': 5.869065643295203e-05, 'epoch': 0.64}
{'loss': 1.1773, 'grad_norm': 1.2109375, 'learning_rate': 5.8679294055488176e-05, 'epoch': 0.64}
{'loss': 1.2303, 'grad_norm': 0.59765625, 'learning_rate': 5.8667931678024313e-05, 'epoch': 0.64}
{'loss': 1.2092, 'grad_norm': 0.6171875, 'learning_rate': 5.865656930056045e-05, 'epoch': 0.64}
{'loss': 1.0299, 'grad_norm': 0.44140625, 'learning_rate': 5.8645206923096596e-05, 'epoch': 0.64}
{'loss': 1.3595, 'grad_norm': 0.585937



{'loss': 1.3849, 'grad_norm': 0.50390625, 'learning_rate': 5.846340888367482e-05, 'epoch': 0.64}
{'loss': 1.1117, 'grad_norm': 0.859375, 'learning_rate': 5.8452046506210967e-05, 'epoch': 0.64}
{'loss': 1.1814, 'grad_norm': 0.5546875, 'learning_rate': 5.8440684128747104e-05, 'epoch': 0.64}
{'loss': 1.3124, 'grad_norm': 0.609375, 'learning_rate': 5.842932175128324e-05, 'epoch': 0.64}
{'loss': 1.0407, 'grad_norm': 0.65234375, 'learning_rate': 5.8417959373819373e-05, 'epoch': 0.65}
{'loss': 1.3508, 'grad_norm': 0.56640625, 'learning_rate': 5.8406596996355525e-05, 'epoch': 0.65}
{'loss': 1.0731, 'grad_norm': 0.8046875, 'learning_rate': 5.8395234618891656e-05, 'epoch': 0.65}
{'loss': 1.2393, 'grad_norm': 0.44921875, 'learning_rate': 5.8383872241427794e-05, 'epoch': 0.65}
{'loss': 1.2495, 'grad_norm': 0.609375, 'learning_rate': 5.8372509863963945e-05, 'epoch': 0.65}
{'loss': 1.093, 'grad_norm': 1.4765625, 'learning_rate': 5.8361147486500076e-05, 'epoch': 0.65}
{'loss': 1.2342, 'grad_norm': 0.



{'loss': 1.1747, 'grad_norm': 0.546875, 'learning_rate': 5.8179349447078316e-05, 'epoch': 0.65}
{'loss': 1.2149, 'grad_norm': 0.89453125, 'learning_rate': 5.816798706961445e-05, 'epoch': 0.65}
{'loss': 1.0119, 'grad_norm': 0.4453125, 'learning_rate': 5.8156624692150585e-05, 'epoch': 0.65}
{'loss': 1.2707, 'grad_norm': 0.5234375, 'learning_rate': 5.814526231468673e-05, 'epoch': 0.65}
{'loss': 1.1044, 'grad_norm': 0.55859375, 'learning_rate': 5.813389993722287e-05, 'epoch': 0.65}
{'loss': 1.2963, 'grad_norm': 0.625, 'learning_rate': 5.8122537559759005e-05, 'epoch': 0.65}
{'loss': 1.1033, 'grad_norm': 0.72265625, 'learning_rate': 5.811117518229514e-05, 'epoch': 0.65}
{'loss': 1.0266, 'grad_norm': 0.45703125, 'learning_rate': 5.809981280483129e-05, 'epoch': 0.65}
{'loss': 1.1051, 'grad_norm': 0.7421875, 'learning_rate': 5.8088450427367425e-05, 'epoch': 0.65}
{'loss': 1.0576, 'grad_norm': 0.6953125, 'learning_rate': 5.807708804990356e-05, 'epoch': 0.65}
{'loss': 1.4259, 'grad_norm': 0.52343



{'loss': 1.2964, 'grad_norm': 0.546875, 'learning_rate': 5.7895290010481796e-05, 'epoch': 0.65}
{'loss': 1.2103, 'grad_norm': 0.6875, 'learning_rate': 5.7883927633017934e-05, 'epoch': 0.65}
{'loss': 1.1646, 'grad_norm': 0.4921875, 'learning_rate': 5.787256525555408e-05, 'epoch': 0.65}
{'loss': 1.1284, 'grad_norm': 0.75390625, 'learning_rate': 5.7861202878090216e-05, 'epoch': 0.65}
{'loss': 1.0516, 'grad_norm': 0.82421875, 'learning_rate': 5.7849840500626354e-05, 'epoch': 0.65}
{'loss': 1.4375, 'grad_norm': 0.578125, 'learning_rate': 5.78384781231625e-05, 'epoch': 0.65}
{'loss': 1.1534, 'grad_norm': 0.7109375, 'learning_rate': 5.782711574569864e-05, 'epoch': 0.65}
{'loss': 1.1818, 'grad_norm': 0.44921875, 'learning_rate': 5.781575336823477e-05, 'epoch': 0.65}
{'loss': 1.0904, 'grad_norm': 0.57421875, 'learning_rate': 5.7804390990770906e-05, 'epoch': 0.65}
{'loss': 1.1301, 'grad_norm': 1.0390625, 'learning_rate': 5.779302861330706e-05, 'epoch': 0.65}
{'loss': 1.4737, 'grad_norm': 0.47851



{'loss': 1.2002, 'grad_norm': 0.5859375, 'learning_rate': 5.7611230573885276e-05, 'epoch': 0.65}
{'loss': 1.2407, 'grad_norm': 0.78125, 'learning_rate': 5.759986819642143e-05, 'epoch': 0.65}
{'loss': 1.2411, 'grad_norm': 0.46484375, 'learning_rate': 5.758850581895756e-05, 'epoch': 0.65}
{'loss': 1.2534, 'grad_norm': 0.5546875, 'learning_rate': 5.7577143441493697e-05, 'epoch': 0.65}
{'loss': 1.099, 'grad_norm': 1.40625, 'learning_rate': 5.756578106402984e-05, 'epoch': 0.65}
{'loss': 1.32, 'grad_norm': 0.5, 'learning_rate': 5.755441868656598e-05, 'epoch': 0.65}
{'loss': 1.1791, 'grad_norm': 0.71484375, 'learning_rate': 5.754305630910212e-05, 'epoch': 0.65}
{'loss': 1.1285, 'grad_norm': 0.52734375, 'learning_rate': 5.753169393163826e-05, 'epoch': 0.65}
{'loss': 1.1784, 'grad_norm': 1.0390625, 'learning_rate': 5.75203315541744e-05, 'epoch': 0.65}
{'loss': 1.0456, 'grad_norm': 0.408203125, 'learning_rate': 5.750896917671054e-05, 'epoch': 0.65}
{'loss': 1.3634, 'grad_norm': 0.50390625, 'lear



{'loss': 1.4241, 'grad_norm': 0.5390625, 'learning_rate': 5.732717113728877e-05, 'epoch': 0.65}
{'loss': 1.1532, 'grad_norm': 0.796875, 'learning_rate': 5.731580875982491e-05, 'epoch': 0.65}
{'loss': 1.2174, 'grad_norm': 0.5078125, 'learning_rate': 5.7304446382361046e-05, 'epoch': 0.65}
{'loss': 1.2623, 'grad_norm': 0.54296875, 'learning_rate': 5.729308400489719e-05, 'epoch': 0.65}
{'loss': 0.9969, 'grad_norm': 0.8203125, 'learning_rate': 5.728172162743333e-05, 'epoch': 0.65}
{'loss': 1.3863, 'grad_norm': 0.59765625, 'learning_rate': 5.7270359249969466e-05, 'epoch': 0.65}
{'loss': 1.2373, 'grad_norm': 0.6171875, 'learning_rate': 5.725899687250561e-05, 'epoch': 0.65}
{'loss': 1.2196, 'grad_norm': 0.609375, 'learning_rate': 5.724763449504175e-05, 'epoch': 0.65}
{'loss': 1.1573, 'grad_norm': 0.6484375, 'learning_rate': 5.723627211757788e-05, 'epoch': 0.65}
{'loss': 1.077, 'grad_norm': 1.3359375, 'learning_rate': 5.722490974011402e-05, 'epoch': 0.65}
{'loss': 1.3496, 'grad_norm': 0.4882812



{'loss': 1.3817, 'grad_norm': 0.546875, 'learning_rate': 5.704311170069225e-05, 'epoch': 0.65}
{'loss': 1.0728, 'grad_norm': 0.8046875, 'learning_rate': 5.70317493232284e-05, 'epoch': 0.65}
{'loss': 1.1921, 'grad_norm': 0.9609375, 'learning_rate': 5.702038694576454e-05, 'epoch': 0.65}
{'loss': 1.2435, 'grad_norm': 0.5625, 'learning_rate': 5.700902456830067e-05, 'epoch': 0.65}
{'loss': 1.0014, 'grad_norm': 1.0234375, 'learning_rate': 5.699766219083681e-05, 'epoch': 0.65}
{'loss': 1.3056, 'grad_norm': 0.73046875, 'learning_rate': 5.698629981337295e-05, 'epoch': 0.65}
{'loss': 1.0538, 'grad_norm': 0.71875, 'learning_rate': 5.697493743590909e-05, 'epoch': 0.65}
{'loss': 1.1095, 'grad_norm': 0.451171875, 'learning_rate': 5.696357505844523e-05, 'epoch': 0.65}
{'loss': 1.1392, 'grad_norm': 0.65625, 'learning_rate': 5.6952212680981373e-05, 'epoch': 0.65}
{'loss': 1.1557, 'grad_norm': 0.80859375, 'learning_rate': 5.694085030351751e-05, 'epoch': 0.65}
{'loss': 1.2618, 'grad_norm': 0.59375, 'lear



{'loss': 1.2626, 'grad_norm': 0.58203125, 'learning_rate': 5.6759052264095744e-05, 'epoch': 0.65}
{'loss': 1.1223, 'grad_norm': 0.6640625, 'learning_rate': 5.674768988663188e-05, 'epoch': 0.65}
{'loss': 1.3174, 'grad_norm': 0.51171875, 'learning_rate': 5.673632750916802e-05, 'epoch': 0.65}
{'loss': 1.2305, 'grad_norm': 0.8125, 'learning_rate': 5.672496513170416e-05, 'epoch': 0.65}
{'loss': 1.184, 'grad_norm': 0.47265625, 'learning_rate': 5.67136027542403e-05, 'epoch': 0.65}
{'loss': 1.4204, 'grad_norm': 0.58203125, 'learning_rate': 5.670224037677644e-05, 'epoch': 0.65}
{'loss': 1.1679, 'grad_norm': 0.96484375, 'learning_rate': 5.669087799931258e-05, 'epoch': 0.65}
{'loss': 1.1777, 'grad_norm': 0.478515625, 'learning_rate': 5.667951562184872e-05, 'epoch': 0.65}
{'loss': 1.2929, 'grad_norm': 0.69921875, 'learning_rate': 5.666815324438486e-05, 'epoch': 0.65}
{'loss': 1.1385, 'grad_norm': 1.046875, 'learning_rate': 5.665679086692099e-05, 'epoch': 0.65}
{'loss': 1.2191, 'grad_norm': 0.42382



{'loss': 1.4779, 'grad_norm': 0.447265625, 'learning_rate': 5.647499282749923e-05, 'epoch': 0.65}
{'loss': 1.271, 'grad_norm': 1.0625, 'learning_rate': 5.646363045003536e-05, 'epoch': 0.65}
{'loss': 1.1338, 'grad_norm': 0.55859375, 'learning_rate': 5.6452268072571514e-05, 'epoch': 0.65}
{'loss': 1.268, 'grad_norm': 0.625, 'learning_rate': 5.644090569510765e-05, 'epoch': 0.65}
{'loss': 1.1205, 'grad_norm': 1.1328125, 'learning_rate': 5.642954331764378e-05, 'epoch': 0.65}
{'loss': 1.4609, 'grad_norm': 0.67578125, 'learning_rate': 5.641818094017992e-05, 'epoch': 0.65}
{'loss': 1.2396, 'grad_norm': 0.7265625, 'learning_rate': 5.6406818562716065e-05, 'epoch': 0.65}
{'loss': 1.1564, 'grad_norm': 0.46484375, 'learning_rate': 5.63954561852522e-05, 'epoch': 0.65}
{'loss': 1.161, 'grad_norm': 0.65234375, 'learning_rate': 5.638409380778834e-05, 'epoch': 0.65}
{'loss': 1.1533, 'grad_norm': 1.0, 'learning_rate': 5.6372731430324485e-05, 'epoch': 0.65}
{'loss': 1.3121, 'grad_norm': 0.6875, 'learning_



{'loss': 1.3413, 'grad_norm': 0.78515625, 'learning_rate': 5.619093339090271e-05, 'epoch': 0.65}
{'loss': 1.2482, 'grad_norm': 0.76953125, 'learning_rate': 5.6179571013438856e-05, 'epoch': 0.65}
{'loss': 1.2119, 'grad_norm': 0.859375, 'learning_rate': 5.6168208635974994e-05, 'epoch': 0.65}
{'loss': 1.1729, 'grad_norm': 0.68359375, 'learning_rate': 5.615684625851113e-05, 'epoch': 0.65}
{'loss': 1.1061, 'grad_norm': 0.77734375, 'learning_rate': 5.6145483881047276e-05, 'epoch': 0.65}
{'loss': 1.1711, 'grad_norm': 0.58203125, 'learning_rate': 5.6134121503583414e-05, 'epoch': 0.65}
{'loss': 1.0678, 'grad_norm': 0.74609375, 'learning_rate': 5.612275912611955e-05, 'epoch': 0.66}
{'loss': 1.2723, 'grad_norm': 0.4296875, 'learning_rate': 5.611139674865569e-05, 'epoch': 0.66}
{'loss': 1.2032, 'grad_norm': 0.6796875, 'learning_rate': 5.6100034371191834e-05, 'epoch': 0.66}
{'loss': 1.0498, 'grad_norm': 0.68359375, 'learning_rate': 5.608867199372797e-05, 'epoch': 0.66}
{'loss': 1.2896, 'grad_norm':



{'loss': 1.3603, 'grad_norm': 0.50390625, 'learning_rate': 5.5906873954306205e-05, 'epoch': 0.66}
{'loss': 1.1683, 'grad_norm': 0.76953125, 'learning_rate': 5.589551157684234e-05, 'epoch': 0.66}
{'loss': 1.2615, 'grad_norm': 0.54296875, 'learning_rate': 5.5884149199378474e-05, 'epoch': 0.66}
{'loss': 1.2622, 'grad_norm': 0.64453125, 'learning_rate': 5.5872786821914625e-05, 'epoch': 0.66}
{'loss': 1.1827, 'grad_norm': 0.859375, 'learning_rate': 5.586142444445076e-05, 'epoch': 0.66}
{'loss': 1.3759, 'grad_norm': 0.4765625, 'learning_rate': 5.5850062066986894e-05, 'epoch': 0.66}
{'loss': 1.0045, 'grad_norm': 1.0625, 'learning_rate': 5.583869968952303e-05, 'epoch': 0.66}
{'loss': 1.3755, 'grad_norm': 0.53515625, 'learning_rate': 5.5827337312059184e-05, 'epoch': 0.66}
{'loss': 1.2915, 'grad_norm': 0.734375, 'learning_rate': 5.5815974934595315e-05, 'epoch': 0.66}
{'loss': 1.0631, 'grad_norm': 0.82421875, 'learning_rate': 5.580461255713145e-05, 'epoch': 0.66}
{'loss': 1.2863, 'grad_norm': 0.5



{'loss': 1.3476, 'grad_norm': 0.76171875, 'learning_rate': 5.5622814517709685e-05, 'epoch': 0.66}
{'loss': 1.0439, 'grad_norm': 0.734375, 'learning_rate': 5.561145214024582e-05, 'epoch': 0.66}
{'loss': 1.1378, 'grad_norm': 0.9765625, 'learning_rate': 5.560008976278197e-05, 'epoch': 0.66}
{'loss': 1.2224, 'grad_norm': 0.953125, 'learning_rate': 5.5588727385318106e-05, 'epoch': 0.66}
{'loss': 0.9878, 'grad_norm': 0.62890625, 'learning_rate': 5.5577365007854244e-05, 'epoch': 0.66}
{'loss': 1.2823, 'grad_norm': 0.625, 'learning_rate': 5.556600263039039e-05, 'epoch': 0.66}
{'loss': 1.26, 'grad_norm': 0.9453125, 'learning_rate': 5.5554640252926526e-05, 'epoch': 0.66}
{'loss': 1.1478, 'grad_norm': 0.46875, 'learning_rate': 5.5543277875462664e-05, 'epoch': 0.66}
{'loss': 1.2762, 'grad_norm': 0.70703125, 'learning_rate': 5.55319154979988e-05, 'epoch': 0.66}
{'loss': 1.0507, 'grad_norm': 0.984375, 'learning_rate': 5.5520553120534946e-05, 'epoch': 0.66}
{'loss': 1.2175, 'grad_norm': 0.53515625, '



{'loss': 1.3156, 'grad_norm': 0.478515625, 'learning_rate': 5.533875508111317e-05, 'epoch': 0.66}
{'loss': 1.2418, 'grad_norm': 1.34375, 'learning_rate': 5.532739270364932e-05, 'epoch': 0.66}
{'loss': 1.2362, 'grad_norm': 0.53515625, 'learning_rate': 5.5316030326185455e-05, 'epoch': 0.66}
{'loss': 1.2126, 'grad_norm': 0.9296875, 'learning_rate': 5.5304667948721586e-05, 'epoch': 0.66}
{'loss': 0.9738, 'grad_norm': 1.015625, 'learning_rate': 5.529330557125774e-05, 'epoch': 0.66}
{'loss': 1.243, 'grad_norm': 0.53125, 'learning_rate': 5.5281943193793875e-05, 'epoch': 0.66}
{'loss': 1.1207, 'grad_norm': 0.63671875, 'learning_rate': 5.5270580816330006e-05, 'epoch': 0.66}
{'loss': 1.1482, 'grad_norm': 0.4609375, 'learning_rate': 5.525921843886616e-05, 'epoch': 0.66}
{'loss': 1.1593, 'grad_norm': 0.7265625, 'learning_rate': 5.5247856061402296e-05, 'epoch': 0.66}
{'loss': 1.0277, 'grad_norm': 0.81640625, 'learning_rate': 5.523649368393843e-05, 'epoch': 0.66}
{'loss': 1.4341, 'grad_norm': 0.6757



{'loss': 1.3183, 'grad_norm': 0.62109375, 'learning_rate': 5.5054695644516666e-05, 'epoch': 0.66}
{'loss': 1.2051, 'grad_norm': 0.71875, 'learning_rate': 5.50433332670528e-05, 'epoch': 0.66}
{'loss': 1.1179, 'grad_norm': 0.45703125, 'learning_rate': 5.5031970889588935e-05, 'epoch': 0.66}
{'loss': 1.2087, 'grad_norm': 0.640625, 'learning_rate': 5.502060851212508e-05, 'epoch': 0.66}
{'loss': 1.1563, 'grad_norm': 0.91796875, 'learning_rate': 5.500924613466122e-05, 'epoch': 0.66}
{'loss': 1.4198, 'grad_norm': 0.470703125, 'learning_rate': 5.4997883757197355e-05, 'epoch': 0.66}
{'loss': 1.0558, 'grad_norm': 0.8046875, 'learning_rate': 5.49865213797335e-05, 'epoch': 0.66}
{'loss': 1.0745, 'grad_norm': 0.64453125, 'learning_rate': 5.497515900226964e-05, 'epoch': 0.66}
{'loss': 1.3112, 'grad_norm': 0.61328125, 'learning_rate': 5.4963796624805776e-05, 'epoch': 0.66}
{'loss': 1.2181, 'grad_norm': 1.1171875, 'learning_rate': 5.495243424734192e-05, 'epoch': 0.66}
{'loss': 1.3518, 'grad_norm': 0.5,



{'loss': 1.2356, 'grad_norm': 0.59375, 'learning_rate': 5.4770636207920146e-05, 'epoch': 0.66}
{'loss': 1.148, 'grad_norm': 0.80078125, 'learning_rate': 5.475927383045629e-05, 'epoch': 0.66}
{'loss': 1.1684, 'grad_norm': 0.5, 'learning_rate': 5.474791145299243e-05, 'epoch': 0.66}
{'loss': 1.3015, 'grad_norm': 0.55078125, 'learning_rate': 5.473654907552857e-05, 'epoch': 0.66}
{'loss': 1.0618, 'grad_norm': 1.3359375, 'learning_rate': 5.47251866980647e-05, 'epoch': 0.66}
{'loss': 1.3388, 'grad_norm': 0.45703125, 'learning_rate': 5.471382432060085e-05, 'epoch': 0.66}
{'loss': 1.032, 'grad_norm': 0.63671875, 'learning_rate': 5.470246194313699e-05, 'epoch': 0.66}
{'loss': 1.148, 'grad_norm': 0.59375, 'learning_rate': 5.469109956567312e-05, 'epoch': 0.66}
{'loss': 1.2609, 'grad_norm': 0.8125, 'learning_rate': 5.467973718820927e-05, 'epoch': 0.66}
{'loss': 0.9763, 'grad_norm': 0.91015625, 'learning_rate': 5.466837481074541e-05, 'epoch': 0.66}
{'loss': 1.4018, 'grad_norm': 0.66796875, 'learning



{'loss': 1.2285, 'grad_norm': 0.75, 'learning_rate': 5.448657677132364e-05, 'epoch': 0.66}
{'loss': 1.1768, 'grad_norm': 0.59765625, 'learning_rate': 5.447521439385978e-05, 'epoch': 0.66}
{'loss': 1.239, 'grad_norm': 0.466796875, 'learning_rate': 5.446385201639591e-05, 'epoch': 0.66}
{'loss': 1.2232, 'grad_norm': 0.6171875, 'learning_rate': 5.445248963893206e-05, 'epoch': 0.66}
{'loss': 1.0612, 'grad_norm': 1.0703125, 'learning_rate': 5.444112726146819e-05, 'epoch': 0.66}
{'loss': 1.4003, 'grad_norm': 0.56640625, 'learning_rate': 5.442976488400433e-05, 'epoch': 0.66}
{'loss': 1.161, 'grad_norm': 0.609375, 'learning_rate': 5.441840250654047e-05, 'epoch': 0.66}
{'loss': 1.2892, 'grad_norm': 0.5234375, 'learning_rate': 5.440704012907661e-05, 'epoch': 0.66}
{'loss': 1.1682, 'grad_norm': 0.63671875, 'learning_rate': 5.439567775161275e-05, 'epoch': 0.66}
{'loss': 1.1978, 'grad_norm': 0.96875, 'learning_rate': 5.438431537414889e-05, 'epoch': 0.66}
{'loss': 1.2783, 'grad_norm': 0.8046875, 'lea



{'loss': 1.4339, 'grad_norm': 0.61328125, 'learning_rate': 5.420251733472712e-05, 'epoch': 0.66}
{'loss': 1.1104, 'grad_norm': 0.53125, 'learning_rate': 5.419115495726326e-05, 'epoch': 0.66}
{'loss': 1.1834, 'grad_norm': 0.56640625, 'learning_rate': 5.41797925797994e-05, 'epoch': 0.66}
{'loss': 1.1589, 'grad_norm': 0.9296875, 'learning_rate': 5.416843020233554e-05, 'epoch': 0.66}
{'loss': 1.0069, 'grad_norm': 0.9609375, 'learning_rate': 5.415706782487168e-05, 'epoch': 0.66}
{'loss': 1.2183, 'grad_norm': 0.6015625, 'learning_rate': 5.414570544740781e-05, 'epoch': 0.66}
{'loss': 1.1708, 'grad_norm': 0.93359375, 'learning_rate': 5.413434306994396e-05, 'epoch': 0.66}
{'loss': 1.2092, 'grad_norm': 0.478515625, 'learning_rate': 5.41229806924801e-05, 'epoch': 0.66}
{'loss': 1.2144, 'grad_norm': 0.8671875, 'learning_rate': 5.411161831501623e-05, 'epoch': 0.66}
{'loss': 0.9355, 'grad_norm': 0.357421875, 'learning_rate': 5.410025593755238e-05, 'epoch': 0.66}
{'loss': 1.3507, 'grad_norm': 0.58984



{'loss': 1.3891, 'grad_norm': 0.55859375, 'learning_rate': 5.39184578981306e-05, 'epoch': 0.66}
{'loss': 1.1396, 'grad_norm': 0.8203125, 'learning_rate': 5.390709552066675e-05, 'epoch': 0.66}
{'loss': 1.2214, 'grad_norm': 0.5859375, 'learning_rate': 5.389573314320289e-05, 'epoch': 0.66}
{'loss': 1.3114, 'grad_norm': 0.72265625, 'learning_rate': 5.388437076573902e-05, 'epoch': 0.66}
{'loss': 1.0006, 'grad_norm': 0.85546875, 'learning_rate': 5.387300838827517e-05, 'epoch': 0.66}
{'loss': 1.3081, 'grad_norm': 0.6328125, 'learning_rate': 5.3861646010811304e-05, 'epoch': 0.66}
{'loss': 1.2483, 'grad_norm': 0.7734375, 'learning_rate': 5.385028363334744e-05, 'epoch': 0.66}
{'loss': 1.1973, 'grad_norm': 0.5, 'learning_rate': 5.383892125588358e-05, 'epoch': 0.66}
{'loss': 1.1509, 'grad_norm': 0.5625, 'learning_rate': 5.3827558878419724e-05, 'epoch': 0.67}
{'loss': 0.9973, 'grad_norm': 0.88671875, 'learning_rate': 5.381619650095586e-05, 'epoch': 0.67}
{'loss': 1.3561, 'grad_norm': 0.828125, 'lea



{'loss': 1.1409, 'grad_norm': 0.66015625, 'learning_rate': 5.3634398461534094e-05, 'epoch': 0.67}
{'loss': 1.2215, 'grad_norm': 0.8125, 'learning_rate': 5.362303608407023e-05, 'epoch': 0.67}
{'loss': 1.2857, 'grad_norm': 0.59765625, 'learning_rate': 5.361167370660637e-05, 'epoch': 0.67}
{'loss': 1.2193, 'grad_norm': 0.640625, 'learning_rate': 5.3600311329142515e-05, 'epoch': 0.67}
{'loss': 1.1361, 'grad_norm': 1.1640625, 'learning_rate': 5.358894895167865e-05, 'epoch': 0.67}
{'loss': 1.3699, 'grad_norm': 0.49609375, 'learning_rate': 5.357758657421479e-05, 'epoch': 0.67}
{'loss': 1.0872, 'grad_norm': 1.03125, 'learning_rate': 5.3566224196750935e-05, 'epoch': 0.67}
{'loss': 1.1025, 'grad_norm': 0.51171875, 'learning_rate': 5.355486181928707e-05, 'epoch': 0.67}
{'loss': 1.1852, 'grad_norm': 0.55859375, 'learning_rate': 5.354349944182321e-05, 'epoch': 0.67}
{'loss': 1.1362, 'grad_norm': 1.140625, 'learning_rate': 5.353213706435934e-05, 'epoch': 0.67}
{'loss': 1.2044, 'grad_norm': 0.765625,



{'loss': 1.3489, 'grad_norm': 0.5078125, 'learning_rate': 5.335033902493758e-05, 'epoch': 0.67}
{'loss': 1.2358, 'grad_norm': 0.828125, 'learning_rate': 5.333897664747371e-05, 'epoch': 0.67}
{'loss': 1.1571, 'grad_norm': 0.546875, 'learning_rate': 5.3327614270009864e-05, 'epoch': 0.67}
{'loss': 1.2941, 'grad_norm': 0.94140625, 'learning_rate': 5.3316251892546e-05, 'epoch': 0.67}
{'loss': 0.9442, 'grad_norm': 1.359375, 'learning_rate': 5.330488951508213e-05, 'epoch': 0.67}
{'loss': 1.3864, 'grad_norm': 0.51953125, 'learning_rate': 5.3293527137618284e-05, 'epoch': 0.67}
{'loss': 1.167, 'grad_norm': 1.0, 'learning_rate': 5.3282164760154415e-05, 'epoch': 0.67}
{'loss': 1.3547, 'grad_norm': 0.484375, 'learning_rate': 5.327080238269055e-05, 'epoch': 0.67}
{'loss': 1.4264, 'grad_norm': 0.65234375, 'learning_rate': 5.325944000522669e-05, 'epoch': 0.67}
{'loss': 0.9976, 'grad_norm': 0.87109375, 'learning_rate': 5.3248077627762836e-05, 'epoch': 0.67}
{'loss': 1.3019, 'grad_norm': 0.490234375, 'l



{'loss': 1.3354, 'grad_norm': 0.59375, 'learning_rate': 5.3066279588341075e-05, 'epoch': 0.67}
{'loss': 1.1267, 'grad_norm': 0.80859375, 'learning_rate': 5.3054917210877206e-05, 'epoch': 0.67}
{'loss': 1.1264, 'grad_norm': 0.55859375, 'learning_rate': 5.3043554833413344e-05, 'epoch': 0.67}
{'loss': 1.2933, 'grad_norm': 0.546875, 'learning_rate': 5.303219245594948e-05, 'epoch': 0.67}
{'loss': 1.1795, 'grad_norm': 0.97265625, 'learning_rate': 5.302083007848563e-05, 'epoch': 0.67}
{'loss': 1.3043, 'grad_norm': 0.8046875, 'learning_rate': 5.3009467701021765e-05, 'epoch': 0.67}
{'loss': 1.2081, 'grad_norm': 0.61328125, 'learning_rate': 5.29981053235579e-05, 'epoch': 0.67}
{'loss': 1.1548, 'grad_norm': 0.46484375, 'learning_rate': 5.298674294609405e-05, 'epoch': 0.67}
{'loss': 1.208, 'grad_norm': 0.765625, 'learning_rate': 5.2975380568630185e-05, 'epoch': 0.67}
{'loss': 0.9911, 'grad_norm': 0.7421875, 'learning_rate': 5.296401819116632e-05, 'epoch': 0.67}
{'loss': 1.2724, 'grad_norm': 0.5703



{'loss': 1.2858, 'grad_norm': 0.578125, 'learning_rate': 5.2782220151744556e-05, 'epoch': 0.67}
{'loss': 1.0812, 'grad_norm': 0.7421875, 'learning_rate': 5.277085777428069e-05, 'epoch': 0.67}
{'loss': 1.1887, 'grad_norm': 0.486328125, 'learning_rate': 5.2759495396816824e-05, 'epoch': 0.67}
{'loss': 1.1901, 'grad_norm': 0.640625, 'learning_rate': 5.2748133019352976e-05, 'epoch': 0.67}
{'loss': 1.097, 'grad_norm': 0.51171875, 'learning_rate': 5.2736770641889114e-05, 'epoch': 0.67}
{'loss': 1.2763, 'grad_norm': 0.5390625, 'learning_rate': 5.2725408264425245e-05, 'epoch': 0.67}
{'loss': 1.1282, 'grad_norm': 0.78125, 'learning_rate': 5.2714045886961396e-05, 'epoch': 0.67}
{'loss': 1.2366, 'grad_norm': 0.54296875, 'learning_rate': 5.270268350949753e-05, 'epoch': 0.67}
{'loss': 1.186, 'grad_norm': 0.65234375, 'learning_rate': 5.2691321132033665e-05, 'epoch': 0.67}
{'loss': 0.9714, 'grad_norm': 1.21875, 'learning_rate': 5.2679958754569817e-05, 'epoch': 0.67}
{'loss': 1.3874, 'grad_norm': 0.535



{'loss': 1.2867, 'grad_norm': 0.45703125, 'learning_rate': 5.2498160715148036e-05, 'epoch': 0.67}
{'loss': 1.2702, 'grad_norm': 0.8359375, 'learning_rate': 5.248679833768419e-05, 'epoch': 0.67}
{'loss': 1.1693, 'grad_norm': 0.515625, 'learning_rate': 5.247543596022032e-05, 'epoch': 0.67}
{'loss': 1.2955, 'grad_norm': 0.69921875, 'learning_rate': 5.2464073582756456e-05, 'epoch': 0.67}
{'loss': 1.016, 'grad_norm': 0.8828125, 'learning_rate': 5.2452711205292594e-05, 'epoch': 0.67}
{'loss': 1.3012, 'grad_norm': 0.80859375, 'learning_rate': 5.244134882782874e-05, 'epoch': 0.67}
{'loss': 1.1016, 'grad_norm': 0.58203125, 'learning_rate': 5.2429986450364876e-05, 'epoch': 0.67}
{'loss': 1.1561, 'grad_norm': 0.546875, 'learning_rate': 5.2418624072901014e-05, 'epoch': 0.67}
{'loss': 1.2283, 'grad_norm': 0.8203125, 'learning_rate': 5.240726169543716e-05, 'epoch': 0.67}
{'loss': 1.0736, 'grad_norm': 1.046875, 'learning_rate': 5.23958993179733e-05, 'epoch': 0.67}
{'loss': 1.4362, 'grad_norm': 0.5234



{'loss': 1.4117, 'grad_norm': 0.73046875, 'learning_rate': 5.221410127855153e-05, 'epoch': 0.67}
{'loss': 1.1833, 'grad_norm': 0.64453125, 'learning_rate': 5.220273890108767e-05, 'epoch': 0.67}
{'loss': 1.2721, 'grad_norm': 0.4609375, 'learning_rate': 5.2191376523623805e-05, 'epoch': 0.67}
{'loss': 1.322, 'grad_norm': 0.51171875, 'learning_rate': 5.218001414615995e-05, 'epoch': 0.67}
{'loss': 1.0171, 'grad_norm': 0.6875, 'learning_rate': 5.216865176869609e-05, 'epoch': 0.67}
{'loss': 1.2558, 'grad_norm': 0.46484375, 'learning_rate': 5.2157289391232226e-05, 'epoch': 0.67}
{'loss': 1.0944, 'grad_norm': 0.765625, 'learning_rate': 5.214592701376836e-05, 'epoch': 0.67}
{'loss': 1.0485, 'grad_norm': 0.53515625, 'learning_rate': 5.213456463630451e-05, 'epoch': 0.67}
{'loss': 1.1692, 'grad_norm': 0.47265625, 'learning_rate': 5.212320225884064e-05, 'epoch': 0.67}
{'loss': 1.0472, 'grad_norm': 1.078125, 'learning_rate': 5.211183988137678e-05, 'epoch': 0.67}
{'loss': 1.3167, 'grad_norm': 0.478515



{'loss': 1.2989, 'grad_norm': 0.53125, 'learning_rate': 5.193004184195501e-05, 'epoch': 0.67}
{'loss': 1.0703, 'grad_norm': 0.875, 'learning_rate': 5.191867946449115e-05, 'epoch': 0.67}
{'loss': 1.1738, 'grad_norm': 0.51953125, 'learning_rate': 5.19073170870273e-05, 'epoch': 0.67}
{'loss': 1.1399, 'grad_norm': 0.6328125, 'learning_rate': 5.189595470956343e-05, 'epoch': 0.67}
{'loss': 1.0218, 'grad_norm': 0.75390625, 'learning_rate': 5.188459233209957e-05, 'epoch': 0.67}
{'loss': 1.3365, 'grad_norm': 0.51953125, 'learning_rate': 5.187322995463571e-05, 'epoch': 0.67}
{'loss': 1.1606, 'grad_norm': 0.703125, 'learning_rate': 5.186186757717185e-05, 'epoch': 0.67}
{'loss': 1.2155, 'grad_norm': 0.7265625, 'learning_rate': 5.185050519970799e-05, 'epoch': 0.67}
{'loss': 1.0859, 'grad_norm': 0.5703125, 'learning_rate': 5.1839142822244126e-05, 'epoch': 0.67}
{'loss': 1.0259, 'grad_norm': 0.78125, 'learning_rate': 5.182778044478027e-05, 'epoch': 0.67}
{'loss': 1.2964, 'grad_norm': 0.51953125, 'lea



{'loss': 1.3258, 'grad_norm': 0.58984375, 'learning_rate': 5.16459824053585e-05, 'epoch': 0.67}
{'loss': 1.0202, 'grad_norm': 0.6953125, 'learning_rate': 5.163462002789464e-05, 'epoch': 0.67}
{'loss': 1.2201, 'grad_norm': 0.4453125, 'learning_rate': 5.162325765043078e-05, 'epoch': 0.67}
{'loss': 1.2219, 'grad_norm': 0.59375, 'learning_rate': 5.161189527296692e-05, 'epoch': 0.67}
{'loss': 1.1373, 'grad_norm': 0.890625, 'learning_rate': 5.160053289550306e-05, 'epoch': 0.67}
{'loss': 1.3103, 'grad_norm': 0.48828125, 'learning_rate': 5.15891705180392e-05, 'epoch': 0.67}
{'loss': 1.2558, 'grad_norm': 0.73046875, 'learning_rate': 5.157780814057534e-05, 'epoch': 0.67}
{'loss': 1.1341, 'grad_norm': 0.671875, 'learning_rate': 5.156644576311147e-05, 'epoch': 0.67}
{'loss': 1.3263, 'grad_norm': 1.0703125, 'learning_rate': 5.155508338564762e-05, 'epoch': 0.67}
{'loss': 0.922, 'grad_norm': 0.703125, 'learning_rate': 5.154372100818375e-05, 'epoch': 0.68}
{'loss': 1.4248, 'grad_norm': 0.5390625, 'lea



{'loss': 1.4542, 'grad_norm': 0.6328125, 'learning_rate': 5.136192296876199e-05, 'epoch': 0.68}
{'loss': 1.2168, 'grad_norm': 0.77734375, 'learning_rate': 5.135056059129812e-05, 'epoch': 0.68}
{'loss': 1.3035, 'grad_norm': 0.57421875, 'learning_rate': 5.133919821383426e-05, 'epoch': 0.68}
{'loss': 1.2063, 'grad_norm': 0.578125, 'learning_rate': 5.132783583637041e-05, 'epoch': 0.68}
{'loss': 1.058, 'grad_norm': 0.59765625, 'learning_rate': 5.131647345890654e-05, 'epoch': 0.68}
{'loss': 1.2621, 'grad_norm': 0.953125, 'learning_rate': 5.130511108144268e-05, 'epoch': 0.68}
{'loss': 1.1483, 'grad_norm': 0.875, 'learning_rate': 5.1293748703978825e-05, 'epoch': 0.68}
{'loss': 1.1488, 'grad_norm': 0.427734375, 'learning_rate': 5.128238632651496e-05, 'epoch': 0.68}
{'loss': 1.3214, 'grad_norm': 0.67578125, 'learning_rate': 5.12710239490511e-05, 'epoch': 0.68}
{'loss': 1.0126, 'grad_norm': 0.84375, 'learning_rate': 5.125966157158724e-05, 'epoch': 0.68}
{'loss': 1.3493, 'grad_norm': 0.55078125, '



{'loss': 1.4676, 'grad_norm': 0.73828125, 'learning_rate': 5.107786353216547e-05, 'epoch': 0.68}
{'loss': 1.1464, 'grad_norm': 0.6484375, 'learning_rate': 5.106650115470161e-05, 'epoch': 0.68}
{'loss': 1.1692, 'grad_norm': 0.41796875, 'learning_rate': 5.105513877723775e-05, 'epoch': 0.68}
{'loss': 1.2786, 'grad_norm': 0.8984375, 'learning_rate': 5.104377639977389e-05, 'epoch': 0.68}
{'loss': 1.0479, 'grad_norm': 0.451171875, 'learning_rate': 5.103241402231003e-05, 'epoch': 0.68}
{'loss': 1.3011, 'grad_norm': 0.5078125, 'learning_rate': 5.1021051644846174e-05, 'epoch': 0.68}
{'loss': 1.1866, 'grad_norm': 0.94921875, 'learning_rate': 5.100968926738231e-05, 'epoch': 0.68}
{'loss': 1.1266, 'grad_norm': 0.515625, 'learning_rate': 5.099832688991845e-05, 'epoch': 0.68}
{'loss': 1.1187, 'grad_norm': 0.6484375, 'learning_rate': 5.0986964512454594e-05, 'epoch': 0.68}
{'loss': 1.097, 'grad_norm': 1.0078125, 'learning_rate': 5.097560213499073e-05, 'epoch': 0.68}
{'loss': 1.2751, 'grad_norm': 0.574



{'loss': 1.4255, 'grad_norm': 0.9609375, 'learning_rate': 5.0793804095568965e-05, 'epoch': 0.68}
{'loss': 1.2472, 'grad_norm': 1.078125, 'learning_rate': 5.07824417181051e-05, 'epoch': 0.68}
{'loss': 1.3198, 'grad_norm': 0.5859375, 'learning_rate': 5.0771079340641234e-05, 'epoch': 0.68}
{'loss': 1.2862, 'grad_norm': 0.62890625, 'learning_rate': 5.075971696317737e-05, 'epoch': 0.68}
{'loss': 0.992, 'grad_norm': 0.474609375, 'learning_rate': 5.074835458571352e-05, 'epoch': 0.68}
{'loss': 1.3348, 'grad_norm': 0.54296875, 'learning_rate': 5.0736992208249654e-05, 'epoch': 0.68}
{'loss': 1.0866, 'grad_norm': 1.0078125, 'learning_rate': 5.072562983078579e-05, 'epoch': 0.68}
{'loss': 1.2811, 'grad_norm': 0.5390625, 'learning_rate': 5.0714267453321936e-05, 'epoch': 0.68}
{'loss': 1.2915, 'grad_norm': 0.66796875, 'learning_rate': 5.0702905075858074e-05, 'epoch': 0.68}
{'loss': 0.9617, 'grad_norm': 0.921875, 'learning_rate': 5.069154269839421e-05, 'epoch': 0.68}
{'loss': 1.2875, 'grad_norm': 0.54



{'loss': 1.2829, 'grad_norm': 0.46875, 'learning_rate': 5.0509744658972445e-05, 'epoch': 0.68}
{'loss': 1.0871, 'grad_norm': 0.88671875, 'learning_rate': 5.049838228150858e-05, 'epoch': 0.68}
{'loss': 1.2574, 'grad_norm': 0.50390625, 'learning_rate': 5.048701990404473e-05, 'epoch': 0.68}
{'loss': 1.2892, 'grad_norm': 0.58984375, 'learning_rate': 5.0475657526580865e-05, 'epoch': 0.68}
{'loss': 1.1064, 'grad_norm': 1.2890625, 'learning_rate': 5.0464295149117e-05, 'epoch': 0.68}
{'loss': 1.4513, 'grad_norm': 0.69921875, 'learning_rate': 5.045293277165314e-05, 'epoch': 0.68}
{'loss': 1.061, 'grad_norm': 0.8984375, 'learning_rate': 5.0441570394189286e-05, 'epoch': 0.68}
{'loss': 1.2072, 'grad_norm': 0.54296875, 'learning_rate': 5.0430208016725423e-05, 'epoch': 0.68}
{'loss': 1.0607, 'grad_norm': 0.62109375, 'learning_rate': 5.041884563926156e-05, 'epoch': 0.68}
{'loss': 1.0843, 'grad_norm': 1.046875, 'learning_rate': 5.0407483261797706e-05, 'epoch': 0.68}
{'loss': 1.3319, 'grad_norm': 0.824



{'loss': 1.4138, 'grad_norm': 0.77734375, 'learning_rate': 5.022568522237593e-05, 'epoch': 0.68}
{'loss': 1.1966, 'grad_norm': 0.72265625, 'learning_rate': 5.0214322844912077e-05, 'epoch': 0.68}
{'loss': 1.1927, 'grad_norm': 0.404296875, 'learning_rate': 5.0202960467448214e-05, 'epoch': 0.68}
{'loss': 1.3204, 'grad_norm': 0.56640625, 'learning_rate': 5.0191598089984345e-05, 'epoch': 0.68}
{'loss': 1.1476, 'grad_norm': 0.67578125, 'learning_rate': 5.018023571252048e-05, 'epoch': 0.68}
{'loss': 1.2357, 'grad_norm': 0.58984375, 'learning_rate': 5.0168873335056635e-05, 'epoch': 0.68}
{'loss': 1.2564, 'grad_norm': 0.73828125, 'learning_rate': 5.0157510957592766e-05, 'epoch': 0.68}
{'loss': 1.2685, 'grad_norm': 0.48046875, 'learning_rate': 5.0146148580128904e-05, 'epoch': 0.68}
{'loss': 1.198, 'grad_norm': 0.609375, 'learning_rate': 5.013478620266505e-05, 'epoch': 0.68}
{'loss': 1.0811, 'grad_norm': 0.6484375, 'learning_rate': 5.0123423825201186e-05, 'epoch': 0.68}
{'loss': 1.3017, 'grad_nor



{'loss': 1.3625, 'grad_norm': 0.69140625, 'learning_rate': 4.994162578577942e-05, 'epoch': 0.68}
{'loss': 1.216, 'grad_norm': 0.87109375, 'learning_rate': 4.993026340831556e-05, 'epoch': 0.68}
{'loss': 1.2153, 'grad_norm': 0.4765625, 'learning_rate': 4.99189010308517e-05, 'epoch': 0.68}
{'loss': 1.2152, 'grad_norm': 0.8828125, 'learning_rate': 4.990753865338784e-05, 'epoch': 0.68}
{'loss': 1.0746, 'grad_norm': 1.3671875, 'learning_rate': 4.989617627592398e-05, 'epoch': 0.68}
{'loss': 1.3771, 'grad_norm': 0.59375, 'learning_rate': 4.9884813898460115e-05, 'epoch': 0.68}
{'loss': 1.2027, 'grad_norm': 0.7265625, 'learning_rate': 4.987345152099625e-05, 'epoch': 0.68}
{'loss': 1.0301, 'grad_norm': 0.462890625, 'learning_rate': 4.98620891435324e-05, 'epoch': 0.68}
{'loss': 1.3141, 'grad_norm': 0.60546875, 'learning_rate': 4.9850726766068535e-05, 'epoch': 0.68}
{'loss': 1.0475, 'grad_norm': 0.44921875, 'learning_rate': 4.983936438860467e-05, 'epoch': 0.68}
{'loss': 1.251, 'grad_norm': 0.597656



{'loss': 1.3715, 'grad_norm': 0.5078125, 'learning_rate': 4.9657566349182906e-05, 'epoch': 0.68}
{'loss': 1.1212, 'grad_norm': 0.78125, 'learning_rate': 4.9646203971719044e-05, 'epoch': 0.68}
{'loss': 1.1303, 'grad_norm': 0.515625, 'learning_rate': 4.963484159425518e-05, 'epoch': 0.68}
{'loss': 1.238, 'grad_norm': 0.8203125, 'learning_rate': 4.9623479216791326e-05, 'epoch': 0.68}
{'loss': 0.9827, 'grad_norm': 1.3671875, 'learning_rate': 4.9612116839327464e-05, 'epoch': 0.68}
{'loss': 1.3326, 'grad_norm': 0.52734375, 'learning_rate': 4.96007544618636e-05, 'epoch': 0.68}
{'loss': 1.1682, 'grad_norm': 0.80078125, 'learning_rate': 4.958939208439975e-05, 'epoch': 0.68}
{'loss': 1.1013, 'grad_norm': 0.5390625, 'learning_rate': 4.957802970693588e-05, 'epoch': 0.68}
{'loss': 1.2055, 'grad_norm': 0.58984375, 'learning_rate': 4.956666732947202e-05, 'epoch': 0.68}
{'loss': 1.0353, 'grad_norm': 0.96875, 'learning_rate': 4.955530495200816e-05, 'epoch': 0.68}
{'loss': 1.3413, 'grad_norm': 0.5703125,



{'loss': 1.2212, 'grad_norm': 0.474609375, 'learning_rate': 4.937350691258639e-05, 'epoch': 0.68}
{'loss': 1.0932, 'grad_norm': 0.43359375, 'learning_rate': 4.936214453512253e-05, 'epoch': 0.68}
{'loss': 1.133, 'grad_norm': 0.423828125, 'learning_rate': 4.935078215765867e-05, 'epoch': 0.68}
{'loss': 1.1346, 'grad_norm': 0.60546875, 'learning_rate': 4.933941978019481e-05, 'epoch': 0.68}
{'loss': 1.0866, 'grad_norm': 1.0078125, 'learning_rate': 4.932805740273095e-05, 'epoch': 0.68}
{'loss': 1.4186, 'grad_norm': 0.6484375, 'learning_rate': 4.931669502526709e-05, 'epoch': 0.68}
{'loss': 1.0629, 'grad_norm': 0.73828125, 'learning_rate': 4.930533264780323e-05, 'epoch': 0.68}
{'loss': 1.2435, 'grad_norm': 0.640625, 'learning_rate': 4.9293970270339365e-05, 'epoch': 0.68}
{'loss': 1.2055, 'grad_norm': 0.62890625, 'learning_rate': 4.928260789287551e-05, 'epoch': 0.68}
{'loss': 1.1711, 'grad_norm': 0.9609375, 'learning_rate': 4.927124551541165e-05, 'epoch': 0.68}
{'loss': 1.2129, 'grad_norm': 0.7



{'loss': 1.2658, 'grad_norm': 0.71484375, 'learning_rate': 4.908944747598988e-05, 'epoch': 0.69}
{'loss': 1.1424, 'grad_norm': 0.8515625, 'learning_rate': 4.907808509852602e-05, 'epoch': 0.69}
{'loss': 1.1186, 'grad_norm': 0.4140625, 'learning_rate': 4.9066722721062156e-05, 'epoch': 0.69}
{'loss': 1.2326, 'grad_norm': 0.5703125, 'learning_rate': 4.9055360343598294e-05, 'epoch': 0.69}
{'loss': 1.0242, 'grad_norm': 1.2421875, 'learning_rate': 4.904399796613444e-05, 'epoch': 0.69}
{'loss': 1.3217, 'grad_norm': 0.5390625, 'learning_rate': 4.9032635588670576e-05, 'epoch': 0.69}
{'loss': 1.2351, 'grad_norm': 0.91796875, 'learning_rate': 4.9021273211206714e-05, 'epoch': 0.69}
{'loss': 1.1773, 'grad_norm': 0.490234375, 'learning_rate': 4.900991083374286e-05, 'epoch': 0.69}
{'loss': 1.111, 'grad_norm': 0.72265625, 'learning_rate': 4.899854845627899e-05, 'epoch': 0.69}
{'loss': 1.1606, 'grad_norm': 0.8984375, 'learning_rate': 4.8987186078815134e-05, 'epoch': 0.69}
{'loss': 1.3656, 'grad_norm': 0



{'loss': 1.2869, 'grad_norm': 0.65625, 'learning_rate': 4.880538803939336e-05, 'epoch': 0.69}
{'loss': 1.1535, 'grad_norm': 0.71484375, 'learning_rate': 4.8794025661929505e-05, 'epoch': 0.69}
{'loss': 1.3022, 'grad_norm': 0.49609375, 'learning_rate': 4.878266328446565e-05, 'epoch': 0.69}
{'loss': 1.2761, 'grad_norm': 0.6015625, 'learning_rate': 4.877130090700178e-05, 'epoch': 0.69}
{'loss': 1.049, 'grad_norm': 0.87890625, 'learning_rate': 4.8759938529537925e-05, 'epoch': 0.69}
{'loss': 1.4215, 'grad_norm': 0.5703125, 'learning_rate': 4.874857615207406e-05, 'epoch': 0.69}
{'loss': 1.1527, 'grad_norm': 0.78125, 'learning_rate': 4.87372137746102e-05, 'epoch': 0.69}
{'loss': 1.2515, 'grad_norm': 0.412109375, 'learning_rate': 4.8725851397146346e-05, 'epoch': 0.69}
{'loss': 1.2069, 'grad_norm': 0.6875, 'learning_rate': 4.8714489019682477e-05, 'epoch': 0.69}
{'loss': 1.0241, 'grad_norm': 1.109375, 'learning_rate': 4.870312664221862e-05, 'epoch': 0.69}
{'loss': 1.3912, 'grad_norm': 0.6484375, 



{'loss': 1.2788, 'grad_norm': 0.54296875, 'learning_rate': 4.852132860279685e-05, 'epoch': 0.69}
{'loss': 1.1971, 'grad_norm': 0.83984375, 'learning_rate': 4.850996622533299e-05, 'epoch': 0.69}
{'loss': 1.2393, 'grad_norm': 0.42578125, 'learning_rate': 4.849860384786913e-05, 'epoch': 0.69}
{'loss': 1.2757, 'grad_norm': 0.58203125, 'learning_rate': 4.848724147040527e-05, 'epoch': 0.69}
{'loss': 1.127, 'grad_norm': 0.56640625, 'learning_rate': 4.847587909294141e-05, 'epoch': 0.69}
{'loss': 1.3722, 'grad_norm': 0.59375, 'learning_rate': 4.846451671547755e-05, 'epoch': 0.69}
{'loss': 1.1353, 'grad_norm': 0.91796875, 'learning_rate': 4.845315433801369e-05, 'epoch': 0.69}
{'loss': 1.1049, 'grad_norm': 0.5859375, 'learning_rate': 4.8441791960549826e-05, 'epoch': 0.69}
{'loss': 1.05, 'grad_norm': 0.65234375, 'learning_rate': 4.843042958308597e-05, 'epoch': 0.69}
{'loss': 1.1904, 'grad_norm': 0.75, 'learning_rate': 4.84190672056221e-05, 'epoch': 0.69}
{'loss': 1.1594, 'grad_norm': 0.72265625, '



{'loss': 1.3554, 'grad_norm': 0.50390625, 'learning_rate': 4.823726916620034e-05, 'epoch': 0.69}
{'loss': 1.1836, 'grad_norm': 0.7421875, 'learning_rate': 4.822590678873648e-05, 'epoch': 0.69}
{'loss': 1.2269, 'grad_norm': 0.42578125, 'learning_rate': 4.821454441127262e-05, 'epoch': 0.69}
{'loss': 1.3166, 'grad_norm': 0.53125, 'learning_rate': 4.820318203380876e-05, 'epoch': 0.69}
{'loss': 1.0386, 'grad_norm': 0.4921875, 'learning_rate': 4.819181965634489e-05, 'epoch': 0.69}
{'loss': 1.2669, 'grad_norm': 0.53125, 'learning_rate': 4.818045727888104e-05, 'epoch': 0.69}
{'loss': 1.1752, 'grad_norm': 0.97265625, 'learning_rate': 4.8169094901417175e-05, 'epoch': 0.69}
{'loss': 1.2352, 'grad_norm': 0.4453125, 'learning_rate': 4.815773252395331e-05, 'epoch': 0.69}
{'loss': 1.1604, 'grad_norm': 0.62890625, 'learning_rate': 4.814637014648946e-05, 'epoch': 0.69}
{'loss': 0.9935, 'grad_norm': 0.90234375, 'learning_rate': 4.813500776902559e-05, 'epoch': 0.69}
{'loss': 1.1649, 'grad_norm': 0.507812



{'loss': 1.3071, 'grad_norm': 0.5078125, 'learning_rate': 4.795320972960383e-05, 'epoch': 0.69}
{'loss': 1.2029, 'grad_norm': 0.9453125, 'learning_rate': 4.794184735213996e-05, 'epoch': 0.69}
{'loss': 1.2054, 'grad_norm': 0.48828125, 'learning_rate': 4.7930484974676104e-05, 'epoch': 0.69}
{'loss': 1.117, 'grad_norm': 0.61328125, 'learning_rate': 4.791912259721224e-05, 'epoch': 0.69}
{'loss': 1.0181, 'grad_norm': 1.015625, 'learning_rate': 4.790776021974838e-05, 'epoch': 0.69}
{'loss': 1.325, 'grad_norm': 0.55078125, 'learning_rate': 4.7896397842284524e-05, 'epoch': 0.69}
{'loss': 1.2668, 'grad_norm': 0.76953125, 'learning_rate': 4.788503546482066e-05, 'epoch': 0.69}
{'loss': 1.2892, 'grad_norm': 0.51953125, 'learning_rate': 4.78736730873568e-05, 'epoch': 0.69}
{'loss': 1.1972, 'grad_norm': 0.62109375, 'learning_rate': 4.786231070989294e-05, 'epoch': 0.69}
{'loss': 1.0391, 'grad_norm': 0.94921875, 'learning_rate': 4.785094833242908e-05, 'epoch': 0.69}
{'loss': 1.2725, 'grad_norm': 0.570



{'loss': 1.3105, 'grad_norm': 0.578125, 'learning_rate': 4.766915029300731e-05, 'epoch': 0.69}
{'loss': 1.1486, 'grad_norm': 0.82421875, 'learning_rate': 4.765778791554345e-05, 'epoch': 0.69}
{'loss': 1.2425, 'grad_norm': 0.71875, 'learning_rate': 4.764642553807959e-05, 'epoch': 0.69}
{'loss': 1.2712, 'grad_norm': 0.6484375, 'learning_rate': 4.763506316061573e-05, 'epoch': 0.69}
{'loss': 1.089, 'grad_norm': 0.92578125, 'learning_rate': 4.762370078315187e-05, 'epoch': 0.69}
{'loss': 1.2567, 'grad_norm': 0.57421875, 'learning_rate': 4.7612338405688004e-05, 'epoch': 0.69}
{'loss': 1.1442, 'grad_norm': 0.8671875, 'learning_rate': 4.760097602822415e-05, 'epoch': 0.69}
{'loss': 1.137, 'grad_norm': 0.4609375, 'learning_rate': 4.758961365076029e-05, 'epoch': 0.69}
{'loss': 1.1522, 'grad_norm': 0.6796875, 'learning_rate': 4.7578251273296425e-05, 'epoch': 0.69}
{'loss': 1.106, 'grad_norm': 0.80078125, 'learning_rate': 4.756688889583257e-05, 'epoch': 0.69}
{'loss': 1.3446, 'grad_norm': 0.6171875,



{'loss': 1.4079, 'grad_norm': 0.95703125, 'learning_rate': 4.7385090856410795e-05, 'epoch': 0.69}
{'loss': 1.1298, 'grad_norm': 0.640625, 'learning_rate': 4.737372847894694e-05, 'epoch': 0.69}
{'loss': 1.2583, 'grad_norm': 0.5390625, 'learning_rate': 4.736236610148308e-05, 'epoch': 0.69}
{'loss': 1.126, 'grad_norm': 0.8515625, 'learning_rate': 4.7351003724019216e-05, 'epoch': 0.69}
{'loss': 1.0729, 'grad_norm': 0.98046875, 'learning_rate': 4.733964134655536e-05, 'epoch': 0.69}
{'loss': 1.2854, 'grad_norm': 0.5703125, 'learning_rate': 4.732827896909149e-05, 'epoch': 0.69}
{'loss': 1.1818, 'grad_norm': 0.69140625, 'learning_rate': 4.7316916591627636e-05, 'epoch': 0.69}
{'loss': 1.0976, 'grad_norm': 0.546875, 'learning_rate': 4.7305554214163774e-05, 'epoch': 0.69}
{'loss': 1.2833, 'grad_norm': 0.53515625, 'learning_rate': 4.729419183669991e-05, 'epoch': 0.69}
{'loss': 0.9655, 'grad_norm': 0.4765625, 'learning_rate': 4.7282829459236056e-05, 'epoch': 0.69}
{'loss': 1.3193, 'grad_norm': 0.66



{'loss': 1.3441, 'grad_norm': 0.46484375, 'learning_rate': 4.710103141981428e-05, 'epoch': 0.69}
{'loss': 1.25, 'grad_norm': 0.64453125, 'learning_rate': 4.708966904235043e-05, 'epoch': 0.69}
{'loss': 1.2176, 'grad_norm': 0.54296875, 'learning_rate': 4.7078306664886565e-05, 'epoch': 0.69}
{'loss': 1.3044, 'grad_norm': 0.828125, 'learning_rate': 4.70669442874227e-05, 'epoch': 0.69}
{'loss': 0.9936, 'grad_norm': 1.0078125, 'learning_rate': 4.705558190995884e-05, 'epoch': 0.69}
{'loss': 1.336, 'grad_norm': 0.51953125, 'learning_rate': 4.7044219532494985e-05, 'epoch': 0.69}
{'loss': 1.2399, 'grad_norm': 0.5546875, 'learning_rate': 4.703285715503112e-05, 'epoch': 0.69}
{'loss': 1.2314, 'grad_norm': 0.50390625, 'learning_rate': 4.702149477756726e-05, 'epoch': 0.69}
{'loss': 1.2032, 'grad_norm': 0.609375, 'learning_rate': 4.70101324001034e-05, 'epoch': 0.69}
{'loss': 1.0581, 'grad_norm': 0.98828125, 'learning_rate': 4.6998770022639537e-05, 'epoch': 0.69}
{'loss': 1.3796, 'grad_norm': 0.65625,



{'loss': 1.3341, 'grad_norm': 0.53125, 'learning_rate': 4.681697198321777e-05, 'epoch': 0.7}
{'loss': 1.1089, 'grad_norm': 0.609375, 'learning_rate': 4.680560960575391e-05, 'epoch': 0.7}
{'loss': 1.2226, 'grad_norm': 0.5078125, 'learning_rate': 4.679424722829005e-05, 'epoch': 0.7}
{'loss': 1.1177, 'grad_norm': 0.68359375, 'learning_rate': 4.678288485082619e-05, 'epoch': 0.7}
{'loss': 1.1138, 'grad_norm': 1.0078125, 'learning_rate': 4.677152247336233e-05, 'epoch': 0.7}
{'loss': 1.1989, 'grad_norm': 0.5234375, 'learning_rate': 4.676016009589847e-05, 'epoch': 0.7}
{'loss': 1.1625, 'grad_norm': 0.68359375, 'learning_rate': 4.67487977184346e-05, 'epoch': 0.7}
{'loss': 1.2176, 'grad_norm': 0.7109375, 'learning_rate': 4.673743534097075e-05, 'epoch': 0.7}
{'loss': 1.1738, 'grad_norm': 0.76171875, 'learning_rate': 4.6726072963506886e-05, 'epoch': 0.7}
{'loss': 1.0485, 'grad_norm': 1.15625, 'learning_rate': 4.6714710586043024e-05, 'epoch': 0.7}
{'loss': 1.3051, 'grad_norm': 0.51953125, 'learning



{'loss': 1.2572, 'grad_norm': 0.8046875, 'learning_rate': 4.6532912546621256e-05, 'epoch': 0.7}
{'loss': 1.0089, 'grad_norm': 0.66015625, 'learning_rate': 4.6521550169157394e-05, 'epoch': 0.7}
{'loss': 1.2785, 'grad_norm': 0.453125, 'learning_rate': 4.651018779169354e-05, 'epoch': 0.7}
{'loss': 1.218, 'grad_norm': 0.64453125, 'learning_rate': 4.649882541422968e-05, 'epoch': 0.7}
{'loss': 1.1784, 'grad_norm': 0.74609375, 'learning_rate': 4.6487463036765815e-05, 'epoch': 0.7}
{'loss': 1.3752, 'grad_norm': 0.6484375, 'learning_rate': 4.647610065930195e-05, 'epoch': 0.7}
{'loss': 1.2171, 'grad_norm': 0.8125, 'learning_rate': 4.64647382818381e-05, 'epoch': 0.7}
{'loss': 1.0998, 'grad_norm': 0.466796875, 'learning_rate': 4.6453375904374235e-05, 'epoch': 0.7}
{'loss': 1.1068, 'grad_norm': 0.60546875, 'learning_rate': 4.644201352691037e-05, 'epoch': 0.7}
{'loss': 1.0529, 'grad_norm': 1.6640625, 'learning_rate': 4.643065114944651e-05, 'epoch': 0.7}
{'loss': 1.2597, 'grad_norm': 0.53515625, 'lea



{'loss': 1.2627, 'grad_norm': 0.68359375, 'learning_rate': 4.624885311002474e-05, 'epoch': 0.7}
{'loss': 1.228, 'grad_norm': 0.75390625, 'learning_rate': 4.623749073256088e-05, 'epoch': 0.7}
{'loss': 1.1722, 'grad_norm': 0.435546875, 'learning_rate': 4.622612835509702e-05, 'epoch': 0.7}
{'loss': 1.2337, 'grad_norm': 0.73046875, 'learning_rate': 4.6214765977633164e-05, 'epoch': 0.7}
{'loss': 1.1302, 'grad_norm': 0.94140625, 'learning_rate': 4.62034036001693e-05, 'epoch': 0.7}
{'loss': 1.3412, 'grad_norm': 0.703125, 'learning_rate': 4.619204122270544e-05, 'epoch': 0.7}
{'loss': 1.1681, 'grad_norm': 0.85546875, 'learning_rate': 4.6180678845241584e-05, 'epoch': 0.7}
{'loss': 1.2759, 'grad_norm': 0.4765625, 'learning_rate': 4.6169316467777715e-05, 'epoch': 0.7}
{'loss': 1.3347, 'grad_norm': 0.51171875, 'learning_rate': 4.615795409031386e-05, 'epoch': 0.7}
{'loss': 1.0589, 'grad_norm': 1.28125, 'learning_rate': 4.6146591712850004e-05, 'epoch': 0.7}
{'loss': 1.3743, 'grad_norm': 0.59375, 'lea



{'loss': 1.3187, 'grad_norm': 0.58203125, 'learning_rate': 4.596479367342823e-05, 'epoch': 0.7}
{'loss': 1.1116, 'grad_norm': 0.9140625, 'learning_rate': 4.5953431295964375e-05, 'epoch': 0.7}
{'loss': 1.2116, 'grad_norm': 0.453125, 'learning_rate': 4.5942068918500506e-05, 'epoch': 0.7}
{'loss': 1.29, 'grad_norm': 0.640625, 'learning_rate': 4.593070654103665e-05, 'epoch': 0.7}
{'loss': 0.9906, 'grad_norm': 0.8984375, 'learning_rate': 4.591934416357279e-05, 'epoch': 0.7}
{'loss': 1.3689, 'grad_norm': 0.53515625, 'learning_rate': 4.5907981786108926e-05, 'epoch': 0.7}
{'loss': 1.177, 'grad_norm': 0.7265625, 'learning_rate': 4.589661940864507e-05, 'epoch': 0.7}
{'loss': 1.1251, 'grad_norm': 0.58203125, 'learning_rate': 4.588525703118121e-05, 'epoch': 0.7}
{'loss': 1.2394, 'grad_norm': 0.61328125, 'learning_rate': 4.587389465371735e-05, 'epoch': 0.7}
{'loss': 1.0141, 'grad_norm': 0.83984375, 'learning_rate': 4.5862532276253485e-05, 'epoch': 0.7}
{'loss': 1.4305, 'grad_norm': 0.54296875, 'lea



{'loss': 1.2457, 'grad_norm': 0.451171875, 'learning_rate': 4.568073423683172e-05, 'epoch': 0.7}
{'loss': 1.1239, 'grad_norm': 0.76953125, 'learning_rate': 4.5669371859367855e-05, 'epoch': 0.7}
{'loss': 1.166, 'grad_norm': 0.48046875, 'learning_rate': 4.565800948190399e-05, 'epoch': 0.7}
{'loss': 1.2807, 'grad_norm': 0.5546875, 'learning_rate': 4.564664710444014e-05, 'epoch': 0.7}
{'loss': 1.0521, 'grad_norm': 1.0234375, 'learning_rate': 4.5635284726976276e-05, 'epoch': 0.7}
{'loss': 1.3143, 'grad_norm': 0.41796875, 'learning_rate': 4.5623922349512413e-05, 'epoch': 0.7}
{'loss': 1.1705, 'grad_norm': 0.66796875, 'learning_rate': 4.561255997204855e-05, 'epoch': 0.7}
{'loss': 1.269, 'grad_norm': 0.4375, 'learning_rate': 4.5601197594584696e-05, 'epoch': 0.7}
{'loss': 1.2873, 'grad_norm': 0.55078125, 'learning_rate': 4.558983521712083e-05, 'epoch': 0.7}
{'loss': 1.0644, 'grad_norm': 0.73828125, 'learning_rate': 4.557847283965697e-05, 'epoch': 0.7}
{'loss': 1.2779, 'grad_norm': 0.62109375, '



{'loss': 1.3281, 'grad_norm': 0.60546875, 'learning_rate': 4.5396674800235204e-05, 'epoch': 0.7}
{'loss': 1.1039, 'grad_norm': 0.91796875, 'learning_rate': 4.538531242277134e-05, 'epoch': 0.7}
{'loss': 1.2015, 'grad_norm': 0.54296875, 'learning_rate': 4.537395004530749e-05, 'epoch': 0.7}
{'loss': 1.2526, 'grad_norm': 0.625, 'learning_rate': 4.536258766784362e-05, 'epoch': 0.7}
{'loss': 1.0672, 'grad_norm': 1.8203125, 'learning_rate': 4.535122529037976e-05, 'epoch': 0.7}
{'loss': 1.2972, 'grad_norm': 0.48046875, 'learning_rate': 4.53398629129159e-05, 'epoch': 0.7}
{'loss': 1.1497, 'grad_norm': 0.6953125, 'learning_rate': 4.532850053545204e-05, 'epoch': 0.7}
{'loss': 1.0711, 'grad_norm': 0.470703125, 'learning_rate': 4.531713815798818e-05, 'epoch': 0.7}
{'loss': 1.1732, 'grad_norm': 0.72265625, 'learning_rate': 4.530577578052432e-05, 'epoch': 0.7}
{'loss': 0.96, 'grad_norm': 0.921875, 'learning_rate': 4.529441340306046e-05, 'epoch': 0.7}
{'loss': 1.3089, 'grad_norm': 0.62890625, 'learnin



{'loss': 1.2854, 'grad_norm': 0.57421875, 'learning_rate': 4.511261536363869e-05, 'epoch': 0.7}
{'loss': 1.0985, 'grad_norm': 1.1328125, 'learning_rate': 4.510125298617483e-05, 'epoch': 0.7}
{'loss': 1.1366, 'grad_norm': 0.609375, 'learning_rate': 4.508989060871097e-05, 'epoch': 0.7}
{'loss': 1.2696, 'grad_norm': 0.97265625, 'learning_rate': 4.5078528231247105e-05, 'epoch': 0.7}
{'loss': 1.031, 'grad_norm': 0.6328125, 'learning_rate': 4.506716585378325e-05, 'epoch': 0.7}
{'loss': 1.3329, 'grad_norm': 0.6015625, 'learning_rate': 4.505580347631939e-05, 'epoch': 0.7}
{'loss': 1.105, 'grad_norm': 0.63671875, 'learning_rate': 4.5044441098855525e-05, 'epoch': 0.7}
{'loss': 1.2727, 'grad_norm': 0.5, 'learning_rate': 4.503307872139166e-05, 'epoch': 0.7}
{'loss': 1.2498, 'grad_norm': 0.61328125, 'learning_rate': 4.502171634392781e-05, 'epoch': 0.7}
{'loss': 1.1337, 'grad_norm': 1.375, 'learning_rate': 4.5010353966463946e-05, 'epoch': 0.7}
{'loss': 1.2412, 'grad_norm': 0.80078125, 'learning_rate



{'loss': 1.2281, 'grad_norm': 0.6015625, 'learning_rate': 4.482855592704218e-05, 'epoch': 0.7}
{'loss': 1.0463, 'grad_norm': 0.73828125, 'learning_rate': 4.4817193549578316e-05, 'epoch': 0.7}
{'loss': 1.1723, 'grad_norm': 0.40625, 'learning_rate': 4.4805831172114454e-05, 'epoch': 0.7}
{'loss': 1.1095, 'grad_norm': 0.546875, 'learning_rate': 4.47944687946506e-05, 'epoch': 0.7}
{'loss': 1.0457, 'grad_norm': 0.8203125, 'learning_rate': 4.478310641718673e-05, 'epoch': 0.7}
{'loss': 1.2864, 'grad_norm': 0.6484375, 'learning_rate': 4.4771744039722874e-05, 'epoch': 0.7}
{'loss': 1.1906, 'grad_norm': 0.75390625, 'learning_rate': 4.476038166225901e-05, 'epoch': 0.7}
{'loss': 1.1271, 'grad_norm': 0.51171875, 'learning_rate': 4.474901928479515e-05, 'epoch': 0.7}
{'loss': 1.2401, 'grad_norm': 0.7109375, 'learning_rate': 4.4737656907331295e-05, 'epoch': 0.7}
{'loss': 1.0597, 'grad_norm': 0.7578125, 'learning_rate': 4.472629452986743e-05, 'epoch': 0.7}
{'loss': 1.2676, 'grad_norm': 0.6328125, 'learn



{'loss': 1.3393, 'grad_norm': 0.515625, 'learning_rate': 4.4544496490445665e-05, 'epoch': 0.71}
{'loss': 1.108, 'grad_norm': 0.76953125, 'learning_rate': 4.45331341129818e-05, 'epoch': 0.71}
{'loss': 1.1881, 'grad_norm': 0.62109375, 'learning_rate': 4.452177173551794e-05, 'epoch': 0.71}
{'loss': 1.2486, 'grad_norm': 0.6328125, 'learning_rate': 4.4510409358054086e-05, 'epoch': 0.71}
{'loss': 1.0611, 'grad_norm': 1.3125, 'learning_rate': 4.449904698059022e-05, 'epoch': 0.71}
{'loss': 1.3022, 'grad_norm': 0.6640625, 'learning_rate': 4.448768460312636e-05, 'epoch': 0.71}
{'loss': 1.1898, 'grad_norm': 0.58984375, 'learning_rate': 4.44763222256625e-05, 'epoch': 0.71}
{'loss': 1.117, 'grad_norm': 0.53515625, 'learning_rate': 4.446495984819864e-05, 'epoch': 0.71}
{'loss': 1.1587, 'grad_norm': 0.80859375, 'learning_rate': 4.445359747073478e-05, 'epoch': 0.71}
{'loss': 1.0748, 'grad_norm': 0.447265625, 'learning_rate': 4.444223509327092e-05, 'epoch': 0.71}
{'loss': 1.4399, 'grad_norm': 0.7460937



{'loss': 1.4107, 'grad_norm': 0.48046875, 'learning_rate': 4.426043705384915e-05, 'epoch': 0.71}
{'loss': 1.1937, 'grad_norm': 0.66015625, 'learning_rate': 4.424907467638529e-05, 'epoch': 0.71}
{'loss': 1.111, 'grad_norm': 0.404296875, 'learning_rate': 4.423771229892143e-05, 'epoch': 0.71}
{'loss': 1.439, 'grad_norm': 0.671875, 'learning_rate': 4.4226349921457566e-05, 'epoch': 0.71}
{'loss': 1.0808, 'grad_norm': 1.015625, 'learning_rate': 4.421498754399371e-05, 'epoch': 0.71}
{'loss': 1.4054, 'grad_norm': 0.65234375, 'learning_rate': 4.420362516652985e-05, 'epoch': 0.71}
{'loss': 1.1723, 'grad_norm': 1.0625, 'learning_rate': 4.4192262789065986e-05, 'epoch': 0.71}
{'loss': 1.1918, 'grad_norm': 0.578125, 'learning_rate': 4.4180900411602124e-05, 'epoch': 0.71}
{'loss': 1.2254, 'grad_norm': 0.8671875, 'learning_rate': 4.416953803413826e-05, 'epoch': 0.71}
{'loss': 1.0998, 'grad_norm': 0.91796875, 'learning_rate': 4.415817565667441e-05, 'epoch': 0.71}
{'loss': 1.3995, 'grad_norm': 0.3925781



{'loss': 1.355, 'grad_norm': 0.53125, 'learning_rate': 4.397637761725263e-05, 'epoch': 0.71}
{'loss': 1.1692, 'grad_norm': 1.125, 'learning_rate': 4.396501523978878e-05, 'epoch': 0.71}
{'loss': 1.1848, 'grad_norm': 0.443359375, 'learning_rate': 4.3953652862324915e-05, 'epoch': 0.71}
{'loss': 1.2551, 'grad_norm': 0.515625, 'learning_rate': 4.394229048486105e-05, 'epoch': 0.71}
{'loss': 1.0605, 'grad_norm': 0.69921875, 'learning_rate': 4.39309281073972e-05, 'epoch': 0.71}
{'loss': 1.253, 'grad_norm': 0.70703125, 'learning_rate': 4.391956572993333e-05, 'epoch': 0.71}
{'loss': 1.1907, 'grad_norm': 1.078125, 'learning_rate': 4.3908203352469473e-05, 'epoch': 0.71}
{'loss': 1.3336, 'grad_norm': 0.515625, 'learning_rate': 4.389684097500561e-05, 'epoch': 0.71}
{'loss': 1.24, 'grad_norm': 0.8203125, 'learning_rate': 4.388547859754175e-05, 'epoch': 0.71}
{'loss': 1.1347, 'grad_norm': 1.5546875, 'learning_rate': 4.3874116220077894e-05, 'epoch': 0.71}
{'loss': 1.2804, 'grad_norm': 0.53515625, 'lear



{'loss': 1.3903, 'grad_norm': 0.6015625, 'learning_rate': 4.369231818065612e-05, 'epoch': 0.71}
{'loss': 1.2497, 'grad_norm': 0.7578125, 'learning_rate': 4.3680955803192264e-05, 'epoch': 0.71}
{'loss': 1.2832, 'grad_norm': 0.671875, 'learning_rate': 4.36695934257284e-05, 'epoch': 0.71}
{'loss': 1.2993, 'grad_norm': 0.6796875, 'learning_rate': 4.365823104826454e-05, 'epoch': 0.71}
{'loss': 0.9951, 'grad_norm': 1.4140625, 'learning_rate': 4.364686867080068e-05, 'epoch': 0.71}
{'loss': 1.4835, 'grad_norm': 0.640625, 'learning_rate': 4.363550629333682e-05, 'epoch': 0.71}
{'loss': 1.1924, 'grad_norm': 0.734375, 'learning_rate': 4.362414391587296e-05, 'epoch': 0.71}
{'loss': 1.2618, 'grad_norm': 0.462890625, 'learning_rate': 4.36127815384091e-05, 'epoch': 0.71}
{'loss': 1.3095, 'grad_norm': 0.734375, 'learning_rate': 4.3601419160945236e-05, 'epoch': 0.71}
{'loss': 1.0386, 'grad_norm': 0.765625, 'learning_rate': 4.3590056783481374e-05, 'epoch': 0.71}
{'loss': 1.4588, 'grad_norm': 0.609375, 'l



{'loss': 1.3293, 'grad_norm': 0.5625, 'learning_rate': 4.340825874405961e-05, 'epoch': 0.71}
{'loss': 1.1363, 'grad_norm': 1.28125, 'learning_rate': 4.3396896366595745e-05, 'epoch': 0.71}
{'loss': 1.0146, 'grad_norm': 0.5, 'learning_rate': 4.338553398913189e-05, 'epoch': 0.71}
{'loss': 1.332, 'grad_norm': 0.75390625, 'learning_rate': 4.337417161166803e-05, 'epoch': 0.71}
{'loss': 1.1802, 'grad_norm': 1.734375, 'learning_rate': 4.3362809234204165e-05, 'epoch': 0.71}
{'loss': 1.2327, 'grad_norm': 0.765625, 'learning_rate': 4.335144685674031e-05, 'epoch': 0.71}
{'loss': 1.1953, 'grad_norm': 0.60546875, 'learning_rate': 4.334008447927644e-05, 'epoch': 0.71}
{'loss': 1.1194, 'grad_norm': 0.4921875, 'learning_rate': 4.3328722101812585e-05, 'epoch': 0.71}
{'loss': 1.2071, 'grad_norm': 0.6796875, 'learning_rate': 4.331735972434873e-05, 'epoch': 0.71}
{'loss': 1.0533, 'grad_norm': 0.76953125, 'learning_rate': 4.330599734688486e-05, 'epoch': 0.71}
{'loss': 1.3126, 'grad_norm': 0.546875, 'learnin



{'loss': 1.3261, 'grad_norm': 0.609375, 'learning_rate': 4.31241993074631e-05, 'epoch': 0.71}
{'loss': 1.1965, 'grad_norm': 0.74609375, 'learning_rate': 4.311283692999923e-05, 'epoch': 0.71}
{'loss': 1.2792, 'grad_norm': 0.4765625, 'learning_rate': 4.3101474552535376e-05, 'epoch': 0.71}
{'loss': 1.2312, 'grad_norm': 0.9296875, 'learning_rate': 4.3090112175071514e-05, 'epoch': 0.71}
{'loss': 1.1019, 'grad_norm': 0.984375, 'learning_rate': 4.307874979760765e-05, 'epoch': 0.71}
{'loss': 1.2748, 'grad_norm': 0.54296875, 'learning_rate': 4.3067387420143797e-05, 'epoch': 0.71}
{'loss': 1.3351, 'grad_norm': 0.74609375, 'learning_rate': 4.3056025042679934e-05, 'epoch': 0.71}
{'loss': 1.0857, 'grad_norm': 0.439453125, 'learning_rate': 4.304466266521607e-05, 'epoch': 0.71}
{'loss': 1.2682, 'grad_norm': 0.53515625, 'learning_rate': 4.303330028775221e-05, 'epoch': 0.71}
{'loss': 1.0752, 'grad_norm': 0.52734375, 'learning_rate': 4.302193791028835e-05, 'epoch': 0.71}
{'loss': 1.2372, 'grad_norm': 0.



{'loss': 1.2574, 'grad_norm': 0.4375, 'learning_rate': 4.284013987086658e-05, 'epoch': 0.71}
{'loss': 1.2627, 'grad_norm': 0.78515625, 'learning_rate': 4.282877749340272e-05, 'epoch': 0.71}
{'loss': 1.1946, 'grad_norm': 0.52734375, 'learning_rate': 4.281741511593886e-05, 'epoch': 0.71}
{'loss': 1.2962, 'grad_norm': 0.8046875, 'learning_rate': 4.2806052738475e-05, 'epoch': 0.71}
{'loss': 1.0036, 'grad_norm': 1.09375, 'learning_rate': 4.279469036101114e-05, 'epoch': 0.71}
{'loss': 1.2425, 'grad_norm': 0.6640625, 'learning_rate': 4.278332798354728e-05, 'epoch': 0.71}
{'loss': 1.0717, 'grad_norm': 1.03125, 'learning_rate': 4.277196560608342e-05, 'epoch': 0.71}
{'loss': 1.1962, 'grad_norm': 0.4296875, 'learning_rate': 4.276060322861955e-05, 'epoch': 0.71}
{'loss': 1.2255, 'grad_norm': 0.76171875, 'learning_rate': 4.27492408511557e-05, 'epoch': 0.71}
{'loss': 1.1016, 'grad_norm': 1.1953125, 'learning_rate': 4.273787847369184e-05, 'epoch': 0.71}
{'loss': 1.2655, 'grad_norm': 0.60546875, 'lear



{'loss': 1.232, 'grad_norm': 0.765625, 'learning_rate': 4.255608043427007e-05, 'epoch': 0.71}
{'loss': 1.1862, 'grad_norm': 0.84375, 'learning_rate': 4.254471805680621e-05, 'epoch': 0.71}
{'loss': 1.2216, 'grad_norm': 0.474609375, 'learning_rate': 4.2533355679342344e-05, 'epoch': 0.71}
{'loss': 1.2508, 'grad_norm': 0.435546875, 'learning_rate': 4.252199330187849e-05, 'epoch': 0.71}
{'loss': 1.0901, 'grad_norm': 0.92578125, 'learning_rate': 4.2510630924414626e-05, 'epoch': 0.71}
{'loss': 1.499, 'grad_norm': 1.140625, 'learning_rate': 4.2499268546950764e-05, 'epoch': 0.71}
{'loss': 1.3, 'grad_norm': 0.65234375, 'learning_rate': 4.248790616948691e-05, 'epoch': 0.71}
{'loss': 1.3186, 'grad_norm': 0.6328125, 'learning_rate': 4.2476543792023046e-05, 'epoch': 0.71}
{'loss': 1.191, 'grad_norm': 0.65625, 'learning_rate': 4.2465181414559184e-05, 'epoch': 0.71}
{'loss': 1.0677, 'grad_norm': 0.97265625, 'learning_rate': 4.245381903709532e-05, 'epoch': 0.71}
{'loss': 1.3338, 'grad_norm': 0.8828125,



{'loss': 1.1998, 'grad_norm': 0.46875, 'learning_rate': 4.2272020997673555e-05, 'epoch': 0.72}
{'loss': 1.1972, 'grad_norm': 0.66796875, 'learning_rate': 4.226065862020969e-05, 'epoch': 0.72}
{'loss': 1.2425, 'grad_norm': 0.578125, 'learning_rate': 4.224929624274583e-05, 'epoch': 0.72}
{'loss': 1.2423, 'grad_norm': 0.546875, 'learning_rate': 4.2237933865281975e-05, 'epoch': 0.72}
{'loss': 1.0669, 'grad_norm': 1.0078125, 'learning_rate': 4.222657148781811e-05, 'epoch': 0.72}
{'loss': 1.2668, 'grad_norm': 0.65234375, 'learning_rate': 4.221520911035425e-05, 'epoch': 0.72}
{'loss': 1.2518, 'grad_norm': 0.72265625, 'learning_rate': 4.220384673289039e-05, 'epoch': 0.72}
{'loss': 1.2207, 'grad_norm': 0.49609375, 'learning_rate': 4.219248435542653e-05, 'epoch': 0.72}
{'loss': 1.1295, 'grad_norm': 0.578125, 'learning_rate': 4.218112197796267e-05, 'epoch': 0.72}
{'loss': 0.9285, 'grad_norm': 0.984375, 'learning_rate': 4.216975960049881e-05, 'epoch': 0.72}
{'loss': 1.3398, 'grad_norm': 0.83984375



{'loss': 1.2919, 'grad_norm': 0.58984375, 'learning_rate': 4.198796156107704e-05, 'epoch': 0.72}
{'loss': 1.1119, 'grad_norm': 0.546875, 'learning_rate': 4.197659918361318e-05, 'epoch': 0.72}
{'loss': 1.1368, 'grad_norm': 0.515625, 'learning_rate': 4.1965236806149324e-05, 'epoch': 0.72}
{'loss': 1.2038, 'grad_norm': 0.66015625, 'learning_rate': 4.1953874428685455e-05, 'epoch': 0.72}
{'loss': 0.956, 'grad_norm': 1.0625, 'learning_rate': 4.19425120512216e-05, 'epoch': 0.72}
{'loss': 1.3422, 'grad_norm': 0.52734375, 'learning_rate': 4.1931149673757745e-05, 'epoch': 0.72}
{'loss': 1.2131, 'grad_norm': 0.8359375, 'learning_rate': 4.1919787296293876e-05, 'epoch': 0.72}
{'loss': 1.2325, 'grad_norm': 0.53125, 'learning_rate': 4.190842491883002e-05, 'epoch': 0.72}
{'loss': 1.1881, 'grad_norm': 0.578125, 'learning_rate': 4.189706254136616e-05, 'epoch': 0.72}
{'loss': 1.0575, 'grad_norm': 0.78125, 'learning_rate': 4.1885700163902296e-05, 'epoch': 0.72}
{'loss': 1.3855, 'grad_norm': 0.8828125, 'le



{'loss': 1.3583, 'grad_norm': 0.53515625, 'learning_rate': 4.170390212448053e-05, 'epoch': 0.72}
{'loss': 1.1763, 'grad_norm': 0.76171875, 'learning_rate': 4.169253974701667e-05, 'epoch': 0.72}
{'loss': 1.1012, 'grad_norm': 0.470703125, 'learning_rate': 4.168117736955281e-05, 'epoch': 0.72}
{'loss': 1.2721, 'grad_norm': 0.6640625, 'learning_rate': 4.166981499208894e-05, 'epoch': 0.72}
{'loss': 1.1415, 'grad_norm': 0.7734375, 'learning_rate': 4.165845261462509e-05, 'epoch': 0.72}
{'loss': 1.3365, 'grad_norm': 0.8046875, 'learning_rate': 4.1647090237161225e-05, 'epoch': 0.72}
{'loss': 1.0975, 'grad_norm': 0.6640625, 'learning_rate': 4.163572785969736e-05, 'epoch': 0.72}
{'loss': 1.1472, 'grad_norm': 0.58203125, 'learning_rate': 4.162436548223351e-05, 'epoch': 0.72}
{'loss': 1.1277, 'grad_norm': 0.6953125, 'learning_rate': 4.1613003104769645e-05, 'epoch': 0.72}
{'loss': 1.0402, 'grad_norm': 1.171875, 'learning_rate': 4.160164072730578e-05, 'epoch': 0.72}
{'loss': 1.2892, 'grad_norm': 0.64



{'loss': 1.4479, 'grad_norm': 0.50390625, 'learning_rate': 4.1419842687884016e-05, 'epoch': 0.72}
{'loss': 1.2463, 'grad_norm': 0.77734375, 'learning_rate': 4.1408480310420154e-05, 'epoch': 0.72}
{'loss': 1.144, 'grad_norm': 0.515625, 'learning_rate': 4.139711793295629e-05, 'epoch': 0.72}
{'loss': 1.2118, 'grad_norm': 0.6015625, 'learning_rate': 4.1385755555492436e-05, 'epoch': 0.72}
{'loss': 0.988, 'grad_norm': 0.482421875, 'learning_rate': 4.1374393178028574e-05, 'epoch': 0.72}
{'loss': 1.3163, 'grad_norm': 0.546875, 'learning_rate': 4.136303080056471e-05, 'epoch': 0.72}
{'loss': 1.1604, 'grad_norm': 0.78515625, 'learning_rate': 4.1351668423100857e-05, 'epoch': 0.72}
{'loss': 1.1089, 'grad_norm': 0.44921875, 'learning_rate': 4.134030604563699e-05, 'epoch': 0.72}
{'loss': 1.3479, 'grad_norm': 0.5625, 'learning_rate': 4.132894366817313e-05, 'epoch': 0.72}
{'loss': 1.1665, 'grad_norm': 0.6484375, 'learning_rate': 4.131758129070927e-05, 'epoch': 0.72}
{'loss': 1.3468, 'grad_norm': 0.6601



{'loss': 1.3774, 'grad_norm': 0.486328125, 'learning_rate': 4.11357832512875e-05, 'epoch': 0.72}
{'loss': 1.1695, 'grad_norm': 0.73828125, 'learning_rate': 4.112442087382364e-05, 'epoch': 0.72}
{'loss': 0.9999, 'grad_norm': 0.4609375, 'learning_rate': 4.111305849635978e-05, 'epoch': 0.72}
{'loss': 1.1822, 'grad_norm': 0.625, 'learning_rate': 4.110169611889592e-05, 'epoch': 0.72}
{'loss': 1.0251, 'grad_norm': 0.84765625, 'learning_rate': 4.109033374143206e-05, 'epoch': 0.72}
{'loss': 1.2869, 'grad_norm': 0.62109375, 'learning_rate': 4.10789713639682e-05, 'epoch': 0.72}
{'loss': 1.0727, 'grad_norm': 0.71484375, 'learning_rate': 4.106760898650434e-05, 'epoch': 0.72}
{'loss': 1.1171, 'grad_norm': 0.49609375, 'learning_rate': 4.1056246609040475e-05, 'epoch': 0.72}
{'loss': 1.2673, 'grad_norm': 0.498046875, 'learning_rate': 4.104488423157662e-05, 'epoch': 0.72}
{'loss': 1.0261, 'grad_norm': 0.82421875, 'learning_rate': 4.103352185411276e-05, 'epoch': 0.72}
{'loss': 1.3298, 'grad_norm': 0.503



{'loss': 1.298, 'grad_norm': 0.55859375, 'learning_rate': 4.085172381469099e-05, 'epoch': 0.72}
{'loss': 1.1679, 'grad_norm': 0.74609375, 'learning_rate': 4.084036143722713e-05, 'epoch': 0.72}
{'loss': 1.2568, 'grad_norm': 0.4140625, 'learning_rate': 4.0828999059763266e-05, 'epoch': 0.72}
{'loss': 1.2784, 'grad_norm': 0.67578125, 'learning_rate': 4.0817636682299403e-05, 'epoch': 0.72}
{'loss': 1.1088, 'grad_norm': 2.125, 'learning_rate': 4.080627430483555e-05, 'epoch': 0.72}
{'loss': 1.4682, 'grad_norm': 0.609375, 'learning_rate': 4.0794911927371686e-05, 'epoch': 0.72}
{'loss': 1.1757, 'grad_norm': 0.8515625, 'learning_rate': 4.0783549549907824e-05, 'epoch': 0.72}
{'loss': 1.2136, 'grad_norm': 0.4140625, 'learning_rate': 4.077218717244397e-05, 'epoch': 0.72}
{'loss': 1.3997, 'grad_norm': 0.609375, 'learning_rate': 4.07608247949801e-05, 'epoch': 0.72}
{'loss': 1.1534, 'grad_norm': 1.0234375, 'learning_rate': 4.0749462417516244e-05, 'epoch': 0.72}
{'loss': 1.372, 'grad_norm': 0.515625, '



{'loss': 1.3317, 'grad_norm': 0.5625, 'learning_rate': 4.056766437809447e-05, 'epoch': 0.72}
{'loss': 1.1119, 'grad_norm': 0.81640625, 'learning_rate': 4.0556302000630615e-05, 'epoch': 0.72}
{'loss': 1.3388, 'grad_norm': 0.58203125, 'learning_rate': 4.054493962316675e-05, 'epoch': 0.72}
{'loss': 1.224, 'grad_norm': 0.5625, 'learning_rate': 4.053357724570289e-05, 'epoch': 0.72}
{'loss': 1.0658, 'grad_norm': 0.83984375, 'learning_rate': 4.0522214868239035e-05, 'epoch': 0.72}
{'loss': 1.349, 'grad_norm': 0.55859375, 'learning_rate': 4.051085249077517e-05, 'epoch': 0.72}
{'loss': 1.2071, 'grad_norm': 1.015625, 'learning_rate': 4.049949011331131e-05, 'epoch': 0.72}
{'loss': 1.2585, 'grad_norm': 0.5078125, 'learning_rate': 4.0488127735847455e-05, 'epoch': 0.72}
{'loss': 1.3603, 'grad_norm': 0.5390625, 'learning_rate': 4.0476765358383587e-05, 'epoch': 0.72}
{'loss': 1.0569, 'grad_norm': 2.078125, 'learning_rate': 4.046540298091973e-05, 'epoch': 0.72}
{'loss': 1.3624, 'grad_norm': 0.55859375, 



{'loss': 1.3189, 'grad_norm': 0.5859375, 'learning_rate': 4.028360494149796e-05, 'epoch': 0.72}
{'loss': 1.1535, 'grad_norm': 0.609375, 'learning_rate': 4.02722425640341e-05, 'epoch': 0.72}
{'loss': 1.1997, 'grad_norm': 0.421875, 'learning_rate': 4.026088018657024e-05, 'epoch': 0.72}
{'loss': 1.2746, 'grad_norm': 1.046875, 'learning_rate': 4.024951780910638e-05, 'epoch': 0.72}
{'loss': 1.1576, 'grad_norm': 0.68359375, 'learning_rate': 4.023815543164252e-05, 'epoch': 0.72}
{'loss': 1.3856, 'grad_norm': 0.5625, 'learning_rate': 4.022679305417866e-05, 'epoch': 0.72}
{'loss': 1.1148, 'grad_norm': 0.6015625, 'learning_rate': 4.02154306767148e-05, 'epoch': 0.72}
{'loss': 1.2845, 'grad_norm': 0.53125, 'learning_rate': 4.0204068299250936e-05, 'epoch': 0.72}
{'loss': 1.1449, 'grad_norm': 0.62890625, 'learning_rate': 4.019270592178708e-05, 'epoch': 0.72}
{'loss': 1.0885, 'grad_norm': 1.1640625, 'learning_rate': 4.018134354432321e-05, 'epoch': 0.72}
{'loss': 1.4069, 'grad_norm': 0.62890625, 'lear



{'loss': 1.4224, 'grad_norm': 0.66015625, 'learning_rate': 3.999954550490145e-05, 'epoch': 0.73}
{'loss': 1.0992, 'grad_norm': 0.69140625, 'learning_rate': 3.998818312743759e-05, 'epoch': 0.73}
{'loss': 1.2841, 'grad_norm': 0.48828125, 'learning_rate': 3.997682074997373e-05, 'epoch': 0.73}
{'loss': 1.2005, 'grad_norm': 0.60546875, 'learning_rate': 3.9965458372509865e-05, 'epoch': 0.73}
{'loss': 1.0059, 'grad_norm': 1.1015625, 'learning_rate': 3.9954095995046e-05, 'epoch': 0.73}
{'loss': 1.3097, 'grad_norm': 0.5703125, 'learning_rate': 3.994273361758215e-05, 'epoch': 0.73}
{'loss': 1.2587, 'grad_norm': 0.69140625, 'learning_rate': 3.9931371240118285e-05, 'epoch': 0.73}
{'loss': 1.1995, 'grad_norm': 0.52734375, 'learning_rate': 3.992000886265442e-05, 'epoch': 0.73}
{'loss': 1.1567, 'grad_norm': 0.68359375, 'learning_rate': 3.990864648519057e-05, 'epoch': 0.73}
{'loss': 1.1029, 'grad_norm': 0.90625, 'learning_rate': 3.98972841077267e-05, 'epoch': 0.73}
{'loss': 1.4776, 'grad_norm': 0.5156



{'loss': 1.4085, 'grad_norm': 0.55859375, 'learning_rate': 3.971548606830494e-05, 'epoch': 0.73}
{'loss': 1.1222, 'grad_norm': 0.83203125, 'learning_rate': 3.970412369084107e-05, 'epoch': 0.73}
{'loss': 1.167, 'grad_norm': 0.65234375, 'learning_rate': 3.9692761313377214e-05, 'epoch': 0.73}
{'loss': 1.2325, 'grad_norm': 0.51953125, 'learning_rate': 3.968139893591335e-05, 'epoch': 0.73}
{'loss': 1.0914, 'grad_norm': 1.0625, 'learning_rate': 3.967003655844949e-05, 'epoch': 0.73}
{'loss': 1.3221, 'grad_norm': 0.50390625, 'learning_rate': 3.9658674180985634e-05, 'epoch': 0.73}
{'loss': 1.1502, 'grad_norm': 0.62890625, 'learning_rate': 3.964731180352177e-05, 'epoch': 0.73}
{'loss': 1.1849, 'grad_norm': 0.478515625, 'learning_rate': 3.963594942605791e-05, 'epoch': 0.73}
{'loss': 1.2083, 'grad_norm': 0.66015625, 'learning_rate': 3.962458704859405e-05, 'epoch': 0.73}
{'loss': 1.0467, 'grad_norm': 0.9453125, 'learning_rate': 3.961322467113019e-05, 'epoch': 0.73}
{'loss': 1.3274, 'grad_norm': 0.5



{'loss': 1.4265, 'grad_norm': 0.484375, 'learning_rate': 3.943142663170842e-05, 'epoch': 0.73}
{'loss': 1.1802, 'grad_norm': 1.1171875, 'learning_rate': 3.942006425424456e-05, 'epoch': 0.73}
{'loss': 1.1591, 'grad_norm': 0.58203125, 'learning_rate': 3.94087018767807e-05, 'epoch': 0.73}
{'loss': 1.266, 'grad_norm': 0.6328125, 'learning_rate': 3.939733949931684e-05, 'epoch': 0.73}
{'loss': 1.1179, 'grad_norm': 1.1484375, 'learning_rate': 3.9385977121852976e-05, 'epoch': 0.73}
{'loss': 1.2312, 'grad_norm': 0.57421875, 'learning_rate': 3.9374614744389114e-05, 'epoch': 0.73}
{'loss': 1.1264, 'grad_norm': 0.73046875, 'learning_rate': 3.936325236692526e-05, 'epoch': 0.73}
{'loss': 1.268, 'grad_norm': 0.5078125, 'learning_rate': 3.93518899894614e-05, 'epoch': 0.73}
{'loss': 1.225, 'grad_norm': 0.54296875, 'learning_rate': 3.9340527611997535e-05, 'epoch': 0.73}
{'loss': 0.9892, 'grad_norm': 0.96875, 'learning_rate': 3.932916523453368e-05, 'epoch': 0.73}
{'loss': 1.2699, 'grad_norm': 0.5234375, 



{'loss': 1.4, 'grad_norm': 0.6171875, 'learning_rate': 3.9147367195111905e-05, 'epoch': 0.73}
{'loss': 1.142, 'grad_norm': 0.75, 'learning_rate': 3.913600481764805e-05, 'epoch': 0.73}
{'loss': 1.252, 'grad_norm': 0.40625, 'learning_rate': 3.912464244018418e-05, 'epoch': 0.73}
{'loss': 1.3511, 'grad_norm': 0.6875, 'learning_rate': 3.9113280062720326e-05, 'epoch': 0.73}
{'loss': 1.1441, 'grad_norm': 0.65625, 'learning_rate': 3.910191768525647e-05, 'epoch': 0.73}
{'loss': 1.2252, 'grad_norm': 0.51171875, 'learning_rate': 3.90905553077926e-05, 'epoch': 0.73}
{'loss': 1.0579, 'grad_norm': 0.7109375, 'learning_rate': 3.9079192930328746e-05, 'epoch': 0.73}
{'loss': 1.1276, 'grad_norm': 0.5078125, 'learning_rate': 3.9067830552864884e-05, 'epoch': 0.73}
{'loss': 1.2395, 'grad_norm': 0.7578125, 'learning_rate': 3.905646817540102e-05, 'epoch': 0.73}
{'loss': 1.132, 'grad_norm': 1.21875, 'learning_rate': 3.9045105797937166e-05, 'epoch': 0.73}
{'loss': 1.3903, 'grad_norm': 0.52734375, 'learning_rat



{'loss': 1.3107, 'grad_norm': 0.53125, 'learning_rate': 3.886330775851539e-05, 'epoch': 0.73}
{'loss': 1.257, 'grad_norm': 1.0, 'learning_rate': 3.885194538105154e-05, 'epoch': 0.73}
{'loss': 1.1246, 'grad_norm': 0.46875, 'learning_rate': 3.8840583003587675e-05, 'epoch': 0.73}
{'loss': 1.1513, 'grad_norm': 0.703125, 'learning_rate': 3.882922062612381e-05, 'epoch': 0.73}
{'loss': 0.9582, 'grad_norm': 1.03125, 'learning_rate': 3.881785824865995e-05, 'epoch': 0.73}
{'loss': 1.2015, 'grad_norm': 0.5390625, 'learning_rate': 3.880649587119609e-05, 'epoch': 0.73}
{'loss': 1.2371, 'grad_norm': 0.71484375, 'learning_rate': 3.879513349373223e-05, 'epoch': 0.73}
{'loss': 1.2714, 'grad_norm': 0.57421875, 'learning_rate': 3.878377111626837e-05, 'epoch': 0.73}
{'loss': 1.2735, 'grad_norm': 0.67578125, 'learning_rate': 3.877240873880451e-05, 'epoch': 0.73}
{'loss': 1.0482, 'grad_norm': 0.58203125, 'learning_rate': 3.8761046361340646e-05, 'epoch': 0.73}
{'loss': 1.3505, 'grad_norm': 0.5546875, 'learni



{'loss': 1.4267, 'grad_norm': 0.578125, 'learning_rate': 3.857924832191888e-05, 'epoch': 0.73}
{'loss': 1.1789, 'grad_norm': 0.71875, 'learning_rate': 3.856788594445502e-05, 'epoch': 0.73}
{'loss': 1.3866, 'grad_norm': 0.51953125, 'learning_rate': 3.855652356699116e-05, 'epoch': 0.73}
{'loss': 1.1165, 'grad_norm': 0.59765625, 'learning_rate': 3.85451611895273e-05, 'epoch': 0.73}
{'loss': 1.1342, 'grad_norm': 0.5546875, 'learning_rate': 3.853379881206344e-05, 'epoch': 0.73}
{'loss': 1.4142, 'grad_norm': 0.431640625, 'learning_rate': 3.852243643459958e-05, 'epoch': 0.73}
{'loss': 1.1621, 'grad_norm': 0.7109375, 'learning_rate': 3.851107405713571e-05, 'epoch': 0.73}
{'loss': 1.1549, 'grad_norm': 0.56640625, 'learning_rate': 3.849971167967186e-05, 'epoch': 0.73}
{'loss': 1.0969, 'grad_norm': 0.8125, 'learning_rate': 3.8488349302207996e-05, 'epoch': 0.73}
{'loss': 1.1928, 'grad_norm': 1.09375, 'learning_rate': 3.8476986924744134e-05, 'epoch': 0.73}
{'loss': 1.4019, 'grad_norm': 0.6171875, '



{'loss': 1.3916, 'grad_norm': 0.5859375, 'learning_rate': 3.8295188885322366e-05, 'epoch': 0.73}
{'loss': 1.077, 'grad_norm': 0.75390625, 'learning_rate': 3.8283826507858504e-05, 'epoch': 0.73}
{'loss': 1.3104, 'grad_norm': 0.5078125, 'learning_rate': 3.827246413039465e-05, 'epoch': 0.73}
{'loss': 1.2206, 'grad_norm': 0.5546875, 'learning_rate': 3.826110175293079e-05, 'epoch': 0.73}
{'loss': 1.0575, 'grad_norm': 0.78125, 'learning_rate': 3.8249739375466924e-05, 'epoch': 0.73}
{'loss': 1.2685, 'grad_norm': 0.78125, 'learning_rate': 3.823837699800306e-05, 'epoch': 0.73}
{'loss': 1.1188, 'grad_norm': 0.75390625, 'learning_rate': 3.82270146205392e-05, 'epoch': 0.73}
{'loss': 1.103, 'grad_norm': 0.53515625, 'learning_rate': 3.8215652243075345e-05, 'epoch': 0.73}
{'loss': 1.1974, 'grad_norm': 0.625, 'learning_rate': 3.820428986561148e-05, 'epoch': 0.73}
{'loss': 1.0663, 'grad_norm': 0.7265625, 'learning_rate': 3.819292748814762e-05, 'epoch': 0.73}
{'loss': 1.3415, 'grad_norm': 0.55859375, 'l



{'loss': 1.2758, 'grad_norm': 0.486328125, 'learning_rate': 3.801112944872585e-05, 'epoch': 0.73}
{'loss': 1.116, 'grad_norm': 0.87109375, 'learning_rate': 3.799976707126199e-05, 'epoch': 0.73}
{'loss': 1.1694, 'grad_norm': 0.578125, 'learning_rate': 3.798840469379813e-05, 'epoch': 0.73}
{'loss': 1.1288, 'grad_norm': 0.88671875, 'learning_rate': 3.7977042316334274e-05, 'epoch': 0.73}
{'loss': 1.0436, 'grad_norm': 1.0, 'learning_rate': 3.796567993887041e-05, 'epoch': 0.73}
{'loss': 1.5158, 'grad_norm': 0.54296875, 'learning_rate': 3.795431756140655e-05, 'epoch': 0.73}
{'loss': 1.0713, 'grad_norm': 0.7109375, 'learning_rate': 3.7942955183942694e-05, 'epoch': 0.73}
{'loss': 1.1634, 'grad_norm': 0.66796875, 'learning_rate': 3.7931592806478825e-05, 'epoch': 0.73}
{'loss': 1.1912, 'grad_norm': 0.56640625, 'learning_rate': 3.792023042901497e-05, 'epoch': 0.73}
{'loss': 1.0588, 'grad_norm': 0.99609375, 'learning_rate': 3.790886805155111e-05, 'epoch': 0.73}
{'loss': 1.2054, 'grad_norm': 0.72656



{'loss': 1.3373, 'grad_norm': 0.56640625, 'learning_rate': 3.772707001212934e-05, 'epoch': 0.74}
{'loss': 1.1033, 'grad_norm': 0.78515625, 'learning_rate': 3.771570763466548e-05, 'epoch': 0.74}
{'loss': 1.1388, 'grad_norm': 0.4921875, 'learning_rate': 3.7704345257201616e-05, 'epoch': 0.74}
{'loss': 1.2611, 'grad_norm': 0.625, 'learning_rate': 3.769298287973776e-05, 'epoch': 0.74}
{'loss': 1.1521, 'grad_norm': 0.8515625, 'learning_rate': 3.76816205022739e-05, 'epoch': 0.74}
{'loss': 1.2331, 'grad_norm': 0.73046875, 'learning_rate': 3.7670258124810036e-05, 'epoch': 0.74}
{'loss': 1.1549, 'grad_norm': 0.765625, 'learning_rate': 3.765889574734618e-05, 'epoch': 0.74}
{'loss': 1.2162, 'grad_norm': 0.44921875, 'learning_rate': 3.764753336988231e-05, 'epoch': 0.74}
{'loss': 1.1872, 'grad_norm': 0.5625, 'learning_rate': 3.763617099241846e-05, 'epoch': 0.74}
{'loss': 1.0603, 'grad_norm': 1.5, 'learning_rate': 3.7624808614954595e-05, 'epoch': 0.74}
{'loss': 1.468, 'grad_norm': 0.49609375, 'learni



{'loss': 1.4116, 'grad_norm': 0.494140625, 'learning_rate': 3.744301057553283e-05, 'epoch': 0.74}
{'loss': 1.1801, 'grad_norm': 0.89453125, 'learning_rate': 3.7431648198068965e-05, 'epoch': 0.74}
{'loss': 1.3251, 'grad_norm': 0.625, 'learning_rate': 3.74202858206051e-05, 'epoch': 0.74}
{'loss': 1.2871, 'grad_norm': 0.83984375, 'learning_rate': 3.740892344314125e-05, 'epoch': 0.74}
{'loss': 1.0355, 'grad_norm': 1.109375, 'learning_rate': 3.7397561065677386e-05, 'epoch': 0.74}
{'loss': 1.3323, 'grad_norm': 0.67578125, 'learning_rate': 3.738619868821352e-05, 'epoch': 0.74}
{'loss': 1.2878, 'grad_norm': 0.71484375, 'learning_rate': 3.737483631074966e-05, 'epoch': 0.74}
{'loss': 1.1697, 'grad_norm': 0.455078125, 'learning_rate': 3.7363473933285806e-05, 'epoch': 0.74}
{'loss': 1.1596, 'grad_norm': 1.09375, 'learning_rate': 3.735211155582194e-05, 'epoch': 0.74}
{'loss': 1.1056, 'grad_norm': 0.98046875, 'learning_rate': 3.734074917835808e-05, 'epoch': 0.74}
{'loss': 1.3495, 'grad_norm': 0.6523



{'loss': 1.4091, 'grad_norm': 0.52734375, 'learning_rate': 3.7158951138936314e-05, 'epoch': 0.74}
{'loss': 1.1195, 'grad_norm': 0.75390625, 'learning_rate': 3.714758876147245e-05, 'epoch': 0.74}
{'loss': 1.0902, 'grad_norm': 0.4140625, 'learning_rate': 3.713622638400859e-05, 'epoch': 0.74}
{'loss': 1.2694, 'grad_norm': 0.66015625, 'learning_rate': 3.712486400654473e-05, 'epoch': 0.74}
{'loss': 1.0419, 'grad_norm': 1.3125, 'learning_rate': 3.711350162908087e-05, 'epoch': 0.74}
{'loss': 1.5013, 'grad_norm': 0.63671875, 'learning_rate': 3.710213925161701e-05, 'epoch': 0.74}
{'loss': 1.2039, 'grad_norm': 0.83984375, 'learning_rate': 3.709077687415315e-05, 'epoch': 0.74}
{'loss': 1.1987, 'grad_norm': 0.609375, 'learning_rate': 3.707941449668929e-05, 'epoch': 0.74}
{'loss': 1.2515, 'grad_norm': 0.53515625, 'learning_rate': 3.7068052119225424e-05, 'epoch': 0.74}
{'loss': 1.0603, 'grad_norm': 1.2734375, 'learning_rate': 3.705668974176157e-05, 'epoch': 0.74}
{'loss': 1.2833, 'grad_norm': 0.6093



{'loss': 1.2509, 'grad_norm': 0.6328125, 'learning_rate': 3.6874891702339795e-05, 'epoch': 0.74}
{'loss': 1.201, 'grad_norm': 0.7109375, 'learning_rate': 3.686352932487594e-05, 'epoch': 0.74}
{'loss': 1.1371, 'grad_norm': 0.4296875, 'learning_rate': 3.685216694741208e-05, 'epoch': 0.74}
{'loss': 1.354, 'grad_norm': 0.68359375, 'learning_rate': 3.6840804569948215e-05, 'epoch': 0.74}
{'loss': 1.0579, 'grad_norm': 1.0625, 'learning_rate': 3.682944219248436e-05, 'epoch': 0.74}
{'loss': 1.2983, 'grad_norm': 0.48046875, 'learning_rate': 3.68180798150205e-05, 'epoch': 0.74}
{'loss': 1.0853, 'grad_norm': 1.6484375, 'learning_rate': 3.6806717437556635e-05, 'epoch': 0.74}
{'loss': 1.1867, 'grad_norm': 0.40625, 'learning_rate': 3.679535506009277e-05, 'epoch': 0.74}
{'loss': 1.2374, 'grad_norm': 0.6484375, 'learning_rate': 3.678399268262892e-05, 'epoch': 0.74}
{'loss': 1.0825, 'grad_norm': 0.77734375, 'learning_rate': 3.6772630305165056e-05, 'epoch': 0.74}
{'loss': 1.2813, 'grad_norm': 0.63671875,



{'loss': 1.2504, 'grad_norm': 0.458984375, 'learning_rate': 3.659083226574329e-05, 'epoch': 0.74}
{'loss': 1.2047, 'grad_norm': 0.75390625, 'learning_rate': 3.6579469888279426e-05, 'epoch': 0.74}
{'loss': 1.1507, 'grad_norm': 0.443359375, 'learning_rate': 3.6568107510815564e-05, 'epoch': 0.74}
{'loss': 1.0868, 'grad_norm': 0.7734375, 'learning_rate': 3.65567451333517e-05, 'epoch': 0.74}
{'loss': 0.977, 'grad_norm': 0.7578125, 'learning_rate': 3.654538275588784e-05, 'epoch': 0.74}
{'loss': 1.3919, 'grad_norm': 0.6484375, 'learning_rate': 3.6534020378423984e-05, 'epoch': 0.74}
{'loss': 1.1362, 'grad_norm': 0.65625, 'learning_rate': 3.652265800096012e-05, 'epoch': 0.74}
{'loss': 1.2773, 'grad_norm': 0.43359375, 'learning_rate': 3.651129562349626e-05, 'epoch': 0.74}
{'loss': 1.3062, 'grad_norm': 0.765625, 'learning_rate': 3.6499933246032405e-05, 'epoch': 0.74}
{'loss': 1.093, 'grad_norm': 1.4453125, 'learning_rate': 3.6488570868568536e-05, 'epoch': 0.74}
{'loss': 1.3426, 'grad_norm': 0.609



{'loss': 1.4155, 'grad_norm': 0.515625, 'learning_rate': 3.6306772829146775e-05, 'epoch': 0.74}
{'loss': 1.0533, 'grad_norm': 0.8125, 'learning_rate': 3.6295410451682906e-05, 'epoch': 0.74}
{'loss': 1.1851, 'grad_norm': 0.640625, 'learning_rate': 3.628404807421905e-05, 'epoch': 0.74}
{'loss': 1.198, 'grad_norm': 0.7109375, 'learning_rate': 3.6272685696755196e-05, 'epoch': 0.74}
{'loss': 1.0764, 'grad_norm': 1.015625, 'learning_rate': 3.626132331929133e-05, 'epoch': 0.74}
{'loss': 1.3909, 'grad_norm': 0.6484375, 'learning_rate': 3.624996094182747e-05, 'epoch': 0.74}
{'loss': 1.3159, 'grad_norm': 0.640625, 'learning_rate': 3.623859856436361e-05, 'epoch': 0.74}
{'loss': 1.3087, 'grad_norm': 0.5, 'learning_rate': 3.622723618689975e-05, 'epoch': 0.74}
{'loss': 1.2139, 'grad_norm': 1.0703125, 'learning_rate': 3.621587380943589e-05, 'epoch': 0.74}
{'loss': 1.0233, 'grad_norm': 0.85546875, 'learning_rate': 3.620451143197203e-05, 'epoch': 0.74}
{'loss': 1.2895, 'grad_norm': 0.78125, 'learning_r



{'loss': 1.5051, 'grad_norm': 1.0390625, 'learning_rate': 3.602271339255026e-05, 'epoch': 0.74}
{'loss': 1.229, 'grad_norm': 0.62890625, 'learning_rate': 3.60113510150864e-05, 'epoch': 0.74}
{'loss': 1.2778, 'grad_norm': 0.55078125, 'learning_rate': 3.599998863762254e-05, 'epoch': 0.74}
{'loss': 1.2654, 'grad_norm': 0.578125, 'learning_rate': 3.5988626260158676e-05, 'epoch': 0.74}
{'loss': 1.0742, 'grad_norm': 1.03125, 'learning_rate': 3.5977263882694814e-05, 'epoch': 0.74}
{'loss': 1.2522, 'grad_norm': 0.609375, 'learning_rate': 3.596590150523096e-05, 'epoch': 0.74}
{'loss': 1.0576, 'grad_norm': 0.58984375, 'learning_rate': 3.5954539127767096e-05, 'epoch': 0.74}
{'loss': 1.0935, 'grad_norm': 0.4375, 'learning_rate': 3.5943176750303234e-05, 'epoch': 0.74}
{'loss': 1.1799, 'grad_norm': 0.53125, 'learning_rate': 3.593181437283937e-05, 'epoch': 0.74}
{'loss': 1.0202, 'grad_norm': 0.73046875, 'learning_rate': 3.592045199537552e-05, 'epoch': 0.74}
{'loss': 1.3142, 'grad_norm': 0.5078125, 'l



{'loss': 1.398, 'grad_norm': 0.69921875, 'learning_rate': 3.573865395595374e-05, 'epoch': 0.74}
{'loss': 1.1997, 'grad_norm': 0.72265625, 'learning_rate': 3.572729157848989e-05, 'epoch': 0.74}
{'loss': 1.1625, 'grad_norm': 0.41796875, 'learning_rate': 3.5715929201026025e-05, 'epoch': 0.74}
{'loss': 1.2447, 'grad_norm': 0.5390625, 'learning_rate': 3.570456682356216e-05, 'epoch': 0.74}
{'loss': 1.0399, 'grad_norm': 0.94140625, 'learning_rate': 3.569320444609831e-05, 'epoch': 0.74}
{'loss': 1.2555, 'grad_norm': 0.6484375, 'learning_rate': 3.568184206863444e-05, 'epoch': 0.74}
{'loss': 1.149, 'grad_norm': 1.1640625, 'learning_rate': 3.567047969117058e-05, 'epoch': 0.74}
{'loss': 1.1554, 'grad_norm': 0.5546875, 'learning_rate': 3.565911731370672e-05, 'epoch': 0.74}
{'loss': 1.2713, 'grad_norm': 0.7265625, 'learning_rate': 3.564775493624286e-05, 'epoch': 0.74}
{'loss': 0.9897, 'grad_norm': 0.9296875, 'learning_rate': 3.5636392558779004e-05, 'epoch': 0.74}
{'loss': 1.2809, 'grad_norm': 0.5507



{'loss': 1.2058, 'grad_norm': 0.53515625, 'learning_rate': 3.545459451935723e-05, 'epoch': 0.75}
{'loss': 1.1979, 'grad_norm': 0.58984375, 'learning_rate': 3.5443232141893374e-05, 'epoch': 0.75}
{'loss': 1.0432, 'grad_norm': 0.50390625, 'learning_rate': 3.543186976442951e-05, 'epoch': 0.75}
{'loss': 1.1943, 'grad_norm': 0.546875, 'learning_rate': 3.542050738696565e-05, 'epoch': 0.75}
{'loss': 1.0487, 'grad_norm': 0.89453125, 'learning_rate': 3.540914500950179e-05, 'epoch': 0.75}
{'loss': 1.3124, 'grad_norm': 0.55078125, 'learning_rate': 3.5397782632037926e-05, 'epoch': 0.75}
{'loss': 1.1076, 'grad_norm': 0.81640625, 'learning_rate': 3.538642025457407e-05, 'epoch': 0.75}
{'loss': 1.2253, 'grad_norm': 0.53515625, 'learning_rate': 3.537505787711021e-05, 'epoch': 0.75}
{'loss': 1.1213, 'grad_norm': 0.54296875, 'learning_rate': 3.5363695499646346e-05, 'epoch': 0.75}
{'loss': 1.0539, 'grad_norm': 0.8125, 'learning_rate': 3.5352333122182484e-05, 'epoch': 0.75}
{'loss': 1.268, 'grad_norm': 0.5



{'loss': 1.383, 'grad_norm': 0.490234375, 'learning_rate': 3.517053508276072e-05, 'epoch': 0.75}
{'loss': 1.2505, 'grad_norm': 0.88671875, 'learning_rate': 3.5159172705296855e-05, 'epoch': 0.75}
{'loss': 1.3052, 'grad_norm': 0.490234375, 'learning_rate': 3.5147810327833e-05, 'epoch': 0.75}
{'loss': 1.202, 'grad_norm': 0.90234375, 'learning_rate': 3.513644795036914e-05, 'epoch': 0.75}
{'loss': 1.0967, 'grad_norm': 0.8515625, 'learning_rate': 3.5125085572905275e-05, 'epoch': 0.75}
{'loss': 1.3968, 'grad_norm': 0.53125, 'learning_rate': 3.511372319544142e-05, 'epoch': 0.75}
{'loss': 1.0801, 'grad_norm': 0.8046875, 'learning_rate': 3.510236081797755e-05, 'epoch': 0.75}
{'loss': 1.1634, 'grad_norm': 0.5, 'learning_rate': 3.5090998440513695e-05, 'epoch': 0.75}
{'loss': 1.2657, 'grad_norm': 0.60546875, 'learning_rate': 3.507963606304984e-05, 'epoch': 0.75}
{'loss': 0.9669, 'grad_norm': 0.5390625, 'learning_rate': 3.506827368558597e-05, 'epoch': 0.75}
{'loss': 1.3332, 'grad_norm': 0.5546875, '



{'loss': 1.2471, 'grad_norm': 0.640625, 'learning_rate': 3.488647564616421e-05, 'epoch': 0.75}
{'loss': 1.1512, 'grad_norm': 1.0, 'learning_rate': 3.487511326870034e-05, 'epoch': 0.75}
{'loss': 1.1463, 'grad_norm': 0.50390625, 'learning_rate': 3.4863750891236486e-05, 'epoch': 0.75}
{'loss': 1.1584, 'grad_norm': 0.5390625, 'learning_rate': 3.4852388513772624e-05, 'epoch': 0.75}
{'loss': 1.1165, 'grad_norm': 1.34375, 'learning_rate': 3.484102613630876e-05, 'epoch': 0.75}
{'loss': 1.4046, 'grad_norm': 0.7578125, 'learning_rate': 3.4829663758844907e-05, 'epoch': 0.75}
{'loss': 1.2423, 'grad_norm': 0.94140625, 'learning_rate': 3.4818301381381044e-05, 'epoch': 0.75}
{'loss': 1.1832, 'grad_norm': 0.6171875, 'learning_rate': 3.480693900391718e-05, 'epoch': 0.75}
{'loss': 1.1578, 'grad_norm': 0.63671875, 'learning_rate': 3.479557662645332e-05, 'epoch': 0.75}
{'loss': 0.979, 'grad_norm': 0.7890625, 'learning_rate': 3.478421424898946e-05, 'epoch': 0.75}
{'loss': 1.3112, 'grad_norm': 0.5859375, 'l



{'loss': 1.4302, 'grad_norm': 0.421875, 'learning_rate': 3.460241620956769e-05, 'epoch': 0.75}
{'loss': 1.2721, 'grad_norm': 0.6328125, 'learning_rate': 3.459105383210383e-05, 'epoch': 0.75}
{'loss': 1.2144, 'grad_norm': 0.478515625, 'learning_rate': 3.457969145463997e-05, 'epoch': 0.75}
{'loss': 1.2411, 'grad_norm': 1.015625, 'learning_rate': 3.456832907717611e-05, 'epoch': 0.75}
{'loss': 0.9698, 'grad_norm': 0.53515625, 'learning_rate': 3.455696669971225e-05, 'epoch': 0.75}
{'loss': 1.2885, 'grad_norm': 0.6328125, 'learning_rate': 3.454560432224839e-05, 'epoch': 0.75}
{'loss': 1.1536, 'grad_norm': 0.7578125, 'learning_rate': 3.453424194478453e-05, 'epoch': 0.75}
{'loss': 1.0863, 'grad_norm': 0.431640625, 'learning_rate': 3.452287956732066e-05, 'epoch': 0.75}
{'loss': 1.2141, 'grad_norm': 0.54296875, 'learning_rate': 3.451151718985681e-05, 'epoch': 0.75}
{'loss': 1.0198, 'grad_norm': 0.48046875, 'learning_rate': 3.450015481239295e-05, 'epoch': 0.75}
{'loss': 1.351, 'grad_norm': 0.5507



{'loss': 1.2721, 'grad_norm': 0.46484375, 'learning_rate': 3.431835677297118e-05, 'epoch': 0.75}
{'loss': 1.2517, 'grad_norm': 0.66796875, 'learning_rate': 3.430699439550732e-05, 'epoch': 0.75}
{'loss': 1.3837, 'grad_norm': 0.478515625, 'learning_rate': 3.4295632018043453e-05, 'epoch': 0.75}
{'loss': 1.1659, 'grad_norm': 0.7265625, 'learning_rate': 3.42842696405796e-05, 'epoch': 0.75}
{'loss': 1.0589, 'grad_norm': 0.57421875, 'learning_rate': 3.4272907263115736e-05, 'epoch': 0.75}
{'loss': 1.2937, 'grad_norm': 0.6015625, 'learning_rate': 3.4261544885651874e-05, 'epoch': 0.75}
{'loss': 1.2239, 'grad_norm': 0.70703125, 'learning_rate': 3.425018250818802e-05, 'epoch': 0.75}
{'loss': 1.2477, 'grad_norm': 0.4296875, 'learning_rate': 3.4238820130724156e-05, 'epoch': 0.75}
{'loss': 1.2482, 'grad_norm': 0.65234375, 'learning_rate': 3.4227457753260294e-05, 'epoch': 0.75}
{'loss': 1.0206, 'grad_norm': 1.1953125, 'learning_rate': 3.421609537579643e-05, 'epoch': 0.75}
{'loss': 1.3013, 'grad_norm':



{'loss': 1.3119, 'grad_norm': 0.515625, 'learning_rate': 3.4034297336374665e-05, 'epoch': 0.75}
{'loss': 1.0981, 'grad_norm': 0.64453125, 'learning_rate': 3.40229349589108e-05, 'epoch': 0.75}
{'loss': 1.1031, 'grad_norm': 0.578125, 'learning_rate': 3.401157258144694e-05, 'epoch': 0.75}
{'loss': 1.2054, 'grad_norm': 0.74609375, 'learning_rate': 3.4000210203983085e-05, 'epoch': 0.75}
{'loss': 1.1055, 'grad_norm': 1.0, 'learning_rate': 3.398884782651922e-05, 'epoch': 0.75}
{'loss': 1.3329, 'grad_norm': 0.5625, 'learning_rate': 3.397748544905536e-05, 'epoch': 0.75}
{'loss': 1.2858, 'grad_norm': 0.69140625, 'learning_rate': 3.39661230715915e-05, 'epoch': 0.75}
{'loss': 1.2753, 'grad_norm': 0.46875, 'learning_rate': 3.395476069412764e-05, 'epoch': 0.75}
{'loss': 1.3102, 'grad_norm': 0.82421875, 'learning_rate': 3.394339831666378e-05, 'epoch': 0.75}
{'loss': 0.9701, 'grad_norm': 1.015625, 'learning_rate': 3.393203593919992e-05, 'epoch': 0.75}
{'loss': 1.2864, 'grad_norm': 0.52734375, 'learnin



{'loss': 1.337, 'grad_norm': 0.56640625, 'learning_rate': 3.375023789977815e-05, 'epoch': 0.75}
{'loss': 1.1664, 'grad_norm': 0.78125, 'learning_rate': 3.373887552231429e-05, 'epoch': 0.75}
{'loss': 1.0758, 'grad_norm': 0.455078125, 'learning_rate': 3.3727513144850434e-05, 'epoch': 0.75}
{'loss': 1.245, 'grad_norm': 0.75390625, 'learning_rate': 3.3716150767386565e-05, 'epoch': 0.75}
{'loss': 0.9619, 'grad_norm': 0.87890625, 'learning_rate': 3.370478838992271e-05, 'epoch': 0.75}
{'loss': 1.2429, 'grad_norm': 0.578125, 'learning_rate': 3.369342601245885e-05, 'epoch': 0.75}
{'loss': 1.1766, 'grad_norm': 0.88671875, 'learning_rate': 3.3682063634994986e-05, 'epoch': 0.75}
{'loss': 1.2141, 'grad_norm': 0.490234375, 'learning_rate': 3.367070125753113e-05, 'epoch': 0.75}
{'loss': 1.3156, 'grad_norm': 0.6015625, 'learning_rate': 3.365933888006727e-05, 'epoch': 0.75}
{'loss': 1.1362, 'grad_norm': 0.8828125, 'learning_rate': 3.3647976502603406e-05, 'epoch': 0.75}
{'loss': 1.4763, 'grad_norm': 0.5



{'loss': 1.1533, 'grad_norm': 0.578125, 'learning_rate': 3.346617846318164e-05, 'epoch': 0.75}
{'loss': 1.0882, 'grad_norm': 0.66796875, 'learning_rate': 3.345481608571778e-05, 'epoch': 0.75}
{'loss': 1.331, 'grad_norm': 0.61328125, 'learning_rate': 3.344345370825392e-05, 'epoch': 0.75}
{'loss': 1.236, 'grad_norm': 0.55859375, 'learning_rate': 3.343209133079005e-05, 'epoch': 0.75}
{'loss': 1.0177, 'grad_norm': 1.0390625, 'learning_rate': 3.34207289533262e-05, 'epoch': 0.75}
{'loss': 1.2975, 'grad_norm': 0.5234375, 'learning_rate': 3.3409366575862335e-05, 'epoch': 0.75}
{'loss': 1.0713, 'grad_norm': 1.015625, 'learning_rate': 3.339800419839847e-05, 'epoch': 0.75}
{'loss': 1.1342, 'grad_norm': 0.462890625, 'learning_rate': 3.338664182093462e-05, 'epoch': 0.75}
{'loss': 1.2729, 'grad_norm': 0.5234375, 'learning_rate': 3.3375279443470755e-05, 'epoch': 0.75}
{'loss': 1.0595, 'grad_norm': 0.478515625, 'learning_rate': 3.336391706600689e-05, 'epoch': 0.75}
{'loss': 1.39, 'grad_norm': 0.628906



{'loss': 1.4286, 'grad_norm': 0.57421875, 'learning_rate': 3.3182119026585126e-05, 'epoch': 0.76}
{'loss': 1.1723, 'grad_norm': 0.6796875, 'learning_rate': 3.3170756649121264e-05, 'epoch': 0.76}
{'loss': 1.1444, 'grad_norm': 0.5703125, 'learning_rate': 3.31593942716574e-05, 'epoch': 0.76}
{'loss': 1.2707, 'grad_norm': 0.53515625, 'learning_rate': 3.3148031894193546e-05, 'epoch': 0.76}
{'loss': 1.1448, 'grad_norm': 1.1640625, 'learning_rate': 3.3136669516729684e-05, 'epoch': 0.76}
{'loss': 1.3154, 'grad_norm': 0.63671875, 'learning_rate': 3.312530713926582e-05, 'epoch': 0.76}
{'loss': 1.2156, 'grad_norm': 0.74609375, 'learning_rate': 3.311394476180196e-05, 'epoch': 0.76}
{'loss': 1.2796, 'grad_norm': 0.546875, 'learning_rate': 3.31025823843381e-05, 'epoch': 0.76}
{'loss': 1.1924, 'grad_norm': 0.58984375, 'learning_rate': 3.309122000687424e-05, 'epoch': 0.76}
{'loss': 1.063, 'grad_norm': 0.7109375, 'learning_rate': 3.307985762941038e-05, 'epoch': 0.76}
{'loss': 1.3104, 'grad_norm': 0.621



{'loss': 1.2684, 'grad_norm': 0.486328125, 'learning_rate': 3.289805958998861e-05, 'epoch': 0.76}
{'loss': 1.2039, 'grad_norm': 0.9609375, 'learning_rate': 3.288669721252475e-05, 'epoch': 0.76}
{'loss': 1.2138, 'grad_norm': 0.6484375, 'learning_rate': 3.287533483506089e-05, 'epoch': 0.76}
{'loss': 1.3463, 'grad_norm': 1.0859375, 'learning_rate': 3.286397245759703e-05, 'epoch': 0.76}
{'loss': 0.9791, 'grad_norm': 0.85546875, 'learning_rate': 3.2852610080133164e-05, 'epoch': 0.76}
{'loss': 1.3291, 'grad_norm': 0.52734375, 'learning_rate': 3.284124770266931e-05, 'epoch': 0.76}
{'loss': 1.1198, 'grad_norm': 1.328125, 'learning_rate': 3.282988532520545e-05, 'epoch': 0.76}
{'loss': 1.1625, 'grad_norm': 0.53515625, 'learning_rate': 3.2818522947741585e-05, 'epoch': 0.76}
{'loss': 1.183, 'grad_norm': 0.92578125, 'learning_rate': 3.280716057027773e-05, 'epoch': 0.76}
{'loss': 1.0292, 'grad_norm': 0.52734375, 'learning_rate': 3.279579819281387e-05, 'epoch': 0.76}
{'loss': 1.2826, 'grad_norm': 0.5



{'loss': 1.3524, 'grad_norm': 0.53515625, 'learning_rate': 3.26140001533921e-05, 'epoch': 0.76}
{'loss': 1.1647, 'grad_norm': 0.625, 'learning_rate': 3.260263777592824e-05, 'epoch': 0.76}
{'loss': 1.1881, 'grad_norm': 0.55078125, 'learning_rate': 3.2591275398464376e-05, 'epoch': 0.76}
{'loss': 1.2593, 'grad_norm': 0.474609375, 'learning_rate': 3.2579913021000513e-05, 'epoch': 0.76}
{'loss': 1.1256, 'grad_norm': 1.296875, 'learning_rate': 3.256855064353666e-05, 'epoch': 0.76}
{'loss': 1.3874, 'grad_norm': 0.46484375, 'learning_rate': 3.2557188266072796e-05, 'epoch': 0.76}
{'loss': 1.1488, 'grad_norm': 0.97265625, 'learning_rate': 3.2545825888608934e-05, 'epoch': 0.76}
{'loss': 1.1197, 'grad_norm': 0.4765625, 'learning_rate': 3.253446351114507e-05, 'epoch': 0.76}
{'loss': 1.2446, 'grad_norm': 0.5625, 'learning_rate': 3.252310113368121e-05, 'epoch': 0.76}
{'loss': 1.1731, 'grad_norm': 0.86328125, 'learning_rate': 3.2511738756217354e-05, 'epoch': 0.76}
{'loss': 1.2493, 'grad_norm': 0.45507



{'loss': 1.4113, 'grad_norm': 0.609375, 'learning_rate': 3.232994071679558e-05, 'epoch': 0.76}
{'loss': 1.1753, 'grad_norm': 0.6953125, 'learning_rate': 3.2318578339331725e-05, 'epoch': 0.76}
{'loss': 1.2376, 'grad_norm': 0.48828125, 'learning_rate': 3.230721596186786e-05, 'epoch': 0.76}
{'loss': 1.2418, 'grad_norm': 0.6015625, 'learning_rate': 3.2295853584404e-05, 'epoch': 0.76}
{'loss': 0.9823, 'grad_norm': 0.62109375, 'learning_rate': 3.2284491206940145e-05, 'epoch': 0.76}
{'loss': 1.3735, 'grad_norm': 1.1015625, 'learning_rate': 3.2273128829476276e-05, 'epoch': 0.76}
{'loss': 1.1843, 'grad_norm': 0.74609375, 'learning_rate': 3.226176645201242e-05, 'epoch': 0.76}
{'loss': 1.1903, 'grad_norm': 0.4375, 'learning_rate': 3.2250404074548565e-05, 'epoch': 0.76}
{'loss': 1.2619, 'grad_norm': 0.828125, 'learning_rate': 3.2239041697084696e-05, 'epoch': 0.76}
{'loss': 1.0162, 'grad_norm': 0.4453125, 'learning_rate': 3.222767931962084e-05, 'epoch': 0.76}
{'loss': 1.3707, 'grad_norm': 0.640625,



{'loss': 1.4326, 'grad_norm': 0.49609375, 'learning_rate': 3.204588128019907e-05, 'epoch': 0.76}
{'loss': 1.1783, 'grad_norm': 0.66015625, 'learning_rate': 3.203451890273521e-05, 'epoch': 0.76}
{'loss': 1.043, 'grad_norm': 0.51171875, 'learning_rate': 3.202315652527135e-05, 'epoch': 0.76}
{'loss': 1.3246, 'grad_norm': 0.69921875, 'learning_rate': 3.201179414780749e-05, 'epoch': 0.76}
{'loss': 0.9719, 'grad_norm': 1.2734375, 'learning_rate': 3.200043177034363e-05, 'epoch': 0.76}
{'loss': 1.2653, 'grad_norm': 0.57421875, 'learning_rate': 3.198906939287977e-05, 'epoch': 0.76}
{'loss': 1.2263, 'grad_norm': 0.6953125, 'learning_rate': 3.197770701541591e-05, 'epoch': 0.76}
{'loss': 1.0839, 'grad_norm': 0.51171875, 'learning_rate': 3.1966344637952046e-05, 'epoch': 0.76}
{'loss': 1.2685, 'grad_norm': 0.53125, 'learning_rate': 3.1954982260488183e-05, 'epoch': 0.76}
{'loss': 1.136, 'grad_norm': 0.98046875, 'learning_rate': 3.194361988302433e-05, 'epoch': 0.76}
{'loss': 1.4026, 'grad_norm': 0.753



{'loss': 1.3926, 'grad_norm': 0.486328125, 'learning_rate': 3.1761821843602554e-05, 'epoch': 0.76}
{'loss': 1.1761, 'grad_norm': 0.71484375, 'learning_rate': 3.17504594661387e-05, 'epoch': 0.76}
{'loss': 1.1842, 'grad_norm': 0.494140625, 'learning_rate': 3.1739097088674837e-05, 'epoch': 0.76}
{'loss': 1.2539, 'grad_norm': 0.64453125, 'learning_rate': 3.1727734711210974e-05, 'epoch': 0.76}
{'loss': 1.1074, 'grad_norm': 0.50390625, 'learning_rate': 3.171637233374711e-05, 'epoch': 0.76}
{'loss': 1.3265, 'grad_norm': 0.4609375, 'learning_rate': 3.170500995628326e-05, 'epoch': 0.76}
{'loss': 1.0903, 'grad_norm': 0.7421875, 'learning_rate': 3.169364757881939e-05, 'epoch': 0.76}
{'loss': 1.3326, 'grad_norm': 0.546875, 'learning_rate': 3.168228520135553e-05, 'epoch': 0.76}
{'loss': 1.1559, 'grad_norm': 0.63671875, 'learning_rate': 3.167092282389168e-05, 'epoch': 0.76}
{'loss': 1.0934, 'grad_norm': 1.59375, 'learning_rate': 3.165956044642781e-05, 'epoch': 0.76}
{'loss': 1.2972, 'grad_norm': 0.5



{'loss': 1.348, 'grad_norm': 0.515625, 'learning_rate': 3.147776240700605e-05, 'epoch': 0.76}
{'loss': 1.141, 'grad_norm': 0.73046875, 'learning_rate': 3.146640002954218e-05, 'epoch': 0.76}
{'loss': 1.2305, 'grad_norm': 0.435546875, 'learning_rate': 3.1455037652078324e-05, 'epoch': 0.76}
{'loss': 1.1309, 'grad_norm': 0.61328125, 'learning_rate': 3.144367527461446e-05, 'epoch': 0.76}
{'loss': 0.9818, 'grad_norm': 0.6640625, 'learning_rate': 3.14323128971506e-05, 'epoch': 0.76}
{'loss': 1.2837, 'grad_norm': 0.8671875, 'learning_rate': 3.1420950519686744e-05, 'epoch': 0.76}
{'loss': 1.1635, 'grad_norm': 0.73046875, 'learning_rate': 3.140958814222288e-05, 'epoch': 0.76}
{'loss': 1.2585, 'grad_norm': 0.54296875, 'learning_rate': 3.139822576475902e-05, 'epoch': 0.76}
{'loss': 1.2235, 'grad_norm': 0.6328125, 'learning_rate': 3.138686338729516e-05, 'epoch': 0.76}
{'loss': 0.9174, 'grad_norm': 0.92578125, 'learning_rate': 3.1375501009831295e-05, 'epoch': 0.76}
{'loss': 1.3451, 'grad_norm': 0.67



{'loss': 1.4021, 'grad_norm': 0.5625, 'learning_rate': 3.119370297040953e-05, 'epoch': 0.76}
{'loss': 1.0802, 'grad_norm': 0.625, 'learning_rate': 3.1182340592945666e-05, 'epoch': 0.76}
{'loss': 1.3774, 'grad_norm': 0.5234375, 'learning_rate': 3.117097821548181e-05, 'epoch': 0.76}
{'loss': 1.1577, 'grad_norm': 0.71875, 'learning_rate': 3.115961583801795e-05, 'epoch': 0.76}
{'loss': 1.0621, 'grad_norm': 0.9296875, 'learning_rate': 3.1148253460554086e-05, 'epoch': 0.76}
{'loss': 1.4086, 'grad_norm': 0.6171875, 'learning_rate': 3.1136891083090224e-05, 'epoch': 0.76}
{'loss': 1.1775, 'grad_norm': 0.69921875, 'learning_rate': 3.112552870562637e-05, 'epoch': 0.76}
{'loss': 1.1081, 'grad_norm': 0.640625, 'learning_rate': 3.111416632816251e-05, 'epoch': 0.76}
{'loss': 1.1626, 'grad_norm': 0.828125, 'learning_rate': 3.1102803950698645e-05, 'epoch': 0.76}
{'loss': 1.1133, 'grad_norm': 1.1484375, 'learning_rate': 3.109144157323479e-05, 'epoch': 0.76}
{'loss': 1.1992, 'grad_norm': 0.609375, 'learn



{'loss': 1.4454, 'grad_norm': 0.546875, 'learning_rate': 3.0909643533813015e-05, 'epoch': 0.77}
{'loss': 1.2429, 'grad_norm': 1.0234375, 'learning_rate': 3.089828115634916e-05, 'epoch': 0.77}
{'loss': 1.1962, 'grad_norm': 0.478515625, 'learning_rate': 3.088691877888529e-05, 'epoch': 0.77}
{'loss': 1.3269, 'grad_norm': 0.58203125, 'learning_rate': 3.0875556401421435e-05, 'epoch': 0.77}
{'loss': 1.1157, 'grad_norm': 1.0234375, 'learning_rate': 3.086419402395757e-05, 'epoch': 0.77}
{'loss': 1.4751, 'grad_norm': 0.498046875, 'learning_rate': 3.085283164649371e-05, 'epoch': 0.77}
{'loss': 1.1675, 'grad_norm': 0.625, 'learning_rate': 3.0841469269029856e-05, 'epoch': 0.77}
{'loss': 1.1568, 'grad_norm': 0.43359375, 'learning_rate': 3.0830106891565994e-05, 'epoch': 0.77}
{'loss': 1.2353, 'grad_norm': 0.6328125, 'learning_rate': 3.081874451410213e-05, 'epoch': 0.77}
{'loss': 1.1173, 'grad_norm': 0.75390625, 'learning_rate': 3.0807382136638276e-05, 'epoch': 0.77}
{'loss': 1.2169, 'grad_norm': 0.6



{'loss': 1.4479, 'grad_norm': 0.59375, 'learning_rate': 3.06255840972165e-05, 'epoch': 0.77}
{'loss': 1.0509, 'grad_norm': 0.76171875, 'learning_rate': 3.061422171975265e-05, 'epoch': 0.77}
{'loss': 1.0787, 'grad_norm': 0.490234375, 'learning_rate': 3.060285934228878e-05, 'epoch': 0.77}
{'loss': 1.2417, 'grad_norm': 0.55078125, 'learning_rate': 3.059149696482492e-05, 'epoch': 0.77}
{'loss': 1.1136, 'grad_norm': 1.1484375, 'learning_rate': 3.058013458736106e-05, 'epoch': 0.77}
{'loss': 1.233, 'grad_norm': 0.447265625, 'learning_rate': 3.05687722098972e-05, 'epoch': 0.77}
{'loss': 1.024, 'grad_norm': 0.859375, 'learning_rate': 3.055740983243334e-05, 'epoch': 0.77}
{'loss': 1.2678, 'grad_norm': 0.51953125, 'learning_rate': 3.054604745496948e-05, 'epoch': 0.77}
{'loss': 1.1643, 'grad_norm': 0.6875, 'learning_rate': 3.053468507750562e-05, 'epoch': 0.77}
{'loss': 1.2144, 'grad_norm': 0.9296875, 'learning_rate': 3.0523322700041756e-05, 'epoch': 0.77}
{'loss': 1.3191, 'grad_norm': 0.85546875, 



{'loss': 1.3209, 'grad_norm': 0.59375, 'learning_rate': 3.0341524660619993e-05, 'epoch': 0.77}
{'loss': 1.2913, 'grad_norm': 1.0078125, 'learning_rate': 3.0330162283156127e-05, 'epoch': 0.77}
{'loss': 1.3085, 'grad_norm': 0.494140625, 'learning_rate': 3.0318799905692268e-05, 'epoch': 0.77}
{'loss': 1.1606, 'grad_norm': 0.56640625, 'learning_rate': 3.030743752822841e-05, 'epoch': 0.77}
{'loss': 1.1989, 'grad_norm': 0.7890625, 'learning_rate': 3.0296075150764547e-05, 'epoch': 0.77}
{'loss': 1.3448, 'grad_norm': 0.55078125, 'learning_rate': 3.028471277330069e-05, 'epoch': 0.77}
{'loss': 1.1306, 'grad_norm': 0.5703125, 'learning_rate': 3.0273350395836823e-05, 'epoch': 0.77}
{'loss': 1.2501, 'grad_norm': 0.455078125, 'learning_rate': 3.0261988018372968e-05, 'epoch': 0.77}
{'loss': 1.2108, 'grad_norm': 0.63671875, 'learning_rate': 3.0250625640909102e-05, 'epoch': 0.77}
{'loss': 1.0821, 'grad_norm': 0.93359375, 'learning_rate': 3.0239263263445243e-05, 'epoch': 0.77}
{'loss': 1.2591, 'grad_nor



{'loss': 1.3326, 'grad_norm': 0.84765625, 'learning_rate': 3.005746522402348e-05, 'epoch': 0.77}
{'loss': 1.0805, 'grad_norm': 1.1171875, 'learning_rate': 3.0046102846559614e-05, 'epoch': 0.77}
{'loss': 1.2439, 'grad_norm': 0.462890625, 'learning_rate': 3.0034740469095755e-05, 'epoch': 0.77}
{'loss': 1.2447, 'grad_norm': 0.59765625, 'learning_rate': 3.0023378091631893e-05, 'epoch': 0.77}
{'loss': 0.9586, 'grad_norm': 0.66796875, 'learning_rate': 3.0012015714168034e-05, 'epoch': 0.77}
{'loss': 1.2468, 'grad_norm': 0.546875, 'learning_rate': 3.0000653336704172e-05, 'epoch': 0.77}
{'loss': 1.1724, 'grad_norm': 0.9921875, 'learning_rate': 2.9989290959240313e-05, 'epoch': 0.77}
{'loss': 1.2801, 'grad_norm': 0.45703125, 'learning_rate': 2.9977928581776455e-05, 'epoch': 0.77}
{'loss': 1.279, 'grad_norm': 0.5546875, 'learning_rate': 2.996656620431259e-05, 'epoch': 0.77}
{'loss': 0.9678, 'grad_norm': 0.62890625, 'learning_rate': 2.9955203826848734e-05, 'epoch': 0.77}
{'loss': 1.2911, 'grad_norm



{'loss': 1.3059, 'grad_norm': 0.5703125, 'learning_rate': 2.977340578742696e-05, 'epoch': 0.77}
{'loss': 1.177, 'grad_norm': 0.77734375, 'learning_rate': 2.9762043409963104e-05, 'epoch': 0.77}
{'loss': 1.2416, 'grad_norm': 0.462890625, 'learning_rate': 2.975068103249924e-05, 'epoch': 0.77}
{'loss': 1.218, 'grad_norm': 0.734375, 'learning_rate': 2.973931865503538e-05, 'epoch': 0.77}
{'loss': 1.0653, 'grad_norm': 1.0390625, 'learning_rate': 2.972795627757152e-05, 'epoch': 0.77}
{'loss': 1.3921, 'grad_norm': 0.51171875, 'learning_rate': 2.971659390010766e-05, 'epoch': 0.77}
{'loss': 1.0743, 'grad_norm': 0.55078125, 'learning_rate': 2.97052315226438e-05, 'epoch': 0.77}
{'loss': 1.1806, 'grad_norm': 0.42578125, 'learning_rate': 2.9693869145179935e-05, 'epoch': 0.77}
{'loss': 1.2009, 'grad_norm': 0.55859375, 'learning_rate': 2.968250676771608e-05, 'epoch': 0.77}
{'loss': 1.1196, 'grad_norm': 0.74609375, 'learning_rate': 2.967114439025222e-05, 'epoch': 0.77}
{'loss': 1.1773, 'grad_norm': 0.55



{'loss': 1.4088, 'grad_norm': 0.5078125, 'learning_rate': 2.948934635083045e-05, 'epoch': 0.77}
{'loss': 1.1801, 'grad_norm': 1.140625, 'learning_rate': 2.947798397336659e-05, 'epoch': 0.77}
{'loss': 1.0985, 'grad_norm': 0.56640625, 'learning_rate': 2.9466621595902726e-05, 'epoch': 0.77}
{'loss': 1.2387, 'grad_norm': 0.83984375, 'learning_rate': 2.9455259218438867e-05, 'epoch': 0.77}
{'loss': 1.1111, 'grad_norm': 0.75390625, 'learning_rate': 2.9443896840975005e-05, 'epoch': 0.77}
{'loss': 1.3535, 'grad_norm': 0.5625, 'learning_rate': 2.9432534463511146e-05, 'epoch': 0.77}
{'loss': 1.2015, 'grad_norm': 0.609375, 'learning_rate': 2.9421172086047288e-05, 'epoch': 0.77}
{'loss': 1.1969, 'grad_norm': 0.46484375, 'learning_rate': 2.9409809708583425e-05, 'epoch': 0.77}
{'loss': 1.3113, 'grad_norm': 0.62109375, 'learning_rate': 2.9398447331119567e-05, 'epoch': 0.77}
{'loss': 1.1076, 'grad_norm': 0.8125, 'learning_rate': 2.93870849536557e-05, 'epoch': 0.77}
{'loss': 1.3518, 'grad_norm': 0.6875,



{'loss': 1.2923, 'grad_norm': 0.68359375, 'learning_rate': 2.9205286914233937e-05, 'epoch': 0.77}
{'loss': 1.1497, 'grad_norm': 0.6953125, 'learning_rate': 2.9193924536770072e-05, 'epoch': 0.77}
{'loss': 1.1505, 'grad_norm': 0.43359375, 'learning_rate': 2.9182562159306216e-05, 'epoch': 0.77}
{'loss': 1.3248, 'grad_norm': 0.8359375, 'learning_rate': 2.9171199781842358e-05, 'epoch': 0.77}
{'loss': 1.0703, 'grad_norm': 0.8515625, 'learning_rate': 2.9159837404378492e-05, 'epoch': 0.77}
{'loss': 1.2904, 'grad_norm': 0.75, 'learning_rate': 2.9148475026914633e-05, 'epoch': 0.77}
{'loss': 1.229, 'grad_norm': 0.7734375, 'learning_rate': 2.913711264945077e-05, 'epoch': 0.77}
{'loss': 1.101, 'grad_norm': 0.65625, 'learning_rate': 2.9125750271986912e-05, 'epoch': 0.77}
{'loss': 1.2482, 'grad_norm': 0.6640625, 'learning_rate': 2.9114387894523054e-05, 'epoch': 0.77}
{'loss': 1.0537, 'grad_norm': 0.63671875, 'learning_rate': 2.910302551705919e-05, 'epoch': 0.77}
{'loss': 1.4232, 'grad_norm': 0.59375,



{'loss': 1.4457, 'grad_norm': 0.5546875, 'learning_rate': 2.8921227477637424e-05, 'epoch': 0.77}
{'loss': 1.2111, 'grad_norm': 0.7265625, 'learning_rate': 2.8909865100173562e-05, 'epoch': 0.77}
{'loss': 1.225, 'grad_norm': 0.486328125, 'learning_rate': 2.8898502722709703e-05, 'epoch': 0.77}
{'loss': 1.2232, 'grad_norm': 0.66015625, 'learning_rate': 2.8887140345245838e-05, 'epoch': 0.77}
{'loss': 1.009, 'grad_norm': 0.66015625, 'learning_rate': 2.887577796778198e-05, 'epoch': 0.77}
{'loss': 1.3009, 'grad_norm': 0.796875, 'learning_rate': 2.8864415590318117e-05, 'epoch': 0.77}
{'loss': 1.1793, 'grad_norm': 0.67578125, 'learning_rate': 2.8853053212854258e-05, 'epoch': 0.77}
{'loss': 1.255, 'grad_norm': 0.65625, 'learning_rate': 2.88416908353904e-05, 'epoch': 0.77}
{'loss': 1.2718, 'grad_norm': 0.80078125, 'learning_rate': 2.8830328457926537e-05, 'epoch': 0.77}
{'loss': 1.048, 'grad_norm': 1.4296875, 'learning_rate': 2.881896608046268e-05, 'epoch': 0.77}
{'loss': 1.3967, 'grad_norm': 0.539



{'loss': 1.2891, 'grad_norm': 0.50390625, 'learning_rate': 2.8637168041040908e-05, 'epoch': 0.77}
{'loss': 1.2116, 'grad_norm': 0.74609375, 'learning_rate': 2.862580566357705e-05, 'epoch': 0.78}
{'loss': 1.3547, 'grad_norm': 0.7265625, 'learning_rate': 2.8614443286113184e-05, 'epoch': 0.78}
{'loss': 1.1855, 'grad_norm': 0.56640625, 'learning_rate': 2.8603080908649328e-05, 'epoch': 0.78}
{'loss': 1.0642, 'grad_norm': 1.3203125, 'learning_rate': 2.859171853118547e-05, 'epoch': 0.78}
{'loss': 1.3384, 'grad_norm': 0.7265625, 'learning_rate': 2.8580356153721604e-05, 'epoch': 0.78}
{'loss': 1.096, 'grad_norm': 0.6171875, 'learning_rate': 2.8568993776257745e-05, 'epoch': 0.78}
{'loss': 1.2526, 'grad_norm': 0.46484375, 'learning_rate': 2.8557631398793883e-05, 'epoch': 0.78}
{'loss': 1.2663, 'grad_norm': 0.5625, 'learning_rate': 2.8546269021330024e-05, 'epoch': 0.78}
{'loss': 1.0785, 'grad_norm': 0.71484375, 'learning_rate': 2.8534906643866166e-05, 'epoch': 0.78}
{'loss': 1.365, 'grad_norm': 0.



{'loss': 1.3086, 'grad_norm': 0.55078125, 'learning_rate': 2.8353108604444395e-05, 'epoch': 0.78}
{'loss': 1.2954, 'grad_norm': 0.65234375, 'learning_rate': 2.8341746226980536e-05, 'epoch': 0.78}
{'loss': 1.2135, 'grad_norm': 0.6953125, 'learning_rate': 2.8330383849516674e-05, 'epoch': 0.78}
{'loss': 1.2895, 'grad_norm': 0.578125, 'learning_rate': 2.8319021472052815e-05, 'epoch': 0.78}
{'loss': 1.0748, 'grad_norm': 0.5546875, 'learning_rate': 2.830765909458895e-05, 'epoch': 0.78}
{'loss': 1.3914, 'grad_norm': 0.52734375, 'learning_rate': 2.829629671712509e-05, 'epoch': 0.78}
{'loss': 1.0303, 'grad_norm': 0.94921875, 'learning_rate': 2.8284934339661236e-05, 'epoch': 0.78}
{'loss': 1.2068, 'grad_norm': 0.451171875, 'learning_rate': 2.827357196219737e-05, 'epoch': 0.78}
{'loss': 1.224, 'grad_norm': 0.5703125, 'learning_rate': 2.826220958473351e-05, 'epoch': 0.78}
{'loss': 1.1219, 'grad_norm': 1.015625, 'learning_rate': 2.825084720726965e-05, 'epoch': 0.78}
{'loss': 1.388, 'grad_norm': 0.6



{'loss': 1.3866, 'grad_norm': 0.61328125, 'learning_rate': 2.8069049167847882e-05, 'epoch': 0.78}
{'loss': 1.046, 'grad_norm': 0.7578125, 'learning_rate': 2.805768679038402e-05, 'epoch': 0.78}
{'loss': 1.1796, 'grad_norm': 0.4609375, 'learning_rate': 2.804632441292016e-05, 'epoch': 0.78}
{'loss': 1.226, 'grad_norm': 0.7109375, 'learning_rate': 2.8034962035456302e-05, 'epoch': 0.78}
{'loss': 1.2174, 'grad_norm': 0.47265625, 'learning_rate': 2.802359965799244e-05, 'epoch': 0.78}
{'loss': 1.3647, 'grad_norm': 0.57421875, 'learning_rate': 2.801223728052858e-05, 'epoch': 0.78}
{'loss': 1.0721, 'grad_norm': 1.015625, 'learning_rate': 2.8000874903064716e-05, 'epoch': 0.78}
{'loss': 1.1863, 'grad_norm': 0.46875, 'learning_rate': 2.7989512525600857e-05, 'epoch': 0.78}
{'loss': 1.2029, 'grad_norm': 0.63671875, 'learning_rate': 2.7978150148137002e-05, 'epoch': 0.78}
{'loss': 1.0249, 'grad_norm': 0.6015625, 'learning_rate': 2.7966787770673136e-05, 'epoch': 0.78}
{'loss': 1.4517, 'grad_norm': 0.640



{'loss': 1.5148, 'grad_norm': 0.765625, 'learning_rate': 2.7784989731251372e-05, 'epoch': 0.78}
{'loss': 1.1392, 'grad_norm': 1.03125, 'learning_rate': 2.7773627353787507e-05, 'epoch': 0.78}
{'loss': 1.0864, 'grad_norm': 0.62890625, 'learning_rate': 2.7762264976323648e-05, 'epoch': 0.78}
{'loss': 1.2787, 'grad_norm': 0.5546875, 'learning_rate': 2.7750902598859786e-05, 'epoch': 0.78}
{'loss': 1.089, 'grad_norm': 1.171875, 'learning_rate': 2.7739540221395927e-05, 'epoch': 0.78}
{'loss': 1.4158, 'grad_norm': 0.5625, 'learning_rate': 2.772817784393207e-05, 'epoch': 0.78}
{'loss': 1.0573, 'grad_norm': 0.71875, 'learning_rate': 2.7716815466468203e-05, 'epoch': 0.78}
{'loss': 1.1606, 'grad_norm': 0.6953125, 'learning_rate': 2.7705453089004347e-05, 'epoch': 0.78}
{'loss': 1.072, 'grad_norm': 0.66796875, 'learning_rate': 2.7694090711540482e-05, 'epoch': 0.78}
{'loss': 1.2099, 'grad_norm': 0.4765625, 'learning_rate': 2.7682728334076623e-05, 'epoch': 0.78}
{'loss': 1.3911, 'grad_norm': 0.48242187



{'loss': 1.4161, 'grad_norm': 0.8671875, 'learning_rate': 2.7500930294654853e-05, 'epoch': 0.78}
{'loss': 1.1972, 'grad_norm': 0.78125, 'learning_rate': 2.7489567917190994e-05, 'epoch': 0.78}
{'loss': 1.2838, 'grad_norm': 0.478515625, 'learning_rate': 2.7478205539727135e-05, 'epoch': 0.78}
{'loss': 1.2293, 'grad_norm': 0.58984375, 'learning_rate': 2.7466843162263273e-05, 'epoch': 0.78}
{'loss': 1.0325, 'grad_norm': 0.66796875, 'learning_rate': 2.7455480784799414e-05, 'epoch': 0.78}
{'loss': 1.2673, 'grad_norm': 0.61328125, 'learning_rate': 2.7444118407335552e-05, 'epoch': 0.78}
{'loss': 1.1897, 'grad_norm': 1.078125, 'learning_rate': 2.7432756029871693e-05, 'epoch': 0.78}
{'loss': 1.1367, 'grad_norm': 0.486328125, 'learning_rate': 2.7421393652407828e-05, 'epoch': 0.78}
{'loss': 1.1328, 'grad_norm': 0.6015625, 'learning_rate': 2.741003127494397e-05, 'epoch': 0.78}
{'loss': 1.0365, 'grad_norm': 1.4296875, 'learning_rate': 2.7398668897480114e-05, 'epoch': 0.78}
{'loss': 1.4415, 'grad_norm



{'loss': 1.3681, 'grad_norm': 0.61328125, 'learning_rate': 2.721687085805834e-05, 'epoch': 0.78}
{'loss': 1.1235, 'grad_norm': 0.734375, 'learning_rate': 2.7205508480594484e-05, 'epoch': 0.78}
{'loss': 1.191, 'grad_norm': 0.416015625, 'learning_rate': 2.719414610313062e-05, 'epoch': 0.78}
{'loss': 1.3161, 'grad_norm': 0.625, 'learning_rate': 2.718278372566676e-05, 'epoch': 0.78}
{'loss': 1.0725, 'grad_norm': 1.34375, 'learning_rate': 2.7171421348202898e-05, 'epoch': 0.78}
{'loss': 1.3352, 'grad_norm': 0.5859375, 'learning_rate': 2.716005897073904e-05, 'epoch': 0.78}
{'loss': 1.0773, 'grad_norm': 0.8515625, 'learning_rate': 2.714869659327518e-05, 'epoch': 0.78}
{'loss': 1.1473, 'grad_norm': 0.47265625, 'learning_rate': 2.7137334215811315e-05, 'epoch': 0.78}
{'loss': 1.168, 'grad_norm': 0.95703125, 'learning_rate': 2.712597183834746e-05, 'epoch': 0.78}
{'loss': 0.998, 'grad_norm': 0.85546875, 'learning_rate': 2.7114609460883594e-05, 'epoch': 0.78}
{'loss': 1.3031, 'grad_norm': 0.5703125,



{'loss': 1.4553, 'grad_norm': 0.5625, 'learning_rate': 2.693281142146183e-05, 'epoch': 0.78}
{'loss': 1.1293, 'grad_norm': 1.234375, 'learning_rate': 2.6921449043997964e-05, 'epoch': 0.78}
{'loss': 1.029, 'grad_norm': 0.50390625, 'learning_rate': 2.6910086666534106e-05, 'epoch': 0.78}
{'loss': 1.179, 'grad_norm': 0.828125, 'learning_rate': 2.6898724289070247e-05, 'epoch': 0.78}
{'loss': 1.0229, 'grad_norm': 0.984375, 'learning_rate': 2.6887361911606385e-05, 'epoch': 0.78}
{'loss': 1.597, 'grad_norm': 0.5234375, 'learning_rate': 2.6875999534142526e-05, 'epoch': 0.78}
{'loss': 1.087, 'grad_norm': 0.6953125, 'learning_rate': 2.6864637156678664e-05, 'epoch': 0.78}
{'loss': 1.2699, 'grad_norm': 0.498046875, 'learning_rate': 2.6853274779214805e-05, 'epoch': 0.78}
{'loss': 1.2339, 'grad_norm': 0.5859375, 'learning_rate': 2.6841912401750946e-05, 'epoch': 0.78}
{'loss': 1.0958, 'grad_norm': 0.875, 'learning_rate': 2.683055002428708e-05, 'epoch': 0.78}
{'loss': 1.3729, 'grad_norm': 0.5390625, 'l



{'loss': 1.3717, 'grad_norm': 0.435546875, 'learning_rate': 2.6648751984865317e-05, 'epoch': 0.78}
{'loss': 1.1753, 'grad_norm': 0.66015625, 'learning_rate': 2.663738960740145e-05, 'epoch': 0.78}
{'loss': 1.1287, 'grad_norm': 0.53515625, 'learning_rate': 2.6626027229937596e-05, 'epoch': 0.78}
{'loss': 1.1409, 'grad_norm': 0.50390625, 'learning_rate': 2.661466485247373e-05, 'epoch': 0.78}
{'loss': 1.0016, 'grad_norm': 0.46875, 'learning_rate': 2.6603302475009872e-05, 'epoch': 0.78}
{'loss': 1.5041, 'grad_norm': 0.50390625, 'learning_rate': 2.6591940097546013e-05, 'epoch': 0.78}
{'loss': 1.3052, 'grad_norm': 1.3359375, 'learning_rate': 2.658057772008215e-05, 'epoch': 0.78}
{'loss': 1.3089, 'grad_norm': 0.458984375, 'learning_rate': 2.6569215342618292e-05, 'epoch': 0.78}
{'loss': 1.1535, 'grad_norm': 0.78125, 'learning_rate': 2.655785296515443e-05, 'epoch': 0.78}
{'loss': 1.1213, 'grad_norm': 0.57421875, 'learning_rate': 2.654649058769057e-05, 'epoch': 0.78}
{'loss': 1.3554, 'grad_norm': 



{'loss': 1.2963, 'grad_norm': 0.609375, 'learning_rate': 2.63646925482688e-05, 'epoch': 0.78}
{'loss': 1.2213, 'grad_norm': 0.62890625, 'learning_rate': 2.6353330170804942e-05, 'epoch': 0.78}
{'loss': 1.3105, 'grad_norm': 0.57421875, 'learning_rate': 2.6341967793341083e-05, 'epoch': 0.79}
{'loss': 1.2695, 'grad_norm': 0.92578125, 'learning_rate': 2.6330605415877218e-05, 'epoch': 0.79}
{'loss': 0.9697, 'grad_norm': 0.77734375, 'learning_rate': 2.631924303841336e-05, 'epoch': 0.79}
{'loss': 1.315, 'grad_norm': 0.55078125, 'learning_rate': 2.6307880660949497e-05, 'epoch': 0.79}
{'loss': 1.1028, 'grad_norm': 0.80859375, 'learning_rate': 2.6296518283485638e-05, 'epoch': 0.79}
{'loss': 1.1555, 'grad_norm': 0.55078125, 'learning_rate': 2.628515590602178e-05, 'epoch': 0.79}
{'loss': 1.2171, 'grad_norm': 0.703125, 'learning_rate': 2.6273793528557917e-05, 'epoch': 0.79}
{'loss': 1.0787, 'grad_norm': 1.7734375, 'learning_rate': 2.6262431151094058e-05, 'epoch': 0.79}
{'loss': 1.2955, 'grad_norm': 



{'loss': 1.326, 'grad_norm': 0.52734375, 'learning_rate': 2.6080633111672288e-05, 'epoch': 0.79}
{'loss': 1.1729, 'grad_norm': 0.57421875, 'learning_rate': 2.606927073420843e-05, 'epoch': 0.79}
{'loss': 1.2033, 'grad_norm': 0.470703125, 'learning_rate': 2.6057908356744563e-05, 'epoch': 0.79}
{'loss': 1.2477, 'grad_norm': 0.69921875, 'learning_rate': 2.6046545979280708e-05, 'epoch': 0.79}
{'loss': 1.0034, 'grad_norm': 0.71484375, 'learning_rate': 2.6035183601816842e-05, 'epoch': 0.79}
{'loss': 1.4225, 'grad_norm': 0.498046875, 'learning_rate': 2.6023821224352984e-05, 'epoch': 0.79}
{'loss': 1.315, 'grad_norm': 1.1953125, 'learning_rate': 2.6012458846889125e-05, 'epoch': 0.79}
{'loss': 1.1174, 'grad_norm': 0.466796875, 'learning_rate': 2.6001096469425263e-05, 'epoch': 0.79}
{'loss': 1.135, 'grad_norm': 0.8046875, 'learning_rate': 2.5989734091961404e-05, 'epoch': 0.79}
{'loss': 1.0726, 'grad_norm': 1.1328125, 'learning_rate': 2.5978371714497542e-05, 'epoch': 0.79}
{'loss': 1.3948, 'grad_n



{'loss': 1.3608, 'grad_norm': 0.58203125, 'learning_rate': 2.5796573675075775e-05, 'epoch': 0.79}
{'loss': 1.0993, 'grad_norm': 0.7890625, 'learning_rate': 2.5785211297611913e-05, 'epoch': 0.79}
{'loss': 1.2385, 'grad_norm': 0.63671875, 'learning_rate': 2.5773848920148054e-05, 'epoch': 0.79}
{'loss': 1.2018, 'grad_norm': 0.69921875, 'learning_rate': 2.5762486542684195e-05, 'epoch': 0.79}
{'loss': 1.1274, 'grad_norm': 0.80078125, 'learning_rate': 2.575112416522033e-05, 'epoch': 0.79}
{'loss': 1.3608, 'grad_norm': 0.55859375, 'learning_rate': 2.573976178775647e-05, 'epoch': 0.79}
{'loss': 1.0818, 'grad_norm': 0.91015625, 'learning_rate': 2.572839941029261e-05, 'epoch': 0.79}
{'loss': 1.2164, 'grad_norm': 0.6484375, 'learning_rate': 2.571703703282875e-05, 'epoch': 0.79}
{'loss': 1.2284, 'grad_norm': 0.5078125, 'learning_rate': 2.570567465536489e-05, 'epoch': 0.79}
{'loss': 1.1471, 'grad_norm': 1.0234375, 'learning_rate': 2.569431227790103e-05, 'epoch': 0.79}
{'loss': 1.5519, 'grad_norm': 



{'loss': 1.4294, 'grad_norm': 0.4921875, 'learning_rate': 2.5512514238479262e-05, 'epoch': 0.79}
{'loss': 1.1358, 'grad_norm': 1.1171875, 'learning_rate': 2.55011518610154e-05, 'epoch': 0.79}
{'loss': 1.1605, 'grad_norm': 0.5234375, 'learning_rate': 2.548978948355154e-05, 'epoch': 0.79}
{'loss': 1.0973, 'grad_norm': 0.86328125, 'learning_rate': 2.5478427106087675e-05, 'epoch': 0.79}
{'loss': 1.0617, 'grad_norm': 1.140625, 'learning_rate': 2.546706472862382e-05, 'epoch': 0.79}
{'loss': 1.372, 'grad_norm': 0.482421875, 'learning_rate': 2.545570235115996e-05, 'epoch': 0.79}
{'loss': 1.2436, 'grad_norm': 0.79296875, 'learning_rate': 2.5444339973696096e-05, 'epoch': 0.79}
{'loss': 1.1332, 'grad_norm': 0.44140625, 'learning_rate': 2.5432977596232237e-05, 'epoch': 0.79}
{'loss': 1.1633, 'grad_norm': 1.0859375, 'learning_rate': 2.5421615218768375e-05, 'epoch': 0.79}
{'loss': 1.023, 'grad_norm': 1.203125, 'learning_rate': 2.5410252841304516e-05, 'epoch': 0.79}
{'loss': 1.3297, 'grad_norm': 0.64



{'loss': 1.4044, 'grad_norm': 0.474609375, 'learning_rate': 2.5228454801882745e-05, 'epoch': 0.79}
{'loss': 1.1139, 'grad_norm': 0.7734375, 'learning_rate': 2.5217092424418887e-05, 'epoch': 0.79}
{'loss': 1.2659, 'grad_norm': 0.48046875, 'learning_rate': 2.5205730046955028e-05, 'epoch': 0.79}
{'loss': 1.227, 'grad_norm': 0.609375, 'learning_rate': 2.5194367669491166e-05, 'epoch': 0.79}
{'loss': 1.0668, 'grad_norm': 0.76171875, 'learning_rate': 2.5183005292027307e-05, 'epoch': 0.79}
{'loss': 1.3759, 'grad_norm': 0.5703125, 'learning_rate': 2.517164291456344e-05, 'epoch': 0.79}
{'loss': 1.1727, 'grad_norm': 0.65625, 'learning_rate': 2.5160280537099583e-05, 'epoch': 0.79}
{'loss': 1.1154, 'grad_norm': 0.47265625, 'learning_rate': 2.5148918159635727e-05, 'epoch': 0.79}
{'loss': 1.2892, 'grad_norm': 0.62109375, 'learning_rate': 2.5137555782171862e-05, 'epoch': 0.79}
{'loss': 1.152, 'grad_norm': 1.171875, 'learning_rate': 2.5126193404708003e-05, 'epoch': 0.79}
{'loss': 1.3237, 'grad_norm': 0



{'loss': 1.2057, 'grad_norm': 0.59375, 'learning_rate': 2.4944395365286232e-05, 'epoch': 0.79}
{'loss': 1.1679, 'grad_norm': 0.6796875, 'learning_rate': 2.4933032987822374e-05, 'epoch': 0.79}
{'loss': 1.189, 'grad_norm': 0.47265625, 'learning_rate': 2.4921670610358515e-05, 'epoch': 0.79}
{'loss': 1.1961, 'grad_norm': 0.625, 'learning_rate': 2.4910308232894653e-05, 'epoch': 0.79}
{'loss': 1.165, 'grad_norm': 0.86328125, 'learning_rate': 2.489894585543079e-05, 'epoch': 0.79}
{'loss': 1.4236, 'grad_norm': 0.5390625, 'learning_rate': 2.4887583477966932e-05, 'epoch': 0.79}
{'loss': 1.1676, 'grad_norm': 1.2265625, 'learning_rate': 2.487622110050307e-05, 'epoch': 0.79}
{'loss': 1.2783, 'grad_norm': 0.47265625, 'learning_rate': 2.486485872303921e-05, 'epoch': 0.79}
{'loss': 1.316, 'grad_norm': 0.6484375, 'learning_rate': 2.485349634557535e-05, 'epoch': 0.79}
{'loss': 1.1079, 'grad_norm': 0.95703125, 'learning_rate': 2.484213396811149e-05, 'epoch': 0.79}
{'loss': 1.4104, 'grad_norm': 0.6015625,



{'loss': 1.4408, 'grad_norm': 0.53125, 'learning_rate': 2.466033592868972e-05, 'epoch': 0.79}
{'loss': 1.1511, 'grad_norm': 0.6796875, 'learning_rate': 2.464897355122586e-05, 'epoch': 0.79}
{'loss': 1.2388, 'grad_norm': 0.5859375, 'learning_rate': 2.4637611173762e-05, 'epoch': 0.79}
{'loss': 1.2623, 'grad_norm': 0.9453125, 'learning_rate': 2.4626248796298136e-05, 'epoch': 0.79}
{'loss': 1.118, 'grad_norm': 1.1484375, 'learning_rate': 2.461488641883428e-05, 'epoch': 0.79}
{'loss': 1.2886, 'grad_norm': 0.470703125, 'learning_rate': 2.460352404137042e-05, 'epoch': 0.79}
{'loss': 1.3084, 'grad_norm': 0.65234375, 'learning_rate': 2.4592161663906557e-05, 'epoch': 0.79}
{'loss': 1.3172, 'grad_norm': 0.49609375, 'learning_rate': 2.4580799286442695e-05, 'epoch': 0.79}
{'loss': 1.3626, 'grad_norm': 0.5, 'learning_rate': 2.4569436908978836e-05, 'epoch': 0.79}
{'loss': 1.0878, 'grad_norm': 1.5859375, 'learning_rate': 2.4558074531514974e-05, 'epoch': 0.79}
{'loss': 1.3427, 'grad_norm': 0.69140625, 



{'loss': 1.458, 'grad_norm': 0.82421875, 'learning_rate': 2.4376276492093206e-05, 'epoch': 0.79}
{'loss': 1.1572, 'grad_norm': 0.71875, 'learning_rate': 2.4364914114629348e-05, 'epoch': 0.79}
{'loss': 1.1918, 'grad_norm': 0.53515625, 'learning_rate': 2.4353551737165485e-05, 'epoch': 0.79}
{'loss': 1.3005, 'grad_norm': 0.97265625, 'learning_rate': 2.4342189359701627e-05, 'epoch': 0.79}
{'loss': 0.935, 'grad_norm': 0.84765625, 'learning_rate': 2.4330826982237765e-05, 'epoch': 0.79}
{'loss': 1.4292, 'grad_norm': 0.61328125, 'learning_rate': 2.4319464604773902e-05, 'epoch': 0.79}
{'loss': 1.0934, 'grad_norm': 0.8046875, 'learning_rate': 2.4308102227310044e-05, 'epoch': 0.79}
{'loss': 1.1165, 'grad_norm': 0.458984375, 'learning_rate': 2.4296739849846185e-05, 'epoch': 0.79}
{'loss': 1.2968, 'grad_norm': 0.5625, 'learning_rate': 2.4285377472382323e-05, 'epoch': 0.79}
{'loss': 0.9577, 'grad_norm': 0.5703125, 'learning_rate': 2.427401509491846e-05, 'epoch': 0.79}
{'loss': 1.4195, 'grad_norm': 0



{'loss': 1.2993, 'grad_norm': 0.4765625, 'learning_rate': 2.4092217055496693e-05, 'epoch': 0.79}
{'loss': 1.1599, 'grad_norm': 0.84765625, 'learning_rate': 2.408085467803283e-05, 'epoch': 0.79}
{'loss': 1.2235, 'grad_norm': 0.6015625, 'learning_rate': 2.4069492300568972e-05, 'epoch': 0.79}
{'loss': 1.1969, 'grad_norm': 0.875, 'learning_rate': 2.405812992310511e-05, 'epoch': 0.79}
{'loss': 1.0034, 'grad_norm': 0.70703125, 'learning_rate': 2.404676754564125e-05, 'epoch': 0.8}
{'loss': 1.3536, 'grad_norm': 0.609375, 'learning_rate': 2.4035405168177393e-05, 'epoch': 0.8}
{'loss': 1.1303, 'grad_norm': 0.8828125, 'learning_rate': 2.402404279071353e-05, 'epoch': 0.8}
{'loss': 1.3232, 'grad_norm': 0.6484375, 'learning_rate': 2.401268041324967e-05, 'epoch': 0.8}
{'loss': 1.2824, 'grad_norm': 0.68359375, 'learning_rate': 2.4001318035785806e-05, 'epoch': 0.8}
{'loss': 1.0439, 'grad_norm': 0.9453125, 'learning_rate': 2.398995565832195e-05, 'epoch': 0.8}
{'loss': 1.3491, 'grad_norm': 0.66015625, 'l



{'loss': 1.4636, 'grad_norm': 0.5, 'learning_rate': 2.3808157618900177e-05, 'epoch': 0.8}
{'loss': 1.1827, 'grad_norm': 0.671875, 'learning_rate': 2.379679524143632e-05, 'epoch': 0.8}
{'loss': 1.2326, 'grad_norm': 0.47265625, 'learning_rate': 2.378543286397246e-05, 'epoch': 0.8}
{'loss': 1.3258, 'grad_norm': 0.7109375, 'learning_rate': 2.3774070486508597e-05, 'epoch': 0.8}
{'loss': 0.9867, 'grad_norm': 0.828125, 'learning_rate': 2.376270810904474e-05, 'epoch': 0.8}
{'loss': 1.3248, 'grad_norm': 0.5703125, 'learning_rate': 2.3751345731580876e-05, 'epoch': 0.8}
{'loss': 1.2427, 'grad_norm': 0.78515625, 'learning_rate': 2.3739983354117014e-05, 'epoch': 0.8}
{'loss': 1.2135, 'grad_norm': 0.4453125, 'learning_rate': 2.3728620976653156e-05, 'epoch': 0.8}
{'loss': 1.1848, 'grad_norm': 0.71875, 'learning_rate': 2.3717258599189297e-05, 'epoch': 0.8}
{'loss': 1.0303, 'grad_norm': 0.7734375, 'learning_rate': 2.3705896221725435e-05, 'epoch': 0.8}
{'loss': 1.2875, 'grad_norm': 0.92578125, 'learning



{'loss': 1.2276, 'grad_norm': 0.609375, 'learning_rate': 2.3524098182303667e-05, 'epoch': 0.8}
{'loss': 1.0768, 'grad_norm': 0.796875, 'learning_rate': 2.3512735804839805e-05, 'epoch': 0.8}
{'loss': 1.2469, 'grad_norm': 0.48828125, 'learning_rate': 2.3501373427375943e-05, 'epoch': 0.8}
{'loss': 1.4802, 'grad_norm': 0.7734375, 'learning_rate': 2.3490011049912084e-05, 'epoch': 0.8}


In [None]:
trainer.train(resume_from_checkpoint=True)

In [None]:
lora_model_save_dir = "./results/gugugo-experi_01"

In [None]:
model_to_save = trainer.model.module if hasattr(trainer.model, 'module') else trainer.model  # Take care of distributed/parallel training
model_to_save.save_pretrained(lora_model_save_dir, save_embedding_layers = True)

In [None]:
lora_config = LoraConfig.from_pretrained(lora_model_save_dir)
model = get_peft_model(model, lora_config)

In [None]:
tokenizer.push_to_hub('aeolian83/llama_ko_sft_gugugo_experi_01')

CommitInfo(commit_url='https://huggingface.co/aeolian83/llama_ko_sft_kullm_experi_05/commit/a660bf40db1d86c7dea85c0a2328f73c61f61596', commit_message='Upload tokenizer', commit_description='', oid='a660bf40db1d86c7dea85c0a2328f73c61f61596', pr_url=None, pr_revision=None, pr_num=None)