- 좀더 메모리 효율적인 훈련을 위한 테스트 -> 특별히 줄어들지 않음
- 훈련 argument로 max_seq_lenth를 지정하지 않았을 경우 어떻게 되는지 테스트

# 1. Weight and Bias Login

In [1]:
import wandb
import os
os.environ["WANDB_PROJECT"]="QLoRA_Instruction_finetune_07"

wandb.login()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33maeolian83[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

# 2. Login Huggingface

In [2]:
from huggingface_hub import login
from dotenv import load_dotenv

load_dotenv()


login(token= os.environ["HF_TOKEN"])

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/aeolian83/.cache/huggingface/token
Login successful


# 3. Dataset Load

In [3]:
from datasets import load_dataset

In [4]:
ko_instruction_01 = load_dataset("nlpai-lab/kullm-v2", cache_dir="/mnt/t7/.cache/huggingface/datasets", split="train")

In [5]:
ko_instruction_01 = ko_instruction_01.shuffle(seed=2160)

In [6]:
ko_instruction_01

Dataset({
    features: ['id', 'instruction', 'input', 'output'],
    num_rows: 152630
})

In [7]:
ko_instruction_01 = ko_instruction_01.train_test_split(test_size=0.92)

In [8]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['id', 'instruction', 'input', 'output'],
        num_rows: 12210
    })
    test: Dataset({
        features: ['id', 'instruction', 'input', 'output'],
        num_rows: 140420
    })
})

In [9]:
ko_instruction_01["train"][100]

{'id': 'vicuna_{idx}', 'instruction': '/count', 'input': '', 'output': '1'}

# 4. Loading the Model

In [10]:
model_id = "beomi/llama-2-ko-7b"
device_map = {"": 0}
cache_model_dir="/mnt/t7/.cache/huggingface/models"

In [11]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

In [12]:
# 4bit QLoRA 학습을 위한 설정
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

In [13]:
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config, device_map=device_map, cache_dir=cache_model_dir, trust_remote_code=True)
model.config.use_cache = False

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

In [14]:
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True, cache_dir=cache_model_dir)
tokenizer.add_special_tokens({'pad_token': '<PAD>'})


1

In [15]:
tokenizer.padding_side = "right"

In [16]:
model.resize_token_embeddings(len(tokenizer)) # pad_token이 추가되었으므로 embedding과 language modeling head를 resize

Embedding(46337, 4096)

# 5. LoRA Setup

In [17]:
from peft import LoraConfig, get_peft_model

# lora_alpha = 16
# lora_dropout = 0.1
# lora_r = 64

In [18]:
# peft_config = LoraConfig(
#     lora_alpha=lora_alpha,
#     lora_dropout=lora_dropout,
#     r=lora_r,
#     bias="none",
#     task_type="CAUSAL_LM"
# )

peft_config = LoraConfig(
    r=8,
    target_modules=["q_proj", "o_proj", "k_proj", "v_proj", "gate_proj", "up_proj", "down_proj"],
    bias="none",
    task_type="CAUSAL_LM",
)

# 6. Formatting Dataset

In [19]:
def format_instruction(sample):
    system_prompt = f"### instruction: {sample['instruction']}"
    input = f"### input: {sample['input']}" if len(sample["input"]) > 0 else None
    output = f"### output: {sample['output']}"
    # join all the parts together
    prompt = "\n\n".join([i for i in [system_prompt, input, output] if i is not None])
    return prompt

# template dataset to add prompt to each sample
def template_dataset(sample):
    sample["text"] = f"{format_instruction(sample)}{tokenizer.eos_token}"
    return sample

In [20]:
train_dataset = ko_instruction_01['train'].map(template_dataset, remove_columns=list(ko_instruction_01['train'].features), num_proc=10)

Map (num_proc=10):   0%|          | 0/12210 [00:00<?, ? examples/s]

In [21]:
train_dataset["text"][100]

'### instruction: /count\n\n### output: 1</s>'

# 7. Training Argument Setup

In [22]:
from transformers import TrainingArguments

In [23]:
output_dir = "./checkpoint/experi_09"
per_device_train_batch_size = 1
gradient_accumulation_steps = 1
optim = "paged_adamw_32bit"
report_to="wandb"
save_steps = 20
save_total_limit=5
num_train_epochs = 1
logging_steps = 10
learning_rate = 2e-4
max_grad_norm = 0.3
warmup_ratio = 0.03
lr_scheduler_type = "linear"

In [24]:
training_arguments = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim=optim,
    num_train_epochs=num_train_epochs,
    save_steps=save_steps,
    save_total_limit=save_total_limit,
    logging_steps=logging_steps,
    report_to = report_to,
    learning_rate=learning_rate,
    bf16=True,
    max_grad_norm=max_grad_norm,
    warmup_ratio=warmup_ratio,
    group_by_length=True,
    lr_scheduler_type=lr_scheduler_type,
)

In [25]:
from trl import SFTTrainer

max_seq_length = 2048

In [26]:
trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    # max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
)



Map:   0%|          | 0/12210 [00:00<?, ? examples/s]

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [27]:
# for name, module in trainer.model.named_modules():
#     if "norm" in name:
#         module = module.to(torch.float32)

# 8. Training

In [28]:
trainer.train()

  0%|          | 0/12210 [00:00<?, ?it/s]

{'loss': 2.2454, 'grad_norm': 0.345703125, 'learning_rate': 5.449591280653951e-06, 'epoch': 0.0}
{'loss': 2.6333, 'grad_norm': 0.2890625, 'learning_rate': 1.0899182561307902e-05, 'epoch': 0.0}




{'loss': 2.5052, 'grad_norm': 0.3984375, 'learning_rate': 1.6348773841961854e-05, 'epoch': 0.0}
{'loss': 2.9717, 'grad_norm': 0.5390625, 'learning_rate': 2.1798365122615804e-05, 'epoch': 0.0}




{'loss': 4.3036, 'grad_norm': 8.3125, 'learning_rate': 2.7247956403269757e-05, 'epoch': 0.0}
{'loss': 2.2553, 'grad_norm': 0.44140625, 'learning_rate': 3.269754768392371e-05, 'epoch': 0.0}




{'loss': 2.1189, 'grad_norm': 1.03125, 'learning_rate': 3.8147138964577664e-05, 'epoch': 0.01}
{'loss': 2.3372, 'grad_norm': 2.046875, 'learning_rate': 4.359673024523161e-05, 'epoch': 0.01}




{'loss': 2.1178, 'grad_norm': 3.515625, 'learning_rate': 4.9046321525885565e-05, 'epoch': 0.01}
{'loss': 2.2373, 'grad_norm': 4.0, 'learning_rate': 5.4495912806539515e-05, 'epoch': 0.01}




{'loss': 1.8523, 'grad_norm': 0.59375, 'learning_rate': 5.994550408719346e-05, 'epoch': 0.01}
{'loss': 1.88, 'grad_norm': 1.875, 'learning_rate': 6.539509536784741e-05, 'epoch': 0.01}




{'loss': 2.1366, 'grad_norm': 2.375, 'learning_rate': 7.084468664850136e-05, 'epoch': 0.01}
{'loss': 2.1705, 'grad_norm': 2.046875, 'learning_rate': 7.629427792915533e-05, 'epoch': 0.01}




{'loss': 2.1394, 'grad_norm': 2.6875, 'learning_rate': 8.174386920980927e-05, 'epoch': 0.01}
{'loss': 1.7489, 'grad_norm': 0.875, 'learning_rate': 8.719346049046322e-05, 'epoch': 0.01}




{'loss': 1.685, 'grad_norm': 0.765625, 'learning_rate': 9.264305177111718e-05, 'epoch': 0.01}
{'loss': 2.0511, 'grad_norm': 1.375, 'learning_rate': 9.809264305177113e-05, 'epoch': 0.01}




{'loss': 2.0044, 'grad_norm': 2.09375, 'learning_rate': 0.00010354223433242507, 'epoch': 0.02}
{'loss': 1.8339, 'grad_norm': 14.25, 'learning_rate': 0.00010899182561307903, 'epoch': 0.02}




{'loss': 1.8989, 'grad_norm': 0.7109375, 'learning_rate': 0.00011444141689373298, 'epoch': 0.02}
{'loss': 1.7948, 'grad_norm': 0.8515625, 'learning_rate': 0.00011989100817438692, 'epoch': 0.02}




{'loss': 1.7522, 'grad_norm': 1.140625, 'learning_rate': 0.00012534059945504088, 'epoch': 0.02}
{'loss': 1.8619, 'grad_norm': 1.4609375, 'learning_rate': 0.00013079019073569483, 'epoch': 0.02}




{'loss': 1.7898, 'grad_norm': 2.671875, 'learning_rate': 0.00013623978201634878, 'epoch': 0.02}
{'loss': 1.7883, 'grad_norm': 2.71875, 'learning_rate': 0.00014168937329700273, 'epoch': 0.02}




{'loss': 1.9507, 'grad_norm': 0.61328125, 'learning_rate': 0.00014713896457765668, 'epoch': 0.02}
{'loss': 1.8887, 'grad_norm': 0.73046875, 'learning_rate': 0.00015258855585831066, 'epoch': 0.02}




{'loss': 2.1224, 'grad_norm': 1.0390625, 'learning_rate': 0.00015803814713896458, 'epoch': 0.02}
{'loss': 2.0243, 'grad_norm': 10.1875, 'learning_rate': 0.00016348773841961853, 'epoch': 0.02}




{'loss': 1.8376, 'grad_norm': 0.6328125, 'learning_rate': 0.0001689373297002725, 'epoch': 0.03}
{'loss': 1.8846, 'grad_norm': 0.84375, 'learning_rate': 0.00017438692098092643, 'epoch': 0.03}




{'loss': 1.8694, 'grad_norm': 0.96484375, 'learning_rate': 0.00017983651226158038, 'epoch': 0.03}
{'loss': 1.653, 'grad_norm': 1.3125, 'learning_rate': 0.00018528610354223436, 'epoch': 0.03}




{'loss': 2.1088, 'grad_norm': 4.40625, 'learning_rate': 0.00019073569482288828, 'epoch': 0.03}
{'loss': 1.8819, 'grad_norm': 0.416015625, 'learning_rate': 0.00019618528610354226, 'epoch': 0.03}




{'loss': 1.7473, 'grad_norm': 0.71484375, 'learning_rate': 0.0001999493371611923, 'epoch': 0.03}
{'loss': 1.9374, 'grad_norm': 0.89453125, 'learning_rate': 0.00019978046103183317, 'epoch': 0.03}




{'loss': 2.1125, 'grad_norm': 2.203125, 'learning_rate': 0.00019961158490247404, 'epoch': 0.03}
{'loss': 1.945, 'grad_norm': 5.8125, 'learning_rate': 0.00019944270877311494, 'epoch': 0.03}




{'loss': 1.9686, 'grad_norm': 0.60546875, 'learning_rate': 0.0001992738326437558, 'epoch': 0.03}
{'loss': 1.5987, 'grad_norm': 0.95703125, 'learning_rate': 0.00019910495651439668, 'epoch': 0.03}




{'loss': 1.8581, 'grad_norm': 0.72265625, 'learning_rate': 0.00019893608038503758, 'epoch': 0.04}
{'loss': 1.9266, 'grad_norm': 0.8828125, 'learning_rate': 0.00019876720425567848, 'epoch': 0.04}




{'loss': 1.8212, 'grad_norm': 3.796875, 'learning_rate': 0.00019859832812631935, 'epoch': 0.04}
{'loss': 1.9392, 'grad_norm': 0.52734375, 'learning_rate': 0.00019842945199696023, 'epoch': 0.04}




{'loss': 1.7142, 'grad_norm': 0.69921875, 'learning_rate': 0.00019826057586760113, 'epoch': 0.04}
{'loss': 1.7125, 'grad_norm': 0.62890625, 'learning_rate': 0.000198091699738242, 'epoch': 0.04}




{'loss': 2.0136, 'grad_norm': 1.1796875, 'learning_rate': 0.0001979228236088829, 'epoch': 0.04}
{'loss': 1.8416, 'grad_norm': 6.3125, 'learning_rate': 0.0001977539474795238, 'epoch': 0.04}




{'loss': 1.7542, 'grad_norm': 0.56640625, 'learning_rate': 0.00019758507135016467, 'epoch': 0.04}
{'loss': 1.813, 'grad_norm': 0.796875, 'learning_rate': 0.00019741619522080554, 'epoch': 0.04}




{'loss': 1.6023, 'grad_norm': 0.9921875, 'learning_rate': 0.0001972473190914464, 'epoch': 0.04}
{'loss': 2.0142, 'grad_norm': 1.21875, 'learning_rate': 0.00019707844296208734, 'epoch': 0.04}




{'loss': 1.2898, 'grad_norm': 1.78125, 'learning_rate': 0.0001969095668327282, 'epoch': 0.05}
{'loss': 1.448, 'grad_norm': 0.60546875, 'learning_rate': 0.00019674069070336908, 'epoch': 0.05}




{'loss': 1.7339, 'grad_norm': 1.0625, 'learning_rate': 0.00019657181457400998, 'epoch': 0.05}
{'loss': 2.033, 'grad_norm': 0.7109375, 'learning_rate': 0.00019640293844465085, 'epoch': 0.05}




{'loss': 1.6444, 'grad_norm': 0.88671875, 'learning_rate': 0.00019623406231529173, 'epoch': 0.05}
{'loss': 1.7533, 'grad_norm': 2.5, 'learning_rate': 0.00019606518618593263, 'epoch': 0.05}




{'loss': 1.5421, 'grad_norm': 0.890625, 'learning_rate': 0.00019589631005657352, 'epoch': 0.05}
{'loss': 1.6393, 'grad_norm': 0.5234375, 'learning_rate': 0.0001957274339272144, 'epoch': 0.05}




{'loss': 2.0551, 'grad_norm': 1.0078125, 'learning_rate': 0.00019555855779785527, 'epoch': 0.05}
{'loss': 1.7534, 'grad_norm': 1.1875, 'learning_rate': 0.00019538968166849617, 'epoch': 0.05}




{'loss': 1.8745, 'grad_norm': 4.75, 'learning_rate': 0.00019522080553913704, 'epoch': 0.05}
{'loss': 2.0442, 'grad_norm': 0.64453125, 'learning_rate': 0.00019505192940977794, 'epoch': 0.05}




{'loss': 2.0419, 'grad_norm': 0.90625, 'learning_rate': 0.00019488305328041884, 'epoch': 0.05}
{'loss': 1.8262, 'grad_norm': 0.8515625, 'learning_rate': 0.0001947141771510597, 'epoch': 0.06}




{'loss': 1.88, 'grad_norm': 1.671875, 'learning_rate': 0.00019454530102170058, 'epoch': 0.06}
{'loss': 1.5736, 'grad_norm': 2.328125, 'learning_rate': 0.00019437642489234148, 'epoch': 0.06}




{'loss': 1.8037, 'grad_norm': 0.45703125, 'learning_rate': 0.00019420754876298238, 'epoch': 0.06}
{'loss': 1.8314, 'grad_norm': 0.6953125, 'learning_rate': 0.00019403867263362325, 'epoch': 0.06}




{'loss': 1.7553, 'grad_norm': 0.59765625, 'learning_rate': 0.00019386979650426413, 'epoch': 0.06}
{'loss': 1.7287, 'grad_norm': 0.99609375, 'learning_rate': 0.00019370092037490502, 'epoch': 0.06}




{'loss': 1.6493, 'grad_norm': 2.703125, 'learning_rate': 0.0001935320442455459, 'epoch': 0.06}
{'loss': 1.5807, 'grad_norm': 0.6640625, 'learning_rate': 0.00019336316811618677, 'epoch': 0.06}




{'loss': 1.7408, 'grad_norm': 0.6015625, 'learning_rate': 0.00019319429198682767, 'epoch': 0.06}
{'loss': 1.6222, 'grad_norm': 0.65234375, 'learning_rate': 0.00019302541585746857, 'epoch': 0.06}




{'loss': 1.937, 'grad_norm': 1.0234375, 'learning_rate': 0.00019285653972810944, 'epoch': 0.06}
{'loss': 1.6946, 'grad_norm': 5.875, 'learning_rate': 0.0001926876635987503, 'epoch': 0.07}




{'loss': 1.9229, 'grad_norm': 0.5546875, 'learning_rate': 0.0001925187874693912, 'epoch': 0.07}
{'loss': 1.6717, 'grad_norm': 0.6171875, 'learning_rate': 0.00019234991134003208, 'epoch': 0.07}




{'loss': 1.7804, 'grad_norm': 0.62890625, 'learning_rate': 0.00019218103521067298, 'epoch': 0.07}
{'loss': 2.1609, 'grad_norm': 1.515625, 'learning_rate': 0.00019201215908131388, 'epoch': 0.07}




{'loss': 1.4995, 'grad_norm': 3.484375, 'learning_rate': 0.00019184328295195475, 'epoch': 0.07}
{'loss': 1.9778, 'grad_norm': 0.5625, 'learning_rate': 0.00019167440682259563, 'epoch': 0.07}




{'loss': 1.8531, 'grad_norm': 0.8984375, 'learning_rate': 0.00019150553069323652, 'epoch': 0.07}
{'loss': 1.7899, 'grad_norm': 0.9609375, 'learning_rate': 0.00019133665456387742, 'epoch': 0.07}




{'loss': 1.9736, 'grad_norm': 1.3359375, 'learning_rate': 0.0001911677784345183, 'epoch': 0.07}
{'loss': 1.8387, 'grad_norm': 3.078125, 'learning_rate': 0.00019099890230515917, 'epoch': 0.07}




{'loss': 1.8496, 'grad_norm': 0.54296875, 'learning_rate': 0.00019083002617580007, 'epoch': 0.07}
{'loss': 1.7592, 'grad_norm': 0.66796875, 'learning_rate': 0.00019066115004644094, 'epoch': 0.08}




{'loss': 1.7078, 'grad_norm': 1.0546875, 'learning_rate': 0.0001904922739170818, 'epoch': 0.08}
{'loss': 1.6844, 'grad_norm': 1.984375, 'learning_rate': 0.0001903233977877227, 'epoch': 0.08}




{'loss': 1.8648, 'grad_norm': 3.703125, 'learning_rate': 0.0001901545216583636, 'epoch': 0.08}
{'loss': 1.7127, 'grad_norm': 0.42578125, 'learning_rate': 0.00018998564552900448, 'epoch': 0.08}




{'loss': 1.7539, 'grad_norm': 0.640625, 'learning_rate': 0.00018981676939964535, 'epoch': 0.08}
{'loss': 1.7655, 'grad_norm': 0.80859375, 'learning_rate': 0.00018964789327028625, 'epoch': 0.08}




{'loss': 1.8682, 'grad_norm': 1.5625, 'learning_rate': 0.00018947901714092713, 'epoch': 0.08}
{'loss': 1.5017, 'grad_norm': 3.4375, 'learning_rate': 0.00018931014101156802, 'epoch': 0.08}




{'loss': 1.6605, 'grad_norm': 0.5703125, 'learning_rate': 0.00018914126488220892, 'epoch': 0.08}
{'loss': 1.7203, 'grad_norm': 0.60546875, 'learning_rate': 0.0001889723887528498, 'epoch': 0.08}




{'loss': 1.9915, 'grad_norm': 0.71875, 'learning_rate': 0.00018880351262349067, 'epoch': 0.08}
{'loss': 1.7633, 'grad_norm': 1.46875, 'learning_rate': 0.00018863463649413157, 'epoch': 0.09}




{'loss': 1.627, 'grad_norm': 2.5625, 'learning_rate': 0.00018846576036477247, 'epoch': 0.09}
{'loss': 1.7691, 'grad_norm': 0.81640625, 'learning_rate': 0.00018829688423541334, 'epoch': 0.09}




{'loss': 1.8671, 'grad_norm': 0.6171875, 'learning_rate': 0.0001881280081060542, 'epoch': 0.09}
{'loss': 1.7665, 'grad_norm': 0.6171875, 'learning_rate': 0.0001879591319766951, 'epoch': 0.09}




{'loss': 1.8463, 'grad_norm': 1.0703125, 'learning_rate': 0.00018779025584733598, 'epoch': 0.09}
{'loss': 1.7206, 'grad_norm': 1.9453125, 'learning_rate': 0.00018762137971797685, 'epoch': 0.09}




{'loss': 1.8287, 'grad_norm': 0.55859375, 'learning_rate': 0.00018745250358861778, 'epoch': 0.09}
{'loss': 1.7692, 'grad_norm': 0.98828125, 'learning_rate': 0.00018728362745925865, 'epoch': 0.09}




{'loss': 1.7712, 'grad_norm': 0.81640625, 'learning_rate': 0.00018711475132989952, 'epoch': 0.09}
{'loss': 1.5301, 'grad_norm': 1.2734375, 'learning_rate': 0.0001869458752005404, 'epoch': 0.09}




{'loss': 1.6708, 'grad_norm': 3.5, 'learning_rate': 0.0001867769990711813, 'epoch': 0.09}
{'loss': 1.5589, 'grad_norm': 0.609375, 'learning_rate': 0.00018660812294182217, 'epoch': 0.1}




{'loss': 1.9133, 'grad_norm': 0.76171875, 'learning_rate': 0.00018643924681246307, 'epoch': 0.1}
{'loss': 1.731, 'grad_norm': 0.73046875, 'learning_rate': 0.00018627037068310397, 'epoch': 0.1}




{'loss': 1.7194, 'grad_norm': 1.1484375, 'learning_rate': 0.00018610149455374484, 'epoch': 0.1}
{'loss': 1.74, 'grad_norm': 2.625, 'learning_rate': 0.0001859326184243857, 'epoch': 0.1}




{'loss': 1.2916, 'grad_norm': 0.3984375, 'learning_rate': 0.0001857637422950266, 'epoch': 0.1}
{'loss': 1.6806, 'grad_norm': 0.56640625, 'learning_rate': 0.0001855948661656675, 'epoch': 0.1}




{'loss': 1.6755, 'grad_norm': 1.1796875, 'learning_rate': 0.00018542599003630838, 'epoch': 0.1}
{'loss': 1.6771, 'grad_norm': 1.1640625, 'learning_rate': 0.00018525711390694925, 'epoch': 0.1}




{'loss': 1.3222, 'grad_norm': 4.5, 'learning_rate': 0.00018508823777759015, 'epoch': 0.1}
{'loss': 1.7867, 'grad_norm': 0.5078125, 'learning_rate': 0.00018491936164823102, 'epoch': 0.1}




{'loss': 1.7233, 'grad_norm': 0.5546875, 'learning_rate': 0.0001847504855188719, 'epoch': 0.1}
{'loss': 1.8544, 'grad_norm': 0.8203125, 'learning_rate': 0.00018458160938951282, 'epoch': 0.1}




{'loss': 1.9486, 'grad_norm': 1.03125, 'learning_rate': 0.0001844127332601537, 'epoch': 0.11}
{'loss': 1.7583, 'grad_norm': 0.9140625, 'learning_rate': 0.00018424385713079457, 'epoch': 0.11}




{'loss': 1.7238, 'grad_norm': 0.53515625, 'learning_rate': 0.00018407498100143547, 'epoch': 0.11}
{'loss': 1.7318, 'grad_norm': 0.61328125, 'learning_rate': 0.00018390610487207634, 'epoch': 0.11}




{'loss': 1.8032, 'grad_norm': 1.0234375, 'learning_rate': 0.0001837372287427172, 'epoch': 0.11}
{'loss': 1.8237, 'grad_norm': 1.046875, 'learning_rate': 0.0001835683526133581, 'epoch': 0.11}




{'loss': 1.9706, 'grad_norm': 3.1875, 'learning_rate': 0.000183399476483999, 'epoch': 0.11}
{'loss': 1.5386, 'grad_norm': 0.37890625, 'learning_rate': 0.00018323060035463988, 'epoch': 0.11}




{'loss': 1.6184, 'grad_norm': 0.5234375, 'learning_rate': 0.00018306172422528075, 'epoch': 0.11}
{'loss': 1.7, 'grad_norm': 0.71484375, 'learning_rate': 0.00018289284809592165, 'epoch': 0.11}




{'loss': 1.6793, 'grad_norm': 0.87890625, 'learning_rate': 0.00018272397196656255, 'epoch': 0.11}
{'loss': 1.6964, 'grad_norm': 2.46875, 'learning_rate': 0.00018255509583720342, 'epoch': 0.11}




{'loss': 1.6545, 'grad_norm': 0.5625, 'learning_rate': 0.0001823862197078443, 'epoch': 0.12}
{'loss': 1.6816, 'grad_norm': 1.0625, 'learning_rate': 0.0001822173435784852, 'epoch': 0.12}




{'loss': 1.7743, 'grad_norm': 1.1796875, 'learning_rate': 0.00018204846744912607, 'epoch': 0.12}
{'loss': 1.8237, 'grad_norm': 1.65625, 'learning_rate': 0.00018187959131976694, 'epoch': 0.12}




{'loss': 1.549, 'grad_norm': 0.78515625, 'learning_rate': 0.00018171071519040787, 'epoch': 0.12}
{'loss': 1.567, 'grad_norm': 0.75, 'learning_rate': 0.00018154183906104874, 'epoch': 0.12}




{'loss': 1.8825, 'grad_norm': 0.66015625, 'learning_rate': 0.0001813729629316896, 'epoch': 0.12}
{'loss': 1.8073, 'grad_norm': 0.83984375, 'learning_rate': 0.0001812040868023305, 'epoch': 0.12}




{'loss': 1.5182, 'grad_norm': 1.28125, 'learning_rate': 0.00018103521067297138, 'epoch': 0.12}
{'loss': 1.5574, 'grad_norm': 3.609375, 'learning_rate': 0.00018086633454361225, 'epoch': 0.12}




{'loss': 1.6808, 'grad_norm': 0.515625, 'learning_rate': 0.00018069745841425315, 'epoch': 0.12}
{'loss': 1.7545, 'grad_norm': 0.5078125, 'learning_rate': 0.00018052858228489405, 'epoch': 0.12}




{'loss': 1.8008, 'grad_norm': 0.890625, 'learning_rate': 0.00018035970615553492, 'epoch': 0.13}
{'loss': 1.8317, 'grad_norm': 1.28125, 'learning_rate': 0.0001801908300261758, 'epoch': 0.13}




{'loss': 1.6642, 'grad_norm': 2.71875, 'learning_rate': 0.0001800219538968167, 'epoch': 0.13}
{'loss': 1.6397, 'grad_norm': 0.62890625, 'learning_rate': 0.0001798530777674576, 'epoch': 0.13}




{'loss': 1.6919, 'grad_norm': 0.65625, 'learning_rate': 0.00017968420163809847, 'epoch': 0.13}
{'loss': 1.8411, 'grad_norm': 0.64453125, 'learning_rate': 0.00017951532550873934, 'epoch': 0.13}




{'loss': 1.4941, 'grad_norm': 0.66796875, 'learning_rate': 0.00017934644937938024, 'epoch': 0.13}
{'loss': 1.7468, 'grad_norm': 2.3125, 'learning_rate': 0.0001791775732500211, 'epoch': 0.13}




{'loss': 1.7726, 'grad_norm': 0.451171875, 'learning_rate': 0.00017900869712066198, 'epoch': 0.13}
{'loss': 1.7588, 'grad_norm': 0.6953125, 'learning_rate': 0.0001788398209913029, 'epoch': 0.13}




{'loss': 1.9442, 'grad_norm': 0.875, 'learning_rate': 0.00017867094486194378, 'epoch': 0.13}
{'loss': 1.6486, 'grad_norm': 0.8984375, 'learning_rate': 0.00017850206873258465, 'epoch': 0.13}




{'loss': 1.8465, 'grad_norm': 7.59375, 'learning_rate': 0.00017833319260322555, 'epoch': 0.14}
{'loss': 1.6475, 'grad_norm': 0.478515625, 'learning_rate': 0.00017816431647386642, 'epoch': 0.14}




{'loss': 2.0341, 'grad_norm': 0.69140625, 'learning_rate': 0.0001779954403445073, 'epoch': 0.14}
{'loss': 1.5658, 'grad_norm': 0.69921875, 'learning_rate': 0.0001778265642151482, 'epoch': 0.14}




{'loss': 1.6339, 'grad_norm': 1.5078125, 'learning_rate': 0.0001776576880857891, 'epoch': 0.14}
{'loss': 1.9663, 'grad_norm': 3.046875, 'learning_rate': 0.00017748881195642997, 'epoch': 0.14}




{'loss': 1.8182, 'grad_norm': 0.90234375, 'learning_rate': 0.00017731993582707084, 'epoch': 0.14}
{'loss': 1.7324, 'grad_norm': 0.62890625, 'learning_rate': 0.00017715105969771174, 'epoch': 0.14}




{'loss': 1.7206, 'grad_norm': 0.55078125, 'learning_rate': 0.0001769821835683526, 'epoch': 0.14}
{'loss': 1.6454, 'grad_norm': 0.890625, 'learning_rate': 0.0001768133074389935, 'epoch': 0.14}




{'loss': 1.7059, 'grad_norm': 3.109375, 'learning_rate': 0.00017664443130963438, 'epoch': 0.14}
{'loss': 1.9931, 'grad_norm': 0.52734375, 'learning_rate': 0.00017647555518027528, 'epoch': 0.14}




{'loss': 1.5806, 'grad_norm': 1.4375, 'learning_rate': 0.00017630667905091615, 'epoch': 0.14}
{'loss': 1.8209, 'grad_norm': 0.86328125, 'learning_rate': 0.00017613780292155703, 'epoch': 0.15}




{'loss': 1.7506, 'grad_norm': 1.1953125, 'learning_rate': 0.00017596892679219795, 'epoch': 0.15}
{'loss': 1.6083, 'grad_norm': 2.953125, 'learning_rate': 0.00017580005066283882, 'epoch': 0.15}




{'loss': 1.5972, 'grad_norm': 0.61328125, 'learning_rate': 0.0001756311745334797, 'epoch': 0.15}
{'loss': 1.891, 'grad_norm': 0.8046875, 'learning_rate': 0.0001754622984041206, 'epoch': 0.15}




{'loss': 1.8918, 'grad_norm': 1.453125, 'learning_rate': 0.00017529342227476147, 'epoch': 0.15}
{'loss': 1.9376, 'grad_norm': 2.34375, 'learning_rate': 0.00017512454614540234, 'epoch': 0.15}




{'loss': 1.6934, 'grad_norm': 1.7890625, 'learning_rate': 0.00017495567001604324, 'epoch': 0.15}
{'loss': 1.908, 'grad_norm': 0.59375, 'learning_rate': 0.00017478679388668414, 'epoch': 0.15}




{'loss': 1.6859, 'grad_norm': 1.28125, 'learning_rate': 0.000174617917757325, 'epoch': 0.15}
{'loss': 1.8004, 'grad_norm': 0.78515625, 'learning_rate': 0.00017444904162796588, 'epoch': 0.15}




{'loss': 1.846, 'grad_norm': 1.4921875, 'learning_rate': 0.00017428016549860678, 'epoch': 0.15}
{'loss': 1.5983, 'grad_norm': 2.21875, 'learning_rate': 0.00017411128936924765, 'epoch': 0.16}




{'loss': 1.4691, 'grad_norm': 0.703125, 'learning_rate': 0.00017394241323988855, 'epoch': 0.16}
{'loss': 1.7426, 'grad_norm': 0.59765625, 'learning_rate': 0.00017377353711052945, 'epoch': 0.16}




{'loss': 1.8034, 'grad_norm': 0.73828125, 'learning_rate': 0.00017360466098117032, 'epoch': 0.16}
{'loss': 1.8493, 'grad_norm': 1.40625, 'learning_rate': 0.0001734357848518112, 'epoch': 0.16}




{'loss': 1.8018, 'grad_norm': 3.328125, 'learning_rate': 0.0001732669087224521, 'epoch': 0.16}
{'loss': 2.0739, 'grad_norm': 0.58203125, 'learning_rate': 0.000173098032593093, 'epoch': 0.16}




{'loss': 1.6946, 'grad_norm': 0.6953125, 'learning_rate': 0.00017292915646373387, 'epoch': 0.16}
{'loss': 1.6613, 'grad_norm': 0.8515625, 'learning_rate': 0.00017276028033437474, 'epoch': 0.16}




{'loss': 1.6783, 'grad_norm': 1.796875, 'learning_rate': 0.00017259140420501564, 'epoch': 0.16}
{'loss': 1.7795, 'grad_norm': 2.640625, 'learning_rate': 0.0001724225280756565, 'epoch': 0.16}




{'loss': 1.6202, 'grad_norm': 0.68359375, 'learning_rate': 0.00017225365194629738, 'epoch': 0.16}
{'loss': 1.7429, 'grad_norm': 0.6875, 'learning_rate': 0.00017208477581693828, 'epoch': 0.17}




{'loss': 1.7507, 'grad_norm': 0.8125, 'learning_rate': 0.00017191589968757918, 'epoch': 0.17}
{'loss': 1.8502, 'grad_norm': 1.0859375, 'learning_rate': 0.00017174702355822005, 'epoch': 0.17}




{'loss': 1.7345, 'grad_norm': 1.7421875, 'learning_rate': 0.00017157814742886092, 'epoch': 0.17}
{'loss': 1.6271, 'grad_norm': 0.84765625, 'learning_rate': 0.00017140927129950182, 'epoch': 0.17}




{'loss': 1.5962, 'grad_norm': 1.0859375, 'learning_rate': 0.0001712403951701427, 'epoch': 0.17}
{'loss': 1.6834, 'grad_norm': 0.7578125, 'learning_rate': 0.0001710715190407836, 'epoch': 0.17}




{'loss': 1.853, 'grad_norm': 1.0, 'learning_rate': 0.0001709026429114245, 'epoch': 0.17}
{'loss': 1.5873, 'grad_norm': 1.859375, 'learning_rate': 0.00017073376678206537, 'epoch': 0.17}




{'loss': 1.4934, 'grad_norm': 0.7421875, 'learning_rate': 0.00017056489065270624, 'epoch': 0.17}
{'loss': 1.3492, 'grad_norm': 0.54296875, 'learning_rate': 0.00017039601452334714, 'epoch': 0.17}




{'loss': 1.6873, 'grad_norm': 0.83984375, 'learning_rate': 0.00017022713839398804, 'epoch': 0.17}
{'loss': 1.6972, 'grad_norm': 1.4140625, 'learning_rate': 0.0001700582622646289, 'epoch': 0.18}




{'loss': 1.9126, 'grad_norm': 2.703125, 'learning_rate': 0.00016988938613526978, 'epoch': 0.18}
{'loss': 1.688, 'grad_norm': 0.703125, 'learning_rate': 0.00016972051000591068, 'epoch': 0.18}




{'loss': 1.5564, 'grad_norm': 1.1171875, 'learning_rate': 0.00016955163387655155, 'epoch': 0.18}
{'loss': 1.6173, 'grad_norm': 0.8515625, 'learning_rate': 0.00016938275774719242, 'epoch': 0.18}




{'loss': 1.7199, 'grad_norm': 0.99609375, 'learning_rate': 0.00016921388161783332, 'epoch': 0.18}
{'loss': 1.7981, 'grad_norm': 2.421875, 'learning_rate': 0.00016904500548847422, 'epoch': 0.18}




{'loss': 1.6746, 'grad_norm': 0.5703125, 'learning_rate': 0.0001688761293591151, 'epoch': 0.18}
{'loss': 1.5931, 'grad_norm': 0.56640625, 'learning_rate': 0.00016870725322975597, 'epoch': 0.18}




{'loss': 1.9683, 'grad_norm': 0.7109375, 'learning_rate': 0.00016853837710039687, 'epoch': 0.18}
{'loss': 1.8696, 'grad_norm': 1.71875, 'learning_rate': 0.00016836950097103774, 'epoch': 0.18}




{'loss': 1.7026, 'grad_norm': 4.15625, 'learning_rate': 0.00016820062484167864, 'epoch': 0.18}
{'loss': 1.4114, 'grad_norm': 0.5, 'learning_rate': 0.00016803174871231954, 'epoch': 0.19}




{'loss': 1.9416, 'grad_norm': 0.703125, 'learning_rate': 0.0001678628725829604, 'epoch': 0.19}
{'loss': 1.8012, 'grad_norm': 0.71875, 'learning_rate': 0.00016769399645360128, 'epoch': 0.19}




{'loss': 1.7374, 'grad_norm': 1.125, 'learning_rate': 0.00016752512032424218, 'epoch': 0.19}
{'loss': 1.6826, 'grad_norm': 3.34375, 'learning_rate': 0.00016735624419488308, 'epoch': 0.19}




{'loss': 1.5238, 'grad_norm': 0.68359375, 'learning_rate': 0.00016718736806552395, 'epoch': 0.19}
{'loss': 1.7878, 'grad_norm': 0.9140625, 'learning_rate': 0.00016701849193616482, 'epoch': 0.19}




{'loss': 1.9878, 'grad_norm': 1.15625, 'learning_rate': 0.00016684961580680572, 'epoch': 0.19}
{'loss': 1.9131, 'grad_norm': 1.5078125, 'learning_rate': 0.0001666807396774466, 'epoch': 0.19}




{'loss': 1.6837, 'grad_norm': 2.96875, 'learning_rate': 0.00016651186354808747, 'epoch': 0.19}
{'loss': 1.6333, 'grad_norm': 0.703125, 'learning_rate': 0.00016634298741872837, 'epoch': 0.19}




{'loss': 1.7657, 'grad_norm': 0.6640625, 'learning_rate': 0.00016617411128936927, 'epoch': 0.19}
{'loss': 1.7968, 'grad_norm': 1.1328125, 'learning_rate': 0.00016600523516001014, 'epoch': 0.19}




{'loss': 1.8469, 'grad_norm': 2.34375, 'learning_rate': 0.000165836359030651, 'epoch': 0.2}
{'loss': 1.6091, 'grad_norm': 2.40625, 'learning_rate': 0.0001656674829012919, 'epoch': 0.2}




{'loss': 1.8145, 'grad_norm': 0.8671875, 'learning_rate': 0.00016549860677193278, 'epoch': 0.2}
{'loss': 1.924, 'grad_norm': 0.69921875, 'learning_rate': 0.00016532973064257368, 'epoch': 0.2}




{'loss': 1.7719, 'grad_norm': 0.8828125, 'learning_rate': 0.00016516085451321458, 'epoch': 0.2}
{'loss': 1.8667, 'grad_norm': 1.078125, 'learning_rate': 0.00016499197838385545, 'epoch': 0.2}




{'loss': 1.239, 'grad_norm': 1.046875, 'learning_rate': 0.00016482310225449632, 'epoch': 0.2}
{'loss': 1.6228, 'grad_norm': 0.53515625, 'learning_rate': 0.00016465422612513722, 'epoch': 0.2}




{'loss': 1.7741, 'grad_norm': 0.65625, 'learning_rate': 0.00016448534999577812, 'epoch': 0.2}
{'loss': 1.6835, 'grad_norm': 0.94140625, 'learning_rate': 0.000164316473866419, 'epoch': 0.2}




{'loss': 2.1149, 'grad_norm': 3.0, 'learning_rate': 0.00016414759773705987, 'epoch': 0.2}
{'loss': 1.4313, 'grad_norm': 0.69921875, 'learning_rate': 0.00016397872160770077, 'epoch': 0.2}




{'loss': 1.982, 'grad_norm': 0.546875, 'learning_rate': 0.00016380984547834164, 'epoch': 0.21}
{'loss': 1.6961, 'grad_norm': 0.7265625, 'learning_rate': 0.0001636409693489825, 'epoch': 0.21}




{'loss': 1.8327, 'grad_norm': 0.91796875, 'learning_rate': 0.00016347209321962344, 'epoch': 0.21}
{'loss': 1.8477, 'grad_norm': 0.79296875, 'learning_rate': 0.0001633032170902643, 'epoch': 0.21}




{'loss': 1.9034, 'grad_norm': 2.015625, 'learning_rate': 0.00016313434096090518, 'epoch': 0.21}
{'loss': 1.8136, 'grad_norm': 0.58984375, 'learning_rate': 0.00016296546483154608, 'epoch': 0.21}




{'loss': 1.7168, 'grad_norm': 0.54296875, 'learning_rate': 0.00016279658870218695, 'epoch': 0.21}
{'loss': 1.9508, 'grad_norm': 0.80078125, 'learning_rate': 0.00016262771257282782, 'epoch': 0.21}




{'loss': 1.9364, 'grad_norm': 1.2578125, 'learning_rate': 0.00016245883644346872, 'epoch': 0.21}
{'loss': 1.611, 'grad_norm': 2.078125, 'learning_rate': 0.00016228996031410962, 'epoch': 0.21}




{'loss': 1.7689, 'grad_norm': 0.5546875, 'learning_rate': 0.0001621210841847505, 'epoch': 0.21}
{'loss': 1.6922, 'grad_norm': 0.70703125, 'learning_rate': 0.00016195220805539137, 'epoch': 0.21}




{'loss': 1.7366, 'grad_norm': 0.74609375, 'learning_rate': 0.00016178333192603227, 'epoch': 0.22}
{'loss': 1.672, 'grad_norm': 1.1953125, 'learning_rate': 0.00016161445579667317, 'epoch': 0.22}




{'loss': 1.8594, 'grad_norm': 2.234375, 'learning_rate': 0.00016144557966731404, 'epoch': 0.22}
{'loss': 1.7662, 'grad_norm': 0.8125, 'learning_rate': 0.0001612767035379549, 'epoch': 0.22}




{'loss': 1.6838, 'grad_norm': 0.55078125, 'learning_rate': 0.0001611078274085958, 'epoch': 0.22}
{'loss': 1.7061, 'grad_norm': 0.73828125, 'learning_rate': 0.00016093895127923668, 'epoch': 0.22}




{'loss': 1.8335, 'grad_norm': 0.97265625, 'learning_rate': 0.00016077007514987755, 'epoch': 0.22}
{'loss': 1.8853, 'grad_norm': 5.0625, 'learning_rate': 0.00016060119902051848, 'epoch': 0.22}




{'loss': 1.6595, 'grad_norm': 0.494140625, 'learning_rate': 0.00016043232289115935, 'epoch': 0.22}
{'loss': 1.6791, 'grad_norm': 0.59375, 'learning_rate': 0.00016026344676180022, 'epoch': 0.22}




{'loss': 1.6323, 'grad_norm': 0.91796875, 'learning_rate': 0.00016009457063244112, 'epoch': 0.22}
{'loss': 1.9511, 'grad_norm': 1.5546875, 'learning_rate': 0.000159925694503082, 'epoch': 0.22}




{'loss': 1.8707, 'grad_norm': 1.75, 'learning_rate': 0.00015975681837372287, 'epoch': 0.23}
{'loss': 1.8493, 'grad_norm': 0.388671875, 'learning_rate': 0.00015958794224436377, 'epoch': 0.23}




{'loss': 1.6586, 'grad_norm': 0.6015625, 'learning_rate': 0.00015941906611500467, 'epoch': 0.23}
{'loss': 1.7125, 'grad_norm': 0.78515625, 'learning_rate': 0.00015925018998564554, 'epoch': 0.23}




{'loss': 1.6588, 'grad_norm': 1.2578125, 'learning_rate': 0.0001590813138562864, 'epoch': 0.23}
{'loss': 1.9224, 'grad_norm': 2.15625, 'learning_rate': 0.0001589124377269273, 'epoch': 0.23}




{'loss': 1.6504, 'grad_norm': 0.5859375, 'learning_rate': 0.0001587435615975682, 'epoch': 0.23}
{'loss': 1.8039, 'grad_norm': 0.94140625, 'learning_rate': 0.00015857468546820908, 'epoch': 0.23}




{'loss': 1.9362, 'grad_norm': 0.81640625, 'learning_rate': 0.00015840580933884995, 'epoch': 0.23}
{'loss': 1.8073, 'grad_norm': 0.90234375, 'learning_rate': 0.00015823693320949085, 'epoch': 0.23}




{'loss': 1.7703, 'grad_norm': 1.796875, 'learning_rate': 0.00015806805708013172, 'epoch': 0.23}
{'loss': 1.9259, 'grad_norm': 0.62109375, 'learning_rate': 0.0001578991809507726, 'epoch': 0.23}




{'loss': 1.6063, 'grad_norm': 0.51953125, 'learning_rate': 0.00015773030482141352, 'epoch': 0.24}
{'loss': 1.4742, 'grad_norm': 0.79296875, 'learning_rate': 0.0001575614286920544, 'epoch': 0.24}




{'loss': 1.7024, 'grad_norm': 1.5078125, 'learning_rate': 0.00015739255256269527, 'epoch': 0.24}
{'loss': 1.5773, 'grad_norm': 1.40625, 'learning_rate': 0.00015722367643333617, 'epoch': 0.24}




{'loss': 1.7364, 'grad_norm': 0.69921875, 'learning_rate': 0.00015705480030397704, 'epoch': 0.24}
{'loss': 1.5899, 'grad_norm': 0.57421875, 'learning_rate': 0.0001568859241746179, 'epoch': 0.24}




{'loss': 1.6702, 'grad_norm': 0.7578125, 'learning_rate': 0.0001567170480452588, 'epoch': 0.24}
{'loss': 1.5521, 'grad_norm': 0.98046875, 'learning_rate': 0.0001565481719158997, 'epoch': 0.24}




{'loss': 1.8091, 'grad_norm': 1.625, 'learning_rate': 0.00015637929578654058, 'epoch': 0.24}
{'loss': 1.4782, 'grad_norm': 0.6328125, 'learning_rate': 0.00015621041965718145, 'epoch': 0.24}




{'loss': 1.6589, 'grad_norm': 0.734375, 'learning_rate': 0.00015604154352782235, 'epoch': 0.24}
{'loss': 1.7679, 'grad_norm': 0.71484375, 'learning_rate': 0.00015587266739846325, 'epoch': 0.24}




{'loss': 1.9632, 'grad_norm': 1.0390625, 'learning_rate': 0.00015570379126910412, 'epoch': 0.24}
{'loss': 1.7483, 'grad_norm': 2.0625, 'learning_rate': 0.000155534915139745, 'epoch': 0.25}




{'loss': 2.0067, 'grad_norm': 0.90625, 'learning_rate': 0.0001553660390103859, 'epoch': 0.25}
{'loss': 1.6116, 'grad_norm': 0.71484375, 'learning_rate': 0.00015519716288102677, 'epoch': 0.25}




{'loss': 1.5912, 'grad_norm': 0.953125, 'learning_rate': 0.00015502828675166764, 'epoch': 0.25}
{'loss': 2.0535, 'grad_norm': 1.0390625, 'learning_rate': 0.00015485941062230856, 'epoch': 0.25}




{'loss': 1.8052, 'grad_norm': 1.796875, 'learning_rate': 0.00015469053449294944, 'epoch': 0.25}
{'loss': 1.78, 'grad_norm': 0.71875, 'learning_rate': 0.0001545216583635903, 'epoch': 0.25}




{'loss': 1.7501, 'grad_norm': 0.65625, 'learning_rate': 0.0001543527822342312, 'epoch': 0.25}
{'loss': 1.7766, 'grad_norm': 0.82421875, 'learning_rate': 0.00015418390610487208, 'epoch': 0.25}




{'loss': 1.8045, 'grad_norm': 1.328125, 'learning_rate': 0.00015401502997551295, 'epoch': 0.25}
{'loss': 1.5392, 'grad_norm': 2.546875, 'learning_rate': 0.00015384615384615385, 'epoch': 0.25}




{'loss': 1.341, 'grad_norm': 0.609375, 'learning_rate': 0.00015367727771679475, 'epoch': 0.25}
{'loss': 1.5318, 'grad_norm': 0.58984375, 'learning_rate': 0.00015350840158743562, 'epoch': 0.26}




{'loss': 1.742, 'grad_norm': 0.79296875, 'learning_rate': 0.0001533395254580765, 'epoch': 0.26}
{'loss': 1.7875, 'grad_norm': 0.90625, 'learning_rate': 0.0001531706493287174, 'epoch': 0.26}




{'loss': 1.6671, 'grad_norm': 1.8828125, 'learning_rate': 0.00015300177319935827, 'epoch': 0.26}
{'loss': 1.8328, 'grad_norm': 0.90234375, 'learning_rate': 0.00015283289706999917, 'epoch': 0.26}




{'loss': 1.6345, 'grad_norm': 0.7578125, 'learning_rate': 0.00015266402094064006, 'epoch': 0.26}
{'loss': 1.7568, 'grad_norm': 0.77734375, 'learning_rate': 0.00015249514481128094, 'epoch': 0.26}




{'loss': 1.5856, 'grad_norm': 1.203125, 'learning_rate': 0.0001523262686819218, 'epoch': 0.26}
{'loss': 1.4357, 'grad_norm': 1.265625, 'learning_rate': 0.00015215739255256268, 'epoch': 0.26}




{'loss': 1.8735, 'grad_norm': 0.578125, 'learning_rate': 0.0001519885164232036, 'epoch': 0.26}
{'loss': 1.5664, 'grad_norm': 0.5, 'learning_rate': 0.00015181964029384448, 'epoch': 0.26}




{'loss': 1.8358, 'grad_norm': 0.87109375, 'learning_rate': 0.00015165076416448535, 'epoch': 0.26}
{'loss': 1.8339, 'grad_norm': 1.4140625, 'learning_rate': 0.00015148188803512625, 'epoch': 0.27}




{'loss': 1.5488, 'grad_norm': 3.28125, 'learning_rate': 0.00015131301190576712, 'epoch': 0.27}
{'loss': 1.7116, 'grad_norm': 0.7890625, 'learning_rate': 0.000151144135776408, 'epoch': 0.27}




{'loss': 1.7183, 'grad_norm': 0.78125, 'learning_rate': 0.0001509752596470489, 'epoch': 0.27}
{'loss': 1.6634, 'grad_norm': 0.79296875, 'learning_rate': 0.0001508063835176898, 'epoch': 0.27}




{'loss': 1.9237, 'grad_norm': 1.859375, 'learning_rate': 0.00015063750738833067, 'epoch': 0.27}
{'loss': 1.8727, 'grad_norm': 2.578125, 'learning_rate': 0.00015046863125897154, 'epoch': 0.27}




{'loss': 1.6245, 'grad_norm': 0.515625, 'learning_rate': 0.00015029975512961244, 'epoch': 0.27}
{'loss': 1.848, 'grad_norm': 0.8125, 'learning_rate': 0.0001501308790002533, 'epoch': 0.27}




{'loss': 1.8327, 'grad_norm': 0.74609375, 'learning_rate': 0.0001499620028708942, 'epoch': 0.27}
{'loss': 1.708, 'grad_norm': 1.03125, 'learning_rate': 0.0001497931267415351, 'epoch': 0.27}




{'loss': 1.8509, 'grad_norm': 2.640625, 'learning_rate': 0.00014962425061217598, 'epoch': 0.27}
{'loss': 1.5272, 'grad_norm': 0.61328125, 'learning_rate': 0.00014945537448281685, 'epoch': 0.28}




{'loss': 1.7502, 'grad_norm': 1.0859375, 'learning_rate': 0.00014928649835345775, 'epoch': 0.28}
{'loss': 1.6476, 'grad_norm': 0.70703125, 'learning_rate': 0.00014911762222409865, 'epoch': 0.28}




{'loss': 1.7466, 'grad_norm': 1.3984375, 'learning_rate': 0.00014894874609473952, 'epoch': 0.28}
{'loss': 1.7055, 'grad_norm': 2.0, 'learning_rate': 0.0001487798699653804, 'epoch': 0.28}




{'loss': 1.4164, 'grad_norm': 0.451171875, 'learning_rate': 0.0001486109938360213, 'epoch': 0.28}
{'loss': 1.6626, 'grad_norm': 0.546875, 'learning_rate': 0.00014844211770666217, 'epoch': 0.28}




{'loss': 1.7122, 'grad_norm': 0.80859375, 'learning_rate': 0.00014827324157730304, 'epoch': 0.28}
{'loss': 2.0156, 'grad_norm': 0.98828125, 'learning_rate': 0.00014810436544794394, 'epoch': 0.28}




{'loss': 1.8186, 'grad_norm': 2.015625, 'learning_rate': 0.00014793548931858484, 'epoch': 0.28}
{'loss': 1.9533, 'grad_norm': 0.75390625, 'learning_rate': 0.0001477666131892257, 'epoch': 0.28}




{'loss': 1.6599, 'grad_norm': 0.6640625, 'learning_rate': 0.00014759773705986658, 'epoch': 0.28}
{'loss': 1.7438, 'grad_norm': 1.125, 'learning_rate': 0.00014742886093050748, 'epoch': 0.29}




{'loss': 1.8977, 'grad_norm': 2.53125, 'learning_rate': 0.00014725998480114835, 'epoch': 0.29}
{'loss': 1.7708, 'grad_norm': 3.328125, 'learning_rate': 0.00014709110867178925, 'epoch': 0.29}




{'loss': 1.4423, 'grad_norm': 0.53125, 'learning_rate': 0.00014692223254243015, 'epoch': 0.29}
{'loss': 1.8603, 'grad_norm': 0.76171875, 'learning_rate': 0.00014675335641307102, 'epoch': 0.29}




{'loss': 1.8825, 'grad_norm': 0.77734375, 'learning_rate': 0.0001465844802837119, 'epoch': 0.29}
{'loss': 1.7176, 'grad_norm': 1.0234375, 'learning_rate': 0.0001464156041543528, 'epoch': 0.29}




{'loss': 1.6543, 'grad_norm': 0.984375, 'learning_rate': 0.0001462467280249937, 'epoch': 0.29}
{'loss': 1.578, 'grad_norm': 0.86328125, 'learning_rate': 0.00014607785189563456, 'epoch': 0.29}




{'loss': 1.8378, 'grad_norm': 0.9296875, 'learning_rate': 0.00014590897576627544, 'epoch': 0.29}
{'loss': 1.7251, 'grad_norm': 0.93359375, 'learning_rate': 0.00014574009963691634, 'epoch': 0.29}




{'loss': 1.6954, 'grad_norm': 1.3515625, 'learning_rate': 0.0001455712235075572, 'epoch': 0.29}
{'loss': 1.7062, 'grad_norm': 1.890625, 'learning_rate': 0.00014540234737819808, 'epoch': 0.29}




{'loss': 1.4398, 'grad_norm': 0.6875, 'learning_rate': 0.00014523347124883898, 'epoch': 0.3}
{'loss': 1.7995, 'grad_norm': 0.921875, 'learning_rate': 0.00014506459511947988, 'epoch': 0.3}




{'loss': 1.875, 'grad_norm': 0.96484375, 'learning_rate': 0.00014489571899012075, 'epoch': 0.3}
{'loss': 1.6983, 'grad_norm': 1.5234375, 'learning_rate': 0.00014472684286076162, 'epoch': 0.3}




{'loss': 1.7372, 'grad_norm': 1.84375, 'learning_rate': 0.00014455796673140252, 'epoch': 0.3}
{'loss': 1.6658, 'grad_norm': 0.76171875, 'learning_rate': 0.0001443890906020434, 'epoch': 0.3}




{'loss': 1.7773, 'grad_norm': 0.59375, 'learning_rate': 0.0001442202144726843, 'epoch': 0.3}
{'loss': 1.7928, 'grad_norm': 0.89453125, 'learning_rate': 0.0001440513383433252, 'epoch': 0.3}




{'loss': 1.6021, 'grad_norm': 1.25, 'learning_rate': 0.00014388246221396606, 'epoch': 0.3}
{'loss': 1.7503, 'grad_norm': 0.73828125, 'learning_rate': 0.00014371358608460694, 'epoch': 0.3}




{'loss': 2.0983, 'grad_norm': 0.78125, 'learning_rate': 0.00014354470995524784, 'epoch': 0.3}
{'loss': 1.5816, 'grad_norm': 0.734375, 'learning_rate': 0.00014337583382588874, 'epoch': 0.3}




{'loss': 1.7458, 'grad_norm': 0.6953125, 'learning_rate': 0.0001432069576965296, 'epoch': 0.31}
{'loss': 1.5925, 'grad_norm': 1.2890625, 'learning_rate': 0.00014303808156717048, 'epoch': 0.31}




{'loss': 1.9828, 'grad_norm': 3.375, 'learning_rate': 0.00014286920543781138, 'epoch': 0.31}
{'loss': 1.439, 'grad_norm': 0.88671875, 'learning_rate': 0.00014270032930845225, 'epoch': 0.31}




{'loss': 1.7311, 'grad_norm': 0.65625, 'learning_rate': 0.00014253145317909312, 'epoch': 0.31}
{'loss': 1.6949, 'grad_norm': 0.9765625, 'learning_rate': 0.00014236257704973405, 'epoch': 0.31}




{'loss': 1.7272, 'grad_norm': 1.1875, 'learning_rate': 0.00014219370092037492, 'epoch': 0.31}
{'loss': 1.9641, 'grad_norm': 2.1875, 'learning_rate': 0.0001420248247910158, 'epoch': 0.31}




{'loss': 1.43, 'grad_norm': 0.69921875, 'learning_rate': 0.00014185594866165667, 'epoch': 0.31}
{'loss': 1.6688, 'grad_norm': 0.671875, 'learning_rate': 0.00014168707253229757, 'epoch': 0.31}




{'loss': 1.717, 'grad_norm': 0.79296875, 'learning_rate': 0.00014151819640293844, 'epoch': 0.31}
{'loss': 1.6284, 'grad_norm': 1.3828125, 'learning_rate': 0.00014134932027357934, 'epoch': 0.31}




{'loss': 1.5145, 'grad_norm': 1.953125, 'learning_rate': 0.00014118044414422024, 'epoch': 0.32}
{'loss': 1.7448, 'grad_norm': 0.6796875, 'learning_rate': 0.0001410115680148611, 'epoch': 0.32}




{'loss': 1.6994, 'grad_norm': 0.9375, 'learning_rate': 0.00014084269188550198, 'epoch': 0.32}
{'loss': 1.8276, 'grad_norm': 0.98828125, 'learning_rate': 0.00014067381575614288, 'epoch': 0.32}




{'loss': 1.7292, 'grad_norm': 2.15625, 'learning_rate': 0.00014050493962678378, 'epoch': 0.32}
{'loss': 1.7586, 'grad_norm': 2.3125, 'learning_rate': 0.00014033606349742465, 'epoch': 0.32}




{'loss': 1.5977, 'grad_norm': 0.78515625, 'learning_rate': 0.00014016718736806552, 'epoch': 0.32}
{'loss': 1.5081, 'grad_norm': 0.7265625, 'learning_rate': 0.00013999831123870642, 'epoch': 0.32}




{'loss': 1.6802, 'grad_norm': 0.72265625, 'learning_rate': 0.0001398294351093473, 'epoch': 0.32}
{'loss': 1.7447, 'grad_norm': 1.4453125, 'learning_rate': 0.00013966055897998817, 'epoch': 0.32}




{'loss': 1.7018, 'grad_norm': 2.234375, 'learning_rate': 0.0001394916828506291, 'epoch': 0.32}
{'loss': 1.7173, 'grad_norm': 0.65625, 'learning_rate': 0.00013932280672126996, 'epoch': 0.32}




{'loss': 1.4867, 'grad_norm': 0.55078125, 'learning_rate': 0.00013915393059191084, 'epoch': 0.33}
{'loss': 1.5936, 'grad_norm': 0.70703125, 'learning_rate': 0.00013898505446255174, 'epoch': 0.33}




{'loss': 1.9763, 'grad_norm': 1.4609375, 'learning_rate': 0.0001388161783331926, 'epoch': 0.33}
{'loss': 1.3832, 'grad_norm': 3.90625, 'learning_rate': 0.00013864730220383348, 'epoch': 0.33}




{'loss': 1.576, 'grad_norm': 0.6171875, 'learning_rate': 0.00013847842607447438, 'epoch': 0.33}
{'loss': 1.7965, 'grad_norm': 0.70703125, 'learning_rate': 0.00013830954994511528, 'epoch': 0.33}




{'loss': 1.8874, 'grad_norm': 0.765625, 'learning_rate': 0.00013814067381575615, 'epoch': 0.33}
{'loss': 1.6945, 'grad_norm': 1.0625, 'learning_rate': 0.00013797179768639702, 'epoch': 0.33}




{'loss': 1.6986, 'grad_norm': 1.6171875, 'learning_rate': 0.00013780292155703792, 'epoch': 0.33}
{'loss': 1.5772, 'grad_norm': 0.53515625, 'learning_rate': 0.00013763404542767882, 'epoch': 0.33}




{'loss': 1.7807, 'grad_norm': 0.68359375, 'learning_rate': 0.0001374651692983197, 'epoch': 0.33}
{'loss': 1.9198, 'grad_norm': 1.359375, 'learning_rate': 0.00013729629316896057, 'epoch': 0.33}




{'loss': 1.7841, 'grad_norm': 1.4296875, 'learning_rate': 0.00013712741703960146, 'epoch': 0.33}
{'loss': 1.7895, 'grad_norm': 1.640625, 'learning_rate': 0.00013695854091024234, 'epoch': 0.34}




{'loss': 1.54, 'grad_norm': 0.61328125, 'learning_rate': 0.0001367896647808832, 'epoch': 0.34}
{'loss': 1.7808, 'grad_norm': 0.73046875, 'learning_rate': 0.00013662078865152413, 'epoch': 0.34}




{'loss': 1.4792, 'grad_norm': 0.8359375, 'learning_rate': 0.000136451912522165, 'epoch': 0.34}
{'loss': 2.0143, 'grad_norm': 2.15625, 'learning_rate': 0.00013628303639280588, 'epoch': 0.34}




{'loss': 1.3779, 'grad_norm': 2.921875, 'learning_rate': 0.00013611416026344678, 'epoch': 0.34}
{'loss': 1.7844, 'grad_norm': 0.53515625, 'learning_rate': 0.00013594528413408765, 'epoch': 0.34}




{'loss': 1.5455, 'grad_norm': 1.046875, 'learning_rate': 0.00013577640800472852, 'epoch': 0.34}
{'loss': 1.5822, 'grad_norm': 0.7578125, 'learning_rate': 0.00013560753187536942, 'epoch': 0.34}




{'loss': 1.5544, 'grad_norm': 0.9453125, 'learning_rate': 0.00013543865574601032, 'epoch': 0.34}
{'loss': 1.6727, 'grad_norm': 1.6875, 'learning_rate': 0.0001352697796166512, 'epoch': 0.34}




{'loss': 1.5455, 'grad_norm': 0.435546875, 'learning_rate': 0.00013510090348729207, 'epoch': 0.34}
{'loss': 1.6771, 'grad_norm': 0.6796875, 'learning_rate': 0.00013493202735793296, 'epoch': 0.35}




{'loss': 1.6852, 'grad_norm': 0.765625, 'learning_rate': 0.00013476315122857386, 'epoch': 0.35}
{'loss': 1.7035, 'grad_norm': 1.328125, 'learning_rate': 0.00013459427509921474, 'epoch': 0.35}




{'loss': 1.3258, 'grad_norm': 1.0546875, 'learning_rate': 0.0001344253989698556, 'epoch': 0.35}
{'loss': 1.4563, 'grad_norm': 0.75390625, 'learning_rate': 0.0001342565228404965, 'epoch': 0.35}




{'loss': 1.8199, 'grad_norm': 0.9296875, 'learning_rate': 0.00013408764671113738, 'epoch': 0.35}
{'loss': 1.6683, 'grad_norm': 0.78125, 'learning_rate': 0.00013391877058177825, 'epoch': 0.35}




{'loss': 1.5747, 'grad_norm': 1.1875, 'learning_rate': 0.00013374989445241918, 'epoch': 0.35}
{'loss': 1.5346, 'grad_norm': 2.71875, 'learning_rate': 0.00013358101832306005, 'epoch': 0.35}




{'loss': 1.8928, 'grad_norm': 0.65234375, 'learning_rate': 0.00013341214219370092, 'epoch': 0.35}
{'loss': 1.6757, 'grad_norm': 0.72265625, 'learning_rate': 0.00013324326606434182, 'epoch': 0.35}




{'loss': 1.5999, 'grad_norm': 0.8671875, 'learning_rate': 0.0001330743899349827, 'epoch': 0.35}
{'loss': 1.7898, 'grad_norm': 1.3125, 'learning_rate': 0.00013290551380562357, 'epoch': 0.36}




{'loss': 1.8672, 'grad_norm': 2.828125, 'learning_rate': 0.00013273663767626446, 'epoch': 0.36}
{'loss': 1.5419, 'grad_norm': 0.53515625, 'learning_rate': 0.00013256776154690536, 'epoch': 0.36}




{'loss': 1.6356, 'grad_norm': 0.87890625, 'learning_rate': 0.00013239888541754624, 'epoch': 0.36}
{'loss': 1.7982, 'grad_norm': 1.015625, 'learning_rate': 0.0001322300092881871, 'epoch': 0.36}




{'loss': 1.9347, 'grad_norm': 1.3203125, 'learning_rate': 0.000132061133158828, 'epoch': 0.36}
{'loss': 1.5392, 'grad_norm': 3.21875, 'learning_rate': 0.0001318922570294689, 'epoch': 0.36}




{'loss': 1.5429, 'grad_norm': 0.6796875, 'learning_rate': 0.00013172338090010978, 'epoch': 0.36}
{'loss': 1.3753, 'grad_norm': 0.78515625, 'learning_rate': 0.00013155450477075065, 'epoch': 0.36}




{'loss': 1.7394, 'grad_norm': 0.62890625, 'learning_rate': 0.00013138562864139155, 'epoch': 0.36}
{'loss': 1.4986, 'grad_norm': 0.97265625, 'learning_rate': 0.00013121675251203242, 'epoch': 0.36}




{'loss': 1.8957, 'grad_norm': 4.0625, 'learning_rate': 0.0001310478763826733, 'epoch': 0.36}
{'loss': 1.5677, 'grad_norm': 0.5859375, 'learning_rate': 0.00013087900025331422, 'epoch': 0.37}




{'loss': 1.7004, 'grad_norm': 0.73046875, 'learning_rate': 0.0001307101241239551, 'epoch': 0.37}
{'loss': 1.7903, 'grad_norm': 1.171875, 'learning_rate': 0.00013054124799459596, 'epoch': 0.37}




{'loss': 1.8571, 'grad_norm': 1.1484375, 'learning_rate': 0.00013037237186523686, 'epoch': 0.37}
{'loss': 1.7953, 'grad_norm': 3.375, 'learning_rate': 0.00013020349573587774, 'epoch': 0.37}




{'loss': 1.6456, 'grad_norm': 0.60546875, 'learning_rate': 0.0001300346196065186, 'epoch': 0.37}
{'loss': 1.7551, 'grad_norm': 0.80078125, 'learning_rate': 0.0001298657434771595, 'epoch': 0.37}




{'loss': 1.7838, 'grad_norm': 0.90625, 'learning_rate': 0.0001296968673478004, 'epoch': 0.37}
{'loss': 1.8229, 'grad_norm': 1.2734375, 'learning_rate': 0.00012952799121844128, 'epoch': 0.37}




{'loss': 1.7078, 'grad_norm': 2.015625, 'learning_rate': 0.00012935911508908215, 'epoch': 0.37}
{'loss': 1.7988, 'grad_norm': 0.5546875, 'learning_rate': 0.00012919023895972305, 'epoch': 0.37}




{'loss': 1.8899, 'grad_norm': 0.8984375, 'learning_rate': 0.00012902136283036392, 'epoch': 0.37}
{'loss': 1.7771, 'grad_norm': 1.0390625, 'learning_rate': 0.00012885248670100482, 'epoch': 0.38}




{'loss': 1.7795, 'grad_norm': 1.1875, 'learning_rate': 0.00012868361057164572, 'epoch': 0.38}
{'loss': 1.6607, 'grad_norm': 1.8984375, 'learning_rate': 0.0001285147344422866, 'epoch': 0.38}




{'loss': 1.4659, 'grad_norm': 0.8203125, 'learning_rate': 0.00012834585831292746, 'epoch': 0.38}
{'loss': 1.8209, 'grad_norm': 0.77734375, 'learning_rate': 0.00012817698218356836, 'epoch': 0.38}




{'loss': 1.7325, 'grad_norm': 0.6640625, 'learning_rate': 0.00012800810605420926, 'epoch': 0.38}
{'loss': 1.7047, 'grad_norm': 1.125, 'learning_rate': 0.00012783922992485014, 'epoch': 0.38}




{'loss': 1.7799, 'grad_norm': 1.6484375, 'learning_rate': 0.000127670353795491, 'epoch': 0.38}
{'loss': 1.8235, 'grad_norm': 0.9375, 'learning_rate': 0.0001275014776661319, 'epoch': 0.38}




{'loss': 1.777, 'grad_norm': 0.59765625, 'learning_rate': 0.00012733260153677278, 'epoch': 0.38}
{'loss': 1.8448, 'grad_norm': 1.4453125, 'learning_rate': 0.00012716372540741365, 'epoch': 0.38}




{'loss': 2.0901, 'grad_norm': 1.3671875, 'learning_rate': 0.00012699484927805455, 'epoch': 0.38}
{'loss': 1.6722, 'grad_norm': 1.7578125, 'learning_rate': 0.00012682597314869545, 'epoch': 0.38}




{'loss': 1.8187, 'grad_norm': 0.76953125, 'learning_rate': 0.00012665709701933632, 'epoch': 0.39}
{'loss': 1.9395, 'grad_norm': 0.82421875, 'learning_rate': 0.0001264882208899772, 'epoch': 0.39}




{'loss': 1.6633, 'grad_norm': 1.0703125, 'learning_rate': 0.0001263193447606181, 'epoch': 0.39}
{'loss': 1.9073, 'grad_norm': 1.4453125, 'learning_rate': 0.00012615046863125896, 'epoch': 0.39}




{'loss': 1.7862, 'grad_norm': 2.828125, 'learning_rate': 0.00012598159250189986, 'epoch': 0.39}
{'loss': 1.5286, 'grad_norm': 0.61328125, 'learning_rate': 0.00012581271637254076, 'epoch': 0.39}




{'loss': 1.7422, 'grad_norm': 0.625, 'learning_rate': 0.00012564384024318164, 'epoch': 0.39}
{'loss': 1.7542, 'grad_norm': 1.125, 'learning_rate': 0.0001254749641138225, 'epoch': 0.39}




{'loss': 2.1694, 'grad_norm': 2.234375, 'learning_rate': 0.0001253060879844634, 'epoch': 0.39}
{'loss': 1.3424, 'grad_norm': 1.4296875, 'learning_rate': 0.0001251372118551043, 'epoch': 0.39}




{'loss': 1.4544, 'grad_norm': 0.6015625, 'learning_rate': 0.00012496833572574518, 'epoch': 0.39}
{'loss': 1.6917, 'grad_norm': 0.828125, 'learning_rate': 0.00012479945959638605, 'epoch': 0.39}




{'loss': 1.7779, 'grad_norm': 1.140625, 'learning_rate': 0.00012463058346702695, 'epoch': 0.4}
{'loss': 1.5564, 'grad_norm': 1.078125, 'learning_rate': 0.00012446170733766782, 'epoch': 0.4}




{'loss': 1.618, 'grad_norm': 1.4296875, 'learning_rate': 0.0001242928312083087, 'epoch': 0.4}
{'loss': 1.5649, 'grad_norm': 0.76171875, 'learning_rate': 0.0001241239550789496, 'epoch': 0.4}




{'loss': 1.5942, 'grad_norm': 0.96875, 'learning_rate': 0.0001239550789495905, 'epoch': 0.4}
{'loss': 1.9167, 'grad_norm': 1.53125, 'learning_rate': 0.00012378620282023136, 'epoch': 0.4}




{'loss': 1.9335, 'grad_norm': 1.1875, 'learning_rate': 0.00012361732669087224, 'epoch': 0.4}
{'loss': 1.5379, 'grad_norm': 1.21875, 'learning_rate': 0.00012344845056151314, 'epoch': 0.4}




{'loss': 1.6665, 'grad_norm': 0.73046875, 'learning_rate': 0.000123279574432154, 'epoch': 0.4}
{'loss': 1.6416, 'grad_norm': 0.73828125, 'learning_rate': 0.0001231106983027949, 'epoch': 0.4}




{'loss': 1.7601, 'grad_norm': 0.94921875, 'learning_rate': 0.0001229418221734358, 'epoch': 0.4}
{'loss': 1.6303, 'grad_norm': 1.515625, 'learning_rate': 0.00012277294604407668, 'epoch': 0.4}




{'loss': 1.5706, 'grad_norm': 2.0, 'learning_rate': 0.00012260406991471755, 'epoch': 0.41}
{'loss': 1.4482, 'grad_norm': 0.7734375, 'learning_rate': 0.00012243519378535845, 'epoch': 0.41}




{'loss': 1.5466, 'grad_norm': 0.59765625, 'learning_rate': 0.00012226631765599935, 'epoch': 0.41}
{'loss': 1.8319, 'grad_norm': 0.91796875, 'learning_rate': 0.00012209744152664022, 'epoch': 0.41}




{'loss': 1.7524, 'grad_norm': 1.203125, 'learning_rate': 0.0001219285653972811, 'epoch': 0.41}
{'loss': 1.5834, 'grad_norm': 1.6171875, 'learning_rate': 0.00012175968926792198, 'epoch': 0.41}




{'loss': 1.5656, 'grad_norm': 0.69140625, 'learning_rate': 0.00012159081313856286, 'epoch': 0.41}
{'loss': 1.7382, 'grad_norm': 1.0546875, 'learning_rate': 0.00012142193700920375, 'epoch': 0.41}




{'loss': 1.8391, 'grad_norm': 1.0546875, 'learning_rate': 0.00012125306087984465, 'epoch': 0.41}
{'loss': 1.6618, 'grad_norm': 1.203125, 'learning_rate': 0.00012108418475048553, 'epoch': 0.41}




{'loss': 1.5148, 'grad_norm': 1.8828125, 'learning_rate': 0.00012091530862112641, 'epoch': 0.41}
{'loss': 1.8387, 'grad_norm': 0.5625, 'learning_rate': 0.00012074643249176729, 'epoch': 0.41}




{'loss': 1.4997, 'grad_norm': 0.61328125, 'learning_rate': 0.00012057755636240818, 'epoch': 0.42}
{'loss': 1.5788, 'grad_norm': 0.87890625, 'learning_rate': 0.00012040868023304905, 'epoch': 0.42}




{'loss': 1.7856, 'grad_norm': 1.1875, 'learning_rate': 0.00012023980410368996, 'epoch': 0.42}
{'loss': 1.5732, 'grad_norm': 3.8125, 'learning_rate': 0.00012007092797433084, 'epoch': 0.42}




{'loss': 1.7057, 'grad_norm': 1.2109375, 'learning_rate': 0.00011990205184497172, 'epoch': 0.42}
{'loss': 1.7452, 'grad_norm': 0.62109375, 'learning_rate': 0.0001197331757156126, 'epoch': 0.42}




{'loss': 1.703, 'grad_norm': 0.75390625, 'learning_rate': 0.00011956429958625348, 'epoch': 0.42}
{'loss': 1.6197, 'grad_norm': 0.99609375, 'learning_rate': 0.00011939542345689438, 'epoch': 0.42}




{'loss': 1.6995, 'grad_norm': 1.9609375, 'learning_rate': 0.00011922654732753526, 'epoch': 0.42}
{'loss': 1.858, 'grad_norm': 0.5859375, 'learning_rate': 0.00011905767119817615, 'epoch': 0.42}




{'loss': 1.6903, 'grad_norm': 0.98828125, 'learning_rate': 0.00011888879506881702, 'epoch': 0.42}
{'loss': 1.7444, 'grad_norm': 1.0703125, 'learning_rate': 0.00011871991893945791, 'epoch': 0.42}




{'loss': 1.6836, 'grad_norm': 1.4140625, 'learning_rate': 0.00011855104281009879, 'epoch': 0.43}
{'loss': 1.4003, 'grad_norm': 2.671875, 'learning_rate': 0.00011838216668073969, 'epoch': 0.43}




{'loss': 1.3677, 'grad_norm': 0.765625, 'learning_rate': 0.00011821329055138058, 'epoch': 0.43}
{'loss': 1.6597, 'grad_norm': 1.09375, 'learning_rate': 0.00011804441442202145, 'epoch': 0.43}




{'loss': 1.8302, 'grad_norm': 1.0390625, 'learning_rate': 0.00011787553829266234, 'epoch': 0.43}
{'loss': 1.7215, 'grad_norm': 1.8359375, 'learning_rate': 0.00011770666216330322, 'epoch': 0.43}




{'loss': 1.7338, 'grad_norm': 3.9375, 'learning_rate': 0.00011753778603394409, 'epoch': 0.43}
{'loss': 1.5492, 'grad_norm': 0.8828125, 'learning_rate': 0.000117368909904585, 'epoch': 0.43}




{'loss': 1.7264, 'grad_norm': 0.74609375, 'learning_rate': 0.00011720003377522588, 'epoch': 0.43}
{'loss': 1.7472, 'grad_norm': 1.171875, 'learning_rate': 0.00011703115764586676, 'epoch': 0.43}




{'loss': 1.8249, 'grad_norm': 1.03125, 'learning_rate': 0.00011686228151650765, 'epoch': 0.43}
{'loss': 1.7871, 'grad_norm': 1.296875, 'learning_rate': 0.00011669340538714852, 'epoch': 0.43}




{'loss': 1.6484, 'grad_norm': 0.52734375, 'learning_rate': 0.00011652452925778943, 'epoch': 0.43}
{'loss': 1.5327, 'grad_norm': 0.55078125, 'learning_rate': 0.0001163556531284303, 'epoch': 0.44}




{'loss': 1.5839, 'grad_norm': 0.8203125, 'learning_rate': 0.00011618677699907119, 'epoch': 0.44}
{'loss': 1.5172, 'grad_norm': 0.9765625, 'learning_rate': 0.00011601790086971206, 'epoch': 0.44}




{'loss': 1.4398, 'grad_norm': 1.1015625, 'learning_rate': 0.00011584902474035295, 'epoch': 0.44}
{'loss': 1.5273, 'grad_norm': 0.8515625, 'learning_rate': 0.00011568014861099384, 'epoch': 0.44}




{'loss': 1.7596, 'grad_norm': 0.52734375, 'learning_rate': 0.00011551127248163473, 'epoch': 0.44}
{'loss': 1.8412, 'grad_norm': 1.078125, 'learning_rate': 0.00011534239635227562, 'epoch': 0.44}




{'loss': 1.6832, 'grad_norm': 1.5390625, 'learning_rate': 0.00011517352022291649, 'epoch': 0.44}
{'loss': 2.0238, 'grad_norm': 3.0625, 'learning_rate': 0.00011500464409355738, 'epoch': 0.44}




{'loss': 1.4513, 'grad_norm': 0.72265625, 'learning_rate': 0.00011483576796419826, 'epoch': 0.44}
{'loss': 1.8844, 'grad_norm': 0.8984375, 'learning_rate': 0.00011466689183483914, 'epoch': 0.44}




{'loss': 1.8063, 'grad_norm': 0.83984375, 'learning_rate': 0.00011449801570548005, 'epoch': 0.44}
{'loss': 1.8084, 'grad_norm': 1.0, 'learning_rate': 0.00011432913957612092, 'epoch': 0.45}




{'loss': 1.8633, 'grad_norm': 2.546875, 'learning_rate': 0.0001141602634467618, 'epoch': 0.45}
{'loss': 1.856, 'grad_norm': 1.03125, 'learning_rate': 0.00011399138731740269, 'epoch': 0.45}




{'loss': 1.6886, 'grad_norm': 0.65234375, 'learning_rate': 0.00011382251118804356, 'epoch': 0.45}
{'loss': 1.5912, 'grad_norm': 0.6796875, 'learning_rate': 0.00011365363505868448, 'epoch': 0.45}




{'loss': 1.7402, 'grad_norm': 1.0234375, 'learning_rate': 0.00011348475892932535, 'epoch': 0.45}
{'loss': 1.7159, 'grad_norm': 2.109375, 'learning_rate': 0.00011331588279996623, 'epoch': 0.45}




{'loss': 1.7441, 'grad_norm': 0.640625, 'learning_rate': 0.00011314700667060712, 'epoch': 0.45}
{'loss': 1.6275, 'grad_norm': 0.609375, 'learning_rate': 0.00011297813054124799, 'epoch': 0.45}




{'loss': 1.6703, 'grad_norm': 0.890625, 'learning_rate': 0.00011280925441188888, 'epoch': 0.45}
{'loss': 1.9412, 'grad_norm': 1.546875, 'learning_rate': 0.00011264037828252978, 'epoch': 0.45}




{'loss': 1.7617, 'grad_norm': 1.640625, 'learning_rate': 0.00011247150215317066, 'epoch': 0.45}
{'loss': 1.9602, 'grad_norm': 0.59375, 'learning_rate': 0.00011230262602381154, 'epoch': 0.46}




{'loss': 1.5437, 'grad_norm': 0.90234375, 'learning_rate': 0.00011213374989445242, 'epoch': 0.46}
{'loss': 1.6908, 'grad_norm': 0.66796875, 'learning_rate': 0.0001119648737650933, 'epoch': 0.46}




{'loss': 1.721, 'grad_norm': 1.2578125, 'learning_rate': 0.00011179599763573418, 'epoch': 0.46}
{'loss': 1.5852, 'grad_norm': 2.390625, 'learning_rate': 0.00011162712150637509, 'epoch': 0.46}




{'loss': 1.7051, 'grad_norm': 0.71875, 'learning_rate': 0.00011145824537701596, 'epoch': 0.46}
{'loss': 1.7283, 'grad_norm': 0.65234375, 'learning_rate': 0.00011128936924765685, 'epoch': 0.46}




{'loss': 1.8121, 'grad_norm': 1.0625, 'learning_rate': 0.00011112049311829773, 'epoch': 0.46}
{'loss': 1.5969, 'grad_norm': 2.0, 'learning_rate': 0.0001109516169889386, 'epoch': 0.46}




{'loss': 1.4136, 'grad_norm': 4.0, 'learning_rate': 0.00011078274085957952, 'epoch': 0.46}
{'loss': 2.224, 'grad_norm': 0.71875, 'learning_rate': 0.00011061386473022039, 'epoch': 0.46}




{'loss': 1.6875, 'grad_norm': 1.0390625, 'learning_rate': 0.00011044498860086128, 'epoch': 0.46}
{'loss': 1.6231, 'grad_norm': 0.8359375, 'learning_rate': 0.00011027611247150216, 'epoch': 0.47}




{'loss': 1.8571, 'grad_norm': 1.203125, 'learning_rate': 0.00011010723634214304, 'epoch': 0.47}
{'loss': 1.5869, 'grad_norm': 1.9609375, 'learning_rate': 0.00010993836021278392, 'epoch': 0.47}




{'loss': 1.78, 'grad_norm': 0.58203125, 'learning_rate': 0.00010976948408342482, 'epoch': 0.47}
{'loss': 1.8756, 'grad_norm': 0.8359375, 'learning_rate': 0.0001096006079540657, 'epoch': 0.47}




{'loss': 1.8621, 'grad_norm': 1.171875, 'learning_rate': 0.00010943173182470659, 'epoch': 0.47}
{'loss': 1.6115, 'grad_norm': 1.28125, 'learning_rate': 0.00010926285569534746, 'epoch': 0.47}




{'loss': 1.6183, 'grad_norm': 1.390625, 'learning_rate': 0.00010909397956598835, 'epoch': 0.47}
{'loss': 1.9952, 'grad_norm': 0.796875, 'learning_rate': 0.00010892510343662922, 'epoch': 0.47}




{'loss': 1.5721, 'grad_norm': 0.93359375, 'learning_rate': 0.00010875622730727013, 'epoch': 0.47}
{'loss': 1.7545, 'grad_norm': 0.8515625, 'learning_rate': 0.000108587351177911, 'epoch': 0.47}




{'loss': 1.9426, 'grad_norm': 2.203125, 'learning_rate': 0.00010841847504855189, 'epoch': 0.47}
{'loss': 1.547, 'grad_norm': 2.21875, 'learning_rate': 0.00010824959891919278, 'epoch': 0.48}




{'loss': 1.6376, 'grad_norm': 0.734375, 'learning_rate': 0.00010808072278983365, 'epoch': 0.48}
{'loss': 1.564, 'grad_norm': 0.81640625, 'learning_rate': 0.00010791184666047456, 'epoch': 0.48}




{'loss': 1.4978, 'grad_norm': 0.890625, 'learning_rate': 0.00010774297053111543, 'epoch': 0.48}
{'loss': 1.7764, 'grad_norm': 1.9453125, 'learning_rate': 0.00010757409440175632, 'epoch': 0.48}




{'loss': 1.6576, 'grad_norm': 2.265625, 'learning_rate': 0.0001074052182723972, 'epoch': 0.48}
{'loss': 1.7152, 'grad_norm': 0.5625, 'learning_rate': 0.00010723634214303808, 'epoch': 0.48}




{'loss': 1.6218, 'grad_norm': 0.88671875, 'learning_rate': 0.00010706746601367896, 'epoch': 0.48}
{'loss': 1.7901, 'grad_norm': 0.9453125, 'learning_rate': 0.00010689858988431986, 'epoch': 0.48}




{'loss': 1.7023, 'grad_norm': 1.6484375, 'learning_rate': 0.00010672971375496075, 'epoch': 0.48}
{'loss': 1.407, 'grad_norm': 2.890625, 'learning_rate': 0.00010656083762560163, 'epoch': 0.48}




{'loss': 1.694, 'grad_norm': 0.75, 'learning_rate': 0.0001063919614962425, 'epoch': 0.48}
{'loss': 1.7183, 'grad_norm': 0.79296875, 'learning_rate': 0.00010622308536688339, 'epoch': 0.48}




{'loss': 1.814, 'grad_norm': 1.03125, 'learning_rate': 0.00010605420923752428, 'epoch': 0.49}
{'loss': 2.1864, 'grad_norm': 1.8671875, 'learning_rate': 0.00010588533310816518, 'epoch': 0.49}




{'loss': 1.8689, 'grad_norm': 2.5625, 'learning_rate': 0.00010571645697880605, 'epoch': 0.49}
{'loss': 1.7204, 'grad_norm': 0.7421875, 'learning_rate': 0.00010554758084944693, 'epoch': 0.49}




{'loss': 1.5314, 'grad_norm': 0.69140625, 'learning_rate': 0.00010537870472008782, 'epoch': 0.49}
{'loss': 1.659, 'grad_norm': 0.86328125, 'learning_rate': 0.00010520982859072869, 'epoch': 0.49}




{'loss': 1.8872, 'grad_norm': 0.87109375, 'learning_rate': 0.00010504095246136958, 'epoch': 0.49}
{'loss': 1.7318, 'grad_norm': 2.25, 'learning_rate': 0.00010487207633201048, 'epoch': 0.49}




{'loss': 1.7545, 'grad_norm': 0.95703125, 'learning_rate': 0.00010470320020265136, 'epoch': 0.49}
{'loss': 1.7684, 'grad_norm': 0.73046875, 'learning_rate': 0.00010453432407329225, 'epoch': 0.49}




{'loss': 1.6053, 'grad_norm': 1.1875, 'learning_rate': 0.00010436544794393312, 'epoch': 0.49}
{'loss': 1.531, 'grad_norm': 1.25, 'learning_rate': 0.000104196571814574, 'epoch': 0.49}




{'loss': 1.8345, 'grad_norm': 2.515625, 'learning_rate': 0.0001040276956852149, 'epoch': 0.5}
{'loss': 1.581, 'grad_norm': 0.5390625, 'learning_rate': 0.00010385881955585579, 'epoch': 0.5}




{'loss': 1.6428, 'grad_norm': 0.8671875, 'learning_rate': 0.00010368994342649668, 'epoch': 0.5}
{'loss': 1.5925, 'grad_norm': 0.78515625, 'learning_rate': 0.00010352106729713755, 'epoch': 0.5}




{'loss': 1.7444, 'grad_norm': 1.234375, 'learning_rate': 0.00010335219116777843, 'epoch': 0.5}
{'loss': 1.8551, 'grad_norm': 2.140625, 'learning_rate': 0.00010318331503841932, 'epoch': 0.5}




{'loss': 1.6923, 'grad_norm': 0.59375, 'learning_rate': 0.00010301443890906022, 'epoch': 0.5}
{'loss': 1.5757, 'grad_norm': 0.65234375, 'learning_rate': 0.0001028455627797011, 'epoch': 0.5}




{'loss': 1.6062, 'grad_norm': 1.0234375, 'learning_rate': 0.00010267668665034198, 'epoch': 0.5}
{'loss': 1.7402, 'grad_norm': 0.98828125, 'learning_rate': 0.00010250781052098286, 'epoch': 0.5}




{'loss': 1.4345, 'grad_norm': 3.390625, 'learning_rate': 0.00010233893439162375, 'epoch': 0.5}
{'loss': 1.6297, 'grad_norm': 0.79296875, 'learning_rate': 0.00010217005826226462, 'epoch': 0.5}




{'loss': 1.7867, 'grad_norm': 0.78515625, 'learning_rate': 0.00010200118213290552, 'epoch': 0.51}
{'loss': 1.6751, 'grad_norm': 0.94140625, 'learning_rate': 0.0001018323060035464, 'epoch': 0.51}




{'loss': 1.9168, 'grad_norm': 1.5078125, 'learning_rate': 0.00010166342987418729, 'epoch': 0.51}
{'loss': 1.4777, 'grad_norm': 3.875, 'learning_rate': 0.00010149455374482816, 'epoch': 0.51}




{'loss': 1.9216, 'grad_norm': 0.52734375, 'learning_rate': 0.00010132567761546905, 'epoch': 0.51}
{'loss': 1.6676, 'grad_norm': 0.84375, 'learning_rate': 0.00010115680148610995, 'epoch': 0.51}




{'loss': 1.7935, 'grad_norm': 1.3359375, 'learning_rate': 0.00010098792535675083, 'epoch': 0.51}
{'loss': 1.529, 'grad_norm': 1.734375, 'learning_rate': 0.00010081904922739172, 'epoch': 0.51}




{'loss': 1.446, 'grad_norm': 2.71875, 'learning_rate': 0.00010065017309803259, 'epoch': 0.51}
{'loss': 1.7659, 'grad_norm': 0.44140625, 'learning_rate': 0.00010048129696867348, 'epoch': 0.51}




{'loss': 1.8147, 'grad_norm': 0.7734375, 'learning_rate': 0.00010031242083931436, 'epoch': 0.51}
{'loss': 1.6738, 'grad_norm': 0.9296875, 'learning_rate': 0.00010014354470995526, 'epoch': 0.51}




{'loss': 1.8104, 'grad_norm': 1.5546875, 'learning_rate': 9.997466858059615e-05, 'epoch': 0.52}
{'loss': 1.4372, 'grad_norm': 1.78125, 'learning_rate': 9.980579245123702e-05, 'epoch': 0.52}




{'loss': 1.6908, 'grad_norm': 0.625, 'learning_rate': 9.96369163218779e-05, 'epoch': 0.52}
{'loss': 1.6893, 'grad_norm': 0.5859375, 'learning_rate': 9.946804019251879e-05, 'epoch': 0.52}




{'loss': 1.5786, 'grad_norm': 0.8984375, 'learning_rate': 9.929916406315968e-05, 'epoch': 0.52}
{'loss': 1.7567, 'grad_norm': 1.3671875, 'learning_rate': 9.913028793380056e-05, 'epoch': 0.52}




{'loss': 1.5241, 'grad_norm': 3.5625, 'learning_rate': 9.896141180444145e-05, 'epoch': 0.52}
{'loss': 1.6519, 'grad_norm': 0.83984375, 'learning_rate': 9.879253567508233e-05, 'epoch': 0.52}




{'loss': 1.6917, 'grad_norm': 0.6953125, 'learning_rate': 9.86236595457232e-05, 'epoch': 0.52}
{'loss': 1.64, 'grad_norm': 1.296875, 'learning_rate': 9.84547834163641e-05, 'epoch': 0.52}




{'loss': 1.7483, 'grad_norm': 1.625, 'learning_rate': 9.828590728700499e-05, 'epoch': 0.52}
{'loss': 1.4049, 'grad_norm': 1.5078125, 'learning_rate': 9.811703115764586e-05, 'epoch': 0.52}




{'loss': 1.714, 'grad_norm': 0.62109375, 'learning_rate': 9.794815502828676e-05, 'epoch': 0.52}
{'loss': 1.6746, 'grad_norm': 0.7578125, 'learning_rate': 9.777927889892763e-05, 'epoch': 0.53}




{'loss': 1.7585, 'grad_norm': 0.7578125, 'learning_rate': 9.761040276956852e-05, 'epoch': 0.53}
{'loss': 1.9991, 'grad_norm': 1.2421875, 'learning_rate': 9.744152664020942e-05, 'epoch': 0.53}




{'loss': 1.9549, 'grad_norm': 2.796875, 'learning_rate': 9.727265051085029e-05, 'epoch': 0.53}
{'loss': 1.8015, 'grad_norm': 0.7265625, 'learning_rate': 9.710377438149119e-05, 'epoch': 0.53}




{'loss': 1.6488, 'grad_norm': 1.078125, 'learning_rate': 9.693489825213206e-05, 'epoch': 0.53}
{'loss': 1.8116, 'grad_norm': 1.2265625, 'learning_rate': 9.676602212277295e-05, 'epoch': 0.53}




{'loss': 1.4612, 'grad_norm': 1.46875, 'learning_rate': 9.659714599341383e-05, 'epoch': 0.53}
{'loss': 1.4736, 'grad_norm': 1.9453125, 'learning_rate': 9.642826986405472e-05, 'epoch': 0.53}




{'loss': 1.6679, 'grad_norm': 0.51171875, 'learning_rate': 9.62593937346956e-05, 'epoch': 0.53}
{'loss': 1.6635, 'grad_norm': 0.76171875, 'learning_rate': 9.609051760533649e-05, 'epoch': 0.53}




{'loss': 1.4715, 'grad_norm': 1.09375, 'learning_rate': 9.592164147597738e-05, 'epoch': 0.53}
{'loss': 1.7943, 'grad_norm': 1.375, 'learning_rate': 9.575276534661826e-05, 'epoch': 0.54}




{'loss': 1.5372, 'grad_norm': 2.8125, 'learning_rate': 9.558388921725915e-05, 'epoch': 0.54}
{'loss': 1.9003, 'grad_norm': 0.53515625, 'learning_rate': 9.541501308790003e-05, 'epoch': 0.54}




{'loss': 1.5243, 'grad_norm': 0.68359375, 'learning_rate': 9.52461369585409e-05, 'epoch': 0.54}
{'loss': 1.834, 'grad_norm': 1.4609375, 'learning_rate': 9.50772608291818e-05, 'epoch': 0.54}




{'loss': 1.6284, 'grad_norm': 1.234375, 'learning_rate': 9.490838469982268e-05, 'epoch': 0.54}
{'loss': 1.5601, 'grad_norm': 2.125, 'learning_rate': 9.473950857046356e-05, 'epoch': 0.54}




{'loss': 1.456, 'grad_norm': 0.7421875, 'learning_rate': 9.457063244110446e-05, 'epoch': 0.54}
{'loss': 1.6505, 'grad_norm': 0.828125, 'learning_rate': 9.440175631174533e-05, 'epoch': 0.54}




{'loss': 1.5728, 'grad_norm': 1.0078125, 'learning_rate': 9.423288018238623e-05, 'epoch': 0.54}
{'loss': 1.6513, 'grad_norm': 1.1171875, 'learning_rate': 9.40640040530271e-05, 'epoch': 0.54}




{'loss': 1.8494, 'grad_norm': 2.59375, 'learning_rate': 9.389512792366799e-05, 'epoch': 0.54}
{'loss': 1.8305, 'grad_norm': 0.61328125, 'learning_rate': 9.372625179430889e-05, 'epoch': 0.55}




{'loss': 1.426, 'grad_norm': 1.1171875, 'learning_rate': 9.355737566494976e-05, 'epoch': 0.55}
{'loss': 1.8416, 'grad_norm': 1.46875, 'learning_rate': 9.338849953559065e-05, 'epoch': 0.55}




{'loss': 1.5813, 'grad_norm': 1.6015625, 'learning_rate': 9.321962340623153e-05, 'epoch': 0.55}
{'loss': 1.5517, 'grad_norm': 3.234375, 'learning_rate': 9.305074727687242e-05, 'epoch': 0.55}




{'loss': 1.7, 'grad_norm': 0.7265625, 'learning_rate': 9.28818711475133e-05, 'epoch': 0.55}
{'loss': 1.7723, 'grad_norm': 1.046875, 'learning_rate': 9.271299501815419e-05, 'epoch': 0.55}




{'loss': 1.6647, 'grad_norm': 1.0234375, 'learning_rate': 9.254411888879508e-05, 'epoch': 0.55}
{'loss': 1.6353, 'grad_norm': 1.140625, 'learning_rate': 9.237524275943595e-05, 'epoch': 0.55}




{'loss': 1.2298, 'grad_norm': 1.4296875, 'learning_rate': 9.220636663007685e-05, 'epoch': 0.55}
{'loss': 1.8083, 'grad_norm': 0.6796875, 'learning_rate': 9.203749050071773e-05, 'epoch': 0.55}




{'loss': 1.5493, 'grad_norm': 0.64453125, 'learning_rate': 9.18686143713586e-05, 'epoch': 0.55}
{'loss': 1.8082, 'grad_norm': 1.015625, 'learning_rate': 9.16997382419995e-05, 'epoch': 0.56}




{'loss': 1.8421, 'grad_norm': 1.4375, 'learning_rate': 9.153086211264038e-05, 'epoch': 0.56}
{'loss': 1.4387, 'grad_norm': 0.80078125, 'learning_rate': 9.136198598328128e-05, 'epoch': 0.56}




{'loss': 1.6045, 'grad_norm': 0.60546875, 'learning_rate': 9.119310985392215e-05, 'epoch': 0.56}
{'loss': 1.6637, 'grad_norm': 1.1875, 'learning_rate': 9.102423372456303e-05, 'epoch': 0.56}




{'loss': 1.6156, 'grad_norm': 1.3125, 'learning_rate': 9.085535759520393e-05, 'epoch': 0.56}
{'loss': 1.9985, 'grad_norm': 1.6953125, 'learning_rate': 9.06864814658448e-05, 'epoch': 0.56}




{'loss': 1.6101, 'grad_norm': 1.6484375, 'learning_rate': 9.051760533648569e-05, 'epoch': 0.56}
{'loss': 1.8715, 'grad_norm': 0.64453125, 'learning_rate': 9.034872920712658e-05, 'epoch': 0.56}




{'loss': 1.6198, 'grad_norm': 0.80859375, 'learning_rate': 9.017985307776746e-05, 'epoch': 0.56}
{'loss': 1.7704, 'grad_norm': 1.8125, 'learning_rate': 9.001097694840835e-05, 'epoch': 0.56}




{'loss': 1.6232, 'grad_norm': 1.65625, 'learning_rate': 8.984210081904923e-05, 'epoch': 0.56}
{'loss': 1.3969, 'grad_norm': 2.53125, 'learning_rate': 8.967322468969012e-05, 'epoch': 0.57}




{'loss': 1.5356, 'grad_norm': 0.55859375, 'learning_rate': 8.950434856033099e-05, 'epoch': 0.57}
{'loss': 1.6815, 'grad_norm': 0.81640625, 'learning_rate': 8.933547243097189e-05, 'epoch': 0.57}




{'loss': 1.8233, 'grad_norm': 0.68359375, 'learning_rate': 8.916659630161278e-05, 'epoch': 0.57}
{'loss': 1.8572, 'grad_norm': 1.234375, 'learning_rate': 8.899772017225365e-05, 'epoch': 0.57}




{'loss': 1.5948, 'grad_norm': 1.9296875, 'learning_rate': 8.882884404289455e-05, 'epoch': 0.57}
{'loss': 1.6054, 'grad_norm': 0.73046875, 'learning_rate': 8.865996791353542e-05, 'epoch': 0.57}




{'loss': 1.6611, 'grad_norm': 0.76953125, 'learning_rate': 8.84910917841763e-05, 'epoch': 0.57}
{'loss': 1.5462, 'grad_norm': 0.71875, 'learning_rate': 8.832221565481719e-05, 'epoch': 0.57}




{'loss': 2.0064, 'grad_norm': 1.671875, 'learning_rate': 8.815333952545808e-05, 'epoch': 0.57}
{'loss': 1.0808, 'grad_norm': 1.203125, 'learning_rate': 8.798446339609898e-05, 'epoch': 0.57}




{'loss': 1.4708, 'grad_norm': 0.82421875, 'learning_rate': 8.781558726673985e-05, 'epoch': 0.57}
{'loss': 1.6873, 'grad_norm': 0.7109375, 'learning_rate': 8.764671113738073e-05, 'epoch': 0.57}




{'loss': 1.7547, 'grad_norm': 1.1875, 'learning_rate': 8.747783500802162e-05, 'epoch': 0.58}
{'loss': 1.8056, 'grad_norm': 1.4140625, 'learning_rate': 8.73089588786625e-05, 'epoch': 0.58}




{'loss': 1.4322, 'grad_norm': 1.921875, 'learning_rate': 8.714008274930339e-05, 'epoch': 0.58}
{'loss': 1.5812, 'grad_norm': 0.4765625, 'learning_rate': 8.697120661994428e-05, 'epoch': 0.58}




{'loss': 1.5023, 'grad_norm': 0.6953125, 'learning_rate': 8.680233049058516e-05, 'epoch': 0.58}
{'loss': 1.73, 'grad_norm': 1.4296875, 'learning_rate': 8.663345436122605e-05, 'epoch': 0.58}




{'loss': 1.5397, 'grad_norm': 2.984375, 'learning_rate': 8.646457823186693e-05, 'epoch': 0.58}
{'loss': 1.4874, 'grad_norm': 1.0234375, 'learning_rate': 8.629570210250782e-05, 'epoch': 0.58}




{'loss': 1.6172, 'grad_norm': 0.7265625, 'learning_rate': 8.612682597314869e-05, 'epoch': 0.58}
{'loss': 1.5336, 'grad_norm': 0.5859375, 'learning_rate': 8.595794984378959e-05, 'epoch': 0.58}




{'loss': 1.7419, 'grad_norm': 1.3515625, 'learning_rate': 8.578907371443046e-05, 'epoch': 0.58}
{'loss': 1.7638, 'grad_norm': 1.5546875, 'learning_rate': 8.562019758507135e-05, 'epoch': 0.58}




{'loss': 1.4355, 'grad_norm': 1.5703125, 'learning_rate': 8.545132145571225e-05, 'epoch': 0.59}
{'loss': 1.7571, 'grad_norm': 0.5, 'learning_rate': 8.528244532635312e-05, 'epoch': 0.59}




{'loss': 1.5131, 'grad_norm': 0.8515625, 'learning_rate': 8.511356919699402e-05, 'epoch': 0.59}
{'loss': 1.6529, 'grad_norm': 0.80078125, 'learning_rate': 8.494469306763489e-05, 'epoch': 0.59}




{'loss': 1.775, 'grad_norm': 1.359375, 'learning_rate': 8.477581693827578e-05, 'epoch': 0.59}
{'loss': 1.6783, 'grad_norm': 2.546875, 'learning_rate': 8.460694080891666e-05, 'epoch': 0.59}




{'loss': 1.9591, 'grad_norm': 0.5, 'learning_rate': 8.443806467955755e-05, 'epoch': 0.59}
{'loss': 1.5888, 'grad_norm': 0.83984375, 'learning_rate': 8.426918855019843e-05, 'epoch': 0.59}




{'loss': 1.7439, 'grad_norm': 1.3125, 'learning_rate': 8.410031242083932e-05, 'epoch': 0.59}
{'loss': 1.9589, 'grad_norm': 1.421875, 'learning_rate': 8.39314362914802e-05, 'epoch': 0.59}




{'loss': 1.4964, 'grad_norm': 2.03125, 'learning_rate': 8.376256016212109e-05, 'epoch': 0.59}
{'loss': 1.8005, 'grad_norm': 0.6796875, 'learning_rate': 8.359368403276198e-05, 'epoch': 0.59}




{'loss': 1.5495, 'grad_norm': 0.6015625, 'learning_rate': 8.342480790340286e-05, 'epoch': 0.6}
{'loss': 1.7047, 'grad_norm': 0.6640625, 'learning_rate': 8.325593177404373e-05, 'epoch': 0.6}




{'loss': 1.5228, 'grad_norm': 1.140625, 'learning_rate': 8.308705564468463e-05, 'epoch': 0.6}
{'loss': 1.6048, 'grad_norm': 1.484375, 'learning_rate': 8.29181795153255e-05, 'epoch': 0.6}




{'loss': 1.7526, 'grad_norm': 0.62109375, 'learning_rate': 8.274930338596639e-05, 'epoch': 0.6}
{'loss': 1.56, 'grad_norm': 0.71875, 'learning_rate': 8.258042725660729e-05, 'epoch': 0.6}




{'loss': 1.5443, 'grad_norm': 1.40625, 'learning_rate': 8.241155112724816e-05, 'epoch': 0.6}
{'loss': 1.9889, 'grad_norm': 1.0234375, 'learning_rate': 8.224267499788906e-05, 'epoch': 0.6}




{'loss': 1.4611, 'grad_norm': 2.453125, 'learning_rate': 8.207379886852993e-05, 'epoch': 0.6}
{'loss': 1.5672, 'grad_norm': 0.56640625, 'learning_rate': 8.190492273917082e-05, 'epoch': 0.6}




{'loss': 1.6345, 'grad_norm': 0.73046875, 'learning_rate': 8.173604660981172e-05, 'epoch': 0.6}
{'loss': 1.6255, 'grad_norm': 0.97265625, 'learning_rate': 8.156717048045259e-05, 'epoch': 0.6}




{'loss': 1.9565, 'grad_norm': 1.8359375, 'learning_rate': 8.139829435109348e-05, 'epoch': 0.61}
{'loss': 1.9162, 'grad_norm': 3.640625, 'learning_rate': 8.122941822173436e-05, 'epoch': 0.61}




{'loss': 1.7598, 'grad_norm': 0.625, 'learning_rate': 8.106054209237525e-05, 'epoch': 0.61}
{'loss': 1.6415, 'grad_norm': 0.6484375, 'learning_rate': 8.089166596301613e-05, 'epoch': 0.61}




{'loss': 1.7558, 'grad_norm': 1.1953125, 'learning_rate': 8.072278983365702e-05, 'epoch': 0.61}
{'loss': 1.5987, 'grad_norm': 1.0859375, 'learning_rate': 8.05539137042979e-05, 'epoch': 0.61}




{'loss': 1.2591, 'grad_norm': 0.90234375, 'learning_rate': 8.038503757493878e-05, 'epoch': 0.61}
{'loss': 1.7165, 'grad_norm': 0.73828125, 'learning_rate': 8.021616144557968e-05, 'epoch': 0.61}




{'loss': 1.7128, 'grad_norm': 0.9296875, 'learning_rate': 8.004728531622056e-05, 'epoch': 0.61}
{'loss': 1.8671, 'grad_norm': 0.98828125, 'learning_rate': 7.987840918686143e-05, 'epoch': 0.61}




{'loss': 1.7383, 'grad_norm': 1.6171875, 'learning_rate': 7.970953305750233e-05, 'epoch': 0.61}
{'loss': 1.4027, 'grad_norm': 1.953125, 'learning_rate': 7.95406569281432e-05, 'epoch': 0.61}




{'loss': 1.5693, 'grad_norm': 0.640625, 'learning_rate': 7.93717807987841e-05, 'epoch': 0.62}
{'loss': 1.7636, 'grad_norm': 0.796875, 'learning_rate': 7.920290466942498e-05, 'epoch': 0.62}




{'loss': 1.6369, 'grad_norm': 0.9765625, 'learning_rate': 7.903402854006586e-05, 'epoch': 0.62}
{'loss': 2.0014, 'grad_norm': 1.578125, 'learning_rate': 7.886515241070676e-05, 'epoch': 0.62}




{'loss': 1.7797, 'grad_norm': 2.953125, 'learning_rate': 7.869627628134763e-05, 'epoch': 0.62}
{'loss': 1.4849, 'grad_norm': 0.87109375, 'learning_rate': 7.852740015198852e-05, 'epoch': 0.62}




{'loss': 1.7776, 'grad_norm': 0.96484375, 'learning_rate': 7.83585240226294e-05, 'epoch': 0.62}
{'loss': 1.8253, 'grad_norm': 1.3046875, 'learning_rate': 7.818964789327029e-05, 'epoch': 0.62}




{'loss': 1.8201, 'grad_norm': 1.8671875, 'learning_rate': 7.802077176391118e-05, 'epoch': 0.62}
{'loss': 1.6491, 'grad_norm': 3.328125, 'learning_rate': 7.785189563455206e-05, 'epoch': 0.62}




{'loss': 1.4525, 'grad_norm': 0.60546875, 'learning_rate': 7.768301950519295e-05, 'epoch': 0.62}
{'loss': 1.4607, 'grad_norm': 0.71875, 'learning_rate': 7.751414337583382e-05, 'epoch': 0.62}




{'loss': 1.9956, 'grad_norm': 1.359375, 'learning_rate': 7.734526724647472e-05, 'epoch': 0.62}
{'loss': 1.7263, 'grad_norm': 1.2734375, 'learning_rate': 7.71763911171156e-05, 'epoch': 0.63}




{'loss': 1.385, 'grad_norm': 1.109375, 'learning_rate': 7.700751498775648e-05, 'epoch': 0.63}
{'loss': 1.5974, 'grad_norm': 0.7109375, 'learning_rate': 7.683863885839738e-05, 'epoch': 0.63}




{'loss': 1.6204, 'grad_norm': 0.7734375, 'learning_rate': 7.666976272903825e-05, 'epoch': 0.63}
{'loss': 1.6874, 'grad_norm': 0.91796875, 'learning_rate': 7.650088659967913e-05, 'epoch': 0.63}




{'loss': 1.6221, 'grad_norm': 0.98828125, 'learning_rate': 7.633201047032003e-05, 'epoch': 0.63}
{'loss': 1.6475, 'grad_norm': 3.6875, 'learning_rate': 7.61631343409609e-05, 'epoch': 0.63}




{'loss': 1.3533, 'grad_norm': 0.78515625, 'learning_rate': 7.59942582116018e-05, 'epoch': 0.63}
{'loss': 1.5876, 'grad_norm': 1.09375, 'learning_rate': 7.582538208224268e-05, 'epoch': 0.63}




{'loss': 1.7594, 'grad_norm': 1.03125, 'learning_rate': 7.565650595288356e-05, 'epoch': 0.63}
{'loss': 1.8736, 'grad_norm': 0.94140625, 'learning_rate': 7.548762982352445e-05, 'epoch': 0.63}




{'loss': 1.4157, 'grad_norm': 2.109375, 'learning_rate': 7.531875369416533e-05, 'epoch': 0.63}
{'loss': 1.4842, 'grad_norm': 0.55859375, 'learning_rate': 7.514987756480622e-05, 'epoch': 0.64}




{'loss': 1.5384, 'grad_norm': 0.875, 'learning_rate': 7.49810014354471e-05, 'epoch': 0.64}
{'loss': 1.6321, 'grad_norm': 0.71875, 'learning_rate': 7.481212530608799e-05, 'epoch': 0.64}




{'loss': 1.7659, 'grad_norm': 1.15625, 'learning_rate': 7.464324917672888e-05, 'epoch': 0.64}
{'loss': 1.5958, 'grad_norm': 3.203125, 'learning_rate': 7.447437304736976e-05, 'epoch': 0.64}




{'loss': 1.6017, 'grad_norm': 0.76171875, 'learning_rate': 7.430549691801065e-05, 'epoch': 0.64}
{'loss': 1.7284, 'grad_norm': 0.86328125, 'learning_rate': 7.413662078865152e-05, 'epoch': 0.64}




{'loss': 1.7318, 'grad_norm': 1.046875, 'learning_rate': 7.396774465929242e-05, 'epoch': 0.64}
{'loss': 1.9457, 'grad_norm': 3.171875, 'learning_rate': 7.379886852993329e-05, 'epoch': 0.64}




{'loss': 1.3531, 'grad_norm': 2.03125, 'learning_rate': 7.362999240057418e-05, 'epoch': 0.64}
{'loss': 1.4562, 'grad_norm': 0.59765625, 'learning_rate': 7.346111627121508e-05, 'epoch': 0.64}




{'loss': 1.6894, 'grad_norm': 0.66015625, 'learning_rate': 7.329224014185595e-05, 'epoch': 0.64}
{'loss': 1.4856, 'grad_norm': 1.203125, 'learning_rate': 7.312336401249685e-05, 'epoch': 0.65}




{'loss': 1.8837, 'grad_norm': 2.015625, 'learning_rate': 7.295448788313772e-05, 'epoch': 0.65}
{'loss': 1.7385, 'grad_norm': 1.625, 'learning_rate': 7.27856117537786e-05, 'epoch': 0.65}




{'loss': 1.7594, 'grad_norm': 0.67578125, 'learning_rate': 7.261673562441949e-05, 'epoch': 0.65}
{'loss': 1.6728, 'grad_norm': 0.7734375, 'learning_rate': 7.244785949506038e-05, 'epoch': 0.65}




{'loss': 1.735, 'grad_norm': 1.2890625, 'learning_rate': 7.227898336570126e-05, 'epoch': 0.65}
{'loss': 1.793, 'grad_norm': 1.390625, 'learning_rate': 7.211010723634215e-05, 'epoch': 0.65}




{'loss': 1.4298, 'grad_norm': 2.71875, 'learning_rate': 7.194123110698303e-05, 'epoch': 0.65}
{'loss': 1.6064, 'grad_norm': 0.69140625, 'learning_rate': 7.177235497762392e-05, 'epoch': 0.65}




{'loss': 1.7463, 'grad_norm': 0.67578125, 'learning_rate': 7.16034788482648e-05, 'epoch': 0.65}
{'loss': 1.3783, 'grad_norm': 0.91796875, 'learning_rate': 7.143460271890569e-05, 'epoch': 0.65}




{'loss': 1.7398, 'grad_norm': 1.203125, 'learning_rate': 7.126572658954656e-05, 'epoch': 0.65}
{'loss': 1.5873, 'grad_norm': 5.09375, 'learning_rate': 7.109685046018746e-05, 'epoch': 0.66}




{'loss': 1.822, 'grad_norm': 0.6953125, 'learning_rate': 7.092797433082833e-05, 'epoch': 0.66}
{'loss': 1.6304, 'grad_norm': 0.828125, 'learning_rate': 7.075909820146922e-05, 'epoch': 0.66}




{'loss': 1.4671, 'grad_norm': 0.8359375, 'learning_rate': 7.059022207211012e-05, 'epoch': 0.66}
{'loss': 1.5688, 'grad_norm': 1.3984375, 'learning_rate': 7.042134594275099e-05, 'epoch': 0.66}




{'loss': 1.3928, 'grad_norm': 1.8984375, 'learning_rate': 7.025246981339189e-05, 'epoch': 0.66}
{'loss': 1.7411, 'grad_norm': 0.5703125, 'learning_rate': 7.008359368403276e-05, 'epoch': 0.66}




{'loss': 1.8344, 'grad_norm': 0.84765625, 'learning_rate': 6.991471755467365e-05, 'epoch': 0.66}
{'loss': 1.4937, 'grad_norm': 1.0703125, 'learning_rate': 6.974584142531455e-05, 'epoch': 0.66}




{'loss': 1.8215, 'grad_norm': 1.359375, 'learning_rate': 6.957696529595542e-05, 'epoch': 0.66}
{'loss': 1.3184, 'grad_norm': 1.7109375, 'learning_rate': 6.94080891665963e-05, 'epoch': 0.66}




{'loss': 1.6108, 'grad_norm': 0.64453125, 'learning_rate': 6.923921303723719e-05, 'epoch': 0.66}
{'loss': 1.7092, 'grad_norm': 0.5234375, 'learning_rate': 6.907033690787808e-05, 'epoch': 0.67}




{'loss': 1.6671, 'grad_norm': 0.9609375, 'learning_rate': 6.890146077851896e-05, 'epoch': 0.67}
{'loss': 1.8348, 'grad_norm': 1.421875, 'learning_rate': 6.873258464915985e-05, 'epoch': 0.67}




{'loss': 1.5998, 'grad_norm': 2.109375, 'learning_rate': 6.856370851980073e-05, 'epoch': 0.67}
{'loss': 1.4562, 'grad_norm': 0.9765625, 'learning_rate': 6.83948323904416e-05, 'epoch': 0.67}




{'loss': 1.7505, 'grad_norm': 0.859375, 'learning_rate': 6.82259562610825e-05, 'epoch': 0.67}
{'loss': 1.6236, 'grad_norm': 0.86328125, 'learning_rate': 6.805708013172339e-05, 'epoch': 0.67}




{'loss': 1.7194, 'grad_norm': 1.03125, 'learning_rate': 6.788820400236426e-05, 'epoch': 0.67}
{'loss': 1.2744, 'grad_norm': 2.0, 'learning_rate': 6.771932787300516e-05, 'epoch': 0.67}




{'loss': 1.7164, 'grad_norm': 0.65234375, 'learning_rate': 6.755045174364603e-05, 'epoch': 0.67}
{'loss': 1.6402, 'grad_norm': 1.0078125, 'learning_rate': 6.738157561428693e-05, 'epoch': 0.67}




{'loss': 1.7619, 'grad_norm': 0.9453125, 'learning_rate': 6.72126994849278e-05, 'epoch': 0.67}
{'loss': 1.9161, 'grad_norm': 1.3984375, 'learning_rate': 6.704382335556869e-05, 'epoch': 0.67}




{'loss': 1.5394, 'grad_norm': 3.25, 'learning_rate': 6.687494722620959e-05, 'epoch': 0.68}
{'loss': 1.7403, 'grad_norm': 0.5078125, 'learning_rate': 6.670607109685046e-05, 'epoch': 0.68}




{'loss': 1.4437, 'grad_norm': 0.66796875, 'learning_rate': 6.653719496749135e-05, 'epoch': 0.68}
{'loss': 1.4067, 'grad_norm': 1.1875, 'learning_rate': 6.636831883813223e-05, 'epoch': 0.68}




{'loss': 1.6971, 'grad_norm': 1.6328125, 'learning_rate': 6.619944270877312e-05, 'epoch': 0.68}
{'loss': 1.4553, 'grad_norm': 0.8515625, 'learning_rate': 6.6030566579414e-05, 'epoch': 0.68}




{'loss': 1.69, 'grad_norm': 0.90625, 'learning_rate': 6.586169045005489e-05, 'epoch': 0.68}
{'loss': 1.5983, 'grad_norm': 0.7265625, 'learning_rate': 6.569281432069577e-05, 'epoch': 0.68}




{'loss': 1.4867, 'grad_norm': 1.1875, 'learning_rate': 6.552393819133665e-05, 'epoch': 0.68}
{'loss': 1.9332, 'grad_norm': 1.328125, 'learning_rate': 6.535506206197755e-05, 'epoch': 0.68}




{'loss': 1.4638, 'grad_norm': 2.234375, 'learning_rate': 6.518618593261843e-05, 'epoch': 0.68}
{'loss': 1.5716, 'grad_norm': 0.5859375, 'learning_rate': 6.50173098032593e-05, 'epoch': 0.68}




{'loss': 1.5614, 'grad_norm': 0.70703125, 'learning_rate': 6.48484336739002e-05, 'epoch': 0.69}
{'loss': 1.7294, 'grad_norm': 0.73046875, 'learning_rate': 6.467955754454108e-05, 'epoch': 0.69}




{'loss': 1.8061, 'grad_norm': 1.3984375, 'learning_rate': 6.451068141518196e-05, 'epoch': 0.69}
{'loss': 1.5162, 'grad_norm': 2.078125, 'learning_rate': 6.434180528582286e-05, 'epoch': 0.69}




{'loss': 1.7593, 'grad_norm': 0.72265625, 'learning_rate': 6.417292915646373e-05, 'epoch': 0.69}
{'loss': 1.4072, 'grad_norm': 0.6875, 'learning_rate': 6.400405302710463e-05, 'epoch': 0.69}




{'loss': 1.6633, 'grad_norm': 0.70703125, 'learning_rate': 6.38351768977455e-05, 'epoch': 0.69}
{'loss': 1.795, 'grad_norm': 1.7421875, 'learning_rate': 6.366630076838639e-05, 'epoch': 0.69}




{'loss': 1.5168, 'grad_norm': 2.5, 'learning_rate': 6.349742463902728e-05, 'epoch': 0.69}
{'loss': 1.4558, 'grad_norm': 0.56640625, 'learning_rate': 6.332854850966816e-05, 'epoch': 0.69}




{'loss': 1.6981, 'grad_norm': 0.703125, 'learning_rate': 6.315967238030905e-05, 'epoch': 0.69}
{'loss': 1.6417, 'grad_norm': 1.1875, 'learning_rate': 6.299079625094993e-05, 'epoch': 0.69}




{'loss': 1.8917, 'grad_norm': 1.5546875, 'learning_rate': 6.282192012159082e-05, 'epoch': 0.7}
{'loss': 1.5519, 'grad_norm': 1.1171875, 'learning_rate': 6.26530439922317e-05, 'epoch': 0.7}




{'loss': 1.7806, 'grad_norm': 0.515625, 'learning_rate': 6.248416786287259e-05, 'epoch': 0.7}
{'loss': 1.4389, 'grad_norm': 0.7109375, 'learning_rate': 6.231529173351347e-05, 'epoch': 0.7}




{'loss': 1.7963, 'grad_norm': 0.87109375, 'learning_rate': 6.214641560415435e-05, 'epoch': 0.7}
{'loss': 1.8366, 'grad_norm': 1.2109375, 'learning_rate': 6.197753947479525e-05, 'epoch': 0.7}




{'loss': 1.3202, 'grad_norm': 0.97265625, 'learning_rate': 6.180866334543612e-05, 'epoch': 0.7}
{'loss': 1.6199, 'grad_norm': 0.6953125, 'learning_rate': 6.1639787216077e-05, 'epoch': 0.7}




{'loss': 1.6046, 'grad_norm': 0.69921875, 'learning_rate': 6.14709110867179e-05, 'epoch': 0.7}
{'loss': 1.8169, 'grad_norm': 1.03125, 'learning_rate': 6.130203495735878e-05, 'epoch': 0.7}




{'loss': 2.0245, 'grad_norm': 1.5078125, 'learning_rate': 6.113315882799967e-05, 'epoch': 0.7}
{'loss': 1.578, 'grad_norm': 3.328125, 'learning_rate': 6.096428269864055e-05, 'epoch': 0.7}




{'loss': 1.5228, 'grad_norm': 0.68359375, 'learning_rate': 6.079540656928143e-05, 'epoch': 0.71}
{'loss': 1.8151, 'grad_norm': 0.66796875, 'learning_rate': 6.0626530439922325e-05, 'epoch': 0.71}




{'loss': 1.5661, 'grad_norm': 1.015625, 'learning_rate': 6.0457654310563203e-05, 'epoch': 0.71}
{'loss': 1.9612, 'grad_norm': 1.9453125, 'learning_rate': 6.028877818120409e-05, 'epoch': 0.71}




{'loss': 1.3682, 'grad_norm': 2.15625, 'learning_rate': 6.011990205184498e-05, 'epoch': 0.71}
{'loss': 1.5661, 'grad_norm': 0.625, 'learning_rate': 5.995102592248586e-05, 'epoch': 0.71}




{'loss': 1.554, 'grad_norm': 0.74609375, 'learning_rate': 5.978214979312674e-05, 'epoch': 0.71}
{'loss': 1.7245, 'grad_norm': 0.87890625, 'learning_rate': 5.961327366376763e-05, 'epoch': 0.71}




{'loss': 1.6302, 'grad_norm': 0.91015625, 'learning_rate': 5.944439753440851e-05, 'epoch': 0.71}
{'loss': 1.4134, 'grad_norm': 1.78125, 'learning_rate': 5.9275521405049396e-05, 'epoch': 0.71}




{'loss': 1.7312, 'grad_norm': 0.51953125, 'learning_rate': 5.910664527569029e-05, 'epoch': 0.71}
{'loss': 1.6976, 'grad_norm': 0.859375, 'learning_rate': 5.893776914633117e-05, 'epoch': 0.71}




{'loss': 1.9069, 'grad_norm': 0.76953125, 'learning_rate': 5.8768893016972046e-05, 'epoch': 0.71}
{'loss': 1.7868, 'grad_norm': 1.2421875, 'learning_rate': 5.860001688761294e-05, 'epoch': 0.72}




{'loss': 1.69, 'grad_norm': 2.75, 'learning_rate': 5.8431140758253825e-05, 'epoch': 0.72}
{'loss': 1.9805, 'grad_norm': 0.84375, 'learning_rate': 5.826226462889472e-05, 'epoch': 0.72}




{'loss': 1.5822, 'grad_norm': 0.83984375, 'learning_rate': 5.8093388499535596e-05, 'epoch': 0.72}
{'loss': 1.606, 'grad_norm': 1.25, 'learning_rate': 5.7924512370176475e-05, 'epoch': 0.72}




{'loss': 1.8795, 'grad_norm': 1.3359375, 'learning_rate': 5.775563624081737e-05, 'epoch': 0.72}
{'loss': 1.2406, 'grad_norm': 3.046875, 'learning_rate': 5.7586760111458246e-05, 'epoch': 0.72}




{'loss': 1.5143, 'grad_norm': 0.66796875, 'learning_rate': 5.741788398209913e-05, 'epoch': 0.72}
{'loss': 1.7382, 'grad_norm': 0.72265625, 'learning_rate': 5.7249007852740024e-05, 'epoch': 0.72}




{'loss': 1.723, 'grad_norm': 0.81640625, 'learning_rate': 5.70801317233809e-05, 'epoch': 0.72}
{'loss': 1.528, 'grad_norm': 1.1015625, 'learning_rate': 5.691125559402178e-05, 'epoch': 0.72}




{'loss': 1.5813, 'grad_norm': 3.6875, 'learning_rate': 5.6742379464662674e-05, 'epoch': 0.72}
{'loss': 1.5991, 'grad_norm': 0.76953125, 'learning_rate': 5.657350333530356e-05, 'epoch': 0.73}




{'loss': 1.5364, 'grad_norm': 1.2421875, 'learning_rate': 5.640462720594444e-05, 'epoch': 0.73}
{'loss': 1.5578, 'grad_norm': 1.1015625, 'learning_rate': 5.623575107658533e-05, 'epoch': 0.73}




{'loss': 1.5199, 'grad_norm': 1.6015625, 'learning_rate': 5.606687494722621e-05, 'epoch': 0.73}
{'loss': 1.3614, 'grad_norm': 1.640625, 'learning_rate': 5.589799881786709e-05, 'epoch': 0.73}




{'loss': 1.7957, 'grad_norm': 0.62109375, 'learning_rate': 5.572912268850798e-05, 'epoch': 0.73}
{'loss': 1.8434, 'grad_norm': 0.75390625, 'learning_rate': 5.556024655914887e-05, 'epoch': 0.73}




{'loss': 1.8641, 'grad_norm': 0.95703125, 'learning_rate': 5.539137042978976e-05, 'epoch': 0.73}
{'loss': 1.7169, 'grad_norm': 1.609375, 'learning_rate': 5.522249430043064e-05, 'epoch': 0.73}




{'loss': 1.4242, 'grad_norm': 1.234375, 'learning_rate': 5.505361817107152e-05, 'epoch': 0.73}
{'loss': 1.4614, 'grad_norm': 0.68359375, 'learning_rate': 5.488474204171241e-05, 'epoch': 0.73}




{'loss': 1.6441, 'grad_norm': 0.66015625, 'learning_rate': 5.4715865912353296e-05, 'epoch': 0.73}
{'loss': 1.7284, 'grad_norm': 1.25, 'learning_rate': 5.4546989782994175e-05, 'epoch': 0.74}




{'loss': 1.5607, 'grad_norm': 1.4453125, 'learning_rate': 5.437811365363507e-05, 'epoch': 0.74}
{'loss': 1.4093, 'grad_norm': 1.2890625, 'learning_rate': 5.4209237524275946e-05, 'epoch': 0.74}




{'loss': 1.6023, 'grad_norm': 0.70703125, 'learning_rate': 5.4040361394916825e-05, 'epoch': 0.74}
{'loss': 1.6308, 'grad_norm': 0.734375, 'learning_rate': 5.387148526555772e-05, 'epoch': 0.74}




{'loss': 1.6303, 'grad_norm': 1.4921875, 'learning_rate': 5.37026091361986e-05, 'epoch': 0.74}
{'loss': 1.772, 'grad_norm': 1.296875, 'learning_rate': 5.353373300683948e-05, 'epoch': 0.74}




{'loss': 1.5227, 'grad_norm': 1.6484375, 'learning_rate': 5.3364856877480374e-05, 'epoch': 0.74}
{'loss': 1.5377, 'grad_norm': 0.85546875, 'learning_rate': 5.319598074812125e-05, 'epoch': 0.74}




{'loss': 1.6585, 'grad_norm': 0.8359375, 'learning_rate': 5.302710461876214e-05, 'epoch': 0.74}
{'loss': 1.788, 'grad_norm': 0.9453125, 'learning_rate': 5.2858228489403024e-05, 'epoch': 0.74}




{'loss': 1.8704, 'grad_norm': 1.3359375, 'learning_rate': 5.268935236004391e-05, 'epoch': 0.74}
{'loss': 1.6519, 'grad_norm': 1.328125, 'learning_rate': 5.252047623068479e-05, 'epoch': 0.75}




{'loss': 1.6294, 'grad_norm': 0.69921875, 'learning_rate': 5.235160010132568e-05, 'epoch': 0.75}
{'loss': 1.727, 'grad_norm': 0.80078125, 'learning_rate': 5.218272397196656e-05, 'epoch': 0.75}




{'loss': 1.7615, 'grad_norm': 0.8359375, 'learning_rate': 5.201384784260745e-05, 'epoch': 0.75}
{'loss': 1.8049, 'grad_norm': 1.359375, 'learning_rate': 5.184497171324834e-05, 'epoch': 0.75}




{'loss': 1.8831, 'grad_norm': 2.25, 'learning_rate': 5.167609558388922e-05, 'epoch': 0.75}
{'loss': 1.3944, 'grad_norm': 0.5625, 'learning_rate': 5.150721945453011e-05, 'epoch': 0.75}




{'loss': 1.6969, 'grad_norm': 0.66796875, 'learning_rate': 5.133834332517099e-05, 'epoch': 0.75}
{'loss': 1.7845, 'grad_norm': 0.93359375, 'learning_rate': 5.1169467195811874e-05, 'epoch': 0.75}




{'loss': 1.6433, 'grad_norm': 1.265625, 'learning_rate': 5.100059106645276e-05, 'epoch': 0.75}
{'loss': 1.5194, 'grad_norm': 0.953125, 'learning_rate': 5.0831714937093646e-05, 'epoch': 0.75}




{'loss': 1.5082, 'grad_norm': 0.70703125, 'learning_rate': 5.0662838807734524e-05, 'epoch': 0.75}
{'loss': 1.702, 'grad_norm': 0.84375, 'learning_rate': 5.049396267837542e-05, 'epoch': 0.76}




{'loss': 1.7282, 'grad_norm': 0.7890625, 'learning_rate': 5.0325086549016296e-05, 'epoch': 0.76}
{'loss': 1.9446, 'grad_norm': 0.953125, 'learning_rate': 5.015621041965718e-05, 'epoch': 0.76}




{'loss': 1.3908, 'grad_norm': 0.8515625, 'learning_rate': 4.9987334290298074e-05, 'epoch': 0.76}
{'loss': 1.7051, 'grad_norm': 0.6953125, 'learning_rate': 4.981845816093895e-05, 'epoch': 0.76}




{'loss': 1.5857, 'grad_norm': 0.75, 'learning_rate': 4.964958203157984e-05, 'epoch': 0.76}
{'loss': 1.757, 'grad_norm': 0.8125, 'learning_rate': 4.9480705902220724e-05, 'epoch': 0.76}




{'loss': 1.6714, 'grad_norm': 1.34375, 'learning_rate': 4.93118297728616e-05, 'epoch': 0.76}
{'loss': 1.2919, 'grad_norm': 0.90625, 'learning_rate': 4.9142953643502495e-05, 'epoch': 0.76}




{'loss': 1.5037, 'grad_norm': 0.46875, 'learning_rate': 4.897407751414338e-05, 'epoch': 0.76}
{'loss': 1.4169, 'grad_norm': 0.8671875, 'learning_rate': 4.880520138478426e-05, 'epoch': 0.76}




{'loss': 1.4523, 'grad_norm': 0.8359375, 'learning_rate': 4.8636325255425146e-05, 'epoch': 0.76}
{'loss': 1.6083, 'grad_norm': 0.9453125, 'learning_rate': 4.846744912606603e-05, 'epoch': 0.76}




{'loss': 1.7905, 'grad_norm': 2.109375, 'learning_rate': 4.829857299670692e-05, 'epoch': 0.77}
{'loss': 1.8543, 'grad_norm': 0.9921875, 'learning_rate': 4.81296968673478e-05, 'epoch': 0.77}




{'loss': 1.6516, 'grad_norm': 0.87109375, 'learning_rate': 4.796082073798869e-05, 'epoch': 0.77}
{'loss': 1.749, 'grad_norm': 0.984375, 'learning_rate': 4.7791944608629574e-05, 'epoch': 0.77}




{'loss': 1.5631, 'grad_norm': 1.578125, 'learning_rate': 4.762306847927045e-05, 'epoch': 0.77}
{'loss': 1.6379, 'grad_norm': 2.59375, 'learning_rate': 4.745419234991134e-05, 'epoch': 0.77}




{'loss': 1.7115, 'grad_norm': 0.7734375, 'learning_rate': 4.728531622055223e-05, 'epoch': 0.77}
{'loss': 1.6928, 'grad_norm': 0.81640625, 'learning_rate': 4.711644009119312e-05, 'epoch': 0.77}




{'loss': 1.5676, 'grad_norm': 0.86328125, 'learning_rate': 4.6947563961833996e-05, 'epoch': 0.77}
{'loss': 1.6709, 'grad_norm': 1.640625, 'learning_rate': 4.677868783247488e-05, 'epoch': 0.77}




{'loss': 1.3804, 'grad_norm': 0.92578125, 'learning_rate': 4.660981170311577e-05, 'epoch': 0.77}
{'loss': 1.2996, 'grad_norm': 0.53515625, 'learning_rate': 4.644093557375665e-05, 'epoch': 0.77}




{'loss': 1.4735, 'grad_norm': 0.8203125, 'learning_rate': 4.627205944439754e-05, 'epoch': 0.78}
{'loss': 1.7658, 'grad_norm': 0.94140625, 'learning_rate': 4.6103183315038424e-05, 'epoch': 0.78}




{'loss': 1.6745, 'grad_norm': 0.953125, 'learning_rate': 4.59343071856793e-05, 'epoch': 0.78}
{'loss': 1.6407, 'grad_norm': 1.8203125, 'learning_rate': 4.576543105632019e-05, 'epoch': 0.78}




{'loss': 1.7562, 'grad_norm': 0.7578125, 'learning_rate': 4.5596554926961074e-05, 'epoch': 0.78}
{'loss': 1.6788, 'grad_norm': 0.68359375, 'learning_rate': 4.5427678797601966e-05, 'epoch': 0.78}




{'loss': 1.6597, 'grad_norm': 0.83203125, 'learning_rate': 4.5258802668242845e-05, 'epoch': 0.78}
{'loss': 1.6631, 'grad_norm': 1.28125, 'learning_rate': 4.508992653888373e-05, 'epoch': 0.78}




{'loss': 1.8602, 'grad_norm': 3.390625, 'learning_rate': 4.492105040952462e-05, 'epoch': 0.78}
{'loss': 2.12, 'grad_norm': 0.8203125, 'learning_rate': 4.4752174280165496e-05, 'epoch': 0.78}




{'loss': 1.322, 'grad_norm': 0.47265625, 'learning_rate': 4.458329815080639e-05, 'epoch': 0.78}
{'loss': 1.7927, 'grad_norm': 1.1875, 'learning_rate': 4.4414422021447274e-05, 'epoch': 0.78}




{'loss': 1.5484, 'grad_norm': 1.78125, 'learning_rate': 4.424554589208815e-05, 'epoch': 0.79}
{'loss': 1.3376, 'grad_norm': 1.4140625, 'learning_rate': 4.407666976272904e-05, 'epoch': 0.79}




{'loss': 1.888, 'grad_norm': 0.84375, 'learning_rate': 4.3907793633369924e-05, 'epoch': 0.79}
{'loss': 1.7004, 'grad_norm': 0.8984375, 'learning_rate': 4.373891750401081e-05, 'epoch': 0.79}




{'loss': 1.7508, 'grad_norm': 1.3984375, 'learning_rate': 4.3570041374651695e-05, 'epoch': 0.79}
{'loss': 1.6435, 'grad_norm': 1.421875, 'learning_rate': 4.340116524529258e-05, 'epoch': 0.79}




{'loss': 1.4777, 'grad_norm': 3.4375, 'learning_rate': 4.3232289115933467e-05, 'epoch': 0.79}
{'loss': 1.8547, 'grad_norm': 0.6484375, 'learning_rate': 4.3063412986574345e-05, 'epoch': 0.79}




{'loss': 1.4629, 'grad_norm': 0.76171875, 'learning_rate': 4.289453685721523e-05, 'epoch': 0.79}
{'loss': 1.665, 'grad_norm': 1.1328125, 'learning_rate': 4.2725660727856124e-05, 'epoch': 0.79}




{'loss': 1.5464, 'grad_norm': 1.8515625, 'learning_rate': 4.255678459849701e-05, 'epoch': 0.79}
{'loss': 1.7916, 'grad_norm': 2.65625, 'learning_rate': 4.238790846913789e-05, 'epoch': 0.79}




{'loss': 1.4025, 'grad_norm': 0.7265625, 'learning_rate': 4.2219032339778774e-05, 'epoch': 0.8}
{'loss': 1.861, 'grad_norm': 0.81640625, 'learning_rate': 4.205015621041966e-05, 'epoch': 0.8}




{'loss': 1.7452, 'grad_norm': 1.3359375, 'learning_rate': 4.1881280081060545e-05, 'epoch': 0.8}
{'loss': 1.5073, 'grad_norm': 1.7265625, 'learning_rate': 4.171240395170143e-05, 'epoch': 0.8}




{'loss': 1.4888, 'grad_norm': 1.96875, 'learning_rate': 4.1543527822342316e-05, 'epoch': 0.8}
{'loss': 1.597, 'grad_norm': 1.0, 'learning_rate': 4.1374651692983195e-05, 'epoch': 0.8}




{'loss': 1.6881, 'grad_norm': 1.1328125, 'learning_rate': 4.120577556362408e-05, 'epoch': 0.8}
{'loss': 1.8995, 'grad_norm': 1.1171875, 'learning_rate': 4.103689943426497e-05, 'epoch': 0.8}




{'loss': 1.694, 'grad_norm': 1.109375, 'learning_rate': 4.086802330490586e-05, 'epoch': 0.8}
{'loss': 1.4576, 'grad_norm': 1.4609375, 'learning_rate': 4.069914717554674e-05, 'epoch': 0.8}




{'loss': 1.4598, 'grad_norm': 0.66796875, 'learning_rate': 4.0530271046187624e-05, 'epoch': 0.8}
{'loss': 1.6249, 'grad_norm': 0.65625, 'learning_rate': 4.036139491682851e-05, 'epoch': 0.8}




{'loss': 1.818, 'grad_norm': 0.7578125, 'learning_rate': 4.019251878746939e-05, 'epoch': 0.81}
{'loss': 1.8671, 'grad_norm': 1.3125, 'learning_rate': 4.002364265811028e-05, 'epoch': 0.81}




{'loss': 1.6701, 'grad_norm': 2.75, 'learning_rate': 3.9854766528751166e-05, 'epoch': 0.81}
{'loss': 1.6027, 'grad_norm': 0.5078125, 'learning_rate': 3.968589039939205e-05, 'epoch': 0.81}




{'loss': 1.5652, 'grad_norm': 0.9140625, 'learning_rate': 3.951701427003293e-05, 'epoch': 0.81}
{'loss': 1.6969, 'grad_norm': 0.91015625, 'learning_rate': 3.9348138140673817e-05, 'epoch': 0.81}




{'loss': 1.6639, 'grad_norm': 1.125, 'learning_rate': 3.91792620113147e-05, 'epoch': 0.81}
{'loss': 1.5211, 'grad_norm': 2.171875, 'learning_rate': 3.901038588195559e-05, 'epoch': 0.81}




{'loss': 1.6393, 'grad_norm': 0.8359375, 'learning_rate': 3.8841509752596474e-05, 'epoch': 0.81}
{'loss': 1.5981, 'grad_norm': 0.8203125, 'learning_rate': 3.867263362323736e-05, 'epoch': 0.81}




{'loss': 1.8097, 'grad_norm': 1.125, 'learning_rate': 3.850375749387824e-05, 'epoch': 0.81}
{'loss': 1.8327, 'grad_norm': 1.109375, 'learning_rate': 3.8334881364519124e-05, 'epoch': 0.81}




{'loss': 1.9133, 'grad_norm': 3.78125, 'learning_rate': 3.8166005235160016e-05, 'epoch': 0.81}
{'loss': 1.6379, 'grad_norm': 0.69921875, 'learning_rate': 3.79971291058009e-05, 'epoch': 0.82}




{'loss': 1.6238, 'grad_norm': 1.3125, 'learning_rate': 3.782825297644178e-05, 'epoch': 0.82}
{'loss': 1.5781, 'grad_norm': 1.0859375, 'learning_rate': 3.7659376847082666e-05, 'epoch': 0.82}




{'loss': 1.693, 'grad_norm': 1.71875, 'learning_rate': 3.749050071772355e-05, 'epoch': 0.82}
{'loss': 1.44, 'grad_norm': 1.3046875, 'learning_rate': 3.732162458836444e-05, 'epoch': 0.82}




{'loss': 1.7537, 'grad_norm': 0.72265625, 'learning_rate': 3.715274845900532e-05, 'epoch': 0.82}
{'loss': 1.5718, 'grad_norm': 0.7421875, 'learning_rate': 3.698387232964621e-05, 'epoch': 0.82}




{'loss': 1.638, 'grad_norm': 0.99609375, 'learning_rate': 3.681499620028709e-05, 'epoch': 0.82}
{'loss': 1.6619, 'grad_norm': 1.4921875, 'learning_rate': 3.6646120070927974e-05, 'epoch': 0.82}




{'loss': 1.4373, 'grad_norm': 1.7109375, 'learning_rate': 3.647724394156886e-05, 'epoch': 0.82}
{'loss': 1.8263, 'grad_norm': 0.63671875, 'learning_rate': 3.6308367812209745e-05, 'epoch': 0.82}




{'loss': 1.588, 'grad_norm': 0.78125, 'learning_rate': 3.613949168285063e-05, 'epoch': 0.82}
{'loss': 1.507, 'grad_norm': 0.88671875, 'learning_rate': 3.5970615553491516e-05, 'epoch': 0.83}




{'loss': 1.6837, 'grad_norm': 1.6796875, 'learning_rate': 3.58017394241324e-05, 'epoch': 0.83}
{'loss': 1.7469, 'grad_norm': 2.09375, 'learning_rate': 3.563286329477328e-05, 'epoch': 0.83}




{'loss': 1.5576, 'grad_norm': 0.494140625, 'learning_rate': 3.5463987165414166e-05, 'epoch': 0.83}
{'loss': 1.7896, 'grad_norm': 0.609375, 'learning_rate': 3.529511103605506e-05, 'epoch': 0.83}




{'loss': 1.6299, 'grad_norm': 0.78515625, 'learning_rate': 3.5126234906695945e-05, 'epoch': 0.83}
{'loss': 1.9207, 'grad_norm': 1.6328125, 'learning_rate': 3.4957358777336823e-05, 'epoch': 0.83}




{'loss': 1.7726, 'grad_norm': 2.34375, 'learning_rate': 3.478848264797771e-05, 'epoch': 0.83}
{'loss': 1.5424, 'grad_norm': 0.76953125, 'learning_rate': 3.4619606518618595e-05, 'epoch': 0.83}




{'loss': 1.8304, 'grad_norm': 0.859375, 'learning_rate': 3.445073038925948e-05, 'epoch': 0.83}
{'loss': 1.82, 'grad_norm': 1.1484375, 'learning_rate': 3.4281854259900366e-05, 'epoch': 0.83}




{'loss': 1.4601, 'grad_norm': 1.8671875, 'learning_rate': 3.411297813054125e-05, 'epoch': 0.83}
{'loss': 1.2951, 'grad_norm': 1.1953125, 'learning_rate': 3.394410200118213e-05, 'epoch': 0.84}




{'loss': 1.8364, 'grad_norm': 0.7109375, 'learning_rate': 3.3775225871823016e-05, 'epoch': 0.84}
{'loss': 1.6735, 'grad_norm': 0.734375, 'learning_rate': 3.36063497424639e-05, 'epoch': 0.84}




{'loss': 1.8743, 'grad_norm': 1.0703125, 'learning_rate': 3.3437473613104794e-05, 'epoch': 0.84}
{'loss': 1.4381, 'grad_norm': 1.9453125, 'learning_rate': 3.326859748374567e-05, 'epoch': 0.84}




{'loss': 1.6694, 'grad_norm': 1.0546875, 'learning_rate': 3.309972135438656e-05, 'epoch': 0.84}
{'loss': 1.7081, 'grad_norm': 0.61328125, 'learning_rate': 3.2930845225027445e-05, 'epoch': 0.84}




{'loss': 1.6645, 'grad_norm': 1.2578125, 'learning_rate': 3.2761969095668324e-05, 'epoch': 0.84}
{'loss': 1.6791, 'grad_norm': 0.89453125, 'learning_rate': 3.2593092966309216e-05, 'epoch': 0.84}




{'loss': 1.9487, 'grad_norm': 2.28125, 'learning_rate': 3.24242168369501e-05, 'epoch': 0.84}
{'loss': 1.5516, 'grad_norm': 3.328125, 'learning_rate': 3.225534070759098e-05, 'epoch': 0.84}




{'loss': 1.8587, 'grad_norm': 0.578125, 'learning_rate': 3.2086464578231866e-05, 'epoch': 0.84}
{'loss': 1.5787, 'grad_norm': 0.76171875, 'learning_rate': 3.191758844887275e-05, 'epoch': 0.85}




{'loss': 1.8723, 'grad_norm': 0.92578125, 'learning_rate': 3.174871231951364e-05, 'epoch': 0.85}
{'loss': 1.8005, 'grad_norm': 1.265625, 'learning_rate': 3.157983619015452e-05, 'epoch': 0.85}




{'loss': 1.3251, 'grad_norm': 1.0703125, 'learning_rate': 3.141096006079541e-05, 'epoch': 0.85}
{'loss': 1.8061, 'grad_norm': 0.59375, 'learning_rate': 3.1242083931436294e-05, 'epoch': 0.85}




{'loss': 1.5033, 'grad_norm': 0.98046875, 'learning_rate': 3.107320780207717e-05, 'epoch': 0.85}
{'loss': 1.6719, 'grad_norm': 0.87890625, 'learning_rate': 3.090433167271806e-05, 'epoch': 0.85}




{'loss': 1.6079, 'grad_norm': 1.078125, 'learning_rate': 3.073545554335895e-05, 'epoch': 0.85}
{'loss': 1.4077, 'grad_norm': 0.98046875, 'learning_rate': 3.056657941399984e-05, 'epoch': 0.85}




{'loss': 1.7791, 'grad_norm': 0.7421875, 'learning_rate': 3.0397703284640716e-05, 'epoch': 0.85}
{'loss': 1.5732, 'grad_norm': 0.7109375, 'learning_rate': 3.0228827155281602e-05, 'epoch': 0.85}




{'loss': 1.6651, 'grad_norm': 0.65234375, 'learning_rate': 3.005995102592249e-05, 'epoch': 0.85}
{'loss': 1.6081, 'grad_norm': 2.203125, 'learning_rate': 2.989107489656337e-05, 'epoch': 0.86}




{'loss': 1.6159, 'grad_norm': 1.203125, 'learning_rate': 2.9722198767204255e-05, 'epoch': 0.86}
{'loss': 1.5539, 'grad_norm': 1.0859375, 'learning_rate': 2.9553322637845144e-05, 'epoch': 0.86}




{'loss': 1.5667, 'grad_norm': 0.62890625, 'learning_rate': 2.9384446508486023e-05, 'epoch': 0.86}
{'loss': 1.8433, 'grad_norm': 0.88671875, 'learning_rate': 2.9215570379126912e-05, 'epoch': 0.86}




{'loss': 1.6155, 'grad_norm': 1.46875, 'learning_rate': 2.9046694249767798e-05, 'epoch': 0.86}
{'loss': 1.8093, 'grad_norm': 5.125, 'learning_rate': 2.8877818120408684e-05, 'epoch': 0.86}




{'loss': 1.455, 'grad_norm': 0.65234375, 'learning_rate': 2.8708941991049566e-05, 'epoch': 0.86}
{'loss': 1.9076, 'grad_norm': 0.7734375, 'learning_rate': 2.854006586169045e-05, 'epoch': 0.86}




{'loss': 1.7433, 'grad_norm': 0.8515625, 'learning_rate': 2.8371189732331337e-05, 'epoch': 0.86}
{'loss': 1.8161, 'grad_norm': 1.8125, 'learning_rate': 2.820231360297222e-05, 'epoch': 0.86}




{'loss': 1.7644, 'grad_norm': 5.125, 'learning_rate': 2.8033437473613105e-05, 'epoch': 0.86}
{'loss': 1.9409, 'grad_norm': 0.5703125, 'learning_rate': 2.786456134425399e-05, 'epoch': 0.86}




{'loss': 1.6824, 'grad_norm': 0.859375, 'learning_rate': 2.769568521489488e-05, 'epoch': 0.87}
{'loss': 1.9967, 'grad_norm': 1.5078125, 'learning_rate': 2.752680908553576e-05, 'epoch': 0.87}




{'loss': 1.7252, 'grad_norm': 2.375, 'learning_rate': 2.7357932956176648e-05, 'epoch': 0.87}
{'loss': 1.6772, 'grad_norm': 1.0703125, 'learning_rate': 2.7189056826817533e-05, 'epoch': 0.87}




{'loss': 1.5582, 'grad_norm': 0.82421875, 'learning_rate': 2.7020180697458412e-05, 'epoch': 0.87}
{'loss': 1.5244, 'grad_norm': 0.984375, 'learning_rate': 2.68513045680993e-05, 'epoch': 0.87}




{'loss': 1.9008, 'grad_norm': 0.98828125, 'learning_rate': 2.6682428438740187e-05, 'epoch': 0.87}
{'loss': 1.4661, 'grad_norm': 1.6875, 'learning_rate': 2.651355230938107e-05, 'epoch': 0.87}




{'loss': 1.3332, 'grad_norm': 2.359375, 'learning_rate': 2.6344676180021955e-05, 'epoch': 0.87}
{'loss': 1.8454, 'grad_norm': 0.61328125, 'learning_rate': 2.617580005066284e-05, 'epoch': 0.87}




{'loss': 1.8187, 'grad_norm': 0.78125, 'learning_rate': 2.6006923921303726e-05, 'epoch': 0.87}
{'loss': 1.6919, 'grad_norm': 0.93359375, 'learning_rate': 2.583804779194461e-05, 'epoch': 0.87}




{'loss': 1.8021, 'grad_norm': 1.9609375, 'learning_rate': 2.5669171662585494e-05, 'epoch': 0.88}
{'loss': 1.5528, 'grad_norm': 2.859375, 'learning_rate': 2.550029553322638e-05, 'epoch': 0.88}




{'loss': 1.6642, 'grad_norm': 0.3671875, 'learning_rate': 2.5331419403867262e-05, 'epoch': 0.88}
{'loss': 1.874, 'grad_norm': 0.75390625, 'learning_rate': 2.5162543274508148e-05, 'epoch': 0.88}




{'loss': 1.7261, 'grad_norm': 0.734375, 'learning_rate': 2.4993667145149037e-05, 'epoch': 0.88}
{'loss': 2.0077, 'grad_norm': 1.2890625, 'learning_rate': 2.482479101578992e-05, 'epoch': 0.88}




{'loss': 1.5997, 'grad_norm': 2.0625, 'learning_rate': 2.46559148864308e-05, 'epoch': 0.88}
{'loss': 1.8736, 'grad_norm': 0.66796875, 'learning_rate': 2.448703875707169e-05, 'epoch': 0.88}




{'loss': 1.4646, 'grad_norm': 0.71875, 'learning_rate': 2.4318162627712573e-05, 'epoch': 0.88}
{'loss': 1.6969, 'grad_norm': 0.921875, 'learning_rate': 2.414928649835346e-05, 'epoch': 0.88}




{'loss': 1.6421, 'grad_norm': 1.2890625, 'learning_rate': 2.3980410368994344e-05, 'epoch': 0.88}
{'loss': 1.5081, 'grad_norm': 0.94921875, 'learning_rate': 2.3811534239635226e-05, 'epoch': 0.88}




{'loss': 1.4789, 'grad_norm': 0.7890625, 'learning_rate': 2.3642658110276115e-05, 'epoch': 0.89}
{'loss': 1.5388, 'grad_norm': 0.66796875, 'learning_rate': 2.3473781980916998e-05, 'epoch': 0.89}




{'loss': 1.821, 'grad_norm': 1.046875, 'learning_rate': 2.3304905851557883e-05, 'epoch': 0.89}
{'loss': 1.5085, 'grad_norm': 1.9375, 'learning_rate': 2.313602972219877e-05, 'epoch': 0.89}




{'loss': 1.0416, 'grad_norm': 0.8984375, 'learning_rate': 2.296715359283965e-05, 'epoch': 0.89}
{'loss': 1.548, 'grad_norm': 0.80078125, 'learning_rate': 2.2798277463480537e-05, 'epoch': 0.89}




{'loss': 1.7096, 'grad_norm': 0.80859375, 'learning_rate': 2.2629401334121423e-05, 'epoch': 0.89}
{'loss': 1.6095, 'grad_norm': 0.89453125, 'learning_rate': 2.246052520476231e-05, 'epoch': 0.89}




{'loss': 1.7213, 'grad_norm': 1.3984375, 'learning_rate': 2.2291649075403194e-05, 'epoch': 0.89}
{'loss': 1.5957, 'grad_norm': 1.2890625, 'learning_rate': 2.2122772946044076e-05, 'epoch': 0.89}




{'loss': 1.54, 'grad_norm': 0.74609375, 'learning_rate': 2.1953896816684962e-05, 'epoch': 0.89}
{'loss': 1.5196, 'grad_norm': 0.578125, 'learning_rate': 2.1785020687325848e-05, 'epoch': 0.89}




{'loss': 1.6455, 'grad_norm': 0.77734375, 'learning_rate': 2.1616144557966733e-05, 'epoch': 0.9}
{'loss': 1.5649, 'grad_norm': 1.1484375, 'learning_rate': 2.1447268428607616e-05, 'epoch': 0.9}




{'loss': 1.4522, 'grad_norm': 1.828125, 'learning_rate': 2.1278392299248505e-05, 'epoch': 0.9}
{'loss': 1.4022, 'grad_norm': 1.1171875, 'learning_rate': 2.1109516169889387e-05, 'epoch': 0.9}




{'loss': 1.7325, 'grad_norm': 0.71484375, 'learning_rate': 2.0940640040530273e-05, 'epoch': 0.9}
{'loss': 1.6935, 'grad_norm': 0.90625, 'learning_rate': 2.0771763911171158e-05, 'epoch': 0.9}




{'loss': 1.914, 'grad_norm': 1.3515625, 'learning_rate': 2.060288778181204e-05, 'epoch': 0.9}
{'loss': 1.4912, 'grad_norm': 4.15625, 'learning_rate': 2.043401165245293e-05, 'epoch': 0.9}




{'loss': 1.5261, 'grad_norm': 0.6484375, 'learning_rate': 2.0265135523093812e-05, 'epoch': 0.9}
{'loss': 1.3988, 'grad_norm': 0.66796875, 'learning_rate': 2.0096259393734694e-05, 'epoch': 0.9}




{'loss': 1.7676, 'grad_norm': 0.875, 'learning_rate': 1.9927383264375583e-05, 'epoch': 0.9}
{'loss': 1.4721, 'grad_norm': 0.97265625, 'learning_rate': 1.9758507135016465e-05, 'epoch': 0.9}




{'loss': 1.3678, 'grad_norm': 2.265625, 'learning_rate': 1.958963100565735e-05, 'epoch': 0.9}
{'loss': 1.5277, 'grad_norm': 0.6953125, 'learning_rate': 1.9420754876298237e-05, 'epoch': 0.91}




{'loss': 2.0303, 'grad_norm': 0.8984375, 'learning_rate': 1.925187874693912e-05, 'epoch': 0.91}
{'loss': 1.5504, 'grad_norm': 0.95703125, 'learning_rate': 1.9083002617580008e-05, 'epoch': 0.91}




{'loss': 1.5217, 'grad_norm': 1.71875, 'learning_rate': 1.891412648822089e-05, 'epoch': 0.91}
{'loss': 1.3552, 'grad_norm': 1.0078125, 'learning_rate': 1.8745250358861776e-05, 'epoch': 0.91}




{'loss': 1.5395, 'grad_norm': 0.6640625, 'learning_rate': 1.857637422950266e-05, 'epoch': 0.91}
{'loss': 1.674, 'grad_norm': 0.74609375, 'learning_rate': 1.8407498100143544e-05, 'epoch': 0.91}




{'loss': 1.7676, 'grad_norm': 0.828125, 'learning_rate': 1.823862197078443e-05, 'epoch': 0.91}
{'loss': 1.8709, 'grad_norm': 1.421875, 'learning_rate': 1.8069745841425315e-05, 'epoch': 0.91}




{'loss': 1.8623, 'grad_norm': 0.98828125, 'learning_rate': 1.79008697120662e-05, 'epoch': 0.91}
{'loss': 1.5823, 'grad_norm': 0.6875, 'learning_rate': 1.7731993582707083e-05, 'epoch': 0.91}




{'loss': 1.8044, 'grad_norm': 0.70703125, 'learning_rate': 1.7563117453347972e-05, 'epoch': 0.91}
{'loss': 1.8401, 'grad_norm': 1.0, 'learning_rate': 1.7394241323988855e-05, 'epoch': 0.92}




{'loss': 1.6111, 'grad_norm': 1.234375, 'learning_rate': 1.722536519462974e-05, 'epoch': 0.92}
{'loss': 1.3426, 'grad_norm': 1.5234375, 'learning_rate': 1.7056489065270626e-05, 'epoch': 0.92}




{'loss': 1.9584, 'grad_norm': 0.6484375, 'learning_rate': 1.6887612935911508e-05, 'epoch': 0.92}
{'loss': 1.4596, 'grad_norm': 0.71875, 'learning_rate': 1.6718736806552397e-05, 'epoch': 0.92}




{'loss': 1.4517, 'grad_norm': 1.03125, 'learning_rate': 1.654986067719328e-05, 'epoch': 0.92}
{'loss': 1.6103, 'grad_norm': 1.1796875, 'learning_rate': 1.6380984547834162e-05, 'epoch': 0.92}




{'loss': 1.5774, 'grad_norm': 4.125, 'learning_rate': 1.621210841847505e-05, 'epoch': 0.92}
{'loss': 1.542, 'grad_norm': 0.76171875, 'learning_rate': 1.6043232289115933e-05, 'epoch': 0.92}




{'loss': 1.5808, 'grad_norm': 0.69140625, 'learning_rate': 1.587435615975682e-05, 'epoch': 0.92}
{'loss': 1.9012, 'grad_norm': 0.92578125, 'learning_rate': 1.5705480030397704e-05, 'epoch': 0.92}




{'loss': 1.7278, 'grad_norm': 1.6015625, 'learning_rate': 1.5536603901038587e-05, 'epoch': 0.92}
{'loss': 1.5791, 'grad_norm': 2.953125, 'learning_rate': 1.5367727771679476e-05, 'epoch': 0.93}




{'loss': 1.5902, 'grad_norm': 0.92578125, 'learning_rate': 1.5198851642320358e-05, 'epoch': 0.93}
{'loss': 1.5776, 'grad_norm': 0.68359375, 'learning_rate': 1.5029975512961245e-05, 'epoch': 0.93}




{'loss': 1.5889, 'grad_norm': 1.078125, 'learning_rate': 1.4861099383602128e-05, 'epoch': 0.93}
{'loss': 2.1392, 'grad_norm': 1.328125, 'learning_rate': 1.4692223254243012e-05, 'epoch': 0.93}




{'loss': 1.0417, 'grad_norm': 0.92578125, 'learning_rate': 1.4523347124883899e-05, 'epoch': 0.93}
{'loss': 1.6025, 'grad_norm': 0.5546875, 'learning_rate': 1.4354470995524783e-05, 'epoch': 0.93}




{'loss': 1.735, 'grad_norm': 0.8125, 'learning_rate': 1.4185594866165669e-05, 'epoch': 0.93}
{'loss': 1.7227, 'grad_norm': 0.96484375, 'learning_rate': 1.4016718736806553e-05, 'epoch': 0.93}




{'loss': 1.4814, 'grad_norm': 1.1953125, 'learning_rate': 1.384784260744744e-05, 'epoch': 0.93}
{'loss': 1.5535, 'grad_norm': 4.0625, 'learning_rate': 1.3678966478088324e-05, 'epoch': 0.93}




{'loss': 1.4603, 'grad_norm': 0.5546875, 'learning_rate': 1.3510090348729206e-05, 'epoch': 0.93}
{'loss': 1.6545, 'grad_norm': 0.875, 'learning_rate': 1.3341214219370094e-05, 'epoch': 0.94}




{'loss': 1.8431, 'grad_norm': 0.85546875, 'learning_rate': 1.3172338090010978e-05, 'epoch': 0.94}
{'loss': 1.8533, 'grad_norm': 1.3984375, 'learning_rate': 1.3003461960651863e-05, 'epoch': 0.94}




{'loss': 1.4053, 'grad_norm': 1.03125, 'learning_rate': 1.2834585831292747e-05, 'epoch': 0.94}
{'loss': 1.5483, 'grad_norm': 0.5859375, 'learning_rate': 1.2665709701933631e-05, 'epoch': 0.94}




{'loss': 1.5242, 'grad_norm': 0.73828125, 'learning_rate': 1.2496833572574518e-05, 'epoch': 0.94}
{'loss': 1.5117, 'grad_norm': 0.984375, 'learning_rate': 1.23279574432154e-05, 'epoch': 0.94}




{'loss': 1.6486, 'grad_norm': 1.203125, 'learning_rate': 1.2159081313856286e-05, 'epoch': 0.94}
{'loss': 1.7334, 'grad_norm': 4.0, 'learning_rate': 1.1990205184497172e-05, 'epoch': 0.94}




{'loss': 1.5946, 'grad_norm': 0.69921875, 'learning_rate': 1.1821329055138058e-05, 'epoch': 0.94}
{'loss': 1.7249, 'grad_norm': 1.2890625, 'learning_rate': 1.1652452925778942e-05, 'epoch': 0.94}




{'loss': 1.74, 'grad_norm': 0.953125, 'learning_rate': 1.1483576796419826e-05, 'epoch': 0.94}
{'loss': 1.9663, 'grad_norm': 1.5078125, 'learning_rate': 1.1314700667060711e-05, 'epoch': 0.95}




{'loss': 1.6253, 'grad_norm': 2.75, 'learning_rate': 1.1145824537701597e-05, 'epoch': 0.95}
{'loss': 1.5785, 'grad_norm': 0.78125, 'learning_rate': 1.0976948408342481e-05, 'epoch': 0.95}




{'loss': 1.6388, 'grad_norm': 0.9921875, 'learning_rate': 1.0808072278983367e-05, 'epoch': 0.95}
{'loss': 1.6934, 'grad_norm': 0.890625, 'learning_rate': 1.0639196149624252e-05, 'epoch': 0.95}




{'loss': 1.5699, 'grad_norm': 1.1875, 'learning_rate': 1.0470320020265136e-05, 'epoch': 0.95}
{'loss': 1.5931, 'grad_norm': 2.671875, 'learning_rate': 1.030144389090602e-05, 'epoch': 0.95}




{'loss': 1.4814, 'grad_norm': 1.1015625, 'learning_rate': 1.0132567761546906e-05, 'epoch': 0.95}
{'loss': 1.7791, 'grad_norm': 0.77734375, 'learning_rate': 9.963691632187792e-06, 'epoch': 0.95}




{'loss': 1.6982, 'grad_norm': 0.765625, 'learning_rate': 9.794815502828676e-06, 'epoch': 0.95}
{'loss': 1.776, 'grad_norm': 1.03125, 'learning_rate': 9.62593937346956e-06, 'epoch': 0.95}




{'loss': 1.8702, 'grad_norm': 3.125, 'learning_rate': 9.457063244110445e-06, 'epoch': 0.95}
{'loss': 1.4982, 'grad_norm': 1.0390625, 'learning_rate': 9.28818711475133e-06, 'epoch': 0.95}




{'loss': 1.6378, 'grad_norm': 0.69921875, 'learning_rate': 9.119310985392215e-06, 'epoch': 0.96}
{'loss': 1.5851, 'grad_norm': 0.875, 'learning_rate': 8.9504348560331e-06, 'epoch': 0.96}




{'loss': 2.115, 'grad_norm': 1.078125, 'learning_rate': 8.781558726673986e-06, 'epoch': 0.96}
{'loss': 1.4905, 'grad_norm': 1.859375, 'learning_rate': 8.61268259731487e-06, 'epoch': 0.96}




{'loss': 1.6414, 'grad_norm': 0.9140625, 'learning_rate': 8.443806467955754e-06, 'epoch': 0.96}
{'loss': 1.8149, 'grad_norm': 0.77734375, 'learning_rate': 8.27493033859664e-06, 'epoch': 0.96}




{'loss': 1.7667, 'grad_norm': 1.03125, 'learning_rate': 8.106054209237525e-06, 'epoch': 0.96}
{'loss': 1.7998, 'grad_norm': 1.5234375, 'learning_rate': 7.93717807987841e-06, 'epoch': 0.96}




{'loss': 1.354, 'grad_norm': 1.0703125, 'learning_rate': 7.768301950519293e-06, 'epoch': 0.96}
{'loss': 1.6389, 'grad_norm': 0.65625, 'learning_rate': 7.599425821160179e-06, 'epoch': 0.96}




{'loss': 1.4865, 'grad_norm': 1.0234375, 'learning_rate': 7.430549691801064e-06, 'epoch': 0.96}
{'loss': 1.6489, 'grad_norm': 1.15625, 'learning_rate': 7.2616735624419495e-06, 'epoch': 0.96}




{'loss': 2.0124, 'grad_norm': 1.0390625, 'learning_rate': 7.092797433082834e-06, 'epoch': 0.97}
{'loss': 1.4266, 'grad_norm': 1.671875, 'learning_rate': 6.92392130372372e-06, 'epoch': 0.97}




{'loss': 1.797, 'grad_norm': 0.6640625, 'learning_rate': 6.755045174364603e-06, 'epoch': 0.97}
{'loss': 1.4738, 'grad_norm': 0.82421875, 'learning_rate': 6.586169045005489e-06, 'epoch': 0.97}




{'loss': 1.7827, 'grad_norm': 0.796875, 'learning_rate': 6.4172929156463736e-06, 'epoch': 0.97}
{'loss': 1.8806, 'grad_norm': 1.359375, 'learning_rate': 6.248416786287259e-06, 'epoch': 0.97}




{'loss': 1.4209, 'grad_norm': 1.03125, 'learning_rate': 6.079540656928143e-06, 'epoch': 0.97}
{'loss': 1.6128, 'grad_norm': 1.0390625, 'learning_rate': 5.910664527569029e-06, 'epoch': 0.97}




{'loss': 1.6135, 'grad_norm': 0.80859375, 'learning_rate': 5.741788398209913e-06, 'epoch': 0.97}
{'loss': 1.7938, 'grad_norm': 1.0234375, 'learning_rate': 5.5729122688507985e-06, 'epoch': 0.97}




{'loss': 1.7533, 'grad_norm': 1.1875, 'learning_rate': 5.404036139491683e-06, 'epoch': 0.97}
{'loss': 1.686, 'grad_norm': 1.5078125, 'learning_rate': 5.235160010132568e-06, 'epoch': 0.97}




{'loss': 1.6719, 'grad_norm': 0.62109375, 'learning_rate': 5.066283880773453e-06, 'epoch': 0.98}
{'loss': 1.692, 'grad_norm': 0.6953125, 'learning_rate': 4.897407751414338e-06, 'epoch': 0.98}




{'loss': 1.6731, 'grad_norm': 0.9375, 'learning_rate': 4.728531622055223e-06, 'epoch': 0.98}
{'loss': 1.4577, 'grad_norm': 1.9765625, 'learning_rate': 4.559655492696107e-06, 'epoch': 0.98}




{'loss': 1.3807, 'grad_norm': 1.0078125, 'learning_rate': 4.390779363336993e-06, 'epoch': 0.98}
{'loss': 1.7473, 'grad_norm': 0.5625, 'learning_rate': 4.221903233977877e-06, 'epoch': 0.98}




{'loss': 1.4477, 'grad_norm': 0.64453125, 'learning_rate': 4.053027104618763e-06, 'epoch': 0.98}
{'loss': 1.6648, 'grad_norm': 1.0625, 'learning_rate': 3.884150975259647e-06, 'epoch': 0.98}




{'loss': 1.8676, 'grad_norm': 0.98046875, 'learning_rate': 3.715274845900532e-06, 'epoch': 0.98}
{'loss': 1.7708, 'grad_norm': 1.609375, 'learning_rate': 3.546398716541417e-06, 'epoch': 0.98}




{'loss': 1.4035, 'grad_norm': 0.51171875, 'learning_rate': 3.3775225871823015e-06, 'epoch': 0.98}
{'loss': 1.6242, 'grad_norm': 0.71875, 'learning_rate': 3.2086464578231868e-06, 'epoch': 0.98}




{'loss': 1.7076, 'grad_norm': 1.1875, 'learning_rate': 3.0397703284640716e-06, 'epoch': 0.99}
{'loss': 1.7201, 'grad_norm': 1.5234375, 'learning_rate': 2.8708941991049564e-06, 'epoch': 0.99}




{'loss': 1.6606, 'grad_norm': 3.640625, 'learning_rate': 2.7020180697458417e-06, 'epoch': 0.99}
{'loss': 1.4534, 'grad_norm': 0.9296875, 'learning_rate': 2.5331419403867265e-06, 'epoch': 0.99}




{'loss': 1.6963, 'grad_norm': 0.90234375, 'learning_rate': 2.3642658110276113e-06, 'epoch': 0.99}
{'loss': 1.6101, 'grad_norm': 1.3984375, 'learning_rate': 2.1953896816684965e-06, 'epoch': 0.99}




{'loss': 1.7421, 'grad_norm': 1.53125, 'learning_rate': 2.0265135523093814e-06, 'epoch': 0.99}
{'loss': 1.1947, 'grad_norm': 1.0078125, 'learning_rate': 1.857637422950266e-06, 'epoch': 0.99}




{'loss': 1.5647, 'grad_norm': 0.5390625, 'learning_rate': 1.6887612935911508e-06, 'epoch': 0.99}
{'loss': 1.3087, 'grad_norm': 0.546875, 'learning_rate': 1.5198851642320358e-06, 'epoch': 0.99}




{'loss': 1.4867, 'grad_norm': 1.09375, 'learning_rate': 1.3510090348729208e-06, 'epoch': 0.99}
{'loss': 1.7629, 'grad_norm': 1.7265625, 'learning_rate': 1.1821329055138056e-06, 'epoch': 0.99}




{'loss': 1.4547, 'grad_norm': 3.484375, 'learning_rate': 1.0132567761546907e-06, 'epoch': 1.0}
{'loss': 1.3808, 'grad_norm': 0.734375, 'learning_rate': 8.443806467955754e-07, 'epoch': 1.0}




{'loss': 1.5101, 'grad_norm': 0.86328125, 'learning_rate': 6.755045174364604e-07, 'epoch': 1.0}
{'loss': 1.5386, 'grad_norm': 1.171875, 'learning_rate': 5.066283880773453e-07, 'epoch': 1.0}




{'loss': 1.7389, 'grad_norm': 1.4375, 'learning_rate': 3.377522587182302e-07, 'epoch': 1.0}
{'loss': 1.5831, 'grad_norm': 1.0, 'learning_rate': 1.688761293591151e-07, 'epoch': 1.0}




{'loss': 1.8094, 'grad_norm': 1.046875, 'learning_rate': 0.0, 'epoch': 1.0}
{'train_runtime': 9868.6054, 'train_samples_per_second': 1.237, 'train_steps_per_second': 1.237, 'train_loss': 1.6976377323160008, 'epoch': 1.0}


TrainOutput(global_step=12210, training_loss=1.6976377323160008, metrics={'train_runtime': 9868.6054, 'train_samples_per_second': 1.237, 'train_steps_per_second': 1.237, 'train_loss': 1.6976377323160008, 'epoch': 1.0})

In [29]:
model_to_save = trainer.model.module if hasattr(trainer.model, 'module') else trainer.model  # Take care of distributed/parallel training
model_to_save.save_pretrained("./results/experi_10", save_embedding_layers = True)

In [30]:
# lora_config = LoraConfig.from_pretrained("./results/experi_10")
# model = get_peft_model(model, lora_config)

In [31]:
tokenizer.push_to_hub('aeolian83/llama_ko_sft_kullm_experi_06')

CommitInfo(commit_url='https://huggingface.co/aeolian83/llama_ko_sft_kullm_experi_06/commit/6d3dd825429c96b1caefaec940b87cce3d1e77b3', commit_message='Upload tokenizer', commit_description='', oid='6d3dd825429c96b1caefaec940b87cce3d1e77b3', pr_url=None, pr_revision=None, pr_num=None)