# 1. Weight and Bias Login

In [1]:
import wandb
import os
os.environ["WANDB_PROJECT"]="QLoRA_Instruction_finetune_06"

wandb.login()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33maeolian83[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

# 2. Login Huggingface

In [2]:
from huggingface_hub import login
from dotenv import load_dotenv

load_dotenv()


login(token= os.environ["HF_TOKEN"])

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/aeolian83/.cache/huggingface/token
Login successful


# 3. Dataset Load

In [3]:
from datasets import load_dataset

In [4]:
ko_instruction_01 = load_dataset("nlpai-lab/kullm-v2", cache_dir="/mnt/t7/.cache/huggingface/datasets", split="train")

In [5]:
ko_instruction_01 = ko_instruction_01.shuffle(seed=2160)

In [6]:
ko_instruction_01

Dataset({
    features: ['id', 'instruction', 'input', 'output'],
    num_rows: 152630
})

In [7]:
ko_instruction_01 = ko_instruction_01.train_test_split(test_size=0.92)

In [8]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['id', 'instruction', 'input', 'output'],
        num_rows: 12210
    })
    test: Dataset({
        features: ['id', 'instruction', 'input', 'output'],
        num_rows: 140420
    })
})

In [9]:
ko_instruction_01["train"][100]

{'id': 'alpaca_{idx}',
 'instruction': '이 명령어에 입력이 제공되지 않는 이유를 설명하세요.',
 'input': '',
 'output': '이 명령은 사용자의 직접적인 질문이나 요청이 아니라 AI 어시스턴트인 저에게 정보를 제공하라는 프롬프트이기 때문에 입력이 제공되지 않은 것 같습니다. 대신 특정 사례가 아닌 일반적인 의미에서 입력이 제공되지 않는 상황에 대한 설명을 제공해 달라는 요청인 것으로 보입니다.'}

# 4. Loading the Model

In [10]:
model_id = "beomi/llama-2-ko-7b"
device_map = {"": 0}
cache_model_dir="/mnt/t7/.cache/huggingface/models"

In [11]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

In [12]:
# 4bit QLoRA 학습을 위한 설정
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

In [13]:
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config, device_map=device_map, cache_dir=cache_model_dir, trust_remote_code=True)
model.config.use_cache = False

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

In [14]:
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True, cache_dir=cache_model_dir)
tokenizer.add_special_tokens({'pad_token': '<PAD>'})


1

In [15]:
tokenizer.padding_side = "right"

In [16]:
model.resize_token_embeddings(len(tokenizer)) # pad_token이 추가되었으므로 embedding과 language modeling head를 resize

Embedding(46337, 4096)

# 5. LoRA Setup

In [17]:
from peft import LoraConfig, get_peft_model

lora_alpha = 16
lora_dropout = 0.1
lora_r = 64

In [18]:
peft_config = LoraConfig(
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    r=lora_r,
    bias="none",
    task_type="CAUSAL_LM"
)

# 6. Formatting Dataset

In [19]:
def format_instruction(sample):
    system_prompt = f"### instruction: {sample['instruction']}"
    input = f"### input: {sample['input']}" if len(sample["input"]) > 0 else None
    output = f"### output: {sample['output']}"
    # join all the parts together
    prompt = "\n\n".join([i for i in [system_prompt, input, output] if i is not None])
    return prompt

# template dataset to add prompt to each sample
def template_dataset(sample):
    sample["text"] = f"{format_instruction(sample)}{tokenizer.eos_token}"
    return sample

In [20]:
train_dataset = ko_instruction_01['train'].map(template_dataset, remove_columns=list(ko_instruction_01['train'].features), num_proc=10)

Map (num_proc=10):   0%|          | 0/12210 [00:00<?, ? examples/s]

In [21]:
train_dataset["text"][100]

'### instruction: 이 명령어에 입력이 제공되지 않는 이유를 설명하세요.\n\n### output: 이 명령은 사용자의 직접적인 질문이나 요청이 아니라 AI 어시스턴트인 저에게 정보를 제공하라는 프롬프트이기 때문에 입력이 제공되지 않은 것 같습니다. 대신 특정 사례가 아닌 일반적인 의미에서 입력이 제공되지 않는 상황에 대한 설명을 제공해 달라는 요청인 것으로 보입니다.</s>'

# 7. Training Argument Setup

In [22]:
from transformers import TrainingArguments

In [23]:
output_dir = "./checkpoint/experi_09"
per_device_train_batch_size = 1
gradient_accumulation_steps = 2
optim = "paged_adamw_32bit"
report_to="wandb"
save_steps = 20
save_total_limit=5
num_train_epochs = 1
logging_steps = 10
learning_rate = 2e-4
max_grad_norm = 0.3
warmup_ratio = 0.03
lr_scheduler_type = "linear"

In [24]:
training_arguments = TrainingArguments(
    output_dir=output_dir,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim=optim,
    num_train_epochs=num_train_epochs,
    save_steps=save_steps,
    save_total_limit=save_total_limit,
    logging_steps=logging_steps,
    report_to = report_to,
    learning_rate=learning_rate,
    bf16=True,
    max_grad_norm=max_grad_norm,
    warmup_ratio=warmup_ratio,
    group_by_length=True,
    lr_scheduler_type=lr_scheduler_type,
)

In [25]:
from trl import SFTTrainer

max_seq_length = 1024

In [26]:
trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
)

Map:   0%|          | 0/12210 [00:00<?, ? examples/s]

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [27]:
for name, module in trainer.model.named_modules():
    if "norm" in name:
        module = module.to(torch.float32)

# 8. Training

In [28]:
trainer.train()

  0%|          | 0/6105 [00:00<?, ?it/s]

{'loss': 2.4093, 'grad_norm': 0.125, 'learning_rate': 1.0869565217391305e-05, 'epoch': 0.0}
{'loss': 2.5851, 'grad_norm': 0.1259765625, 'learning_rate': 2.173913043478261e-05, 'epoch': 0.0}




{'loss': 2.8347, 'grad_norm': 0.2265625, 'learning_rate': 3.260869565217392e-05, 'epoch': 0.0}
{'loss': 3.2892, 'grad_norm': 0.53125, 'learning_rate': 4.347826086956522e-05, 'epoch': 0.01}




{'loss': 4.1175, 'grad_norm': 1.453125, 'learning_rate': 5.4347826086956524e-05, 'epoch': 0.01}
{'loss': 2.1856, 'grad_norm': 1.1328125, 'learning_rate': 6.521739130434783e-05, 'epoch': 0.01}




{'loss': 2.1701, 'grad_norm': 1.09375, 'learning_rate': 7.608695652173914e-05, 'epoch': 0.01}
{'loss': 2.1823, 'grad_norm': 0.80859375, 'learning_rate': 8.695652173913044e-05, 'epoch': 0.01}




{'loss': 2.241, 'grad_norm': 0.83203125, 'learning_rate': 9.782608695652174e-05, 'epoch': 0.01}
{'loss': 2.0996, 'grad_norm': 3.453125, 'learning_rate': 0.00010869565217391305, 'epoch': 0.02}




{'loss': 1.8392, 'grad_norm': 0.60546875, 'learning_rate': 0.00011956521739130435, 'epoch': 0.02}
{'loss': 2.1024, 'grad_norm': 0.345703125, 'learning_rate': 0.00013043478260869567, 'epoch': 0.02}




{'loss': 1.821, 'grad_norm': 0.32421875, 'learning_rate': 0.00014130434782608697, 'epoch': 0.02}
{'loss': 1.9916, 'grad_norm': 0.55078125, 'learning_rate': 0.00015217391304347827, 'epoch': 0.02}




{'loss': 2.0356, 'grad_norm': 1.3125, 'learning_rate': 0.00016304347826086955, 'epoch': 0.02}
{'loss': 1.8257, 'grad_norm': 0.314453125, 'learning_rate': 0.00017391304347826088, 'epoch': 0.03}




{'loss': 1.9953, 'grad_norm': 0.23828125, 'learning_rate': 0.00018478260869565218, 'epoch': 0.03}
{'loss': 1.9245, 'grad_norm': 0.400390625, 'learning_rate': 0.0001956521739130435, 'epoch': 0.03}




{'loss': 1.9427, 'grad_norm': 0.9921875, 'learning_rate': 0.00019979733153183585, 'epoch': 0.03}
{'loss': 2.0988, 'grad_norm': 3.9375, 'learning_rate': 0.00019945955075156225, 'epoch': 0.03}




{'loss': 2.003, 'grad_norm': 0.2421875, 'learning_rate': 0.00019912176997128865, 'epoch': 0.03}
{'loss': 1.837, 'grad_norm': 0.2109375, 'learning_rate': 0.00019878398919101505, 'epoch': 0.04}




{'loss': 1.9502, 'grad_norm': 0.453125, 'learning_rate': 0.00019844620841074145, 'epoch': 0.04}
{'loss': 2.0686, 'grad_norm': 0.4609375, 'learning_rate': 0.00019810842763046783, 'epoch': 0.04}




{'loss': 1.7599, 'grad_norm': 2.59375, 'learning_rate': 0.00019777064685019423, 'epoch': 0.04}
{'loss': 2.021, 'grad_norm': 0.302734375, 'learning_rate': 0.00019743286606992063, 'epoch': 0.04}




{'loss': 1.8346, 'grad_norm': 0.2392578125, 'learning_rate': 0.00019709508528964703, 'epoch': 0.04}
{'loss': 1.8791, 'grad_norm': 0.396484375, 'learning_rate': 0.00019675730450937343, 'epoch': 0.05}




{'loss': 1.6141, 'grad_norm': 0.55078125, 'learning_rate': 0.0001964195237290998, 'epoch': 0.05}
{'loss': 2.1343, 'grad_norm': 2.0625, 'learning_rate': 0.0001960817429488262, 'epoch': 0.05}




{'loss': 1.933, 'grad_norm': 0.2001953125, 'learning_rate': 0.0001957439621685526, 'epoch': 0.05}
{'loss': 1.9273, 'grad_norm': 0.306640625, 'learning_rate': 0.000195406181388279, 'epoch': 0.05}




{'loss': 1.9339, 'grad_norm': 0.337890625, 'learning_rate': 0.0001950684006080054, 'epoch': 0.05}
{'loss': 1.899, 'grad_norm': 0.52734375, 'learning_rate': 0.0001947306198277318, 'epoch': 0.06}




{'loss': 2.0418, 'grad_norm': 1.5078125, 'learning_rate': 0.0001943928390474582, 'epoch': 0.06}
{'loss': 1.9753, 'grad_norm': 0.189453125, 'learning_rate': 0.00019405505826718459, 'epoch': 0.06}




{'loss': 1.9307, 'grad_norm': 0.443359375, 'learning_rate': 0.000193717277486911, 'epoch': 0.06}
{'loss': 1.7447, 'grad_norm': 0.29296875, 'learning_rate': 0.0001933794967066374, 'epoch': 0.06}




{'loss': 1.8289, 'grad_norm': 0.65234375, 'learning_rate': 0.0001930417159263638, 'epoch': 0.06}
{'loss': 1.6992, 'grad_norm': 1.375, 'learning_rate': 0.0001927039351460902, 'epoch': 0.07}




{'loss': 1.8639, 'grad_norm': 0.26171875, 'learning_rate': 0.0001923661543658166, 'epoch': 0.07}
{'loss': 1.6622, 'grad_norm': 0.2177734375, 'learning_rate': 0.000192028373585543, 'epoch': 0.07}




{'loss': 1.9507, 'grad_norm': 0.27734375, 'learning_rate': 0.0001916905928052694, 'epoch': 0.07}
{'loss': 1.8773, 'grad_norm': 0.37890625, 'learning_rate': 0.0001913528120249958, 'epoch': 0.07}




{'loss': 2.0365, 'grad_norm': 1.1640625, 'learning_rate': 0.00019101503124472217, 'epoch': 0.07}
{'loss': 1.749, 'grad_norm': 0.259765625, 'learning_rate': 0.00019067725046444857, 'epoch': 0.08}




{'loss': 1.877, 'grad_norm': 0.251953125, 'learning_rate': 0.00019033946968417497, 'epoch': 0.08}
{'loss': 1.7198, 'grad_norm': 0.2490234375, 'learning_rate': 0.00019000168890390137, 'epoch': 0.08}




{'loss': 1.9137, 'grad_norm': 0.7265625, 'learning_rate': 0.00018966390812362777, 'epoch': 0.08}
{'loss': 1.9493, 'grad_norm': 2.0, 'learning_rate': 0.00018932612734335417, 'epoch': 0.08}




{'loss': 1.7923, 'grad_norm': 0.1962890625, 'learning_rate': 0.00018898834656308057, 'epoch': 0.08}
{'loss': 1.8409, 'grad_norm': 0.30078125, 'learning_rate': 0.00018865056578280698, 'epoch': 0.09}




{'loss': 1.8858, 'grad_norm': 0.240234375, 'learning_rate': 0.00018831278500253335, 'epoch': 0.09}
{'loss': 2.0071, 'grad_norm': 0.439453125, 'learning_rate': 0.00018797500422225975, 'epoch': 0.09}




{'loss': 1.9724, 'grad_norm': 0.89453125, 'learning_rate': 0.00018763722344198615, 'epoch': 0.09}
{'loss': 1.6602, 'grad_norm': 0.224609375, 'learning_rate': 0.00018729944266171255, 'epoch': 0.09}




{'loss': 1.6586, 'grad_norm': 0.216796875, 'learning_rate': 0.00018696166188143895, 'epoch': 0.09}
{'loss': 1.7293, 'grad_norm': 0.267578125, 'learning_rate': 0.00018662388110116535, 'epoch': 0.1}




{'loss': 1.7962, 'grad_norm': 0.439453125, 'learning_rate': 0.00018628610032089176, 'epoch': 0.1}
{'loss': 1.7724, 'grad_norm': 1.3984375, 'learning_rate': 0.00018594831954061816, 'epoch': 0.1}




{'loss': 1.9308, 'grad_norm': 0.1748046875, 'learning_rate': 0.00018561053876034456, 'epoch': 0.1}
{'loss': 1.7487, 'grad_norm': 0.2255859375, 'learning_rate': 0.00018527275798007093, 'epoch': 0.1}




{'loss': 2.0649, 'grad_norm': 0.2578125, 'learning_rate': 0.00018493497719979733, 'epoch': 0.1}
{'loss': 1.7098, 'grad_norm': 0.3671875, 'learning_rate': 0.00018459719641952373, 'epoch': 0.1}




{'loss': 1.9503, 'grad_norm': 2.046875, 'learning_rate': 0.00018425941563925013, 'epoch': 0.11}
{'loss': 1.616, 'grad_norm': 0.1865234375, 'learning_rate': 0.00018392163485897654, 'epoch': 0.11}




{'loss': 1.8054, 'grad_norm': 0.224609375, 'learning_rate': 0.00018358385407870294, 'epoch': 0.11}
{'loss': 1.9071, 'grad_norm': 0.33203125, 'learning_rate': 0.00018324607329842934, 'epoch': 0.11}




{'loss': 1.8736, 'grad_norm': 0.369140625, 'learning_rate': 0.00018290829251815574, 'epoch': 0.11}
{'loss': 1.939, 'grad_norm': 1.0390625, 'learning_rate': 0.00018257051173788214, 'epoch': 0.11}




{'loss': 1.8065, 'grad_norm': 0.1962890625, 'learning_rate': 0.00018223273095760851, 'epoch': 0.12}
{'loss': 1.7221, 'grad_norm': 0.310546875, 'learning_rate': 0.00018189495017733492, 'epoch': 0.12}




{'loss': 1.7582, 'grad_norm': 0.333984375, 'learning_rate': 0.00018155716939706132, 'epoch': 0.12}
{'loss': 1.7436, 'grad_norm': 0.55859375, 'learning_rate': 0.00018121938861678772, 'epoch': 0.12}




{'loss': 1.9143, 'grad_norm': 1.1015625, 'learning_rate': 0.00018088160783651412, 'epoch': 0.12}
{'loss': 1.7903, 'grad_norm': 0.30078125, 'learning_rate': 0.00018054382705624052, 'epoch': 0.12}




{'loss': 1.7865, 'grad_norm': 0.212890625, 'learning_rate': 0.00018020604627596692, 'epoch': 0.13}
{'loss': 1.8698, 'grad_norm': 0.298828125, 'learning_rate': 0.00017986826549569332, 'epoch': 0.13}




{'loss': 1.9565, 'grad_norm': 0.31640625, 'learning_rate': 0.00017953048471541972, 'epoch': 0.13}
{'loss': 1.9036, 'grad_norm': 0.75, 'learning_rate': 0.0001791927039351461, 'epoch': 0.13}




{'loss': 1.7548, 'grad_norm': 0.17578125, 'learning_rate': 0.0001788549231548725, 'epoch': 0.13}
{'loss': 1.7845, 'grad_norm': 0.2421875, 'learning_rate': 0.0001785171423745989, 'epoch': 0.13}




{'loss': 1.8438, 'grad_norm': 0.3125, 'learning_rate': 0.0001781793615943253, 'epoch': 0.14}
{'loss': 1.8905, 'grad_norm': 0.5234375, 'learning_rate': 0.0001778415808140517, 'epoch': 0.14}




{'loss': 1.8075, 'grad_norm': 1.140625, 'learning_rate': 0.0001775038000337781, 'epoch': 0.14}
{'loss': 1.9674, 'grad_norm': 0.1904296875, 'learning_rate': 0.0001771660192535045, 'epoch': 0.14}




{'loss': 1.6732, 'grad_norm': 0.201171875, 'learning_rate': 0.00017682823847323088, 'epoch': 0.14}
{'loss': 1.7514, 'grad_norm': 0.26953125, 'learning_rate': 0.00017649045769295728, 'epoch': 0.14}




{'loss': 1.8109, 'grad_norm': 0.484375, 'learning_rate': 0.00017615267691268368, 'epoch': 0.15}
{'loss': 1.7698, 'grad_norm': 1.1875, 'learning_rate': 0.00017581489613241008, 'epoch': 0.15}




{'loss': 1.7201, 'grad_norm': 0.2158203125, 'learning_rate': 0.00017547711535213648, 'epoch': 0.15}
{'loss': 1.8703, 'grad_norm': 0.2373046875, 'learning_rate': 0.00017513933457186285, 'epoch': 0.15}




{'loss': 1.8317, 'grad_norm': 0.28125, 'learning_rate': 0.00017480155379158926, 'epoch': 0.15}
{'loss': 2.0345, 'grad_norm': 0.515625, 'learning_rate': 0.00017446377301131566, 'epoch': 0.15}




{'loss': 1.7209, 'grad_norm': 1.7421875, 'learning_rate': 0.00017412599223104206, 'epoch': 0.16}
{'loss': 1.7387, 'grad_norm': 0.259765625, 'learning_rate': 0.00017378821145076846, 'epoch': 0.16}




{'loss': 1.8136, 'grad_norm': 0.2197265625, 'learning_rate': 0.00017345043067049486, 'epoch': 0.16}
{'loss': 1.7264, 'grad_norm': 0.341796875, 'learning_rate': 0.00017311264989022123, 'epoch': 0.16}




{'loss': 2.0657, 'grad_norm': 0.46484375, 'learning_rate': 0.00017277486910994763, 'epoch': 0.16}
{'loss': 1.7808, 'grad_norm': 0.95703125, 'learning_rate': 0.00017243708832967404, 'epoch': 0.16}




{'loss': 1.7167, 'grad_norm': 0.2490234375, 'learning_rate': 0.00017209930754940044, 'epoch': 0.17}
{'loss': 1.8308, 'grad_norm': 0.1962890625, 'learning_rate': 0.00017176152676912684, 'epoch': 0.17}




{'loss': 1.7793, 'grad_norm': 0.251953125, 'learning_rate': 0.00017142374598885324, 'epoch': 0.17}
{'loss': 1.7905, 'grad_norm': 0.453125, 'learning_rate': 0.00017108596520857964, 'epoch': 0.17}




{'loss': 1.7602, 'grad_norm': 1.5390625, 'learning_rate': 0.00017074818442830604, 'epoch': 0.17}
{'loss': 1.7175, 'grad_norm': 0.220703125, 'learning_rate': 0.00017041040364803244, 'epoch': 0.17}




{'loss': 1.7125, 'grad_norm': 0.203125, 'learning_rate': 0.00017007262286775882, 'epoch': 0.18}
{'loss': 1.7625, 'grad_norm': 0.255859375, 'learning_rate': 0.00016973484208748522, 'epoch': 0.18}




{'loss': 1.86, 'grad_norm': 0.625, 'learning_rate': 0.00016939706130721162, 'epoch': 0.18}
{'loss': 1.4529, 'grad_norm': 1.6640625, 'learning_rate': 0.00016905928052693802, 'epoch': 0.18}




{'loss': 1.7898, 'grad_norm': 0.23046875, 'learning_rate': 0.00016872149974666442, 'epoch': 0.18}
{'loss': 1.7191, 'grad_norm': 0.30078125, 'learning_rate': 0.00016838371896639082, 'epoch': 0.18}




{'loss': 1.8183, 'grad_norm': 0.328125, 'learning_rate': 0.00016804593818611722, 'epoch': 0.19}
{'loss': 1.7945, 'grad_norm': 0.50390625, 'learning_rate': 0.00016770815740584362, 'epoch': 0.19}




{'loss': 1.6132, 'grad_norm': 1.15625, 'learning_rate': 0.00016737037662557, 'epoch': 0.19}
{'loss': 1.6915, 'grad_norm': 0.2392578125, 'learning_rate': 0.0001670325958452964, 'epoch': 0.19}




{'loss': 1.7768, 'grad_norm': 0.275390625, 'learning_rate': 0.0001666948150650228, 'epoch': 0.19}
{'loss': 1.8831, 'grad_norm': 0.76953125, 'learning_rate': 0.0001663570342847492, 'epoch': 0.19}




{'loss': 1.7182, 'grad_norm': 0.427734375, 'learning_rate': 0.0001660192535044756, 'epoch': 0.19}
{'loss': 1.7148, 'grad_norm': 0.7421875, 'learning_rate': 0.000165681472724202, 'epoch': 0.2}




{'loss': 1.848, 'grad_norm': 0.2255859375, 'learning_rate': 0.0001653436919439284, 'epoch': 0.2}
{'loss': 1.7975, 'grad_norm': 0.201171875, 'learning_rate': 0.0001650059111636548, 'epoch': 0.2}




{'loss': 1.9643, 'grad_norm': 0.35546875, 'learning_rate': 0.0001646681303833812, 'epoch': 0.2}
{'loss': 1.9, 'grad_norm': 0.50390625, 'learning_rate': 0.00016433034960310758, 'epoch': 0.2}




{'loss': 1.6977, 'grad_norm': 0.8984375, 'learning_rate': 0.00016399256882283398, 'epoch': 0.2}
{'loss': 1.8108, 'grad_norm': 0.263671875, 'learning_rate': 0.00016365478804256038, 'epoch': 0.21}




{'loss': 1.8241, 'grad_norm': 1.3671875, 'learning_rate': 0.00016331700726228678, 'epoch': 0.21}
{'loss': 1.7848, 'grad_norm': 0.470703125, 'learning_rate': 0.00016297922648201318, 'epoch': 0.21}




{'loss': 1.6376, 'grad_norm': 0.458984375, 'learning_rate': 0.00016264144570173958, 'epoch': 0.21}
{'loss': 1.6521, 'grad_norm': 1.4375, 'learning_rate': 0.00016230366492146599, 'epoch': 0.21}




{'loss': 1.7605, 'grad_norm': 0.208984375, 'learning_rate': 0.00016196588414119239, 'epoch': 0.21}
{'loss': 1.8528, 'grad_norm': 0.255859375, 'learning_rate': 0.0001616281033609188, 'epoch': 0.22}




{'loss': 1.8251, 'grad_norm': 0.287109375, 'learning_rate': 0.00016129032258064516, 'epoch': 0.22}
{'loss': 1.8413, 'grad_norm': 0.43359375, 'learning_rate': 0.00016095254180037156, 'epoch': 0.22}




{'loss': 1.795, 'grad_norm': 1.4765625, 'learning_rate': 0.00016061476102009796, 'epoch': 0.22}
{'loss': 1.6731, 'grad_norm': 0.271484375, 'learning_rate': 0.00016027698023982436, 'epoch': 0.22}




{'loss': 1.7114, 'grad_norm': 0.3203125, 'learning_rate': 0.00015993919945955077, 'epoch': 0.22}
{'loss': 1.8284, 'grad_norm': 0.396484375, 'learning_rate': 0.00015960141867927717, 'epoch': 0.23}




{'loss': 1.8184, 'grad_norm': 0.40234375, 'learning_rate': 0.00015926363789900357, 'epoch': 0.23}
{'loss': 1.6981, 'grad_norm': 1.0390625, 'learning_rate': 0.00015892585711872997, 'epoch': 0.23}




{'loss': 1.7465, 'grad_norm': 0.232421875, 'learning_rate': 0.00015858807633845637, 'epoch': 0.23}
{'loss': 1.6977, 'grad_norm': 0.205078125, 'learning_rate': 0.00015825029555818274, 'epoch': 0.23}




{'loss': 1.7223, 'grad_norm': 0.287109375, 'learning_rate': 0.00015791251477790914, 'epoch': 0.23}
{'loss': 1.7488, 'grad_norm': 0.3984375, 'learning_rate': 0.00015757473399763555, 'epoch': 0.24}




{'loss': 1.4918, 'grad_norm': 1.3828125, 'learning_rate': 0.00015723695321736195, 'epoch': 0.24}
{'loss': 1.7596, 'grad_norm': 0.291015625, 'learning_rate': 0.00015689917243708835, 'epoch': 0.24}




{'loss': 1.7216, 'grad_norm': 0.365234375, 'learning_rate': 0.00015656139165681475, 'epoch': 0.24}
{'loss': 1.6687, 'grad_norm': 0.248046875, 'learning_rate': 0.00015622361087654115, 'epoch': 0.24}




{'loss': 1.8795, 'grad_norm': 0.56640625, 'learning_rate': 0.00015588583009626755, 'epoch': 0.24}
{'loss': 1.8083, 'grad_norm': 1.1015625, 'learning_rate': 0.00015554804931599392, 'epoch': 0.25}




{'loss': 1.6536, 'grad_norm': 0.1708984375, 'learning_rate': 0.00015521026853572033, 'epoch': 0.25}
{'loss': 1.7363, 'grad_norm': 0.2109375, 'learning_rate': 0.00015487248775544673, 'epoch': 0.25}




{'loss': 1.6015, 'grad_norm': 0.23046875, 'learning_rate': 0.00015453470697517313, 'epoch': 0.25}
{'loss': 1.7342, 'grad_norm': 0.41796875, 'learning_rate': 0.00015419692619489953, 'epoch': 0.25}




{'loss': 1.648, 'grad_norm': 1.5390625, 'learning_rate': 0.0001538591454146259, 'epoch': 0.25}
{'loss': 1.8487, 'grad_norm': 0.189453125, 'learning_rate': 0.0001535213646343523, 'epoch': 0.26}




{'loss': 1.6293, 'grad_norm': 0.232421875, 'learning_rate': 0.0001531835838540787, 'epoch': 0.26}
{'loss': 1.7467, 'grad_norm': 0.337890625, 'learning_rate': 0.0001528458030738051, 'epoch': 0.26}




{'loss': 1.8943, 'grad_norm': 0.466796875, 'learning_rate': 0.0001525080222935315, 'epoch': 0.26}
{'loss': 1.7705, 'grad_norm': 1.140625, 'learning_rate': 0.00015217024151325788, 'epoch': 0.26}




{'loss': 1.7109, 'grad_norm': 0.2421875, 'learning_rate': 0.00015183246073298428, 'epoch': 0.26}
{'loss': 1.787, 'grad_norm': 0.345703125, 'learning_rate': 0.00015149467995271068, 'epoch': 0.27}




{'loss': 1.6859, 'grad_norm': 0.25, 'learning_rate': 0.00015115689917243708, 'epoch': 0.27}
{'loss': 1.8518, 'grad_norm': 0.4296875, 'learning_rate': 0.00015081911839216348, 'epoch': 0.27}




{'loss': 1.794, 'grad_norm': 0.96484375, 'learning_rate': 0.00015048133761188989, 'epoch': 0.27}
{'loss': 1.717, 'grad_norm': 0.2353515625, 'learning_rate': 0.0001501435568316163, 'epoch': 0.27}




{'loss': 1.6618, 'grad_norm': 0.26953125, 'learning_rate': 0.0001498057760513427, 'epoch': 0.27}
{'loss': 1.8261, 'grad_norm': 0.326171875, 'learning_rate': 0.00014946799527106906, 'epoch': 0.28}




{'loss': 1.8591, 'grad_norm': 0.5, 'learning_rate': 0.00014913021449079546, 'epoch': 0.28}
{'loss': 1.6236, 'grad_norm': 1.125, 'learning_rate': 0.00014879243371052186, 'epoch': 0.28}




{'loss': 1.6743, 'grad_norm': 0.1923828125, 'learning_rate': 0.00014845465293024826, 'epoch': 0.28}
{'loss': 1.7081, 'grad_norm': 0.27734375, 'learning_rate': 0.00014811687214997467, 'epoch': 0.28}




{'loss': 1.6672, 'grad_norm': 0.357421875, 'learning_rate': 0.00014777909136970107, 'epoch': 0.28}
{'loss': 1.8878, 'grad_norm': 0.43359375, 'learning_rate': 0.00014744131058942747, 'epoch': 0.29}




{'loss': 1.4377, 'grad_norm': 0.58203125, 'learning_rate': 0.00014710352980915387, 'epoch': 0.29}
{'loss': 1.8956, 'grad_norm': 0.2265625, 'learning_rate': 0.00014676574902888027, 'epoch': 0.29}




{'loss': 1.7392, 'grad_norm': 0.2109375, 'learning_rate': 0.00014642796824860664, 'epoch': 0.29}
{'loss': 1.7237, 'grad_norm': 0.234375, 'learning_rate': 0.00014609018746833304, 'epoch': 0.29}




{'loss': 1.9425, 'grad_norm': 0.466796875, 'learning_rate': 0.00014575240668805945, 'epoch': 0.29}
{'loss': 1.8396, 'grad_norm': 1.171875, 'learning_rate': 0.00014541462590778585, 'epoch': 0.29}




{'loss': 1.4807, 'grad_norm': 0.20703125, 'learning_rate': 0.00014507684512751225, 'epoch': 0.3}
{'loss': 1.7825, 'grad_norm': 0.3359375, 'learning_rate': 0.00014473906434723865, 'epoch': 0.3}




{'loss': 1.7241, 'grad_norm': 0.3125, 'learning_rate': 0.00014440128356696505, 'epoch': 0.3}
{'loss': 1.7762, 'grad_norm': 0.3828125, 'learning_rate': 0.00014406350278669145, 'epoch': 0.3}




{'loss': 1.5676, 'grad_norm': 2.171875, 'learning_rate': 0.00014372572200641785, 'epoch': 0.3}
{'loss': 1.6386, 'grad_norm': 0.1962890625, 'learning_rate': 0.00014338794122614423, 'epoch': 0.3}




{'loss': 1.79, 'grad_norm': 0.39453125, 'learning_rate': 0.00014305016044587063, 'epoch': 0.31}
{'loss': 1.8961, 'grad_norm': 0.43359375, 'learning_rate': 0.00014271237966559703, 'epoch': 0.31}




{'loss': 1.9262, 'grad_norm': 0.67578125, 'learning_rate': 0.00014237459888532343, 'epoch': 0.31}
{'loss': 1.6799, 'grad_norm': 1.4921875, 'learning_rate': 0.00014203681810504983, 'epoch': 0.31}




{'loss': 1.5832, 'grad_norm': 0.166015625, 'learning_rate': 0.00014169903732477623, 'epoch': 0.31}
{'loss': 1.6965, 'grad_norm': 0.2080078125, 'learning_rate': 0.00014136125654450263, 'epoch': 0.31}




{'loss': 1.8389, 'grad_norm': 0.32421875, 'learning_rate': 0.00014102347576422903, 'epoch': 0.32}
{'loss': 1.9869, 'grad_norm': 0.56640625, 'learning_rate': 0.00014068569498395543, 'epoch': 0.32}




{'loss': 1.8448, 'grad_norm': 0.97265625, 'learning_rate': 0.0001403479142036818, 'epoch': 0.32}
{'loss': 1.7514, 'grad_norm': 0.185546875, 'learning_rate': 0.0001400101334234082, 'epoch': 0.32}




{'loss': 1.608, 'grad_norm': 0.279296875, 'learning_rate': 0.0001396723526431346, 'epoch': 0.32}
{'loss': 1.6817, 'grad_norm': 0.275390625, 'learning_rate': 0.000139334571862861, 'epoch': 0.32}




{'loss': 1.9644, 'grad_norm': 0.51171875, 'learning_rate': 0.0001389967910825874, 'epoch': 0.33}
{'loss': 1.4944, 'grad_norm': 1.015625, 'learning_rate': 0.0001386590103023138, 'epoch': 0.33}




{'loss': 1.7076, 'grad_norm': 0.2158203125, 'learning_rate': 0.00013832122952204021, 'epoch': 0.33}
{'loss': 1.5892, 'grad_norm': 0.24609375, 'learning_rate': 0.00013798344874176662, 'epoch': 0.33}




{'loss': 1.8662, 'grad_norm': 0.259765625, 'learning_rate': 0.00013764566796149302, 'epoch': 0.33}
{'loss': 1.8593, 'grad_norm': 0.5078125, 'learning_rate': 0.0001373078871812194, 'epoch': 0.33}




{'loss': 1.7503, 'grad_norm': 1.2109375, 'learning_rate': 0.0001369701064009458, 'epoch': 0.34}
{'loss': 1.8756, 'grad_norm': 0.1962890625, 'learning_rate': 0.0001366323256206722, 'epoch': 0.34}




{'loss': 1.6967, 'grad_norm': 0.27734375, 'learning_rate': 0.0001362945448403986, 'epoch': 0.34}
{'loss': 1.6083, 'grad_norm': 0.439453125, 'learning_rate': 0.000135956764060125, 'epoch': 0.34}




{'loss': 1.8215, 'grad_norm': 0.5546875, 'learning_rate': 0.0001356189832798514, 'epoch': 0.34}
{'loss': 1.6899, 'grad_norm': 0.796875, 'learning_rate': 0.0001352812024995778, 'epoch': 0.34}




{'loss': 1.7325, 'grad_norm': 0.2294921875, 'learning_rate': 0.0001349434217193042, 'epoch': 0.35}
{'loss': 1.7717, 'grad_norm': 0.25390625, 'learning_rate': 0.0001346056409390306, 'epoch': 0.35}




{'loss': 1.8458, 'grad_norm': 0.349609375, 'learning_rate': 0.00013426786015875697, 'epoch': 0.35}
{'loss': 1.6536, 'grad_norm': 0.4375, 'learning_rate': 0.00013393007937848337, 'epoch': 0.35}




{'loss': 1.696, 'grad_norm': 0.92578125, 'learning_rate': 0.00013359229859820977, 'epoch': 0.35}
{'loss': 1.7159, 'grad_norm': 0.1796875, 'learning_rate': 0.00013325451781793618, 'epoch': 0.35}




{'loss': 1.6902, 'grad_norm': 0.3046875, 'learning_rate': 0.00013291673703766258, 'epoch': 0.36}
{'loss': 1.7894, 'grad_norm': 0.349609375, 'learning_rate': 0.00013257895625738898, 'epoch': 0.36}




{'loss': 1.7015, 'grad_norm': 0.408203125, 'learning_rate': 0.00013224117547711535, 'epoch': 0.36}
{'loss': 1.6573, 'grad_norm': 1.6484375, 'learning_rate': 0.00013190339469684175, 'epoch': 0.36}




{'loss': 1.5403, 'grad_norm': 0.275390625, 'learning_rate': 0.00013156561391656815, 'epoch': 0.36}
{'loss': 1.7828, 'grad_norm': 0.228515625, 'learning_rate': 0.00013122783313629455, 'epoch': 0.36}




{'loss': 1.6698, 'grad_norm': 0.3046875, 'learning_rate': 0.00013089005235602096, 'epoch': 0.37}
{'loss': 1.9361, 'grad_norm': 0.4375, 'learning_rate': 0.00013055227157574733, 'epoch': 0.37}




{'loss': 1.8585, 'grad_norm': 0.7734375, 'learning_rate': 0.00013021449079547373, 'epoch': 0.37}
{'loss': 1.6919, 'grad_norm': 0.2470703125, 'learning_rate': 0.00012987671001520013, 'epoch': 0.37}




{'loss': 1.7305, 'grad_norm': 0.380859375, 'learning_rate': 0.00012953892923492653, 'epoch': 0.37}
{'loss': 1.8395, 'grad_norm': 0.296875, 'learning_rate': 0.00012920114845465293, 'epoch': 0.37}




{'loss': 1.8645, 'grad_norm': 0.322265625, 'learning_rate': 0.00012886336767437933, 'epoch': 0.38}
{'loss': 1.6507, 'grad_norm': 1.1328125, 'learning_rate': 0.0001285255868941057, 'epoch': 0.38}




{'loss': 1.9152, 'grad_norm': 0.25, 'learning_rate': 0.0001281878061138321, 'epoch': 0.38}
{'loss': 1.5927, 'grad_norm': 0.1865234375, 'learning_rate': 0.0001278500253335585, 'epoch': 0.38}




{'loss': 1.7236, 'grad_norm': 0.42578125, 'learning_rate': 0.0001275122445532849, 'epoch': 0.38}
{'loss': 1.8955, 'grad_norm': 0.53125, 'learning_rate': 0.0001271744637730113, 'epoch': 0.38}




{'loss': 1.6397, 'grad_norm': 1.28125, 'learning_rate': 0.00012683668299273771, 'epoch': 0.38}
{'loss': 1.8662, 'grad_norm': 0.291015625, 'learning_rate': 0.00012649890221246411, 'epoch': 0.39}




{'loss': 1.7532, 'grad_norm': 0.23046875, 'learning_rate': 0.00012616112143219052, 'epoch': 0.39}
{'loss': 1.7047, 'grad_norm': 0.27734375, 'learning_rate': 0.00012582334065191692, 'epoch': 0.39}




{'loss': 1.8019, 'grad_norm': 0.64453125, 'learning_rate': 0.0001254855598716433, 'epoch': 0.39}
{'loss': 1.6206, 'grad_norm': 1.2421875, 'learning_rate': 0.0001251477790913697, 'epoch': 0.39}




{'loss': 1.5399, 'grad_norm': 0.19921875, 'learning_rate': 0.0001248099983110961, 'epoch': 0.39}
{'loss': 1.6281, 'grad_norm': 0.208984375, 'learning_rate': 0.0001244722175308225, 'epoch': 0.4}




{'loss': 1.8837, 'grad_norm': 0.30078125, 'learning_rate': 0.0001241344367505489, 'epoch': 0.4}
{'loss': 1.7564, 'grad_norm': 0.6171875, 'learning_rate': 0.0001237966559702753, 'epoch': 0.4}




{'loss': 1.5882, 'grad_norm': 0.828125, 'learning_rate': 0.0001234588751900017, 'epoch': 0.4}
{'loss': 1.6116, 'grad_norm': 0.2060546875, 'learning_rate': 0.0001231210944097281, 'epoch': 0.4}




{'loss': 1.8252, 'grad_norm': 0.2265625, 'learning_rate': 0.0001227833136294545, 'epoch': 0.4}
{'loss': 1.8235, 'grad_norm': 0.3515625, 'learning_rate': 0.00012244553284918087, 'epoch': 0.41}




{'loss': 1.701, 'grad_norm': 0.490234375, 'learning_rate': 0.00012210775206890727, 'epoch': 0.41}
{'loss': 1.6832, 'grad_norm': 0.85546875, 'learning_rate': 0.00012176997128863368, 'epoch': 0.41}




{'loss': 1.717, 'grad_norm': 0.271484375, 'learning_rate': 0.00012143219050836008, 'epoch': 0.41}
{'loss': 1.7688, 'grad_norm': 0.2490234375, 'learning_rate': 0.00012109440972808648, 'epoch': 0.41}




{'loss': 1.8106, 'grad_norm': 0.314453125, 'learning_rate': 0.00012075662894781288, 'epoch': 0.41}
{'loss': 1.763, 'grad_norm': 0.482421875, 'learning_rate': 0.00012041884816753928, 'epoch': 0.42}




{'loss': 1.5773, 'grad_norm': 1.3671875, 'learning_rate': 0.00012008106738726568, 'epoch': 0.42}
{'loss': 1.6416, 'grad_norm': 0.236328125, 'learning_rate': 0.00011974328660699208, 'epoch': 0.42}




{'loss': 1.6961, 'grad_norm': 0.251953125, 'learning_rate': 0.00011940550582671846, 'epoch': 0.42}
{'loss': 1.8761, 'grad_norm': 0.314453125, 'learning_rate': 0.00011906772504644486, 'epoch': 0.42}




{'loss': 1.9578, 'grad_norm': 0.48046875, 'learning_rate': 0.00011872994426617126, 'epoch': 0.42}
{'loss': 1.6973, 'grad_norm': 1.1171875, 'learning_rate': 0.00011839216348589766, 'epoch': 0.43}




{'loss': 1.5496, 'grad_norm': 0.2216796875, 'learning_rate': 0.00011805438270562406, 'epoch': 0.43}
{'loss': 1.7433, 'grad_norm': 0.21875, 'learning_rate': 0.00011771660192535046, 'epoch': 0.43}




{'loss': 1.708, 'grad_norm': 0.2275390625, 'learning_rate': 0.00011737882114507686, 'epoch': 0.43}
{'loss': 1.7636, 'grad_norm': 0.41015625, 'learning_rate': 0.00011704104036480326, 'epoch': 0.43}




{'loss': 1.5825, 'grad_norm': 1.6640625, 'learning_rate': 0.00011670325958452965, 'epoch': 0.43}
{'loss': 1.4988, 'grad_norm': 0.28125, 'learning_rate': 0.00011636547880425604, 'epoch': 0.44}




{'loss': 1.6614, 'grad_norm': 0.28125, 'learning_rate': 0.00011602769802398244, 'epoch': 0.44}
{'loss': 1.676, 'grad_norm': 0.345703125, 'learning_rate': 0.00011568991724370884, 'epoch': 0.44}




{'loss': 1.6728, 'grad_norm': 0.53515625, 'learning_rate': 0.00011535213646343524, 'epoch': 0.44}
{'loss': 1.7444, 'grad_norm': 2.046875, 'learning_rate': 0.00011501435568316163, 'epoch': 0.44}




{'loss': 2.03, 'grad_norm': 0.26953125, 'learning_rate': 0.00011467657490288803, 'epoch': 0.44}
{'loss': 1.7631, 'grad_norm': 0.2734375, 'learning_rate': 0.00011433879412261443, 'epoch': 0.45}




{'loss': 1.6773, 'grad_norm': 0.314453125, 'learning_rate': 0.00011400101334234083, 'epoch': 0.45}
{'loss': 1.8109, 'grad_norm': 0.458984375, 'learning_rate': 0.00011366323256206723, 'epoch': 0.45}




{'loss': 1.594, 'grad_norm': 0.82421875, 'learning_rate': 0.0001133254517817936, 'epoch': 0.45}
{'loss': 1.6309, 'grad_norm': 0.294921875, 'learning_rate': 0.00011298767100152001, 'epoch': 0.45}




{'loss': 1.7703, 'grad_norm': 0.265625, 'learning_rate': 0.00011264989022124641, 'epoch': 0.45}
{'loss': 1.6616, 'grad_norm': 0.291015625, 'learning_rate': 0.00011231210944097281, 'epoch': 0.46}




{'loss': 1.8222, 'grad_norm': 0.453125, 'learning_rate': 0.00011197432866069921, 'epoch': 0.46}
{'loss': 1.6032, 'grad_norm': 1.140625, 'learning_rate': 0.00011163654788042561, 'epoch': 0.46}




{'loss': 1.7476, 'grad_norm': 0.2890625, 'learning_rate': 0.00011129876710015201, 'epoch': 0.46}
{'loss': 1.6647, 'grad_norm': 0.330078125, 'learning_rate': 0.00011096098631987841, 'epoch': 0.46}




{'loss': 1.9488, 'grad_norm': 0.375, 'learning_rate': 0.00011062320553960481, 'epoch': 0.46}
{'loss': 1.7323, 'grad_norm': 0.6171875, 'learning_rate': 0.00011028542475933119, 'epoch': 0.47}




{'loss': 1.6474, 'grad_norm': 0.890625, 'learning_rate': 0.00010994764397905759, 'epoch': 0.47}
{'loss': 1.5095, 'grad_norm': 0.2451171875, 'learning_rate': 0.00010960986319878399, 'epoch': 0.47}




{'loss': 1.8245, 'grad_norm': 0.248046875, 'learning_rate': 0.00010927208241851039, 'epoch': 0.47}
{'loss': 1.7905, 'grad_norm': 0.33984375, 'learning_rate': 0.00010893430163823679, 'epoch': 0.47}




{'loss': 1.9803, 'grad_norm': 0.416015625, 'learning_rate': 0.0001085965208579632, 'epoch': 0.47}
{'loss': 1.8354, 'grad_norm': 1.3515625, 'learning_rate': 0.0001082587400776896, 'epoch': 0.48}




{'loss': 1.7524, 'grad_norm': 0.2109375, 'learning_rate': 0.000107920959297416, 'epoch': 0.48}
{'loss': 1.8096, 'grad_norm': 0.21875, 'learning_rate': 0.00010758317851714237, 'epoch': 0.48}




{'loss': 1.7344, 'grad_norm': 0.251953125, 'learning_rate': 0.00010724539773686877, 'epoch': 0.48}
{'loss': 1.7317, 'grad_norm': 0.388671875, 'learning_rate': 0.00010690761695659517, 'epoch': 0.48}




{'loss': 1.6612, 'grad_norm': 1.8828125, 'learning_rate': 0.00010656983617632157, 'epoch': 0.48}
{'loss': 1.6366, 'grad_norm': 0.232421875, 'learning_rate': 0.00010623205539604797, 'epoch': 0.48}




{'loss': 1.6601, 'grad_norm': 0.24609375, 'learning_rate': 0.00010589427461577437, 'epoch': 0.49}
{'loss': 1.6835, 'grad_norm': 0.26171875, 'learning_rate': 0.00010555649383550078, 'epoch': 0.49}




{'loss': 1.796, 'grad_norm': 0.42578125, 'learning_rate': 0.00010521871305522716, 'epoch': 0.49}
{'loss': 1.663, 'grad_norm': 1.1796875, 'learning_rate': 0.00010488093227495356, 'epoch': 0.49}




{'loss': 1.5271, 'grad_norm': 0.298828125, 'learning_rate': 0.00010454315149467995, 'epoch': 0.49}
{'loss': 1.6767, 'grad_norm': 0.294921875, 'learning_rate': 0.00010420537071440635, 'epoch': 0.49}




{'loss': 1.8456, 'grad_norm': 0.4140625, 'learning_rate': 0.00010386758993413275, 'epoch': 0.5}
{'loss': 1.7344, 'grad_norm': 0.6015625, 'learning_rate': 0.00010352980915385914, 'epoch': 0.5}




{'loss': 1.7013, 'grad_norm': 0.8828125, 'learning_rate': 0.00010319202837358554, 'epoch': 0.5}
{'loss': 1.7072, 'grad_norm': 0.197265625, 'learning_rate': 0.00010285424759331194, 'epoch': 0.5}




{'loss': 1.6029, 'grad_norm': 0.32421875, 'learning_rate': 0.00010251646681303834, 'epoch': 0.5}
{'loss': 1.8697, 'grad_norm': 0.39453125, 'learning_rate': 0.00010217868603276475, 'epoch': 0.5}




{'loss': 1.7022, 'grad_norm': 0.451171875, 'learning_rate': 0.00010184090525249115, 'epoch': 0.51}
{'loss': 1.7158, 'grad_norm': 0.72265625, 'learning_rate': 0.00010150312447221752, 'epoch': 0.51}




{'loss': 1.5536, 'grad_norm': 0.2353515625, 'learning_rate': 0.00010116534369194392, 'epoch': 0.51}
{'loss': 1.6545, 'grad_norm': 0.30859375, 'learning_rate': 0.00010082756291167032, 'epoch': 0.51}




{'loss': 1.7884, 'grad_norm': 0.267578125, 'learning_rate': 0.00010048978213139672, 'epoch': 0.51}
{'loss': 1.906, 'grad_norm': 0.48046875, 'learning_rate': 0.00010015200135112312, 'epoch': 0.51}




{'loss': 1.733, 'grad_norm': 0.8203125, 'learning_rate': 9.981422057084953e-05, 'epoch': 0.52}
{'loss': 1.6702, 'grad_norm': 0.251953125, 'learning_rate': 9.947643979057593e-05, 'epoch': 0.52}




{'loss': 1.7219, 'grad_norm': 0.388671875, 'learning_rate': 9.913865901030231e-05, 'epoch': 0.52}
{'loss': 1.8237, 'grad_norm': 0.3125, 'learning_rate': 9.880087823002871e-05, 'epoch': 0.52}




{'loss': 1.8556, 'grad_norm': 0.453125, 'learning_rate': 9.846309744975512e-05, 'epoch': 0.52}
{'loss': 1.4965, 'grad_norm': 1.0546875, 'learning_rate': 9.812531666948152e-05, 'epoch': 0.52}




{'loss': 1.6832, 'grad_norm': 0.2294921875, 'learning_rate': 9.77875358892079e-05, 'epoch': 0.53}
{'loss': 1.7276, 'grad_norm': 0.228515625, 'learning_rate': 9.74497551089343e-05, 'epoch': 0.53}




{'loss': 1.8798, 'grad_norm': 0.365234375, 'learning_rate': 9.71119743286607e-05, 'epoch': 0.53}
{'loss': 1.6592, 'grad_norm': 0.60546875, 'learning_rate': 9.677419354838711e-05, 'epoch': 0.53}




{'loss': 1.6723, 'grad_norm': 0.89453125, 'learning_rate': 9.643641276811351e-05, 'epoch': 0.53}
{'loss': 1.6886, 'grad_norm': 0.408203125, 'learning_rate': 9.60986319878399e-05, 'epoch': 0.53}




{'loss': 1.7261, 'grad_norm': 0.287109375, 'learning_rate': 9.57608512075663e-05, 'epoch': 0.54}
{'loss': 1.7662, 'grad_norm': 0.310546875, 'learning_rate': 9.54230704272927e-05, 'epoch': 0.54}




{'loss': 1.8265, 'grad_norm': 0.48828125, 'learning_rate': 9.50852896470191e-05, 'epoch': 0.54}
{'loss': 1.6256, 'grad_norm': 0.8203125, 'learning_rate': 9.474750886674549e-05, 'epoch': 0.54}




{'loss': 1.8024, 'grad_norm': 0.212890625, 'learning_rate': 9.440972808647189e-05, 'epoch': 0.54}
{'loss': 1.7401, 'grad_norm': 0.2060546875, 'learning_rate': 9.407194730619829e-05, 'epoch': 0.54}




{'loss': 1.7061, 'grad_norm': 0.26171875, 'learning_rate': 9.373416652592468e-05, 'epoch': 0.55}
{'loss': 1.7877, 'grad_norm': 0.7265625, 'learning_rate': 9.339638574565108e-05, 'epoch': 0.55}




{'loss': 1.6059, 'grad_norm': 1.6015625, 'learning_rate': 9.305860496537748e-05, 'epoch': 0.55}
{'loss': 1.8398, 'grad_norm': 0.30078125, 'learning_rate': 9.272082418510387e-05, 'epoch': 0.55}




{'loss': 1.7163, 'grad_norm': 0.21875, 'learning_rate': 9.238304340483027e-05, 'epoch': 0.55}
{'loss': 1.7557, 'grad_norm': 0.314453125, 'learning_rate': 9.204526262455667e-05, 'epoch': 0.55}




{'loss': 1.7954, 'grad_norm': 0.65625, 'learning_rate': 9.170748184428306e-05, 'epoch': 0.56}
{'loss': 1.382, 'grad_norm': 0.85546875, 'learning_rate': 9.136970106400946e-05, 'epoch': 0.56}




{'loss': 1.7391, 'grad_norm': 0.2373046875, 'learning_rate': 9.103192028373586e-05, 'epoch': 0.56}
{'loss': 1.7453, 'grad_norm': 0.2490234375, 'learning_rate': 9.069413950346226e-05, 'epoch': 0.56}




{'loss': 1.7514, 'grad_norm': 0.353515625, 'learning_rate': 9.035635872318865e-05, 'epoch': 0.56}
{'loss': 1.8447, 'grad_norm': 0.427734375, 'learning_rate': 9.001857794291505e-05, 'epoch': 0.56}




{'loss': 1.5066, 'grad_norm': 1.3984375, 'learning_rate': 8.968079716264145e-05, 'epoch': 0.57}
{'loss': 1.6578, 'grad_norm': 0.2021484375, 'learning_rate': 8.934301638236785e-05, 'epoch': 0.57}




{'loss': 1.7108, 'grad_norm': 0.2431640625, 'learning_rate': 8.900523560209425e-05, 'epoch': 0.57}
{'loss': 1.8843, 'grad_norm': 0.30078125, 'learning_rate': 8.866745482182064e-05, 'epoch': 0.57}




{'loss': 1.7683, 'grad_norm': 0.51171875, 'learning_rate': 8.832967404154704e-05, 'epoch': 0.57}
{'loss': 1.5651, 'grad_norm': 0.73046875, 'learning_rate': 8.799189326127344e-05, 'epoch': 0.57}




{'loss': 1.8682, 'grad_norm': 0.232421875, 'learning_rate': 8.765411248099984e-05, 'epoch': 0.57}
{'loss': 1.795, 'grad_norm': 0.25390625, 'learning_rate': 8.731633170072623e-05, 'epoch': 0.58}




{'loss': 1.7072, 'grad_norm': 0.291015625, 'learning_rate': 8.697855092045263e-05, 'epoch': 0.58}
{'loss': 1.7536, 'grad_norm': 0.55078125, 'learning_rate': 8.664077014017903e-05, 'epoch': 0.58}




{'loss': 1.6567, 'grad_norm': 1.21875, 'learning_rate': 8.630298935990543e-05, 'epoch': 0.58}
{'loss': 1.7249, 'grad_norm': 0.19921875, 'learning_rate': 8.596520857963183e-05, 'epoch': 0.58}




{'loss': 1.6926, 'grad_norm': 0.3203125, 'learning_rate': 8.562742779935822e-05, 'epoch': 0.58}
{'loss': 1.6764, 'grad_norm': 0.33203125, 'learning_rate': 8.528964701908462e-05, 'epoch': 0.59}




{'loss': 1.8368, 'grad_norm': 0.455078125, 'learning_rate': 8.495186623881102e-05, 'epoch': 0.59}
{'loss': 1.6858, 'grad_norm': 0.83203125, 'learning_rate': 8.461408545853742e-05, 'epoch': 0.59}




{'loss': 1.8464, 'grad_norm': 0.234375, 'learning_rate': 8.427630467826381e-05, 'epoch': 0.59}
{'loss': 1.6546, 'grad_norm': 0.294921875, 'learning_rate': 8.393852389799021e-05, 'epoch': 0.59}




{'loss': 1.8757, 'grad_norm': 0.357421875, 'learning_rate': 8.360074311771661e-05, 'epoch': 0.59}
{'loss': 1.684, 'grad_norm': 0.49609375, 'learning_rate': 8.326296233744301e-05, 'epoch': 0.6}




{'loss': 1.5904, 'grad_norm': 1.0703125, 'learning_rate': 8.29251815571694e-05, 'epoch': 0.6}
{'loss': 1.6877, 'grad_norm': 0.205078125, 'learning_rate': 8.25874007768958e-05, 'epoch': 0.6}




{'loss': 1.6557, 'grad_norm': 0.2412109375, 'learning_rate': 8.224961999662219e-05, 'epoch': 0.6}
{'loss': 1.6486, 'grad_norm': 0.318359375, 'learning_rate': 8.191183921634859e-05, 'epoch': 0.6}




{'loss': 1.8011, 'grad_norm': 0.59765625, 'learning_rate': 8.157405843607499e-05, 'epoch': 0.6}
{'loss': 1.7156, 'grad_norm': 0.953125, 'learning_rate': 8.123627765580138e-05, 'epoch': 0.61}




{'loss': 1.6563, 'grad_norm': 0.287109375, 'learning_rate': 8.089849687552778e-05, 'epoch': 0.61}
{'loss': 1.6211, 'grad_norm': 0.2314453125, 'learning_rate': 8.056071609525418e-05, 'epoch': 0.61}




{'loss': 1.8083, 'grad_norm': 0.30859375, 'learning_rate': 8.022293531498058e-05, 'epoch': 0.61}
{'loss': 1.8834, 'grad_norm': 0.404296875, 'learning_rate': 7.988515453470697e-05, 'epoch': 0.61}




{'loss': 1.5326, 'grad_norm': 0.78125, 'learning_rate': 7.954737375443337e-05, 'epoch': 0.61}
{'loss': 1.7394, 'grad_norm': 0.193359375, 'learning_rate': 7.920959297415977e-05, 'epoch': 0.62}




{'loss': 1.6248, 'grad_norm': 0.244140625, 'learning_rate': 7.887181219388617e-05, 'epoch': 0.62}
{'loss': 1.6947, 'grad_norm': 0.318359375, 'learning_rate': 7.853403141361257e-05, 'epoch': 0.62}




{'loss': 1.9776, 'grad_norm': 0.44921875, 'learning_rate': 7.819625063333896e-05, 'epoch': 0.62}
{'loss': 1.7127, 'grad_norm': 1.640625, 'learning_rate': 7.785846985306536e-05, 'epoch': 0.62}




{'loss': 1.8121, 'grad_norm': 0.27734375, 'learning_rate': 7.752068907279176e-05, 'epoch': 0.62}
{'loss': 1.6654, 'grad_norm': 0.248046875, 'learning_rate': 7.718290829251816e-05, 'epoch': 0.63}




{'loss': 1.9036, 'grad_norm': 0.3671875, 'learning_rate': 7.684512751224455e-05, 'epoch': 0.63}
{'loss': 1.8374, 'grad_norm': 0.451171875, 'learning_rate': 7.650734673197095e-05, 'epoch': 0.63}




{'loss': 1.5206, 'grad_norm': 1.1015625, 'learning_rate': 7.616956595169735e-05, 'epoch': 0.63}
{'loss': 1.7729, 'grad_norm': 0.2041015625, 'learning_rate': 7.583178517142375e-05, 'epoch': 0.63}




{'loss': 1.7337, 'grad_norm': 0.26171875, 'learning_rate': 7.549400439115016e-05, 'epoch': 0.63}
{'loss': 1.8615, 'grad_norm': 0.28125, 'learning_rate': 7.515622361087654e-05, 'epoch': 0.64}




{'loss': 1.8025, 'grad_norm': 0.435546875, 'learning_rate': 7.481844283060294e-05, 'epoch': 0.64}
{'loss': 1.6469, 'grad_norm': 0.88671875, 'learning_rate': 7.448066205032935e-05, 'epoch': 0.64}




{'loss': 1.4894, 'grad_norm': 0.2060546875, 'learning_rate': 7.414288127005575e-05, 'epoch': 0.64}
{'loss': 1.706, 'grad_norm': 0.255859375, 'learning_rate': 7.380510048978213e-05, 'epoch': 0.64}




{'loss': 1.6932, 'grad_norm': 0.40234375, 'learning_rate': 7.346731970950853e-05, 'epoch': 0.64}
{'loss': 1.8798, 'grad_norm': 0.53515625, 'learning_rate': 7.312953892923494e-05, 'epoch': 0.65}




{'loss': 1.4244, 'grad_norm': 0.85546875, 'learning_rate': 7.279175814896134e-05, 'epoch': 0.65}
{'loss': 1.6379, 'grad_norm': 0.2275390625, 'learning_rate': 7.245397736868772e-05, 'epoch': 0.65}




{'loss': 1.703, 'grad_norm': 0.310546875, 'learning_rate': 7.211619658841413e-05, 'epoch': 0.65}
{'loss': 1.6112, 'grad_norm': 0.2890625, 'learning_rate': 7.177841580814053e-05, 'epoch': 0.65}




{'loss': 1.9859, 'grad_norm': 0.6328125, 'learning_rate': 7.144063502786691e-05, 'epoch': 0.65}
{'loss': 1.6093, 'grad_norm': 1.3125, 'learning_rate': 7.110285424759331e-05, 'epoch': 0.66}




{'loss': 1.6423, 'grad_norm': 0.2421875, 'learning_rate': 7.076507346731972e-05, 'epoch': 0.66}
{'loss': 1.6928, 'grad_norm': 0.267578125, 'learning_rate': 7.04272926870461e-05, 'epoch': 0.66}




{'loss': 1.7547, 'grad_norm': 0.3515625, 'learning_rate': 7.00895119067725e-05, 'epoch': 0.66}
{'loss': 1.7299, 'grad_norm': 0.44921875, 'learning_rate': 6.97517311264989e-05, 'epoch': 0.66}




{'loss': 1.3604, 'grad_norm': 0.9609375, 'learning_rate': 6.941395034622529e-05, 'epoch': 0.66}
{'loss': 1.7049, 'grad_norm': 0.31640625, 'learning_rate': 6.90761695659517e-05, 'epoch': 0.67}




{'loss': 1.8239, 'grad_norm': 0.326171875, 'learning_rate': 6.87383887856781e-05, 'epoch': 0.67}
{'loss': 1.7079, 'grad_norm': 0.421875, 'learning_rate': 6.84006080054045e-05, 'epoch': 0.67}




{'loss': 1.7895, 'grad_norm': 0.53515625, 'learning_rate': 6.80628272251309e-05, 'epoch': 0.67}
{'loss': 1.3337, 'grad_norm': 0.6640625, 'learning_rate': 6.772504644485728e-05, 'epoch': 0.67}




{'loss': 1.8141, 'grad_norm': 0.2216796875, 'learning_rate': 6.738726566458369e-05, 'epoch': 0.67}
{'loss': 1.6528, 'grad_norm': 0.23828125, 'learning_rate': 6.704948488431009e-05, 'epoch': 0.67}




{'loss': 1.7367, 'grad_norm': 0.3203125, 'learning_rate': 6.671170410403649e-05, 'epoch': 0.68}
{'loss': 1.7429, 'grad_norm': 0.49609375, 'learning_rate': 6.637392332376288e-05, 'epoch': 0.68}




{'loss': 1.6022, 'grad_norm': 2.015625, 'learning_rate': 6.603614254348928e-05, 'epoch': 0.68}
{'loss': 1.6021, 'grad_norm': 0.2294921875, 'learning_rate': 6.569836176321568e-05, 'epoch': 0.68}




{'loss': 1.7684, 'grad_norm': 0.32421875, 'learning_rate': 6.536058098294208e-05, 'epoch': 0.68}
{'loss': 1.8216, 'grad_norm': 0.4375, 'learning_rate': 6.502280020266848e-05, 'epoch': 0.68}




{'loss': 1.7309, 'grad_norm': 0.58984375, 'learning_rate': 6.468501942239487e-05, 'epoch': 0.69}
{'loss': 1.7183, 'grad_norm': 1.3203125, 'learning_rate': 6.434723864212127e-05, 'epoch': 0.69}




{'loss': 1.7619, 'grad_norm': 0.33203125, 'learning_rate': 6.400945786184767e-05, 'epoch': 0.69}
{'loss': 1.9306, 'grad_norm': 0.23828125, 'learning_rate': 6.367167708157407e-05, 'epoch': 0.69}




{'loss': 1.7512, 'grad_norm': 0.4140625, 'learning_rate': 6.333389630130046e-05, 'epoch': 0.69}
{'loss': 1.7357, 'grad_norm': 0.76953125, 'learning_rate': 6.299611552102686e-05, 'epoch': 0.69}




{'loss': 1.5615, 'grad_norm': 1.03125, 'learning_rate': 6.265833474075326e-05, 'epoch': 0.7}
{'loss': 1.6439, 'grad_norm': 0.259765625, 'learning_rate': 6.232055396047966e-05, 'epoch': 0.7}




{'loss': 1.7806, 'grad_norm': 0.2890625, 'learning_rate': 6.198277318020605e-05, 'epoch': 0.7}
{'loss': 1.7521, 'grad_norm': 0.39453125, 'learning_rate': 6.164499239993245e-05, 'epoch': 0.7}




{'loss': 1.8209, 'grad_norm': 0.478515625, 'learning_rate': 6.130721161965885e-05, 'epoch': 0.7}
{'loss': 1.6388, 'grad_norm': 0.90234375, 'learning_rate': 6.0969430839385244e-05, 'epoch': 0.7}




{'loss': 1.6384, 'grad_norm': 0.2490234375, 'learning_rate': 6.0631650059111645e-05, 'epoch': 0.71}
{'loss': 1.6725, 'grad_norm': 0.2734375, 'learning_rate': 6.029386927883803e-05, 'epoch': 0.71}




{'loss': 1.8905, 'grad_norm': 0.453125, 'learning_rate': 5.9956088498564434e-05, 'epoch': 0.71}
{'loss': 1.7985, 'grad_norm': 0.4453125, 'learning_rate': 5.9618307718290835e-05, 'epoch': 0.71}




{'loss': 1.6602, 'grad_norm': 0.625, 'learning_rate': 5.9280526938017236e-05, 'epoch': 0.71}
{'loss': 1.7391, 'grad_norm': 0.296875, 'learning_rate': 5.894274615774362e-05, 'epoch': 0.71}




{'loss': 1.6491, 'grad_norm': 0.326171875, 'learning_rate': 5.8604965377470024e-05, 'epoch': 0.72}
{'loss': 1.8652, 'grad_norm': 0.390625, 'learning_rate': 5.8267184597196425e-05, 'epoch': 0.72}




{'loss': 1.8907, 'grad_norm': 0.6328125, 'learning_rate': 5.792940381692282e-05, 'epoch': 0.72}
{'loss': 1.6366, 'grad_norm': 1.0390625, 'learning_rate': 5.759162303664922e-05, 'epoch': 0.72}




{'loss': 1.5708, 'grad_norm': 0.2578125, 'learning_rate': 5.7253842256375615e-05, 'epoch': 0.72}
{'loss': 1.5194, 'grad_norm': 0.291015625, 'learning_rate': 5.691606147610201e-05, 'epoch': 0.72}




{'loss': 1.7921, 'grad_norm': 0.30078125, 'learning_rate': 5.657828069582841e-05, 'epoch': 0.73}
{'loss': 1.8842, 'grad_norm': 0.470703125, 'learning_rate': 5.624049991555481e-05, 'epoch': 0.73}




{'loss': 1.7611, 'grad_norm': 1.09375, 'learning_rate': 5.59027191352812e-05, 'epoch': 0.73}
{'loss': 1.4804, 'grad_norm': 0.236328125, 'learning_rate': 5.55649383550076e-05, 'epoch': 0.73}




{'loss': 1.617, 'grad_norm': 0.28125, 'learning_rate': 5.5227157574734e-05, 'epoch': 0.73}
{'loss': 1.8054, 'grad_norm': 0.296875, 'learning_rate': 5.48893767944604e-05, 'epoch': 0.73}




{'loss': 1.7453, 'grad_norm': 0.4375, 'learning_rate': 5.455159601418679e-05, 'epoch': 0.74}
{'loss': 1.8031, 'grad_norm': 0.703125, 'learning_rate': 5.421381523391319e-05, 'epoch': 0.74}




{'loss': 1.7667, 'grad_norm': 0.1904296875, 'learning_rate': 5.387603445363959e-05, 'epoch': 0.74}
{'loss': 1.6494, 'grad_norm': 0.337890625, 'learning_rate': 5.353825367336599e-05, 'epoch': 0.74}




{'loss': 1.6814, 'grad_norm': 0.2470703125, 'learning_rate': 5.320047289309239e-05, 'epoch': 0.74}
{'loss': 1.7484, 'grad_norm': 0.314453125, 'learning_rate': 5.286269211281878e-05, 'epoch': 0.74}




{'loss': 1.5982, 'grad_norm': 0.953125, 'learning_rate': 5.252491133254518e-05, 'epoch': 0.75}
{'loss': 1.8881, 'grad_norm': 0.25, 'learning_rate': 5.2187130552271576e-05, 'epoch': 0.75}




{'loss': 1.6391, 'grad_norm': 0.24609375, 'learning_rate': 5.184934977199798e-05, 'epoch': 0.75}
{'loss': 1.7438, 'grad_norm': 0.29296875, 'learning_rate': 5.151156899172437e-05, 'epoch': 0.75}




{'loss': 1.7861, 'grad_norm': 0.392578125, 'learning_rate': 5.1173788211450766e-05, 'epoch': 0.75}
{'loss': 1.8049, 'grad_norm': 1.1015625, 'learning_rate': 5.083600743117717e-05, 'epoch': 0.75}




{'loss': 1.591, 'grad_norm': 0.2451171875, 'learning_rate': 5.049822665090357e-05, 'epoch': 0.76}
{'loss': 1.742, 'grad_norm': 0.23046875, 'learning_rate': 5.016044587062997e-05, 'epoch': 0.76}




{'loss': 1.8474, 'grad_norm': 0.251953125, 'learning_rate': 4.982266509035636e-05, 'epoch': 0.76}
{'loss': 1.7054, 'grad_norm': 0.6875, 'learning_rate': 4.948488431008276e-05, 'epoch': 0.76}




{'loss': 1.4039, 'grad_norm': 0.6171875, 'learning_rate': 4.914710352980916e-05, 'epoch': 0.76}
{'loss': 1.8121, 'grad_norm': 0.22265625, 'learning_rate': 4.880932274953555e-05, 'epoch': 0.76}




{'loss': 1.6596, 'grad_norm': 0.2197265625, 'learning_rate': 4.8471541969261954e-05, 'epoch': 0.76}
{'loss': 1.7422, 'grad_norm': 0.302734375, 'learning_rate': 4.813376118898835e-05, 'epoch': 0.77}




{'loss': 1.7455, 'grad_norm': 0.466796875, 'learning_rate': 4.779598040871475e-05, 'epoch': 0.77}
{'loss': 1.3982, 'grad_norm': 1.5703125, 'learning_rate': 4.745819962844114e-05, 'epoch': 0.77}




{'loss': 1.7009, 'grad_norm': 0.255859375, 'learning_rate': 4.7120418848167544e-05, 'epoch': 0.77}
{'loss': 1.604, 'grad_norm': 0.306640625, 'learning_rate': 4.678263806789394e-05, 'epoch': 0.77}




{'loss': 1.6223, 'grad_norm': 0.337890625, 'learning_rate': 4.644485728762033e-05, 'epoch': 0.77}
{'loss': 1.7138, 'grad_norm': 0.40625, 'learning_rate': 4.6107076507346734e-05, 'epoch': 0.78}




{'loss': 1.7635, 'grad_norm': 0.671875, 'learning_rate': 4.576929572707313e-05, 'epoch': 0.78}
{'loss': 1.4759, 'grad_norm': 0.1796875, 'learning_rate': 4.543151494679953e-05, 'epoch': 0.78}




{'loss': 1.7253, 'grad_norm': 0.267578125, 'learning_rate': 4.509373416652592e-05, 'epoch': 0.78}
{'loss': 1.8428, 'grad_norm': 0.443359375, 'learning_rate': 4.4755953386252324e-05, 'epoch': 0.78}




{'loss': 1.8478, 'grad_norm': 0.578125, 'learning_rate': 4.441817260597872e-05, 'epoch': 0.78}
{'loss': 1.5337, 'grad_norm': 1.234375, 'learning_rate': 4.408039182570512e-05, 'epoch': 0.79}




{'loss': 1.6335, 'grad_norm': 0.275390625, 'learning_rate': 4.374261104543152e-05, 'epoch': 0.79}
{'loss': 1.6929, 'grad_norm': 0.2431640625, 'learning_rate': 4.3404830265157915e-05, 'epoch': 0.79}




{'loss': 1.7919, 'grad_norm': 0.294921875, 'learning_rate': 4.3067049484884316e-05, 'epoch': 0.79}
{'loss': 1.6157, 'grad_norm': 0.515625, 'learning_rate': 4.272926870461071e-05, 'epoch': 0.79}




{'loss': 1.8994, 'grad_norm': 1.0, 'learning_rate': 4.239148792433711e-05, 'epoch': 0.79}
{'loss': 1.9995, 'grad_norm': 0.232421875, 'learning_rate': 4.2053707144063505e-05, 'epoch': 0.8}




{'loss': 1.588, 'grad_norm': 0.31640625, 'learning_rate': 4.1715926363789906e-05, 'epoch': 0.8}
{'loss': 1.7017, 'grad_norm': 0.3984375, 'learning_rate': 4.13781455835163e-05, 'epoch': 0.8}




{'loss': 1.8786, 'grad_norm': 0.5703125, 'learning_rate': 4.1040364803242695e-05, 'epoch': 0.8}
{'loss': 1.5391, 'grad_norm': 0.76171875, 'learning_rate': 4.070258402296909e-05, 'epoch': 0.8}




{'loss': 1.7119, 'grad_norm': 0.240234375, 'learning_rate': 4.036480324269549e-05, 'epoch': 0.8}
{'loss': 1.6417, 'grad_norm': 0.36328125, 'learning_rate': 4.002702246242189e-05, 'epoch': 0.81}




{'loss': 1.5754, 'grad_norm': 0.29296875, 'learning_rate': 3.9689241682148285e-05, 'epoch': 0.81}
{'loss': 1.9825, 'grad_norm': 0.59375, 'learning_rate': 3.9351460901874686e-05, 'epoch': 0.81}




{'loss': 1.6616, 'grad_norm': 1.2421875, 'learning_rate': 3.901368012160108e-05, 'epoch': 0.81}
{'loss': 1.6413, 'grad_norm': 0.29296875, 'learning_rate': 3.867589934132748e-05, 'epoch': 0.81}




{'loss': 1.5991, 'grad_norm': 0.2333984375, 'learning_rate': 3.8338118561053876e-05, 'epoch': 0.81}
{'loss': 1.7396, 'grad_norm': 0.44921875, 'learning_rate': 3.800033778078028e-05, 'epoch': 0.82}




{'loss': 1.9095, 'grad_norm': 0.8046875, 'learning_rate': 3.766255700050667e-05, 'epoch': 0.82}
{'loss': 1.3705, 'grad_norm': 0.96875, 'learning_rate': 3.732477622023307e-05, 'epoch': 0.82}




{'loss': 1.7385, 'grad_norm': 0.2216796875, 'learning_rate': 3.6986995439959467e-05, 'epoch': 0.82}
{'loss': 1.687, 'grad_norm': 0.34765625, 'learning_rate': 3.664921465968587e-05, 'epoch': 0.82}




{'loss': 1.6481, 'grad_norm': 0.37890625, 'learning_rate': 3.631143387941227e-05, 'epoch': 0.82}
{'loss': 1.809, 'grad_norm': 0.484375, 'learning_rate': 3.597365309913866e-05, 'epoch': 0.83}




{'loss': 1.523, 'grad_norm': 0.82421875, 'learning_rate': 3.563587231886506e-05, 'epoch': 0.83}
{'loss': 1.6833, 'grad_norm': 0.275390625, 'learning_rate': 3.529809153859145e-05, 'epoch': 0.83}




{'loss': 1.7647, 'grad_norm': 0.2451171875, 'learning_rate': 3.496031075831785e-05, 'epoch': 0.83}
{'loss': 1.7701, 'grad_norm': 0.3828125, 'learning_rate': 3.462252997804425e-05, 'epoch': 0.83}




{'loss': 1.6437, 'grad_norm': 0.5625, 'learning_rate': 3.428474919777065e-05, 'epoch': 0.83}
{'loss': 1.7386, 'grad_norm': 1.265625, 'learning_rate': 3.394696841749704e-05, 'epoch': 0.84}




{'loss': 1.623, 'grad_norm': 0.28125, 'learning_rate': 3.360918763722344e-05, 'epoch': 0.84}
{'loss': 1.7386, 'grad_norm': 0.2080078125, 'learning_rate': 3.3271406856949844e-05, 'epoch': 0.84}




{'loss': 1.6784, 'grad_norm': 0.318359375, 'learning_rate': 3.293362607667624e-05, 'epoch': 0.84}
{'loss': 1.7437, 'grad_norm': 0.51953125, 'learning_rate': 3.259584529640264e-05, 'epoch': 0.84}




{'loss': 1.7163, 'grad_norm': 1.3828125, 'learning_rate': 3.2258064516129034e-05, 'epoch': 0.84}
{'loss': 1.6699, 'grad_norm': 0.21875, 'learning_rate': 3.1920283735855435e-05, 'epoch': 0.85}




{'loss': 1.8255, 'grad_norm': 0.294921875, 'learning_rate': 3.158250295558183e-05, 'epoch': 0.85}
{'loss': 1.906, 'grad_norm': 0.421875, 'learning_rate': 3.124472217530823e-05, 'epoch': 0.85}




{'loss': 1.7654, 'grad_norm': 0.6015625, 'learning_rate': 3.0906941395034624e-05, 'epoch': 0.85}
{'loss': 1.5068, 'grad_norm': 1.09375, 'learning_rate': 3.0569160614761025e-05, 'epoch': 0.85}




{'loss': 1.6567, 'grad_norm': 0.2021484375, 'learning_rate': 3.0231379834487416e-05, 'epoch': 0.85}
{'loss': 1.7948, 'grad_norm': 0.2470703125, 'learning_rate': 2.9893599054213817e-05, 'epoch': 0.86}




{'loss': 1.7966, 'grad_norm': 0.2890625, 'learning_rate': 2.9555818273940218e-05, 'epoch': 0.86}
{'loss': 1.931, 'grad_norm': 0.42578125, 'learning_rate': 2.9218037493666612e-05, 'epoch': 0.86}




{'loss': 1.5466, 'grad_norm': 0.81640625, 'learning_rate': 2.888025671339301e-05, 'epoch': 0.86}
{'loss': 1.7365, 'grad_norm': 0.21875, 'learning_rate': 2.8542475933119404e-05, 'epoch': 0.86}




{'loss': 1.8157, 'grad_norm': 0.373046875, 'learning_rate': 2.8204695152845805e-05, 'epoch': 0.86}
{'loss': 1.7918, 'grad_norm': 0.322265625, 'learning_rate': 2.78669143725722e-05, 'epoch': 0.86}




{'loss': 1.6903, 'grad_norm': 0.494140625, 'learning_rate': 2.75291335922986e-05, 'epoch': 0.87}
{'loss': 1.655, 'grad_norm': 1.3359375, 'learning_rate': 2.7191352812024995e-05, 'epoch': 0.87}




{'loss': 1.7506, 'grad_norm': 0.21875, 'learning_rate': 2.6853572031751396e-05, 'epoch': 0.87}
{'loss': 1.7957, 'grad_norm': 0.29296875, 'learning_rate': 2.651579125147779e-05, 'epoch': 0.87}




{'loss': 1.7046, 'grad_norm': 0.287109375, 'learning_rate': 2.617801047120419e-05, 'epoch': 0.87}
{'loss': 1.6271, 'grad_norm': 0.7109375, 'learning_rate': 2.584022969093059e-05, 'epoch': 0.87}




{'loss': 1.6837, 'grad_norm': 1.2578125, 'learning_rate': 2.5502448910656983e-05, 'epoch': 0.88}
{'loss': 1.5933, 'grad_norm': 0.33984375, 'learning_rate': 2.5164668130383384e-05, 'epoch': 0.88}




{'loss': 1.7498, 'grad_norm': 0.3515625, 'learning_rate': 2.482688735010978e-05, 'epoch': 0.88}
{'loss': 1.7858, 'grad_norm': 0.30078125, 'learning_rate': 2.448910656983618e-05, 'epoch': 0.88}




{'loss': 1.6993, 'grad_norm': 0.65625, 'learning_rate': 2.4151325789562577e-05, 'epoch': 0.88}
{'loss': 1.8054, 'grad_norm': 1.4609375, 'learning_rate': 2.3813545009288975e-05, 'epoch': 0.88}




{'loss': 1.5274, 'grad_norm': 0.283203125, 'learning_rate': 2.3475764229015372e-05, 'epoch': 0.89}
{'loss': 1.5922, 'grad_norm': 0.271484375, 'learning_rate': 2.3137983448741767e-05, 'epoch': 0.89}




{'loss': 1.7229, 'grad_norm': 0.337890625, 'learning_rate': 2.2800202668468164e-05, 'epoch': 0.89}
{'loss': 1.885, 'grad_norm': 0.45703125, 'learning_rate': 2.2462421888194562e-05, 'epoch': 0.89}




{'loss': 1.6702, 'grad_norm': 1.25, 'learning_rate': 2.212464110792096e-05, 'epoch': 0.89}
{'loss': 1.5121, 'grad_norm': 0.2265625, 'learning_rate': 2.1786860327647357e-05, 'epoch': 0.89}




{'loss': 1.6191, 'grad_norm': 0.267578125, 'learning_rate': 2.1449079547373755e-05, 'epoch': 0.9}
{'loss': 1.7487, 'grad_norm': 0.33203125, 'learning_rate': 2.1111298767100152e-05, 'epoch': 0.9}




{'loss': 1.7532, 'grad_norm': 0.41796875, 'learning_rate': 2.077351798682655e-05, 'epoch': 0.9}
{'loss': 1.8878, 'grad_norm': 1.046875, 'learning_rate': 2.0435737206552948e-05, 'epoch': 0.9}




{'loss': 1.6576, 'grad_norm': 0.2197265625, 'learning_rate': 2.0097956426279345e-05, 'epoch': 0.9}
{'loss': 1.7616, 'grad_norm': 0.37890625, 'learning_rate': 1.9760175646005743e-05, 'epoch': 0.9}




{'loss': 1.9001, 'grad_norm': 0.291015625, 'learning_rate': 1.942239486573214e-05, 'epoch': 0.91}
{'loss': 1.7102, 'grad_norm': 0.390625, 'learning_rate': 1.9084614085458538e-05, 'epoch': 0.91}




{'loss': 1.5878, 'grad_norm': 1.0078125, 'learning_rate': 1.8746833305184936e-05, 'epoch': 0.91}
{'loss': 1.7119, 'grad_norm': 0.2431640625, 'learning_rate': 1.8409052524911334e-05, 'epoch': 0.91}




{'loss': 1.5548, 'grad_norm': 0.28515625, 'learning_rate': 1.807127174463773e-05, 'epoch': 0.91}
{'loss': 1.5995, 'grad_norm': 0.30859375, 'learning_rate': 1.773349096436413e-05, 'epoch': 0.91}




{'loss': 1.7597, 'grad_norm': 0.498046875, 'learning_rate': 1.7395710184090526e-05, 'epoch': 0.92}
{'loss': 1.4186, 'grad_norm': 1.078125, 'learning_rate': 1.7057929403816924e-05, 'epoch': 0.92}




{'loss': 1.6199, 'grad_norm': 0.2080078125, 'learning_rate': 1.6720148623543322e-05, 'epoch': 0.92}
{'loss': 1.6881, 'grad_norm': 0.26171875, 'learning_rate': 1.638236784326972e-05, 'epoch': 0.92}




{'loss': 1.6843, 'grad_norm': 0.3203125, 'learning_rate': 1.6044587062996117e-05, 'epoch': 0.92}
{'loss': 1.9408, 'grad_norm': 0.6953125, 'learning_rate': 1.5706806282722515e-05, 'epoch': 0.92}




{'loss': 1.6147, 'grad_norm': 1.0390625, 'learning_rate': 1.5369025502448912e-05, 'epoch': 0.93}
{'loss': 1.5579, 'grad_norm': 0.1943359375, 'learning_rate': 1.5031244722175308e-05, 'epoch': 0.93}




{'loss': 1.6809, 'grad_norm': 0.310546875, 'learning_rate': 1.4693463941901706e-05, 'epoch': 0.93}
{'loss': 1.8108, 'grad_norm': 0.30078125, 'learning_rate': 1.4355683161628104e-05, 'epoch': 0.93}




{'loss': 1.7985, 'grad_norm': 0.404296875, 'learning_rate': 1.4017902381354503e-05, 'epoch': 0.93}
{'loss': 1.5515, 'grad_norm': 1.046875, 'learning_rate': 1.36801216010809e-05, 'epoch': 0.93}




{'loss': 1.961, 'grad_norm': 0.2001953125, 'learning_rate': 1.3342340820807298e-05, 'epoch': 0.94}
{'loss': 1.6758, 'grad_norm': 0.26953125, 'learning_rate': 1.3004560040533694e-05, 'epoch': 0.94}




{'loss': 1.7732, 'grad_norm': 0.48046875, 'learning_rate': 1.2666779260260092e-05, 'epoch': 0.94}
{'loss': 1.7372, 'grad_norm': 0.5078125, 'learning_rate': 1.232899847998649e-05, 'epoch': 0.94}




{'loss': 1.4927, 'grad_norm': 1.4140625, 'learning_rate': 1.1991217699712887e-05, 'epoch': 0.94}
{'loss': 1.6061, 'grad_norm': 0.326171875, 'learning_rate': 1.1653436919439285e-05, 'epoch': 0.94}




{'loss': 1.6602, 'grad_norm': 0.271484375, 'learning_rate': 1.1315656139165682e-05, 'epoch': 0.95}
{'loss': 1.8276, 'grad_norm': 0.42578125, 'learning_rate': 1.097787535889208e-05, 'epoch': 0.95}




{'loss': 1.82, 'grad_norm': 0.59375, 'learning_rate': 1.0640094578618478e-05, 'epoch': 0.95}
{'loss': 1.7021, 'grad_norm': 0.71875, 'learning_rate': 1.0302313798344875e-05, 'epoch': 0.95}




{'loss': 1.6937, 'grad_norm': 0.228515625, 'learning_rate': 9.964533018071271e-06, 'epoch': 0.95}
{'loss': 1.746, 'grad_norm': 0.3515625, 'learning_rate': 9.62675223779767e-06, 'epoch': 0.95}




{'loss': 1.7394, 'grad_norm': 0.62890625, 'learning_rate': 9.288971457524068e-06, 'epoch': 0.95}
{'loss': 1.8968, 'grad_norm': 0.6328125, 'learning_rate': 8.951190677250464e-06, 'epoch': 0.96}




{'loss': 1.5517, 'grad_norm': 0.9609375, 'learning_rate': 8.613409896976862e-06, 'epoch': 0.96}
{'loss': 1.5594, 'grad_norm': 0.275390625, 'learning_rate': 8.27562911670326e-06, 'epoch': 0.96}




{'loss': 1.5908, 'grad_norm': 0.310546875, 'learning_rate': 7.937848336429657e-06, 'epoch': 0.96}
{'loss': 1.8126, 'grad_norm': 0.390625, 'learning_rate': 7.600067556156056e-06, 'epoch': 0.96}




{'loss': 1.9324, 'grad_norm': 0.490234375, 'learning_rate': 7.262286775882453e-06, 'epoch': 0.96}
{'loss': 1.5741, 'grad_norm': 0.9375, 'learning_rate': 6.92450599560885e-06, 'epoch': 0.97}




{'loss': 1.8473, 'grad_norm': 0.1962890625, 'learning_rate': 6.586725215335248e-06, 'epoch': 0.97}
{'loss': 1.6037, 'grad_norm': 0.234375, 'learning_rate': 6.248944435061645e-06, 'epoch': 0.97}




{'loss': 1.7979, 'grad_norm': 0.400390625, 'learning_rate': 5.911163654788043e-06, 'epoch': 0.97}
{'loss': 1.7779, 'grad_norm': 0.62109375, 'learning_rate': 5.573382874514441e-06, 'epoch': 0.97}




{'loss': 1.7418, 'grad_norm': 0.91015625, 'learning_rate': 5.235602094240838e-06, 'epoch': 0.97}
{'loss': 1.6705, 'grad_norm': 0.251953125, 'learning_rate': 4.897821313967235e-06, 'epoch': 0.98}




{'loss': 1.6087, 'grad_norm': 0.291015625, 'learning_rate': 4.5600405336936335e-06, 'epoch': 0.98}
{'loss': 1.8033, 'grad_norm': 0.328125, 'learning_rate': 4.22225975342003e-06, 'epoch': 0.98}




{'loss': 1.7223, 'grad_norm': 0.3515625, 'learning_rate': 3.884478973146429e-06, 'epoch': 0.98}
{'loss': 1.7204, 'grad_norm': 1.203125, 'learning_rate': 3.5466981928728256e-06, 'epoch': 0.98}




{'loss': 1.5997, 'grad_norm': 0.279296875, 'learning_rate': 3.208917412599223e-06, 'epoch': 0.98}
{'loss': 1.736, 'grad_norm': 0.37890625, 'learning_rate': 2.8711366323256205e-06, 'epoch': 0.99}




{'loss': 1.8936, 'grad_norm': 0.2890625, 'learning_rate': 2.533355852052018e-06, 'epoch': 0.99}
{'loss': 1.915, 'grad_norm': 0.439453125, 'learning_rate': 2.1955750717784157e-06, 'epoch': 0.99}




{'loss': 1.7126, 'grad_norm': 1.0859375, 'learning_rate': 1.8577942915048136e-06, 'epoch': 0.99}
{'loss': 1.4601, 'grad_norm': 0.259765625, 'learning_rate': 1.520013511231211e-06, 'epoch': 0.99}




{'loss': 1.6764, 'grad_norm': 0.330078125, 'learning_rate': 1.1822327309576087e-06, 'epoch': 0.99}
{'loss': 1.7876, 'grad_norm': 0.384765625, 'learning_rate': 8.444519506840061e-07, 'epoch': 1.0}




{'loss': 1.7005, 'grad_norm': 0.59765625, 'learning_rate': 5.066711704104036e-07, 'epoch': 1.0}
{'loss': 1.6119, 'grad_norm': 1.09375, 'learning_rate': 1.6889039013680123e-07, 'epoch': 1.0}




{'train_runtime': 7779.2766, 'train_samples_per_second': 1.57, 'train_steps_per_second': 0.785, 'train_loss': 1.757683207537677, 'epoch': 1.0}


TrainOutput(global_step=6105, training_loss=1.757683207537677, metrics={'train_runtime': 7779.2766, 'train_samples_per_second': 1.57, 'train_steps_per_second': 0.785, 'train_loss': 1.757683207537677, 'epoch': 1.0})

In [29]:
model_to_save = trainer.model.module if hasattr(trainer.model, 'module') else trainer.model  # Take care of distributed/parallel training
model_to_save.save_pretrained("./results/experi_08", save_embedding_layers = True)

In [30]:
lora_config = LoraConfig.from_pretrained("./results/experi_09")
model = get_peft_model(model, lora_config)

ValueError: Can't find 'adapter_config.json' at './results/experi_09'

In [32]:
tokenizer.push_to_hub('aeolian83/llama_ko_sft_kullm_experi_06')

CommitInfo(commit_url='https://huggingface.co/aeolian83/llama_ko_sft_kullm_experi_06/commit/457621b3ada58baf6670b9069de6fb8982f02256', commit_message='Upload tokenizer', commit_description='', oid='457621b3ada58baf6670b9069de6fb8982f02256', pr_url=None, pr_revision=None, pr_num=None)