# 1. Load Environment & Huggingface, W&B login

In [1]:
import wandb
import os
os.environ["WANDB_PROJECT"]="QLoRA_Instruction_finetune_02"

wandb.login()

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33maeolian83[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

In [2]:
from datasets import load_dataset
from huggingface_hub import login
from dotenv import load_dotenv

load_dotenv()


login(token= os.environ["HF_TOKEN"])

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /home/aeolian83/.cache/huggingface/token
Login successful


# 2. Dataset Load

- 이 시스템에서는 작업을 외장하드에서 하고 있기 때문에 캐쉬폴더를 별도로 지정(In this system, tasks are being performed on an external hard drive, so a separate cache folder is specified.)

In [3]:
ko_instruction_01 = load_dataset("squarelike/OpenOrca-gugugo-ko", cache_dir="/mnt/t7/.cache/huggingface/datasets")

In [4]:
# ko_instruction_01 = load_dataset("squarelike/OpenOrca-gugugo-ko", cache_dir="/mnt/t7/.cache/huggingface/datasets")

In [5]:
ko_instruction_01 = ko_instruction_01.shuffle(seed=2160)

In [6]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 2240294
    })
})

In [7]:
ko_instruction_01 = ko_instruction_01['train'].train_test_split(test_size=0.95)

In [8]:
ko_instruction_01

DatasetDict({
    train: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 112014
    })
    test: Dataset({
        features: ['question', 'system_prompt', 'response', 'id'],
        num_rows: 2128280
    })
})

In [9]:
ko_instruction_01['train'][1500]['question']

'* 박테리아 또는 바이러스 감염: 바이러스 및 곰팡이 수막염 및 결핵과 같은 감염은 척추에 영향을 줄 수 있습니다.\n\n단어 사이에 공백을 제거하세요.'

In [10]:
ko_instruction_01['train'][1500]['system_prompt']

'당신은 인공지능 비서입니다. 당신은 임무를 부여받을 것입니다. 당신은 상세하고 긴 답변을 작성해야 합니다.'

In [11]:
ko_instruction_01['train'][1500]['response']

'박테리아 또는 바이러스에 의한 감염은 척추 문제를 포함한 다양한 건강 문제를 유발할 수 있습니다. 예를 들어, 바이러스 및 곰팡이 수막염과 결핵은 척추에 영향을 줄 수 있는 감염 중 일부입니다. 수막염은 뇌와 척수를 감싸고 있는 보호막이 염증으로 인해 부어오르는 것으로, 바이러스 또는 곰팡이 감염에 의해 발생할 수 있습니다. 감염이 척추로 퍼지면 척추 수막염을 유발하여 심한 통증, 뻣뻣함, 부기를 유발할 수 있습니다. 결핵은 척추에 영향을 줄 수 있는 또 다른 감염입니다. 주로 폐에 영향을 미치지만 척추를 포함한 신체의 다른 부위로도 퍼질 수 있는 박테리아 감염입니다. 결핵이 척추에 영향을 받으면 척추 결핵 또는 포트병이라고 합니다. 이 질환은 심한 통증, 뻣뻣함, 척추 기형과 함께 신경학적 문제를 유발할 수 있으며, 치료하지 않으면 신경학적 문제로 이어질 수 있습니다.\n\n결론적으로 박테리아 또는 바이러스에 의한 감염은 척추에 심각한 결과를 초래할 수 있습니다. 척추에 심한 통증, 뻣뻣함, 부기 등 척추 감염 증상이 나타나면 의료진의 진료를 받는 것이 중요합니다. 조기 진단과 치료는 추가 합병증을 예방하고 회복 가능성을 높이는 데 도움이 될 수 있습니다.'

# 3. Model Load

- QLoRA로 finetune을 하기위해 일반 7B 모델을 BitsAndBytes를 통해 양자화(4bit quantization)하여 로드, 훈련속도 향상을 위해 데이터 타입을 fp32가 아니라 fp16으로 로드(차후에는 bf16으로 로드해서 훈련예정)
- To finetune with QLoRA, a standard 7B model is quantized (4-bit quantization) through BitsAndBytes for loading, and to improve training speed, the data type is loaded as fp16 instead of fp32 (with plans to load and train with bf16 in the future).


```python

quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        llm_int8_threshold=6.0,
        llm_int8_has_fp16_weight=False,
        bnb_4bit_compute_dtype=torch.bfloat16,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",
    ),
```

### *Reference

- https://github.com/huggingface/peft/blob/main/examples/fp4_finetuning/finetune_fp4_opt_bnb_peft.py
- https://colab.research.google.com/drive/19AFEOrCI6-bc7h9RTso_NndRwXJRaJ25?usp=sharing

In [12]:
import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments
from peft import LoraConfig, PeftModel, get_peft_model
from trl import SFTTrainer

In [13]:
checkpoint_dir = "./checkpoint"
model_id = "beomi/llama-2-ko-7b"
device_map = {"": 0}

In [14]:
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        llm_int8_threshold=6.0,
        llm_int8_has_fp16_weight=False,
        bnb_4bit_compute_dtype=torch.bfloat16,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",
    ),
    device_map=device_map,
    torch_dtype=torch.bfloat16,
    cache_dir="/mnt/t7/.cache/huggingface/models",
)
tokenizer = AutoTokenizer.from_pretrained(model_id, cache_dir="/mnt/t7/.cache/huggingface/models")

Loading checkpoint shards:   0%|          | 0/15 [00:00<?, ?it/s]

## (1) Check Trainable Parameter

- 아래 코드대로 모델을 로드하면 훈련하는 파라미터수를 확인할 수 있다. 

In [15]:
# from peft import prepare_model_for_kbit_training

# model.gradient_checkpointing_enable()
# model = prepare_model_for_kbit_training(model)

In [16]:
# def print_trainable_parameters(model):
#     """
#     Print the number of trainable parameters in the model.
#     """
#     trainable_params = 0
#     all_param = 0
#     for _, param in model.named_parameters():
#         all_param += param.numel()
#         if param.requires_grad:
#             trainable_params += param.numel()
#     print(
#         f"trainable params: {trainable_params} || all params: {all_param} || trainble%: {100 * trainable_params / all_param}"
#     )

### 1) PEFT훈련을 위한 CONFIG설정, 이 부분은 Trainable Parameter를 확인하지 않아도 QLoRA를 위해서는 무조건 해야 한다.("For PEFT training configuration, this step must be done unconditionally for QLoRA, even without checking for Trainable Parameters.")

In [17]:
# peft_config = LoraConfig(
#     r=64,
#     lora_alpha=16,
#     lora_dropout=0.1,
#     inference_mode=False,
#     task_type="CAUSAL_LM",
# )

peft_config = LoraConfig(
    r=64,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj", "out_proj", "fc1", "fc2"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

In [18]:
# model = get_peft_model(model, peft_config)
# print_trainable_parameters(model)


### 2) 훈련을 위한 모델 설정(Model configuration for training)

In [19]:
model.config.use_cache = False # silence the warnings. Please re-enable for inference!
model.config.pretraining_tp = 1

### 3) loss값이 치솟는걸 방지하기 위한 토크나이저 설정(Tokenizer configuration to prevent surging loss values)

In [20]:
# tokenizer.pad_token = tokenizer.eos_token

# # 학습 진행 중 loss가 치솟다가 0.0으로 떨어지는 문제 해결을 위해 사용
tokenizer.padding_side = "right"

### 4) Prompt 설정(Prompt configuration)

- Prompt는 아래와 같음(The prompt is as follows.)
> \#\#\# System: content  
> \#\#\# Human: content  
> \#\#\# Assistant: content  

- Prompt에 맞춰서 Dataset을 재가공(Reprocessing the Dataset according to the Prompt)

In [21]:
def format_instruction(sample):
    system_prompt = f"### System: {sample['system_prompt']}"
    input = f"### Human: {sample['question']}" if len(sample["question"]) > 0 else None
    output = f"### Assistant\n{sample['response']}"
    # join all the parts together
    prompt = "\n\n".join([i for i in [system_prompt, input, output] if i is not None])
    return prompt

# template dataset to add prompt to each sample
def template_dataset(sample):
    sample["text"] = f"{format_instruction(sample)}{tokenizer.eos_token}"
    return sample

In [22]:
train_dataset = ko_instruction_01['train'].map(template_dataset, remove_columns=list(ko_instruction_01['train'].features), num_proc=10)

Map (num_proc=10):   0%|          | 0/112014 [00:00<?, ? examples/s]

In [23]:
# test_dataset = ko_instruction_01['test'].map(template_dataset, remove_columns=list(ko_instruction_01['test'].features), num_proc=10)

# 4. Configure Train arguments & Define Trainer

In [24]:
training_arguments = TrainingArguments(
    output_dir=checkpoint_dir,
    save_steps=200,
    save_total_limit=3, # 가장 최근 체크포인트 3개만 저장합니다.
    logging_steps=30,
    report_to="wandb",
    learning_rate=1e-5,
    max_grad_norm=0.3,
    num_train_epochs=3, # epochs 대신 max_steps을 기준으로 할 수 있습니다.
    warmup_ratio=0.01,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=1,
    optim="paged_adamw_32bit", # paged_adamw_8bit 사용시 메모리를 더 절약할 수 있지만 loss가 0으로 떨어지는 문제가 있습니다.
    group_by_length=True,
    fp16 = False, # 코랩 무료버전에서 실행 시 "True"를 사용하세요
    bf16 = True, # 코랩 무료버전에서 실행 시 "False"를 사용하세요
    lr_scheduler_type="cosine",
)

trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    peft_config=peft_config,
    dataset_text_field="text",
    max_seq_length=1024,
    tokenizer=tokenizer,
    args=training_arguments,
    packing=False,
)

Map:   0%|          | 0/112014 [00:00<?, ? examples/s]

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [25]:
trainer.train()


  0%|          | 0/336042 [00:00<?, ?it/s]

{'loss': 2.9502, 'grad_norm': 0.41015625, 'learning_rate': 8.925914906277894e-08, 'epoch': 0.0}
{'loss': 3.667, 'grad_norm': 0.314453125, 'learning_rate': 1.7851829812555787e-07, 'epoch': 0.0}
{'loss': 3.4188, 'grad_norm': 0.462890625, 'learning_rate': 2.677774471883368e-07, 'epoch': 0.0}
{'loss': 3.3953, 'grad_norm': 0.353515625, 'learning_rate': 3.5703659625111574e-07, 'epoch': 0.0}
{'loss': 3.9255, 'grad_norm': 0.66796875, 'learning_rate': 4.462957453138947e-07, 'epoch': 0.0}
{'loss': 3.3231, 'grad_norm': 0.443359375, 'learning_rate': 5.355548943766736e-07, 'epoch': 0.0}
{'loss': 3.8258, 'grad_norm': 0.234375, 'learning_rate': 6.248140434394526e-07, 'epoch': 0.0}
{'loss': 3.205, 'grad_norm': 0.3828125, 'learning_rate': 7.140731925022315e-07, 'epoch': 0.0}
{'loss': 3.4737, 'grad_norm': 0.2890625, 'learning_rate': 8.033323415650105e-07, 'epoch': 0.0}
{'loss': 3.8961, 'grad_norm': 0.921875, 'learning_rate': 8.925914906277894e-07, 'epoch': 0.0}
{'loss': 3.112, 'grad_norm': 0.53125, 'lea


Internal Error - We're working hard to fix this as soon as possible! - silently ignoring the lookup for the file config.json in beomi/llama-2-ko-7b.


{'loss': 1.575, 'grad_norm': 1.0390625, 'learning_rate': 2.637309564664906e-06, 'epoch': 1.98}
{'loss': 1.6007, 'grad_norm': 2.546875, 'learning_rate': 2.6360612934284358e-06, 'epoch': 1.98}
{'loss': 1.5998, 'grad_norm': 1.65625, 'learning_rate': 2.6348132119160487e-06, 'epoch': 1.98}
{'loss': 1.6536, 'grad_norm': 3.265625, 'learning_rate': 2.633565320227914e-06, 'epoch': 1.98}
{'loss': 1.7369, 'grad_norm': 1.9296875, 'learning_rate': 2.6323176184641875e-06, 'epoch': 1.98}
{'loss': 1.8001, 'grad_norm': 1.6328125, 'learning_rate': 2.631070106725001e-06, 'epoch': 1.98}
{'loss': 1.7005, 'grad_norm': 4.1875, 'learning_rate': 2.629822785110484e-06, 'epoch': 1.98}
{'loss': 1.6763, 'grad_norm': 1.3984375, 'learning_rate': 2.6285756537207397e-06, 'epoch': 1.98}
{'loss': 1.6574, 'grad_norm': 4.15625, 'learning_rate': 2.6273287126558565e-06, 'epoch': 1.98}
{'loss': 1.6792, 'grad_norm': 2.25, 'learning_rate': 2.6260819620159184e-06, 'epoch': 1.98}
{'loss': 1.7636, 'grad_norm': 1.1953125, 'learnin



{'loss': 1.5909, 'grad_norm': 0.984375, 'learning_rate': 1.9404855272255352e-06, 'epoch': 2.14}
{'loss': 1.8561, 'grad_norm': 3.296875, 'learning_rate': 1.9393653024545295e-06, 'epoch': 2.14}
{'loss': 1.8001, 'grad_norm': 1.21875, 'learning_rate': 1.9382453233227684e-06, 'epoch': 2.14}
{'loss': 1.5686, 'grad_norm': 4.375, 'learning_rate': 1.9371255899201395e-06, 'epoch': 2.14}
{'loss': 1.6714, 'grad_norm': 1.8671875, 'learning_rate': 1.936006102336508e-06, 'epoch': 2.14}
{'loss': 1.667, 'grad_norm': 1.7109375, 'learning_rate': 1.934886860661722e-06, 'epoch': 2.14}




{'loss': 1.7602, 'grad_norm': 1.5625, 'learning_rate': 1.9337678649856096e-06, 'epoch': 2.14}
{'loss': 1.5984, 'grad_norm': 1.84375, 'learning_rate': 1.9326491153979804e-06, 'epoch': 2.14}
{'loss': 1.6752, 'grad_norm': 4.78125, 'learning_rate': 1.931530611988619e-06, 'epoch': 2.14}
{'loss': 1.5384, 'grad_norm': 3.015625, 'learning_rate': 1.9304123548472954e-06, 'epoch': 2.14}
{'loss': 1.6533, 'grad_norm': 1.046875, 'learning_rate': 1.9292943440637605e-06, 'epoch': 2.14}
{'loss': 1.7176, 'grad_norm': 4.21875, 'learning_rate': 1.9281765797277375e-06, 'epoch': 2.14}
{'loss': 1.5956, 'grad_norm': 1.1875, 'learning_rate': 1.9270590619289425e-06, 'epoch': 2.14}




{'loss': 1.7227, 'grad_norm': 2.71875, 'learning_rate': 1.92594179075706e-06, 'epoch': 2.14}
{'loss': 1.7136, 'grad_norm': 2.5, 'learning_rate': 1.9248247663017606e-06, 'epoch': 2.14}
{'loss': 1.5935, 'grad_norm': 0.93359375, 'learning_rate': 1.9237079886526966e-06, 'epoch': 2.14}
{'loss': 1.694, 'grad_norm': 2.828125, 'learning_rate': 1.9225914578994938e-06, 'epoch': 2.14}
{'loss': 1.6204, 'grad_norm': 1.5625, 'learning_rate': 1.9214751741317637e-06, 'epoch': 2.14}
{'loss': 1.7341, 'grad_norm': 4.46875, 'learning_rate': 1.9203591374390995e-06, 'epoch': 2.14}
{'loss': 1.5881, 'grad_norm': 1.9453125, 'learning_rate': 1.9192433479110674e-06, 'epoch': 2.14}
{'loss': 1.5692, 'grad_norm': 1.625, 'learning_rate': 1.9181278056372194e-06, 'epoch': 2.14}
{'loss': 1.6432, 'grad_norm': 2.109375, 'learning_rate': 1.917012510707087e-06, 'epoch': 2.14}
{'loss': 1.6524, 'grad_norm': 2.328125, 'learning_rate': 1.9158974632101823e-06, 'epoch': 2.14}
{'loss': 1.8345, 'grad_norm': 7.09375, 'learning_rate



{'loss': 1.753, 'grad_norm': 1.7890625, 'learning_rate': 1.895869021270999e-06, 'epoch': 2.15}
{'loss': 1.7011, 'grad_norm': 2.875, 'learning_rate': 1.8947586919860074e-06, 'epoch': 2.15}
{'loss': 1.6917, 'grad_norm': 3.171875, 'learning_rate': 1.893648611920284e-06, 'epoch': 2.15}
{'loss': 1.6719, 'grad_norm': 3.1875, 'learning_rate': 1.8925387811629175e-06, 'epoch': 2.15}
{'loss': 1.7693, 'grad_norm': 2.0625, 'learning_rate': 1.8914291998029772e-06, 'epoch': 2.15}
{'loss': 1.6347, 'grad_norm': 1.078125, 'learning_rate': 1.8903198679295216e-06, 'epoch': 2.15}




{'loss': 1.7388, 'grad_norm': 2.546875, 'learning_rate': 1.8892107856315784e-06, 'epoch': 2.15}
{'loss': 1.6399, 'grad_norm': 2.859375, 'learning_rate': 1.8881019529981621e-06, 'epoch': 2.15}
{'loss': 1.7962, 'grad_norm': 3.015625, 'learning_rate': 1.8869933701182657e-06, 'epoch': 2.15}
{'loss': 1.8749, 'grad_norm': 1.7421875, 'learning_rate': 1.8858850370808585e-06, 'epoch': 2.15}
{'loss': 1.7172, 'grad_norm': 1.15625, 'learning_rate': 1.8847769539748946e-06, 'epoch': 2.15}
{'loss': 1.8231, 'grad_norm': 3.546875, 'learning_rate': 1.8836691208893059e-06, 'epoch': 2.15}
{'loss': 1.6159, 'grad_norm': 3.0, 'learning_rate': 1.8825615379130057e-06, 'epoch': 2.15}




{'loss': 1.6332, 'grad_norm': 3.546875, 'learning_rate': 1.8814542051348833e-06, 'epoch': 2.15}
{'loss': 1.6764, 'grad_norm': 2.296875, 'learning_rate': 1.8803471226438114e-06, 'epoch': 2.15}
{'loss': 1.6954, 'grad_norm': 0.83203125, 'learning_rate': 1.8792402905286445e-06, 'epoch': 2.15}
{'loss': 1.9229, 'grad_norm': 2.46875, 'learning_rate': 1.8781337088782086e-06, 'epoch': 2.15}
{'loss': 1.6669, 'grad_norm': 1.6875, 'learning_rate': 1.8770273777813225e-06, 'epoch': 2.15}
{'loss': 1.7568, 'grad_norm': 2.84375, 'learning_rate': 1.8759212973267738e-06, 'epoch': 2.15}
{'loss': 1.7225, 'grad_norm': 3.234375, 'learning_rate': 1.8748154676033303e-06, 'epoch': 2.15}




{'loss': 1.6182, 'grad_norm': 1.3046875, 'learning_rate': 1.8737098886997513e-06, 'epoch': 2.15}
{'loss': 1.7812, 'grad_norm': 2.34375, 'learning_rate': 1.8726045607047616e-06, 'epoch': 2.15}
{'loss': 1.7222, 'grad_norm': 1.859375, 'learning_rate': 1.8714994837070744e-06, 'epoch': 2.15}
{'loss': 1.7049, 'grad_norm': 3.0, 'learning_rate': 1.8703946577953818e-06, 'epoch': 2.15}
{'loss': 1.599, 'grad_norm': 1.90625, 'learning_rate': 1.8692900830583516e-06, 'epoch': 2.15}
{'loss': 1.6458, 'grad_norm': 1.1328125, 'learning_rate': 1.8681857595846364e-06, 'epoch': 2.15}




{'loss': 1.7086, 'grad_norm': 3.609375, 'learning_rate': 1.8670816874628656e-06, 'epoch': 2.16}
{'loss': 1.8001, 'grad_norm': 2.109375, 'learning_rate': 1.8659778667816513e-06, 'epoch': 2.16}
{'loss': 1.697, 'grad_norm': 4.03125, 'learning_rate': 1.864874297629581e-06, 'epoch': 2.16}
{'loss': 1.6566, 'grad_norm': 2.015625, 'learning_rate': 1.8637709800952247e-06, 'epoch': 2.16}
{'loss': 1.7073, 'grad_norm': 1.2734375, 'learning_rate': 1.8626679142671356e-06, 'epoch': 2.16}
{'loss': 1.8489, 'grad_norm': 2.21875, 'learning_rate': 1.861565100233838e-06, 'epoch': 2.16}
{'loss': 1.578, 'grad_norm': 1.703125, 'learning_rate': 1.8604625380838436e-06, 'epoch': 2.16}




{'loss': 1.7522, 'grad_norm': 3.09375, 'learning_rate': 1.8593602279056438e-06, 'epoch': 2.16}
{'loss': 1.7788, 'grad_norm': 1.9609375, 'learning_rate': 1.858258169787701e-06, 'epoch': 2.16}
{'loss': 1.6473, 'grad_norm': 1.6796875, 'learning_rate': 1.8571563638184714e-06, 'epoch': 2.16}
{'loss': 1.7496, 'grad_norm': 2.59375, 'learning_rate': 1.856054810086378e-06, 'epoch': 2.16}
{'loss': 1.6369, 'grad_norm': 1.921875, 'learning_rate': 1.8549535086798303e-06, 'epoch': 2.16}
{'loss': 1.6188, 'grad_norm': 3.28125, 'learning_rate': 1.8538524596872181e-06, 'epoch': 2.16}
{'loss': 1.7432, 'grad_norm': 2.390625, 'learning_rate': 1.8527516631969055e-06, 'epoch': 2.16}




{'loss': 1.6193, 'grad_norm': 1.1015625, 'learning_rate': 1.8516511192972415e-06, 'epoch': 2.16}
{'loss': 1.7369, 'grad_norm': 2.4375, 'learning_rate': 1.8505508280765532e-06, 'epoch': 2.16}
{'loss': 1.7264, 'grad_norm': 1.5078125, 'learning_rate': 1.849450789623149e-06, 'epoch': 2.16}
{'loss': 1.7565, 'grad_norm': 7.375, 'learning_rate': 1.8483510040253122e-06, 'epoch': 2.16}
{'loss': 1.5864, 'grad_norm': 2.296875, 'learning_rate': 1.8472514713713101e-06, 'epoch': 2.16}
{'loss': 1.7177, 'grad_norm': 1.3984375, 'learning_rate': 1.8461521917493907e-06, 'epoch': 2.16}




{'loss': 1.5546, 'grad_norm': 2.703125, 'learning_rate': 1.845053165247776e-06, 'epoch': 2.16}
{'loss': 1.7298, 'grad_norm': 2.203125, 'learning_rate': 1.8439543919546731e-06, 'epoch': 2.16}
{'loss': 1.6401, 'grad_norm': 4.53125, 'learning_rate': 1.8428558719582684e-06, 'epoch': 2.16}
{'loss': 1.8007, 'grad_norm': 2.6875, 'learning_rate': 1.8417576053467219e-06, 'epoch': 2.16}
{'loss': 1.6929, 'grad_norm': 1.03125, 'learning_rate': 1.8406595922081844e-06, 'epoch': 2.16}
{'loss': 1.7709, 'grad_norm': 2.828125, 'learning_rate': 1.839561832630774e-06, 'epoch': 2.16}
{'loss': 1.5139, 'grad_norm': 2.046875, 'learning_rate': 1.838464326702597e-06, 'epoch': 2.16}




{'loss': 1.6753, 'grad_norm': 2.59375, 'learning_rate': 1.8373670745117379e-06, 'epoch': 2.16}
{'loss': 1.6531, 'grad_norm': 1.609375, 'learning_rate': 1.8362700761462559e-06, 'epoch': 2.16}
{'loss': 1.6082, 'grad_norm': 1.4453125, 'learning_rate': 1.8351733316941955e-06, 'epoch': 2.16}
{'loss': 1.5308, 'grad_norm': 2.96875, 'learning_rate': 1.8340768412435788e-06, 'epoch': 2.16}
{'loss': 1.5857, 'grad_norm': 1.3515625, 'learning_rate': 1.8329806048824089e-06, 'epoch': 2.16}
{'loss': 1.6857, 'grad_norm': 2.875, 'learning_rate': 1.8318846226986642e-06, 'epoch': 2.16}
{'loss': 1.7824, 'grad_norm': 2.140625, 'learning_rate': 1.8307888947803071e-06, 'epoch': 2.16}




{'loss': 1.7357, 'grad_norm': 1.328125, 'learning_rate': 1.8296934212152796e-06, 'epoch': 2.16}
{'loss': 1.5794, 'grad_norm': 2.53125, 'learning_rate': 1.8285982020914984e-06, 'epoch': 2.16}
{'loss': 1.5714, 'grad_norm': 1.4453125, 'learning_rate': 1.8275032374968654e-06, 'epoch': 2.16}
{'loss': 1.6891, 'grad_norm': 3.609375, 'learning_rate': 1.8264085275192612e-06, 'epoch': 2.17}
{'loss': 1.7495, 'grad_norm': 1.984375, 'learning_rate': 1.825314072246539e-06, 'epoch': 2.17}
{'loss': 1.603, 'grad_norm': 1.171875, 'learning_rate': 1.824219871766545e-06, 'epoch': 2.17}




{'loss': 1.7438, 'grad_norm': 1.84375, 'learning_rate': 1.8231259261670908e-06, 'epoch': 2.17}
{'loss': 1.6885, 'grad_norm': 1.578125, 'learning_rate': 1.8220322355359764e-06, 'epoch': 2.17}
{'loss': 1.6532, 'grad_norm': 3.9375, 'learning_rate': 1.8209387999609811e-06, 'epoch': 2.17}
{'loss': 1.7036, 'grad_norm': 1.71875, 'learning_rate': 1.819845619529857e-06, 'epoch': 2.17}
{'loss': 1.6096, 'grad_norm': 1.3515625, 'learning_rate': 1.8187526943303418e-06, 'epoch': 2.17}
{'loss': 1.8875, 'grad_norm': 2.453125, 'learning_rate': 1.817660024450153e-06, 'epoch': 2.17}
{'loss': 1.5583, 'grad_norm': 1.765625, 'learning_rate': 1.816567609976983e-06, 'epoch': 2.17}




{'loss': 1.6444, 'grad_norm': 3.453125, 'learning_rate': 1.8154754509985067e-06, 'epoch': 2.17}
{'loss': 1.6995, 'grad_norm': 2.9375, 'learning_rate': 1.8143835476023796e-06, 'epoch': 2.17}
{'loss': 1.5478, 'grad_norm': 1.265625, 'learning_rate': 1.8132918998762361e-06, 'epoch': 2.17}
{'loss': 1.7, 'grad_norm': 2.3125, 'learning_rate': 1.812200507907686e-06, 'epoch': 2.17}
{'loss': 1.591, 'grad_norm': 1.578125, 'learning_rate': 1.8111093717843236e-06, 'epoch': 2.17}
{'loss': 1.8043, 'grad_norm': 3.640625, 'learning_rate': 1.810018491593723e-06, 'epoch': 2.17}
{'loss': 1.7272, 'grad_norm': 1.5, 'learning_rate': 1.8089278674234296e-06, 'epoch': 2.17}




{'loss': 1.7483, 'grad_norm': 1.734375, 'learning_rate': 1.8078374993609816e-06, 'epoch': 2.17}
{'loss': 1.7175, 'grad_norm': 3.296875, 'learning_rate': 1.8067473874938846e-06, 'epoch': 2.17}
{'loss': 1.8087, 'grad_norm': 1.5234375, 'learning_rate': 1.8056575319096292e-06, 'epoch': 2.17}
{'loss': 1.7464, 'grad_norm': 2.453125, 'learning_rate': 1.8045679326956872e-06, 'epoch': 2.17}
{'loss': 1.6544, 'grad_norm': 1.5625, 'learning_rate': 1.8034785899395034e-06, 'epoch': 2.17}
{'loss': 1.7045, 'grad_norm': 1.140625, 'learning_rate': 1.8023895037285077e-06, 'epoch': 2.17}




{'loss': 1.7456, 'grad_norm': 2.015625, 'learning_rate': 1.8013006741501094e-06, 'epoch': 2.17}
{'loss': 1.6799, 'grad_norm': 2.109375, 'learning_rate': 1.8002121012916911e-06, 'epoch': 2.17}
{'loss': 1.7413, 'grad_norm': 3.0625, 'learning_rate': 1.7991237852406218e-06, 'epoch': 2.17}
{'loss': 1.6736, 'grad_norm': 1.984375, 'learning_rate': 1.7980357260842467e-06, 'epoch': 2.17}
{'loss': 1.5598, 'grad_norm': 2.453125, 'learning_rate': 1.7969479239098925e-06, 'epoch': 2.17}
{'loss': 1.6129, 'grad_norm': 3.703125, 'learning_rate': 1.7958603788048605e-06, 'epoch': 2.17}
{'loss': 1.6703, 'grad_norm': 2.015625, 'learning_rate': 1.7947730908564358e-06, 'epoch': 2.17}




{'loss': 1.7192, 'grad_norm': 3.140625, 'learning_rate': 1.7936860601518835e-06, 'epoch': 2.17}
{'loss': 1.6773, 'grad_norm': 2.59375, 'learning_rate': 1.7925992867784408e-06, 'epoch': 2.17}
{'loss': 1.5067, 'grad_norm': 1.6484375, 'learning_rate': 1.791512770823337e-06, 'epoch': 2.17}
{'loss': 1.6324, 'grad_norm': 3.03125, 'learning_rate': 1.7904265123737673e-06, 'epoch': 2.17}
{'loss': 1.7149, 'grad_norm': 1.6484375, 'learning_rate': 1.7893405115169138e-06, 'epoch': 2.17}
{'loss': 1.7493, 'grad_norm': 4.75, 'learning_rate': 1.7882547683399392e-06, 'epoch': 2.17}
{'loss': 1.5539, 'grad_norm': 1.453125, 'learning_rate': 1.787169282929978e-06, 'epoch': 2.17}




{'loss': 1.6079, 'grad_norm': 2.40625, 'learning_rate': 1.7860840553741516e-06, 'epoch': 2.17}
{'loss': 1.6289, 'grad_norm': 2.5, 'learning_rate': 1.7849990857595578e-06, 'epoch': 2.18}
{'loss': 1.6414, 'grad_norm': 1.4921875, 'learning_rate': 1.7839143741732723e-06, 'epoch': 2.18}
{'loss': 1.7694, 'grad_norm': 4.78125, 'learning_rate': 1.7828299207023515e-06, 'epoch': 2.18}
{'loss': 1.7902, 'grad_norm': 1.84375, 'learning_rate': 1.7817457254338316e-06, 'epoch': 2.18}
{'loss': 1.5906, 'grad_norm': 1.453125, 'learning_rate': 1.7806617884547295e-06, 'epoch': 2.18}




{'loss': 1.7394, 'grad_norm': 2.234375, 'learning_rate': 1.779578109852036e-06, 'epoch': 2.18}
{'loss': 1.617, 'grad_norm': 1.265625, 'learning_rate': 1.7784946897127258e-06, 'epoch': 2.18}
{'loss': 1.7, 'grad_norm': 2.875, 'learning_rate': 1.777411528123754e-06, 'epoch': 2.18}
{'loss': 1.751, 'grad_norm': 2.25, 'learning_rate': 1.7763286251720468e-06, 'epoch': 2.18}
{'loss': 1.5055, 'grad_norm': 1.0625, 'learning_rate': 1.7752459809445227e-06, 'epoch': 2.18}
{'loss': 1.7937, 'grad_norm': 3.03125, 'learning_rate': 1.7741635955280677e-06, 'epoch': 2.18}
{'loss': 1.7938, 'grad_norm': 1.859375, 'learning_rate': 1.77308146900955e-06, 'epoch': 2.18}




{'loss': 1.7867, 'grad_norm': 2.28125, 'learning_rate': 1.7719996014758234e-06, 'epoch': 2.18}
{'loss': 1.7172, 'grad_norm': 3.75, 'learning_rate': 1.7709179930137122e-06, 'epoch': 2.18}
{'loss': 1.6111, 'grad_norm': 1.9453125, 'learning_rate': 1.7698366437100245e-06, 'epoch': 2.18}
{'loss': 1.7108, 'grad_norm': 2.390625, 'learning_rate': 1.7687555536515489e-06, 'epoch': 2.18}
{'loss': 1.7024, 'grad_norm': 2.640625, 'learning_rate': 1.7676747229250479e-06, 'epoch': 2.18}
{'loss': 1.5543, 'grad_norm': 3.21875, 'learning_rate': 1.766594151617268e-06, 'epoch': 2.18}
{'loss': 1.6342, 'grad_norm': 2.703125, 'learning_rate': 1.765513839814933e-06, 'epoch': 2.18}




{'loss': 1.5685, 'grad_norm': 1.828125, 'learning_rate': 1.7644337876047485e-06, 'epoch': 2.18}
{'loss': 1.7004, 'grad_norm': 3.859375, 'learning_rate': 1.7633539950733925e-06, 'epoch': 2.18}
{'loss': 1.5886, 'grad_norm': 1.6640625, 'learning_rate': 1.7622744623075294e-06, 'epoch': 2.18}
{'loss': 1.64, 'grad_norm': 4.09375, 'learning_rate': 1.7611951893938006e-06, 'epoch': 2.18}
{'loss': 1.7573, 'grad_norm': 1.9375, 'learning_rate': 1.760116176418822e-06, 'epoch': 2.18}
{'loss': 1.6413, 'grad_norm': 1.0546875, 'learning_rate': 1.7590374234691982e-06, 'epoch': 2.18}




{'loss': 1.7648, 'grad_norm': 2.96875, 'learning_rate': 1.7579589306315042e-06, 'epoch': 2.18}
{'loss': 1.6855, 'grad_norm': 1.3671875, 'learning_rate': 1.7568806979922947e-06, 'epoch': 2.18}
{'loss': 1.6829, 'grad_norm': 4.15625, 'learning_rate': 1.755802725638112e-06, 'epoch': 2.18}
{'loss': 1.7109, 'grad_norm': 2.0, 'learning_rate': 1.7547250136554672e-06, 'epoch': 2.18}
{'loss': 1.6413, 'grad_norm': 1.6171875, 'learning_rate': 1.7536475621308562e-06, 'epoch': 2.18}
{'loss': 1.8506, 'grad_norm': 3.03125, 'learning_rate': 1.752570371150754e-06, 'epoch': 2.18}
{'loss': 1.5317, 'grad_norm': 1.6640625, 'learning_rate': 1.751493440801611e-06, 'epoch': 2.18}




{'loss': 1.584, 'grad_norm': 3.203125, 'learning_rate': 1.75041677116986e-06, 'epoch': 2.18}
{'loss': 1.684, 'grad_norm': 2.609375, 'learning_rate': 1.749340362341912e-06, 'epoch': 2.18}
{'loss': 1.54, 'grad_norm': 1.1953125, 'learning_rate': 1.7482642144041584e-06, 'epoch': 2.18}
{'loss': 1.6307, 'grad_norm': 2.90625, 'learning_rate': 1.7471883274429657e-06, 'epoch': 2.18}
{'loss': 1.6229, 'grad_norm': 1.484375, 'learning_rate': 1.7461127015446832e-06, 'epoch': 2.18}
{'loss': 1.7989, 'grad_norm': 2.21875, 'learning_rate': 1.7450373367956398e-06, 'epoch': 2.19}
{'loss': 1.7473, 'grad_norm': 1.796875, 'learning_rate': 1.7439622332821383e-06, 'epoch': 2.19}




{'loss': 1.7979, 'grad_norm': 1.5078125, 'learning_rate': 1.7428873910904658e-06, 'epoch': 2.19}
{'loss': 1.6463, 'grad_norm': 2.78125, 'learning_rate': 1.7418128103068888e-06, 'epoch': 2.19}
{'loss': 1.6025, 'grad_norm': 1.578125, 'learning_rate': 1.740738491017644e-06, 'epoch': 2.19}
{'loss': 1.6083, 'grad_norm': 3.15625, 'learning_rate': 1.739664433308962e-06, 'epoch': 2.19}
{'loss': 1.7299, 'grad_norm': 1.84375, 'learning_rate': 1.738590637267038e-06, 'epoch': 2.19}
{'loss': 1.7129, 'grad_norm': 1.7890625, 'learning_rate': 1.7375171029780546e-06, 'epoch': 2.19}




{'loss': 1.5723, 'grad_norm': 2.875, 'learning_rate': 1.7364438305281722e-06, 'epoch': 2.19}
{'loss': 1.7236, 'grad_norm': 2.09375, 'learning_rate': 1.7353708200035268e-06, 'epoch': 2.19}
{'loss': 1.6029, 'grad_norm': 4.71875, 'learning_rate': 1.7342980714902364e-06, 'epoch': 2.19}
{'loss': 1.6378, 'grad_norm': 2.71875, 'learning_rate': 1.7332255850743974e-06, 'epoch': 2.19}
{'loss': 1.7054, 'grad_norm': 1.0625, 'learning_rate': 1.732153360842087e-06, 'epoch': 2.19}
{'loss': 1.7147, 'grad_norm': 3.1875, 'learning_rate': 1.7310813988793556e-06, 'epoch': 2.19}
{'loss': 1.7571, 'grad_norm': 1.703125, 'learning_rate': 1.7300096992722382e-06, 'epoch': 2.19}




{'loss': 1.704, 'grad_norm': 2.9375, 'learning_rate': 1.7289382621067486e-06, 'epoch': 2.19}
{'loss': 1.7224, 'grad_norm': 3.53125, 'learning_rate': 1.7278670874688742e-06, 'epoch': 2.19}
{'loss': 1.7016, 'grad_norm': 0.921875, 'learning_rate': 1.7267961754445868e-06, 'epoch': 2.19}
{'loss': 1.5898, 'grad_norm': 2.359375, 'learning_rate': 1.7257255261198369e-06, 'epoch': 2.19}
{'loss': 1.5151, 'grad_norm': 2.015625, 'learning_rate': 1.7246551395805473e-06, 'epoch': 2.19}
{'loss': 1.7064, 'grad_norm': 2.890625, 'learning_rate': 1.723585015912631e-06, 'epoch': 2.19}
{'loss': 1.723, 'grad_norm': 1.9140625, 'learning_rate': 1.7225151552019691e-06, 'epoch': 2.19}




{'loss': 1.591, 'grad_norm': 2.109375, 'learning_rate': 1.7214455575344275e-06, 'epoch': 2.19}
{'loss': 1.7931, 'grad_norm': 2.921875, 'learning_rate': 1.720376222995851e-06, 'epoch': 2.19}
{'loss': 1.5797, 'grad_norm': 2.875, 'learning_rate': 1.7193071516720588e-06, 'epoch': 2.19}
{'loss': 1.6994, 'grad_norm': 3.390625, 'learning_rate': 1.7182383436488537e-06, 'epoch': 2.19}
{'loss': 1.7071, 'grad_norm': 1.4765625, 'learning_rate': 1.7171697990120157e-06, 'epoch': 2.19}
{'loss': 1.6926, 'grad_norm': 1.2421875, 'learning_rate': 1.7161015178473051e-06, 'epoch': 2.19}




{'loss': 1.7325, 'grad_norm': 2.34375, 'learning_rate': 1.7150335002404562e-06, 'epoch': 2.19}
{'loss': 1.5508, 'grad_norm': 1.8046875, 'learning_rate': 1.7139657462771876e-06, 'epoch': 2.19}
{'loss': 1.673, 'grad_norm': 3.796875, 'learning_rate': 1.712898256043196e-06, 'epoch': 2.19}
{'loss': 1.7172, 'grad_norm': 1.7265625, 'learning_rate': 1.7118310296241524e-06, 'epoch': 2.19}
{'loss': 1.8303, 'grad_norm': 1.3046875, 'learning_rate': 1.7107640671057114e-06, 'epoch': 2.19}
{'loss': 1.669, 'grad_norm': 1.890625, 'learning_rate': 1.7096973685735068e-06, 'epoch': 2.19}
{'loss': 1.5892, 'grad_norm': 1.3125, 'learning_rate': 1.7086309341131441e-06, 'epoch': 2.19}




{'loss': 1.6852, 'grad_norm': 3.5, 'learning_rate': 1.7075647638102194e-06, 'epoch': 2.19}
{'loss': 1.7992, 'grad_norm': 1.8828125, 'learning_rate': 1.7064988577502961e-06, 'epoch': 2.19}
{'loss': 1.7679, 'grad_norm': 1.375, 'learning_rate': 1.7054332160189236e-06, 'epoch': 2.2}
{'loss': 1.6603, 'grad_norm': 2.8125, 'learning_rate': 1.7043678387016276e-06, 'epoch': 2.2}
{'loss': 1.7065, 'grad_norm': 1.359375, 'learning_rate': 1.7033027258839114e-06, 'epoch': 2.2}
{'loss': 1.653, 'grad_norm': 3.359375, 'learning_rate': 1.7022378776512593e-06, 'epoch': 2.2}
{'loss': 1.7228, 'grad_norm': 2.140625, 'learning_rate': 1.7011732940891346e-06, 'epoch': 2.2}




{'loss': 1.6004, 'grad_norm': 1.390625, 'learning_rate': 1.7001089752829758e-06, 'epoch': 2.2}
{'loss': 1.8481, 'grad_norm': 2.421875, 'learning_rate': 1.6990449213182036e-06, 'epoch': 2.2}
{'loss': 1.5995, 'grad_norm': 1.9765625, 'learning_rate': 1.697981132280217e-06, 'epoch': 2.2}
{'loss': 1.7036, 'grad_norm': 4.5, 'learning_rate': 1.6969176082543942e-06, 'epoch': 2.2}
{'loss': 1.6884, 'grad_norm': 2.0625, 'learning_rate': 1.6958543493260882e-06, 'epoch': 2.2}
{'loss': 1.7048, 'grad_norm': 1.15625, 'learning_rate': 1.694791355580635e-06, 'epoch': 2.2}




{'loss': 1.8634, 'grad_norm': 3.546875, 'learning_rate': 1.6937286271033505e-06, 'epoch': 2.2}
{'loss': 1.5882, 'grad_norm': 1.03125, 'learning_rate': 1.6926661639795206e-06, 'epoch': 2.2}
{'loss': 1.7041, 'grad_norm': 2.484375, 'learning_rate': 1.6916039662944227e-06, 'epoch': 2.2}
{'loss': 1.7047, 'grad_norm': 1.6875, 'learning_rate': 1.6905420341333028e-06, 'epoch': 2.2}
{'loss': 1.6848, 'grad_norm': 1.5703125, 'learning_rate': 1.6894803675813887e-06, 'epoch': 2.2}
{'loss': 1.7318, 'grad_norm': 3.96875, 'learning_rate': 1.6884189667238904e-06, 'epoch': 2.2}
{'loss': 1.6347, 'grad_norm': 1.421875, 'learning_rate': 1.6873578316459894e-06, 'epoch': 2.2}
{'loss': 1.6543, 'grad_norm': 3.09375, 'learning_rate': 1.6862969624328519e-06, 'epoch': 2.2}
{'loss': 1.6214, 'grad_norm': 1.9296875, 'learning_rate': 1.685236359169622e-06, 'epoch': 2.2}
{'loss': 1.6967, 'grad_norm': 1.9453125, 'learning_rate': 1.6841760219414177e-06, 'epoch': 2.2}
{'loss': 1.6951, 'grad_norm': 2.75, 'learning_rate': 



{'loss': 1.6468, 'grad_norm': 4.03125, 'learning_rate': 4.5079223264854475e-10, 'epoch': 2.99}
{'loss': 1.8126, 'grad_norm': 2.203125, 'learning_rate': 4.319723753626326e-10, 'epoch': 2.99}
{'loss': 1.763, 'grad_norm': 1.015625, 'learning_rate': 4.1355377148721845e-10, 'epoch': 2.99}
{'loss': 1.7711, 'grad_norm': 2.75, 'learning_rate': 3.9553642250167447e-10, 'epoch': 2.99}
{'loss': 1.7322, 'grad_norm': 2.390625, 'learning_rate': 3.7792032985151105e-10, 'epoch': 2.99}
{'loss': 1.6733, 'grad_norm': 3.46875, 'learning_rate': 3.6070549495059724e-10, 'epoch': 2.99}
{'loss': 1.6524, 'grad_norm': 1.71875, 'learning_rate': 3.438919191800505e-10, 'epoch': 2.99}




{'loss': 1.751, 'grad_norm': 1.8203125, 'learning_rate': 3.274796038904571e-10, 'epoch': 2.99}
{'loss': 1.8042, 'grad_norm': 4.4375, 'learning_rate': 3.114685503979864e-10, 'epoch': 2.99}
{'loss': 1.613, 'grad_norm': 1.5, 'learning_rate': 2.9585875998827674e-10, 'epoch': 2.99}
{'loss': 1.7539, 'grad_norm': 2.90625, 'learning_rate': 2.8065023391365964e-10, 'epoch': 2.99}
{'loss': 1.6733, 'grad_norm': 1.1796875, 'learning_rate': 2.6584297339538046e-10, 'epoch': 2.99}
{'loss': 1.6995, 'grad_norm': 1.8671875, 'learning_rate': 2.514369796208227e-10, 'epoch': 2.99}




{'loss': 1.7614, 'grad_norm': 2.890625, 'learning_rate': 2.374322537473939e-10, 'epoch': 2.99}
{'loss': 1.4789, 'grad_norm': 1.515625, 'learning_rate': 2.2382879689808456e-10, 'epoch': 2.99}
{'loss': 1.7598, 'grad_norm': 3.203125, 'learning_rate': 2.1062661016479914e-10, 'epoch': 2.99}
{'loss': 1.7143, 'grad_norm': 2.34375, 'learning_rate': 1.9782569460780054e-10, 'epoch': 2.99}
{'loss': 1.7145, 'grad_norm': 2.3125, 'learning_rate': 1.854260512540451e-10, 'epoch': 2.99}
{'loss': 1.7397, 'grad_norm': 2.03125, 'learning_rate': 1.7342768109829267e-10, 'epoch': 2.99}
{'loss': 1.6836, 'grad_norm': 3.265625, 'learning_rate': 1.618305851042168e-10, 'epoch': 2.99}




{'loss': 1.5453, 'grad_norm': 3.21875, 'learning_rate': 1.5063476420218438e-10, 'epoch': 2.99}
{'loss': 1.5915, 'grad_norm': 1.7578125, 'learning_rate': 1.3984021929092096e-10, 'epoch': 2.99}
{'loss': 1.599, 'grad_norm': 1.265625, 'learning_rate': 1.294469512364005e-10, 'epoch': 2.99}
{'loss': 1.865, 'grad_norm': 2.71875, 'learning_rate': 1.1945496087351072e-10, 'epoch': 2.99}
{'loss': 1.6364, 'grad_norm': 1.6015625, 'learning_rate': 1.0986424900327752e-10, 'epoch': 2.99}
{'loss': 1.6579, 'grad_norm': 5.03125, 'learning_rate': 1.0067481639564058e-10, 'epoch': 2.99}
{'loss': 1.7303, 'grad_norm': 1.921875, 'learning_rate': 9.188666378889821e-11, 'epoch': 2.99}




{'loss': 1.6807, 'grad_norm': 1.4140625, 'learning_rate': 8.349979188748691e-11, 'epoch': 2.99}
{'loss': 1.7065, 'grad_norm': 2.0, 'learning_rate': 7.551420136475696e-11, 'epoch': 2.99}
{'loss': 1.6486, 'grad_norm': 1.5078125, 'learning_rate': 6.792989286186213e-11, 'epoch': 3.0}
{'loss': 1.672, 'grad_norm': 2.921875, 'learning_rate': 6.074686698720467e-11, 'epoch': 3.0}
{'loss': 1.7011, 'grad_norm': 1.171875, 'learning_rate': 5.3965124317545414e-11, 'epoch': 3.0}
{'loss': 1.7507, 'grad_norm': 1.8828125, 'learning_rate': 4.7584665396893656e-11, 'epoch': 3.0}




{'loss': 1.7471, 'grad_norm': 3.15625, 'learning_rate': 4.160549073706221e-11, 'epoch': 3.0}
{'loss': 1.5907, 'grad_norm': 2.40625, 'learning_rate': 3.6027600818777654e-11, 'epoch': 3.0}
{'loss': 1.7505, 'grad_norm': 3.578125, 'learning_rate': 3.085099608945985e-11, 'epoch': 3.0}
{'loss': 1.676, 'grad_norm': 3.6875, 'learning_rate': 2.607567696377711e-11, 'epoch': 3.0}
{'loss': 1.7416, 'grad_norm': 1.265625, 'learning_rate': 2.1701643825866593e-11, 'epoch': 3.0}
{'loss': 1.7243, 'grad_norm': 2.34375, 'learning_rate': 1.772889702655878e-11, 'epoch': 3.0}
{'loss': 1.7103, 'grad_norm': 1.921875, 'learning_rate': 1.4157436884487675e-11, 'epoch': 3.0}




{'loss': 1.6454, 'grad_norm': 3.046875, 'learning_rate': 1.0987263686645933e-11, 'epoch': 3.0}
{'loss': 1.8438, 'grad_norm': 2.765625, 'learning_rate': 8.218377686719514e-12, 'epoch': 3.0}
{'loss': 1.6027, 'grad_norm': 1.1171875, 'learning_rate': 5.850779107863247e-12, 'epoch': 3.0}
{'loss': 1.773, 'grad_norm': 1.9140625, 'learning_rate': 3.8844681399252686e-12, 'epoch': 3.0}
{'loss': 1.6631, 'grad_norm': 1.8515625, 'learning_rate': 2.319444940002136e-12, 'epoch': 3.0}
{'loss': 1.6263, 'grad_norm': 5.1875, 'learning_rate': 1.155709634104163e-12, 'epoch': 3.0}
{'loss': 1.6632, 'grad_norm': 2.484375, 'learning_rate': 3.932623160451954e-13, 'epoch': 3.0}
{'loss': 1.6147, 'grad_norm': 2.09375, 'learning_rate': 3.210304633238792e-14, 'epoch': 3.0}
{'train_runtime': 130266.4907, 'train_samples_per_second': 2.58, 'train_steps_per_second': 2.58, 'train_loss': 1.707353885097414, 'epoch': 3.0}


TrainOutput(global_step=336042, training_loss=1.707353885097414, metrics={'train_runtime': 130266.4907, 'train_samples_per_second': 2.58, 'train_steps_per_second': 2.58, 'train_loss': 1.707353885097414, 'epoch': 3.0})

### 허깅페이스에서 훈련 도중 러닝레이트가 수정 안되는 경우가 많다 한다. 
- 스케쥴러 변경을 시도해 보기로 한다. 

In [26]:
output_dir = "./results/experi_02"

In [27]:
trainer.model.save_pretrained(output_dir)

