In [None]:
%pip install einops
%pip install peft
%pip install trl
%pip install tensorboard
%pip install -U transformers
%pip install -U accelerate datasets 
%pip install -q https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.1-py3-none-win_amd64.whl
%pip install tokenizers==0.15.0
%pip install torch==2.1.2+cu121 --index-url https://download.pytorch.org/whl/cu121
%pip install torchaudio==2.1.2+cu121 --index-url https://download.pytorch.org/whl/cu121
%pip install torchvision==0.16.2+cu121 --index-url https://download.pytorch.org/whl/cu121
%pip install transformers==4.35.2
%pip install ipywidgets


In [168]:
import os
from dataclasses import dataclass, field
from typing import Optional
import json

import torch
from datasets import load_dataset
from peft import LoraConfig
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    AutoTokenizer,
    TrainingArguments,
    Trainer
)
from tqdm.notebook import tqdm

from trl import SFTTrainer

In [179]:
dataset = load_dataset("json", data_files="./2011_2023_event_des.json", field='data', split='all')
dataset = dataset.train_test_split(test_size=0.1)


Found cached dataset json (C:/Users/danm/.cache/huggingface/datasets/json/default-75cc6199393bf5a9/0.0.0/0f7e3662623656454fcd2b650f34e886a7db4b9104504885bd462096cc7a9f51)


In [170]:
dataset

DatasetDict({
    train: Dataset({
        features: ['train'],
        num_rows: 717166
    })
    test: Dataset({
        features: ['train'],
        num_rows: 79686
    })
})

In [183]:
tokenizer = AutoTokenizer.from_pretrained("../models/phi-2-mlb/tokenizer_merged", trust_remote_code=True)
tokenizer.pad_token = "<PAD>"

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [185]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_compute_dtype='float16',
    bnb_4bit_use_double_quant=False,
)

In [189]:
model = AutoModelForCausalLM.from_pretrained(
        "../models/phi-2", 
        quantization_config=bnb_config, 
        device_map = 'auto',
        trust_remote_code=True,
        use_auth_token=True,
    )
model.config.eos_token_id = tokenizer.eos_token_id

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [190]:
model.resize_token_embeddings(len(tokenizer))

Embedding(60359, 2560)

In [191]:
from peft import prepare_model_for_kbit_training, LoraConfig, get_peft_model

model = prepare_model_for_kbit_training(model, use_gradient_checkpointing=True) 

lora_config = LoraConfig(
    r=32, 
    lora_alpha=32, 
    target_modules = [ "q_proj", "k_proj", "v_proj", "dense" ],
    modules_to_save = ["lm_head", "embed_tokens"],
    lora_dropout=0.1, 
    bias="none", 
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)

model.config.use_cache = False

In [192]:
peft_config = LoraConfig(
    r=32,
    lora_alpha=64,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=['q_proj', 'k_proj', 'v_proj','dense','fc1','fc2',]
)

In [193]:
torch_device = "cuda" if torch.cuda.is_available() else "cpu"

In [17]:
if torch.cuda.device_count() > 1: # If more than 1 GPU
    model.is_parallelizable = True
    model.model_parallel = True

In [194]:
# dataset-specific parameters
bs=8    # batch size for training
bs_eval=16    # batch size for evaluation
ga_steps=16  # gradient accumulation steps
lr=0.00002  # learning rate
epochs=1

steps_per_epoch=len(dataset["train"])//(bs*ga_steps)

args = TrainingArguments(
    output_dir="../models/phi-2-mlb",
    per_device_train_batch_size=bs,
    per_device_eval_batch_size=bs_eval,
    evaluation_strategy="steps",
    logging_steps=1,
    eval_steps=steps_per_epoch//2,    # 2 evals per epoch
    save_steps=steps_per_epoch//100,
    save_total_limit=3,     # save once per epoch
    gradient_accumulation_steps=ga_steps,
    num_train_epochs=epochs,
    lr_scheduler_type="constant",
    optim="paged_adamw_32bit",      # val_loss will go nan with paged_adamw_8bit
    learning_rate=lr,
    group_by_length=False,
    bf16=True,        
    ddp_find_unused_parameters=False,
    
)



In [195]:
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset['train'],
    eval_dataset=dataset['test'],
    peft_config=lora_config,
    dataset_text_field="train",
    max_seq_length=2048,
    tokenizer=tokenizer,
    args=args,
    packing=False,
)

Map:   0%|          | 0/717166 [00:00<?, ? examples/s]

Map:   0%|          | 0/79686 [00:00<?, ? examples/s]

In [None]:
trainer.train(resume_from_checkpoint="../models/phi-2-mlb/checkpoint-1344")

In [196]:
trainer.train()

  0%|          | 0/5602 [00:00<?, ?it/s]

{'loss': 5.8374, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.8606, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.7135, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.6986, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.6031, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.6055, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.5103, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.4549, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.4295, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.3531, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.3036, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.2769, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.1592, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.142, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.1154, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 4.9963, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 5.0159, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 4.9626, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 4.



{'loss': 2.9528, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.8366, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.7526, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.8025, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.7565, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.684, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.6601, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.5837, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.5416, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.4728, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.4205, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.4418, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.3281, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.3345, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.2849, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.2055, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.2384, 'learning_rate': 2e-05, 'epoch': 0.01}
{'loss': 2.1677, 'learning_rate': 2e-05, 'epoch':



{'loss': 1.4622, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.4378, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.4544, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.4402, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.4213, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3582, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.4258, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3537, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3851, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.365, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3562, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3772, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3262, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.341, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3162, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.3055, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.2941, 'learning_rate': 2e-05, 'epoch': 0.02}
{'loss': 1.2623, 'learning_rate': 2e-05, 'epoch': 



{'loss': 1.1267, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.145, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.1173, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0815, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.1049, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.1107, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0863, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.1001, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.1014, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.1084, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0647, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0581, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.038, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0561, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.1022, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0859, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0389, 'learning_rate': 2e-05, 'epoch': 0.03}
{'loss': 1.0648, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.9589, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9551, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9303, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9766, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.975, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9192, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.93, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9517, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9025, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9212, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9775, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.962, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9339, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.927, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9266, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.936, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9065, 'learning_rate': 2e-05, 'epoch': 0.04}
{'loss': 0.9104, 'learning_rate': 2e-05, 'epoch': 0.04



{'loss': 0.856, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8727, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8636, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8451, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8975, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8592, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8466, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8351, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8695, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8195, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.847, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8406, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8308, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8007, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8356, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8633, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8394, 'learning_rate': 2e-05, 'epoch': 0.05}
{'loss': 0.8238, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.7786, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7495, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7838, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7744, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7536, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7531, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7794, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7752, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7833, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7645, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.795, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7476, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7693, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.758, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7616, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7766, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7635, 'learning_rate': 2e-05, 'epoch': 0.06}
{'loss': 0.7928, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.7244, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7183, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7128, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.6971, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7132, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7226, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7089, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7144, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7194, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.6908, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7305, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7166, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.677, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7051, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.6897, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.6785, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.711, 'learning_rate': 2e-05, 'epoch': 0.07}
{'loss': 0.7142, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.6775, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6652, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6676, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.653, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6736, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6543, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6757, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.681, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6718, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6726, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6533, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6416, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6452, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6493, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6761, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6532, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6741, 'learning_rate': 2e-05, 'epoch': 0.08}
{'loss': 0.6718, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.6158, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6228, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6195, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.5928, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6064, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6037, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6219, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6129, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6127, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6196, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6255, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6234, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6124, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6329, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6085, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6031, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.6067, 'learning_rate': 2e-05, 'epoch': 0.09}
{'loss': 0.592, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.5742, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5852, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5785, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5717, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5828, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.6077, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5826, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.588, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5851, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5691, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.6247, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5827, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5691, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5898, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5656, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.55, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5852, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.5591, 'learning_rate': 2e-05, 'epoch': 0.1}
{'loss': 0.57



{'loss': 0.5435, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5584, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5351, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5639, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5903, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5437, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5362, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5493, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5726, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5341, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5497, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.552, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5487, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5326, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5241, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.534, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.547, 'learning_rate': 2e-05, 'epoch': 0.11}
{'loss': 0.5601, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.5089, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5169, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5088, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5064, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.4918, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.52, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5204, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5226, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5103, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5205, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5022, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.517, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5288, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5089, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5021, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.502, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.4903, 'learning_rate': 2e-05, 'epoch': 0.12}
{'loss': 0.5214, 'learning_rate': 2e-05, 'epoch': 0.



{'loss': 0.5226, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4747, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4755, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4808, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4844, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4723, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4727, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.5087, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.5189, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4968, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.5082, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4986, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4808, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.5089, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4912, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.508, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4541, 'learning_rate': 2e-05, 'epoch': 0.13}
{'loss': 0.4867, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.4659, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4427, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4723, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4778, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4896, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4685, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4807, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4658, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4779, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4623, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4774, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4795, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4768, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4789, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.448, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4958, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4667, 'learning_rate': 2e-05, 'epoch': 0.14}
{'loss': 0.4919, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.4479, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4735, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4317, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4569, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4456, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4586, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4636, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4439, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4524, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4432, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4579, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4502, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4483, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4463, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4507, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4471, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4567, 'learning_rate': 2e-05, 'epoch': 0.15}
{'loss': 0.4353, 'learning_rate': 2e-05, 'epoch'



{'loss': 0.4248, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4287, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.424, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.463, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4282, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4176, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4407, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.432, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4257, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4524, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4379, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4427, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4464, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4183, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4163, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4361, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4118, 'learning_rate': 2e-05, 'epoch': 0.16}
{'loss': 0.4353, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.436, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4168, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4246, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4344, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.421, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4274, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.435, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.397, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.426, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4342, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.3998, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.431, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4081, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4146, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4105, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.3989, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4242, 'learning_rate': 2e-05, 'epoch': 0.17}
{'loss': 0.4339, 'learning_rate': 2e-05, 'epoch': 0.17



{'loss': 0.4096, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4162, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.407, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4191, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.3906, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4083, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4267, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4096, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4115, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4244, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.3909, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4014, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.421, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.3899, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.3948, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.3999, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.3946, 'learning_rate': 2e-05, 'epoch': 0.18}
{'loss': 0.4058, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.4247, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.3913, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.3797, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4164, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4001, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4076, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.3985, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4028, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4118, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.3827, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.3913, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4139, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4053, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4011, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4098, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4063, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.3982, 'learning_rate': 2e-05, 'epoch': 0.19}
{'loss': 0.4108, 'learning_rate': 2e-05, 'epoch'



{'loss': 0.4008, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3954, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3815, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3796, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.4011, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3897, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3908, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3932, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3839, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.379, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3785, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3801, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3731, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.4143, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3971, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3893, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3853, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.3728, 'learning_rate': 2e-05, 'epoch': 0.2}
{'loss': 0.



{'loss': 0.3848, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3805, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3831, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3839, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.376, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3685, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3834, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3911, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3749, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3743, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3723, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3791, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3746, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3769, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3827, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3771, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3892, 'learning_rate': 2e-05, 'epoch': 0.21}
{'loss': 0.3888, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3749, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3865, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3871, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.357, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3772, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3716, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3672, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3536, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3847, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3852, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.384, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3848, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3934, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3639, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.4069, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3842, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3817, 'learning_rate': 2e-05, 'epoch': 0.22}
{'loss': 0.3912, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.3684, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3624, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3697, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3561, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3779, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3634, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3764, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3623, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3783, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3645, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3833, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3703, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.364, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3691, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3771, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3845, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3542, 'learning_rate': 2e-05, 'epoch': 0.23}
{'loss': 0.3685, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3814, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3663, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3739, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3882, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3576, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3694, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3729, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3754, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3596, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3567, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.36, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3612, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3769, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3525, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3514, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3631, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3713, 'learning_rate': 2e-05, 'epoch': 0.24}
{'loss': 0.3644, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.358, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3678, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3532, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3535, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3737, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3606, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3469, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3394, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3586, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3649, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3751, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3683, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3587, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3609, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3613, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3626, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3724, 'learning_rate': 2e-05, 'epoch': 0.25}
{'loss': 0.3607, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3515, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3636, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.385, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3481, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3571, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3679, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3624, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3623, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3676, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3573, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3675, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.373, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3531, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3646, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.36, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3382, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3535, 'learning_rate': 2e-05, 'epoch': 0.26}
{'loss': 0.3596, 'learning_rate': 2e-05, 'epoch': 0.



{'loss': 0.3395, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3521, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3509, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3623, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3572, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3663, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3442, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3471, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3447, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3617, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3601, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.369, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.368, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3485, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3557, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3603, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3512, 'learning_rate': 2e-05, 'epoch': 0.27}
{'loss': 0.3734, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.3448, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3579, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3517, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3491, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3572, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3382, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3441, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3542, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3559, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3434, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3298, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3538, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.345, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3303, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3643, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3428, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3407, 'learning_rate': 2e-05, 'epoch': 0.28}
{'loss': 0.3479, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3524, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3368, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3389, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3598, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.346, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3375, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3551, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3228, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3613, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3518, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3523, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3357, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3374, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3293, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3408, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3439, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3505, 'learning_rate': 2e-05, 'epoch': 0.29}
{'loss': 0.3379, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3404, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3553, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3468, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3449, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3454, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3535, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3422, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3256, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3483, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3438, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3421, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3284, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3332, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3204, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3386, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3333, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3524, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0.3456, 'learning_rate': 2e-05, 'epoch': 0.3}
{'loss': 0



{'loss': 0.3331, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3397, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3284, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3333, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3251, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3349, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3345, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3466, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3391, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3673, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3311, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3401, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3559, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.341, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3591, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3423, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3448, 'learning_rate': 2e-05, 'epoch': 0.31}
{'loss': 0.3301, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3456, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3508, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3667, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.35, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3291, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3439, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3686, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3535, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3399, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3406, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3632, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3296, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3386, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.343, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.338, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3508, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.342, 'learning_rate': 2e-05, 'epoch': 0.32}
{'loss': 0.3316, 'learning_rate': 2e-05, 'epoch': 0.3



{'loss': 0.3344, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3361, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.329, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3523, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3307, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3429, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3633, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3436, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.346, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.342, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3519, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3518, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3219, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3379, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3326, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3408, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3428, 'learning_rate': 2e-05, 'epoch': 0.33}
{'loss': 0.3424, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.3281, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.331, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3357, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3279, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.33, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3351, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3198, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3366, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3463, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3312, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.33, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3331, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3324, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.335, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3338, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3566, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3357, 'learning_rate': 2e-05, 'epoch': 0.34}
{'loss': 0.3379, 'learning_rate': 2e-05, 'epoch': 0.34



{'loss': 0.3427, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3177, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3462, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3327, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3436, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3336, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3295, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3256, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3365, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3467, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3241, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3382, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3426, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3365, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3304, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3199, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3322, 'learning_rate': 2e-05, 'epoch': 0.35}
{'loss': 0.3212, 'learning_rate': 2e-05, 'epoch'



{'loss': 0.3484, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3278, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3346, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3291, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3271, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.336, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.334, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3309, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.337, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3301, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3277, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3431, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3419, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3204, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3216, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3235, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3312, 'learning_rate': 2e-05, 'epoch': 0.36}
{'loss': 0.3409, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.3283, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3474, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3225, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3142, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3317, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3375, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3211, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3356, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.333, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3313, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3145, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3173, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3323, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3381, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3088, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3281, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3326, 'learning_rate': 2e-05, 'epoch': 0.37}
{'loss': 0.3366, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3403, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3265, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3307, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3184, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3225, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3061, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.341, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3238, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3224, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3273, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3427, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3386, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3348, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3362, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3179, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3411, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3267, 'learning_rate': 2e-05, 'epoch': 0.38}
{'loss': 0.3167, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3244, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3237, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3369, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3161, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3333, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.35, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3264, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3372, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3243, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3409, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3204, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3282, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3238, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3429, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3333, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3312, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3279, 'learning_rate': 2e-05, 'epoch': 0.39}
{'loss': 0.3364, 'learning_rate': 2e-05, 'epoch': 



{'loss': 0.3288, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3242, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3274, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3214, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3193, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3366, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3152, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3225, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3143, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3259, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3261, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3269, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3346, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3289, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3239, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3359, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3307, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0.3272, 'learning_rate': 2e-05, 'epoch': 0.4}
{'loss': 0



{'loss': 0.331, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3372, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3066, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3198, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3197, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3085, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3173, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.338, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3302, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3398, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3184, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3134, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3149, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.319, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3288, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3077, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3037, 'learning_rate': 2e-05, 'epoch': 0.41}
{'loss': 0.3286, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.324, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.321, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3258, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3198, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3172, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3317, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.306, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3158, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3224, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.311, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3053, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3436, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3267, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3236, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3308, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3264, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3184, 'learning_rate': 2e-05, 'epoch': 0.42}
{'loss': 0.3151, 'learning_rate': 2e-05, 'epoch': 0.



{'loss': 0.3237, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3135, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3209, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3128, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3322, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3228, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3299, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3171, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3096, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3395, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3215, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3142, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3147, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3073, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3161, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.324, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.3196, 'learning_rate': 2e-05, 'epoch': 0.43}
{'loss': 0.2997, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3263, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3169, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3415, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3215, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3119, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3239, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3188, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3338, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3339, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3148, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3185, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3182, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3176, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3227, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3247, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3167, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.301, 'learning_rate': 2e-05, 'epoch': 0.44}
{'loss': 0.3259, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3329, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3138, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3233, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3344, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3124, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3205, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3183, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.2939, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3048, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3212, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3203, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3204, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3276, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3094, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.321, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3274, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3207, 'learning_rate': 2e-05, 'epoch': 0.45}
{'loss': 0.3158, 'learning_rate': 2e-05, 'epoch':



{'loss': 0.3113, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3071, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3172, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3367, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3223, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.322, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3215, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.2834, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3219, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3346, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3222, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3226, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3217, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3177, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3212, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.316, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.3093, 'learning_rate': 2e-05, 'epoch': 0.46}
{'loss': 0.307, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.3234, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3108, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3138, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3071, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3115, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3106, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.323, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.308, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.319, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.311, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3162, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.315, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3317, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.317, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3325, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3287, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3198, 'learning_rate': 2e-05, 'epoch': 0.47}
{'loss': 0.3104, 'learning_rate': 2e-05, 'epoch': 0.47



{'loss': 0.3083, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3127, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3259, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3116, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3131, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3299, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.305, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3132, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3172, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3054, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.304, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.329, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3188, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3088, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3178, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3151, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3175, 'learning_rate': 2e-05, 'epoch': 0.48}
{'loss': 0.3289, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.3286, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3311, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3184, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3121, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.32, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3103, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3122, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3156, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3144, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3187, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3172, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3113, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3179, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3073, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.309, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3206, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3107, 'learning_rate': 2e-05, 'epoch': 0.49}
{'loss': 0.3159, 'learning_rate': 2e-05, 'epoch': 0



{'loss': 0.3156, 'learning_rate': 2e-05, 'epoch': 0.5}


  0%|          | 0/4981 [00:00<?, ?it/s]

In [None]:
trainer.save_model("../models/phi-2-mlb/")

In [None]:
# 

In [148]:
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
from peft import PeftModel
import torch

# base model
base_path="../models/phi-2"  


# adapters: path to folder with adapter_model.safetensors
adapter_path="../models/phi-2-mlb/" 

# # where to save merged model
save_to="../models/phi-2-mlb/"       

generation_config = GenerationConfig(
    max_new_tokens=100, 
    temperature=0.7,
    top_p=0.1,
    top_k=40,
    repetition_penalty=1.18,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
)

# Load LoRA and merge
merged_model = PeftModel.from_pretrained(model, adapter_path)
merged_model = merged_model.merge_and_unload()

merged_model.save_pretrained(save_to, safe_serialization=True, max_shard_size='4GB')
tokenizer.save_pretrained(save_to)
generation_config.save_pretrained(save_to)



In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
from peft import PeftModel
import torch

model_path="../models/phi-2-mlb/"   

model = AutoModelForCausalLM.from_pretrained(
        model_path, 
        quantization_config=bnb_config, 
        device_map = 'auto',
        trust_remote_code=True,
        use_auth_token=True,
    )

model.config.eos_token_id = tokenizer.eos_token_id

prompt= "Instruct: what is the outcome of {\"input\": {\"pitcher\": {\"id\": 573204, \"name\": \"caleb thielbar\"}, \"batter\": {\"id\": 488726, \"name\": \"michael brantley\"}}}? \n"

input_tokens = tokenizer(prompt, return_tensors="pt").to("cuda")
output_tokens = model.generate(**input_tokens, max_new_tokens=128)

output = tokenizer.decode(
    output_tokens[0][len(input_tokens[0]):],
    skip_special_tokens=True
    )               

print(output)