In [1]:
# %pip install -q -U bitsandbytes
# %pip install -q -U git+https://github.com/huggingface/transformers.git
# %pip install -q -U git+https://github.com/huggingface/peft.git
# %pip install -q -U git+https://github.com/huggingface/accelerate.git
# %pip install -q -U trl

In [2]:
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
)
from peft import LoraConfig, prepare_model_for_kbit_training
from trl import SFTTrainer

In [3]:
peft_config = LoraConfig(
    lora_alpha=8,
    lora_dropout=0.1,
    r=8,
    bias="none",
    task_type="CAUSAL_LM",
)

In [4]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=False,
)

In [5]:
# Load the entire model on the GPU 0
device_map = {"": 0}

In [6]:
from datasets import Dataset
import pandas as pd

# Load the data using pandas
data_file = "../data/ARCSolver_core_puzzles_40000.json"
df = pd.read_json(data_file)

# Convert the pandas dataframe to a dataset
dataset = Dataset.from_pandas(df)

def generate_prompt(data_point):
    text = '<s>[INST] ' + data_point["instruction"] + ' [/INST] ' + str(data_point["output"]) + '</s>'
    return text

# add the "prompt" column in the dataset
text_column = [generate_prompt(data_point) for data_point in dataset]
dataset = dataset.add_column("prompt", text_column)

In [7]:
# Load base model
model_name = "../merged_models/merged_model_step_2"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map=device_map
)
model.config.use_cache = False
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

# Load LLaMA tokenizer
base_model_name = "mistralai/Mistral-7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(base_model_name, add_eos_token=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right" # Fix weird overflow issue with fp16 training

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]



In [8]:
per_device_train_batch_size = 1
gradient_accumulation_steps = 4
max_seq_length = 1250

new_adapter_name = "Finetuned_merge_002_v001"

output_dir = "../results/" + new_adapter_name

steps_per_epoch = len(dataset)//(per_device_train_batch_size*gradient_accumulation_steps)
print("Steps per epoch:", steps_per_epoch)

# Set training parameters
training_arguments = TrainingArguments(
    output_dir=output_dir,
    max_steps=4000,
    per_device_train_batch_size=per_device_train_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    optim="paged_adamw_8bit",
    save_strategy="steps",
    evaluation_strategy="no",
    save_steps=100,
    logging_steps=1,
    learning_rate=2e-4,
    fp16=True,
    warmup_steps=0.03,
    group_by_length=True,
    gradient_checkpointing=True,
)

# Set supervised fine-tuning parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,
    dataset_text_field="prompt",
    max_seq_length=max_seq_length,
    tokenizer=tokenizer,
    args=training_arguments,
)

Steps per epoch: 10000


Map:   0%|          | 0/40000 [00:00<?, ? examples/s]

In [9]:
# Train model
trainer.train()

  0%|          | 0/4000 [00:00<?, ?it/s]

You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'loss': 0.2846, 'learning_rate': 0.00019995149963624728, 'epoch': 0.0}
{'loss': 0.1598, 'learning_rate': 0.00019990149926124448, 'epoch': 0.0}
{'loss': 0.3198, 'learning_rate': 0.00019990149926124448, 'epoch': 0.0}
{'loss': 0.2965, 'learning_rate': 0.00019990149926124448, 'epoch': 0.0}
{'loss': 0.3331, 'learning_rate': 0.00019985149888624167, 'epoch': 0.0}
{'loss': 0.2985, 'learning_rate': 0.00019980149851123885, 'epoch': 0.0}
{'loss': 0.1823, 'learning_rate': 0.00019975149813623603, 'epoch': 0.0}
{'loss': 0.235, 'learning_rate': 0.00019970149776123324, 'epoch': 0.0}
{'loss': 0.2388, 'learning_rate': 0.00019965149738623042, 'epoch': 0.0}
{'loss': 0.1966, 'learning_rate': 0.0001996014970112276, 'epoch': 0.0}
{'loss': 0.214, 'learning_rate': 0.00019955149663622478, 'epoch': 0.0}
{'loss': 0.2331, 'learning_rate': 0.000199501496261222, 'epoch': 0.0}
{'loss': 0.1791, 'learning_rate': 0.00019945149588621917, 'epoch': 0.0}
{'loss': 0.1652, 'learning_rate': 0.00019940149551121635, 'epoch': 0.



{'loss': 0.1109, 'learning_rate': 0.00019515146363597728, 'epoch': 0.01}
{'loss': 0.1532, 'learning_rate': 0.00019510146326097446, 'epoch': 0.01}
{'loss': 0.101, 'learning_rate': 0.00019505146288597167, 'epoch': 0.01}
{'loss': 0.1583, 'learning_rate': 0.00019500146251096885, 'epoch': 0.01}
{'loss': 0.1059, 'learning_rate': 0.00019495146213596603, 'epoch': 0.01}
{'loss': 0.1259, 'learning_rate': 0.00019490146176096322, 'epoch': 0.01}
{'loss': 0.1133, 'learning_rate': 0.00019485146138596042, 'epoch': 0.01}
{'loss': 0.117, 'learning_rate': 0.0001948014610109576, 'epoch': 0.01}
{'loss': 0.1192, 'learning_rate': 0.0001947514606359548, 'epoch': 0.01}
{'loss': 0.1165, 'learning_rate': 0.00019470146026095197, 'epoch': 0.01}
{'loss': 0.1049, 'learning_rate': 0.00019465145988594918, 'epoch': 0.01}
{'loss': 0.0964, 'learning_rate': 0.00019460145951094636, 'epoch': 0.01}
{'loss': 0.1027, 'learning_rate': 0.00019455145913594354, 'epoch': 0.01}
{'loss': 0.1015, 'learning_rate': 0.0001945014587609407



{'loss': 0.0947, 'learning_rate': 0.00019015142613569604, 'epoch': 0.02}
{'loss': 0.1203, 'learning_rate': 0.00019010142576069322, 'epoch': 0.02}
{'loss': 0.0956, 'learning_rate': 0.0001900514253856904, 'epoch': 0.02}
{'loss': 0.0934, 'learning_rate': 0.0001900014250106876, 'epoch': 0.02}
{'loss': 0.1189, 'learning_rate': 0.0001899514246356848, 'epoch': 0.02}
{'loss': 0.1863, 'learning_rate': 0.00018990142426068198, 'epoch': 0.02}
{'loss': 0.1113, 'learning_rate': 0.00018985142388567916, 'epoch': 0.02}
{'loss': 0.1299, 'learning_rate': 0.00018980142351067637, 'epoch': 0.02}
{'loss': 0.1323, 'learning_rate': 0.00018975142313567355, 'epoch': 0.02}
{'loss': 0.1519, 'learning_rate': 0.00018970142276067073, 'epoch': 0.02}
{'loss': 0.1324, 'learning_rate': 0.0001896514223856679, 'epoch': 0.02}
{'loss': 0.1456, 'learning_rate': 0.00018960142201066512, 'epoch': 0.02}
{'loss': 0.1323, 'learning_rate': 0.00018955142163566227, 'epoch': 0.02}
{'loss': 0.2013, 'learning_rate': 0.0001895014212606594



{'loss': 0.149, 'learning_rate': 0.0001851513886354148, 'epoch': 0.03}
{'loss': 0.0892, 'learning_rate': 0.00018510138826041195, 'epoch': 0.03}
{'loss': 0.0979, 'learning_rate': 0.00018505138788540916, 'epoch': 0.03}
{'loss': 0.0753, 'learning_rate': 0.00018500138751040634, 'epoch': 0.03}
{'loss': 0.085, 'learning_rate': 0.00018495138713540355, 'epoch': 0.03}
{'loss': 0.1039, 'learning_rate': 0.0001849013867604007, 'epoch': 0.03}
{'loss': 0.1586, 'learning_rate': 0.00018485138638539792, 'epoch': 0.03}
{'loss': 0.1433, 'learning_rate': 0.0001848013860103951, 'epoch': 0.03}
{'loss': 0.1199, 'learning_rate': 0.0001847513856353923, 'epoch': 0.03}
{'loss': 0.1002, 'learning_rate': 0.00018470138526038946, 'epoch': 0.03}
{'loss': 0.108, 'learning_rate': 0.00018465138488538667, 'epoch': 0.03}
{'loss': 0.1456, 'learning_rate': 0.00018460138451038385, 'epoch': 0.03}
{'loss': 0.1116, 'learning_rate': 0.00018455138413538103, 'epoch': 0.03}
{'loss': 0.0895, 'learning_rate': 0.0001845013837603782, '



{'loss': 0.0971, 'learning_rate': 0.00018015135113513353, 'epoch': 0.04}
{'loss': 0.0826, 'learning_rate': 0.00018010135076013071, 'epoch': 0.04}
{'loss': 0.088, 'learning_rate': 0.0001800513503851279, 'epoch': 0.04}
{'loss': 0.0906, 'learning_rate': 0.0001800013500101251, 'epoch': 0.04}
{'loss': 0.0899, 'learning_rate': 0.00017995134963512229, 'epoch': 0.04}
{'loss': 0.1263, 'learning_rate': 0.00017990134926011947, 'epoch': 0.04}
{'loss': 0.1017, 'learning_rate': 0.00017985134888511665, 'epoch': 0.04}
{'loss': 0.1259, 'learning_rate': 0.00017980134851011386, 'epoch': 0.04}
{'loss': 0.1056, 'learning_rate': 0.00017975134813511104, 'epoch': 0.04}
{'loss': 0.1487, 'learning_rate': 0.00017970134776010822, 'epoch': 0.04}
{'loss': 0.1342, 'learning_rate': 0.0001796513473851054, 'epoch': 0.04}
{'loss': 0.1575, 'learning_rate': 0.00017960134701010258, 'epoch': 0.04}
{'loss': 0.1354, 'learning_rate': 0.0001795513466350998, 'epoch': 0.04}
{'loss': 0.1241, 'learning_rate': 0.00017950134626009697



{'loss': 0.0731, 'learning_rate': 0.0001751513136348523, 'epoch': 0.05}
{'loss': 0.1241, 'learning_rate': 0.00017510131325984947, 'epoch': 0.05}
{'loss': 0.0994, 'learning_rate': 0.00017505131288484665, 'epoch': 0.05}
{'loss': 0.1339, 'learning_rate': 0.00017500131250984384, 'epoch': 0.05}
{'loss': 0.099, 'learning_rate': 0.00017495131213484104, 'epoch': 0.05}
{'loss': 0.1113, 'learning_rate': 0.00017490131175983823, 'epoch': 0.05}
{'loss': 0.1049, 'learning_rate': 0.00017485131138483538, 'epoch': 0.05}
{'loss': 0.1288, 'learning_rate': 0.0001748013110098326, 'epoch': 0.05}
{'loss': 0.1253, 'learning_rate': 0.00017475131063482977, 'epoch': 0.05}
{'loss': 0.1186, 'learning_rate': 0.00017470131025982698, 'epoch': 0.05}
{'loss': 0.1151, 'learning_rate': 0.00017465130988482413, 'epoch': 0.05}
{'loss': 0.0894, 'learning_rate': 0.00017460130950982134, 'epoch': 0.05}
{'loss': 0.1524, 'learning_rate': 0.00017455130913481852, 'epoch': 0.05}
{'loss': 0.1489, 'learning_rate': 0.000174501308759815



{'loss': 0.0881, 'learning_rate': 0.00017015127613457102, 'epoch': 0.06}
{'loss': 0.1235, 'learning_rate': 0.00017010127575956823, 'epoch': 0.06}
{'loss': 0.1091, 'learning_rate': 0.00017005127538456541, 'epoch': 0.06}
{'loss': 0.106, 'learning_rate': 0.0001700012750095626, 'epoch': 0.06}
{'loss': 0.1048, 'learning_rate': 0.00016995127463455978, 'epoch': 0.06}
{'loss': 0.1113, 'learning_rate': 0.00016990127425955696, 'epoch': 0.06}
{'loss': 0.1156, 'learning_rate': 0.00016985127388455414, 'epoch': 0.06}
{'loss': 0.0969, 'learning_rate': 0.00016980127350955132, 'epoch': 0.06}
{'loss': 0.0779, 'learning_rate': 0.00016975127313454853, 'epoch': 0.06}
{'loss': 0.109, 'learning_rate': 0.0001697012727595457, 'epoch': 0.06}
{'loss': 0.0968, 'learning_rate': 0.0001696512723845429, 'epoch': 0.06}
{'loss': 0.1351, 'learning_rate': 0.00016960127200954007, 'epoch': 0.06}
{'loss': 0.1354, 'learning_rate': 0.00016955127163453728, 'epoch': 0.06}
{'loss': 0.1355, 'learning_rate': 0.00016950127125953446



{'loss': 0.0796, 'learning_rate': 0.00016515123863428978, 'epoch': 0.07}
{'loss': 0.1245, 'learning_rate': 0.00016510123825928696, 'epoch': 0.07}
{'loss': 0.0854, 'learning_rate': 0.00016505123788428415, 'epoch': 0.07}
{'loss': 0.0948, 'learning_rate': 0.00016500123750928133, 'epoch': 0.07}
{'loss': 0.119, 'learning_rate': 0.0001649512371342785, 'epoch': 0.07}
{'loss': 0.105, 'learning_rate': 0.00016490123675927572, 'epoch': 0.07}
{'loss': 0.1345, 'learning_rate': 0.0001648512363842729, 'epoch': 0.07}
{'loss': 0.112, 'learning_rate': 0.00016480123600927008, 'epoch': 0.07}
{'loss': 0.0949, 'learning_rate': 0.00016475123563426726, 'epoch': 0.07}
{'loss': 0.1032, 'learning_rate': 0.00016470123525926447, 'epoch': 0.07}
{'loss': 0.1108, 'learning_rate': 0.00016465123488426165, 'epoch': 0.07}
{'loss': 0.1613, 'learning_rate': 0.00016460123450925883, 'epoch': 0.07}
{'loss': 0.1136, 'learning_rate': 0.00016455123413425601, 'epoch': 0.07}
{'loss': 0.0946, 'learning_rate': 0.00016450123375925322



{'loss': 0.088, 'learning_rate': 0.00016015120113400852, 'epoch': 0.08}
{'loss': 0.0879, 'learning_rate': 0.0001601012007590057, 'epoch': 0.08}
{'loss': 0.111, 'learning_rate': 0.0001600512003840029, 'epoch': 0.08}
{'loss': 0.1233, 'learning_rate': 0.00016000120000900009, 'epoch': 0.08}
{'loss': 0.1428, 'learning_rate': 0.00015995119963399727, 'epoch': 0.08}
{'loss': 0.0877, 'learning_rate': 0.00015990119925899445, 'epoch': 0.08}
{'loss': 0.0882, 'learning_rate': 0.00015985119888399166, 'epoch': 0.08}
{'loss': 0.1308, 'learning_rate': 0.0001598011985089888, 'epoch': 0.08}
{'loss': 0.0808, 'learning_rate': 0.00015975119813398602, 'epoch': 0.08}
{'loss': 0.1256, 'learning_rate': 0.0001597011977589832, 'epoch': 0.08}
{'loss': 0.1076, 'learning_rate': 0.0001596511973839804, 'epoch': 0.08}
{'loss': 0.1508, 'learning_rate': 0.00015960119700897756, 'epoch': 0.08}
{'loss': 0.1028, 'learning_rate': 0.00015955119663397477, 'epoch': 0.08}
{'loss': 0.1244, 'learning_rate': 0.00015950119625897195, 



{'loss': 0.115, 'learning_rate': 0.00015515116363372725, 'epoch': 0.09}
{'loss': 0.0926, 'learning_rate': 0.00015510116325872446, 'epoch': 0.09}
{'loss': 0.1297, 'learning_rate': 0.00015505116288372164, 'epoch': 0.09}
{'loss': 0.0859, 'learning_rate': 0.00015500116250871885, 'epoch': 0.09}
{'loss': 0.1131, 'learning_rate': 0.000154951162133716, 'epoch': 0.09}
{'loss': 0.1233, 'learning_rate': 0.0001549011617587132, 'epoch': 0.09}
{'loss': 0.1072, 'learning_rate': 0.0001548511613837104, 'epoch': 0.09}
{'loss': 0.1141, 'learning_rate': 0.0001548011610087076, 'epoch': 0.09}
{'loss': 0.0942, 'learning_rate': 0.00015475116063370475, 'epoch': 0.09}
{'loss': 0.122, 'learning_rate': 0.00015470116025870196, 'epoch': 0.09}
{'loss': 0.0994, 'learning_rate': 0.00015465115988369914, 'epoch': 0.09}
{'loss': 0.1347, 'learning_rate': 0.00015460115950869632, 'epoch': 0.09}
{'loss': 0.1385, 'learning_rate': 0.0001545511591336935, 'epoch': 0.09}
{'loss': 0.0933, 'learning_rate': 0.0001545011587586907, 'e



{'loss': 0.1109, 'learning_rate': 0.000150151126133446, 'epoch': 0.1}
{'loss': 0.1176, 'learning_rate': 0.0001501011257584432, 'epoch': 0.1}
{'loss': 0.1026, 'learning_rate': 0.0001500511253834404, 'epoch': 0.1}
{'loss': 0.0963, 'learning_rate': 0.00015000112500843758, 'epoch': 0.1}
{'loss': 0.0911, 'learning_rate': 0.00014995112463343476, 'epoch': 0.1}
{'loss': 0.1333, 'learning_rate': 0.00014990112425843194, 'epoch': 0.1}
{'loss': 0.07, 'learning_rate': 0.00014985112388342915, 'epoch': 0.1}
{'loss': 0.1256, 'learning_rate': 0.00014980112350842633, 'epoch': 0.1}
{'loss': 0.1284, 'learning_rate': 0.0001497511231334235, 'epoch': 0.1}
{'loss': 0.1218, 'learning_rate': 0.0001497011227584207, 'epoch': 0.1}
{'loss': 0.1369, 'learning_rate': 0.0001496511223834179, 'epoch': 0.1}
{'loss': 0.1298, 'learning_rate': 0.00014960112200841508, 'epoch': 0.1}
{'loss': 0.119, 'learning_rate': 0.00014955112163341226, 'epoch': 0.1}
{'loss': 0.1043, 'learning_rate': 0.00014950112125840945, 'epoch': 0.1}
{'



{'loss': 0.1045, 'learning_rate': 0.00014515108863316477, 'epoch': 0.11}
{'loss': 0.079, 'learning_rate': 0.00014510108825816195, 'epoch': 0.11}
{'loss': 0.0651, 'learning_rate': 0.00014505108788315913, 'epoch': 0.11}
{'loss': 0.1065, 'learning_rate': 0.00014500108750815634, 'epoch': 0.11}
{'loss': 0.0993, 'learning_rate': 0.00014495108713315352, 'epoch': 0.11}
{'loss': 0.0777, 'learning_rate': 0.0001449010867581507, 'epoch': 0.11}
{'loss': 0.1016, 'learning_rate': 0.00014485108638314788, 'epoch': 0.11}
{'loss': 0.1131, 'learning_rate': 0.0001448010860081451, 'epoch': 0.11}
{'loss': 0.1114, 'learning_rate': 0.00014475108563314227, 'epoch': 0.11}
{'loss': 0.1017, 'learning_rate': 0.00014470108525813945, 'epoch': 0.11}
{'loss': 0.1004, 'learning_rate': 0.00014465108488313663, 'epoch': 0.11}
{'loss': 0.1265, 'learning_rate': 0.00014460108450813384, 'epoch': 0.11}
{'loss': 0.1272, 'learning_rate': 0.000144551084133131, 'epoch': 0.11}
{'loss': 0.1503, 'learning_rate': 0.0001445010837581282,



{'loss': 0.0867, 'learning_rate': 0.00014015105113288352, 'epoch': 0.12}
{'loss': 0.0694, 'learning_rate': 0.00014010105075788068, 'epoch': 0.12}
{'loss': 0.0788, 'learning_rate': 0.0001400510503828779, 'epoch': 0.12}
{'loss': 0.1072, 'learning_rate': 0.00014000105000787507, 'epoch': 0.12}
{'loss': 0.119, 'learning_rate': 0.00013995104963287228, 'epoch': 0.12}
{'loss': 0.111, 'learning_rate': 0.00013990104925786943, 'epoch': 0.12}
{'loss': 0.1295, 'learning_rate': 0.00013985104888286664, 'epoch': 0.12}
{'loss': 0.1289, 'learning_rate': 0.00013980104850786382, 'epoch': 0.12}
{'loss': 0.0803, 'learning_rate': 0.00013975104813286103, 'epoch': 0.12}
{'loss': 0.1022, 'learning_rate': 0.00013970104775785818, 'epoch': 0.12}
{'loss': 0.0873, 'learning_rate': 0.0001396510473828554, 'epoch': 0.12}
{'loss': 0.078, 'learning_rate': 0.00013960104700785257, 'epoch': 0.12}
{'loss': 0.0685, 'learning_rate': 0.00013955104663284978, 'epoch': 0.12}
{'loss': 0.1083, 'learning_rate': 0.00013950104625784694



{'loss': 0.0877, 'learning_rate': 0.00013515101363260226, 'epoch': 0.13}
{'loss': 0.0965, 'learning_rate': 0.00013510101325759944, 'epoch': 0.13}
{'loss': 0.1134, 'learning_rate': 0.00013505101288259662, 'epoch': 0.13}
{'loss': 0.1158, 'learning_rate': 0.00013500101250759383, 'epoch': 0.13}
{'loss': 0.0975, 'learning_rate': 0.000134951012132591, 'epoch': 0.13}
{'loss': 0.0998, 'learning_rate': 0.0001349010117575882, 'epoch': 0.13}
{'loss': 0.1111, 'learning_rate': 0.00013485101138258537, 'epoch': 0.13}
{'loss': 0.1002, 'learning_rate': 0.00013480101100758258, 'epoch': 0.13}
{'loss': 0.1016, 'learning_rate': 0.00013475101063257976, 'epoch': 0.13}
{'loss': 0.1061, 'learning_rate': 0.00013470101025757694, 'epoch': 0.13}
{'loss': 0.1086, 'learning_rate': 0.00013465100988257412, 'epoch': 0.13}
{'loss': 0.1355, 'learning_rate': 0.00013460100950757133, 'epoch': 0.13}
{'loss': 0.1015, 'learning_rate': 0.00013455100913256851, 'epoch': 0.13}
{'loss': 0.1383, 'learning_rate': 0.000134501008757565



{'loss': 0.1009, 'learning_rate': 0.00013015097613232102, 'epoch': 0.14}
{'loss': 0.098, 'learning_rate': 0.0001301009757573182, 'epoch': 0.14}
{'loss': 0.0757, 'learning_rate': 0.00013005097538231538, 'epoch': 0.14}
{'loss': 0.1231, 'learning_rate': 0.00013000097500731256, 'epoch': 0.14}
{'loss': 0.1155, 'learning_rate': 0.00012995097463230977, 'epoch': 0.14}
{'loss': 0.0617, 'learning_rate': 0.00012990097425730695, 'epoch': 0.14}
{'loss': 0.121, 'learning_rate': 0.00012985097388230413, 'epoch': 0.14}
{'loss': 0.1019, 'learning_rate': 0.0001298009735073013, 'epoch': 0.14}
{'loss': 0.091, 'learning_rate': 0.00012975097313229852, 'epoch': 0.14}
{'loss': 0.1009, 'learning_rate': 0.0001297009727572957, 'epoch': 0.14}
{'loss': 0.0707, 'learning_rate': 0.00012965097238229288, 'epoch': 0.14}
{'loss': 0.1194, 'learning_rate': 0.00012960097200729007, 'epoch': 0.14}
{'loss': 0.1227, 'learning_rate': 0.00012955097163228727, 'epoch': 0.14}
{'loss': 0.1083, 'learning_rate': 0.00012950097125728445,



{'loss': 0.0593, 'learning_rate': 0.00012515093863203975, 'epoch': 0.15}
{'loss': 0.1037, 'learning_rate': 0.00012510093825703696, 'epoch': 0.15}
{'loss': 0.1308, 'learning_rate': 0.00012505093788203414, 'epoch': 0.15}
{'loss': 0.0805, 'learning_rate': 0.00012500093750703132, 'epoch': 0.15}
{'loss': 0.1098, 'learning_rate': 0.0001249509371320285, 'epoch': 0.15}
{'loss': 0.0887, 'learning_rate': 0.0001249009367570257, 'epoch': 0.15}
{'loss': 0.101, 'learning_rate': 0.00012485093638202286, 'epoch': 0.15}
{'loss': 0.1086, 'learning_rate': 0.00012480093600702007, 'epoch': 0.15}
{'loss': 0.0843, 'learning_rate': 0.00012475093563201725, 'epoch': 0.15}
{'loss': 0.0996, 'learning_rate': 0.00012470093525701446, 'epoch': 0.15}
{'loss': 0.1021, 'learning_rate': 0.00012465093488201162, 'epoch': 0.15}
{'loss': 0.1194, 'learning_rate': 0.0001246009345070088, 'epoch': 0.15}
{'loss': 0.0821, 'learning_rate': 0.000124550934132006, 'epoch': 0.15}
{'loss': 0.1397, 'learning_rate': 0.0001245009337570032, 



{'loss': 0.0676, 'learning_rate': 0.00012015090113175851, 'epoch': 0.16}
{'loss': 0.0936, 'learning_rate': 0.00012010090075675569, 'epoch': 0.16}
{'loss': 0.0866, 'learning_rate': 0.00012005090038175288, 'epoch': 0.16}
{'loss': 0.1075, 'learning_rate': 0.00012000090000675006, 'epoch': 0.16}
{'loss': 0.0867, 'learning_rate': 0.00011995089963174726, 'epoch': 0.16}
{'loss': 0.0829, 'learning_rate': 0.00011990089925674444, 'epoch': 0.16}
{'loss': 0.0892, 'learning_rate': 0.00011985089888174164, 'epoch': 0.16}
{'loss': 0.1036, 'learning_rate': 0.00011980089850673882, 'epoch': 0.16}
{'loss': 0.1176, 'learning_rate': 0.00011975089813173599, 'epoch': 0.16}
{'loss': 0.0785, 'learning_rate': 0.0001197008977567332, 'epoch': 0.16}
{'loss': 0.122, 'learning_rate': 0.00011965089738173036, 'epoch': 0.16}
{'loss': 0.1254, 'learning_rate': 0.00011960089700672757, 'epoch': 0.16}
{'loss': 0.1333, 'learning_rate': 0.00011955089663172474, 'epoch': 0.16}
{'loss': 0.0874, 'learning_rate': 0.00011950089625672



{'loss': 0.0899, 'learning_rate': 0.00011515086363147724, 'epoch': 0.17}
{'loss': 0.0852, 'learning_rate': 0.00011510086325647445, 'epoch': 0.17}
{'loss': 0.0801, 'learning_rate': 0.00011505086288147162, 'epoch': 0.17}
{'loss': 0.1196, 'learning_rate': 0.00011500086250646882, 'epoch': 0.17}
{'loss': 0.0958, 'learning_rate': 0.00011495086213146599, 'epoch': 0.17}
{'loss': 0.1036, 'learning_rate': 0.00011490086175646317, 'epoch': 0.17}
{'loss': 0.1084, 'learning_rate': 0.00011485086138146037, 'epoch': 0.17}
{'loss': 0.0938, 'learning_rate': 0.00011480086100645755, 'epoch': 0.17}
{'loss': 0.0981, 'learning_rate': 0.00011475086063145474, 'epoch': 0.17}
{'loss': 0.1079, 'learning_rate': 0.00011470086025645193, 'epoch': 0.17}
{'loss': 0.0939, 'learning_rate': 0.00011465085988144912, 'epoch': 0.17}
{'loss': 0.1253, 'learning_rate': 0.0001146008595064463, 'epoch': 0.17}
{'loss': 0.1307, 'learning_rate': 0.0001145508591314435, 'epoch': 0.17}
{'loss': 0.145, 'learning_rate': 0.000114500858756440



{'loss': 0.1112, 'learning_rate': 0.00011015082613119601, 'epoch': 0.18}
{'loss': 0.097, 'learning_rate': 0.00011010082575619318, 'epoch': 0.18}
{'loss': 0.124, 'learning_rate': 0.00011005082538119036, 'epoch': 0.18}
{'loss': 0.0993, 'learning_rate': 0.00011000082500618756, 'epoch': 0.18}
{'loss': 0.1317, 'learning_rate': 0.00010995082463118474, 'epoch': 0.18}
{'loss': 0.0771, 'learning_rate': 0.00010990082425618193, 'epoch': 0.18}
{'loss': 0.0928, 'learning_rate': 0.00010985082388117911, 'epoch': 0.18}
{'loss': 0.0962, 'learning_rate': 0.00010980082350617631, 'epoch': 0.18}
{'loss': 0.1212, 'learning_rate': 0.00010975082313117349, 'epoch': 0.18}
{'loss': 0.0935, 'learning_rate': 0.00010970082275617068, 'epoch': 0.18}
{'loss': 0.0991, 'learning_rate': 0.00010965082238116787, 'epoch': 0.18}
{'loss': 0.1361, 'learning_rate': 0.00010960082200616506, 'epoch': 0.18}
{'loss': 0.1465, 'learning_rate': 0.00010955082163116224, 'epoch': 0.18}
{'loss': 0.1479, 'learning_rate': 0.00010950082125615



{'loss': 0.1116, 'learning_rate': 0.00010515078863091474, 'epoch': 0.19}
{'loss': 0.1442, 'learning_rate': 0.00010510078825591193, 'epoch': 0.19}
{'loss': 0.0911, 'learning_rate': 0.00010505078788090912, 'epoch': 0.19}
{'loss': 0.0982, 'learning_rate': 0.0001050007875059063, 'epoch': 0.19}
{'loss': 0.1133, 'learning_rate': 0.0001049507871309035, 'epoch': 0.19}
{'loss': 0.1122, 'learning_rate': 0.00010490078675590066, 'epoch': 0.19}
{'loss': 0.1151, 'learning_rate': 0.00010485078638089787, 'epoch': 0.19}
{'loss': 0.059, 'learning_rate': 0.00010480078600589504, 'epoch': 0.19}
{'loss': 0.132, 'learning_rate': 0.00010475078563089225, 'epoch': 0.19}
{'loss': 0.1158, 'learning_rate': 0.00010470078525588942, 'epoch': 0.19}
{'loss': 0.0833, 'learning_rate': 0.00010465078488088663, 'epoch': 0.19}
{'loss': 0.0814, 'learning_rate': 0.00010460078450588379, 'epoch': 0.19}
{'loss': 0.1215, 'learning_rate': 0.000104550784130881, 'epoch': 0.19}
{'loss': 0.1162, 'learning_rate': 0.00010450078375587817,



{'loss': 0.1117, 'learning_rate': 0.00010015075113063348, 'epoch': 0.2}
{'loss': 0.0825, 'learning_rate': 0.00010010075075563068, 'epoch': 0.2}
{'loss': 0.113, 'learning_rate': 0.00010005075038062785, 'epoch': 0.2}
{'loss': 0.1103, 'learning_rate': 0.00010000075000562506, 'epoch': 0.2}
{'loss': 0.1011, 'learning_rate': 9.995074963062224e-05, 'epoch': 0.2}
{'loss': 0.094, 'learning_rate': 9.990074925561942e-05, 'epoch': 0.2}
{'loss': 0.0874, 'learning_rate': 9.985074888061662e-05, 'epoch': 0.2}
{'loss': 0.097, 'learning_rate': 9.98007485056138e-05, 'epoch': 0.2}
{'loss': 0.1029, 'learning_rate': 9.9750748130611e-05, 'epoch': 0.2}
{'loss': 0.1389, 'learning_rate': 9.970074775560818e-05, 'epoch': 0.2}
{'loss': 0.1162, 'learning_rate': 9.965074738060537e-05, 'epoch': 0.2}
{'loss': 0.1272, 'learning_rate': 9.960074700560255e-05, 'epoch': 0.2}
{'loss': 0.1204, 'learning_rate': 9.955074663059973e-05, 'epoch': 0.2}
{'loss': 0.1378, 'learning_rate': 9.950074625559691e-05, 'epoch': 0.2}
{'loss':



{'loss': 0.1324, 'learning_rate': 9.520071400535505e-05, 'epoch': 0.21}
{'loss': 0.1023, 'learning_rate': 9.515071363035224e-05, 'epoch': 0.21}
{'loss': 0.1101, 'learning_rate': 9.510071325534943e-05, 'epoch': 0.21}
{'loss': 0.1065, 'learning_rate': 9.505071288034661e-05, 'epoch': 0.21}
{'loss': 0.1192, 'learning_rate': 9.50007125053438e-05, 'epoch': 0.21}
{'loss': 0.0918, 'learning_rate': 9.495071213034099e-05, 'epoch': 0.21}
{'loss': 0.118, 'learning_rate': 9.490071175533818e-05, 'epoch': 0.21}
{'loss': 0.0916, 'learning_rate': 9.485071138033536e-05, 'epoch': 0.21}
{'loss': 0.1167, 'learning_rate': 9.480071100533256e-05, 'epoch': 0.21}
{'loss': 0.1217, 'learning_rate': 9.475071063032974e-05, 'epoch': 0.21}
{'loss': 0.1338, 'learning_rate': 9.470071025532692e-05, 'epoch': 0.21}
{'loss': 0.1254, 'learning_rate': 9.46507098803241e-05, 'epoch': 0.21}
{'loss': 0.0998, 'learning_rate': 9.46007095053213e-05, 'epoch': 0.21}
{'loss': 0.1203, 'learning_rate': 9.455070913031848e-05, 'epoch': 0.



{'loss': 0.1099, 'learning_rate': 9.02006765050738e-05, 'epoch': 0.22}
{'loss': 0.105, 'learning_rate': 9.0150676130071e-05, 'epoch': 0.22}
{'loss': 0.0795, 'learning_rate': 9.010067575506818e-05, 'epoch': 0.22}
{'loss': 0.088, 'learning_rate': 9.005067538006536e-05, 'epoch': 0.22}
{'loss': 0.105, 'learning_rate': 9.000067500506255e-05, 'epoch': 0.22}
{'loss': 0.1114, 'learning_rate': 8.995067463005973e-05, 'epoch': 0.22}
{'loss': 0.1247, 'learning_rate': 8.990067425505693e-05, 'epoch': 0.22}
{'loss': 0.1456, 'learning_rate': 8.985067388005411e-05, 'epoch': 0.22}
{'loss': 0.119, 'learning_rate': 8.980067350505129e-05, 'epoch': 0.22}
{'loss': 0.1113, 'learning_rate': 8.975067313004849e-05, 'epoch': 0.22}
{'loss': 0.1144, 'learning_rate': 8.970067275504567e-05, 'epoch': 0.22}
{'loss': 0.0982, 'learning_rate': 8.965067238004285e-05, 'epoch': 0.22}
{'loss': 0.1123, 'learning_rate': 8.960067200504004e-05, 'epoch': 0.22}
{'loss': 0.095, 'learning_rate': 8.955067163003722e-05, 'epoch': 0.22}




{'loss': 0.0785, 'learning_rate': 8.520063900479255e-05, 'epoch': 0.23}
{'loss': 0.0923, 'learning_rate': 8.515063862978974e-05, 'epoch': 0.23}
{'loss': 0.083, 'learning_rate': 8.510063825478692e-05, 'epoch': 0.23}
{'loss': 0.1272, 'learning_rate': 8.505063787978412e-05, 'epoch': 0.23}
{'loss': 0.1013, 'learning_rate': 8.50006375047813e-05, 'epoch': 0.23}
{'loss': 0.1087, 'learning_rate': 8.495063712977848e-05, 'epoch': 0.23}
{'loss': 0.1106, 'learning_rate': 8.490063675477566e-05, 'epoch': 0.23}
{'loss': 0.1174, 'learning_rate': 8.485063637977286e-05, 'epoch': 0.23}
{'loss': 0.1245, 'learning_rate': 8.480063600477004e-05, 'epoch': 0.23}
{'loss': 0.0723, 'learning_rate': 8.475063562976723e-05, 'epoch': 0.23}
{'loss': 0.1293, 'learning_rate': 8.470063525476441e-05, 'epoch': 0.23}
{'loss': 0.1061, 'learning_rate': 8.465063487976161e-05, 'epoch': 0.23}
{'loss': 0.1107, 'learning_rate': 8.460063450475879e-05, 'epoch': 0.23}
{'loss': 0.0781, 'learning_rate': 8.455063412975598e-05, 'epoch': 



{'loss': 0.1129, 'learning_rate': 8.020060150451129e-05, 'epoch': 0.24}
{'loss': 0.1125, 'learning_rate': 8.015060112950849e-05, 'epoch': 0.24}
{'loss': 0.1192, 'learning_rate': 8.010060075450567e-05, 'epoch': 0.24}
{'loss': 0.0979, 'learning_rate': 8.005060037950285e-05, 'epoch': 0.24}
{'loss': 0.1108, 'learning_rate': 8.000060000450004e-05, 'epoch': 0.24}
{'loss': 0.1375, 'learning_rate': 7.995059962949722e-05, 'epoch': 0.24}
{'loss': 0.0681, 'learning_rate': 7.99005992544944e-05, 'epoch': 0.24}
{'loss': 0.0902, 'learning_rate': 7.98505988794916e-05, 'epoch': 0.24}
{'loss': 0.0834, 'learning_rate': 7.980059850448878e-05, 'epoch': 0.24}
{'loss': 0.1126, 'learning_rate': 7.975059812948598e-05, 'epoch': 0.24}
{'loss': 0.1259, 'learning_rate': 7.970059775448316e-05, 'epoch': 0.24}
{'loss': 0.1233, 'learning_rate': 7.965059737948035e-05, 'epoch': 0.24}
{'loss': 0.109, 'learning_rate': 7.960059700447753e-05, 'epoch': 0.24}
{'loss': 0.0909, 'learning_rate': 7.955059662947473e-05, 'epoch': 0



{'loss': 0.1031, 'learning_rate': 7.520056400423004e-05, 'epoch': 0.25}
{'loss': 0.0994, 'learning_rate': 7.515056362922722e-05, 'epoch': 0.25}
{'loss': 0.096, 'learning_rate': 7.510056325422441e-05, 'epoch': 0.25}
{'loss': 0.0987, 'learning_rate': 7.50505628792216e-05, 'epoch': 0.25}
{'loss': 0.1037, 'learning_rate': 7.500056250421879e-05, 'epoch': 0.25}
{'loss': 0.118, 'learning_rate': 7.495056212921597e-05, 'epoch': 0.25}
{'loss': 0.0955, 'learning_rate': 7.490056175421317e-05, 'epoch': 0.25}
{'loss': 0.1077, 'learning_rate': 7.485056137921035e-05, 'epoch': 0.25}
{'loss': 0.0827, 'learning_rate': 7.480056100420754e-05, 'epoch': 0.25}
{'loss': 0.0782, 'learning_rate': 7.475056062920472e-05, 'epoch': 0.25}
{'loss': 0.1632, 'learning_rate': 7.470056025420192e-05, 'epoch': 0.25}
{'loss': 0.1171, 'learning_rate': 7.46505598791991e-05, 'epoch': 0.25}
{'loss': 0.1184, 'learning_rate': 7.46005595041963e-05, 'epoch': 0.25}
{'loss': 0.1336, 'learning_rate': 7.455055912919348e-05, 'epoch': 0.2



{'loss': 0.0859, 'learning_rate': 7.020052650394878e-05, 'epoch': 0.26}
{'loss': 0.0909, 'learning_rate': 7.015052612894598e-05, 'epoch': 0.26}
{'loss': 0.0678, 'learning_rate': 7.010052575394316e-05, 'epoch': 0.26}
{'loss': 0.0701, 'learning_rate': 7.005052537894034e-05, 'epoch': 0.26}
{'loss': 0.0912, 'learning_rate': 7.000052500393753e-05, 'epoch': 0.26}
{'loss': 0.1258, 'learning_rate': 6.995052462893472e-05, 'epoch': 0.26}
{'loss': 0.1031, 'learning_rate': 6.990052425393191e-05, 'epoch': 0.26}
{'loss': 0.091, 'learning_rate': 6.985052387892909e-05, 'epoch': 0.26}
{'loss': 0.107, 'learning_rate': 6.980052350392629e-05, 'epoch': 0.26}
{'loss': 0.1292, 'learning_rate': 6.975052312892347e-05, 'epoch': 0.26}
{'loss': 0.134, 'learning_rate': 6.970052275392066e-05, 'epoch': 0.26}
{'loss': 0.0957, 'learning_rate': 6.965052237891784e-05, 'epoch': 0.26}
{'loss': 0.1247, 'learning_rate': 6.960052200391504e-05, 'epoch': 0.26}
{'loss': 0.0836, 'learning_rate': 6.955052162891222e-05, 'epoch': 0



{'loss': 0.1187, 'learning_rate': 6.520048900366753e-05, 'epoch': 0.27}
{'loss': 0.093, 'learning_rate': 6.515048862866472e-05, 'epoch': 0.27}
{'loss': 0.0974, 'learning_rate': 6.51004882536619e-05, 'epoch': 0.27}
{'loss': 0.1422, 'learning_rate': 6.50504878786591e-05, 'epoch': 0.27}
{'loss': 0.0778, 'learning_rate': 6.500048750365628e-05, 'epoch': 0.27}
{'loss': 0.1199, 'learning_rate': 6.495048712865347e-05, 'epoch': 0.27}
{'loss': 0.1188, 'learning_rate': 6.490048675365066e-05, 'epoch': 0.27}
{'loss': 0.1276, 'learning_rate': 6.485048637864785e-05, 'epoch': 0.27}
{'loss': 0.1033, 'learning_rate': 6.480048600364503e-05, 'epoch': 0.27}
{'loss': 0.0713, 'learning_rate': 6.475048562864223e-05, 'epoch': 0.27}
{'loss': 0.0858, 'learning_rate': 6.470048525363941e-05, 'epoch': 0.27}
{'loss': 0.132, 'learning_rate': 6.465048487863659e-05, 'epoch': 0.27}
{'loss': 0.0985, 'learning_rate': 6.460048450363379e-05, 'epoch': 0.27}
{'loss': 0.1099, 'learning_rate': 6.455048412863097e-05, 'epoch': 0.



{'loss': 0.1107, 'learning_rate': 6.020045150338628e-05, 'epoch': 0.28}
{'loss': 0.0988, 'learning_rate': 6.015045112838347e-05, 'epoch': 0.28}
{'loss': 0.1128, 'learning_rate': 6.0100450753380656e-05, 'epoch': 0.28}
{'loss': 0.0987, 'learning_rate': 6.0050450378377844e-05, 'epoch': 0.28}
{'loss': 0.0987, 'learning_rate': 6.000045000337503e-05, 'epoch': 0.28}
{'loss': 0.0992, 'learning_rate': 5.995044962837222e-05, 'epoch': 0.28}
{'loss': 0.088, 'learning_rate': 5.990044925336941e-05, 'epoch': 0.28}
{'loss': 0.0916, 'learning_rate': 5.98504488783666e-05, 'epoch': 0.28}
{'loss': 0.0813, 'learning_rate': 5.9800448503363785e-05, 'epoch': 0.28}
{'loss': 0.1254, 'learning_rate': 5.9750448128360966e-05, 'epoch': 0.28}
{'loss': 0.1591, 'learning_rate': 5.9700447753358154e-05, 'epoch': 0.28}
{'loss': 0.0935, 'learning_rate': 5.965044737835534e-05, 'epoch': 0.28}
{'loss': 0.0974, 'learning_rate': 5.960044700335253e-05, 'epoch': 0.28}
{'loss': 0.0657, 'learning_rate': 5.955044662834972e-05, 'epo



{'loss': 0.0843, 'learning_rate': 5.5200414003105025e-05, 'epoch': 0.29}
{'loss': 0.0834, 'learning_rate': 5.5150413628102214e-05, 'epoch': 0.29}
{'loss': 0.1066, 'learning_rate': 5.51004132530994e-05, 'epoch': 0.29}
{'loss': 0.0751, 'learning_rate': 5.505041287809659e-05, 'epoch': 0.29}
{'loss': 0.1241, 'learning_rate': 5.500041250309378e-05, 'epoch': 0.29}
{'loss': 0.1104, 'learning_rate': 5.4950412128090966e-05, 'epoch': 0.29}
{'loss': 0.1083, 'learning_rate': 5.4900411753088154e-05, 'epoch': 0.29}
{'loss': 0.1204, 'learning_rate': 5.485041137808534e-05, 'epoch': 0.29}
{'loss': 0.1032, 'learning_rate': 5.480041100308253e-05, 'epoch': 0.29}
{'loss': 0.1184, 'learning_rate': 5.475041062807972e-05, 'epoch': 0.29}
{'loss': 0.1097, 'learning_rate': 5.470041025307691e-05, 'epoch': 0.29}
{'loss': 0.1117, 'learning_rate': 5.4650409878074095e-05, 'epoch': 0.29}
{'loss': 0.1112, 'learning_rate': 5.460040950307128e-05, 'epoch': 0.29}
{'loss': 0.1048, 'learning_rate': 5.455040912806847e-05, 'ep



{'loss': 0.0824, 'learning_rate': 5.020037650282378e-05, 'epoch': 0.3}
{'loss': 0.086, 'learning_rate': 5.0150376127820966e-05, 'epoch': 0.3}
{'loss': 0.0846, 'learning_rate': 5.0100375752818154e-05, 'epoch': 0.3}
{'loss': 0.101, 'learning_rate': 5.005037537781534e-05, 'epoch': 0.3}
{'loss': 0.1104, 'learning_rate': 5.000037500281253e-05, 'epoch': 0.3}
{'loss': 0.0947, 'learning_rate': 4.995037462780971e-05, 'epoch': 0.3}
{'loss': 0.1003, 'learning_rate': 4.99003742528069e-05, 'epoch': 0.3}
{'loss': 0.0919, 'learning_rate': 4.985037387780409e-05, 'epoch': 0.3}
{'loss': 0.1204, 'learning_rate': 4.9800373502801276e-05, 'epoch': 0.3}
{'loss': 0.1291, 'learning_rate': 4.975037312779846e-05, 'epoch': 0.3}
{'loss': 0.1063, 'learning_rate': 4.9700372752795646e-05, 'epoch': 0.3}
{'loss': 0.1147, 'learning_rate': 4.9650372377792834e-05, 'epoch': 0.3}
{'loss': 0.0971, 'learning_rate': 4.960037200279002e-05, 'epoch': 0.3}
{'loss': 0.1434, 'learning_rate': 4.955037162778721e-05, 'epoch': 0.3}
{'lo



{'loss': 0.0779, 'learning_rate': 4.5200339002542523e-05, 'epoch': 0.31}
{'loss': 0.1022, 'learning_rate': 4.515033862753971e-05, 'epoch': 0.31}
{'loss': 0.0794, 'learning_rate': 4.51003382525369e-05, 'epoch': 0.31}
{'loss': 0.1075, 'learning_rate': 4.505033787753409e-05, 'epoch': 0.31}
{'loss': 0.1139, 'learning_rate': 4.5000337502531276e-05, 'epoch': 0.31}
{'loss': 0.0678, 'learning_rate': 4.4950337127528464e-05, 'epoch': 0.31}
{'loss': 0.0801, 'learning_rate': 4.4900336752525645e-05, 'epoch': 0.31}
{'loss': 0.1319, 'learning_rate': 4.4850336377522834e-05, 'epoch': 0.31}
{'loss': 0.1128, 'learning_rate': 4.480033600252002e-05, 'epoch': 0.31}
{'loss': 0.1021, 'learning_rate': 4.475033562751721e-05, 'epoch': 0.31}
{'loss': 0.1298, 'learning_rate': 4.47003352525144e-05, 'epoch': 0.31}
{'loss': 0.0776, 'learning_rate': 4.4650334877511586e-05, 'epoch': 0.31}
{'loss': 0.117, 'learning_rate': 4.4600334502508774e-05, 'epoch': 0.31}
{'loss': 0.0836, 'learning_rate': 4.455033412750596e-05, 'ep



{'loss': 0.0815, 'learning_rate': 4.0200301502261276e-05, 'epoch': 0.32}
{'loss': 0.0948, 'learning_rate': 4.0150301127258464e-05, 'epoch': 0.32}
{'loss': 0.091, 'learning_rate': 4.0100300752255645e-05, 'epoch': 0.32}
{'loss': 0.1072, 'learning_rate': 4.0050300377252833e-05, 'epoch': 0.32}
{'loss': 0.0866, 'learning_rate': 4.000030000225002e-05, 'epoch': 0.32}
{'loss': 0.1546, 'learning_rate': 3.99502996272472e-05, 'epoch': 0.32}
{'loss': 0.0923, 'learning_rate': 3.990029925224439e-05, 'epoch': 0.32}
{'loss': 0.1094, 'learning_rate': 3.985029887724158e-05, 'epoch': 0.32}
{'loss': 0.1241, 'learning_rate': 3.980029850223877e-05, 'epoch': 0.32}
{'loss': 0.118, 'learning_rate': 3.9750298127235955e-05, 'epoch': 0.32}
{'loss': 0.0943, 'learning_rate': 3.9700297752233144e-05, 'epoch': 0.32}
{'loss': 0.1159, 'learning_rate': 3.965029737723033e-05, 'epoch': 0.32}
{'loss': 0.0898, 'learning_rate': 3.960029700222752e-05, 'epoch': 0.32}
{'loss': 0.122, 'learning_rate': 3.955029662722471e-05, 'epoc

KeyboardInterrupt: 

In [None]:
# Save trained model
adapter_from_merged = "../adapters/" + new_adapter_name
trainer.model.save_pretrained(adapter_from_merged)