In [1]:
import sys,os
import json
project_root = os.path.dirname(os.getcwd())
sys.path.insert(0,project_root)

from src.load_data import *
from src.preprocessing import *
from src.model_setup import *
from src.training import *
from src.file_utils import *
from transformers import set_seed

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
seed_value = 42
set_seed(seed_value)
# supports tasks:
# cb
# rte
# sick
# mrpc
# boolq
# csqa ?????????? or mc?
# argument
# scitail
# imdb
# sst2
# qqp
# mnli

#tasks = ["cb","rte","sick","mrpc","boolq","argument","scitail","imdb","sst2","qqp","mnli"]
#last run: boolq
tasks = ["imdb","sst2","qqp","mnli"]
# task = "scitail"
model_name = "bert-base-uncased"
output_path = "C:/Users/Hector Auvinen/Desktop/eval_results/bigger_eval_steps"
adapter_conf_path = "../src/configs/adapter_configs.json"

"""output_adapter = config["output_adapter"]
mh_adapter = config["mh_adapter"]
reduction_factor = config["reduction_factor"]
non_linearity = config["non_linearity"]"""

'output_adapter = config["output_adapter"]\nmh_adapter = config["mh_adapter"]\nreduction_factor = config["reduction_factor"]\nnon_linearity = config["non_linearity"]'

In [3]:
# MOVE THIS TO MODULE
with open(adapter_conf_path, "r") as json_file:
    adapter_configs = json.load(json_file)
adapter_configs

{'output_adapter_redf_2': {'output_adapter': True,
  'mh_adapter': False,
  'reduction_factor': 2,
  'non_linearity': 'relu'},
 'output_adapter_redf_16': {'output_adapter': True,
  'mh_adapter': False,
  'reduction_factor': 16,
  'non_linearity': 'relu'},
 'output_adapter_redf_64': {'output_adapter': True,
  'mh_adapter': False,
  'reduction_factor': 64,
  'non_linearity': 'relu'}}

In [4]:
for name,config in adapter_configs.items():
    print(name,config)
    output_dir = os.path.join(output_path,name)
    
    if not os.path.exists(output_dir):
        # If the folder doesn't exist, create it
        os.makedirs(output_dir)
        print(f"Folder '{output_dir}' created.")
    else:
        print(f"Folder '{output_dir}' already exists.")
    
    print(f"**********************************RUNNING CONFIG {name}*****************************")
    print("CONFIG",config)
    for task in tasks:
        print(f"**********************************RUNNING TASK {task}*****************************")
        # load dataset
        data = load_hf_dataset(task,debug=False)
        # get tokenizer (bert)
        tokenizer = get_tokenizer(model_name)
        # get encoding method for particular task
        encode = get_encoding(task)
        # apply encoding
        dataset = preprocess_dataset(data,encode,tokenizer)
        # get label count
        num_labels = get_label_count(dataset)
        # set up model (head with num labels)
        model = setup_model(model_name,num_labels,dataset)
        
        # set up adapter config
        adapter_config = adapters.BnConfig(
                                output_adapter=config["output_adapter"],
                                mh_adapter=config["mh_adapter"],
                                reduction_factor=config["reduction_factor"],
                                non_linearity=config["non_linearity"])

        # add adapter
        model = add_clf_adapter(task_name=task,model=model,num_labels=num_labels,adapter_config=adapter_config)
        
        # set up training args
        final_output = os.path.join(output_dir,task)
        default_args = TrainingParameters(output_dir=final_output,
                                          per_device_train_batch_size=1,
                                          evaluation_strategy="epoch",
                                          eval_steps=1,
                                          save_strategy="epoch",
                                          logging_steps=200)
        default_args.lr_scheduler_type = "linear"
        train_args = get_training_arguments(default_args)
        
        # set up trainer
        trainer = get_trainer(train_args,dataset,model,early_stopping=3)
        # train
        trainer.train()
        
        # evaluate and write results to file
        eval_results = trainer.evaluate()
        write_eval_results(eval_results,output_dir,task,trainer,adapter_config)

    

output_adapter_redf_2 {'output_adapter': True, 'mh_adapter': False, 'reduction_factor': 2, 'non_linearity': 'relu'}
Folder 'C:/Users/Hector Auvinen/Desktop/eval_results/bigger_eval_steps\output_adapter_redf_2' already exists.
**********************************RUNNING CONFIG output_adapter_redf_2*****************************
CONFIG {'output_adapter': True, 'mh_adapter': False, 'reduction_factor': 2, 'non_linearity': 'relu'}
**********************************RUNNING TASK imdb*****************************
using bert tokenizer
getting encoding:
<function encode_imdb at 0x000002070CC221F0>
mapped
{'train': ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'], 'unsupervised': ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'], 'validation': ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask']}


Some weights of BertAdapterModel were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['heads.default.3.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
  0%|          | 201/750000 [00:18<15:36:25, 13.35it/s]

{'loss': 0.9323, 'learning_rate': 9.997333333333335e-05, 'epoch': 0.01}


  0%|          | 401/750000 [00:36<19:25:07, 10.72it/s]

{'loss': 0.8845, 'learning_rate': 9.994666666666666e-05, 'epoch': 0.02}


  0%|          | 601/750000 [00:53<19:08:51, 10.87it/s]

{'loss': 0.5791, 'learning_rate': 9.992e-05, 'epoch': 0.02}


  0%|          | 801/750000 [01:11<19:13:50, 10.82it/s]

{'loss': 0.5703, 'learning_rate': 9.989333333333333e-05, 'epoch': 0.03}


  0%|          | 1002/750000 [01:30<18:50:24, 11.04it/s]

{'loss': 0.6229, 'learning_rate': 9.986666666666668e-05, 'epoch': 0.04}


  0%|          | 1202/750000 [01:48<19:03:53, 10.91it/s]

{'loss': 0.6397, 'learning_rate': 9.984e-05, 'epoch': 0.05}


  0%|          | 1401/750000 [02:05<16:54:24, 12.30it/s]

{'loss': 0.5743, 'learning_rate': 9.981333333333334e-05, 'epoch': 0.06}


  0%|          | 1601/750000 [02:22<16:38:54, 12.49it/s]

{'loss': 0.627, 'learning_rate': 9.978666666666668e-05, 'epoch': 0.06}


  0%|          | 1802/750000 [02:39<16:27:35, 12.63it/s]

{'loss': 0.4624, 'learning_rate': 9.976000000000001e-05, 'epoch': 0.07}


  0%|          | 2000/750000 [02:56<20:35:37, 10.09it/s]

{'loss': 0.8018, 'learning_rate': 9.973333333333334e-05, 'epoch': 0.08}


  0%|          | 2201/750000 [03:14<19:23:09, 10.72it/s]

{'loss': 0.6438, 'learning_rate': 9.970666666666667e-05, 'epoch': 0.09}


  0%|          | 2401/750000 [03:32<17:47:41, 11.67it/s]

{'loss': 0.5741, 'learning_rate': 9.968000000000001e-05, 'epoch': 0.1}


  0%|          | 2601/750000 [03:48<17:06:54, 12.13it/s]

{'loss': 0.6226, 'learning_rate': 9.965333333333334e-05, 'epoch': 0.1}


  0%|          | 2802/750000 [04:06<17:30:09, 11.86it/s]

{'loss': 0.5149, 'learning_rate': 9.962666666666667e-05, 'epoch': 0.11}


  0%|          | 3002/750000 [04:22<15:41:00, 13.23it/s]

{'loss': 0.6767, 'learning_rate': 9.960000000000001e-05, 'epoch': 0.12}


  0%|          | 3202/750000 [04:38<15:37:18, 13.28it/s]

{'loss': 0.5972, 'learning_rate': 9.957333333333334e-05, 'epoch': 0.13}


  0%|          | 3402/750000 [04:56<16:24:26, 12.64it/s]

{'loss': 0.5638, 'learning_rate': 9.954666666666668e-05, 'epoch': 0.14}


  0%|          | 3601/750000 [05:13<16:38:27, 12.46it/s]

{'loss': 0.6758, 'learning_rate': 9.952e-05, 'epoch': 0.14}


  1%|          | 3801/750000 [05:30<21:15:31,  9.75it/s]

{'loss': 0.7045, 'learning_rate': 9.949333333333334e-05, 'epoch': 0.15}


  1%|          | 4001/750000 [05:48<17:04:57, 12.13it/s]

{'loss': 0.5424, 'learning_rate': 9.946666666666668e-05, 'epoch': 0.16}


  1%|          | 4201/750000 [06:06<21:20:46,  9.71it/s]

{'loss': 0.5346, 'learning_rate': 9.944e-05, 'epoch': 0.17}


  1%|          | 4401/750000 [06:29<20:53:52,  9.91it/s]

{'loss': 0.6969, 'learning_rate': 9.941333333333334e-05, 'epoch': 0.18}


  1%|          | 4601/750000 [06:48<18:15:14, 11.34it/s]

{'loss': 0.4679, 'learning_rate': 9.938666666666667e-05, 'epoch': 0.18}


  1%|          | 4801/750000 [07:07<31:59:00,  6.47it/s]

{'loss': 0.4852, 'learning_rate': 9.936000000000001e-05, 'epoch': 0.19}


  1%|          | 5001/750000 [07:26<18:16:39, 11.32it/s]

{'loss': 0.6011, 'learning_rate': 9.933333333333334e-05, 'epoch': 0.2}


  1%|          | 5201/750000 [07:44<18:14:14, 11.34it/s]

{'loss': 0.4968, 'learning_rate': 9.930666666666667e-05, 'epoch': 0.21}


  1%|          | 5401/750000 [08:04<17:42:23, 11.68it/s]

{'loss': 0.6353, 'learning_rate': 9.928000000000001e-05, 'epoch': 0.22}


  1%|          | 5601/750000 [08:22<17:11:49, 12.02it/s]

{'loss': 0.6225, 'learning_rate': 9.925333333333334e-05, 'epoch': 0.22}


  1%|          | 5802/750000 [08:39<17:18:16, 11.95it/s]

{'loss': 0.6372, 'learning_rate': 9.922666666666667e-05, 'epoch': 0.23}


  1%|          | 6001/750000 [08:57<22:36:46,  9.14it/s]

{'loss': 0.5038, 'learning_rate': 9.92e-05, 'epoch': 0.24}


  1%|          | 6202/750000 [09:16<16:43:43, 12.35it/s]

{'loss': 0.6014, 'learning_rate': 9.917333333333334e-05, 'epoch': 0.25}


  1%|          | 6402/750000 [09:33<16:59:14, 12.16it/s]

{'loss': 0.4258, 'learning_rate': 9.914666666666667e-05, 'epoch': 0.26}


  1%|          | 6601/750000 [09:50<16:33:26, 12.47it/s]

{'loss': 0.6477, 'learning_rate': 9.912e-05, 'epoch': 0.26}


  1%|          | 6801/750000 [10:07<16:30:53, 12.50it/s]

{'loss': 0.6007, 'learning_rate': 9.909333333333334e-05, 'epoch': 0.27}


  1%|          | 7001/750000 [10:23<16:42:56, 12.35it/s]

{'loss': 0.4626, 'learning_rate': 9.906666666666667e-05, 'epoch': 0.28}


  1%|          | 7201/750000 [10:40<18:45:41, 11.00it/s]

{'loss': 0.4145, 'learning_rate': 9.904e-05, 'epoch': 0.29}


  1%|          | 7401/750000 [10:57<16:28:54, 12.52it/s]

{'loss': 0.5853, 'learning_rate': 9.901333333333333e-05, 'epoch': 0.3}


  1%|          | 7602/750000 [11:14<17:49:10, 11.57it/s]

{'loss': 0.426, 'learning_rate': 9.898666666666667e-05, 'epoch': 0.3}


  1%|          | 7802/750000 [11:30<16:43:49, 12.32it/s]

{'loss': 0.6067, 'learning_rate': 9.896000000000001e-05, 'epoch': 0.31}


  1%|          | 8002/750000 [11:47<16:24:01, 12.57it/s]

{'loss': 0.6081, 'learning_rate': 9.893333333333333e-05, 'epoch': 0.32}


  1%|          | 8202/750000 [12:03<18:18:17, 11.26it/s]

{'loss': 0.6718, 'learning_rate': 9.890666666666667e-05, 'epoch': 0.33}


  1%|          | 8402/750000 [12:19<16:18:42, 12.63it/s]

{'loss': 0.55, 'learning_rate': 9.888e-05, 'epoch': 0.34}


  1%|          | 8602/750000 [12:35<17:29:53, 11.77it/s]

{'loss': 0.5575, 'learning_rate': 9.885333333333334e-05, 'epoch': 0.34}


  1%|          | 8802/750000 [12:52<18:54:39, 10.89it/s]

{'loss': 0.4255, 'learning_rate': 9.882666666666667e-05, 'epoch': 0.35}


  1%|          | 9002/750000 [13:08<16:15:55, 12.65it/s]

{'loss': 0.5608, 'learning_rate': 9.88e-05, 'epoch': 0.36}


  1%|          | 9202/750000 [13:25<17:41:09, 11.63it/s]

{'loss': 0.6391, 'learning_rate': 9.877333333333335e-05, 'epoch': 0.37}


  1%|▏         | 9402/750000 [13:41<16:06:17, 12.77it/s]

{'loss': 0.4083, 'learning_rate': 9.874666666666667e-05, 'epoch': 0.38}


  1%|▏         | 9602/750000 [13:57<18:44:45, 10.97it/s]

{'loss': 0.5137, 'learning_rate': 9.872e-05, 'epoch': 0.38}


  1%|▏         | 9802/750000 [14:16<18:53:10, 10.89it/s]

{'loss': 0.6435, 'learning_rate': 9.869333333333333e-05, 'epoch': 0.39}


  1%|▏         | 10002/750000 [14:34<17:26:37, 11.78it/s]

{'loss': 0.5589, 'learning_rate': 9.866666666666668e-05, 'epoch': 0.4}


  1%|▏         | 10202/750000 [14:50<16:41:20, 12.31it/s]

{'loss': 0.3486, 'learning_rate': 9.864e-05, 'epoch': 0.41}


  1%|▏         | 10402/750000 [15:06<16:29:07, 12.46it/s]

{'loss': 0.769, 'learning_rate': 9.861333333333333e-05, 'epoch': 0.42}


  1%|▏         | 10600/750000 [15:24<19:15:27, 10.67it/s]

{'loss': 0.3594, 'learning_rate': 9.858666666666668e-05, 'epoch': 0.42}


  1%|▏         | 10801/750000 [15:40<16:54:18, 12.15it/s]

{'loss': 0.5618, 'learning_rate': 9.856e-05, 'epoch': 0.43}


  1%|▏         | 11001/750000 [15:57<19:02:54, 10.78it/s]

{'loss': 0.5227, 'learning_rate': 9.853333333333333e-05, 'epoch': 0.44}


  1%|▏         | 11201/750000 [16:14<16:29:22, 12.45it/s]

{'loss': 0.3813, 'learning_rate': 9.850666666666666e-05, 'epoch': 0.45}


  2%|▏         | 11401/750000 [16:30<16:36:54, 12.35it/s]

{'loss': 0.702, 'learning_rate': 9.848e-05, 'epoch': 0.46}


  2%|▏         | 11601/750000 [16:46<16:38:22, 12.33it/s]

{'loss': 0.5021, 'learning_rate': 9.845333333333335e-05, 'epoch': 0.46}


  2%|▏         | 11801/750000 [17:02<16:37:03, 12.34it/s]

{'loss': 0.5995, 'learning_rate': 9.842666666666666e-05, 'epoch': 0.47}


  2%|▏         | 12001/750000 [17:18<16:28:45, 12.44it/s]

{'loss': 0.4424, 'learning_rate': 9.84e-05, 'epoch': 0.48}


  2%|▏         | 12201/750000 [17:34<16:29:34, 12.43it/s]

{'loss': 0.5292, 'learning_rate': 9.837333333333334e-05, 'epoch': 0.49}


  2%|▏         | 12402/750000 [17:52<16:13:31, 12.63it/s]

{'loss': 0.4669, 'learning_rate': 9.834666666666668e-05, 'epoch': 0.5}


  2%|▏         | 12602/750000 [18:08<16:29:46, 12.42it/s]

{'loss': 0.6103, 'learning_rate': 9.832000000000001e-05, 'epoch': 0.5}


  2%|▏         | 12802/750000 [18:24<16:21:19, 12.52it/s]

{'loss': 0.5043, 'learning_rate': 9.829333333333334e-05, 'epoch': 0.51}


  2%|▏         | 13002/750000 [18:40<16:22:11, 12.51it/s]

{'loss': 0.4425, 'learning_rate': 9.826666666666668e-05, 'epoch': 0.52}


  2%|▏         | 13202/750000 [18:56<16:06:41, 12.70it/s]

{'loss': 0.4781, 'learning_rate': 9.824000000000001e-05, 'epoch': 0.53}


  2%|▏         | 13402/750000 [19:12<17:09:44, 11.92it/s]

{'loss': 0.3915, 'learning_rate': 9.821333333333334e-05, 'epoch': 0.54}


  2%|▏         | 13602/750000 [19:29<18:51:14, 10.85it/s]

{'loss': 0.5445, 'learning_rate': 9.818666666666667e-05, 'epoch': 0.54}


  2%|▏         | 13802/750000 [19:46<16:13:42, 12.60it/s]

{'loss': 0.5372, 'learning_rate': 9.816000000000001e-05, 'epoch': 0.55}


  2%|▏         | 14002/750000 [20:02<16:31:31, 12.37it/s]

{'loss': 0.5757, 'learning_rate': 9.813333333333334e-05, 'epoch': 0.56}


  2%|▏         | 14202/750000 [20:19<18:55:39, 10.80it/s]

{'loss': 0.5677, 'learning_rate': 9.810666666666667e-05, 'epoch': 0.57}


  2%|▏         | 14402/750000 [20:35<16:16:33, 12.55it/s]

{'loss': 0.4336, 'learning_rate': 9.808000000000001e-05, 'epoch': 0.58}


  2%|▏         | 14602/750000 [20:51<16:20:35, 12.50it/s]

{'loss': 0.4796, 'learning_rate': 9.805333333333334e-05, 'epoch': 0.58}


  2%|▏         | 14802/750000 [21:09<16:17:23, 12.54it/s]

{'loss': 0.5878, 'learning_rate': 9.802666666666667e-05, 'epoch': 0.59}


  2%|▏         | 15002/750000 [21:25<16:27:39, 12.40it/s]

{'loss': 0.4526, 'learning_rate': 9.8e-05, 'epoch': 0.6}


  2%|▏         | 15202/750000 [21:41<16:21:06, 12.48it/s]

{'loss': 0.5492, 'learning_rate': 9.797333333333334e-05, 'epoch': 0.61}


  2%|▏         | 15402/750000 [21:57<16:18:00, 12.52it/s]

{'loss': 0.4643, 'learning_rate': 9.794666666666668e-05, 'epoch': 0.62}


  2%|▏         | 15602/750000 [22:13<16:20:18, 12.49it/s]

{'loss': 0.4194, 'learning_rate': 9.792e-05, 'epoch': 0.62}


  2%|▏         | 15802/750000 [22:29<16:18:09, 12.51it/s]

{'loss': 0.5937, 'learning_rate': 9.789333333333334e-05, 'epoch': 0.63}


  2%|▏         | 16002/750000 [22:45<16:16:15, 12.53it/s]

{'loss': 0.4909, 'learning_rate': 9.786666666666667e-05, 'epoch': 0.64}


  2%|▏         | 16202/750000 [23:01<16:08:05, 12.63it/s]

{'loss': 0.4529, 'learning_rate': 9.784000000000001e-05, 'epoch': 0.65}


  2%|▏         | 16402/750000 [23:17<16:16:37, 12.52it/s]

{'loss': 0.5334, 'learning_rate': 9.781333333333334e-05, 'epoch': 0.66}


  2%|▏         | 16602/750000 [23:33<16:10:08, 12.60it/s]

{'loss': 0.4532, 'learning_rate': 9.778666666666667e-05, 'epoch': 0.66}


  2%|▏         | 16802/750000 [23:49<16:09:11, 12.61it/s]

{'loss': 0.4075, 'learning_rate': 9.776000000000001e-05, 'epoch': 0.67}


  2%|▏         | 17002/750000 [24:05<17:18:10, 11.77it/s]

{'loss': 0.5544, 'learning_rate': 9.773333333333334e-05, 'epoch': 0.68}


  2%|▏         | 17202/750000 [24:21<16:04:21, 12.66it/s]

{'loss': 0.4811, 'learning_rate': 9.770666666666667e-05, 'epoch': 0.69}


  2%|▏         | 17402/750000 [24:37<16:20:04, 12.46it/s]

{'loss': 0.429, 'learning_rate': 9.768e-05, 'epoch': 0.7}


  2%|▏         | 17602/750000 [24:53<16:12:37, 12.55it/s]

{'loss': 0.5434, 'learning_rate': 9.765333333333334e-05, 'epoch': 0.7}


  2%|▏         | 17802/750000 [25:09<16:20:13, 12.45it/s]

{'loss': 0.6034, 'learning_rate': 9.762666666666667e-05, 'epoch': 0.71}


  2%|▏         | 18002/750000 [25:25<16:22:31, 12.42it/s]

{'loss': 0.6469, 'learning_rate': 9.76e-05, 'epoch': 0.72}


  2%|▏         | 18202/750000 [25:41<16:41:08, 12.18it/s]

{'loss': 0.4984, 'learning_rate': 9.757333333333334e-05, 'epoch': 0.73}


  2%|▏         | 18402/750000 [25:58<17:20:33, 11.72it/s]

{'loss': 0.3955, 'learning_rate': 9.754666666666667e-05, 'epoch': 0.74}


  2%|▏         | 18602/750000 [26:14<16:25:17, 12.37it/s]

{'loss': 0.5673, 'learning_rate': 9.752e-05, 'epoch': 0.74}


  3%|▎         | 18802/750000 [26:30<16:20:38, 12.43it/s]

{'loss': 0.4026, 'learning_rate': 9.749333333333333e-05, 'epoch': 0.75}


  3%|▎         | 19002/750000 [26:47<16:11:48, 12.54it/s]

{'loss': 0.5605, 'learning_rate': 9.746666666666667e-05, 'epoch': 0.76}


  3%|▎         | 19202/750000 [27:03<16:22:53, 12.39it/s]

{'loss': 0.4907, 'learning_rate': 9.744000000000002e-05, 'epoch': 0.77}


  3%|▎         | 19402/750000 [27:19<17:30:56, 11.59it/s]

{'loss': 0.3689, 'learning_rate': 9.741333333333333e-05, 'epoch': 0.78}


  3%|▎         | 19602/750000 [27:35<16:40:06, 12.17it/s]

{'loss': 0.4155, 'learning_rate': 9.738666666666667e-05, 'epoch': 0.78}


  3%|▎         | 19802/750000 [27:51<16:25:38, 12.35it/s]

{'loss': 0.4525, 'learning_rate': 9.736e-05, 'epoch': 0.79}


  3%|▎         | 20002/750000 [28:07<16:06:48, 12.58it/s]

{'loss': 0.5562, 'learning_rate': 9.733333333333335e-05, 'epoch': 0.8}


  3%|▎         | 20202/750000 [28:23<16:31:19, 12.27it/s]

{'loss': 0.4264, 'learning_rate': 9.730666666666667e-05, 'epoch': 0.81}


  3%|▎         | 20402/750000 [28:39<16:05:33, 12.59it/s]

{'loss': 0.4046, 'learning_rate': 9.728e-05, 'epoch': 0.82}


  3%|▎         | 20602/750000 [28:55<16:18:23, 12.43it/s]

{'loss': 0.5654, 'learning_rate': 9.725333333333335e-05, 'epoch': 0.82}


  3%|▎         | 20802/750000 [29:11<16:09:24, 12.54it/s]

{'loss': 0.4563, 'learning_rate': 9.722666666666666e-05, 'epoch': 0.83}


  3%|▎         | 21002/750000 [29:27<16:10:23, 12.52it/s]

{'loss': 0.5051, 'learning_rate': 9.72e-05, 'epoch': 0.84}


  3%|▎         | 21202/750000 [29:43<16:11:10, 12.51it/s]

{'loss': 0.5086, 'learning_rate': 9.717333333333333e-05, 'epoch': 0.85}


  3%|▎         | 21402/750000 [29:58<16:03:10, 12.61it/s]

{'loss': 0.535, 'learning_rate': 9.714666666666668e-05, 'epoch': 0.86}


  3%|▎         | 21602/750000 [30:17<18:38:55, 10.85it/s]

{'loss': 0.4402, 'learning_rate': 9.712e-05, 'epoch': 0.86}


  3%|▎         | 21802/750000 [30:35<19:09:52, 10.55it/s]

{'loss': 0.4708, 'learning_rate': 9.709333333333333e-05, 'epoch': 0.87}


  3%|▎         | 22002/750000 [30:52<16:06:37, 12.55it/s]

{'loss': 0.5799, 'learning_rate': 9.706666666666668e-05, 'epoch': 0.88}


  3%|▎         | 22202/750000 [31:08<16:09:26, 12.51it/s]

{'loss': 0.4968, 'learning_rate': 9.704e-05, 'epoch': 0.89}


  3%|▎         | 22402/750000 [31:24<16:07:24, 12.54it/s]

{'loss': 0.4422, 'learning_rate': 9.701333333333334e-05, 'epoch': 0.9}


  3%|▎         | 22602/750000 [31:40<16:08:17, 12.52it/s]

{'loss': 0.4908, 'learning_rate': 9.698666666666666e-05, 'epoch': 0.9}


  3%|▎         | 22802/750000 [31:56<16:09:46, 12.50it/s]

{'loss': 0.3676, 'learning_rate': 9.696000000000001e-05, 'epoch': 0.91}


  3%|▎         | 23002/750000 [32:12<16:09:24, 12.50it/s]

{'loss': 0.6647, 'learning_rate': 9.693333333333335e-05, 'epoch': 0.92}


  3%|▎         | 23202/750000 [32:28<16:10:35, 12.48it/s]

{'loss': 0.5455, 'learning_rate': 9.690666666666666e-05, 'epoch': 0.93}


  3%|▎         | 23402/750000 [32:44<16:38:38, 12.13it/s]

{'loss': 0.4921, 'learning_rate': 9.688000000000001e-05, 'epoch': 0.94}


  3%|▎         | 23602/750000 [33:00<16:10:49, 12.47it/s]

{'loss': 0.5838, 'learning_rate': 9.685333333333334e-05, 'epoch': 0.94}


  3%|▎         | 23802/750000 [33:16<16:08:40, 12.49it/s]

{'loss': 0.4368, 'learning_rate': 9.682666666666668e-05, 'epoch': 0.95}


  3%|▎         | 24002/750000 [33:32<16:01:43, 12.58it/s]

{'loss': 0.4808, 'learning_rate': 9.680000000000001e-05, 'epoch': 0.96}


  3%|▎         | 24202/750000 [33:48<15:59:05, 12.61it/s]

{'loss': 0.4238, 'learning_rate': 9.677333333333334e-05, 'epoch': 0.97}


  3%|▎         | 24402/750000 [34:04<16:08:26, 12.49it/s]

{'loss': 0.4431, 'learning_rate': 9.674666666666668e-05, 'epoch': 0.98}


  3%|▎         | 24602/750000 [34:19<15:58:04, 12.62it/s]

{'loss': 0.5034, 'learning_rate': 9.672e-05, 'epoch': 0.98}


  3%|▎         | 24802/750000 [34:35<15:57:55, 12.62it/s]

{'loss': 0.3751, 'learning_rate': 9.669333333333334e-05, 'epoch': 0.99}


  3%|▎         | 25000/750000 [34:51<15:50:44, 12.71it/s]

{'loss': 0.5341, 'learning_rate': 9.666666666666667e-05, 'epoch': 1.0}


                                                         
  3%|▎         | 25000/750000 [46:13<15:50:44, 12.71it/s]

{'eval_loss': 0.45546194911003113, 'eval_accuracy': 0.90252, 'eval_runtime': 681.8729, 'eval_samples_per_second': 36.664, 'eval_steps_per_second': 4.583, 'epoch': 1.0}


  3%|▎         | 25201/750000 [46:30<16:09:19, 12.46it/s]    

{'loss': 0.2916, 'learning_rate': 9.664000000000001e-05, 'epoch': 1.01}


  3%|▎         | 25401/750000 [46:46<16:02:54, 12.54it/s]

{'loss': 0.4829, 'learning_rate': 9.661333333333334e-05, 'epoch': 1.02}


  3%|▎         | 25601/750000 [47:02<16:09:12, 12.46it/s]

{'loss': 0.3567, 'learning_rate': 9.658666666666667e-05, 'epoch': 1.02}


  3%|▎         | 25801/750000 [47:18<16:17:10, 12.35it/s]

{'loss': 0.5908, 'learning_rate': 9.656000000000001e-05, 'epoch': 1.03}


  3%|▎         | 26001/750000 [47:34<16:07:49, 12.47it/s]

{'loss': 0.4646, 'learning_rate': 9.653333333333334e-05, 'epoch': 1.04}


  3%|▎         | 26201/750000 [47:50<16:07:26, 12.47it/s]

{'loss': 0.3113, 'learning_rate': 9.650666666666667e-05, 'epoch': 1.05}


  4%|▎         | 26401/750000 [48:06<16:10:08, 12.43it/s]

{'loss': 0.4201, 'learning_rate': 9.648e-05, 'epoch': 1.06}


  4%|▎         | 26601/750000 [48:22<16:11:35, 12.41it/s]

{'loss': 0.2536, 'learning_rate': 9.645333333333334e-05, 'epoch': 1.06}


  4%|▎         | 26801/750000 [48:38<16:07:37, 12.46it/s]

{'loss': 0.2351, 'learning_rate': 9.642666666666667e-05, 'epoch': 1.07}


  4%|▎         | 27001/750000 [48:54<17:24:51, 11.53it/s]

{'loss': 0.4636, 'learning_rate': 9.64e-05, 'epoch': 1.08}


  4%|▎         | 27201/750000 [49:10<16:09:39, 12.42it/s]

{'loss': 0.4483, 'learning_rate': 9.637333333333334e-05, 'epoch': 1.09}


  4%|▎         | 27401/750000 [49:26<16:06:42, 12.46it/s]

{'loss': 0.4117, 'learning_rate': 9.634666666666667e-05, 'epoch': 1.1}


  4%|▎         | 27601/750000 [49:42<16:14:51, 12.35it/s]

{'loss': 0.3928, 'learning_rate': 9.632e-05, 'epoch': 1.1}


  4%|▎         | 27801/750000 [49:58<16:16:45, 12.32it/s]

{'loss': 0.4612, 'learning_rate': 9.629333333333334e-05, 'epoch': 1.11}


  4%|▎         | 28001/750000 [50:14<16:03:39, 12.49it/s]

{'loss': 0.4401, 'learning_rate': 9.626666666666667e-05, 'epoch': 1.12}


  4%|▍         | 28201/750000 [50:30<16:11:45, 12.38it/s]

{'loss': 0.4517, 'learning_rate': 9.624000000000001e-05, 'epoch': 1.13}


  4%|▍         | 28401/750000 [50:47<17:04:33, 11.74it/s]

{'loss': 0.3906, 'learning_rate': 9.621333333333333e-05, 'epoch': 1.14}


  4%|▍         | 28601/750000 [51:03<15:55:20, 12.59it/s]

{'loss': 0.4406, 'learning_rate': 9.618666666666667e-05, 'epoch': 1.14}


  4%|▍         | 28801/750000 [51:19<16:03:02, 12.48it/s]

{'loss': 0.3082, 'learning_rate': 9.616e-05, 'epoch': 1.15}


  4%|▍         | 29001/750000 [51:35<16:19:24, 12.27it/s]

{'loss': 0.5075, 'learning_rate': 9.613333333333334e-05, 'epoch': 1.16}


  4%|▍         | 29201/750000 [51:51<16:04:01, 12.46it/s]

{'loss': 0.3663, 'learning_rate': 9.610666666666667e-05, 'epoch': 1.17}


  4%|▍         | 29401/750000 [52:08<18:24:32, 10.87it/s]

{'loss': 0.3153, 'learning_rate': 9.608e-05, 'epoch': 1.18}


  4%|▍         | 29601/750000 [52:26<18:31:19, 10.80it/s]

{'loss': 0.3786, 'learning_rate': 9.605333333333334e-05, 'epoch': 1.18}


  4%|▍         | 29801/750000 [52:42<16:09:30, 12.38it/s]

{'loss': 0.407, 'learning_rate': 9.602666666666667e-05, 'epoch': 1.19}


  4%|▍         | 30001/750000 [53:00<18:26:12, 10.85it/s]

{'loss': 0.3976, 'learning_rate': 9.6e-05, 'epoch': 1.2}


  4%|▍         | 30201/750000 [53:16<15:56:11, 12.55it/s]

{'loss': 0.4185, 'learning_rate': 9.597333333333333e-05, 'epoch': 1.21}


  4%|▍         | 30401/750000 [53:33<19:36:24, 10.19it/s]

{'loss': 0.5128, 'learning_rate': 9.594666666666667e-05, 'epoch': 1.22}


  4%|▍         | 30601/750000 [53:49<15:55:17, 12.55it/s]

{'loss': 0.4778, 'learning_rate': 9.592e-05, 'epoch': 1.22}


  4%|▍         | 30801/750000 [54:05<15:55:57, 12.54it/s]

{'loss': 0.3237, 'learning_rate': 9.589333333333333e-05, 'epoch': 1.23}


  4%|▍         | 31001/750000 [54:21<15:49:54, 12.62it/s]

{'loss': 0.3887, 'learning_rate': 9.586666666666667e-05, 'epoch': 1.24}


  4%|▍         | 31201/750000 [54:37<15:59:59, 12.48it/s]

{'loss': 0.5164, 'learning_rate': 9.584e-05, 'epoch': 1.25}


  4%|▍         | 31401/750000 [54:53<16:01:03, 12.46it/s]

{'loss': 0.3625, 'learning_rate': 9.581333333333333e-05, 'epoch': 1.26}


  4%|▍         | 31601/750000 [55:09<15:56:20, 12.52it/s]

{'loss': 0.3718, 'learning_rate': 9.578666666666668e-05, 'epoch': 1.26}


  4%|▍         | 31801/750000 [55:25<15:57:21, 12.50it/s]

{'loss': 0.3767, 'learning_rate': 9.576e-05, 'epoch': 1.27}


  4%|▍         | 32001/750000 [55:41<15:57:50, 12.49it/s]

{'loss': 0.3948, 'learning_rate': 9.573333333333335e-05, 'epoch': 1.28}


  4%|▍         | 32201/750000 [55:57<16:05:23, 12.39it/s]

{'loss': 0.344, 'learning_rate': 9.570666666666666e-05, 'epoch': 1.29}


  4%|▍         | 32401/750000 [56:12<15:56:05, 12.51it/s]

{'loss': 0.4605, 'learning_rate': 9.568e-05, 'epoch': 1.3}


  4%|▍         | 32601/750000 [56:28<16:11:47, 12.30it/s]

{'loss': 0.5092, 'learning_rate': 9.565333333333333e-05, 'epoch': 1.3}


  4%|▍         | 32801/750000 [56:44<16:05:19, 12.38it/s]

{'loss': 0.4121, 'learning_rate': 9.562666666666668e-05, 'epoch': 1.31}


  4%|▍         | 33001/750000 [57:00<16:05:59, 12.37it/s]

{'loss': 0.4678, 'learning_rate': 9.56e-05, 'epoch': 1.32}


  4%|▍         | 33201/750000 [57:16<16:29:29, 12.07it/s]

{'loss': 0.4715, 'learning_rate': 9.557333333333334e-05, 'epoch': 1.33}


  4%|▍         | 33401/750000 [57:33<15:58:03, 12.47it/s]

{'loss': 0.4551, 'learning_rate': 9.554666666666668e-05, 'epoch': 1.34}


  4%|▍         | 33601/750000 [57:48<16:23:56, 12.13it/s]

{'loss': 0.4568, 'learning_rate': 9.552000000000001e-05, 'epoch': 1.34}


  5%|▍         | 33801/750000 [58:04<16:07:38, 12.34it/s]

{'loss': 0.4545, 'learning_rate': 9.549333333333334e-05, 'epoch': 1.35}


  5%|▍         | 34001/750000 [58:20<15:54:48, 12.50it/s]

{'loss': 0.3809, 'learning_rate': 9.546666666666667e-05, 'epoch': 1.36}


  5%|▍         | 34201/750000 [58:36<15:59:12, 12.44it/s]

{'loss': 0.4784, 'learning_rate': 9.544000000000001e-05, 'epoch': 1.37}


  5%|▍         | 34401/750000 [58:52<15:49:41, 12.56it/s]

{'loss': 0.4637, 'learning_rate': 9.541333333333334e-05, 'epoch': 1.38}


  5%|▍         | 34601/750000 [59:08<16:06:43, 12.33it/s]

{'loss': 0.3606, 'learning_rate': 9.538666666666667e-05, 'epoch': 1.38}


  5%|▍         | 34801/750000 [59:24<16:05:39, 12.34it/s]

{'loss': 0.3682, 'learning_rate': 9.536000000000001e-05, 'epoch': 1.39}


  5%|▍         | 35001/750000 [59:40<16:02:41, 12.38it/s]

{'loss': 0.336, 'learning_rate': 9.533333333333334e-05, 'epoch': 1.4}


  5%|▍         | 35201/750000 [59:57<15:59:10, 12.42it/s]

{'loss': 0.3235, 'learning_rate': 9.530666666666667e-05, 'epoch': 1.41}


  5%|▍         | 35401/750000 [1:00:13<16:00:52, 12.39it/s]

{'loss': 0.5069, 'learning_rate': 9.528000000000001e-05, 'epoch': 1.42}


  5%|▍         | 35601/750000 [1:00:29<15:57:08, 12.44it/s]

{'loss': 0.3238, 'learning_rate': 9.525333333333334e-05, 'epoch': 1.42}


  5%|▍         | 35801/750000 [1:00:45<16:06:53, 12.31it/s]

{'loss': 0.3853, 'learning_rate': 9.522666666666668e-05, 'epoch': 1.43}


  5%|▍         | 36001/750000 [1:01:01<15:42:18, 12.63it/s]

{'loss': 0.624, 'learning_rate': 9.52e-05, 'epoch': 1.44}


  5%|▍         | 36201/750000 [1:01:17<15:55:56, 12.44it/s]

{'loss': 0.395, 'learning_rate': 9.517333333333334e-05, 'epoch': 1.45}


  5%|▍         | 36401/750000 [1:01:33<16:24:35, 12.08it/s]

{'loss': 0.2833, 'learning_rate': 9.514666666666667e-05, 'epoch': 1.46}


  5%|▍         | 36601/750000 [1:01:49<15:45:44, 12.57it/s]

{'loss': 0.4495, 'learning_rate': 9.512000000000001e-05, 'epoch': 1.46}


  5%|▍         | 36801/750000 [1:02:05<15:54:32, 12.45it/s]

{'loss': 0.4071, 'learning_rate': 9.509333333333334e-05, 'epoch': 1.47}


  5%|▍         | 37001/750000 [1:02:21<15:58:14, 12.40it/s]

{'loss': 0.4671, 'learning_rate': 9.506666666666667e-05, 'epoch': 1.48}


  5%|▍         | 37201/750000 [1:02:37<15:56:01, 12.43it/s]

{'loss': 0.3845, 'learning_rate': 9.504000000000001e-05, 'epoch': 1.49}


  5%|▍         | 37401/750000 [1:02:53<15:53:09, 12.46it/s]

{'loss': 0.4333, 'learning_rate': 9.501333333333334e-05, 'epoch': 1.5}


  5%|▌         | 37601/750000 [1:03:09<15:58:10, 12.39it/s]

{'loss': 0.4473, 'learning_rate': 9.498666666666667e-05, 'epoch': 1.5}


  5%|▌         | 37801/750000 [1:03:25<16:01:04, 12.35it/s]

{'loss': 0.4643, 'learning_rate': 9.496e-05, 'epoch': 1.51}


  5%|▌         | 38001/750000 [1:03:41<15:59:06, 12.37it/s]

{'loss': 0.3261, 'learning_rate': 9.493333333333334e-05, 'epoch': 1.52}


  5%|▌         | 38201/750000 [1:03:57<15:49:59, 12.49it/s]

{'loss': 0.397, 'learning_rate': 9.490666666666667e-05, 'epoch': 1.53}


  5%|▌         | 38401/750000 [1:04:13<16:01:42, 12.33it/s]

{'loss': 0.4137, 'learning_rate': 9.488e-05, 'epoch': 1.54}


  5%|▌         | 38601/750000 [1:04:29<15:47:08, 12.52it/s]

{'loss': 0.3578, 'learning_rate': 9.485333333333334e-05, 'epoch': 1.54}


  5%|▌         | 38801/750000 [1:04:45<15:54:56, 12.41it/s]

{'loss': 0.3475, 'learning_rate': 9.482666666666667e-05, 'epoch': 1.55}


  5%|▌         | 39001/750000 [1:05:01<16:01:12, 12.33it/s]

{'loss': 0.4682, 'learning_rate': 9.48e-05, 'epoch': 1.56}


  5%|▌         | 39201/750000 [1:05:17<15:57:27, 12.37it/s]

{'loss': 0.5148, 'learning_rate': 9.477333333333333e-05, 'epoch': 1.57}


  5%|▌         | 39401/750000 [1:05:33<15:58:59, 12.35it/s]

{'loss': 0.4283, 'learning_rate': 9.474666666666667e-05, 'epoch': 1.58}


  5%|▌         | 39601/750000 [1:05:49<15:58:39, 12.35it/s]

{'loss': 0.4222, 'learning_rate': 9.472000000000001e-05, 'epoch': 1.58}


  5%|▌         | 39801/750000 [1:06:05<15:41:46, 12.57it/s]

{'loss': 0.4261, 'learning_rate': 9.469333333333333e-05, 'epoch': 1.59}


  5%|▌         | 40001/750000 [1:06:21<16:10:59, 12.19it/s]

{'loss': 0.2978, 'learning_rate': 9.466666666666667e-05, 'epoch': 1.6}


  5%|▌         | 40201/750000 [1:06:37<16:03:26, 12.28it/s]

{'loss': 0.5031, 'learning_rate': 9.464e-05, 'epoch': 1.61}


  5%|▌         | 40401/750000 [1:06:53<15:45:45, 12.50it/s]

{'loss': 0.333, 'learning_rate': 9.461333333333334e-05, 'epoch': 1.62}


  5%|▌         | 40601/750000 [1:07:11<18:22:48, 10.72it/s]

{'loss': 0.3207, 'learning_rate': 9.458666666666667e-05, 'epoch': 1.62}


  5%|▌         | 40801/750000 [1:07:29<15:47:37, 12.47it/s]

{'loss': 0.4301, 'learning_rate': 9.456e-05, 'epoch': 1.63}


  5%|▌         | 41002/750000 [1:07:46<15:46:11, 12.49it/s]

{'loss': 0.2995, 'learning_rate': 9.453333333333335e-05, 'epoch': 1.64}


  5%|▌         | 41202/750000 [1:08:03<18:08:13, 10.86it/s]

{'loss': 0.5112, 'learning_rate': 9.450666666666667e-05, 'epoch': 1.65}


  6%|▌         | 41401/750000 [1:08:20<15:45:58, 12.48it/s]

{'loss': 0.3103, 'learning_rate': 9.448e-05, 'epoch': 1.66}


  6%|▌         | 41601/750000 [1:08:36<15:53:14, 12.39it/s]

{'loss': 0.3842, 'learning_rate': 9.445333333333333e-05, 'epoch': 1.66}


  6%|▌         | 41801/750000 [1:08:52<15:57:52, 12.32it/s]

{'loss': 0.3155, 'learning_rate': 9.442666666666668e-05, 'epoch': 1.67}


  6%|▌         | 42001/750000 [1:09:08<16:38:38, 11.82it/s]

{'loss': 0.4892, 'learning_rate': 9.44e-05, 'epoch': 1.68}


  6%|▌         | 42201/750000 [1:09:24<15:59:59, 12.29it/s]

{'loss': 0.3397, 'learning_rate': 9.437333333333333e-05, 'epoch': 1.69}


  6%|▌         | 42401/750000 [1:09:40<16:05:45, 12.21it/s]

{'loss': 0.5799, 'learning_rate': 9.434666666666668e-05, 'epoch': 1.7}


  6%|▌         | 42601/750000 [1:09:56<15:42:32, 12.51it/s]

{'loss': 0.5831, 'learning_rate': 9.432e-05, 'epoch': 1.7}


  6%|▌         | 42801/750000 [1:10:12<15:43:26, 12.49it/s]

{'loss': 0.5737, 'learning_rate': 9.429333333333333e-05, 'epoch': 1.71}


  6%|▌         | 43001/750000 [1:10:28<15:41:06, 12.52it/s]

{'loss': 0.4758, 'learning_rate': 9.426666666666666e-05, 'epoch': 1.72}


  6%|▌         | 43201/750000 [1:10:44<15:44:02, 12.48it/s]

{'loss': 0.4753, 'learning_rate': 9.424e-05, 'epoch': 1.73}


  6%|▌         | 43401/750000 [1:11:00<15:42:01, 12.50it/s]

{'loss': 0.4372, 'learning_rate': 9.421333333333335e-05, 'epoch': 1.74}


  6%|▌         | 43601/750000 [1:11:16<15:37:16, 12.56it/s]

{'loss': 0.4886, 'learning_rate': 9.418666666666666e-05, 'epoch': 1.74}


  6%|▌         | 43801/750000 [1:11:33<16:30:17, 11.89it/s]

{'loss': 0.4012, 'learning_rate': 9.416e-05, 'epoch': 1.75}


  6%|▌         | 44001/750000 [1:11:49<15:52:58, 12.35it/s]

{'loss': 0.3317, 'learning_rate': 9.413333333333334e-05, 'epoch': 1.76}


  6%|▌         | 44201/750000 [1:12:05<16:02:16, 12.22it/s]

{'loss': 0.5351, 'learning_rate': 9.410666666666668e-05, 'epoch': 1.77}


  6%|▌         | 44401/750000 [1:12:21<15:34:02, 12.59it/s]

{'loss': 0.4459, 'learning_rate': 9.408000000000001e-05, 'epoch': 1.78}


  6%|▌         | 44601/750000 [1:12:37<15:40:32, 12.50it/s]

{'loss': 0.5046, 'learning_rate': 9.405333333333334e-05, 'epoch': 1.78}


  6%|▌         | 44801/750000 [1:12:53<15:45:23, 12.43it/s]

{'loss': 0.4008, 'learning_rate': 9.402666666666668e-05, 'epoch': 1.79}


  6%|▌         | 45001/750000 [1:13:09<15:37:33, 12.53it/s]

{'loss': 0.5054, 'learning_rate': 9.4e-05, 'epoch': 1.8}


  6%|▌         | 45201/750000 [1:13:25<16:01:20, 12.22it/s]

{'loss': 0.4367, 'learning_rate': 9.397333333333334e-05, 'epoch': 1.81}


  6%|▌         | 45401/750000 [1:13:41<15:46:41, 12.40it/s]

{'loss': 0.3786, 'learning_rate': 9.394666666666667e-05, 'epoch': 1.82}


  6%|▌         | 45601/750000 [1:13:57<15:45:20, 12.42it/s]

{'loss': 0.3536, 'learning_rate': 9.392000000000001e-05, 'epoch': 1.82}


  6%|▌         | 45801/750000 [1:14:13<15:47:11, 12.39it/s]

{'loss': 0.5404, 'learning_rate': 9.389333333333334e-05, 'epoch': 1.83}


  6%|▌         | 46001/750000 [1:14:29<16:20:10, 11.97it/s]

{'loss': 0.3184, 'learning_rate': 9.386666666666667e-05, 'epoch': 1.84}


  6%|▌         | 46201/750000 [1:14:45<15:53:30, 12.30it/s]

{'loss': 0.3514, 'learning_rate': 9.384000000000001e-05, 'epoch': 1.85}


  6%|▌         | 46401/750000 [1:15:01<15:47:41, 12.37it/s]

{'loss': 0.5868, 'learning_rate': 9.381333333333334e-05, 'epoch': 1.86}


  6%|▌         | 46601/750000 [1:15:17<15:43:18, 12.43it/s]

{'loss': 0.3993, 'learning_rate': 9.378666666666667e-05, 'epoch': 1.86}


  6%|▌         | 46801/750000 [1:15:33<15:58:18, 12.23it/s]

{'loss': 0.3451, 'learning_rate': 9.376e-05, 'epoch': 1.87}


  6%|▋         | 47001/750000 [1:15:49<15:46:38, 12.38it/s]

{'loss': 0.5242, 'learning_rate': 9.373333333333334e-05, 'epoch': 1.88}


  6%|▋         | 47201/750000 [1:16:05<15:23:30, 12.68it/s]

{'loss': 0.4183, 'learning_rate': 9.370666666666668e-05, 'epoch': 1.89}


  6%|▋         | 47401/750000 [1:16:21<17:50:45, 10.94it/s]

{'loss': 0.4712, 'learning_rate': 9.368e-05, 'epoch': 1.9}


  6%|▋         | 47601/750000 [1:16:37<15:49:58, 12.32it/s]

{'loss': 0.4212, 'learning_rate': 9.365333333333334e-05, 'epoch': 1.9}


  6%|▋         | 47801/750000 [1:16:54<15:35:13, 12.51it/s]

{'loss': 0.4825, 'learning_rate': 9.362666666666667e-05, 'epoch': 1.91}


  6%|▋         | 48001/750000 [1:17:10<15:43:41, 12.40it/s]

{'loss': 0.2595, 'learning_rate': 9.360000000000001e-05, 'epoch': 1.92}


  6%|▋         | 48201/750000 [1:17:26<15:34:13, 12.52it/s]

{'loss': 0.4136, 'learning_rate': 9.357333333333334e-05, 'epoch': 1.93}


  6%|▋         | 48401/750000 [1:17:42<15:45:43, 12.36it/s]

{'loss': 0.4877, 'learning_rate': 9.354666666666667e-05, 'epoch': 1.94}


  6%|▋         | 48601/750000 [1:17:58<15:41:33, 12.42it/s]

{'loss': 0.5111, 'learning_rate': 9.352000000000001e-05, 'epoch': 1.94}


  7%|▋         | 48801/750000 [1:18:14<15:55:23, 12.23it/s]

{'loss': 0.3339, 'learning_rate': 9.349333333333333e-05, 'epoch': 1.95}


  7%|▋         | 49001/750000 [1:18:30<15:45:21, 12.36it/s]

{'loss': 0.3374, 'learning_rate': 9.346666666666667e-05, 'epoch': 1.96}


  7%|▋         | 49201/750000 [1:18:46<15:54:24, 12.24it/s]

{'loss': 0.4237, 'learning_rate': 9.344e-05, 'epoch': 1.97}


  7%|▋         | 49401/750000 [1:19:02<15:41:21, 12.40it/s]

{'loss': 0.5417, 'learning_rate': 9.341333333333334e-05, 'epoch': 1.98}


  7%|▋         | 49601/750000 [1:19:18<15:39:36, 12.42it/s]

{'loss': 0.2866, 'learning_rate': 9.338666666666667e-05, 'epoch': 1.98}


  7%|▋         | 49801/750000 [1:19:34<15:45:20, 12.34it/s]

{'loss': 0.3822, 'learning_rate': 9.336e-05, 'epoch': 1.99}


  7%|▋         | 50000/750000 [1:19:50<15:11:03, 12.81it/s]

{'loss': 0.5121, 'learning_rate': 9.333333333333334e-05, 'epoch': 2.0}


                                                           
  7%|▋         | 50000/750000 [1:31:11<15:11:03, 12.81it/s]

{'eval_loss': 0.3699849545955658, 'eval_accuracy': 0.91728, 'eval_runtime': 680.3705, 'eval_samples_per_second': 36.745, 'eval_steps_per_second': 4.593, 'epoch': 2.0}


  7%|▋         | 50201/750000 [1:31:29<18:09:56, 10.70it/s]    

{'loss': 0.2461, 'learning_rate': 9.330666666666667e-05, 'epoch': 2.01}


  7%|▋         | 50401/750000 [1:31:46<15:31:04, 12.52it/s]

{'loss': 0.2813, 'learning_rate': 9.328e-05, 'epoch': 2.02}


  7%|▋         | 50601/750000 [1:32:01<15:39:49, 12.40it/s]

{'loss': 0.3015, 'learning_rate': 9.325333333333333e-05, 'epoch': 2.02}


  7%|▋         | 50801/750000 [1:32:19<15:15:57, 12.72it/s]

{'loss': 0.3619, 'learning_rate': 9.322666666666667e-05, 'epoch': 2.03}


  7%|▋         | 51001/750000 [1:32:35<15:35:56, 12.45it/s]

{'loss': 0.3237, 'learning_rate': 9.320000000000002e-05, 'epoch': 2.04}


  7%|▋         | 51201/750000 [1:32:50<15:23:41, 12.61it/s]

{'loss': 0.2865, 'learning_rate': 9.317333333333333e-05, 'epoch': 2.05}


  7%|▋         | 51402/750000 [1:33:09<18:11:25, 10.67it/s]

{'loss': 0.2807, 'learning_rate': 9.314666666666667e-05, 'epoch': 2.06}


  7%|▋         | 51602/750000 [1:33:27<18:22:30, 10.56it/s]

{'loss': 0.2806, 'learning_rate': 9.312e-05, 'epoch': 2.06}


  7%|▋         | 51801/750000 [1:33:44<15:30:50, 12.50it/s]

{'loss': 0.3495, 'learning_rate': 9.309333333333333e-05, 'epoch': 2.07}


  7%|▋         | 52001/750000 [1:33:59<15:18:51, 12.66it/s]

{'loss': 0.3766, 'learning_rate': 9.306666666666667e-05, 'epoch': 2.08}


  7%|▋         | 52201/750000 [1:34:15<15:22:01, 12.61it/s]

{'loss': 0.1917, 'learning_rate': 9.304e-05, 'epoch': 2.09}


  7%|▋         | 52401/750000 [1:34:31<15:18:21, 12.66it/s]

{'loss': 0.2816, 'learning_rate': 9.301333333333335e-05, 'epoch': 2.1}


  7%|▋         | 52601/750000 [1:34:46<15:22:58, 12.59it/s]

{'loss': 0.2434, 'learning_rate': 9.298666666666666e-05, 'epoch': 2.1}


  7%|▋         | 52801/750000 [1:35:03<15:14:53, 12.70it/s]

{'loss': 0.2289, 'learning_rate': 9.296e-05, 'epoch': 2.11}


  7%|▋         | 53001/750000 [1:35:19<15:21:40, 12.60it/s]

{'loss': 0.3231, 'learning_rate': 9.293333333333333e-05, 'epoch': 2.12}


  7%|▋         | 53201/750000 [1:35:36<15:09:04, 12.77it/s]

{'loss': 0.3226, 'learning_rate': 9.290666666666668e-05, 'epoch': 2.13}


  7%|▋         | 53401/750000 [1:35:52<15:15:24, 12.68it/s]

{'loss': 0.2667, 'learning_rate': 9.288e-05, 'epoch': 2.14}


  7%|▋         | 53601/750000 [1:36:10<15:22:14, 12.59it/s]

{'loss': 0.3502, 'learning_rate': 9.285333333333333e-05, 'epoch': 2.14}


  7%|▋         | 53801/750000 [1:36:26<15:21:37, 12.59it/s]

{'loss': 0.3315, 'learning_rate': 9.282666666666668e-05, 'epoch': 2.15}


  7%|▋         | 54001/750000 [1:36:43<17:34:47, 11.00it/s]

{'loss': 0.3019, 'learning_rate': 9.28e-05, 'epoch': 2.16}


  7%|▋         | 54201/750000 [1:36:59<17:36:25, 10.98it/s]

{'loss': 0.2704, 'learning_rate': 9.277333333333334e-05, 'epoch': 2.17}


  7%|▋         | 54401/750000 [1:37:17<19:04:43, 10.13it/s]

{'loss': 0.2575, 'learning_rate': 9.274666666666666e-05, 'epoch': 2.18}


  7%|▋         | 54601/750000 [1:37:35<18:14:47, 10.59it/s]

{'loss': 0.5237, 'learning_rate': 9.272e-05, 'epoch': 2.18}


  7%|▋         | 54801/750000 [1:37:54<18:13:34, 10.60it/s]

{'loss': 0.4389, 'learning_rate': 9.269333333333335e-05, 'epoch': 2.19}


  7%|▋         | 55001/750000 [1:38:11<16:02:16, 12.04it/s]

{'loss': 0.3134, 'learning_rate': 9.266666666666666e-05, 'epoch': 2.2}


  7%|▋         | 55201/750000 [1:38:30<19:58:39,  9.66it/s]

{'loss': 0.4177, 'learning_rate': 9.264000000000001e-05, 'epoch': 2.21}


  7%|▋         | 55401/750000 [1:38:46<15:18:13, 12.61it/s]

{'loss': 0.3682, 'learning_rate': 9.261333333333334e-05, 'epoch': 2.22}


  7%|▋         | 55601/750000 [1:39:02<15:17:51, 12.61it/s]

{'loss': 0.3714, 'learning_rate': 9.258666666666667e-05, 'epoch': 2.22}


  7%|▋         | 55801/750000 [1:39:18<15:08:50, 12.73it/s]

{'loss': 0.3268, 'learning_rate': 9.256000000000001e-05, 'epoch': 2.23}


  7%|▋         | 56001/750000 [1:39:33<15:11:07, 12.69it/s]

{'loss': 0.3684, 'learning_rate': 9.253333333333334e-05, 'epoch': 2.24}


  7%|▋         | 56201/750000 [1:39:49<15:19:19, 12.58it/s]

{'loss': 0.3473, 'learning_rate': 9.250666666666668e-05, 'epoch': 2.25}


  8%|▊         | 56401/750000 [1:40:06<17:35:08, 10.96it/s]

{'loss': 0.3682, 'learning_rate': 9.248e-05, 'epoch': 2.26}


  8%|▊         | 56601/750000 [1:40:22<15:14:29, 12.64it/s]

{'loss': 0.2966, 'learning_rate': 9.245333333333334e-05, 'epoch': 2.26}


  8%|▊         | 56801/750000 [1:40:38<14:56:12, 12.89it/s]

{'loss': 0.151, 'learning_rate': 9.242666666666667e-05, 'epoch': 2.27}


  8%|▊         | 57001/750000 [1:40:53<15:05:25, 12.76it/s]

{'loss': 0.4236, 'learning_rate': 9.240000000000001e-05, 'epoch': 2.28}


  8%|▊         | 57201/750000 [1:41:11<17:32:05, 10.98it/s]

{'loss': 0.404, 'learning_rate': 9.237333333333334e-05, 'epoch': 2.29}


  8%|▊         | 57401/750000 [1:41:29<17:23:15, 11.06it/s]

{'loss': 0.275, 'learning_rate': 9.234666666666667e-05, 'epoch': 2.3}


  8%|▊         | 57601/750000 [1:41:47<15:11:25, 12.66it/s]

{'loss': 0.3533, 'learning_rate': 9.232000000000001e-05, 'epoch': 2.3}


  8%|▊         | 57801/750000 [1:42:02<15:11:18, 12.66it/s]

{'loss': 0.2919, 'learning_rate': 9.229333333333334e-05, 'epoch': 2.31}


  8%|▊         | 58001/750000 [1:42:18<15:10:50, 12.66it/s]

{'loss': 0.2358, 'learning_rate': 9.226666666666667e-05, 'epoch': 2.32}


  8%|▊         | 58201/750000 [1:42:34<15:08:19, 12.69it/s]

{'loss': 0.3016, 'learning_rate': 9.224e-05, 'epoch': 2.33}


  8%|▊         | 58401/750000 [1:42:50<15:17:07, 12.57it/s]

{'loss': 0.264, 'learning_rate': 9.221333333333334e-05, 'epoch': 2.34}


  8%|▊         | 58601/750000 [1:43:06<15:16:08, 12.58it/s]

{'loss': 0.374, 'learning_rate': 9.218666666666667e-05, 'epoch': 2.34}


  8%|▊         | 58801/750000 [1:43:21<15:15:42, 12.58it/s]

{'loss': 0.339, 'learning_rate': 9.216e-05, 'epoch': 2.35}


  8%|▊         | 59001/750000 [1:43:38<17:31:46, 10.95it/s]

{'loss': 0.4495, 'learning_rate': 9.213333333333334e-05, 'epoch': 2.36}


  8%|▊         | 59201/750000 [1:43:55<15:41:55, 12.22it/s]

{'loss': 0.3526, 'learning_rate': 9.210666666666667e-05, 'epoch': 2.37}


  8%|▊         | 59401/750000 [1:44:11<15:08:28, 12.67it/s]

{'loss': 0.2752, 'learning_rate': 9.208e-05, 'epoch': 2.38}


  8%|▊         | 59601/750000 [1:44:28<17:55:25, 10.70it/s]

{'loss': 0.2699, 'learning_rate': 9.205333333333334e-05, 'epoch': 2.38}


  8%|▊         | 59802/750000 [1:44:46<14:59:24, 12.79it/s]

{'loss': 0.3356, 'learning_rate': 9.202666666666667e-05, 'epoch': 2.39}


  8%|▊         | 60001/750000 [1:45:02<15:18:22, 12.52it/s]

{'loss': 0.4613, 'learning_rate': 9.200000000000001e-05, 'epoch': 2.4}


  8%|▊         | 60201/750000 [1:45:18<15:14:18, 12.57it/s]

{'loss': 0.2443, 'learning_rate': 9.197333333333333e-05, 'epoch': 2.41}


  8%|▊         | 60401/750000 [1:45:34<15:23:30, 12.45it/s]

{'loss': 0.4425, 'learning_rate': 9.194666666666667e-05, 'epoch': 2.42}


  8%|▊         | 60601/750000 [1:45:50<17:25:34, 10.99it/s]

{'loss': 0.3508, 'learning_rate': 9.192e-05, 'epoch': 2.42}


  8%|▊         | 60801/750000 [1:46:08<17:49:37, 10.74it/s]

{'loss': 0.311, 'learning_rate': 9.189333333333334e-05, 'epoch': 2.43}


  8%|▊         | 61001/750000 [1:46:26<17:35:20, 10.88it/s]

{'loss': 0.3519, 'learning_rate': 9.186666666666667e-05, 'epoch': 2.44}


  8%|▊         | 61201/750000 [1:46:43<17:59:40, 10.63it/s]

{'loss': 0.287, 'learning_rate': 9.184e-05, 'epoch': 2.45}


  8%|▊         | 61401/750000 [1:47:01<17:31:40, 10.91it/s]

{'loss': 0.3637, 'learning_rate': 9.181333333333334e-05, 'epoch': 2.46}


  8%|▊         | 61601/750000 [1:47:20<17:21:47, 11.01it/s]

{'loss': 0.3273, 'learning_rate': 9.178666666666667e-05, 'epoch': 2.46}


  8%|▊         | 61801/750000 [1:47:38<17:17:37, 11.05it/s]

{'loss': 0.1858, 'learning_rate': 9.176e-05, 'epoch': 2.47}


  8%|▊         | 62001/750000 [1:47:54<15:02:41, 12.70it/s]

{'loss': 0.3072, 'learning_rate': 9.173333333333333e-05, 'epoch': 2.48}


  8%|▊         | 62201/750000 [1:48:11<17:26:15, 10.96it/s]

{'loss': 0.3151, 'learning_rate': 9.170666666666667e-05, 'epoch': 2.49}


  8%|▊         | 62401/750000 [1:48:29<17:15:31, 11.07it/s]

{'loss': 0.2313, 'learning_rate': 9.168e-05, 'epoch': 2.5}


  8%|▊         | 62601/750000 [1:48:45<15:29:50, 12.32it/s]

{'loss': 0.3113, 'learning_rate': 9.165333333333333e-05, 'epoch': 2.5}


  8%|▊         | 62801/750000 [1:49:00<15:12:21, 12.55it/s]

{'loss': 0.3659, 'learning_rate': 9.162666666666667e-05, 'epoch': 2.51}


  8%|▊         | 63001/750000 [1:49:18<15:07:23, 12.62it/s]

{'loss': 0.3841, 'learning_rate': 9.16e-05, 'epoch': 2.52}


  8%|▊         | 63201/750000 [1:49:34<15:21:14, 12.43it/s]

{'loss': 0.3328, 'learning_rate': 9.157333333333333e-05, 'epoch': 2.53}


  8%|▊         | 63401/750000 [1:49:50<18:06:02, 10.54it/s]

{'loss': 0.2602, 'learning_rate': 9.154666666666668e-05, 'epoch': 2.54}


  8%|▊         | 63602/750000 [1:50:09<17:50:37, 10.69it/s]

{'loss': 0.402, 'learning_rate': 9.152e-05, 'epoch': 2.54}


  9%|▊         | 63802/750000 [1:50:27<14:59:10, 12.72it/s]

{'loss': 0.183, 'learning_rate': 9.149333333333335e-05, 'epoch': 2.55}


  9%|▊         | 64002/750000 [1:50:43<15:48:35, 12.05it/s]

{'loss': 0.371, 'learning_rate': 9.146666666666666e-05, 'epoch': 2.56}


  9%|▊         | 64202/750000 [1:51:00<17:13:09, 11.06it/s]

{'loss': 0.2228, 'learning_rate': 9.144e-05, 'epoch': 2.57}


  9%|▊         | 64402/750000 [1:51:17<16:54:01, 11.27it/s]

{'loss': 0.4086, 'learning_rate': 9.141333333333333e-05, 'epoch': 2.58}


  9%|▊         | 64602/750000 [1:51:33<16:07:02, 11.81it/s]

{'loss': 0.3206, 'learning_rate': 9.138666666666668e-05, 'epoch': 2.58}


  9%|▊         | 64802/750000 [1:51:51<17:11:14, 11.07it/s]

{'loss': 0.4543, 'learning_rate': 9.136e-05, 'epoch': 2.59}


  9%|▊         | 65002/750000 [1:52:09<15:23:36, 12.36it/s]

{'loss': 0.39, 'learning_rate': 9.133333333333334e-05, 'epoch': 2.6}


  9%|▊         | 65202/750000 [1:52:25<15:06:35, 12.59it/s]

{'loss': 0.4663, 'learning_rate': 9.130666666666668e-05, 'epoch': 2.61}


  9%|▊         | 65402/750000 [1:52:41<15:35:09, 12.20it/s]

{'loss': 0.331, 'learning_rate': 9.128e-05, 'epoch': 2.62}


  9%|▊         | 65602/750000 [1:52:58<18:13:19, 10.43it/s]

{'loss': 0.3264, 'learning_rate': 9.125333333333334e-05, 'epoch': 2.62}


  9%|▉         | 65802/750000 [1:53:14<15:02:27, 12.64it/s]

{'loss': 0.2882, 'learning_rate': 9.122666666666667e-05, 'epoch': 2.63}


  9%|▉         | 66002/750000 [1:53:30<15:00:45, 12.66it/s]

{'loss': 0.2987, 'learning_rate': 9.120000000000001e-05, 'epoch': 2.64}


  9%|▉         | 66202/750000 [1:53:48<17:08:18, 11.08it/s]

{'loss': 0.4166, 'learning_rate': 9.117333333333334e-05, 'epoch': 2.65}


  9%|▉         | 66402/750000 [1:54:06<17:59:00, 10.56it/s]

{'loss': 0.1769, 'learning_rate': 9.114666666666667e-05, 'epoch': 2.66}


  9%|▉         | 66602/750000 [1:54:25<17:47:51, 10.67it/s]

{'loss': 0.2612, 'learning_rate': 9.112000000000001e-05, 'epoch': 2.66}


  9%|▉         | 66802/750000 [1:54:43<14:59:06, 12.66it/s]

{'loss': 0.2294, 'learning_rate': 9.109333333333334e-05, 'epoch': 2.67}


  9%|▉         | 67002/750000 [1:54:59<14:46:00, 12.85it/s]

{'loss': 0.4113, 'learning_rate': 9.106666666666667e-05, 'epoch': 2.68}


  9%|▉         | 67202/750000 [1:55:16<17:11:39, 11.03it/s]

{'loss': 0.2739, 'learning_rate': 9.104000000000001e-05, 'epoch': 2.69}


  9%|▉         | 67402/750000 [1:55:34<17:05:05, 11.10it/s]

{'loss': 0.3658, 'learning_rate': 9.101333333333334e-05, 'epoch': 2.7}


  9%|▉         | 67602/750000 [1:55:52<17:12:15, 11.02it/s]

{'loss': 0.1995, 'learning_rate': 9.098666666666668e-05, 'epoch': 2.7}


  9%|▉         | 67802/750000 [1:56:10<17:17:31, 10.96it/s]

{'loss': 0.2365, 'learning_rate': 9.096e-05, 'epoch': 2.71}


  9%|▉         | 68002/750000 [1:56:28<18:25:23, 10.28it/s]

{'loss': 0.2593, 'learning_rate': 9.093333333333334e-05, 'epoch': 2.72}


  9%|▉         | 68202/750000 [1:56:44<15:15:09, 12.42it/s]

{'loss': 0.2628, 'learning_rate': 9.090666666666667e-05, 'epoch': 2.73}


  9%|▉         | 68402/750000 [1:57:00<14:54:35, 12.70it/s]

{'loss': 0.3671, 'learning_rate': 9.088000000000001e-05, 'epoch': 2.74}


  9%|▉         | 68602/750000 [1:57:15<14:57:43, 12.65it/s]

{'loss': 0.307, 'learning_rate': 9.085333333333334e-05, 'epoch': 2.74}


  9%|▉         | 68802/750000 [1:57:31<14:57:28, 12.65it/s]

{'loss': 0.2086, 'learning_rate': 9.082666666666667e-05, 'epoch': 2.75}


  9%|▉         | 69002/750000 [1:57:49<17:13:27, 10.98it/s]

{'loss': 0.3656, 'learning_rate': 9.080000000000001e-05, 'epoch': 2.76}


  9%|▉         | 69202/750000 [1:58:05<14:56:02, 12.66it/s]

{'loss': 0.4854, 'learning_rate': 9.077333333333333e-05, 'epoch': 2.77}


  9%|▉         | 69402/750000 [1:58:21<14:48:39, 12.76it/s]

{'loss': 0.3885, 'learning_rate': 9.074666666666667e-05, 'epoch': 2.78}


  9%|▉         | 69602/750000 [1:58:37<14:58:36, 12.62it/s]

{'loss': 0.3522, 'learning_rate': 9.072e-05, 'epoch': 2.78}


  9%|▉         | 69802/750000 [1:58:53<14:54:04, 12.68it/s]

{'loss': 0.3394, 'learning_rate': 9.069333333333334e-05, 'epoch': 2.79}


  9%|▉         | 70002/750000 [1:59:08<15:00:10, 12.59it/s]

{'loss': 0.3074, 'learning_rate': 9.066666666666667e-05, 'epoch': 2.8}


  9%|▉         | 70202/750000 [1:59:24<16:39:12, 11.34it/s]

{'loss': 0.3567, 'learning_rate': 9.064e-05, 'epoch': 2.81}


  9%|▉         | 70402/750000 [1:59:40<15:00:06, 12.58it/s]

{'loss': 0.4453, 'learning_rate': 9.061333333333334e-05, 'epoch': 2.82}


  9%|▉         | 70602/750000 [1:59:57<17:20:01, 10.89it/s]

{'loss': 0.4278, 'learning_rate': 9.058666666666667e-05, 'epoch': 2.82}


  9%|▉         | 70802/750000 [2:00:13<14:54:32, 12.65it/s]

{'loss': 0.3836, 'learning_rate': 9.056e-05, 'epoch': 2.83}


  9%|▉         | 71002/750000 [2:00:29<17:07:33, 11.01it/s]

{'loss': 0.3881, 'learning_rate': 9.053333333333334e-05, 'epoch': 2.84}


  9%|▉         | 71202/750000 [2:00:47<17:34:58, 10.72it/s]

{'loss': 0.2945, 'learning_rate': 9.050666666666667e-05, 'epoch': 2.85}


 10%|▉         | 71402/750000 [2:01:05<17:02:08, 11.07it/s]

{'loss': 0.3544, 'learning_rate': 9.048000000000001e-05, 'epoch': 2.86}


 10%|▉         | 71602/750000 [2:01:23<17:42:21, 10.64it/s]

{'loss': 0.1862, 'learning_rate': 9.045333333333333e-05, 'epoch': 2.86}


 10%|▉         | 71802/750000 [2:01:42<17:10:53, 10.96it/s]

{'loss': 0.2888, 'learning_rate': 9.042666666666667e-05, 'epoch': 2.87}


 10%|▉         | 72000/750000 [2:02:00<16:55:02, 11.13it/s]

{'loss': 0.4504, 'learning_rate': 9.04e-05, 'epoch': 2.88}


 10%|▉         | 72201/750000 [2:02:16<14:53:41, 12.64it/s]

{'loss': 0.2266, 'learning_rate': 9.037333333333334e-05, 'epoch': 2.89}


 10%|▉         | 72401/750000 [2:02:32<17:18:02, 10.88it/s]

{'loss': 0.3406, 'learning_rate': 9.034666666666667e-05, 'epoch': 2.9}


 10%|▉         | 72601/750000 [2:02:50<17:13:50, 10.92it/s]

{'loss': 0.1831, 'learning_rate': 9.032e-05, 'epoch': 2.9}


 10%|▉         | 72801/750000 [2:03:08<18:13:33, 10.32it/s]

{'loss': 0.4851, 'learning_rate': 9.029333333333335e-05, 'epoch': 2.91}


 10%|▉         | 73001/750000 [2:03:24<14:44:31, 12.76it/s]

{'loss': 0.3656, 'learning_rate': 9.026666666666666e-05, 'epoch': 2.92}


 10%|▉         | 73201/750000 [2:03:42<17:30:41, 10.74it/s]

{'loss': 0.4119, 'learning_rate': 9.024e-05, 'epoch': 2.93}


 10%|▉         | 73401/750000 [2:03:59<14:50:49, 12.66it/s]

{'loss': 0.3474, 'learning_rate': 9.021333333333333e-05, 'epoch': 2.94}


 10%|▉         | 73601/750000 [2:04:15<16:57:47, 11.08it/s]

{'loss': 0.281, 'learning_rate': 9.018666666666668e-05, 'epoch': 2.94}


 10%|▉         | 73801/750000 [2:04:33<17:03:47, 11.01it/s]

{'loss': 0.4079, 'learning_rate': 9.016e-05, 'epoch': 2.95}


 10%|▉         | 74001/750000 [2:04:52<16:56:37, 11.08it/s]

{'loss': 0.3292, 'learning_rate': 9.013333333333333e-05, 'epoch': 2.96}


 10%|▉         | 74201/750000 [2:05:09<14:43:08, 12.75it/s]

{'loss': 0.3376, 'learning_rate': 9.010666666666668e-05, 'epoch': 2.97}


 10%|▉         | 74401/750000 [2:05:25<14:55:39, 12.57it/s]

{'loss': 0.5584, 'learning_rate': 9.008e-05, 'epoch': 2.98}


 10%|▉         | 74601/750000 [2:05:43<17:09:32, 10.93it/s]

{'loss': 0.3355, 'learning_rate': 9.005333333333333e-05, 'epoch': 2.98}


 10%|▉         | 74802/750000 [2:05:59<14:35:54, 12.85it/s]

{'loss': 0.4582, 'learning_rate': 9.002666666666668e-05, 'epoch': 2.99}


 10%|█         | 75000/750000 [2:06:14<14:47:33, 12.68it/s]

{'loss': 0.263, 'learning_rate': 9e-05, 'epoch': 3.0}


                                                           
 10%|█         | 75000/750000 [2:17:29<14:47:33, 12.68it/s]

{'eval_loss': 0.5464403033256531, 'eval_accuracy': 0.90432, 'eval_runtime': 674.4837, 'eval_samples_per_second': 37.065, 'eval_steps_per_second': 4.633, 'epoch': 3.0}


 10%|█         | 75201/750000 [2:17:46<15:23:53, 12.17it/s]    

{'loss': 0.1695, 'learning_rate': 8.997333333333335e-05, 'epoch': 3.01}


 10%|█         | 75401/750000 [2:18:03<15:03:15, 12.45it/s]

{'loss': 0.2185, 'learning_rate': 8.994666666666666e-05, 'epoch': 3.02}


 10%|█         | 75601/750000 [2:18:20<15:56:38, 11.75it/s]

{'loss': 0.1497, 'learning_rate': 8.992e-05, 'epoch': 3.02}


 10%|█         | 75801/750000 [2:18:37<15:20:45, 12.20it/s]

{'loss': 0.1358, 'learning_rate': 8.989333333333334e-05, 'epoch': 3.03}


 10%|█         | 76001/750000 [2:18:54<15:17:40, 12.24it/s]

{'loss': 0.2181, 'learning_rate': 8.986666666666666e-05, 'epoch': 3.04}


 10%|█         | 76201/750000 [2:19:10<15:13:07, 12.30it/s]

{'loss': 0.2238, 'learning_rate': 8.984000000000001e-05, 'epoch': 3.05}


 10%|█         | 76401/750000 [2:19:26<14:50:23, 12.61it/s]

{'loss': 0.2022, 'learning_rate': 8.981333333333334e-05, 'epoch': 3.06}


 10%|█         | 76601/750000 [2:19:42<14:48:08, 12.64it/s]

{'loss': 0.097, 'learning_rate': 8.978666666666668e-05, 'epoch': 3.06}


 10%|█         | 76801/750000 [2:19:58<14:44:08, 12.69it/s]

{'loss': 0.2678, 'learning_rate': 8.976e-05, 'epoch': 3.07}


 10%|█         | 77001/750000 [2:20:14<14:56:39, 12.51it/s]

{'loss': 0.2689, 'learning_rate': 8.973333333333334e-05, 'epoch': 3.08}


 10%|█         | 77201/750000 [2:20:30<14:59:12, 12.47it/s]

{'loss': 0.2185, 'learning_rate': 8.970666666666667e-05, 'epoch': 3.09}


 10%|█         | 77401/750000 [2:20:46<14:47:38, 12.63it/s]

{'loss': 0.1743, 'learning_rate': 8.968000000000001e-05, 'epoch': 3.1}


 10%|█         | 77601/750000 [2:21:01<14:40:47, 12.72it/s]

{'loss': 0.1884, 'learning_rate': 8.965333333333334e-05, 'epoch': 3.1}


 10%|█         | 77801/750000 [2:21:17<14:52:00, 12.56it/s]

{'loss': 0.1596, 'learning_rate': 8.962666666666667e-05, 'epoch': 3.11}


 10%|█         | 78001/750000 [2:21:33<15:17:11, 12.21it/s]

{'loss': 0.146, 'learning_rate': 8.960000000000001e-05, 'epoch': 3.12}


 10%|█         | 78201/750000 [2:21:49<14:38:51, 12.74it/s]

{'loss': 0.281, 'learning_rate': 8.957333333333334e-05, 'epoch': 3.13}


 10%|█         | 78401/750000 [2:22:04<14:34:35, 12.80it/s]

{'loss': 0.3289, 'learning_rate': 8.954666666666667e-05, 'epoch': 3.14}


 10%|█         | 78601/750000 [2:22:20<14:46:23, 12.62it/s]

{'loss': 0.3463, 'learning_rate': 8.952000000000001e-05, 'epoch': 3.14}


 11%|█         | 78801/750000 [2:22:36<17:00:00, 10.97it/s]

{'loss': 0.1672, 'learning_rate': 8.949333333333334e-05, 'epoch': 3.15}


 11%|█         | 79001/750000 [2:22:54<15:45:02, 11.83it/s]

{'loss': 0.2777, 'learning_rate': 8.946666666666668e-05, 'epoch': 3.16}


 11%|█         | 79201/750000 [2:23:12<17:00:03, 10.96it/s]

{'loss': 0.3041, 'learning_rate': 8.944e-05, 'epoch': 3.17}


 11%|█         | 79401/750000 [2:23:30<17:04:29, 10.91it/s]

{'loss': 0.2562, 'learning_rate': 8.941333333333334e-05, 'epoch': 3.18}


 11%|█         | 79601/750000 [2:23:49<17:03:59, 10.91it/s]

{'loss': 0.2185, 'learning_rate': 8.938666666666667e-05, 'epoch': 3.18}


 11%|█         | 79801/750000 [2:24:07<16:52:02, 11.04it/s]

{'loss': 0.3181, 'learning_rate': 8.936e-05, 'epoch': 3.19}


 11%|█         | 80001/750000 [2:24:25<16:48:05, 11.08it/s]

{'loss': 0.2368, 'learning_rate': 8.933333333333334e-05, 'epoch': 3.2}


 11%|█         | 80201/750000 [2:24:43<16:44:54, 11.11it/s]

{'loss': 0.2812, 'learning_rate': 8.930666666666667e-05, 'epoch': 3.21}


 11%|█         | 80401/750000 [2:25:01<14:48:48, 12.56it/s]

{'loss': 0.1595, 'learning_rate': 8.928000000000001e-05, 'epoch': 3.22}


 11%|█         | 80601/750000 [2:25:17<17:34:02, 10.58it/s]

{'loss': 0.1155, 'learning_rate': 8.925333333333333e-05, 'epoch': 3.22}


 11%|█         | 80801/750000 [2:25:36<14:33:44, 12.77it/s]

{'loss': 0.296, 'learning_rate': 8.922666666666667e-05, 'epoch': 3.23}


 11%|█         | 81001/750000 [2:25:51<14:47:55, 12.56it/s]

{'loss': 0.3144, 'learning_rate': 8.92e-05, 'epoch': 3.24}


 11%|█         | 81201/750000 [2:26:07<14:36:07, 12.72it/s]

{'loss': 0.2007, 'learning_rate': 8.917333333333334e-05, 'epoch': 3.25}


 11%|█         | 81401/750000 [2:26:24<14:37:10, 12.70it/s]

{'loss': 0.3904, 'learning_rate': 8.914666666666667e-05, 'epoch': 3.26}


 11%|█         | 81602/750000 [2:26:40<14:31:13, 12.79it/s]

{'loss': 0.1985, 'learning_rate': 8.912e-05, 'epoch': 3.26}


 11%|█         | 81802/750000 [2:26:56<14:34:02, 12.74it/s]

{'loss': 0.4078, 'learning_rate': 8.909333333333334e-05, 'epoch': 3.27}


 11%|█         | 82002/750000 [2:27:11<14:39:26, 12.66it/s]

{'loss': 0.1961, 'learning_rate': 8.906666666666667e-05, 'epoch': 3.28}


 11%|█         | 82202/750000 [2:27:27<14:33:44, 12.74it/s]

{'loss': 0.2453, 'learning_rate': 8.904e-05, 'epoch': 3.29}


 11%|█         | 82400/750000 [2:27:43<14:31:56, 12.76it/s]

{'loss': 0.2246, 'learning_rate': 8.901333333333334e-05, 'epoch': 3.3}


 11%|█         | 82602/750000 [2:28:00<16:44:13, 11.08it/s]

{'loss': 0.1606, 'learning_rate': 8.898666666666667e-05, 'epoch': 3.3}


 11%|█         | 82802/750000 [2:28:17<14:32:05, 12.75it/s]

{'loss': 0.4922, 'learning_rate': 8.896e-05, 'epoch': 3.31}


 11%|█         | 83002/750000 [2:28:32<14:31:10, 12.76it/s]

{'loss': 0.3564, 'learning_rate': 8.893333333333333e-05, 'epoch': 3.32}


 11%|█         | 83202/750000 [2:28:48<14:42:20, 12.60it/s]

{'loss': 0.2262, 'learning_rate': 8.890666666666667e-05, 'epoch': 3.33}


 11%|█         | 83402/750000 [2:29:04<14:43:26, 12.58it/s]

{'loss': 0.2334, 'learning_rate': 8.888e-05, 'epoch': 3.34}


 11%|█         | 83602/750000 [2:29:21<17:25:08, 10.63it/s]

{'loss': 0.2965, 'learning_rate': 8.885333333333333e-05, 'epoch': 3.34}


 11%|█         | 83802/750000 [2:29:38<14:32:35, 12.72it/s]

{'loss': 0.1302, 'learning_rate': 8.882666666666667e-05, 'epoch': 3.35}


 11%|█         | 84002/750000 [2:29:54<14:39:50, 12.62it/s]

{'loss': 0.2061, 'learning_rate': 8.88e-05, 'epoch': 3.36}


 11%|█         | 84202/750000 [2:30:10<14:41:46, 12.58it/s]

{'loss': 0.274, 'learning_rate': 8.877333333333335e-05, 'epoch': 3.37}


 11%|█▏        | 84402/750000 [2:30:27<17:24:23, 10.62it/s]

{'loss': 0.2615, 'learning_rate': 8.874666666666666e-05, 'epoch': 3.38}


 11%|█▏        | 84602/750000 [2:30:46<17:15:26, 10.71it/s]

{'loss': 0.2661, 'learning_rate': 8.872e-05, 'epoch': 3.38}


 11%|█▏        | 84802/750000 [2:31:05<17:13:23, 10.73it/s]

{'loss': 0.2048, 'learning_rate': 8.869333333333333e-05, 'epoch': 3.39}


 11%|█▏        | 85002/750000 [2:31:23<14:51:05, 12.44it/s]

{'loss': 0.342, 'learning_rate': 8.866666666666668e-05, 'epoch': 3.4}


 11%|█▏        | 85202/750000 [2:31:39<16:32:53, 11.16it/s]

{'loss': 0.1962, 'learning_rate': 8.864e-05, 'epoch': 3.41}


 11%|█▏        | 85400/750000 [2:31:56<16:36:49, 11.11it/s]

{'loss': 0.2205, 'learning_rate': 8.861333333333333e-05, 'epoch': 3.42}


 11%|█▏        | 85602/750000 [2:32:15<16:48:38, 10.98it/s]

{'loss': 0.2083, 'learning_rate': 8.858666666666668e-05, 'epoch': 3.42}


 11%|█▏        | 85802/750000 [2:32:33<16:46:05, 11.00it/s]

{'loss': 0.2145, 'learning_rate': 8.856e-05, 'epoch': 3.43}


 11%|█▏        | 86002/750000 [2:32:51<16:36:50, 11.10it/s]

{'loss': 0.3006, 'learning_rate': 8.853333333333333e-05, 'epoch': 3.44}


 11%|█▏        | 86202/750000 [2:33:09<16:39:03, 11.07it/s]

{'loss': 0.3606, 'learning_rate': 8.850666666666668e-05, 'epoch': 3.45}


 12%|█▏        | 86402/750000 [2:33:27<16:42:15, 11.04it/s]

{'loss': 0.3869, 'learning_rate': 8.848e-05, 'epoch': 3.46}


 12%|█▏        | 86602/750000 [2:33:45<16:44:17, 11.01it/s]

{'loss': 0.1999, 'learning_rate': 8.845333333333334e-05, 'epoch': 3.46}


 12%|█▏        | 86802/750000 [2:34:01<14:33:51, 12.65it/s]

{'loss': 0.2799, 'learning_rate': 8.842666666666666e-05, 'epoch': 3.47}


 12%|█▏        | 87002/750000 [2:34:17<14:42:07, 12.53it/s]

{'loss': 0.2493, 'learning_rate': 8.840000000000001e-05, 'epoch': 3.48}


 12%|█▏        | 87202/750000 [2:34:32<14:23:59, 12.79it/s]

{'loss': 0.2578, 'learning_rate': 8.837333333333334e-05, 'epoch': 3.49}


 12%|█▏        | 87402/750000 [2:34:49<14:31:32, 12.67it/s]

{'loss': 0.3143, 'learning_rate': 8.834666666666667e-05, 'epoch': 3.5}


 12%|█▏        | 87602/750000 [2:35:05<14:31:12, 12.67it/s]

{'loss': 0.1705, 'learning_rate': 8.832000000000001e-05, 'epoch': 3.5}


 12%|█▏        | 87802/750000 [2:35:22<16:42:11, 11.01it/s]

{'loss': 0.2829, 'learning_rate': 8.829333333333334e-05, 'epoch': 3.51}


 12%|█▏        | 88002/750000 [2:35:40<16:43:17, 11.00it/s]

{'loss': 0.3293, 'learning_rate': 8.826666666666668e-05, 'epoch': 3.52}


 12%|█▏        | 88202/750000 [2:35:57<14:35:16, 12.60it/s]

{'loss': 0.2978, 'learning_rate': 8.824e-05, 'epoch': 3.53}


 12%|█▏        | 88402/750000 [2:36:13<14:28:34, 12.70it/s]

{'loss': 0.2925, 'learning_rate': 8.821333333333334e-05, 'epoch': 3.54}


 12%|█▏        | 88602/750000 [2:36:29<14:38:09, 12.55it/s]

{'loss': 0.3033, 'learning_rate': 8.818666666666667e-05, 'epoch': 3.54}


 12%|█▏        | 88802/750000 [2:36:45<14:33:05, 12.62it/s]

{'loss': 0.3401, 'learning_rate': 8.816000000000001e-05, 'epoch': 3.55}


 12%|█▏        | 89001/750000 [2:37:01<14:25:26, 12.73it/s]

{'loss': 0.2708, 'learning_rate': 8.813333333333334e-05, 'epoch': 3.56}


 12%|█▏        | 89201/750000 [2:37:18<17:00:49, 10.79it/s]

{'loss': 0.2961, 'learning_rate': 8.810666666666667e-05, 'epoch': 3.57}


 12%|█▏        | 89401/750000 [2:37:36<14:28:59, 12.67it/s]

{'loss': 0.3517, 'learning_rate': 8.808000000000001e-05, 'epoch': 3.58}


 12%|█▏        | 89601/750000 [2:37:51<14:27:25, 12.69it/s]

{'loss': 0.1918, 'learning_rate': 8.805333333333333e-05, 'epoch': 3.58}


 12%|█▏        | 89801/750000 [2:38:07<14:31:52, 12.62it/s]

{'loss': 0.2, 'learning_rate': 8.802666666666667e-05, 'epoch': 3.59}


 12%|█▏        | 90001/750000 [2:38:23<14:30:07, 12.64it/s]

{'loss': 0.2818, 'learning_rate': 8.800000000000001e-05, 'epoch': 3.6}


 12%|█▏        | 90201/750000 [2:38:41<16:46:49, 10.92it/s]

{'loss': 0.2855, 'learning_rate': 8.797333333333334e-05, 'epoch': 3.61}


 12%|█▏        | 90401/750000 [2:38:59<16:54:52, 10.83it/s]

{'loss': 0.1679, 'learning_rate': 8.794666666666667e-05, 'epoch': 3.62}


 12%|█▏        | 90601/750000 [2:39:17<16:33:25, 11.06it/s]

{'loss': 0.2789, 'learning_rate': 8.792e-05, 'epoch': 3.62}


 12%|█▏        | 90801/750000 [2:39:35<16:35:53, 11.03it/s]

{'loss': 0.3769, 'learning_rate': 8.789333333333334e-05, 'epoch': 3.63}


 12%|█▏        | 91001/750000 [2:39:53<16:27:34, 11.12it/s]

{'loss': 0.4512, 'learning_rate': 8.786666666666667e-05, 'epoch': 3.64}


 12%|█▏        | 91201/750000 [2:40:09<14:28:32, 12.64it/s]

{'loss': 0.2884, 'learning_rate': 8.784e-05, 'epoch': 3.65}


 12%|█▏        | 91401/750000 [2:40:26<17:02:03, 10.74it/s]

{'loss': 0.3759, 'learning_rate': 8.781333333333334e-05, 'epoch': 3.66}


 12%|█▏        | 91601/750000 [2:40:44<14:49:51, 12.33it/s]

{'loss': 0.2894, 'learning_rate': 8.778666666666667e-05, 'epoch': 3.66}


 12%|█▏        | 91801/750000 [2:40:59<14:23:09, 12.71it/s]

{'loss': 0.303, 'learning_rate': 8.776000000000001e-05, 'epoch': 3.67}


 12%|█▏        | 92001/750000 [2:41:16<16:30:04, 11.08it/s]

{'loss': 0.2739, 'learning_rate': 8.773333333333333e-05, 'epoch': 3.68}


 12%|█▏        | 92201/750000 [2:41:32<14:20:06, 12.75it/s]

{'loss': 0.2946, 'learning_rate': 8.770666666666667e-05, 'epoch': 3.69}


 12%|█▏        | 92401/750000 [2:41:48<14:21:45, 12.72it/s]

{'loss': 0.3195, 'learning_rate': 8.768e-05, 'epoch': 3.7}


 12%|█▏        | 92601/750000 [2:42:04<14:17:15, 12.78it/s]

{'loss': 0.2154, 'learning_rate': 8.765333333333334e-05, 'epoch': 3.7}


 12%|█▏        | 92801/750000 [2:42:21<16:39:52, 10.95it/s]

{'loss': 0.1628, 'learning_rate': 8.762666666666667e-05, 'epoch': 3.71}


 12%|█▏        | 93001/750000 [2:42:39<16:34:42, 11.01it/s]

{'loss': 0.3699, 'learning_rate': 8.76e-05, 'epoch': 3.72}


 12%|█▏        | 93201/750000 [2:42:57<16:42:06, 10.92it/s]

{'loss': 0.197, 'learning_rate': 8.757333333333334e-05, 'epoch': 3.73}


 12%|█▏        | 93401/750000 [2:43:14<14:22:16, 12.69it/s]

{'loss': 0.3797, 'learning_rate': 8.754666666666666e-05, 'epoch': 3.74}


 12%|█▏        | 93601/750000 [2:43:30<14:13:43, 12.81it/s]

{'loss': 0.1814, 'learning_rate': 8.752e-05, 'epoch': 3.74}


 13%|█▎        | 93801/750000 [2:43:46<14:32:48, 12.53it/s]

{'loss': 0.3975, 'learning_rate': 8.749333333333334e-05, 'epoch': 3.75}


 13%|█▎        | 94001/750000 [2:44:02<14:30:27, 12.56it/s]

{'loss': 0.2324, 'learning_rate': 8.746666666666667e-05, 'epoch': 3.76}


 13%|█▎        | 94201/750000 [2:44:17<14:31:56, 12.54it/s]

{'loss': 0.3409, 'learning_rate': 8.744e-05, 'epoch': 3.77}


 13%|█▎        | 94401/750000 [2:44:35<16:27:32, 11.06it/s]

{'loss': 0.2377, 'learning_rate': 8.741333333333333e-05, 'epoch': 3.78}


 13%|█▎        | 94601/750000 [2:44:53<16:28:21, 11.05it/s]

{'loss': 0.4246, 'learning_rate': 8.738666666666667e-05, 'epoch': 3.78}


 13%|█▎        | 94801/750000 [2:45:11<17:15:10, 10.55it/s]

{'loss': 0.206, 'learning_rate': 8.736e-05, 'epoch': 3.79}


 13%|█▎        | 95001/750000 [2:45:30<17:26:03, 10.44it/s]

{'loss': 0.1825, 'learning_rate': 8.733333333333333e-05, 'epoch': 3.8}


 13%|█▎        | 95201/750000 [2:45:48<17:01:50, 10.68it/s]

{'loss': 0.2828, 'learning_rate': 8.730666666666668e-05, 'epoch': 3.81}


 13%|█▎        | 95401/750000 [2:46:04<14:20:41, 12.68it/s]

{'loss': 0.3148, 'learning_rate': 8.728e-05, 'epoch': 3.82}


 13%|█▎        | 95601/750000 [2:46:19<14:20:38, 12.67it/s]

{'loss': 0.4111, 'learning_rate': 8.725333333333335e-05, 'epoch': 3.82}


 13%|█▎        | 95802/750000 [2:46:38<14:19:33, 12.68it/s]

{'loss': 0.3718, 'learning_rate': 8.722666666666666e-05, 'epoch': 3.83}


 13%|█▎        | 96002/750000 [2:46:53<14:26:03, 12.59it/s]

{'loss': 0.2401, 'learning_rate': 8.72e-05, 'epoch': 3.84}


 13%|█▎        | 96202/750000 [2:47:09<14:16:40, 12.72it/s]

{'loss': 0.2101, 'learning_rate': 8.717333333333333e-05, 'epoch': 3.85}


 13%|█▎        | 96402/750000 [2:47:26<14:15:31, 12.73it/s]

{'loss': 0.2644, 'learning_rate': 8.714666666666666e-05, 'epoch': 3.86}


 13%|█▎        | 96600/750000 [2:47:43<16:34:20, 10.95it/s]

{'loss': 0.368, 'learning_rate': 8.712e-05, 'epoch': 3.86}


 13%|█▎        | 96802/750000 [2:48:02<16:30:32, 10.99it/s]

{'loss': 0.2125, 'learning_rate': 8.709333333333334e-05, 'epoch': 3.87}


 13%|█▎        | 97002/750000 [2:48:19<17:06:22, 10.60it/s]

{'loss': 0.3336, 'learning_rate': 8.706666666666668e-05, 'epoch': 3.88}


 13%|█▎        | 97202/750000 [2:48:37<16:55:16, 10.72it/s]

{'loss': 0.3007, 'learning_rate': 8.704e-05, 'epoch': 3.89}


 13%|█▎        | 97402/750000 [2:48:56<15:13:56, 11.90it/s]

{'loss': 0.3543, 'learning_rate': 8.701333333333334e-05, 'epoch': 3.9}


 13%|█▎        | 97602/750000 [2:49:13<16:48:08, 10.79it/s]

{'loss': 0.2124, 'learning_rate': 8.698666666666668e-05, 'epoch': 3.9}


 13%|█▎        | 97802/750000 [2:49:31<16:18:46, 11.11it/s]

{'loss': 0.2324, 'learning_rate': 8.696000000000001e-05, 'epoch': 3.91}


 13%|█▎        | 98002/750000 [2:49:48<14:15:35, 12.70it/s]

{'loss': 0.2543, 'learning_rate': 8.693333333333334e-05, 'epoch': 3.92}


 13%|█▎        | 98201/750000 [2:50:06<15:24:59, 11.74it/s]

{'loss': 0.2357, 'learning_rate': 8.690666666666667e-05, 'epoch': 3.93}


 13%|█▎        | 98401/750000 [2:50:22<14:14:01, 12.72it/s]

{'loss': 0.3425, 'learning_rate': 8.688000000000001e-05, 'epoch': 3.94}


 13%|█▎        | 98601/750000 [2:50:38<14:18:36, 12.64it/s]

{'loss': 0.1496, 'learning_rate': 8.685333333333334e-05, 'epoch': 3.94}


 13%|█▎        | 98801/750000 [2:50:54<17:09:27, 10.54it/s]

{'loss': 0.3319, 'learning_rate': 8.682666666666667e-05, 'epoch': 3.95}


 13%|█▎        | 99001/750000 [2:51:12<16:39:47, 10.85it/s]

{'loss': 0.3092, 'learning_rate': 8.680000000000001e-05, 'epoch': 3.96}


 13%|█▎        | 99201/750000 [2:51:28<14:25:00, 12.54it/s]

{'loss': 0.27, 'learning_rate': 8.677333333333334e-05, 'epoch': 3.97}


 13%|█▎        | 99401/750000 [2:51:45<16:46:16, 10.78it/s]

{'loss': 0.4921, 'learning_rate': 8.674666666666668e-05, 'epoch': 3.98}


 13%|█▎        | 99601/750000 [2:52:03<14:21:24, 12.58it/s]

{'loss': 0.276, 'learning_rate': 8.672e-05, 'epoch': 3.98}


 13%|█▎        | 99801/750000 [2:52:19<14:19:56, 12.60it/s]

{'loss': 0.2732, 'learning_rate': 8.669333333333334e-05, 'epoch': 3.99}


 13%|█▎        | 100000/750000 [2:52:34<14:22:21, 12.56it/s]

{'loss': 0.5085, 'learning_rate': 8.666666666666667e-05, 'epoch': 4.0}


                                                            
 13%|█▎        | 100000/750000 [3:03:47<14:22:21, 12.56it/s]

{'eval_loss': 0.42834123969078064, 'eval_accuracy': 0.91392, 'eval_runtime': 673.0517, 'eval_samples_per_second': 37.144, 'eval_steps_per_second': 4.643, 'epoch': 4.0}


 13%|█▎        | 100201/750000 [3:04:19<27:44:34,  6.51it/s]    

{'loss': 0.2087, 'learning_rate': 8.664e-05, 'epoch': 4.01}


 13%|█▎        | 100401/750000 [3:04:48<30:26:16,  5.93it/s]

{'loss': 0.2117, 'learning_rate': 8.661333333333334e-05, 'epoch': 4.02}


 13%|█▎        | 100601/750000 [3:05:11<19:53:18,  9.07it/s]

{'loss': 0.2279, 'learning_rate': 8.658666666666667e-05, 'epoch': 4.02}


 13%|█▎        | 100801/750000 [3:05:33<20:24:50,  8.83it/s]

{'loss': 0.2287, 'learning_rate': 8.656000000000001e-05, 'epoch': 4.03}


 13%|█▎        | 101002/750000 [3:05:55<18:54:52,  9.53it/s]

{'loss': 0.3011, 'learning_rate': 8.653333333333333e-05, 'epoch': 4.04}


 13%|█▎        | 101201/750000 [3:06:16<18:15:58,  9.87it/s]

{'loss': 0.044, 'learning_rate': 8.650666666666667e-05, 'epoch': 4.05}


 14%|█▎        | 101401/750000 [3:06:36<21:00:06,  8.58it/s]

{'loss': 0.1313, 'learning_rate': 8.648e-05, 'epoch': 4.06}


 14%|█▎        | 101601/750000 [3:06:57<17:54:42, 10.06it/s]

{'loss': 0.274, 'learning_rate': 8.645333333333334e-05, 'epoch': 4.06}


 14%|█▎        | 101802/750000 [3:07:18<17:11:16, 10.48it/s]

{'loss': 0.2591, 'learning_rate': 8.642666666666667e-05, 'epoch': 4.07}


 14%|█▎        | 102002/750000 [3:07:37<16:54:44, 10.64it/s]

{'loss': 0.1804, 'learning_rate': 8.64e-05, 'epoch': 4.08}


 14%|█▎        | 102201/750000 [3:07:58<20:30:49,  8.77it/s]

{'loss': 0.2833, 'learning_rate': 8.637333333333334e-05, 'epoch': 4.09}


 14%|█▎        | 102401/750000 [3:08:18<18:20:37,  9.81it/s]

{'loss': 0.1426, 'learning_rate': 8.634666666666667e-05, 'epoch': 4.1}


 14%|█▎        | 102601/750000 [3:08:37<18:28:50,  9.73it/s]

{'loss': 0.1591, 'learning_rate': 8.632e-05, 'epoch': 4.1}


 14%|█▎        | 102801/750000 [3:08:58<17:47:52, 10.10it/s]

{'loss': 0.1747, 'learning_rate': 8.629333333333334e-05, 'epoch': 4.11}


 14%|█▎        | 103000/750000 [3:09:17<17:12:07, 10.45it/s]

{'loss': 0.1917, 'learning_rate': 8.626666666666667e-05, 'epoch': 4.12}


 14%|█▍        | 103202/750000 [3:09:39<19:22:45,  9.27it/s]

{'loss': 0.142, 'learning_rate': 8.624000000000001e-05, 'epoch': 4.13}


 14%|█▍        | 103402/750000 [3:09:59<16:50:53, 10.66it/s]

{'loss': 0.1971, 'learning_rate': 8.621333333333333e-05, 'epoch': 4.14}


 14%|█▍        | 103601/750000 [3:10:18<16:58:15, 10.58it/s]

{'loss': 0.2341, 'learning_rate': 8.618666666666667e-05, 'epoch': 4.14}


 14%|█▍        | 103801/750000 [3:10:40<18:08:17,  9.90it/s]

{'loss': 0.2473, 'learning_rate': 8.616e-05, 'epoch': 4.15}


 14%|█▍        | 104001/750000 [3:11:01<19:16:30,  9.31it/s]

{'loss': 0.2333, 'learning_rate': 8.613333333333333e-05, 'epoch': 4.16}


 14%|█▍        | 104202/750000 [3:11:22<18:32:58,  9.67it/s]

{'loss': 0.156, 'learning_rate': 8.610666666666667e-05, 'epoch': 4.17}


 14%|█▍        | 104401/750000 [3:11:43<19:43:43,  9.09it/s]

{'loss': 0.1456, 'learning_rate': 8.608e-05, 'epoch': 4.18}


 14%|█▍        | 104601/750000 [3:12:05<19:45:36,  9.07it/s]

{'loss': 0.2629, 'learning_rate': 8.605333333333335e-05, 'epoch': 4.18}


 14%|█▍        | 104801/750000 [3:12:27<19:14:29,  9.31it/s]

{'loss': 0.1055, 'learning_rate': 8.602666666666666e-05, 'epoch': 4.19}


 14%|█▍        | 105001/750000 [3:12:49<19:01:20,  9.42it/s]

{'loss': 0.2653, 'learning_rate': 8.6e-05, 'epoch': 4.2}


 14%|█▍        | 105201/750000 [3:13:12<19:56:16,  8.98it/s]

{'loss': 0.1867, 'learning_rate': 8.597333333333333e-05, 'epoch': 4.21}


 14%|█▍        | 105401/750000 [3:13:34<21:34:31,  8.30it/s]

{'loss': 0.1498, 'learning_rate': 8.594666666666668e-05, 'epoch': 4.22}


 14%|█▍        | 105602/750000 [3:13:56<17:57:20,  9.97it/s]

{'loss': 0.0974, 'learning_rate': 8.592e-05, 'epoch': 4.22}


 14%|█▍        | 105801/750000 [3:14:15<18:02:54,  9.91it/s]

{'loss': 0.4035, 'learning_rate': 8.589333333333333e-05, 'epoch': 4.23}


 14%|█▍        | 106001/750000 [3:14:35<20:07:16,  8.89it/s]

{'loss': 0.1761, 'learning_rate': 8.586666666666668e-05, 'epoch': 4.24}


 14%|█▍        | 106201/750000 [3:14:58<20:40:52,  8.65it/s]

{'loss': 0.2433, 'learning_rate': 8.584e-05, 'epoch': 4.25}


 14%|█▍        | 106402/750000 [3:15:20<17:06:20, 10.45it/s]

{'loss': 0.2945, 'learning_rate': 8.581333333333333e-05, 'epoch': 4.26}


 14%|█▍        | 106602/750000 [3:15:40<16:01:26, 11.15it/s]

{'loss': 0.1336, 'learning_rate': 8.578666666666668e-05, 'epoch': 4.26}


 14%|█▍        | 106802/750000 [3:16:02<17:45:34, 10.06it/s]

{'loss': 0.185, 'learning_rate': 8.576e-05, 'epoch': 4.27}


 14%|█▍        | 107002/750000 [3:16:23<17:30:52, 10.20it/s]

{'loss': 0.1579, 'learning_rate': 8.573333333333333e-05, 'epoch': 4.28}


 14%|█▍        | 107201/750000 [3:16:43<18:56:59,  9.42it/s]

{'loss': 0.1356, 'learning_rate': 8.570666666666666e-05, 'epoch': 4.29}


 14%|█▍        | 107401/750000 [3:17:05<18:45:59,  9.51it/s]

{'loss': 0.2445, 'learning_rate': 8.568e-05, 'epoch': 4.3}


 14%|█▍        | 107602/750000 [3:17:26<17:29:49, 10.20it/s]

{'loss': 0.0241, 'learning_rate': 8.565333333333334e-05, 'epoch': 4.3}


 14%|█▍        | 107801/750000 [3:17:44<15:52:25, 11.24it/s]

{'loss': 0.2452, 'learning_rate': 8.562666666666666e-05, 'epoch': 4.31}


 14%|█▍        | 108001/750000 [3:18:01<14:44:50, 12.09it/s]

{'loss': 0.1683, 'learning_rate': 8.560000000000001e-05, 'epoch': 4.32}


 14%|█▍        | 108202/750000 [3:18:18<14:07:31, 12.62it/s]

{'loss': 0.1773, 'learning_rate': 8.557333333333334e-05, 'epoch': 4.33}


 14%|█▍        | 108402/750000 [3:18:34<14:21:50, 12.41it/s]

{'loss': 0.0913, 'learning_rate': 8.554666666666668e-05, 'epoch': 4.34}


 14%|█▍        | 108600/750000 [3:18:50<14:02:12, 12.69it/s]

{'loss': 0.1812, 'learning_rate': 8.552e-05, 'epoch': 4.34}


 15%|█▍        | 108802/750000 [3:19:06<14:01:30, 12.70it/s]

{'loss': 0.1688, 'learning_rate': 8.549333333333334e-05, 'epoch': 4.35}


 15%|█▍        | 109002/750000 [3:19:22<14:18:21, 12.45it/s]

{'loss': 0.1565, 'learning_rate': 8.546666666666667e-05, 'epoch': 4.36}


 15%|█▍        | 109202/750000 [3:19:38<14:16:13, 12.47it/s]

{'loss': 0.239, 'learning_rate': 8.544000000000001e-05, 'epoch': 4.37}


 15%|█▍        | 109402/750000 [3:19:54<14:07:30, 12.60it/s]

{'loss': 0.1815, 'learning_rate': 8.541333333333334e-05, 'epoch': 4.38}


 15%|█▍        | 109602/750000 [3:20:10<14:27:49, 12.30it/s]

{'loss': 0.3399, 'learning_rate': 8.538666666666667e-05, 'epoch': 4.38}


 15%|█▍        | 109802/750000 [3:20:25<14:05:02, 12.63it/s]

{'loss': 0.1276, 'learning_rate': 8.536000000000001e-05, 'epoch': 4.39}


 15%|█▍        | 110002/750000 [3:20:41<14:06:54, 12.59it/s]

{'loss': 0.1533, 'learning_rate': 8.533333333333334e-05, 'epoch': 4.4}


 15%|█▍        | 110202/750000 [3:20:57<14:09:03, 12.56it/s]

{'loss': 0.089, 'learning_rate': 8.530666666666667e-05, 'epoch': 4.41}


 15%|█▍        | 110402/750000 [3:21:13<14:12:05, 12.51it/s]

{'loss': 0.2887, 'learning_rate': 8.528000000000001e-05, 'epoch': 4.42}


 15%|█▍        | 110602/750000 [3:21:29<13:59:44, 12.69it/s]

{'loss': 0.2599, 'learning_rate': 8.525333333333334e-05, 'epoch': 4.42}


 15%|█▍        | 110802/750000 [3:21:45<14:07:47, 12.57it/s]

{'loss': 0.3301, 'learning_rate': 8.522666666666667e-05, 'epoch': 4.43}


 15%|█▍        | 111002/750000 [3:22:03<14:06:05, 12.59it/s]

{'loss': 0.3413, 'learning_rate': 8.52e-05, 'epoch': 4.44}


 15%|█▍        | 111202/750000 [3:22:19<14:03:26, 12.62it/s]

{'loss': 0.234, 'learning_rate': 8.517333333333334e-05, 'epoch': 4.45}


 15%|█▍        | 111402/750000 [3:22:34<14:08:29, 12.54it/s]

{'loss': 0.2708, 'learning_rate': 8.514666666666667e-05, 'epoch': 4.46}


 15%|█▍        | 111602/750000 [3:22:51<16:20:11, 10.85it/s]

{'loss': 0.2185, 'learning_rate': 8.512e-05, 'epoch': 4.46}


 15%|█▍        | 111802/750000 [3:23:09<14:38:29, 12.11it/s]

{'loss': 0.1176, 'learning_rate': 8.509333333333334e-05, 'epoch': 4.47}


 15%|█▍        | 112002/750000 [3:23:25<14:04:23, 12.59it/s]

{'loss': 0.3723, 'learning_rate': 8.506666666666667e-05, 'epoch': 4.48}


 15%|█▍        | 112202/750000 [3:23:41<14:15:26, 12.43it/s]

{'loss': 0.2444, 'learning_rate': 8.504000000000001e-05, 'epoch': 4.49}


 15%|█▍        | 112402/750000 [3:23:57<13:57:46, 12.68it/s]

{'loss': 0.2523, 'learning_rate': 8.501333333333333e-05, 'epoch': 4.5}


 15%|█▌        | 112602/750000 [3:24:13<13:58:08, 12.67it/s]

{'loss': 0.2614, 'learning_rate': 8.498666666666667e-05, 'epoch': 4.5}


 15%|█▌        | 112802/750000 [3:24:29<14:02:24, 12.61it/s]

{'loss': 0.3014, 'learning_rate': 8.496e-05, 'epoch': 4.51}


 15%|█▌        | 113002/750000 [3:24:45<14:09:17, 12.50it/s]

{'loss': 0.2582, 'learning_rate': 8.493333333333334e-05, 'epoch': 4.52}


 15%|█▌        | 113202/750000 [3:25:01<14:03:22, 12.58it/s]

{'loss': 0.2829, 'learning_rate': 8.490666666666667e-05, 'epoch': 4.53}


 15%|█▌        | 113402/750000 [3:25:16<14:17:46, 12.37it/s]

{'loss': 0.3024, 'learning_rate': 8.488e-05, 'epoch': 4.54}


 15%|█▌        | 113602/750000 [3:25:32<14:15:54, 12.39it/s]

{'loss': 0.2218, 'learning_rate': 8.485333333333334e-05, 'epoch': 4.54}


 15%|█▌        | 113802/750000 [3:25:48<14:09:22, 12.48it/s]

{'loss': 0.1541, 'learning_rate': 8.482666666666666e-05, 'epoch': 4.55}


 15%|█▌        | 114002/750000 [3:26:04<13:52:03, 12.74it/s]

{'loss': 0.2781, 'learning_rate': 8.48e-05, 'epoch': 4.56}


 15%|█▌        | 114202/750000 [3:26:20<14:47:29, 11.94it/s]

{'loss': 0.2695, 'learning_rate': 8.477333333333334e-05, 'epoch': 4.57}


 15%|█▌        | 114402/750000 [3:26:36<13:59:45, 12.61it/s]

{'loss': 0.1786, 'learning_rate': 8.474666666666667e-05, 'epoch': 4.58}


 15%|█▌        | 114602/750000 [3:26:52<15:38:33, 11.28it/s]

{'loss': 0.155, 'learning_rate': 8.472e-05, 'epoch': 4.58}


 15%|█▌        | 114802/750000 [3:27:10<13:58:35, 12.62it/s]

{'loss': 0.1303, 'learning_rate': 8.469333333333333e-05, 'epoch': 4.59}


 15%|█▌        | 115002/750000 [3:27:25<13:55:03, 12.67it/s]

{'loss': 0.1311, 'learning_rate': 8.466666666666667e-05, 'epoch': 4.6}


 15%|█▌        | 115202/750000 [3:27:41<14:04:55, 12.52it/s]

{'loss': 0.2039, 'learning_rate': 8.464e-05, 'epoch': 4.61}


 15%|█▌        | 115402/750000 [3:27:59<16:22:34, 10.76it/s]

{'loss': 0.0704, 'learning_rate': 8.461333333333333e-05, 'epoch': 4.62}


 15%|█▌        | 115602/750000 [3:28:16<14:01:37, 12.56it/s]

{'loss': 0.4019, 'learning_rate': 8.458666666666667e-05, 'epoch': 4.62}


 15%|█▌        | 115802/750000 [3:28:32<13:57:44, 12.62it/s]

{'loss': 0.2187, 'learning_rate': 8.456e-05, 'epoch': 4.63}


 15%|█▌        | 116002/750000 [3:28:48<14:01:27, 12.56it/s]

{'loss': 0.2207, 'learning_rate': 8.453333333333335e-05, 'epoch': 4.64}


 15%|█▌        | 116202/750000 [3:29:04<14:31:18, 12.12it/s]

{'loss': 0.1804, 'learning_rate': 8.450666666666666e-05, 'epoch': 4.65}


 16%|█▌        | 116402/750000 [3:29:20<13:53:58, 12.66it/s]

{'loss': 0.2391, 'learning_rate': 8.448e-05, 'epoch': 4.66}


 16%|█▌        | 116602/750000 [3:29:37<16:50:29, 10.45it/s]

{'loss': 0.2367, 'learning_rate': 8.445333333333333e-05, 'epoch': 4.66}


 16%|█▌        | 116802/750000 [3:29:53<14:18:46, 12.29it/s]

{'loss': 0.3782, 'learning_rate': 8.442666666666668e-05, 'epoch': 4.67}


 16%|█▌        | 117002/750000 [3:30:09<13:56:44, 12.61it/s]

{'loss': 0.1854, 'learning_rate': 8.44e-05, 'epoch': 4.68}


 16%|█▌        | 117202/750000 [3:30:25<13:55:27, 12.62it/s]

{'loss': 0.1875, 'learning_rate': 8.437333333333333e-05, 'epoch': 4.69}


 16%|█▌        | 117402/750000 [3:30:41<14:01:08, 12.53it/s]

{'loss': 0.2444, 'learning_rate': 8.434666666666668e-05, 'epoch': 4.7}


 16%|█▌        | 117602/750000 [3:30:57<14:09:01, 12.41it/s]

{'loss': 0.1505, 'learning_rate': 8.431999999999999e-05, 'epoch': 4.7}


 16%|█▌        | 117802/750000 [3:31:13<14:01:13, 12.53it/s]

{'loss': 0.2261, 'learning_rate': 8.429333333333333e-05, 'epoch': 4.71}


 16%|█▌        | 118002/750000 [3:31:31<16:17:25, 10.78it/s]

{'loss': 0.3275, 'learning_rate': 8.426666666666668e-05, 'epoch': 4.72}


 16%|█▌        | 118201/750000 [3:31:47<16:07:37, 10.88it/s]

{'loss': 0.3162, 'learning_rate': 8.424e-05, 'epoch': 4.73}


 16%|█▌        | 118401/750000 [3:32:05<14:01:12, 12.51it/s]

{'loss': 0.2282, 'learning_rate': 8.421333333333334e-05, 'epoch': 4.74}


 16%|█▌        | 118601/750000 [3:32:21<13:54:45, 12.61it/s]

{'loss': 0.4529, 'learning_rate': 8.418666666666666e-05, 'epoch': 4.74}


 16%|█▌        | 118801/750000 [3:32:37<13:55:39, 12.59it/s]

{'loss': 0.2028, 'learning_rate': 8.416000000000001e-05, 'epoch': 4.75}


 16%|█▌        | 119001/750000 [3:32:53<14:16:32, 12.28it/s]

{'loss': 0.2924, 'learning_rate': 8.413333333333334e-05, 'epoch': 4.76}


 16%|█▌        | 119201/750000 [3:33:09<14:05:02, 12.44it/s]

{'loss': 0.2282, 'learning_rate': 8.410666666666667e-05, 'epoch': 4.77}


 16%|█▌        | 119401/750000 [3:33:25<16:59:40, 10.31it/s]

{'loss': 0.2368, 'learning_rate': 8.408000000000001e-05, 'epoch': 4.78}


 16%|█▌        | 119601/750000 [3:33:41<13:51:34, 12.63it/s]

{'loss': 0.3041, 'learning_rate': 8.405333333333334e-05, 'epoch': 4.78}


 16%|█▌        | 119801/750000 [3:33:57<13:51:36, 12.63it/s]

{'loss': 0.3556, 'learning_rate': 8.402666666666668e-05, 'epoch': 4.79}


 16%|█▌        | 120001/750000 [3:34:13<13:55:54, 12.56it/s]

{'loss': 0.2141, 'learning_rate': 8.4e-05, 'epoch': 4.8}


 16%|█▌        | 120201/750000 [3:34:30<16:03:46, 10.89it/s]

{'loss': 0.2397, 'learning_rate': 8.397333333333334e-05, 'epoch': 4.81}


 16%|█▌        | 120401/750000 [3:34:46<13:52:16, 12.61it/s]

{'loss': 0.2284, 'learning_rate': 8.394666666666667e-05, 'epoch': 4.82}


 16%|█▌        | 120601/750000 [3:35:02<13:51:38, 12.61it/s]

{'loss': 0.187, 'learning_rate': 8.392e-05, 'epoch': 4.82}


 16%|█▌        | 120801/750000 [3:35:18<13:55:48, 12.55it/s]

{'loss': 0.2457, 'learning_rate': 8.389333333333334e-05, 'epoch': 4.83}


 16%|█▌        | 121001/750000 [3:35:34<14:37:22, 11.95it/s]

{'loss': 0.2506, 'learning_rate': 8.386666666666667e-05, 'epoch': 4.84}


 16%|█▌        | 121201/750000 [3:35:52<15:20:12, 11.39it/s]

{'loss': 0.2546, 'learning_rate': 8.384000000000001e-05, 'epoch': 4.85}


 16%|█▌        | 121235/750000 [3:35:55<14:32:06, 12.02it/s]

KeyboardInterrupt: 

 16%|█▌        | 121236/750000 [3:36:11<14:32:06, 12.02it/s]

In [5]:
##### full run:
####### MOVE THIS TO A .PY SCRIPT. ONLY HERE FOR A TEST RUN
task = "mnli"
data = load_hf_dataset(task,debug=False)

tokenizer = get_tokenizer(model_name)

encode = get_encoding(task)

dataset = preprocess_dataset(data,encode,tokenizer)


num_labels = get_label_count(dataset)
print("labels",num_labels)
model = setup_model(model_name,num_labels,dataset)

adapter_config = adapters.BnConfig(
                          output_adapter=True,
                          mh_adapter=False,
                          reduction_factor=2,
                          non_linearity="relu")

model = add_clf_adapter(task_name=task,model=model,num_labels=num_labels,adapter_config=adapter_config)

default_args = TrainingParameters()
default_args.lr_scheduler_type = "linear"

train_args = get_training_arguments(default_args)

trainer = get_trainer(train_args,dataset,model,early_stopping=3)

trainer.train()

eval_results = trainer.evaluate()

write_eval_results(eval_results,output_dir,task,trainer,adapter_config)
##### full run ends. MOVE THIS.

Downloading data: 100%|██████████| 649k/649k [00:00<00:00, 1.66MB/s]
Downloading data: 100%|██████████| 75.7k/75.7k [00:00<00:00, 359kB/s]
Downloading data: 100%|██████████| 308k/308k [00:00<00:00, 1.35MB/s]
Generating train split: 100%|██████████| 3668/3668 [00:00<00:00, 353070.80 examples/s]
Generating validation split: 100%|██████████| 408/408 [00:00<00:00, 101637.82 examples/s]
Generating test split: 100%|██████████| 1725/1725 [00:00<00:00, 216201.24 examples/s]


using bert tokenizer
getting encoding:
<function encode_mrpc at 0x000002E00F811550>


Map: 100%|██████████| 3668/3668 [00:06<00:00, 590.85 examples/s]
Map: 100%|██████████| 408/408 [00:00<00:00, 577.79 examples/s]
Map: 100%|██████████| 1725/1725 [00:02<00:00, 599.53 examples/s]


mapped
{'train': ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'], 'validation': ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'], 'test': ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask']}
labels 2


Some weights of BertAdapterModel were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['heads.default.3.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
  0%|          | 29/13770 [00:12<1:41:40,  2.25it/s]

KeyboardInterrupt: 

In [4]:
data = load_hf_dataset(task,debug=False)

tokenizer = get_tokenizer(model_name)

encode = get_encoding(task)

using bert tokenizer
getting encoding:
<function encode_scitail at 0x000002C001F6E550>


In [5]:
dataset = preprocess_dataset(data,encode,tokenizer)

Map:   0%|          | 0/23097 [00:00<?, ? examples/s]Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.
Be aware, overflowing tokens are not return

mapped
{'train': ['premise', 'hypothesis', 'label', 'input_ids', 'token_type_ids', 'attention_mask'], 'test': ['premise', 'hypothesis', 'label', 'input_ids', 'token_type_ids', 'attention_mask'], 'validation': ['premise', 'hypothesis', 'label', 'input_ids', 'token_type_ids', 'attention_mask']}





In [6]:
#id2label = {id: label for (id,label) in enumerate(dataset["train"].features["labels"].names)}
#num_labels = len(id2label)
num_labels = get_label_count(dataset)
print("labels",num_labels)
model = setup_model(model_name,num_labels,dataset)

adapter_config = adapters.BnConfig(
                          output_adapter=True,
                          mh_adapter=False,
                          reduction_factor=2,
                          non_linearity="relu")

model = add_clf_adapter(task_name=task,model=model,num_labels=num_labels,adapter_config=adapter_config)

default_args = TrainingParameters()
default_args.lr_scheduler_type = "linear"


labels 2


Some weights of BertAdapterModel were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['heads.default.3.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [7]:
train_args = get_training_arguments(default_args)

trainer = get_trainer(train_args,dataset,model,early_stopping=3)

trainer.train()

                                                    
  0%|          | 50/86640 [00:45<8:09:11,  2.95it/s]

{'eval_loss': 0.5120983719825745, 'eval_accuracy': 0.7576687116564417, 'eval_runtime': 26.097, 'eval_samples_per_second': 49.967, 'eval_steps_per_second': 6.246, 'epoch': 0.02}


  0%|          | 100/86640 [01:01<7:49:31,  3.07it/s] 
  0%|          | 100/86640 [01:27<7:49:31,  3.07it/s]

{'eval_loss': 0.482826828956604, 'eval_accuracy': 0.7507668711656442, 'eval_runtime': 26.8769, 'eval_samples_per_second': 48.517, 'eval_steps_per_second': 6.065, 'epoch': 0.03}


                                                       
  0%|          | 150/86640 [02:12<7:49:15,  3.07it/s]

{'eval_loss': 0.407736599445343, 'eval_accuracy': 0.8205521472392638, 'eval_runtime': 27.6917, 'eval_samples_per_second': 47.09, 'eval_steps_per_second': 5.886, 'epoch': 0.05}


  0%|          | 200/86640 [02:29<7:43:01,  3.11it/s]  

{'loss': 0.5546, 'learning_rate': 9.976915974145891e-05, 'epoch': 0.07}


                                                     
  0%|          | 200/86640 [02:57<7:43:01,  3.11it/s]

{'eval_loss': 0.36100077629089355, 'eval_accuracy': 0.8496932515337423, 'eval_runtime': 28.7014, 'eval_samples_per_second': 45.433, 'eval_steps_per_second': 5.679, 'epoch': 0.07}


                                                       
  0%|          | 250/86640 [03:43<9:12:41,  2.61it/s]

{'eval_loss': 0.36655500531196594, 'eval_accuracy': 0.8504601226993865, 'eval_runtime': 28.0162, 'eval_samples_per_second': 46.545, 'eval_steps_per_second': 5.818, 'epoch': 0.09}


                                                       
  0%|          | 300/86640 [04:28<8:00:13,  3.00it/s]

{'eval_loss': 0.3831276595592499, 'eval_accuracy': 0.8328220858895705, 'eval_runtime': 27.7914, 'eval_samples_per_second': 46.921, 'eval_steps_per_second': 5.865, 'epoch': 0.1}


                                                       
  0%|          | 350/86640 [05:13<8:13:31,  2.91it/s]

{'eval_loss': 0.3124072253704071, 'eval_accuracy': 0.8711656441717791, 'eval_runtime': 28.0155, 'eval_samples_per_second': 46.546, 'eval_steps_per_second': 5.818, 'epoch': 0.12}


  0%|          | 400/86640 [05:30<8:39:21,  2.77it/s]  

{'loss': 0.4675, 'learning_rate': 9.953831948291783e-05, 'epoch': 0.14}


                                                     
  0%|          | 400/86640 [05:57<8:39:21,  2.77it/s]

{'eval_loss': 0.4579084813594818, 'eval_accuracy': 0.8029141104294478, 'eval_runtime': 26.6335, 'eval_samples_per_second': 48.961, 'eval_steps_per_second': 6.12, 'epoch': 0.14}


                                                       
  1%|          | 450/86640 [06:41<8:00:06,  2.99it/s]

{'eval_loss': 0.3183535635471344, 'eval_accuracy': 0.8573619631901841, 'eval_runtime': 27.2307, 'eval_samples_per_second': 47.887, 'eval_steps_per_second': 5.986, 'epoch': 0.16}


                                                       
  1%|          | 500/86640 [07:27<8:23:01,  2.85it/s]

{'eval_loss': 0.28294530510902405, 'eval_accuracy': 0.8757668711656442, 'eval_runtime': 28.7131, 'eval_samples_per_second': 45.415, 'eval_steps_per_second': 5.677, 'epoch': 0.17}


                                                       
  1%|          | 550/86640 [08:13<8:04:11,  2.96it/s]

{'eval_loss': 0.3734060525894165, 'eval_accuracy': 0.8404907975460123, 'eval_runtime': 28.8571, 'eval_samples_per_second': 45.188, 'eval_steps_per_second': 5.649, 'epoch': 0.19}


  1%|          | 600/86640 [08:30<8:23:48,  2.85it/s]  

{'loss': 0.3736, 'learning_rate': 9.930747922437674e-05, 'epoch': 0.21}


                                                     
  1%|          | 600/86640 [09:00<8:23:48,  2.85it/s]

{'eval_loss': 0.29867643117904663, 'eval_accuracy': 0.870398773006135, 'eval_runtime': 29.1901, 'eval_samples_per_second': 44.673, 'eval_steps_per_second': 5.584, 'epoch': 0.21}


                                                       
  1%|          | 650/86640 [09:45<8:40:19,  2.75it/s]

{'eval_loss': 0.3124051094055176, 'eval_accuracy': 0.8734662576687117, 'eval_runtime': 27.8346, 'eval_samples_per_second': 46.848, 'eval_steps_per_second': 5.856, 'epoch': 0.23}


  1%|          | 650/86640 [09:46<21:32:15,  1.11it/s]

{'train_runtime': 586.0818, 'train_samples_per_second': 1182.275, 'train_steps_per_second': 147.829, 'train_loss': 0.4591100810124324, 'epoch': 0.23}





TrainOutput(global_step=650, training_loss=0.4591100810124324, metrics={'train_runtime': 586.0818, 'train_samples_per_second': 1182.275, 'train_steps_per_second': 147.829, 'train_loss': 0.4591100810124324, 'epoch': 0.23})

In [8]:
eval_results = trainer.evaluate()

100%|██████████| 163/163 [00:27<00:00,  5.85it/s]


In [8]:
write_eval_results(eval_results,output_dir,task,trainer,adapter_config)

Writing eval results
{'eval_loss': 0.6164497137069702, 'eval_accuracy': 0.6672782874617736, 'eval_runtime': 46.1558, 'eval_samples_per_second': 70.847, 'eval_steps_per_second': 8.861, 'epoch': 0.64}
