In [2]:
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [5]:
import os
import collections

import torch
import torch.nn as nn
from torch.utils.data.dataloader import DataLoader
from tqdm import tqdm
import h5py
import pandas as pd


In [6]:
from param import args

args.output = r'snap/vqa_multilingual'
#args.config = r'configs/vqa.json'



In [8]:
from pretrain.qa_answer_table import AnswerTable,load_lxmert_qa, load_lxmert_from_sgg_and_lxmert_pretrain, load_lxmert_from_pretrain_noqa
from tasks.vqa_model import VQAModel
from tasks.vqa_data import VQADataset, VQATorchDataset, VQAEvaluator

from utils import load_lxmert_sgg

DataTuple = collections.namedtuple("DataTuple", 'dataset loader evaluator')

self.symbolic_embedding_number: 4003


In [14]:
def get_data_tuple(splits: str, bs:int, shuffle=False, drop_last=False) -> DataTuple:
    dset = VQADataset(splits)
    tset = VQATorchDataset(dset, args)
    evaluator = VQAEvaluator(dset)
    data_loader = DataLoader(
        tset, batch_size=bs,
        shuffle=shuffle, num_workers=args.num_workers,
        drop_last=drop_last, pin_memory=True,
        collate_fn=lambda x: x
    )

    return DataTuple(dataset=dset, loader=data_loader, evaluator=evaluator)


class VQA:
    def __init__(self):
        # Datasets
        self.train_tuple = get_data_tuple(
            args.train, bs=args.batch_size, shuffle=True, drop_last=True
        )
        if args.valid != "":
            valid_bsize = args.get("valid_batch_size", 16)
            self.valid_tuple = get_data_tuple(
                args.valid, bs=valid_bsize,
                shuffle=False, drop_last=False
            )
        else:
            self.valid_tuple = None
        
        # Model
        self.model = VQAModel(self.train_tuple.dataset.num_answers)

        # Load pre-trained weights
        if args.load_lxmert is not None:
            print('1')
            self.model.lxrt_encoder.load(args.load_lxmert)
        if args.get("load_lxmert_pretrain", None) is not None:
            print('2')
            load_lxmert_from_pretrain_noqa(args.load_lxmert_pretrain, self.model)
        if args.load_lxmert_qa is not None:
            print('3')
            load_lxmert_qa(args.load_lxmert_qa, self.model,
                           label2ans=self.train_tuple.dataset.label2ans)
        
        # GPU options
        self.model = self.model.cuda()
        if args.multiGPU:
            self.model.lxrt_encoder.multi_gpu()
            self.model.multi_gpu()

        # Loss and Optimizer
        self.bce_loss = nn.BCEWithLogitsLoss()
        if 'bert' in args.optim:
            batch_per_epoch = len(self.train_tuple.loader)
            t_total = int(batch_per_epoch * args.epochs)
            print("BertAdam Total Iters: %d" % t_total)
            from lxrt.optimization import BertAdam
            self.optim = BertAdam(list(self.model.parameters()),
                                  lr=args.lr,
                                  warmup=0.1,
                                  t_total=t_total)
        else:
            self.optim = args.optimizer(self.model.parameters(), args.lr)
        
        # Output Directory
        self.output = args.output
        os.makedirs(self.output, exist_ok=True)

    def train(self, train_tuple, eval_tuple):
        dset, loader, evaluator = train_tuple
        iter_wrapper = (lambda x: tqdm(x, total=len(loader))) if args.tqdm else (lambda x: x)

        best_valid = 0.
        train_results = []
        report_every = args.get("report_every", 100)
        for epoch in range(args.epochs):
            quesid2ans = {}
            for i, batch in iter_wrapper(enumerate(loader)):
                # ques_id, feats, boxes, sent, tags, target = zip(*batch)
                ques_id, feats, boxes, sent, tags, target , obj_labels, obj_confs, attr_labels, attr_confs,img_id,ques_type,multi_ans = zip(*batch)

                self.model.train()
                self.optim.zero_grad()

                target = torch.stack(target).cuda()
                logit = self.model(feats, boxes, sent, tags)
                assert logit.dim() == target.dim() == 2
                loss = self.bce_loss(logit, target)
                loss = loss * logit.size(1)

                loss.backward()
                nn.utils.clip_grad_norm_(self.model.parameters(), 5.)
                self.optim.step()
                train_results.append(pd.Series({"loss":loss.detach().mean().item()}))

                score, label = logit.max(1)
                for qid, l in zip(ques_id, label.cpu().numpy()):
                    ans = dset.label2ans[l]
                    quesid2ans[qid] = ans
                
                if i % report_every == 0 and i > 0:
                    print("Epoch: {}, Iter: {}/{}".format(epoch, i, len(loader)))
                    print("    {}\n~~~~~~~~~~~~~~~~~~\n".format(pd.DataFrame(train_results[-report_every:]).mean()))

            log_str = "\nEpoch %d: Train %0.2f\n" % (epoch, evaluator.evaluate(quesid2ans) * 100.)

            if self.valid_tuple is not None:  # Do Validation
                valid_score = self.evaluate(eval_tuple)
                if valid_score > best_valid and not args.get("special_test", False):
                    best_valid = valid_score
                    self.save("BEST")

                log_str += "Epoch %d: Valid %0.2f\n" % (epoch, valid_score * 100.) + \
                           "Epoch %d: Best %0.2f\n" % (epoch, best_valid * 100.)
            #if epoch >= 5:
            self.save("Epoch{}".format(epoch))
            print(log_str, end='')
            print(args.output)


        self.save("LAST")

    def predict(self, eval_tuple: DataTuple, dump=None):
        """
        Predict the answers to questions in a data split.

        :param eval_tuple: The data tuple to be evaluated.
        :param dump: The path of saved file to dump results.
        :return: A dict of question_id to answer.
        """
        self.model.eval()
        dset, loader, evaluator = eval_tuple
        quesid2ans = {}
        for i, batch in enumerate(tqdm(loader)):
            _ = list(zip(*batch))
            ques_id, feats, boxes, sent, tags = _[:5]#, target = zip(*batch)
            with torch.no_grad():
                #target = torch.stack(target).cuda()
                logit = self.model(feats, boxes, sent, tags)
                score, label = logit.max(1)
                for qid, l in zip(ques_id, label.cpu().numpy()):
                    ans = dset.label2ans[l]
                    quesid2ans[qid] = ans
        if dump is not None:
            evaluator.dump_result(quesid2ans, dump)
        return quesid2ans

    def evaluate(self, eval_tuple: DataTuple, dump=None):
        """Evaluate all data in data_tuple."""
        quesid2ans = self.predict(eval_tuple, dump)
        return eval_tuple.evaluator.evaluate(quesid2ans)

    @staticmethod
    def oracle_score(data_tuple):
        dset, loader, evaluator = data_tuple
        quesid2ans = {}
        for i, (ques_id, feats, boxes, sent, target) in enumerate(loader):
            _, label = target.max(1)
            for qid, l in zip(ques_id, label.cpu().numpy()):
                ans = dset.label2ans[l]
                quesid2ans[qid.item()] = ans
        return evaluator.evaluate(quesid2ans)

    def save(self, name):
        if args.get('german_train', True):
            torch.save(self.model.state_dict(),
                       os.path.join(self.output, "%sGE.pth" % name))   
        elif args.get('german_only', True):
            torch.save(self.model.state_dict(),
                       os.path.join(self.output, "%sGEOnly.pth" % name))   
        else:
            torch.save(self.model.state_dict(),
                       os.path.join(self.output, "%sENonly.pth" % name))

    def load(self, path):
        print("Load model from %s" % path)
        state_dict = torch.load("%s.pth" % path)
        self.model.load_state_dict(state_dict)
        
import os
os.environ['http_proxy'] = "http://135.245.48.34:8000" 
os.environ['https_proxy'] = "http://135.245.48.34:8000" 

# Train (fine-tune) and Save

In [16]:
args.load_lxmert_pretrain = "snap/pretrained/BEST_EVAL_LOSS_enge_LXRT.pth" #"snap/pretrained/CC_Unsupervised_LXRT.pth"


In [17]:
vqa = VQA()

Load 443757 data from split(s) train.
['train']
'train2014_obj36.h5_boxes': returning memmapped view.
'train2014_obj36.h5_objects_id': returning memmapped view.
'train2014_obj36.h5_objects_conf': returning memmapped view.
'train2014_obj36.h5_attrs_id': returning memmapped view.
'train2014_obj36.h5_attrs_conf': returning memmapped view.
data/mscoco_imgfeat/train2014_obj36.h5 82783
Created ['train']


INFO:lxrt.tokenization:loading vocabulary file C:/Users/lab/work/Anna/nlp-tutorial/5-2.BERT/bert-base-multilingual-uncased\vocab.txt


Use 443757 data in torch dataset

data/vocabs/attributes_vocab.txt
data/vocabs/attributes_de_vocab.txt
data/vocabs/objects_vocab.txt
data/vocabs/objects_de_vocab.txt
Load 25994 data from split(s) minival.
['minival']
'val2014_obj36.h5_boxes': returning memmapped view.
'val2014_obj36.h5_objects_id': returning memmapped view.
'val2014_obj36.h5_objects_conf': returning memmapped view.
'val2014_obj36.h5_attrs_id': returning memmapped view.
'val2014_obj36.h5_attrs_conf': returning memmapped view.


INFO:lxrt.tokenization:loading vocabulary file C:/Users/lab/work/Anna/nlp-tutorial/5-2.BERT/bert-base-multilingual-uncased\vocab.txt
INFO:lxrt.tokenization:loading vocabulary file C:/Users/lab/work/Anna/nlp-tutorial/5-2.BERT/bert-base-multilingual-uncased\vocab.txt


data/mscoco_imgfeat/val2014_obj36.h5 40504
Created ['minival']
Use 25994 data in torch dataset

data/vocabs/attributes_vocab.txt
data/vocabs/attributes_de_vocab.txt
data/vocabs/objects_vocab.txt
data/vocabs/objects_de_vocab.txt


INFO:lxrt.modeling:loading archive file C:/Users/lab/work/Anna/nlp-tutorial/5-2.BERT/bert-base-multilingual-uncased
INFO:lxrt.modeling:Model config {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "symbolic_embedding_number": 4003,
  "type_vocab_size": 2,
  "vocab_size": 105879
}



LXRT encoder with 12 l_layers, 0 x_layers, and 0 r_layers.


!! Has 12 layers


INFO:lxrt.modeling:Weights of LXRTFeatureExtraction not initialized from pretrained model: ['bert.embeddings.symbolic_embedding.weight', 'bert.embeddings.token_type_embeddings_visual.weight', 'bert.embeddings.position_embeddings_visual.weight', 'bert.embeddings.visn_fc.weight', 'bert.embeddings.visn_fc.bias', 'bert.embeddings.visn_layer_norm.weight', 'bert.embeddings.visn_layer_norm.bias', 'bert.embeddings.box_fc.weight', 'bert.embeddings.box_fc.bias', 'bert.embeddings.box_layer_norm.weight', 'bert.embeddings.box_layer_norm.bias', 'bert.embeddings.tag_layer_norm.weight', 'bert.embeddings.tag_layer_norm.bias', 'bert.encoder.visn_fc.visn_fc.weight', 'bert.encoder.visn_fc.visn_fc.bias', 'bert.encoder.visn_fc.visn_layer_norm.weight', 'bert.encoder.visn_fc.visn_layer_norm.bias', 'bert.encoder.visn_fc.box_fc.weight', 'bert.encoder.visn_fc.box_fc.bias', 'bert.encoder.visn_fc.box_layer_norm.weight', 'bert.encoder.visn_fc.box_layer_norm.bias']
INFO:lxrt.modeling:Weights from pretrained model no

2
Load QA pre-trained LXMERT from snap/pretrained/BEST_EVAL_LOSS_enge_LXRT.pth 
Full loading failed!! Try partial loading!!
Successfully loaded: bert.embeddings.word_embeddings.weight
Successfully loaded: bert.embeddings.position_embeddings.weight
Successfully loaded: bert.embeddings.token_type_embeddings.weight
Successfully loaded: bert.embeddings.LayerNorm.weight
Successfully loaded: bert.embeddings.LayerNorm.bias
Successfully loaded: bert.embeddings.symbolic_embedding.weight
Successfully loaded: bert.embeddings.token_type_embeddings_visual.weight
Successfully loaded: bert.embeddings.position_embeddings_visual.weight
Successfully loaded: bert.embeddings.visn_fc.weight
Successfully loaded: bert.embeddings.visn_fc.bias
Successfully loaded: bert.embeddings.visn_layer_norm.weight
Successfully loaded: bert.embeddings.visn_layer_norm.bias
Successfully loaded: bert.embeddings.box_fc.weight
Successfully loaded: bert.embeddings.box_fc.bias
Successfully loaded: bert.embeddings.box_layer_norm.w

BertAdam Total Iters: 693350
BERTAdam lr 5e-05 total_steps 693350  warmup 0.1


In [22]:
vqa.train(vqa.train_tuple, vqa.valid_tuple)

  1%|█                                                                           | 201/13867 [00:53<1:22:42,  2.75it/s]

Epoch: 0, Iter: 200/13867
    loss    2300.633241
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:47<59:50,  3.75it/s]

Epoch: 0, Iter: 400/13867
    loss    2015.263159
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▎                                                                        | 601/13867 [02:41<1:00:27,  3.66it/s]

Epoch: 0, Iter: 600/13867
    loss    1662.442205
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▍                                                                       | 801/13867 [03:35<1:01:21,  3.55it/s]

Epoch: 0, Iter: 800/13867
    loss    1343.66077
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:29<56:03,  3.83it/s]

Epoch: 0, Iter: 1000/13867
    loss    1046.582939
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:22<56:21,  3.75it/s]

Epoch: 0, Iter: 1200/13867
    loss    777.255419
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:15<54:31,  3.81it/s]

Epoch: 0, Iter: 1400/13867
    loss    550.688158
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [07:08<52:37,  3.88it/s]

Epoch: 0, Iter: 1600/13867
    loss    371.961926
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [08:00<52:06,  3.86it/s]

Epoch: 0, Iter: 1800/13867
    loss    239.788523
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:52<50:14,  3.94it/s]

Epoch: 0, Iter: 2000/13867
    loss    148.756311
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:44<49:52,  3.90it/s]

Epoch: 0, Iter: 2200/13867
    loss    89.999768
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:36<50:11,  3.81it/s]

Epoch: 0, Iter: 2400/13867
    loss    53.852127
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:27<47:53,  3.92it/s]

Epoch: 0, Iter: 2600/13867
    loss    33.029832
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [12:19<47:01,  3.92it/s]

Epoch: 0, Iter: 2800/13867
    loss    21.65751
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [13:11<47:51,  3.78it/s]

Epoch: 0, Iter: 3000/13867
    loss    15.931216
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [14:02<45:18,  3.92it/s]

Epoch: 0, Iter: 3200/13867
    loss    12.754067
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:54<44:56,  3.88it/s]

Epoch: 0, Iter: 3400/13867
    loss    10.846262
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:45<43:33,  3.93it/s]

Epoch: 0, Iter: 3600/13867
    loss    9.667562
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:36<42:48,  3.92it/s]

Epoch: 0, Iter: 3800/13867
    loss    8.950045
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:27<42:24,  3.88it/s]

Epoch: 0, Iter: 4000/13867
    loss    8.574219
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [18:19<42:08,  3.82it/s]

Epoch: 0, Iter: 4200/13867
    loss    8.087844
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [19:14<44:08,  3.57it/s]

Epoch: 0, Iter: 4400/13867
    loss    7.86039
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [20:08<41:53,  3.69it/s]

Epoch: 0, Iter: 4600/13867
    loss    7.638146
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [21:03<39:35,  3.82it/s]

Epoch: 0, Iter: 4800/13867
    loss    7.436165
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:56<39:16,  3.76it/s]

Epoch: 0, Iter: 5000/13867
    loss    7.389883
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:49<38:01,  3.80it/s]

Epoch: 0, Iter: 5200/13867
    loss    7.143649
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [23:42<37:02,  3.81it/s]

Epoch: 0, Iter: 5400/13867
    loss    7.145459
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [24:35<37:49,  3.64it/s]

Epoch: 0, Iter: 5600/13867
    loss    6.94818
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [25:28<35:46,  3.76it/s]

Epoch: 0, Iter: 5800/13867
    loss    6.759103
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [26:21<37:15,  3.52it/s]

Epoch: 0, Iter: 6000/13867
    loss    6.800696
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [27:15<47:59,  2.66it/s]

Epoch: 0, Iter: 6200/13867
    loss    6.615092
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [28:07<32:50,  3.79it/s]

Epoch: 0, Iter: 6400/13867
    loss    6.612536
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [29:01<31:55,  3.79it/s]

Epoch: 0, Iter: 6600/13867
    loss    6.607005
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [29:54<30:59,  3.80it/s]

Epoch: 0, Iter: 6800/13867
    loss    6.4522
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [30:47<30:24,  3.76it/s]

Epoch: 0, Iter: 7000/13867
    loss    6.469755
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [31:41<30:20,  3.66it/s]

Epoch: 0, Iter: 7200/13867
    loss    6.431007
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [32:34<28:11,  3.82it/s]

Epoch: 0, Iter: 7400/13867
    loss    6.360758
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [33:26<27:02,  3.86it/s]

Epoch: 0, Iter: 7600/13867
    loss    6.400061
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [34:17<29:18,  3.45it/s]

Epoch: 0, Iter: 7800/13867
    loss    6.259896
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [35:09<25:01,  3.91it/s]

Epoch: 0, Iter: 8000/13867
    loss    6.090701
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [36:00<24:26,  3.86it/s]

Epoch: 0, Iter: 8200/13867
    loss    6.151937
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [36:52<23:37,  3.86it/s]

Epoch: 0, Iter: 8400/13867
    loss    5.975361
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [37:43<22:28,  3.90it/s]

Epoch: 0, Iter: 8600/13867
    loss    5.970157
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [38:35<21:37,  3.90it/s]

Epoch: 0, Iter: 8800/13867
    loss    5.992011
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [39:27<25:37,  3.17it/s]

Epoch: 0, Iter: 9000/13867
    loss    5.918565
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [40:18<20:14,  3.84it/s]

Epoch: 0, Iter: 9200/13867
    loss    5.772363
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [41:10<19:10,  3.88it/s]

Epoch: 0, Iter: 9400/13867
    loss    5.802702
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [42:01<18:15,  3.89it/s]

Epoch: 0, Iter: 9600/13867
    loss    5.699412
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [42:52<17:28,  3.88it/s]

Epoch: 0, Iter: 9800/13867
    loss    5.620452
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [43:43<16:16,  3.96it/s]

Epoch: 0, Iter: 10000/13867
    loss    5.507939
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [44:36<16:36,  3.68it/s]

Epoch: 0, Iter: 10200/13867
    loss    5.519314
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [45:27<15:31,  3.72it/s]

Epoch: 0, Iter: 10400/13867
    loss    5.429472
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [46:21<14:20,  3.80it/s]

Epoch: 0, Iter: 10600/13867
    loss    5.47213
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [47:12<13:01,  3.93it/s]

Epoch: 0, Iter: 10800/13867
    loss    5.412284
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [48:03<12:42,  3.76it/s]

Epoch: 0, Iter: 11000/13867
    loss    5.342782
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [48:55<11:21,  3.91it/s]

Epoch: 0, Iter: 11200/13867
    loss    5.437446
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [49:47<15:37,  2.63it/s]

Epoch: 0, Iter: 11400/13867
    loss    5.288739
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [50:38<09:42,  3.89it/s]

Epoch: 0, Iter: 11600/13867
    loss    5.304787
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [51:30<09:29,  3.63it/s]

Epoch: 0, Iter: 11800/13867
    loss    5.280641
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [52:23<08:29,  3.66it/s]

Epoch: 0, Iter: 12000/13867
    loss    5.271851
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [53:14<07:21,  3.78it/s]

Epoch: 0, Iter: 12200/13867
    loss    5.181707
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [54:06<06:27,  3.79it/s]

Epoch: 0, Iter: 12400/13867
    loss    5.101803
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [54:59<05:39,  3.73it/s]

Epoch: 0, Iter: 12600/13867
    loss    5.028253
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [55:51<04:27,  3.98it/s]

Epoch: 0, Iter: 12800/13867
    loss    5.060074
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [56:42<03:41,  3.92it/s]

Epoch: 0, Iter: 13000/13867
    loss    5.083876
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [57:33<02:57,  3.76it/s]

Epoch: 0, Iter: 13200/13867
    loss    4.971009
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [58:24<02:02,  3.81it/s]

Epoch: 0, Iter: 13400/13867
    loss    5.061326
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [59:15<01:08,  3.91it/s]

Epoch: 0, Iter: 13600/13867
    loss    4.891977
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|█████████████████████████████████████████████████████████████████████████▋| 13801/13867 [1:00:06<00:17,  3.84it/s]

Epoch: 0, Iter: 13800/13867
    loss    4.980014
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|██████████████████████████████████████████████████████████████████████████| 13867/13867 [1:00:23<00:00,  3.83it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:32<00:00,  8.74it/s]



Epoch 0: Train 30.21
Epoch 0: Valid 45.35
Epoch 0: Best 45.35
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:51<57:50,  3.94it/s]

Epoch: 1, Iter: 200/13867
    loss    4.900839
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<56:25,  3.98it/s]

Epoch: 1, Iter: 400/13867
    loss    4.730385
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:32<56:56,  3.88it/s]

Epoch: 1, Iter: 600/13867
    loss    4.746688
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:23<54:14,  4.02it/s]

Epoch: 1, Iter: 800/13867
    loss    4.720287
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:13<54:04,  3.97it/s]

Epoch: 1, Iter: 1000/13867
    loss    4.661166
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:04<54:24,  3.88it/s]

Epoch: 1, Iter: 1200/13867
    loss    4.619962
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:55<53:40,  3.87it/s]

Epoch: 1, Iter: 1400/13867
    loss    4.523296
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:46<51:29,  3.97it/s]

Epoch: 1, Iter: 1600/13867
    loss    4.626417
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|█████████▋                                                                 | 1801/13867 [07:38<1:04:25,  3.12it/s]

Epoch: 1, Iter: 1800/13867
    loss    4.625997
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:28<49:45,  3.97it/s]

Epoch: 1, Iter: 2000/13867
    loss    4.495001
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:18<47:53,  4.06it/s]

Epoch: 1, Iter: 2200/13867
    loss    4.563065
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:08<47:28,  4.03it/s]

Epoch: 1, Iter: 2400/13867
    loss    4.545825
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:58<47:27,  3.96it/s]

Epoch: 1, Iter: 2600/13867
    loss    4.467077
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:47<45:31,  4.05it/s]

Epoch: 1, Iter: 2800/13867
    loss    4.460837
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:38<45:16,  4.00it/s]

Epoch: 1, Iter: 3000/13867
    loss    4.533152
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:27<45:10,  3.93it/s]

Epoch: 1, Iter: 3200/13867
    loss    4.342556
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:17<43:32,  4.01it/s]

Epoch: 1, Iter: 3400/13867
    loss    4.38526
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:07<43:46,  3.91it/s]

Epoch: 1, Iter: 3600/13867
    loss    4.317633
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:56<42:22,  3.96it/s]

Epoch: 1, Iter: 3800/13867
    loss    4.325583
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:46<41:33,  3.96it/s]

Epoch: 1, Iter: 4000/13867
    loss    4.300162
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:36<40:36,  3.97it/s]

Epoch: 1, Iter: 4200/13867
    loss    4.369102
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:26<40:23,  3.91it/s]

Epoch: 1, Iter: 4400/13867
    loss    4.297984
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:16<38:14,  4.04it/s]

Epoch: 1, Iter: 4600/13867
    loss    4.180371
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:05<37:52,  3.99it/s]

Epoch: 1, Iter: 4800/13867
    loss    4.248777
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:55<36:37,  4.04it/s]

Epoch: 1, Iter: 5000/13867
    loss    4.174917
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:45<36:01,  4.01it/s]

Epoch: 1, Iter: 5200/13867
    loss    4.222366
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:35<35:14,  4.00it/s]

Epoch: 1, Iter: 5400/13867
    loss    4.190514
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:25<35:44,  3.86it/s]

Epoch: 1, Iter: 5600/13867
    loss    4.152322
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:17<34:20,  3.91it/s]

Epoch: 1, Iter: 5800/13867
    loss    4.070295
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:07<33:26,  3.92it/s]

Epoch: 1, Iter: 6000/13867
    loss    4.080081
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:57<31:15,  4.09it/s]

Epoch: 1, Iter: 6200/13867
    loss    4.139291
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:47<30:53,  4.03it/s]

Epoch: 1, Iter: 6400/13867
    loss    4.084095
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:36<30:25,  3.98it/s]

Epoch: 1, Iter: 6600/13867
    loss    4.087268
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:26<29:08,  4.04it/s]

Epoch: 1, Iter: 6800/13867
    loss    3.996608
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:16<28:34,  4.01it/s]

Epoch: 1, Iter: 7000/13867
    loss    4.117068
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:06<29:00,  3.83it/s]

Epoch: 1, Iter: 7200/13867
    loss    3.996858
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:55<26:50,  4.01it/s]

Epoch: 1, Iter: 7400/13867
    loss    4.113789
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:45<26:11,  3.99it/s]

Epoch: 1, Iter: 7600/13867
    loss    4.001651
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:35<25:10,  4.02it/s]

Epoch: 1, Iter: 7800/13867
    loss    4.01151
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:24<24:09,  4.05it/s]

Epoch: 1, Iter: 8000/13867
    loss    4.073783
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:14<23:15,  4.06it/s]

Epoch: 1, Iter: 8200/13867
    loss    4.032646
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:04<23:05,  3.94it/s]

Epoch: 1, Iter: 8400/13867
    loss    3.907875
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:54<22:16,  3.94it/s]

Epoch: 1, Iter: 8600/13867
    loss    3.948232
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:44<21:06,  4.00it/s]

Epoch: 1, Iter: 8800/13867
    loss    3.983574
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:33<20:07,  4.03it/s]

Epoch: 1, Iter: 9000/13867
    loss    3.940723
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:23<19:54,  3.91it/s]

Epoch: 1, Iter: 9200/13867
    loss    3.958752
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:12<18:42,  3.98it/s]

Epoch: 1, Iter: 9400/13867
    loss    3.906794
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:02<17:54,  3.97it/s]

Epoch: 1, Iter: 9600/13867
    loss    3.873717
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:52<16:57,  4.00it/s]

Epoch: 1, Iter: 9800/13867
    loss    3.897903
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:42<16:07,  3.99it/s]

Epoch: 1, Iter: 10000/13867
    loss    3.901461
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:31<15:06,  4.04it/s]

Epoch: 1, Iter: 10200/13867
    loss    3.880045
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:21<14:40,  3.94it/s]

Epoch: 1, Iter: 10400/13867
    loss    3.920462
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:11<13:36,  4.00it/s]

Epoch: 1, Iter: 10600/13867
    loss    3.860928
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:00<12:52,  3.97it/s]

Epoch: 1, Iter: 10800/13867
    loss    3.894534
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:50<12:08,  3.94it/s]

Epoch: 1, Iter: 11000/13867
    loss    3.886371
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:40<11:08,  3.99it/s]

Epoch: 1, Iter: 11200/13867
    loss    3.831396
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:29<10:19,  3.98it/s]

Epoch: 1, Iter: 11400/13867
    loss    3.875891
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:20<09:33,  3.95it/s]

Epoch: 1, Iter: 11600/13867
    loss    3.942575
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:10<08:23,  4.10it/s]

Epoch: 1, Iter: 11800/13867
    loss    3.798903
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [49:59<07:48,  3.98it/s]

Epoch: 1, Iter: 12000/13867
    loss    3.807751
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:51<07:27,  3.72it/s]

Epoch: 1, Iter: 12200/13867
    loss    3.824921
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:43<06:36,  3.70it/s]

Epoch: 1, Iter: 12400/13867
    loss    3.791992
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:33<05:23,  3.92it/s]

Epoch: 1, Iter: 12600/13867
    loss    3.770604
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:24<04:33,  3.89it/s]

Epoch: 1, Iter: 12800/13867
    loss    3.766711
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:13<03:36,  4.01it/s]

Epoch: 1, Iter: 13000/13867
    loss    3.681448
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:03<02:44,  4.06it/s]

Epoch: 1, Iter: 13200/13867
    loss    3.818255
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:52<01:57,  3.97it/s]

Epoch: 1, Iter: 13400/13867
    loss    3.816795
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:43<01:10,  3.79it/s]

Epoch: 1, Iter: 13600/13867
    loss    3.767849
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:34<00:18,  3.66it/s]

Epoch: 1, Iter: 13800/13867
    loss    3.811277
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:51<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.32it/s]



Epoch 1: Train 52.69
Epoch 1: Valid 57.42
Epoch 1: Best 57.42
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<55:49,  4.08it/s]

Epoch: 2, Iter: 200/13867
    loss    3.663599
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:10,  4.00it/s]

Epoch: 2, Iter: 400/13867
    loss    3.657682
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:28<56:25,  3.92it/s]

Epoch: 2, Iter: 600/13867
    loss    3.604771
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:18<54:27,  4.00it/s]

Epoch: 2, Iter: 800/13867
    loss    3.632877
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:08<53:36,  4.00it/s]

Epoch: 2, Iter: 1000/13867
    loss    3.670259
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [04:58<53:15,  3.96it/s]

Epoch: 2, Iter: 1200/13867
    loss    3.571564
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:47<50:57,  4.08it/s]

Epoch: 2, Iter: 1400/13867
    loss    3.533075
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:36<52:28,  3.90it/s]

Epoch: 2, Iter: 1600/13867
    loss    3.657806
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:26<49:56,  4.03it/s]

Epoch: 2, Iter: 1800/13867
    loss    3.628181
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:16<49:23,  4.00it/s]

Epoch: 2, Iter: 2000/13867
    loss    3.67313
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:07<49:06,  3.96it/s]

Epoch: 2, Iter: 2200/13867
    loss    3.607029
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [09:57<48:07,  3.97it/s]

Epoch: 2, Iter: 2400/13867
    loss    3.582942
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:48<48:18,  3.89it/s]

Epoch: 2, Iter: 2600/13867
    loss    3.632817
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:38<45:50,  4.02it/s]

Epoch: 2, Iter: 2800/13867
    loss    3.5198
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:28<46:07,  3.93it/s]

Epoch: 2, Iter: 3000/13867
    loss    3.654309
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:19<45:14,  3.93it/s]

Epoch: 2, Iter: 3200/13867
    loss    3.580553
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:09<43:58,  3.97it/s]

Epoch: 2, Iter: 3400/13867
    loss    3.626208
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:00<43:24,  3.94it/s]

Epoch: 2, Iter: 3600/13867
    loss    3.549524
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:50<42:16,  3.97it/s]

Epoch: 2, Iter: 3800/13867
    loss    3.541068
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:40<42:49,  3.84it/s]

Epoch: 2, Iter: 4000/13867
    loss    3.540439
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:30<40:46,  3.95it/s]

Epoch: 2, Iter: 4200/13867
    loss    3.646228
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:20<39:38,  3.98it/s]

Epoch: 2, Iter: 4400/13867
    loss    3.565691
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:10<38:15,  4.04it/s]

Epoch: 2, Iter: 4600/13867
    loss    3.478898
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:01<37:34,  4.02it/s]

Epoch: 2, Iter: 4800/13867
    loss    3.584593
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:51<37:13,  3.97it/s]

Epoch: 2, Iter: 5000/13867
    loss    3.604304
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:41<35:51,  4.03it/s]

Epoch: 2, Iter: 5200/13867
    loss    3.515385
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:31<36:06,  3.91it/s]

Epoch: 2, Iter: 5400/13867
    loss    3.598538
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:21<35:08,  3.92it/s]

Epoch: 2, Iter: 5600/13867
    loss    3.544808
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:12<33:51,  3.97it/s]

Epoch: 2, Iter: 5800/13867
    loss    3.542336
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:02<32:17,  4.06it/s]

Epoch: 2, Iter: 6000/13867
    loss    3.539272
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:52<32:10,  3.97it/s]

Epoch: 2, Iter: 6200/13867
    loss    3.527533
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:42<30:46,  4.04it/s]

Epoch: 2, Iter: 6400/13867
    loss    3.599395
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:32<29:38,  4.09it/s]

Epoch: 2, Iter: 6600/13867
    loss    3.554823
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:22<30:14,  3.89it/s]

Epoch: 2, Iter: 6800/13867
    loss    3.603277
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:12<28:49,  3.97it/s]

Epoch: 2, Iter: 7000/13867
    loss    3.488493
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:03<28:05,  3.95it/s]

Epoch: 2, Iter: 7200/13867
    loss    3.513514
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:53<27:03,  3.98it/s]

Epoch: 2, Iter: 7400/13867
    loss    3.521391
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:43<26:48,  3.90it/s]

Epoch: 2, Iter: 7600/13867
    loss    3.580599
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:34<25:46,  3.92it/s]

Epoch: 2, Iter: 7800/13867
    loss    3.537373
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:24<24:33,  3.98it/s]

Epoch: 2, Iter: 8000/13867
    loss    3.5181
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:14<23:52,  3.96it/s]

Epoch: 2, Iter: 8200/13867
    loss    3.560773
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:04<22:38,  4.03it/s]

Epoch: 2, Iter: 8400/13867
    loss    3.536996
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:55<22:23,  3.92it/s]

Epoch: 2, Iter: 8600/13867
    loss    3.476413
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:45<21:16,  3.97it/s]

Epoch: 2, Iter: 8800/13867
    loss    3.490383
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:35<20:21,  3.98it/s]

Epoch: 2, Iter: 9000/13867
    loss    3.552809
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:25<19:29,  3.99it/s]

Epoch: 2, Iter: 9200/13867
    loss    3.571908
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:15<18:48,  3.96it/s]

Epoch: 2, Iter: 9400/13867
    loss    3.575623
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:05<17:57,  3.96it/s]

Epoch: 2, Iter: 9600/13867
    loss    3.479506
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:55<17:03,  3.97it/s]

Epoch: 2, Iter: 9800/13867
    loss    3.478443
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:46<16:18,  3.95it/s]

Epoch: 2, Iter: 10000/13867
    loss    3.495749
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:36<15:31,  3.94it/s]

Epoch: 2, Iter: 10200/13867
    loss    3.497014
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:26<15:32,  3.72it/s]

Epoch: 2, Iter: 10400/13867
    loss    3.483564
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:16<13:57,  3.90it/s]

Epoch: 2, Iter: 10600/13867
    loss    3.469847
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:06<13:14,  3.86it/s]

Epoch: 2, Iter: 10800/13867
    loss    3.525697
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:57<11:51,  4.03it/s]

Epoch: 2, Iter: 11000/13867
    loss    3.531226
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:47<10:55,  4.07it/s]

Epoch: 2, Iter: 11200/13867
    loss    3.442114
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:37<10:11,  4.03it/s]

Epoch: 2, Iter: 11400/13867
    loss    3.446189
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:27<09:31,  3.96it/s]

Epoch: 2, Iter: 11600/13867
    loss    3.52731
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:17<08:36,  4.00it/s]

Epoch: 2, Iter: 11800/13867
    loss    3.432196
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:07<07:46,  4.00it/s]

Epoch: 2, Iter: 12000/13867
    loss    3.539015
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:57<06:57,  3.99it/s]

Epoch: 2, Iter: 12200/13867
    loss    3.508823
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:47<06:06,  4.00it/s]

Epoch: 2, Iter: 12400/13867
    loss    3.451915
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:37<05:17,  3.99it/s]

Epoch: 2, Iter: 12600/13867
    loss    3.526091
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:27<04:26,  4.00it/s]

Epoch: 2, Iter: 12800/13867
    loss    3.482493
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:18<03:37,  3.99it/s]

Epoch: 2, Iter: 13000/13867
    loss    3.463991
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:08<03:08,  3.54it/s]

Epoch: 2, Iter: 13200/13867
    loss    3.479448
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:59<01:58,  3.94it/s]

Epoch: 2, Iter: 13400/13867
    loss    3.504598
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:49<01:06,  3.97it/s]

Epoch: 2, Iter: 13600/13867
    loss    3.471002
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:39<00:16,  3.98it/s]

Epoch: 2, Iter: 13800/13867
    loss    3.448877
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:55<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.28it/s]



Epoch 2: Train 59.41
Epoch 2: Valid 60.25
Epoch 2: Best 60.25
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<57:52,  3.93it/s]

Epoch: 3, Iter: 200/13867
    loss    3.259958
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<57:09,  3.93it/s]

Epoch: 3, Iter: 400/13867
    loss    3.284269
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<56:44,  3.90it/s]

Epoch: 3, Iter: 600/13867
    loss    3.261332
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<55:17,  3.94it/s]

Epoch: 3, Iter: 800/13867
    loss    3.326905
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▍                                                                     | 1001/13867 [04:11<1:02:46,  3.42it/s]

Epoch: 3, Iter: 1000/13867
    loss    3.281502
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:52,  3.92it/s]

Epoch: 3, Iter: 1200/13867
    loss    3.350982
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:52<54:11,  3.83it/s]

Epoch: 3, Iter: 1400/13867
    loss    3.276156
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<50:38,  4.04it/s]

Epoch: 3, Iter: 1600/13867
    loss    3.209168
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:32<50:50,  3.96it/s]

Epoch: 3, Iter: 1800/13867
    loss    3.299315
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:22<49:55,  3.96it/s]

Epoch: 3, Iter: 2000/13867
    loss    3.243014
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:12<49:01,  3.97it/s]

Epoch: 3, Iter: 2200/13867
    loss    3.292213
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<47:53,  3.99it/s]

Epoch: 3, Iter: 2400/13867
    loss    3.294142
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:53<48:15,  3.89it/s]

Epoch: 3, Iter: 2600/13867
    loss    3.307174
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:43<47:00,  3.92it/s]

Epoch: 3, Iter: 2800/13867
    loss    3.318733
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:34<45:07,  4.01it/s]

Epoch: 3, Iter: 3000/13867
    loss    3.303759
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:24<45:19,  3.92it/s]

Epoch: 3, Iter: 3200/13867
    loss    3.240742
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:14<44:24,  3.93it/s]

Epoch: 3, Iter: 3400/13867
    loss    3.308278
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:05<43:29,  3.93it/s]

Epoch: 3, Iter: 3600/13867
    loss    3.391835
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:55<41:20,  4.06it/s]

Epoch: 3, Iter: 3800/13867
    loss    3.285207
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:45<41:43,  3.94it/s]

Epoch: 3, Iter: 4000/13867
    loss    3.314496
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:35<40:10,  4.01it/s]

Epoch: 3, Iter: 4200/13867
    loss    3.350371
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:25<40:17,  3.92it/s]

Epoch: 3, Iter: 4400/13867
    loss    3.322674
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:15<38:42,  3.99it/s]

Epoch: 3, Iter: 4600/13867
    loss    3.333158
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:06<38:15,  3.95it/s]

Epoch: 3, Iter: 4800/13867
    loss    3.254996
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:56<41:25,  3.57it/s]

Epoch: 3, Iter: 5000/13867
    loss    3.353156
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:47<43:33,  3.32it/s]

Epoch: 3, Iter: 5200/13867
    loss    3.297974
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:37<35:32,  3.97it/s]

Epoch: 3, Iter: 5400/13867
    loss    3.264678
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:27<35:08,  3.92it/s]

Epoch: 3, Iter: 5600/13867
    loss    3.286021
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:17<33:19,  4.03it/s]

Epoch: 3, Iter: 5800/13867
    loss    3.313005
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:08<33:42,  3.89it/s]

Epoch: 3, Iter: 6000/13867
    loss    3.342634
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:58<32:26,  3.94it/s]

Epoch: 3, Iter: 6200/13867
    loss    3.326398
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:48<31:09,  3.99it/s]

Epoch: 3, Iter: 6400/13867
    loss    3.249982
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:38<30:47,  3.93it/s]

Epoch: 3, Iter: 6600/13867
    loss    3.24509
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:29<29:53,  3.94it/s]

Epoch: 3, Iter: 6800/13867
    loss    3.334737
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:19<29:37,  3.86it/s]

Epoch: 3, Iter: 7000/13867
    loss    3.30787
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:09<27:37,  4.02it/s]

Epoch: 3, Iter: 7200/13867
    loss    3.276524
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:59<26:31,  4.06it/s]

Epoch: 3, Iter: 7400/13867
    loss    3.352329
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:50<26:13,  3.98it/s]

Epoch: 3, Iter: 7600/13867
    loss    3.381389
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:40<25:29,  3.97it/s]

Epoch: 3, Iter: 7800/13867
    loss    3.330849
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:31<25:17,  3.87it/s]

Epoch: 3, Iter: 8000/13867
    loss    3.369235
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:21<24:06,  3.92it/s]

Epoch: 3, Iter: 8200/13867
    loss    3.308658
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:12<23:34,  3.86it/s]

Epoch: 3, Iter: 8400/13867
    loss    3.345181
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:02<21:56,  4.00it/s]

Epoch: 3, Iter: 8600/13867
    loss    3.305608
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:52<21:34,  3.91it/s]

Epoch: 3, Iter: 8800/13867
    loss    3.266641
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:43<20:14,  4.01it/s]

Epoch: 3, Iter: 9000/13867
    loss    3.350347
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:33<20:04,  3.87it/s]

Epoch: 3, Iter: 9200/13867
    loss    3.327813
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:23<19:06,  3.89it/s]

Epoch: 3, Iter: 9400/13867
    loss    3.36152
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:13<17:58,  3.96it/s]

Epoch: 3, Iter: 9600/13867
    loss    3.304659
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:03<17:05,  3.96it/s]

Epoch: 3, Iter: 9800/13867
    loss    3.204221
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:53<16:19,  3.95it/s]

Epoch: 3, Iter: 10000/13867
    loss    3.311004
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:44<15:10,  4.03it/s]

Epoch: 3, Iter: 10200/13867
    loss    3.382394
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:34<14:25,  4.01it/s]

Epoch: 3, Iter: 10400/13867
    loss    3.373872
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:24<13:51,  3.93it/s]

Epoch: 3, Iter: 10600/13867
    loss    3.359205
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:14<12:41,  4.03it/s]

Epoch: 3, Iter: 10800/13867
    loss    3.286315
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:05<12:07,  3.94it/s]

Epoch: 3, Iter: 11000/13867
    loss    3.374209
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:55<11:18,  3.93it/s]

Epoch: 3, Iter: 11200/13867
    loss    3.268056
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:46<10:30,  3.91it/s]

Epoch: 3, Iter: 11400/13867
    loss    3.354884
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:36<09:34,  3.94it/s]

Epoch: 3, Iter: 11600/13867
    loss    3.348917
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:25<08:40,  3.97it/s]

Epoch: 3, Iter: 11800/13867
    loss    3.343825
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:16<07:40,  4.06it/s]

Epoch: 3, Iter: 12000/13867
    loss    3.384004
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:06<07:12,  3.85it/s]

Epoch: 3, Iter: 12200/13867
    loss    3.331374
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:56<06:09,  3.96it/s]

Epoch: 3, Iter: 12400/13867
    loss    3.315246
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:47<05:20,  3.95it/s]

Epoch: 3, Iter: 12600/13867
    loss    3.302909
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:37<04:29,  3.96it/s]

Epoch: 3, Iter: 12800/13867
    loss    3.33148
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:27<03:39,  3.95it/s]

Epoch: 3, Iter: 13000/13867
    loss    3.291695
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:17<02:46,  3.99it/s]

Epoch: 3, Iter: 13200/13867
    loss    3.32159
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:07<01:56,  4.01it/s]

Epoch: 3, Iter: 13400/13867
    loss    3.373837
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:57<01:21,  3.27it/s]

Epoch: 3, Iter: 13600/13867
    loss    3.329108
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:47<00:16,  4.06it/s]

Epoch: 3, Iter: 13800/13867
    loss    3.30148
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:04<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.21it/s]



Epoch 3: Train 62.69
Epoch 3: Valid 61.48
Epoch 3: Best 61.48
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:46,  4.01it/s]

Epoch: 4, Iter: 200/13867
    loss    3.128132
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:40,  3.96it/s]

Epoch: 4, Iter: 400/13867
    loss    3.069515
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<55:23,  3.99it/s]

Epoch: 4, Iter: 600/13867
    loss    3.162556
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:19<54:54,  3.97it/s]

Epoch: 4, Iter: 800/13867
    loss    3.132172
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<53:59,  3.97it/s]

Epoch: 4, Iter: 1000/13867
    loss    3.086439
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<52:39,  4.01it/s]

Epoch: 4, Iter: 1200/13867
    loss    3.169585
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<51:24,  4.04it/s]

Epoch: 4, Iter: 1400/13867
    loss    3.054249
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<53:14,  3.84it/s]

Epoch: 4, Iter: 1600/13867
    loss    3.116563
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:37,  3.97it/s]

Epoch: 4, Iter: 1800/13867
    loss    3.086642
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<49:48,  3.97it/s]

Epoch: 4, Iter: 2000/13867
    loss    3.135658
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:10<49:43,  3.91it/s]

Epoch: 4, Iter: 2200/13867
    loss    3.145661
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:01<49:31,  3.86it/s]

Epoch: 4, Iter: 2400/13867
    loss    3.107867
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<46:41,  4.02it/s]

Epoch: 4, Iter: 2600/13867
    loss    3.158598
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<46:59,  3.92it/s]

Epoch: 4, Iter: 2800/13867
    loss    3.131338
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<45:39,  3.97it/s]

Epoch: 4, Iter: 3000/13867
    loss    3.107361
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<45:28,  3.91it/s]

Epoch: 4, Iter: 3200/13867
    loss    3.202597
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<44:29,  3.92it/s]

Epoch: 4, Iter: 3400/13867
    loss    3.110484
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:02<43:00,  3.98it/s]

Epoch: 4, Iter: 3600/13867
    loss    3.092591
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:52<41:29,  4.04it/s]

Epoch: 4, Iter: 3800/13867
    loss    3.173292
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<41:17,  3.98it/s]

Epoch: 4, Iter: 4000/13867
    loss    3.120229
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<40:26,  3.98it/s]

Epoch: 4, Iter: 4200/13867
    loss    3.174058
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<40:49,  3.86it/s]

Epoch: 4, Iter: 4400/13867
    loss    3.138503
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<39:18,  3.93it/s]

Epoch: 4, Iter: 4600/13867
    loss    3.187014
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:03<38:34,  3.92it/s]

Epoch: 4, Iter: 4800/13867
    loss    3.223541
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:53<36:55,  4.00it/s]

Epoch: 4, Iter: 5000/13867
    loss    3.092765
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:43<36:53,  3.92it/s]

Epoch: 4, Iter: 5200/13867
    loss    3.148371
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:34<35:38,  3.96it/s]

Epoch: 4, Iter: 5400/13867
    loss    3.22503
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:24<35:24,  3.89it/s]

Epoch: 4, Iter: 5600/13867
    loss    3.177019
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:14<33:43,  3.99it/s]

Epoch: 4, Iter: 5800/13867
    loss    3.12008
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:04<33:04,  3.96it/s]

Epoch: 4, Iter: 6000/13867
    loss    3.244971
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:54<32:14,  3.96it/s]

Epoch: 4, Iter: 6200/13867
    loss    3.148235
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:45<30:54,  4.03it/s]

Epoch: 4, Iter: 6400/13867
    loss    3.147839
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:35<31:13,  3.88it/s]

Epoch: 4, Iter: 6600/13867
    loss    3.23195
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:25<29:47,  3.95it/s]

Epoch: 4, Iter: 6800/13867
    loss    3.197096
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:15<28:54,  3.96it/s]

Epoch: 4, Iter: 7000/13867
    loss    3.211529
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:05<28:17,  3.93it/s]

Epoch: 4, Iter: 7200/13867
    loss    3.205419
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:55<26:49,  4.02it/s]

Epoch: 4, Iter: 7400/13867
    loss    3.203452
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:45<26:54,  3.88it/s]

Epoch: 4, Iter: 7600/13867
    loss    3.176663
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:35<25:41,  3.94it/s]

Epoch: 4, Iter: 7800/13867
    loss    3.175996
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:24<24:31,  3.99it/s]

Epoch: 4, Iter: 8000/13867
    loss    3.193479
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:15<23:45,  3.98it/s]

Epoch: 4, Iter: 8200/13867
    loss    3.216754
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:05<23:06,  3.94it/s]

Epoch: 4, Iter: 8400/13867
    loss    3.164351
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:55<22:37,  3.88it/s]

Epoch: 4, Iter: 8600/13867
    loss    3.199823
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:45<21:21,  3.95it/s]

Epoch: 4, Iter: 8800/13867
    loss    3.162311
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:36<24:50,  3.27it/s]

Epoch: 4, Iter: 9000/13867
    loss    3.127902
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:25<19:24,  4.01it/s]

Epoch: 4, Iter: 9200/13867
    loss    3.175861
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:15<18:36,  4.00it/s]

Epoch: 4, Iter: 9400/13867
    loss    3.219187
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:05<17:42,  4.01it/s]

Epoch: 4, Iter: 9600/13867
    loss    3.113149
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:55<16:59,  3.99it/s]

Epoch: 4, Iter: 9800/13867
    loss    3.121023
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:46<16:43,  3.85it/s]

Epoch: 4, Iter: 10000/13867
    loss    3.179343
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:35<15:44,  3.88it/s]

Epoch: 4, Iter: 10200/13867
    loss    3.236394
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:25<14:41,  3.93it/s]

Epoch: 4, Iter: 10400/13867
    loss    3.20009
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:15<13:51,  3.93it/s]

Epoch: 4, Iter: 10600/13867
    loss    3.208272
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:06<12:53,  3.96it/s]

Epoch: 4, Iter: 10800/13867
    loss    3.190598
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:55<12:03,  3.96it/s]

Epoch: 4, Iter: 11000/13867
    loss    3.143866
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:46<11:08,  3.99it/s]

Epoch: 4, Iter: 11200/13867
    loss    3.145167
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:36<10:26,  3.94it/s]

Epoch: 4, Iter: 11400/13867
    loss    3.208554
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:26<09:30,  3.97it/s]

Epoch: 4, Iter: 11600/13867
    loss    3.171917
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:17<08:32,  4.03it/s]

Epoch: 4, Iter: 11800/13867
    loss    3.173058
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:06<07:45,  4.01it/s]

Epoch: 4, Iter: 12000/13867
    loss    3.159425
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:57<07:05,  3.92it/s]

Epoch: 4, Iter: 12200/13867
    loss    3.332522
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:47<06:03,  4.03it/s]

Epoch: 4, Iter: 12400/13867
    loss    3.234528
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:37<05:22,  3.93it/s]

Epoch: 4, Iter: 12600/13867
    loss    3.231245
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:26<04:26,  4.00it/s]

Epoch: 4, Iter: 12800/13867
    loss    3.228116
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:17<03:41,  3.92it/s]

Epoch: 4, Iter: 13000/13867
    loss    3.213408
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:07<02:46,  3.99it/s]

Epoch: 4, Iter: 13200/13867
    loss    3.216651
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:57<01:58,  3.94it/s]

Epoch: 4, Iter: 13400/13867
    loss    3.212228
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:47<01:07,  3.95it/s]

Epoch: 4, Iter: 13600/13867
    loss    3.244737
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:37<00:16,  3.92it/s]

Epoch: 4, Iter: 13800/13867
    loss    3.253939
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:54<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.26it/s]



Epoch 4: Train 64.86
Epoch 4: Valid 62.46
Epoch 4: Best 62.46
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<56:59,  4.00it/s]

Epoch: 5, Iter: 200/13867
    loss    2.968224
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<56:07,  4.00it/s]

Epoch: 5, Iter: 400/13867
    loss    3.022037
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<56:16,  3.93it/s]

Epoch: 5, Iter: 600/13867
    loss    2.929571
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<54:33,  3.99it/s]

Epoch: 5, Iter: 800/13867
    loss    2.993302
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<53:46,  3.99it/s]

Epoch: 5, Iter: 1000/13867
    loss    2.993358
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<52:07,  4.05it/s]

Epoch: 5, Iter: 1200/13867
    loss    2.983508
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<50:56,  4.08it/s]

Epoch: 5, Iter: 1400/13867
    loss    2.929942
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<51:01,  4.01it/s]

Epoch: 5, Iter: 1600/13867
    loss    2.961493
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:42,  3.97it/s]

Epoch: 5, Iter: 1800/13867
    loss    2.953236
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<48:50,  4.05it/s]

Epoch: 5, Iter: 2000/13867
    loss    3.025344
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:10<48:43,  3.99it/s]

Epoch: 5, Iter: 2200/13867
    loss    3.053481
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:00<48:07,  3.97it/s]

Epoch: 5, Iter: 2400/13867
    loss    2.981562
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:50<46:35,  4.03it/s]

Epoch: 5, Iter: 2600/13867
    loss    3.018441
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<46:33,  3.96it/s]

Epoch: 5, Iter: 2800/13867
    loss    3.03865
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:30<46:21,  3.91it/s]

Epoch: 5, Iter: 3000/13867
    loss    3.017855
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:20<45:00,  3.95it/s]

Epoch: 5, Iter: 3200/13867
    loss    3.073548
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<44:18,  3.94it/s]

Epoch: 5, Iter: 3400/13867
    loss    3.051257
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<42:53,  3.99it/s]

Epoch: 5, Iter: 3600/13867
    loss    2.939821
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:50<42:49,  3.92it/s]

Epoch: 5, Iter: 3800/13867
    loss    2.999007
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:41<41:15,  3.98it/s]

Epoch: 5, Iter: 4000/13867
    loss    3.027274
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:31<41:06,  3.92it/s]

Epoch: 5, Iter: 4200/13867
    loss    2.969054
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:21<40:05,  3.93it/s]

Epoch: 5, Iter: 4400/13867
    loss    3.0774
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:11<39:18,  3.93it/s]

Epoch: 5, Iter: 4600/13867
    loss    3.029395
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:01<37:48,  4.00it/s]

Epoch: 5, Iter: 4800/13867
    loss    3.039746
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:51<36:24,  4.06it/s]

Epoch: 5, Iter: 5000/13867
    loss    3.041922
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:42<49:06,  2.94it/s]

Epoch: 5, Iter: 5200/13867
    loss    2.990389
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:32<36:04,  3.91it/s]

Epoch: 5, Iter: 5400/13867
    loss    3.061701
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:23<35:40,  3.86it/s]

Epoch: 5, Iter: 5600/13867
    loss    3.064652
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:14<34:39,  3.88it/s]

Epoch: 5, Iter: 5800/13867
    loss    2.990025
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:03<32:37,  4.02it/s]

Epoch: 5, Iter: 6000/13867
    loss    3.0151
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:54<31:45,  4.02it/s]

Epoch: 5, Iter: 6200/13867
    loss    2.997021
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:44<31:21,  3.97it/s]

Epoch: 5, Iter: 6400/13867
    loss    3.039576
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:35<30:46,  3.93it/s]

Epoch: 5, Iter: 6600/13867
    loss    3.025909
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:24<29:19,  4.02it/s]

Epoch: 5, Iter: 6800/13867
    loss    3.031995
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:14<29:11,  3.92it/s]

Epoch: 5, Iter: 7000/13867
    loss    3.058661
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:05<27:31,  4.04it/s]

Epoch: 5, Iter: 7200/13867
    loss    3.055723
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:54<27:19,  3.94it/s]

Epoch: 5, Iter: 7400/13867
    loss    3.001062
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:45<26:44,  3.90it/s]

Epoch: 5, Iter: 7600/13867
    loss    3.09355
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:35<26:12,  3.86it/s]

Epoch: 5, Iter: 7800/13867
    loss    2.973956
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:25<24:16,  4.03it/s]

Epoch: 5, Iter: 8000/13867
    loss    3.068359
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:15<24:00,  3.93it/s]

Epoch: 5, Iter: 8200/13867
    loss    3.04302
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:05<22:51,  3.99it/s]

Epoch: 5, Iter: 8400/13867
    loss    2.965121
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:56<22:00,  3.99it/s]

Epoch: 5, Iter: 8600/13867
    loss    3.041715
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:45<21:43,  3.89it/s]

Epoch: 5, Iter: 8800/13867
    loss    2.991216
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:36<20:55,  3.88it/s]

Epoch: 5, Iter: 9000/13867
    loss    2.981623
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:26<19:20,  4.02it/s]

Epoch: 5, Iter: 9200/13867
    loss    3.093931
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:16<19:26,  3.83it/s]

Epoch: 5, Iter: 9400/13867
    loss    2.893017
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:06<17:56,  3.96it/s]

Epoch: 5, Iter: 9600/13867
    loss    2.992768
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:56<17:13,  3.94it/s]

Epoch: 5, Iter: 9800/13867
    loss    3.05301
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:46<16:09,  3.99it/s]

Epoch: 5, Iter: 10000/13867
    loss    2.952005
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:36<15:26,  3.96it/s]

Epoch: 5, Iter: 10200/13867
    loss    3.014466
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:26<14:30,  3.98it/s]

Epoch: 5, Iter: 10400/13867
    loss    2.991478
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:16<13:27,  4.04it/s]

Epoch: 5, Iter: 10600/13867
    loss    2.991992
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:06<12:54,  3.96it/s]

Epoch: 5, Iter: 10800/13867
    loss    3.013323
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:56<11:49,  4.04it/s]

Epoch: 5, Iter: 11000/13867
    loss    2.971063
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:47<11:09,  3.98it/s]

Epoch: 5, Iter: 11200/13867
    loss    3.02247
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:36<10:17,  3.99it/s]

Epoch: 5, Iter: 11400/13867
    loss    2.96769
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:27<09:35,  3.93it/s]

Epoch: 5, Iter: 11600/13867
    loss    3.075882
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:17<08:43,  3.95it/s]

Epoch: 5, Iter: 11800/13867
    loss    3.088619
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:07<07:38,  4.07it/s]

Epoch: 5, Iter: 12000/13867
    loss    3.081565
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:57<07:08,  3.89it/s]

Epoch: 5, Iter: 12200/13867
    loss    2.963808
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:47<06:13,  3.93it/s]

Epoch: 5, Iter: 12400/13867
    loss    3.059955
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:37<05:18,  3.98it/s]

Epoch: 5, Iter: 12600/13867
    loss    3.024787
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:27<04:23,  4.05it/s]

Epoch: 5, Iter: 12800/13867
    loss    3.087881
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:17<03:41,  3.91it/s]

Epoch: 5, Iter: 13000/13867
    loss    3.080432
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:07<02:44,  4.04it/s]

Epoch: 5, Iter: 13200/13867
    loss    2.993669
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:57<01:58,  3.95it/s]

Epoch: 5, Iter: 13400/13867
    loss    3.067471
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:47<01:05,  4.03it/s]

Epoch: 5, Iter: 13600/13867
    loss    3.075211
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:37<00:16,  3.98it/s]

Epoch: 5, Iter: 13800/13867
    loss    3.03019
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:54<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.28it/s]



Epoch 5: Train 67.12
Epoch 5: Valid 63.34
Epoch 5: Best 63.34
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<56:03,  4.06it/s]

Epoch: 6, Iter: 200/13867
    loss    2.815354
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:57,  3.94it/s]

Epoch: 6, Iter: 400/13867
    loss    2.758227
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:33,  3.98it/s]

Epoch: 6, Iter: 600/13867
    loss    2.746154
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<55:59,  3.89it/s]

Epoch: 6, Iter: 800/13867
    loss    2.712389
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<53:58,  3.97it/s]

Epoch: 6, Iter: 1000/13867
    loss    2.810048
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<53:58,  3.91it/s]

Epoch: 6, Iter: 1200/13867
    loss    2.830178
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<52:37,  3.95it/s]

Epoch: 6, Iter: 1400/13867
    loss    2.775753
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:39<51:31,  3.97it/s]

Epoch: 6, Iter: 1600/13867
    loss    2.884542
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:19,  4.00it/s]

Epoch: 6, Iter: 1800/13867
    loss    2.736151
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<49:28,  4.00it/s]

Epoch: 6, Iter: 2000/13867
    loss    2.796051
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:10<48:54,  3.98it/s]

Epoch: 6, Iter: 2200/13867
    loss    2.766834
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:00<47:45,  4.00it/s]

Epoch: 6, Iter: 2400/13867
    loss    2.857363
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<48:38,  3.86it/s]

Epoch: 6, Iter: 2600/13867
    loss    2.736877
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:40<45:52,  4.02it/s]

Epoch: 6, Iter: 2800/13867
    loss    2.835834
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:30<45:42,  3.96it/s]

Epoch: 6, Iter: 3000/13867
    loss    2.821387
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<45:26,  3.91it/s]

Epoch: 6, Iter: 3200/13867
    loss    2.74854
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:10<43:18,  4.03it/s]

Epoch: 6, Iter: 3400/13867
    loss    2.789576
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<42:45,  4.00it/s]

Epoch: 6, Iter: 3600/13867
    loss    2.761656
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:51<43:07,  3.89it/s]

Epoch: 6, Iter: 3800/13867
    loss    2.852937
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:40<41:46,  3.94it/s]

Epoch: 6, Iter: 4000/13867
    loss    2.743069
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:31<41:16,  3.90it/s]

Epoch: 6, Iter: 4200/13867
    loss    2.778927
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:21<39:11,  4.03it/s]

Epoch: 6, Iter: 4400/13867
    loss    2.873721
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:11<38:54,  3.97it/s]

Epoch: 6, Iter: 4600/13867
    loss    2.76046
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:01<38:40,  3.91it/s]

Epoch: 6, Iter: 4800/13867
    loss    2.770591
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:51<36:45,  4.02it/s]

Epoch: 6, Iter: 5000/13867
    loss    2.762129
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:41<36:04,  4.00it/s]

Epoch: 6, Iter: 5200/13867
    loss    2.868653
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:31<35:35,  3.96it/s]

Epoch: 6, Iter: 5400/13867
    loss    2.838433
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:22<35:09,  3.92it/s]

Epoch: 6, Iter: 5600/13867
    loss    2.850682
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:12<33:05,  4.06it/s]

Epoch: 6, Iter: 5800/13867
    loss    2.768252
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:03<33:20,  3.93it/s]

Epoch: 6, Iter: 6000/13867
    loss    2.776981
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:53<57:16,  2.23it/s]

Epoch: 6, Iter: 6200/13867
    loss    2.846238
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:43<31:23,  3.96it/s]

Epoch: 6, Iter: 6400/13867
    loss    2.828437
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:33<30:43,  3.94it/s]

Epoch: 6, Iter: 6600/13867
    loss    2.843127
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:22<28:59,  4.06it/s]

Epoch: 6, Iter: 6800/13867
    loss    2.881882
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:13<29:28,  3.88it/s]

Epoch: 6, Iter: 7000/13867
    loss    2.765344
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:03<27:45,  4.00it/s]

Epoch: 6, Iter: 7200/13867
    loss    2.858176
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:53<27:47,  3.88it/s]

Epoch: 6, Iter: 7400/13867
    loss    2.843357
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:43<26:28,  3.94it/s]

Epoch: 6, Iter: 7600/13867
    loss    2.76118
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:33<25:07,  4.02it/s]

Epoch: 6, Iter: 7800/13867
    loss    2.852465
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:23<24:56,  3.92it/s]

Epoch: 6, Iter: 8000/13867
    loss    2.883326
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:13<23:32,  4.01it/s]

Epoch: 6, Iter: 8200/13867
    loss    2.853909
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:03<22:50,  3.99it/s]

Epoch: 6, Iter: 8400/13867
    loss    2.818887
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:53<22:07,  3.97it/s]

Epoch: 6, Iter: 8600/13867
    loss    2.8045
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:44<21:11,  3.98it/s]

Epoch: 6, Iter: 8800/13867
    loss    2.809123
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:33<20:35,  3.94it/s]

Epoch: 6, Iter: 9000/13867
    loss    2.870049
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:24<19:44,  3.94it/s]

Epoch: 6, Iter: 9200/13867
    loss    2.813948
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:14<19:20,  3.85it/s]

Epoch: 6, Iter: 9400/13867
    loss    2.817833
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:04<17:59,  3.95it/s]

Epoch: 6, Iter: 9600/13867
    loss    2.816437
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:54<17:13,  3.94it/s]

Epoch: 6, Iter: 9800/13867
    loss    2.839757
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:45<16:37,  3.87it/s]

Epoch: 6, Iter: 10000/13867
    loss    2.808333
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:34<15:27,  3.95it/s]

Epoch: 6, Iter: 10200/13867
    loss    2.835137
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:24<14:27,  4.00it/s]

Epoch: 6, Iter: 10400/13867
    loss    2.848287
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:14<13:21,  4.07it/s]

Epoch: 6, Iter: 10600/13867
    loss    2.848975
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:04<12:48,  3.99it/s]

Epoch: 6, Iter: 10800/13867
    loss    2.924907
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:55<12:10,  3.92it/s]

Epoch: 6, Iter: 11000/13867
    loss    2.847569
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:45<11:21,  3.91it/s]

Epoch: 6, Iter: 11200/13867
    loss    2.820846
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:35<10:22,  3.96it/s]

Epoch: 6, Iter: 11400/13867
    loss    2.892286
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:26<12:18,  3.07it/s]

Epoch: 6, Iter: 11600/13867
    loss    2.836237
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:15<08:46,  3.92it/s]

Epoch: 6, Iter: 11800/13867
    loss    2.843628
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:06<07:55,  3.92it/s]

Epoch: 6, Iter: 12000/13867
    loss    2.867048
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:55<07:03,  3.94it/s]

Epoch: 6, Iter: 12200/13867
    loss    2.928692
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:46<06:12,  3.94it/s]

Epoch: 6, Iter: 12400/13867
    loss    2.867774
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:36<05:17,  3.98it/s]

Epoch: 6, Iter: 12600/13867
    loss    2.908283
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:26<04:30,  3.94it/s]

Epoch: 6, Iter: 12800/13867
    loss    2.888221
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:16<03:36,  3.99it/s]

Epoch: 6, Iter: 13000/13867
    loss    2.82882
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:06<02:47,  3.98it/s]

Epoch: 6, Iter: 13200/13867
    loss    2.852908
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:57<01:58,  3.93it/s]

Epoch: 6, Iter: 13400/13867
    loss    2.897013
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:47<01:08,  3.87it/s]

Epoch: 6, Iter: 13600/13867
    loss    2.84464
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:37<00:16,  3.97it/s]

Epoch: 6, Iter: 13800/13867
    loss    2.82093
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:53<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.25it/s]



Epoch 6: Train 70.04
Epoch 6: Valid 64.17
Epoch 6: Best 64.17
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<57:28,  3.96it/s]

Epoch: 7, Iter: 200/13867
    loss    2.534535
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<55:47,  4.02it/s]

Epoch: 7, Iter: 400/13867
    loss    2.575074
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<56:11,  3.93it/s]

Epoch: 7, Iter: 600/13867
    loss    2.505379
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<54:16,  4.01it/s]

Epoch: 7, Iter: 800/13867
    loss    2.534823
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<54:53,  3.91it/s]

Epoch: 7, Iter: 1000/13867
    loss    2.622496
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<53:23,  3.95it/s]

Epoch: 7, Iter: 1200/13867
    loss    2.601541
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:11,  3.98it/s]

Epoch: 7, Iter: 1400/13867
    loss    2.565349
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<50:57,  4.01it/s]

Epoch: 7, Iter: 1600/13867
    loss    2.596247
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:31<51:16,  3.92it/s]

Epoch: 7, Iter: 1800/13867
    loss    2.59345
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<49:41,  3.98it/s]

Epoch: 7, Iter: 2000/13867
    loss    2.534063
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<49:52,  3.90it/s]

Epoch: 7, Iter: 2200/13867
    loss    2.626037
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:02<48:04,  3.98it/s]

Epoch: 7, Iter: 2400/13867
    loss    2.6236
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<47:08,  3.98it/s]

Epoch: 7, Iter: 2600/13867
    loss    2.591774
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<46:57,  3.93it/s]

Epoch: 7, Iter: 2800/13867
    loss    2.573331
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<46:08,  3.93it/s]

Epoch: 7, Iter: 3000/13867
    loss    2.594081
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:22<44:07,  4.03it/s]

Epoch: 7, Iter: 3200/13867
    loss    2.684215
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<45:13,  3.86it/s]

Epoch: 7, Iter: 3400/13867
    loss    2.618657
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:02<43:00,  3.98it/s]

Epoch: 7, Iter: 3600/13867
    loss    2.625567
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:52<41:51,  4.01it/s]

Epoch: 7, Iter: 3800/13867
    loss    2.68538
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<42:14,  3.89it/s]

Epoch: 7, Iter: 4000/13867
    loss    2.617112
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<39:57,  4.03it/s]

Epoch: 7, Iter: 4200/13867
    loss    2.610735
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<41:51,  3.77it/s]

Epoch: 7, Iter: 4400/13867
    loss    2.563989
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<38:53,  3.97it/s]

Epoch: 7, Iter: 4600/13867
    loss    2.601271
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:03<38:07,  3.96it/s]

Epoch: 7, Iter: 4800/13867
    loss    2.656895
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:52<36:46,  4.02it/s]

Epoch: 7, Iter: 5000/13867
    loss    2.564382
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:43<36:21,  3.97it/s]

Epoch: 7, Iter: 5200/13867
    loss    2.724277
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:32<35:20,  3.99it/s]

Epoch: 7, Iter: 5400/13867
    loss    2.68534
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:23<35:34,  3.87it/s]

Epoch: 7, Iter: 5600/13867
    loss    2.627088
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:13<33:30,  4.01it/s]

Epoch: 7, Iter: 5800/13867
    loss    2.664154
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:03<33:14,  3.94it/s]

Epoch: 7, Iter: 6000/13867
    loss    2.608204
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:54<31:51,  4.01it/s]

Epoch: 7, Iter: 6200/13867
    loss    2.649318
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:44<31:25,  3.96it/s]

Epoch: 7, Iter: 6400/13867
    loss    2.702116
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:34<30:57,  3.91it/s]

Epoch: 7, Iter: 6600/13867
    loss    2.671992
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:24<35:30,  3.32it/s]

Epoch: 7, Iter: 6800/13867
    loss    2.677386
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:14<29:04,  3.94it/s]

Epoch: 7, Iter: 7000/13867
    loss    2.65425
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:04<27:41,  4.01it/s]

Epoch: 7, Iter: 7200/13867
    loss    2.661832
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:54<27:13,  3.96it/s]

Epoch: 7, Iter: 7400/13867
    loss    2.672579
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:44<26:45,  3.90it/s]

Epoch: 7, Iter: 7600/13867
    loss    2.674126
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:34<25:22,  3.98it/s]

Epoch: 7, Iter: 7800/13867
    loss    2.680392
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:25<24:53,  3.93it/s]

Epoch: 7, Iter: 8000/13867
    loss    2.679821
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:15<25:42,  3.67it/s]

Epoch: 7, Iter: 8200/13867
    loss    2.676349
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:05<22:43,  4.01it/s]

Epoch: 7, Iter: 8400/13867
    loss    2.716537
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:55<22:25,  3.91it/s]

Epoch: 7, Iter: 8600/13867
    loss    2.716582
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:45<21:17,  3.96it/s]

Epoch: 7, Iter: 8800/13867
    loss    2.658632
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:35<20:14,  4.01it/s]

Epoch: 7, Iter: 9000/13867
    loss    2.610506
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:25<19:25,  4.00it/s]

Epoch: 7, Iter: 9200/13867
    loss    2.686318
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:15<18:23,  4.05it/s]

Epoch: 7, Iter: 9400/13867
    loss    2.685903
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:04<17:53,  3.97it/s]

Epoch: 7, Iter: 9600/13867
    loss    2.689925
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:55<17:18,  3.91it/s]

Epoch: 7, Iter: 9800/13867
    loss    2.683512
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:46<16:17,  3.95it/s]

Epoch: 7, Iter: 10000/13867
    loss    2.688257
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:35<15:36,  3.91it/s]

Epoch: 7, Iter: 10200/13867
    loss    2.638183
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:26<14:43,  3.92it/s]

Epoch: 7, Iter: 10400/13867
    loss    2.682308
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:15<13:51,  3.93it/s]

Epoch: 7, Iter: 10600/13867
    loss    2.681486
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:06<12:58,  3.94it/s]

Epoch: 7, Iter: 10800/13867
    loss    2.750747
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:55<11:56,  4.00it/s]

Epoch: 7, Iter: 11000/13867
    loss    2.68559
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:46<11:16,  3.94it/s]

Epoch: 7, Iter: 11200/13867
    loss    2.655237
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:36<10:46,  3.81it/s]

Epoch: 7, Iter: 11400/13867
    loss    2.701346
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:26<09:34,  3.95it/s]

Epoch: 7, Iter: 11600/13867
    loss    2.712151
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:16<08:43,  3.94it/s]

Epoch: 7, Iter: 11800/13867
    loss    2.725358
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:06<07:52,  3.95it/s]

Epoch: 7, Iter: 12000/13867
    loss    2.715659
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:56<07:03,  3.94it/s]

Epoch: 7, Iter: 12200/13867
    loss    2.705276
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:46<06:04,  4.02it/s]

Epoch: 7, Iter: 12400/13867
    loss    2.677796
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:36<05:14,  4.03it/s]

Epoch: 7, Iter: 12600/13867
    loss    2.734932
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:26<04:26,  4.00it/s]

Epoch: 7, Iter: 12800/13867
    loss    2.689261
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:16<03:35,  4.02it/s]

Epoch: 7, Iter: 13000/13867
    loss    2.659478
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:07<02:50,  3.91it/s]

Epoch: 7, Iter: 13200/13867
    loss    2.62702
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:56<01:58,  3.94it/s]

Epoch: 7, Iter: 13400/13867
    loss    2.696204
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:47<01:06,  3.99it/s]

Epoch: 7, Iter: 13600/13867
    loss    2.621781
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:36<00:16,  3.89it/s]

Epoch: 7, Iter: 13800/13867
    loss    2.72245
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:53<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.20it/s]



Epoch 7: Train 72.79
Epoch 7: Valid 64.50
Epoch 7: Best 64.50
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:51<57:04,  3.99it/s]

Epoch: 8, Iter: 200/13867
    loss    2.40961
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<56:19,  3.98it/s]

Epoch: 8, Iter: 400/13867
    loss    2.405575
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:04,  4.01it/s]

Epoch: 8, Iter: 600/13867
    loss    2.397996
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<55:15,  3.94it/s]

Epoch: 8, Iter: 800/13867
    loss    2.402212
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<54:10,  3.96it/s]

Epoch: 8, Iter: 1000/13867
    loss    2.39709
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<53:31,  3.94it/s]

Epoch: 8, Iter: 1200/13867
    loss    2.391624
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<52:42,  3.94it/s]

Epoch: 8, Iter: 1400/13867
    loss    2.450226
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<51:06,  4.00it/s]

Epoch: 8, Iter: 1600/13867
    loss    2.472719
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:55,  3.95it/s]

Epoch: 8, Iter: 1800/13867
    loss    2.469176
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<50:12,  3.94it/s]

Epoch: 8, Iter: 2000/13867
    loss    2.379715
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<50:22,  3.86it/s]

Epoch: 8, Iter: 2200/13867
    loss    2.470344
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:01<47:26,  4.03it/s]

Epoch: 8, Iter: 2400/13867
    loss    2.446936
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<47:29,  3.95it/s]

Epoch: 8, Iter: 2600/13867
    loss    2.408724
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<47:02,  3.92it/s]

Epoch: 8, Iter: 2800/13867
    loss    2.509613
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<45:14,  4.00it/s]

Epoch: 8, Iter: 3000/13867
    loss    2.514525
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<44:15,  4.02it/s]

Epoch: 8, Iter: 3200/13867
    loss    2.431466
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<43:12,  4.04it/s]

Epoch: 8, Iter: 3400/13867
    loss    2.462992
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<43:35,  3.93it/s]

Epoch: 8, Iter: 3600/13867
    loss    2.444564
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:51<42:42,  3.93it/s]

Epoch: 8, Iter: 3800/13867
    loss    2.484744
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<42:08,  3.90it/s]

Epoch: 8, Iter: 4000/13867
    loss    2.447952
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:31<40:09,  4.01it/s]

Epoch: 8, Iter: 4200/13867
    loss    2.454757
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:22<39:43,  3.97it/s]

Epoch: 8, Iter: 4400/13867
    loss    2.451384
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<39:12,  3.94it/s]

Epoch: 8, Iter: 4600/13867
    loss    2.4193
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:02<38:16,  3.95it/s]

Epoch: 8, Iter: 4800/13867
    loss    2.46762
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:52<37:31,  3.94it/s]

Epoch: 8, Iter: 5000/13867
    loss    2.46757
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:42<37:03,  3.90it/s]

Epoch: 8, Iter: 5200/13867
    loss    2.413329
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:32<35:34,  3.97it/s]

Epoch: 8, Iter: 5400/13867
    loss    2.524778
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:22<34:12,  4.03it/s]

Epoch: 8, Iter: 5600/13867
    loss    2.460699
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:13<33:57,  3.96it/s]

Epoch: 8, Iter: 5800/13867
    loss    2.525001
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:02<33:17,  3.94it/s]

Epoch: 8, Iter: 6000/13867
    loss    2.528978
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:53<32:57,  3.88it/s]

Epoch: 8, Iter: 6200/13867
    loss    2.460215
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:43<31:18,  3.97it/s]

Epoch: 8, Iter: 6400/13867
    loss    2.478255
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:33<30:24,  3.98it/s]

Epoch: 8, Iter: 6600/13867
    loss    2.516254
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:23<30:02,  3.92it/s]

Epoch: 8, Iter: 6800/13867
    loss    2.466166
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:14<28:35,  4.00it/s]

Epoch: 8, Iter: 7000/13867
    loss    2.484129
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:03<28:06,  3.95it/s]

Epoch: 8, Iter: 7200/13867
    loss    2.475261
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:54<27:40,  3.89it/s]

Epoch: 8, Iter: 7400/13867
    loss    2.489135
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:44<26:27,  3.95it/s]

Epoch: 8, Iter: 7600/13867
    loss    2.535946
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:34<25:25,  3.98it/s]

Epoch: 8, Iter: 7800/13867
    loss    2.552584
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:25<25:40,  3.81it/s]

Epoch: 8, Iter: 8000/13867
    loss    2.501788
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:14<24:01,  3.93it/s]

Epoch: 8, Iter: 8200/13867
    loss    2.476064
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:05<23:04,  3.95it/s]

Epoch: 8, Iter: 8400/13867
    loss    2.560707
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:55<22:18,  3.93it/s]

Epoch: 8, Iter: 8600/13867
    loss    2.542889
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:45<21:38,  3.90it/s]

Epoch: 8, Iter: 8800/13867
    loss    2.497309
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:35<20:18,  3.99it/s]

Epoch: 8, Iter: 9000/13867
    loss    2.514824
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:26<19:33,  3.98it/s]

Epoch: 8, Iter: 9200/13867
    loss    2.501165
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:15<18:39,  3.99it/s]

Epoch: 8, Iter: 9400/13867
    loss    2.551788
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:06<18:11,  3.91it/s]

Epoch: 8, Iter: 9600/13867
    loss    2.569016
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:55<16:43,  4.05it/s]

Epoch: 8, Iter: 9800/13867
    loss    2.563434
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:46<16:01,  4.02it/s]

Epoch: 8, Iter: 10000/13867
    loss    2.467506
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:36<15:09,  4.03it/s]

Epoch: 8, Iter: 10200/13867
    loss    2.486005
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:26<14:34,  3.96it/s]

Epoch: 8, Iter: 10400/13867
    loss    2.559658
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:16<13:37,  4.00it/s]

Epoch: 8, Iter: 10600/13867
    loss    2.499539
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:07<12:48,  3.99it/s]

Epoch: 8, Iter: 10800/13867
    loss    2.467301
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:56<12:02,  3.96it/s]

Epoch: 8, Iter: 11000/13867
    loss    2.554753
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:47<11:05,  4.01it/s]

Epoch: 8, Iter: 11200/13867
    loss    2.46751
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:36<10:21,  3.97it/s]

Epoch: 8, Iter: 11400/13867
    loss    2.478094
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:27<09:44,  3.88it/s]

Epoch: 8, Iter: 11600/13867
    loss    2.480941
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:16<08:40,  3.97it/s]

Epoch: 8, Iter: 11800/13867
    loss    2.541862
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:07<07:39,  4.06it/s]

Epoch: 8, Iter: 12000/13867
    loss    2.50761
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:56<07:05,  3.91it/s]

Epoch: 8, Iter: 12200/13867
    loss    2.568304
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:47<06:11,  3.95it/s]

Epoch: 8, Iter: 12400/13867
    loss    2.572508
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:36<05:15,  4.01it/s]

Epoch: 8, Iter: 12600/13867
    loss    2.469502
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:27<04:24,  4.03it/s]

Epoch: 8, Iter: 12800/13867
    loss    2.62965
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:17<03:39,  3.95it/s]

Epoch: 8, Iter: 13000/13867
    loss    2.518061
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:07<02:49,  3.93it/s]

Epoch: 8, Iter: 13200/13867
    loss    2.483294
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:57<01:57,  3.96it/s]

Epoch: 8, Iter: 13400/13867
    loss    2.528976
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:47<01:06,  3.98it/s]

Epoch: 8, Iter: 13600/13867
    loss    2.552043
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:37<00:16,  3.97it/s]

Epoch: 8, Iter: 13800/13867
    loss    2.558179
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:54<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.32it/s]



Epoch 8: Train 75.32
Epoch 8: Valid 64.61
Epoch 8: Best 64.61
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:51<57:17,  3.98it/s]

Epoch: 9, Iter: 200/13867
    loss    2.214894
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<57:02,  3.93it/s]

Epoch: 9, Iter: 400/13867
    loss    2.250827
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:31<55:29,  3.98it/s]

Epoch: 9, Iter: 600/13867
    loss    2.21018
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<54:24,  4.00it/s]

Epoch: 9, Iter: 800/13867
    loss    2.320341
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:11<53:25,  4.01it/s]

Epoch: 9, Iter: 1000/13867
    loss    2.26388
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:08,  3.97it/s]

Epoch: 9, Iter: 1200/13867
    loss    2.254756
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:58,  3.92it/s]

Epoch: 9, Iter: 1400/13867
    loss    2.234679
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<51:48,  3.95it/s]

Epoch: 9, Iter: 1600/13867
    loss    2.305749
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:31<50:35,  3.97it/s]

Epoch: 9, Iter: 1800/13867
    loss    2.240388
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<48:45,  4.06it/s]

Epoch: 9, Iter: 2000/13867
    loss    2.213133
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<49:09,  3.95it/s]

Epoch: 9, Iter: 2200/13867
    loss    2.343439
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:01<47:28,  4.03it/s]

Epoch: 9, Iter: 2400/13867
    loss    2.289158
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<46:56,  4.00it/s]

Epoch: 9, Iter: 2600/13867
    loss    2.318255
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<47:39,  3.87it/s]

Epoch: 9, Iter: 2800/13867
    loss    2.301082
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<46:08,  3.93it/s]

Epoch: 9, Iter: 3000/13867
    loss    2.297362
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<45:01,  3.95it/s]

Epoch: 9, Iter: 3200/13867
    loss    2.272716
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<43:45,  3.99it/s]

Epoch: 9, Iter: 3400/13867
    loss    2.307811
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<43:38,  3.92it/s]

Epoch: 9, Iter: 3600/13867
    loss    2.246219
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:52<41:57,  4.00it/s]

Epoch: 9, Iter: 3800/13867
    loss    2.359237
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:41<41:55,  3.92it/s]

Epoch: 9, Iter: 4000/13867
    loss    2.283103
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<40:06,  4.02it/s]

Epoch: 9, Iter: 4200/13867
    loss    2.299716
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:21<39:34,  3.99it/s]

Epoch: 9, Iter: 4400/13867
    loss    2.337602
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<38:18,  4.03it/s]

Epoch: 9, Iter: 4600/13867
    loss    2.306301
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:02<38:07,  3.96it/s]

Epoch: 9, Iter: 4800/13867
    loss    2.340659
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:52<41:05,  3.60it/s]

Epoch: 9, Iter: 5000/13867
    loss    2.358269
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:42<36:58,  3.91it/s]

Epoch: 9, Iter: 5200/13867
    loss    2.357764
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:31<35:04,  4.02it/s]

Epoch: 9, Iter: 5400/13867
    loss    2.359283
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:22<34:58,  3.94it/s]

Epoch: 9, Iter: 5600/13867
    loss    2.286222
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:11<33:28,  4.02it/s]

Epoch: 9, Iter: 5800/13867
    loss    2.360077
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:03<32:42,  4.01it/s]

Epoch: 9, Iter: 6000/13867
    loss    2.358084
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:52<32:05,  3.98it/s]

Epoch: 9, Iter: 6200/13867
    loss    2.415547
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:44<32:17,  3.85it/s]

Epoch: 9, Iter: 6400/13867
    loss    2.380715
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:33<30:36,  3.96it/s]

Epoch: 9, Iter: 6600/13867
    loss    2.403174
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:24<29:43,  3.96it/s]

Epoch: 9, Iter: 6800/13867
    loss    2.345066
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:13<29:27,  3.89it/s]

Epoch: 9, Iter: 7000/13867
    loss    2.383452
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:04<27:18,  4.07it/s]

Epoch: 9, Iter: 7200/13867
    loss    2.357724
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:54<26:52,  4.01it/s]

Epoch: 9, Iter: 7400/13867
    loss    2.363959
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:44<26:22,  3.96it/s]

Epoch: 9, Iter: 7600/13867
    loss    2.377802
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:34<25:25,  3.98it/s]

Epoch: 9, Iter: 7800/13867
    loss    2.368018
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:25<25:04,  3.90it/s]

Epoch: 9, Iter: 8000/13867
    loss    2.367015
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:14<23:54,  3.95it/s]

Epoch: 9, Iter: 8200/13867
    loss    2.378234
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:05<22:33,  4.04it/s]

Epoch: 9, Iter: 8400/13867
    loss    2.479354
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:55<22:12,  3.95it/s]

Epoch: 9, Iter: 8600/13867
    loss    2.376119
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:46<21:07,  4.00it/s]

Epoch: 9, Iter: 8800/13867
    loss    2.286503
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:35<20:45,  3.91it/s]

Epoch: 9, Iter: 9000/13867
    loss    2.343145
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:26<19:35,  3.97it/s]

Epoch: 9, Iter: 9200/13867
    loss    2.319839
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:15<18:48,  3.96it/s]

Epoch: 9, Iter: 9400/13867
    loss    2.40588
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:06<17:51,  3.98it/s]

Epoch: 9, Iter: 9600/13867
    loss    2.336834
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:56<17:25,  3.89it/s]

Epoch: 9, Iter: 9800/13867
    loss    2.385097
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:47<24:32,  2.63it/s]

Epoch: 9, Iter: 10000/13867
    loss    2.404832
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:36<15:21,  3.98it/s]

Epoch: 9, Iter: 10200/13867
    loss    2.386851
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:26<14:33,  3.97it/s]

Epoch: 9, Iter: 10400/13867
    loss    2.408192
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:16<14:09,  3.84it/s]

Epoch: 9, Iter: 10600/13867
    loss    2.330891
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:06<13:03,  3.91it/s]

Epoch: 9, Iter: 10800/13867
    loss    2.356683
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:57<11:58,  3.99it/s]

Epoch: 9, Iter: 11000/13867
    loss    2.290896
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:47<11:24,  3.89it/s]

Epoch: 9, Iter: 11200/13867
    loss    2.339128
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:37<10:22,  3.96it/s]

Epoch: 9, Iter: 11400/13867
    loss    2.368798
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:27<09:20,  4.05it/s]

Epoch: 9, Iter: 11600/13867
    loss    2.406299
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:18<08:48,  3.91it/s]

Epoch: 9, Iter: 11800/13867
    loss    2.344806
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:07<07:47,  3.99it/s]

Epoch: 9, Iter: 12000/13867
    loss    2.338863
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:58<07:01,  3.95it/s]

Epoch: 9, Iter: 12200/13867
    loss    2.381453
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:48<06:16,  3.90it/s]

Epoch: 9, Iter: 12400/13867
    loss    2.345724
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:38<05:23,  3.92it/s]

Epoch: 9, Iter: 12600/13867
    loss    2.447361
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:28<04:29,  3.95it/s]

Epoch: 9, Iter: 12800/13867
    loss    2.359571
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:19<03:41,  3.91it/s]

Epoch: 9, Iter: 13000/13867
    loss    2.400951
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:08<02:50,  3.90it/s]

Epoch: 9, Iter: 13200/13867
    loss    2.37585
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:58<01:56,  3.99it/s]

Epoch: 9, Iter: 13400/13867
    loss    2.412286
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:49<01:08,  3.90it/s]

Epoch: 9, Iter: 13600/13867
    loss    2.423026
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:38<00:16,  3.98it/s]

Epoch: 9, Iter: 13800/13867
    loss    2.372059
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:56<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.31it/s]



Epoch 9: Train 77.61
Epoch 9: Valid 64.90
Epoch 9: Best 64.90
snap/vqa_multilingual


  1%|█                                                                           | 201/13867 [00:51<2:23:44,  1.58it/s]

Epoch: 10, Iter: 200/13867
    loss    2.06577
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<56:40,  3.96it/s]

Epoch: 10, Iter: 400/13867
    loss    2.057864
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<56:03,  3.94it/s]

Epoch: 10, Iter: 600/13867
    loss    2.136934
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<54:46,  3.98it/s]

Epoch: 10, Iter: 800/13867
    loss    2.142131
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<53:41,  3.99it/s]

Epoch: 10, Iter: 1000/13867
    loss    2.077495
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<52:51,  3.99it/s]

Epoch: 10, Iter: 1200/13867
    loss    2.123116
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<53:21,  3.89it/s]

Epoch: 10, Iter: 1400/13867
    loss    2.154552
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<52:23,  3.90it/s]

Epoch: 10, Iter: 1600/13867
    loss    2.098416
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<51:34,  3.90it/s]

Epoch: 10, Iter: 1800/13867
    loss    2.088702
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<49:19,  4.01it/s]

Epoch: 10, Iter: 2000/13867
    loss    2.14243
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<48:50,  3.98it/s]

Epoch: 10, Iter: 2200/13867
    loss    2.15259
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:01<47:56,  3.99it/s]

Epoch: 10, Iter: 2400/13867
    loss    2.202371
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<46:55,  4.00it/s]

Epoch: 10, Iter: 2600/13867
    loss    2.124843
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:40<45:48,  4.03it/s]

Epoch: 10, Iter: 2800/13867
    loss    2.181648
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<45:23,  3.99it/s]

Epoch: 10, Iter: 3000/13867
    loss    2.174519
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<45:06,  3.94it/s]

Epoch: 10, Iter: 3200/13867
    loss    2.19687
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<43:09,  4.04it/s]

Epoch: 10, Iter: 3400/13867
    loss    2.117527
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<42:28,  4.03it/s]

Epoch: 10, Iter: 3600/13867
    loss    2.171472
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:52<41:11,  4.07it/s]

Epoch: 10, Iter: 3800/13867
    loss    2.2199
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:41<40:55,  4.02it/s]

Epoch: 10, Iter: 4000/13867
    loss    2.132427
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<41:42,  3.86it/s]

Epoch: 10, Iter: 4200/13867
    loss    2.140971
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:21<39:42,  3.97it/s]

Epoch: 10, Iter: 4400/13867
    loss    2.240814
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<39:40,  3.89it/s]

Epoch: 10, Iter: 4600/13867
    loss    2.174728
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:02<38:54,  3.88it/s]

Epoch: 10, Iter: 4800/13867
    loss    2.200916
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:51<36:48,  4.02it/s]

Epoch: 10, Iter: 5000/13867
    loss    2.151337
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:42<36:49,  3.92it/s]

Epoch: 10, Iter: 5200/13867
    loss    2.188147
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:31<34:53,  4.04it/s]

Epoch: 10, Iter: 5400/13867
    loss    2.247216
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:22<34:44,  3.97it/s]

Epoch: 10, Iter: 5600/13867
    loss    2.209824
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:12<34:27,  3.90it/s]

Epoch: 10, Iter: 5800/13867
    loss    2.234289
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:03<33:07,  3.96it/s]

Epoch: 10, Iter: 6000/13867
    loss    2.197684
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:53<32:42,  3.91it/s]

Epoch: 10, Iter: 6200/13867
    loss    2.196031
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:44<30:56,  4.02it/s]

Epoch: 10, Iter: 6400/13867
    loss    2.180442
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:33<30:34,  3.96it/s]

Epoch: 10, Iter: 6600/13867
    loss    2.19036
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:23<30:03,  3.92it/s]

Epoch: 10, Iter: 6800/13867
    loss    2.295684
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:14<29:25,  3.89it/s]

Epoch: 10, Iter: 7000/13867
    loss    2.240585
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:03<27:44,  4.01it/s]

Epoch: 10, Iter: 7200/13867
    loss    2.222273
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:54<27:31,  3.91it/s]

Epoch: 10, Iter: 7400/13867
    loss    2.241598
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:43<26:24,  3.95it/s]

Epoch: 10, Iter: 7600/13867
    loss    2.223778
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:34<25:48,  3.92it/s]

Epoch: 10, Iter: 7800/13867
    loss    2.275398
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:24<24:07,  4.05it/s]

Epoch: 10, Iter: 8000/13867
    loss    2.162953
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:15<23:39,  3.99it/s]

Epoch: 10, Iter: 8200/13867
    loss    2.237041
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:05<22:42,  4.01it/s]

Epoch: 10, Iter: 8400/13867
    loss    2.222222
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:54<22:19,  3.93it/s]

Epoch: 10, Iter: 8600/13867
    loss    2.234919
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:45<21:08,  3.99it/s]

Epoch: 10, Iter: 8800/13867
    loss    2.224299
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:34<20:33,  3.94it/s]

Epoch: 10, Iter: 9000/13867
    loss    2.252157
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:25<19:55,  3.90it/s]

Epoch: 10, Iter: 9200/13867
    loss    2.223329
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:15<18:50,  3.95it/s]

Epoch: 10, Iter: 9400/13867
    loss    2.203897
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:05<17:47,  4.00it/s]

Epoch: 10, Iter: 9600/13867
    loss    2.248289
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:55<17:28,  3.88it/s]

Epoch: 10, Iter: 9800/13867
    loss    2.212356
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:46<20:37,  3.12it/s]

Epoch: 10, Iter: 10000/13867
    loss    2.181033
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:36<15:35,  3.92it/s]

Epoch: 10, Iter: 10200/13867
    loss    2.216045
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:25<14:28,  3.99it/s]

Epoch: 10, Iter: 10400/13867
    loss    2.263577
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:16<13:54,  3.91it/s]

Epoch: 10, Iter: 10600/13867
    loss    2.331038
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:06<12:50,  3.98it/s]

Epoch: 10, Iter: 10800/13867
    loss    2.228111
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:56<11:48,  4.04it/s]

Epoch: 10, Iter: 11000/13867
    loss    2.260431
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:46<11:13,  3.96it/s]

Epoch: 10, Iter: 11200/13867
    loss    2.256003
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:37<10:11,  4.03it/s]

Epoch: 10, Iter: 11400/13867
    loss    2.223803
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:27<09:33,  3.95it/s]

Epoch: 10, Iter: 11600/13867
    loss    2.270275
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:16<08:53,  3.87it/s]

Epoch: 10, Iter: 11800/13867
    loss    2.222922
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:07<07:49,  3.97it/s]

Epoch: 10, Iter: 12000/13867
    loss    2.286184
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:56<06:51,  4.05it/s]

Epoch: 10, Iter: 12200/13867
    loss    2.270824
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:47<06:16,  3.89it/s]

Epoch: 10, Iter: 12400/13867
    loss    2.329122
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:37<05:24,  3.91it/s]

Epoch: 10, Iter: 12600/13867
    loss    2.276754
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:28<04:28,  3.98it/s]

Epoch: 10, Iter: 12800/13867
    loss    2.239099
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:17<03:34,  4.03it/s]

Epoch: 10, Iter: 13000/13867
    loss    2.302396
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:07<02:48,  3.94it/s]

Epoch: 10, Iter: 13200/13867
    loss    2.299832
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:58<02:00,  3.88it/s]

Epoch: 10, Iter: 13400/13867
    loss    2.278409
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:47<01:05,  4.05it/s]

Epoch: 10, Iter: 13600/13867
    loss    2.271319
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:38<00:16,  3.96it/s]

Epoch: 10, Iter: 13800/13867
    loss    2.278139
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:55<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.28it/s]



Epoch 10: Train 79.62
Epoch 10: Valid 65.31
Epoch 10: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:51<57:56,  3.93it/s]

Epoch: 11, Iter: 200/13867
    loss    2.009089
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<56:44,  3.96it/s]

Epoch: 11, Iter: 400/13867
    loss    1.93909
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▎                                                                        | 601/13867 [02:31<1:00:23,  3.66it/s]

Epoch: 11, Iter: 600/13867
    loss    2.030477
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<53:55,  4.04it/s]

Epoch: 11, Iter: 800/13867
    loss    2.028821
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<53:52,  3.98it/s]

Epoch: 11, Iter: 1000/13867
    loss    1.961778
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:10,  3.97it/s]

Epoch: 11, Iter: 1200/13867
    loss    1.987447
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<52:46,  3.94it/s]

Epoch: 11, Iter: 1400/13867
    loss    1.988927
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<53:39,  3.81it/s]

Epoch: 11, Iter: 1600/13867
    loss    2.033035
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<49:14,  4.08it/s]

Epoch: 11, Iter: 1800/13867
    loss    2.025562
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<50:10,  3.94it/s]

Epoch: 11, Iter: 2000/13867
    loss    2.039673
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<49:01,  3.97it/s]

Epoch: 11, Iter: 2200/13867
    loss    1.997853
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:00<47:38,  4.01it/s]

Epoch: 11, Iter: 2400/13867
    loss    2.056212
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<46:37,  4.03it/s]

Epoch: 11, Iter: 2600/13867
    loss    2.077596
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<45:58,  4.01it/s]

Epoch: 11, Iter: 2800/13867
    loss    2.062051
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<45:59,  3.94it/s]

Epoch: 11, Iter: 3000/13867
    loss    2.066907
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<44:38,  3.98it/s]

Epoch: 11, Iter: 3200/13867
    loss    2.025836
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<43:30,  4.01it/s]

Epoch: 11, Iter: 3400/13867
    loss    2.005344
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:02<43:16,  3.95it/s]

Epoch: 11, Iter: 3600/13867
    loss    2.075873
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:51<41:38,  4.03it/s]

Epoch: 11, Iter: 3800/13867
    loss    2.027944
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<42:35,  3.86it/s]

Epoch: 11, Iter: 4000/13867
    loss    2.009343
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<40:54,  3.94it/s]

Epoch: 11, Iter: 4200/13867
    loss    2.077052
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<47:43,  3.31it/s]

Epoch: 11, Iter: 4400/13867
    loss    2.06546
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<39:03,  3.95it/s]

Epoch: 11, Iter: 4600/13867
    loss    2.095584
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:02<37:38,  4.01it/s]

Epoch: 11, Iter: 4800/13867
    loss    2.018527
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:53<37:30,  3.94it/s]

Epoch: 11, Iter: 5000/13867
    loss    2.030775
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:42<35:49,  4.03it/s]

Epoch: 11, Iter: 5200/13867
    loss    2.098685
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:33<36:07,  3.91it/s]

Epoch: 11, Iter: 5400/13867
    loss    2.166392
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:23<34:28,  4.00it/s]

Epoch: 11, Iter: 5600/13867
    loss    2.036563
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:12<34:05,  3.94it/s]

Epoch: 11, Iter: 5800/13867
    loss    2.056085
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:04<33:38,  3.90it/s]

Epoch: 11, Iter: 6000/13867
    loss    2.082387
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:53<31:53,  4.01it/s]

Epoch: 11, Iter: 6200/13867
    loss    2.105333
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:45<31:48,  3.91it/s]

Epoch: 11, Iter: 6400/13867
    loss    2.078056
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:34<30:37,  3.95it/s]

Epoch: 11, Iter: 6600/13867
    loss    2.064215
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:24<29:30,  3.99it/s]

Epoch: 11, Iter: 6800/13867
    loss    2.081881
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:15<29:08,  3.93it/s]

Epoch: 11, Iter: 7000/13867
    loss    2.0558
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:04<27:51,  3.99it/s]

Epoch: 11, Iter: 7200/13867
    loss    2.098364
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:55<27:35,  3.91it/s]

Epoch: 11, Iter: 7400/13867
    loss    2.131198
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:45<26:00,  4.02it/s]

Epoch: 11, Iter: 7600/13867
    loss    2.068048
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:36<25:40,  3.94it/s]

Epoch: 11, Iter: 7800/13867
    loss    2.099836
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:26<24:53,  3.93it/s]

Epoch: 11, Iter: 8000/13867
    loss    2.034956
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:15<24:05,  3.92it/s]

Epoch: 11, Iter: 8200/13867
    loss    2.125197
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:06<22:51,  3.98it/s]

Epoch: 11, Iter: 8400/13867
    loss    2.104174
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:56<21:39,  4.05it/s]

Epoch: 11, Iter: 8600/13867
    loss    2.046136
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:47<21:12,  3.98it/s]

Epoch: 11, Iter: 8800/13867
    loss    2.075801
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:37<20:14,  4.01it/s]

Epoch: 11, Iter: 9000/13867
    loss    2.131482
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:27<19:24,  4.01it/s]

Epoch: 11, Iter: 9200/13867
    loss    2.147683
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:18<18:54,  3.94it/s]

Epoch: 11, Iter: 9400/13867
    loss    2.134247
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:07<17:54,  3.97it/s]

Epoch: 11, Iter: 9600/13867
    loss    2.107189
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:58<17:09,  3.95it/s]

Epoch: 11, Iter: 9800/13867
    loss    2.14167
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:48<16:19,  3.95it/s]

Epoch: 11, Iter: 10000/13867
    loss    2.147974
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:37<15:36,  3.91it/s]

Epoch: 11, Iter: 10200/13867
    loss    2.082548
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:28<14:23,  4.01it/s]

Epoch: 11, Iter: 10400/13867
    loss    2.14367
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:18<13:51,  3.93it/s]

Epoch: 11, Iter: 10600/13867
    loss    2.132491
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:09<12:49,  3.99it/s]

Epoch: 11, Iter: 10800/13867
    loss    2.12823
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:58<11:56,  4.00it/s]

Epoch: 11, Iter: 11000/13867
    loss    2.131999
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:48<11:09,  3.98it/s]

Epoch: 11, Iter: 11200/13867
    loss    2.140662
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:38<10:07,  4.06it/s]

Epoch: 11, Iter: 11400/13867
    loss    2.121834
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:28<09:45,  3.87it/s]

Epoch: 11, Iter: 11600/13867
    loss    2.15154
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:19<08:41,  3.96it/s]

Epoch: 11, Iter: 11800/13867
    loss    2.144297
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:08<07:50,  3.97it/s]

Epoch: 11, Iter: 12000/13867
    loss    2.177115
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:58<06:54,  4.02it/s]

Epoch: 11, Iter: 12200/13867
    loss    2.123978
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:49<06:11,  3.94it/s]

Epoch: 11, Iter: 12400/13867
    loss    2.155595
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:38<05:15,  4.01it/s]

Epoch: 11, Iter: 12600/13867
    loss    2.108492
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:29<04:33,  3.90it/s]

Epoch: 11, Iter: 12800/13867
    loss    2.117295
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:19<03:33,  4.06it/s]

Epoch: 11, Iter: 13000/13867
    loss    2.141544
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:08<02:48,  3.94it/s]

Epoch: 11, Iter: 13200/13867
    loss    2.140314
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [55:59<01:59,  3.90it/s]

Epoch: 11, Iter: 13400/13867
    loss    2.161711
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:49<01:08,  3.90it/s]

Epoch: 11, Iter: 13600/13867
    loss    2.108045
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:40<00:16,  3.97it/s]

Epoch: 11, Iter: 13800/13867
    loss    2.138492
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:56<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.24it/s]



Epoch 11: Train 81.42
Epoch 11: Valid 65.29
Epoch 11: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:34,  4.03it/s]

Epoch: 12, Iter: 200/13867
    loss    1.901755
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<56:18,  3.99it/s]

Epoch: 12, Iter: 400/13867
    loss    1.882113
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:15,  4.00it/s]

Epoch: 12, Iter: 600/13867
    loss    1.940857
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:21<55:03,  3.95it/s]

Epoch: 12, Iter: 800/13867
    loss    1.897388
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<53:23,  4.02it/s]

Epoch: 12, Iter: 1000/13867
    loss    1.91014
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<52:44,  4.00it/s]

Epoch: 12, Iter: 1200/13867
    loss    1.945251
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:35,  3.95it/s]

Epoch: 12, Iter: 1400/13867
    loss    1.936923
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<50:53,  4.02it/s]

Epoch: 12, Iter: 1600/13867
    loss    1.917562
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:31<51:32,  3.90it/s]

Epoch: 12, Iter: 1800/13867
    loss    1.900341
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<50:07,  3.95it/s]

Epoch: 12, Iter: 2000/13867
    loss    1.921206
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<48:19,  4.02it/s]

Epoch: 12, Iter: 2200/13867
    loss    1.939725
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:01<48:19,  3.95it/s]

Epoch: 12, Iter: 2400/13867
    loss    1.949748
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<46:43,  4.02it/s]

Epoch: 12, Iter: 2600/13867
    loss    1.932676
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<47:05,  3.92it/s]

Epoch: 12, Iter: 2800/13867
    loss    1.88816
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<45:29,  3.98it/s]

Epoch: 12, Iter: 3000/13867
    loss    1.97045
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<46:05,  3.86it/s]

Epoch: 12, Iter: 3200/13867
    loss    1.956505
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<43:22,  4.02it/s]

Epoch: 12, Iter: 3400/13867
    loss    1.957261
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:02<44:15,  3.87it/s]

Epoch: 12, Iter: 3600/13867
    loss    1.949078
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<41:17,  4.06it/s]

Epoch: 12, Iter: 3800/13867
    loss    1.922175
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<42:25,  3.88it/s]

Epoch: 12, Iter: 4000/13867
    loss    1.959879
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<40:52,  3.94it/s]

Epoch: 12, Iter: 4200/13867
    loss    1.980212
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<40:06,  3.93it/s]

Epoch: 12, Iter: 4400/13867
    loss    1.935826
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:13<39:24,  3.92it/s]

Epoch: 12, Iter: 4600/13867
    loss    1.960805
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:04<37:32,  4.02it/s]

Epoch: 12, Iter: 4800/13867
    loss    1.953718
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:53<37:10,  3.98it/s]

Epoch: 12, Iter: 5000/13867
    loss    1.960184
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:43<36:43,  3.93it/s]

Epoch: 12, Iter: 5200/13867
    loss    1.959321
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:34<35:14,  4.00it/s]

Epoch: 12, Iter: 5400/13867
    loss    1.94097
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:23<34:17,  4.02it/s]

Epoch: 12, Iter: 5600/13867
    loss    1.929495
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:13<33:32,  4.01it/s]

Epoch: 12, Iter: 5800/13867
    loss    1.956836
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:04<33:13,  3.95it/s]

Epoch: 12, Iter: 6000/13867
    loss    1.938598
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:54<32:39,  3.91it/s]

Epoch: 12, Iter: 6200/13867
    loss    1.993298
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:45<31:45,  3.92it/s]

Epoch: 12, Iter: 6400/13867
    loss    1.965841
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:35<30:43,  3.94it/s]

Epoch: 12, Iter: 6600/13867
    loss    1.953624
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:24<29:33,  3.98it/s]

Epoch: 12, Iter: 6800/13867
    loss    1.958124
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:15<28:27,  4.02it/s]

Epoch: 12, Iter: 7000/13867
    loss    1.95955
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:05<27:32,  4.03it/s]

Epoch: 12, Iter: 7200/13867
    loss    1.970273
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:56<26:46,  4.03it/s]

Epoch: 12, Iter: 7400/13867
    loss    1.977859
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:46<25:59,  4.02it/s]

Epoch: 12, Iter: 7600/13867
    loss    1.972838
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:35<25:20,  3.99it/s]

Epoch: 12, Iter: 7800/13867
    loss    2.01426
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:26<24:33,  3.98it/s]

Epoch: 12, Iter: 8000/13867
    loss    1.994526
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:15<23:07,  4.08it/s]

Epoch: 12, Iter: 8200/13867
    loss    1.995097
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:07<37:01,  2.46it/s]

Epoch: 12, Iter: 8400/13867
    loss    1.952573
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:56<22:13,  3.95it/s]

Epoch: 12, Iter: 8600/13867
    loss    2.015244
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:46<21:21,  3.95it/s]

Epoch: 12, Iter: 8800/13867
    loss    1.975001
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:37<20:43,  3.91it/s]

Epoch: 12, Iter: 9000/13867
    loss    1.960894
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:26<19:45,  3.94it/s]

Epoch: 12, Iter: 9200/13867
    loss    2.002897
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:16<19:03,  3.91it/s]

Epoch: 12, Iter: 9400/13867
    loss    1.978229
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:07<18:09,  3.92it/s]

Epoch: 12, Iter: 9600/13867
    loss    1.999204
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:56<17:05,  3.97it/s]

Epoch: 12, Iter: 9800/13867
    loss    1.982477
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:47<16:38,  3.87it/s]

Epoch: 12, Iter: 10000/13867
    loss    1.984741
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:37<15:29,  3.94it/s]

Epoch: 12, Iter: 10200/13867
    loss    1.99457
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:26<14:42,  3.93it/s]

Epoch: 12, Iter: 10400/13867
    loss    2.012458
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:18<13:57,  3.90it/s]

Epoch: 12, Iter: 10600/13867
    loss    2.046274
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:07<12:56,  3.95it/s]

Epoch: 12, Iter: 10800/13867
    loss    1.979866
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:57<12:09,  3.93it/s]

Epoch: 12, Iter: 11000/13867
    loss    1.983758
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:48<11:14,  3.95it/s]

Epoch: 12, Iter: 11200/13867
    loss    2.044347
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:37<10:29,  3.91it/s]

Epoch: 12, Iter: 11400/13867
    loss    2.027238
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:28<09:22,  4.03it/s]

Epoch: 12, Iter: 11600/13867
    loss    2.001278
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:18<08:47,  3.91it/s]

Epoch: 12, Iter: 11800/13867
    loss    2.008702
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:08<07:49,  3.98it/s]

Epoch: 12, Iter: 12000/13867
    loss    1.977227
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:59<07:05,  3.91it/s]

Epoch: 12, Iter: 12200/13867
    loss    1.986844
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:48<06:05,  4.01it/s]

Epoch: 12, Iter: 12400/13867
    loss    2.039256
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:38<05:18,  3.98it/s]

Epoch: 12, Iter: 12600/13867
    loss    2.062758
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:29<04:34,  3.88it/s]

Epoch: 12, Iter: 12800/13867
    loss    1.99593
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:19<03:39,  3.94it/s]

Epoch: 12, Iter: 13000/13867
    loss    2.034002
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:10<02:47,  3.98it/s]

Epoch: 12, Iter: 13200/13867
    loss    1.983452
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:00<01:55,  4.03it/s]

Epoch: 12, Iter: 13400/13867
    loss    2.055445
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:50<01:06,  4.00it/s]

Epoch: 12, Iter: 13600/13867
    loss    2.015345
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:41<00:16,  3.99it/s]

Epoch: 12, Iter: 13800/13867
    loss    2.027839
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:57<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.21it/s]



Epoch 12: Train 83.00
Epoch 12: Valid 65.26
Epoch 12: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:56,  3.93it/s]

Epoch: 13, Iter: 200/13867
    loss    1.728521
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<55:45,  4.03it/s]

Epoch: 13, Iter: 400/13867
    loss    1.800695
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:08,  4.01it/s]

Epoch: 13, Iter: 600/13867
    loss    1.77409
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:21<57:26,  3.79it/s]

Epoch: 13, Iter: 800/13867
    loss    1.840124
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<54:08,  3.96it/s]

Epoch: 13, Iter: 1000/13867
    loss    1.824152
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<52:39,  4.01it/s]

Epoch: 13, Iter: 1200/13867
    loss    1.813783
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<53:00,  3.92it/s]

Epoch: 13, Iter: 1400/13867
    loss    1.82683
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<51:10,  3.99it/s]

Epoch: 13, Iter: 1600/13867
    loss    1.829845
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<51:22,  3.91it/s]

Epoch: 13, Iter: 1800/13867
    loss    1.804815
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<49:18,  4.01it/s]

Epoch: 13, Iter: 2000/13867
    loss    1.846597
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:10<49:37,  3.92it/s]

Epoch: 13, Iter: 2200/13867
    loss    1.824816
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:00<48:47,  3.92it/s]

Epoch: 13, Iter: 2400/13867
    loss    1.81793
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<47:16,  3.97it/s]

Epoch: 13, Iter: 2600/13867
    loss    1.854013
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<45:56,  4.01it/s]

Epoch: 13, Iter: 2800/13867
    loss    1.805247
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<44:49,  4.04it/s]

Epoch: 13, Iter: 3000/13867
    loss    1.842266
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<44:55,  3.96it/s]

Epoch: 13, Iter: 3200/13867
    loss    1.851692
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<44:01,  3.96it/s]

Epoch: 13, Iter: 3400/13867
    loss    1.824095
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:02<43:50,  3.90it/s]

Epoch: 13, Iter: 3600/13867
    loss    1.827044
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:52<41:33,  4.04it/s]

Epoch: 13, Iter: 3800/13867
    loss    1.848122
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:41<41:40,  3.95it/s]

Epoch: 13, Iter: 4000/13867
    loss    1.841101
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:33<41:05,  3.92it/s]

Epoch: 13, Iter: 4200/13867
    loss    1.880718
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:22<39:06,  4.03it/s]

Epoch: 13, Iter: 4400/13867
    loss    1.850408
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:14<44:29,  3.47it/s]

Epoch: 13, Iter: 4600/13867
    loss    1.89987
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:03<37:37,  4.02it/s]

Epoch: 13, Iter: 4800/13867
    loss    1.829118
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:53<36:59,  3.99it/s]

Epoch: 13, Iter: 5000/13867
    loss    1.866193
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:44<36:35,  3.95it/s]

Epoch: 13, Iter: 5200/13867
    loss    1.850857
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:33<34:49,  4.05it/s]

Epoch: 13, Iter: 5400/13867
    loss    1.859288
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:23<34:44,  3.97it/s]

Epoch: 13, Iter: 5600/13867
    loss    1.870762
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:14<34:14,  3.93it/s]

Epoch: 13, Iter: 5800/13867
    loss    1.841423
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:04<34:00,  3.86it/s]

Epoch: 13, Iter: 6000/13867
    loss    1.863264
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:53<32:12,  3.97it/s]

Epoch: 13, Iter: 6200/13867
    loss    1.860182
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:45<32:07,  3.87it/s]

Epoch: 13, Iter: 6400/13867
    loss    1.88859
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:35<31:18,  3.87it/s]

Epoch: 13, Iter: 6600/13867
    loss    1.85994
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:26<31:53,  3.69it/s]

Epoch: 13, Iter: 6800/13867
    loss    1.807882
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:16<29:13,  3.91it/s]

Epoch: 13, Iter: 7000/13867
    loss    1.831511
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:06<28:43,  3.87it/s]

Epoch: 13, Iter: 7200/13867
    loss    1.862139
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:57<27:15,  3.95it/s]

Epoch: 13, Iter: 7400/13867
    loss    1.873267
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:46<26:38,  3.92it/s]

Epoch: 13, Iter: 7600/13867
    loss    1.906001
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:36<25:26,  3.97it/s]

Epoch: 13, Iter: 7800/13867
    loss    1.8175
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:27<24:36,  3.97it/s]

Epoch: 13, Iter: 8000/13867
    loss    1.889593
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:17<23:57,  3.94it/s]

Epoch: 13, Iter: 8200/13867
    loss    1.9017
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:06<23:09,  3.93it/s]

Epoch: 13, Iter: 8400/13867
    loss    1.86346
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:58<21:55,  4.00it/s]

Epoch: 13, Iter: 8600/13867
    loss    1.876644
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:47<21:18,  3.96it/s]

Epoch: 13, Iter: 8800/13867
    loss    1.913593
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:36<20:24,  3.97it/s]

Epoch: 13, Iter: 9000/13867
    loss    1.863541
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:28<19:36,  3.97it/s]

Epoch: 13, Iter: 9200/13867
    loss    1.867961
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:17<18:36,  4.00it/s]

Epoch: 13, Iter: 9400/13867
    loss    1.900221
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:09<18:03,  3.94it/s]

Epoch: 13, Iter: 9600/13867
    loss    1.895652
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:58<17:17,  3.92it/s]

Epoch: 13, Iter: 9800/13867
    loss    1.947206
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:48<16:27,  3.91it/s]

Epoch: 13, Iter: 10000/13867
    loss    1.885889
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:39<15:25,  3.96it/s]

Epoch: 13, Iter: 10200/13867
    loss    1.915966
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:29<14:37,  3.95it/s]

Epoch: 13, Iter: 10400/13867
    loss    1.902497
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:18<13:43,  3.97it/s]

Epoch: 13, Iter: 10600/13867
    loss    1.910479
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:09<13:04,  3.91it/s]

Epoch: 13, Iter: 10800/13867
    loss    1.90021
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:59<11:55,  4.00it/s]

Epoch: 13, Iter: 11000/13867
    loss    1.887031
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:48<11:08,  3.99it/s]

Epoch: 13, Iter: 11200/13867
    loss    1.931168
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:39<10:19,  3.98it/s]

Epoch: 13, Iter: 11400/13867
    loss    1.914972
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:29<09:29,  3.98it/s]

Epoch: 13, Iter: 11600/13867
    loss    1.909399
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:18<08:39,  3.98it/s]

Epoch: 13, Iter: 11800/13867
    loss    1.912924
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:10<07:50,  3.97it/s]

Epoch: 13, Iter: 12000/13867
    loss    1.877545
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:59<07:01,  3.95it/s]

Epoch: 13, Iter: 12200/13867
    loss    1.934861
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:49<06:07,  3.99it/s]

Epoch: 13, Iter: 12400/13867
    loss    1.940942
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:40<05:17,  3.99it/s]

Epoch: 13, Iter: 12600/13867
    loss    1.974913
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:30<04:28,  3.98it/s]

Epoch: 13, Iter: 12800/13867
    loss    1.927408
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:21<03:40,  3.94it/s]

Epoch: 13, Iter: 13000/13867
    loss    1.892489
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:11<02:48,  3.95it/s]

Epoch: 13, Iter: 13200/13867
    loss    1.954934
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:00<01:56,  3.98it/s]

Epoch: 13, Iter: 13400/13867
    loss    1.872183
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:52<01:06,  3.98it/s]

Epoch: 13, Iter: 13600/13867
    loss    1.891176
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:41<00:16,  3.90it/s]

Epoch: 13, Iter: 13800/13867
    loss    1.904454
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:58<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.23it/s]



Epoch 13: Train 84.35
Epoch 13: Valid 65.31
Epoch 13: Best 65.31
snap/vqa_multilingual


  1%|█                                                                           | 201/13867 [00:51<1:23:40,  2.72it/s]

Epoch: 14, Iter: 200/13867
    loss    1.701631
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<56:29,  3.97it/s]

Epoch: 14, Iter: 400/13867
    loss    1.681601
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<56:36,  3.91it/s]

Epoch: 14, Iter: 600/13867
    loss    1.71812
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:21<55:52,  3.90it/s]

Epoch: 14, Iter: 800/13867
    loss    1.716667
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<54:58,  3.90it/s]

Epoch: 14, Iter: 1000/13867
    loss    1.699979
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<53:23,  3.95it/s]

Epoch: 14, Iter: 1200/13867
    loss    1.690373
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<53:10,  3.91it/s]

Epoch: 14, Iter: 1400/13867
    loss    1.759182
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<52:00,  3.93it/s]

Epoch: 14, Iter: 1600/13867
    loss    1.713245
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:13,  4.00it/s]

Epoch: 14, Iter: 1800/13867
    loss    1.70457
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:22<49:34,  3.99it/s]

Epoch: 14, Iter: 2000/13867
    loss    1.741882
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<49:51,  3.90it/s]

Epoch: 14, Iter: 2200/13867
    loss    1.73157
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:01<47:21,  4.04it/s]

Epoch: 14, Iter: 2400/13867
    loss    1.718849
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:52<46:55,  4.00it/s]

Epoch: 14, Iter: 2600/13867
    loss    1.742404
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<46:56,  3.93it/s]

Epoch: 14, Iter: 2800/13867
    loss    1.734855
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<45:30,  3.98it/s]

Epoch: 14, Iter: 3000/13867
    loss    1.765352
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:22<43:58,  4.04it/s]

Epoch: 14, Iter: 3200/13867
    loss    1.695443
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<43:33,  4.00it/s]

Epoch: 14, Iter: 3400/13867
    loss    1.770725
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<44:07,  3.88it/s]

Epoch: 14, Iter: 3600/13867
    loss    1.728179
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<42:37,  3.94it/s]

Epoch: 14, Iter: 3800/13867
    loss    1.71969
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<41:05,  4.00it/s]

Epoch: 14, Iter: 4000/13867
    loss    1.754982
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<40:37,  3.97it/s]

Epoch: 14, Iter: 4200/13867
    loss    1.749206
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<39:45,  3.97it/s]

Epoch: 14, Iter: 4400/13867
    loss    1.786251
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:13<39:56,  3.87it/s]

Epoch: 14, Iter: 4600/13867
    loss    1.744031
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:02<38:15,  3.95it/s]

Epoch: 14, Iter: 4800/13867
    loss    1.757883
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:54<37:36,  3.93it/s]

Epoch: 14, Iter: 5000/13867
    loss    1.79983
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:43<35:56,  4.02it/s]

Epoch: 14, Iter: 5200/13867
    loss    1.75504
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:34<41:10,  3.43it/s]

Epoch: 14, Iter: 5400/13867
    loss    1.794268
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:24<34:15,  4.02it/s]

Epoch: 14, Iter: 5600/13867
    loss    1.755505
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:14<33:47,  3.98it/s]

Epoch: 14, Iter: 5800/13867
    loss    1.794327
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:05<32:53,  3.99it/s]

Epoch: 14, Iter: 6000/13867
    loss    1.769461
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:54<33:00,  3.87it/s]

Epoch: 14, Iter: 6200/13867
    loss    1.771813
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:44<31:32,  3.95it/s]

Epoch: 14, Iter: 6400/13867
    loss    1.777034
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:35<30:45,  3.94it/s]

Epoch: 14, Iter: 6600/13867
    loss    1.735516
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:25<30:10,  3.90it/s]

Epoch: 14, Iter: 6800/13867
    loss    1.800981
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:15<28:52,  3.96it/s]

Epoch: 14, Iter: 7000/13867
    loss    1.755661
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:07<27:45,  4.00it/s]

Epoch: 14, Iter: 7200/13867
    loss    1.828767
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:57<26:41,  4.04it/s]

Epoch: 14, Iter: 7400/13867
    loss    1.813579
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:46<26:52,  3.89it/s]

Epoch: 14, Iter: 7600/13867
    loss    1.76101
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:38<25:09,  4.02it/s]

Epoch: 14, Iter: 7800/13867
    loss    1.760265
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:27<24:27,  4.00it/s]

Epoch: 14, Iter: 8000/13867
    loss    1.775185
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:17<23:47,  3.97it/s]

Epoch: 14, Iter: 8200/13867
    loss    1.811519
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:08<22:53,  3.98it/s]

Epoch: 14, Iter: 8400/13867
    loss    1.830088
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:58<22:19,  3.93it/s]

Epoch: 14, Iter: 8600/13867
    loss    1.800142
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:47<21:06,  4.00it/s]

Epoch: 14, Iter: 8800/13867
    loss    1.815851
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:39<21:02,  3.85it/s]

Epoch: 14, Iter: 9000/13867
    loss    1.796633
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:28<19:08,  4.06it/s]

Epoch: 14, Iter: 9200/13867
    loss    1.765147
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:18<19:01,  3.91it/s]

Epoch: 14, Iter: 9400/13867
    loss    1.805061
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:09<18:05,  3.93it/s]

Epoch: 14, Iter: 9600/13867
    loss    1.788838
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:59<17:04,  3.97it/s]

Epoch: 14, Iter: 9800/13867
    loss    1.867998
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:48<16:25,  3.92it/s]

Epoch: 14, Iter: 10000/13867
    loss    1.809371
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:39<15:28,  3.95it/s]

Epoch: 14, Iter: 10200/13867
    loss    1.829168
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:29<14:37,  3.95it/s]

Epoch: 14, Iter: 10400/13867
    loss    1.817206
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:19<13:53,  3.92it/s]

Epoch: 14, Iter: 10600/13867
    loss    1.815455
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:10<12:46,  4.00it/s]

Epoch: 14, Iter: 10800/13867
    loss    1.819053
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:59<12:09,  3.93it/s]

Epoch: 14, Iter: 11000/13867
    loss    1.778838
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:49<11:26,  3.88it/s]

Epoch: 14, Iter: 11200/13867
    loss    1.812781
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:40<10:19,  3.98it/s]

Epoch: 14, Iter: 11400/13867
    loss    1.7919
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:30<09:21,  4.04it/s]

Epoch: 14, Iter: 11600/13867
    loss    1.801085
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:19<08:48,  3.91it/s]

Epoch: 14, Iter: 11800/13867
    loss    1.830641
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:11<07:50,  3.96it/s]

Epoch: 14, Iter: 12000/13867
    loss    1.776532
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:00<07:01,  3.95it/s]

Epoch: 14, Iter: 12200/13867
    loss    1.878768
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:50<06:08,  3.98it/s]

Epoch: 14, Iter: 12400/13867
    loss    1.775732
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:41<05:23,  3.91it/s]

Epoch: 14, Iter: 12600/13867
    loss    1.806676
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:30<04:29,  3.96it/s]

Epoch: 14, Iter: 12800/13867
    loss    1.790536
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:20<03:38,  3.96it/s]

Epoch: 14, Iter: 13000/13867
    loss    1.869219
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:11<02:50,  3.91it/s]

Epoch: 14, Iter: 13200/13867
    loss    1.840074
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:01<01:56,  4.00it/s]

Epoch: 14, Iter: 13400/13867
    loss    1.829564
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:50<01:07,  3.96it/s]

Epoch: 14, Iter: 13600/13867
    loss    1.791026
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:42<00:16,  4.00it/s]

Epoch: 14, Iter: 13800/13867
    loss    1.855663
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:58<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.19it/s]



Epoch 14: Train 85.47
Epoch 14: Valid 65.20
Epoch 14: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<58:19,  3.91it/s]

Epoch: 15, Iter: 200/13867
    loss    1.612661
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:35,  3.97it/s]

Epoch: 15, Iter: 400/13867
    loss    1.627124
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:34,  3.98it/s]

Epoch: 15, Iter: 600/13867
    loss    1.617451
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:19<55:02,  3.96it/s]

Epoch: 15, Iter: 800/13867
    loss    1.594656
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:09<55:18,  3.88it/s]

Epoch: 15, Iter: 1000/13867
    loss    1.687243
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<54:22,  3.88it/s]

Epoch: 15, Iter: 1200/13867
    loss    1.676738
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<53:10,  3.91it/s]

Epoch: 15, Iter: 1400/13867
    loss    1.653767
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<51:23,  3.98it/s]

Epoch: 15, Iter: 1600/13867
    loss    1.624555
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:31<50:59,  3.94it/s]

Epoch: 15, Iter: 1800/13867
    loss    1.647002
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<49:31,  3.99it/s]

Epoch: 15, Iter: 2000/13867
    loss    1.648183
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:10<47:51,  4.06it/s]

Epoch: 15, Iter: 2200/13867
    loss    1.648115
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:02<47:45,  4.00it/s]

Epoch: 15, Iter: 2400/13867
    loss    1.65658
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<47:32,  3.95it/s]

Epoch: 15, Iter: 2600/13867
    loss    1.644737
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<46:17,  3.98it/s]

Epoch: 15, Iter: 2800/13867
    loss    1.638662
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<45:25,  3.99it/s]

Epoch: 15, Iter: 3000/13867
    loss    1.690363
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:22<44:57,  3.95it/s]

Epoch: 15, Iter: 3200/13867
    loss    1.640768
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<43:44,  3.99it/s]

Epoch: 15, Iter: 3400/13867
    loss    1.626879
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:02<43:19,  3.95it/s]

Epoch: 15, Iter: 3600/13867
    loss    1.67949
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:52<41:57,  4.00it/s]

Epoch: 15, Iter: 3800/13867
    loss    1.678372
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<41:13,  3.99it/s]

Epoch: 15, Iter: 4000/13867
    loss    1.654871
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:33<40:16,  4.00it/s]

Epoch: 15, Iter: 4200/13867
    loss    1.632272
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<40:08,  3.93it/s]

Epoch: 15, Iter: 4400/13867
    loss    1.69691
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<39:17,  3.93it/s]

Epoch: 15, Iter: 4600/13867
    loss    1.680743
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:04<37:51,  3.99it/s]

Epoch: 15, Iter: 4800/13867
    loss    1.651933
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:53<37:49,  3.91it/s]

Epoch: 15, Iter: 5000/13867
    loss    1.65449
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:43<36:20,  3.98it/s]

Epoch: 15, Iter: 5200/13867
    loss    1.688964
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:34<35:54,  3.93it/s]

Epoch: 15, Iter: 5400/13867
    loss    1.695282
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:24<35:07,  3.92it/s]

Epoch: 15, Iter: 5600/13867
    loss    1.675791
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:14<33:59,  3.95it/s]

Epoch: 15, Iter: 5800/13867
    loss    1.686208
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:05<33:13,  3.95it/s]

Epoch: 15, Iter: 6000/13867
    loss    1.707887
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:55<31:35,  4.04it/s]

Epoch: 15, Iter: 6200/13867
    loss    1.710537
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:44<31:30,  3.95it/s]

Epoch: 15, Iter: 6400/13867
    loss    1.685793
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:35<31:18,  3.87it/s]

Epoch: 15, Iter: 6600/13867
    loss    1.725984
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:25<30:09,  3.91it/s]

Epoch: 15, Iter: 6800/13867
    loss    1.680662
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:15<28:58,  3.95it/s]

Epoch: 15, Iter: 7000/13867
    loss    1.699332
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:07<28:51,  3.85it/s]

Epoch: 15, Iter: 7200/13867
    loss    1.679583
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:56<27:11,  3.96it/s]

Epoch: 15, Iter: 7400/13867
    loss    1.700023
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:46<26:53,  3.88it/s]

Epoch: 15, Iter: 7600/13867
    loss    1.717371
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:36<25:46,  3.92it/s]

Epoch: 15, Iter: 7800/13867
    loss    1.732302
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:27<24:13,  4.04it/s]

Epoch: 15, Iter: 8000/13867
    loss    1.715414
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:17<23:48,  3.97it/s]

Epoch: 15, Iter: 8200/13867
    loss    1.694554
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:06<22:25,  4.06it/s]

Epoch: 15, Iter: 8400/13867
    loss    1.7183
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:58<22:33,  3.89it/s]

Epoch: 15, Iter: 8600/13867
    loss    1.692819
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:48<21:16,  3.97it/s]

Epoch: 15, Iter: 8800/13867
    loss    1.684822
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:37<20:36,  3.94it/s]

Epoch: 15, Iter: 9000/13867
    loss    1.716189
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:29<19:38,  3.96it/s]

Epoch: 15, Iter: 9200/13867
    loss    1.675675
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:18<18:48,  3.96it/s]

Epoch: 15, Iter: 9400/13867
    loss    1.696942
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:08<18:05,  3.93it/s]

Epoch: 15, Iter: 9600/13867
    loss    1.740864
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:59<17:25,  3.89it/s]

Epoch: 15, Iter: 9800/13867
    loss    1.751153
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:49<16:20,  3.94it/s]

Epoch: 15, Iter: 10000/13867
    loss    1.761105
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:38<15:43,  3.89it/s]

Epoch: 15, Iter: 10200/13867
    loss    1.712583
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:30<14:42,  3.93it/s]

Epoch: 15, Iter: 10400/13867
    loss    1.701819
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:19<13:54,  3.91it/s]

Epoch: 15, Iter: 10600/13867
    loss    1.717209
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:09<12:54,  3.96it/s]

Epoch: 15, Iter: 10800/13867
    loss    1.727841
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:00<12:04,  3.95it/s]

Epoch: 15, Iter: 11000/13867
    loss    1.742036
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:50<11:04,  4.01it/s]

Epoch: 15, Iter: 11200/13867
    loss    1.742838
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:39<10:20,  3.97it/s]

Epoch: 15, Iter: 11400/13867
    loss    1.760369
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:31<09:37,  3.92it/s]

Epoch: 15, Iter: 11600/13867
    loss    1.740033
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:20<08:40,  3.97it/s]

Epoch: 15, Iter: 11800/13867
    loss    1.751339
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:10<07:37,  4.07it/s]

Epoch: 15, Iter: 12000/13867
    loss    1.69975
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:00<07:04,  3.93it/s]

Epoch: 15, Iter: 12200/13867
    loss    1.728436
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:51<06:05,  4.01it/s]

Epoch: 15, Iter: 12400/13867
    loss    1.721097
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:40<05:24,  3.90it/s]

Epoch: 15, Iter: 12600/13867
    loss    1.731248
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:30<04:34,  3.88it/s]

Epoch: 15, Iter: 12800/13867
    loss    1.709337
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:21<03:39,  3.94it/s]

Epoch: 15, Iter: 13000/13867
    loss    1.734038
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:11<02:49,  3.94it/s]

Epoch: 15, Iter: 13200/13867
    loss    1.698735
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:01<01:56,  4.00it/s]

Epoch: 15, Iter: 13400/13867
    loss    1.71918
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:52<01:07,  3.96it/s]

Epoch: 15, Iter: 13600/13867
    loss    1.748039
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:42<00:16,  3.93it/s]

Epoch: 15, Iter: 13800/13867
    loss    1.734388
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:58<00:00,  3.99it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.18it/s]



Epoch 15: Train 86.40
Epoch 15: Valid 65.30
Epoch 15: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<58:03,  3.92it/s]

Epoch: 16, Iter: 200/13867
    loss    1.55559
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<57:02,  3.93it/s]

Epoch: 16, Iter: 400/13867
    loss    1.53836
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:29,  3.98it/s]

Epoch: 16, Iter: 600/13867
    loss    1.534334
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<55:09,  3.95it/s]

Epoch: 16, Iter: 800/13867
    loss    1.528727
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:11<54:06,  3.96it/s]

Epoch: 16, Iter: 1000/13867
    loss    1.578869
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:06,  3.97it/s]

Epoch: 16, Iter: 1200/13867
    loss    1.546232
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<52:06,  3.99it/s]

Epoch: 16, Iter: 1400/13867
    loss    1.589347
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<51:41,  3.95it/s]

Epoch: 16, Iter: 1600/13867
    loss    1.560516
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:31<50:58,  3.94it/s]

Epoch: 16, Iter: 1800/13867
    loss    1.573939
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<51:03,  3.87it/s]

Epoch: 16, Iter: 2000/13867
    loss    1.566666
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:12<49:04,  3.96it/s]

Epoch: 16, Iter: 2200/13867
    loss    1.575829
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:02<48:50,  3.91it/s]

Epoch: 16, Iter: 2400/13867
    loss    1.566968
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<48:07,  3.90it/s]

Epoch: 16, Iter: 2600/13867
    loss    1.583855
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<46:52,  3.93it/s]

Epoch: 16, Iter: 2800/13867
    loss    1.609784
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:33<45:56,  3.94it/s]

Epoch: 16, Iter: 3000/13867
    loss    1.607902
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:22<45:18,  3.92it/s]

Epoch: 16, Iter: 3200/13867
    loss    1.609044
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<42:53,  4.07it/s]

Epoch: 16, Iter: 3400/13867
    loss    1.601167
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:03<43:14,  3.96it/s]

Epoch: 16, Iter: 3600/13867
    loss    1.614053
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<42:37,  3.94it/s]

Epoch: 16, Iter: 3800/13867
    loss    1.549848
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<41:39,  3.95it/s]

Epoch: 16, Iter: 4000/13867
    loss    1.595935
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:34<41:02,  3.92it/s]

Epoch: 16, Iter: 4200/13867
    loss    1.616308
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:24<40:23,  3.91it/s]

Epoch: 16, Iter: 4400/13867
    loss    1.604772
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:13<39:24,  3.92it/s]

Epoch: 16, Iter: 4600/13867
    loss    1.623944
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:05<37:15,  4.06it/s]

Epoch: 16, Iter: 4800/13867
    loss    1.621931
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:54<37:27,  3.95it/s]

Epoch: 16, Iter: 5000/13867
    loss    1.600537
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:44<37:57,  3.80it/s]

Epoch: 16, Iter: 5200/13867
    loss    1.579576
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:34<34:54,  4.04it/s]

Epoch: 16, Iter: 5400/13867
    loss    1.644245
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:25<35:11,  3.91it/s]

Epoch: 16, Iter: 5600/13867
    loss    1.555909
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:15<33:41,  3.99it/s]

Epoch: 16, Iter: 5800/13867
    loss    1.607234
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:05<33:45,  3.88it/s]

Epoch: 16, Iter: 6000/13867
    loss    1.638651
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:56<32:33,  3.92it/s]

Epoch: 16, Iter: 6200/13867
    loss    1.626559
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:46<31:04,  4.00it/s]

Epoch: 16, Iter: 6400/13867
    loss    1.621892
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:36<30:42,  3.94it/s]

Epoch: 16, Iter: 6600/13867
    loss    1.585707
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:27<30:40,  3.84it/s]

Epoch: 16, Iter: 6800/13867
    loss    1.630819
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:18<29:14,  3.91it/s]

Epoch: 16, Iter: 7000/13867
    loss    1.593295
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:08<28:16,  3.93it/s]

Epoch: 16, Iter: 7200/13867
    loss    1.577071
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:59<27:17,  3.95it/s]

Epoch: 16, Iter: 7400/13867
    loss    1.626647
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:49<26:03,  4.01it/s]

Epoch: 16, Iter: 7600/13867
    loss    1.617273
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:38<25:43,  3.93it/s]

Epoch: 16, Iter: 7800/13867
    loss    1.621217
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:28<24:07,  4.05it/s]

Epoch: 16, Iter: 8000/13867
    loss    1.604035
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:20<23:45,  3.97it/s]

Epoch: 16, Iter: 8200/13867
    loss    1.657096
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:09<22:52,  3.98it/s]

Epoch: 16, Iter: 8400/13867
    loss    1.610865
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:59<22:15,  3.94it/s]

Epoch: 16, Iter: 8600/13867
    loss    1.619835
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:50<21:25,  3.94it/s]

Epoch: 16, Iter: 8800/13867
    loss    1.624782
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:40<20:32,  3.95it/s]

Epoch: 16, Iter: 9000/13867
    loss    1.641579
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:30<19:38,  3.96it/s]

Epoch: 16, Iter: 9200/13867
    loss    1.59421
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:21<18:16,  4.07it/s]

Epoch: 16, Iter: 9400/13867
    loss    1.612233
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:11<17:57,  3.96it/s]

Epoch: 16, Iter: 9600/13867
    loss    1.654804
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:01<17:28,  3.88it/s]

Epoch: 16, Iter: 9800/13867
    loss    1.643131
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:50<16:23,  3.93it/s]

Epoch: 16, Iter: 10000/13867
    loss    1.641492
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:42<15:20,  3.98it/s]

Epoch: 16, Iter: 10200/13867
    loss    1.679658
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:31<14:42,  3.93it/s]

Epoch: 16, Iter: 10400/13867
    loss    1.650797
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:21<13:45,  3.95it/s]

Epoch: 16, Iter: 10600/13867
    loss    1.652957
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:13<13:13,  3.86it/s]

Epoch: 16, Iter: 10800/13867
    loss    1.664669
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:02<12:12,  3.91it/s]

Epoch: 16, Iter: 11000/13867
    loss    1.627546
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:52<11:12,  3.97it/s]

Epoch: 16, Iter: 11200/13867
    loss    1.595372
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:43<10:23,  3.95it/s]

Epoch: 16, Iter: 11400/13867
    loss    1.639699
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:33<09:32,  3.96it/s]

Epoch: 16, Iter: 11600/13867
    loss    1.602815
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:23<08:46,  3.92it/s]

Epoch: 16, Iter: 11800/13867
    loss    1.658238
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:12<07:39,  4.06it/s]

Epoch: 16, Iter: 12000/13867
    loss    1.621715
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:04<06:51,  4.05it/s]

Epoch: 16, Iter: 12200/13867
    loss    1.637845
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:53<06:11,  3.95it/s]

Epoch: 16, Iter: 12400/13867
    loss    1.66545
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:43<05:23,  3.91it/s]

Epoch: 16, Iter: 12600/13867
    loss    1.699207
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:35<04:31,  3.92it/s]

Epoch: 16, Iter: 12800/13867
    loss    1.662229
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:25<03:42,  3.90it/s]

Epoch: 16, Iter: 13000/13867
    loss    1.633678
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:14<02:45,  4.03it/s]

Epoch: 16, Iter: 13200/13867
    loss    1.644257
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:06<01:56,  3.99it/s]

Epoch: 16, Iter: 13400/13867
    loss    1.691032
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:56<01:07,  3.96it/s]

Epoch: 16, Iter: 13600/13867
    loss    1.643222
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:45<00:16,  3.94it/s]

Epoch: 16, Iter: 13800/13867
    loss    1.670899
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:02<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.19it/s]



Epoch 16: Train 87.28
Epoch 16: Valid 65.31
Epoch 16: Best 65.31
snap/vqa_multilingual


  1%|█                                                                           | 201/13867 [00:51<1:12:44,  3.13it/s]

Epoch: 17, Iter: 200/13867
    loss    1.477182
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<56:33,  3.97it/s]

Epoch: 17, Iter: 400/13867
    loss    1.500625
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:33,  3.98it/s]

Epoch: 17, Iter: 600/13867
    loss    1.517413
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<54:58,  3.96it/s]

Epoch: 17, Iter: 800/13867
    loss    1.483842
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:12<54:39,  3.92it/s]

Epoch: 17, Iter: 1000/13867
    loss    1.4872
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:20,  3.96it/s]

Epoch: 17, Iter: 1200/13867
    loss    1.533714
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<53:15,  3.90it/s]

Epoch: 17, Iter: 1400/13867
    loss    1.507271
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<51:05,  4.00it/s]

Epoch: 17, Iter: 1600/13867
    loss    1.48456
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:32<50:46,  3.96it/s]

Epoch: 17, Iter: 1800/13867
    loss    1.511757
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:22<50:42,  3.90it/s]

Epoch: 17, Iter: 2000/13867
    loss    1.519365
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:12<49:25,  3.93it/s]

Epoch: 17, Iter: 2200/13867
    loss    1.550531
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:04<49:34,  3.86it/s]

Epoch: 17, Iter: 2400/13867
    loss    1.529852
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:53<48:33,  3.87it/s]

Epoch: 17, Iter: 2600/13867
    loss    1.483933
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:43<47:01,  3.92it/s]

Epoch: 17, Iter: 2800/13867
    loss    1.482129
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:34<46:45,  3.87it/s]

Epoch: 17, Iter: 3000/13867
    loss    1.552636
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:24<45:30,  3.91it/s]

Epoch: 17, Iter: 3200/13867
    loss    1.484008
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:14<44:34,  3.91it/s]

Epoch: 17, Iter: 3400/13867
    loss    1.510791
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▍                                                       | 3601/13867 [15:05<1:48:58,  1.57it/s]

Epoch: 17, Iter: 3600/13867
    loss    1.525449
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:55<43:02,  3.90it/s]

Epoch: 17, Iter: 3800/13867
    loss    1.518824
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:45<41:42,  3.94it/s]

Epoch: 17, Iter: 4000/13867
    loss    1.510108
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:35<41:18,  3.90it/s]

Epoch: 17, Iter: 4200/13867
    loss    1.523894
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:26<39:30,  3.99it/s]

Epoch: 17, Iter: 4400/13867
    loss    1.513173
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:16<39:32,  3.91it/s]

Epoch: 17, Iter: 4600/13867
    loss    1.529223
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:06<38:36,  3.91it/s]

Epoch: 17, Iter: 4800/13867
    loss    1.566498
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:57<37:34,  3.93it/s]

Epoch: 17, Iter: 5000/13867
    loss    1.481262
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:47<36:37,  3.94it/s]

Epoch: 17, Iter: 5200/13867
    loss    1.535081
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:37<36:00,  3.92it/s]

Epoch: 17, Iter: 5400/13867
    loss    1.535486
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:27<34:45,  3.96it/s]

Epoch: 17, Iter: 5600/13867
    loss    1.539203
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:18<34:08,  3.94it/s]

Epoch: 17, Iter: 5800/13867
    loss    1.55606
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:08<33:34,  3.90it/s]

Epoch: 17, Iter: 6000/13867
    loss    1.551967
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:58<32:35,  3.92it/s]

Epoch: 17, Iter: 6200/13867
    loss    1.54657
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:49<31:29,  3.95it/s]

Epoch: 17, Iter: 6400/13867
    loss    1.535691
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:39<30:52,  3.92it/s]

Epoch: 17, Iter: 6600/13867
    loss    1.54209
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:29<29:35,  3.98it/s]

Epoch: 17, Iter: 6800/13867
    loss    1.545743
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:19<29:16,  3.91it/s]

Epoch: 17, Iter: 7000/13867
    loss    1.526295
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:11<27:51,  3.99it/s]

Epoch: 17, Iter: 7200/13867
    loss    1.557019
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:01<27:46,  3.88it/s]

Epoch: 17, Iter: 7400/13867
    loss    1.499083
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:51<26:16,  3.98it/s]

Epoch: 17, Iter: 7600/13867
    loss    1.522759
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:43<25:29,  3.97it/s]

Epoch: 17, Iter: 7800/13867
    loss    1.541411
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:33<24:35,  3.97it/s]

Epoch: 17, Iter: 8000/13867
    loss    1.584032
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:22<23:49,  3.96it/s]

Epoch: 17, Iter: 8200/13867
    loss    1.566362
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:12<22:59,  3.96it/s]

Epoch: 17, Iter: 8400/13867
    loss    1.581404
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:04<22:10,  3.96it/s]

Epoch: 17, Iter: 8600/13867
    loss    1.596464
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:53<21:35,  3.91it/s]

Epoch: 17, Iter: 8800/13867
    loss    1.531107
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:43<20:19,  3.99it/s]

Epoch: 17, Iter: 9000/13867
    loss    1.588592
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:35<19:59,  3.89it/s]

Epoch: 17, Iter: 9200/13867
    loss    1.549254
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:25<18:58,  3.92it/s]

Epoch: 17, Iter: 9400/13867
    loss    1.543605
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:15<18:12,  3.91it/s]

Epoch: 17, Iter: 9600/13867
    loss    1.551283
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:04<17:15,  3.92it/s]

Epoch: 17, Iter: 9800/13867
    loss    1.582103
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:56<16:23,  3.93it/s]

Epoch: 17, Iter: 10000/13867
    loss    1.560363
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:46<15:18,  3.99it/s]

Epoch: 17, Iter: 10200/13867
    loss    1.533896
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:36<14:33,  3.97it/s]

Epoch: 17, Iter: 10400/13867
    loss    1.534363
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:27<13:53,  3.92it/s]

Epoch: 17, Iter: 10600/13867
    loss    1.576157
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:17<13:10,  3.88it/s]

Epoch: 17, Iter: 10800/13867
    loss    1.566889
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:07<12:07,  3.94it/s]

Epoch: 17, Iter: 11000/13867
    loss    1.563295
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:56<11:17,  3.94it/s]

Epoch: 17, Iter: 11200/13867
    loss    1.563836
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:48<10:29,  3.92it/s]

Epoch: 17, Iter: 11400/13867
    loss    1.605239
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:38<09:39,  3.91it/s]

Epoch: 17, Iter: 11600/13867
    loss    1.554505
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:28<08:48,  3.91it/s]

Epoch: 17, Iter: 11800/13867
    loss    1.573142
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:20<07:52,  3.95it/s]

Epoch: 17, Iter: 12000/13867
    loss    1.598992
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:09<06:48,  4.08it/s]

Epoch: 17, Iter: 12200/13867
    loss    1.587355
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:59<06:14,  3.92it/s]

Epoch: 17, Iter: 12400/13867
    loss    1.583972
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:49<05:24,  3.91it/s]

Epoch: 17, Iter: 12600/13867
    loss    1.551217
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:41<04:30,  3.94it/s]

Epoch: 17, Iter: 12800/13867
    loss    1.549313
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:30<03:38,  3.97it/s]

Epoch: 17, Iter: 13000/13867
    loss    1.615079
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:20<02:47,  3.99it/s]

Epoch: 17, Iter: 13200/13867
    loss    1.587097
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:12<01:59,  3.91it/s]

Epoch: 17, Iter: 13400/13867
    loss    1.557407
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:01<01:08,  3.89it/s]

Epoch: 17, Iter: 13600/13867
    loss    1.603554
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:51<00:16,  3.92it/s]

Epoch: 17, Iter: 13800/13867
    loss    1.575621
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:08<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.16it/s]



Epoch 17: Train 87.99
Epoch 17: Valid 65.25
Epoch 17: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<57:57,  3.93it/s]

Epoch: 18, Iter: 200/13867
    loss    1.43803
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<57:17,  3.92it/s]

Epoch: 18, Iter: 400/13867
    loss    1.421055
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:31<57:14,  3.86it/s]

Epoch: 18, Iter: 600/13867
    loss    1.42026
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:21<55:34,  3.92it/s]

Epoch: 18, Iter: 800/13867
    loss    1.429313
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:13<53:44,  3.99it/s]

Epoch: 18, Iter: 1000/13867
    loss    1.456012
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:02<52:47,  4.00it/s]

Epoch: 18, Iter: 1200/13867
    loss    1.462076
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:52<52:45,  3.94it/s]

Epoch: 18, Iter: 1400/13867
    loss    1.456893
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<52:41,  3.88it/s]

Epoch: 18, Iter: 1600/13867
    loss    1.471822
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:34<52:49,  3.81it/s]

Epoch: 18, Iter: 1800/13867
    loss    1.433392
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:24<50:41,  3.90it/s]

Epoch: 18, Iter: 2000/13867
    loss    1.461833
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:14<48:59,  3.97it/s]

Epoch: 18, Iter: 2200/13867
    loss    1.525863
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:05<48:07,  3.97it/s]

Epoch: 18, Iter: 2400/13867
    loss    1.435171
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:55<47:58,  3.91it/s]

Epoch: 18, Iter: 2600/13867
    loss    1.443601
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:45<46:38,  3.95it/s]

Epoch: 18, Iter: 2800/13867
    loss    1.466335
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:35<44:31,  4.07it/s]

Epoch: 18, Iter: 3000/13867
    loss    1.478376
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:26<44:31,  3.99it/s]

Epoch: 18, Iter: 3200/13867
    loss    1.47173
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:16<44:17,  3.94it/s]

Epoch: 18, Iter: 3400/13867
    loss    1.452881
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:05<42:52,  3.99it/s]

Epoch: 18, Iter: 3600/13867
    loss    1.481758
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|████████████████████▌                                                      | 3801/13867 [15:58<2:25:21,  1.15it/s]

Epoch: 18, Iter: 3800/13867
    loss    1.438507
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:47<40:31,  4.06it/s]

Epoch: 18, Iter: 4000/13867
    loss    1.467797
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:37<41:21,  3.90it/s]

Epoch: 18, Iter: 4200/13867
    loss    1.450715
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:27<39:36,  3.98it/s]

Epoch: 18, Iter: 4400/13867
    loss    1.488927
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:19<39:04,  3.95it/s]

Epoch: 18, Iter: 4600/13867
    loss    1.431338
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:09<39:10,  3.86it/s]

Epoch: 18, Iter: 4800/13867
    loss    1.442394
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:58<37:39,  3.92it/s]

Epoch: 18, Iter: 5000/13867
    loss    1.47051
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:48<37:20,  3.87it/s]

Epoch: 18, Iter: 5200/13867
    loss    1.473689
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:40<36:09,  3.90it/s]

Epoch: 18, Iter: 5400/13867
    loss    1.479586
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:29<34:46,  3.96it/s]

Epoch: 18, Iter: 5600/13867
    loss    1.456059
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:19<33:16,  4.04it/s]

Epoch: 18, Iter: 5800/13867
    loss    1.478843
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:11<32:40,  4.01it/s]

Epoch: 18, Iter: 6000/13867
    loss    1.453212
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:00<32:14,  3.96it/s]

Epoch: 18, Iter: 6200/13867
    loss    1.50864
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:50<31:54,  3.90it/s]

Epoch: 18, Iter: 6400/13867
    loss    1.472488
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:40<31:20,  3.86it/s]

Epoch: 18, Iter: 6600/13867
    loss    1.486289
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:32<30:28,  3.86it/s]

Epoch: 18, Iter: 6800/13867
    loss    1.475184
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:22<28:58,  3.95it/s]

Epoch: 18, Iter: 7000/13867
    loss    1.487197
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:12<28:21,  3.92it/s]

Epoch: 18, Iter: 7200/13867
    loss    1.541318
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:02<27:25,  3.93it/s]

Epoch: 18, Iter: 7400/13867
    loss    1.481421
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:54<26:01,  4.01it/s]

Epoch: 18, Iter: 7600/13867
    loss    1.493783
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:44<26:01,  3.89it/s]

Epoch: 18, Iter: 7800/13867
    loss    1.481605
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:33<25:23,  3.85it/s]

Epoch: 18, Iter: 8000/13867
    loss    1.501706
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:25<24:16,  3.89it/s]

Epoch: 18, Iter: 8200/13867
    loss    1.477659
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:15<23:05,  3.95it/s]

Epoch: 18, Iter: 8400/13867
    loss    1.50502
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:05<21:42,  4.04it/s]

Epoch: 18, Iter: 8600/13867
    loss    1.499961
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:55<21:24,  3.94it/s]

Epoch: 18, Iter: 8800/13867
    loss    1.521881
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:47<20:58,  3.87it/s]

Epoch: 18, Iter: 9000/13867
    loss    1.459752
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:36<19:50,  3.92it/s]

Epoch: 18, Iter: 9200/13867
    loss    1.486486
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:26<18:37,  4.00it/s]

Epoch: 18, Iter: 9400/13867
    loss    1.464553
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:16<18:08,  3.92it/s]

Epoch: 18, Iter: 9600/13867
    loss    1.499239
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:07<16:46,  4.04it/s]

Epoch: 18, Iter: 9800/13867
    loss    1.454202
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:57<16:15,  3.96it/s]

Epoch: 18, Iter: 10000/13867
    loss    1.480487
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:47<15:41,  3.90it/s]

Epoch: 18, Iter: 10200/13867
    loss    1.514728
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:39<14:33,  3.97it/s]

Epoch: 18, Iter: 10400/13867
    loss    1.474855
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:28<13:45,  3.96it/s]

Epoch: 18, Iter: 10600/13867
    loss    1.479383
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:18<13:10,  3.88it/s]

Epoch: 18, Iter: 10800/13867
    loss    1.481482
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:08<12:05,  3.95it/s]

Epoch: 18, Iter: 11000/13867
    loss    1.509244
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:00<11:11,  3.97it/s]

Epoch: 18, Iter: 11200/13867
    loss    1.508325
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:50<10:33,  3.89it/s]

Epoch: 18, Iter: 11400/13867
    loss    1.493174
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:40<09:31,  3.97it/s]

Epoch: 18, Iter: 11600/13867
    loss    1.49246
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:30<08:36,  4.00it/s]

Epoch: 18, Iter: 11800/13867
    loss    1.50713
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:21<07:55,  3.92it/s]

Epoch: 18, Iter: 12000/13867
    loss    1.482583
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:11<06:54,  4.02it/s]

Epoch: 18, Iter: 12200/13867
    loss    1.52621
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:01<06:24,  3.82it/s]

Epoch: 18, Iter: 12400/13867
    loss    1.474132
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:53<05:24,  3.91it/s]

Epoch: 18, Iter: 12600/13867
    loss    1.514412
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:43<04:32,  3.90it/s]

Epoch: 18, Iter: 12800/13867
    loss    1.493393
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:32<03:41,  3.90it/s]

Epoch: 18, Iter: 13000/13867
    loss    1.499734
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:22<02:45,  4.02it/s]

Epoch: 18, Iter: 13200/13867
    loss    1.529509
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:14<01:58,  3.92it/s]

Epoch: 18, Iter: 13400/13867
    loss    1.47529
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:04<01:08,  3.90it/s]

Epoch: 18, Iter: 13600/13867
    loss    1.525286
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:54<00:16,  4.02it/s]

Epoch: 18, Iter: 13800/13867
    loss    1.531084
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:10<00:00,  3.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.14it/s]



Epoch 18: Train 88.58
Epoch 18: Valid 65.21
Epoch 18: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:23,  3.97it/s]

Epoch: 19, Iter: 200/13867
    loss    1.409993
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<56:24,  3.98it/s]

Epoch: 19, Iter: 400/13867
    loss    1.388546
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:31<55:49,  3.96it/s]

Epoch: 19, Iter: 600/13867
    loss    1.384433
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:21<55:33,  3.92it/s]

Epoch: 19, Iter: 800/13867
    loss    1.360285
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:10<53:52,  3.98it/s]

Epoch: 19, Iter: 1000/13867
    loss    1.380251
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:02<53:33,  3.94it/s]

Epoch: 19, Iter: 1200/13867
    loss    1.384213
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:52<53:20,  3.90it/s]

Epoch: 19, Iter: 1400/13867
    loss    1.407471
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<52:05,  3.92it/s]

Epoch: 19, Iter: 1600/13867
    loss    1.388549
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:34<52:18,  3.84it/s]

Epoch: 19, Iter: 1800/13867
    loss    1.413451
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:24<49:52,  3.97it/s]

Epoch: 19, Iter: 2000/13867
    loss    1.413287
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:13<49:45,  3.91it/s]

Epoch: 19, Iter: 2200/13867
    loss    1.357165
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<49:37,  3.85it/s]

Epoch: 19, Iter: 2400/13867
    loss    1.405095
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:54<47:00,  3.99it/s]

Epoch: 19, Iter: 2600/13867
    loss    1.400276
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:44<47:08,  3.91it/s]

Epoch: 19, Iter: 2800/13867
    loss    1.409933
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:34<46:15,  3.92it/s]

Epoch: 19, Iter: 3000/13867
    loss    1.387972
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:24<44:56,  3.96it/s]

Epoch: 19, Iter: 3200/13867
    loss    1.417245
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:15<44:39,  3.91it/s]

Epoch: 19, Iter: 3400/13867
    loss    1.425851
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:05<42:39,  4.01it/s]

Epoch: 19, Iter: 3600/13867
    loss    1.408955
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:55<42:11,  3.98it/s]

Epoch: 19, Iter: 3800/13867
    loss    1.393147
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:45<41:12,  3.99it/s]

Epoch: 19, Iter: 4000/13867
    loss    1.376973
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:37<41:31,  3.88it/s]

Epoch: 19, Iter: 4200/13867
    loss    1.395018
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:26<39:42,  3.97it/s]

Epoch: 19, Iter: 4400/13867
    loss    1.450482
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:16<39:41,  3.89it/s]

Epoch: 19, Iter: 4600/13867
    loss    1.40298
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:08<38:06,  3.97it/s]

Epoch: 19, Iter: 4800/13867
    loss    1.384515
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:57<36:42,  4.02it/s]

Epoch: 19, Iter: 5000/13867
    loss    1.434264
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:47<36:12,  3.99it/s]

Epoch: 19, Iter: 5200/13867
    loss    1.383196
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:37<36:00,  3.92it/s]

Epoch: 19, Iter: 5400/13867
    loss    1.380725
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:29<34:20,  4.01it/s]

Epoch: 19, Iter: 5600/13867
    loss    1.412137
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:19<34:16,  3.92it/s]

Epoch: 19, Iter: 5800/13867
    loss    1.407542
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:08<33:23,  3.93it/s]

Epoch: 19, Iter: 6000/13867
    loss    1.386026
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:58<32:54,  3.88it/s]

Epoch: 19, Iter: 6200/13867
    loss    1.392858
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:50<30:58,  4.02it/s]

Epoch: 19, Iter: 6400/13867
    loss    1.401754
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:39<30:52,  3.92it/s]

Epoch: 19, Iter: 6600/13867
    loss    1.38103
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:29<29:44,  3.96it/s]

Epoch: 19, Iter: 6800/13867
    loss    1.450856
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:19<28:55,  3.96it/s]

Epoch: 19, Iter: 7000/13867
    loss    1.463662
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:11<28:01,  3.96it/s]

Epoch: 19, Iter: 7200/13867
    loss    1.417572
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:01<27:13,  3.96it/s]

Epoch: 19, Iter: 7400/13867
    loss    1.384987
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:52<26:56,  3.88it/s]

Epoch: 19, Iter: 7600/13867
    loss    1.421362
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:43<28:35,  3.54it/s]

Epoch: 19, Iter: 7800/13867
    loss    1.42232
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:33<24:29,  3.99it/s]

Epoch: 19, Iter: 8000/13867
    loss    1.441212
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:23<24:16,  3.89it/s]

Epoch: 19, Iter: 8200/13867
    loss    1.428921
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:13<23:06,  3.94it/s]

Epoch: 19, Iter: 8400/13867
    loss    1.44316
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:05<22:47,  3.85it/s]

Epoch: 19, Iter: 8600/13867
    loss    1.432642
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:55<21:31,  3.92it/s]

Epoch: 19, Iter: 8800/13867
    loss    1.462813
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:44<20:39,  3.93it/s]

Epoch: 19, Iter: 9000/13867
    loss    1.468412
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:34<19:54,  3.91it/s]

Epoch: 19, Iter: 9200/13867
    loss    1.416529
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:26<18:34,  4.01it/s]

Epoch: 19, Iter: 9400/13867
    loss    1.454187
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:16<18:06,  3.93it/s]

Epoch: 19, Iter: 9600/13867
    loss    1.47347
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:06<16:50,  4.02it/s]

Epoch: 19, Iter: 9800/13867
    loss    1.457675
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:56<16:24,  3.93it/s]

Epoch: 19, Iter: 10000/13867
    loss    1.435157
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:47<15:28,  3.95it/s]

Epoch: 19, Iter: 10200/13867
    loss    1.439267
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:37<14:34,  3.97it/s]

Epoch: 19, Iter: 10400/13867
    loss    1.445064
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:27<13:38,  3.99it/s]

Epoch: 19, Iter: 10600/13867
    loss    1.468098
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:17<12:43,  4.01it/s]

Epoch: 19, Iter: 10800/13867
    loss    1.46002
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:09<12:21,  3.86it/s]

Epoch: 19, Iter: 11000/13867
    loss    1.418961
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:59<11:15,  3.94it/s]

Epoch: 19, Iter: 11200/13867
    loss    1.434968
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:48<10:17,  3.99it/s]

Epoch: 19, Iter: 11400/13867
    loss    1.44734
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:38<09:31,  3.96it/s]

Epoch: 19, Iter: 11600/13867
    loss    1.424106
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:30<08:47,  3.92it/s]

Epoch: 19, Iter: 11800/13867
    loss    1.430758
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:20<07:43,  4.02it/s]

Epoch: 19, Iter: 12000/13867
    loss    1.441467
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:10<06:54,  4.02it/s]

Epoch: 19, Iter: 12200/13867
    loss    1.423035
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:59<06:20,  3.85it/s]

Epoch: 19, Iter: 12400/13867
    loss    1.412675
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:51<05:24,  3.90it/s]

Epoch: 19, Iter: 12600/13867
    loss    1.441816
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:41<04:28,  3.97it/s]

Epoch: 19, Iter: 12800/13867
    loss    1.443359
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:31<03:42,  3.89it/s]

Epoch: 19, Iter: 13000/13867
    loss    1.407764
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:23<02:50,  3.91it/s]

Epoch: 19, Iter: 13200/13867
    loss    1.443218
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:13<01:57,  3.97it/s]

Epoch: 19, Iter: 13400/13867
    loss    1.475872
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:03<01:07,  3.93it/s]

Epoch: 19, Iter: 13600/13867
    loss    1.43016
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:52<00:16,  3.95it/s]

Epoch: 19, Iter: 13800/13867
    loss    1.447056
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:09<00:00,  3.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:29<00:00,  9.08it/s]



Epoch 19: Train 89.05
Epoch 19: Valid 65.29
Epoch 19: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<58:10,  3.92it/s]

Epoch: 20, Iter: 200/13867
    loss    1.302308
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<56:51,  3.95it/s]

Epoch: 20, Iter: 400/13867
    loss    1.303253
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:31<56:14,  3.93it/s]

Epoch: 20, Iter: 600/13867
    loss    1.340581
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:21<55:03,  3.96it/s]

Epoch: 20, Iter: 800/13867
    loss    1.319658
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:11<54:59,  3.90it/s]

Epoch: 20, Iter: 1000/13867
    loss    1.329698
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:03<52:53,  3.99it/s]

Epoch: 20, Iter: 1200/13867
    loss    1.34346
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:53<52:09,  3.98it/s]

Epoch: 20, Iter: 1400/13867
    loss    1.345788
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<52:18,  3.91it/s]

Epoch: 20, Iter: 1600/13867
    loss    1.368573
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|█████████▋                                                                 | 1801/13867 [07:34<1:13:17,  2.74it/s]

Epoch: 20, Iter: 1800/13867
    loss    1.332793
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:24<49:24,  4.00it/s]

Epoch: 20, Iter: 2000/13867
    loss    1.300594
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:14<49:33,  3.92it/s]

Epoch: 20, Iter: 2200/13867
    loss    1.340364
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:04<48:01,  3.98it/s]

Epoch: 20, Iter: 2400/13867
    loss    1.307789
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:56<47:36,  3.94it/s]

Epoch: 20, Iter: 2600/13867
    loss    1.329594
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:45<45:42,  4.04it/s]

Epoch: 20, Iter: 2800/13867
    loss    1.366106
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:35<45:27,  3.98it/s]

Epoch: 20, Iter: 3000/13867
    loss    1.33405
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:25<44:34,  3.99it/s]

Epoch: 20, Iter: 3200/13867
    loss    1.35353
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:17<43:58,  3.97it/s]

Epoch: 20, Iter: 3400/13867
    loss    1.329803
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:07<42:47,  4.00it/s]

Epoch: 20, Iter: 3600/13867
    loss    1.342535
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:56<42:34,  3.94it/s]

Epoch: 20, Iter: 3800/13867
    loss    1.340238
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:46<41:48,  3.93it/s]

Epoch: 20, Iter: 4000/13867
    loss    1.338232
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:38<40:49,  3.95it/s]

Epoch: 20, Iter: 4200/13867
    loss    1.368417
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:28<39:44,  3.97it/s]

Epoch: 20, Iter: 4400/13867
    loss    1.341683
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:18<39:36,  3.90it/s]

Epoch: 20, Iter: 4600/13867
    loss    1.350841
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:08<38:31,  3.92it/s]

Epoch: 20, Iter: 4800/13867
    loss    1.396839
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:00<37:08,  3.98it/s]

Epoch: 20, Iter: 5000/13867
    loss    1.305163
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:49<36:40,  3.94it/s]

Epoch: 20, Iter: 5200/13867
    loss    1.389698
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:39<36:06,  3.91it/s]

Epoch: 20, Iter: 5400/13867
    loss    1.347233
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:29<34:37,  3.98it/s]

Epoch: 20, Iter: 5600/13867
    loss    1.380903
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:21<33:27,  4.02it/s]

Epoch: 20, Iter: 5800/13867
    loss    1.315943
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:11<33:18,  3.94it/s]

Epoch: 20, Iter: 6000/13867
    loss    1.382398
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:00<32:22,  3.95it/s]

Epoch: 20, Iter: 6200/13867
    loss    1.37271
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:50<31:48,  3.91it/s]

Epoch: 20, Iter: 6400/13867
    loss    1.334845
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:42<31:04,  3.90it/s]

Epoch: 20, Iter: 6600/13867
    loss    1.348147
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:32<30:05,  3.91it/s]

Epoch: 20, Iter: 6800/13867
    loss    1.381354
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:22<29:20,  3.90it/s]

Epoch: 20, Iter: 7000/13867
    loss    1.351704
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:12<28:44,  3.87it/s]

Epoch: 20, Iter: 7200/13867
    loss    1.366928
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:05<27:27,  3.93it/s]

Epoch: 20, Iter: 7400/13867
    loss    1.343189
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:55<26:18,  3.97it/s]

Epoch: 20, Iter: 7600/13867
    loss    1.392507
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:45<25:24,  3.98it/s]

Epoch: 20, Iter: 7800/13867
    loss    1.349566
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:35<24:22,  4.01it/s]

Epoch: 20, Iter: 8000/13867
    loss    1.391235
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:27<23:56,  3.94it/s]

Epoch: 20, Iter: 8200/13867
    loss    1.387037
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:16<23:28,  3.88it/s]

Epoch: 20, Iter: 8400/13867
    loss    1.345062
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:07<22:09,  3.96it/s]

Epoch: 20, Iter: 8600/13867
    loss    1.381097
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:56<21:21,  3.95it/s]

Epoch: 20, Iter: 8800/13867
    loss    1.376605
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:48<20:15,  4.00it/s]

Epoch: 20, Iter: 9000/13867
    loss    1.38787
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:38<19:55,  3.90it/s]

Epoch: 20, Iter: 9200/13867
    loss    1.388084
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:28<19:05,  3.90it/s]

Epoch: 20, Iter: 9400/13867
    loss    1.414936
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:18<18:18,  3.88it/s]

Epoch: 20, Iter: 9600/13867
    loss    1.394595
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:10<16:55,  4.00it/s]

Epoch: 20, Iter: 9800/13867
    loss    1.374727
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:00<16:27,  3.91it/s]

Epoch: 20, Iter: 10000/13867
    loss    1.361247
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:50<15:28,  3.95it/s]

Epoch: 20, Iter: 10200/13867
    loss    1.421846
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:39<14:46,  3.91it/s]

Epoch: 20, Iter: 10400/13867
    loss    1.387341
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:32<14:14,  3.82it/s]

Epoch: 20, Iter: 10600/13867
    loss    1.395311
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:22<13:00,  3.93it/s]

Epoch: 20, Iter: 10800/13867
    loss    1.387526
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:12<12:06,  3.95it/s]

Epoch: 20, Iter: 11000/13867
    loss    1.378467
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:02<11:04,  4.01it/s]

Epoch: 20, Iter: 11200/13867
    loss    1.42873
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:54<10:35,  3.88it/s]

Epoch: 20, Iter: 11400/13867
    loss    1.374067
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:45<09:44,  3.87it/s]

Epoch: 20, Iter: 11600/13867
    loss    1.380073
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:35<09:04,  3.79it/s]

Epoch: 20, Iter: 11800/13867
    loss    1.39984
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:28<07:56,  3.92it/s]

Epoch: 20, Iter: 12000/13867
    loss    1.386721
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:19<07:03,  3.93it/s]

Epoch: 20, Iter: 12200/13867
    loss    1.386459
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:08<06:10,  3.96it/s]

Epoch: 20, Iter: 12400/13867
    loss    1.389129
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:57<05:12,  4.06it/s]

Epoch: 20, Iter: 12600/13867
    loss    1.363379
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:46<04:25,  4.01it/s]

Epoch: 20, Iter: 12800/13867
    loss    1.384928
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:37<03:31,  4.09it/s]

Epoch: 20, Iter: 13000/13867
    loss    1.378455
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:26<02:44,  4.05it/s]

Epoch: 20, Iter: 13200/13867
    loss    1.408156
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:16<01:58,  3.94it/s]

Epoch: 20, Iter: 13400/13867
    loss    1.358182
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:06<01:08,  3.87it/s]

Epoch: 20, Iter: 13600/13867
    loss    1.387595
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:00<00:17,  3.78it/s]

Epoch: 20, Iter: 13800/13867
    loss    1.418484
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:17<00:00,  3.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:29<00:00,  9.13it/s]



Epoch 20: Train 89.52
Epoch 20: Valid 65.16
Epoch 20: Best 65.31
snap/vqa_multilingual


  1%|█                                                                           | 201/13867 [00:54<1:01:30,  3.70it/s]

Epoch: 21, Iter: 200/13867
    loss    1.273887
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:45<58:48,  3.82it/s]

Epoch: 21, Iter: 400/13867
    loss    1.288052
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:36<58:35,  3.77it/s]

Epoch: 21, Iter: 600/13867
    loss    1.253944
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:28<56:07,  3.88it/s]

Epoch: 21, Iter: 800/13867
    loss    1.317234
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:22<57:00,  3.76it/s]

Epoch: 21, Iter: 1000/13867
    loss    1.271897
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:13<56:18,  3.75it/s]

Epoch: 21, Iter: 1200/13867
    loss    1.274907
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:05<55:08,  3.77it/s]

Epoch: 21, Iter: 1400/13867
    loss    1.333108
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:56<54:21,  3.76it/s]

Epoch: 21, Iter: 1600/13867
    loss    1.299581
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:50<52:13,  3.85it/s]

Epoch: 21, Iter: 1800/13867
    loss    1.264571
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:42<51:11,  3.86it/s]

Epoch: 21, Iter: 2000/13867
    loss    1.286427
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:33<50:12,  3.87it/s]

Epoch: 21, Iter: 2200/13867
    loss    1.285119
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:25<50:57,  3.75it/s]

Epoch: 21, Iter: 2400/13867
    loss    1.294049
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:19<50:11,  3.74it/s]

Epoch: 21, Iter: 2600/13867
    loss    1.284502
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [12:10<48:29,  3.80it/s]

Epoch: 21, Iter: 2800/13867
    loss    1.298243
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [13:02<47:26,  3.82it/s]

Epoch: 21, Iter: 3000/13867
    loss    1.279415
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:54<47:06,  3.77it/s]

Epoch: 21, Iter: 3200/13867
    loss    1.293613
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:47<46:44,  3.73it/s]

Epoch: 21, Iter: 3400/13867
    loss    1.30669
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:39<44:22,  3.86it/s]

Epoch: 21, Iter: 3600/13867
    loss    1.295907
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:30<44:05,  3.80it/s]

Epoch: 21, Iter: 3800/13867
    loss    1.310174
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:22<43:19,  3.79it/s]

Epoch: 21, Iter: 4000/13867
    loss    1.298781
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [18:16<42:13,  3.82it/s]

Epoch: 21, Iter: 4200/13867
    loss    1.258502
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [19:07<41:42,  3.78it/s]

Epoch: 21, Iter: 4400/13867
    loss    1.3248
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:59<38:37,  4.00it/s]

Epoch: 21, Iter: 4600/13867
    loss    1.290386
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:49<38:05,  3.97it/s]

Epoch: 21, Iter: 4800/13867
    loss    1.271588
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:42<37:59,  3.89it/s]

Epoch: 21, Iter: 5000/13867
    loss    1.316728
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:33<38:01,  3.80it/s]

Epoch: 21, Iter: 5200/13867
    loss    1.285567
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [23:25<36:59,  3.81it/s]

Epoch: 21, Iter: 5400/13867
    loss    1.303853
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [24:16<36:12,  3.80it/s]

Epoch: 21, Iter: 5600/13867
    loss    1.30708
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [25:10<51:17,  2.62it/s]

Epoch: 21, Iter: 5800/13867
    loss    1.292842
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [26:02<34:23,  3.81it/s]

Epoch: 21, Iter: 6000/13867
    loss    1.299134
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:53<33:26,  3.82it/s]

Epoch: 21, Iter: 6200/13867
    loss    1.327223
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:45<32:22,  3.84it/s]

Epoch: 21, Iter: 6400/13867
    loss    1.316289
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [28:36<31:51,  3.80it/s]

Epoch: 21, Iter: 6600/13867
    loss    1.305163
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [29:30<30:37,  3.85it/s]

Epoch: 21, Iter: 6800/13867
    loss    1.292198
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [30:22<29:50,  3.84it/s]

Epoch: 21, Iter: 7000/13867
    loss    1.334052
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [31:13<28:49,  3.86it/s]

Epoch: 21, Iter: 7200/13867
    loss    1.348709
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [32:04<28:22,  3.80it/s]

Epoch: 21, Iter: 7400/13867
    loss    1.304126
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:59<27:44,  3.77it/s]

Epoch: 21, Iter: 7600/13867
    loss    1.345277
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [33:51<26:07,  3.87it/s]

Epoch: 21, Iter: 7800/13867
    loss    1.342952
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [34:42<25:35,  3.82it/s]

Epoch: 21, Iter: 8000/13867
    loss    1.295382
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [35:34<25:21,  3.72it/s]

Epoch: 21, Iter: 8200/13867
    loss    1.335254
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [36:28<23:30,  3.88it/s]

Epoch: 21, Iter: 8400/13867
    loss    1.281756
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [37:19<23:21,  3.76it/s]

Epoch: 21, Iter: 8600/13867
    loss    1.343351
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [38:11<22:21,  3.78it/s]

Epoch: 21, Iter: 8800/13867
    loss    1.320576
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [39:02<20:18,  3.99it/s]

Epoch: 21, Iter: 9000/13867
    loss    1.315932
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [39:54<19:14,  4.04it/s]

Epoch: 21, Iter: 9200/13867
    loss    1.315516
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [40:44<18:17,  4.07it/s]

Epoch: 21, Iter: 9400/13867
    loss    1.324081
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [41:34<17:53,  3.98it/s]

Epoch: 21, Iter: 9600/13867
    loss    1.364226
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [42:23<16:58,  3.99it/s]

Epoch: 21, Iter: 9800/13867
    loss    1.347528
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [43:14<15:58,  4.03it/s]

Epoch: 21, Iter: 10000/13867
    loss    1.340871
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [44:03<15:40,  3.90it/s]

Epoch: 21, Iter: 10200/13867
    loss    1.343089
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:52<14:25,  4.00it/s]

Epoch: 21, Iter: 10400/13867
    loss    1.33811
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [45:42<13:29,  4.04it/s]

Epoch: 21, Iter: 10600/13867
    loss    1.336294
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [46:34<13:06,  3.90it/s]

Epoch: 21, Iter: 10800/13867
    loss    1.338127
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [47:23<11:56,  4.00it/s]

Epoch: 21, Iter: 11000/13867
    loss    1.356792
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [48:12<11:21,  3.91it/s]

Epoch: 21, Iter: 11200/13867
    loss    1.351712
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [49:00<10:01,  4.10it/s]

Epoch: 21, Iter: 11400/13867
    loss    1.305023
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:49<09:17,  4.06it/s]

Epoch: 21, Iter: 11600/13867
    loss    1.314252
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:40<08:33,  4.02it/s]

Epoch: 21, Iter: 11800/13867
    loss    1.346203
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [51:29<07:46,  4.00it/s]

Epoch: 21, Iter: 12000/13867
    loss    1.343917
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [52:19<06:52,  4.04it/s]

Epoch: 21, Iter: 12200/13867
    loss    1.37405
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [53:08<06:04,  4.03it/s]

Epoch: 21, Iter: 12400/13867
    loss    1.32018
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:59<05:14,  4.02it/s]

Epoch: 21, Iter: 12600/13867
    loss    1.313135
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:48<04:23,  4.04it/s]

Epoch: 21, Iter: 12800/13867
    loss    1.353852
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:37<03:37,  3.98it/s]

Epoch: 21, Iter: 13000/13867
    loss    1.302864
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:27<02:47,  3.97it/s]

Epoch: 21, Iter: 13200/13867
    loss    1.34075
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [57:18<01:54,  4.07it/s]

Epoch: 21, Iter: 13400/13867
    loss    1.369388
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [58:07<01:05,  4.05it/s]

Epoch: 21, Iter: 13600/13867
    loss    1.355832
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:56<00:15,  4.14it/s]

Epoch: 21, Iter: 13800/13867
    loss    1.332441
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [59:12<00:00,  3.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.28it/s]



Epoch 21: Train 89.86
Epoch 21: Valid 65.13
Epoch 21: Best 65.31
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:48<55:52,  4.08it/s]

Epoch: 22, Iter: 200/13867
    loss    1.226669
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:37<57:08,  3.93it/s]

Epoch: 22, Iter: 400/13867
    loss    1.230119
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▎                                                                        | 601/13867 [02:29<1:15:35,  2.92it/s]

Epoch: 22, Iter: 600/13867
    loss    1.238027
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:19<54:56,  3.96it/s]

Epoch: 22, Iter: 800/13867
    loss    1.288726
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:08<52:45,  4.06it/s]

Epoch: 22, Iter: 1000/13867
    loss    1.28263
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [04:57<53:26,  3.95it/s]

Epoch: 22, Iter: 1200/13867
    loss    1.244233
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:48<51:53,  4.00it/s]

Epoch: 22, Iter: 1400/13867
    loss    1.212599
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:37<52:12,  3.92it/s]

Epoch: 22, Iter: 1600/13867
    loss    1.246097
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:27<51:07,  3.93it/s]

Epoch: 22, Iter: 1800/13867
    loss    1.224825
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:16<49:26,  4.00it/s]

Epoch: 22, Iter: 2000/13867
    loss    1.235159
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:07<48:06,  4.04it/s]

Epoch: 22, Iter: 2200/13867
    loss    1.269055
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [09:57<47:52,  3.99it/s]

Epoch: 22, Iter: 2400/13867
    loss    1.247287
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:47<47:02,  3.99it/s]

Epoch: 22, Iter: 2600/13867
    loss    1.268551
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:35<47:12,  3.91it/s]

Epoch: 22, Iter: 2800/13867
    loss    1.259973
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:24<44:38,  4.06it/s]

Epoch: 22, Iter: 3000/13867
    loss    1.249333
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:16<44:21,  4.01it/s]

Epoch: 22, Iter: 3200/13867
    loss    1.253852
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:05<43:01,  4.05it/s]

Epoch: 22, Iter: 3400/13867
    loss    1.262722
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [14:54<41:34,  4.12it/s]

Epoch: 22, Iter: 3600/13867
    loss    1.277171
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:44<41:27,  4.05it/s]

Epoch: 22, Iter: 3800/13867
    loss    1.279151
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:35<40:39,  4.04it/s]

Epoch: 22, Iter: 4000/13867
    loss    1.239755
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:26<42:49,  3.76it/s]

Epoch: 22, Iter: 4200/13867
    loss    1.252795
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:18<41:22,  3.81it/s]

Epoch: 22, Iter: 4400/13867
    loss    1.293497
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:09<41:05,  3.76it/s]

Epoch: 22, Iter: 4600/13867
    loss    1.23111
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:03<39:36,  3.82it/s]

Epoch: 22, Iter: 4800/13867
    loss    1.253783
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:54<38:03,  3.88it/s]

Epoch: 22, Iter: 5000/13867
    loss    1.253938
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:45<38:44,  3.73it/s]

Epoch: 22, Iter: 5200/13867
    loss    1.278789
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:36<36:56,  3.82it/s]

Epoch: 22, Iter: 5400/13867
    loss    1.262396
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:27<36:35,  3.77it/s]

Epoch: 22, Iter: 5600/13867
    loss    1.268282
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:21<35:20,  3.80it/s]

Epoch: 22, Iter: 5800/13867
    loss    1.259656
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:12<33:34,  3.91it/s]

Epoch: 22, Iter: 6000/13867
    loss    1.250644
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:03<32:47,  3.90it/s]

Epoch: 22, Iter: 6200/13867
    loss    1.240476
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:54<32:28,  3.83it/s]

Epoch: 22, Iter: 6400/13867
    loss    1.247491
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:48<31:37,  3.83it/s]

Epoch: 22, Iter: 6600/13867
    loss    1.229742
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:39<31:08,  3.78it/s]

Epoch: 22, Iter: 6800/13867
    loss    1.280512
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:31<29:22,  3.89it/s]

Epoch: 22, Iter: 7000/13867
    loss    1.273063
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:22<28:53,  3.85it/s]

Epoch: 22, Iter: 7200/13867
    loss    1.291294
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:15<27:32,  3.91it/s]

Epoch: 22, Iter: 7400/13867
    loss    1.2804
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:06<27:23,  3.81it/s]

Epoch: 22, Iter: 7600/13867
    loss    1.227285
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:57<26:23,  3.83it/s]

Epoch: 22, Iter: 7800/13867
    loss    1.269433
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:48<25:25,  3.85it/s]

Epoch: 22, Iter: 8000/13867
    loss    1.257884
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:39<24:43,  3.82it/s]

Epoch: 22, Iter: 8200/13867
    loss    1.270153
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:33<23:21,  3.90it/s]

Epoch: 22, Iter: 8400/13867
    loss    1.241014
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:24<22:30,  3.90it/s]

Epoch: 22, Iter: 8600/13867
    loss    1.272892
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:15<22:08,  3.81it/s]

Epoch: 22, Iter: 8800/13867
    loss    1.268895
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:07<21:21,  3.80it/s]

Epoch: 22, Iter: 9000/13867
    loss    1.255923
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [39:01<20:51,  3.73it/s]

Epoch: 22, Iter: 9200/13867
    loss    1.283795
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:52<19:17,  3.86it/s]

Epoch: 22, Iter: 9400/13867
    loss    1.285439
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:43<18:50,  3.77it/s]

Epoch: 22, Iter: 9600/13867
    loss    1.282173
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:34<17:08,  3.96it/s]

Epoch: 22, Iter: 9800/13867
    loss    1.276412
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:27<16:36,  3.88it/s]

Epoch: 22, Iter: 10000/13867
    loss    1.269193
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:18<16:02,  3.81it/s]

Epoch: 22, Iter: 10200/13867
    loss    1.296913
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:09<15:16,  3.78it/s]

Epoch: 22, Iter: 10400/13867
    loss    1.2576
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [45:01<13:49,  3.94it/s]

Epoch: 22, Iter: 10600/13867
    loss    1.280537
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:52<13:37,  3.75it/s]

Epoch: 22, Iter: 10800/13867
    loss    1.294203
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:45<12:22,  3.86it/s]

Epoch: 22, Iter: 11000/13867
    loss    1.278857
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:36<11:36,  3.83it/s]

Epoch: 22, Iter: 11200/13867
    loss    1.323454
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:28<10:33,  3.90it/s]

Epoch: 22, Iter: 11400/13867
    loss    1.283082
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:19<09:52,  3.82it/s]

Epoch: 22, Iter: 11600/13867
    loss    1.278422
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:13<08:52,  3.88it/s]

Epoch: 22, Iter: 11800/13867
    loss    1.258554
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [51:04<08:11,  3.80it/s]

Epoch: 22, Iter: 12000/13867
    loss    1.314654
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:55<07:12,  3.85it/s]

Epoch: 22, Iter: 12200/13867
    loss    1.283677
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:46<06:23,  3.82it/s]

Epoch: 22, Iter: 12400/13867
    loss    1.280148
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:40<05:25,  3.89it/s]

Epoch: 22, Iter: 12600/13867
    loss    1.291598
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:32<04:42,  3.77it/s]

Epoch: 22, Iter: 12800/13867
    loss    1.317595
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:26<03:56,  3.65it/s]

Epoch: 22, Iter: 13000/13867
    loss    1.302726
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:17<02:54,  3.82it/s]

Epoch: 22, Iter: 13200/13867
    loss    1.294749
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [57:09<02:03,  3.77it/s]

Epoch: 22, Iter: 13400/13867
    loss    1.280492
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [58:03<01:10,  3.78it/s]

Epoch: 22, Iter: 13600/13867
    loss    1.309655
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:55<00:18,  3.57it/s]

Epoch: 22, Iter: 13800/13867
    loss    1.304967
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [59:12<00:00,  3.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:30<00:00,  8.99it/s]



Epoch 22: Train 90.16
Epoch 22: Valid 65.29
Epoch 22: Best 65.31
snap/vqa_multilingual


  1%|█                                                                           | 201/13867 [00:51<1:00:05,  3.79it/s]

Epoch: 23, Iter: 200/13867
    loss    1.200164
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▏                                                                         | 401/13867 [01:44<1:01:45,  3.63it/s]

Epoch: 23, Iter: 400/13867
    loss    1.182729
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:35<58:21,  3.79it/s]

Epoch: 23, Iter: 600/13867
    loss    1.200619
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:29<57:33,  3.78it/s]

Epoch: 23, Iter: 800/13867
    loss    1.186542
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:20<55:57,  3.83it/s]

Epoch: 23, Iter: 1000/13867
    loss    1.227535
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:11<55:29,  3.80it/s]

Epoch: 23, Iter: 1200/13867
    loss    1.179456
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:02<53:28,  3.89it/s]

Epoch: 23, Iter: 1400/13867
    loss    1.204443
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:55<54:47,  3.73it/s]

Epoch: 23, Iter: 1600/13867
    loss    1.209283
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:46<51:36,  3.90it/s]

Epoch: 23, Iter: 1800/13867
    loss    1.20437
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:36<49:18,  4.01it/s]

Epoch: 23, Iter: 2000/13867
    loss    1.2082
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:26<49:07,  3.96it/s]

Epoch: 23, Iter: 2200/13867
    loss    1.226277
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:16<50:01,  3.82it/s]

Epoch: 23, Iter: 2400/13867
    loss    1.209618
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:08<45:57,  4.09it/s]

Epoch: 23, Iter: 2600/13867
    loss    1.216359
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:57<45:52,  4.02it/s]

Epoch: 23, Iter: 2800/13867
    loss    1.22295
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:46<45:51,  3.95it/s]

Epoch: 23, Iter: 3000/13867
    loss    1.213183
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:37<45:42,  3.89it/s]

Epoch: 23, Iter: 3200/13867
    loss    1.219943
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:29<42:50,  4.07it/s]

Epoch: 23, Iter: 3400/13867
    loss    1.227675
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:20<44:08,  3.88it/s]

Epoch: 23, Iter: 3600/13867
    loss    1.226857
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:10<44:03,  3.81it/s]

Epoch: 23, Iter: 3800/13867
    loss    1.225639
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:01<43:05,  3.82it/s]

Epoch: 23, Iter: 4000/13867
    loss    1.235334
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:52<41:02,  3.93it/s]

Epoch: 23, Iter: 4200/13867
    loss    1.204368
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:44<39:36,  3.98it/s]

Epoch: 23, Iter: 4400/13867
    loss    1.226598
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:35<39:47,  3.88it/s]

Epoch: 23, Iter: 4600/13867
    loss    1.22654
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:25<37:46,  4.00it/s]

Epoch: 23, Iter: 4800/13867
    loss    1.224916
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:15<37:13,  3.97it/s]

Epoch: 23, Iter: 5000/13867
    loss    1.22932
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:08<36:17,  3.98it/s]

Epoch: 23, Iter: 5200/13867
    loss    1.205613
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:58<36:09,  3.90it/s]

Epoch: 23, Iter: 5400/13867
    loss    1.217826
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:48<35:37,  3.87it/s]

Epoch: 23, Iter: 5600/13867
    loss    1.205131
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:39<36:18,  3.70it/s]

Epoch: 23, Iter: 5800/13867
    loss    1.257354
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:29<32:21,  4.05it/s]

Epoch: 23, Iter: 6000/13867
    loss    1.219722
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:22<32:27,  3.94it/s]

Epoch: 23, Iter: 6200/13867
    loss    1.214461
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:11<30:59,  4.02it/s]

Epoch: 23, Iter: 6400/13867
    loss    1.24686
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [28:01<30:19,  3.99it/s]

Epoch: 23, Iter: 6600/13867
    loss    1.2116
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:50<29:39,  3.97it/s]

Epoch: 23, Iter: 6800/13867
    loss    1.251958
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:41<28:23,  4.03it/s]

Epoch: 23, Iter: 7000/13867
    loss    1.230342
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:30<28:28,  3.90it/s]

Epoch: 23, Iter: 7200/13867
    loss    1.2523
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:19<27:27,  3.92it/s]

Epoch: 23, Iter: 7400/13867
    loss    1.214973
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:08<25:47,  4.05it/s]

Epoch: 23, Iter: 7600/13867
    loss    1.217334
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:58<25:19,  3.99it/s]

Epoch: 23, Iter: 7800/13867
    loss    1.228527
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:51<24:13,  4.04it/s]

Epoch: 23, Iter: 8000/13867
    loss    1.209559
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:40<23:45,  3.98it/s]

Epoch: 23, Iter: 8200/13867
    loss    1.257904
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:30<23:04,  3.95it/s]

Epoch: 23, Iter: 8400/13867
    loss    1.216404
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:20<22:25,  3.92it/s]

Epoch: 23, Iter: 8600/13867
    loss    1.219308
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:12<21:09,  3.99it/s]

Epoch: 23, Iter: 8800/13867
    loss    1.253685
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:02<20:21,  3.99it/s]

Epoch: 23, Iter: 9000/13867
    loss    1.234283
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:51<19:15,  4.04it/s]

Epoch: 23, Iter: 9200/13867
    loss    1.269591
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:40<18:56,  3.93it/s]

Epoch: 23, Iter: 9400/13867
    loss    1.22761
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:31<17:51,  3.98it/s]

Epoch: 23, Iter: 9600/13867
    loss    1.223269
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:22<16:45,  4.04it/s]

Epoch: 23, Iter: 9800/13867
    loss    1.216772
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:11<15:52,  4.06it/s]

Epoch: 23, Iter: 10000/13867
    loss    1.240886
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:01<15:23,  3.97it/s]

Epoch: 23, Iter: 10200/13867
    loss    1.224658
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:50<14:21,  4.02it/s]

Epoch: 23, Iter: 10400/13867
    loss    1.207374
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:42<13:27,  4.05it/s]

Epoch: 23, Iter: 10600/13867
    loss    1.191195
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:31<12:43,  4.01it/s]

Epoch: 23, Iter: 10800/13867
    loss    1.257089
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:20<11:53,  4.02it/s]

Epoch: 23, Iter: 11000/13867
    loss    1.234015
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:10<11:26,  3.89it/s]

Epoch: 23, Iter: 11200/13867
    loss    1.232632
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:00<10:37,  3.87it/s]

Epoch: 23, Iter: 11400/13867
    loss    1.236773
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:52<09:27,  3.99it/s]

Epoch: 23, Iter: 11600/13867
    loss    1.235705
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:42<08:28,  4.06it/s]

Epoch: 23, Iter: 11800/13867
    loss    1.243804
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:31<07:52,  3.95it/s]

Epoch: 23, Iter: 12000/13867
    loss    1.233607
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:20<06:57,  3.99it/s]

Epoch: 23, Iter: 12200/13867
    loss    1.242813
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:12<06:03,  4.03it/s]

Epoch: 23, Iter: 12400/13867
    loss    1.285608
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:01<05:15,  4.01it/s]

Epoch: 23, Iter: 12600/13867
    loss    1.253025
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:50<04:25,  4.01it/s]

Epoch: 23, Iter: 12800/13867
    loss    1.249723
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:40<03:35,  4.03it/s]

Epoch: 23, Iter: 13000/13867
    loss    1.223286
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:30<02:45,  4.02it/s]

Epoch: 23, Iter: 13200/13867
    loss    1.232595
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:21<01:55,  4.04it/s]

Epoch: 23, Iter: 13400/13867
    loss    1.241366
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:10<01:07,  3.94it/s]

Epoch: 23, Iter: 13600/13867
    loss    1.26256
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:59<00:16,  4.04it/s]

Epoch: 23, Iter: 13800/13867
    loss    1.232187
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:16<00:00,  3.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.16it/s]



Epoch 23: Train 90.42
Epoch 23: Valid 65.48
Epoch 23: Best 65.48
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:52,  4.00it/s]

Epoch: 24, Iter: 200/13867
    loss    1.142057
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:38<55:55,  4.01it/s]

Epoch: 24, Iter: 400/13867
    loss    1.166733
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:40,  3.97it/s]

Epoch: 24, Iter: 600/13867
    loss    1.219495
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:19<55:18,  3.94it/s]

Epoch: 24, Iter: 800/13867
    loss    1.198061
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:08<54:42,  3.92it/s]

Epoch: 24, Iter: 1000/13867
    loss    1.167707
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [04:57<52:41,  4.01it/s]

Epoch: 24, Iter: 1200/13867
    loss    1.178153
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:47<51:40,  4.02it/s]

Epoch: 24, Iter: 1400/13867
    loss    1.187035
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:38<51:04,  4.00it/s]

Epoch: 24, Iter: 1600/13867
    loss    1.173535
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:28<49:32,  4.06it/s]

Epoch: 24, Iter: 1800/13867
    loss    1.158997
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:17<49:25,  4.00it/s]

Epoch: 24, Iter: 2000/13867
    loss    1.162072
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:06<48:18,  4.03it/s]

Epoch: 24, Iter: 2200/13867
    loss    1.17275
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [09:55<47:19,  4.04it/s]

Epoch: 24, Iter: 2400/13867
    loss    1.175419
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:47<46:44,  4.02it/s]

Epoch: 24, Iter: 2600/13867
    loss    1.189181
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:36<45:33,  4.05it/s]

Epoch: 24, Iter: 2800/13867
    loss    1.172204
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:26<45:23,  3.99it/s]

Epoch: 24, Iter: 3000/13867
    loss    1.183079
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:15<44:32,  3.99it/s]

Epoch: 24, Iter: 3200/13867
    loss    1.147851
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:08<45:39,  3.82it/s]

Epoch: 24, Iter: 3400/13867
    loss    1.205564
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:00<45:06,  3.79it/s]

Epoch: 24, Iter: 3600/13867
    loss    1.174906
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:51<43:59,  3.81it/s]

Epoch: 24, Iter: 3800/13867
    loss    1.173102
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:42<42:27,  3.87it/s]

Epoch: 24, Iter: 4000/13867
    loss    1.174717
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:33<41:52,  3.85it/s]

Epoch: 24, Iter: 4200/13867
    loss    1.171158
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:27<41:26,  3.81it/s]

Epoch: 24, Iter: 4400/13867
    loss    1.187603
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:18<40:30,  3.81it/s]

Epoch: 24, Iter: 4600/13867
    loss    1.163194
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:10<39:24,  3.83it/s]

Epoch: 24, Iter: 4800/13867
    loss    1.170219
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:01<38:46,  3.81it/s]

Epoch: 24, Iter: 5000/13867
    loss    1.170987
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▏                                              | 5201/13867 [21:55<1:14:25,  1.94it/s]

Epoch: 24, Iter: 5200/13867
    loss    1.191681
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:46<36:57,  3.82it/s]

Epoch: 24, Iter: 5400/13867
    loss    1.193174
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:37<35:54,  3.84it/s]

Epoch: 24, Iter: 5600/13867
    loss    1.23379
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:28<35:11,  3.82it/s]

Epoch: 24, Iter: 5800/13867
    loss    1.204728
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:18<32:54,  3.98it/s]

Epoch: 24, Iter: 6000/13867
    loss    1.168617
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:09<31:23,  4.07it/s]

Epoch: 24, Iter: 6200/13867
    loss    1.179888
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:58<31:21,  3.97it/s]

Epoch: 24, Iter: 6400/13867
    loss    1.182271
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:47<30:23,  3.99it/s]

Epoch: 24, Iter: 6600/13867
    loss    1.182224
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:36<29:23,  4.01it/s]

Epoch: 24, Iter: 6800/13867
    loss    1.236639
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:27<29:19,  3.90it/s]

Epoch: 24, Iter: 7000/13867
    loss    1.174797
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:21<28:47,  3.86it/s]

Epoch: 24, Iter: 7200/13867
    loss    1.175535
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:12<28:06,  3.84it/s]

Epoch: 24, Iter: 7400/13867
    loss    1.210424
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:03<27:07,  3.85it/s]

Epoch: 24, Iter: 7600/13867
    loss    1.183779
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:54<25:59,  3.89it/s]

Epoch: 24, Iter: 7800/13867
    loss    1.207792
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:48<28:25,  3.44it/s]

Epoch: 24, Iter: 8000/13867
    loss    1.199829
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:39<25:08,  3.76it/s]

Epoch: 24, Iter: 8200/13867
    loss    1.167613
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:30<23:45,  3.84it/s]

Epoch: 24, Iter: 8400/13867
    loss    1.161165
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:21<22:44,  3.86it/s]

Epoch: 24, Iter: 8600/13867
    loss    1.211431
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:12<22:07,  3.82it/s]

Epoch: 24, Iter: 8800/13867
    loss    1.20836
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:06<20:20,  3.99it/s]

Epoch: 24, Iter: 9000/13867
    loss    1.184571
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:57<20:19,  3.83it/s]

Epoch: 24, Iter: 9200/13867
    loss    1.173278
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:47<19:02,  3.91it/s]

Epoch: 24, Iter: 9400/13867
    loss    1.210149
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:39<18:37,  3.82it/s]

Epoch: 24, Iter: 9600/13867
    loss    1.207124
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:29<17:19,  3.91it/s]

Epoch: 24, Iter: 9800/13867
    loss    1.184181
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:21<15:51,  4.06it/s]

Epoch: 24, Iter: 10000/13867
    loss    1.21094
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:10<15:25,  3.96it/s]

Epoch: 24, Iter: 10200/13867
    loss    1.192167
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:00<14:25,  4.00it/s]

Epoch: 24, Iter: 10400/13867
    loss    1.185809
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:50<14:03,  3.87it/s]

Epoch: 24, Iter: 10600/13867
    loss    1.19941
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:41<13:33,  3.77it/s]

Epoch: 24, Iter: 10800/13867
    loss    1.214022
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:34<13:27,  3.55it/s]

Epoch: 24, Iter: 11000/13867
    loss    1.196703
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:26<11:43,  3.79it/s]

Epoch: 24, Iter: 11200/13867
    loss    1.196287
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:17<10:42,  3.84it/s]

Epoch: 24, Iter: 11400/13867
    loss    1.187268
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:08<09:50,  3.84it/s]

Epoch: 24, Iter: 11600/13867
    loss    1.190776
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:01<08:50,  3.90it/s]

Epoch: 24, Iter: 11800/13867
    loss    1.217479
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:52<08:05,  3.84it/s]

Epoch: 24, Iter: 12000/13867
    loss    1.219781
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:43<07:20,  3.78it/s]

Epoch: 24, Iter: 12200/13867
    loss    1.215618
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:34<06:22,  3.84it/s]

Epoch: 24, Iter: 12400/13867
    loss    1.196936
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:26<05:33,  3.79it/s]

Epoch: 24, Iter: 12600/13867
    loss    1.197928
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:19<04:28,  3.97it/s]

Epoch: 24, Iter: 12800/13867
    loss    1.194217
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:10<03:49,  3.77it/s]

Epoch: 24, Iter: 13000/13867
    loss    1.192658
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:01<02:53,  3.84it/s]

Epoch: 24, Iter: 13200/13867
    loss    1.21946
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:52<02:04,  3.75it/s]

Epoch: 24, Iter: 13400/13867
    loss    1.219414
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:43<01:09,  3.81it/s]

Epoch: 24, Iter: 13600/13867
    loss    1.194851
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:37<00:17,  3.81it/s]

Epoch: 24, Iter: 13800/13867
    loss    1.18141
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:54<00:00,  3.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.33it/s]



Epoch 24: Train 90.65
Epoch 24: Valid 65.43
Epoch 24: Best 65.48
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:53<59:30,  3.83it/s]

Epoch: 25, Iter: 200/13867
    loss    1.142558
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:44<58:34,  3.83it/s]

Epoch: 25, Iter: 400/13867
    loss    1.141105
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:35<57:33,  3.84it/s]

Epoch: 25, Iter: 600/13867
    loss    1.139736
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:26<56:25,  3.86it/s]

Epoch: 25, Iter: 800/13867
    loss    1.105534
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:17<54:46,  3.91it/s]

Epoch: 25, Iter: 1000/13867
    loss    1.154177
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:11<53:29,  3.95it/s]

Epoch: 25, Iter: 1200/13867
    loss    1.119092
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:04<58:36,  3.54it/s]

Epoch: 25, Iter: 1400/13867
    loss    1.154844
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:55<52:44,  3.88it/s]

Epoch: 25, Iter: 1600/13867
    loss    1.146396
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:46<52:31,  3.83it/s]

Epoch: 25, Iter: 1800/13867
    loss    1.114063
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:40<51:28,  3.84it/s]

Epoch: 25, Iter: 2000/13867
    loss    1.160487
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:31<50:59,  3.81it/s]

Epoch: 25, Iter: 2200/13867
    loss    1.094571
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:24<49:24,  3.87it/s]

Epoch: 25, Iter: 2400/13867
    loss    1.15718
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:14<48:56,  3.84it/s]

Epoch: 25, Iter: 2600/13867
    loss    1.162258
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [12:05<49:15,  3.74it/s]

Epoch: 25, Iter: 2800/13867
    loss    1.154307
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:59<46:15,  3.92it/s]

Epoch: 25, Iter: 3000/13867
    loss    1.159478
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:50<45:53,  3.87it/s]

Epoch: 25, Iter: 3200/13867
    loss    1.128064
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:40<43:54,  3.97it/s]

Epoch: 25, Iter: 3400/13867
    loss    1.133143
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:31<45:04,  3.80it/s]

Epoch: 25, Iter: 3600/13867
    loss    1.160592
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:22<46:15,  3.63it/s]

Epoch: 25, Iter: 3800/13867
    loss    1.132289
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:15<41:23,  3.97it/s]

Epoch: 25, Iter: 4000/13867
    loss    1.128208
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [18:06<40:19,  4.00it/s]

Epoch: 25, Iter: 4200/13867
    loss    1.141207
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:56<40:28,  3.90it/s]

Epoch: 25, Iter: 4400/13867
    loss    1.138427
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:47<38:55,  3.97it/s]

Epoch: 25, Iter: 4600/13867
    loss    1.135522
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:37<38:40,  3.91it/s]

Epoch: 25, Iter: 4800/13867
    loss    1.144089
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:33<41:26,  3.57it/s]

Epoch: 25, Iter: 5000/13867
    loss    1.160421
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:27<41:57,  3.44it/s]

Epoch: 25, Iter: 5200/13867
    loss    1.134624
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [23:22<39:25,  3.58it/s]

Epoch: 25, Iter: 5400/13867
    loss    1.130852
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [24:17<38:50,  3.55it/s]

Epoch: 25, Iter: 5600/13867
    loss    1.143889
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [25:11<37:28,  3.59it/s]

Epoch: 25, Iter: 5800/13867
    loss    1.151179
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [26:06<33:51,  3.87it/s]

Epoch: 25, Iter: 6000/13867
    loss    1.193989
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:58<34:49,  3.67it/s]

Epoch: 25, Iter: 6200/13867
    loss    1.129394
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:50<31:34,  3.94it/s]

Epoch: 25, Iter: 6400/13867
    loss    1.164325
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [28:40<30:30,  3.97it/s]

Epoch: 25, Iter: 6600/13867
    loss    1.159471
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [29:33<30:33,  3.85it/s]

Epoch: 25, Iter: 6800/13867
    loss    1.201406
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [30:23<29:16,  3.91it/s]

Epoch: 25, Iter: 7000/13867
    loss    1.166672
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [31:14<28:37,  3.88it/s]

Epoch: 25, Iter: 7200/13867
    loss    1.165288
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [32:04<27:16,  3.95it/s]

Epoch: 25, Iter: 7400/13867
    loss    1.155152
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:54<26:41,  3.91it/s]

Epoch: 25, Iter: 7600/13867
    loss    1.157586
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [33:46<25:54,  3.90it/s]

Epoch: 25, Iter: 7800/13867
    loss    1.14904
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [34:37<25:03,  3.90it/s]

Epoch: 25, Iter: 8000/13867
    loss    1.148011
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [35:27<23:54,  3.95it/s]

Epoch: 25, Iter: 8200/13867
    loss    1.153748
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [36:17<23:15,  3.92it/s]

Epoch: 25, Iter: 8400/13867
    loss    1.172873
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [37:07<22:16,  3.94it/s]

Epoch: 25, Iter: 8600/13867
    loss    1.153371
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [38:00<21:38,  3.90it/s]

Epoch: 25, Iter: 8800/13867
    loss    1.171473
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:50<20:40,  3.92it/s]

Epoch: 25, Iter: 9000/13867
    loss    1.203465
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [39:40<19:57,  3.90it/s]

Epoch: 25, Iter: 9200/13867
    loss    1.144574
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [40:30<18:56,  3.93it/s]

Epoch: 25, Iter: 9400/13867
    loss    1.129249
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [41:20<18:16,  3.89it/s]

Epoch: 25, Iter: 9600/13867
    loss    1.179157
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [42:13<17:43,  3.82it/s]

Epoch: 25, Iter: 9800/13867
    loss    1.186153
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [43:03<16:35,  3.88it/s]

Epoch: 25, Iter: 10000/13867
    loss    1.135483
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:53<15:34,  3.92it/s]

Epoch: 25, Iter: 10200/13867
    loss    1.157015
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:43<14:45,  3.91it/s]

Epoch: 25, Iter: 10400/13867
    loss    1.170842
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [45:33<13:43,  3.96it/s]

Epoch: 25, Iter: 10600/13867
    loss    1.142467
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [46:26<12:59,  3.93it/s]

Epoch: 25, Iter: 10800/13867
    loss    1.17807
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [47:16<12:17,  3.89it/s]

Epoch: 25, Iter: 11000/13867
    loss    1.154808
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [48:06<11:21,  3.91it/s]

Epoch: 25, Iter: 11200/13867
    loss    1.181405
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:56<10:18,  3.99it/s]

Epoch: 25, Iter: 11400/13867
    loss    1.165835
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:47<09:45,  3.87it/s]

Epoch: 25, Iter: 11600/13867
    loss    1.161322
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:39<08:40,  3.97it/s]

Epoch: 25, Iter: 11800/13867
    loss    1.162765
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [51:29<08:02,  3.86it/s]

Epoch: 25, Iter: 12000/13867
    loss    1.148467
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [52:20<07:16,  3.82it/s]

Epoch: 25, Iter: 12200/13867
    loss    1.178276
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [53:10<06:14,  3.92it/s]

Epoch: 25, Iter: 12400/13867
    loss    1.148957
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [54:00<05:25,  3.89it/s]

Epoch: 25, Iter: 12600/13867
    loss    1.181781
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:53<04:34,  3.88it/s]

Epoch: 25, Iter: 12800/13867
    loss    1.170021
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:43<03:48,  3.80it/s]

Epoch: 25, Iter: 13000/13867
    loss    1.162373
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:34<02:48,  3.94it/s]

Epoch: 25, Iter: 13200/13867
    loss    1.166039
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [57:25<01:57,  3.95it/s]

Epoch: 25, Iter: 13400/13867
    loss    1.158816
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [58:18<02:04,  2.13it/s]

Epoch: 25, Iter: 13600/13867
    loss    1.184327
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [59:08<00:17,  3.81it/s]

Epoch: 25, Iter: 13800/13867
    loss    1.134024
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [59:25<00:00,  3.89it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.22it/s]



Epoch 25: Train 90.82
Epoch 25: Valid 65.49
Epoch 25: Best 65.49
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:53<57:31,  3.96it/s]

Epoch: 26, Iter: 200/13867
    loss    1.088795
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:43<55:12,  4.06it/s]

Epoch: 26, Iter: 400/13867
    loss    1.093603
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:33<54:31,  4.05it/s]

Epoch: 26, Iter: 600/13867
    loss    1.100462
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:23<56:40,  3.84it/s]

Epoch: 26, Iter: 800/13867
    loss    1.102986
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:13<54:12,  3.96it/s]

Epoch: 26, Iter: 1000/13867
    loss    1.128998
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:05<52:42,  4.00it/s]

Epoch: 26, Iter: 1200/13867
    loss    1.119209
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:55<51:38,  4.02it/s]

Epoch: 26, Iter: 1400/13867
    loss    1.110525
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:44<51:53,  3.94it/s]

Epoch: 26, Iter: 1600/13867
    loss    1.108292
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:34<52:15,  3.85it/s]

Epoch: 26, Iter: 1800/13867
    loss    1.109863
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:24<49:30,  3.99it/s]

Epoch: 26, Iter: 2000/13867
    loss    1.118772
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:15<49:03,  3.96it/s]

Epoch: 26, Iter: 2200/13867
    loss    1.127161
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:05<47:05,  4.06it/s]

Epoch: 26, Iter: 2400/13867
    loss    1.118815
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:54<46:10,  4.07it/s]

Epoch: 26, Iter: 2600/13867
    loss    1.105369
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<45:45,  4.03it/s]

Epoch: 26, Iter: 2800/13867
    loss    1.120012
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<46:31,  3.89it/s]

Epoch: 26, Iter: 3000/13867
    loss    1.149401
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:24<44:12,  4.02it/s]

Epoch: 26, Iter: 3200/13867
    loss    1.113845
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:13<43:37,  4.00it/s]

Epoch: 26, Iter: 3400/13867
    loss    1.10964
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:03<44:42,  3.83it/s]

Epoch: 26, Iter: 3600/13867
    loss    1.113963
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<42:46,  3.92it/s]

Epoch: 26, Iter: 3800/13867
    loss    1.118149
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:45<43:05,  3.82it/s]

Epoch: 26, Iter: 4000/13867
    loss    1.10107
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:37<41:53,  3.85it/s]

Epoch: 26, Iter: 4200/13867
    loss    1.103954
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:28<40:23,  3.91it/s]

Epoch: 26, Iter: 4400/13867
    loss    1.118373
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:18<39:22,  3.92it/s]

Epoch: 26, Iter: 4600/13867
    loss    1.107821
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:07<38:24,  3.93it/s]

Epoch: 26, Iter: 4800/13867
    loss    1.125258
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:57<37:03,  3.99it/s]

Epoch: 26, Iter: 5000/13867
    loss    1.107025
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:50<37:17,  3.87it/s]

Epoch: 26, Iter: 5200/13867
    loss    1.134232
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:40<34:44,  4.06it/s]

Epoch: 26, Iter: 5400/13867
    loss    1.099876
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:30<35:15,  3.91it/s]

Epoch: 26, Iter: 5600/13867
    loss    1.144877
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:20<33:49,  3.97it/s]

Epoch: 26, Iter: 5800/13867
    loss    1.137771
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:10<33:21,  3.93it/s]

Epoch: 26, Iter: 6000/13867
    loss    1.143421
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:02<32:26,  3.94it/s]

Epoch: 26, Iter: 6200/13867
    loss    1.122282
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:52<31:51,  3.91it/s]

Epoch: 26, Iter: 6400/13867
    loss    1.120365
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:42<30:58,  3.91it/s]

Epoch: 26, Iter: 6600/13867
    loss    1.119822
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:32<28:59,  4.06it/s]

Epoch: 26, Iter: 6800/13867
    loss    1.165161
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:22<29:28,  3.88it/s]

Epoch: 26, Iter: 7000/13867
    loss    1.122879
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:15<28:11,  3.94it/s]

Epoch: 26, Iter: 7200/13867
    loss    1.131431
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:05<27:10,  3.97it/s]

Epoch: 26, Iter: 7400/13867
    loss    1.1078
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:54<26:18,  3.97it/s]

Epoch: 26, Iter: 7600/13867
    loss    1.144345
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:44<26:01,  3.88it/s]

Epoch: 26, Iter: 7800/13867
    loss    1.126668
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:34<24:34,  3.98it/s]

Epoch: 26, Iter: 8000/13867
    loss    1.118192
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:28<26:37,  3.55it/s]

Epoch: 26, Iter: 8200/13867
    loss    1.121549
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:20<23:02,  3.95it/s]

Epoch: 26, Iter: 8400/13867
    loss    1.104624
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:10<22:18,  3.93it/s]

Epoch: 26, Iter: 8600/13867
    loss    1.141037
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:01<21:44,  3.88it/s]

Epoch: 26, Iter: 8800/13867
    loss    1.088789
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:51<20:43,  3.91it/s]

Epoch: 26, Iter: 9000/13867
    loss    1.107949
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:44<19:48,  3.93it/s]

Epoch: 26, Iter: 9200/13867
    loss    1.144385
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:36<20:39,  3.60it/s]

Epoch: 26, Iter: 9400/13867
    loss    1.103967
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:29<17:33,  4.05it/s]

Epoch: 26, Iter: 9600/13867
    loss    1.123552
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:19<16:57,  4.00it/s]

Epoch: 26, Iter: 9800/13867
    loss    1.103435
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:11<17:29,  3.68it/s]

Epoch: 26, Iter: 10000/13867
    loss    1.137674
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:05<15:36,  3.91it/s]

Epoch: 26, Iter: 10200/13867
    loss    1.130185
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:55<15:14,  3.79it/s]

Epoch: 26, Iter: 10400/13867
    loss    1.131147
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:46<13:51,  3.93it/s]

Epoch: 26, Iter: 10600/13867
    loss    1.118937
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:37<13:10,  3.88it/s]

Epoch: 26, Iter: 10800/13867
    loss    1.150792
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:28<12:04,  3.96it/s]

Epoch: 26, Iter: 11000/13867
    loss    1.121207
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:22<11:23,  3.90it/s]

Epoch: 26, Iter: 11200/13867
    loss    1.15794
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:12<10:20,  3.98it/s]

Epoch: 26, Iter: 11400/13867
    loss    1.14194
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:01<09:31,  3.97it/s]

Epoch: 26, Iter: 11600/13867
    loss    1.092672
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:51<08:40,  3.97it/s]

Epoch: 26, Iter: 11800/13867
    loss    1.136777
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:40<07:37,  4.08it/s]

Epoch: 26, Iter: 12000/13867
    loss    1.15399
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:32<07:08,  3.89it/s]

Epoch: 26, Iter: 12200/13867
    loss    1.150674
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:21<06:05,  4.01it/s]

Epoch: 26, Iter: 12400/13867
    loss    1.142193
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:11<05:33,  3.80it/s]

Epoch: 26, Iter: 12600/13867
    loss    1.115084
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:01<04:39,  3.81it/s]

Epoch: 26, Iter: 12800/13867
    loss    1.101444
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:50<03:39,  3.95it/s]

Epoch: 26, Iter: 13000/13867
    loss    1.131271
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:43<02:45,  4.03it/s]

Epoch: 26, Iter: 13200/13867
    loss    1.162096
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:33<01:58,  3.94it/s]

Epoch: 26, Iter: 13400/13867
    loss    1.145757
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:23<01:08,  3.86it/s]

Epoch: 26, Iter: 13600/13867
    loss    1.120388
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:13<00:16,  3.91it/s]

Epoch: 26, Iter: 13800/13867
    loss    1.143755
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:30<00:00,  3.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:29<00:00,  9.11it/s]



Epoch 26: Train 91.00
Epoch 26: Valid 65.51
Epoch 26: Best 65.51
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<57:31,  3.96it/s]

Epoch: 27, Iter: 200/13867
    loss    1.080884
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:40<57:09,  3.93it/s]

Epoch: 27, Iter: 400/13867
    loss    1.113945
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<56:36,  3.91it/s]

Epoch: 27, Iter: 600/13867
    loss    1.087592
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:23<56:34,  3.85it/s]

Epoch: 27, Iter: 800/13867
    loss    1.087558
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:14<55:55,  3.83it/s]

Epoch: 27, Iter: 1000/13867
    loss    1.089342
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:06<54:55,  3.84it/s]

Epoch: 27, Iter: 1200/13867
    loss    1.101925
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:57<54:06,  3.84it/s]

Epoch: 27, Iter: 1400/13867
    loss    1.109735
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:48<51:45,  3.95it/s]

Epoch: 27, Iter: 1600/13867
    loss    1.069907
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:41<52:26,  3.84it/s]

Epoch: 27, Iter: 1800/13867
    loss    1.07643
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:30<50:07,  3.95it/s]

Epoch: 27, Iter: 2000/13867
    loss    1.114827
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:20<48:21,  4.02it/s]

Epoch: 27, Iter: 2200/13867
    loss    1.09247
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:09<46:57,  4.07it/s]

Epoch: 27, Iter: 2400/13867
    loss    1.066308
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:58<48:30,  3.87it/s]

Epoch: 27, Iter: 2600/13867
    loss    1.08594
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:50<46:25,  3.97it/s]

Epoch: 27, Iter: 2800/13867
    loss    1.089077
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:39<46:04,  3.93it/s]

Epoch: 27, Iter: 3000/13867
    loss    1.086781
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:28<44:08,  4.03it/s]

Epoch: 27, Iter: 3200/13867
    loss    1.092064
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:17<42:57,  4.06it/s]

Epoch: 27, Iter: 3400/13867
    loss    1.087346
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:08<48:32,  3.52it/s]

Epoch: 27, Iter: 3600/13867
    loss    1.084486
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:02<43:30,  3.86it/s]

Epoch: 27, Iter: 3800/13867
    loss    1.084473
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:53<41:56,  3.92it/s]

Epoch: 27, Iter: 4000/13867
    loss    1.097215
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:44<41:58,  3.84it/s]

Epoch: 27, Iter: 4200/13867
    loss    1.085601
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:34<40:11,  3.93it/s]

Epoch: 27, Iter: 4400/13867
    loss    1.106508
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:25<39:57,  3.86it/s]

Epoch: 27, Iter: 4600/13867
    loss    1.097949
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:19<38:51,  3.89it/s]

Epoch: 27, Iter: 4800/13867
    loss    1.086772
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:09<38:28,  3.84it/s]

Epoch: 27, Iter: 5000/13867
    loss    1.121135
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:00<36:39,  3.94it/s]

Epoch: 27, Iter: 5200/13867
    loss    1.085073
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:51<36:32,  3.86it/s]

Epoch: 27, Iter: 5400/13867
    loss    1.097334
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:42<35:51,  3.84it/s]

Epoch: 27, Iter: 5600/13867
    loss    1.083196
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:35<35:02,  3.84it/s]

Epoch: 27, Iter: 5800/13867
    loss    1.081724
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:26<33:52,  3.87it/s]

Epoch: 27, Iter: 6000/13867
    loss    1.100372
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:17<32:32,  3.93it/s]

Epoch: 27, Iter: 6200/13867
    loss    1.092001
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:07<31:45,  3.92it/s]

Epoch: 27, Iter: 6400/13867
    loss    1.078598
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:58<32:38,  3.71it/s]

Epoch: 27, Iter: 6600/13867
    loss    1.116628
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:55<29:10,  4.04it/s]

Epoch: 27, Iter: 6800/13867
    loss    1.108317
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:45<29:28,  3.88it/s]

Epoch: 27, Iter: 7000/13867
    loss    1.061056
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:35<28:14,  3.93it/s]

Epoch: 27, Iter: 7200/13867
    loss    1.099441
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:26<28:11,  3.82it/s]

Epoch: 27, Iter: 7400/13867
    loss    1.103687
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:17<26:36,  3.92it/s]

Epoch: 27, Iter: 7600/13867
    loss    1.091728
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [33:08<26:31,  3.81it/s]

Epoch: 27, Iter: 7800/13867
    loss    1.100754
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [34:01<25:19,  3.86it/s]

Epoch: 27, Iter: 8000/13867
    loss    1.107408
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:52<24:52,  3.80it/s]

Epoch: 27, Iter: 8200/13867
    loss    1.059928
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:43<22:59,  3.96it/s]

Epoch: 27, Iter: 8400/13867
    loss    1.102636
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:34<22:17,  3.94it/s]

Epoch: 27, Iter: 8600/13867
    loss    1.111507
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:25<22:04,  3.82it/s]

Epoch: 27, Iter: 8800/13867
    loss    1.093156
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:20<22:40,  3.58it/s]

Epoch: 27, Iter: 9000/13867
    loss    1.115773
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [39:15<21:29,  3.62it/s]

Epoch: 27, Iter: 9200/13867
    loss    1.115742
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [40:10<20:56,  3.56it/s]

Epoch: 27, Iter: 9400/13867
    loss    1.059008
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [41:05<19:41,  3.61it/s]

Epoch: 27, Iter: 9600/13867
    loss    1.099826
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [42:00<18:53,  3.59it/s]

Epoch: 27, Iter: 9800/13867
    loss    1.089598
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:58<18:16,  3.52it/s]

Epoch: 27, Iter: 10000/13867
    loss    1.099608
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:49<16:06,  3.79it/s]

Epoch: 27, Iter: 10200/13867
    loss    1.062346
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:40<14:46,  3.91it/s]

Epoch: 27, Iter: 10400/13867
    loss    1.087709
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [45:31<14:04,  3.87it/s]

Epoch: 27, Iter: 10600/13867
    loss    1.084438
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [46:21<13:09,  3.88it/s]

Epoch: 27, Iter: 10800/13867
    loss    1.088397
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [47:14<12:19,  3.88it/s]

Epoch: 27, Iter: 11000/13867
    loss    1.102622
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [48:04<11:33,  3.84it/s]

Epoch: 27, Iter: 11200/13867
    loss    1.11081
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:55<10:29,  3.91it/s]

Epoch: 27, Iter: 11400/13867
    loss    1.079178
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:45<09:42,  3.89it/s]

Epoch: 27, Iter: 11600/13867
    loss    1.092873
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:36<08:53,  3.87it/s]

Epoch: 27, Iter: 11800/13867
    loss    1.101018
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [51:29<08:16,  3.76it/s]

Epoch: 27, Iter: 12000/13867
    loss    1.116715
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [52:19<07:15,  3.83it/s]

Epoch: 27, Iter: 12200/13867
    loss    1.110597
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [53:10<06:11,  3.94it/s]

Epoch: 27, Iter: 12400/13867
    loss    1.101377
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [54:01<05:27,  3.87it/s]

Epoch: 27, Iter: 12600/13867
    loss    1.1088
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:51<04:33,  3.90it/s]

Epoch: 27, Iter: 12800/13867
    loss    1.106601
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:41<03:43,  3.88it/s]

Epoch: 27, Iter: 13000/13867
    loss    1.08524
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:35<02:52,  3.86it/s]

Epoch: 27, Iter: 13200/13867
    loss    1.07171
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [57:25<02:10,  3.57it/s]

Epoch: 27, Iter: 13400/13867
    loss    1.109222
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [58:18<01:10,  3.77it/s]

Epoch: 27, Iter: 13600/13867
    loss    1.092097
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [59:08<00:17,  3.86it/s]

Epoch: 27, Iter: 13800/13867
    loss    1.092614
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [59:25<00:00,  3.89it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:29<00:00,  9.06it/s]



Epoch 27: Train 91.15
Epoch 27: Valid 65.38
Epoch 27: Best 65.51
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<58:24,  3.90it/s]

Epoch: 28, Iter: 200/13867
    loss    1.07118
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<57:15,  3.92it/s]

Epoch: 28, Iter: 400/13867
    loss    1.074595
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:31<57:30,  3.85it/s]

Epoch: 28, Iter: 600/13867
    loss    1.096929
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:25<56:04,  3.88it/s]

Epoch: 28, Iter: 800/13867
    loss    1.062359
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:15<55:59,  3.83it/s]

Epoch: 28, Iter: 1000/13867
    loss    1.065632
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:06<54:27,  3.88it/s]

Epoch: 28, Iter: 1200/13867
    loss    1.084746
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:56<54:10,  3.84it/s]

Epoch: 28, Iter: 1400/13867
    loss    1.046297
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:47<51:53,  3.94it/s]

Epoch: 28, Iter: 1600/13867
    loss    1.083724
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:41<51:36,  3.90it/s]

Epoch: 28, Iter: 1800/13867
    loss    1.05963
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:31<50:53,  3.89it/s]

Epoch: 28, Iter: 2000/13867
    loss    1.041976
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:23<50:43,  3.83it/s]

Epoch: 28, Iter: 2200/13867
    loss    1.089532
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:13<49:17,  3.88it/s]

Epoch: 28, Iter: 2400/13867
    loss    1.06112
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:04<48:28,  3.87it/s]

Epoch: 28, Iter: 2600/13867
    loss    1.024713
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:57<48:25,  3.81it/s]

Epoch: 28, Iter: 2800/13867
    loss    1.040101
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:49<46:08,  3.93it/s]

Epoch: 28, Iter: 3000/13867
    loss    1.075877
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:40<46:01,  3.86it/s]

Epoch: 28, Iter: 3200/13867
    loss    1.051315
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:30<45:06,  3.87it/s]

Epoch: 28, Iter: 3400/13867
    loss    1.056966
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:21<43:37,  3.92it/s]

Epoch: 28, Iter: 3600/13867
    loss    1.082137
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:12<43:05,  3.89it/s]

Epoch: 28, Iter: 3800/13867
    loss    1.059393
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:06<42:01,  3.91it/s]

Epoch: 28, Iter: 4000/13867
    loss    1.058986
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:55<40:01,  4.02it/s]

Epoch: 28, Iter: 4200/13867
    loss    1.089634
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:44<39:03,  4.04it/s]

Epoch: 28, Iter: 4400/13867
    loss    1.072223
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:33<38:24,  4.02it/s]

Epoch: 28, Iter: 4600/13867
    loss    1.060966
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:21<37:46,  4.00it/s]

Epoch: 28, Iter: 4800/13867
    loss    1.060969
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:13<37:07,  3.98it/s]

Epoch: 28, Iter: 5000/13867
    loss    1.050848
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:02<36:21,  3.97it/s]

Epoch: 28, Iter: 5200/13867
    loss    1.044108
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:52<34:40,  4.07it/s]

Epoch: 28, Iter: 5400/13867
    loss    1.061023
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:41<34:15,  4.02it/s]

Epoch: 28, Iter: 5600/13867
    loss    1.046843
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:30<33:56,  3.96it/s]

Epoch: 28, Iter: 5800/13867
    loss    1.095332
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:23<33:38,  3.90it/s]

Epoch: 28, Iter: 6000/13867
    loss    1.063133
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:14<32:52,  3.89it/s]

Epoch: 28, Iter: 6200/13867
    loss    1.073811
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:03<30:28,  4.08it/s]

Epoch: 28, Iter: 6400/13867
    loss    1.063619
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:54<31:03,  3.90it/s]

Epoch: 28, Iter: 6600/13867
    loss    1.064352
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:46<29:59,  3.93it/s]

Epoch: 28, Iter: 6800/13867
    loss    1.058067
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:37<29:27,  3.88it/s]

Epoch: 28, Iter: 7000/13867
    loss    1.083786
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:31<29:06,  3.82it/s]

Epoch: 28, Iter: 7200/13867
    loss    1.059513
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:22<27:29,  3.92it/s]

Epoch: 28, Iter: 7400/13867
    loss    1.062924
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:13<28:09,  3.71it/s]

Epoch: 28, Iter: 7600/13867
    loss    1.062072
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [33:04<25:56,  3.90it/s]

Epoch: 28, Iter: 7800/13867
    loss    1.07241
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:55<25:02,  3.91it/s]

Epoch: 28, Iter: 8000/13867
    loss    1.071541
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:49<25:03,  3.77it/s]

Epoch: 28, Iter: 8200/13867
    loss    1.097975
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:40<24:10,  3.77it/s]

Epoch: 28, Iter: 8400/13867
    loss    1.079802
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:31<22:52,  3.84it/s]

Epoch: 28, Iter: 8600/13867
    loss    1.114711
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:22<22:15,  3.79it/s]

Epoch: 28, Iter: 8800/13867
    loss    1.059914
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:13<21:36,  3.75it/s]

Epoch: 28, Iter: 9000/13867
    loss    1.064664
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [39:08<20:24,  3.81it/s]

Epoch: 28, Iter: 9200/13867
    loss    1.067234
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:58<18:17,  4.07it/s]

Epoch: 28, Iter: 9400/13867
    loss    1.041395
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:47<17:44,  4.01it/s]

Epoch: 28, Iter: 9600/13867
    loss    1.06687
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:36<16:54,  4.01it/s]

Epoch: 28, Iter: 9800/13867
    loss    1.040998
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:25<16:20,  3.94it/s]

Epoch: 28, Iter: 10000/13867
    loss    1.048331
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:15<15:14,  4.01it/s]

Epoch: 28, Iter: 10200/13867
    loss    1.059599
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:07<14:02,  4.11it/s]

Epoch: 28, Iter: 10400/13867
    loss    1.067127
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:56<13:44,  3.96it/s]

Epoch: 28, Iter: 10600/13867
    loss    1.0852
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:46<13:33,  3.77it/s]

Epoch: 28, Iter: 10800/13867
    loss    1.039944
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:37<12:29,  3.82it/s]

Epoch: 28, Iter: 11000/13867
    loss    1.076643
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:26<10:53,  4.08it/s]

Epoch: 28, Iter: 11200/13867
    loss    1.080415
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:19<10:23,  3.96it/s]

Epoch: 28, Iter: 11400/13867
    loss    1.067639
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:09<09:35,  3.93it/s]

Epoch: 28, Iter: 11600/13867
    loss    1.043314
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:58<08:47,  3.92it/s]

Epoch: 28, Iter: 11800/13867
    loss    1.087255
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:47<07:46,  4.00it/s]

Epoch: 28, Iter: 12000/13867
    loss    1.116925
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:37<07:02,  3.94it/s]

Epoch: 28, Iter: 12200/13867
    loss    1.059916
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:29<07:51,  3.11it/s]

Epoch: 28, Iter: 12400/13867
    loss    1.071035
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:18<05:15,  4.01it/s]

Epoch: 28, Iter: 12600/13867
    loss    1.05057
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:07<04:18,  4.13it/s]

Epoch: 28, Iter: 12800/13867
    loss    1.068102
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:56<03:43,  3.88it/s]

Epoch: 28, Iter: 13000/13867
    loss    1.062236
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:46<02:47,  3.98it/s]

Epoch: 28, Iter: 13200/13867
    loss    1.06077
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:35<01:54,  4.06it/s]

Epoch: 28, Iter: 13400/13867
    loss    1.099801
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:29<01:09,  3.82it/s]

Epoch: 28, Iter: 13600/13867
    loss    1.061398
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:19<00:16,  4.01it/s]

Epoch: 28, Iter: 13800/13867
    loss    1.075302
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:36<00:00,  3.94it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:26<00:00,  9.45it/s]



Epoch 28: Train 91.28
Epoch 28: Valid 65.70
Epoch 28: Best 65.70
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:52<58:03,  3.92it/s]

Epoch: 29, Iter: 200/13867
    loss    1.026774
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<56:30,  3.97it/s]

Epoch: 29, Iter: 400/13867
    loss    1.009059
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:30<55:15,  4.00it/s]

Epoch: 29, Iter: 600/13867
    loss    1.03175
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:20<55:19,  3.94it/s]

Epoch: 29, Iter: 800/13867
    loss    1.030885
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:09<55:04,  3.89it/s]

Epoch: 29, Iter: 1000/13867
    loss    1.054326
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:02<53:20,  3.96it/s]

Epoch: 29, Iter: 1200/13867
    loss    1.048363
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:52<53:04,  3.91it/s]

Epoch: 29, Iter: 1400/13867
    loss    1.065101
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<52:30,  3.89it/s]

Epoch: 29, Iter: 1600/13867
    loss    1.049766
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:31<50:56,  3.95it/s]

Epoch: 29, Iter: 1800/13867
    loss    1.034092
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:21<52:04,  3.80it/s]

Epoch: 29, Iter: 2000/13867
    loss    1.034637
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:11<48:37,  4.00it/s]

Epoch: 29, Iter: 2200/13867
    loss    1.044904
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<48:48,  3.92it/s]

Epoch: 29, Iter: 2400/13867
    loss    1.063667
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:53<46:39,  4.02it/s]

Epoch: 29, Iter: 2600/13867
    loss    1.045225
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<46:26,  3.97it/s]

Epoch: 29, Iter: 2800/13867
    loss    1.032948
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<45:13,  4.00it/s]

Epoch: 29, Iter: 3000/13867
    loss    1.023246
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:20<44:40,  3.98it/s]

Epoch: 29, Iter: 3200/13867
    loss    1.045052
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<43:35,  4.00it/s]

Epoch: 29, Iter: 3400/13867
    loss    1.036469
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:03<44:18,  3.86it/s]

Epoch: 29, Iter: 3600/13867
    loss    1.055858
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<42:37,  3.94it/s]

Epoch: 29, Iter: 3800/13867
    loss    1.032618
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:43<41:24,  3.97it/s]

Epoch: 29, Iter: 4000/13867
    loss    1.032409
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:32<40:37,  3.97it/s]

Epoch: 29, Iter: 4200/13867
    loss    1.024184
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:22<40:00,  3.94it/s]

Epoch: 29, Iter: 4400/13867
    loss    1.034027
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:15<40:20,  3.83it/s]

Epoch: 29, Iter: 4600/13867
    loss    1.024682
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:05<38:42,  3.90it/s]

Epoch: 29, Iter: 4800/13867
    loss    1.03892
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:54<37:02,  3.99it/s]

Epoch: 29, Iter: 5000/13867
    loss    1.069178
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:44<36:36,  3.95it/s]

Epoch: 29, Iter: 5200/13867
    loss    1.034054
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:34<35:47,  3.94it/s]

Epoch: 29, Iter: 5400/13867
    loss    1.03035
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:27<34:48,  3.96it/s]

Epoch: 29, Iter: 5600/13867
    loss    1.04367
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:18<34:16,  3.92it/s]

Epoch: 29, Iter: 5800/13867
    loss    1.045961
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:07<33:22,  3.93it/s]

Epoch: 29, Iter: 6000/13867
    loss    1.058104
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:58<33:17,  3.84it/s]

Epoch: 29, Iter: 6200/13867
    loss    1.05105
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:48<32:04,  3.88it/s]

Epoch: 29, Iter: 6400/13867
    loss    1.037125
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:37<30:18,  3.99it/s]

Epoch: 29, Iter: 6600/13867
    loss    1.045999
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:29<29:34,  3.98it/s]

Epoch: 29, Iter: 6800/13867
    loss    1.046247
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:20<29:41,  3.85it/s]

Epoch: 29, Iter: 7000/13867
    loss    1.024535
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:11<28:46,  3.86it/s]

Epoch: 29, Iter: 7200/13867
    loss    1.056377
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:02<27:25,  3.93it/s]

Epoch: 29, Iter: 7400/13867
    loss    1.025228
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:53<28:04,  3.72it/s]

Epoch: 29, Iter: 7600/13867
    loss    1.010225
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:48<26:35,  3.80it/s]

Epoch: 29, Iter: 7800/13867
    loss    1.038185
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:39<25:16,  3.87it/s]

Epoch: 29, Iter: 8000/13867
    loss    1.021866
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:30<24:24,  3.87it/s]

Epoch: 29, Iter: 8200/13867
    loss    1.062354
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:22<24:26,  3.73it/s]

Epoch: 29, Iter: 8400/13867
    loss    1.03074
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:13<22:47,  3.85it/s]

Epoch: 29, Iter: 8600/13867
    loss    1.059265
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:04<21:27,  3.94it/s]

Epoch: 29, Iter: 8800/13867
    loss    1.052421
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:59<21:00,  3.86it/s]

Epoch: 29, Iter: 9000/13867
    loss    1.033009
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:50<19:29,  3.99it/s]

Epoch: 29, Iter: 9200/13867
    loss    1.039084
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:41<19:02,  3.91it/s]

Epoch: 29, Iter: 9400/13867
    loss    1.055974
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:33<18:16,  3.89it/s]

Epoch: 29, Iter: 9600/13867
    loss    1.049838
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:23<17:32,  3.86it/s]

Epoch: 29, Iter: 9800/13867
    loss    1.049871
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:19<16:50,  3.83it/s]

Epoch: 29, Iter: 10000/13867
    loss    1.047046
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:10<15:37,  3.91it/s]

Epoch: 29, Iter: 10200/13867
    loss    1.015328
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:01<15:02,  3.84it/s]

Epoch: 29, Iter: 10400/13867
    loss    1.063837
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:52<14:12,  3.83it/s]

Epoch: 29, Iter: 10600/13867
    loss    1.049144
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:43<13:17,  3.84it/s]

Epoch: 29, Iter: 10800/13867
    loss    1.048022
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:34<12:44,  3.75it/s]

Epoch: 29, Iter: 11000/13867
    loss    1.043124
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:28<11:52,  3.74it/s]

Epoch: 29, Iter: 11200/13867
    loss    1.038217
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:20<10:53,  3.78it/s]

Epoch: 29, Iter: 11400/13867
    loss    1.07692
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:11<09:48,  3.85it/s]

Epoch: 29, Iter: 11600/13867
    loss    1.030364
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:02<09:02,  3.81it/s]

Epoch: 29, Iter: 11800/13867
    loss    1.035065
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:53<07:58,  3.90it/s]

Epoch: 29, Iter: 12000/13867
    loss    1.043305
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:48<07:29,  3.71it/s]

Epoch: 29, Iter: 12200/13867
    loss    1.060213
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:41<06:32,  3.73it/s]

Epoch: 29, Iter: 12400/13867
    loss    1.033057
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:33<05:39,  3.73it/s]

Epoch: 29, Iter: 12600/13867
    loss    1.05429
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:25<04:44,  3.75it/s]

Epoch: 29, Iter: 12800/13867
    loss    1.029815
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:16<03:48,  3.79it/s]

Epoch: 29, Iter: 13000/13867
    loss    1.039123
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:08<02:51,  3.88it/s]

Epoch: 29, Iter: 13200/13867
    loss    1.051014
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [57:03<01:59,  3.91it/s]

Epoch: 29, Iter: 13400/13867
    loss    1.029531
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:54<01:09,  3.81it/s]

Epoch: 29, Iter: 13600/13867
    loss    1.065805
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:45<00:17,  3.74it/s]

Epoch: 29, Iter: 13800/13867
    loss    1.042675
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [59:02<00:00,  3.91it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:35<00:00,  8.55it/s]



Epoch 29: Train 91.40
Epoch 29: Valid 65.68
Epoch 29: Best 65.70
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:51<58:53,  3.87it/s]

Epoch: 30, Iter: 200/13867
    loss    0.994764
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:43<59:12,  3.79it/s]

Epoch: 30, Iter: 400/13867
    loss    1.036569
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:35<57:26,  3.85it/s]

Epoch: 30, Iter: 600/13867
    loss    1.015825
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:27<55:30,  3.92it/s]

Epoch: 30, Iter: 800/13867
    loss    1.043425
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:18<58:44,  3.65it/s]

Epoch: 30, Iter: 1000/13867
    loss    1.028571
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:14<55:28,  3.80it/s]

Epoch: 30, Iter: 1200/13867
    loss    1.026609
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:07<57:55,  3.59it/s]

Epoch: 30, Iter: 1400/13867
    loss    1.012979
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:59<54:45,  3.73it/s]

Epoch: 30, Iter: 1600/13867
    loss    1.00782
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:49<51:00,  3.94it/s]

Epoch: 30, Iter: 1800/13867
    loss    1.016873
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:39<51:23,  3.85it/s]

Epoch: 30, Iter: 2000/13867
    loss    1.009715
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:32<49:56,  3.89it/s]

Epoch: 30, Iter: 2200/13867
    loss    1.018062
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:22<47:54,  3.99it/s]

Epoch: 30, Iter: 2400/13867
    loss    1.002749
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:12<47:58,  3.91it/s]

Epoch: 30, Iter: 2600/13867
    loss    1.03048
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [12:02<47:00,  3.92it/s]

Epoch: 30, Iter: 2800/13867
    loss    1.007225
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:52<45:28,  3.98it/s]

Epoch: 30, Iter: 3000/13867
    loss    1.012285
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:42<45:02,  3.95it/s]

Epoch: 30, Iter: 3200/13867
    loss    0.980932
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:35<43:22,  4.02it/s]

Epoch: 30, Iter: 3400/13867
    loss    1.013169
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:24<43:27,  3.94it/s]

Epoch: 30, Iter: 3600/13867
    loss    1.018326
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:14<42:50,  3.92it/s]

Epoch: 30, Iter: 3800/13867
    loss    1.029215
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:04<41:41,  3.94it/s]

Epoch: 30, Iter: 4000/13867
    loss    1.076169
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:53<40:53,  3.94it/s]

Epoch: 30, Iter: 4200/13867
    loss    1.049653
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:43<40:49,  3.86it/s]

Epoch: 30, Iter: 4400/13867
    loss    1.023124
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:36<38:58,  3.96it/s]

Epoch: 30, Iter: 4600/13867
    loss    1.018021
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:26<38:43,  3.90it/s]

Epoch: 30, Iter: 4800/13867
    loss    1.033701
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:17<37:56,  3.89it/s]

Epoch: 30, Iter: 5000/13867
    loss    1.004228
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:07<37:41,  3.83it/s]

Epoch: 30, Iter: 5200/13867
    loss    1.011492
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:56<36:29,  3.87it/s]

Epoch: 30, Iter: 5400/13867
    loss    1.008093
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:49<35:13,  3.91it/s]

Epoch: 30, Iter: 5600/13867
    loss    0.991831
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:39<34:07,  3.94it/s]

Epoch: 30, Iter: 5800/13867
    loss    1.034967
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:29<33:06,  3.96it/s]

Epoch: 30, Iter: 6000/13867
    loss    0.992093
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:18<33:14,  3.84it/s]

Epoch: 30, Iter: 6200/13867
    loss    1.008192
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:08<32:12,  3.86it/s]

Epoch: 30, Iter: 6400/13867
    loss    1.01336
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:58<30:58,  3.91it/s]

Epoch: 30, Iter: 6600/13867
    loss    1.031828
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:51<29:09,  4.04it/s]

Epoch: 30, Iter: 6800/13867
    loss    1.01604
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:40<28:19,  4.04it/s]

Epoch: 30, Iter: 7000/13867
    loss    1.03219
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:30<27:41,  4.01it/s]

Epoch: 30, Iter: 7200/13867
    loss    1.025222
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:20<27:33,  3.91it/s]

Epoch: 30, Iter: 7400/13867
    loss    1.010317
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:10<26:30,  3.94it/s]

Epoch: 30, Iter: 7600/13867
    loss    1.030603
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [33:00<26:04,  3.88it/s]

Epoch: 30, Iter: 7800/13867
    loss    1.013218
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:52<24:20,  4.02it/s]

Epoch: 30, Iter: 8000/13867
    loss    1.020026
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:42<23:37,  4.00it/s]

Epoch: 30, Iter: 8200/13867
    loss    0.997196
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:32<22:27,  4.06it/s]

Epoch: 30, Iter: 8400/13867
    loss    1.027215
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:22<22:04,  3.98it/s]

Epoch: 30, Iter: 8600/13867
    loss    0.999522
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:11<21:15,  3.97it/s]

Epoch: 30, Iter: 8800/13867
    loss    1.013469
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:01<20:41,  3.92it/s]

Epoch: 30, Iter: 9000/13867
    loss    1.027853
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:54<19:45,  3.94it/s]

Epoch: 30, Iter: 9200/13867
    loss    1.019493
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:44<18:46,  3.96it/s]

Epoch: 30, Iter: 9400/13867
    loss    1.01435
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:33<18:00,  3.95it/s]

Epoch: 30, Iter: 9600/13867
    loss    1.006297
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:23<17:03,  3.97it/s]

Epoch: 30, Iter: 9800/13867
    loss    1.035541
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:13<16:33,  3.89it/s]

Epoch: 30, Iter: 10000/13867
    loss    1.032456
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:06<15:29,  3.95it/s]

Epoch: 30, Iter: 10200/13867
    loss    1.013539
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:56<14:36,  3.96it/s]

Epoch: 30, Iter: 10400/13867
    loss    1.037691
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:45<13:38,  3.99it/s]

Epoch: 30, Iter: 10600/13867
    loss    1.020045
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:35<12:57,  3.95it/s]

Epoch: 30, Iter: 10800/13867
    loss    1.021598
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:25<11:56,  4.00it/s]

Epoch: 30, Iter: 11000/13867
    loss    1.00712
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:14<11:22,  3.91it/s]

Epoch: 30, Iter: 11200/13867
    loss    1.022197
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:07<10:30,  3.91it/s]

Epoch: 30, Iter: 11400/13867
    loss    1.01137
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:57<09:33,  3.95it/s]

Epoch: 30, Iter: 11600/13867
    loss    1.03463
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:47<08:43,  3.95it/s]

Epoch: 30, Iter: 11800/13867
    loss    1.003691
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:36<07:48,  3.98it/s]

Epoch: 30, Iter: 12000/13867
    loss    1.010986
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:26<07:06,  3.91it/s]

Epoch: 30, Iter: 12200/13867
    loss    1.026135
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:16<06:08,  3.98it/s]

Epoch: 30, Iter: 12400/13867
    loss    0.99978
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:09<05:25,  3.89it/s]

Epoch: 30, Iter: 12600/13867
    loss    1.03941
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:58<04:34,  3.88it/s]

Epoch: 30, Iter: 12800/13867
    loss    1.072198
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:48<03:39,  3.95it/s]

Epoch: 30, Iter: 13000/13867
    loss    1.007347
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:37<02:50,  3.90it/s]

Epoch: 30, Iter: 13200/13867
    loss    0.998353
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:27<01:58,  3.94it/s]

Epoch: 30, Iter: 13400/13867
    loss    1.023479
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:21<01:14,  3.59it/s]

Epoch: 30, Iter: 13600/13867
    loss    1.04465
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:10<00:16,  3.97it/s]

Epoch: 30, Iter: 13800/13867
    loss    1.011574
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:27<00:00,  3.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.33it/s]



Epoch 30: Train 91.48
Epoch 30: Valid 65.72
Epoch 30: Best 65.72
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:05,  4.06it/s]

Epoch: 31, Iter: 200/13867
    loss    0.99925
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:42<56:11,  3.99it/s]

Epoch: 31, Iter: 400/13867
    loss    0.970947
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:32<55:56,  3.95it/s]

Epoch: 31, Iter: 600/13867
    loss    0.977413
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:21<55:15,  3.94it/s]

Epoch: 31, Iter: 800/13867
    loss    1.008053
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:11<55:26,  3.87it/s]

Epoch: 31, Iter: 1000/13867
    loss    1.003311
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:17,  3.96it/s]

Epoch: 31, Iter: 1200/13867
    loss    0.964224
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▌                                                                   | 1401/13867 [05:53<2:31:22,  1.37it/s]

Epoch: 31, Iter: 1400/13867
    loss    1.003222
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:43<51:22,  3.98it/s]

Epoch: 31, Iter: 1600/13867
    loss    1.016636
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:33<50:43,  3.96it/s]

Epoch: 31, Iter: 1800/13867
    loss    0.986366
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:22<49:17,  4.01it/s]

Epoch: 31, Iter: 2000/13867
    loss    1.001041
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:12<50:15,  3.87it/s]

Epoch: 31, Iter: 2200/13867
    loss    1.006999
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:01<48:45,  3.92it/s]

Epoch: 31, Iter: 2400/13867
    loss    1.01921
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:54<47:15,  3.97it/s]

Epoch: 31, Iter: 2600/13867
    loss    1.04211
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:44<46:43,  3.95it/s]

Epoch: 31, Iter: 2800/13867
    loss    1.006543
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:34<45:14,  4.00it/s]

Epoch: 31, Iter: 3000/13867
    loss    1.029682
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:23<44:27,  4.00it/s]

Epoch: 31, Iter: 3200/13867
    loss    0.985871
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:13<44:09,  3.95it/s]

Epoch: 31, Iter: 3400/13867
    loss    0.997223
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:03<43:36,  3.92it/s]

Epoch: 31, Iter: 3600/13867
    loss    1.004499
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:56<43:01,  3.90it/s]

Epoch: 31, Iter: 3800/13867
    loss    0.999169
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:46<41:57,  3.92it/s]

Epoch: 31, Iter: 4000/13867
    loss    0.987633
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:36<40:58,  3.93it/s]

Epoch: 31, Iter: 4200/13867
    loss    0.984658
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:26<40:05,  3.94it/s]

Epoch: 31, Iter: 4400/13867
    loss    1.048223
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:16<39:30,  3.91it/s]

Epoch: 31, Iter: 4600/13867
    loss    0.984447
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:06<39:36,  3.81it/s]

Epoch: 31, Iter: 4800/13867
    loss    1.001077
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:59<37:14,  3.97it/s]

Epoch: 31, Iter: 5000/13867
    loss    0.999845
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:48<35:25,  4.08it/s]

Epoch: 31, Iter: 5200/13867
    loss    0.975358
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:38<35:53,  3.93it/s]

Epoch: 31, Iter: 5400/13867
    loss    0.992744
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:27<34:55,  3.94it/s]

Epoch: 31, Iter: 5600/13867
    loss    0.997009
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:17<34:05,  3.94it/s]

Epoch: 31, Iter: 5800/13867
    loss    0.968457
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:07<33:08,  3.96it/s]

Epoch: 31, Iter: 6000/13867
    loss    0.988881
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:00<32:40,  3.91it/s]

Epoch: 31, Iter: 6200/13867
    loss    0.99818
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:50<31:23,  3.96it/s]

Epoch: 31, Iter: 6400/13867
    loss    0.977235
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:39<30:53,  3.92it/s]

Epoch: 31, Iter: 6600/13867
    loss    1.004696
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:29<29:39,  3.97it/s]

Epoch: 31, Iter: 6800/13867
    loss    0.991589
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:18<29:06,  3.93it/s]

Epoch: 31, Iter: 7000/13867
    loss    0.966966
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:08<28:04,  3.96it/s]

Epoch: 31, Iter: 7200/13867
    loss    1.010641
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:01<27:24,  3.93it/s]

Epoch: 31, Iter: 7400/13867
    loss    0.997647
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:51<26:23,  3.96it/s]

Epoch: 31, Iter: 7600/13867
    loss    0.984335
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:40<25:48,  3.92it/s]

Epoch: 31, Iter: 7800/13867
    loss    0.988337
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:30<24:14,  4.03it/s]

Epoch: 31, Iter: 8000/13867
    loss    1.013789
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:20<24:09,  3.91it/s]

Epoch: 31, Iter: 8200/13867
    loss    1.003714
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:10<23:05,  3.95it/s]

Epoch: 31, Iter: 8400/13867
    loss    0.988779
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:03<22:23,  3.92it/s]

Epoch: 31, Iter: 8600/13867
    loss    1.010075
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:52<21:21,  3.95it/s]

Epoch: 31, Iter: 8800/13867
    loss    0.986769
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:42<20:04,  4.04it/s]

Epoch: 31, Iter: 9000/13867
    loss    1.023087
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:32<19:38,  3.96it/s]

Epoch: 31, Iter: 9200/13867
    loss    0.997767
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:22<19:25,  3.83it/s]

Epoch: 31, Iter: 9400/13867
    loss    1.02443
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:15<17:44,  4.01it/s]

Epoch: 31, Iter: 9600/13867
    loss    1.029416
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:04<17:36,  3.85it/s]

Epoch: 31, Iter: 9800/13867
    loss    1.002934
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:54<16:26,  3.92it/s]

Epoch: 31, Iter: 10000/13867
    loss    1.003108
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:44<15:24,  3.97it/s]

Epoch: 31, Iter: 10200/13867
    loss    0.988694
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:34<14:48,  3.90it/s]

Epoch: 31, Iter: 10400/13867
    loss    0.998139
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:24<13:52,  3.92it/s]

Epoch: 31, Iter: 10600/13867
    loss    0.982878
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:17<12:51,  3.97it/s]

Epoch: 31, Iter: 10800/13867
    loss    1.015003
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:06<12:04,  3.96it/s]

Epoch: 31, Iter: 11000/13867
    loss    0.987408
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:56<11:09,  3.98it/s]

Epoch: 31, Iter: 11200/13867
    loss    0.992187
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:46<10:29,  3.92it/s]

Epoch: 31, Iter: 11400/13867
    loss    1.015996
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:35<09:36,  3.93it/s]

Epoch: 31, Iter: 11600/13867
    loss    0.999477
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:25<08:47,  3.91it/s]

Epoch: 31, Iter: 11800/13867
    loss    1.0128
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:18<07:54,  3.93it/s]

Epoch: 31, Iter: 12000/13867
    loss    1.015804
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:08<07:07,  3.90it/s]

Epoch: 31, Iter: 12200/13867
    loss    1.004031
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:57<06:16,  3.90it/s]

Epoch: 31, Iter: 12400/13867
    loss    0.99278
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:47<05:23,  3.91it/s]

Epoch: 31, Iter: 12600/13867
    loss    1.009905
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:37<04:28,  3.97it/s]

Epoch: 31, Iter: 12800/13867
    loss    0.994731
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:26<03:38,  3.96it/s]

Epoch: 31, Iter: 13000/13867
    loss    1.012958
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:19<02:52,  3.87it/s]

Epoch: 31, Iter: 13200/13867
    loss    1.002458
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:09<01:58,  3.94it/s]

Epoch: 31, Iter: 13400/13867
    loss    0.983669
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:59<01:07,  3.92it/s]

Epoch: 31, Iter: 13600/13867
    loss    1.019902
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:49<00:16,  3.91it/s]

Epoch: 31, Iter: 13800/13867
    loss    0.990639
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:05<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:30<00:00,  8.98it/s]



Epoch 31: Train 91.58
Epoch 31: Valid 65.50
Epoch 31: Best 65.72
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<58:22,  3.90it/s]

Epoch: 32, Iter: 200/13867
    loss    0.967897
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:50,  3.95it/s]

Epoch: 32, Iter: 400/13867
    loss    0.987464
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<55:36,  3.98it/s]

Epoch: 32, Iter: 600/13867
    loss    0.969944
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:19<56:03,  3.88it/s]

Epoch: 32, Iter: 800/13867
    loss    0.943126
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▍                                                                     | 1001/13867 [04:11<1:43:42,  2.07it/s]

Epoch: 32, Iter: 1000/13867
    loss    0.96541
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:44,  3.93it/s]

Epoch: 32, Iter: 1200/13867
    loss    0.988553
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<51:48,  4.01it/s]

Epoch: 32, Iter: 1400/13867
    loss    0.983482
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<52:33,  3.89it/s]

Epoch: 32, Iter: 1600/13867
    loss    0.964196
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<51:18,  3.92it/s]

Epoch: 32, Iter: 1800/13867
    loss    0.967548
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:19<50:50,  3.89it/s]

Epoch: 32, Iter: 2000/13867
    loss    0.980772
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:12<59:44,  3.25it/s]

Epoch: 32, Iter: 2200/13867
    loss    0.98061
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:02<48:27,  3.94it/s]

Epoch: 32, Iter: 2400/13867
    loss    0.972697
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:51<45:44,  4.10it/s]

Epoch: 32, Iter: 2600/13867
    loss    0.970179
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<47:34,  3.88it/s]

Epoch: 32, Iter: 2800/13867
    loss    1.004368
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<44:59,  4.02it/s]

Epoch: 32, Iter: 3000/13867
    loss    0.989686
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:20<44:35,  3.99it/s]

Epoch: 32, Iter: 3200/13867
    loss    0.967768
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:14<54:27,  3.20it/s]

Epoch: 32, Iter: 3400/13867
    loss    0.995959
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:03<42:41,  4.01it/s]

Epoch: 32, Iter: 3600/13867
    loss    0.973143
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<41:41,  4.02it/s]

Epoch: 32, Iter: 3800/13867
    loss    0.971873
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:43<41:44,  3.94it/s]

Epoch: 32, Iter: 4000/13867
    loss    0.979043
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:33<40:49,  3.95it/s]

Epoch: 32, Iter: 4200/13867
    loss    0.949865
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<41:34,  3.79it/s]

Epoch: 32, Iter: 4400/13867
    loss    0.979586
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|████████████████████████▉                                                  | 4601/13867 [19:16<1:55:57,  1.33it/s]

Epoch: 32, Iter: 4600/13867
    loss    0.990079
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:06<38:11,  3.96it/s]

Epoch: 32, Iter: 4800/13867
    loss    0.975452
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:56<36:45,  4.02it/s]

Epoch: 32, Iter: 5000/13867
    loss    0.974485
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:45<37:33,  3.85it/s]

Epoch: 32, Iter: 5200/13867
    loss    0.994463
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:35<35:38,  3.96it/s]

Epoch: 32, Iter: 5400/13867
    loss    1.008219
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:25<33:53,  4.06it/s]

Epoch: 32, Iter: 5600/13867
    loss    0.979113
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:14<34:01,  3.95it/s]

Epoch: 32, Iter: 5800/13867
    loss    0.980991
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:07<32:36,  4.02it/s]

Epoch: 32, Iter: 6000/13867
    loss    0.98308
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:57<32:57,  3.88it/s]

Epoch: 32, Iter: 6200/13867
    loss    0.99239
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:47<31:49,  3.91it/s]

Epoch: 32, Iter: 6400/13867
    loss    0.978411
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:37<31:10,  3.88it/s]

Epoch: 32, Iter: 6600/13867
    loss    0.970368
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:26<29:41,  3.97it/s]

Epoch: 32, Iter: 6800/13867
    loss    0.982526
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:16<29:08,  3.93it/s]

Epoch: 32, Iter: 7000/13867
    loss    0.989851
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:09<27:56,  3.98it/s]

Epoch: 32, Iter: 7200/13867
    loss    0.960796
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:59<27:13,  3.96it/s]

Epoch: 32, Iter: 7400/13867
    loss    0.951504
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:48<26:19,  3.97it/s]

Epoch: 32, Iter: 7600/13867
    loss    1.004647
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:38<25:44,  3.93it/s]

Epoch: 32, Iter: 7800/13867
    loss    0.98666
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:27<24:55,  3.92it/s]

Epoch: 32, Iter: 8000/13867
    loss    0.975493
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:17<23:46,  3.97it/s]

Epoch: 32, Iter: 8200/13867
    loss    0.970778
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:10<23:17,  3.91it/s]

Epoch: 32, Iter: 8400/13867
    loss    0.965726
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:00<22:04,  3.97it/s]

Epoch: 32, Iter: 8600/13867
    loss    1.00902
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:50<21:21,  3.95it/s]

Epoch: 32, Iter: 8800/13867
    loss    0.949923
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:40<20:26,  3.97it/s]

Epoch: 32, Iter: 9000/13867
    loss    0.976454
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:29<19:39,  3.96it/s]

Epoch: 32, Iter: 9200/13867
    loss    0.996666
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:19<19:05,  3.90it/s]

Epoch: 32, Iter: 9400/13867
    loss    0.987699
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:12<18:03,  3.94it/s]

Epoch: 32, Iter: 9600/13867
    loss    0.991367
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:02<16:58,  3.99it/s]

Epoch: 32, Iter: 9800/13867
    loss    0.960745
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:52<16:27,  3.92it/s]

Epoch: 32, Iter: 10000/13867
    loss    0.977934
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:41<15:26,  3.96it/s]

Epoch: 32, Iter: 10200/13867
    loss    0.981949
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:31<14:37,  3.95it/s]

Epoch: 32, Iter: 10400/13867
    loss    1.001624
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:21<13:44,  3.96it/s]

Epoch: 32, Iter: 10600/13867
    loss    0.980221
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:14<12:57,  3.94it/s]

Epoch: 32, Iter: 10800/13867
    loss    0.958242
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:04<11:57,  3.99it/s]

Epoch: 32, Iter: 11000/13867
    loss    0.983645
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:53<11:03,  4.02it/s]

Epoch: 32, Iter: 11200/13867
    loss    0.97074
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:43<10:19,  3.98it/s]

Epoch: 32, Iter: 11400/13867
    loss    1.01365
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:32<09:33,  3.95it/s]

Epoch: 32, Iter: 11600/13867
    loss    0.966711
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:22<08:41,  3.96it/s]

Epoch: 32, Iter: 11800/13867
    loss    0.985453
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:15<07:57,  3.90it/s]

Epoch: 32, Iter: 12000/13867
    loss    1.000425
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:05<07:04,  3.93it/s]

Epoch: 32, Iter: 12200/13867
    loss    0.988716
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:54<06:10,  3.96it/s]

Epoch: 32, Iter: 12400/13867
    loss    0.981667
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:44<05:26,  3.88it/s]

Epoch: 32, Iter: 12600/13867
    loss    0.992147
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:34<04:30,  3.95it/s]

Epoch: 32, Iter: 12800/13867
    loss    0.987916
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:24<03:42,  3.89it/s]

Epoch: 32, Iter: 13000/13867
    loss    0.975855
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:16<02:47,  3.97it/s]

Epoch: 32, Iter: 13200/13867
    loss    0.988977
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:06<01:59,  3.89it/s]

Epoch: 32, Iter: 13400/13867
    loss    0.986367
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:56<01:06,  3.98it/s]

Epoch: 32, Iter: 13600/13867
    loss    0.964506
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:46<00:16,  4.02it/s]

Epoch: 32, Iter: 13800/13867
    loss    0.962468
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:02<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:30<00:00,  9.00it/s]



Epoch 32: Train 91.68
Epoch 32: Valid 65.58
Epoch 32: Best 65.72
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:08,  3.99it/s]

Epoch: 33, Iter: 200/13867
    loss    0.959452
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:28,  3.97it/s]

Epoch: 33, Iter: 400/13867
    loss    0.982244
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<55:14,  4.00it/s]

Epoch: 33, Iter: 600/13867
    loss    0.940093
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:18<54:19,  4.01it/s]

Epoch: 33, Iter: 800/13867
    loss    0.949234
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:08<53:52,  3.98it/s]

Epoch: 33, Iter: 1000/13867
    loss    0.976135
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:28,  3.95it/s]

Epoch: 33, Iter: 1200/13867
    loss    0.984289
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:26,  3.96it/s]

Epoch: 33, Iter: 1400/13867
    loss    0.972978
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<52:17,  3.91it/s]

Epoch: 33, Iter: 1600/13867
    loss    0.995269
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:40,  3.97it/s]

Epoch: 33, Iter: 1800/13867
    loss    0.955422
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<50:36,  3.91it/s]

Epoch: 33, Iter: 2000/13867
    loss    0.960659
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:09<49:37,  3.92it/s]

Epoch: 33, Iter: 2200/13867
    loss    0.976469
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<47:59,  3.98it/s]

Epoch: 33, Iter: 2400/13867
    loss    0.941596
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:52<47:47,  3.93it/s]

Epoch: 33, Iter: 2600/13867
    loss    0.982135
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<46:42,  3.95it/s]

Epoch: 33, Iter: 2800/13867
    loss    0.977127
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<46:22,  3.91it/s]

Epoch: 33, Iter: 3000/13867
    loss    0.929798
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<44:59,  3.95it/s]

Epoch: 33, Iter: 3200/13867
    loss    0.931029
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<44:08,  3.95it/s]

Epoch: 33, Iter: 3400/13867
    loss    0.953384
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:04<43:11,  3.96it/s]

Epoch: 33, Iter: 3600/13867
    loss    0.956275
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<42:02,  3.99it/s]

Epoch: 33, Iter: 3800/13867
    loss    0.975653
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:43<42:15,  3.89it/s]

Epoch: 33, Iter: 4000/13867
    loss    0.996801
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:33<40:49,  3.95it/s]

Epoch: 33, Iter: 4200/13867
    loss    0.965639
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<40:37,  3.88it/s]

Epoch: 33, Iter: 4400/13867
    loss    0.94674
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:13<39:57,  3.87it/s]

Epoch: 33, Iter: 4600/13867
    loss    0.982787
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:07<37:56,  3.98it/s]

Epoch: 33, Iter: 4800/13867
    loss    0.968615
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:56<37:22,  3.95it/s]

Epoch: 33, Iter: 5000/13867
    loss    0.97483
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:46<36:36,  3.94it/s]

Epoch: 33, Iter: 5200/13867
    loss    0.953563
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:36<35:42,  3.95it/s]

Epoch: 33, Iter: 5400/13867
    loss    0.976466
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:26<34:55,  3.94it/s]

Epoch: 33, Iter: 5600/13867
    loss    0.96597
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:16<33:50,  3.97it/s]

Epoch: 33, Iter: 5800/13867
    loss    0.945872
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:09<33:32,  3.91it/s]

Epoch: 33, Iter: 6000/13867
    loss    0.944294
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:59<33:16,  3.84it/s]

Epoch: 33, Iter: 6200/13867
    loss    0.968474
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:48<31:47,  3.91it/s]

Epoch: 33, Iter: 6400/13867
    loss    0.98132
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:38<31:12,  3.88it/s]

Epoch: 33, Iter: 6600/13867
    loss    0.979565
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:28<29:53,  3.94it/s]

Epoch: 33, Iter: 6800/13867
    loss    0.968967
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:18<28:59,  3.95it/s]

Epoch: 33, Iter: 7000/13867
    loss    0.960458
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|██████████████████████████████████████▉                                    | 7201/13867 [30:11<2:22:30,  1.28s/it]

Epoch: 33, Iter: 7200/13867
    loss    0.950844
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:00<27:32,  3.91it/s]

Epoch: 33, Iter: 7400/13867
    loss    0.952855
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:50<25:51,  4.04it/s]

Epoch: 33, Iter: 7600/13867
    loss    0.965732
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:39<25:07,  4.03it/s]

Epoch: 33, Iter: 7800/13867
    loss    0.94237
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:29<24:46,  3.95it/s]

Epoch: 33, Iter: 8000/13867
    loss    0.942604
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:19<23:51,  3.96it/s]

Epoch: 33, Iter: 8200/13867
    loss    0.939958
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:09<22:44,  4.01it/s]

Epoch: 33, Iter: 8400/13867
    loss    0.961534
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:02<22:15,  3.94it/s]

Epoch: 33, Iter: 8600/13867
    loss    0.98851
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:52<21:23,  3.95it/s]

Epoch: 33, Iter: 8800/13867
    loss    0.952466
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:41<20:37,  3.93it/s]

Epoch: 33, Iter: 9000/13867
    loss    0.941259
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:31<19:31,  3.98it/s]

Epoch: 33, Iter: 9200/13867
    loss    0.943823
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:21<19:02,  3.91it/s]

Epoch: 33, Iter: 9400/13867
    loss    0.962606
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:11<17:48,  3.99it/s]

Epoch: 33, Iter: 9600/13867
    loss    0.947459
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:04<17:06,  3.96it/s]

Epoch: 33, Iter: 9800/13867
    loss    0.954181
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:53<16:08,  3.99it/s]

Epoch: 33, Iter: 10000/13867
    loss    0.948014
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:43<15:20,  3.98it/s]

Epoch: 33, Iter: 10200/13867
    loss    0.962473
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:33<14:39,  3.94it/s]

Epoch: 33, Iter: 10400/13867
    loss    0.969109
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:23<13:48,  3.94it/s]

Epoch: 33, Iter: 10600/13867
    loss    0.965581
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:13<13:19,  3.84it/s]

Epoch: 33, Iter: 10800/13867
    loss    0.951195
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:06<11:57,  3.99it/s]

Epoch: 33, Iter: 11000/13867
    loss    0.970213
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:55<11:06,  4.00it/s]

Epoch: 33, Iter: 11200/13867
    loss    0.959413
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:45<10:17,  3.99it/s]

Epoch: 33, Iter: 11400/13867
    loss    0.970042
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:35<09:38,  3.91it/s]

Epoch: 33, Iter: 11600/13867
    loss    0.984819
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:25<08:49,  3.90it/s]

Epoch: 33, Iter: 11800/13867
    loss    0.971749
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:14<08:00,  3.88it/s]

Epoch: 33, Iter: 12000/13867
    loss    0.962347
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:08<07:15,  3.83it/s]

Epoch: 33, Iter: 12200/13867
    loss    0.960546
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:57<06:08,  3.98it/s]

Epoch: 33, Iter: 12400/13867
    loss    0.959007
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:47<05:19,  3.97it/s]

Epoch: 33, Iter: 12600/13867
    loss    0.960851
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:37<04:28,  3.97it/s]

Epoch: 33, Iter: 12800/13867
    loss    0.925922
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:27<03:41,  3.92it/s]

Epoch: 33, Iter: 13000/13867
    loss    0.942453
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:16<02:50,  3.91it/s]

Epoch: 33, Iter: 13200/13867
    loss    0.942841
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:06<01:57,  3.97it/s]

Epoch: 33, Iter: 13400/13867
    loss    0.958398
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:59<01:06,  3.97it/s]

Epoch: 33, Iter: 13600/13867
    loss    0.967843
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:49<00:16,  3.94it/s]

Epoch: 33, Iter: 13800/13867
    loss    0.936087
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:05<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.31it/s]



Epoch 33: Train 91.78
Epoch 33: Valid 65.51
Epoch 33: Best 65.72
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:42,  3.95it/s]

Epoch: 34, Iter: 200/13867
    loss    0.904836
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:42<57:34,  3.90it/s]

Epoch: 34, Iter: 400/13867
    loss    0.957711
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:32<57:15,  3.86it/s]

Epoch: 34, Iter: 600/13867
    loss    0.94681
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:22<54:49,  3.97it/s]

Epoch: 34, Iter: 800/13867
    loss    0.936533
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:12<54:17,  3.95it/s]

Epoch: 34, Iter: 1000/13867
    loss    0.937054
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<52:56,  3.99it/s]

Epoch: 34, Iter: 1200/13867
    loss    0.917316
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<51:17,  4.05it/s]

Epoch: 34, Iter: 1400/13867
    loss    0.960497
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:44<52:04,  3.93it/s]

Epoch: 34, Iter: 1600/13867
    loss    0.96463
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:34<50:46,  3.96it/s]

Epoch: 34, Iter: 1800/13867
    loss    0.95141
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:23<49:51,  3.97it/s]

Epoch: 34, Iter: 2000/13867
    loss    0.929773
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:13<47:29,  4.09it/s]

Epoch: 34, Iter: 2200/13867
    loss    0.934686
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<48:55,  3.91it/s]

Epoch: 34, Iter: 2400/13867
    loss    0.956747
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:52<47:34,  3.95it/s]

Epoch: 34, Iter: 2600/13867
    loss    0.930923
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:45<46:24,  3.97it/s]

Epoch: 34, Iter: 2800/13867
    loss    0.967552
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:35<46:21,  3.91it/s]

Epoch: 34, Iter: 3000/13867
    loss    0.960794
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:25<45:52,  3.87it/s]

Epoch: 34, Iter: 3200/13867
    loss    0.959402
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:14<44:41,  3.90it/s]

Epoch: 34, Iter: 3400/13867
    loss    0.960528
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:04<44:15,  3.87it/s]

Epoch: 34, Iter: 3600/13867
    loss    0.959444
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:54<42:37,  3.94it/s]

Epoch: 34, Iter: 3800/13867
    loss    0.970819
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|█████████████████████▋                                                     | 4001/13867 [16:47<3:35:56,  1.31s/it]

Epoch: 34, Iter: 4000/13867
    loss    0.978909
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:37<41:06,  3.92it/s]

Epoch: 34, Iter: 4200/13867
    loss    0.948421
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:27<40:00,  3.94it/s]

Epoch: 34, Iter: 4400/13867
    loss    0.934699
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:17<39:07,  3.95it/s]

Epoch: 34, Iter: 4600/13867
    loss    0.924683
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:07<38:04,  3.97it/s]

Epoch: 34, Iter: 4800/13867
    loss    0.941929
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:57<37:26,  3.95it/s]

Epoch: 34, Iter: 5000/13867
    loss    0.930799
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:47<36:18,  3.98it/s]

Epoch: 34, Iter: 5200/13867
    loss    0.970044
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:40<35:54,  3.93it/s]

Epoch: 34, Iter: 5400/13867
    loss    0.940339
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:30<35:08,  3.92it/s]

Epoch: 34, Iter: 5600/13867
    loss    0.96776
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:19<35:08,  3.83it/s]

Epoch: 34, Iter: 5800/13867
    loss    0.916499
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:09<33:17,  3.94it/s]

Epoch: 34, Iter: 6000/13867
    loss    0.920519
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:59<32:25,  3.94it/s]

Epoch: 34, Iter: 6200/13867
    loss    0.952909
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:48<31:41,  3.93it/s]

Epoch: 34, Iter: 6400/13867
    loss    0.951765
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:42<30:22,  3.99it/s]

Epoch: 34, Iter: 6600/13867
    loss    0.962331
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:31<29:37,  3.98it/s]

Epoch: 34, Iter: 6800/13867
    loss    0.917918
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:21<29:13,  3.92it/s]

Epoch: 34, Iter: 7000/13867
    loss    0.932695
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:11<28:19,  3.92it/s]

Epoch: 34, Iter: 7200/13867
    loss    0.931469
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:00<27:12,  3.96it/s]

Epoch: 34, Iter: 7400/13867
    loss    0.95192
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:50<26:14,  3.98it/s]

Epoch: 34, Iter: 7600/13867
    loss    0.962646
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:40<25:05,  4.03it/s]

Epoch: 34, Iter: 7800/13867
    loss    0.964397
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:33<24:40,  3.96it/s]

Epoch: 34, Iter: 8000/13867
    loss    0.946339
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:23<23:49,  3.96it/s]

Epoch: 34, Iter: 8200/13867
    loss    0.946022
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:12<23:06,  3.94it/s]

Epoch: 34, Iter: 8400/13867
    loss    0.963158
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:02<21:51,  4.01it/s]

Epoch: 34, Iter: 8600/13867
    loss    0.949517
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:51<21:07,  4.00it/s]

Epoch: 34, Iter: 8800/13867
    loss    0.924519
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:41<20:21,  3.98it/s]

Epoch: 34, Iter: 9000/13867
    loss    0.943498
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:34<19:38,  3.96it/s]

Epoch: 34, Iter: 9200/13867
    loss    0.948738
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:24<18:55,  3.93it/s]

Epoch: 34, Iter: 9400/13867
    loss    0.943808
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:14<18:02,  3.94it/s]

Epoch: 34, Iter: 9600/13867
    loss    0.948235
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:03<17:02,  3.98it/s]

Epoch: 34, Iter: 9800/13867
    loss    0.963644
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:53<16:12,  3.97it/s]

Epoch: 34, Iter: 10000/13867
    loss    0.939467
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:43<15:20,  3.98it/s]

Epoch: 34, Iter: 10200/13867
    loss    0.949622
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:36<14:59,  3.85it/s]

Epoch: 34, Iter: 10400/13867
    loss    0.943098
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:26<13:39,  3.98it/s]

Epoch: 34, Iter: 10600/13867
    loss    0.945062
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:15<12:42,  4.02it/s]

Epoch: 34, Iter: 10800/13867
    loss    0.916157
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:05<12:15,  3.90it/s]

Epoch: 34, Iter: 11000/13867
    loss    0.940226
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:55<11:16,  3.94it/s]

Epoch: 34, Iter: 11200/13867
    loss    0.914827
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:44<10:18,  3.99it/s]

Epoch: 34, Iter: 11400/13867
    loss    0.950127
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:34<09:43,  3.88it/s]

Epoch: 34, Iter: 11600/13867
    loss    0.940745
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:27<08:40,  3.97it/s]

Epoch: 34, Iter: 11800/13867
    loss    0.941494
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:17<07:52,  3.95it/s]

Epoch: 34, Iter: 12000/13867
    loss    0.947644
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:07<06:58,  3.98it/s]

Epoch: 34, Iter: 12200/13867
    loss    0.951925
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:56<06:11,  3.95it/s]

Epoch: 34, Iter: 12400/13867
    loss    0.945417
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:46<05:14,  4.03it/s]

Epoch: 34, Iter: 12600/13867
    loss    0.93099
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:36<04:27,  3.99it/s]

Epoch: 34, Iter: 12800/13867
    loss    0.932939
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:29<03:41,  3.90it/s]

Epoch: 34, Iter: 13000/13867
    loss    0.921828
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:19<02:47,  3.98it/s]

Epoch: 34, Iter: 13200/13867
    loss    0.924045
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:09<01:55,  4.03it/s]

Epoch: 34, Iter: 13400/13867
    loss    0.937697
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:58<01:08,  3.90it/s]

Epoch: 34, Iter: 13600/13867
    loss    0.938554
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:48<00:16,  3.99it/s]

Epoch: 34, Iter: 13800/13867
    loss    0.963022
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:04<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:30<00:00,  8.97it/s]



Epoch 34: Train 91.83
Epoch 34: Valid 65.65
Epoch 34: Best 65.72
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:48,  3.94it/s]

Epoch: 35, Iter: 200/13867
    loss    0.944075
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:50,  3.95it/s]

Epoch: 35, Iter: 400/13867
    loss    0.915082
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:28<55:47,  3.96it/s]

Epoch: 35, Iter: 600/13867
    loss    0.940563
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:18<54:51,  3.97it/s]

Epoch: 35, Iter: 800/13867
    loss    0.912707
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:07<53:23,  4.02it/s]

Epoch: 35, Iter: 1000/13867
    loss    0.912935
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:25,  3.95it/s]

Epoch: 35, Iter: 1200/13867
    loss    0.914987
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:50<51:09,  4.06it/s]

Epoch: 35, Iter: 1400/13867
    loss    0.910265
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<52:00,  3.93it/s]

Epoch: 35, Iter: 1600/13867
    loss    0.922785
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<51:22,  3.91it/s]

Epoch: 35, Iter: 1800/13867
    loss    0.930694
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:19<50:41,  3.90it/s]

Epoch: 35, Iter: 2000/13867
    loss    0.885412
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:09<49:23,  3.94it/s]

Epoch: 35, Iter: 2200/13867
    loss    0.950718
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:02<48:07,  3.97it/s]

Epoch: 35, Iter: 2400/13867
    loss    0.919781
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:52<47:51,  3.92it/s]

Epoch: 35, Iter: 2600/13867
    loss    0.927016
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:41<45:10,  4.08it/s]

Epoch: 35, Iter: 2800/13867
    loss    0.906642
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:31<45:12,  4.01it/s]

Epoch: 35, Iter: 3000/13867
    loss    0.913478
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:20<44:36,  3.99it/s]

Epoch: 35, Iter: 3200/13867
    loss    0.925902
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:10<44:20,  3.93it/s]

Epoch: 35, Iter: 3400/13867
    loss    0.929223
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:00<42:49,  4.00it/s]

Epoch: 35, Iter: 3600/13867
    loss    0.952761
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:53<42:32,  3.94it/s]

Epoch: 35, Iter: 3800/13867
    loss    0.92312
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:43<42:03,  3.91it/s]

Epoch: 35, Iter: 4000/13867
    loss    0.901909
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:33<40:51,  3.94it/s]

Epoch: 35, Iter: 4200/13867
    loss    0.940926
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<39:41,  3.97it/s]

Epoch: 35, Iter: 4400/13867
    loss    0.932416
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:12<38:57,  3.96it/s]

Epoch: 35, Iter: 4600/13867
    loss    0.938037
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:02<38:18,  3.94it/s]

Epoch: 35, Iter: 4800/13867
    loss    0.91957
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:56<37:51,  3.90it/s]

Epoch: 35, Iter: 5000/13867
    loss    0.934811
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:45<36:23,  3.97it/s]

Epoch: 35, Iter: 5200/13867
    loss    0.932285
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:35<36:12,  3.90it/s]

Epoch: 35, Iter: 5400/13867
    loss    0.934545
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:25<34:15,  4.02it/s]

Epoch: 35, Iter: 5600/13867
    loss    0.931212
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:15<34:19,  3.92it/s]

Epoch: 35, Iter: 5800/13867
    loss    0.932975
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:04<33:33,  3.91it/s]

Epoch: 35, Iter: 6000/13867
    loss    0.95177
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:54<32:00,  3.99it/s]

Epoch: 35, Iter: 6200/13867
    loss    0.952704
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:47<30:42,  4.05it/s]

Epoch: 35, Iter: 6400/13867
    loss    0.949036
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:36<30:51,  3.92it/s]

Epoch: 35, Iter: 6600/13867
    loss    0.913125
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:26<30:14,  3.89it/s]

Epoch: 35, Iter: 6800/13867
    loss    0.947459
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:16<28:27,  4.02it/s]

Epoch: 35, Iter: 7000/13867
    loss    0.904072
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:06<28:04,  3.96it/s]

Epoch: 35, Iter: 7200/13867
    loss    0.933397
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:56<27:15,  3.95it/s]

Epoch: 35, Iter: 7400/13867
    loss    0.930648
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:49<26:19,  3.97it/s]

Epoch: 35, Iter: 7600/13867
    loss    0.926473
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:39<25:26,  3.97it/s]

Epoch: 35, Iter: 7800/13867
    loss    0.932381
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:28<24:48,  3.94it/s]

Epoch: 35, Iter: 8000/13867
    loss    0.948646
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:18<24:15,  3.89it/s]

Epoch: 35, Iter: 8200/13867
    loss    0.915195
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:08<22:47,  4.00it/s]

Epoch: 35, Iter: 8400/13867
    loss    0.934334
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:58<22:37,  3.88it/s]

Epoch: 35, Iter: 8600/13867
    loss    0.944971
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:47<21:27,  3.93it/s]

Epoch: 35, Iter: 8800/13867
    loss    0.949807
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:41<20:36,  3.94it/s]

Epoch: 35, Iter: 9000/13867
    loss    0.923497
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:30<19:23,  4.01it/s]

Epoch: 35, Iter: 9200/13867
    loss    0.932194
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:20<18:35,  4.00it/s]

Epoch: 35, Iter: 9400/13867
    loss    0.931103
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:10<18:02,  3.94it/s]

Epoch: 35, Iter: 9600/13867
    loss    0.910527
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:59<17:15,  3.93it/s]

Epoch: 35, Iter: 9800/13867
    loss    0.934553
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:49<16:15,  3.96it/s]

Epoch: 35, Iter: 10000/13867
    loss    0.924531
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:42<15:56,  3.83it/s]

Epoch: 35, Iter: 10200/13867
    loss    0.923761
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:31<14:26,  4.00it/s]

Epoch: 35, Iter: 10400/13867
    loss    0.908322
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:21<13:32,  4.02it/s]

Epoch: 35, Iter: 10600/13867
    loss    0.928051
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:10<12:41,  4.03it/s]

Epoch: 35, Iter: 10800/13867
    loss    0.940427
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:00<11:59,  3.98it/s]

Epoch: 35, Iter: 11000/13867
    loss    0.928325
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:50<11:19,  3.92it/s]

Epoch: 35, Iter: 11200/13867
    loss    0.939624
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:40<10:21,  3.97it/s]

Epoch: 35, Iter: 11400/13867
    loss    0.926475
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:33<09:27,  3.99it/s]

Epoch: 35, Iter: 11600/13867
    loss    0.924732
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:23<08:55,  3.86it/s]

Epoch: 35, Iter: 11800/13867
    loss    0.922266
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:12<07:43,  4.03it/s]

Epoch: 35, Iter: 12000/13867
    loss    0.919513
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:02<07:05,  3.91it/s]

Epoch: 35, Iter: 12200/13867
    loss    0.961536
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:51<06:14,  3.91it/s]

Epoch: 35, Iter: 12400/13867
    loss    0.927419
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:41<05:24,  3.91it/s]

Epoch: 35, Iter: 12600/13867
    loss    0.929972
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:31<04:26,  4.01it/s]

Epoch: 35, Iter: 12800/13867
    loss    0.912977
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:24<03:39,  3.94it/s]

Epoch: 35, Iter: 13000/13867
    loss    0.924813
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:14<02:46,  4.00it/s]

Epoch: 35, Iter: 13200/13867
    loss    0.91964
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:03<02:00,  3.86it/s]

Epoch: 35, Iter: 13400/13867
    loss    0.932823
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:53<01:07,  3.96it/s]

Epoch: 35, Iter: 13600/13867
    loss    0.902651
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:43<00:16,  3.93it/s]

Epoch: 35, Iter: 13800/13867
    loss    0.924023
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [57:59<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:30<00:00,  8.95it/s]



Epoch 35: Train 91.93
Epoch 35: Valid 65.68
Epoch 35: Best 65.72
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<58:18,  3.91it/s]

Epoch: 36, Iter: 200/13867
    loss    0.889058
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:08,  4.00it/s]

Epoch: 36, Iter: 400/13867
    loss    0.924837
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<55:27,  3.99it/s]

Epoch: 36, Iter: 600/13867
    loss    0.912402
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:18<54:37,  3.99it/s]

Epoch: 36, Iter: 800/13867
    loss    0.903108
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:12<54:43,  3.92it/s]

Epoch: 36, Iter: 1000/13867
    loss    0.903465
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:02<52:26,  4.02it/s]

Epoch: 36, Iter: 1200/13867
    loss    0.931126
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:57,  3.92it/s]

Epoch: 36, Iter: 1400/13867
    loss    0.899079
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<51:10,  4.00it/s]

Epoch: 36, Iter: 1600/13867
    loss    0.915815
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:31<51:27,  3.91it/s]

Epoch: 36, Iter: 1800/13867
    loss    0.939407
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<50:43,  3.90it/s]

Epoch: 36, Iter: 2000/13867
    loss    0.905774
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:10<48:37,  4.00it/s]

Epoch: 36, Iter: 2200/13867
    loss    0.907457
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<47:55,  3.99it/s]

Epoch: 36, Iter: 2400/13867
    loss    0.914546
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:53<47:15,  3.97it/s]

Epoch: 36, Iter: 2600/13867
    loss    0.942334
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<46:41,  3.95it/s]

Epoch: 36, Iter: 2800/13867
    loss    0.910741
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<46:09,  3.92it/s]

Epoch: 36, Iter: 3000/13867
    loss    0.932595
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:22<45:33,  3.90it/s]

Epoch: 36, Iter: 3200/13867
    loss    0.923292
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<44:28,  3.92it/s]

Epoch: 36, Iter: 3400/13867
    loss    0.911676
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<43:20,  3.95it/s]

Epoch: 36, Iter: 3600/13867
    loss    0.924854
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:54<41:49,  4.01it/s]

Epoch: 36, Iter: 3800/13867
    loss    0.900395
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:44<41:36,  3.95it/s]

Epoch: 36, Iter: 4000/13867
    loss    0.914226
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:34<39:57,  4.03it/s]

Epoch: 36, Iter: 4200/13867
    loss    0.918115
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:24<41:05,  3.84it/s]

Epoch: 36, Iter: 4400/13867
    loss    0.947741
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:14<39:49,  3.88it/s]

Epoch: 36, Iter: 4600/13867
    loss    0.927218
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:04<37:32,  4.03it/s]

Epoch: 36, Iter: 4800/13867
    loss    0.922123
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:57<37:45,  3.91it/s]

Epoch: 36, Iter: 5000/13867
    loss    0.92347
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:47<37:05,  3.89it/s]

Epoch: 36, Iter: 5200/13867
    loss    0.911874
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:36<35:40,  3.95it/s]

Epoch: 36, Iter: 5400/13867
    loss    0.91977
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:26<34:18,  4.02it/s]

Epoch: 36, Iter: 5600/13867
    loss    0.898469
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:16<34:16,  3.92it/s]

Epoch: 36, Iter: 5800/13867
    loss    0.902885
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:06<33:22,  3.93it/s]

Epoch: 36, Iter: 6000/13867
    loss    0.910864
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:55<32:19,  3.95it/s]

Epoch: 36, Iter: 6200/13867
    loss    0.910287
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:49<31:43,  3.92it/s]

Epoch: 36, Iter: 6400/13867
    loss    0.917203
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:38<30:23,  3.99it/s]

Epoch: 36, Iter: 6600/13867
    loss    0.923494
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:28<30:00,  3.93it/s]

Epoch: 36, Iter: 6800/13867
    loss    0.878747
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:18<28:48,  3.97it/s]

Epoch: 36, Iter: 7000/13867
    loss    0.919268
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:08<27:56,  3.98it/s]

Epoch: 36, Iter: 7200/13867
    loss    0.92696
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:57<27:24,  3.93it/s]

Epoch: 36, Iter: 7400/13867
    loss    0.91346
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:47<26:04,  4.01it/s]

Epoch: 36, Iter: 7600/13867
    loss    0.912891
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:40<25:35,  3.95it/s]

Epoch: 36, Iter: 7800/13867
    loss    0.890776
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:30<24:31,  3.99it/s]

Epoch: 36, Iter: 8000/13867
    loss    0.917654
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:19<24:31,  3.85it/s]

Epoch: 36, Iter: 8200/13867
    loss    0.91353
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:09<23:09,  3.93it/s]

Epoch: 36, Iter: 8400/13867
    loss    0.916385
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:58<21:52,  4.01it/s]

Epoch: 36, Iter: 8600/13867
    loss    0.885809
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:48<21:28,  3.93it/s]

Epoch: 36, Iter: 8800/13867
    loss    0.905281
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:38<20:15,  4.00it/s]

Epoch: 36, Iter: 9000/13867
    loss    0.903682
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:31<19:46,  3.93it/s]

Epoch: 36, Iter: 9200/13867
    loss    0.894142
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:21<18:31,  4.02it/s]

Epoch: 36, Iter: 9400/13867
    loss    0.905211
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:10<17:44,  4.01it/s]

Epoch: 36, Iter: 9600/13867
    loss    0.882301
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:00<17:22,  3.90it/s]

Epoch: 36, Iter: 9800/13867
    loss    0.879427
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:50<16:18,  3.95it/s]

Epoch: 36, Iter: 10000/13867
    loss    0.921404
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:40<15:14,  4.01it/s]

Epoch: 36, Iter: 10200/13867
    loss    0.928338
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:33<14:32,  3.97it/s]

Epoch: 36, Iter: 10400/13867
    loss    0.901361
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:23<13:42,  3.97it/s]

Epoch: 36, Iter: 10600/13867
    loss    0.890826
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:12<12:54,  3.96it/s]

Epoch: 36, Iter: 10800/13867
    loss    0.895176
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:02<12:06,  3.94it/s]

Epoch: 36, Iter: 11000/13867
    loss    0.925351
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:52<11:16,  3.94it/s]

Epoch: 36, Iter: 11200/13867
    loss    0.92122
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:41<10:20,  3.98it/s]

Epoch: 36, Iter: 11400/13867
    loss    0.926633
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:31<09:32,  3.96it/s]

Epoch: 36, Iter: 11600/13867
    loss    0.911148
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:24<08:48,  3.91it/s]

Epoch: 36, Iter: 11800/13867
    loss    0.910004
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:14<07:52,  3.95it/s]

Epoch: 36, Iter: 12000/13867
    loss    0.913548
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:04<07:08,  3.89it/s]

Epoch: 36, Iter: 12200/13867
    loss    0.907453
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:54<06:08,  3.98it/s]

Epoch: 36, Iter: 12400/13867
    loss    0.918649
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:43<05:18,  3.98it/s]

Epoch: 36, Iter: 12600/13867
    loss    0.93424
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:33<04:31,  3.92it/s]

Epoch: 36, Iter: 12800/13867
    loss    0.914704
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:23<03:38,  3.96it/s]

Epoch: 36, Iter: 13000/13867
    loss    0.930176
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:16<02:55,  3.79it/s]

Epoch: 36, Iter: 13200/13867
    loss    0.887316
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:06<01:58,  3.95it/s]

Epoch: 36, Iter: 13400/13867
    loss    0.94899
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:56<01:06,  3.99it/s]

Epoch: 36, Iter: 13600/13867
    loss    0.916826
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:46<00:16,  4.03it/s]

Epoch: 36, Iter: 13800/13867
    loss    0.903098
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:02<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:30<00:00,  8.95it/s]



Epoch 36: Train 91.98
Epoch 36: Valid 65.78
Epoch 36: Best 65.78
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:45,  4.01it/s]

Epoch: 37, Iter: 200/13867
    loss    0.914847
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:13,  3.99it/s]

Epoch: 37, Iter: 400/13867
    loss    0.875871
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<56:53,  3.89it/s]

Epoch: 37, Iter: 600/13867
    loss    0.91945
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:18<54:48,  3.97it/s]

Epoch: 37, Iter: 800/13867
    loss    0.868282
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:08<54:02,  3.97it/s]

Epoch: 37, Iter: 1000/13867
    loss    0.890981
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [04:58<53:37,  3.94it/s]

Epoch: 37, Iter: 1200/13867
    loss    0.89507
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:12,  3.98it/s]

Epoch: 37, Iter: 1400/13867
    loss    0.879877
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:41<51:39,  3.96it/s]

Epoch: 37, Iter: 1600/13867
    loss    0.898191
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:00,  4.02it/s]

Epoch: 37, Iter: 1800/13867
    loss    0.886016
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:20<50:31,  3.91it/s]

Epoch: 37, Iter: 2000/13867
    loss    0.877211
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:10<49:04,  3.96it/s]

Epoch: 37, Iter: 2200/13867
    loss    0.900861
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [09:59<48:46,  3.92it/s]

Epoch: 37, Iter: 2400/13867
    loss    0.906358
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:49<47:20,  3.97it/s]

Epoch: 37, Iter: 2600/13867
    loss    0.896302
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<45:31,  4.05it/s]

Epoch: 37, Iter: 2800/13867
    loss    0.896953
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<45:42,  3.96it/s]

Epoch: 37, Iter: 3000/13867
    loss    0.879057
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:21<45:14,  3.93it/s]

Epoch: 37, Iter: 3200/13867
    loss    0.923802
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:11<44:39,  3.91it/s]

Epoch: 37, Iter: 3400/13867
    loss    0.880421
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:01<44:12,  3.87it/s]

Epoch: 37, Iter: 3600/13867
    loss    0.935147
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:51<42:20,  3.96it/s]

Epoch: 37, Iter: 3800/13867
    loss    0.874846
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:40<41:51,  3.93it/s]

Epoch: 37, Iter: 4000/13867
    loss    0.902637
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:34<41:24,  3.89it/s]

Epoch: 37, Iter: 4200/13867
    loss    0.89965
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:23<40:08,  3.93it/s]

Epoch: 37, Iter: 4400/13867
    loss    0.895627
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:13<39:14,  3.94it/s]

Epoch: 37, Iter: 4600/13867
    loss    0.897176
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:03<38:35,  3.92it/s]

Epoch: 37, Iter: 4800/13867
    loss    0.889993
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:53<37:34,  3.93it/s]

Epoch: 37, Iter: 5000/13867
    loss    0.922323
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:43<36:13,  3.99it/s]

Epoch: 37, Iter: 5200/13867
    loss    0.897473
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:33<35:55,  3.93it/s]

Epoch: 37, Iter: 5400/13867
    loss    0.907656
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:26<35:00,  3.94it/s]

Epoch: 37, Iter: 5600/13867
    loss    0.880785
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:16<33:52,  3.97it/s]

Epoch: 37, Iter: 5800/13867
    loss    0.880598
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:06<33:00,  3.97it/s]

Epoch: 37, Iter: 6000/13867
    loss    0.908222
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:55<32:20,  3.95it/s]

Epoch: 37, Iter: 6200/13867
    loss    0.889783
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:45<31:58,  3.89it/s]

Epoch: 37, Iter: 6400/13867
    loss    0.863867
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:35<30:55,  3.92it/s]

Epoch: 37, Iter: 6600/13867
    loss    0.898301
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:28<29:22,  4.01it/s]

Epoch: 37, Iter: 6800/13867
    loss    0.904206
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:18<29:11,  3.92it/s]

Epoch: 37, Iter: 7000/13867
    loss    0.892121
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:08<27:55,  3.98it/s]

Epoch: 37, Iter: 7200/13867
    loss    0.871498
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:58<27:07,  3.97it/s]

Epoch: 37, Iter: 7400/13867
    loss    0.900185
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:47<26:10,  3.99it/s]

Epoch: 37, Iter: 7600/13867
    loss    0.891346
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:37<25:57,  3.89it/s]

Epoch: 37, Iter: 7800/13867
    loss    0.92672
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:27<25:02,  3.90it/s]

Epoch: 37, Iter: 8000/13867
    loss    0.919498
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:20<23:35,  4.00it/s]

Epoch: 37, Iter: 8200/13867
    loss    0.906653
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:10<23:47,  3.83it/s]

Epoch: 37, Iter: 8400/13867
    loss    0.900411
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:59<22:34,  3.89it/s]

Epoch: 37, Iter: 8600/13867
    loss    0.909991
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:49<21:43,  3.89it/s]

Epoch: 37, Iter: 8800/13867
    loss    0.884881
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:39<20:31,  3.95it/s]

Epoch: 37, Iter: 9000/13867
    loss    0.888943
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:28<19:36,  3.97it/s]

Epoch: 37, Iter: 9200/13867
    loss    0.884443
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:18<19:02,  3.91it/s]

Epoch: 37, Iter: 9400/13867
    loss    0.891085
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:12<18:12,  3.91it/s]

Epoch: 37, Iter: 9600/13867
    loss    0.907886
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:02<17:28,  3.88it/s]

Epoch: 37, Iter: 9800/13867
    loss    0.915109
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:52<16:17,  3.95it/s]

Epoch: 37, Iter: 10000/13867
    loss    0.909426
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:41<15:30,  3.94it/s]

Epoch: 37, Iter: 10200/13867
    loss    0.904738
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:31<14:40,  3.94it/s]

Epoch: 37, Iter: 10400/13867
    loss    0.899723
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:21<13:48,  3.94it/s]

Epoch: 37, Iter: 10600/13867
    loss    0.910962
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:10<12:41,  4.03it/s]

Epoch: 37, Iter: 10800/13867
    loss    0.913213
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:04<12:11,  3.92it/s]

Epoch: 37, Iter: 11000/13867
    loss    0.901225
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:53<11:15,  3.95it/s]

Epoch: 37, Iter: 11200/13867
    loss    0.912511
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:43<10:22,  3.96it/s]

Epoch: 37, Iter: 11400/13867
    loss    0.892035
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:32<09:34,  3.95it/s]

Epoch: 37, Iter: 11600/13867
    loss    0.912661
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:22<08:34,  4.01it/s]

Epoch: 37, Iter: 11800/13867
    loss    0.897571
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:12<07:52,  3.95it/s]

Epoch: 37, Iter: 12000/13867
    loss    0.909126
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:02<06:59,  3.97it/s]

Epoch: 37, Iter: 12200/13867
    loss    0.905814
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:55<06:06,  4.00it/s]

Epoch: 37, Iter: 12400/13867
    loss    0.910284
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:45<05:23,  3.92it/s]

Epoch: 37, Iter: 12600/13867
    loss    0.91031
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:35<04:32,  3.91it/s]

Epoch: 37, Iter: 12800/13867
    loss    0.892409
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:24<03:43,  3.87it/s]

Epoch: 37, Iter: 13000/13867
    loss    0.917729
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:14<02:45,  4.01it/s]

Epoch: 37, Iter: 13200/13867
    loss    0.893998
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:04<01:57,  3.98it/s]

Epoch: 37, Iter: 13400/13867
    loss    0.890677
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:54<01:08,  3.88it/s]

Epoch: 37, Iter: 13600/13867
    loss    0.892893
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:47<00:16,  3.94it/s]

Epoch: 37, Iter: 13800/13867
    loss    0.891078
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:04<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.33it/s]



Epoch 37: Train 92.05
Epoch 37: Valid 65.98
Epoch 37: Best 65.98
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:56,  4.00it/s]

Epoch: 38, Iter: 200/13867
    loss    0.911592
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<57:28,  3.91it/s]

Epoch: 38, Iter: 400/13867
    loss    0.884483
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:28<55:33,  3.98it/s]

Epoch: 38, Iter: 600/13867
    loss    0.89492
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:22<55:44,  3.91it/s]

Epoch: 38, Iter: 800/13867
    loss    0.891527
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:11<54:41,  3.92it/s]

Epoch: 38, Iter: 1000/13867
    loss    0.922443
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<53:01,  3.98it/s]

Epoch: 38, Iter: 1200/13867
    loss    0.874368
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:07,  3.99it/s]

Epoch: 38, Iter: 1400/13867
    loss    0.92075
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<51:40,  3.96it/s]

Epoch: 38, Iter: 1600/13867
    loss    0.865971
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:30<50:48,  3.96it/s]

Epoch: 38, Iter: 1800/13867
    loss    0.874061
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:19<50:09,  3.94it/s]

Epoch: 38, Iter: 2000/13867
    loss    0.867919
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:13<50:44,  3.83it/s]

Epoch: 38, Iter: 2200/13867
    loss    0.893685
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<47:56,  3.99it/s]

Epoch: 38, Iter: 2400/13867
    loss    0.859887
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:53<46:14,  4.06it/s]

Epoch: 38, Iter: 2600/13867
    loss    0.870616
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<45:53,  4.02it/s]

Epoch: 38, Iter: 2800/13867
    loss    0.874449
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<45:56,  3.94it/s]

Epoch: 38, Iter: 3000/13867
    loss    0.874825
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:22<45:36,  3.90it/s]

Epoch: 38, Iter: 3200/13867
    loss    0.894972
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:12<44:26,  3.93it/s]

Epoch: 38, Iter: 3400/13867
    loss    0.885913
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:05<45:01,  3.80it/s]

Epoch: 38, Iter: 3600/13867
    loss    0.894618
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:55<42:58,  3.90it/s]

Epoch: 38, Iter: 3800/13867
    loss    0.855732
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:45<41:17,  3.98it/s]

Epoch: 38, Iter: 4000/13867
    loss    0.876549
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:34<41:11,  3.91it/s]

Epoch: 38, Iter: 4200/13867
    loss    0.853187
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:24<40:36,  3.89it/s]

Epoch: 38, Iter: 4400/13867
    loss    0.86456
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:14<39:41,  3.89it/s]

Epoch: 38, Iter: 4600/13867
    loss    0.884803
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:04<37:56,  3.98it/s]

Epoch: 38, Iter: 4800/13867
    loss    0.908136
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:58<36:57,  4.00it/s]

Epoch: 38, Iter: 5000/13867
    loss    0.902558
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:48<36:41,  3.94it/s]

Epoch: 38, Iter: 5200/13867
    loss    0.900363
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:38<36:15,  3.89it/s]

Epoch: 38, Iter: 5400/13867
    loss    0.868717
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:27<34:58,  3.94it/s]

Epoch: 38, Iter: 5600/13867
    loss    0.891509
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:17<34:24,  3.91it/s]

Epoch: 38, Iter: 5800/13867
    loss    0.876193
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:07<32:36,  4.02it/s]

Epoch: 38, Iter: 6000/13867
    loss    0.898284
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:57<32:13,  3.97it/s]

Epoch: 38, Iter: 6200/13867
    loss    0.878257
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:50<31:10,  3.99it/s]

Epoch: 38, Iter: 6400/13867
    loss    0.885924
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:40<30:05,  4.03it/s]

Epoch: 38, Iter: 6600/13867
    loss    0.885071
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:30<29:56,  3.93it/s]

Epoch: 38, Iter: 6800/13867
    loss    0.872078
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:20<28:39,  3.99it/s]

Epoch: 38, Iter: 7000/13867
    loss    0.88502
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:09<28:08,  3.95it/s]

Epoch: 38, Iter: 7200/13867
    loss    0.863961
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:59<26:39,  4.04it/s]

Epoch: 38, Iter: 7400/13867
    loss    0.914828
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:49<27:14,  3.83it/s]

Epoch: 38, Iter: 7600/13867
    loss    0.880776
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:42<25:17,  4.00it/s]

Epoch: 38, Iter: 7800/13867
    loss    0.891139
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:32<24:57,  3.92it/s]

Epoch: 38, Iter: 8000/13867
    loss    0.864177
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:22<23:53,  3.95it/s]

Epoch: 38, Iter: 8200/13867
    loss    0.904527
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:11<23:20,  3.90it/s]

Epoch: 38, Iter: 8400/13867
    loss    0.890884
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:01<22:16,  3.94it/s]

Epoch: 38, Iter: 8600/13867
    loss    0.874907
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:51<21:18,  3.96it/s]

Epoch: 38, Iter: 8800/13867
    loss    0.875776
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:40<20:37,  3.93it/s]

Epoch: 38, Iter: 9000/13867
    loss    0.89632
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:34<19:54,  3.91it/s]

Epoch: 38, Iter: 9200/13867
    loss    0.900474
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:24<18:41,  3.98it/s]

Epoch: 38, Iter: 9400/13867
    loss    0.893988
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:14<18:17,  3.89it/s]

Epoch: 38, Iter: 9600/13867
    loss    0.879146
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:03<17:01,  3.98it/s]

Epoch: 38, Iter: 9800/13867
    loss    0.885856
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:53<16:27,  3.92it/s]

Epoch: 38, Iter: 10000/13867
    loss    0.883025
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:43<15:41,  3.89it/s]

Epoch: 38, Iter: 10200/13867
    loss    0.860507
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:32<14:30,  3.98it/s]

Epoch: 38, Iter: 10400/13867
    loss    0.916222
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:26<13:50,  3.93it/s]

Epoch: 38, Iter: 10600/13867
    loss    0.897619
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:15<12:59,  3.93it/s]

Epoch: 38, Iter: 10800/13867
    loss    0.885834
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:05<12:07,  3.94it/s]

Epoch: 38, Iter: 11000/13867
    loss    0.889663
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:55<11:31,  3.86it/s]

Epoch: 38, Iter: 11200/13867
    loss    0.878591
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:44<10:17,  4.00it/s]

Epoch: 38, Iter: 11400/13867
    loss    0.889049
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:34<09:36,  3.93it/s]

Epoch: 38, Iter: 11600/13867
    loss    0.852122
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:24<08:41,  3.96it/s]

Epoch: 38, Iter: 11800/13867
    loss    0.911328
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:18<07:55,  3.92it/s]

Epoch: 38, Iter: 12000/13867
    loss    0.878907
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:07<07:04,  3.92it/s]

Epoch: 38, Iter: 12200/13867
    loss    0.867477
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:57<06:14,  3.91it/s]

Epoch: 38, Iter: 12400/13867
    loss    0.896809
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:47<05:30,  3.83it/s]

Epoch: 38, Iter: 12600/13867
    loss    0.870569
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:36<04:30,  3.93it/s]

Epoch: 38, Iter: 12800/13867
    loss    0.903112
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:26<03:43,  3.87it/s]

Epoch: 38, Iter: 13000/13867
    loss    0.886296
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:16<02:51,  3.88it/s]

Epoch: 38, Iter: 13200/13867
    loss    0.866181
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:10<01:56,  4.02it/s]

Epoch: 38, Iter: 13400/13867
    loss    0.887085
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [56:59<01:06,  4.01it/s]

Epoch: 38, Iter: 13600/13867
    loss    0.865836
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:49<00:16,  3.89it/s]

Epoch: 38, Iter: 13800/13867
    loss    0.887908
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:05<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.30it/s]



Epoch 38: Train 92.11
Epoch 38: Valid 65.98
Epoch 38: Best 65.98
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:12,  4.05it/s]

Epoch: 39, Iter: 200/13867
    loss    0.859567
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:43<57:14,  3.92it/s]

Epoch: 39, Iter: 400/13867
    loss    0.854074
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:32<56:26,  3.92it/s]

Epoch: 39, Iter: 600/13867
    loss    0.866623
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:22<55:58,  3.89it/s]

Epoch: 39, Iter: 800/13867
    loss    0.875309
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:11<54:15,  3.95it/s]

Epoch: 39, Iter: 1000/13867
    loss    0.867856
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:01<54:14,  3.89it/s]

Epoch: 39, Iter: 1200/13867
    loss    0.856891
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:51<52:28,  3.96it/s]

Epoch: 39, Iter: 1400/13867
    loss    0.858912
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:40<50:40,  4.03it/s]

Epoch: 39, Iter: 1600/13867
    loss    0.864812
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:34<50:59,  3.94it/s]

Epoch: 39, Iter: 1800/13867
    loss    0.853989
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:23<50:21,  3.93it/s]

Epoch: 39, Iter: 2000/13867
    loss    0.8968
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:13<49:05,  3.96it/s]

Epoch: 39, Iter: 2200/13867
    loss    0.85119
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:03<47:48,  4.00it/s]

Epoch: 39, Iter: 2400/13867
    loss    0.871271
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:53<46:39,  4.02it/s]

Epoch: 39, Iter: 2600/13867
    loss    0.892773
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<47:35,  3.88it/s]

Epoch: 39, Iter: 2800/13867
    loss    0.882628
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:32<45:41,  3.96it/s]

Epoch: 39, Iter: 3000/13867
    loss    0.887278
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:25<44:52,  3.96it/s]

Epoch: 39, Iter: 3200/13867
    loss    0.904724
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:15<43:27,  4.01it/s]

Epoch: 39, Iter: 3400/13867
    loss    0.870602
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:05<43:09,  3.96it/s]

Epoch: 39, Iter: 3600/13867
    loss    0.886445
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:54<43:25,  3.86it/s]

Epoch: 39, Iter: 3800/13867
    loss    0.854061
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:44<41:35,  3.95it/s]

Epoch: 39, Iter: 4000/13867
    loss    0.862442
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:34<41:09,  3.91it/s]

Epoch: 39, Iter: 4200/13867
    loss    0.869122
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:24<39:58,  3.95it/s]

Epoch: 39, Iter: 4400/13867
    loss    0.890553
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:18<47:04,  3.28it/s]

Epoch: 39, Iter: 4600/13867
    loss    0.893094
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:08<38:33,  3.92it/s]

Epoch: 39, Iter: 4800/13867
    loss    0.866502
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:58<37:06,  3.98it/s]

Epoch: 39, Iter: 5000/13867
    loss    0.846116
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:48<37:06,  3.89it/s]

Epoch: 39, Iter: 5200/13867
    loss    0.892539
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:37<35:54,  3.93it/s]

Epoch: 39, Iter: 5400/13867
    loss    0.875103
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:27<34:43,  3.97it/s]

Epoch: 39, Iter: 5600/13867
    loss    0.857307
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:17<33:35,  4.00it/s]

Epoch: 39, Iter: 5800/13867
    loss    0.883283
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:07<33:25,  3.92it/s]

Epoch: 39, Iter: 6000/13867
    loss    0.867104
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:00<31:42,  4.03it/s]

Epoch: 39, Iter: 6200/13867
    loss    0.865261
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:50<30:30,  4.08it/s]

Epoch: 39, Iter: 6400/13867
    loss    0.903681
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:40<31:01,  3.90it/s]

Epoch: 39, Iter: 6600/13867
    loss    0.865819
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:30<29:48,  3.95it/s]

Epoch: 39, Iter: 6800/13867
    loss    0.851672
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:19<28:56,  3.95it/s]

Epoch: 39, Iter: 7000/13867
    loss    0.880771
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:09<28:07,  3.95it/s]

Epoch: 39, Iter: 7200/13867
    loss    0.875573
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:59<27:07,  3.97it/s]

Epoch: 39, Iter: 7400/13867
    loss    0.875281
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:52<26:43,  3.91it/s]

Epoch: 39, Iter: 7600/13867
    loss    0.889359
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:42<25:26,  3.97it/s]

Epoch: 39, Iter: 7800/13867
    loss    0.880329
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:32<24:38,  3.97it/s]

Epoch: 39, Iter: 8000/13867
    loss    0.870078
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:22<24:12,  3.90it/s]

Epoch: 39, Iter: 8200/13867
    loss    0.875964
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:11<23:03,  3.95it/s]

Epoch: 39, Iter: 8400/13867
    loss    0.880767
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:01<22:24,  3.92it/s]

Epoch: 39, Iter: 8600/13867
    loss    0.846995
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:51<21:10,  3.99it/s]

Epoch: 39, Iter: 8800/13867
    loss    0.876363
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:45<20:22,  3.98it/s]

Epoch: 39, Iter: 9000/13867
    loss    0.85361
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:35<19:29,  3.99it/s]

Epoch: 39, Iter: 9200/13867
    loss    0.874886
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:24<18:43,  3.98it/s]

Epoch: 39, Iter: 9400/13867
    loss    0.878748
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:14<17:46,  4.00it/s]

Epoch: 39, Iter: 9600/13867
    loss    0.878831
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:04<17:29,  3.87it/s]

Epoch: 39, Iter: 9800/13867
    loss    0.860401
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:54<16:23,  3.93it/s]

Epoch: 39, Iter: 10000/13867
    loss    0.883679
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:43<15:30,  3.94it/s]

Epoch: 39, Iter: 10200/13867
    loss    0.862373
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:37<14:38,  3.95it/s]

Epoch: 39, Iter: 10400/13867
    loss    0.900309
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:27<13:50,  3.93it/s]

Epoch: 39, Iter: 10600/13867
    loss    0.883255
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:16<12:40,  4.03it/s]

Epoch: 39, Iter: 10800/13867
    loss    0.873176
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:06<11:57,  3.99it/s]

Epoch: 39, Iter: 11000/13867
    loss    0.873875
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:56<11:14,  3.95it/s]

Epoch: 39, Iter: 11200/13867
    loss    0.88704
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:45<10:26,  3.93it/s]

Epoch: 39, Iter: 11400/13867
    loss    0.893139
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:35<09:29,  3.98it/s]

Epoch: 39, Iter: 11600/13867
    loss    0.875884
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:25<08:33,  4.02it/s]

Epoch: 39, Iter: 11800/13867
    loss    0.851601
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:18<07:52,  3.95it/s]

Epoch: 39, Iter: 12000/13867
    loss    0.872948
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:08<07:06,  3.91it/s]

Epoch: 39, Iter: 12200/13867
    loss    0.865065
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:58<06:12,  3.94it/s]

Epoch: 39, Iter: 12400/13867
    loss    0.859595
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:47<05:14,  4.03it/s]

Epoch: 39, Iter: 12600/13867
    loss    0.871145
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:37<04:27,  3.98it/s]

Epoch: 39, Iter: 12800/13867
    loss    0.868455
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:27<03:45,  3.85it/s]

Epoch: 39, Iter: 13000/13867
    loss    0.844039
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:17<02:45,  4.03it/s]

Epoch: 39, Iter: 13200/13867
    loss    0.865063
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:10<01:59,  3.89it/s]

Epoch: 39, Iter: 13400/13867
    loss    0.863448
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:00<01:07,  3.93it/s]

Epoch: 39, Iter: 13600/13867
    loss    0.824039
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:50<00:16,  4.01it/s]

Epoch: 39, Iter: 13800/13867
    loss    0.85325
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:07<00:00,  3.98it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.31it/s]



Epoch 39: Train 92.18
Epoch 39: Valid 66.01
Epoch 39: Best 66.01
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:06,  3.99it/s]

Epoch: 40, Iter: 200/13867
    loss    0.866424
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:43<57:49,  3.88it/s]

Epoch: 40, Iter: 400/13867
    loss    0.857412
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:33<55:16,  4.00it/s]

Epoch: 40, Iter: 600/13867
    loss    0.866964
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:23<56:06,  3.88it/s]

Epoch: 40, Iter: 800/13867
    loss    0.869611
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:12<54:47,  3.91it/s]

Epoch: 40, Iter: 1000/13867
    loss    0.862219
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:02<54:05,  3.90it/s]

Epoch: 40, Iter: 1200/13867
    loss    0.857365
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:52<52:13,  3.98it/s]

Epoch: 40, Iter: 1400/13867
    loss    0.853132
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<51:35,  3.96it/s]

Epoch: 40, Iter: 1600/13867
    loss    0.864325
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:35<51:03,  3.94it/s]

Epoch: 40, Iter: 1800/13867
    loss    0.858754
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:25<49:24,  4.00it/s]

Epoch: 40, Iter: 2000/13867
    loss    0.876814
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:15<49:16,  3.95it/s]

Epoch: 40, Iter: 2200/13867
    loss    0.85586
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:04<47:41,  4.01it/s]

Epoch: 40, Iter: 2400/13867
    loss    0.841355
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:54<48:26,  3.88it/s]

Epoch: 40, Iter: 2600/13867
    loss    0.84863
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:44<46:19,  3.98it/s]

Epoch: 40, Iter: 2800/13867
    loss    0.868341
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:33<46:38,  3.88it/s]

Epoch: 40, Iter: 3000/13867
    loss    0.86687
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▎                                                         | 3201/13867 [13:27<1:58:16,  1.50it/s]

Epoch: 40, Iter: 3200/13867
    loss    0.85654
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:17<44:32,  3.92it/s]

Epoch: 40, Iter: 3400/13867
    loss    0.866563
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:07<42:19,  4.04it/s]

Epoch: 40, Iter: 3600/13867
    loss    0.86538
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:56<42:07,  3.98it/s]

Epoch: 40, Iter: 3800/13867
    loss    0.86645
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:46<42:35,  3.86it/s]

Epoch: 40, Iter: 4000/13867
    loss    0.840898
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:36<40:42,  3.96it/s]

Epoch: 40, Iter: 4200/13867
    loss    0.85606
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:26<39:30,  3.99it/s]

Epoch: 40, Iter: 4400/13867
    loss    0.864251
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:16<38:25,  4.02it/s]

Epoch: 40, Iter: 4600/13867
    loss    0.861983
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:10<38:00,  3.98it/s]

Epoch: 40, Iter: 4800/13867
    loss    0.845371
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:00<38:43,  3.82it/s]

Epoch: 40, Iter: 5000/13867
    loss    0.854355
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:50<36:59,  3.90it/s]

Epoch: 40, Iter: 5200/13867
    loss    0.840652
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:41<35:26,  3.98it/s]

Epoch: 40, Iter: 5400/13867
    loss    0.860352
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:30<35:03,  3.93it/s]

Epoch: 40, Iter: 5600/13867
    loss    0.867408
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:20<33:43,  3.99it/s]

Epoch: 40, Iter: 5800/13867
    loss    0.851415
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:10<33:08,  3.95it/s]

Epoch: 40, Iter: 6000/13867
    loss    0.838134
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:04<31:45,  4.02it/s]

Epoch: 40, Iter: 6200/13867
    loss    0.877227
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:54<32:15,  3.86it/s]

Epoch: 40, Iter: 6400/13867
    loss    0.876022
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:44<30:46,  3.93it/s]

Epoch: 40, Iter: 6600/13867
    loss    0.85323
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:34<30:12,  3.90it/s]

Epoch: 40, Iter: 6800/13867
    loss    0.857076
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:23<29:18,  3.90it/s]

Epoch: 40, Iter: 7000/13867
    loss    0.860409
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:13<28:13,  3.94it/s]

Epoch: 40, Iter: 7200/13867
    loss    0.850507
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:03<27:10,  3.97it/s]

Epoch: 40, Iter: 7400/13867
    loss    0.864162
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:52<26:32,  3.93it/s]

Epoch: 40, Iter: 7600/13867
    loss    0.86802
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:46<26:06,  3.87it/s]

Epoch: 40, Iter: 7800/13867
    loss    0.861071
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:36<24:58,  3.91it/s]

Epoch: 40, Iter: 8000/13867
    loss    0.860032
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:26<23:49,  3.96it/s]

Epoch: 40, Iter: 8200/13867
    loss    0.868908
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:16<23:35,  3.86it/s]

Epoch: 40, Iter: 8400/13867
    loss    0.861102
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:06<22:18,  3.93it/s]

Epoch: 40, Iter: 8600/13867
    loss    0.870589
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:55<21:27,  3.94it/s]

Epoch: 40, Iter: 8800/13867
    loss    0.886993
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:45<20:47,  3.90it/s]

Epoch: 40, Iter: 9000/13867
    loss    0.874332
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:39<19:46,  3.93it/s]

Epoch: 40, Iter: 9200/13867
    loss    0.856458
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:29<18:41,  3.98it/s]

Epoch: 40, Iter: 9400/13867
    loss    0.857461
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:19<18:01,  3.95it/s]

Epoch: 40, Iter: 9600/13867
    loss    0.872003
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:08<16:54,  4.01it/s]

Epoch: 40, Iter: 9800/13867
    loss    0.854021
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:58<16:11,  3.98it/s]

Epoch: 40, Iter: 10000/13867
    loss    0.860298
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:48<15:26,  3.96it/s]

Epoch: 40, Iter: 10200/13867
    loss    0.858889
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:37<14:40,  3.94it/s]

Epoch: 40, Iter: 10400/13867
    loss    0.856295
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:27<13:47,  3.95it/s]

Epoch: 40, Iter: 10600/13867
    loss    0.858696
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:21<13:03,  3.91it/s]

Epoch: 40, Iter: 10800/13867
    loss    0.847793
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:11<12:17,  3.88it/s]

Epoch: 40, Iter: 11000/13867
    loss    0.857244
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:01<11:22,  3.91it/s]

Epoch: 40, Iter: 11200/13867
    loss    0.860607
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:51<10:34,  3.88it/s]

Epoch: 40, Iter: 11400/13867
    loss    0.862783
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:40<09:34,  3.94it/s]

Epoch: 40, Iter: 11600/13867
    loss    0.841701
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:30<08:54,  3.86it/s]

Epoch: 40, Iter: 11800/13867
    loss    0.857129
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:20<07:51,  3.96it/s]

Epoch: 40, Iter: 12000/13867
    loss    0.854099
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:14<07:01,  3.95it/s]

Epoch: 40, Iter: 12200/13867
    loss    0.836998
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:04<06:17,  3.88it/s]

Epoch: 40, Iter: 12400/13867
    loss    0.844882
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:54<05:20,  3.95it/s]

Epoch: 40, Iter: 12600/13867
    loss    0.842627
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:44<04:30,  3.94it/s]

Epoch: 40, Iter: 12800/13867
    loss    0.866761
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:34<03:38,  3.96it/s]

Epoch: 40, Iter: 13000/13867
    loss    0.862615
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:23<02:49,  3.93it/s]

Epoch: 40, Iter: 13200/13867
    loss    0.865911
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:13<01:56,  3.99it/s]

Epoch: 40, Iter: 13400/13867
    loss    0.826991
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:07<01:20,  3.32it/s]

Epoch: 40, Iter: 13600/13867
    loss    0.85361
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:57<00:16,  3.93it/s]

Epoch: 40, Iter: 13800/13867
    loss    0.878357
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:14<00:00,  3.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.29it/s]



Epoch 40: Train 92.25
Epoch 40: Valid 65.94
Epoch 40: Best 66.01
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:32,  3.96it/s]

Epoch: 41, Iter: 200/13867
    loss    0.878736
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:52,  3.95it/s]

Epoch: 41, Iter: 400/13867
    loss    0.829424
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▎                                                                        | 601/13867 [02:33<1:18:08,  2.83it/s]

Epoch: 41, Iter: 600/13867
    loss    0.850871
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:23<54:53,  3.97it/s]

Epoch: 41, Iter: 800/13867
    loss    0.854343
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:13<54:24,  3.94it/s]

Epoch: 41, Iter: 1000/13867
    loss    0.840097
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:03<52:46,  4.00it/s]

Epoch: 41, Iter: 1200/13867
    loss    0.847888
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:52<52:01,  3.99it/s]

Epoch: 41, Iter: 1400/13867
    loss    0.865073
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:42<51:48,  3.95it/s]

Epoch: 41, Iter: 1600/13867
    loss    0.86207
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:32<52:14,  3.85it/s]

Epoch: 41, Iter: 1800/13867
    loss    0.82529
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:22<49:37,  3.99it/s]

Epoch: 41, Iter: 2000/13867
    loss    0.8361
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:16<47:56,  4.06it/s]

Epoch: 41, Iter: 2200/13867
    loss    0.825265
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:06<49:02,  3.90it/s]

Epoch: 41, Iter: 2400/13867
    loss    0.850275
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:56<47:42,  3.94it/s]

Epoch: 41, Iter: 2600/13867
    loss    0.857755
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:45<46:42,  3.95it/s]

Epoch: 41, Iter: 2800/13867
    loss    0.832781
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:35<45:27,  3.98it/s]

Epoch: 41, Iter: 3000/13867
    loss    0.85899
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:25<44:53,  3.96it/s]

Epoch: 41, Iter: 3200/13867
    loss    0.855408
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:15<43:46,  3.98it/s]

Epoch: 41, Iter: 3400/13867
    loss    0.852285
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:05<42:26,  4.03it/s]

Epoch: 41, Iter: 3600/13867
    loss    0.831314
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:59<42:11,  3.98it/s]

Epoch: 41, Iter: 3800/13867
    loss    0.864123
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:49<41:19,  3.98it/s]

Epoch: 41, Iter: 4000/13867
    loss    0.846428
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:39<40:56,  3.93it/s]

Epoch: 41, Iter: 4200/13867
    loss    0.832554
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:29<40:04,  3.94it/s]

Epoch: 41, Iter: 4400/13867
    loss    0.822533
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:19<39:21,  3.92it/s]

Epoch: 41, Iter: 4600/13867
    loss    0.845189
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:09<39:12,  3.85it/s]

Epoch: 41, Iter: 4800/13867
    loss    0.843818
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:59<38:12,  3.87it/s]

Epoch: 41, Iter: 5000/13867
    loss    0.826764
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:53<36:28,  3.96it/s]

Epoch: 41, Iter: 5200/13867
    loss    0.833352
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:43<35:06,  4.02it/s]

Epoch: 41, Iter: 5400/13867
    loss    0.861316
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:33<35:09,  3.92it/s]

Epoch: 41, Iter: 5600/13867
    loss    0.859278
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:23<33:08,  4.06it/s]

Epoch: 41, Iter: 5800/13867
    loss    0.838614
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:13<32:50,  3.99it/s]

Epoch: 41, Iter: 6000/13867
    loss    0.862115
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:03<32:42,  3.91it/s]

Epoch: 41, Iter: 6200/13867
    loss    0.880866
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:53<31:46,  3.92it/s]

Epoch: 41, Iter: 6400/13867
    loss    0.877635
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:43<30:23,  3.98it/s]

Epoch: 41, Iter: 6600/13867
    loss    0.846787
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:37<30:06,  3.91it/s]

Epoch: 41, Iter: 6800/13867
    loss    0.847554
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:27<28:47,  3.97it/s]

Epoch: 41, Iter: 7000/13867
    loss    0.84165
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:17<28:33,  3.89it/s]

Epoch: 41, Iter: 7200/13867
    loss    0.848704
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:07<26:59,  3.99it/s]

Epoch: 41, Iter: 7400/13867
    loss    0.843723
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:57<26:51,  3.89it/s]

Epoch: 41, Iter: 7600/13867
    loss    0.858856
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:46<25:22,  3.99it/s]

Epoch: 41, Iter: 7800/13867
    loss    0.852274
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:36<24:41,  3.96it/s]

Epoch: 41, Iter: 8000/13867
    loss    0.841105
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:31<24:20,  3.88it/s]

Epoch: 41, Iter: 8200/13867
    loss    0.84391
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:20<23:25,  3.89it/s]

Epoch: 41, Iter: 8400/13867
    loss    0.858316
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:10<22:14,  3.95it/s]

Epoch: 41, Iter: 8600/13867
    loss    0.848796
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:00<21:27,  3.94it/s]

Epoch: 41, Iter: 8800/13867
    loss    0.844615
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:50<20:44,  3.91it/s]

Epoch: 41, Iter: 9000/13867
    loss    0.866198
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:40<19:37,  3.96it/s]

Epoch: 41, Iter: 9200/13867
    loss    0.816818
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:30<19:05,  3.90it/s]

Epoch: 41, Iter: 9400/13867
    loss    0.833099
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:20<17:56,  3.96it/s]

Epoch: 41, Iter: 9600/13867
    loss    0.83632
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:14<17:25,  3.89it/s]

Epoch: 41, Iter: 9800/13867
    loss    0.834373
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:04<16:30,  3.90it/s]

Epoch: 41, Iter: 10000/13867
    loss    0.849113
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:54<15:29,  3.95it/s]

Epoch: 41, Iter: 10200/13867
    loss    0.837448
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:44<14:22,  4.02it/s]

Epoch: 41, Iter: 10400/13867
    loss    0.852413
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:33<13:43,  3.97it/s]

Epoch: 41, Iter: 10600/13867
    loss    0.853687
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:23<12:53,  3.96it/s]

Epoch: 41, Iter: 10800/13867
    loss    0.850097
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:13<12:09,  3.93it/s]

Epoch: 41, Iter: 11000/13867
    loss    0.840094
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:07<15:49,  2.81it/s]

Epoch: 41, Iter: 11200/13867
    loss    0.819947
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:57<10:26,  3.94it/s]

Epoch: 41, Iter: 11400/13867
    loss    0.866396
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:47<09:30,  3.97it/s]

Epoch: 41, Iter: 11600/13867
    loss    0.84969
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:36<08:53,  3.87it/s]

Epoch: 41, Iter: 11800/13867
    loss    0.842941
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:26<07:57,  3.91it/s]

Epoch: 41, Iter: 12000/13867
    loss    0.839624
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:16<07:03,  3.93it/s]

Epoch: 41, Iter: 12200/13867
    loss    0.856023
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:06<06:16,  3.90it/s]

Epoch: 41, Iter: 12400/13867
    loss    0.851747
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:56<05:26,  3.87it/s]

Epoch: 41, Iter: 12600/13867
    loss    0.849438
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:50<04:33,  3.89it/s]

Epoch: 41, Iter: 12800/13867
    loss    0.832256
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:40<03:39,  3.94it/s]

Epoch: 41, Iter: 13000/13867
    loss    0.853503
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:30<02:47,  3.97it/s]

Epoch: 41, Iter: 13200/13867
    loss    0.852197
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:20<01:59,  3.90it/s]

Epoch: 41, Iter: 13400/13867
    loss    0.829142
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:10<01:08,  3.87it/s]

Epoch: 41, Iter: 13600/13867
    loss    0.838965
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:00<00:16,  3.92it/s]

Epoch: 41, Iter: 13800/13867
    loss    0.840683
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:16<00:00,  3.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:31<00:00,  8.86it/s]



Epoch 41: Train 92.29
Epoch 41: Valid 66.01
Epoch 41: Best 66.01
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<58:06,  3.92it/s]

Epoch: 42, Iter: 200/13867
    loss    0.825759
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<57:11,  3.92it/s]

Epoch: 42, Iter: 400/13867
    loss    0.819851
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<55:25,  3.99it/s]

Epoch: 42, Iter: 600/13867
    loss    0.850819
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:19<55:28,  3.93it/s]

Epoch: 42, Iter: 800/13867
    loss    0.840206
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:09<55:25,  3.87it/s]

Epoch: 42, Iter: 1000/13867
    loss    0.869403
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [04:59<53:31,  3.94it/s]

Epoch: 42, Iter: 1200/13867
    loss    0.813401
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:53<53:26,  3.89it/s]

Epoch: 42, Iter: 1400/13867
    loss    0.799861
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:43<52:03,  3.93it/s]

Epoch: 42, Iter: 1600/13867
    loss    0.855591
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:32<50:36,  3.97it/s]

Epoch: 42, Iter: 1800/13867
    loss    0.859049
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:22<50:44,  3.90it/s]

Epoch: 42, Iter: 2000/13867
    loss    0.844255
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:12<49:35,  3.92it/s]

Epoch: 42, Iter: 2200/13867
    loss    0.817002
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:02<49:07,  3.89it/s]

Epoch: 42, Iter: 2400/13867
    loss    0.820875
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:52<47:14,  3.97it/s]

Epoch: 42, Iter: 2600/13867
    loss    0.796671
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:42<46:41,  3.95it/s]

Epoch: 42, Iter: 2800/13867
    loss    0.866656
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:36<46:32,  3.89it/s]

Epoch: 42, Iter: 3000/13867
    loss    0.844253
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:25<45:33,  3.90it/s]

Epoch: 42, Iter: 3200/13867
    loss    0.853972
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:15<44:45,  3.90it/s]

Epoch: 42, Iter: 3400/13867
    loss    0.841889
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:05<43:22,  3.94it/s]

Epoch: 42, Iter: 3600/13867
    loss    0.821947
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:55<42:29,  3.95it/s]

Epoch: 42, Iter: 3800/13867
    loss    0.861828
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:45<42:15,  3.89it/s]

Epoch: 42, Iter: 4000/13867
    loss    0.812177
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:35<40:56,  3.93it/s]

Epoch: 42, Iter: 4200/13867
    loss    0.853108
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:29<39:46,  3.97it/s]

Epoch: 42, Iter: 4400/13867
    loss    0.841141
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:19<39:32,  3.91it/s]

Epoch: 42, Iter: 4600/13867
    loss    0.834193
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:08<39:05,  3.87it/s]

Epoch: 42, Iter: 4800/13867
    loss    0.872009
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:59<38:09,  3.87it/s]

Epoch: 42, Iter: 5000/13867
    loss    0.844636
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:49<37:17,  3.87it/s]

Epoch: 42, Iter: 5200/13867
    loss    0.828539
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:39<35:49,  3.94it/s]

Epoch: 42, Iter: 5400/13867
    loss    0.850511
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:29<35:09,  3.92it/s]

Epoch: 42, Iter: 5600/13867
    loss    0.822829
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:19<33:34,  4.00it/s]

Epoch: 42, Iter: 5800/13867
    loss    0.824188
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:13<33:29,  3.92it/s]

Epoch: 42, Iter: 6000/13867
    loss    0.831504
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:03<32:46,  3.90it/s]

Epoch: 42, Iter: 6200/13867
    loss    0.846846
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:53<31:24,  3.96it/s]

Epoch: 42, Iter: 6400/13867
    loss    0.829048
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:43<30:15,  4.00it/s]

Epoch: 42, Iter: 6600/13867
    loss    0.831577
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:32<29:53,  3.94it/s]

Epoch: 42, Iter: 6800/13867
    loss    0.809056
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:22<29:17,  3.91it/s]

Epoch: 42, Iter: 7000/13867
    loss    0.834317
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:12<28:24,  3.91it/s]

Epoch: 42, Iter: 7200/13867
    loss    0.853374
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:02<27:00,  3.99it/s]

Epoch: 42, Iter: 7400/13867
    loss    0.857367
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:57<26:32,  3.93it/s]

Epoch: 42, Iter: 7600/13867
    loss    0.814394
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:47<26:05,  3.88it/s]

Epoch: 42, Iter: 7800/13867
    loss    0.822877
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:36<24:45,  3.95it/s]

Epoch: 42, Iter: 8000/13867
    loss    0.820963
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:26<24:12,  3.90it/s]

Epoch: 42, Iter: 8200/13867
    loss    0.835474
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:16<23:08,  3.94it/s]

Epoch: 42, Iter: 8400/13867
    loss    0.841061
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:06<22:23,  3.92it/s]

Epoch: 42, Iter: 8600/13867
    loss    0.834134
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:56<21:30,  3.93it/s]

Epoch: 42, Iter: 8800/13867
    loss    0.834631
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:46<20:39,  3.93it/s]

Epoch: 42, Iter: 9000/13867
    loss    0.82831
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:40<19:46,  3.93it/s]

Epoch: 42, Iter: 9200/13867
    loss    0.837127
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:30<19:00,  3.91it/s]

Epoch: 42, Iter: 9400/13867
    loss    0.817511
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:20<18:12,  3.91it/s]

Epoch: 42, Iter: 9600/13867
    loss    0.833051
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:10<17:02,  3.98it/s]

Epoch: 42, Iter: 9800/13867
    loss    0.836049
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:00<16:48,  3.83it/s]

Epoch: 42, Iter: 10000/13867
    loss    0.845823
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:50<15:36,  3.92it/s]

Epoch: 42, Iter: 10200/13867
    loss    0.829542
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:40<14:33,  3.97it/s]

Epoch: 42, Iter: 10400/13867
    loss    0.818955
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:34<13:43,  3.97it/s]

Epoch: 42, Iter: 10600/13867
    loss    0.830607
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:24<12:54,  3.96it/s]

Epoch: 42, Iter: 10800/13867
    loss    0.825493
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:14<12:00,  3.98it/s]

Epoch: 42, Iter: 11000/13867
    loss    0.865591
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:04<11:18,  3.93it/s]

Epoch: 42, Iter: 11200/13867
    loss    0.818364
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:54<10:22,  3.96it/s]

Epoch: 42, Iter: 11400/13867
    loss    0.815749
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:43<09:23,  4.02it/s]

Epoch: 42, Iter: 11600/13867
    loss    0.844137
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:33<08:46,  3.92it/s]

Epoch: 42, Iter: 11800/13867
    loss    0.839884
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:23<07:47,  3.99it/s]

Epoch: 42, Iter: 12000/13867
    loss    0.84457
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:18<06:58,  3.99it/s]

Epoch: 42, Iter: 12200/13867
    loss    0.843954
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:07<06:09,  3.97it/s]

Epoch: 42, Iter: 12400/13867
    loss    0.842418
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:57<05:21,  3.93it/s]

Epoch: 42, Iter: 12600/13867
    loss    0.82419
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:47<04:27,  3.98it/s]

Epoch: 42, Iter: 12800/13867
    loss    0.850054
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:37<03:35,  4.02it/s]

Epoch: 42, Iter: 13000/13867
    loss    0.832055
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:27<02:47,  3.97it/s]

Epoch: 42, Iter: 13200/13867
    loss    0.844731
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:17<01:59,  3.88it/s]

Epoch: 42, Iter: 13400/13867
    loss    0.825926
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:07<01:08,  3.86it/s]

Epoch: 42, Iter: 13600/13867
    loss    0.864629
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:01<00:16,  4.02it/s]

Epoch: 42, Iter: 13800/13867
    loss    0.836935
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:18<00:00,  3.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.29it/s]



Epoch 42: Train 92.35
Epoch 42: Valid 66.02
Epoch 42: Best 66.02
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<59:48,  3.81it/s]

Epoch: 43, Iter: 200/13867
    loss    0.807815
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<57:37,  3.90it/s]

Epoch: 43, Iter: 400/13867
    loss    0.859372
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:29<57:21,  3.85it/s]

Epoch: 43, Iter: 600/13867
    loss    0.842089
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:23<55:20,  3.93it/s]

Epoch: 43, Iter: 800/13867
    loss    0.843005
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:13<54:49,  3.91it/s]

Epoch: 43, Iter: 1000/13867
    loss    0.832414
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:03<53:28,  3.95it/s]

Epoch: 43, Iter: 1200/13867
    loss    0.810923
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:53<52:57,  3.92it/s]

Epoch: 43, Iter: 1400/13867
    loss    0.842474
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:43<53:15,  3.84it/s]

Epoch: 43, Iter: 1600/13867
    loss    0.840868
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:33<50:55,  3.95it/s]

Epoch: 43, Iter: 1800/13867
    loss    0.812129
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:22<49:51,  3.97it/s]

Epoch: 43, Iter: 2000/13867
    loss    0.807477
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:12<48:58,  3.97it/s]

Epoch: 43, Iter: 2200/13867
    loss    0.826712
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:07<47:44,  4.00it/s]

Epoch: 43, Iter: 2400/13867
    loss    0.807796
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:56<47:12,  3.98it/s]

Epoch: 43, Iter: 2600/13867
    loss    0.825455
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:47<46:24,  3.97it/s]

Epoch: 43, Iter: 2800/13867
    loss    0.832592
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:36<46:52,  3.86it/s]

Epoch: 43, Iter: 3000/13867
    loss    0.825132
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:26<44:58,  3.95it/s]

Epoch: 43, Iter: 3200/13867
    loss    0.807855
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:16<44:36,  3.91it/s]

Epoch: 43, Iter: 3400/13867
    loss    0.841169
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:06<43:45,  3.91it/s]

Epoch: 43, Iter: 3600/13867
    loss    0.832423
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:56<43:39,  3.84it/s]

Epoch: 43, Iter: 3800/13867
    loss    0.814617
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:51<41:55,  3.92it/s]

Epoch: 43, Iter: 4000/13867
    loss    0.832472
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:40<41:21,  3.90it/s]

Epoch: 43, Iter: 4200/13867
    loss    0.814933
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:30<39:45,  3.97it/s]

Epoch: 43, Iter: 4400/13867
    loss    0.817621
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:20<39:48,  3.88it/s]

Epoch: 43, Iter: 4600/13867
    loss    0.827616
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:10<38:53,  3.89it/s]

Epoch: 43, Iter: 4800/13867
    loss    0.838368
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:00<38:36,  3.83it/s]

Epoch: 43, Iter: 5000/13867
    loss    0.84328
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:50<37:22,  3.86it/s]

Epoch: 43, Iter: 5200/13867
    loss    0.847221
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:40<36:01,  3.92it/s]

Epoch: 43, Iter: 5400/13867
    loss    0.807269
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:35<35:02,  3.93it/s]

Epoch: 43, Iter: 5600/13867
    loss    0.802376
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:25<34:00,  3.95it/s]

Epoch: 43, Iter: 5800/13867
    loss    0.845052
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:15<33:41,  3.89it/s]

Epoch: 43, Iter: 6000/13867
    loss    0.812061
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:04<33:03,  3.86it/s]

Epoch: 43, Iter: 6200/13867
    loss    0.829545
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:54<31:46,  3.92it/s]

Epoch: 43, Iter: 6400/13867
    loss    0.833104
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:44<31:26,  3.85it/s]

Epoch: 43, Iter: 6600/13867
    loss    0.83721
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:34<29:37,  3.97it/s]

Epoch: 43, Iter: 6800/13867
    loss    0.844694
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:24<29:16,  3.91it/s]

Epoch: 43, Iter: 7000/13867
    loss    0.811869
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:18<28:57,  3.84it/s]

Epoch: 43, Iter: 7200/13867
    loss    0.795879
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:08<27:08,  3.97it/s]

Epoch: 43, Iter: 7400/13867
    loss    0.839954
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:58<26:27,  3.95it/s]

Epoch: 43, Iter: 7600/13867
    loss    0.808125
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:48<25:53,  3.91it/s]

Epoch: 43, Iter: 7800/13867
    loss    0.823079
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:38<25:04,  3.90it/s]

Epoch: 43, Iter: 8000/13867
    loss    0.820461
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:28<24:18,  3.88it/s]

Epoch: 43, Iter: 8200/13867
    loss    0.81281
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:18<23:01,  3.96it/s]

Epoch: 43, Iter: 8400/13867
    loss    0.834681
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:07<22:35,  3.89it/s]

Epoch: 43, Iter: 8600/13867
    loss    0.79614
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:02<21:43,  3.89it/s]

Epoch: 43, Iter: 8800/13867
    loss    0.806407
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:52<20:31,  3.95it/s]

Epoch: 43, Iter: 9000/13867
    loss    0.83504
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:42<19:54,  3.90it/s]

Epoch: 43, Iter: 9200/13867
    loss    0.838155
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:32<18:56,  3.93it/s]

Epoch: 43, Iter: 9400/13867
    loss    0.819768
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:21<17:55,  3.97it/s]

Epoch: 43, Iter: 9600/13867
    loss    0.861182
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:11<17:06,  3.96it/s]

Epoch: 43, Iter: 9800/13867
    loss    0.82285
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:01<16:15,  3.96it/s]

Epoch: 43, Iter: 10000/13867
    loss    0.825563
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:51<15:31,  3.94it/s]

Epoch: 43, Iter: 10200/13867
    loss    0.843706
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:46<14:35,  3.96it/s]

Epoch: 43, Iter: 10400/13867
    loss    0.805143
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:35<13:47,  3.95it/s]

Epoch: 43, Iter: 10600/13867
    loss    0.804568
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:25<13:12,  3.87it/s]

Epoch: 43, Iter: 10800/13867
    loss    0.822639
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:15<11:58,  3.99it/s]

Epoch: 43, Iter: 11000/13867
    loss    0.816416
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:05<11:12,  3.96it/s]

Epoch: 43, Iter: 11200/13867
    loss    0.822381
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:55<10:24,  3.95it/s]

Epoch: 43, Iter: 11400/13867
    loss    0.838701
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:45<09:33,  3.95it/s]

Epoch: 43, Iter: 11600/13867
    loss    0.833289
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:35<08:38,  3.98it/s]

Epoch: 43, Iter: 11800/13867
    loss    0.829656
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:29<08:04,  3.85it/s]

Epoch: 43, Iter: 12000/13867
    loss    0.800196
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:19<06:56,  4.00it/s]

Epoch: 43, Iter: 12200/13867
    loss    0.819182
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:09<06:10,  3.96it/s]

Epoch: 43, Iter: 12400/13867
    loss    0.832085
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:59<05:21,  3.93it/s]

Epoch: 43, Iter: 12600/13867
    loss    0.828597
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:49<04:28,  3.96it/s]

Epoch: 43, Iter: 12800/13867
    loss    0.808488
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:39<03:42,  3.89it/s]

Epoch: 43, Iter: 13000/13867
    loss    0.836612
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:30<02:51,  3.87it/s]

Epoch: 43, Iter: 13200/13867
    loss    0.816577
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:20<01:58,  3.95it/s]

Epoch: 43, Iter: 13400/13867
    loss    0.804267
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:15<01:07,  3.92it/s]

Epoch: 43, Iter: 13600/13867
    loss    0.83892
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:05<00:17,  3.85it/s]

Epoch: 43, Iter: 13800/13867
    loss    0.849486
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:21<00:00,  3.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:28<00:00,  9.20it/s]



Epoch 43: Train 92.40
Epoch 43: Valid 66.19
Epoch 43: Best 66.19
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:50<59:33,  3.82it/s]

Epoch: 44, Iter: 200/13867
    loss    0.847015
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:41<57:00,  3.94it/s]

Epoch: 44, Iter: 400/13867
    loss    0.7992
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▎                                                                        | 601/13867 [02:36<2:15:04,  1.64it/s]

Epoch: 44, Iter: 600/13867
    loss    0.811343
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:26<56:19,  3.87it/s]

Epoch: 44, Iter: 800/13867
    loss    0.807011
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:17<55:03,  3.90it/s]

Epoch: 44, Iter: 1000/13867
    loss    0.829579
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:07<53:13,  3.97it/s]

Epoch: 44, Iter: 1200/13867
    loss    0.837328
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:56<52:28,  3.96it/s]

Epoch: 44, Iter: 1400/13867
    loss    0.827607
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:45<52:14,  3.91it/s]

Epoch: 44, Iter: 1600/13867
    loss    0.831881
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:35<50:50,  3.96it/s]

Epoch: 44, Iter: 1800/13867
    loss    0.813673
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:24<50:33,  3.91it/s]

Epoch: 44, Iter: 2000/13867
    loss    0.8116
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|███████████▉                                                               | 2201/13867 [09:18<3:50:22,  1.18s/it]

Epoch: 44, Iter: 2200/13867
    loss    0.827528
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:08<50:04,  3.82it/s]

Epoch: 44, Iter: 2400/13867
    loss    0.81108
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:58<47:32,  3.95it/s]

Epoch: 44, Iter: 2600/13867
    loss    0.785059
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:48<46:16,  3.99it/s]

Epoch: 44, Iter: 2800/13867
    loss    0.795515
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:38<45:37,  3.97it/s]

Epoch: 44, Iter: 3000/13867
    loss    0.825636
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:27<44:18,  4.01it/s]

Epoch: 44, Iter: 3200/13867
    loss    0.792212
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:17<44:24,  3.93it/s]

Epoch: 44, Iter: 3400/13867
    loss    0.829331
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:07<43:41,  3.92it/s]

Epoch: 44, Iter: 3600/13867
    loss    0.842062
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:57<42:13,  3.97it/s]

Epoch: 44, Iter: 3800/13867
    loss    0.834184
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:51<40:34,  4.05it/s]

Epoch: 44, Iter: 4000/13867
    loss    0.807504
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:40<40:52,  3.94it/s]

Epoch: 44, Iter: 4200/13867
    loss    0.841126
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:29<39:37,  3.98it/s]

Epoch: 44, Iter: 4400/13867
    loss    0.82986
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:18<39:22,  3.92it/s]

Epoch: 44, Iter: 4600/13867
    loss    0.812359
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:08<38:25,  3.93it/s]

Epoch: 44, Iter: 4800/13867
    loss    0.820652
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:57<36:37,  4.03it/s]

Epoch: 44, Iter: 5000/13867
    loss    0.787224
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:46<35:56,  4.02it/s]

Epoch: 44, Iter: 5200/13867
    loss    0.817181
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:35<36:09,  3.90it/s]

Epoch: 44, Iter: 5400/13867
    loss    0.814475
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:31<34:57,  3.94it/s]

Epoch: 44, Iter: 5600/13867
    loss    0.829887
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:23<35:18,  3.81it/s]

Epoch: 44, Iter: 5800/13867
    loss    0.833671
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:12<32:28,  4.04it/s]

Epoch: 44, Iter: 6000/13867
    loss    0.83031
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:01<31:16,  4.08it/s]

Epoch: 44, Iter: 6200/13867
    loss    0.811985
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:50<30:44,  4.05it/s]

Epoch: 44, Iter: 6400/13867
    loss    0.806073
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:40<30:34,  3.96it/s]

Epoch: 44, Iter: 6600/13867
    loss    0.819856
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:30<30:11,  3.90it/s]

Epoch: 44, Iter: 6800/13867
    loss    0.788047
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:20<29:56,  3.82it/s]

Epoch: 44, Iter: 7000/13867
    loss    0.816727
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:14<27:38,  4.02it/s]

Epoch: 44, Iter: 7200/13867
    loss    0.798401
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:04<28:10,  3.82it/s]

Epoch: 44, Iter: 7400/13867
    loss    0.833248
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:54<26:08,  4.00it/s]

Epoch: 44, Iter: 7600/13867
    loss    0.813621
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:43<24:55,  4.06it/s]

Epoch: 44, Iter: 7800/13867
    loss    0.795595
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:32<24:10,  4.04it/s]

Epoch: 44, Iter: 8000/13867
    loss    0.817833
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:23<24:05,  3.92it/s]

Epoch: 44, Iter: 8200/13867
    loss    0.816479
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:13<22:21,  4.07it/s]

Epoch: 44, Iter: 8400/13867
    loss    0.808772
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:02<22:07,  3.97it/s]

Epoch: 44, Iter: 8600/13867
    loss    0.82953
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:56<21:05,  4.00it/s]

Epoch: 44, Iter: 8800/13867
    loss    0.785155
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:46<20:44,  3.91it/s]

Epoch: 44, Iter: 9000/13867
    loss    0.826365
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:35<19:13,  4.04it/s]

Epoch: 44, Iter: 9200/13867
    loss    0.850673
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:23<18:25,  4.04it/s]

Epoch: 44, Iter: 9400/13867
    loss    0.791224
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:12<17:42,  4.01it/s]

Epoch: 44, Iter: 9600/13867
    loss    0.830874
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:02<17:31,  3.87it/s]

Epoch: 44, Iter: 9800/13867
    loss    0.826715
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:51<16:06,  4.00it/s]

Epoch: 44, Iter: 10000/13867
    loss    0.812467
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:40<15:34,  3.92it/s]

Epoch: 44, Iter: 10200/13867
    loss    0.796859
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:33<14:37,  3.95it/s]

Epoch: 44, Iter: 10400/13867
    loss    0.814782
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:22<13:26,  4.05it/s]

Epoch: 44, Iter: 10600/13867
    loss    0.843051
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:11<12:47,  4.00it/s]

Epoch: 44, Iter: 10800/13867
    loss    0.808527
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:00<11:36,  4.12it/s]

Epoch: 44, Iter: 11000/13867
    loss    0.808774
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:49<11:05,  4.01it/s]

Epoch: 44, Iter: 11200/13867
    loss    0.822898
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:38<10:21,  3.97it/s]

Epoch: 44, Iter: 11400/13867
    loss    0.808793
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:27<09:30,  3.97it/s]

Epoch: 44, Iter: 11600/13867
    loss    0.819997
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:16<08:22,  4.11it/s]

Epoch: 44, Iter: 11800/13867
    loss    0.799712
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:09<07:43,  4.02it/s]

Epoch: 44, Iter: 12000/13867
    loss    0.806714
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [50:58<07:06,  3.91it/s]

Epoch: 44, Iter: 12200/13867
    loss    0.809091
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:47<06:12,  3.93it/s]

Epoch: 44, Iter: 12400/13867
    loss    0.790033
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:39<05:33,  3.79it/s]

Epoch: 44, Iter: 12600/13867
    loss    0.790939
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:30<04:41,  3.78it/s]

Epoch: 44, Iter: 12800/13867
    loss    0.839213
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:22<03:44,  3.86it/s]

Epoch: 44, Iter: 13000/13867
    loss    0.815827
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:13<02:58,  3.73it/s]

Epoch: 44, Iter: 13200/13867
    loss    0.833536
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:05<01:58,  3.92it/s]

Epoch: 44, Iter: 13400/13867
    loss    0.786378
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:01<01:10,  3.78it/s]

Epoch: 44, Iter: 13600/13867
    loss    0.837758
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [57:52<00:17,  3.86it/s]

Epoch: 44, Iter: 13800/13867
    loss    0.808734
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:09<00:00,  3.97it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:27<00:00,  9.25it/s]



Epoch 44: Train 92.43
Epoch 44: Valid 66.11
Epoch 44: Best 66.19
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:51<58:51,  3.87it/s]

Epoch: 45, Iter: 200/13867
    loss    0.813369
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:43<58:59,  3.80it/s]

Epoch: 45, Iter: 400/13867
    loss    0.818629
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:34<58:14,  3.80it/s]

Epoch: 45, Iter: 600/13867
    loss    0.801556
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:30<57:03,  3.82it/s]

Epoch: 45, Iter: 800/13867
    loss    0.787431
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:22<58:05,  3.69it/s]

Epoch: 45, Iter: 1000/13867
    loss    0.82065
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:13<54:31,  3.87it/s]

Epoch: 45, Iter: 1200/13867
    loss    0.799242
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:06<55:55,  3.72it/s]

Epoch: 45, Iter: 1400/13867
    loss    0.818537
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:59<56:43,  3.60it/s]

Epoch: 45, Iter: 1600/13867
    loss    0.852468
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:53<53:46,  3.74it/s]

Epoch: 45, Iter: 1800/13867
    loss    0.782911
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:46<52:51,  3.74it/s]

Epoch: 45, Iter: 2000/13867
    loss    0.813879
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:39<51:01,  3.81it/s]

Epoch: 45, Iter: 2200/13867
    loss    0.806853
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:35<50:43,  3.77it/s]

Epoch: 45, Iter: 2400/13867
    loss    0.801236
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:27<50:03,  3.75it/s]

Epoch: 45, Iter: 2600/13867
    loss    0.809737
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [12:19<47:51,  3.85it/s]

Epoch: 45, Iter: 2800/13867
    loss    0.801387
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [13:10<46:56,  3.86it/s]

Epoch: 45, Iter: 3000/13867
    loss    0.787595
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [14:02<46:26,  3.83it/s]

Epoch: 45, Iter: 3200/13867
    loss    0.805047
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:53<45:45,  3.81it/s]

Epoch: 45, Iter: 3400/13867
    loss    0.818438
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:44<45:21,  3.77it/s]

Epoch: 45, Iter: 3600/13867
    loss    0.818636
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:36<43:53,  3.82it/s]

Epoch: 45, Iter: 3800/13867
    loss    0.82758
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:32<43:06,  3.81it/s]

Epoch: 45, Iter: 4000/13867
    loss    0.807484
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [18:24<42:40,  3.78it/s]

Epoch: 45, Iter: 4200/13867
    loss    0.811563
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [19:15<40:56,  3.85it/s]

Epoch: 45, Iter: 4400/13867
    loss    0.819859
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [20:07<41:13,  3.75it/s]

Epoch: 45, Iter: 4600/13867
    loss    0.802255
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:58<39:43,  3.80it/s]

Epoch: 45, Iter: 4800/13867
    loss    0.787846
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:49<39:13,  3.77it/s]

Epoch: 45, Iter: 5000/13867
    loss    0.830316
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:41<37:03,  3.90it/s]

Epoch: 45, Iter: 5200/13867
    loss    0.805836
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [23:33<36:45,  3.84it/s]

Epoch: 45, Iter: 5400/13867
    loss    0.800947
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [24:24<36:32,  3.77it/s]

Epoch: 45, Iter: 5600/13867
    loss    0.785773
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [25:20<35:01,  3.84it/s]

Epoch: 45, Iter: 5800/13867
    loss    0.80783
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [26:11<33:24,  3.92it/s]

Epoch: 45, Iter: 6000/13867
    loss    0.814905
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [27:01<31:29,  4.06it/s]

Epoch: 45, Iter: 6200/13867
    loss    0.828
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:51<30:59,  4.02it/s]

Epoch: 45, Iter: 6400/13867
    loss    0.810582
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [28:40<30:02,  4.03it/s]

Epoch: 45, Iter: 6600/13867
    loss    0.795772
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [29:29<29:14,  4.03it/s]

Epoch: 45, Iter: 6800/13867
    loss    0.818919
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [30:18<28:46,  3.98it/s]

Epoch: 45, Iter: 7000/13867
    loss    0.794364
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [31:08<27:52,  3.99it/s]

Epoch: 45, Iter: 7200/13867
    loss    0.800325
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [32:02<26:31,  4.06it/s]

Epoch: 45, Iter: 7400/13867
    loss    0.814793
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:51<26:20,  3.96it/s]

Epoch: 45, Iter: 7600/13867
    loss    0.796338
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [33:41<25:56,  3.90it/s]

Epoch: 45, Iter: 7800/13867
    loss    0.821398
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [34:30<24:25,  4.00it/s]

Epoch: 45, Iter: 8000/13867
    loss    0.818956
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [35:19<23:18,  4.05it/s]

Epoch: 45, Iter: 8200/13867
    loss    0.801565
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [36:08<23:06,  3.94it/s]

Epoch: 45, Iter: 8400/13867
    loss    0.813745
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:57<22:32,  3.89it/s]

Epoch: 45, Iter: 8600/13867
    loss    0.812794
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:47<21:19,  3.96it/s]

Epoch: 45, Iter: 8800/13867
    loss    0.798954
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:41<20:17,  4.00it/s]

Epoch: 45, Iter: 9000/13867
    loss    0.812739
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [39:30<19:01,  4.09it/s]

Epoch: 45, Iter: 9200/13867
    loss    0.795982
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [40:19<18:24,  4.04it/s]

Epoch: 45, Iter: 9400/13867
    loss    0.82874
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [41:08<18:01,  3.95it/s]

Epoch: 45, Iter: 9600/13867
    loss    0.806639
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:57<17:34,  3.85it/s]

Epoch: 45, Iter: 9800/13867
    loss    0.809928
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:46<16:12,  3.98it/s]

Epoch: 45, Iter: 10000/13867
    loss    0.815421
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:36<15:15,  4.00it/s]

Epoch: 45, Iter: 10200/13867
    loss    0.788949
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [44:26<14:27,  4.00it/s]

Epoch: 45, Iter: 10400/13867
    loss    0.822992
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [45:19<17:41,  3.08it/s]

Epoch: 45, Iter: 10600/13867
    loss    0.805118
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [46:08<12:42,  4.02it/s]

Epoch: 45, Iter: 10800/13867
    loss    0.806242
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:57<12:03,  3.96it/s]

Epoch: 45, Iter: 11000/13867
    loss    0.791489
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:46<10:45,  4.13it/s]

Epoch: 45, Iter: 11200/13867
    loss    0.805298
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:36<10:33,  3.89it/s]

Epoch: 45, Iter: 11400/13867
    loss    0.790894
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:25<09:56,  3.80it/s]

Epoch: 45, Iter: 11600/13867
    loss    0.835613
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:14<08:36,  4.00it/s]

Epoch: 45, Iter: 11800/13867
    loss    0.805466
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [51:04<07:50,  3.97it/s]

Epoch: 45, Iter: 12000/13867
    loss    0.786779
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:53<07:07,  3.90it/s]

Epoch: 45, Iter: 12200/13867
    loss    0.803214
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:47<06:10,  3.96it/s]

Epoch: 45, Iter: 12400/13867
    loss    0.812024
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:36<05:21,  3.94it/s]

Epoch: 45, Iter: 12600/13867
    loss    0.792318
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:25<04:27,  3.99it/s]

Epoch: 45, Iter: 12800/13867
    loss    0.805769
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:14<03:37,  3.98it/s]

Epoch: 45, Iter: 13000/13867
    loss    0.798271
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:03<02:51,  3.88it/s]

Epoch: 45, Iter: 13200/13867
    loss    0.802773
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:52<01:57,  3.98it/s]

Epoch: 45, Iter: 13400/13867
    loss    0.811376
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:41<01:06,  4.02it/s]

Epoch: 45, Iter: 13600/13867
    loss    0.789962
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:31<00:16,  4.07it/s]

Epoch: 45, Iter: 13800/13867
    loss    0.795741
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:48<00:00,  3.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:31<00:00,  8.93it/s]



Epoch 45: Train 92.47
Epoch 45: Valid 66.10
Epoch 45: Best 66.19
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<57:04,  3.99it/s]

Epoch: 46, Iter: 200/13867
    loss    0.795325
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:39<56:04,  4.00it/s]

Epoch: 46, Iter: 400/13867
    loss    0.810936
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:27<55:29,  3.98it/s]

Epoch: 46, Iter: 600/13867
    loss    0.815283
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:17<53:15,  4.09it/s]

Epoch: 46, Iter: 800/13867
    loss    0.806932
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:05<53:05,  4.04it/s]

Epoch: 46, Iter: 1000/13867
    loss    0.78766
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [04:59<52:54,  3.99it/s]

Epoch: 46, Iter: 1200/13867
    loss    0.803791
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:48<51:24,  4.04it/s]

Epoch: 46, Iter: 1400/13867
    loss    0.798823
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:37<50:34,  4.04it/s]

Epoch: 46, Iter: 1600/13867
    loss    0.81514
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:26<50:47,  3.96it/s]

Epoch: 46, Iter: 1800/13867
    loss    0.788101
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:15<50:17,  3.93it/s]

Epoch: 46, Iter: 2000/13867
    loss    0.787068
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:04<47:54,  4.06it/s]

Epoch: 46, Iter: 2200/13867
    loss    0.816517
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [09:54<49:03,  3.90it/s]

Epoch: 46, Iter: 2400/13867
    loss    0.78522
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:45<49:15,  3.81it/s]

Epoch: 46, Iter: 2600/13867
    loss    0.815527
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:39<47:34,  3.88it/s]

Epoch: 46, Iter: 2800/13867
    loss    0.800009
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:28<47:27,  3.82it/s]

Epoch: 46, Iter: 3000/13867
    loss    0.783597
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:17<43:43,  4.07it/s]

Epoch: 46, Iter: 3200/13867
    loss    0.822676
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:07<43:57,  3.97it/s]

Epoch: 46, Iter: 3400/13867
    loss    0.810752
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [14:56<42:53,  3.99it/s]

Epoch: 46, Iter: 3600/13867
    loss    0.775293
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:46<41:15,  4.07it/s]

Epoch: 46, Iter: 3800/13867
    loss    0.806082
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:35<43:22,  3.79it/s]

Epoch: 46, Iter: 4000/13867
    loss    0.816401
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:25<40:51,  3.94it/s]

Epoch: 46, Iter: 4200/13867
    loss    0.786426
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:14<39:54,  3.95it/s]

Epoch: 46, Iter: 4400/13867
    loss    0.769662
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:08<38:03,  4.06it/s]

Epoch: 46, Iter: 4600/13867
    loss    0.796544
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [19:58<39:04,  3.87it/s]

Epoch: 46, Iter: 4800/13867
    loss    0.809606
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:47<37:44,  3.92it/s]

Epoch: 46, Iter: 5000/13867
    loss    0.793263
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:36<36:49,  3.92it/s]

Epoch: 46, Iter: 5200/13867
    loss    0.796704
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:26<35:02,  4.03it/s]

Epoch: 46, Iter: 5400/13867
    loss    0.817253
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:16<35:42,  3.86it/s]

Epoch: 46, Iter: 5600/13867
    loss    0.820055
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:05<35:31,  3.78it/s]

Epoch: 46, Iter: 5800/13867
    loss    0.804087
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [24:54<34:31,  3.80it/s]

Epoch: 46, Iter: 6000/13867
    loss    0.807986
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:48<31:56,  4.00it/s]

Epoch: 46, Iter: 6200/13867
    loss    0.793642
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:37<31:11,  3.99it/s]

Epoch: 46, Iter: 6400/13867
    loss    0.79275
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:26<29:47,  4.07it/s]

Epoch: 46, Iter: 6600/13867
    loss    0.799066
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:14<29:32,  3.99it/s]

Epoch: 46, Iter: 6800/13867
    loss    0.809391
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:03<27:39,  4.14it/s]

Epoch: 46, Iter: 7000/13867
    loss    0.794376
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [29:53<27:43,  4.01it/s]

Epoch: 46, Iter: 7200/13867
    loss    0.80347
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:42<26:29,  4.07it/s]

Epoch: 46, Iter: 7400/13867
    loss    0.804628
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:31<25:43,  4.06it/s]

Epoch: 46, Iter: 7600/13867
    loss    0.815727
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:20<25:25,  3.98it/s]

Epoch: 46, Iter: 7800/13867
    loss    0.776173
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:14<23:51,  4.10it/s]

Epoch: 46, Iter: 8000/13867
    loss    0.774158
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:02<23:54,  3.95it/s]

Epoch: 46, Iter: 8200/13867
    loss    0.777356
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [34:53<24:16,  3.75it/s]

Epoch: 46, Iter: 8400/13867
    loss    0.797566
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:43<23:08,  3.79it/s]

Epoch: 46, Iter: 8600/13867
    loss    0.798755
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:38<23:25,  3.60it/s]

Epoch: 46, Iter: 8800/13867
    loss    0.796714
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:33<22:33,  3.59it/s]

Epoch: 46, Iter: 9000/13867
    loss    0.794623
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:28<21:45,  3.57it/s]

Epoch: 46, Iter: 9200/13867
    loss    0.80499
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:22<20:58,  3.55it/s]

Epoch: 46, Iter: 9400/13867
    loss    0.791213
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:22<20:10,  3.52it/s]

Epoch: 46, Iter: 9600/13867
    loss    0.777152
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:17<18:27,  3.67it/s]

Epoch: 46, Iter: 9800/13867
    loss    0.791301
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:11<17:23,  3.70it/s]

Epoch: 46, Iter: 10000/13867
    loss    0.799247
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:05<16:27,  3.71it/s]

Epoch: 46, Iter: 10200/13867
    loss    0.782674
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:59<16:16,  3.55it/s]

Epoch: 46, Iter: 10400/13867
    loss    0.814588
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:54<14:58,  3.64it/s]

Epoch: 46, Iter: 10600/13867
    loss    0.793752
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:48<14:24,  3.55it/s]

Epoch: 46, Iter: 10800/13867
    loss    0.815451
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:43<12:55,  3.70it/s]

Epoch: 46, Iter: 11000/13867
    loss    0.793176
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:38<13:11,  3.37it/s]

Epoch: 46, Iter: 11200/13867
    loss    0.805115
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:37<11:24,  3.60it/s]

Epoch: 46, Iter: 11400/13867
    loss    0.778224
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [49:32<10:36,  3.56it/s]

Epoch: 46, Iter: 11600/13867
    loss    0.803674
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [50:26<09:26,  3.64it/s]

Epoch: 46, Iter: 11800/13867
    loss    0.796384
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [51:21<08:45,  3.55it/s]

Epoch: 46, Iter: 12000/13867
    loss    0.820299
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [52:16<07:40,  3.62it/s]

Epoch: 46, Iter: 12200/13867
    loss    0.784739
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [53:10<07:01,  3.48it/s]

Epoch: 46, Iter: 12400/13867
    loss    0.796845
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [54:01<05:18,  3.98it/s]

Epoch: 46, Iter: 12600/13867
    loss    0.796806
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [54:51<04:31,  3.93it/s]

Epoch: 46, Iter: 12800/13867
    loss    0.807758
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [55:46<03:36,  3.99it/s]

Epoch: 46, Iter: 13000/13867
    loss    0.794412
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [56:36<02:49,  3.92it/s]

Epoch: 46, Iter: 13200/13867
    loss    0.814876
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [57:26<02:00,  3.87it/s]

Epoch: 46, Iter: 13400/13867
    loss    0.791077
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [58:16<01:07,  3.93it/s]

Epoch: 46, Iter: 13600/13867
    loss    0.806889
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [59:06<00:16,  3.93it/s]

Epoch: 46, Iter: 13800/13867
    loss    0.799587
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [59:23<00:00,  3.89it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:26<00:00,  9.38it/s]



Epoch 46: Train 92.51
Epoch 46: Valid 66.17
Epoch 46: Best 66.19
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:57<58:11,  3.91it/s]

Epoch: 47, Iter: 200/13867
    loss    0.789826
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:48<56:05,  4.00it/s]

Epoch: 47, Iter: 400/13867
    loss    0.784495
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▎                                                                        | 601/13867 [02:39<1:00:21,  3.66it/s]

Epoch: 47, Iter: 600/13867
    loss    0.800396
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:30<56:50,  3.83it/s]

Epoch: 47, Iter: 800/13867
    loss    0.796657
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:21<54:47,  3.91it/s]

Epoch: 47, Iter: 1000/13867
    loss    0.781319
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:11<53:56,  3.91it/s]

Epoch: 47, Iter: 1200/13867
    loss    0.806965
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:01<52:49,  3.93it/s]

Epoch: 47, Iter: 1400/13867
    loss    0.810031
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:52<55:49,  3.66it/s]

Epoch: 47, Iter: 1600/13867
    loss    0.795107
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:43<51:05,  3.94it/s]

Epoch: 47, Iter: 1800/13867
    loss    0.801765
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:39<52:53,  3.74it/s]

Epoch: 47, Iter: 2000/13867
    loss    0.7886
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:30<49:29,  3.93it/s]

Epoch: 47, Iter: 2200/13867
    loss    0.809409
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:21<49:35,  3.85it/s]

Epoch: 47, Iter: 2400/13867
    loss    0.786033
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:12<48:56,  3.84it/s]

Epoch: 47, Iter: 2600/13867
    loss    0.797786
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [12:02<47:04,  3.92it/s]

Epoch: 47, Iter: 2800/13867
    loss    0.788285
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:53<45:15,  4.00it/s]

Epoch: 47, Iter: 3000/13867
    loss    0.800085
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:43<46:27,  3.83it/s]

Epoch: 47, Iter: 3200/13867
    loss    0.802268
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:32<43:23,  4.02it/s]

Epoch: 47, Iter: 3400/13867
    loss    0.79608
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [15:26<42:39,  4.01it/s]

Epoch: 47, Iter: 3600/13867
    loss    0.766732
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [16:15<42:17,  3.97it/s]

Epoch: 47, Iter: 3800/13867
    loss    0.792044
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:05<40:37,  4.05it/s]

Epoch: 47, Iter: 4000/13867
    loss    0.786606
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:54<40:34,  3.97it/s]

Epoch: 47, Iter: 4200/13867
    loss    0.801478
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:44<39:15,  4.02it/s]

Epoch: 47, Iter: 4400/13867
    loss    0.80165
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:33<38:57,  3.96it/s]

Epoch: 47, Iter: 4600/13867
    loss    0.791238
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [20:23<38:26,  3.93it/s]

Epoch: 47, Iter: 4800/13867
    loss    0.802788
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [21:13<37:46,  3.91it/s]

Epoch: 47, Iter: 5000/13867
    loss    0.794733
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [22:03<36:14,  3.98it/s]

Epoch: 47, Iter: 5200/13867
    loss    0.790658
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:57<35:43,  3.95it/s]

Epoch: 47, Iter: 5400/13867
    loss    0.783292
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:46<35:00,  3.94it/s]

Epoch: 47, Iter: 5600/13867
    loss    0.788308
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:35<34:15,  3.92it/s]

Epoch: 47, Iter: 5800/13867
    loss    0.774574
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [25:25<33:49,  3.88it/s]

Epoch: 47, Iter: 6000/13867
    loss    0.769616
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [26:14<31:10,  4.10it/s]

Epoch: 47, Iter: 6200/13867
    loss    0.793055
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [27:03<30:48,  4.04it/s]

Epoch: 47, Iter: 6400/13867
    loss    0.790179
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:53<30:48,  3.93it/s]

Epoch: 47, Iter: 6600/13867
    loss    0.780759
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:43<30:17,  3.89it/s]

Epoch: 47, Iter: 6800/13867
    loss    0.81728
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:37<29:50,  3.84it/s]

Epoch: 47, Iter: 7000/13867
    loss    0.795295
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [30:26<27:55,  3.98it/s]

Epoch: 47, Iter: 7200/13867
    loss    0.784824
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [31:16<28:02,  3.84it/s]

Epoch: 47, Iter: 7400/13867
    loss    0.792075
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [32:08<26:38,  3.92it/s]

Epoch: 47, Iter: 7600/13867
    loss    0.819132
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:58<27:06,  3.73it/s]

Epoch: 47, Iter: 7800/13867
    loss    0.781907
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:48<24:39,  3.96it/s]

Epoch: 47, Iter: 8000/13867
    loss    0.794317
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:37<23:33,  4.01it/s]

Epoch: 47, Iter: 8200/13867
    loss    0.815293
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:26<23:03,  3.95it/s]

Epoch: 47, Iter: 8400/13867
    loss    0.791549
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [36:17<21:26,  4.09it/s]

Epoch: 47, Iter: 8600/13867
    loss    0.78942
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [37:13<21:57,  3.85it/s]

Epoch: 47, Iter: 8800/13867
    loss    0.806512
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [38:04<20:58,  3.87it/s]

Epoch: 47, Iter: 9000/13867
    loss    0.77935
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:54<19:45,  3.94it/s]

Epoch: 47, Iter: 9200/13867
    loss    0.764699
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:43<18:40,  3.98it/s]

Epoch: 47, Iter: 9400/13867
    loss    0.791349
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:34<17:33,  4.05it/s]

Epoch: 47, Iter: 9600/13867
    loss    0.789222
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [41:23<17:05,  3.97it/s]

Epoch: 47, Iter: 9800/13867
    loss    0.795718
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [42:13<16:23,  3.93it/s]

Epoch: 47, Iter: 10000/13867
    loss    0.782795
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [43:02<15:12,  4.02it/s]

Epoch: 47, Iter: 10200/13867
    loss    0.797469
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:51<14:23,  4.01it/s]

Epoch: 47, Iter: 10400/13867
    loss    0.768753
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:45<13:43,  3.97it/s]

Epoch: 47, Iter: 10600/13867
    loss    0.789649
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:34<13:12,  3.87it/s]

Epoch: 47, Iter: 10800/13867
    loss    0.775194
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [46:24<12:09,  3.93it/s]

Epoch: 47, Iter: 11000/13867
    loss    0.77422
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [47:13<11:12,  3.96it/s]

Epoch: 47, Iter: 11200/13867
    loss    0.790548
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [48:03<10:16,  4.00it/s]

Epoch: 47, Iter: 11400/13867
    loss    0.806895
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:52<09:44,  3.87it/s]

Epoch: 47, Iter: 11600/13867
    loss    0.784522
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:42<08:47,  3.92it/s]

Epoch: 47, Iter: 11800/13867
    loss    0.798297
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:32<07:52,  3.95it/s]

Epoch: 47, Iter: 12000/13867
    loss    0.789219
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:26<07:05,  3.92it/s]

Epoch: 47, Iter: 12200/13867
    loss    0.795565
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [52:16<06:21,  3.84it/s]

Epoch: 47, Iter: 12400/13867
    loss    0.789883
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [53:06<05:16,  4.00it/s]

Epoch: 47, Iter: 12600/13867
    loss    0.813295
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:55<04:25,  4.01it/s]

Epoch: 47, Iter: 12800/13867
    loss    0.798151
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:44<03:32,  4.08it/s]

Epoch: 47, Iter: 13000/13867
    loss    0.777087
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:33<02:43,  4.08it/s]

Epoch: 47, Iter: 13200/13867
    loss    0.790358
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:23<01:58,  3.92it/s]

Epoch: 47, Iter: 13400/13867
    loss    0.789945
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:12<01:06,  4.01it/s]

Epoch: 47, Iter: 13600/13867
    loss    0.767698
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:01<00:16,  3.99it/s]

Epoch: 47, Iter: 13800/13867
    loss    0.794889
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:18<00:00,  3.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:29<00:00,  9.06it/s]



Epoch 47: Train 92.53
Epoch 47: Valid 66.13
Epoch 47: Best 66.19
snap/vqa_multilingual


  1%|█▏                                                                            | 201/13867 [00:49<56:56,  4.00it/s]

Epoch: 48, Iter: 200/13867
    loss    0.822305
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▎                                                                           | 401/13867 [01:37<55:18,  4.06it/s]

Epoch: 48, Iter: 400/13867
    loss    0.776785
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:26<54:48,  4.03it/s]

Epoch: 48, Iter: 600/13867
    loss    0.786421
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:15<54:47,  3.97it/s]

Epoch: 48, Iter: 800/13867
    loss    0.788365
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:05<52:44,  4.07it/s]

Epoch: 48, Iter: 1000/13867
    loss    0.787557
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:00<53:24,  3.95it/s]

Epoch: 48, Iter: 1200/13867
    loss    0.804549
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [05:49<52:09,  3.98it/s]

Epoch: 48, Iter: 1400/13867
    loss    0.779963
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [06:39<51:41,  3.95it/s]

Epoch: 48, Iter: 1600/13867
    loss    0.778247
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [07:27<49:54,  4.03it/s]

Epoch: 48, Iter: 1800/13867
    loss    0.784285
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:17<49:26,  4.00it/s]

Epoch: 48, Iter: 2000/13867
    loss    0.794135
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:05<49:28,  3.93it/s]

Epoch: 48, Iter: 2200/13867
    loss    0.773601
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [09:55<47:01,  4.06it/s]

Epoch: 48, Iter: 2400/13867
    loss    0.768253
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [10:44<46:56,  4.00it/s]

Epoch: 48, Iter: 2600/13867
    loss    0.778301
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [11:34<45:51,  4.02it/s]

Epoch: 48, Iter: 2800/13867
    loss    0.792906
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [12:28<44:49,  4.04it/s]

Epoch: 48, Iter: 3000/13867
    loss    0.804519
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [13:18<43:20,  4.10it/s]

Epoch: 48, Iter: 3200/13867
    loss    0.787445
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [14:07<44:08,  3.95it/s]

Epoch: 48, Iter: 3400/13867
    loss    0.789497
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [14:56<42:24,  4.04it/s]

Epoch: 48, Iter: 3600/13867
    loss    0.78166
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [15:45<41:51,  4.01it/s]

Epoch: 48, Iter: 3800/13867
    loss    0.767191
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [16:35<40:08,  4.10it/s]

Epoch: 48, Iter: 4000/13867
    loss    0.817415
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [17:25<40:37,  3.96it/s]

Epoch: 48, Iter: 4200/13867
    loss    0.79096
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [18:14<40:59,  3.85it/s]

Epoch: 48, Iter: 4400/13867
    loss    0.779115
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [19:04<39:01,  3.96it/s]

Epoch: 48, Iter: 4600/13867
    loss    0.773492
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [19:58<37:31,  4.03it/s]

Epoch: 48, Iter: 4800/13867
    loss    0.787454
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [20:48<36:31,  4.05it/s]

Epoch: 48, Iter: 5000/13867
    loss    0.771609
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [21:38<35:42,  4.04it/s]

Epoch: 48, Iter: 5200/13867
    loss    0.781917
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [22:28<35:47,  3.94it/s]

Epoch: 48, Iter: 5400/13867
    loss    0.777053
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [23:17<34:30,  3.99it/s]

Epoch: 48, Iter: 5600/13867
    loss    0.787842
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [24:06<35:02,  3.84it/s]

Epoch: 48, Iter: 5800/13867
    loss    0.793068
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [24:55<32:50,  3.99it/s]

Epoch: 48, Iter: 6000/13867
    loss    0.778538
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [25:45<31:55,  4.00it/s]

Epoch: 48, Iter: 6200/13867
    loss    0.782227
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [26:39<31:07,  4.00it/s]

Epoch: 48, Iter: 6400/13867
    loss    0.773539
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [27:29<31:16,  3.87it/s]

Epoch: 48, Iter: 6600/13867
    loss    0.77612
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [28:19<29:27,  4.00it/s]

Epoch: 48, Iter: 6800/13867
    loss    0.77652
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [29:09<28:30,  4.01it/s]

Epoch: 48, Iter: 7000/13867
    loss    0.78209
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [29:58<28:16,  3.93it/s]

Epoch: 48, Iter: 7200/13867
    loss    0.780455
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [30:48<27:26,  3.93it/s]

Epoch: 48, Iter: 7400/13867
    loss    0.78387
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [31:39<25:57,  4.02it/s]

Epoch: 48, Iter: 7600/13867
    loss    0.76832
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [32:28<25:35,  3.95it/s]

Epoch: 48, Iter: 7800/13867
    loss    0.796602
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [33:19<24:30,  3.99it/s]

Epoch: 48, Iter: 8000/13867
    loss    0.80136
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [34:14<23:53,  3.95it/s]

Epoch: 48, Iter: 8200/13867
    loss    0.790975
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [35:04<22:52,  3.98it/s]

Epoch: 48, Iter: 8400/13867
    loss    0.794135
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [35:54<23:05,  3.80it/s]

Epoch: 48, Iter: 8600/13867
    loss    0.767856
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [36:43<21:22,  3.95it/s]

Epoch: 48, Iter: 8800/13867
    loss    0.782737
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [37:33<20:50,  3.89it/s]

Epoch: 48, Iter: 9000/13867
    loss    0.800021
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [38:22<19:36,  3.97it/s]

Epoch: 48, Iter: 9200/13867
    loss    0.79584
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [39:11<18:30,  4.02it/s]

Epoch: 48, Iter: 9400/13867
    loss    0.791993
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [40:01<18:01,  3.95it/s]

Epoch: 48, Iter: 9600/13867
    loss    0.781926
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [40:51<17:05,  3.97it/s]

Epoch: 48, Iter: 9800/13867
    loss    0.786335
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [41:45<15:44,  4.09it/s]

Epoch: 48, Iter: 10000/13867
    loss    0.771092
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [42:34<15:28,  3.95it/s]

Epoch: 48, Iter: 10200/13867
    loss    0.768501
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [43:23<14:55,  3.87it/s]

Epoch: 48, Iter: 10400/13867
    loss    0.773223
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [44:13<13:33,  4.02it/s]

Epoch: 48, Iter: 10600/13867
    loss    0.790493
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [45:02<13:29,  3.79it/s]

Epoch: 48, Iter: 10800/13867
    loss    0.772031
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [45:52<11:59,  3.98it/s]

Epoch: 48, Iter: 11000/13867
    loss    0.785651
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [46:41<11:04,  4.01it/s]

Epoch: 48, Iter: 11200/13867
    loss    0.773969
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [47:30<10:15,  4.01it/s]

Epoch: 48, Iter: 11400/13867
    loss    0.782969
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [48:21<09:44,  3.88it/s]

Epoch: 48, Iter: 11600/13867
    loss    0.801199
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [49:18<09:20,  3.69it/s]

Epoch: 48, Iter: 11800/13867
    loss    0.800488
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [50:11<08:21,  3.72it/s]

Epoch: 48, Iter: 12000/13867
    loss    0.7928
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [51:04<07:22,  3.76it/s]

Epoch: 48, Iter: 12200/13867
    loss    0.787307
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [51:57<06:28,  3.77it/s]

Epoch: 48, Iter: 12400/13867
    loss    0.788066
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [52:50<05:34,  3.79it/s]

Epoch: 48, Iter: 12600/13867
    loss    0.785252
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [53:43<04:39,  3.81it/s]

Epoch: 48, Iter: 12800/13867
    loss    0.770191
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [54:36<03:55,  3.68it/s]

Epoch: 48, Iter: 13000/13867
    loss    0.802696
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [55:29<02:56,  3.76it/s]

Epoch: 48, Iter: 13200/13867
    loss    0.759173
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [56:22<02:07,  3.65it/s]

Epoch: 48, Iter: 13400/13867
    loss    0.792544
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|██████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [57:20<01:10,  3.76it/s]

Epoch: 48, Iter: 13600/13867
    loss    0.799622
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|███████████████████████████████████████████████████████████████████████████▋| 13801/13867 [58:13<00:17,  3.70it/s]

Epoch: 48, Iter: 13800/13867
    loss    0.815377
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|████████████████████████████████████████████████████████████████████████████| 13867/13867 [58:30<00:00,  3.95it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:29<00:00,  9.11it/s]



Epoch 48: Train 92.57
Epoch 48: Valid 66.21
Epoch 48: Best 66.21
snap/vqa_multilingual


  1%|█                                                                           | 201/13867 [00:53<1:01:38,  3.69it/s]

Epoch: 49, Iter: 200/13867
    loss    0.771776
dtype: float64
~~~~~~~~~~~~~~~~~~



  3%|██▏                                                                         | 401/13867 [01:46<1:00:29,  3.71it/s]

Epoch: 49, Iter: 400/13867
    loss    0.783744
dtype: float64
~~~~~~~~~~~~~~~~~~



  4%|███▍                                                                          | 601/13867 [02:39<59:14,  3.73it/s]

Epoch: 49, Iter: 600/13867
    loss    0.786797
dtype: float64
~~~~~~~~~~~~~~~~~~



  6%|████▌                                                                         | 801/13867 [03:37<57:56,  3.76it/s]

Epoch: 49, Iter: 800/13867
    loss    0.796616
dtype: float64
~~~~~~~~~~~~~~~~~~



  7%|█████▌                                                                       | 1001/13867 [04:30<57:09,  3.75it/s]

Epoch: 49, Iter: 1000/13867
    loss    0.78321
dtype: float64
~~~~~~~~~~~~~~~~~~



  9%|██████▋                                                                      | 1201/13867 [05:23<56:50,  3.71it/s]

Epoch: 49, Iter: 1200/13867
    loss    0.782569
dtype: float64
~~~~~~~~~~~~~~~~~~



 10%|███████▊                                                                     | 1401/13867 [06:16<57:18,  3.63it/s]

Epoch: 49, Iter: 1400/13867
    loss    0.776046
dtype: float64
~~~~~~~~~~~~~~~~~~



 12%|████████▉                                                                    | 1601/13867 [07:09<56:18,  3.63it/s]

Epoch: 49, Iter: 1600/13867
    loss    0.77923
dtype: float64
~~~~~~~~~~~~~~~~~~



 13%|██████████                                                                   | 1801/13867 [08:03<56:27,  3.56it/s]

Epoch: 49, Iter: 1800/13867
    loss    0.785204
dtype: float64
~~~~~~~~~~~~~~~~~~



 14%|███████████                                                                  | 2001/13867 [08:56<53:45,  3.68it/s]

Epoch: 49, Iter: 2000/13867
    loss    0.766778
dtype: float64
~~~~~~~~~~~~~~~~~~



 16%|████████████▏                                                                | 2201/13867 [09:50<51:46,  3.76it/s]

Epoch: 49, Iter: 2200/13867
    loss    0.782152
dtype: float64
~~~~~~~~~~~~~~~~~~



 17%|█████████████▎                                                               | 2401/13867 [10:43<51:44,  3.69it/s]

Epoch: 49, Iter: 2400/13867
    loss    0.785614
dtype: float64
~~~~~~~~~~~~~~~~~~



 19%|██████████████▍                                                              | 2601/13867 [11:41<50:32,  3.71it/s]

Epoch: 49, Iter: 2600/13867
    loss    0.78933
dtype: float64
~~~~~~~~~~~~~~~~~~



 20%|███████████████▌                                                             | 2801/13867 [12:35<49:41,  3.71it/s]

Epoch: 49, Iter: 2800/13867
    loss    0.797112
dtype: float64
~~~~~~~~~~~~~~~~~~



 22%|████████████████▋                                                            | 3001/13867 [13:28<49:27,  3.66it/s]

Epoch: 49, Iter: 3000/13867
    loss    0.772766
dtype: float64
~~~~~~~~~~~~~~~~~~



 23%|█████████████████▊                                                           | 3201/13867 [14:21<48:19,  3.68it/s]

Epoch: 49, Iter: 3200/13867
    loss    0.773099
dtype: float64
~~~~~~~~~~~~~~~~~~



 25%|██████████████████▉                                                          | 3401/13867 [15:14<48:08,  3.62it/s]

Epoch: 49, Iter: 3400/13867
    loss    0.788554
dtype: float64
~~~~~~~~~~~~~~~~~~



 26%|███████████████████▉                                                         | 3601/13867 [16:07<45:44,  3.74it/s]

Epoch: 49, Iter: 3600/13867
    loss    0.787488
dtype: float64
~~~~~~~~~~~~~~~~~~



 27%|█████████████████████                                                        | 3801/13867 [17:00<45:02,  3.72it/s]

Epoch: 49, Iter: 3800/13867
    loss    0.778189
dtype: float64
~~~~~~~~~~~~~~~~~~



 29%|██████████████████████▏                                                      | 4001/13867 [17:54<44:23,  3.70it/s]

Epoch: 49, Iter: 4000/13867
    loss    0.766304
dtype: float64
~~~~~~~~~~~~~~~~~~



 30%|███████████████████████▎                                                     | 4201/13867 [18:47<43:37,  3.69it/s]

Epoch: 49, Iter: 4200/13867
    loss    0.778656
dtype: float64
~~~~~~~~~~~~~~~~~~



 32%|████████████████████████▍                                                    | 4401/13867 [19:45<43:17,  3.64it/s]

Epoch: 49, Iter: 4400/13867
    loss    0.766382
dtype: float64
~~~~~~~~~~~~~~~~~~



 33%|█████████████████████████▌                                                   | 4601/13867 [20:38<41:59,  3.68it/s]

Epoch: 49, Iter: 4600/13867
    loss    0.779622
dtype: float64
~~~~~~~~~~~~~~~~~~



 35%|██████████████████████████▋                                                  | 4801/13867 [21:31<41:10,  3.67it/s]

Epoch: 49, Iter: 4800/13867
    loss    0.765849
dtype: float64
~~~~~~~~~~~~~~~~~~



 36%|███████████████████████████▊                                                 | 5001/13867 [22:24<38:17,  3.86it/s]

Epoch: 49, Iter: 5000/13867
    loss    0.780332
dtype: float64
~~~~~~~~~~~~~~~~~~



 38%|████████████████████████████▉                                                | 5201/13867 [23:15<39:25,  3.66it/s]

Epoch: 49, Iter: 5200/13867
    loss    0.79307
dtype: float64
~~~~~~~~~~~~~~~~~~



 39%|█████████████████████████████▉                                               | 5401/13867 [24:06<39:04,  3.61it/s]

Epoch: 49, Iter: 5400/13867
    loss    0.777785
dtype: float64
~~~~~~~~~~~~~~~~~~



 40%|███████████████████████████████                                              | 5601/13867 [25:01<38:02,  3.62it/s]

Epoch: 49, Iter: 5600/13867
    loss    0.797619
dtype: float64
~~~~~~~~~~~~~~~~~~



 42%|████████████████████████████████▏                                            | 5801/13867 [25:54<36:09,  3.72it/s]

Epoch: 49, Iter: 5800/13867
    loss    0.772585
dtype: float64
~~~~~~~~~~~~~~~~~~



 43%|█████████████████████████████████▎                                           | 6001/13867 [26:47<35:45,  3.67it/s]

Epoch: 49, Iter: 6000/13867
    loss    0.784023
dtype: float64
~~~~~~~~~~~~~~~~~~



 45%|██████████████████████████████████▍                                          | 6201/13867 [27:45<34:32,  3.70it/s]

Epoch: 49, Iter: 6200/13867
    loss    0.77077
dtype: float64
~~~~~~~~~~~~~~~~~~



 46%|███████████████████████████████████▌                                         | 6401/13867 [28:38<33:59,  3.66it/s]

Epoch: 49, Iter: 6400/13867
    loss    0.769466
dtype: float64
~~~~~~~~~~~~~~~~~~



 48%|████████████████████████████████████▋                                        | 6601/13867 [29:31<34:15,  3.53it/s]

Epoch: 49, Iter: 6600/13867
    loss    0.762483
dtype: float64
~~~~~~~~~~~~~~~~~~



 49%|█████████████████████████████████████▊                                       | 6801/13867 [30:21<30:40,  3.84it/s]

Epoch: 49, Iter: 6800/13867
    loss    0.784784
dtype: float64
~~~~~~~~~~~~~~~~~~



 50%|██████████████████████████████████████▊                                      | 7001/13867 [31:12<30:36,  3.74it/s]

Epoch: 49, Iter: 7000/13867
    loss    0.78631
dtype: float64
~~~~~~~~~~~~~~~~~~



 52%|███████████████████████████████████████▉                                     | 7201/13867 [32:05<30:34,  3.63it/s]

Epoch: 49, Iter: 7200/13867
    loss    0.791149
dtype: float64
~~~~~~~~~~~~~~~~~~



 53%|█████████████████████████████████████████                                    | 7401/13867 [32:59<29:03,  3.71it/s]

Epoch: 49, Iter: 7400/13867
    loss    0.792569
dtype: float64
~~~~~~~~~~~~~~~~~~



 55%|██████████████████████████████████████████▏                                  | 7601/13867 [33:52<28:07,  3.71it/s]

Epoch: 49, Iter: 7600/13867
    loss    0.790684
dtype: float64
~~~~~~~~~~~~~~~~~~



 56%|███████████████████████████████████████████▎                                 | 7801/13867 [34:45<27:18,  3.70it/s]

Epoch: 49, Iter: 7800/13867
    loss    0.775069
dtype: float64
~~~~~~~~~~~~~~~~~~



 58%|████████████████████████████████████████████▍                                | 8001/13867 [35:43<26:23,  3.70it/s]

Epoch: 49, Iter: 8000/13867
    loss    0.783188
dtype: float64
~~~~~~~~~~~~~~~~~~



 59%|█████████████████████████████████████████████▌                               | 8201/13867 [36:36<25:50,  3.66it/s]

Epoch: 49, Iter: 8200/13867
    loss    0.77698
dtype: float64
~~~~~~~~~~~~~~~~~~



 61%|██████████████████████████████████████████████▋                              | 8401/13867 [37:30<24:30,  3.72it/s]

Epoch: 49, Iter: 8400/13867
    loss    0.793855
dtype: float64
~~~~~~~~~~~~~~~~~~



 62%|███████████████████████████████████████████████▊                             | 8601/13867 [38:23<23:34,  3.72it/s]

Epoch: 49, Iter: 8600/13867
    loss    0.78499
dtype: float64
~~~~~~~~~~~~~~~~~~



 63%|████████████████████████████████████████████████▊                            | 8801/13867 [39:16<22:26,  3.76it/s]

Epoch: 49, Iter: 8800/13867
    loss    0.774454
dtype: float64
~~~~~~~~~~~~~~~~~~



 65%|█████████████████████████████████████████████████▉                           | 9001/13867 [40:09<22:09,  3.66it/s]

Epoch: 49, Iter: 9000/13867
    loss    0.774242
dtype: float64
~~~~~~~~~~~~~~~~~~



 66%|███████████████████████████████████████████████████                          | 9201/13867 [41:03<21:11,  3.67it/s]

Epoch: 49, Iter: 9200/13867
    loss    0.777997
dtype: float64
~~~~~~~~~~~~~~~~~~



 68%|████████████████████████████████████████████████████▏                        | 9401/13867 [41:56<18:46,  3.96it/s]

Epoch: 49, Iter: 9400/13867
    loss    0.77998
dtype: float64
~~~~~~~~~~~~~~~~~~



 69%|█████████████████████████████████████████████████████▎                       | 9601/13867 [42:49<19:18,  3.68it/s]

Epoch: 49, Iter: 9600/13867
    loss    0.791077
dtype: float64
~~~~~~~~~~~~~~~~~~



 71%|██████████████████████████████████████████████████████▍                      | 9801/13867 [43:48<18:35,  3.64it/s]

Epoch: 49, Iter: 9800/13867
    loss    0.792759
dtype: float64
~~~~~~~~~~~~~~~~~~



 72%|██████████████████████████████████████████████████████▊                     | 10001/13867 [44:41<16:56,  3.80it/s]

Epoch: 49, Iter: 10000/13867
    loss    0.783853
dtype: float64
~~~~~~~~~~~~~~~~~~



 74%|███████████████████████████████████████████████████████▉                    | 10201/13867 [45:34<16:17,  3.75it/s]

Epoch: 49, Iter: 10200/13867
    loss    0.786249
dtype: float64
~~~~~~~~~~~~~~~~~~



 75%|█████████████████████████████████████████████████████████                   | 10401/13867 [46:27<16:05,  3.59it/s]

Epoch: 49, Iter: 10400/13867
    loss    0.7437
dtype: float64
~~~~~~~~~~~~~~~~~~



 76%|██████████████████████████████████████████████████████████                  | 10601/13867 [47:20<14:41,  3.71it/s]

Epoch: 49, Iter: 10600/13867
    loss    0.770677
dtype: float64
~~~~~~~~~~~~~~~~~~



 78%|███████████████████████████████████████████████████████████▏                | 10801/13867 [48:13<13:39,  3.74it/s]

Epoch: 49, Iter: 10800/13867
    loss    0.779781
dtype: float64
~~~~~~~~~~~~~~~~~~



 79%|████████████████████████████████████████████████████████████▎               | 11001/13867 [49:07<13:13,  3.61it/s]

Epoch: 49, Iter: 11000/13867
    loss    0.760024
dtype: float64
~~~~~~~~~~~~~~~~~~



 81%|█████████████████████████████████████████████████████████████▍              | 11201/13867 [50:00<12:08,  3.66it/s]

Epoch: 49, Iter: 11200/13867
    loss    0.806679
dtype: float64
~~~~~~~~~~~~~~~~~~



 82%|██████████████████████████████████████████████████████████████▍             | 11401/13867 [50:53<11:12,  3.67it/s]

Epoch: 49, Iter: 11400/13867
    loss    0.775537
dtype: float64
~~~~~~~~~~~~~~~~~~



 84%|███████████████████████████████████████████████████████████████▌            | 11601/13867 [51:51<10:04,  3.75it/s]

Epoch: 49, Iter: 11600/13867
    loss    0.775984
dtype: float64
~~~~~~~~~~~~~~~~~~



 85%|████████████████████████████████████████████████████████████████▋           | 11801/13867 [52:44<09:23,  3.67it/s]

Epoch: 49, Iter: 11800/13867
    loss    0.776409
dtype: float64
~~~~~~~~~~~~~~~~~~



 87%|█████████████████████████████████████████████████████████████████▊          | 12001/13867 [53:37<08:35,  3.62it/s]

Epoch: 49, Iter: 12000/13867
    loss    0.794312
dtype: float64
~~~~~~~~~~~~~~~~~~



 88%|██████████████████████████████████████████████████████████████████▊         | 12201/13867 [54:31<07:23,  3.76it/s]

Epoch: 49, Iter: 12200/13867
    loss    0.775701
dtype: float64
~~~~~~~~~~~~~~~~~~



 89%|███████████████████████████████████████████████████████████████████▉        | 12401/13867 [55:24<06:44,  3.62it/s]

Epoch: 49, Iter: 12400/13867
    loss    0.799767
dtype: float64
~~~~~~~~~~~~~~~~~~



 91%|█████████████████████████████████████████████████████████████████████       | 12601/13867 [56:17<05:50,  3.61it/s]

Epoch: 49, Iter: 12600/13867
    loss    0.787192
dtype: float64
~~~~~~~~~~~~~~~~~~



 92%|██████████████████████████████████████████████████████████████████████▏     | 12801/13867 [57:11<04:27,  3.98it/s]

Epoch: 49, Iter: 12800/13867
    loss    0.78834
dtype: float64
~~~~~~~~~~~~~~~~~~



 94%|███████████████████████████████████████████████████████████████████████▎    | 13001/13867 [58:00<03:37,  3.97it/s]

Epoch: 49, Iter: 13000/13867
    loss    0.737393
dtype: float64
~~~~~~~~~~~~~~~~~~



 95%|████████████████████████████████████████████████████████████████████████▎   | 13201/13867 [58:49<02:45,  4.02it/s]

Epoch: 49, Iter: 13200/13867
    loss    0.794351
dtype: float64
~~~~~~~~~~~~~~~~~~



 97%|█████████████████████████████████████████████████████████████████████████▍  | 13401/13867 [59:43<01:55,  4.04it/s]

Epoch: 49, Iter: 13400/13867
    loss    0.783316
dtype: float64
~~~~~~~~~~~~~~~~~~



 98%|████████████████████████████████████████████████████████████████████████▌ | 13601/13867 [1:00:32<01:06,  4.02it/s]

Epoch: 49, Iter: 13600/13867
    loss    0.775512
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|█████████████████████████████████████████████████████████████████████████▋| 13801/13867 [1:01:21<00:16,  3.99it/s]

Epoch: 49, Iter: 13800/13867
    loss    0.7968
dtype: float64
~~~~~~~~~~~~~~~~~~



100%|██████████████████████████████████████████████████████████████████████████| 13867/13867 [1:01:37<00:00,  3.75it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 813/813 [01:25<00:00,  9.48it/s]



Epoch 49: Train 92.59
Epoch 49: Valid 66.19
Epoch 49: Best 66.21
snap/vqa_multilingual
