In [1]:
# Install libraries for data_loader
!pip install pandas
!pip install sklearn
!pip install torchvision
!pip install tqdm
!pip install torchmetrics



In [2]:
# Import DataLoader and corresponding libraries
import pandas
import torchvision.transforms as TT
from torch.utils.data import DataLoader, Dataset, sampler
from sklearn.model_selection import StratifiedKFold
from torchvision import utils
from PIL import Image

In [3]:
# Import libraries for tensors
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [4]:
# For fbeta-score
from torchmetrics.functional import fbeta_score

In [5]:
# For model construction
from collections import OrderedDict

In [6]:
# Import tqdm for progress bar construction
import tqdm

In [7]:
# from google.colab import drive
# drive.mount('/content/gdrive')

# Datatypes and Devices (from Assignment 2)
dtype = torch.float
ltype = torch.long

if torch.cuda.is_available():
    device = torch.device('cuda:0')
else:
    device = torch.device('cpu')

print('using device:', device)

using device: cpu


In [8]:
# Hyper-parameters for K-Fold Cross Validation
N = 5
seed = 42

# Directories for Data
FF1010_Path = './data/'
AudioImage_Path = './image/'

In [9]:
# Call StratifiedKFold object
skf = StratifiedKFold(
    n_splits=5, shuffle=True, random_state=seed
)

In [10]:
# Modify dataframe for K-Fold Cross Validation (birdclef2021)
birdclef_csv = pandas.read_csv(AudioImage_Path + 'train_metadata.csv')
birdclef_csv.loc[birdclef_csv['label_id'] >= 0,'filepath'] = \
    AudioImage_Path + birdclef_csv.query('label_id >= 0')['primary_label'] + '/' + \
    birdclef_csv.query('label_id >= 0')['filename'] + '.npy'

birdclef_csv = birdclef_csv.dropna()
birdclef_csv = birdclef_csv.reset_index(drop=True)

# Add 'fold' attribute for dataset classification
birdclef_dataframe = birdclef_csv.copy()
for n, (_, nth_groups) in enumerate(
    skf.split(birdclef_dataframe, birdclef_dataframe['label_id'])):
    birdclef_dataframe.loc[nth_groups, 'fold'] = int(n)

In [11]:
# Class for ff1010 dataset
class birdclef(Dataset):
    def __init__(self, dataframe, process='train', labels='label_id'):
        self.dataframe = dataframe
        self.filepaths = dataframe['filepath'].values
        self.labels = dataframe[labels].values
        self.process = process
        
        # Transforms for each train and validation
        self.train_transform = TT.Compose([
            TT.Resize([128, 281]),
            TT.RandomHorizontalFlip(p=0.5),
            TT.RandomVerticalFlip(p=0.5),
            TT.ToTensor(),
            TT.Normalize(
                mean=[0.485, 0.456, 0.406],
                std=[0.229, 0.224, 0.225],
            ),
        ])
        self.val_transform = TT.Compose([
            TT.Resize([128, 281]),
            TT.ToTensor(),
            TT.Normalize(
                mean=[0.485, 0.456, 0.406],
                std=[0.229, 0.224, 0.225],
            ),
        ])
    
    def __getitem__(self, idx):
        source = np.load(self.filepaths[idx])
        
        # Rearrange numpy arrays
        source = source.transpose(1, 2, 0)
        
        # Add RGB dimension
        source = np.stack((np.squeeze(source), ) * 3, -1)
        if len(source.shape) == 3:
            source = np.expand_dims(source, axis=2)
        source = source.transpose(2, 0, 1, 3)
        N, H, W, C = source.shape
        
        # Apply transform
        if self.process == 'train':
            source = torch.stack([self.train_transform(Image.fromarray(x)) for x in source])
        elif self.process == 'valid':
            source = torch.stack([self.val_transform(Image.fromarray(x)) for x in source])
        
        # Select the middle input from slices
        source = source[N // 2]

        return source, torch.tensor(self.labels[idx], dtype=ltype)
    
    def __len__(self):
        return len(self.dataframe)

In [12]:
def evaluate_model(loader, model, beta=1.0):
    print("Checking accuracy score on validation set.")
    # TODO: extend this so that we can print that we evaluate test set.
    num_correct = 0
    num_samples = 0
    log_sum = 0
    fbeta_sum = 0
    model.eval()
    with torch.no_grad():
        for x, y in loader:
            x = x.to(device=device, dtype=torch.float)
            y = y.to(device=device, dtype=torch.long)
            y = torch.squeeze(y, 0)
            scores = model(torch.squeeze(x, 0))
            # scores means classfication class for each class. It should be the tensor with size of (Input size, Number of classes)

            # Checks naive accuracy.
            _, preds = scores.max(1)
            num_correct += (preds == y).sum()
            num_samples += preds.size(0)

            # Checks Log Loss.
            log_loss = F.cross_entropy(scores, y)
            log_sum += log_loss.sum() * preds.size(0)

            # Checks Fbeta-score.
            fbeta = fbeta_score(preds, y, beta=beta)
            fbeta_sum += fbeta * preds.size(0)
            
            # Erase memory caches
            del x, y, scores, log_loss
        
        acc = float(num_correct) / num_samples
        log_score = log_sum / num_samples
        f_score = fbeta_sum / num_samples
        print('\nAccuracy: %d / %d correct (%.2f)' % (num_correct, num_samples, 100 * acc))
        print('Log Loss score:\t%.2f' % (log_score))
        print('Fbeta-score (beta=%d): \t%.2f' % (beta , f_score))
    return acc, log_score, f_score

In [33]:
import os

# Print period for accuracy.
print_period = 100

# Hyper-parameters for training 
birdclef_batch = 16
birdclef_epoch = 50

# Learning Rate.
learning_rate_2 = 0.0001

# L2 Regularization Hyperparamter
weight_decay_2 = 0.001

# Beta constant for Fbeta-score.
# If you want to give more weight to precision, use value smaller than 1.0.
# If you want to give more weight to recall, use value larger than 1.0.
beta = 1.0

# Prototype of model 2.
# ResNet50 outputs (Batchsize, 1000) tensor as output, so we reduce them to 397.
class Model2(nn.Module):
    def __init__(self, num_classes=397):
        super().__init__()
#        self.resnet50 = torch.hub.load('pytorch/vision:v0.10.0', 'resnet50', pretrained=True).to(device)
        self.googlenet = torch.hub.load('pytorch/vision:v0.10.0', 'googlenet', pretrained=True).to(device)
        self.relu = nn.ReLU().to(device)
        self.linear = nn.Linear(1000, num_classes, bias=True).to(device)
    
    def forward (self, x):
#        x = self.resnet50(x)
        x = self.googlenet(x)
        x = self.relu(x)
        x = self.linear(x)
        return x

cur_model = Model2()
print(cur_model)

def checkpoint(model, optimizer, loss, epoch, index):
    torch.save({
            'epoch': epoch,
            'model_state_dict': model.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': loss
            }, './bird_specificator.pt')

def train_model(model, train_loader, val_loader, optimizer, scheduler, beta=beta, epoch=birdclef_epoch):
    val_losses = []
    train_losses = []
    epoch_losses = []
    log_scores = []
    fbeta_scores = []
    
    loss = 0
    log_score = 0
    saved_epoch = -1
    
    # Load checkpoint
    
    
    for e in range(epoch):
        if e < saved_epoch:
            continue
        
        if len(val_losses) == 0 and saved_epoch > -1:
            acc, log_score, fbeta_score = evaluate_model(val_loader, model, beta=beta)
            val_losses.append(acc)
            train_losses.append(torch.tensor(sum(epoch_losses) / len(epoch_losses), dtype=dtype))
            log_scores.append(log_score)
            fbeta_scores.append(fbeta_score)
            
        print(f"Training model 2, epoch {e+1}")
        for index, (source, label) in enumerate(tqdm.tqdm(train_loader)):          
            x = source.to(device=device, dtype=torch.float)  # move to device, e.g. GPU
            y = label.to(device=device, dtype=torch.long)
            y = torch.squeeze(y, 0)

            scores = model(torch.squeeze(x, 0))
            loss = F.cross_entropy(scores, y) # Log loss for our project.

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            epoch_losses.append(loss.item())

            # every print_period, print loss.
            if index % print_period == 0:
                print('Iteration %d, loss = %.4f' % (index, loss.item()))
                
            # Erase memory caches
            del source, label, x, y, scores, loss
            
        # Cosine LR Annealing Scheduler
        scheduler.step()
        
        # every epoch, save the model
        checkpoint(model, optimizer, epoch_losses, e, index)
        
        # Append the score to lists
        acc, log_score, fbeta_score = evaluate_model(val_loader, model, beta=beta)
        val_losses.append(acc)
        train_losses.append(torch.tensor(sum(epoch_losses) / len(epoch_losses), dtype=dtype))
        log_scores.append(log_score)
        fbeta_scores.append(fbeta_score)

    return model, val_losses, train_losses, log_scores, fbeta_scores

Model2(
  (googlenet): GoogLeNet(
    (conv1): BasicConv2d(
      (conv): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
      (bn): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
    )
    (maxpool1): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=True)
    (conv2): BasicConv2d(
      (conv): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
    )
    (conv3): BasicConv2d(
      (conv): Conv2d(64, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
    )
    (maxpool2): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=True)
    (inception3a): Inception(
      (branch1): BasicConv2d(
        (conv): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn): 

Using cache found in C:\Users\ujubo/.cache\torch\hub\pytorch_vision_v0.10.0


In [30]:
# Train loop for bird specificator
def bird_train(model, train_dataframe, val_dataframe, test_dataframe):  
    train_data = birdclef(train_dataframe, process='train', labels='label_id')
    val_data = birdclef(val_dataframe, process='valid', labels='label_id')
    test_data = birdclef(test_dataframe, process='valid', labels='label_id')
    
    # Construct data loader for train and validation
    train_loader = DataLoader(train_data, batch_size=birdclef_batch,
                             sampler=sampler.SubsetRandomSampler(range(len(train_dataframe))), 
                             drop_last=True)
    val_loader = DataLoader(val_data, batch_size=birdclef_batch,
                             sampler=sampler.SubsetRandomSampler(range(len(val_dataframe))),
                             drop_last=False)
    test_loader = DataLoader(test_data, batch_size=birdclef_batch,
                              sampler=sampler.SubsetRandomSampler(range(len(test_dataframe))),
                              drop_last=False)
    
    optimizer = optim.Adam(model.parameters(), lr=learning_rate_2)
    scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=birdclef_epoch, eta_min=1e-5)
    trained_model, val_losses, train_losses, log_scores, fbeta_scores = train_model(
        model, train_loader, val_loader, optimizer, scheduler, beta=beta)
    test_acc, test_log_score, test_fbeta_score = evaluate_model(test_loader, trained_model, beta=beta)
    
    return val_losses, train_losses, log_scores, fbeta_scores, [test_acc, test_log_score, test_fbeta_score]

In [31]:
# Train, Validate and Test for nocall detector
def bird(model, dataframe, val_index, test_index):
    
    # Check that validation fold is not same as test fold
    assert val_index != test_index, \
        'Validation and test should be done on different fold.'
    print('Test set : %d, Validation set : %d' % (test_index, val_index))
    
    train_dataframe = dataframe.query(
        'fold != ' + str(val_index) + ' and fold != ' + str(test_index) 
    ).reset_index(drop=True)
    val_dataframe = dataframe.query(
        'fold == ' + str(val_index) 
    ).reset_index(drop=False)
    test_dataframe = dataframe.query(
        'fold == ' + str(test_index) 
    ).reset_index(drop=False)
    
    val_losses, train_losses, log_scores, fbeta_scores, test_scores = bird_train(
        model, train_dataframe, val_dataframe, test_dataframe)

    return val_losses, train_losses, log_scores, fbeta_scores, test_scores

In [None]:
val_losses, train_losses, log_scores, fbeta_scores, test_scores = \
    bird(cur_model, birdclef_dataframe, 1, 0)
del cur_model

# for i in range(2, 5):
#     cur_model = Model2()
#     cv_losses, ctr_losses, cl_scores, cf_scores, cte_scores = nocall(cur_model, birdclef_dataframe, i, 0)
#     val_losses = torch.mean(torch.stack((torch.tensor(val_losses), torch.tensor(cv_losses))), dim=0)
#     train_losses = torch.mean(torch.stack((torch.tensor(train_losses), torch.tensor(ctr_losses))), dim=0)
#     log_scores = torch.mean(torch.stack((torch.tensor(log_scores), torch.tensor(cl_scores))), dim=0)
#     fbeta_scores = torch.mean(torch.stack((torch.tensor(fbeta_scores), torch.tensor(cf_scores))), dim=0)
#     for j in range(len(test_scores)):
#         test_scores[j] = torch.mean(torch.stack((torch.tensor(test_scores[j]), torch.tensor(cte_scores[j]))), dim=0)

Test set : 0, Validation set : 1
Training model 2, epoch 1


  0%|                                                                                 | 1/2357 [00:01<41:26,  1.06s/it]

Iteration 0, loss = 6.0883


  4%|███▍                                                                           | 101/2357 [01:42<38:19,  1.02s/it]

Iteration 100, loss = 6.0334


  9%|██████▋                                                                        | 201/2357 [03:23<35:40,  1.01it/s]

Iteration 200, loss = 5.6997


 13%|██████████                                                                     | 301/2357 [05:03<34:23,  1.00s/it]

Iteration 300, loss = 5.9141


 17%|█████████████▍                                                                 | 401/2357 [06:44<33:09,  1.02s/it]

Iteration 400, loss = 5.7590


 21%|████████████████▊                                                              | 501/2357 [08:23<31:19,  1.01s/it]

Iteration 500, loss = 5.4561


 25%|████████████████████▏                                                          | 601/2357 [10:01<28:24,  1.03it/s]

Iteration 600, loss = 5.6063


 30%|███████████████████████▍                                                       | 701/2357 [11:40<27:39,  1.00s/it]

Iteration 700, loss = 5.2664


 34%|██████████████████████████▊                                                    | 801/2357 [13:18<25:56,  1.00s/it]

Iteration 800, loss = 4.7786


 38%|██████████████████████████████▏                                                | 901/2357 [14:56<24:03,  1.01it/s]

Iteration 900, loss = 5.6257


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:35<22:42,  1.00s/it]

Iteration 1000, loss = 5.1440


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:14<20:44,  1.01it/s]

Iteration 1100, loss = 5.4702


 51%|███████████████████████████████████████▋                                      | 1201/2357 [19:52<18:36,  1.04it/s]

Iteration 1200, loss = 4.5641


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:31<17:33,  1.00it/s]

Iteration 1300, loss = 4.6012


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:09<15:32,  1.03it/s]

Iteration 1400, loss = 3.5972


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [24:51<14:40,  1.03s/it]

Iteration 1500, loss = 4.5021


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:33<12:51,  1.02s/it]

Iteration 1600, loss = 4.4684


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:15<10:53,  1.00it/s]

Iteration 1700, loss = 4.2896


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [29:57<09:27,  1.02s/it]

Iteration 1800, loss = 3.9964


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:38<07:32,  1.01it/s]

Iteration 1900, loss = 3.5572


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:20<06:05,  1.03s/it]

Iteration 2000, loss = 4.3132


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:03<04:19,  1.01s/it]

Iteration 2100, loss = 3.9499


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:45<02:37,  1.01s/it]

Iteration 2200, loss = 4.2697


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:26<00:55,  1.00it/s]

Iteration 2300, loss = 4.7284


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:23<00:00,  1.00s/it]


Checking accuracy score on validation set.

Accuracy: 2964 / 12575 correct (23.57)
Log Loss score:	3.77
Fbeta-score (beta=1): 	0.24
Training model 2, epoch 2


  0%|                                                                                 | 1/2357 [00:00<37:44,  1.04it/s]

Iteration 0, loss = 3.0366


  4%|███▍                                                                           | 101/2357 [01:41<38:29,  1.02s/it]

Iteration 100, loss = 3.7160


  9%|██████▋                                                                        | 201/2357 [03:22<34:21,  1.05it/s]

Iteration 200, loss = 3.3593


 13%|██████████                                                                     | 301/2357 [05:03<34:15,  1.00it/s]

Iteration 300, loss = 3.6252


 17%|█████████████▍                                                                 | 401/2357 [06:47<34:23,  1.05s/it]

Iteration 400, loss = 3.3048


 21%|████████████████▊                                                              | 501/2357 [08:33<33:41,  1.09s/it]

Iteration 500, loss = 3.7778


 25%|████████████████████▏                                                          | 601/2357 [10:21<32:33,  1.11s/it]

Iteration 600, loss = 3.5658


 30%|███████████████████████▍                                                       | 701/2357 [12:09<30:17,  1.10s/it]

Iteration 700, loss = 3.9788


 34%|██████████████████████████▊                                                    | 801/2357 [13:56<26:58,  1.04s/it]

Iteration 800, loss = 2.7483


 38%|██████████████████████████████▏                                                | 901/2357 [15:43<26:33,  1.09s/it]

Iteration 900, loss = 3.5374


 42%|█████████████████████████████████▏                                            | 1001/2357 [17:31<24:23,  1.08s/it]

Iteration 1000, loss = 4.1171


 47%|████████████████████████████████████▍                                         | 1101/2357 [19:17<22:01,  1.05s/it]

Iteration 1100, loss = 3.6578


 51%|███████████████████████████████████████▋                                      | 1201/2357 [21:05<20:04,  1.04s/it]

Iteration 1200, loss = 3.6533


 55%|███████████████████████████████████████████                                   | 1301/2357 [22:51<19:18,  1.10s/it]

Iteration 1300, loss = 3.3301


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [24:37<16:36,  1.04s/it]

Iteration 1400, loss = 2.7210


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [26:25<15:55,  1.12s/it]

Iteration 1500, loss = 3.3319


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [28:12<13:31,  1.07s/it]

Iteration 1600, loss = 4.1196


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [30:01<11:48,  1.08s/it]

Iteration 1700, loss = 3.1652


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [31:49<10:09,  1.10s/it]

Iteration 1800, loss = 2.4586


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [33:37<08:16,  1.09s/it]

Iteration 1900, loss = 2.6771


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [35:25<06:15,  1.05s/it]

Iteration 2000, loss = 3.1923


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [37:14<04:34,  1.07s/it]

Iteration 2100, loss = 4.2546


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [38:57<02:43,  1.05s/it]

Iteration 2200, loss = 2.6129


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [40:39<00:55,  1.01it/s]

Iteration 2300, loss = 3.2484


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [41:35<00:00,  1.06s/it]


Checking accuracy score on validation set.

Accuracy: 4195 / 12575 correct (33.36)
Log Loss score:	3.25
Fbeta-score (beta=1): 	0.33
Training model 2, epoch 3


  0%|                                                                                 | 1/2357 [00:01<43:44,  1.11s/it]

Iteration 0, loss = 3.4097


  4%|███▍                                                                           | 101/2357 [01:43<38:43,  1.03s/it]

Iteration 100, loss = 3.3715


  9%|██████▋                                                                        | 201/2357 [03:29<38:03,  1.06s/it]

Iteration 200, loss = 2.7672


 13%|██████████                                                                     | 301/2357 [05:13<36:12,  1.06s/it]

Iteration 300, loss = 2.8276


 17%|█████████████▍                                                                 | 401/2357 [06:57<32:51,  1.01s/it]

Iteration 400, loss = 2.5667


 21%|████████████████▊                                                              | 501/2357 [08:40<31:31,  1.02s/it]

Iteration 500, loss = 3.1907


 25%|████████████████████▏                                                          | 601/2357 [10:25<29:53,  1.02s/it]

Iteration 600, loss = 1.9055


 30%|███████████████████████▍                                                       | 701/2357 [12:07<28:53,  1.05s/it]

Iteration 700, loss = 2.3888


 34%|██████████████████████████▊                                                    | 801/2357 [13:54<28:25,  1.10s/it]

Iteration 800, loss = 2.8605


 38%|██████████████████████████████▏                                                | 901/2357 [15:41<25:29,  1.05s/it]

Iteration 900, loss = 2.2596


 42%|█████████████████████████████████▏                                            | 1001/2357 [17:31<25:24,  1.12s/it]

Iteration 1000, loss = 3.8882


 47%|████████████████████████████████████▍                                         | 1101/2357 [19:22<23:11,  1.11s/it]

Iteration 1100, loss = 3.7270


 51%|███████████████████████████████████████▋                                      | 1201/2357 [21:12<20:54,  1.08s/it]

Iteration 1200, loss = 1.9740


 55%|███████████████████████████████████████████                                   | 1301/2357 [23:03<19:35,  1.11s/it]

Iteration 1300, loss = 3.4835


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [24:54<17:48,  1.12s/it]

Iteration 1400, loss = 3.6405


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [26:45<16:05,  1.13s/it]

Iteration 1500, loss = 4.9305


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [28:36<13:50,  1.10s/it]

Iteration 1600, loss = 2.7491


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [30:27<12:28,  1.14s/it]

Iteration 1700, loss = 4.1251


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [32:18<10:22,  1.12s/it]

Iteration 1800, loss = 4.0123


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [34:09<08:22,  1.10s/it]

Iteration 1900, loss = 2.4446


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [36:00<06:45,  1.14s/it]

Iteration 2000, loss = 2.9051


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [37:51<04:21,  1.02s/it]

Iteration 2100, loss = 3.0424


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [39:40<02:54,  1.12s/it]

Iteration 2200, loss = 2.8164


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [41:32<01:03,  1.14s/it]

Iteration 2300, loss = 2.2348


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [42:36<00:00,  1.08s/it]


Checking accuracy score on validation set.

Accuracy: 5064 / 12575 correct (40.27)
Log Loss score:	2.90
Fbeta-score (beta=1): 	0.40
Training model 2, epoch 4


  0%|                                                                                 | 1/2357 [00:01<46:00,  1.17s/it]

Iteration 0, loss = 2.8409


  4%|███▍                                                                           | 101/2357 [01:52<40:43,  1.08s/it]

Iteration 100, loss = 1.9954


  9%|██████▋                                                                        | 201/2357 [03:44<41:10,  1.15s/it]

Iteration 200, loss = 3.5467


 13%|██████████                                                                     | 301/2357 [05:35<37:32,  1.10s/it]

Iteration 300, loss = 2.4164


 17%|█████████████▍                                                                 | 401/2357 [07:26<36:43,  1.13s/it]

Iteration 400, loss = 2.6956


 21%|████████████████▊                                                              | 501/2357 [09:18<35:52,  1.16s/it]

Iteration 500, loss = 2.7049


 25%|████████████████████▏                                                          | 601/2357 [11:10<32:13,  1.10s/it]

Iteration 600, loss = 2.4347


 30%|███████████████████████▍                                                       | 701/2357 [13:02<31:39,  1.15s/it]

Iteration 700, loss = 2.4720


 34%|██████████████████████████▊                                                    | 801/2357 [14:50<28:18,  1.09s/it]

Iteration 800, loss = 2.4084


 38%|██████████████████████████████▏                                                | 901/2357 [16:41<26:30,  1.09s/it]

Iteration 900, loss = 2.5710


 42%|█████████████████████████████████▏                                            | 1001/2357 [18:33<24:25,  1.08s/it]

Iteration 1000, loss = 2.8046


 47%|████████████████████████████████████▍                                         | 1101/2357 [20:26<23:35,  1.13s/it]

Iteration 1100, loss = 3.2899


 51%|███████████████████████████████████████▋                                      | 1201/2357 [22:17<22:06,  1.15s/it]

Iteration 1200, loss = 2.9080


 55%|███████████████████████████████████████████                                   | 1301/2357 [24:08<19:05,  1.08s/it]

Iteration 1300, loss = 1.4970


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [25:59<17:40,  1.11s/it]

Iteration 1400, loss = 2.1175


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [27:51<16:08,  1.13s/it]

Iteration 1500, loss = 1.6072


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [29:42<14:13,  1.13s/it]

Iteration 1600, loss = 3.2217


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [31:34<12:09,  1.11s/it]

Iteration 1700, loss = 3.0939


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [33:26<10:24,  1.12s/it]

Iteration 1800, loss = 2.2984


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [35:18<08:43,  1.15s/it]

Iteration 1900, loss = 2.8028


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [37:09<06:30,  1.10s/it]

Iteration 2000, loss = 2.3824


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [39:00<04:44,  1.11s/it]

Iteration 2100, loss = 1.7003


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [40:47<02:53,  1.11s/it]

Iteration 2200, loss = 2.2368


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [42:40<01:04,  1.15s/it]

Iteration 2300, loss = 3.0772


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [43:44<00:00,  1.11s/it]


Checking accuracy score on validation set.

Accuracy: 5438 / 12575 correct (43.24)
Log Loss score:	2.76
Fbeta-score (beta=1): 	0.43
Training model 2, epoch 5


  0%|                                                                                 | 1/2357 [00:01<52:30,  1.34s/it]

Iteration 0, loss = 1.9377


  4%|███▍                                                                           | 101/2357 [01:53<41:56,  1.12s/it]

Iteration 100, loss = 2.0745


  9%|██████▋                                                                        | 201/2357 [03:45<40:27,  1.13s/it]

Iteration 200, loss = 1.9312


 13%|██████████                                                                     | 301/2357 [05:37<39:39,  1.16s/it]

Iteration 300, loss = 2.1628


 17%|█████████████▍                                                                 | 401/2357 [07:30<36:41,  1.13s/it]

Iteration 400, loss = 2.9556


 21%|████████████████▊                                                              | 501/2357 [09:22<35:45,  1.16s/it]

Iteration 500, loss = 1.4788


 25%|████████████████████▏                                                          | 601/2357 [11:14<32:50,  1.12s/it]

Iteration 600, loss = 1.7016


 30%|███████████████████████▍                                                       | 701/2357 [13:05<30:27,  1.10s/it]

Iteration 700, loss = 1.4363


 34%|██████████████████████████▊                                                    | 801/2357 [14:57<29:03,  1.12s/it]

Iteration 800, loss = 2.7306


 38%|██████████████████████████████▏                                                | 901/2357 [16:42<24:41,  1.02s/it]

Iteration 900, loss = 1.5228


 42%|█████████████████████████████████▏                                            | 1001/2357 [18:26<23:43,  1.05s/it]

Iteration 1000, loss = 2.2674


 47%|████████████████████████████████████▍                                         | 1101/2357 [20:10<21:41,  1.04s/it]

Iteration 1100, loss = 2.4098


 51%|███████████████████████████████████████▋                                      | 1201/2357 [21:53<19:55,  1.03s/it]

Iteration 1200, loss = 3.6546


 55%|███████████████████████████████████████████                                   | 1301/2357 [23:36<17:07,  1.03it/s]

Iteration 1300, loss = 1.8317


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [25:18<16:04,  1.01s/it]

Iteration 1400, loss = 1.4719


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [26:59<14:32,  1.02s/it]

Iteration 1500, loss = 2.2595


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [28:41<12:29,  1.01it/s]

Iteration 1600, loss = 2.8408


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [30:21<10:57,  1.00s/it]

Iteration 1700, loss = 2.3111


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [32:03<09:20,  1.01s/it]

Iteration 1800, loss = 1.4029


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [33:45<07:36,  1.00s/it]

Iteration 1900, loss = 2.5167


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [35:26<05:55,  1.00it/s]

Iteration 2000, loss = 2.4648


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [37:06<04:19,  1.01s/it]

Iteration 2100, loss = 2.6182


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [38:47<02:35,  1.00it/s]

Iteration 2200, loss = 3.3135


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [40:28<00:54,  1.02it/s]

Iteration 2300, loss = 2.4160


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [41:24<00:00,  1.05s/it]


Checking accuracy score on validation set.

Accuracy: 5670 / 12575 correct (45.09)
Log Loss score:	2.69
Fbeta-score (beta=1): 	0.45
Training model 2, epoch 6


  0%|                                                                                 | 1/2357 [00:01<48:23,  1.23s/it]

Iteration 0, loss = 1.9721


  4%|███▍                                                                           | 101/2357 [01:41<38:03,  1.01s/it]

Iteration 100, loss = 1.2881


  9%|██████▋                                                                        | 201/2357 [03:21<35:45,  1.01it/s]

Iteration 200, loss = 1.4109


 13%|██████████                                                                     | 301/2357 [05:01<33:32,  1.02it/s]

Iteration 300, loss = 2.7445


 17%|█████████████▍                                                                 | 401/2357 [06:42<31:55,  1.02it/s]

Iteration 400, loss = 2.8501


 21%|████████████████▊                                                              | 501/2357 [08:21<30:52,  1.00it/s]

Iteration 500, loss = 2.0787


 25%|████████████████████▏                                                          | 601/2357 [10:01<29:30,  1.01s/it]

Iteration 600, loss = 2.7173


 30%|███████████████████████▍                                                       | 701/2357 [11:41<27:18,  1.01it/s]

Iteration 700, loss = 1.5893


 34%|██████████████████████████▊                                                    | 801/2357 [13:22<25:52,  1.00it/s]

Iteration 800, loss = 2.1164


 38%|██████████████████████████████▏                                                | 901/2357 [15:01<23:58,  1.01it/s]

Iteration 900, loss = 2.5014


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:41<22:58,  1.02s/it]

Iteration 1000, loss = 2.8531


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:21<20:48,  1.01it/s]

Iteration 1100, loss = 1.9031


 51%|███████████████████████████████████████▋                                      | 1201/2357 [20:01<19:28,  1.01s/it]

Iteration 1200, loss = 2.2436


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:41<17:32,  1.00it/s]

Iteration 1300, loss = 1.8714


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:21<15:57,  1.00s/it]

Iteration 1400, loss = 2.6188


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [25:01<14:22,  1.01s/it]

Iteration 1500, loss = 1.0202


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:42<12:41,  1.01s/it]

Iteration 1600, loss = 2.4678


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:22<10:33,  1.04it/s]

Iteration 1700, loss = 1.6856


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:02<09:01,  1.03it/s]

Iteration 1800, loss = 2.1474


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:41<07:34,  1.00it/s]

Iteration 1900, loss = 2.3389


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:22<05:58,  1.01s/it]

Iteration 2000, loss = 1.9000


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:02<04:10,  1.02it/s]

Iteration 2100, loss = 1.6811


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:42<02:31,  1.03it/s]

Iteration 2200, loss = 1.7627


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:22<00:56,  1.01s/it]

Iteration 2300, loss = 1.5093


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:18<00:00,  1.00s/it]


Checking accuracy score on validation set.

Accuracy: 5943 / 12575 correct (47.26)
Log Loss score:	2.62
Fbeta-score (beta=1): 	0.47
Training model 2, epoch 7


  0%|                                                                                 | 1/2357 [00:01<41:37,  1.06s/it]

Iteration 0, loss = 1.5631


  4%|███▍                                                                           | 101/2357 [01:40<37:16,  1.01it/s]

Iteration 100, loss = 1.3744


  9%|██████▋                                                                        | 201/2357 [03:20<37:14,  1.04s/it]

Iteration 200, loss = 2.5509


 13%|██████████                                                                     | 301/2357 [05:00<34:18,  1.00s/it]

Iteration 300, loss = 2.2490


 17%|█████████████▍                                                                 | 401/2357 [06:40<32:57,  1.01s/it]

Iteration 400, loss = 1.3424


 21%|████████████████▊                                                              | 501/2357 [08:20<30:56,  1.00s/it]

Iteration 500, loss = 2.4697


 25%|████████████████████▏                                                          | 601/2357 [09:59<29:21,  1.00s/it]

Iteration 600, loss = 0.7380


 30%|███████████████████████▍                                                       | 701/2357 [11:40<26:43,  1.03it/s]

Iteration 700, loss = 0.8901


 34%|██████████████████████████▊                                                    | 801/2357 [13:20<26:04,  1.01s/it]

Iteration 800, loss = 1.4027


 38%|██████████████████████████████▏                                                | 901/2357 [15:00<25:32,  1.05s/it]

Iteration 900, loss = 2.5564


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:40<22:41,  1.00s/it]

Iteration 1000, loss = 1.4231


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:20<21:05,  1.01s/it]

Iteration 1100, loss = 1.1361


 51%|███████████████████████████████████████▋                                      | 1201/2357 [19:59<19:17,  1.00s/it]

Iteration 1200, loss = 1.6822


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:39<17:25,  1.01it/s]

Iteration 1300, loss = 1.9666


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:18<15:28,  1.03it/s]

Iteration 1400, loss = 0.9406


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [24:58<14:20,  1.00s/it]

Iteration 1500, loss = 2.2701


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:38<12:59,  1.03s/it]

Iteration 1600, loss = 2.5511


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:18<10:47,  1.01it/s]

Iteration 1700, loss = 2.3804


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [29:58<09:04,  1.02it/s]

Iteration 1800, loss = 1.9758


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:38<07:43,  1.02s/it]

Iteration 1900, loss = 2.3133


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:18<06:06,  1.03s/it]

Iteration 2000, loss = 1.2889


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [34:59<04:18,  1.01s/it]

Iteration 2100, loss = 1.8897


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:39<02:33,  1.01it/s]

Iteration 2200, loss = 1.6123


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:19<00:55,  1.01it/s]

Iteration 2300, loss = 2.2420


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:16<00:00,  1.00it/s]


Checking accuracy score on validation set.

Accuracy: 5986 / 12575 correct (47.60)
Log Loss score:	2.67
Fbeta-score (beta=1): 	0.48
Training model 2, epoch 8


  0%|                                                                                 | 1/2357 [00:01<48:11,  1.23s/it]

Iteration 0, loss = 1.8775


  4%|███▍                                                                           | 101/2357 [01:42<40:09,  1.07s/it]

Iteration 100, loss = 1.9439


  9%|██████▋                                                                        | 201/2357 [03:23<35:28,  1.01it/s]

Iteration 200, loss = 1.4472


 13%|██████████                                                                     | 301/2357 [05:03<35:01,  1.02s/it]

Iteration 300, loss = 1.3837


 17%|█████████████▍                                                                 | 401/2357 [06:43<32:03,  1.02it/s]

Iteration 400, loss = 1.4674


 21%|████████████████▊                                                              | 501/2357 [08:23<30:54,  1.00it/s]

Iteration 500, loss = 1.4934


 25%|████████████████████▏                                                          | 601/2357 [10:03<29:07,  1.00it/s]

Iteration 600, loss = 1.2274


 30%|███████████████████████▍                                                       | 701/2357 [11:44<27:27,  1.01it/s]

Iteration 700, loss = 1.1057


 34%|██████████████████████████▊                                                    | 801/2357 [13:24<26:07,  1.01s/it]

Iteration 800, loss = 1.2321


 38%|██████████████████████████████▏                                                | 901/2357 [15:05<23:22,  1.04it/s]

Iteration 900, loss = 1.3229


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:45<22:14,  1.02it/s]

Iteration 1000, loss = 1.0600


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:25<20:32,  1.02it/s]

Iteration 1100, loss = 1.2997


 51%|███████████████████████████████████████▋                                      | 1201/2357 [20:05<19:11,  1.00it/s]

Iteration 1200, loss = 1.9374


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:45<17:03,  1.03it/s]

Iteration 1300, loss = 0.6268


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:25<16:30,  1.04s/it]

Iteration 1400, loss = 1.7585


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [25:05<13:53,  1.03it/s]

Iteration 1500, loss = 2.0374


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:45<12:39,  1.00s/it]

Iteration 1600, loss = 1.0408


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:26<11:01,  1.01s/it]

Iteration 1700, loss = 1.2005


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:06<09:22,  1.01s/it]

Iteration 1800, loss = 1.0583


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:46<07:45,  1.02s/it]

Iteration 1900, loss = 1.4106


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:26<06:00,  1.01s/it]

Iteration 2000, loss = 0.5189


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:06<04:15,  1.00it/s]

Iteration 2100, loss = 1.0673


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:46<02:35,  1.01it/s]

Iteration 2200, loss = 1.2206


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:26<00:54,  1.02it/s]

Iteration 2300, loss = 1.6943


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:22<00:00,  1.00s/it]


Checking accuracy score on validation set.

Accuracy: 6135 / 12575 correct (48.79)
Log Loss score:	2.65
Fbeta-score (beta=1): 	0.49
Training model 2, epoch 9


  0%|                                                                                 | 1/2357 [00:01<47:50,  1.22s/it]

Iteration 0, loss = 1.0079


  4%|███▍                                                                           | 101/2357 [01:40<37:53,  1.01s/it]

Iteration 100, loss = 0.9611


  9%|██████▋                                                                        | 201/2357 [03:20<36:23,  1.01s/it]

Iteration 200, loss = 1.0422


 13%|██████████                                                                     | 301/2357 [05:00<33:55,  1.01it/s]

Iteration 300, loss = 1.1883


 17%|█████████████▍                                                                 | 401/2357 [06:39<31:20,  1.04it/s]

Iteration 400, loss = 1.5296


 21%|████████████████▊                                                              | 501/2357 [08:19<31:08,  1.01s/it]

Iteration 500, loss = 0.8607


 25%|████████████████████▏                                                          | 601/2357 [09:59<30:37,  1.05s/it]

Iteration 600, loss = 1.7644


 30%|███████████████████████▍                                                       | 701/2357 [11:38<27:26,  1.01it/s]

Iteration 700, loss = 1.1374


 34%|██████████████████████████▊                                                    | 801/2357 [13:18<25:45,  1.01it/s]

Iteration 800, loss = 0.9032


 38%|██████████████████████████████▏                                                | 901/2357 [14:58<24:17,  1.00s/it]

Iteration 900, loss = 0.6734


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:38<23:16,  1.03s/it]

Iteration 1000, loss = 2.0926


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:18<20:35,  1.02it/s]

Iteration 1100, loss = 1.2259


 51%|███████████████████████████████████████▋                                      | 1201/2357 [19:57<18:39,  1.03it/s]

Iteration 1200, loss = 1.2983


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:37<17:36,  1.00s/it]

Iteration 1300, loss = 1.7103


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:16<15:39,  1.02it/s]

Iteration 1400, loss = 1.9922


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [24:56<14:11,  1.00it/s]

Iteration 1500, loss = 1.2307


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:36<12:23,  1.02it/s]

Iteration 1600, loss = 3.0341


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:16<11:01,  1.01s/it]

Iteration 1700, loss = 2.2235


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [29:57<09:11,  1.01it/s]

Iteration 1800, loss = 1.3318


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:36<07:32,  1.01it/s]

Iteration 1900, loss = 1.0762


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:15<05:49,  1.02it/s]

Iteration 2000, loss = 1.8790


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [34:55<04:17,  1.00s/it]

Iteration 2100, loss = 1.1550


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:34<02:35,  1.00it/s]

Iteration 2200, loss = 1.8145


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:13<00:56,  1.01s/it]

Iteration 2300, loss = 1.5076


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:09<00:00,  1.00it/s]


Checking accuracy score on validation set.

Accuracy: 6178 / 12575 correct (49.13)
Log Loss score:	2.66
Fbeta-score (beta=1): 	0.49
Training model 2, epoch 10


  0%|                                                                                 | 1/2357 [00:01<42:20,  1.08s/it]

Iteration 0, loss = 0.9342


  4%|███▍                                                                           | 101/2357 [01:40<39:16,  1.04s/it]

Iteration 100, loss = 2.2403


  9%|██████▋                                                                        | 201/2357 [03:19<35:11,  1.02it/s]

Iteration 200, loss = 0.9062


 13%|██████████                                                                     | 301/2357 [04:57<32:50,  1.04it/s]

Iteration 300, loss = 1.2225


 17%|█████████████▍                                                                 | 401/2357 [06:37<32:29,  1.00it/s]

Iteration 400, loss = 0.8379


 21%|████████████████▊                                                              | 501/2357 [08:16<30:16,  1.02it/s]

Iteration 500, loss = 2.0487


 25%|████████████████████▏                                                          | 601/2357 [09:55<29:18,  1.00s/it]

Iteration 600, loss = 1.0493


 30%|███████████████████████▍                                                       | 701/2357 [11:36<27:22,  1.01it/s]

Iteration 700, loss = 1.4827


 34%|██████████████████████████▊                                                    | 801/2357 [13:15<25:23,  1.02it/s]

Iteration 800, loss = 0.5722


 38%|██████████████████████████████▏                                                | 901/2357 [14:54<24:11,  1.00it/s]

Iteration 900, loss = 1.5523


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:33<22:26,  1.01it/s]

Iteration 1000, loss = 1.2471


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:13<20:31,  1.02it/s]

Iteration 1100, loss = 1.3792


 51%|███████████████████████████████████████▋                                      | 1201/2357 [19:53<19:54,  1.03s/it]

Iteration 1200, loss = 1.4715


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:32<17:17,  1.02it/s]

Iteration 1300, loss = 1.7587


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:11<15:50,  1.01it/s]

Iteration 1400, loss = 1.4934


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [24:51<13:55,  1.02it/s]

Iteration 1500, loss = 1.1060


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:30<12:34,  1.00it/s]

Iteration 1600, loss = 1.4828


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:11<10:48,  1.01it/s]

Iteration 1700, loss = 1.1635


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [29:52<09:05,  1.02it/s]

Iteration 1800, loss = 1.2758


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:31<07:49,  1.03s/it]

Iteration 1900, loss = 0.7670


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:12<05:51,  1.01it/s]

Iteration 2000, loss = 0.9797


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [34:52<04:18,  1.01s/it]

Iteration 2100, loss = 1.4103


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:32<02:42,  1.04s/it]

Iteration 2200, loss = 1.2491


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:13<00:56,  1.01s/it]

Iteration 2300, loss = 0.7949


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:09<00:00,  1.00it/s]


Checking accuracy score on validation set.

Accuracy: 6235 / 12575 correct (49.58)
Log Loss score:	2.75
Fbeta-score (beta=1): 	0.50
Training model 2, epoch 11


  0%|                                                                                 | 1/2357 [00:01<42:22,  1.08s/it]

Iteration 0, loss = 1.4353


  4%|███▍                                                                           | 101/2357 [01:41<36:59,  1.02it/s]

Iteration 100, loss = 1.4254


  9%|██████▋                                                                        | 201/2357 [03:21<36:19,  1.01s/it]

Iteration 200, loss = 1.4890


 13%|██████████                                                                     | 301/2357 [05:02<34:31,  1.01s/it]

Iteration 300, loss = 1.0872


 17%|█████████████▍                                                                 | 401/2357 [06:42<32:25,  1.01it/s]

Iteration 400, loss = 0.8889


 21%|████████████████▊                                                              | 501/2357 [08:22<31:12,  1.01s/it]

Iteration 500, loss = 0.9883


 25%|████████████████████▏                                                          | 601/2357 [10:02<28:52,  1.01it/s]

Iteration 600, loss = 0.4680


 30%|███████████████████████▍                                                       | 701/2357 [11:42<26:57,  1.02it/s]

Iteration 700, loss = 0.8543


 34%|██████████████████████████▊                                                    | 801/2357 [13:22<25:55,  1.00it/s]

Iteration 800, loss = 0.7866


 38%|██████████████████████████████▏                                                | 901/2357 [15:02<24:02,  1.01it/s]

Iteration 900, loss = 0.7435


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:42<22:20,  1.01it/s]

Iteration 1000, loss = 1.0566


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:22<20:25,  1.02it/s]

Iteration 1100, loss = 1.0424


 51%|███████████████████████████████████████▋                                      | 1201/2357 [20:02<19:02,  1.01it/s]

Iteration 1200, loss = 0.6429


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:43<17:22,  1.01it/s]

Iteration 1300, loss = 0.9448


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:23<15:28,  1.03it/s]

Iteration 1400, loss = 1.0422


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [25:03<14:19,  1.00s/it]

Iteration 1500, loss = 0.5796


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:44<12:34,  1.00it/s]

Iteration 1600, loss = 1.0369


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:24<10:33,  1.04it/s]

Iteration 1700, loss = 1.4132


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:04<09:15,  1.00it/s]

Iteration 1800, loss = 1.4120


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:44<07:36,  1.00s/it]

Iteration 1900, loss = 1.1105


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:24<06:01,  1.02s/it]

Iteration 2000, loss = 0.2886


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:04<04:17,  1.01s/it]

Iteration 2100, loss = 0.8079


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:44<02:38,  1.01s/it]

Iteration 2200, loss = 0.3316


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:24<00:55,  1.00it/s]

Iteration 2300, loss = 1.6237


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:20<00:00,  1.00s/it]


Checking accuracy score on validation set.

Accuracy: 6149 / 12575 correct (48.90)
Log Loss score:	2.87
Fbeta-score (beta=1): 	0.49
Training model 2, epoch 12


  0%|                                                                                 | 1/2357 [00:01<42:55,  1.09s/it]

Iteration 0, loss = 1.1481


  4%|███▍                                                                           | 101/2357 [01:40<37:11,  1.01it/s]

Iteration 100, loss = 0.3018


  9%|██████▋                                                                        | 201/2357 [03:20<36:43,  1.02s/it]

Iteration 200, loss = 0.6335


 13%|██████████                                                                     | 301/2357 [04:59<34:36,  1.01s/it]

Iteration 300, loss = 0.5621


 17%|█████████████▍                                                                 | 401/2357 [06:39<32:12,  1.01it/s]

Iteration 400, loss = 0.9958


 21%|████████████████▊                                                              | 501/2357 [08:19<30:22,  1.02it/s]

Iteration 500, loss = 0.9498


 25%|████████████████████▏                                                          | 601/2357 [09:59<29:25,  1.01s/it]

Iteration 600, loss = 1.1917


 30%|███████████████████████▍                                                       | 701/2357 [11:39<29:50,  1.08s/it]

Iteration 700, loss = 0.7143


 34%|██████████████████████████▊                                                    | 801/2357 [13:19<25:49,  1.00it/s]

Iteration 800, loss = 1.0430


 38%|██████████████████████████████▏                                                | 901/2357 [14:59<24:14,  1.00it/s]

Iteration 900, loss = 0.3079


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:39<22:34,  1.00it/s]

Iteration 1000, loss = 0.7970


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:19<21:52,  1.04s/it]

Iteration 1100, loss = 0.3522


 51%|███████████████████████████████████████▋                                      | 1201/2357 [19:59<20:08,  1.05s/it]

Iteration 1200, loss = 1.3940


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:39<17:15,  1.02it/s]

Iteration 1300, loss = 0.7259


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:20<16:06,  1.01s/it]

Iteration 1400, loss = 0.3271


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [25:01<13:57,  1.02it/s]

Iteration 1500, loss = 1.1026


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:41<12:57,  1.03s/it]

Iteration 1600, loss = 0.6883


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:21<10:43,  1.02it/s]

Iteration 1700, loss = 0.9776


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:02<09:13,  1.00it/s]

Iteration 1800, loss = 0.6165


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:42<07:37,  1.00s/it]

Iteration 1900, loss = 1.2117


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:21<05:53,  1.01it/s]

Iteration 2000, loss = 0.7665


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:01<04:13,  1.01it/s]

Iteration 2100, loss = 0.5926


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:41<02:39,  1.02s/it]

Iteration 2200, loss = 1.2718


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:20<00:55,  1.00it/s]

Iteration 2300, loss = 1.1238


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:16<00:00,  1.00it/s]


Checking accuracy score on validation set.

Accuracy: 6099 / 12575 correct (48.50)
Log Loss score:	3.28
Fbeta-score (beta=1): 	0.49
Training model 2, epoch 13


  0%|                                                                                 | 1/2357 [00:01<44:04,  1.12s/it]

Iteration 0, loss = 0.4741


  4%|███▍                                                                           | 101/2357 [01:40<38:16,  1.02s/it]

Iteration 100, loss = 0.2467


  9%|██████▋                                                                        | 201/2357 [03:20<36:05,  1.00s/it]

Iteration 200, loss = 0.9229


 13%|██████████                                                                     | 301/2357 [05:01<34:46,  1.01s/it]

Iteration 300, loss = 0.1667


 17%|█████████████▍                                                                 | 401/2357 [06:42<33:39,  1.03s/it]

Iteration 400, loss = 1.3699


 21%|████████████████▊                                                              | 501/2357 [08:22<30:00,  1.03it/s]

Iteration 500, loss = 0.9625


 25%|████████████████████▏                                                          | 601/2357 [10:02<28:54,  1.01it/s]

Iteration 600, loss = 0.3327


 30%|███████████████████████▍                                                       | 701/2357 [11:42<27:26,  1.01it/s]

Iteration 700, loss = 0.2548


 34%|██████████████████████████▊                                                    | 801/2357 [13:23<25:38,  1.01it/s]

Iteration 800, loss = 0.6426


 38%|██████████████████████████████▏                                                | 901/2357 [15:03<24:28,  1.01s/it]

Iteration 900, loss = 0.8340


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:44<22:46,  1.01s/it]

Iteration 1000, loss = 0.9067


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:24<21:18,  1.02s/it]

Iteration 1100, loss = 0.9649


 51%|███████████████████████████████████████▋                                      | 1201/2357 [20:04<19:25,  1.01s/it]

Iteration 1200, loss = 0.5464


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:45<17:03,  1.03it/s]

Iteration 1300, loss = 0.4654


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:26<16:00,  1.01s/it]

Iteration 1400, loss = 0.4946


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [25:06<14:32,  1.02s/it]

Iteration 1500, loss = 0.5850


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:45<12:53,  1.02s/it]

Iteration 1600, loss = 0.7315


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:26<10:48,  1.01it/s]

Iteration 1700, loss = 0.6648


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:05<09:08,  1.01it/s]

Iteration 1800, loss = 0.5512


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:44<07:39,  1.01s/it]

Iteration 1900, loss = 0.3412


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:23<05:46,  1.03it/s]

Iteration 2000, loss = 1.5560


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:02<04:11,  1.02it/s]

Iteration 2100, loss = 1.3997


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:41<02:35,  1.00it/s]

Iteration 2200, loss = 1.0691


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:21<00:56,  1.01s/it]

Iteration 2300, loss = 1.0656


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:17<00:00,  1.00s/it]


Checking accuracy score on validation set.

Accuracy: 6153 / 12575 correct (48.93)
Log Loss score:	3.35
Fbeta-score (beta=1): 	0.49
Training model 2, epoch 14


  0%|                                                                                 | 1/2357 [00:00<38:22,  1.02it/s]

Iteration 0, loss = 0.3008


  4%|███▍                                                                           | 101/2357 [01:41<36:48,  1.02it/s]

Iteration 100, loss = 0.5405


  9%|██████▋                                                                        | 201/2357 [03:20<35:36,  1.01it/s]

Iteration 200, loss = 0.1902


 13%|██████████                                                                     | 301/2357 [05:01<34:01,  1.01it/s]

Iteration 300, loss = 0.3905


 17%|█████████████▍                                                                 | 401/2357 [06:41<32:00,  1.02it/s]

Iteration 400, loss = 0.6956


 21%|████████████████▊                                                              | 501/2357 [08:21<31:08,  1.01s/it]

Iteration 500, loss = 0.2389


 25%|████████████████████▏                                                          | 601/2357 [10:01<29:09,  1.00it/s]

Iteration 600, loss = 0.6868


 30%|███████████████████████▍                                                       | 701/2357 [11:41<27:20,  1.01it/s]

Iteration 700, loss = 0.6646


 34%|██████████████████████████▊                                                    | 801/2357 [13:20<25:27,  1.02it/s]

Iteration 800, loss = 0.6032


 38%|██████████████████████████████▏                                                | 901/2357 [14:59<23:44,  1.02it/s]

Iteration 900, loss = 0.2593


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:39<22:14,  1.02it/s]

Iteration 1000, loss = 0.4599


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:19<20:56,  1.00s/it]

Iteration 1100, loss = 0.3389


 51%|███████████████████████████████████████▋                                      | 1201/2357 [19:59<19:41,  1.02s/it]

Iteration 1200, loss = 0.5349


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:38<17:34,  1.00it/s]

Iteration 1300, loss = 0.9854


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:18<16:27,  1.03s/it]

Iteration 1400, loss = 0.2684


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [24:57<13:48,  1.03it/s]

Iteration 1500, loss = 0.5656


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:37<12:52,  1.02s/it]

Iteration 1600, loss = 0.4399


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:16<10:33,  1.04it/s]

Iteration 1700, loss = 0.2381


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [29:55<09:05,  1.02it/s]

Iteration 1800, loss = 0.3223


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:34<07:52,  1.04s/it]

Iteration 1900, loss = 0.2996


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:14<06:07,  1.03s/it]

Iteration 2000, loss = 0.5103


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [34:54<04:09,  1.03it/s]

Iteration 2100, loss = 0.4140


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:34<02:36,  1.00s/it]

Iteration 2200, loss = 0.9060


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:14<00:56,  1.01s/it]

Iteration 2300, loss = 0.9638


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:10<00:00,  1.00it/s]


Checking accuracy score on validation set.

Accuracy: 6239 / 12575 correct (49.61)
Log Loss score:	3.55
Fbeta-score (beta=1): 	0.50
Training model 2, epoch 15


  0%|                                                                                 | 1/2357 [00:01<39:35,  1.01s/it]

Iteration 0, loss = 0.3302


  4%|███▍                                                                           | 101/2357 [01:41<38:25,  1.02s/it]

Iteration 100, loss = 0.3744


  9%|██████▋                                                                        | 201/2357 [03:20<35:40,  1.01it/s]

Iteration 200, loss = 0.4375


 13%|██████████                                                                     | 301/2357 [05:01<33:51,  1.01it/s]

Iteration 300, loss = 0.4535


 17%|█████████████▍                                                                 | 401/2357 [06:41<31:57,  1.02it/s]

Iteration 400, loss = 0.5954


 21%|████████████████▊                                                              | 501/2357 [08:22<31:23,  1.01s/it]

Iteration 500, loss = 0.3431


 25%|████████████████████▏                                                          | 601/2357 [10:01<29:13,  1.00it/s]

Iteration 600, loss = 0.4986


 30%|███████████████████████▍                                                       | 701/2357 [11:42<27:33,  1.00it/s]

Iteration 700, loss = 0.7376


 34%|██████████████████████████▊                                                    | 801/2357 [13:22<26:09,  1.01s/it]

Iteration 800, loss = 0.6961


 38%|██████████████████████████████▏                                                | 901/2357 [15:02<24:21,  1.00s/it]

Iteration 900, loss = 0.6062


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:42<23:14,  1.03s/it]

Iteration 1000, loss = 0.8390


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:22<20:33,  1.02it/s]

Iteration 1100, loss = 0.6624


 51%|███████████████████████████████████████▋                                      | 1201/2357 [20:02<19:17,  1.00s/it]

Iteration 1200, loss = 0.4872


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:42<17:40,  1.00s/it]

Iteration 1300, loss = 0.3251


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:22<15:55,  1.00it/s]

Iteration 1400, loss = 0.3409


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [25:02<14:02,  1.02it/s]

Iteration 1500, loss = 0.6609


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:41<12:31,  1.01it/s]

Iteration 1600, loss = 0.0205


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:21<10:45,  1.02it/s]

Iteration 1700, loss = 0.9595


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:01<09:15,  1.00it/s]

Iteration 1800, loss = 0.2332


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:41<07:49,  1.03s/it]

Iteration 1900, loss = 1.1116


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:20<06:04,  1.02s/it]

Iteration 2000, loss = 0.3486


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:00<04:13,  1.01it/s]

Iteration 2100, loss = 0.4998


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [36:40<02:36,  1.00s/it]

Iteration 2200, loss = 0.2880


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:21<00:54,  1.02it/s]

Iteration 2300, loss = 0.5779


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:16<00:00,  1.00it/s]


Checking accuracy score on validation set.

Accuracy: 6178 / 12575 correct (49.13)
Log Loss score:	3.76
Fbeta-score (beta=1): 	0.49
Training model 2, epoch 16


  0%|                                                                                 | 1/2357 [00:01<43:05,  1.10s/it]

Iteration 0, loss = 0.4517


  4%|███▍                                                                           | 101/2357 [01:40<37:42,  1.00s/it]

Iteration 100, loss = 0.3004


  9%|██████▋                                                                        | 201/2357 [03:20<35:31,  1.01it/s]

Iteration 200, loss = 0.2097


 13%|██████████                                                                     | 301/2357 [05:00<34:11,  1.00it/s]

Iteration 300, loss = 0.1797


 17%|█████████████▍                                                                 | 401/2357 [06:42<32:54,  1.01s/it]

Iteration 400, loss = 1.4262


 21%|████████████████▊                                                              | 501/2357 [08:22<30:52,  1.00it/s]

Iteration 500, loss = 0.3863


 25%|████████████████████▏                                                          | 601/2357 [10:03<30:22,  1.04s/it]

Iteration 600, loss = 0.0883


 30%|███████████████████████▍                                                       | 701/2357 [11:45<27:56,  1.01s/it]

Iteration 700, loss = 0.6767


 34%|██████████████████████████▊                                                    | 801/2357 [13:26<25:43,  1.01it/s]

Iteration 800, loss = 0.1501


 38%|██████████████████████████████▏                                                | 901/2357 [15:07<23:38,  1.03it/s]

Iteration 900, loss = 0.4710


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:48<22:58,  1.02s/it]

Iteration 1000, loss = 0.0854


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:28<21:13,  1.01s/it]

Iteration 1100, loss = 0.6066


 51%|███████████████████████████████████████▋                                      | 1201/2357 [20:10<19:39,  1.02s/it]

Iteration 1200, loss = 0.7670


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:51<17:38,  1.00s/it]

Iteration 1300, loss = 0.6024


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:31<15:51,  1.00it/s]

Iteration 1400, loss = 0.6012


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [25:11<13:57,  1.02it/s]

Iteration 1500, loss = 0.3857


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:53<12:56,  1.03s/it]

Iteration 1600, loss = 0.7108


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:34<11:06,  1.02s/it]

Iteration 1700, loss = 0.7483


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:15<09:30,  1.03s/it]

Iteration 1800, loss = 0.4521


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:57<07:55,  1.04s/it]

Iteration 1900, loss = 0.2821


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:38<05:55,  1.00it/s]

Iteration 2000, loss = 0.2469


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:20<04:20,  1.02s/it]

Iteration 2100, loss = 1.0849


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [37:01<02:38,  1.01s/it]

Iteration 2200, loss = 0.0906


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [38:41<00:56,  1.01s/it]

Iteration 2300, loss = 0.8775


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [39:37<00:00,  1.01s/it]


Checking accuracy score on validation set.

Accuracy: 6176 / 12575 correct (49.11)
Log Loss score:	3.83
Fbeta-score (beta=1): 	0.49
Training model 2, epoch 17


  0%|                                                                                 | 1/2357 [00:01<46:11,  1.18s/it]

Iteration 0, loss = 0.3129


  4%|███▍                                                                           | 101/2357 [01:41<39:34,  1.05s/it]

Iteration 100, loss = 0.3243


  9%|██████▋                                                                        | 201/2357 [03:21<35:44,  1.01it/s]

Iteration 200, loss = 0.2344


 13%|██████████                                                                     | 301/2357 [05:02<33:45,  1.01it/s]

Iteration 300, loss = 0.1748


 17%|█████████████▍                                                                 | 401/2357 [06:42<33:18,  1.02s/it]

Iteration 400, loss = 0.3329


 21%|████████████████▊                                                              | 501/2357 [08:21<31:20,  1.01s/it]

Iteration 500, loss = 0.2436


 25%|████████████████████▏                                                          | 601/2357 [10:01<29:54,  1.02s/it]

Iteration 600, loss = 0.2336


 30%|███████████████████████▍                                                       | 701/2357 [11:41<27:10,  1.02it/s]

Iteration 700, loss = 0.6962


 34%|██████████████████████████▊                                                    | 801/2357 [13:20<26:24,  1.02s/it]

Iteration 800, loss = 0.1834


 38%|██████████████████████████████▏                                                | 901/2357 [14:58<24:16,  1.00s/it]

Iteration 900, loss = 0.8592


 42%|█████████████████████████████████▏                                            | 1001/2357 [16:38<23:01,  1.02s/it]

Iteration 1000, loss = 0.2437


 47%|████████████████████████████████████▍                                         | 1101/2357 [18:17<20:34,  1.02it/s]

Iteration 1100, loss = 0.2570


 51%|███████████████████████████████████████▋                                      | 1201/2357 [19:56<19:35,  1.02s/it]

Iteration 1200, loss = 0.1111


 55%|███████████████████████████████████████████                                   | 1301/2357 [21:34<17:43,  1.01s/it]

Iteration 1300, loss = 0.6806


 59%|██████████████████████████████████████████████▎                               | 1401/2357 [23:14<15:48,  1.01it/s]

Iteration 1400, loss = 0.0891


 64%|█████████████████████████████████████████████████▋                            | 1501/2357 [24:55<14:34,  1.02s/it]

Iteration 1500, loss = 0.6908


 68%|████████████████████████████████████████████████████▉                         | 1601/2357 [26:42<13:10,  1.05s/it]

Iteration 1600, loss = 0.4275


 72%|████████████████████████████████████████████████████████▎                     | 1701/2357 [28:27<11:12,  1.03s/it]

Iteration 1700, loss = 0.0816


 76%|███████████████████████████████████████████████████████████▌                  | 1801/2357 [30:13<10:02,  1.08s/it]

Iteration 1800, loss = 0.4907


 81%|██████████████████████████████████████████████████████████████▉               | 1901/2357 [31:57<07:50,  1.03s/it]

Iteration 1900, loss = 0.1867


 85%|██████████████████████████████████████████████████████████████████▏           | 2001/2357 [33:44<06:15,  1.05s/it]

Iteration 2000, loss = 0.4666


 89%|█████████████████████████████████████████████████████████████████████▌        | 2101/2357 [35:31<04:38,  1.09s/it]

Iteration 2100, loss = 0.3271


 93%|████████████████████████████████████████████████████████████████████████▊     | 2201/2357 [37:19<02:48,  1.08s/it]

Iteration 2200, loss = 0.0992


 98%|████████████████████████████████████████████████████████████████████████████▏ | 2301/2357 [39:08<01:02,  1.11s/it]

Iteration 2300, loss = 0.2201


100%|██████████████████████████████████████████████████████████████████████████████| 2357/2357 [40:09<00:00,  1.02s/it]


Checking accuracy score on validation set.

Accuracy: 6250 / 12575 correct (49.70)
Log Loss score:	4.24
Fbeta-score (beta=1): 	0.50
Training model 2, epoch 18


  0%|                                                                                 | 1/2357 [00:01<46:23,  1.18s/it]

Iteration 0, loss = 0.2634


  4%|███▍                                                                           | 101/2357 [01:47<40:36,  1.08s/it]

Iteration 100, loss = 0.5397


  9%|██████▋                                                                        | 201/2357 [03:33<37:53,  1.05s/it]

Iteration 200, loss = 0.1874


 13%|██████████                                                                     | 301/2357 [05:20<36:52,  1.08s/it]

Iteration 300, loss = 0.0527


 17%|█████████████▍                                                                 | 401/2357 [07:07<35:10,  1.08s/it]

Iteration 400, loss = 0.1971


 21%|████████████████▊                                                              | 501/2357 [08:53<32:27,  1.05s/it]

Iteration 500, loss = 0.4516


 25%|████████████████████▏                                                          | 601/2357 [10:39<31:01,  1.06s/it]

Iteration 600, loss = 0.6082


 30%|███████████████████████▍                                                       | 701/2357 [12:25<27:45,  1.01s/it]

Iteration 700, loss = 0.1655


 34%|██████████████████████████▊                                                    | 801/2357 [14:12<28:53,  1.11s/it]

Iteration 800, loss = 0.0361


 38%|██████████████████████████████▏                                                | 901/2357 [16:00<24:44,  1.02s/it]

Iteration 900, loss = 0.6005


 40%|███████████████████████████████▌                                               | 941/2357 [16:42<25:07,  1.06s/it]