In [1]:
import csv
from turtle import forward
from tqdm import tqdm
import torch
import torch.nn as nn
from torchvision.transforms import transforms
from torch.utils.data import Dataset, DataLoader
from torchsummary   import summary
import json
import os
import pandas as pd
import cv2
from PIL import Image 

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
def parse_file_number(col):
    return int(col.split(".")[0])

class MyDataset(Dataset) :

    def __init__(self,meta_path,root_dir,transform=None) :
        super().__init__()
        #===============meta data===============
        with open(meta_path, 'r') as file:
            temp_meta_data = json.load(file)
        self.meta = pd.json_normalize(temp_meta_data['annotations'])
        self.meta['file_name'] = self.meta['file_name'].apply(parse_file_number)
        self.meta = self.meta.sort_values("file_name").reset_index(drop=True)
        self.root_dir = root_dir
        self.transform = transform
        
    def __len__(self) :
        return len(self.meta)
    
    def __getitem__(self,idx) :
        img_path = os.path.join(self.root_dir, str(idx)) + ".jpg"
        img = Image.open(img_path).convert("RGB")
        y_label = (int(self.meta.loc[idx, 'category']))
#         if self.transform:
        img = self.transform(img)
        return (img, y_label)


In [3]:
mode = 'train' 
train_data_dir = "./train_data"
meta_path = "./answer.json"

# Create training and validation datasets
# test_datasets = MyDataset(meta_path, data_dir, data_transforms['train'])
transformer = transforms.Compose([
    transforms.Resize((300,300)),
    transforms.ToTensor()
])
train_data = MyDataset(meta_path, train_data_dir, transform=transformer)

In [4]:
# test_tf = transforms.ToPILImage()

# test_tf(train_data[11365][0])

In [5]:
print(train_data[0][1])

8


In [6]:
class MyModel(nn.Module) :
    def __init__(self,in_channels,out_channels):
        super().__init__()
        #TODO: Make your own model
        self.in_channels = in_channels
        self.out_channles = out_channels
        self.layer = nn.Sequential(
            #batch = 1, channel 3, height 400, width = 600 
            #Conv [1, 3, 400, 400] -> [1, 16, 398, 398]
            nn.Conv2d(in_channels = 3,  out_channels=16, kernel_size=3),
            nn.ReLU(),
              
            #Conv [1, 16, 398, 398] -> [1, 32, 396, 396]
            nn.Conv2d(in_channels = 16,  out_channels=32, kernel_size=3),
            nn.ReLU(),

            #Pool [1, 32, 396, 396] -> [1, 32, 198, 198]
            nn.MaxPool2d(kernel_size=2, stride=2),
            
            #Conv [1, 32, 198, 198] -> [1, 64, 196, 196]
            nn.Conv2d(in_channels = 32,  out_channels=64, kernel_size=3),
            nn.ReLU(),

            #Pool [1, 64, 196, 196] -> [1, 64, 96, 96] 
            nn.MaxPool2d(kernel_size=2, stride=2),
            
            #Conv [1, 64, 96, 96] -> [1, 128, 94, 94]
            nn.Conv2d(in_channels = 64,  out_channels=128, kernel_size=3),
            nn.ReLU(),
            
            #Conv [1, 128, 94, 94] -> [1, 256, 92, 92]
            nn.Conv2d(in_channels = 128,  out_channels=256, kernel_size=3),
            nn.ReLU(),
            
            #Pool [1, 256, 92, 92]-> [1, 256, 46, 46] 
            nn.MaxPool2d(kernel_size=2, stride=2),
            
            #Conv [1, 256, 46, 46] -> [1, 512, 44, 44]
            nn.Conv2d(in_channels = 256,  out_channels=512, kernel_size=3),
            nn.ReLU(),

            #Conv [1, 512, 44, 44] -> [1, 1024, 42, 42]
            nn.Conv2d(in_channels = 512,  out_channels=1024, kernel_size=3),
            nn.ReLU(),
            
            #Pool [1, 1024, 42, 42] -> [1, 1024, 21, 21]
            nn.MaxPool2d(kernel_size=2, stride=2),
            
        )
        self.fc_layer = nn.Sequential(
            #linear [1, 512 * 36 * 36] -> [100, 100]
            nn.Linear(1024*15*15, 1000),
            nn.ReLU(),
            nn.Linear(1000,80)
        )
        
    def forward(self,x) :
        #TODO:
#         print("x.shape: ", x.shape)
        out = self.layer(x)
#         print("out.shape: ", out.shape)
        out = out.view(1, -1)
#         print("out.size(0): ", out.size(0))
        out = self.fc_layer(out)
        return out 
    

In [7]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# device="cpu"

In [8]:
# torch.cuda.empty_cache()

In [9]:
batch = 1
learning_rate = 0.001
model  = MyModel(3,128).to(device)

In [10]:
summary(model, input_size=(3,300,300),device=device)

Layer (type:depth-idx)                   Param #
├─Sequential: 1-1                        --
|    └─Conv2d: 2-1                       448
|    └─ReLU: 2-2                         --
|    └─Conv2d: 2-3                       4,640
|    └─ReLU: 2-4                         --
|    └─MaxPool2d: 2-5                    --
|    └─Conv2d: 2-6                       18,496
|    └─ReLU: 2-7                         --
|    └─MaxPool2d: 2-8                    --
|    └─Conv2d: 2-9                       73,856
|    └─ReLU: 2-10                        --
|    └─Conv2d: 2-11                      295,168
|    └─ReLU: 2-12                        --
|    └─MaxPool2d: 2-13                   --
|    └─Conv2d: 2-14                      1,180,160
|    └─ReLU: 2-15                        --
|    └─Conv2d: 2-16                      4,719,616
|    └─ReLU: 2-17                        --
|    └─MaxPool2d: 2-18                   --
├─Sequential: 1-2                        --
|    └─Linear: 2-19                     

Layer (type:depth-idx)                   Param #
├─Sequential: 1-1                        --
|    └─Conv2d: 2-1                       448
|    └─ReLU: 2-2                         --
|    └─Conv2d: 2-3                       4,640
|    └─ReLU: 2-4                         --
|    └─MaxPool2d: 2-5                    --
|    └─Conv2d: 2-6                       18,496
|    └─ReLU: 2-7                         --
|    └─MaxPool2d: 2-8                    --
|    └─Conv2d: 2-9                       73,856
|    └─ReLU: 2-10                        --
|    └─Conv2d: 2-11                      295,168
|    └─ReLU: 2-12                        --
|    └─MaxPool2d: 2-13                   --
|    └─Conv2d: 2-14                      1,180,160
|    └─ReLU: 2-15                        --
|    └─Conv2d: 2-16                      4,719,616
|    └─ReLU: 2-17                        --
|    └─MaxPool2d: 2-18                   --
├─Sequential: 1-2                        --
|    └─Linear: 2-19                     

In [11]:
loss_func = nn.CrossEntropyLoss().to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

In [12]:
train_loader = DataLoader(
    train_data, batch_size=batch)

In [13]:
# for i,(img, label) in enumerate(train_loader):
#     print(i)
#     print(img)    
#     print(label)        

In [14]:
train_loader

<torch.utils.data.dataloader.DataLoader at 0x1ce9b805c10>

In [15]:
# loss_arr =[]
# num_epoch = 1
# for i in range(num_epoch):
#     print("i: ", i)
#     for j,(image,label) in (train_loader):
#         print("1")
#         x = image.to(device)
#         print("2")
#         y= label.to(device)
#         print("3")
#         optimizer.zero_grad()
        
#         output = model.forward(x)
#         print("j: ", j)
        
#         loss = loss_func(output,y)
#         loss.backward()
#         optimizer.step()
        
#         if j % 1000 == 0:
#             print(loss)
#             loss_arr.append(loss.cpu().detach().numpy())

In [16]:
loss_arr =[]
num_epoch = 1
for i in range(num_epoch):
    loop = tqdm(train_loader, total = len(train_loader), leave=True)
    for j, (image, label) in enumerate(loop):
#         print("asdasd")
        x = image.to(device)
        y = label.to(device)
        optimizer.zero_grad()
        
        output = model.forward(x)
        
        loss = loss_func(output,y)
        loss.backward()
        optimizer.step()
        
        if( j % 10 == 0):
            print(loss)
#             loss_arr.append(loss.cpu().detach().numpy())

  0%|                                                                              | 4/40000 [00:03<6:47:52,  1.63it/s]

tensor(4.3905, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|                                                                             | 14/40000 [00:03<1:23:48,  7.95it/s]

tensor(4.4042, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|                                                                               | 24/40000 [00:04<53:21, 12.49it/s]

tensor(4.3993, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|                                                                               | 34/40000 [00:05<48:31, 13.73it/s]

tensor(4.3439, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|                                                                               | 44/40000 [00:06<47:49, 13.92it/s]

tensor(4.4871, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|                                                                               | 54/40000 [00:06<48:36, 13.70it/s]

tensor(4.5856, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▏                                                                              | 64/40000 [00:07<49:22, 13.48it/s]

tensor(4.3945, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▏                                                                              | 74/40000 [00:08<47:53, 13.90it/s]

tensor(3.9900, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▏                                                                              | 84/40000 [00:08<49:02, 13.57it/s]

tensor(3.9547, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▏                                                                              | 94/40000 [00:09<50:24, 13.19it/s]

tensor(4.4938, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▏                                                                             | 104/40000 [00:10<47:55, 13.87it/s]

tensor(4.2819, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▏                                                                             | 114/40000 [00:11<47:52, 13.89it/s]

tensor(4.2772, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▏                                                                             | 124/40000 [00:11<47:26, 14.01it/s]

tensor(4.5573, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▎                                                                             | 134/40000 [00:12<47:18, 14.04it/s]

tensor(4.3416, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▎                                                                             | 144/40000 [00:13<47:27, 14.00it/s]

tensor(5.4716, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▎                                                                             | 154/40000 [00:14<49:37, 13.38it/s]

tensor(4.2514, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▎                                                                             | 164/40000 [00:14<47:39, 13.93it/s]

tensor(4.3266, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▎                                                                             | 174/40000 [00:15<48:35, 13.66it/s]

tensor(4.2296, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▎                                                                             | 184/40000 [00:16<51:19, 12.93it/s]

tensor(4.6918, device='cuda:0', grad_fn=<NllLossBackward0>)


  0%|▍                                                                             | 194/40000 [00:16<47:49, 13.87it/s]

tensor(4.3902, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▍                                                                             | 204/40000 [00:17<47:24, 13.99it/s]

tensor(4.2430, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▍                                                                             | 214/40000 [00:18<47:22, 14.00it/s]

tensor(4.3391, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▍                                                                             | 224/40000 [00:19<47:11, 14.05it/s]

tensor(4.5175, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▍                                                                             | 234/40000 [00:19<47:10, 14.05it/s]

tensor(4.3267, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▍                                                                             | 244/40000 [00:20<47:17, 14.01it/s]

tensor(4.3869, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▍                                                                             | 254/40000 [00:21<47:23, 13.98it/s]

tensor(4.3702, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▌                                                                             | 264/40000 [00:21<47:07, 14.05it/s]

tensor(4.3835, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▌                                                                             | 274/40000 [00:22<47:20, 13.99it/s]

tensor(4.4211, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▌                                                                             | 284/40000 [00:23<47:13, 14.02it/s]

tensor(4.3726, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▌                                                                             | 294/40000 [00:24<48:16, 13.71it/s]

tensor(4.3151, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▌                                                                             | 304/40000 [00:24<47:37, 13.89it/s]

tensor(4.4433, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▌                                                                             | 314/40000 [00:25<47:17, 13.99it/s]

tensor(4.3264, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▋                                                                             | 324/40000 [00:26<47:33, 13.90it/s]

tensor(4.4766, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▋                                                                             | 334/40000 [00:26<46:59, 14.07it/s]

tensor(4.4880, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▋                                                                             | 344/40000 [00:27<47:14, 13.99it/s]

tensor(4.3051, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▋                                                                             | 354/40000 [00:28<47:08, 14.02it/s]

tensor(4.3703, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▋                                                                             | 364/40000 [00:29<47:02, 14.04it/s]

tensor(4.6849, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▋                                                                             | 374/40000 [00:29<47:03, 14.03it/s]

tensor(4.2901, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▋                                                                             | 384/40000 [00:30<47:01, 14.04it/s]

tensor(4.4299, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▊                                                                             | 394/40000 [00:31<47:13, 13.98it/s]

tensor(4.4884, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▊                                                                             | 404/40000 [00:31<46:53, 14.07it/s]

tensor(4.3538, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▊                                                                             | 414/40000 [00:32<47:08, 14.00it/s]

tensor(4.3676, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▊                                                                             | 424/40000 [00:33<47:00, 14.03it/s]

tensor(4.3606, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▊                                                                             | 434/40000 [00:34<47:00, 14.03it/s]

tensor(4.6196, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▊                                                                             | 444/40000 [00:34<46:58, 14.03it/s]

tensor(4.3898, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▉                                                                             | 454/40000 [00:35<46:59, 14.03it/s]

tensor(4.3220, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▉                                                                             | 464/40000 [00:36<47:15, 13.94it/s]

tensor(4.4635, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▉                                                                             | 474/40000 [00:36<46:59, 14.02it/s]

tensor(4.3496, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▉                                                                             | 484/40000 [00:37<46:55, 14.04it/s]

tensor(4.3410, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▉                                                                             | 494/40000 [00:38<46:54, 14.04it/s]

tensor(4.3425, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|▉                                                                             | 504/40000 [00:39<46:50, 14.05it/s]

tensor(4.2921, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█                                                                             | 514/40000 [00:39<47:01, 14.00it/s]

tensor(4.6030, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█                                                                             | 524/40000 [00:40<46:58, 14.01it/s]

tensor(4.3147, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█                                                                             | 534/40000 [00:41<47:06, 13.96it/s]

tensor(4.4037, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█                                                                             | 544/40000 [00:41<46:55, 14.01it/s]

tensor(4.3825, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█                                                                             | 554/40000 [00:42<46:48, 14.04it/s]

tensor(4.4809, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█                                                                             | 564/40000 [00:43<46:59, 13.99it/s]

tensor(4.3897, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█                                                                             | 574/40000 [00:44<46:51, 14.02it/s]

tensor(4.3108, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█▏                                                                            | 584/40000 [00:44<46:54, 14.00it/s]

tensor(4.3435, device='cuda:0', grad_fn=<NllLossBackward0>)


  1%|█▏                                                                            | 594/40000 [00:45<46:53, 14.01it/s]

tensor(4.2999, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▏                                                                            | 604/40000 [00:46<47:02, 13.96it/s]

tensor(4.3818, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▏                                                                            | 614/40000 [00:46<46:38, 14.08it/s]

tensor(4.3910, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▏                                                                            | 624/40000 [00:47<46:42, 14.05it/s]

tensor(4.3542, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▏                                                                            | 634/40000 [00:48<46:55, 13.98it/s]

tensor(4.3544, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▎                                                                            | 644/40000 [00:49<46:50, 14.00it/s]

tensor(4.3519, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▎                                                                            | 654/40000 [00:49<46:48, 14.01it/s]

tensor(4.4284, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▎                                                                            | 664/40000 [00:50<46:42, 14.03it/s]

tensor(4.5036, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▎                                                                            | 674/40000 [00:51<46:55, 13.97it/s]

tensor(4.4708, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▎                                                                            | 684/40000 [00:51<46:40, 14.04it/s]

tensor(4.3392, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▎                                                                            | 694/40000 [00:52<46:41, 14.03it/s]

tensor(4.3863, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▎                                                                            | 704/40000 [00:53<46:45, 14.01it/s]

tensor(4.2960, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▍                                                                            | 714/40000 [00:54<46:37, 14.04it/s]

tensor(4.3517, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▍                                                                            | 724/40000 [00:54<46:44, 14.00it/s]

tensor(4.3231, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▍                                                                            | 734/40000 [00:55<46:44, 14.00it/s]

tensor(4.6037, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▍                                                                            | 744/40000 [00:56<46:41, 14.01it/s]

tensor(4.3343, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▍                                                                            | 754/40000 [00:56<46:41, 14.01it/s]

tensor(4.3364, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▍                                                                            | 764/40000 [00:57<46:38, 14.02it/s]

tensor(4.3061, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▌                                                                            | 774/40000 [00:58<46:42, 14.00it/s]

tensor(4.3838, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▌                                                                            | 784/40000 [00:59<46:29, 14.06it/s]

tensor(4.3648, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▌                                                                            | 794/40000 [00:59<46:40, 14.00it/s]

tensor(4.3518, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▌                                                                            | 804/40000 [01:00<47:32, 13.74it/s]

tensor(4.3380, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▌                                                                            | 814/40000 [01:01<48:52, 13.36it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▌                                                                            | 824/40000 [01:02<47:24, 13.77it/s]

tensor(4.4245, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▋                                                                            | 834/40000 [01:02<46:54, 13.92it/s]

tensor(4.4218, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▋                                                                            | 844/40000 [01:03<46:39, 13.99it/s]

tensor(4.2849, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▋                                                                            | 854/40000 [01:04<46:42, 13.97it/s]

tensor(4.4205, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▋                                                                            | 864/40000 [01:04<46:29, 14.03it/s]

tensor(4.3847, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▋                                                                            | 874/40000 [01:05<46:31, 14.01it/s]

tensor(4.4188, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▋                                                                            | 884/40000 [01:06<46:33, 14.00it/s]

tensor(4.3699, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▋                                                                            | 894/40000 [01:06<46:23, 14.05it/s]

tensor(4.3419, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▊                                                                            | 904/40000 [01:07<46:23, 14.04it/s]

tensor(4.3426, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▊                                                                            | 914/40000 [01:08<46:24, 14.04it/s]

tensor(4.4064, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▊                                                                            | 924/40000 [01:09<46:19, 14.06it/s]

tensor(4.4816, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▊                                                                            | 934/40000 [01:09<46:24, 14.03it/s]

tensor(4.4529, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▊                                                                            | 944/40000 [01:10<46:28, 14.00it/s]

tensor(4.4088, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▊                                                                            | 954/40000 [01:11<46:34, 13.97it/s]

tensor(4.4916, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▉                                                                            | 964/40000 [01:11<46:32, 13.98it/s]

tensor(4.3667, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▉                                                                            | 974/40000 [01:12<46:39, 13.94it/s]

tensor(4.3923, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▉                                                                            | 984/40000 [01:13<46:32, 13.97it/s]

tensor(4.3933, device='cuda:0', grad_fn=<NllLossBackward0>)


  2%|█▉                                                                            | 994/40000 [01:14<46:40, 13.93it/s]

tensor(4.2845, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|█▉                                                                           | 1004/40000 [01:14<46:29, 13.98it/s]

tensor(4.3445, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|█▉                                                                           | 1014/40000 [01:15<46:22, 14.01it/s]

tensor(4.2793, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|█▉                                                                           | 1024/40000 [01:16<46:30, 13.97it/s]

tensor(4.3911, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|█▉                                                                           | 1034/40000 [01:16<46:15, 14.04it/s]

tensor(4.3381, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██                                                                           | 1044/40000 [01:17<46:18, 14.02it/s]

tensor(4.5751, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██                                                                           | 1054/40000 [01:18<46:26, 13.98it/s]

tensor(4.3416, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██                                                                           | 1064/40000 [01:19<46:16, 14.02it/s]

tensor(4.3372, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██                                                                           | 1074/40000 [01:19<46:20, 14.00it/s]

tensor(4.3802, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██                                                                           | 1084/40000 [01:20<46:11, 14.04it/s]

tensor(4.5531, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██                                                                           | 1094/40000 [01:21<46:26, 13.96it/s]

tensor(4.3876, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▏                                                                          | 1104/40000 [01:21<46:07, 14.06it/s]

tensor(4.3153, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▏                                                                          | 1114/40000 [01:22<46:12, 14.02it/s]

tensor(4.3216, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▏                                                                          | 1124/40000 [01:23<46:17, 14.00it/s]

tensor(4.3278, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▏                                                                          | 1134/40000 [01:24<46:22, 13.97it/s]

tensor(4.3394, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▏                                                                          | 1144/40000 [01:24<46:18, 13.98it/s]

tensor(4.4025, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▏                                                                          | 1154/40000 [01:25<46:09, 14.03it/s]

tensor(4.3339, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▏                                                                          | 1164/40000 [01:26<46:14, 14.00it/s]

tensor(4.3763, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▎                                                                          | 1174/40000 [01:26<46:09, 14.02it/s]

tensor(4.3393, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▎                                                                          | 1184/40000 [01:27<46:05, 14.04it/s]

tensor(4.2994, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▎                                                                          | 1194/40000 [01:28<46:07, 14.02it/s]

tensor(4.3359, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▎                                                                          | 1204/40000 [01:29<46:04, 14.03it/s]

tensor(4.2920, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▎                                                                          | 1214/40000 [01:29<46:07, 14.01it/s]

tensor(4.5187, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▎                                                                          | 1224/40000 [01:30<46:03, 14.03it/s]

tensor(4.4021, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▍                                                                          | 1234/40000 [01:31<46:13, 13.98it/s]

tensor(4.4838, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▍                                                                          | 1244/40000 [01:31<46:02, 14.03it/s]

tensor(4.3927, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▍                                                                          | 1254/40000 [01:32<46:35, 13.86it/s]

tensor(4.3361, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▍                                                                          | 1264/40000 [01:33<46:32, 13.87it/s]

tensor(4.3231, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▍                                                                          | 1274/40000 [01:34<47:25, 13.61it/s]

tensor(4.3617, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▍                                                                          | 1284/40000 [01:34<46:21, 13.92it/s]

tensor(4.4226, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▍                                                                          | 1294/40000 [01:35<46:04, 14.00it/s]

tensor(4.3764, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▌                                                                          | 1304/40000 [01:36<46:05, 13.99it/s]

tensor(4.4060, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▌                                                                          | 1314/40000 [01:37<45:55, 14.04it/s]

tensor(4.3339, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▌                                                                          | 1324/40000 [01:37<45:54, 14.04it/s]

tensor(4.3404, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▌                                                                          | 1334/40000 [01:38<45:53, 14.04it/s]

tensor(4.3273, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▌                                                                          | 1344/40000 [01:39<45:48, 14.06it/s]

tensor(4.5213, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▌                                                                          | 1354/40000 [01:39<46:01, 13.99it/s]

tensor(4.4877, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▋                                                                          | 1364/40000 [01:40<45:53, 14.03it/s]

tensor(4.5147, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▋                                                                          | 1374/40000 [01:41<45:53, 14.03it/s]

tensor(4.3136, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▋                                                                          | 1384/40000 [01:41<45:45, 14.07it/s]

tensor(4.3333, device='cuda:0', grad_fn=<NllLossBackward0>)


  3%|██▋                                                                          | 1394/40000 [01:42<45:46, 14.06it/s]

tensor(4.3837, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▋                                                                          | 1404/40000 [01:43<45:48, 14.04it/s]

tensor(4.3160, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▋                                                                          | 1414/40000 [01:44<45:42, 14.07it/s]

tensor(4.2859, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▋                                                                          | 1424/40000 [01:44<46:07, 13.94it/s]

tensor(4.4760, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▊                                                                          | 1434/40000 [01:45<45:50, 14.02it/s]

tensor(4.3572, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▊                                                                          | 1444/40000 [01:46<45:44, 14.05it/s]

tensor(4.4348, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▊                                                                          | 1454/40000 [01:46<45:52, 14.01it/s]

tensor(4.3802, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▊                                                                          | 1464/40000 [01:47<45:46, 14.03it/s]

tensor(4.4049, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▊                                                                          | 1474/40000 [01:48<45:49, 14.01it/s]

tensor(4.4020, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▊                                                                          | 1484/40000 [01:49<45:44, 14.03it/s]

tensor(4.2992, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▉                                                                          | 1494/40000 [01:49<45:44, 14.03it/s]

tensor(4.3711, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▉                                                                          | 1504/40000 [01:50<45:43, 14.03it/s]

tensor(4.3125, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▉                                                                          | 1514/40000 [01:51<45:43, 14.03it/s]

tensor(4.3646, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▉                                                                          | 1524/40000 [01:51<45:42, 14.03it/s]

tensor(4.3186, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▉                                                                          | 1534/40000 [01:52<45:39, 14.04it/s]

tensor(4.4175, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▉                                                                          | 1544/40000 [01:53<45:45, 14.01it/s]

tensor(4.2974, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|██▉                                                                          | 1554/40000 [01:54<45:33, 14.06it/s]

tensor(4.3257, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███                                                                          | 1564/40000 [01:54<45:31, 14.07it/s]

tensor(4.3942, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███                                                                          | 1574/40000 [01:55<45:38, 14.03it/s]

tensor(4.3299, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███                                                                          | 1584/40000 [01:56<45:41, 14.01it/s]

tensor(4.4058, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███                                                                          | 1594/40000 [01:56<45:38, 14.02it/s]

tensor(4.3798, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███                                                                          | 1604/40000 [01:57<45:30, 14.06it/s]

tensor(4.4823, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███                                                                          | 1614/40000 [01:58<45:38, 14.02it/s]

tensor(4.3736, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▏                                                                         | 1624/40000 [01:59<45:28, 14.06it/s]

tensor(4.2675, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▏                                                                         | 1634/40000 [01:59<45:29, 14.06it/s]

tensor(4.3786, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▏                                                                         | 1644/40000 [02:00<45:33, 14.03it/s]

tensor(4.4433, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▏                                                                         | 1654/40000 [02:01<45:45, 13.97it/s]

tensor(4.4139, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▏                                                                         | 1664/40000 [02:01<45:36, 14.01it/s]

tensor(4.3518, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▏                                                                         | 1674/40000 [02:02<45:33, 14.02it/s]

tensor(4.4376, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▏                                                                         | 1684/40000 [02:03<45:39, 13.99it/s]

tensor(4.3045, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▎                                                                         | 1694/40000 [02:04<45:32, 14.02it/s]

tensor(4.4938, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▎                                                                         | 1704/40000 [02:04<45:27, 14.04it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▎                                                                         | 1714/40000 [02:05<45:36, 13.99it/s]

tensor(4.4053, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▎                                                                         | 1724/40000 [02:06<45:36, 13.99it/s]

tensor(4.3769, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▎                                                                         | 1734/40000 [02:06<45:34, 14.00it/s]

tensor(4.4930, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▎                                                                         | 1744/40000 [02:07<45:19, 14.07it/s]

tensor(4.2812, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▍                                                                         | 1754/40000 [02:08<45:30, 14.01it/s]

tensor(4.3754, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▍                                                                         | 1764/40000 [02:09<45:18, 14.06it/s]

tensor(4.3951, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▍                                                                         | 1774/40000 [02:09<45:23, 14.04it/s]

tensor(4.4314, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▍                                                                         | 1784/40000 [02:10<45:25, 14.02it/s]

tensor(4.5773, device='cuda:0', grad_fn=<NllLossBackward0>)


  4%|███▍                                                                         | 1794/40000 [02:11<45:21, 14.04it/s]

tensor(4.3491, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▍                                                                         | 1804/40000 [02:11<45:21, 14.03it/s]

tensor(4.5707, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▍                                                                         | 1814/40000 [02:12<45:26, 14.00it/s]

tensor(4.3772, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▌                                                                         | 1824/40000 [02:13<45:27, 14.00it/s]

tensor(4.3523, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▌                                                                         | 1834/40000 [02:14<45:17, 14.04it/s]

tensor(4.4322, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▌                                                                         | 1844/40000 [02:14<45:19, 14.03it/s]

tensor(4.3146, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▌                                                                         | 1854/40000 [02:15<45:23, 14.01it/s]

tensor(4.3891, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▌                                                                         | 1864/40000 [02:16<45:17, 14.04it/s]

tensor(4.3341, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▌                                                                         | 1874/40000 [02:16<45:16, 14.03it/s]

tensor(4.3169, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▋                                                                         | 1884/40000 [02:17<45:22, 14.00it/s]

tensor(4.3015, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▋                                                                         | 1894/40000 [02:18<45:22, 14.00it/s]

tensor(4.4594, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▋                                                                         | 1904/40000 [02:19<45:21, 14.00it/s]

tensor(4.4767, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▋                                                                         | 1914/40000 [02:19<45:12, 14.04it/s]

tensor(4.3777, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▋                                                                         | 1924/40000 [02:20<45:22, 13.98it/s]

tensor(4.3704, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▋                                                                         | 1934/40000 [02:21<45:11, 14.04it/s]

tensor(4.4277, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▋                                                                         | 1944/40000 [02:21<45:15, 14.01it/s]

tensor(4.3754, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▊                                                                         | 1954/40000 [02:22<45:14, 14.02it/s]

tensor(4.3286, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▊                                                                         | 1964/40000 [02:23<45:15, 14.00it/s]

tensor(4.3641, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▊                                                                         | 1974/40000 [02:24<45:20, 13.98it/s]

tensor(4.3811, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▊                                                                         | 1984/40000 [02:24<45:10, 14.02it/s]

tensor(4.3574, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▊                                                                         | 1994/40000 [02:25<45:13, 14.00it/s]

tensor(4.3051, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▊                                                                         | 2004/40000 [02:26<45:04, 14.05it/s]

tensor(4.4637, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▉                                                                         | 2014/40000 [02:26<45:04, 14.05it/s]

tensor(4.3915, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▉                                                                         | 2024/40000 [02:27<45:07, 14.03it/s]

tensor(4.2870, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▉                                                                         | 2034/40000 [02:28<45:12, 14.00it/s]

tensor(4.3788, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▉                                                                         | 2044/40000 [02:29<45:04, 14.03it/s]

tensor(4.5347, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▉                                                                         | 2054/40000 [02:29<45:05, 14.03it/s]

tensor(4.5574, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▉                                                                         | 2064/40000 [02:30<45:13, 13.98it/s]

tensor(4.2682, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|███▉                                                                         | 2074/40000 [02:31<45:02, 14.03it/s]

tensor(4.3469, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████                                                                         | 2084/40000 [02:31<44:56, 14.06it/s]

tensor(4.3664, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████                                                                         | 2094/40000 [02:32<45:03, 14.02it/s]

tensor(4.3686, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████                                                                         | 2104/40000 [02:33<45:02, 14.02it/s]

tensor(4.5345, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████                                                                         | 2114/40000 [02:34<45:09, 13.98it/s]

tensor(4.3363, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████                                                                         | 2124/40000 [02:34<45:13, 13.96it/s]

tensor(4.3325, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████                                                                         | 2134/40000 [02:35<49:14, 12.82it/s]

tensor(4.3170, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████▏                                                                        | 2144/40000 [02:36<45:49, 13.77it/s]

tensor(4.2706, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████▏                                                                        | 2154/40000 [02:36<45:22, 13.90it/s]

tensor(4.4268, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████▏                                                                        | 2164/40000 [02:37<45:16, 13.93it/s]

tensor(4.5194, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████▏                                                                        | 2174/40000 [02:38<45:09, 13.96it/s]

tensor(4.4727, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████▏                                                                        | 2184/40000 [02:39<44:55, 14.03it/s]

tensor(4.3873, device='cuda:0', grad_fn=<NllLossBackward0>)


  5%|████▏                                                                        | 2194/40000 [02:39<45:02, 13.99it/s]

tensor(4.3823, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▏                                                                        | 2204/40000 [02:40<45:01, 13.99it/s]

tensor(4.3686, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▎                                                                        | 2214/40000 [02:41<44:53, 14.03it/s]

tensor(4.4201, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▎                                                                        | 2224/40000 [02:41<45:01, 13.98it/s]

tensor(4.3240, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▎                                                                        | 2234/40000 [02:42<44:51, 14.03it/s]

tensor(4.4023, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▎                                                                        | 2244/40000 [02:43<45:02, 13.97it/s]

tensor(4.3485, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▎                                                                        | 2254/40000 [02:44<44:52, 14.02it/s]

tensor(4.4562, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▎                                                                        | 2264/40000 [02:44<44:48, 14.03it/s]

tensor(4.3375, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▍                                                                        | 2274/40000 [02:45<45:00, 13.97it/s]

tensor(4.2699, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▍                                                                        | 2284/40000 [02:46<44:46, 14.04it/s]

tensor(4.4185, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▍                                                                        | 2294/40000 [02:46<44:48, 14.02it/s]

tensor(4.4191, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▍                                                                        | 2304/40000 [02:47<44:55, 13.99it/s]

tensor(4.4630, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▍                                                                        | 2314/40000 [02:48<44:53, 13.99it/s]

tensor(4.4047, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▍                                                                        | 2324/40000 [02:49<44:48, 14.01it/s]

tensor(4.4163, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▍                                                                        | 2334/40000 [02:49<44:46, 14.02it/s]

tensor(4.3955, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▌                                                                        | 2344/40000 [02:50<44:48, 14.01it/s]

tensor(4.3135, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▌                                                                        | 2354/40000 [02:51<44:42, 14.04it/s]

tensor(4.3429, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▌                                                                        | 2364/40000 [02:51<44:41, 14.03it/s]

tensor(4.3364, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▌                                                                        | 2374/40000 [02:52<44:45, 14.01it/s]

tensor(4.3898, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▌                                                                        | 2384/40000 [02:53<44:49, 13.99it/s]

tensor(4.4138, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▌                                                                        | 2394/40000 [02:54<44:43, 14.01it/s]

tensor(4.5484, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▋                                                                        | 2404/40000 [02:54<44:43, 14.01it/s]

tensor(4.3563, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▋                                                                        | 2414/40000 [02:55<44:51, 13.97it/s]

tensor(4.4138, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▋                                                                        | 2424/40000 [02:56<44:41, 14.02it/s]

tensor(4.4740, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▋                                                                        | 2434/40000 [02:56<44:43, 14.00it/s]

tensor(4.4626, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▋                                                                        | 2444/40000 [02:57<44:42, 14.00it/s]

tensor(4.2571, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▋                                                                        | 2454/40000 [02:58<44:47, 13.97it/s]

tensor(4.4586, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▋                                                                        | 2464/40000 [02:59<44:31, 14.05it/s]

tensor(4.3841, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▊                                                                        | 2474/40000 [02:59<44:36, 14.02it/s]

tensor(4.3259, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▊                                                                        | 2484/40000 [03:00<44:48, 13.95it/s]

tensor(4.3609, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▊                                                                        | 2494/40000 [03:01<44:50, 13.94it/s]

tensor(4.4731, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▊                                                                        | 2504/40000 [03:01<44:40, 13.99it/s]

tensor(4.3616, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▊                                                                        | 2514/40000 [03:02<44:48, 13.94it/s]

tensor(4.3261, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▊                                                                        | 2524/40000 [03:03<44:52, 13.92it/s]

tensor(4.2752, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▉                                                                        | 2534/40000 [03:04<44:34, 14.01it/s]

tensor(4.4683, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▉                                                                        | 2544/40000 [03:04<44:31, 14.02it/s]

tensor(4.4154, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▉                                                                        | 2554/40000 [03:05<44:41, 13.97it/s]

tensor(4.5432, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▉                                                                        | 2564/40000 [03:06<44:31, 14.02it/s]

tensor(4.3050, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▉                                                                        | 2574/40000 [03:06<44:28, 14.02it/s]

tensor(4.4545, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▉                                                                        | 2584/40000 [03:07<44:28, 14.02it/s]

tensor(4.3349, device='cuda:0', grad_fn=<NllLossBackward0>)


  6%|████▉                                                                        | 2594/40000 [03:08<44:36, 13.98it/s]

tensor(4.4483, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████                                                                        | 2604/40000 [03:09<44:29, 14.01it/s]

tensor(4.3370, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████                                                                        | 2614/40000 [03:09<44:29, 14.00it/s]

tensor(4.3600, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████                                                                        | 2624/40000 [03:10<44:32, 13.98it/s]

tensor(4.3235, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████                                                                        | 2634/40000 [03:11<44:24, 14.02it/s]

tensor(4.3937, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████                                                                        | 2644/40000 [03:11<44:21, 14.04it/s]

tensor(4.4251, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████                                                                        | 2654/40000 [03:12<44:49, 13.88it/s]

tensor(4.4194, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▏                                                                       | 2664/40000 [03:13<44:54, 13.86it/s]

tensor(4.2841, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▏                                                                       | 2674/40000 [03:14<44:31, 13.97it/s]

tensor(4.4581, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▏                                                                       | 2684/40000 [03:14<44:25, 14.00it/s]

tensor(4.2940, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▏                                                                       | 2694/40000 [03:15<44:21, 14.02it/s]

tensor(4.3166, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▏                                                                       | 2704/40000 [03:16<44:23, 14.00it/s]

tensor(4.4405, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▏                                                                       | 2714/40000 [03:16<44:19, 14.02it/s]

tensor(4.3954, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▏                                                                       | 2724/40000 [03:17<44:15, 14.04it/s]

tensor(4.4044, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▎                                                                       | 2734/40000 [03:18<44:21, 14.00it/s]

tensor(4.4475, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▎                                                                       | 2744/40000 [03:19<44:23, 13.99it/s]

tensor(4.3728, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▎                                                                       | 2754/40000 [03:19<44:18, 14.01it/s]

tensor(4.3357, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▎                                                                       | 2764/40000 [03:20<44:25, 13.97it/s]

tensor(4.4173, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▎                                                                       | 2774/40000 [03:21<44:17, 14.01it/s]

tensor(4.3812, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▎                                                                       | 2784/40000 [03:21<44:15, 14.01it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▍                                                                       | 2794/40000 [03:22<44:25, 13.96it/s]

tensor(4.2655, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▍                                                                       | 2804/40000 [03:23<44:19, 13.98it/s]

tensor(4.3040, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▍                                                                       | 2814/40000 [03:24<44:19, 13.98it/s]

tensor(4.4170, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▍                                                                       | 2824/40000 [03:24<44:15, 14.00it/s]

tensor(4.3639, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▍                                                                       | 2834/40000 [03:25<44:16, 13.99it/s]

tensor(4.4793, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▍                                                                       | 2844/40000 [03:26<44:12, 14.01it/s]

tensor(4.2941, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▍                                                                       | 2854/40000 [03:26<44:07, 14.03it/s]

tensor(4.4514, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▌                                                                       | 2864/40000 [03:27<44:13, 13.99it/s]

tensor(4.3765, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▌                                                                       | 2874/40000 [03:28<44:17, 13.97it/s]

tensor(4.4313, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▌                                                                       | 2884/40000 [03:29<44:03, 14.04it/s]

tensor(4.4155, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▌                                                                       | 2894/40000 [03:29<44:07, 14.01it/s]

tensor(4.4702, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▌                                                                       | 2904/40000 [03:30<44:08, 14.01it/s]

tensor(4.3775, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▌                                                                       | 2914/40000 [03:31<44:07, 14.01it/s]

tensor(4.2809, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▋                                                                       | 2924/40000 [03:31<44:02, 14.03it/s]

tensor(4.3683, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▋                                                                       | 2934/40000 [03:32<44:48, 13.79it/s]

tensor(4.4524, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▋                                                                       | 2944/40000 [03:33<44:31, 13.87it/s]

tensor(4.3601, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▋                                                                       | 2954/40000 [03:34<44:09, 13.98it/s]

tensor(4.3785, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▋                                                                       | 2964/40000 [03:34<44:30, 13.87it/s]

tensor(4.4115, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▋                                                                       | 2974/40000 [03:35<44:06, 13.99it/s]

tensor(4.3387, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▋                                                                       | 2984/40000 [03:36<44:03, 14.00it/s]

tensor(4.4298, device='cuda:0', grad_fn=<NllLossBackward0>)


  7%|█████▊                                                                       | 2994/40000 [03:36<44:07, 13.98it/s]

tensor(4.4130, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▊                                                                       | 3004/40000 [03:37<44:01, 14.00it/s]

tensor(4.3672, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▊                                                                       | 3014/40000 [03:38<44:06, 13.98it/s]

tensor(4.2872, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▊                                                                       | 3024/40000 [03:39<43:52, 14.04it/s]

tensor(4.2728, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▊                                                                       | 3034/40000 [03:39<44:01, 13.99it/s]

tensor(4.5347, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▊                                                                       | 3044/40000 [03:40<43:57, 14.01it/s]

tensor(4.3542, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▉                                                                       | 3054/40000 [03:41<43:57, 14.01it/s]

tensor(4.3822, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▉                                                                       | 3064/40000 [03:41<43:59, 13.99it/s]

tensor(4.2775, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▉                                                                       | 3074/40000 [03:42<44:02, 13.98it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▉                                                                       | 3084/40000 [03:43<44:09, 13.93it/s]

tensor(4.4490, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▉                                                                       | 3094/40000 [03:44<43:54, 14.01it/s]

tensor(4.3775, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▉                                                                       | 3104/40000 [03:44<43:55, 14.00it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|█████▉                                                                       | 3114/40000 [03:45<43:58, 13.98it/s]

tensor(4.3055, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████                                                                       | 3124/40000 [03:46<43:49, 14.02it/s]

tensor(4.5234, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████                                                                       | 3134/40000 [03:46<43:51, 14.01it/s]

tensor(4.4775, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████                                                                       | 3144/40000 [03:47<43:55, 13.99it/s]

tensor(4.3800, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████                                                                       | 3154/40000 [03:48<44:04, 13.93it/s]

tensor(4.4542, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████                                                                       | 3164/40000 [03:49<43:47, 14.02it/s]

tensor(4.3053, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████                                                                       | 3174/40000 [03:49<43:51, 14.00it/s]

tensor(4.4569, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▏                                                                      | 3184/40000 [03:50<43:49, 14.00it/s]

tensor(4.2818, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▏                                                                      | 3194/40000 [03:51<43:49, 14.00it/s]

tensor(4.3425, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▏                                                                      | 3204/40000 [03:51<43:41, 14.03it/s]

tensor(4.2891, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▏                                                                      | 3214/40000 [03:52<43:48, 13.99it/s]

tensor(4.3527, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▏                                                                      | 3224/40000 [03:53<43:48, 13.99it/s]

tensor(4.3474, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▏                                                                      | 3234/40000 [03:54<43:42, 14.02it/s]

tensor(4.3707, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▏                                                                      | 3244/40000 [03:54<43:44, 14.01it/s]

tensor(4.4348, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▎                                                                      | 3254/40000 [03:55<43:46, 13.99it/s]

tensor(4.2969, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▎                                                                      | 3264/40000 [03:56<43:45, 13.99it/s]

tensor(4.3138, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▎                                                                      | 3274/40000 [03:56<43:53, 13.95it/s]

tensor(4.4308, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▎                                                                      | 3284/40000 [03:57<43:58, 13.92it/s]

tensor(4.4469, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▎                                                                      | 3294/40000 [03:58<43:47, 13.97it/s]

tensor(4.3349, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▎                                                                      | 3304/40000 [03:59<43:36, 14.03it/s]

tensor(4.4197, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▍                                                                      | 3314/40000 [03:59<43:38, 14.01it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▍                                                                      | 3324/40000 [04:00<43:49, 13.95it/s]

tensor(4.3890, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▍                                                                      | 3334/40000 [04:01<43:33, 14.03it/s]

tensor(4.3982, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▍                                                                      | 3344/40000 [04:01<43:37, 14.00it/s]

tensor(4.3878, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▍                                                                      | 3354/40000 [04:02<43:41, 13.98it/s]

tensor(4.3525, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▍                                                                      | 3364/40000 [04:03<43:39, 13.99it/s]

tensor(4.5132, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▍                                                                      | 3374/40000 [04:04<43:31, 14.02it/s]

tensor(4.2909, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▌                                                                      | 3384/40000 [04:04<43:35, 14.00it/s]

tensor(4.2833, device='cuda:0', grad_fn=<NllLossBackward0>)


  8%|██████▌                                                                      | 3394/40000 [04:05<43:36, 13.99it/s]

tensor(4.4098, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▌                                                                      | 3404/40000 [04:06<43:33, 14.00it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▌                                                                      | 3414/40000 [04:06<43:28, 14.03it/s]

tensor(4.4331, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▌                                                                      | 3424/40000 [04:07<43:33, 14.00it/s]

tensor(4.3399, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▌                                                                      | 3434/40000 [04:08<43:41, 13.95it/s]

tensor(4.3737, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▋                                                                      | 3444/40000 [04:09<43:28, 14.02it/s]

tensor(4.3755, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▋                                                                      | 3454/40000 [04:09<43:25, 14.03it/s]

tensor(4.3026, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▋                                                                      | 3464/40000 [04:10<43:32, 13.98it/s]

tensor(4.4461, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▋                                                                      | 3474/40000 [04:11<43:28, 14.00it/s]

tensor(4.5558, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▋                                                                      | 3484/40000 [04:11<43:16, 14.06it/s]

tensor(4.3773, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▋                                                                      | 3494/40000 [04:12<43:33, 13.97it/s]

tensor(4.4041, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▋                                                                      | 3504/40000 [04:13<43:20, 14.03it/s]

tensor(4.4257, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▊                                                                      | 3514/40000 [04:14<43:22, 14.02it/s]

tensor(4.3413, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▊                                                                      | 3524/40000 [04:14<43:22, 14.02it/s]

tensor(4.3141, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▊                                                                      | 3534/40000 [04:15<43:29, 13.97it/s]

tensor(4.3574, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▊                                                                      | 3544/40000 [04:16<43:21, 14.01it/s]

tensor(4.4769, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▊                                                                      | 3554/40000 [04:16<43:15, 14.04it/s]

tensor(4.5018, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▊                                                                      | 3564/40000 [04:17<43:17, 14.03it/s]

tensor(4.3933, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▉                                                                      | 3574/40000 [04:18<43:22, 14.00it/s]

tensor(4.2960, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▉                                                                      | 3584/40000 [04:19<43:14, 14.03it/s]

tensor(4.4432, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▉                                                                      | 3594/40000 [04:19<43:20, 14.00it/s]

tensor(4.3853, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▉                                                                      | 3604/40000 [04:20<43:24, 13.97it/s]

tensor(4.4574, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▉                                                                      | 3614/40000 [04:21<43:18, 14.00it/s]

tensor(4.3430, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▉                                                                      | 3624/40000 [04:21<43:15, 14.01it/s]

tensor(4.3814, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|██████▉                                                                      | 3634/40000 [04:22<43:19, 13.99it/s]

tensor(4.3721, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████                                                                      | 3644/40000 [04:23<43:22, 13.97it/s]

tensor(4.4186, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████                                                                      | 3654/40000 [04:24<43:10, 14.03it/s]

tensor(4.3795, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████                                                                      | 3664/40000 [04:24<43:11, 14.02it/s]

tensor(4.3218, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████                                                                      | 3674/40000 [04:25<43:11, 14.02it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████                                                                      | 3684/40000 [04:26<43:09, 14.03it/s]

tensor(4.4441, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████                                                                      | 3694/40000 [04:26<43:01, 14.06it/s]

tensor(4.3807, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▏                                                                     | 3704/40000 [04:27<43:11, 14.01it/s]

tensor(4.2985, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▏                                                                     | 3714/40000 [04:28<43:23, 13.94it/s]

tensor(4.4657, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▏                                                                     | 3724/40000 [04:29<43:03, 14.04it/s]

tensor(4.2794, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▏                                                                     | 3734/40000 [04:29<43:07, 14.01it/s]

tensor(4.4131, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▏                                                                     | 3744/40000 [04:30<43:08, 14.01it/s]

tensor(4.5014, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▏                                                                     | 3754/40000 [04:31<43:09, 14.00it/s]

tensor(4.3315, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▏                                                                     | 3764/40000 [04:31<43:05, 14.02it/s]

tensor(4.3582, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▎                                                                     | 3774/40000 [04:32<43:06, 14.01it/s]

tensor(4.2660, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▎                                                                     | 3784/40000 [04:33<43:11, 13.98it/s]

tensor(4.3921, device='cuda:0', grad_fn=<NllLossBackward0>)


  9%|███████▎                                                                     | 3794/40000 [04:34<43:01, 14.02it/s]

tensor(4.4191, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▎                                                                     | 3804/40000 [04:34<45:24, 13.29it/s]

tensor(4.3572, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▎                                                                     | 3814/40000 [04:35<44:46, 13.47it/s]

tensor(4.3057, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▎                                                                     | 3824/40000 [04:36<43:25, 13.88it/s]

tensor(4.4043, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▍                                                                     | 3834/40000 [04:36<43:40, 13.80it/s]

tensor(4.4746, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▍                                                                     | 3844/40000 [04:37<48:00, 12.55it/s]

tensor(4.2589, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▍                                                                     | 3854/40000 [04:38<46:10, 13.04it/s]

tensor(4.4716, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▍                                                                     | 3864/40000 [04:39<49:37, 12.14it/s]

tensor(4.4760, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▍                                                                     | 3874/40000 [04:40<48:10, 12.50it/s]

tensor(4.4177, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▍                                                                     | 3884/40000 [04:40<43:59, 13.68it/s]

tensor(4.4195, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▍                                                                     | 3894/40000 [04:41<43:00, 13.99it/s]

tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▌                                                                     | 3904/40000 [04:42<43:09, 13.94it/s]

tensor(4.4317, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▌                                                                     | 3914/40000 [04:43<43:16, 13.90it/s]

tensor(4.4567, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▌                                                                     | 3924/40000 [04:43<43:55, 13.69it/s]

tensor(4.2845, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▌                                                                     | 3934/40000 [04:44<44:14, 13.59it/s]

tensor(4.4476, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▌                                                                     | 3944/40000 [04:45<43:00, 13.97it/s]

tensor(4.4822, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▌                                                                     | 3954/40000 [04:45<42:57, 13.99it/s]

tensor(4.5029, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▋                                                                     | 3964/40000 [04:46<42:57, 13.98it/s]

tensor(4.3843, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▋                                                                     | 3974/40000 [04:47<43:45, 13.72it/s]

tensor(4.4744, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▋                                                                     | 3984/40000 [04:48<43:14, 13.88it/s]

tensor(4.2753, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▋                                                                     | 3994/40000 [04:48<43:32, 13.78it/s]

tensor(4.3426, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▋                                                                     | 4004/40000 [04:49<43:34, 13.77it/s]

tensor(4.2608, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▋                                                                     | 4014/40000 [04:50<42:49, 14.01it/s]

tensor(4.4891, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▋                                                                     | 4024/40000 [04:51<45:13, 13.26it/s]

tensor(4.4772, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▊                                                                     | 4034/40000 [04:51<47:22, 12.65it/s]

tensor(4.3054, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▊                                                                     | 4044/40000 [04:52<45:06, 13.28it/s]

tensor(4.3903, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▊                                                                     | 4054/40000 [04:53<44:24, 13.49it/s]

tensor(4.4055, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▊                                                                     | 4064/40000 [04:54<43:28, 13.78it/s]

tensor(4.3286, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▊                                                                     | 4074/40000 [04:54<42:51, 13.97it/s]

tensor(4.3287, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▊                                                                     | 4084/40000 [04:55<42:19, 14.14it/s]

tensor(4.4777, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▉                                                                     | 4094/40000 [04:56<42:49, 13.98it/s]

tensor(4.2923, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▉                                                                     | 4104/40000 [04:56<42:51, 13.96it/s]

tensor(4.4010, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▉                                                                     | 4114/40000 [04:57<42:13, 14.16it/s]

tensor(4.3890, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▉                                                                     | 4124/40000 [04:58<42:04, 14.21it/s]

tensor(4.3378, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▉                                                                     | 4134/40000 [04:59<42:53, 13.94it/s]

tensor(4.3268, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▉                                                                     | 4144/40000 [04:59<42:19, 14.12it/s]

tensor(4.3341, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|███████▉                                                                     | 4154/40000 [05:00<42:47, 13.96it/s]

tensor(4.2854, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|████████                                                                     | 4164/40000 [05:01<43:57, 13.59it/s]

tensor(4.2913, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|████████                                                                     | 4174/40000 [05:01<43:07, 13.85it/s]

tensor(4.3979, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|████████                                                                     | 4184/40000 [05:02<43:03, 13.86it/s]

tensor(4.3343, device='cuda:0', grad_fn=<NllLossBackward0>)


 10%|████████                                                                     | 4194/40000 [05:03<43:05, 13.85it/s]

tensor(4.3795, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████                                                                     | 4204/40000 [05:04<42:41, 13.97it/s]

tensor(4.3911, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████                                                                     | 4214/40000 [05:04<42:37, 13.99it/s]

tensor(4.4884, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▏                                                                    | 4224/40000 [05:05<42:59, 13.87it/s]

tensor(4.4636, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▏                                                                    | 4234/40000 [05:06<44:36, 13.36it/s]

tensor(4.3301, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▏                                                                    | 4244/40000 [05:07<47:26, 12.56it/s]

tensor(4.3770, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▏                                                                    | 4254/40000 [05:07<43:39, 13.65it/s]

tensor(4.4538, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▏                                                                    | 4264/40000 [05:08<43:27, 13.71it/s]

tensor(4.3212, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▏                                                                    | 4274/40000 [05:09<43:16, 13.76it/s]

tensor(4.3244, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▏                                                                    | 4284/40000 [05:09<43:03, 13.82it/s]

tensor(4.3765, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▎                                                                    | 4294/40000 [05:10<42:50, 13.89it/s]

tensor(4.4129, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▎                                                                    | 4304/40000 [05:11<42:25, 14.02it/s]

tensor(4.3287, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▎                                                                    | 4314/40000 [05:12<42:34, 13.97it/s]

tensor(4.3699, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▎                                                                    | 4324/40000 [05:12<44:17, 13.43it/s]

tensor(4.4543, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▎                                                                    | 4334/40000 [05:13<42:40, 13.93it/s]

tensor(4.4056, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▎                                                                    | 4344/40000 [05:14<42:06, 14.11it/s]

tensor(4.4224, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▍                                                                    | 4354/40000 [05:14<42:26, 14.00it/s]

tensor(4.4684, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▍                                                                    | 4364/40000 [05:15<43:21, 13.70it/s]

tensor(4.4025, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▍                                                                    | 4374/40000 [05:16<43:11, 13.74it/s]

tensor(4.4416, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▍                                                                    | 4384/40000 [05:17<43:17, 13.71it/s]

tensor(4.3954, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▍                                                                    | 4394/40000 [05:17<43:25, 13.66it/s]

tensor(4.3519, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▍                                                                    | 4404/40000 [05:18<42:36, 13.93it/s]

tensor(4.3289, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▍                                                                    | 4414/40000 [05:19<42:20, 14.01it/s]

tensor(4.3040, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▌                                                                    | 4424/40000 [05:20<41:57, 14.13it/s]

tensor(4.4488, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▌                                                                    | 4434/40000 [05:20<42:48, 13.85it/s]

tensor(4.3283, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▌                                                                    | 4444/40000 [05:21<42:11, 14.05it/s]

tensor(4.3951, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▌                                                                    | 4454/40000 [05:22<43:01, 13.77it/s]

tensor(4.3805, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▌                                                                    | 4464/40000 [05:22<42:12, 14.03it/s]

tensor(4.3983, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▌                                                                    | 4474/40000 [05:23<42:37, 13.89it/s]

tensor(4.3739, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▋                                                                    | 4484/40000 [05:24<41:54, 14.12it/s]

tensor(4.4267, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▋                                                                    | 4494/40000 [05:25<42:10, 14.03it/s]

tensor(4.3266, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▋                                                                    | 4504/40000 [05:25<42:30, 13.92it/s]

tensor(4.2853, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▋                                                                    | 4514/40000 [05:26<42:27, 13.93it/s]

tensor(4.3483, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▋                                                                    | 4524/40000 [05:27<42:02, 14.07it/s]

tensor(4.3838, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▋                                                                    | 4534/40000 [05:27<42:19, 13.96it/s]

tensor(4.4006, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▋                                                                    | 4544/40000 [05:28<48:48, 12.11it/s]

tensor(4.3122, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▊                                                                    | 4554/40000 [05:29<48:26, 12.19it/s]

tensor(4.3852, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▊                                                                    | 4564/40000 [05:30<43:30, 13.57it/s]

tensor(4.3810, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▊                                                                    | 4574/40000 [05:30<43:19, 13.63it/s]

tensor(4.3750, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▊                                                                    | 4584/40000 [05:31<42:55, 13.75it/s]

tensor(4.3154, device='cuda:0', grad_fn=<NllLossBackward0>)


 11%|████████▊                                                                    | 4594/40000 [05:32<44:20, 13.31it/s]

tensor(4.4311, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▊                                                                    | 4604/40000 [05:33<43:40, 13.51it/s]

tensor(4.4918, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▉                                                                    | 4614/40000 [05:33<43:36, 13.53it/s]

tensor(4.4584, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▉                                                                    | 4624/40000 [05:34<44:44, 13.18it/s]

tensor(4.3150, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▉                                                                    | 4634/40000 [05:35<42:55, 13.73it/s]

tensor(4.3057, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▉                                                                    | 4644/40000 [05:36<42:33, 13.85it/s]

tensor(4.5107, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▉                                                                    | 4654/40000 [05:36<42:14, 13.95it/s]

tensor(4.4099, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▉                                                                    | 4664/40000 [05:37<42:40, 13.80it/s]

tensor(4.4457, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|████████▉                                                                    | 4674/40000 [05:38<42:42, 13.78it/s]

tensor(4.2890, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████                                                                    | 4684/40000 [05:38<42:12, 13.94it/s]

tensor(4.4179, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████                                                                    | 4694/40000 [05:39<42:19, 13.91it/s]

tensor(4.5244, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████                                                                    | 4704/40000 [05:40<41:56, 14.02it/s]

tensor(4.3536, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████                                                                    | 4714/40000 [05:41<42:32, 13.82it/s]

tensor(4.4186, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████                                                                    | 4724/40000 [05:41<42:05, 13.97it/s]

tensor(4.3942, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████                                                                    | 4734/40000 [05:42<41:19, 14.22it/s]

tensor(4.3037, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▏                                                                   | 4744/40000 [05:43<41:44, 14.08it/s]

tensor(4.2803, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▏                                                                   | 4754/40000 [05:44<44:34, 13.18it/s]

tensor(4.3310, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▏                                                                   | 4764/40000 [05:44<44:35, 13.17it/s]

tensor(4.3564, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▏                                                                   | 4774/40000 [05:45<44:07, 13.30it/s]

tensor(4.2814, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▏                                                                   | 4784/40000 [05:46<42:52, 13.69it/s]

tensor(4.3390, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▏                                                                   | 4794/40000 [05:47<45:08, 13.00it/s]

tensor(4.3812, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▏                                                                   | 4804/40000 [05:47<44:46, 13.10it/s]

tensor(4.3322, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▎                                                                   | 4814/40000 [05:48<42:31, 13.79it/s]

tensor(4.3364, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▎                                                                   | 4824/40000 [05:49<43:21, 13.52it/s]

tensor(4.3937, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▎                                                                   | 4834/40000 [05:49<42:22, 13.83it/s]

tensor(4.4166, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▎                                                                   | 4844/40000 [05:50<41:34, 14.09it/s]

tensor(4.4366, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▎                                                                   | 4854/40000 [05:51<41:30, 14.11it/s]

tensor(4.3716, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▎                                                                   | 4864/40000 [05:52<41:55, 13.97it/s]

tensor(4.3318, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▍                                                                   | 4874/40000 [05:52<41:54, 13.97it/s]

tensor(4.3042, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▍                                                                   | 4884/40000 [05:53<41:52, 13.98it/s]

tensor(4.4499, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▍                                                                   | 4894/40000 [05:54<41:44, 14.02it/s]

tensor(4.3832, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▍                                                                   | 4904/40000 [05:54<42:57, 13.62it/s]

tensor(4.3942, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▍                                                                   | 4914/40000 [05:55<42:07, 13.88it/s]

tensor(4.3290, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▍                                                                   | 4924/40000 [05:56<42:21, 13.80it/s]

tensor(4.3497, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▍                                                                   | 4934/40000 [05:57<41:54, 13.94it/s]

tensor(4.4154, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▌                                                                   | 4944/40000 [05:57<41:59, 13.91it/s]

tensor(4.4383, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▌                                                                   | 4954/40000 [05:58<41:55, 13.93it/s]

tensor(4.5392, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▌                                                                   | 4964/40000 [05:59<44:37, 13.08it/s]

tensor(4.3589, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▌                                                                   | 4974/40000 [06:00<45:39, 12.79it/s]

tensor(4.3394, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▌                                                                   | 4984/40000 [06:00<47:31, 12.28it/s]

tensor(4.4283, device='cuda:0', grad_fn=<NllLossBackward0>)


 12%|█████████▌                                                                   | 4994/40000 [06:01<44:29, 13.12it/s]

tensor(4.3047, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▋                                                                   | 5004/40000 [06:02<42:49, 13.62it/s]

tensor(4.3292, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▋                                                                   | 5014/40000 [06:03<42:05, 13.85it/s]

tensor(4.4484, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▋                                                                   | 5024/40000 [06:03<40:41, 14.33it/s]

tensor(4.4304, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▋                                                                   | 5034/40000 [06:04<42:26, 13.73it/s]

tensor(4.3099, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▋                                                                   | 5044/40000 [06:05<41:18, 14.10it/s]

tensor(4.3734, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▋                                                                   | 5054/40000 [06:06<41:49, 13.93it/s]

tensor(4.2828, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▋                                                                   | 5064/40000 [06:06<41:54, 13.89it/s]

tensor(4.3270, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▊                                                                   | 5074/40000 [06:07<41:59, 13.86it/s]

tensor(4.3809, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▊                                                                   | 5084/40000 [06:08<41:08, 14.14it/s]

tensor(4.3502, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▊                                                                   | 5094/40000 [06:08<41:36, 13.98it/s]

tensor(4.2728, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▊                                                                   | 5104/40000 [06:09<44:10, 13.17it/s]

tensor(4.3629, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▊                                                                   | 5114/40000 [06:10<45:22, 12.81it/s]

tensor(4.4925, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▊                                                                   | 5124/40000 [06:11<42:26, 13.70it/s]

tensor(4.3244, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▉                                                                   | 5134/40000 [06:11<43:28, 13.37it/s]

tensor(4.4179, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▉                                                                   | 5144/40000 [06:12<42:04, 13.81it/s]

tensor(4.3839, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▉                                                                   | 5154/40000 [06:13<41:06, 14.13it/s]

tensor(4.3788, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▉                                                                   | 5164/40000 [06:14<41:47, 13.89it/s]

tensor(4.4763, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▉                                                                   | 5174/40000 [06:14<41:41, 13.92it/s]

tensor(4.4702, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▉                                                                   | 5184/40000 [06:15<41:56, 13.84it/s]

tensor(4.3671, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|█████████▉                                                                   | 5194/40000 [06:16<41:22, 14.02it/s]

tensor(4.5438, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████                                                                   | 5204/40000 [06:16<42:06, 13.77it/s]

tensor(4.4037, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████                                                                   | 5214/40000 [06:17<41:17, 14.04it/s]

tensor(4.4517, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████                                                                   | 5224/40000 [06:18<41:19, 14.03it/s]

tensor(4.3346, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████                                                                   | 5234/40000 [06:19<41:28, 13.97it/s]

tensor(4.3762, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████                                                                   | 5244/40000 [06:19<41:31, 13.95it/s]

tensor(4.4192, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████                                                                   | 5254/40000 [06:20<41:40, 13.89it/s]

tensor(4.5070, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▏                                                                  | 5264/40000 [06:21<41:54, 13.81it/s]

tensor(4.4700, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▏                                                                  | 5274/40000 [06:21<41:51, 13.82it/s]

tensor(4.3457, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▏                                                                  | 5284/40000 [06:22<41:28, 13.95it/s]

tensor(4.3373, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▏                                                                  | 5294/40000 [06:23<41:19, 14.00it/s]

tensor(4.3323, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▏                                                                  | 5304/40000 [06:24<41:14, 14.02it/s]

tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▏                                                                  | 5314/40000 [06:24<40:41, 14.21it/s]

tensor(4.2871, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▏                                                                  | 5324/40000 [06:25<40:57, 14.11it/s]

tensor(4.3683, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▎                                                                  | 5334/40000 [06:26<41:51, 13.80it/s]

tensor(4.3256, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▎                                                                  | 5344/40000 [06:26<41:17, 13.99it/s]

tensor(4.3870, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▎                                                                  | 5354/40000 [06:27<42:00, 13.74it/s]

tensor(4.3809, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▎                                                                  | 5364/40000 [06:28<41:24, 13.94it/s]

tensor(4.3095, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▎                                                                  | 5374/40000 [06:29<41:11, 14.01it/s]

tensor(4.3463, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▎                                                                  | 5384/40000 [06:29<41:47, 13.81it/s]

tensor(4.4510, device='cuda:0', grad_fn=<NllLossBackward0>)


 13%|██████████▍                                                                  | 5394/40000 [06:30<41:43, 13.82it/s]

tensor(4.5201, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▍                                                                  | 5404/40000 [06:31<40:54, 14.09it/s]

tensor(4.5151, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▍                                                                  | 5414/40000 [06:31<41:15, 13.97it/s]

tensor(4.4419, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▍                                                                  | 5424/40000 [06:32<40:46, 14.13it/s]

tensor(4.3508, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▍                                                                  | 5434/40000 [06:33<41:10, 13.99it/s]

tensor(4.4378, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▍                                                                  | 5444/40000 [06:34<41:03, 14.03it/s]

tensor(4.3188, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▍                                                                  | 5454/40000 [06:34<41:08, 13.99it/s]

tensor(4.3685, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▌                                                                  | 5464/40000 [06:35<41:09, 13.98it/s]

tensor(4.3472, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▌                                                                  | 5474/40000 [06:36<41:26, 13.88it/s]

tensor(4.3649, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▌                                                                  | 5484/40000 [06:36<41:56, 13.71it/s]

tensor(4.2891, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▌                                                                  | 5494/40000 [06:37<40:59, 14.03it/s]

tensor(4.3229, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▌                                                                  | 5504/40000 [06:38<41:56, 13.71it/s]

tensor(4.4271, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▌                                                                  | 5514/40000 [06:39<41:48, 13.75it/s]

tensor(4.3256, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▋                                                                  | 5524/40000 [06:39<41:09, 13.96it/s]

tensor(4.3445, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▋                                                                  | 5534/40000 [06:40<41:43, 13.77it/s]

tensor(4.3518, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▋                                                                  | 5544/40000 [06:41<41:26, 13.86it/s]

tensor(4.3578, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▋                                                                  | 5554/40000 [06:41<41:01, 13.99it/s]

tensor(4.2967, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▋                                                                  | 5564/40000 [06:42<41:50, 13.71it/s]

tensor(4.5095, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▋                                                                  | 5574/40000 [06:43<40:41, 14.10it/s]

tensor(4.4411, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▋                                                                  | 5584/40000 [06:44<41:07, 13.95it/s]

tensor(4.3796, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▊                                                                  | 5594/40000 [06:44<41:19, 13.88it/s]

tensor(4.4653, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▊                                                                  | 5604/40000 [06:45<40:09, 14.28it/s]

tensor(4.4335, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▊                                                                  | 5614/40000 [06:46<40:57, 13.99it/s]

tensor(4.3240, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▊                                                                  | 5624/40000 [06:46<40:25, 14.18it/s]

tensor(4.3207, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▊                                                                  | 5634/40000 [06:47<41:33, 13.78it/s]

tensor(4.3742, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▊                                                                  | 5644/40000 [06:48<41:07, 13.92it/s]

tensor(4.2845, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▉                                                                  | 5654/40000 [06:49<41:05, 13.93it/s]

tensor(4.4402, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▉                                                                  | 5664/40000 [06:49<41:19, 13.85it/s]

tensor(4.3483, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▉                                                                  | 5674/40000 [06:50<40:56, 13.98it/s]

tensor(4.3715, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▉                                                                  | 5684/40000 [06:51<41:21, 13.83it/s]

tensor(4.4273, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▉                                                                  | 5694/40000 [06:51<40:33, 14.10it/s]

tensor(4.4894, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▉                                                                  | 5704/40000 [06:52<40:39, 14.06it/s]

tensor(4.3140, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|██████████▉                                                                  | 5714/40000 [06:53<41:05, 13.90it/s]

tensor(4.4155, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████                                                                  | 5724/40000 [06:54<40:56, 13.95it/s]

tensor(4.3074, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████                                                                  | 5734/40000 [06:54<40:47, 14.00it/s]

tensor(4.2408, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████                                                                  | 5744/40000 [06:55<40:40, 14.03it/s]

tensor(4.4406, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████                                                                  | 5754/40000 [06:56<40:58, 13.93it/s]

tensor(4.4588, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████                                                                  | 5764/40000 [06:56<41:00, 13.92it/s]

tensor(4.4256, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████                                                                  | 5774/40000 [06:57<40:18, 14.15it/s]

tensor(4.3831, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████▏                                                                 | 5784/40000 [06:58<40:50, 13.96it/s]

tensor(4.3661, device='cuda:0', grad_fn=<NllLossBackward0>)


 14%|███████████▏                                                                 | 5794/40000 [06:59<41:00, 13.90it/s]

tensor(4.3493, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▏                                                                 | 5804/40000 [06:59<41:06, 13.86it/s]

tensor(4.3012, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▏                                                                 | 5814/40000 [07:00<40:36, 14.03it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▏                                                                 | 5824/40000 [07:01<40:53, 13.93it/s]

tensor(4.2967, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▏                                                                 | 5834/40000 [07:01<40:23, 14.10it/s]

tensor(4.3628, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▏                                                                 | 5844/40000 [07:02<40:59, 13.89it/s]

tensor(4.3001, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▎                                                                 | 5854/40000 [07:03<41:10, 13.82it/s]

tensor(4.3566, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▎                                                                 | 5864/40000 [07:04<40:38, 14.00it/s]

tensor(4.3299, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▎                                                                 | 5874/40000 [07:04<40:43, 13.97it/s]

tensor(4.3275, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▎                                                                 | 5884/40000 [07:05<40:27, 14.05it/s]

tensor(4.4346, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▎                                                                 | 5894/40000 [07:06<40:39, 13.98it/s]

tensor(4.2718, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▎                                                                 | 5904/40000 [07:06<40:40, 13.97it/s]

tensor(4.4116, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▍                                                                 | 5914/40000 [07:07<41:10, 13.80it/s]

tensor(4.4098, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▍                                                                 | 5924/40000 [07:08<40:44, 13.94it/s]

tensor(4.2796, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▍                                                                 | 5934/40000 [07:09<40:32, 14.00it/s]

tensor(4.2668, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▍                                                                 | 5944/40000 [07:09<40:34, 13.99it/s]

tensor(4.3660, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▍                                                                 | 5954/40000 [07:10<40:18, 14.08it/s]

tensor(4.4314, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▍                                                                 | 5964/40000 [07:11<40:44, 13.93it/s]

tensor(4.4356, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▍                                                                 | 5974/40000 [07:11<40:47, 13.90it/s]

tensor(4.3570, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▌                                                                 | 5984/40000 [07:12<40:55, 13.86it/s]

tensor(4.4490, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▌                                                                 | 5994/40000 [07:13<40:40, 13.93it/s]

tensor(4.3545, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▌                                                                 | 6004/40000 [07:14<40:28, 14.00it/s]

tensor(4.2900, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▌                                                                 | 6014/40000 [07:14<41:02, 13.80it/s]

tensor(4.4810, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▌                                                                 | 6024/40000 [07:15<40:16, 14.06it/s]

tensor(4.3489, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▌                                                                 | 6034/40000 [07:16<40:26, 14.00it/s]

tensor(4.4514, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▋                                                                 | 6044/40000 [07:16<41:00, 13.80it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▋                                                                 | 6054/40000 [07:17<40:40, 13.91it/s]

tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▋                                                                 | 6064/40000 [07:18<40:12, 14.07it/s]

tensor(4.4605, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▋                                                                 | 6074/40000 [07:18<39:53, 14.18it/s]

tensor(4.3115, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▋                                                                 | 6084/40000 [07:19<40:51, 13.83it/s]

tensor(4.4154, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▋                                                                 | 6094/40000 [07:20<40:44, 13.87it/s]

tensor(4.3476, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▊                                                                 | 6104/40000 [07:21<40:49, 13.84it/s]

tensor(4.5028, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▊                                                                 | 6114/40000 [07:21<40:43, 13.87it/s]

tensor(4.3880, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▊                                                                 | 6124/40000 [07:22<40:18, 14.01it/s]

tensor(4.2925, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▊                                                                 | 6134/40000 [07:23<40:45, 13.85it/s]

tensor(4.4584, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▊                                                                 | 6144/40000 [07:23<40:37, 13.89it/s]

tensor(4.2877, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▊                                                                 | 6154/40000 [07:24<40:12, 14.03it/s]

tensor(4.4442, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▊                                                                 | 6164/40000 [07:25<40:24, 13.95it/s]

tensor(4.3153, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▉                                                                 | 6174/40000 [07:26<40:38, 13.87it/s]

tensor(4.3468, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▉                                                                 | 6184/40000 [07:26<40:52, 13.79it/s]

tensor(4.3549, device='cuda:0', grad_fn=<NllLossBackward0>)


 15%|███████████▉                                                                 | 6194/40000 [07:27<40:03, 14.06it/s]

tensor(4.3848, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|███████████▉                                                                 | 6204/40000 [07:28<40:19, 13.97it/s]

tensor(4.4379, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|███████████▉                                                                 | 6214/40000 [07:28<40:24, 13.94it/s]

tensor(4.4004, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|███████████▉                                                                 | 6224/40000 [07:29<40:29, 13.90it/s]

tensor(4.3434, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████                                                                 | 6234/40000 [07:30<40:11, 14.00it/s]

tensor(4.4550, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████                                                                 | 6244/40000 [07:31<40:15, 13.98it/s]

tensor(4.4883, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████                                                                 | 6254/40000 [07:31<40:07, 14.02it/s]

tensor(4.3147, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████                                                                 | 6264/40000 [07:32<41:11, 13.65it/s]

tensor(4.2074, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████                                                                 | 6274/40000 [07:33<40:27, 13.89it/s]

tensor(4.3977, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████                                                                 | 6284/40000 [07:34<40:51, 13.75it/s]

tensor(4.4430, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████                                                                 | 6294/40000 [07:34<40:58, 13.71it/s]

tensor(4.4518, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▏                                                                | 6304/40000 [07:35<40:44, 13.79it/s]

tensor(4.4314, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▏                                                                | 6314/40000 [07:36<40:10, 13.98it/s]

tensor(4.3429, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▏                                                                | 6324/40000 [07:36<40:15, 13.94it/s]

tensor(4.4674, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▏                                                                | 6334/40000 [07:37<40:04, 14.00it/s]

tensor(4.3328, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▏                                                                | 6344/40000 [07:38<40:31, 13.84it/s]

tensor(4.3319, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▏                                                                | 6354/40000 [07:39<40:15, 13.93it/s]

tensor(4.3924, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▎                                                                | 6364/40000 [07:39<40:18, 13.91it/s]

tensor(4.3859, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▎                                                                | 6374/40000 [07:40<39:55, 14.04it/s]

tensor(4.4307, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▎                                                                | 6384/40000 [07:41<40:38, 13.79it/s]

tensor(4.4174, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▎                                                                | 6394/40000 [07:41<40:21, 13.88it/s]

tensor(4.4252, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▎                                                                | 6404/40000 [07:42<40:05, 13.97it/s]

tensor(4.4005, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▎                                                                | 6414/40000 [07:43<40:20, 13.88it/s]

tensor(4.4012, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▎                                                                | 6424/40000 [07:44<40:24, 13.85it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▍                                                                | 6434/40000 [07:44<43:46, 12.78it/s]

tensor(4.3600, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▍                                                                | 6444/40000 [07:45<40:17, 13.88it/s]

tensor(4.3209, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▍                                                                | 6454/40000 [07:46<40:07, 13.93it/s]

tensor(4.4293, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▍                                                                | 6464/40000 [07:46<40:09, 13.92it/s]

tensor(4.4139, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▍                                                                | 6474/40000 [07:47<40:15, 13.88it/s]

tensor(4.3708, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▍                                                                | 6484/40000 [07:48<40:01, 13.96it/s]

tensor(4.3530, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▌                                                                | 6494/40000 [07:49<40:08, 13.91it/s]

tensor(4.3254, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▌                                                                | 6504/40000 [07:49<40:44, 13.70it/s]

tensor(4.4471, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▌                                                                | 6514/40000 [07:50<39:56, 13.97it/s]

tensor(4.3251, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▌                                                                | 6524/40000 [07:51<39:29, 14.13it/s]

tensor(4.3434, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▌                                                                | 6534/40000 [07:51<40:30, 13.77it/s]

tensor(4.3290, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▌                                                                | 6544/40000 [07:52<39:42, 14.04it/s]

tensor(4.3132, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▌                                                                | 6554/40000 [07:53<40:02, 13.92it/s]

tensor(4.2163, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▋                                                                | 6564/40000 [07:54<39:52, 13.98it/s]

tensor(4.1922, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▋                                                                | 6574/40000 [07:54<39:32, 14.09it/s]

tensor(4.4244, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▋                                                                | 6584/40000 [07:55<39:39, 14.04it/s]

tensor(4.4292, device='cuda:0', grad_fn=<NllLossBackward0>)


 16%|████████████▋                                                                | 6594/40000 [07:56<39:38, 14.05it/s]

tensor(4.3269, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▋                                                                | 6604/40000 [07:56<39:56, 13.93it/s]

tensor(4.4358, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▋                                                                | 6614/40000 [07:57<39:43, 14.00it/s]

tensor(4.4959, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▊                                                                | 6624/40000 [07:58<39:16, 14.16it/s]

tensor(4.4155, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▊                                                                | 6634/40000 [07:59<40:12, 13.83it/s]

tensor(4.5192, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▊                                                                | 6644/40000 [07:59<39:55, 13.92it/s]

tensor(4.4888, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▊                                                                | 6654/40000 [08:00<39:29, 14.07it/s]

tensor(4.4017, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▊                                                                | 6664/40000 [08:01<39:56, 13.91it/s]

tensor(4.3898, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▊                                                                | 6674/40000 [08:01<39:31, 14.05it/s]

tensor(4.3852, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▊                                                                | 6684/40000 [08:02<39:44, 13.97it/s]

tensor(4.3982, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▉                                                                | 6694/40000 [08:03<39:44, 13.97it/s]

tensor(4.4132, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▉                                                                | 6704/40000 [08:04<39:32, 14.03it/s]

tensor(4.3251, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▉                                                                | 6714/40000 [08:04<39:42, 13.97it/s]

tensor(4.3711, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▉                                                                | 6724/40000 [08:05<39:26, 14.06it/s]

tensor(4.2108, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▉                                                                | 6734/40000 [08:06<39:23, 14.08it/s]

tensor(4.3199, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|████████████▉                                                                | 6744/40000 [08:06<39:57, 13.87it/s]

tensor(4.3866, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████                                                                | 6754/40000 [08:07<39:03, 14.19it/s]

tensor(4.3972, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████                                                                | 6764/40000 [08:08<39:56, 13.87it/s]

tensor(4.3827, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████                                                                | 6774/40000 [08:09<39:47, 13.91it/s]

tensor(4.3196, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████                                                                | 6784/40000 [08:09<40:00, 13.84it/s]

tensor(4.3164, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████                                                                | 6794/40000 [08:10<39:31, 14.00it/s]

tensor(4.4196, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████                                                                | 6804/40000 [08:11<38:56, 14.21it/s]

tensor(4.4429, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████                                                                | 6814/40000 [08:11<39:58, 13.83it/s]

tensor(4.3268, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▏                                                               | 6824/40000 [08:12<39:38, 13.95it/s]

tensor(4.4529, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▏                                                               | 6834/40000 [08:13<39:16, 14.07it/s]

tensor(4.3679, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▏                                                               | 6844/40000 [08:14<39:38, 13.94it/s]

tensor(4.3940, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▏                                                               | 6854/40000 [08:14<39:17, 14.06it/s]

tensor(4.3537, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▏                                                               | 6864/40000 [08:15<39:17, 14.06it/s]

tensor(4.2899, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▏                                                               | 6874/40000 [08:16<39:36, 13.94it/s]

tensor(4.3990, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▎                                                               | 6884/40000 [08:16<39:37, 13.93it/s]

tensor(4.5172, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▎                                                               | 6894/40000 [08:17<39:20, 14.03it/s]

tensor(4.1913, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▎                                                               | 6904/40000 [08:18<39:32, 13.95it/s]

tensor(4.3302, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▎                                                               | 6914/40000 [08:19<40:02, 13.77it/s]

tensor(4.4364, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▎                                                               | 6924/40000 [08:19<38:58, 14.14it/s]

tensor(4.3318, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▎                                                               | 6934/40000 [08:20<38:51, 14.18it/s]

tensor(4.5007, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▎                                                               | 6944/40000 [08:21<39:24, 13.98it/s]

tensor(4.3217, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▍                                                               | 6954/40000 [08:21<38:53, 14.16it/s]

tensor(4.3525, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▍                                                               | 6964/40000 [08:22<39:21, 13.99it/s]

tensor(4.4694, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▍                                                               | 6974/40000 [08:23<38:59, 14.11it/s]

tensor(4.3603, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▍                                                               | 6984/40000 [08:24<39:42, 13.86it/s]

tensor(4.3889, device='cuda:0', grad_fn=<NllLossBackward0>)


 17%|█████████████▍                                                               | 6994/40000 [08:24<39:30, 13.92it/s]

tensor(4.4060, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▍                                                               | 7004/40000 [08:25<39:11, 14.03it/s]

tensor(4.4035, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▌                                                               | 7014/40000 [08:26<38:59, 14.10it/s]

tensor(4.4514, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▌                                                               | 7024/40000 [08:26<40:17, 13.64it/s]

tensor(4.3916, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▌                                                               | 7034/40000 [08:27<40:01, 13.73it/s]

tensor(4.3393, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▌                                                               | 7044/40000 [08:28<39:24, 13.94it/s]

tensor(4.3571, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▌                                                               | 7054/40000 [08:29<38:46, 14.16it/s]

tensor(4.3829, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▌                                                               | 7064/40000 [08:29<39:29, 13.90it/s]

tensor(4.3237, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▌                                                               | 7074/40000 [08:30<38:53, 14.11it/s]

tensor(4.4054, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▋                                                               | 7084/40000 [08:31<39:06, 14.02it/s]

tensor(4.4906, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▋                                                               | 7094/40000 [08:31<39:19, 13.95it/s]

tensor(4.3381, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▋                                                               | 7104/40000 [08:32<38:37, 14.19it/s]

tensor(4.5112, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▋                                                               | 7114/40000 [08:33<39:12, 13.98it/s]

tensor(4.4498, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▋                                                               | 7124/40000 [08:34<39:15, 13.96it/s]

tensor(4.4766, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▋                                                               | 7134/40000 [08:34<39:27, 13.88it/s]

tensor(4.3024, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▊                                                               | 7144/40000 [08:35<39:02, 14.03it/s]

tensor(4.4620, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▊                                                               | 7154/40000 [08:36<39:16, 13.94it/s]

tensor(4.2912, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▊                                                               | 7164/40000 [08:36<39:30, 13.85it/s]

tensor(4.3464, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▊                                                               | 7174/40000 [08:37<39:30, 13.85it/s]

tensor(4.3651, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▊                                                               | 7184/40000 [08:38<39:36, 13.81it/s]

tensor(4.4740, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▊                                                               | 7194/40000 [08:39<39:15, 13.93it/s]

tensor(4.2985, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▊                                                               | 7204/40000 [08:39<39:09, 13.96it/s]

tensor(4.4320, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▉                                                               | 7214/40000 [08:40<38:59, 14.01it/s]

tensor(4.3897, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▉                                                               | 7224/40000 [08:41<39:10, 13.94it/s]

tensor(4.4522, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▉                                                               | 7234/40000 [08:41<39:10, 13.94it/s]

tensor(4.3751, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▉                                                               | 7244/40000 [08:42<39:13, 13.92it/s]

tensor(4.4160, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▉                                                               | 7254/40000 [08:43<38:19, 14.24it/s]

tensor(4.4466, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|█████████████▉                                                               | 7264/40000 [08:43<39:35, 13.78it/s]

tensor(4.2894, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████                                                               | 7274/40000 [08:44<39:19, 13.87it/s]

tensor(4.4030, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████                                                               | 7284/40000 [08:45<39:08, 13.93it/s]

tensor(4.3747, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████                                                               | 7294/40000 [08:46<38:48, 14.05it/s]

tensor(4.4092, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████                                                               | 7304/40000 [08:46<38:34, 14.13it/s]

tensor(4.4364, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████                                                               | 7314/40000 [08:47<38:31, 14.14it/s]

tensor(4.4316, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████                                                               | 7324/40000 [08:48<39:13, 13.88it/s]

tensor(4.3380, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████                                                               | 7334/40000 [08:48<38:45, 14.05it/s]

tensor(4.3790, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████▏                                                              | 7344/40000 [08:49<39:00, 13.95it/s]

tensor(4.3862, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████▏                                                              | 7354/40000 [08:50<39:23, 13.81it/s]

tensor(4.4073, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████▏                                                              | 7364/40000 [08:51<39:05, 13.92it/s]

tensor(4.2957, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████▏                                                              | 7374/40000 [08:51<38:41, 14.05it/s]

tensor(4.3714, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████▏                                                              | 7384/40000 [08:52<38:59, 13.94it/s]

tensor(4.3413, device='cuda:0', grad_fn=<NllLossBackward0>)


 18%|██████████████▏                                                              | 7394/40000 [08:53<39:07, 13.89it/s]

tensor(4.3495, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▎                                                              | 7404/40000 [08:53<38:20, 14.17it/s]

tensor(4.4369, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▎                                                              | 7414/40000 [08:54<39:02, 13.91it/s]

tensor(4.3633, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▎                                                              | 7424/40000 [08:55<38:53, 13.96it/s]

tensor(4.3100, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▎                                                              | 7434/40000 [08:56<38:53, 13.95it/s]

tensor(4.4960, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▎                                                              | 7444/40000 [08:56<39:10, 13.85it/s]

tensor(4.3582, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▎                                                              | 7454/40000 [08:57<39:16, 13.81it/s]

tensor(4.2856, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▎                                                              | 7464/40000 [08:58<39:02, 13.89it/s]

tensor(4.2813, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▍                                                              | 7474/40000 [08:58<38:22, 14.12it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▍                                                              | 7484/40000 [08:59<38:58, 13.90it/s]

tensor(4.4320, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▍                                                              | 7494/40000 [09:00<39:05, 13.86it/s]

tensor(4.4043, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▍                                                              | 7504/40000 [09:01<38:21, 14.12it/s]

tensor(4.3407, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▍                                                              | 7514/40000 [09:01<38:21, 14.11it/s]

tensor(4.4035, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▍                                                              | 7524/40000 [09:02<38:53, 13.92it/s]

tensor(4.2111, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▌                                                              | 7534/40000 [09:03<39:11, 13.81it/s]

tensor(4.3983, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▌                                                              | 7544/40000 [09:03<38:50, 13.93it/s]

tensor(4.3365, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▌                                                              | 7554/40000 [09:04<38:47, 13.94it/s]

tensor(4.2509, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▌                                                              | 7564/40000 [09:05<39:10, 13.80it/s]

tensor(4.4536, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▌                                                              | 7574/40000 [09:06<39:10, 13.79it/s]

tensor(4.2829, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▌                                                              | 7584/40000 [09:06<38:04, 14.19it/s]

tensor(4.3963, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▌                                                              | 7594/40000 [09:07<38:52, 13.89it/s]

tensor(4.4062, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▋                                                              | 7604/40000 [09:08<38:26, 14.05it/s]

tensor(4.4444, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▋                                                              | 7614/40000 [09:08<39:02, 13.83it/s]

tensor(4.4298, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▋                                                              | 7624/40000 [09:09<38:24, 14.05it/s]

tensor(4.4491, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▋                                                              | 7634/40000 [09:10<38:35, 13.98it/s]

tensor(4.1982, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▋                                                              | 7644/40000 [09:11<38:56, 13.85it/s]

tensor(4.3518, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▋                                                              | 7654/40000 [09:11<38:11, 14.12it/s]

tensor(4.5252, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▊                                                              | 7664/40000 [09:12<38:39, 13.94it/s]

tensor(4.3499, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▊                                                              | 7674/40000 [09:13<38:19, 14.06it/s]

tensor(4.4950, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▊                                                              | 7684/40000 [09:13<38:48, 13.88it/s]

tensor(4.3959, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▊                                                              | 7694/40000 [09:14<38:23, 14.02it/s]

tensor(4.3441, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▊                                                              | 7704/40000 [09:15<38:23, 14.02it/s]

tensor(4.3072, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▊                                                              | 7714/40000 [09:16<38:15, 14.06it/s]

tensor(4.3998, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▊                                                              | 7724/40000 [09:16<37:58, 14.17it/s]

tensor(4.3665, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▉                                                              | 7734/40000 [09:17<38:16, 14.05it/s]

tensor(4.3023, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▉                                                              | 7744/40000 [09:18<38:22, 14.01it/s]

tensor(4.3994, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▉                                                              | 7754/40000 [09:18<38:38, 13.91it/s]

tensor(4.3457, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▉                                                              | 7764/40000 [09:19<38:57, 13.79it/s]

tensor(4.3333, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▉                                                              | 7774/40000 [09:20<38:35, 13.91it/s]

tensor(4.3818, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|██████████████▉                                                              | 7784/40000 [09:21<38:14, 14.04it/s]

tensor(4.4105, device='cuda:0', grad_fn=<NllLossBackward0>)


 19%|███████████████                                                              | 7794/40000 [09:21<38:35, 13.91it/s]

tensor(4.3657, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████                                                              | 7804/40000 [09:22<38:19, 14.00it/s]

tensor(4.4514, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████                                                              | 7814/40000 [09:23<38:16, 14.01it/s]

tensor(4.3526, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████                                                              | 7824/40000 [09:23<38:08, 14.06it/s]

tensor(4.3961, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████                                                              | 7834/40000 [09:24<38:29, 13.93it/s]

tensor(4.2709, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████                                                              | 7844/40000 [09:25<38:01, 14.10it/s]

tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████                                                              | 7854/40000 [09:26<38:55, 13.76it/s]

tensor(4.3902, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▏                                                             | 7864/40000 [09:26<38:33, 13.89it/s]

tensor(4.3805, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▏                                                             | 7874/40000 [09:27<38:07, 14.04it/s]

tensor(4.4325, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▏                                                             | 7884/40000 [09:28<38:24, 13.94it/s]

tensor(4.4142, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▏                                                             | 7894/40000 [09:28<38:05, 14.05it/s]

tensor(4.3117, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▏                                                             | 7904/40000 [09:29<38:26, 13.91it/s]

tensor(4.3854, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▏                                                             | 7914/40000 [09:30<37:52, 14.12it/s]

tensor(4.4776, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▎                                                             | 7924/40000 [09:31<38:30, 13.88it/s]

tensor(4.3343, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▎                                                             | 7934/40000 [09:31<38:15, 13.97it/s]

tensor(4.4442, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▎                                                             | 7944/40000 [09:32<39:46, 13.43it/s]

tensor(4.3997, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▎                                                             | 7954/40000 [09:33<38:16, 13.95it/s]

tensor(4.4023, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▎                                                             | 7964/40000 [09:33<38:50, 13.75it/s]

tensor(4.4382, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▎                                                             | 7974/40000 [09:34<38:56, 13.71it/s]

tensor(4.5408, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▎                                                             | 7984/40000 [09:35<38:00, 14.04it/s]

tensor(4.4479, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▍                                                             | 7994/40000 [09:36<38:03, 14.02it/s]

tensor(4.3595, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▍                                                             | 8004/40000 [09:36<38:14, 13.94it/s]

tensor(4.3891, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▍                                                             | 8014/40000 [09:37<38:26, 13.87it/s]

tensor(4.4530, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▍                                                             | 8024/40000 [09:38<38:44, 13.76it/s]

tensor(4.2700, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▍                                                             | 8034/40000 [09:38<38:11, 13.95it/s]

tensor(4.4367, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▍                                                             | 8044/40000 [09:39<37:23, 14.24it/s]

tensor(4.3459, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▌                                                             | 8054/40000 [09:40<38:20, 13.89it/s]

tensor(4.4296, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▌                                                             | 8064/40000 [09:41<38:08, 13.95it/s]

tensor(4.4899, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▌                                                             | 8074/40000 [09:41<37:10, 14.31it/s]

tensor(4.4474, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▌                                                             | 8084/40000 [09:42<38:03, 13.98it/s]

tensor(4.2826, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▌                                                             | 8094/40000 [09:43<38:12, 13.92it/s]

tensor(4.4148, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▌                                                             | 8104/40000 [09:43<37:56, 14.01it/s]

tensor(4.4103, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▌                                                             | 8114/40000 [09:44<38:02, 13.97it/s]

tensor(4.4639, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▋                                                             | 8124/40000 [09:45<38:00, 13.98it/s]

tensor(4.3394, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▋                                                             | 8134/40000 [09:46<38:15, 13.88it/s]

tensor(4.2872, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▋                                                             | 8144/40000 [09:46<38:28, 13.80it/s]

tensor(4.3632, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▋                                                             | 8154/40000 [09:47<38:02, 13.95it/s]

tensor(4.3976, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▋                                                             | 8164/40000 [09:48<37:43, 14.06it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▋                                                             | 8174/40000 [09:48<37:53, 14.00it/s]

tensor(4.4712, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▊                                                             | 8184/40000 [09:49<38:08, 13.90it/s]

tensor(4.3542, device='cuda:0', grad_fn=<NllLossBackward0>)


 20%|███████████████▊                                                             | 8194/40000 [09:50<37:49, 14.01it/s]

tensor(4.2648, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▊                                                             | 8204/40000 [09:50<37:27, 14.15it/s]

tensor(4.4247, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▊                                                             | 8214/40000 [09:51<37:11, 14.25it/s]

tensor(4.4291, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▊                                                             | 8224/40000 [09:52<37:54, 13.97it/s]

tensor(4.3795, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▊                                                             | 8234/40000 [09:53<38:09, 13.88it/s]

tensor(4.2930, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▊                                                             | 8244/40000 [09:53<37:41, 14.04it/s]

tensor(4.4505, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▉                                                             | 8254/40000 [09:54<38:02, 13.91it/s]

tensor(4.3301, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▉                                                             | 8264/40000 [09:55<38:08, 13.87it/s]

tensor(4.3898, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▉                                                             | 8274/40000 [09:55<37:16, 14.18it/s]

tensor(4.3734, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▉                                                             | 8284/40000 [09:56<37:51, 13.96it/s]

tensor(4.3539, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▉                                                             | 8294/40000 [09:57<38:02, 13.89it/s]

tensor(4.4747, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|███████████████▉                                                             | 8304/40000 [09:58<37:43, 14.01it/s]

tensor(4.3254, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████                                                             | 8314/40000 [09:58<37:54, 13.93it/s]

tensor(4.4021, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████                                                             | 8324/40000 [09:59<38:05, 13.86it/s]

tensor(4.3969, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████                                                             | 8334/40000 [10:00<38:00, 13.88it/s]

tensor(4.3708, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████                                                             | 8344/40000 [10:00<37:28, 14.08it/s]

tensor(4.2870, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████                                                             | 8354/40000 [10:01<37:34, 14.03it/s]

tensor(4.4767, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████                                                             | 8364/40000 [10:02<38:02, 13.86it/s]

tensor(4.3728, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████                                                             | 8374/40000 [10:03<37:15, 14.15it/s]

tensor(4.3816, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▏                                                            | 8384/40000 [10:03<37:32, 14.04it/s]

tensor(4.4395, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▏                                                            | 8394/40000 [10:04<37:47, 13.94it/s]

tensor(4.3895, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▏                                                            | 8404/40000 [10:05<37:31, 14.03it/s]

tensor(4.4739, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▏                                                            | 8414/40000 [10:05<37:55, 13.88it/s]

tensor(4.5249, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▏                                                            | 8424/40000 [10:06<38:04, 13.82it/s]

tensor(4.3722, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▏                                                            | 8434/40000 [10:07<37:02, 14.20it/s]

tensor(4.4244, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▎                                                            | 8444/40000 [10:08<37:47, 13.91it/s]

tensor(4.4087, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▎                                                            | 8454/40000 [10:08<37:48, 13.90it/s]

tensor(4.3774, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▎                                                            | 8464/40000 [10:09<36:44, 14.31it/s]

tensor(4.4068, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▎                                                            | 8474/40000 [10:10<38:01, 13.82it/s]

tensor(4.2571, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▎                                                            | 8484/40000 [10:10<37:23, 14.05it/s]

tensor(4.4138, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▎                                                            | 8494/40000 [10:11<37:24, 14.04it/s]

tensor(4.4396, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▎                                                            | 8504/40000 [10:12<37:11, 14.12it/s]

tensor(4.4520, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▍                                                            | 8514/40000 [10:13<37:23, 14.03it/s]

tensor(4.2934, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▍                                                            | 8524/40000 [10:13<37:48, 13.88it/s]

tensor(4.3971, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▍                                                            | 8534/40000 [10:14<37:27, 14.00it/s]

tensor(4.4028, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▍                                                            | 8544/40000 [10:15<38:01, 13.79it/s]

tensor(4.4333, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▍                                                            | 8554/40000 [10:15<37:14, 14.07it/s]

tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▍                                                            | 8564/40000 [10:16<37:36, 13.93it/s]

tensor(4.3197, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▌                                                            | 8574/40000 [10:17<37:42, 13.89it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▌                                                            | 8584/40000 [10:18<36:53, 14.19it/s]

tensor(4.3965, device='cuda:0', grad_fn=<NllLossBackward0>)


 21%|████████████████▌                                                            | 8594/40000 [10:18<37:41, 13.89it/s]

tensor(4.3002, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▌                                                            | 8604/40000 [10:19<37:24, 13.99it/s]

tensor(4.4351, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▌                                                            | 8614/40000 [10:20<37:19, 14.01it/s]

tensor(4.3586, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▌                                                            | 8624/40000 [10:20<37:07, 14.09it/s]

tensor(4.4720, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▌                                                            | 8634/40000 [10:21<36:48, 14.20it/s]

tensor(4.3772, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▋                                                            | 8644/40000 [10:22<37:32, 13.92it/s]

tensor(4.4024, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▋                                                            | 8654/40000 [10:23<37:16, 14.02it/s]

tensor(4.4570, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▋                                                            | 8664/40000 [10:23<37:26, 13.95it/s]

tensor(4.3182, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▋                                                            | 8674/40000 [10:24<36:59, 14.11it/s]

tensor(4.4130, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▋                                                            | 8684/40000 [10:25<37:29, 13.92it/s]

tensor(4.2923, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▋                                                            | 8694/40000 [10:25<37:07, 14.05it/s]

tensor(4.4039, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▊                                                            | 8704/40000 [10:26<37:21, 13.96it/s]

tensor(4.3755, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▊                                                            | 8714/40000 [10:27<37:41, 13.83it/s]

tensor(4.2922, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▊                                                            | 8724/40000 [10:28<37:13, 14.00it/s]

tensor(4.5003, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▊                                                            | 8734/40000 [10:28<36:57, 14.10it/s]

tensor(4.3023, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▊                                                            | 8744/40000 [10:29<37:20, 13.95it/s]

tensor(4.4594, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▊                                                            | 8754/40000 [10:30<36:57, 14.09it/s]

tensor(4.4584, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▊                                                            | 8764/40000 [10:30<37:15, 13.97it/s]

tensor(4.4009, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▉                                                            | 8774/40000 [10:31<37:10, 14.00it/s]

tensor(4.3075, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▉                                                            | 8784/40000 [10:32<37:14, 13.97it/s]

tensor(4.4054, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▉                                                            | 8794/40000 [10:33<36:37, 14.20it/s]

tensor(4.3861, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▉                                                            | 8804/40000 [10:33<36:35, 14.21it/s]

tensor(4.3621, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▉                                                            | 8814/40000 [10:34<37:08, 14.00it/s]

tensor(4.3805, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|████████████████▉                                                            | 8824/40000 [10:35<37:07, 14.00it/s]

tensor(4.2957, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████                                                            | 8834/40000 [10:35<37:24, 13.88it/s]

tensor(4.4384, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████                                                            | 8844/40000 [10:36<37:09, 13.98it/s]

tensor(4.3354, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████                                                            | 8854/40000 [10:37<36:39, 14.16it/s]

tensor(4.3847, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████                                                            | 8864/40000 [10:38<37:10, 13.96it/s]

tensor(4.3964, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████                                                            | 8874/40000 [10:38<37:24, 13.87it/s]

tensor(4.3943, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████                                                            | 8884/40000 [10:39<36:49, 14.09it/s]

tensor(4.4632, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████                                                            | 8894/40000 [10:40<37:22, 13.87it/s]

tensor(4.4317, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▏                                                           | 8904/40000 [10:40<37:30, 13.82it/s]

tensor(4.3983, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▏                                                           | 8914/40000 [10:41<37:05, 13.97it/s]

tensor(4.3247, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▏                                                           | 8924/40000 [10:42<37:06, 13.96it/s]

tensor(4.4596, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▏                                                           | 8934/40000 [10:43<36:59, 13.99it/s]

tensor(4.3730, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▏                                                           | 8944/40000 [10:43<37:26, 13.83it/s]

tensor(4.3860, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▏                                                           | 8954/40000 [10:44<37:11, 13.91it/s]

tensor(4.4368, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▎                                                           | 8964/40000 [10:45<37:02, 13.97it/s]

tensor(4.4320, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▎                                                           | 8974/40000 [10:45<36:42, 14.09it/s]

tensor(4.4228, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▎                                                           | 8984/40000 [10:46<36:53, 14.01it/s]

tensor(4.3353, device='cuda:0', grad_fn=<NllLossBackward0>)


 22%|█████████████████▎                                                           | 8994/40000 [10:47<37:17, 13.86it/s]

tensor(4.4393, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▎                                                           | 9004/40000 [10:47<36:25, 14.18it/s]

tensor(4.4098, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▎                                                           | 9014/40000 [10:48<37:06, 13.92it/s]

tensor(4.3448, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▎                                                           | 9024/40000 [10:49<37:22, 13.82it/s]

tensor(4.4503, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▍                                                           | 9034/40000 [10:50<36:49, 14.01it/s]

tensor(4.4489, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▍                                                           | 9044/40000 [10:50<37:06, 13.90it/s]

tensor(4.4193, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▍                                                           | 9054/40000 [10:51<37:13, 13.86it/s]

tensor(4.4276, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▍                                                           | 9064/40000 [10:52<37:16, 13.83it/s]

tensor(4.3954, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▍                                                           | 9074/40000 [10:52<36:35, 14.08it/s]

tensor(4.2934, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▍                                                           | 9084/40000 [10:53<36:48, 14.00it/s]

tensor(4.4908, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▌                                                           | 9094/40000 [10:54<36:56, 13.94it/s]

tensor(4.4155, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▌                                                           | 9104/40000 [10:55<36:40, 14.04it/s]

tensor(4.3578, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▌                                                           | 9114/40000 [10:55<36:16, 14.19it/s]

tensor(4.3595, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▌                                                           | 9124/40000 [10:56<36:58, 13.92it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▌                                                           | 9134/40000 [10:57<37:04, 13.88it/s]

tensor(4.4827, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▌                                                           | 9144/40000 [10:57<36:24, 14.13it/s]

tensor(4.3708, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▌                                                           | 9154/40000 [10:58<36:54, 13.93it/s]

tensor(4.2563, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▋                                                           | 9164/40000 [10:59<36:24, 14.11it/s]

tensor(4.3651, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▋                                                           | 9174/40000 [11:00<36:30, 14.07it/s]

tensor(4.3501, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▋                                                           | 9184/40000 [11:00<36:59, 13.88it/s]

tensor(4.3825, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▋                                                           | 9194/40000 [11:01<36:33, 14.04it/s]

tensor(4.2950, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▋                                                           | 9204/40000 [11:02<36:43, 13.97it/s]

tensor(4.4286, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▋                                                           | 9214/40000 [11:02<36:31, 14.05it/s]

tensor(4.3619, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▊                                                           | 9224/40000 [11:03<36:21, 14.11it/s]

tensor(4.3328, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▊                                                           | 9234/40000 [11:04<36:04, 14.21it/s]

tensor(4.4472, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▊                                                           | 9244/40000 [11:05<36:18, 14.12it/s]

tensor(4.4420, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▊                                                           | 9254/40000 [11:05<36:51, 13.90it/s]

tensor(4.4291, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▊                                                           | 9264/40000 [11:06<36:21, 14.09it/s]

tensor(4.4777, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▊                                                           | 9274/40000 [11:07<36:56, 13.86it/s]

tensor(4.3232, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▊                                                           | 9284/40000 [11:07<36:12, 14.14it/s]

tensor(4.4868, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▉                                                           | 9294/40000 [11:08<36:29, 14.02it/s]

tensor(4.4824, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▉                                                           | 9304/40000 [11:09<36:13, 14.12it/s]

tensor(4.3393, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▉                                                           | 9314/40000 [11:10<36:44, 13.92it/s]

tensor(4.3802, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▉                                                           | 9324/40000 [11:10<35:53, 14.24it/s]

tensor(4.3968, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▉                                                           | 9334/40000 [11:11<36:39, 13.94it/s]

tensor(4.3745, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|█████████████████▉                                                           | 9344/40000 [11:12<36:33, 13.98it/s]

tensor(4.4942, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|██████████████████                                                           | 9354/40000 [11:12<36:37, 13.94it/s]

tensor(4.4460, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|██████████████████                                                           | 9364/40000 [11:13<36:48, 13.87it/s]

tensor(4.4201, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|██████████████████                                                           | 9374/40000 [11:14<36:34, 13.96it/s]

tensor(4.3940, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|██████████████████                                                           | 9384/40000 [11:15<36:00, 14.17it/s]

tensor(4.3034, device='cuda:0', grad_fn=<NllLossBackward0>)


 23%|██████████████████                                                           | 9394/40000 [11:15<36:34, 13.95it/s]

tensor(4.4412, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████                                                           | 9404/40000 [11:16<36:38, 13.92it/s]

tensor(4.3896, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████                                                           | 9414/40000 [11:17<36:22, 14.01it/s]

tensor(4.4065, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▏                                                          | 9424/40000 [11:17<36:37, 13.91it/s]

tensor(4.2702, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▏                                                          | 9434/40000 [11:18<36:24, 13.99it/s]

tensor(4.3752, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▏                                                          | 9444/40000 [11:19<36:39, 13.89it/s]

tensor(4.4279, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▏                                                          | 9454/40000 [11:20<36:29, 13.95it/s]

tensor(4.4348, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▏                                                          | 9464/40000 [11:20<36:23, 13.99it/s]

tensor(4.3701, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▏                                                          | 9474/40000 [11:21<36:14, 14.03it/s]

tensor(4.4913, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▎                                                          | 9484/40000 [11:22<36:54, 13.78it/s]

tensor(4.4335, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▎                                                          | 9494/40000 [11:22<35:43, 14.23it/s]

tensor(4.2840, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▎                                                          | 9504/40000 [11:23<36:27, 13.94it/s]

tensor(4.4298, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▎                                                          | 9514/40000 [11:24<35:56, 14.14it/s]

tensor(4.3999, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▎                                                          | 9524/40000 [11:25<36:58, 13.74it/s]

tensor(4.4418, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▎                                                          | 9534/40000 [11:25<36:13, 14.02it/s]

tensor(4.4075, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▎                                                          | 9544/40000 [11:26<36:28, 13.92it/s]

tensor(4.3544, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▍                                                          | 9554/40000 [11:27<35:35, 14.26it/s]

tensor(4.3576, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▍                                                          | 9564/40000 [11:27<36:24, 13.93it/s]

tensor(4.2999, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▍                                                          | 9574/40000 [11:28<36:12, 14.01it/s]

tensor(4.3284, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▍                                                          | 9584/40000 [11:29<36:42, 13.81it/s]

tensor(4.3739, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▍                                                          | 9594/40000 [11:30<36:13, 13.99it/s]

tensor(4.3239, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▍                                                          | 9604/40000 [11:30<36:39, 13.82it/s]

tensor(4.4565, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▌                                                          | 9614/40000 [11:31<36:09, 14.01it/s]

tensor(4.4041, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▌                                                          | 9624/40000 [11:32<35:34, 14.23it/s]

tensor(4.4611, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▌                                                          | 9634/40000 [11:32<36:59, 13.68it/s]

tensor(4.4989, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▌                                                          | 9644/40000 [11:33<36:16, 13.95it/s]

tensor(4.3663, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▌                                                          | 9654/40000 [11:34<36:45, 13.76it/s]

tensor(4.3942, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▌                                                          | 9664/40000 [11:35<37:03, 13.64it/s]

tensor(4.4488, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▌                                                          | 9674/40000 [11:35<36:32, 13.83it/s]

tensor(4.4551, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▋                                                          | 9684/40000 [11:36<36:19, 13.91it/s]

tensor(4.3962, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▋                                                          | 9694/40000 [11:37<36:17, 13.92it/s]

tensor(4.3363, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▋                                                          | 9704/40000 [11:37<35:57, 14.04it/s]

tensor(4.2626, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▋                                                          | 9714/40000 [11:38<36:10, 13.95it/s]

tensor(4.3991, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▋                                                          | 9724/40000 [11:39<36:25, 13.85it/s]

tensor(4.3452, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▋                                                          | 9734/40000 [11:40<36:14, 13.92it/s]

tensor(4.3772, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▊                                                          | 9744/40000 [11:40<35:36, 14.16it/s]

tensor(4.4070, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▊                                                          | 9754/40000 [11:41<36:34, 13.78it/s]

tensor(4.2816, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▊                                                          | 9764/40000 [11:42<35:59, 14.00it/s]

tensor(4.3794, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▊                                                          | 9774/40000 [11:42<35:47, 14.07it/s]

tensor(4.2208, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▊                                                          | 9784/40000 [11:43<36:22, 13.84it/s]

tensor(4.2169, device='cuda:0', grad_fn=<NllLossBackward0>)


 24%|██████████████████▊                                                          | 9794/40000 [11:44<35:35, 14.14it/s]

tensor(4.4435, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|██████████████████▊                                                          | 9804/40000 [11:45<36:14, 13.89it/s]

tensor(4.3428, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|██████████████████▉                                                          | 9814/40000 [11:45<35:08, 14.32it/s]

tensor(4.3730, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|██████████████████▉                                                          | 9824/40000 [11:46<36:10, 13.90it/s]

tensor(4.2113, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|██████████████████▉                                                          | 9834/40000 [11:47<35:48, 14.04it/s]

tensor(4.4304, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|██████████████████▉                                                          | 9844/40000 [11:47<36:08, 13.90it/s]

tensor(4.3679, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|██████████████████▉                                                          | 9854/40000 [11:48<35:27, 14.17it/s]

tensor(4.3269, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|██████████████████▉                                                          | 9864/40000 [11:49<35:38, 14.09it/s]

tensor(4.4208, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                          | 9874/40000 [11:50<36:06, 13.91it/s]

tensor(4.3260, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                          | 9884/40000 [11:50<36:01, 13.93it/s]

tensor(4.4100, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                          | 9894/40000 [11:51<35:53, 13.98it/s]

tensor(4.4055, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                          | 9904/40000 [11:52<36:07, 13.89it/s]

tensor(4.3239, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                          | 9914/40000 [11:52<35:40, 14.05it/s]

tensor(4.4623, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                          | 9924/40000 [11:53<36:22, 13.78it/s]

tensor(4.3908, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                          | 9934/40000 [11:54<36:51, 13.59it/s]

tensor(4.3722, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                         | 9944/40000 [11:55<35:35, 14.07it/s]

tensor(4.2912, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                         | 9954/40000 [11:55<35:59, 13.91it/s]

tensor(4.3056, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                         | 9964/40000 [11:56<36:31, 13.71it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                         | 9974/40000 [11:57<36:04, 13.87it/s]

tensor(4.3362, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                         | 9984/40000 [11:57<36:00, 13.90it/s]

tensor(4.2797, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                         | 9994/40000 [11:58<35:59, 13.89it/s]

tensor(4.4650, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                         | 10004/40000 [11:59<35:43, 13.99it/s]

tensor(4.4551, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                         | 10014/40000 [12:00<36:09, 13.82it/s]

tensor(4.3372, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                         | 10024/40000 [12:00<35:56, 13.90it/s]

tensor(4.4927, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                         | 10034/40000 [12:01<35:41, 13.99it/s]

tensor(4.4362, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                         | 10044/40000 [12:02<38:25, 12.99it/s]

tensor(4.3908, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                         | 10054/40000 [12:03<37:56, 13.15it/s]

tensor(4.4721, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████                                                         | 10064/40000 [12:03<39:58, 12.48it/s]

tensor(4.3748, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                        | 10074/40000 [12:04<41:12, 12.10it/s]

tensor(4.3439, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                        | 10084/40000 [12:05<38:24, 12.98it/s]

tensor(4.4603, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                        | 10094/40000 [12:06<38:12, 13.05it/s]

tensor(4.4669, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                        | 10104/40000 [12:07<39:06, 12.74it/s]

tensor(4.4122, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                        | 10114/40000 [12:07<40:23, 12.33it/s]

tensor(4.4103, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▏                                                        | 10124/40000 [12:08<40:14, 12.37it/s]

tensor(4.3106, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▎                                                        | 10134/40000 [12:09<42:33, 11.70it/s]

tensor(4.3654, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▎                                                        | 10144/40000 [12:10<38:44, 12.84it/s]

tensor(4.4683, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▎                                                        | 10154/40000 [12:11<37:35, 13.23it/s]

tensor(4.3666, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▎                                                        | 10164/40000 [12:11<37:48, 13.15it/s]

tensor(4.3827, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▎                                                        | 10174/40000 [12:12<37:29, 13.26it/s]

tensor(4.4776, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▎                                                        | 10184/40000 [12:13<37:26, 13.27it/s]

tensor(4.3691, device='cuda:0', grad_fn=<NllLossBackward0>)


 25%|███████████████████▎                                                        | 10194/40000 [12:14<37:44, 13.16it/s]

tensor(4.4305, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▍                                                        | 10204/40000 [12:14<39:07, 12.70it/s]

tensor(4.4667, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▍                                                        | 10214/40000 [12:15<37:32, 13.22it/s]

tensor(4.3125, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▍                                                        | 10224/40000 [12:16<37:31, 13.22it/s]

tensor(4.4098, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▍                                                        | 10234/40000 [12:17<37:17, 13.31it/s]

tensor(4.4245, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▍                                                        | 10244/40000 [12:17<40:33, 12.23it/s]

tensor(4.3778, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▍                                                        | 10254/40000 [12:18<38:23, 12.92it/s]

tensor(4.4321, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▌                                                        | 10264/40000 [12:19<37:27, 13.23it/s]

tensor(4.3782, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▌                                                        | 10274/40000 [12:20<40:10, 12.33it/s]

tensor(4.4237, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▌                                                        | 10284/40000 [12:21<38:22, 12.91it/s]

tensor(4.4505, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▌                                                        | 10294/40000 [12:21<37:28, 13.21it/s]

tensor(4.3363, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▌                                                        | 10304/40000 [12:22<37:15, 13.29it/s]

tensor(4.3438, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▌                                                        | 10314/40000 [12:23<39:57, 12.38it/s]

tensor(4.3536, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▌                                                        | 10324/40000 [12:24<38:34, 12.82it/s]

tensor(4.4769, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▋                                                        | 10334/40000 [12:24<37:27, 13.20it/s]

tensor(4.3879, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▋                                                        | 10344/40000 [12:25<37:11, 13.29it/s]

tensor(4.3222, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▋                                                        | 10354/40000 [12:26<41:32, 11.89it/s]

tensor(4.4446, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▋                                                        | 10364/40000 [12:27<38:42, 12.76it/s]

tensor(4.4709, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▋                                                        | 10374/40000 [12:28<38:51, 12.71it/s]

tensor(4.3602, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▋                                                        | 10384/40000 [12:28<37:24, 13.20it/s]

tensor(4.3602, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▋                                                        | 10394/40000 [12:29<40:00, 12.33it/s]

tensor(4.4550, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▊                                                        | 10404/40000 [12:30<38:26, 12.83it/s]

tensor(4.3211, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▊                                                        | 10414/40000 [12:31<37:16, 13.23it/s]

tensor(4.3548, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▊                                                        | 10424/40000 [12:31<39:40, 12.42it/s]

tensor(4.3788, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▊                                                        | 10434/40000 [12:32<37:31, 13.13it/s]

tensor(4.3486, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▊                                                        | 10444/40000 [12:33<41:11, 11.96it/s]

tensor(4.3143, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▊                                                        | 10454/40000 [12:34<38:02, 12.95it/s]

tensor(4.3118, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▉                                                        | 10464/40000 [12:35<36:56, 13.32it/s]

tensor(4.4405, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▉                                                        | 10474/40000 [12:35<39:05, 12.59it/s]

tensor(4.3934, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▉                                                        | 10484/40000 [12:36<37:20, 13.17it/s]

tensor(4.2979, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▉                                                        | 10494/40000 [12:37<37:15, 13.20it/s]

tensor(4.3834, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▉                                                        | 10504/40000 [12:38<36:54, 13.32it/s]

tensor(4.3190, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▉                                                        | 10514/40000 [12:38<41:08, 11.94it/s]

tensor(4.4177, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|███████████████████▉                                                        | 10524/40000 [12:39<38:01, 12.92it/s]

tensor(4.3589, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|████████████████████                                                        | 10534/40000 [12:40<37:13, 13.19it/s]

tensor(4.4703, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|████████████████████                                                        | 10544/40000 [12:41<37:04, 13.24it/s]

tensor(4.3816, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|████████████████████                                                        | 10554/40000 [12:42<37:49, 12.97it/s]

tensor(4.3113, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|████████████████████                                                        | 10564/40000 [12:42<38:32, 12.73it/s]

tensor(4.3410, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|████████████████████                                                        | 10574/40000 [12:43<37:08, 13.20it/s]

tensor(4.3219, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|████████████████████                                                        | 10584/40000 [12:44<36:49, 13.31it/s]

tensor(4.3784, device='cuda:0', grad_fn=<NllLossBackward0>)


 26%|████████████████████▏                                                       | 10594/40000 [12:45<40:42, 12.04it/s]

tensor(4.2853, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▏                                                       | 10604/40000 [12:46<43:34, 11.24it/s]

tensor(4.4578, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▏                                                       | 10614/40000 [12:46<40:46, 12.01it/s]

tensor(4.4584, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▏                                                       | 10624/40000 [12:47<38:14, 12.80it/s]

tensor(4.3497, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▏                                                       | 10634/40000 [12:48<37:12, 13.16it/s]

tensor(4.4575, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▏                                                       | 10644/40000 [12:49<36:58, 13.23it/s]

tensor(4.4160, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▏                                                       | 10654/40000 [12:49<36:52, 13.27it/s]

tensor(4.3405, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▎                                                       | 10664/40000 [12:50<37:20, 13.10it/s]

tensor(4.3781, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▎                                                       | 10674/40000 [12:51<36:39, 13.33it/s]

tensor(4.3075, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▎                                                       | 10684/40000 [12:52<36:36, 13.35it/s]

tensor(4.4357, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▎                                                       | 10694/40000 [12:52<36:33, 13.36it/s]

tensor(4.4305, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▎                                                       | 10704/40000 [12:53<36:35, 13.34it/s]

tensor(4.2812, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▎                                                       | 10714/40000 [12:54<36:41, 13.30it/s]

tensor(4.3236, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▍                                                       | 10724/40000 [12:55<36:32, 13.35it/s]

tensor(4.4628, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▍                                                       | 10734/40000 [12:55<36:32, 13.35it/s]

tensor(4.2980, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▍                                                       | 10744/40000 [12:56<36:38, 13.31it/s]

tensor(4.4569, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▍                                                       | 10754/40000 [12:57<36:31, 13.34it/s]

tensor(4.4242, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▍                                                       | 10764/40000 [12:58<36:36, 13.31it/s]

tensor(4.4112, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▍                                                       | 10774/40000 [12:59<42:03, 11.58it/s]

tensor(4.3694, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▍                                                       | 10784/40000 [12:59<37:59, 12.82it/s]

tensor(4.3529, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▌                                                       | 10794/40000 [13:00<36:59, 13.16it/s]

tensor(4.3939, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▌                                                       | 10804/40000 [13:01<36:58, 13.16it/s]

tensor(4.3244, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▌                                                       | 10814/40000 [13:02<36:56, 13.16it/s]

tensor(4.3208, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▌                                                       | 10824/40000 [13:02<36:27, 13.34it/s]

tensor(4.4174, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▌                                                       | 10834/40000 [13:03<36:29, 13.32it/s]

tensor(4.3791, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▌                                                       | 10844/40000 [13:04<36:29, 13.32it/s]

tensor(4.3492, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▌                                                       | 10854/40000 [13:05<36:22, 13.35it/s]

tensor(4.5038, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▋                                                       | 10864/40000 [13:05<36:24, 13.34it/s]

tensor(4.4269, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▋                                                       | 10874/40000 [13:06<36:27, 13.32it/s]

tensor(4.3163, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▋                                                       | 10884/40000 [13:07<36:33, 13.28it/s]

tensor(4.4967, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▋                                                       | 10894/40000 [13:08<36:15, 13.38it/s]

tensor(4.4429, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▋                                                       | 10904/40000 [13:08<36:15, 13.37it/s]

tensor(4.3627, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▋                                                       | 10914/40000 [13:09<36:17, 13.36it/s]

tensor(4.4741, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▊                                                       | 10924/40000 [13:10<36:22, 13.32it/s]

tensor(4.4119, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▊                                                       | 10934/40000 [13:11<36:15, 13.36it/s]

tensor(4.4038, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▊                                                       | 10944/40000 [13:11<36:19, 13.33it/s]

tensor(4.3229, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▊                                                       | 10954/40000 [13:12<36:17, 13.34it/s]

tensor(4.5112, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▊                                                       | 10964/40000 [13:13<36:18, 13.33it/s]

tensor(4.3471, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▊                                                       | 10974/40000 [13:14<36:10, 13.37it/s]

tensor(4.3005, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▊                                                       | 10984/40000 [13:14<36:05, 13.40it/s]

tensor(4.3658, device='cuda:0', grad_fn=<NllLossBackward0>)


 27%|████████████████████▉                                                       | 10994/40000 [13:15<36:16, 13.33it/s]

tensor(4.3903, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|████████████████████▉                                                       | 11004/40000 [13:16<36:19, 13.30it/s]

tensor(4.4330, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|████████████████████▉                                                       | 11014/40000 [13:17<36:06, 13.38it/s]

tensor(4.3692, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|████████████████████▉                                                       | 11024/40000 [13:17<36:09, 13.36it/s]

tensor(4.3986, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|████████████████████▉                                                       | 11034/40000 [13:18<36:07, 13.37it/s]

tensor(4.4872, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|████████████████████▉                                                       | 11044/40000 [13:19<36:23, 13.26it/s]

tensor(4.4124, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████                                                       | 11054/40000 [13:20<36:04, 13.37it/s]

tensor(4.4866, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████                                                       | 11064/40000 [13:20<36:10, 13.33it/s]

tensor(4.3101, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████                                                       | 11074/40000 [13:21<36:04, 13.36it/s]

tensor(4.3631, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████                                                       | 11084/40000 [13:22<36:12, 13.31it/s]

tensor(4.3809, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████                                                       | 11094/40000 [13:23<35:59, 13.39it/s]

tensor(4.3343, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████                                                       | 11104/40000 [13:23<36:03, 13.36it/s]

tensor(4.3022, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████                                                       | 11114/40000 [13:24<36:02, 13.36it/s]

tensor(4.3956, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▏                                                      | 11124/40000 [13:25<36:06, 13.33it/s]

tensor(4.4069, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▏                                                      | 11134/40000 [13:26<35:56, 13.39it/s]

tensor(4.3591, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▏                                                      | 11144/40000 [13:26<36:01, 13.35it/s]

tensor(4.4825, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▏                                                      | 11154/40000 [13:27<36:00, 13.35it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▏                                                      | 11164/40000 [13:28<36:20, 13.22it/s]

tensor(4.3289, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▏                                                      | 11174/40000 [13:29<35:56, 13.37it/s]

tensor(4.3564, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▏                                                      | 11184/40000 [13:29<35:57, 13.36it/s]

tensor(4.3235, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▎                                                      | 11194/40000 [13:30<35:58, 13.35it/s]

tensor(4.3725, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▎                                                      | 11204/40000 [13:31<35:51, 13.39it/s]

tensor(4.4227, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▎                                                      | 11214/40000 [13:32<36:09, 13.27it/s]

tensor(4.3519, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▎                                                      | 11224/40000 [13:32<36:54, 12.99it/s]

tensor(4.4718, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▎                                                      | 11234/40000 [13:33<36:28, 13.15it/s]

tensor(4.4275, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▎                                                      | 11244/40000 [13:34<35:55, 13.34it/s]

tensor(4.3687, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▍                                                      | 11254/40000 [13:35<36:23, 13.16it/s]

tensor(4.2981, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▍                                                      | 11264/40000 [13:35<36:00, 13.30it/s]

tensor(4.3688, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▍                                                      | 11274/40000 [13:36<35:56, 13.32it/s]

tensor(4.3837, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▍                                                      | 11284/40000 [13:37<35:51, 13.35it/s]

tensor(4.3924, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▍                                                      | 11294/40000 [13:38<35:47, 13.37it/s]

tensor(4.3943, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▍                                                      | 11304/40000 [13:38<35:56, 13.31it/s]

tensor(4.3785, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▍                                                      | 11314/40000 [13:39<36:01, 13.27it/s]

tensor(4.3903, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▌                                                      | 11324/40000 [13:40<36:04, 13.25it/s]

tensor(4.4135, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▌                                                      | 11334/40000 [13:41<35:58, 13.28it/s]

tensor(4.4582, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▌                                                      | 11344/40000 [13:41<37:45, 12.65it/s]

tensor(4.4457, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▌                                                      | 11354/40000 [13:42<37:26, 12.75it/s]

tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▌                                                      | 11364/40000 [13:43<37:57, 12.58it/s]

tensor(4.4440, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▌                                                      | 11374/40000 [13:44<38:06, 12.52it/s]

tensor(4.3877, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▋                                                      | 11384/40000 [13:44<36:29, 13.07it/s]

tensor(4.4719, device='cuda:0', grad_fn=<NllLossBackward0>)


 28%|█████████████████████▋                                                      | 11394/40000 [13:45<35:52, 13.29it/s]

tensor(4.3869, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▋                                                      | 11404/40000 [13:46<35:46, 13.32it/s]

tensor(4.3524, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▋                                                      | 11414/40000 [13:47<35:30, 13.42it/s]

tensor(4.3232, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▋                                                      | 11424/40000 [13:47<35:35, 13.38it/s]

tensor(4.3665, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▋                                                      | 11434/40000 [13:48<35:42, 13.33it/s]

tensor(4.2705, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▋                                                      | 11444/40000 [13:49<35:37, 13.36it/s]

tensor(4.3540, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▊                                                      | 11454/40000 [13:50<35:40, 13.33it/s]

tensor(4.2660, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▊                                                      | 11464/40000 [13:50<35:30, 13.39it/s]

tensor(4.3581, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▊                                                      | 11474/40000 [13:51<35:34, 13.36it/s]

tensor(4.3424, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▊                                                      | 11484/40000 [13:52<35:45, 13.29it/s]

tensor(4.3475, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▊                                                      | 11494/40000 [13:53<35:33, 13.36it/s]

tensor(4.3369, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▊                                                      | 11504/40000 [13:53<35:37, 13.33it/s]

tensor(4.3182, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▉                                                      | 11514/40000 [13:54<35:28, 13.39it/s]

tensor(4.4496, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▉                                                      | 11524/40000 [13:55<35:31, 13.36it/s]

tensor(4.3735, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▉                                                      | 11534/40000 [13:56<35:30, 13.36it/s]

tensor(4.3598, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▉                                                      | 11544/40000 [13:56<35:33, 13.34it/s]

tensor(4.4786, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▉                                                      | 11554/40000 [13:57<35:30, 13.35it/s]

tensor(4.2983, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▉                                                      | 11564/40000 [13:58<35:31, 13.34it/s]

tensor(4.3490, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|█████████████████████▉                                                      | 11574/40000 [13:59<35:30, 13.34it/s]

tensor(4.3249, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████                                                      | 11584/40000 [13:59<35:30, 13.33it/s]

tensor(4.3491, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████                                                      | 11594/40000 [14:00<35:22, 13.38it/s]

tensor(4.4030, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████                                                      | 11604/40000 [14:01<35:31, 13.32it/s]

tensor(4.2602, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████                                                      | 11614/40000 [14:02<35:26, 13.35it/s]

tensor(4.4030, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████                                                      | 11624/40000 [14:02<35:27, 13.34it/s]

tensor(4.4335, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████                                                      | 11634/40000 [14:03<35:24, 13.35it/s]

tensor(4.3707, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████                                                      | 11644/40000 [14:04<35:26, 13.33it/s]

tensor(4.4508, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▏                                                     | 11654/40000 [14:05<35:15, 13.40it/s]

tensor(4.3572, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▏                                                     | 11664/40000 [14:05<35:25, 13.33it/s]

tensor(4.4390, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▏                                                     | 11674/40000 [14:06<35:20, 13.36it/s]

tensor(4.3761, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▏                                                     | 11684/40000 [14:07<35:22, 13.34it/s]

tensor(4.4213, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▏                                                     | 11694/40000 [14:08<35:22, 13.34it/s]

tensor(4.3938, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▏                                                     | 11704/40000 [14:08<35:21, 13.34it/s]

tensor(4.4674, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▎                                                     | 11714/40000 [14:09<35:19, 13.34it/s]

tensor(4.3551, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▎                                                     | 11724/40000 [14:10<35:23, 13.32it/s]

tensor(4.3959, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▎                                                     | 11734/40000 [14:11<35:17, 13.35it/s]

tensor(4.3880, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▎                                                     | 11744/40000 [14:11<35:14, 13.36it/s]

tensor(4.4034, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▎                                                     | 11754/40000 [14:12<35:20, 13.32it/s]

tensor(4.3721, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▎                                                     | 11764/40000 [14:13<35:27, 13.27it/s]

tensor(4.3672, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▎                                                     | 11774/40000 [14:14<35:13, 13.35it/s]

tensor(4.2942, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▍                                                     | 11784/40000 [14:14<35:13, 13.35it/s]

tensor(4.4662, device='cuda:0', grad_fn=<NllLossBackward0>)


 29%|██████████████████████▍                                                     | 11794/40000 [14:15<35:13, 13.34it/s]

tensor(4.4146, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▍                                                     | 11804/40000 [14:16<35:16, 13.32it/s]

tensor(4.4084, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▍                                                     | 11814/40000 [14:17<35:08, 13.37it/s]

tensor(4.3370, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▍                                                     | 11824/40000 [14:17<35:13, 13.33it/s]

tensor(4.4009, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▍                                                     | 11834/40000 [14:18<35:14, 13.32it/s]

tensor(4.3654, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▌                                                     | 11844/40000 [14:19<35:10, 13.34it/s]

tensor(4.3508, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▌                                                     | 11854/40000 [14:20<35:04, 13.38it/s]

tensor(4.3732, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▌                                                     | 11864/40000 [14:20<35:05, 13.36it/s]

tensor(4.4387, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▌                                                     | 11874/40000 [14:21<35:08, 13.34it/s]

tensor(4.3556, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▌                                                     | 11884/40000 [14:22<34:58, 13.40it/s]

tensor(4.4709, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▌                                                     | 11894/40000 [14:23<35:07, 13.33it/s]

tensor(4.3957, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▌                                                     | 11904/40000 [14:23<35:18, 13.26it/s]

tensor(4.3095, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▋                                                     | 11914/40000 [14:24<39:46, 11.77it/s]

tensor(4.3526, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▋                                                     | 11924/40000 [14:25<39:45, 11.77it/s]

tensor(4.3303, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▋                                                     | 11934/40000 [14:26<39:04, 11.97it/s]

tensor(4.3474, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▋                                                     | 11944/40000 [14:27<41:15, 11.33it/s]

tensor(4.4450, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▋                                                     | 11954/40000 [14:28<36:31, 12.80it/s]

tensor(4.4528, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▋                                                     | 11964/40000 [14:28<35:26, 13.18it/s]

tensor(4.3811, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▊                                                     | 11974/40000 [14:29<35:25, 13.18it/s]

tensor(4.4217, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▊                                                     | 11984/40000 [14:30<35:23, 13.19it/s]

tensor(4.3715, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▊                                                     | 11994/40000 [14:31<40:13, 11.60it/s]

tensor(4.3547, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▊                                                     | 12004/40000 [14:32<36:07, 12.92it/s]

tensor(4.2640, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▊                                                     | 12014/40000 [14:32<39:43, 11.74it/s]

tensor(4.3704, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▊                                                     | 12024/40000 [14:33<36:07, 12.91it/s]

tensor(4.2596, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▊                                                     | 12034/40000 [14:34<35:16, 13.21it/s]

tensor(4.4945, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▉                                                     | 12044/40000 [14:35<36:28, 12.77it/s]

tensor(4.3491, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▉                                                     | 12054/40000 [14:35<35:13, 13.22it/s]

tensor(4.3592, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▉                                                     | 12064/40000 [14:36<34:51, 13.36it/s]

tensor(4.4270, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▉                                                     | 12074/40000 [14:37<34:49, 13.36it/s]

tensor(4.4044, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▉                                                     | 12084/40000 [14:38<34:51, 13.35it/s]

tensor(4.4098, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▉                                                     | 12094/40000 [14:38<34:44, 13.39it/s]

tensor(4.3931, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|██████████████████████▉                                                     | 12104/40000 [14:39<34:50, 13.34it/s]

tensor(4.3996, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████                                                     | 12114/40000 [14:40<34:45, 13.37it/s]

tensor(4.4561, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████                                                     | 12124/40000 [14:41<34:47, 13.35it/s]

tensor(4.3251, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████                                                     | 12134/40000 [14:41<34:46, 13.35it/s]

tensor(4.3889, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████                                                     | 12144/40000 [14:42<34:51, 13.32it/s]

tensor(4.3386, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████                                                     | 12154/40000 [14:43<34:43, 13.37it/s]

tensor(4.4127, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████                                                     | 12164/40000 [14:44<34:44, 13.35it/s]

tensor(4.3956, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████▏                                                    | 12174/40000 [14:44<34:44, 13.35it/s]

tensor(4.4272, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████▏                                                    | 12184/40000 [14:45<34:55, 13.27it/s]

tensor(4.4041, device='cuda:0', grad_fn=<NllLossBackward0>)


 30%|███████████████████████▏                                                    | 12194/40000 [14:46<34:43, 13.35it/s]

tensor(4.4294, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▏                                                    | 12204/40000 [14:47<34:50, 13.30it/s]

tensor(4.3780, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▏                                                    | 12214/40000 [14:47<34:39, 13.36it/s]

tensor(4.2311, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▏                                                    | 12224/40000 [14:48<34:46, 13.31it/s]

tensor(4.3379, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▏                                                    | 12234/40000 [14:49<34:37, 13.37it/s]

tensor(4.2495, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▎                                                    | 12244/40000 [14:50<34:39, 13.35it/s]

tensor(4.3604, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▎                                                    | 12254/40000 [14:50<34:34, 13.37it/s]

tensor(4.3921, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▎                                                    | 12264/40000 [14:51<34:41, 13.33it/s]

tensor(4.4875, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▎                                                    | 12274/40000 [14:52<34:35, 13.36it/s]

tensor(4.4243, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▎                                                    | 12284/40000 [14:53<34:30, 13.39it/s]

tensor(4.4518, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▎                                                    | 12294/40000 [14:53<34:26, 13.41it/s]

tensor(4.3426, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▍                                                    | 12304/40000 [14:54<34:37, 13.33it/s]

tensor(4.4318, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▍                                                    | 12314/40000 [14:55<34:32, 13.36it/s]

tensor(4.3311, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▍                                                    | 12324/40000 [14:56<34:28, 13.38it/s]

tensor(4.3955, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▍                                                    | 12334/40000 [14:56<34:34, 13.33it/s]

tensor(4.4660, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▍                                                    | 12344/40000 [14:57<34:32, 13.35it/s]

tensor(4.4079, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▍                                                    | 12354/40000 [14:58<34:28, 13.37it/s]

tensor(4.4283, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▍                                                    | 12364/40000 [14:59<34:20, 13.41it/s]

tensor(4.4926, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▌                                                    | 12374/40000 [14:59<34:21, 13.40it/s]

tensor(4.4820, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▌                                                    | 12384/40000 [15:00<34:33, 13.32it/s]

tensor(4.3626, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▌                                                    | 12394/40000 [15:01<34:28, 13.35it/s]

tensor(4.3791, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▌                                                    | 12404/40000 [15:02<34:27, 13.35it/s]

tensor(4.4485, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▌                                                    | 12414/40000 [15:02<34:25, 13.36it/s]

tensor(4.5257, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▌                                                    | 12424/40000 [15:03<34:23, 13.37it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▌                                                    | 12434/40000 [15:04<34:21, 13.37it/s]

tensor(4.4328, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▋                                                    | 12444/40000 [15:05<34:17, 13.39it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▋                                                    | 12454/40000 [15:05<34:23, 13.35it/s]

tensor(4.4841, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▋                                                    | 12464/40000 [15:06<34:17, 13.38it/s]

tensor(4.2830, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▋                                                    | 12474/40000 [15:07<34:11, 13.41it/s]

tensor(4.3471, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▋                                                    | 12484/40000 [15:08<34:18, 13.37it/s]

tensor(4.3525, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▋                                                    | 12494/40000 [15:08<34:20, 13.35it/s]

tensor(4.2822, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▊                                                    | 12504/40000 [15:09<34:21, 13.34it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▊                                                    | 12514/40000 [15:10<34:17, 13.36it/s]

tensor(4.4590, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▊                                                    | 12524/40000 [15:11<34:10, 13.40it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▊                                                    | 12534/40000 [15:11<34:13, 13.37it/s]

tensor(4.3848, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▊                                                    | 12544/40000 [15:12<34:17, 13.35it/s]

tensor(4.3042, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▊                                                    | 12554/40000 [15:13<34:09, 13.39it/s]

tensor(4.4696, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▊                                                    | 12564/40000 [15:14<34:11, 13.38it/s]

tensor(4.3650, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▉                                                    | 12574/40000 [15:14<34:13, 13.36it/s]

tensor(4.4680, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▉                                                    | 12584/40000 [15:15<34:16, 13.33it/s]

tensor(4.3710, device='cuda:0', grad_fn=<NllLossBackward0>)


 31%|███████████████████████▉                                                    | 12594/40000 [15:16<34:13, 13.35it/s]

tensor(4.3669, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|███████████████████████▉                                                    | 12604/40000 [15:17<34:09, 13.37it/s]

tensor(4.4188, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|███████████████████████▉                                                    | 12614/40000 [15:17<34:15, 13.32it/s]

tensor(4.4209, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|███████████████████████▉                                                    | 12624/40000 [15:18<34:17, 13.31it/s]

tensor(4.4348, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████                                                    | 12634/40000 [15:19<34:10, 13.35it/s]

tensor(4.3308, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████                                                    | 12644/40000 [15:20<34:01, 13.40it/s]

tensor(4.5315, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████                                                    | 12654/40000 [15:20<34:08, 13.35it/s]

tensor(4.2709, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████                                                    | 12664/40000 [15:21<34:08, 13.34it/s]

tensor(4.3879, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████                                                    | 12674/40000 [15:22<34:02, 13.38it/s]

tensor(4.3596, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████                                                    | 12684/40000 [15:23<34:04, 13.36it/s]

tensor(4.3531, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████                                                    | 12694/40000 [15:23<34:05, 13.35it/s]

tensor(4.4772, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▏                                                   | 12704/40000 [15:24<34:00, 13.37it/s]

tensor(4.4403, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▏                                                   | 12714/40000 [15:25<34:04, 13.35it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▏                                                   | 12724/40000 [15:26<33:59, 13.38it/s]

tensor(4.3896, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▏                                                   | 12734/40000 [15:26<34:01, 13.36it/s]

tensor(4.3658, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▏                                                   | 12744/40000 [15:27<34:06, 13.32it/s]

tensor(4.4252, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▏                                                   | 12754/40000 [15:28<33:52, 13.40it/s]

tensor(4.3548, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▎                                                   | 12764/40000 [15:29<33:52, 13.40it/s]

tensor(4.3936, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▎                                                   | 12774/40000 [15:29<34:05, 13.31it/s]

tensor(4.3611, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▎                                                   | 12784/40000 [15:30<34:09, 13.28it/s]

tensor(4.4137, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▎                                                   | 12794/40000 [15:31<33:59, 13.34it/s]

tensor(4.3527, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▎                                                   | 12804/40000 [15:32<34:09, 13.27it/s]

tensor(4.3516, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▎                                                   | 12814/40000 [15:32<35:05, 12.91it/s]

tensor(4.4545, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▎                                                   | 12824/40000 [15:33<34:20, 13.19it/s]

tensor(4.3093, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▍                                                   | 12834/40000 [15:34<34:02, 13.30it/s]

tensor(4.4047, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▍                                                   | 12844/40000 [15:35<34:28, 13.13it/s]

tensor(4.2545, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▍                                                   | 12854/40000 [15:35<34:00, 13.31it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▍                                                   | 12864/40000 [15:36<33:53, 13.34it/s]

tensor(4.4034, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▍                                                   | 12874/40000 [15:37<33:42, 13.41it/s]

tensor(4.3799, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▍                                                   | 12884/40000 [15:38<33:50, 13.35it/s]

tensor(4.3863, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▍                                                   | 12894/40000 [15:38<33:47, 13.37it/s]

tensor(4.3896, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▌                                                   | 12904/40000 [15:39<34:10, 13.21it/s]

tensor(4.3226, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▌                                                   | 12914/40000 [15:40<33:43, 13.39it/s]

tensor(4.3590, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▌                                                   | 12924/40000 [15:41<33:48, 13.34it/s]

tensor(4.4342, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▌                                                   | 12934/40000 [15:41<33:44, 13.37it/s]

tensor(4.3908, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▌                                                   | 12944/40000 [15:42<33:42, 13.38it/s]

tensor(4.4198, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▌                                                   | 12954/40000 [15:43<33:46, 13.35it/s]

tensor(4.2471, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▋                                                   | 12964/40000 [15:44<33:44, 13.36it/s]

tensor(4.4721, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▋                                                   | 12974/40000 [15:44<33:38, 13.39it/s]

tensor(4.4671, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▋                                                   | 12984/40000 [15:45<33:39, 13.38it/s]

tensor(4.3503, device='cuda:0', grad_fn=<NllLossBackward0>)


 32%|████████████████████████▋                                                   | 12994/40000 [15:46<33:40, 13.37it/s]

tensor(4.4018, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▋                                                   | 13004/40000 [15:47<33:39, 13.37it/s]

tensor(4.3857, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▋                                                   | 13014/40000 [15:47<33:38, 13.37it/s]

tensor(4.3693, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▋                                                   | 13024/40000 [15:48<33:37, 13.37it/s]

tensor(4.3076, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▊                                                   | 13034/40000 [15:49<33:36, 13.37it/s]

tensor(4.3239, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▊                                                   | 13044/40000 [15:50<33:36, 13.37it/s]

tensor(4.2872, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▊                                                   | 13054/40000 [15:50<33:37, 13.35it/s]

tensor(4.3995, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▊                                                   | 13064/40000 [15:51<33:36, 13.36it/s]

tensor(4.3136, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▊                                                   | 13074/40000 [15:52<33:31, 13.39it/s]

tensor(4.4338, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▊                                                   | 13084/40000 [15:53<33:33, 13.37it/s]

tensor(4.4300, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▉                                                   | 13094/40000 [15:53<33:34, 13.36it/s]

tensor(4.3075, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▉                                                   | 13104/40000 [15:54<33:29, 13.38it/s]

tensor(4.3826, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▉                                                   | 13114/40000 [15:55<33:33, 13.35it/s]

tensor(4.3566, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▉                                                   | 13124/40000 [15:56<33:31, 13.36it/s]

tensor(4.3845, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▉                                                   | 13134/40000 [15:56<33:30, 13.36it/s]

tensor(4.3036, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▉                                                   | 13144/40000 [15:57<33:27, 13.38it/s]

tensor(4.3261, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|████████████████████████▉                                                   | 13154/40000 [15:58<33:23, 13.40it/s]

tensor(4.3653, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████                                                   | 13164/40000 [15:59<33:27, 13.37it/s]

tensor(4.3966, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████                                                   | 13174/40000 [15:59<33:27, 13.36it/s]

tensor(4.4011, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████                                                   | 13184/40000 [16:00<33:22, 13.39it/s]

tensor(4.4548, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████                                                   | 13194/40000 [16:01<36:17, 12.31it/s]

tensor(4.4112, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████                                                   | 13204/40000 [16:02<39:59, 11.17it/s]

tensor(4.2718, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████                                                   | 13214/40000 [16:03<35:37, 12.53it/s]

tensor(4.3568, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▏                                                  | 13224/40000 [16:03<33:55, 13.15it/s]

tensor(4.3618, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▏                                                  | 13234/40000 [16:04<33:41, 13.24it/s]

tensor(4.4097, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▏                                                  | 13244/40000 [16:05<33:42, 13.23it/s]

tensor(4.3566, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▏                                                  | 13254/40000 [16:06<33:23, 13.35it/s]

tensor(4.3601, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▏                                                  | 13264/40000 [16:06<33:24, 13.33it/s]

tensor(4.3553, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▏                                                  | 13274/40000 [16:07<33:14, 13.40it/s]

tensor(4.2028, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▏                                                  | 13284/40000 [16:08<33:15, 13.39it/s]

tensor(4.4660, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▎                                                  | 13294/40000 [16:09<33:20, 13.35it/s]

tensor(4.4385, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▎                                                  | 13304/40000 [16:09<35:36, 12.50it/s]

tensor(4.4390, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▎                                                  | 13314/40000 [16:10<39:37, 11.23it/s]

tensor(4.4828, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▎                                                  | 13324/40000 [16:11<38:03, 11.68it/s]

tensor(4.5065, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▎                                                  | 13334/40000 [16:12<33:53, 13.12it/s]

tensor(4.3602, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▎                                                  | 13344/40000 [16:13<32:27, 13.69it/s]

tensor(4.4190, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▎                                                  | 13354/40000 [16:13<32:24, 13.70it/s]

tensor(4.4239, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▍                                                  | 13364/40000 [16:14<31:54, 13.91it/s]

tensor(4.3183, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▍                                                  | 13374/40000 [16:15<31:38, 14.02it/s]

tensor(4.4326, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▍                                                  | 13384/40000 [16:15<31:36, 14.04it/s]

tensor(4.4327, device='cuda:0', grad_fn=<NllLossBackward0>)


 33%|█████████████████████████▍                                                  | 13394/40000 [16:16<32:50, 13.50it/s]

tensor(4.4719, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▍                                                  | 13404/40000 [16:17<35:58, 12.32it/s]

tensor(4.3123, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▍                                                  | 13414/40000 [16:18<32:30, 13.63it/s]

tensor(4.4299, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▌                                                  | 13424/40000 [16:18<31:26, 14.09it/s]

tensor(4.3156, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▌                                                  | 13434/40000 [16:19<31:15, 14.17it/s]

tensor(4.4085, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▌                                                  | 13444/40000 [16:20<31:58, 13.84it/s]

tensor(4.4463, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▌                                                  | 13454/40000 [16:21<33:27, 13.22it/s]

tensor(4.3449, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▌                                                  | 13464/40000 [16:21<34:14, 12.92it/s]

tensor(4.3594, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▌                                                  | 13474/40000 [16:22<36:11, 12.21it/s]

tensor(4.4391, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▌                                                  | 13484/40000 [16:23<34:05, 12.96it/s]

tensor(4.3820, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▋                                                  | 13494/40000 [16:24<31:40, 13.95it/s]

tensor(4.3694, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▋                                                  | 13504/40000 [16:24<31:55, 13.84it/s]

tensor(4.4260, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▋                                                  | 13514/40000 [16:25<31:16, 14.12it/s]

tensor(4.2509, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▋                                                  | 13524/40000 [16:26<31:09, 14.16it/s]

tensor(4.3891, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▋                                                  | 13534/40000 [16:26<31:07, 14.17it/s]

tensor(4.4200, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▋                                                  | 13544/40000 [16:27<31:10, 14.15it/s]

tensor(4.4504, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▊                                                  | 13554/40000 [16:28<31:07, 14.16it/s]

tensor(4.3340, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▊                                                  | 13564/40000 [16:29<31:07, 14.15it/s]

tensor(4.3266, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▊                                                  | 13574/40000 [16:29<31:09, 14.14it/s]

tensor(4.4450, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▊                                                  | 13584/40000 [16:30<31:02, 14.18it/s]

tensor(4.4198, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▊                                                  | 13594/40000 [16:31<32:16, 13.64it/s]

tensor(4.2823, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▊                                                  | 13604/40000 [16:32<33:51, 12.99it/s]

tensor(4.3840, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▊                                                  | 13614/40000 [16:32<35:24, 12.42it/s]

tensor(4.3104, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▉                                                  | 13624/40000 [16:33<37:58, 11.57it/s]

tensor(4.3680, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▉                                                  | 13634/40000 [16:34<37:58, 11.57it/s]

tensor(4.5070, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▉                                                  | 13644/40000 [16:35<34:30, 12.73it/s]

tensor(4.3565, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▉                                                  | 13654/40000 [16:36<33:04, 13.28it/s]

tensor(4.3814, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▉                                                  | 13664/40000 [16:36<32:50, 13.37it/s]

tensor(4.3966, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▉                                                  | 13674/40000 [16:37<35:49, 12.25it/s]

tensor(4.3913, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|█████████████████████████▉                                                  | 13684/40000 [16:38<37:07, 11.82it/s]

tensor(4.2622, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████                                                  | 13694/40000 [16:39<33:37, 13.04it/s]

tensor(4.3331, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████                                                  | 13704/40000 [16:40<33:02, 13.26it/s]

tensor(4.3483, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████                                                  | 13714/40000 [16:40<37:12, 11.78it/s]

tensor(4.5126, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████                                                  | 13724/40000 [16:41<34:02, 12.86it/s]

tensor(4.3848, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████                                                  | 13734/40000 [16:42<32:32, 13.45it/s]

tensor(4.4369, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████                                                  | 13744/40000 [16:43<31:57, 13.69it/s]

tensor(4.3633, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████▏                                                 | 13754/40000 [16:43<31:09, 14.04it/s]

tensor(4.3286, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████▏                                                 | 13764/40000 [16:44<30:53, 14.16it/s]

tensor(4.4090, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████▏                                                 | 13774/40000 [16:45<33:52, 12.90it/s]

tensor(4.5018, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████▏                                                 | 13784/40000 [16:46<32:40, 13.38it/s]

tensor(4.3204, device='cuda:0', grad_fn=<NllLossBackward0>)


 34%|██████████████████████████▏                                                 | 13794/40000 [16:46<35:55, 12.16it/s]

tensor(4.4594, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▏                                                 | 13804/40000 [16:47<32:07, 13.59it/s]

tensor(4.3788, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▏                                                 | 13814/40000 [16:48<32:44, 13.33it/s]

tensor(4.3612, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▎                                                 | 13824/40000 [16:49<32:50, 13.28it/s]

tensor(4.4784, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▎                                                 | 13834/40000 [16:49<31:06, 14.02it/s]

tensor(4.2693, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▎                                                 | 13844/40000 [16:50<30:37, 14.24it/s]

tensor(4.3564, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▎                                                 | 13854/40000 [16:51<31:46, 13.71it/s]

tensor(4.4179, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▎                                                 | 13864/40000 [16:51<31:49, 13.69it/s]

tensor(4.3690, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▎                                                 | 13874/40000 [16:52<31:55, 13.64it/s]

tensor(4.3628, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▍                                                 | 13884/40000 [16:53<34:31, 12.61it/s]

tensor(4.3850, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▍                                                 | 13894/40000 [16:54<36:52, 11.80it/s]

tensor(4.4149, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▍                                                 | 13904/40000 [16:55<32:00, 13.59it/s]

tensor(4.5274, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▍                                                 | 13914/40000 [16:55<30:57, 14.05it/s]

tensor(4.1912, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▍                                                 | 13924/40000 [16:56<30:36, 14.20it/s]

tensor(4.3927, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▍                                                 | 13934/40000 [16:57<30:39, 14.17it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▍                                                 | 13944/40000 [16:57<31:16, 13.88it/s]

tensor(4.3982, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▌                                                 | 13954/40000 [16:58<30:53, 14.05it/s]

tensor(4.3407, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▌                                                 | 13964/40000 [16:59<31:16, 13.87it/s]

tensor(4.3395, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▌                                                 | 13974/40000 [17:00<30:40, 14.14it/s]

tensor(4.3726, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▌                                                 | 13984/40000 [17:00<30:38, 14.15it/s]

tensor(4.4898, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▌                                                 | 13994/40000 [17:01<30:53, 14.03it/s]

tensor(4.4786, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▌                                                 | 14004/40000 [17:02<33:02, 13.11it/s]

tensor(4.3667, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▋                                                 | 14014/40000 [17:03<35:34, 12.17it/s]

tensor(4.4387, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▋                                                 | 14024/40000 [17:03<36:10, 11.97it/s]

tensor(4.4148, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▋                                                 | 14034/40000 [17:04<34:25, 12.57it/s]

tensor(4.4629, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▋                                                 | 14044/40000 [17:05<34:02, 12.71it/s]

tensor(4.3211, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▋                                                 | 14054/40000 [17:06<32:36, 13.26it/s]

tensor(4.1919, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▋                                                 | 14064/40000 [17:06<33:27, 12.92it/s]

tensor(4.3517, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▋                                                 | 14074/40000 [17:07<32:29, 13.30it/s]

tensor(4.3722, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▊                                                 | 14084/40000 [17:08<33:04, 13.06it/s]

tensor(4.3686, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▊                                                 | 14094/40000 [17:09<32:10, 13.42it/s]

tensor(4.4024, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▊                                                 | 14104/40000 [17:09<32:06, 13.44it/s]

tensor(4.1778, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▊                                                 | 14114/40000 [17:10<31:59, 13.49it/s]

tensor(4.4466, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▊                                                 | 14124/40000 [17:11<31:58, 13.49it/s]

tensor(4.4417, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▊                                                 | 14134/40000 [17:12<31:56, 13.50it/s]

tensor(4.3493, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▊                                                 | 14144/40000 [17:12<31:58, 13.48it/s]

tensor(4.5336, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▉                                                 | 14154/40000 [17:13<31:59, 13.47it/s]

tensor(4.3464, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▉                                                 | 14164/40000 [17:14<32:16, 13.34it/s]

tensor(4.3915, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▉                                                 | 14174/40000 [17:15<32:09, 13.38it/s]

tensor(4.3437, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▉                                                 | 14184/40000 [17:15<31:54, 13.49it/s]

tensor(4.3620, device='cuda:0', grad_fn=<NllLossBackward0>)


 35%|██████████████████████████▉                                                 | 14194/40000 [17:16<31:48, 13.52it/s]

tensor(4.4805, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|██████████████████████████▉                                                 | 14204/40000 [17:17<31:50, 13.50it/s]

tensor(4.2709, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████                                                 | 14214/40000 [17:18<31:50, 13.50it/s]

tensor(4.3981, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████                                                 | 14224/40000 [17:18<31:55, 13.45it/s]

tensor(4.3365, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████                                                 | 14234/40000 [17:19<31:46, 13.51it/s]

tensor(4.4184, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████                                                 | 14244/40000 [17:20<31:47, 13.50it/s]

tensor(4.3940, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████                                                 | 14254/40000 [17:21<31:45, 13.51it/s]

tensor(4.3771, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████                                                 | 14264/40000 [17:21<31:50, 13.47it/s]

tensor(4.3876, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████                                                 | 14274/40000 [17:22<31:47, 13.48it/s]

tensor(4.4364, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▏                                                | 14284/40000 [17:23<31:45, 13.50it/s]

tensor(4.3794, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▏                                                | 14294/40000 [17:24<31:46, 13.49it/s]

tensor(4.4224, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▏                                                | 14304/40000 [17:24<31:50, 13.45it/s]

tensor(4.3190, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▏                                                | 14314/40000 [17:25<31:41, 13.51it/s]

tensor(4.3146, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▏                                                | 14324/40000 [17:26<31:44, 13.48it/s]

tensor(4.4361, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▏                                                | 14334/40000 [17:27<31:48, 13.45it/s]

tensor(4.3202, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▎                                                | 14344/40000 [17:27<31:44, 13.47it/s]

tensor(4.3252, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▎                                                | 14354/40000 [17:28<31:40, 13.49it/s]

tensor(4.5259, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▎                                                | 14364/40000 [17:29<31:42, 13.48it/s]

tensor(4.3865, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▎                                                | 14374/40000 [17:29<31:34, 13.52it/s]

tensor(4.3255, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▎                                                | 14384/40000 [17:30<31:39, 13.49it/s]

tensor(4.4066, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▎                                                | 14394/40000 [17:31<31:39, 13.48it/s]

tensor(4.3810, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▎                                                | 14404/40000 [17:32<31:35, 13.51it/s]

tensor(4.3516, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▍                                                | 14414/40000 [17:32<31:40, 13.47it/s]

tensor(4.3137, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▍                                                | 14424/40000 [17:33<31:46, 13.42it/s]

tensor(4.3388, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▍                                                | 14434/40000 [17:34<31:37, 13.47it/s]

tensor(4.3893, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▍                                                | 14444/40000 [17:35<31:35, 13.48it/s]

tensor(4.3794, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▍                                                | 14454/40000 [17:35<31:32, 13.50it/s]

tensor(4.3418, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▍                                                | 14464/40000 [17:36<31:27, 13.53it/s]

tensor(4.4371, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▌                                                | 14474/40000 [17:37<31:31, 13.50it/s]

tensor(4.3986, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▌                                                | 14484/40000 [17:38<31:33, 13.47it/s]

tensor(4.4068, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▌                                                | 14494/40000 [17:38<31:35, 13.46it/s]

tensor(4.4146, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▌                                                | 14504/40000 [17:39<31:33, 13.46it/s]

tensor(4.3878, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▌                                                | 14514/40000 [17:40<31:26, 13.51it/s]

tensor(4.3998, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▌                                                | 14524/40000 [17:41<31:22, 13.54it/s]

tensor(4.4635, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▌                                                | 14534/40000 [17:41<31:29, 13.48it/s]

tensor(4.3007, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▋                                                | 14544/40000 [17:42<31:24, 13.51it/s]

tensor(4.3184, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▋                                                | 14554/40000 [17:43<31:22, 13.52it/s]

tensor(4.4219, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▋                                                | 14564/40000 [17:44<31:26, 13.48it/s]

tensor(4.3466, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▋                                                | 14574/40000 [17:44<31:22, 13.51it/s]

tensor(4.3925, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▋                                                | 14584/40000 [17:45<31:24, 13.49it/s]

tensor(4.4260, device='cuda:0', grad_fn=<NllLossBackward0>)


 36%|███████████████████████████▋                                                | 14594/40000 [17:46<31:24, 13.48it/s]

tensor(4.4494, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▋                                                | 14604/40000 [17:47<31:22, 13.49it/s]

tensor(4.3943, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▊                                                | 14614/40000 [17:47<31:21, 13.49it/s]

tensor(4.3829, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▊                                                | 14624/40000 [17:48<31:26, 13.45it/s]

tensor(4.4008, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▊                                                | 14634/40000 [17:49<31:18, 13.50it/s]

tensor(4.4498, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▊                                                | 14644/40000 [17:49<31:25, 13.45it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▊                                                | 14654/40000 [17:50<31:18, 13.49it/s]

tensor(4.5148, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▊                                                | 14664/40000 [17:51<31:16, 13.50it/s]

tensor(4.3892, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▉                                                | 14674/40000 [17:52<31:19, 13.47it/s]

tensor(4.3484, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▉                                                | 14684/40000 [17:52<31:28, 13.40it/s]

tensor(4.4692, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▉                                                | 14694/40000 [17:53<31:23, 13.43it/s]

tensor(4.3951, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▉                                                | 14704/40000 [17:54<31:15, 13.49it/s]

tensor(4.3022, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▉                                                | 14714/40000 [17:55<31:12, 13.50it/s]

tensor(4.2734, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▉                                                | 14724/40000 [17:55<31:15, 13.48it/s]

tensor(4.4243, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|███████████████████████████▉                                                | 14734/40000 [17:56<31:12, 13.50it/s]

tensor(4.4152, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████                                                | 14744/40000 [17:57<31:14, 13.47it/s]

tensor(4.3687, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████                                                | 14754/40000 [17:58<31:14, 13.47it/s]

tensor(4.3696, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████                                                | 14764/40000 [17:58<31:18, 13.43it/s]

tensor(4.2975, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████                                                | 14774/40000 [17:59<31:12, 13.48it/s]

tensor(4.3290, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████                                                | 14784/40000 [18:00<31:08, 13.49it/s]

tensor(4.3970, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████                                                | 14794/40000 [18:01<31:09, 13.48it/s]

tensor(4.2926, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▏                                               | 14804/40000 [18:01<31:05, 13.51it/s]

tensor(4.3333, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▏                                               | 14814/40000 [18:02<31:10, 13.46it/s]

tensor(4.4000, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▏                                               | 14824/40000 [18:03<31:09, 13.46it/s]

tensor(4.4571, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▏                                               | 14834/40000 [18:04<31:09, 13.46it/s]

tensor(4.3948, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▏                                               | 14844/40000 [18:04<31:00, 13.52it/s]

tensor(4.3967, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▏                                               | 14854/40000 [18:05<31:05, 13.48it/s]

tensor(4.4224, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▏                                               | 14864/40000 [18:06<30:54, 13.56it/s]

tensor(4.3998, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▎                                               | 14874/40000 [18:07<31:04, 13.47it/s]

tensor(4.3707, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▎                                               | 14884/40000 [18:07<30:57, 13.52it/s]

tensor(4.4998, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▎                                               | 14894/40000 [18:08<31:00, 13.49it/s]

tensor(4.4214, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▎                                               | 14904/40000 [18:09<30:56, 13.52it/s]

tensor(4.3657, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▎                                               | 14914/40000 [18:09<31:03, 13.46it/s]

tensor(4.3412, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▎                                               | 14924/40000 [18:10<31:00, 13.48it/s]

tensor(4.4502, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▎                                               | 14934/40000 [18:11<30:57, 13.50it/s]

tensor(4.4566, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▍                                               | 14944/40000 [18:12<31:03, 13.45it/s]

tensor(4.3607, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▍                                               | 14954/40000 [18:12<31:05, 13.43it/s]

tensor(4.3575, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▍                                               | 14964/40000 [18:13<30:57, 13.48it/s]

tensor(4.4595, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▍                                               | 14974/40000 [18:14<30:50, 13.52it/s]

tensor(4.3470, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▍                                               | 14984/40000 [18:15<31:00, 13.45it/s]

tensor(4.4672, device='cuda:0', grad_fn=<NllLossBackward0>)


 37%|████████████████████████████▍                                               | 14994/40000 [18:15<30:51, 13.51it/s]

tensor(4.5231, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▌                                               | 15004/40000 [18:16<30:51, 13.50it/s]

tensor(4.3853, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▌                                               | 15014/40000 [18:17<30:52, 13.49it/s]

tensor(4.3406, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▌                                               | 15024/40000 [18:18<30:54, 13.46it/s]

tensor(4.3645, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▌                                               | 15034/40000 [18:18<30:54, 13.46it/s]

tensor(4.4381, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▌                                               | 15044/40000 [18:19<30:56, 13.44it/s]

tensor(4.3836, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▌                                               | 15054/40000 [18:20<30:51, 13.47it/s]

tensor(4.4463, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▌                                               | 15064/40000 [18:21<30:50, 13.47it/s]

tensor(4.4824, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▋                                               | 15074/40000 [18:21<30:48, 13.49it/s]

tensor(4.3500, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▋                                               | 15084/40000 [18:22<30:46, 13.50it/s]

tensor(4.4435, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▋                                               | 15094/40000 [18:23<30:47, 13.48it/s]

tensor(4.3561, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▋                                               | 15104/40000 [18:24<30:50, 13.45it/s]

tensor(4.3972, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▋                                               | 15114/40000 [18:24<32:26, 12.79it/s]

tensor(4.4166, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▋                                               | 15124/40000 [18:25<32:05, 12.92it/s]

tensor(4.3596, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▊                                               | 15134/40000 [18:26<33:13, 12.47it/s]

tensor(4.3919, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▊                                               | 15144/40000 [18:27<33:56, 12.20it/s]

tensor(4.3980, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▊                                               | 15154/40000 [18:27<31:45, 13.04it/s]

tensor(4.4065, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▊                                               | 15164/40000 [18:28<30:55, 13.38it/s]

tensor(4.3766, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▊                                               | 15174/40000 [18:29<33:20, 12.41it/s]

tensor(4.4875, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▊                                               | 15184/40000 [18:30<33:30, 12.35it/s]

tensor(4.4378, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▊                                               | 15194/40000 [18:31<31:23, 13.17it/s]

tensor(4.4162, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▉                                               | 15204/40000 [18:31<30:55, 13.36it/s]

tensor(4.3407, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▉                                               | 15214/40000 [18:32<31:39, 13.05it/s]

tensor(4.3832, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▉                                               | 15224/40000 [18:33<34:53, 11.83it/s]

tensor(4.3751, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▉                                               | 15234/40000 [18:34<33:03, 12.49it/s]

tensor(4.3550, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▉                                               | 15244/40000 [18:35<31:13, 13.21it/s]

tensor(4.3693, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|████████████████████████████▉                                               | 15254/40000 [18:35<30:46, 13.40it/s]

tensor(4.3517, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████                                               | 15264/40000 [18:36<31:29, 13.09it/s]

tensor(4.3717, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████                                               | 15274/40000 [18:37<30:37, 13.46it/s]

tensor(4.3799, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████                                               | 15284/40000 [18:38<30:33, 13.48it/s]

tensor(4.3843, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████                                               | 15294/40000 [18:38<30:27, 13.52it/s]

tensor(4.3669, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████                                               | 15304/40000 [18:39<30:32, 13.48it/s]

tensor(4.3723, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████                                               | 15314/40000 [18:40<30:31, 13.48it/s]

tensor(4.2918, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████                                               | 15324/40000 [18:40<30:38, 13.42it/s]

tensor(4.4119, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████▏                                              | 15334/40000 [18:41<33:39, 12.21it/s]

tensor(4.3799, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████▏                                              | 15344/40000 [18:42<35:42, 11.51it/s]

tensor(4.3291, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████▏                                              | 15354/40000 [18:43<33:54, 12.11it/s]

tensor(4.3732, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████▏                                              | 15364/40000 [18:44<33:24, 12.29it/s]

tensor(4.3654, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████▏                                              | 15374/40000 [18:45<32:25, 12.66it/s]

tensor(4.4631, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████▏                                              | 15384/40000 [18:45<35:53, 11.43it/s]

tensor(4.3671, device='cuda:0', grad_fn=<NllLossBackward0>)


 38%|█████████████████████████████▏                                              | 15394/40000 [18:46<36:09, 11.34it/s]

tensor(4.3661, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▎                                              | 15404/40000 [18:47<31:26, 13.04it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▎                                              | 15414/40000 [18:48<31:03, 13.20it/s]

tensor(4.3673, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▎                                              | 15424/40000 [18:49<30:57, 13.23it/s]

tensor(4.3580, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▎                                              | 15434/40000 [18:49<30:39, 13.36it/s]

tensor(4.4261, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▎                                              | 15444/40000 [18:50<30:21, 13.48it/s]

tensor(4.3573, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▎                                              | 15454/40000 [18:51<30:16, 13.51it/s]

tensor(4.3752, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▍                                              | 15464/40000 [18:52<30:23, 13.46it/s]

tensor(4.3555, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▍                                              | 15474/40000 [18:52<30:12, 13.53it/s]

tensor(4.4302, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▍                                              | 15484/40000 [18:53<30:13, 13.52it/s]

tensor(4.3536, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▍                                              | 15494/40000 [18:54<30:14, 13.51it/s]

tensor(4.5203, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▍                                              | 15504/40000 [18:55<30:19, 13.46it/s]

tensor(4.3396, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▍                                              | 15514/40000 [18:55<30:12, 13.51it/s]

tensor(4.3646, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▍                                              | 15524/40000 [18:56<30:19, 13.45it/s]

tensor(4.3466, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▌                                              | 15534/40000 [18:57<30:23, 13.42it/s]

tensor(4.4182, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▌                                              | 15544/40000 [18:58<30:23, 13.41it/s]

tensor(4.3974, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▌                                              | 15554/40000 [18:58<30:09, 13.51it/s]

tensor(4.4240, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▌                                              | 15564/40000 [18:59<30:18, 13.44it/s]

tensor(4.3179, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▌                                              | 15574/40000 [19:00<30:17, 13.44it/s]

tensor(4.3056, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▌                                              | 15584/40000 [19:00<30:09, 13.49it/s]

tensor(4.4105, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▋                                              | 15594/40000 [19:01<30:05, 13.52it/s]

tensor(4.4195, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▋                                              | 15604/40000 [19:02<30:07, 13.50it/s]

tensor(4.3943, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▋                                              | 15614/40000 [19:03<33:51, 12.00it/s]

tensor(4.4945, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▋                                              | 15624/40000 [19:04<32:11, 12.62it/s]

tensor(4.4583, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▋                                              | 15634/40000 [19:04<34:10, 11.88it/s]

tensor(4.4179, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▋                                              | 15644/40000 [19:05<30:56, 13.12it/s]

tensor(4.3140, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▋                                              | 15654/40000 [19:06<35:17, 11.50it/s]

tensor(4.4519, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▊                                              | 15664/40000 [19:07<31:52, 12.72it/s]

tensor(4.3543, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▊                                              | 15674/40000 [19:08<29:42, 13.65it/s]

tensor(4.3721, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▊                                              | 15684/40000 [19:08<30:35, 13.25it/s]

tensor(4.4087, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▊                                              | 15694/40000 [19:09<29:43, 13.63it/s]

tensor(4.4710, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▊                                              | 15704/40000 [19:10<28:56, 13.99it/s]

tensor(4.3728, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▊                                              | 15714/40000 [19:11<28:53, 14.01it/s]

tensor(4.4171, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▉                                              | 15724/40000 [19:11<28:50, 14.03it/s]

tensor(4.3521, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▉                                              | 15734/40000 [19:12<28:50, 14.03it/s]

tensor(4.4218, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▉                                              | 15744/40000 [19:13<28:44, 14.06it/s]

tensor(4.4279, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▉                                              | 15754/40000 [19:13<29:09, 13.86it/s]

tensor(4.2610, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▉                                              | 15764/40000 [19:14<28:39, 14.09it/s]

tensor(4.3486, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▉                                              | 15774/40000 [19:15<28:39, 14.09it/s]

tensor(4.2620, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|█████████████████████████████▉                                              | 15784/40000 [19:16<28:45, 14.04it/s]

tensor(4.3473, device='cuda:0', grad_fn=<NllLossBackward0>)


 39%|██████████████████████████████                                              | 15794/40000 [19:16<28:55, 13.95it/s]

tensor(4.4722, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████                                              | 15804/40000 [19:17<28:49, 13.99it/s]

tensor(4.3849, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████                                              | 15814/40000 [19:18<30:12, 13.35it/s]

tensor(4.3091, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████                                              | 15824/40000 [19:18<30:44, 13.11it/s]

tensor(4.3598, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████                                              | 15834/40000 [19:19<29:00, 13.89it/s]

tensor(4.4044, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████                                              | 15844/40000 [19:20<28:45, 14.00it/s]

tensor(4.3869, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████                                              | 15854/40000 [19:21<28:55, 13.91it/s]

tensor(4.4415, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▏                                             | 15864/40000 [19:21<28:23, 14.17it/s]

tensor(4.4586, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▏                                             | 15874/40000 [19:22<28:24, 14.15it/s]

tensor(4.3520, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▏                                             | 15884/40000 [19:23<28:23, 14.16it/s]

tensor(4.4513, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▏                                             | 15894/40000 [19:23<28:19, 14.19it/s]

tensor(4.3619, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▏                                             | 15904/40000 [19:24<28:19, 14.18it/s]

tensor(4.4490, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▏                                             | 15914/40000 [19:25<28:19, 14.17it/s]

tensor(4.3962, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▎                                             | 15924/40000 [19:26<30:07, 13.32it/s]

tensor(4.3165, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▎                                             | 15934/40000 [19:26<29:14, 13.71it/s]

tensor(4.3521, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▎                                             | 15944/40000 [19:27<28:37, 14.00it/s]

tensor(4.3448, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▎                                             | 15954/40000 [19:28<28:19, 14.15it/s]

tensor(4.3754, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▎                                             | 15964/40000 [19:28<28:54, 13.85it/s]

tensor(4.3788, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▎                                             | 15974/40000 [19:29<28:30, 14.04it/s]

tensor(4.4337, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▎                                             | 15984/40000 [19:30<28:37, 13.99it/s]

tensor(4.3798, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▍                                             | 15994/40000 [19:31<28:49, 13.88it/s]

tensor(4.3687, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▍                                             | 16004/40000 [19:31<28:38, 13.96it/s]

tensor(4.4969, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▍                                             | 16014/40000 [19:32<28:20, 14.11it/s]

tensor(4.4192, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▍                                             | 16024/40000 [19:33<28:13, 14.16it/s]

tensor(4.3595, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▍                                             | 16034/40000 [19:33<28:26, 14.05it/s]

tensor(4.3923, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▍                                             | 16044/40000 [19:34<28:08, 14.18it/s]

tensor(4.3909, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▌                                             | 16054/40000 [19:35<28:08, 14.18it/s]

tensor(4.3992, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▌                                             | 16064/40000 [19:36<28:17, 14.10it/s]

tensor(4.3945, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▌                                             | 16074/40000 [19:36<28:07, 14.18it/s]

tensor(4.4848, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▌                                             | 16084/40000 [19:37<28:11, 14.14it/s]

tensor(4.4511, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▌                                             | 16094/40000 [19:38<28:08, 14.16it/s]

tensor(4.4446, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▌                                             | 16104/40000 [19:38<28:39, 13.90it/s]

tensor(4.4453, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▌                                             | 16114/40000 [19:39<31:17, 12.72it/s]

tensor(4.3880, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▋                                             | 16124/40000 [19:40<30:07, 13.21it/s]

tensor(4.3903, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▋                                             | 16134/40000 [19:41<29:46, 13.36it/s]

tensor(4.4571, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▋                                             | 16144/40000 [19:41<29:32, 13.46it/s]

tensor(4.3867, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▋                                             | 16154/40000 [19:42<29:39, 13.40it/s]

tensor(4.3660, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▋                                             | 16164/40000 [19:43<29:43, 13.36it/s]

tensor(4.3588, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▋                                             | 16174/40000 [19:44<29:28, 13.47it/s]

tensor(4.4341, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▋                                             | 16184/40000 [19:44<29:20, 13.53it/s]

tensor(4.3254, device='cuda:0', grad_fn=<NllLossBackward0>)


 40%|██████████████████████████████▊                                             | 16194/40000 [19:45<29:21, 13.51it/s]

tensor(4.3911, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▊                                             | 16204/40000 [19:46<29:22, 13.50it/s]

tensor(4.4394, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▊                                             | 16214/40000 [19:47<29:28, 13.45it/s]

tensor(4.3076, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▊                                             | 16224/40000 [19:47<29:22, 13.49it/s]

tensor(4.3575, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▊                                             | 16234/40000 [19:48<29:20, 13.50it/s]

tensor(4.3025, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▊                                             | 16244/40000 [19:49<29:23, 13.47it/s]

tensor(4.3982, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▉                                             | 16254/40000 [19:50<29:23, 13.46it/s]

tensor(4.4823, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▉                                             | 16264/40000 [19:50<29:17, 13.51it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▉                                             | 16274/40000 [19:51<29:21, 13.47it/s]

tensor(4.3762, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▉                                             | 16284/40000 [19:52<29:20, 13.47it/s]

tensor(4.4302, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▉                                             | 16294/40000 [19:53<29:18, 13.48it/s]

tensor(4.4004, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▉                                             | 16304/40000 [19:53<29:19, 13.47it/s]

tensor(4.3247, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|██████████████████████████████▉                                             | 16314/40000 [19:54<29:15, 13.49it/s]

tensor(4.3550, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████                                             | 16324/40000 [19:55<29:19, 13.46it/s]

tensor(4.3812, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████                                             | 16334/40000 [19:56<29:10, 13.52it/s]

tensor(4.4318, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████                                             | 16344/40000 [19:56<29:10, 13.51it/s]

tensor(4.3096, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████                                             | 16354/40000 [19:57<29:13, 13.49it/s]

tensor(4.4206, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████                                             | 16364/40000 [19:58<29:10, 13.50it/s]

tensor(4.3557, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████                                             | 16374/40000 [19:58<29:03, 13.55it/s]

tensor(4.3860, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▏                                            | 16384/40000 [19:59<29:13, 13.47it/s]

tensor(4.4314, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▏                                            | 16394/40000 [20:00<29:11, 13.48it/s]

tensor(4.3876, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▏                                            | 16404/40000 [20:01<29:07, 13.51it/s]

tensor(4.3431, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▏                                            | 16414/40000 [20:01<29:05, 13.51it/s]

tensor(4.4250, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▏                                            | 16424/40000 [20:02<29:03, 13.52it/s]

tensor(4.3469, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▏                                            | 16434/40000 [20:03<28:58, 13.55it/s]

tensor(4.3432, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▏                                            | 16444/40000 [20:04<29:12, 13.44it/s]

tensor(4.4336, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▎                                            | 16454/40000 [20:04<29:02, 13.51it/s]

tensor(4.4351, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▎                                            | 16464/40000 [20:05<29:02, 13.51it/s]

tensor(4.3903, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▎                                            | 16474/40000 [20:06<29:02, 13.50it/s]

tensor(4.4309, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▎                                            | 16484/40000 [20:07<29:07, 13.46it/s]

tensor(4.4005, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▎                                            | 16494/40000 [20:07<28:59, 13.51it/s]

tensor(4.3845, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▎                                            | 16504/40000 [20:08<29:04, 13.47it/s]

tensor(4.4192, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▍                                            | 16514/40000 [20:09<28:58, 13.51it/s]

tensor(4.3099, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▍                                            | 16524/40000 [20:10<29:07, 13.43it/s]

tensor(4.3742, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▍                                            | 16534/40000 [20:10<29:05, 13.44it/s]

tensor(4.3288, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▍                                            | 16544/40000 [20:11<29:00, 13.48it/s]

tensor(4.3015, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▍                                            | 16554/40000 [20:12<29:01, 13.46it/s]

tensor(4.4960, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▍                                            | 16564/40000 [20:13<29:02, 13.45it/s]

tensor(4.3312, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▍                                            | 16574/40000 [20:13<28:55, 13.50it/s]

tensor(4.3695, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▌                                            | 16584/40000 [20:14<28:54, 13.50it/s]

tensor(4.4404, device='cuda:0', grad_fn=<NllLossBackward0>)


 41%|███████████████████████████████▌                                            | 16594/40000 [20:15<28:58, 13.47it/s]

tensor(4.3662, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▌                                            | 16604/40000 [20:15<28:51, 13.51it/s]

tensor(4.5211, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▌                                            | 16614/40000 [20:16<28:56, 13.47it/s]

tensor(4.5223, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▌                                            | 16624/40000 [20:17<28:49, 13.52it/s]

tensor(4.5071, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▌                                            | 16634/40000 [20:18<28:53, 13.48it/s]

tensor(4.4691, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▌                                            | 16644/40000 [20:18<28:48, 13.51it/s]

tensor(4.4628, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▋                                            | 16654/40000 [20:19<28:52, 13.47it/s]

tensor(4.3525, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▋                                            | 16664/40000 [20:20<28:49, 13.49it/s]

tensor(4.3822, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▋                                            | 16674/40000 [20:21<28:49, 13.48it/s]

tensor(4.3912, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▋                                            | 16684/40000 [20:21<28:44, 13.52it/s]

tensor(4.3656, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▋                                            | 16694/40000 [20:22<28:44, 13.51it/s]

tensor(4.4297, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▋                                            | 16704/40000 [20:23<28:42, 13.52it/s]

tensor(4.3296, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▊                                            | 16714/40000 [20:24<28:48, 13.47it/s]

tensor(4.3289, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▊                                            | 16724/40000 [20:24<28:38, 13.54it/s]

tensor(4.3873, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▊                                            | 16734/40000 [20:25<28:43, 13.50it/s]

tensor(4.3507, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▊                                            | 16744/40000 [20:26<28:42, 13.50it/s]

tensor(4.3078, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▊                                            | 16754/40000 [20:27<28:48, 13.45it/s]

tensor(4.2999, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▊                                            | 16764/40000 [20:27<28:37, 13.53it/s]

tensor(4.4265, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▊                                            | 16774/40000 [20:28<28:40, 13.50it/s]

tensor(4.3716, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▉                                            | 16784/40000 [20:29<28:43, 13.47it/s]

tensor(4.4285, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▉                                            | 16794/40000 [20:30<28:45, 13.45it/s]

tensor(4.2970, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▉                                            | 16804/40000 [20:30<28:39, 13.49it/s]

tensor(4.4274, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▉                                            | 16814/40000 [20:31<28:38, 13.49it/s]

tensor(4.3897, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▉                                            | 16824/40000 [20:32<28:36, 13.50it/s]

tensor(4.3758, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|███████████████████████████████▉                                            | 16834/40000 [20:33<28:34, 13.51it/s]

tensor(4.3259, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████                                            | 16844/40000 [20:33<28:36, 13.49it/s]

tensor(4.3828, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████                                            | 16854/40000 [20:34<28:36, 13.48it/s]

tensor(4.3150, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████                                            | 16864/40000 [20:35<28:38, 13.46it/s]

tensor(4.3900, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████                                            | 16874/40000 [20:35<28:33, 13.50it/s]

tensor(4.3805, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████                                            | 16884/40000 [20:36<28:33, 13.49it/s]

tensor(4.3228, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████                                            | 16894/40000 [20:37<28:31, 13.50it/s]

tensor(4.3912, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████                                            | 16904/40000 [20:38<28:33, 13.48it/s]

tensor(4.3442, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▏                                           | 16914/40000 [20:38<31:25, 12.25it/s]

tensor(4.3382, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▏                                           | 16924/40000 [20:39<27:58, 13.75it/s]

tensor(4.5068, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▏                                           | 16934/40000 [20:40<27:14, 14.11it/s]

tensor(4.3913, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▏                                           | 16944/40000 [20:41<27:16, 14.09it/s]

tensor(4.3475, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▏                                           | 16954/40000 [20:41<27:08, 14.15it/s]

tensor(4.4116, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▏                                           | 16964/40000 [20:42<27:05, 14.17it/s]

tensor(4.4497, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▎                                           | 16974/40000 [20:43<27:05, 14.16it/s]

tensor(4.3791, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▎                                           | 16984/40000 [20:43<27:01, 14.20it/s]

tensor(4.3198, device='cuda:0', grad_fn=<NllLossBackward0>)


 42%|████████████████████████████████▎                                           | 16994/40000 [20:44<26:59, 14.20it/s]

tensor(4.3676, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▎                                           | 17004/40000 [20:45<27:04, 14.16it/s]

tensor(4.4778, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▎                                           | 17014/40000 [20:46<27:04, 14.15it/s]

tensor(4.3389, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▎                                           | 17024/40000 [20:46<27:01, 14.17it/s]

tensor(4.3843, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▎                                           | 17034/40000 [20:47<26:59, 14.18it/s]

tensor(4.4313, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▍                                           | 17044/40000 [20:48<26:59, 14.18it/s]

tensor(4.4669, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▍                                           | 17054/40000 [20:48<26:57, 14.18it/s]

tensor(4.3953, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▍                                           | 17064/40000 [20:49<26:58, 14.17it/s]

tensor(4.4124, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▍                                           | 17074/40000 [20:50<26:59, 14.15it/s]

tensor(4.4546, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▍                                           | 17084/40000 [20:50<26:55, 14.19it/s]

tensor(4.3499, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▍                                           | 17094/40000 [20:51<26:55, 14.18it/s]

tensor(4.3176, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▍                                           | 17104/40000 [20:52<26:54, 14.18it/s]

tensor(4.4986, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▌                                           | 17114/40000 [20:53<27:04, 14.08it/s]

tensor(4.3803, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▌                                           | 17124/40000 [20:53<26:54, 14.17it/s]

tensor(4.3857, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▌                                           | 17134/40000 [20:54<26:52, 14.18it/s]

tensor(4.3913, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▌                                           | 17144/40000 [20:55<26:56, 14.14it/s]

tensor(4.3931, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▌                                           | 17154/40000 [20:55<26:52, 14.17it/s]

tensor(4.4258, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▌                                           | 17164/40000 [20:56<26:45, 14.22it/s]

tensor(4.3756, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▋                                           | 17174/40000 [20:57<26:47, 14.20it/s]

tensor(4.3171, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▋                                           | 17184/40000 [20:58<26:42, 14.24it/s]

tensor(4.3772, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▋                                           | 17194/40000 [20:58<26:50, 14.16it/s]

tensor(4.3992, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▋                                           | 17204/40000 [20:59<26:47, 14.18it/s]

tensor(4.4122, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▋                                           | 17214/40000 [21:00<26:55, 14.10it/s]

tensor(4.3641, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▋                                           | 17224/40000 [21:00<26:46, 14.18it/s]

tensor(4.3855, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▋                                           | 17234/40000 [21:01<26:44, 14.19it/s]

tensor(4.5143, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▊                                           | 17244/40000 [21:02<26:46, 14.17it/s]

tensor(4.4022, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▊                                           | 17254/40000 [21:02<26:44, 14.18it/s]

tensor(4.4475, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▊                                           | 17264/40000 [21:03<26:56, 14.06it/s]

tensor(4.4351, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▊                                           | 17274/40000 [21:04<26:51, 14.10it/s]

tensor(4.3851, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▊                                           | 17284/40000 [21:05<26:45, 14.15it/s]

tensor(4.3722, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▊                                           | 17294/40000 [21:05<26:41, 14.18it/s]

tensor(4.3712, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▉                                           | 17304/40000 [21:06<26:39, 14.19it/s]

tensor(4.3504, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▉                                           | 17314/40000 [21:07<26:46, 14.12it/s]

tensor(4.3907, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▉                                           | 17324/40000 [21:07<26:36, 14.20it/s]

tensor(4.4589, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▉                                           | 17334/40000 [21:08<26:39, 14.17it/s]

tensor(4.3736, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▉                                           | 17344/40000 [21:09<26:42, 14.14it/s]

tensor(4.3243, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▉                                           | 17354/40000 [21:10<26:35, 14.20it/s]

tensor(4.3371, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|████████████████████████████████▉                                           | 17364/40000 [21:10<26:39, 14.15it/s]

tensor(4.3727, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|█████████████████████████████████                                           | 17374/40000 [21:11<26:35, 14.18it/s]

tensor(4.2941, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|█████████████████████████████████                                           | 17384/40000 [21:12<26:35, 14.18it/s]

tensor(4.3732, device='cuda:0', grad_fn=<NllLossBackward0>)


 43%|█████████████████████████████████                                           | 17394/40000 [21:12<26:34, 14.18it/s]

tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████                                           | 17404/40000 [21:13<26:42, 14.10it/s]

tensor(4.4996, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████                                           | 17414/40000 [21:14<26:43, 14.08it/s]

tensor(4.3538, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████                                           | 17424/40000 [21:14<26:32, 14.18it/s]

tensor(4.3007, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████                                           | 17434/40000 [21:15<26:33, 14.16it/s]

tensor(4.4234, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▏                                          | 17444/40000 [21:16<26:35, 14.14it/s]

tensor(4.4304, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▏                                          | 17454/40000 [21:17<26:32, 14.16it/s]

tensor(4.3462, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▏                                          | 17464/40000 [21:17<26:32, 14.15it/s]

tensor(4.4220, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▏                                          | 17474/40000 [21:18<26:31, 14.16it/s]

tensor(4.3806, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▏                                          | 17484/40000 [21:19<26:31, 14.15it/s]

tensor(4.4169, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▏                                          | 17494/40000 [21:19<26:27, 14.18it/s]

tensor(4.4268, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▎                                          | 17504/40000 [21:20<26:26, 14.18it/s]

tensor(4.4171, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▎                                          | 17514/40000 [21:21<26:28, 14.15it/s]

tensor(4.3832, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▎                                          | 17524/40000 [21:21<26:23, 14.19it/s]

tensor(4.3712, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▎                                          | 17534/40000 [21:22<26:24, 14.18it/s]

tensor(4.4928, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▎                                          | 17544/40000 [21:23<26:25, 14.17it/s]

tensor(4.3912, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▎                                          | 17554/40000 [21:24<26:20, 14.20it/s]

tensor(4.3465, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▎                                          | 17564/40000 [21:24<26:20, 14.20it/s]

tensor(4.3862, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▍                                          | 17574/40000 [21:25<26:22, 14.18it/s]

tensor(4.4250, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▍                                          | 17584/40000 [21:26<26:28, 14.12it/s]

tensor(4.3428, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▍                                          | 17594/40000 [21:26<26:20, 14.17it/s]

tensor(4.4130, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▍                                          | 17604/40000 [21:27<26:17, 14.20it/s]

tensor(4.3825, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▍                                          | 17614/40000 [21:28<26:22, 14.15it/s]

tensor(4.4005, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▍                                          | 17624/40000 [21:29<26:11, 14.24it/s]

tensor(4.5130, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▌                                          | 17634/40000 [21:29<26:20, 14.15it/s]

tensor(4.3528, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▌                                          | 17644/40000 [21:30<26:18, 14.16it/s]

tensor(4.3683, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▌                                          | 17654/40000 [21:31<26:20, 14.14it/s]

tensor(4.3632, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▌                                          | 17664/40000 [21:31<26:16, 14.16it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▌                                          | 17674/40000 [21:32<26:17, 14.15it/s]

tensor(4.3784, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▌                                          | 17684/40000 [21:33<26:16, 14.16it/s]

tensor(4.4382, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▌                                          | 17694/40000 [21:33<26:13, 14.18it/s]

tensor(4.3379, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▋                                          | 17704/40000 [21:34<26:16, 14.14it/s]

tensor(4.3723, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▋                                          | 17714/40000 [21:35<26:22, 14.08it/s]

tensor(4.3377, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▋                                          | 17724/40000 [21:36<26:17, 14.13it/s]

tensor(4.3668, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▋                                          | 17734/40000 [21:36<26:14, 14.14it/s]

tensor(4.3162, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▋                                          | 17744/40000 [21:37<26:07, 14.20it/s]

tensor(4.3469, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▋                                          | 17754/40000 [21:38<26:22, 14.06it/s]

tensor(4.3655, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▊                                          | 17764/40000 [21:38<26:16, 14.10it/s]

tensor(4.3634, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▊                                          | 17774/40000 [21:39<26:08, 14.17it/s]

tensor(4.4721, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▊                                          | 17784/40000 [21:40<26:10, 14.14it/s]

tensor(4.3968, device='cuda:0', grad_fn=<NllLossBackward0>)


 44%|█████████████████████████████████▊                                          | 17794/40000 [21:41<26:06, 14.17it/s]

tensor(4.3380, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▊                                          | 17804/40000 [21:41<26:06, 14.17it/s]

tensor(4.3744, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▊                                          | 17814/40000 [21:42<26:06, 14.16it/s]

tensor(4.3834, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▊                                          | 17824/40000 [21:43<26:03, 14.18it/s]

tensor(4.4245, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▉                                          | 17834/40000 [21:43<25:58, 14.22it/s]

tensor(4.3704, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▉                                          | 17844/40000 [21:44<26:03, 14.17it/s]

tensor(4.5236, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▉                                          | 17854/40000 [21:45<26:05, 14.15it/s]

tensor(4.3965, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▉                                          | 17864/40000 [21:45<25:56, 14.22it/s]

tensor(4.3822, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▉                                          | 17874/40000 [21:46<26:00, 14.18it/s]

tensor(4.3864, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▉                                          | 17884/40000 [21:47<26:04, 14.13it/s]

tensor(4.3733, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|█████████████████████████████████▉                                          | 17894/40000 [21:48<26:00, 14.16it/s]

tensor(4.2863, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████                                          | 17904/40000 [21:48<26:00, 14.16it/s]

tensor(4.3620, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████                                          | 17914/40000 [21:49<25:59, 14.16it/s]

tensor(4.3481, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████                                          | 17924/40000 [21:50<25:59, 14.15it/s]

tensor(4.4249, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████                                          | 17934/40000 [21:50<25:52, 14.21it/s]

tensor(4.3511, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████                                          | 17944/40000 [21:51<25:54, 14.18it/s]

tensor(4.3782, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████                                          | 17954/40000 [21:52<26:02, 14.11it/s]

tensor(4.3493, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▏                                         | 17964/40000 [21:52<25:54, 14.17it/s]

tensor(4.4277, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▏                                         | 17974/40000 [21:53<25:51, 14.20it/s]

tensor(4.2913, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▏                                         | 17984/40000 [21:54<25:56, 14.15it/s]

tensor(4.3544, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▏                                         | 17994/40000 [21:55<25:52, 14.18it/s]

tensor(4.4093, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▏                                         | 18004/40000 [21:55<25:53, 14.16it/s]

tensor(4.3147, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▏                                         | 18014/40000 [21:56<25:53, 14.15it/s]

tensor(4.3949, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▏                                         | 18024/40000 [21:57<25:55, 14.13it/s]

tensor(4.4096, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▎                                         | 18034/40000 [21:57<25:48, 14.19it/s]

tensor(4.4278, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▎                                         | 18044/40000 [21:58<25:45, 14.20it/s]

tensor(4.3993, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▎                                         | 18054/40000 [21:59<25:48, 14.17it/s]

tensor(4.3596, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▎                                         | 18064/40000 [22:00<25:44, 14.20it/s]

tensor(4.3776, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▎                                         | 18074/40000 [22:00<25:49, 14.15it/s]

tensor(4.4232, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▎                                         | 18084/40000 [22:01<25:48, 14.15it/s]

tensor(4.3176, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▍                                         | 18094/40000 [22:02<25:42, 14.20it/s]

tensor(4.3643, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▍                                         | 18104/40000 [22:02<25:44, 14.18it/s]

tensor(4.3305, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▍                                         | 18114/40000 [22:03<25:46, 14.15it/s]

tensor(4.3645, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▍                                         | 18124/40000 [22:04<25:47, 14.13it/s]

tensor(4.3042, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▍                                         | 18134/40000 [22:04<25:43, 14.17it/s]

tensor(4.2850, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▍                                         | 18144/40000 [22:05<25:39, 14.19it/s]

tensor(4.3843, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▍                                         | 18154/40000 [22:06<25:44, 14.14it/s]

tensor(4.3631, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▌                                         | 18164/40000 [22:07<25:37, 14.20it/s]

tensor(4.3946, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▌                                         | 18174/40000 [22:07<25:36, 14.20it/s]

tensor(4.3986, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▌                                         | 18184/40000 [22:08<25:36, 14.20it/s]

tensor(4.3270, device='cuda:0', grad_fn=<NllLossBackward0>)


 45%|██████████████████████████████████▌                                         | 18194/40000 [22:09<25:39, 14.17it/s]

tensor(4.3836, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▌                                         | 18204/40000 [22:09<25:38, 14.17it/s]

tensor(4.3731, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▌                                         | 18214/40000 [22:10<25:38, 14.16it/s]

tensor(4.4146, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▋                                         | 18224/40000 [22:11<25:40, 14.13it/s]

tensor(4.2886, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▋                                         | 18234/40000 [22:12<25:34, 14.19it/s]

tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▋                                         | 18244/40000 [22:12<25:33, 14.18it/s]

tensor(4.4162, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▋                                         | 18254/40000 [22:13<25:43, 14.08it/s]

tensor(4.4291, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▋                                         | 18264/40000 [22:14<25:34, 14.16it/s]

tensor(4.4537, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▋                                         | 18274/40000 [22:14<25:33, 14.17it/s]

tensor(4.3789, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▋                                         | 18284/40000 [22:15<25:30, 14.18it/s]

tensor(4.4360, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▊                                         | 18294/40000 [22:16<25:34, 14.14it/s]

tensor(4.4510, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▊                                         | 18304/40000 [22:16<25:29, 14.19it/s]

tensor(4.3647, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▊                                         | 18314/40000 [22:17<25:29, 14.18it/s]

tensor(4.3632, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▊                                         | 18324/40000 [22:18<25:34, 14.13it/s]

tensor(4.3750, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▊                                         | 18334/40000 [22:19<25:27, 14.19it/s]

tensor(4.3983, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▊                                         | 18344/40000 [22:19<25:22, 14.22it/s]

tensor(4.4554, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▊                                         | 18354/40000 [22:20<25:30, 14.14it/s]

tensor(4.4091, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▉                                         | 18364/40000 [22:21<25:21, 14.22it/s]

tensor(4.3262, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▉                                         | 18374/40000 [22:21<25:26, 14.17it/s]

tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▉                                         | 18384/40000 [22:22<25:25, 14.17it/s]

tensor(4.3452, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▉                                         | 18394/40000 [22:23<25:29, 14.13it/s]

tensor(4.2772, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▉                                         | 18404/40000 [22:23<25:21, 14.19it/s]

tensor(4.3304, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|██████████████████████████████████▉                                         | 18414/40000 [22:24<25:23, 14.17it/s]

tensor(4.2723, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████                                         | 18424/40000 [22:25<25:26, 14.13it/s]

tensor(4.3897, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████                                         | 18434/40000 [22:26<25:19, 14.19it/s]

tensor(4.3324, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████                                         | 18444/40000 [22:26<25:19, 14.19it/s]

tensor(4.3731, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████                                         | 18454/40000 [22:27<25:22, 14.15it/s]

tensor(4.3569, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████                                         | 18464/40000 [22:28<25:15, 14.21it/s]

tensor(4.4068, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████                                         | 18474/40000 [22:28<25:18, 14.18it/s]

tensor(4.3533, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████                                         | 18484/40000 [22:29<25:16, 14.19it/s]

tensor(4.4011, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▏                                        | 18494/40000 [22:30<25:18, 14.16it/s]

tensor(4.3966, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▏                                        | 18504/40000 [22:31<25:13, 14.20it/s]

tensor(4.3309, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▏                                        | 18514/40000 [22:31<25:14, 14.19it/s]

tensor(4.2534, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▏                                        | 18524/40000 [22:32<25:16, 14.17it/s]

tensor(4.3422, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▏                                        | 18534/40000 [22:33<25:14, 14.17it/s]

tensor(4.3123, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▏                                        | 18544/40000 [22:33<25:13, 14.18it/s]

tensor(4.3365, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▎                                        | 18554/40000 [22:34<25:11, 14.19it/s]

tensor(4.4344, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▎                                        | 18564/40000 [22:35<25:13, 14.16it/s]

tensor(4.3758, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▎                                        | 18574/40000 [22:35<25:12, 14.16it/s]

tensor(4.4339, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▎                                        | 18584/40000 [22:36<25:10, 14.18it/s]

tensor(4.3586, device='cuda:0', grad_fn=<NllLossBackward0>)


 46%|███████████████████████████████████▎                                        | 18594/40000 [22:37<25:12, 14.16it/s]

tensor(4.3348, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▎                                        | 18604/40000 [22:38<25:09, 14.18it/s]

tensor(4.3493, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▎                                        | 18614/40000 [22:38<25:08, 14.18it/s]

tensor(4.4173, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▍                                        | 18624/40000 [22:39<25:12, 14.14it/s]

tensor(4.4123, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▍                                        | 18634/40000 [22:40<25:04, 14.20it/s]

tensor(4.3456, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▍                                        | 18644/40000 [22:40<25:06, 14.18it/s]

tensor(4.3170, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▍                                        | 18654/40000 [22:41<25:07, 14.16it/s]

tensor(4.2966, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▍                                        | 18664/40000 [22:42<25:05, 14.17it/s]

tensor(4.3911, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▍                                        | 18674/40000 [22:43<25:04, 14.18it/s]

tensor(4.3197, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▍                                        | 18684/40000 [22:43<24:58, 14.22it/s]

tensor(4.3422, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▌                                        | 18694/40000 [22:44<25:03, 14.17it/s]

tensor(4.3957, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▌                                        | 18704/40000 [22:45<24:59, 14.20it/s]

tensor(4.3852, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▌                                        | 18714/40000 [22:45<25:00, 14.18it/s]

tensor(4.4652, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▌                                        | 18724/40000 [22:46<25:02, 14.16it/s]

tensor(4.4045, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▌                                        | 18734/40000 [22:47<24:59, 14.18it/s]

tensor(4.4056, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▌                                        | 18744/40000 [22:47<24:59, 14.18it/s]

tensor(4.3668, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▋                                        | 18754/40000 [22:48<24:59, 14.17it/s]

tensor(4.4260, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▋                                        | 18764/40000 [22:49<25:00, 14.15it/s]

tensor(4.3832, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▋                                        | 18774/40000 [22:50<24:54, 14.20it/s]

tensor(4.3440, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▋                                        | 18784/40000 [22:50<25:01, 14.13it/s]

tensor(4.3892, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▋                                        | 18794/40000 [22:51<25:07, 14.06it/s]

tensor(4.4259, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▋                                        | 18804/40000 [22:52<24:55, 14.17it/s]

tensor(4.3879, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▋                                        | 18814/40000 [22:52<25:00, 14.12it/s]

tensor(4.4814, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▊                                        | 18824/40000 [22:53<25:08, 14.04it/s]

tensor(4.4164, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▊                                        | 18834/40000 [22:54<24:55, 14.15it/s]

tensor(4.4522, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▊                                        | 18844/40000 [22:54<24:54, 14.15it/s]

tensor(4.3440, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▊                                        | 18854/40000 [22:55<24:51, 14.18it/s]

tensor(4.3622, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▊                                        | 18864/40000 [22:56<24:55, 14.13it/s]

tensor(4.4180, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▊                                        | 18874/40000 [22:57<24:48, 14.20it/s]

tensor(4.4198, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▉                                        | 18884/40000 [22:57<24:45, 14.21it/s]

tensor(4.3771, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▉                                        | 18894/40000 [22:58<24:51, 14.15it/s]

tensor(4.4064, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▉                                        | 18904/40000 [22:59<24:47, 14.18it/s]

tensor(4.3418, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▉                                        | 18914/40000 [22:59<24:51, 14.14it/s]

tensor(4.4732, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▉                                        | 18924/40000 [23:00<24:49, 14.15it/s]

tensor(4.4288, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▉                                        | 18934/40000 [23:01<24:50, 14.14it/s]

tensor(4.3545, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|███████████████████████████████████▉                                        | 18944/40000 [23:02<24:42, 14.20it/s]

tensor(4.3757, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|████████████████████████████████████                                        | 18954/40000 [23:02<24:43, 14.19it/s]

tensor(4.4073, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|████████████████████████████████████                                        | 18964/40000 [23:03<24:52, 14.10it/s]

tensor(4.3109, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|████████████████████████████████████                                        | 18974/40000 [23:04<24:45, 14.15it/s]

tensor(4.4041, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|████████████████████████████████████                                        | 18984/40000 [23:04<24:43, 14.17it/s]

tensor(4.3593, device='cuda:0', grad_fn=<NllLossBackward0>)


 47%|████████████████████████████████████                                        | 18994/40000 [23:05<24:45, 14.14it/s]

tensor(4.3361, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████                                        | 19004/40000 [23:06<24:44, 14.15it/s]

tensor(4.4421, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▏                                       | 19014/40000 [23:06<24:40, 14.18it/s]

tensor(4.4086, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▏                                       | 19024/40000 [23:07<24:36, 14.20it/s]

tensor(4.4006, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▏                                       | 19034/40000 [23:08<24:42, 14.14it/s]

tensor(4.3292, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▏                                       | 19044/40000 [23:09<24:37, 14.18it/s]

tensor(4.2939, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▏                                       | 19054/40000 [23:09<24:36, 14.19it/s]

tensor(4.3794, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▏                                       | 19064/40000 [23:10<24:39, 14.15it/s]

tensor(4.3618, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▏                                       | 19074/40000 [23:11<24:35, 14.18it/s]

tensor(4.3099, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▎                                       | 19084/40000 [23:11<24:36, 14.17it/s]

tensor(4.3384, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▎                                       | 19094/40000 [23:12<24:37, 14.15it/s]

tensor(4.3624, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▎                                       | 19104/40000 [23:13<24:38, 14.13it/s]

tensor(4.3774, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▎                                       | 19114/40000 [23:14<24:31, 14.19it/s]

tensor(4.3568, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▎                                       | 19124/40000 [23:14<24:31, 14.19it/s]

tensor(4.5200, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▎                                       | 19134/40000 [23:15<24:33, 14.16it/s]

tensor(4.3992, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▎                                       | 19144/40000 [23:16<24:24, 14.24it/s]

tensor(4.3971, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▍                                       | 19154/40000 [23:16<24:25, 14.23it/s]

tensor(4.3291, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▍                                       | 19164/40000 [23:17<24:31, 14.16it/s]

tensor(4.3535, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▍                                       | 19174/40000 [23:18<24:30, 14.16it/s]

tensor(4.2502, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▍                                       | 19184/40000 [23:18<24:27, 14.18it/s]

tensor(4.4132, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▍                                       | 19194/40000 [23:19<24:32, 14.13it/s]

tensor(4.3360, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▍                                       | 19204/40000 [23:20<24:27, 14.17it/s]

tensor(4.4524, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▌                                       | 19214/40000 [23:21<24:28, 14.15it/s]

tensor(4.3656, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▌                                       | 19224/40000 [23:21<24:24, 14.19it/s]

tensor(4.4868, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▌                                       | 19234/40000 [23:22<24:26, 14.16it/s]

tensor(4.4460, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▌                                       | 19244/40000 [23:23<24:22, 14.19it/s]

tensor(4.3976, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▌                                       | 19254/40000 [23:23<24:26, 14.15it/s]

tensor(4.3989, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▌                                       | 19264/40000 [23:24<24:24, 14.16it/s]

tensor(4.3907, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▌                                       | 19274/40000 [23:25<24:23, 14.16it/s]

tensor(4.3088, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▋                                       | 19284/40000 [23:25<24:22, 14.17it/s]

tensor(4.3672, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▋                                       | 19294/40000 [23:26<24:19, 14.19it/s]

tensor(4.3851, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▋                                       | 19304/40000 [23:27<24:21, 14.16it/s]

tensor(4.3376, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▋                                       | 19314/40000 [23:28<24:18, 14.18it/s]

tensor(4.3443, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▋                                       | 19324/40000 [23:28<24:14, 14.22it/s]

tensor(4.3543, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▋                                       | 19334/40000 [23:29<24:20, 14.15it/s]

tensor(4.3100, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▊                                       | 19344/40000 [23:30<24:16, 14.18it/s]

tensor(4.4075, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▊                                       | 19354/40000 [23:30<24:15, 14.18it/s]

tensor(4.3845, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▊                                       | 19364/40000 [23:31<24:17, 14.16it/s]

tensor(4.3579, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▊                                       | 19374/40000 [23:32<24:20, 14.13it/s]

tensor(4.3697, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▊                                       | 19384/40000 [23:33<24:12, 14.19it/s]

tensor(4.3759, device='cuda:0', grad_fn=<NllLossBackward0>)


 48%|████████████████████████████████████▊                                       | 19394/40000 [23:33<24:11, 14.20it/s]

tensor(4.2965, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|████████████████████████████████████▊                                       | 19404/40000 [23:34<24:19, 14.11it/s]

tensor(4.3015, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|████████████████████████████████████▉                                       | 19414/40000 [23:35<24:10, 14.19it/s]

tensor(4.4351, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|████████████████████████████████████▉                                       | 19424/40000 [23:35<24:18, 14.10it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|████████████████████████████████████▉                                       | 19434/40000 [23:36<24:16, 14.12it/s]

tensor(4.4342, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|████████████████████████████████████▉                                       | 19444/40000 [23:37<24:13, 14.14it/s]

tensor(4.3292, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|████████████████████████████████████▉                                       | 19454/40000 [23:37<24:10, 14.16it/s]

tensor(4.4730, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|████████████████████████████████████▉                                       | 19464/40000 [23:38<24:10, 14.16it/s]

tensor(4.3166, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████                                       | 19474/40000 [23:39<24:15, 14.10it/s]

tensor(4.3679, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████                                       | 19484/40000 [23:40<24:06, 14.18it/s]

tensor(4.4222, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████                                       | 19494/40000 [23:40<24:07, 14.17it/s]

tensor(4.3821, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████                                       | 19504/40000 [23:41<24:10, 14.13it/s]

tensor(4.3493, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████                                       | 19514/40000 [23:42<24:03, 14.19it/s]

tensor(4.4365, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████                                       | 19524/40000 [23:42<24:03, 14.19it/s]

tensor(4.3683, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████                                       | 19534/40000 [23:43<24:01, 14.20it/s]

tensor(4.4006, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▏                                      | 19544/40000 [23:44<24:05, 14.16it/s]

tensor(4.4231, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▏                                      | 19554/40000 [23:45<24:02, 14.18it/s]

tensor(4.3155, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▏                                      | 19564/40000 [23:45<24:00, 14.18it/s]

tensor(4.4581, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▏                                      | 19574/40000 [23:46<24:05, 14.13it/s]

tensor(4.3660, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▏                                      | 19584/40000 [23:47<23:58, 14.19it/s]

tensor(4.3404, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▏                                      | 19594/40000 [23:47<23:57, 14.20it/s]

tensor(4.3561, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▏                                      | 19604/40000 [23:48<24:00, 14.15it/s]

tensor(4.4503, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▎                                      | 19614/40000 [23:49<23:57, 14.19it/s]

tensor(4.4191, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▎                                      | 19624/40000 [23:49<23:56, 14.19it/s]

tensor(4.3796, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▎                                      | 19634/40000 [23:50<24:00, 14.14it/s]

tensor(4.3807, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▎                                      | 19644/40000 [23:51<24:00, 14.13it/s]

tensor(4.3739, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▎                                      | 19654/40000 [23:52<23:55, 14.17it/s]

tensor(4.3532, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▎                                      | 19664/40000 [23:52<23:54, 14.18it/s]

tensor(4.3354, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▍                                      | 19674/40000 [23:53<23:55, 14.16it/s]

tensor(4.3588, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▍                                      | 19684/40000 [23:54<23:46, 14.24it/s]

tensor(4.3703, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▍                                      | 19694/40000 [23:54<23:49, 14.20it/s]

tensor(4.2987, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▍                                      | 19704/40000 [23:55<23:52, 14.17it/s]

tensor(4.3535, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▍                                      | 19714/40000 [23:56<23:51, 14.17it/s]

tensor(4.2799, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▍                                      | 19724/40000 [23:56<23:51, 14.17it/s]

tensor(4.4239, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▍                                      | 19734/40000 [23:57<23:48, 14.19it/s]

tensor(4.2938, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▌                                      | 19744/40000 [23:58<23:53, 14.13it/s]

tensor(4.3751, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▌                                      | 19754/40000 [23:59<23:49, 14.16it/s]

tensor(4.3653, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▌                                      | 19764/40000 [23:59<23:48, 14.16it/s]

tensor(4.3617, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▌                                      | 19774/40000 [24:00<23:47, 14.17it/s]

tensor(4.3278, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▌                                      | 19784/40000 [24:01<23:43, 14.20it/s]

tensor(4.4208, device='cuda:0', grad_fn=<NllLossBackward0>)


 49%|█████████████████████████████████████▌                                      | 19794/40000 [24:01<23:45, 14.18it/s]

tensor(4.3225, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▋                                      | 19804/40000 [24:02<23:46, 14.16it/s]

tensor(4.4140, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▋                                      | 19814/40000 [24:03<23:50, 14.11it/s]

tensor(4.4640, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▋                                      | 19824/40000 [24:04<23:42, 14.19it/s]

tensor(4.3172, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▋                                      | 19834/40000 [24:04<23:37, 14.22it/s]

tensor(4.3597, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▋                                      | 19844/40000 [24:05<23:40, 14.19it/s]

tensor(4.4265, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▋                                      | 19854/40000 [24:06<23:37, 14.21it/s]

tensor(4.2458, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▋                                      | 19864/40000 [24:06<23:41, 14.17it/s]

tensor(4.3546, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▊                                      | 19874/40000 [24:07<23:43, 14.14it/s]

tensor(4.3505, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▊                                      | 19884/40000 [24:08<23:37, 14.20it/s]

tensor(4.3445, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▊                                      | 19894/40000 [24:08<23:38, 14.18it/s]

tensor(4.3041, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▊                                      | 19904/40000 [24:09<23:38, 14.16it/s]

tensor(4.4220, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▊                                      | 19914/40000 [24:10<23:40, 14.14it/s]

tensor(4.4420, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▊                                      | 19924/40000 [24:11<23:43, 14.10it/s]

tensor(4.3373, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▊                                      | 19934/40000 [24:11<23:33, 14.20it/s]

tensor(4.3907, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▉                                      | 19944/40000 [24:12<23:38, 14.14it/s]

tensor(4.5593, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▉                                      | 19954/40000 [24:13<23:34, 14.17it/s]

tensor(4.4791, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▉                                      | 19964/40000 [24:13<23:31, 14.20it/s]

tensor(4.3663, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▉                                      | 19974/40000 [24:14<23:34, 14.16it/s]

tensor(4.4090, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▉                                      | 19984/40000 [24:15<23:36, 14.13it/s]

tensor(4.3818, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|█████████████████████████████████████▉                                      | 19994/40000 [24:16<23:30, 14.18it/s]

tensor(4.2800, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████                                      | 20004/40000 [24:16<23:30, 14.18it/s]

tensor(4.4560, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████                                      | 20014/40000 [24:17<23:30, 14.16it/s]

tensor(4.4462, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████                                      | 20024/40000 [24:18<23:29, 14.18it/s]

tensor(4.3799, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████                                      | 20034/40000 [24:18<23:27, 14.19it/s]

tensor(4.3716, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████                                      | 20044/40000 [24:19<23:28, 14.17it/s]

tensor(4.3803, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████                                      | 20054/40000 [24:20<23:27, 14.17it/s]

tensor(4.3511, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████                                      | 20064/40000 [24:20<23:25, 14.19it/s]

tensor(4.3455, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▏                                     | 20074/40000 [24:21<23:25, 14.18it/s]

tensor(4.3070, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▏                                     | 20084/40000 [24:22<23:27, 14.15it/s]

tensor(4.3909, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▏                                     | 20094/40000 [24:23<23:25, 14.17it/s]

tensor(4.3718, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▏                                     | 20104/40000 [24:23<23:23, 14.18it/s]

tensor(4.2952, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▏                                     | 20114/40000 [24:24<23:20, 14.20it/s]

tensor(4.2962, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▏                                     | 20124/40000 [24:25<23:20, 14.20it/s]

tensor(4.2942, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▎                                     | 20134/40000 [24:25<23:18, 14.21it/s]

tensor(4.3496, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▎                                     | 20144/40000 [24:26<23:22, 14.16it/s]

tensor(4.3887, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▎                                     | 20154/40000 [24:27<23:17, 14.20it/s]

tensor(4.4625, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▎                                     | 20164/40000 [24:27<23:13, 14.23it/s]

tensor(4.2767, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▎                                     | 20174/40000 [24:28<23:19, 14.16it/s]

tensor(4.3406, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▎                                     | 20184/40000 [24:29<23:19, 14.16it/s]

tensor(4.3795, device='cuda:0', grad_fn=<NllLossBackward0>)


 50%|██████████████████████████████████████▎                                     | 20194/40000 [24:30<23:17, 14.17it/s]

tensor(4.4540, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▍                                     | 20204/40000 [24:30<23:14, 14.20it/s]

tensor(4.2863, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▍                                     | 20214/40000 [24:31<23:17, 14.16it/s]

tensor(4.3857, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▍                                     | 20224/40000 [24:32<23:12, 14.20it/s]

tensor(4.2837, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▍                                     | 20234/40000 [24:32<23:13, 14.18it/s]

tensor(4.3002, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▍                                     | 20244/40000 [24:33<23:17, 14.14it/s]

tensor(4.3398, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▍                                     | 20254/40000 [24:34<23:17, 14.13it/s]

tensor(4.4456, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▌                                     | 20264/40000 [24:35<23:14, 14.15it/s]

tensor(4.4332, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▌                                     | 20274/40000 [24:35<23:11, 14.18it/s]

tensor(4.4016, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▌                                     | 20284/40000 [24:36<23:10, 14.18it/s]

tensor(4.4298, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▌                                     | 20294/40000 [24:37<23:11, 14.16it/s]

tensor(4.4305, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▌                                     | 20304/40000 [24:37<23:08, 14.19it/s]

tensor(4.3226, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▌                                     | 20314/40000 [24:38<23:10, 14.15it/s]

tensor(4.4169, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▌                                     | 20324/40000 [24:39<23:11, 14.14it/s]

tensor(4.4414, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▋                                     | 20334/40000 [24:39<23:09, 14.16it/s]

tensor(4.4552, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▋                                     | 20344/40000 [24:40<23:11, 14.12it/s]

tensor(4.4126, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▋                                     | 20354/40000 [24:41<23:05, 14.18it/s]

tensor(4.4122, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▋                                     | 20364/40000 [24:42<23:02, 14.20it/s]

tensor(4.4707, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▋                                     | 20374/40000 [24:42<23:02, 14.20it/s]

tensor(4.4053, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▋                                     | 20384/40000 [24:43<23:00, 14.21it/s]

tensor(4.2938, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▋                                     | 20394/40000 [24:44<23:04, 14.16it/s]

tensor(4.3652, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▊                                     | 20404/40000 [24:44<23:04, 14.15it/s]

tensor(4.2936, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▊                                     | 20414/40000 [24:45<23:15, 14.03it/s]

tensor(4.3390, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▊                                     | 20424/40000 [24:46<23:05, 14.13it/s]

tensor(4.4724, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▊                                     | 20434/40000 [24:47<23:00, 14.17it/s]

tensor(4.2483, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▊                                     | 20444/40000 [24:47<22:56, 14.20it/s]

tensor(4.3417, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▊                                     | 20454/40000 [24:48<22:58, 14.18it/s]

tensor(4.3721, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▉                                     | 20464/40000 [24:49<22:53, 14.22it/s]

tensor(4.4001, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▉                                     | 20474/40000 [24:49<22:57, 14.18it/s]

tensor(4.4239, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▉                                     | 20484/40000 [24:50<23:00, 14.13it/s]

tensor(4.3257, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▉                                     | 20494/40000 [24:51<22:53, 14.20it/s]

tensor(4.4541, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▉                                     | 20504/40000 [24:51<22:54, 14.19it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▉                                     | 20514/40000 [24:52<22:54, 14.17it/s]

tensor(4.3181, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|██████████████████████████████████████▉                                     | 20524/40000 [24:53<22:52, 14.19it/s]

tensor(4.3651, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|███████████████████████████████████████                                     | 20534/40000 [24:54<22:54, 14.16it/s]

tensor(4.3755, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|███████████████████████████████████████                                     | 20544/40000 [24:54<22:58, 14.11it/s]

tensor(4.3465, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|███████████████████████████████████████                                     | 20554/40000 [24:55<22:53, 14.16it/s]

tensor(4.4001, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|███████████████████████████████████████                                     | 20564/40000 [24:56<22:50, 14.19it/s]

tensor(4.3771, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|███████████████████████████████████████                                     | 20574/40000 [24:56<22:50, 14.17it/s]

tensor(4.4303, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|███████████████████████████████████████                                     | 20584/40000 [24:57<22:52, 14.15it/s]

tensor(4.3589, device='cuda:0', grad_fn=<NllLossBackward0>)


 51%|███████████████████████████████████████▏                                    | 20594/40000 [24:58<22:46, 14.20it/s]

tensor(4.3293, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▏                                    | 20604/40000 [24:58<22:44, 14.22it/s]

tensor(4.3861, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▏                                    | 20614/40000 [24:59<22:44, 14.20it/s]

tensor(4.4551, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▏                                    | 20624/40000 [25:00<22:48, 14.16it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▏                                    | 20634/40000 [25:01<22:44, 14.19it/s]

tensor(4.3780, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▏                                    | 20644/40000 [25:01<22:45, 14.17it/s]

tensor(4.3601, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▏                                    | 20654/40000 [25:02<22:48, 14.13it/s]

tensor(4.4173, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▎                                    | 20664/40000 [25:03<22:45, 14.16it/s]

tensor(4.4521, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▎                                    | 20674/40000 [25:03<22:41, 14.20it/s]

tensor(4.4423, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▎                                    | 20684/40000 [25:04<22:42, 14.18it/s]

tensor(4.4139, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▎                                    | 20694/40000 [25:05<22:43, 14.16it/s]

tensor(4.3488, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▎                                    | 20704/40000 [25:06<22:42, 14.16it/s]

tensor(4.3900, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▎                                    | 20714/40000 [25:06<22:42, 14.15it/s]

tensor(4.3745, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▍                                    | 20724/40000 [25:07<22:41, 14.16it/s]

tensor(4.3808, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▍                                    | 20734/40000 [25:08<22:40, 14.17it/s]

tensor(4.4369, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▍                                    | 20744/40000 [25:08<22:38, 14.18it/s]

tensor(4.3877, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▍                                    | 20754/40000 [25:09<22:41, 14.14it/s]

tensor(4.2972, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▍                                    | 20764/40000 [25:10<22:37, 14.17it/s]

tensor(4.4370, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▍                                    | 20774/40000 [25:10<22:35, 14.18it/s]

tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▍                                    | 20784/40000 [25:11<22:37, 14.16it/s]

tensor(4.4948, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▌                                    | 20794/40000 [25:12<22:33, 14.19it/s]

tensor(4.3688, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▌                                    | 20804/40000 [25:13<22:35, 14.16it/s]

tensor(4.4039, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▌                                    | 20814/40000 [25:13<22:34, 14.17it/s]

tensor(4.3570, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▌                                    | 20824/40000 [25:14<22:39, 14.10it/s]

tensor(4.3345, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▌                                    | 20834/40000 [25:15<22:35, 14.14it/s]

tensor(4.3699, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▌                                    | 20844/40000 [25:15<22:33, 14.15it/s]

tensor(4.4220, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▌                                    | 20854/40000 [25:16<22:37, 14.10it/s]

tensor(4.3943, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▋                                    | 20864/40000 [25:17<22:30, 14.17it/s]

tensor(4.3670, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▋                                    | 20874/40000 [25:18<22:29, 14.17it/s]

tensor(4.3933, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▋                                    | 20884/40000 [25:18<22:30, 14.15it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▋                                    | 20894/40000 [25:19<22:32, 14.13it/s]

tensor(4.2289, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▋                                    | 20904/40000 [25:20<22:25, 14.19it/s]

tensor(4.3718, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▋                                    | 20914/40000 [25:20<22:24, 14.19it/s]

tensor(4.3440, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▊                                    | 20924/40000 [25:21<22:27, 14.16it/s]

tensor(4.4392, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▊                                    | 20934/40000 [25:22<22:22, 14.20it/s]

tensor(4.4522, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▊                                    | 20944/40000 [25:22<22:22, 14.19it/s]

tensor(4.3818, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▊                                    | 20954/40000 [25:23<22:26, 14.14it/s]

tensor(4.4751, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▊                                    | 20964/40000 [25:24<22:20, 14.20it/s]

tensor(4.3681, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▊                                    | 20974/40000 [25:25<22:24, 14.15it/s]

tensor(4.3376, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▊                                    | 20984/40000 [25:25<22:15, 14.24it/s]

tensor(4.4350, device='cuda:0', grad_fn=<NllLossBackward0>)


 52%|███████████████████████████████████████▉                                    | 20994/40000 [25:26<22:24, 14.13it/s]

tensor(4.4201, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|███████████████████████████████████████▉                                    | 21004/40000 [25:27<22:21, 14.16it/s]

tensor(4.4107, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|███████████████████████████████████████▉                                    | 21014/40000 [25:27<22:16, 14.21it/s]

tensor(4.5618, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|███████████████████████████████████████▉                                    | 21024/40000 [25:28<22:21, 14.15it/s]

tensor(4.3507, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|███████████████████████████████████████▉                                    | 21034/40000 [25:29<22:16, 14.19it/s]

tensor(4.4472, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|███████████████████████████████████████▉                                    | 21044/40000 [25:30<22:18, 14.16it/s]

tensor(4.3288, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████                                    | 21054/40000 [25:30<22:17, 14.17it/s]

tensor(4.4773, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████                                    | 21064/40000 [25:31<22:18, 14.15it/s]

tensor(4.3489, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████                                    | 21074/40000 [25:32<22:11, 14.21it/s]

tensor(4.4808, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████                                    | 21084/40000 [25:32<22:14, 14.17it/s]

tensor(4.3897, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████                                    | 21094/40000 [25:33<22:17, 14.13it/s]

tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████                                    | 21104/40000 [25:34<22:17, 14.13it/s]

tensor(4.3141, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████                                    | 21114/40000 [25:34<22:11, 14.19it/s]

tensor(4.3095, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▏                                   | 21124/40000 [25:35<22:22, 14.06it/s]

tensor(4.4467, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▏                                   | 21134/40000 [25:36<22:10, 14.18it/s]

tensor(4.4411, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▏                                   | 21144/40000 [25:37<22:11, 14.16it/s]

tensor(4.4332, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▏                                   | 21154/40000 [25:37<22:06, 14.20it/s]

tensor(4.4006, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▏                                   | 21164/40000 [25:38<22:10, 14.16it/s]

tensor(4.3393, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▏                                   | 21174/40000 [25:39<22:14, 14.11it/s]

tensor(4.3302, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▏                                   | 21184/40000 [25:39<22:08, 14.16it/s]

tensor(4.3178, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▎                                   | 21194/40000 [25:40<22:08, 14.15it/s]

tensor(4.3671, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▎                                   | 21204/40000 [25:41<22:04, 14.19it/s]

tensor(4.3146, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▎                                   | 21214/40000 [25:41<22:02, 14.21it/s]

tensor(4.4016, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▎                                   | 21224/40000 [25:42<22:09, 14.13it/s]

tensor(4.4075, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▎                                   | 21234/40000 [25:43<22:05, 14.16it/s]

tensor(4.3570, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▎                                   | 21244/40000 [25:44<22:04, 14.16it/s]

tensor(4.3325, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▍                                   | 21254/40000 [25:44<22:03, 14.16it/s]

tensor(4.4562, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▍                                   | 21264/40000 [25:45<22:06, 14.12it/s]

tensor(4.4183, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▍                                   | 21274/40000 [25:46<21:59, 14.20it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▍                                   | 21284/40000 [25:46<22:01, 14.17it/s]

tensor(4.3688, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▍                                   | 21294/40000 [25:47<22:00, 14.16it/s]

tensor(4.4077, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▍                                   | 21304/40000 [25:48<21:56, 14.21it/s]

tensor(4.3359, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▍                                   | 21314/40000 [25:49<21:57, 14.18it/s]

tensor(4.4018, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▌                                   | 21324/40000 [25:49<21:56, 14.18it/s]

tensor(4.4426, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▌                                   | 21334/40000 [25:50<21:56, 14.18it/s]

tensor(4.3681, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▌                                   | 21344/40000 [25:51<21:55, 14.18it/s]

tensor(4.3751, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▌                                   | 21354/40000 [25:51<21:53, 14.20it/s]

tensor(4.4191, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▌                                   | 21364/40000 [25:52<21:56, 14.16it/s]

tensor(4.3692, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▌                                   | 21374/40000 [25:53<21:53, 14.18it/s]

tensor(4.3741, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▋                                   | 21384/40000 [25:53<21:52, 14.18it/s]

tensor(4.4216, device='cuda:0', grad_fn=<NllLossBackward0>)


 53%|████████████████████████████████████████▋                                   | 21394/40000 [25:54<21:54, 14.16it/s]

tensor(4.3922, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▋                                   | 21404/40000 [25:55<21:49, 14.20it/s]

tensor(4.4112, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▋                                   | 21414/40000 [25:56<21:53, 14.15it/s]

tensor(4.3432, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▋                                   | 21424/40000 [25:56<21:50, 14.18it/s]

tensor(4.3854, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▋                                   | 21434/40000 [25:57<21:53, 14.14it/s]

tensor(4.3675, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▋                                   | 21444/40000 [25:58<21:44, 14.23it/s]

tensor(4.3780, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▊                                   | 21454/40000 [25:58<21:45, 14.21it/s]

tensor(4.4029, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▊                                   | 21464/40000 [25:59<21:52, 14.12it/s]

tensor(4.4122, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▊                                   | 21474/40000 [26:00<21:45, 14.19it/s]

tensor(4.3401, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▊                                   | 21484/40000 [26:01<21:43, 14.21it/s]

tensor(4.4493, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▊                                   | 21494/40000 [26:01<21:46, 14.17it/s]

tensor(4.2792, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▊                                   | 21504/40000 [26:02<21:41, 14.21it/s]

tensor(4.4129, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▉                                   | 21514/40000 [26:03<21:46, 14.15it/s]

tensor(4.4176, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▉                                   | 21524/40000 [26:03<21:41, 14.20it/s]

tensor(4.3781, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▉                                   | 21534/40000 [26:04<21:48, 14.11it/s]

tensor(4.4123, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▉                                   | 21544/40000 [26:05<21:40, 14.19it/s]

tensor(4.4078, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▉                                   | 21554/40000 [26:05<21:39, 14.20it/s]

tensor(4.3809, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▉                                   | 21564/40000 [26:06<21:44, 14.14it/s]

tensor(4.4140, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|████████████████████████████████████████▉                                   | 21574/40000 [26:07<21:40, 14.16it/s]

tensor(4.3272, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████                                   | 21584/40000 [26:08<21:39, 14.18it/s]

tensor(4.3131, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████                                   | 21594/40000 [26:08<21:39, 14.16it/s]

tensor(4.3535, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████                                   | 21604/40000 [26:09<21:45, 14.10it/s]

tensor(4.3981, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████                                   | 21614/40000 [26:10<21:36, 14.18it/s]

tensor(4.3229, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████                                   | 21624/40000 [26:10<21:36, 14.17it/s]

tensor(4.3760, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████                                   | 21634/40000 [26:11<21:37, 14.16it/s]

tensor(4.4843, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████                                   | 21644/40000 [26:12<21:33, 14.19it/s]

tensor(4.4058, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▏                                  | 21654/40000 [26:12<21:32, 14.19it/s]

tensor(4.4199, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▏                                  | 21664/40000 [26:13<21:34, 14.16it/s]

tensor(4.3950, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▏                                  | 21674/40000 [26:14<21:30, 14.20it/s]

tensor(4.3594, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▏                                  | 21684/40000 [26:15<21:32, 14.17it/s]

tensor(4.4713, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▏                                  | 21694/40000 [26:15<21:31, 14.17it/s]

tensor(4.4602, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▏                                  | 21704/40000 [26:16<21:34, 14.14it/s]

tensor(4.3177, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▎                                  | 21714/40000 [26:17<21:30, 14.17it/s]

tensor(4.4041, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▎                                  | 21724/40000 [26:17<21:29, 14.17it/s]

tensor(4.3399, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▎                                  | 21734/40000 [26:18<21:30, 14.15it/s]

tensor(4.3535, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▎                                  | 21744/40000 [26:19<21:28, 14.17it/s]

tensor(4.3850, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▎                                  | 21754/40000 [26:20<21:27, 14.17it/s]

tensor(4.4564, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▎                                  | 21764/40000 [26:20<21:29, 14.14it/s]

tensor(4.3583, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▎                                  | 21774/40000 [26:21<21:25, 14.18it/s]

tensor(4.3872, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▍                                  | 21784/40000 [26:22<21:24, 14.18it/s]

tensor(4.3122, device='cuda:0', grad_fn=<NllLossBackward0>)


 54%|█████████████████████████████████████████▍                                  | 21794/40000 [26:22<21:20, 14.21it/s]

tensor(4.3055, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▍                                  | 21804/40000 [26:23<21:23, 14.18it/s]

tensor(4.3013, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▍                                  | 21814/40000 [26:24<21:19, 14.21it/s]

tensor(4.3574, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▍                                  | 21824/40000 [26:24<21:20, 14.19it/s]

tensor(4.4460, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▍                                  | 21834/40000 [26:25<21:25, 14.13it/s]

tensor(4.3326, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▌                                  | 21844/40000 [26:26<21:16, 14.22it/s]

tensor(4.3407, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▌                                  | 21854/40000 [26:27<21:19, 14.18it/s]

tensor(4.3851, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▌                                  | 21864/40000 [26:27<21:26, 14.09it/s]

tensor(4.4310, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▌                                  | 21874/40000 [26:28<21:35, 13.99it/s]

tensor(4.4088, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▌                                  | 21884/40000 [26:29<21:21, 14.13it/s]

tensor(4.3955, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▌                                  | 21894/40000 [26:29<21:23, 14.11it/s]

tensor(4.3799, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▌                                  | 21904/40000 [26:30<21:23, 14.10it/s]

tensor(4.3754, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▋                                  | 21914/40000 [26:31<21:26, 14.05it/s]

tensor(4.2905, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▋                                  | 21924/40000 [26:32<21:15, 14.17it/s]

tensor(4.3522, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▋                                  | 21934/40000 [26:32<21:19, 14.12it/s]

tensor(4.4155, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▋                                  | 21944/40000 [26:33<21:13, 14.18it/s]

tensor(4.4026, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▋                                  | 21954/40000 [26:34<21:10, 14.20it/s]

tensor(4.3471, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▋                                  | 21964/40000 [26:34<21:11, 14.19it/s]

tensor(4.3779, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▊                                  | 21974/40000 [26:35<21:15, 14.13it/s]

tensor(4.3732, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▊                                  | 21984/40000 [26:36<21:10, 14.18it/s]

tensor(4.3490, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▊                                  | 21994/40000 [26:36<21:10, 14.17it/s]

tensor(4.4582, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▊                                  | 22004/40000 [26:37<21:10, 14.16it/s]

tensor(4.3583, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▊                                  | 22014/40000 [26:38<21:09, 14.17it/s]

tensor(4.2807, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▊                                  | 22024/40000 [26:39<21:10, 14.15it/s]

tensor(4.4161, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▊                                  | 22034/40000 [26:39<21:13, 14.11it/s]

tensor(4.3460, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▉                                  | 22044/40000 [26:40<21:13, 14.10it/s]

tensor(4.3445, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▉                                  | 22054/40000 [26:41<21:03, 14.20it/s]

tensor(4.3727, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▉                                  | 22064/40000 [26:41<21:04, 14.18it/s]

tensor(4.4210, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▉                                  | 22074/40000 [26:42<21:04, 14.18it/s]

tensor(4.3550, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▉                                  | 22084/40000 [26:43<21:02, 14.19it/s]

tensor(4.4390, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▉                                  | 22094/40000 [26:44<21:02, 14.19it/s]

tensor(4.4956, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|█████████████████████████████████████████▉                                  | 22104/40000 [26:44<21:07, 14.12it/s]

tensor(4.3871, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████                                  | 22114/40000 [26:45<21:00, 14.19it/s]

tensor(4.3560, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████                                  | 22124/40000 [26:46<20:56, 14.22it/s]

tensor(4.4052, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████                                  | 22134/40000 [26:46<20:59, 14.18it/s]

tensor(4.3788, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████                                  | 22144/40000 [26:47<21:03, 14.13it/s]

tensor(4.3503, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████                                  | 22154/40000 [26:48<21:00, 14.15it/s]

tensor(4.4586, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████                                  | 22164/40000 [26:48<20:59, 14.16it/s]

tensor(4.3676, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████▏                                 | 22174/40000 [26:49<20:59, 14.15it/s]

tensor(4.4560, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████▏                                 | 22184/40000 [26:50<20:54, 14.20it/s]

tensor(4.3773, device='cuda:0', grad_fn=<NllLossBackward0>)


 55%|██████████████████████████████████████████▏                                 | 22194/40000 [26:51<20:56, 14.18it/s]

tensor(4.4167, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▏                                 | 22204/40000 [26:51<20:58, 14.14it/s]

tensor(4.3165, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▏                                 | 22214/40000 [26:52<20:52, 14.20it/s]

tensor(4.4059, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▏                                 | 22224/40000 [26:53<20:51, 14.20it/s]

tensor(4.4309, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▏                                 | 22234/40000 [26:53<20:53, 14.17it/s]

tensor(4.3630, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▎                                 | 22244/40000 [26:54<20:54, 14.15it/s]

tensor(4.4077, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▎                                 | 22254/40000 [26:55<20:51, 14.18it/s]

tensor(4.4136, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▎                                 | 22264/40000 [26:55<20:49, 14.19it/s]

tensor(4.3980, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▎                                 | 22274/40000 [26:56<20:52, 14.16it/s]

tensor(4.3454, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▎                                 | 22284/40000 [26:57<20:51, 14.15it/s]

tensor(4.3961, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▎                                 | 22294/40000 [26:58<20:49, 14.17it/s]

tensor(4.4168, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▍                                 | 22304/40000 [26:58<20:48, 14.17it/s]

tensor(4.4412, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▍                                 | 22314/40000 [26:59<20:44, 14.21it/s]

tensor(4.3889, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▍                                 | 22324/40000 [27:00<20:49, 14.14it/s]

tensor(4.3197, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▍                                 | 22334/40000 [27:00<20:46, 14.18it/s]

tensor(4.3746, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▍                                 | 22344/40000 [27:01<20:48, 14.14it/s]

tensor(4.3859, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▍                                 | 22354/40000 [27:02<20:44, 14.18it/s]

tensor(4.3398, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▍                                 | 22364/40000 [27:03<20:42, 14.19it/s]

tensor(4.4111, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▌                                 | 22374/40000 [27:03<20:46, 14.14it/s]

tensor(4.3775, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▌                                 | 22384/40000 [27:04<20:40, 14.20it/s]

tensor(4.3728, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▌                                 | 22394/40000 [27:05<20:39, 14.21it/s]

tensor(4.4065, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▌                                 | 22404/40000 [27:05<20:43, 14.15it/s]

tensor(4.4448, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▌                                 | 22414/40000 [27:06<20:39, 14.19it/s]

tensor(4.2407, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▌                                 | 22424/40000 [27:07<20:45, 14.11it/s]

tensor(4.3566, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▌                                 | 22434/40000 [27:07<20:40, 14.16it/s]

tensor(4.3994, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▋                                 | 22444/40000 [27:08<20:38, 14.17it/s]

tensor(4.2294, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▋                                 | 22454/40000 [27:09<20:36, 14.19it/s]

tensor(4.3820, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▋                                 | 22464/40000 [27:10<20:39, 14.15it/s]

tensor(4.3488, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▋                                 | 22474/40000 [27:10<20:41, 14.12it/s]

tensor(4.4431, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▋                                 | 22484/40000 [27:11<20:33, 14.20it/s]

tensor(4.4739, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▋                                 | 22494/40000 [27:12<20:33, 14.19it/s]

tensor(4.3744, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▊                                 | 22504/40000 [27:12<20:35, 14.16it/s]

tensor(4.3396, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▊                                 | 22514/40000 [27:13<20:35, 14.15it/s]

tensor(4.4225, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▊                                 | 22524/40000 [27:14<20:31, 14.19it/s]

tensor(4.4274, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▊                                 | 22534/40000 [27:15<20:29, 14.20it/s]

tensor(4.3849, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▊                                 | 22544/40000 [27:15<20:36, 14.11it/s]

tensor(4.3706, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▊                                 | 22554/40000 [27:16<20:30, 14.18it/s]

tensor(4.3661, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▊                                 | 22564/40000 [27:17<20:26, 14.21it/s]

tensor(4.3404, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▉                                 | 22574/40000 [27:17<20:27, 14.19it/s]

tensor(4.3354, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▉                                 | 22584/40000 [27:18<20:27, 14.18it/s]

tensor(4.4146, device='cuda:0', grad_fn=<NllLossBackward0>)


 56%|██████████████████████████████████████████▉                                 | 22594/40000 [27:19<20:26, 14.19it/s]

tensor(4.3960, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|██████████████████████████████████████████▉                                 | 22604/40000 [27:19<20:28, 14.17it/s]

tensor(4.5038, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|██████████████████████████████████████████▉                                 | 22614/40000 [27:20<20:26, 14.17it/s]

tensor(4.3059, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|██████████████████████████████████████████▉                                 | 22624/40000 [27:21<20:25, 14.18it/s]

tensor(4.3859, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████                                 | 22634/40000 [27:22<20:25, 14.17it/s]

tensor(4.3787, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████                                 | 22644/40000 [27:22<20:27, 14.14it/s]

tensor(4.3776, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████                                 | 22654/40000 [27:23<20:21, 14.20it/s]

tensor(4.3709, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████                                 | 22664/40000 [27:24<20:22, 14.18it/s]

tensor(4.4118, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████                                 | 22674/40000 [27:24<20:23, 14.16it/s]

tensor(4.3323, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████                                 | 22684/40000 [27:25<20:21, 14.18it/s]

tensor(4.4661, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████                                 | 22694/40000 [27:26<20:18, 14.21it/s]

tensor(4.4266, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▏                                | 22704/40000 [27:26<20:16, 14.21it/s]

tensor(4.3507, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▏                                | 22714/40000 [27:27<20:20, 14.16it/s]

tensor(4.4387, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▏                                | 22724/40000 [27:28<20:17, 14.19it/s]

tensor(4.3717, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▏                                | 22734/40000 [27:29<20:17, 14.18it/s]

tensor(4.4818, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▏                                | 22744/40000 [27:29<20:18, 14.17it/s]

tensor(4.3689, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▏                                | 22754/40000 [27:30<20:15, 14.19it/s]

tensor(4.3400, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▎                                | 22764/40000 [27:31<20:16, 14.17it/s]

tensor(4.3813, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▎                                | 22774/40000 [27:31<20:17, 14.15it/s]

tensor(4.3725, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▎                                | 22784/40000 [27:32<20:16, 14.15it/s]

tensor(4.4181, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▎                                | 22794/40000 [27:33<20:12, 14.19it/s]

tensor(4.2949, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▎                                | 22804/40000 [27:34<20:10, 14.20it/s]

tensor(4.3665, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▎                                | 22814/40000 [27:34<20:16, 14.13it/s]

tensor(4.3831, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▎                                | 22824/40000 [27:35<20:25, 14.02it/s]

tensor(4.3864, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▍                                | 22834/40000 [27:36<20:14, 14.13it/s]

tensor(4.3293, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▍                                | 22844/40000 [27:36<20:11, 14.16it/s]

tensor(4.3789, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▍                                | 22854/40000 [27:37<20:05, 14.22it/s]

tensor(4.4460, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▍                                | 22864/40000 [27:38<20:09, 14.17it/s]

tensor(4.3718, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▍                                | 22874/40000 [27:38<20:10, 14.14it/s]

tensor(4.3132, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▍                                | 22884/40000 [27:39<20:10, 14.14it/s]

tensor(4.3123, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▍                                | 22894/40000 [27:40<20:05, 14.19it/s]

tensor(4.4764, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▌                                | 22904/40000 [27:41<20:05, 14.18it/s]

tensor(4.2880, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▌                                | 22914/40000 [27:41<20:09, 14.13it/s]

tensor(4.3668, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▌                                | 22924/40000 [27:42<20:02, 14.21it/s]

tensor(4.3443, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▌                                | 22934/40000 [27:43<20:02, 14.19it/s]

tensor(4.3358, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▌                                | 22944/40000 [27:43<20:05, 14.15it/s]

tensor(4.4538, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▌                                | 22954/40000 [27:44<20:04, 14.15it/s]

tensor(4.4036, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▋                                | 22964/40000 [27:45<20:00, 14.20it/s]

tensor(4.3442, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▋                                | 22974/40000 [27:46<19:56, 14.23it/s]

tensor(4.4698, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▋                                | 22984/40000 [27:46<20:06, 14.11it/s]

tensor(4.3470, device='cuda:0', grad_fn=<NllLossBackward0>)


 57%|███████████████████████████████████████████▋                                | 22994/40000 [27:47<20:05, 14.11it/s]

tensor(4.4394, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▋                                | 23004/40000 [27:48<21:38, 13.08it/s]

tensor(4.3416, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▋                                | 23014/40000 [27:49<23:38, 11.97it/s]

tensor(4.4509, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▋                                | 23024/40000 [27:49<22:31, 12.57it/s]

tensor(4.3553, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▊                                | 23034/40000 [27:50<21:24, 13.21it/s]

tensor(4.4173, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▊                                | 23044/40000 [27:51<20:31, 13.77it/s]

tensor(4.3671, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▊                                | 23054/40000 [27:52<21:29, 13.14it/s]

tensor(4.3505, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▊                                | 23064/40000 [27:52<20:23, 13.85it/s]

tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▊                                | 23074/40000 [27:53<20:08, 14.00it/s]

tensor(4.4599, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▊                                | 23084/40000 [27:54<20:09, 13.98it/s]

tensor(4.3185, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▉                                | 23094/40000 [27:54<20:49, 13.53it/s]

tensor(4.3141, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▉                                | 23104/40000 [27:55<20:15, 13.90it/s]

tensor(4.4030, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▉                                | 23114/40000 [27:56<20:07, 13.99it/s]

tensor(4.3557, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▉                                | 23124/40000 [27:57<22:02, 12.76it/s]

tensor(4.4668, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▉                                | 23134/40000 [27:57<20:22, 13.80it/s]

tensor(4.4601, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▉                                | 23144/40000 [27:58<20:13, 13.89it/s]

tensor(4.4203, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|███████████████████████████████████████████▉                                | 23154/40000 [27:59<20:44, 13.54it/s]

tensor(4.4034, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████                                | 23164/40000 [28:00<20:13, 13.87it/s]

tensor(4.2990, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████                                | 23174/40000 [28:00<22:50, 12.28it/s]

tensor(4.4513, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████                                | 23184/40000 [28:01<21:33, 13.00it/s]

tensor(4.4228, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████                                | 23194/40000 [28:02<21:11, 13.22it/s]

tensor(4.3842, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████                                | 23204/40000 [28:03<22:46, 12.29it/s]

tensor(4.3917, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████                                | 23214/40000 [28:04<23:04, 12.13it/s]

tensor(4.4393, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▏                               | 23224/40000 [28:04<21:05, 13.25it/s]

tensor(4.3702, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▏                               | 23234/40000 [28:05<23:19, 11.98it/s]

tensor(4.3503, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▏                               | 23244/40000 [28:06<21:29, 12.99it/s]

tensor(4.3524, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▏                               | 23254/40000 [28:07<20:57, 13.32it/s]

tensor(4.3917, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▏                               | 23264/40000 [28:07<20:39, 13.50it/s]

tensor(4.2913, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▏                               | 23274/40000 [28:08<21:05, 13.22it/s]

tensor(4.4833, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▏                               | 23284/40000 [28:09<20:54, 13.33it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▎                               | 23294/40000 [28:10<19:41, 14.14it/s]

tensor(4.3242, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▎                               | 23304/40000 [28:10<20:51, 13.34it/s]

tensor(4.3855, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▎                               | 23314/40000 [28:11<21:20, 13.03it/s]

tensor(4.4594, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▎                               | 23324/40000 [28:12<22:56, 12.12it/s]

tensor(4.4007, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▎                               | 23334/40000 [28:13<21:38, 12.83it/s]

tensor(4.4225, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▎                               | 23344/40000 [28:14<20:55, 13.27it/s]

tensor(4.3999, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▎                               | 23354/40000 [28:14<20:30, 13.53it/s]

tensor(4.4519, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▍                               | 23364/40000 [28:15<20:40, 13.41it/s]

tensor(4.4065, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▍                               | 23374/40000 [28:16<20:03, 13.81it/s]

tensor(4.3470, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▍                               | 23384/40000 [28:16<19:58, 13.87it/s]

tensor(4.3280, device='cuda:0', grad_fn=<NllLossBackward0>)


 58%|████████████████████████████████████████████▍                               | 23394/40000 [28:17<20:17, 13.64it/s]

tensor(4.3654, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▍                               | 23404/40000 [28:18<20:38, 13.40it/s]

tensor(4.3700, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▍                               | 23414/40000 [28:19<20:24, 13.54it/s]

tensor(4.4124, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▌                               | 23424/40000 [28:19<21:34, 12.81it/s]

tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▌                               | 23434/40000 [28:20<20:20, 13.57it/s]

tensor(4.3534, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▌                               | 23444/40000 [28:21<19:43, 13.99it/s]

tensor(4.3893, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▌                               | 23454/40000 [28:22<19:51, 13.88it/s]

tensor(4.3719, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▌                               | 23464/40000 [28:22<19:30, 14.13it/s]

tensor(4.4279, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▌                               | 23474/40000 [28:23<19:10, 14.37it/s]

tensor(4.3541, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▌                               | 23484/40000 [28:24<20:29, 13.43it/s]

tensor(4.2902, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▋                               | 23494/40000 [28:25<19:57, 13.78it/s]

tensor(4.3734, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▋                               | 23504/40000 [28:25<20:20, 13.51it/s]

tensor(4.4702, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▋                               | 23514/40000 [28:26<19:47, 13.88it/s]

tensor(4.4353, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▋                               | 23524/40000 [28:27<20:23, 13.47it/s]

tensor(4.3442, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▋                               | 23534/40000 [28:27<20:29, 13.40it/s]

tensor(4.3458, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▋                               | 23544/40000 [28:28<20:47, 13.19it/s]

tensor(4.3619, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▊                               | 23554/40000 [28:29<20:41, 13.24it/s]

tensor(4.5326, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▊                               | 23564/40000 [28:30<19:33, 14.01it/s]

tensor(4.3796, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▊                               | 23574/40000 [28:30<19:46, 13.85it/s]

tensor(4.3846, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▊                               | 23584/40000 [28:31<19:35, 13.97it/s]

tensor(4.2902, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▊                               | 23594/40000 [28:32<19:26, 14.07it/s]

tensor(4.4771, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▊                               | 23604/40000 [28:33<20:55, 13.06it/s]

tensor(4.3477, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▊                               | 23614/40000 [28:33<20:02, 13.63it/s]

tensor(4.4726, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▉                               | 23624/40000 [28:34<21:39, 12.61it/s]

tensor(4.3290, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▉                               | 23634/40000 [28:35<19:45, 13.81it/s]

tensor(4.3737, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▉                               | 23644/40000 [28:36<19:47, 13.78it/s]

tensor(4.3977, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▉                               | 23654/40000 [28:36<19:28, 13.99it/s]

tensor(4.4263, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▉                               | 23664/40000 [28:37<19:02, 14.29it/s]

tensor(4.3463, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▉                               | 23674/40000 [28:38<18:59, 14.33it/s]

tensor(4.3613, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|████████████████████████████████████████████▉                               | 23684/40000 [28:38<19:16, 14.11it/s]

tensor(4.3697, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████                               | 23694/40000 [28:39<19:18, 14.07it/s]

tensor(4.4689, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████                               | 23704/40000 [28:40<19:17, 14.08it/s]

tensor(4.3936, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████                               | 23714/40000 [28:41<19:21, 14.02it/s]

tensor(4.4749, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████                               | 23724/40000 [28:41<19:09, 14.16it/s]

tensor(4.4728, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████                               | 23734/40000 [28:42<19:43, 13.75it/s]

tensor(4.3852, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████                               | 23744/40000 [28:43<22:11, 12.21it/s]

tensor(4.2523, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████▏                              | 23754/40000 [28:44<21:31, 12.58it/s]

tensor(4.4336, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████▏                              | 23764/40000 [28:44<22:38, 11.95it/s]

tensor(4.3343, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████▏                              | 23774/40000 [28:45<23:53, 11.32it/s]

tensor(4.3665, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████▏                              | 23784/40000 [28:46<23:39, 11.42it/s]

tensor(4.3344, device='cuda:0', grad_fn=<NllLossBackward0>)


 59%|█████████████████████████████████████████████▏                              | 23794/40000 [28:47<24:36, 10.98it/s]

tensor(4.3858, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▏                              | 23804/40000 [28:48<21:21, 12.64it/s]

tensor(4.4750, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▏                              | 23814/40000 [28:49<20:28, 13.17it/s]

tensor(4.3439, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▎                              | 23824/40000 [28:49<20:21, 13.24it/s]

tensor(4.4298, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▎                              | 23834/40000 [28:50<20:21, 13.24it/s]

tensor(4.3870, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▎                              | 23844/40000 [28:51<20:07, 13.38it/s]

tensor(4.3461, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▎                              | 23854/40000 [28:52<20:10, 13.34it/s]

tensor(4.4239, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▎                              | 23864/40000 [28:52<20:11, 13.32it/s]

tensor(4.3441, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▎                              | 23874/40000 [28:53<20:10, 13.32it/s]

tensor(4.3824, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▍                              | 23884/40000 [28:54<20:05, 13.37it/s]

tensor(4.3372, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▍                              | 23894/40000 [28:55<20:08, 13.33it/s]

tensor(4.3723, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▍                              | 23904/40000 [28:55<20:06, 13.34it/s]

tensor(4.3456, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▍                              | 23914/40000 [28:56<20:07, 13.33it/s]

tensor(4.3359, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▍                              | 23924/40000 [28:57<20:04, 13.35it/s]

tensor(4.2790, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▍                              | 23934/40000 [28:58<20:04, 13.34it/s]

tensor(4.3687, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▍                              | 23944/40000 [28:58<20:03, 13.34it/s]

tensor(4.3731, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▌                              | 23954/40000 [28:59<20:00, 13.37it/s]

tensor(4.2379, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▌                              | 23964/40000 [29:00<20:01, 13.34it/s]

tensor(4.4589, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▌                              | 23974/40000 [29:01<20:02, 13.32it/s]

tensor(4.4212, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▌                              | 23984/40000 [29:01<20:01, 13.33it/s]

tensor(4.4186, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▌                              | 23994/40000 [29:02<20:02, 13.31it/s]

tensor(4.3733, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▌                              | 24004/40000 [29:03<19:58, 13.34it/s]

tensor(4.3830, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▋                              | 24014/40000 [29:04<19:58, 13.33it/s]

tensor(4.3426, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▋                              | 24024/40000 [29:04<19:59, 13.32it/s]

tensor(4.3959, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▋                              | 24034/40000 [29:05<19:58, 13.32it/s]

tensor(4.3500, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▋                              | 24044/40000 [29:06<19:57, 13.32it/s]

tensor(4.3792, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▋                              | 24054/40000 [29:07<19:55, 13.33it/s]

tensor(4.4489, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▋                              | 24064/40000 [29:07<19:56, 13.32it/s]

tensor(4.4371, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▋                              | 24074/40000 [29:08<19:54, 13.34it/s]

tensor(4.3778, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▊                              | 24084/40000 [29:09<19:54, 13.32it/s]

tensor(4.4576, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▊                              | 24094/40000 [29:10<19:54, 13.32it/s]

tensor(4.3889, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▊                              | 24104/40000 [29:10<19:52, 13.33it/s]

tensor(4.4439, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▊                              | 24114/40000 [29:11<19:47, 13.37it/s]

tensor(4.3345, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▊                              | 24124/40000 [29:12<19:45, 13.39it/s]

tensor(4.4737, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▊                              | 24134/40000 [29:13<19:51, 13.32it/s]

tensor(4.4542, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▊                              | 24144/40000 [29:13<19:49, 13.34it/s]

tensor(4.3197, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▉                              | 24154/40000 [29:14<19:44, 13.37it/s]

tensor(4.3604, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▉                              | 24164/40000 [29:15<19:47, 13.33it/s]

tensor(4.2884, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▉                              | 24174/40000 [29:16<19:48, 13.32it/s]

tensor(4.2794, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▉                              | 24184/40000 [29:16<19:48, 13.31it/s]

tensor(4.3629, device='cuda:0', grad_fn=<NllLossBackward0>)


 60%|█████████████████████████████████████████████▉                              | 24194/40000 [29:17<19:42, 13.36it/s]

tensor(4.4612, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|█████████████████████████████████████████████▉                              | 24204/40000 [29:18<19:40, 13.38it/s]

tensor(4.4247, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████                              | 24214/40000 [29:19<19:45, 13.31it/s]

tensor(4.3419, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████                              | 24224/40000 [29:19<19:38, 13.38it/s]

tensor(4.3811, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████                              | 24234/40000 [29:20<19:38, 13.37it/s]

tensor(4.3365, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████                              | 24244/40000 [29:21<19:40, 13.35it/s]

tensor(4.4362, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████                              | 24254/40000 [29:22<19:39, 13.35it/s]

tensor(4.3076, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████                              | 24264/40000 [29:22<20:51, 12.58it/s]

tensor(4.3553, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████                              | 24274/40000 [29:23<21:17, 12.31it/s]

tensor(4.3628, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▏                             | 24284/40000 [29:24<20:04, 13.04it/s]

tensor(4.4503, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▏                             | 24294/40000 [29:25<20:00, 13.09it/s]

tensor(4.4545, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▏                             | 24304/40000 [29:26<20:59, 12.46it/s]

tensor(4.4566, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▏                             | 24314/40000 [29:26<20:48, 12.57it/s]

tensor(4.3682, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▏                             | 24324/40000 [29:27<19:57, 13.09it/s]

tensor(4.3704, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▏                             | 24334/40000 [29:28<20:28, 12.75it/s]

tensor(4.2489, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▎                             | 24344/40000 [29:29<19:42, 13.24it/s]

tensor(4.4026, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▎                             | 24354/40000 [29:29<19:37, 13.28it/s]

tensor(4.4229, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▎                             | 24364/40000 [29:30<19:34, 13.31it/s]

tensor(4.3216, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▎                             | 24374/40000 [29:31<19:34, 13.31it/s]

tensor(4.4615, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▎                             | 24384/40000 [29:32<19:34, 13.30it/s]

tensor(4.3790, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▎                             | 24394/40000 [29:32<19:21, 13.43it/s]

tensor(4.3452, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▎                             | 24404/40000 [29:33<19:56, 13.03it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▍                             | 24414/40000 [29:34<19:36, 13.25it/s]

tensor(4.4394, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▍                             | 24424/40000 [29:35<21:15, 12.22it/s]

tensor(4.4499, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▍                             | 24434/40000 [29:36<20:05, 12.91it/s]

tensor(4.3372, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▍                             | 24444/40000 [29:36<19:53, 13.04it/s]

tensor(4.4234, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▍                             | 24454/40000 [29:37<19:29, 13.29it/s]

tensor(4.4502, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▍                             | 24464/40000 [29:38<21:36, 11.98it/s]

tensor(4.3295, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▌                             | 24474/40000 [29:39<21:18, 12.14it/s]

tensor(4.4352, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▌                             | 24484/40000 [29:39<20:26, 12.65it/s]

tensor(4.3896, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▌                             | 24494/40000 [29:40<19:47, 13.06it/s]

tensor(4.4196, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▌                             | 24504/40000 [29:41<19:41, 13.11it/s]

tensor(4.4578, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▌                             | 24514/40000 [29:42<20:43, 12.45it/s]

tensor(4.3286, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▌                             | 24524/40000 [29:43<19:37, 13.15it/s]

tensor(4.3736, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▌                             | 24534/40000 [29:43<19:30, 13.21it/s]

tensor(4.4050, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▋                             | 24544/40000 [29:44<19:19, 13.33it/s]

tensor(4.3065, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▋                             | 24554/40000 [29:45<19:22, 13.28it/s]

tensor(4.3084, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▋                             | 24564/40000 [29:46<19:21, 13.29it/s]

tensor(4.3731, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▋                             | 24574/40000 [29:46<19:25, 13.23it/s]

tensor(4.2762, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▋                             | 24584/40000 [29:47<19:20, 13.28it/s]

tensor(4.4163, device='cuda:0', grad_fn=<NllLossBackward0>)


 61%|██████████████████████████████████████████████▋                             | 24594/40000 [29:48<19:20, 13.28it/s]

tensor(4.3837, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▋                             | 24604/40000 [29:49<19:17, 13.31it/s]

tensor(4.4482, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▊                             | 24614/40000 [29:49<19:16, 13.30it/s]

tensor(4.3660, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▊                             | 24624/40000 [29:50<19:12, 13.34it/s]

tensor(4.3684, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▊                             | 24634/40000 [29:51<19:17, 13.28it/s]

tensor(4.4883, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▊                             | 24644/40000 [29:52<19:17, 13.26it/s]

tensor(4.3917, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▊                             | 24654/40000 [29:52<20:59, 12.18it/s]

tensor(4.3850, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▊                             | 24664/40000 [29:53<21:15, 12.03it/s]

tensor(4.3872, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▉                             | 24674/40000 [29:54<19:31, 13.08it/s]

tensor(4.4078, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▉                             | 24684/40000 [29:55<21:55, 11.65it/s]

tensor(4.3588, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▉                             | 24694/40000 [29:56<20:41, 12.33it/s]

tensor(4.2902, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▉                             | 24704/40000 [29:56<19:29, 13.08it/s]

tensor(4.3797, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▉                             | 24714/40000 [29:57<19:15, 13.23it/s]

tensor(4.3742, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▉                             | 24724/40000 [29:58<19:20, 13.17it/s]

tensor(4.3997, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|██████████████████████████████████████████████▉                             | 24734/40000 [29:59<19:30, 13.05it/s]

tensor(4.3993, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████                             | 24744/40000 [29:59<19:11, 13.25it/s]

tensor(4.4355, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████                             | 24754/40000 [30:00<19:03, 13.33it/s]

tensor(4.3039, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████                             | 24764/40000 [30:01<19:06, 13.29it/s]

tensor(4.3848, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████                             | 24774/40000 [30:02<19:09, 13.24it/s]

tensor(4.3961, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████                             | 24784/40000 [30:02<19:04, 13.29it/s]

tensor(4.3831, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████                             | 24794/40000 [30:03<19:00, 13.33it/s]

tensor(4.4771, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▏                            | 24804/40000 [30:04<18:57, 13.36it/s]

tensor(4.4055, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▏                            | 24814/40000 [30:05<18:59, 13.33it/s]

tensor(4.3319, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▏                            | 24824/40000 [30:05<19:04, 13.26it/s]

tensor(4.4198, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▏                            | 24834/40000 [30:06<18:59, 13.31it/s]

tensor(4.3358, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▏                            | 24844/40000 [30:07<19:04, 13.24it/s]

tensor(4.3582, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▏                            | 24854/40000 [30:08<18:56, 13.32it/s]

tensor(4.4119, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▏                            | 24864/40000 [30:08<18:59, 13.28it/s]

tensor(4.3138, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▎                            | 24874/40000 [30:09<18:56, 13.31it/s]

tensor(4.4174, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▎                            | 24884/40000 [30:10<18:56, 13.30it/s]

tensor(4.3432, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▎                            | 24894/40000 [30:11<18:53, 13.33it/s]

tensor(4.3631, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▎                            | 24904/40000 [30:11<18:59, 13.25it/s]

tensor(4.4284, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▎                            | 24914/40000 [30:12<18:49, 13.36it/s]

tensor(4.4118, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▎                            | 24924/40000 [30:13<18:54, 13.29it/s]

tensor(4.3035, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▎                            | 24934/40000 [30:14<18:51, 13.32it/s]

tensor(4.3268, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▍                            | 24944/40000 [30:14<18:58, 13.23it/s]

tensor(4.3279, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▍                            | 24954/40000 [30:15<19:31, 12.85it/s]

tensor(4.4607, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▍                            | 24964/40000 [30:16<20:16, 12.36it/s]

tensor(4.4555, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▍                            | 24974/40000 [30:17<19:12, 13.04it/s]

tensor(4.4717, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▍                            | 24984/40000 [30:18<18:14, 13.72it/s]

tensor(4.4012, device='cuda:0', grad_fn=<NllLossBackward0>)


 62%|███████████████████████████████████████████████▍                            | 24994/40000 [30:18<18:07, 13.79it/s]

tensor(4.4978, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▌                            | 25004/40000 [30:19<17:56, 13.93it/s]

tensor(4.4080, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▌                            | 25014/40000 [30:20<17:55, 13.94it/s]

tensor(4.4292, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▌                            | 25024/40000 [30:20<17:58, 13.89it/s]

tensor(4.3125, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▌                            | 25034/40000 [30:21<19:39, 12.69it/s]

tensor(4.3466, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▌                            | 25044/40000 [30:22<20:03, 12.42it/s]

tensor(4.3802, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▌                            | 25054/40000 [30:23<19:02, 13.08it/s]

tensor(4.3994, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▌                            | 25064/40000 [30:24<19:52, 12.52it/s]

tensor(4.3921, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▋                            | 25074/40000 [30:24<21:13, 11.72it/s]

tensor(4.3423, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▋                            | 25084/40000 [30:25<19:41, 12.63it/s]

tensor(4.3948, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▋                            | 25094/40000 [30:26<18:27, 13.46it/s]

tensor(4.2972, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▋                            | 25104/40000 [30:27<18:15, 13.60it/s]

tensor(4.3261, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▋                            | 25114/40000 [30:27<20:08, 12.32it/s]

tensor(4.3101, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▋                            | 25124/40000 [30:28<19:58, 12.41it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▊                            | 25134/40000 [30:29<20:28, 12.10it/s]

tensor(4.3008, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▊                            | 25144/40000 [30:30<18:36, 13.31it/s]

tensor(4.4331, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▊                            | 25154/40000 [30:31<17:52, 13.85it/s]

tensor(4.3316, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▊                            | 25164/40000 [30:31<18:01, 13.72it/s]

tensor(4.3115, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▊                            | 25174/40000 [30:32<17:40, 13.98it/s]

tensor(4.4732, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▊                            | 25184/40000 [30:33<17:36, 14.02it/s]

tensor(4.4065, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▊                            | 25194/40000 [30:33<17:37, 14.00it/s]

tensor(4.3891, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▉                            | 25204/40000 [30:34<18:24, 13.40it/s]

tensor(4.3336, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▉                            | 25214/40000 [30:35<17:42, 13.92it/s]

tensor(4.3723, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▉                            | 25224/40000 [30:36<18:54, 13.03it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▉                            | 25234/40000 [30:36<18:53, 13.03it/s]

tensor(4.4583, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▉                            | 25244/40000 [30:37<19:25, 12.66it/s]

tensor(4.5247, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|███████████████████████████████████████████████▉                            | 25254/40000 [30:38<19:06, 12.87it/s]

tensor(4.3337, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████                            | 25264/40000 [30:39<18:27, 13.30it/s]

tensor(4.3879, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████                            | 25274/40000 [30:39<18:05, 13.57it/s]

tensor(4.3175, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████                            | 25284/40000 [30:40<19:00, 12.91it/s]

tensor(4.3730, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████                            | 25294/40000 [30:41<17:54, 13.68it/s]

tensor(4.4752, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████                            | 25304/40000 [30:42<19:21, 12.65it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████                            | 25314/40000 [30:43<20:15, 12.09it/s]

tensor(4.4263, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████                            | 25324/40000 [30:43<21:04, 11.60it/s]

tensor(4.3712, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████▏                           | 25334/40000 [30:44<21:11, 11.54it/s]

tensor(4.2895, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████▏                           | 25344/40000 [30:45<21:09, 11.55it/s]

tensor(4.4028, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████▏                           | 25354/40000 [30:46<19:06, 12.77it/s]

tensor(4.4627, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████▏                           | 25364/40000 [30:47<17:39, 13.82it/s]

tensor(4.4070, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████▏                           | 25374/40000 [30:47<17:27, 13.96it/s]

tensor(4.3814, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████▏                           | 25384/40000 [30:48<17:20, 14.04it/s]

tensor(4.3864, device='cuda:0', grad_fn=<NllLossBackward0>)


 63%|████████████████████████████████████████████████▏                           | 25394/40000 [30:49<17:38, 13.80it/s]

tensor(4.4717, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▎                           | 25404/40000 [30:50<17:42, 13.74it/s]

tensor(4.2974, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▎                           | 25414/40000 [30:50<17:30, 13.88it/s]

tensor(4.3771, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▎                           | 25424/40000 [30:51<17:21, 14.00it/s]

tensor(4.3165, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▎                           | 25434/40000 [30:52<17:30, 13.87it/s]

tensor(4.3518, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▎                           | 25444/40000 [30:52<17:37, 13.76it/s]

tensor(4.4979, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▎                           | 25454/40000 [30:53<18:41, 12.97it/s]

tensor(4.3265, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▍                           | 25464/40000 [30:54<18:42, 12.95it/s]

tensor(4.4889, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▍                           | 25474/40000 [30:55<19:30, 12.42it/s]

tensor(4.4869, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▍                           | 25484/40000 [30:56<17:55, 13.50it/s]

tensor(4.4411, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▍                           | 25494/40000 [30:56<17:28, 13.84it/s]

tensor(4.3537, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▍                           | 25504/40000 [30:57<17:31, 13.78it/s]

tensor(4.3136, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▍                           | 25514/40000 [30:58<18:09, 13.30it/s]

tensor(4.3788, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▍                           | 25524/40000 [30:58<17:25, 13.84it/s]

tensor(4.4061, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▌                           | 25534/40000 [30:59<17:05, 14.10it/s]

tensor(4.4779, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▌                           | 25544/40000 [31:00<17:15, 13.95it/s]

tensor(4.3325, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▌                           | 25554/40000 [31:01<17:04, 14.09it/s]

tensor(4.3049, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▌                           | 25564/40000 [31:01<17:12, 13.98it/s]

tensor(4.4343, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▌                           | 25574/40000 [31:02<17:24, 13.82it/s]

tensor(4.3933, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▌                           | 25584/40000 [31:03<18:16, 13.15it/s]

tensor(4.4502, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▋                           | 25594/40000 [31:04<17:53, 13.41it/s]

tensor(4.4181, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▋                           | 25604/40000 [31:04<18:38, 12.88it/s]

tensor(4.4437, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▋                           | 25614/40000 [31:05<18:02, 13.29it/s]

tensor(4.4361, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▋                           | 25624/40000 [31:06<18:04, 13.25it/s]

tensor(4.3570, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▋                           | 25634/40000 [31:07<18:35, 12.88it/s]

tensor(4.3634, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▋                           | 25644/40000 [31:07<17:55, 13.35it/s]

tensor(4.4172, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▋                           | 25654/40000 [31:08<17:38, 13.56it/s]

tensor(4.4596, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▊                           | 25664/40000 [31:09<17:55, 13.32it/s]

tensor(4.4098, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▊                           | 25674/40000 [31:10<18:29, 12.91it/s]

tensor(4.3550, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▊                           | 25684/40000 [31:10<17:19, 13.78it/s]

tensor(4.3926, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▊                           | 25694/40000 [31:11<16:55, 14.08it/s]

tensor(4.3981, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▊                           | 25704/40000 [31:12<16:31, 14.42it/s]

tensor(4.2880, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▊                           | 25714/40000 [31:12<16:50, 14.14it/s]

tensor(4.3995, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▉                           | 25724/40000 [31:13<17:03, 13.95it/s]

tensor(4.3972, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▉                           | 25734/40000 [31:14<18:32, 12.82it/s]

tensor(4.4599, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▉                           | 25744/40000 [31:15<17:04, 13.92it/s]

tensor(4.4013, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▉                           | 25754/40000 [31:15<16:57, 14.01it/s]

tensor(4.3426, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▉                           | 25764/40000 [31:16<17:03, 13.90it/s]

tensor(4.4127, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▉                           | 25774/40000 [31:17<17:49, 13.30it/s]

tensor(4.3265, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|████████████████████████████████████████████████▉                           | 25784/40000 [31:17<16:46, 14.12it/s]

tensor(4.2981, device='cuda:0', grad_fn=<NllLossBackward0>)


 64%|█████████████████████████████████████████████████                           | 25794/40000 [31:18<16:35, 14.27it/s]

tensor(4.3761, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████                           | 25804/40000 [31:19<16:28, 14.37it/s]

tensor(4.4339, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████                           | 25814/40000 [31:20<16:42, 14.15it/s]

tensor(4.4428, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████                           | 25824/40000 [31:20<16:33, 14.27it/s]

tensor(4.3122, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████                           | 25834/40000 [31:21<16:31, 14.29it/s]

tensor(4.3927, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████                           | 25844/40000 [31:22<16:43, 14.11it/s]

tensor(4.4341, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████                           | 25854/40000 [31:22<16:33, 14.24it/s]

tensor(4.2809, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▏                          | 25864/40000 [31:23<16:35, 14.20it/s]

tensor(4.2683, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▏                          | 25874/40000 [31:24<16:39, 14.14it/s]

tensor(4.4361, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▏                          | 25884/40000 [31:25<16:51, 13.95it/s]

tensor(4.3335, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▏                          | 25894/40000 [31:25<17:18, 13.58it/s]

tensor(4.4043, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▏                          | 25904/40000 [31:26<16:37, 14.13it/s]

tensor(4.3271, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▏                          | 25914/40000 [31:27<16:34, 14.17it/s]

tensor(4.3981, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▎                          | 25924/40000 [31:27<16:50, 13.94it/s]

tensor(4.4193, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▎                          | 25934/40000 [31:28<16:23, 14.30it/s]

tensor(4.4003, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▎                          | 25944/40000 [31:29<16:21, 14.32it/s]

tensor(4.4374, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▎                          | 25954/40000 [31:30<16:52, 13.87it/s]

tensor(4.4325, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▎                          | 25964/40000 [31:30<16:27, 14.21it/s]

tensor(4.3907, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▎                          | 25974/40000 [31:31<16:27, 14.20it/s]

tensor(4.4833, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▎                          | 25984/40000 [31:32<16:45, 13.93it/s]

tensor(4.3304, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▍                          | 25994/40000 [31:32<17:06, 13.64it/s]

tensor(4.4155, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▍                          | 26004/40000 [31:33<16:58, 13.74it/s]

tensor(4.3647, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▍                          | 26014/40000 [31:34<16:51, 13.83it/s]

tensor(4.4288, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▍                          | 26024/40000 [31:35<16:46, 13.88it/s]

tensor(4.3878, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▍                          | 26034/40000 [31:35<16:33, 14.05it/s]

tensor(4.3997, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▍                          | 26044/40000 [31:36<16:33, 14.05it/s]

tensor(4.4044, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▌                          | 26054/40000 [31:37<16:54, 13.75it/s]

tensor(4.3993, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▌                          | 26064/40000 [31:37<17:15, 13.46it/s]

tensor(4.3570, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▌                          | 26074/40000 [31:38<16:49, 13.80it/s]

tensor(4.2974, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▌                          | 26084/40000 [31:39<16:52, 13.74it/s]

tensor(4.3797, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▌                          | 26094/40000 [31:40<16:42, 13.87it/s]

tensor(4.4075, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▌                          | 26104/40000 [31:40<16:34, 13.98it/s]

tensor(4.3898, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▌                          | 26114/40000 [31:41<16:41, 13.87it/s]

tensor(4.3778, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▋                          | 26124/40000 [31:42<16:40, 13.87it/s]

tensor(4.4645, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▋                          | 26134/40000 [31:42<16:12, 14.25it/s]

tensor(4.3820, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▋                          | 26144/40000 [31:43<16:15, 14.20it/s]

tensor(4.4019, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▋                          | 26154/40000 [31:44<16:44, 13.79it/s]

tensor(4.4399, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▋                          | 26164/40000 [31:44<16:14, 14.20it/s]

tensor(4.3164, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▋                          | 26174/40000 [31:45<16:14, 14.19it/s]

tensor(4.3280, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▋                          | 26184/40000 [31:46<16:06, 14.30it/s]

tensor(4.3680, device='cuda:0', grad_fn=<NllLossBackward0>)


 65%|█████████████████████████████████████████████████▊                          | 26194/40000 [31:47<16:17, 14.13it/s]

tensor(4.4611, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▊                          | 26204/40000 [31:47<16:10, 14.21it/s]

tensor(4.4208, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▊                          | 26214/40000 [31:48<16:30, 13.92it/s]

tensor(4.4111, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▊                          | 26224/40000 [31:49<16:16, 14.10it/s]

tensor(4.4258, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▊                          | 26234/40000 [31:49<16:03, 14.28it/s]

tensor(4.3900, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▊                          | 26244/40000 [31:50<16:03, 14.28it/s]

tensor(4.3287, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▉                          | 26254/40000 [31:51<15:54, 14.41it/s]

tensor(4.3147, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▉                          | 26264/40000 [31:52<16:16, 14.06it/s]

tensor(4.4679, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▉                          | 26274/40000 [31:52<16:01, 14.28it/s]

tensor(4.3096, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▉                          | 26284/40000 [31:53<16:31, 13.83it/s]

tensor(4.3630, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▉                          | 26294/40000 [31:54<16:13, 14.08it/s]

tensor(4.3748, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▉                          | 26304/40000 [31:54<16:23, 13.93it/s]

tensor(4.3870, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|█████████████████████████████████████████████████▉                          | 26314/40000 [31:55<16:26, 13.87it/s]

tensor(4.3573, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████                          | 26324/40000 [31:56<16:30, 13.81it/s]

tensor(4.3633, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████                          | 26334/40000 [31:57<15:52, 14.34it/s]

tensor(4.3824, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████                          | 26344/40000 [31:57<16:05, 14.14it/s]

tensor(4.4760, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████                          | 26354/40000 [31:58<16:31, 13.76it/s]

tensor(4.3769, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████                          | 26364/40000 [31:59<16:09, 14.06it/s]

tensor(4.4046, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████                          | 26374/40000 [31:59<16:00, 14.19it/s]

tensor(4.3024, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▏                         | 26384/40000 [32:00<15:53, 14.28it/s]

tensor(4.4453, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▏                         | 26394/40000 [32:01<16:18, 13.90it/s]

tensor(4.3713, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▏                         | 26404/40000 [32:01<16:03, 14.11it/s]

tensor(4.4779, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▏                         | 26414/40000 [32:02<15:55, 14.22it/s]

tensor(4.2833, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▏                         | 26424/40000 [32:03<15:42, 14.41it/s]

tensor(4.4614, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▏                         | 26434/40000 [32:04<15:57, 14.17it/s]

tensor(4.3236, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▏                         | 26444/40000 [32:04<16:01, 14.10it/s]

tensor(4.3918, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▎                         | 26454/40000 [32:05<16:10, 13.96it/s]

tensor(4.3588, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▎                         | 26464/40000 [32:06<15:48, 14.28it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▎                         | 26474/40000 [32:06<15:45, 14.31it/s]

tensor(4.4116, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▎                         | 26484/40000 [32:07<16:08, 13.96it/s]

tensor(4.3596, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▎                         | 26494/40000 [32:08<16:01, 14.04it/s]

tensor(4.4115, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▎                         | 26504/40000 [32:09<15:52, 14.17it/s]

tensor(4.3279, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▍                         | 26514/40000 [32:09<15:45, 14.27it/s]

tensor(4.4388, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▍                         | 26524/40000 [32:10<15:48, 14.21it/s]

tensor(4.4127, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▍                         | 26534/40000 [32:11<15:52, 14.13it/s]

tensor(4.3330, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▍                         | 26544/40000 [32:11<16:12, 13.83it/s]

tensor(4.4060, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▍                         | 26554/40000 [32:12<16:13, 13.82it/s]

tensor(4.4141, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▍                         | 26564/40000 [32:13<15:50, 14.14it/s]

tensor(4.4100, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▍                         | 26574/40000 [32:14<16:08, 13.86it/s]

tensor(4.4183, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▌                         | 26584/40000 [32:14<15:59, 13.98it/s]

tensor(4.4102, device='cuda:0', grad_fn=<NllLossBackward0>)


 66%|██████████████████████████████████████████████████▌                         | 26594/40000 [32:15<16:02, 13.93it/s]

tensor(4.3320, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▌                         | 26604/40000 [32:16<15:54, 14.03it/s]

tensor(4.4415, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▌                         | 26614/40000 [32:16<15:50, 14.09it/s]

tensor(4.2676, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▌                         | 26624/40000 [32:17<16:08, 13.81it/s]

tensor(4.3401, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▌                         | 26634/40000 [32:18<15:38, 14.24it/s]

tensor(4.3838, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▌                         | 26644/40000 [32:19<15:42, 14.17it/s]

tensor(4.3786, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▋                         | 26654/40000 [32:19<15:36, 14.25it/s]

tensor(4.3988, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▋                         | 26664/40000 [32:20<15:40, 14.18it/s]

tensor(4.3910, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▋                         | 26674/40000 [32:21<16:06, 13.79it/s]

tensor(4.3470, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▋                         | 26684/40000 [32:21<15:54, 13.94it/s]

tensor(4.4036, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▋                         | 26694/40000 [32:22<15:54, 13.94it/s]

tensor(4.4249, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▋                         | 26704/40000 [32:23<15:41, 14.12it/s]

tensor(4.3651, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▊                         | 26714/40000 [32:23<15:37, 14.17it/s]

tensor(4.3284, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▊                         | 26724/40000 [32:24<15:39, 14.14it/s]

tensor(4.4068, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▊                         | 26734/40000 [32:25<15:31, 14.25it/s]

tensor(4.3618, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▊                         | 26744/40000 [32:26<15:39, 14.11it/s]

tensor(4.4967, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▊                         | 26754/40000 [32:26<15:51, 13.92it/s]

tensor(4.3963, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▊                         | 26764/40000 [32:27<15:48, 13.95it/s]

tensor(4.3266, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▊                         | 26774/40000 [32:28<15:38, 14.10it/s]

tensor(4.3413, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▉                         | 26784/40000 [32:28<15:27, 14.24it/s]

tensor(4.4942, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▉                         | 26794/40000 [32:29<15:24, 14.28it/s]

tensor(4.4123, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▉                         | 26804/40000 [32:30<15:20, 14.34it/s]

tensor(4.3594, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▉                         | 26814/40000 [32:31<15:15, 14.40it/s]

tensor(4.4690, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▉                         | 26824/40000 [32:31<15:51, 13.84it/s]

tensor(4.4433, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|██████████████████████████████████████████████████▉                         | 26834/40000 [32:32<15:33, 14.10it/s]

tensor(4.4000, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████                         | 26844/40000 [32:33<15:44, 13.93it/s]

tensor(4.3664, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████                         | 26854/40000 [32:33<15:41, 13.97it/s]

tensor(4.3018, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████                         | 26864/40000 [32:34<15:38, 14.00it/s]

tensor(4.3737, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████                         | 26874/40000 [32:35<15:27, 14.16it/s]

tensor(4.3687, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████                         | 26884/40000 [32:36<15:30, 14.09it/s]

tensor(4.3566, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████                         | 26894/40000 [32:36<15:40, 13.94it/s]

tensor(4.3841, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████                         | 26904/40000 [32:37<15:48, 13.80it/s]

tensor(4.3996, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▏                        | 26914/40000 [32:38<15:39, 13.93it/s]

tensor(4.3796, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▏                        | 26924/40000 [32:38<15:16, 14.27it/s]

tensor(4.3933, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▏                        | 26934/40000 [32:39<15:34, 13.99it/s]

tensor(4.2938, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▏                        | 26944/40000 [32:40<15:43, 13.84it/s]

tensor(4.3864, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▏                        | 26954/40000 [32:41<15:12, 14.29it/s]

tensor(4.3393, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▏                        | 26964/40000 [32:41<15:37, 13.91it/s]

tensor(4.3228, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▎                        | 26974/40000 [32:42<15:19, 14.16it/s]

tensor(4.3532, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▎                        | 26984/40000 [32:43<15:19, 14.16it/s]

tensor(4.3447, device='cuda:0', grad_fn=<NllLossBackward0>)


 67%|███████████████████████████████████████████████████▎                        | 26994/40000 [32:43<15:19, 14.15it/s]

tensor(4.3844, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▎                        | 27004/40000 [32:44<15:10, 14.28it/s]

tensor(4.4180, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▎                        | 27014/40000 [32:45<15:22, 14.08it/s]

tensor(4.3437, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▎                        | 27024/40000 [32:45<15:15, 14.18it/s]

tensor(4.4596, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▎                        | 27034/40000 [32:46<15:53, 13.60it/s]

tensor(4.3666, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▍                        | 27044/40000 [32:47<15:42, 13.74it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▍                        | 27054/40000 [32:48<15:17, 14.10it/s]

tensor(4.4160, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▍                        | 27064/40000 [32:48<15:16, 14.12it/s]

tensor(4.4512, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▍                        | 27074/40000 [32:49<15:11, 14.18it/s]

tensor(4.3260, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▍                        | 27084/40000 [32:50<15:24, 13.97it/s]

tensor(4.4560, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▍                        | 27094/40000 [32:50<14:59, 14.34it/s]

tensor(4.3902, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▍                        | 27104/40000 [32:51<15:00, 14.31it/s]

tensor(4.4605, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▌                        | 27114/40000 [32:52<15:10, 14.15it/s]

tensor(4.4309, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▌                        | 27124/40000 [32:53<15:02, 14.26it/s]

tensor(4.4141, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▌                        | 27134/40000 [32:53<15:35, 13.76it/s]

tensor(4.4595, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▌                        | 27144/40000 [32:54<15:25, 13.89it/s]

tensor(4.3604, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▌                        | 27154/40000 [32:55<14:56, 14.33it/s]

tensor(4.4017, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▌                        | 27164/40000 [32:55<15:05, 14.18it/s]

tensor(4.4039, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▋                        | 27174/40000 [32:56<15:08, 14.11it/s]

tensor(4.4032, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▋                        | 27184/40000 [32:57<15:27, 13.82it/s]

tensor(4.3944, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▋                        | 27194/40000 [32:58<17:52, 11.94it/s]

tensor(4.3558, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▋                        | 27204/40000 [32:58<17:04, 12.49it/s]

tensor(4.3144, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▋                        | 27214/40000 [32:59<16:27, 12.94it/s]

tensor(4.4323, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▋                        | 27224/40000 [33:00<16:15, 13.10it/s]

tensor(4.3848, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▋                        | 27234/40000 [33:01<15:57, 13.33it/s]

tensor(4.4529, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▊                        | 27244/40000 [33:02<16:42, 12.72it/s]

tensor(4.3196, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▊                        | 27252/40000 [33:02<18:12, 11.67it/s]

tensor(4.3279, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▊                        | 27264/40000 [33:03<18:13, 11.65it/s]

tensor(4.3884, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▊                        | 27274/40000 [33:04<15:35, 13.61it/s]

tensor(4.3930, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▊                        | 27284/40000 [33:05<17:14, 12.29it/s]

tensor(4.3597, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▊                        | 27294/40000 [33:06<17:21, 12.20it/s]

tensor(4.4145, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▉                        | 27304/40000 [33:06<16:02, 13.18it/s]

tensor(4.3260, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▉                        | 27314/40000 [33:07<15:18, 13.82it/s]

tensor(4.4186, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▉                        | 27324/40000 [33:08<16:20, 12.92it/s]

tensor(4.3499, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▉                        | 27334/40000 [33:09<15:10, 13.91it/s]

tensor(4.3573, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▉                        | 27344/40000 [33:09<14:41, 14.36it/s]

tensor(4.3592, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▉                        | 27354/40000 [33:10<14:57, 14.09it/s]

tensor(4.3860, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|███████████████████████████████████████████████████▉                        | 27364/40000 [33:11<16:59, 12.40it/s]

tensor(4.4109, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|████████████████████████████████████████████████████                        | 27374/40000 [33:11<15:50, 13.28it/s]

tensor(4.4407, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|████████████████████████████████████████████████████                        | 27384/40000 [33:12<15:32, 13.52it/s]

tensor(4.4706, device='cuda:0', grad_fn=<NllLossBackward0>)


 68%|████████████████████████████████████████████████████                        | 27394/40000 [33:13<15:10, 13.84it/s]

tensor(4.4414, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████                        | 27404/40000 [33:14<15:47, 13.29it/s]

tensor(4.3844, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████                        | 27414/40000 [33:14<15:10, 13.82it/s]

tensor(4.4514, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████                        | 27424/40000 [33:15<15:01, 13.95it/s]

tensor(4.4088, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████                        | 27434/40000 [33:16<15:02, 13.92it/s]

tensor(4.3944, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▏                       | 27444/40000 [33:17<17:41, 11.83it/s]

tensor(4.4466, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▏                       | 27454/40000 [33:18<18:04, 11.57it/s]

tensor(4.3882, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▏                       | 27464/40000 [33:18<17:56, 11.64it/s]

tensor(4.4050, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▏                       | 27474/40000 [33:19<15:12, 13.73it/s]

tensor(4.3182, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▏                       | 27484/40000 [33:20<14:52, 14.03it/s]

tensor(4.3052, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▏                       | 27494/40000 [33:21<14:51, 14.03it/s]

tensor(4.3218, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▎                       | 27504/40000 [33:21<16:56, 12.29it/s]

tensor(4.4239, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▎                       | 27514/40000 [33:22<15:39, 13.29it/s]

tensor(4.4704, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▎                       | 27524/40000 [33:23<15:16, 13.61it/s]

tensor(4.4357, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▎                       | 27534/40000 [33:24<14:44, 14.10it/s]

tensor(4.4029, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▎                       | 27544/40000 [33:24<14:48, 14.02it/s]

tensor(4.4445, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▎                       | 27554/40000 [33:25<14:33, 14.25it/s]

tensor(4.3883, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▎                       | 27564/40000 [33:26<15:40, 13.22it/s]

tensor(4.4117, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▍                       | 27574/40000 [33:26<15:48, 13.10it/s]

tensor(4.3950, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▍                       | 27584/40000 [33:27<16:27, 12.57it/s]

tensor(4.3681, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▍                       | 27594/40000 [33:28<15:17, 13.52it/s]

tensor(4.3793, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▍                       | 27604/40000 [33:29<15:02, 13.74it/s]

tensor(4.3315, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▍                       | 27614/40000 [33:29<14:42, 14.03it/s]

tensor(4.4026, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▍                       | 27624/40000 [33:30<14:43, 14.01it/s]

tensor(4.3942, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▌                       | 27634/40000 [33:31<14:45, 13.97it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▌                       | 27644/40000 [33:32<14:34, 14.13it/s]

tensor(4.4791, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▌                       | 27654/40000 [33:32<14:25, 14.27it/s]

tensor(4.3754, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▌                       | 27664/40000 [33:33<14:29, 14.18it/s]

tensor(4.4628, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▌                       | 27674/40000 [33:34<14:33, 14.11it/s]

tensor(4.4372, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▌                       | 27684/40000 [33:34<14:27, 14.19it/s]

tensor(4.4084, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▌                       | 27694/40000 [33:35<14:29, 14.16it/s]

tensor(4.4558, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▋                       | 27704/40000 [33:36<14:29, 14.13it/s]

tensor(4.3854, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▋                       | 27714/40000 [33:36<14:19, 14.29it/s]

tensor(4.3199, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▋                       | 27724/40000 [33:37<14:28, 14.13it/s]

tensor(4.5275, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▋                       | 27734/40000 [33:38<14:34, 14.02it/s]

tensor(4.4697, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▋                       | 27744/40000 [33:39<14:28, 14.11it/s]

tensor(4.3594, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▋                       | 27754/40000 [33:39<14:25, 14.15it/s]

tensor(4.4046, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▊                       | 27764/40000 [33:40<15:38, 13.04it/s]

tensor(4.4266, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▊                       | 27774/40000 [33:41<16:09, 12.61it/s]

tensor(4.4458, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▊                       | 27784/40000 [33:42<15:32, 13.10it/s]

tensor(4.3635, device='cuda:0', grad_fn=<NllLossBackward0>)


 69%|████████████████████████████████████████████████████▊                       | 27794/40000 [33:42<17:36, 11.56it/s]

tensor(4.3498, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▊                       | 27804/40000 [33:43<17:20, 11.72it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▊                       | 27814/40000 [33:44<15:43, 12.92it/s]

tensor(4.4125, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▊                       | 27824/40000 [33:45<16:57, 11.97it/s]

tensor(4.3751, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▉                       | 27834/40000 [33:46<15:30, 13.07it/s]

tensor(4.4278, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▉                       | 27844/40000 [33:46<15:09, 13.37it/s]

tensor(4.4345, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▉                       | 27854/40000 [33:47<16:16, 12.44it/s]

tensor(4.3056, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▉                       | 27864/40000 [33:48<17:26, 11.60it/s]

tensor(4.4018, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▉                       | 27874/40000 [33:49<17:30, 11.54it/s]

tensor(4.3413, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▉                       | 27884/40000 [33:50<16:28, 12.26it/s]

tensor(4.3209, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|████████████████████████████████████████████████████▉                       | 27894/40000 [33:51<15:51, 12.72it/s]

tensor(4.3734, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████                       | 27904/40000 [33:51<16:36, 12.13it/s]

tensor(4.4291, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████                       | 27914/40000 [33:52<18:04, 11.14it/s]

tensor(4.3900, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████                       | 27924/40000 [33:53<16:50, 11.94it/s]

tensor(4.3793, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████                       | 27934/40000 [33:54<17:57, 11.20it/s]

tensor(4.3980, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████                       | 27944/40000 [33:55<16:20, 12.29it/s]

tensor(4.4176, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████                       | 27954/40000 [33:56<17:42, 11.34it/s]

tensor(4.3608, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▏                      | 27964/40000 [33:56<17:29, 11.47it/s]

tensor(4.4051, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▏                      | 27974/40000 [33:57<17:47, 11.26it/s]

tensor(4.3301, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▏                      | 27984/40000 [33:58<15:54, 12.58it/s]

tensor(4.3073, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▏                      | 27994/40000 [33:59<15:07, 13.23it/s]

tensor(4.3719, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▏                      | 28004/40000 [34:00<15:02, 13.29it/s]

tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▏                      | 28014/40000 [34:00<15:09, 13.18it/s]

tensor(4.3189, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▏                      | 28024/40000 [34:01<14:53, 13.41it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▎                      | 28034/40000 [34:02<14:46, 13.50it/s]

tensor(4.3900, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▎                      | 28044/40000 [34:03<14:49, 13.44it/s]

tensor(4.3563, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▎                      | 28054/40000 [34:03<14:45, 13.49it/s]

tensor(4.4050, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▎                      | 28064/40000 [34:04<14:44, 13.49it/s]

tensor(4.4319, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▎                      | 28074/40000 [34:05<14:44, 13.48it/s]

tensor(4.3363, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▎                      | 28084/40000 [34:06<14:47, 13.43it/s]

tensor(4.4356, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▍                      | 28094/40000 [34:06<14:42, 13.49it/s]

tensor(4.3592, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▍                      | 28104/40000 [34:07<14:40, 13.51it/s]

tensor(4.3183, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▍                      | 28114/40000 [34:08<14:44, 13.44it/s]

tensor(4.3689, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▍                      | 28124/40000 [34:09<14:41, 13.48it/s]

tensor(4.3263, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▍                      | 28134/40000 [34:09<14:40, 13.47it/s]

tensor(4.3949, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▍                      | 28144/40000 [34:10<14:37, 13.51it/s]

tensor(4.3581, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▍                      | 28154/40000 [34:11<14:41, 13.44it/s]

tensor(4.3950, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▌                      | 28164/40000 [34:12<14:37, 13.48it/s]

tensor(4.3381, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▌                      | 28174/40000 [34:12<14:35, 13.50it/s]

tensor(4.3206, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▌                      | 28184/40000 [34:13<14:36, 13.48it/s]

tensor(4.3719, device='cuda:0', grad_fn=<NllLossBackward0>)


 70%|█████████████████████████████████████████████████████▌                      | 28194/40000 [34:14<14:37, 13.45it/s]

tensor(4.4524, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▌                      | 28204/40000 [34:14<14:31, 13.53it/s]

tensor(4.5435, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▌                      | 28214/40000 [34:15<14:33, 13.49it/s]

tensor(4.3626, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▋                      | 28224/40000 [34:16<14:35, 13.46it/s]

tensor(4.3671, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▋                      | 28234/40000 [34:17<14:34, 13.45it/s]

tensor(4.2756, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▋                      | 28244/40000 [34:17<14:31, 13.49it/s]

tensor(4.4059, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▋                      | 28254/40000 [34:18<14:32, 13.47it/s]

tensor(4.3110, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▋                      | 28264/40000 [34:19<14:31, 13.47it/s]

tensor(4.3482, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▋                      | 28274/40000 [34:20<14:34, 13.42it/s]

tensor(4.3964, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▋                      | 28284/40000 [34:20<14:27, 13.51it/s]

tensor(4.3278, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▊                      | 28294/40000 [34:21<14:30, 13.45it/s]

tensor(4.4458, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▊                      | 28304/40000 [34:22<14:27, 13.49it/s]

tensor(4.3945, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▊                      | 28314/40000 [34:23<14:31, 13.41it/s]

tensor(4.3377, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▊                      | 28324/40000 [34:23<14:24, 13.51it/s]

tensor(4.4892, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▊                      | 28334/40000 [34:24<14:27, 13.45it/s]

tensor(4.3967, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▊                      | 28344/40000 [34:25<14:24, 13.48it/s]

tensor(4.3710, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▊                      | 28354/40000 [34:26<14:27, 13.42it/s]

tensor(4.4082, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▉                      | 28364/40000 [34:26<15:08, 12.81it/s]

tensor(4.3356, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▉                      | 28374/40000 [34:27<16:04, 12.06it/s]

tensor(4.3519, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▉                      | 28384/40000 [34:28<14:51, 13.04it/s]

tensor(4.4008, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▉                      | 28394/40000 [34:29<15:17, 12.65it/s]

tensor(4.4115, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▉                      | 28404/40000 [34:29<14:32, 13.29it/s]

tensor(4.3727, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|█████████████████████████████████████████████████████▉                      | 28414/40000 [34:30<16:49, 11.48it/s]

tensor(4.3594, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████                      | 28424/40000 [34:31<16:46, 11.50it/s]

tensor(4.3821, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████                      | 28434/40000 [34:32<16:31, 11.67it/s]

tensor(4.3185, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████                      | 28444/40000 [34:33<17:14, 11.17it/s]

tensor(4.3354, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████                      | 28454/40000 [34:34<14:48, 12.99it/s]

tensor(4.3761, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████                      | 28464/40000 [34:35<15:25, 12.46it/s]

tensor(4.3842, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████                      | 28474/40000 [34:35<13:55, 13.80it/s]

tensor(4.3392, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████                      | 28484/40000 [34:36<13:50, 13.87it/s]

tensor(4.3666, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▏                     | 28494/40000 [34:37<14:45, 13.00it/s]

tensor(4.4177, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▏                     | 28504/40000 [34:37<13:46, 13.92it/s]

tensor(4.3256, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▏                     | 28514/40000 [34:38<13:36, 14.07it/s]

tensor(4.3869, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▏                     | 28524/40000 [34:39<13:37, 14.04it/s]

tensor(4.3437, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▏                     | 28534/40000 [34:40<13:34, 14.08it/s]

tensor(4.3860, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▏                     | 28544/40000 [34:40<13:28, 14.17it/s]

tensor(4.3933, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▎                     | 28554/40000 [34:41<13:29, 14.13it/s]

tensor(4.4796, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▎                     | 28564/40000 [34:42<14:26, 13.21it/s]

tensor(4.4335, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▎                     | 28574/40000 [34:43<13:35, 14.01it/s]

tensor(4.3600, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▎                     | 28584/40000 [34:43<13:32, 14.06it/s]

tensor(4.4169, device='cuda:0', grad_fn=<NllLossBackward0>)


 71%|██████████████████████████████████████████████████████▎                     | 28594/40000 [34:44<13:29, 14.08it/s]

tensor(4.3655, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▎                     | 28604/40000 [34:45<13:26, 14.12it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▎                     | 28614/40000 [34:45<13:30, 14.06it/s]

tensor(4.3271, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▍                     | 28624/40000 [34:46<13:57, 13.58it/s]

tensor(4.3174, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▍                     | 28634/40000 [34:47<13:50, 13.68it/s]

tensor(4.3829, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▍                     | 28644/40000 [34:48<13:29, 14.04it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▍                     | 28654/40000 [34:48<13:22, 14.14it/s]

tensor(4.4316, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▍                     | 28664/40000 [34:49<13:21, 14.15it/s]

tensor(4.4172, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▍                     | 28674/40000 [34:50<14:31, 13.00it/s]

tensor(4.3626, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▍                     | 28684/40000 [34:50<13:43, 13.74it/s]

tensor(4.2830, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▌                     | 28694/40000 [34:51<14:19, 13.15it/s]

tensor(4.4104, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▌                     | 28704/40000 [34:52<14:00, 13.43it/s]

tensor(4.2782, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▌                     | 28714/40000 [34:53<13:26, 13.99it/s]

tensor(4.3712, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▌                     | 28724/40000 [34:53<13:47, 13.63it/s]

tensor(4.3974, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▌                     | 28734/40000 [34:54<13:21, 14.05it/s]

tensor(4.3146, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▌                     | 28744/40000 [34:55<13:17, 14.12it/s]

tensor(4.3290, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▋                     | 28754/40000 [34:56<13:13, 14.17it/s]

tensor(4.3089, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▋                     | 28764/40000 [34:56<13:14, 14.14it/s]

tensor(4.3535, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▋                     | 28774/40000 [34:57<13:13, 14.15it/s]

tensor(4.3871, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▋                     | 28784/40000 [34:58<13:13, 14.14it/s]

tensor(4.3855, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▋                     | 28794/40000 [34:58<13:12, 14.14it/s]

tensor(4.3509, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▋                     | 28804/40000 [34:59<13:11, 14.14it/s]

tensor(4.3290, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▋                     | 28814/40000 [35:00<13:13, 14.10it/s]

tensor(4.3769, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▊                     | 28824/40000 [35:00<13:09, 14.16it/s]

tensor(4.4332, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▊                     | 28834/40000 [35:01<13:06, 14.20it/s]

tensor(4.3900, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▊                     | 28844/40000 [35:02<13:07, 14.17it/s]

tensor(4.3194, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▊                     | 28854/40000 [35:03<13:03, 14.23it/s]

tensor(4.4082, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▊                     | 28864/40000 [35:03<13:05, 14.18it/s]

tensor(4.3696, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▊                     | 28874/40000 [35:04<13:14, 14.01it/s]

tensor(4.3790, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▉                     | 28884/40000 [35:05<13:51, 13.38it/s]

tensor(4.4278, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▉                     | 28894/40000 [35:05<13:15, 13.96it/s]

tensor(4.4132, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▉                     | 28904/40000 [35:06<12:57, 14.27it/s]

tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▉                     | 28914/40000 [35:07<13:19, 13.86it/s]

tensor(4.3486, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▉                     | 28924/40000 [35:08<14:13, 12.97it/s]

tensor(4.3546, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▉                     | 28934/40000 [35:08<13:07, 14.05it/s]

tensor(4.3542, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|██████████████████████████████████████████████████████▉                     | 28944/40000 [35:09<13:55, 13.24it/s]

tensor(4.3816, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|███████████████████████████████████████████████████████                     | 28954/40000 [35:10<13:13, 13.93it/s]

tensor(4.3241, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|███████████████████████████████████████████████████████                     | 28964/40000 [35:11<13:46, 13.35it/s]

tensor(4.3335, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|███████████████████████████████████████████████████████                     | 28974/40000 [35:11<13:06, 14.02it/s]

tensor(4.3277, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|███████████████████████████████████████████████████████                     | 28984/40000 [35:12<12:57, 14.17it/s]

tensor(4.3902, device='cuda:0', grad_fn=<NllLossBackward0>)


 72%|███████████████████████████████████████████████████████                     | 28994/40000 [35:13<12:51, 14.27it/s]

tensor(4.3758, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████                     | 29004/40000 [35:13<13:09, 13.93it/s]

tensor(4.4760, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▏                    | 29014/40000 [35:14<13:42, 13.35it/s]

tensor(4.3470, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▏                    | 29024/40000 [35:15<13:17, 13.76it/s]

tensor(4.4086, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▏                    | 29034/40000 [35:16<13:13, 13.82it/s]

tensor(4.4032, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▏                    | 29044/40000 [35:16<12:52, 14.19it/s]

tensor(4.3984, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▏                    | 29054/40000 [35:17<13:25, 13.59it/s]

tensor(4.3336, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▏                    | 29064/40000 [35:18<13:09, 13.86it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▏                    | 29074/40000 [35:18<12:53, 14.13it/s]

tensor(4.3878, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▎                    | 29084/40000 [35:19<12:51, 14.14it/s]

tensor(4.3629, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▎                    | 29094/40000 [35:20<12:41, 14.31it/s]

tensor(4.3860, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▎                    | 29104/40000 [35:21<12:43, 14.26it/s]

tensor(4.3323, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▎                    | 29114/40000 [35:21<12:45, 14.22it/s]

tensor(4.3144, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▎                    | 29124/40000 [35:22<13:52, 13.06it/s]

tensor(4.3890, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▎                    | 29134/40000 [35:23<12:55, 14.00it/s]

tensor(4.3581, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▎                    | 29144/40000 [35:23<12:36, 14.35it/s]

tensor(4.3368, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▍                    | 29154/40000 [35:24<12:42, 14.22it/s]

tensor(4.2607, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▍                    | 29164/40000 [35:25<12:41, 14.24it/s]

tensor(4.3016, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▍                    | 29174/40000 [35:26<12:35, 14.33it/s]

tensor(4.4009, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▍                    | 29184/40000 [35:26<12:51, 14.02it/s]

tensor(4.3752, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▍                    | 29194/40000 [35:27<12:49, 14.05it/s]

tensor(4.4394, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▍                    | 29204/40000 [35:28<12:52, 13.98it/s]

tensor(4.3033, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▌                    | 29214/40000 [35:28<12:44, 14.10it/s]

tensor(4.3763, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▌                    | 29224/40000 [35:29<12:29, 14.38it/s]

tensor(4.4022, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▌                    | 29234/40000 [35:30<12:58, 13.83it/s]

tensor(4.3211, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▌                    | 29244/40000 [35:31<12:37, 14.19it/s]

tensor(4.3855, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▌                    | 29254/40000 [35:31<13:01, 13.75it/s]

tensor(4.5556, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▌                    | 29264/40000 [35:32<12:33, 14.24it/s]

tensor(4.4225, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▌                    | 29274/40000 [35:33<12:37, 14.16it/s]

tensor(4.4032, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▋                    | 29284/40000 [35:33<12:47, 13.97it/s]

tensor(4.3562, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▋                    | 29294/40000 [35:34<12:34, 14.19it/s]

tensor(4.3704, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▋                    | 29304/40000 [35:35<12:32, 14.21it/s]

tensor(4.5480, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▋                    | 29314/40000 [35:35<12:36, 14.13it/s]

tensor(4.4197, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▋                    | 29324/40000 [35:36<12:23, 14.37it/s]

tensor(4.3597, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▋                    | 29334/40000 [35:37<12:50, 13.85it/s]

tensor(4.3749, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▊                    | 29344/40000 [35:38<12:28, 14.24it/s]

tensor(4.4073, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▊                    | 29354/40000 [35:38<12:33, 14.12it/s]

tensor(4.3364, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▊                    | 29364/40000 [35:39<12:33, 14.12it/s]

tensor(4.3546, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▊                    | 29374/40000 [35:40<12:37, 14.04it/s]

tensor(4.3897, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▊                    | 29384/40000 [35:40<12:20, 14.34it/s]

tensor(4.4413, device='cuda:0', grad_fn=<NllLossBackward0>)


 73%|███████████████████████████████████████████████████████▊                    | 29394/40000 [35:41<12:23, 14.26it/s]

tensor(4.3492, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|███████████████████████████████████████████████████████▊                    | 29404/40000 [35:42<12:28, 14.16it/s]

tensor(4.3255, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|███████████████████████████████████████████████████████▉                    | 29414/40000 [35:43<12:27, 14.17it/s]

tensor(4.3329, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|███████████████████████████████████████████████████████▉                    | 29424/40000 [35:43<12:27, 14.14it/s]

tensor(4.3569, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|███████████████████████████████████████████████████████▉                    | 29434/40000 [35:44<12:37, 13.95it/s]

tensor(4.3457, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|███████████████████████████████████████████████████████▉                    | 29444/40000 [35:45<12:39, 13.90it/s]

tensor(4.4172, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|███████████████████████████████████████████████████████▉                    | 29454/40000 [35:45<12:20, 14.24it/s]

tensor(4.3811, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|███████████████████████████████████████████████████████▉                    | 29464/40000 [35:46<12:39, 13.87it/s]

tensor(4.3691, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████                    | 29474/40000 [35:47<12:24, 14.13it/s]

tensor(4.3162, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████                    | 29484/40000 [35:47<12:23, 14.15it/s]

tensor(4.3863, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████                    | 29494/40000 [35:48<12:29, 14.02it/s]

tensor(4.3817, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████                    | 29504/40000 [35:49<12:17, 14.23it/s]

tensor(4.4104, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████                    | 29514/40000 [35:50<12:33, 13.92it/s]

tensor(4.4233, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████                    | 29524/40000 [35:50<12:20, 14.15it/s]

tensor(4.4507, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████                    | 29534/40000 [35:51<12:33, 13.90it/s]

tensor(4.4757, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▏                   | 29544/40000 [35:52<12:23, 14.06it/s]

tensor(4.3764, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▏                   | 29554/40000 [35:52<12:13, 14.24it/s]

tensor(4.3473, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▏                   | 29564/40000 [35:53<12:26, 13.98it/s]

tensor(4.4544, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▏                   | 29574/40000 [35:54<12:25, 13.98it/s]

tensor(4.3409, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▏                   | 29584/40000 [35:55<12:04, 14.38it/s]

tensor(4.5216, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▏                   | 29594/40000 [35:55<12:34, 13.78it/s]

tensor(4.3939, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▏                   | 29604/40000 [35:56<12:17, 14.10it/s]

tensor(4.4183, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▎                   | 29614/40000 [35:57<12:26, 13.92it/s]

tensor(4.5145, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▎                   | 29624/40000 [35:57<12:25, 13.92it/s]

tensor(4.3808, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▎                   | 29634/40000 [35:58<12:02, 14.35it/s]

tensor(4.3865, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▎                   | 29644/40000 [35:59<12:13, 14.12it/s]

tensor(4.3833, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▎                   | 29654/40000 [36:00<12:08, 14.20it/s]

tensor(4.3508, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▎                   | 29664/40000 [36:00<12:11, 14.13it/s]

tensor(4.3759, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▍                   | 29674/40000 [36:01<12:13, 14.07it/s]

tensor(4.3869, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▍                   | 29684/40000 [36:02<12:17, 13.98it/s]

tensor(4.3184, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▍                   | 29694/40000 [36:02<12:08, 14.15it/s]

tensor(4.3983, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▍                   | 29704/40000 [36:03<12:08, 14.14it/s]

tensor(4.3738, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▍                   | 29714/40000 [36:04<12:11, 14.07it/s]

tensor(4.4647, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▍                   | 29724/40000 [36:04<12:01, 14.24it/s]

tensor(4.3874, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▍                   | 29734/40000 [36:05<11:59, 14.26it/s]

tensor(4.4650, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▌                   | 29744/40000 [36:06<11:49, 14.45it/s]

tensor(4.3166, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▌                   | 29754/40000 [36:07<12:04, 14.15it/s]

tensor(4.3563, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▌                   | 29764/40000 [36:07<11:58, 14.25it/s]

tensor(4.3853, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▌                   | 29774/40000 [36:08<12:03, 14.13it/s]

tensor(4.3847, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▌                   | 29784/40000 [36:09<12:03, 14.11it/s]

tensor(4.3235, device='cuda:0', grad_fn=<NllLossBackward0>)


 74%|████████████████████████████████████████████████████████▌                   | 29794/40000 [36:09<11:59, 14.19it/s]

tensor(4.3428, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▋                   | 29804/40000 [36:10<11:46, 14.43it/s]

tensor(4.3727, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▋                   | 29814/40000 [36:11<11:57, 14.19it/s]

tensor(4.3507, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▋                   | 29824/40000 [36:12<11:55, 14.21it/s]

tensor(4.3656, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▋                   | 29834/40000 [36:12<11:59, 14.13it/s]

tensor(4.3130, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▋                   | 29844/40000 [36:13<11:58, 14.13it/s]

tensor(4.4222, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▋                   | 29854/40000 [36:14<11:55, 14.18it/s]

tensor(4.3405, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▋                   | 29864/40000 [36:14<12:00, 14.08it/s]

tensor(4.3681, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▊                   | 29874/40000 [36:15<11:52, 14.21it/s]

tensor(4.5092, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▊                   | 29884/40000 [36:16<11:43, 14.38it/s]

tensor(4.4634, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▊                   | 29894/40000 [36:16<12:08, 13.88it/s]

tensor(4.3797, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▊                   | 29904/40000 [36:17<12:09, 13.83it/s]

tensor(4.4570, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▊                   | 29914/40000 [36:18<12:23, 13.56it/s]

tensor(4.3992, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▊                   | 29924/40000 [36:19<11:58, 14.02it/s]

tensor(4.4992, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▊                   | 29934/40000 [36:19<12:39, 13.25it/s]

tensor(4.3229, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▉                   | 29944/40000 [36:20<12:14, 13.69it/s]

tensor(4.3671, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▉                   | 29954/40000 [36:21<11:47, 14.20it/s]

tensor(4.3725, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▉                   | 29964/40000 [36:22<11:51, 14.11it/s]

tensor(4.3294, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▉                   | 29974/40000 [36:22<11:47, 14.17it/s]

tensor(4.3642, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▉                   | 29984/40000 [36:23<11:50, 14.10it/s]

tensor(4.3945, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|████████████████████████████████████████████████████████▉                   | 29994/40000 [36:24<12:00, 13.89it/s]

tensor(4.4416, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████                   | 30004/40000 [36:24<11:57, 13.93it/s]

tensor(4.4472, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████                   | 30014/40000 [36:25<11:52, 14.02it/s]

tensor(4.2652, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████                   | 30024/40000 [36:26<11:44, 14.15it/s]

tensor(4.3857, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████                   | 30034/40000 [36:27<11:52, 13.99it/s]

tensor(4.3212, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████                   | 30044/40000 [36:27<12:21, 13.42it/s]

tensor(4.4017, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████                   | 30054/40000 [36:28<12:38, 13.11it/s]

tensor(4.3920, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████                   | 30064/40000 [36:29<12:41, 13.05it/s]

tensor(4.4002, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▏                  | 30074/40000 [36:30<12:15, 13.49it/s]

tensor(4.4805, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▏                  | 30084/40000 [36:30<13:08, 12.58it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▏                  | 30094/40000 [36:31<13:50, 11.93it/s]

tensor(4.3165, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▏                  | 30104/40000 [36:32<12:06, 13.61it/s]

tensor(4.4343, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▏                  | 30114/40000 [36:33<11:34, 14.23it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▏                  | 30124/40000 [36:33<11:38, 14.15it/s]

tensor(4.3420, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▎                  | 30134/40000 [36:34<11:43, 14.03it/s]

tensor(4.3220, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▎                  | 30144/40000 [36:35<11:32, 14.24it/s]

tensor(4.3542, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▎                  | 30154/40000 [36:35<11:32, 14.22it/s]

tensor(4.4093, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▎                  | 30164/40000 [36:36<11:25, 14.35it/s]

tensor(4.4703, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▎                  | 30174/40000 [36:37<11:39, 14.04it/s]

tensor(4.4728, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▎                  | 30184/40000 [36:38<11:38, 14.06it/s]

tensor(4.4340, device='cuda:0', grad_fn=<NllLossBackward0>)


 75%|█████████████████████████████████████████████████████████▎                  | 30194/40000 [36:38<11:50, 13.80it/s]

tensor(4.4283, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▍                  | 30204/40000 [36:39<11:32, 14.15it/s]

tensor(4.3867, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▍                  | 30214/40000 [36:40<11:37, 14.03it/s]

tensor(4.3564, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▍                  | 30224/40000 [36:40<11:22, 14.32it/s]

tensor(4.3204, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▍                  | 30234/40000 [36:41<11:27, 14.22it/s]

tensor(4.3563, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▍                  | 30244/40000 [36:42<12:07, 13.42it/s]

tensor(4.4312, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▍                  | 30254/40000 [36:43<12:03, 13.46it/s]

tensor(4.3879, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▌                  | 30264/40000 [36:43<12:13, 13.27it/s]

tensor(4.4313, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▌                  | 30274/40000 [36:44<11:35, 13.99it/s]

tensor(4.3309, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▌                  | 30284/40000 [36:45<12:12, 13.27it/s]

tensor(4.3709, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▌                  | 30294/40000 [36:46<11:37, 13.91it/s]

tensor(4.4856, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▌                  | 30304/40000 [36:46<13:14, 12.21it/s]

tensor(4.4440, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▌                  | 30314/40000 [36:47<12:06, 13.33it/s]

tensor(4.3271, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▌                  | 30324/40000 [36:48<11:45, 13.72it/s]

tensor(4.3360, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▋                  | 30334/40000 [36:49<11:24, 14.13it/s]

tensor(4.4827, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▋                  | 30344/40000 [36:49<12:06, 13.29it/s]

tensor(4.3402, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▋                  | 30354/40000 [36:50<11:20, 14.17it/s]

tensor(4.3745, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▋                  | 30364/40000 [36:51<11:22, 14.12it/s]

tensor(4.3681, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▋                  | 30374/40000 [36:51<11:33, 13.89it/s]

tensor(4.4009, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▋                  | 30384/40000 [36:52<11:16, 14.22it/s]

tensor(4.2775, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▋                  | 30394/40000 [36:53<11:22, 14.07it/s]

tensor(4.3525, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▊                  | 30404/40000 [36:54<11:20, 14.10it/s]

tensor(4.3382, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▊                  | 30414/40000 [36:54<11:08, 14.34it/s]

tensor(4.3244, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▊                  | 30424/40000 [36:55<11:18, 14.12it/s]

tensor(4.3355, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▊                  | 30434/40000 [36:56<11:15, 14.17it/s]

tensor(4.4767, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▊                  | 30444/40000 [36:56<11:27, 13.90it/s]

tensor(4.3196, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▊                  | 30454/40000 [36:57<11:48, 13.48it/s]

tensor(4.3258, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▉                  | 30464/40000 [36:58<11:40, 13.62it/s]

tensor(4.3234, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▉                  | 30474/40000 [36:59<13:08, 12.08it/s]

tensor(4.4304, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▉                  | 30484/40000 [36:59<12:52, 12.32it/s]

tensor(4.3805, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▉                  | 30494/40000 [37:00<12:23, 12.79it/s]

tensor(4.3108, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▉                  | 30504/40000 [37:01<11:30, 13.75it/s]

tensor(4.4089, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▉                  | 30514/40000 [37:02<11:21, 13.92it/s]

tensor(4.3689, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|█████████████████████████████████████████████████████████▉                  | 30524/40000 [37:02<11:07, 14.19it/s]

tensor(4.3891, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|██████████████████████████████████████████████████████████                  | 30534/40000 [37:03<11:01, 14.30it/s]

tensor(4.3645, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|██████████████████████████████████████████████████████████                  | 30544/40000 [37:04<11:18, 13.93it/s]

tensor(4.3086, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|██████████████████████████████████████████████████████████                  | 30554/40000 [37:05<11:01, 14.28it/s]

tensor(4.3331, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|██████████████████████████████████████████████████████████                  | 30564/40000 [37:05<11:15, 13.98it/s]

tensor(4.5177, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|██████████████████████████████████████████████████████████                  | 30574/40000 [37:06<11:22, 13.81it/s]

tensor(4.3599, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|██████████████████████████████████████████████████████████                  | 30584/40000 [37:07<11:34, 13.56it/s]

tensor(4.4642, device='cuda:0', grad_fn=<NllLossBackward0>)


 76%|██████████████████████████████████████████████████████████▏                 | 30594/40000 [37:07<11:10, 14.03it/s]

tensor(4.3747, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▏                 | 30604/40000 [37:08<11:09, 14.04it/s]

tensor(4.3069, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▏                 | 30614/40000 [37:09<11:14, 13.91it/s]

tensor(4.4297, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▏                 | 30624/40000 [37:10<11:24, 13.70it/s]

tensor(4.2634, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▏                 | 30634/40000 [37:10<11:16, 13.85it/s]

tensor(4.4693, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▏                 | 30644/40000 [37:11<11:00, 14.16it/s]

tensor(4.3274, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▏                 | 30654/40000 [37:12<11:27, 13.60it/s]

tensor(4.4158, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▎                 | 30664/40000 [37:12<11:14, 13.85it/s]

tensor(4.4877, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▎                 | 30674/40000 [37:13<11:06, 13.99it/s]

tensor(4.3623, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▎                 | 30684/40000 [37:14<10:57, 14.17it/s]

tensor(4.3649, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▎                 | 30694/40000 [37:15<11:07, 13.95it/s]

tensor(4.4386, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▎                 | 30704/40000 [37:15<10:58, 14.12it/s]

tensor(4.3543, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▎                 | 30714/40000 [37:16<10:58, 14.11it/s]

tensor(4.4241, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▍                 | 30724/40000 [37:17<11:05, 13.94it/s]

tensor(4.3375, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▍                 | 30734/40000 [37:17<10:53, 14.19it/s]

tensor(4.3490, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▍                 | 30744/40000 [37:18<11:00, 14.02it/s]

tensor(4.3528, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▍                 | 30754/40000 [37:19<10:44, 14.34it/s]

tensor(4.3917, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▍                 | 30764/40000 [37:20<11:03, 13.93it/s]

tensor(4.4889, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▍                 | 30774/40000 [37:20<10:52, 14.14it/s]

tensor(4.3614, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▍                 | 30784/40000 [37:21<11:03, 13.90it/s]

tensor(4.3197, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▌                 | 30794/40000 [37:22<10:51, 14.14it/s]

tensor(4.3740, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▌                 | 30804/40000 [37:22<10:47, 14.20it/s]

tensor(4.3802, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▌                 | 30814/40000 [37:23<10:42, 14.29it/s]

tensor(4.4615, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▌                 | 30824/40000 [37:24<10:46, 14.20it/s]

tensor(4.3299, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▌                 | 30834/40000 [37:24<10:59, 13.90it/s]

tensor(4.4535, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▌                 | 30844/40000 [37:25<10:47, 14.14it/s]

tensor(4.3583, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▌                 | 30854/40000 [37:26<10:45, 14.17it/s]

tensor(4.4222, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▋                 | 30864/40000 [37:27<10:49, 14.06it/s]

tensor(4.4269, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▋                 | 30874/40000 [37:27<10:46, 14.11it/s]

tensor(4.3485, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▋                 | 30884/40000 [37:28<10:40, 14.23it/s]

tensor(4.3217, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▋                 | 30894/40000 [37:29<10:49, 14.02it/s]

tensor(4.3084, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▋                 | 30904/40000 [37:29<10:39, 14.21it/s]

tensor(4.3807, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▋                 | 30914/40000 [37:30<10:45, 14.08it/s]

tensor(4.3314, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▊                 | 30924/40000 [37:31<11:54, 12.70it/s]

tensor(4.4281, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▊                 | 30934/40000 [37:32<13:21, 11.31it/s]

tensor(4.3959, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▊                 | 30944/40000 [37:33<12:34, 12.00it/s]

tensor(4.4129, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▊                 | 30954/40000 [37:34<13:28, 11.19it/s]

tensor(4.4574, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▊                 | 30964/40000 [37:34<11:41, 12.88it/s]

tensor(4.3308, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▊                 | 30974/40000 [37:35<11:22, 13.22it/s]

tensor(4.4689, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▊                 | 30984/40000 [37:36<11:16, 13.33it/s]

tensor(4.3970, device='cuda:0', grad_fn=<NllLossBackward0>)


 77%|██████████████████████████████████████████████████████████▉                 | 30994/40000 [37:37<11:47, 12.72it/s]

tensor(4.3462, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|██████████████████████████████████████████████████████████▉                 | 31004/40000 [37:37<11:13, 13.36it/s]

tensor(4.3513, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|██████████████████████████████████████████████████████████▉                 | 31014/40000 [37:38<11:34, 12.94it/s]

tensor(4.4673, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|██████████████████████████████████████████████████████████▉                 | 31024/40000 [37:39<11:49, 12.65it/s]

tensor(4.3384, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|██████████████████████████████████████████████████████████▉                 | 31034/40000 [37:40<12:20, 12.10it/s]

tensor(4.3928, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|██████████████████████████████████████████████████████████▉                 | 31044/40000 [37:41<12:01, 12.42it/s]

tensor(4.3298, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████                 | 31054/40000 [37:41<11:29, 12.97it/s]

tensor(4.3820, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████                 | 31064/40000 [37:42<11:24, 13.05it/s]

tensor(4.4051, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████                 | 31074/40000 [37:43<11:14, 13.23it/s]

tensor(4.3112, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████                 | 31084/40000 [37:44<11:03, 13.44it/s]

tensor(4.4156, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████                 | 31094/40000 [37:44<11:00, 13.49it/s]

tensor(4.4266, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████                 | 31104/40000 [37:45<11:38, 12.74it/s]

tensor(4.3617, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████                 | 31112/40000 [37:46<12:31, 11.83it/s]

tensor(4.3906, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▏                | 31124/40000 [37:47<12:51, 11.51it/s]

tensor(4.3474, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▏                | 31134/40000 [37:48<11:20, 13.02it/s]

tensor(4.4604, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▏                | 31144/40000 [37:48<11:06, 13.30it/s]

tensor(4.4568, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▏                | 31154/40000 [37:49<11:02, 13.36it/s]

tensor(4.3449, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▏                | 31164/40000 [37:50<10:58, 13.41it/s]

tensor(4.3122, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▏                | 31174/40000 [37:51<10:59, 13.39it/s]

tensor(4.3614, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▏                | 31184/40000 [37:51<11:19, 12.98it/s]

tensor(4.4482, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▎                | 31194/40000 [37:52<11:35, 12.66it/s]

tensor(4.3816, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▎                | 31204/40000 [37:53<11:02, 13.27it/s]

tensor(4.4562, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▎                | 31214/40000 [37:54<10:55, 13.40it/s]

tensor(4.4695, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▎                | 31224/40000 [37:54<10:54, 13.42it/s]

tensor(4.3850, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▎                | 31234/40000 [37:55<11:27, 12.75it/s]

tensor(4.4323, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▎                | 31244/40000 [37:56<10:53, 13.39it/s]

tensor(4.3418, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▍                | 31254/40000 [37:57<10:50, 13.44it/s]

tensor(4.3843, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▍                | 31264/40000 [37:57<10:47, 13.50it/s]

tensor(4.3424, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▍                | 31274/40000 [37:58<10:48, 13.45it/s]

tensor(4.4077, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▍                | 31284/40000 [37:59<10:45, 13.50it/s]

tensor(4.3428, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▍                | 31294/40000 [38:00<10:45, 13.48it/s]

tensor(4.2964, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▍                | 31304/40000 [38:00<10:45, 13.46it/s]

tensor(4.3381, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▍                | 31314/40000 [38:01<12:11, 11.88it/s]

tensor(4.3581, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▌                | 31324/40000 [38:02<11:46, 12.28it/s]

tensor(4.3970, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▌                | 31334/40000 [38:03<10:57, 13.17it/s]

tensor(4.3143, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▌                | 31344/40000 [38:04<11:13, 12.86it/s]

tensor(4.4207, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▌                | 31354/40000 [38:04<11:01, 13.08it/s]

tensor(4.4062, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▌                | 31364/40000 [38:05<10:47, 13.33it/s]

tensor(4.3885, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▌                | 31374/40000 [38:06<10:41, 13.44it/s]

tensor(4.3922, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▋                | 31384/40000 [38:07<10:48, 13.29it/s]

tensor(4.3258, device='cuda:0', grad_fn=<NllLossBackward0>)


 78%|███████████████████████████████████████████████████████████▋                | 31394/40000 [38:07<10:45, 13.33it/s]

tensor(4.3633, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▋                | 31404/40000 [38:08<11:18, 12.68it/s]

tensor(4.3651, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▋                | 31414/40000 [38:09<12:01, 11.90it/s]

tensor(4.3225, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▋                | 31424/40000 [38:10<10:56, 13.06it/s]

tensor(4.3473, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▋                | 31434/40000 [38:10<10:47, 13.22it/s]

tensor(4.4010, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▋                | 31444/40000 [38:11<11:33, 12.34it/s]

tensor(4.3293, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▊                | 31454/40000 [38:12<11:37, 12.25it/s]

tensor(4.3713, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▊                | 31464/40000 [38:13<10:44, 13.25it/s]

tensor(4.3629, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▊                | 31474/40000 [38:14<10:36, 13.40it/s]

tensor(4.3252, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▊                | 31484/40000 [38:14<10:58, 12.93it/s]

tensor(4.4529, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▊                | 31494/40000 [38:15<11:13, 12.63it/s]

tensor(4.3239, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▊                | 31504/40000 [38:16<11:03, 12.80it/s]

tensor(4.3862, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▉                | 31514/40000 [38:17<10:48, 13.10it/s]

tensor(4.3836, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▉                | 31524/40000 [38:17<10:34, 13.36it/s]

tensor(4.3902, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▉                | 31534/40000 [38:18<10:34, 13.34it/s]

tensor(4.3979, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▉                | 31544/40000 [38:19<10:31, 13.40it/s]

tensor(4.3889, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▉                | 31554/40000 [38:20<10:28, 13.43it/s]

tensor(4.3423, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▉                | 31564/40000 [38:20<10:26, 13.47it/s]

tensor(4.3898, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|███████████████████████████████████████████████████████████▉                | 31574/40000 [38:21<10:30, 13.37it/s]

tensor(4.3800, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████                | 31584/40000 [38:22<10:37, 13.21it/s]

tensor(4.3129, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████                | 31594/40000 [38:23<10:28, 13.38it/s]

tensor(4.3265, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████                | 31604/40000 [38:23<10:25, 13.43it/s]

tensor(4.4310, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████                | 31614/40000 [38:24<10:22, 13.46it/s]

tensor(4.3472, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████                | 31624/40000 [38:25<10:21, 13.49it/s]

tensor(4.3115, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████                | 31634/40000 [38:26<10:21, 13.45it/s]

tensor(4.4150, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████                | 31644/40000 [38:26<10:20, 13.46it/s]

tensor(4.2864, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▏               | 31654/40000 [38:27<10:18, 13.50it/s]

tensor(4.4292, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▏               | 31664/40000 [38:28<10:16, 13.53it/s]

tensor(4.4230, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▏               | 31674/40000 [38:29<10:19, 13.43it/s]

tensor(4.3844, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▏               | 31684/40000 [38:29<10:17, 13.46it/s]

tensor(4.4157, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▏               | 31694/40000 [38:30<10:15, 13.49it/s]

tensor(4.4686, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▏               | 31704/40000 [38:31<10:15, 13.48it/s]

tensor(4.3909, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▎               | 31714/40000 [38:31<10:14, 13.49it/s]

tensor(4.4779, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▎               | 31724/40000 [38:32<10:16, 13.42it/s]

tensor(4.3881, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▎               | 31734/40000 [38:33<10:13, 13.48it/s]

tensor(4.4394, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▎               | 31744/40000 [38:34<10:12, 13.47it/s]

tensor(4.3865, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▎               | 31754/40000 [38:34<10:12, 13.45it/s]

tensor(4.3689, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▎               | 31764/40000 [38:35<10:12, 13.46it/s]

tensor(4.3734, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▎               | 31774/40000 [38:36<10:09, 13.50it/s]

tensor(4.3796, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▍               | 31784/40000 [38:37<10:12, 13.42it/s]

tensor(4.5698, device='cuda:0', grad_fn=<NllLossBackward0>)


 79%|████████████████████████████████████████████████████████████▍               | 31794/40000 [38:37<10:09, 13.47it/s]

tensor(4.4384, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▍               | 31804/40000 [38:38<10:09, 13.44it/s]

tensor(4.3724, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▍               | 31814/40000 [38:39<10:07, 13.48it/s]

tensor(4.3434, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▍               | 31824/40000 [38:40<10:06, 13.49it/s]

tensor(4.4010, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▍               | 31834/40000 [38:40<10:07, 13.45it/s]

tensor(4.4536, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▌               | 31844/40000 [38:41<10:06, 13.44it/s]

tensor(4.3429, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▌               | 31854/40000 [38:42<10:03, 13.51it/s]

tensor(4.3814, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▌               | 31864/40000 [38:43<10:04, 13.45it/s]

tensor(4.4254, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▌               | 31874/40000 [38:43<10:02, 13.48it/s]

tensor(4.4217, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▌               | 31884/40000 [38:44<10:04, 13.44it/s]

tensor(4.4862, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▌               | 31894/40000 [38:45<10:01, 13.47it/s]

tensor(4.3998, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▌               | 31904/40000 [38:46<09:58, 13.52it/s]

tensor(4.2870, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▋               | 31914/40000 [38:46<10:02, 13.43it/s]

tensor(4.4468, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▋               | 31924/40000 [38:47<09:59, 13.47it/s]

tensor(4.3086, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▋               | 31934/40000 [38:48<09:57, 13.50it/s]

tensor(4.4402, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▋               | 31944/40000 [38:49<09:57, 13.48it/s]

tensor(4.3744, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▋               | 31954/40000 [38:49<09:56, 13.48it/s]

tensor(4.3721, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▋               | 31964/40000 [38:50<09:56, 13.47it/s]

tensor(4.3770, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▊               | 31974/40000 [38:51<09:55, 13.48it/s]

tensor(4.4663, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▊               | 31984/40000 [38:51<09:54, 13.48it/s]

tensor(4.3782, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▊               | 31994/40000 [38:52<09:56, 13.42it/s]

tensor(4.4039, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▊               | 32004/40000 [38:53<09:52, 13.50it/s]

tensor(4.3733, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▊               | 32014/40000 [38:54<09:53, 13.44it/s]

tensor(4.3751, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▊               | 32024/40000 [38:54<09:52, 13.47it/s]

tensor(4.3176, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▊               | 32034/40000 [38:55<09:53, 13.43it/s]

tensor(4.4142, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▉               | 32044/40000 [38:56<09:50, 13.48it/s]

tensor(4.4528, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▉               | 32054/40000 [38:57<09:54, 13.37it/s]

tensor(4.3907, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▉               | 32064/40000 [38:58<11:00, 12.01it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▉               | 32074/40000 [38:58<11:44, 11.26it/s]

tensor(4.4565, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▉               | 32084/40000 [38:59<11:39, 11.32it/s]

tensor(4.4469, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▉               | 32094/40000 [39:00<10:08, 12.99it/s]

tensor(4.4463, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|████████████████████████████████████████████████████████████▉               | 32104/40000 [39:01<10:56, 12.03it/s]

tensor(4.4509, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████               | 32114/40000 [39:02<10:43, 12.25it/s]

tensor(4.3580, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████               | 32124/40000 [39:02<09:55, 13.23it/s]

tensor(4.4739, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████               | 32134/40000 [39:03<09:50, 13.32it/s]

tensor(4.3619, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████               | 32144/40000 [39:04<10:04, 13.00it/s]

tensor(4.5717, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████               | 32154/40000 [39:05<09:45, 13.39it/s]

tensor(4.3347, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████               | 32164/40000 [39:05<09:41, 13.47it/s]

tensor(4.3510, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████▏              | 32174/40000 [39:06<09:42, 13.43it/s]

tensor(4.4065, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████▏              | 32184/40000 [39:07<09:41, 13.45it/s]

tensor(4.4649, device='cuda:0', grad_fn=<NllLossBackward0>)


 80%|█████████████████████████████████████████████████████████████▏              | 32194/40000 [39:08<09:39, 13.46it/s]

tensor(4.3830, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▏              | 32204/40000 [39:08<09:40, 13.42it/s]

tensor(4.3604, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▏              | 32214/40000 [39:09<09:41, 13.40it/s]

tensor(4.4438, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▏              | 32224/40000 [39:10<09:39, 13.41it/s]

tensor(4.3726, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▏              | 32234/40000 [39:11<09:38, 13.43it/s]

tensor(4.4399, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▎              | 32244/40000 [39:11<09:35, 13.48it/s]

tensor(4.3573, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▎              | 32254/40000 [39:12<09:33, 13.52it/s]

tensor(4.4498, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▎              | 32264/40000 [39:13<09:32, 13.51it/s]

tensor(4.2926, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▎              | 32274/40000 [39:14<09:31, 13.52it/s]

tensor(4.3755, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▎              | 32284/40000 [39:14<09:33, 13.45it/s]

tensor(4.3777, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▎              | 32294/40000 [39:15<09:32, 13.47it/s]

tensor(4.2939, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▍              | 32304/40000 [39:16<09:35, 13.38it/s]

tensor(4.3267, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▍              | 32314/40000 [39:17<09:55, 12.90it/s]

tensor(4.3931, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▍              | 32324/40000 [39:17<10:05, 12.67it/s]

tensor(4.3490, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▍              | 32334/40000 [39:18<10:08, 12.59it/s]

tensor(4.4440, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▍              | 32344/40000 [39:19<10:03, 12.68it/s]

tensor(4.3595, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▍              | 32354/40000 [39:20<10:02, 12.69it/s]

tensor(4.3973, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▍              | 32364/40000 [39:21<09:35, 13.26it/s]

tensor(4.3519, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▌              | 32374/40000 [39:21<09:27, 13.43it/s]

tensor(4.4646, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▌              | 32384/40000 [39:22<09:23, 13.51it/s]

tensor(4.2933, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▌              | 32394/40000 [39:23<09:24, 13.48it/s]

tensor(4.3549, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▌              | 32404/40000 [39:23<09:23, 13.48it/s]

tensor(4.4568, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▌              | 32414/40000 [39:24<09:23, 13.47it/s]

tensor(4.3795, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▌              | 32424/40000 [39:25<09:21, 13.49it/s]

tensor(4.3613, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▌              | 32434/40000 [39:26<09:21, 13.48it/s]

tensor(4.3658, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▋              | 32444/40000 [39:26<09:24, 13.38it/s]

tensor(4.4489, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▋              | 32454/40000 [39:27<09:20, 13.46it/s]

tensor(4.3565, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▋              | 32464/40000 [39:28<09:18, 13.48it/s]

tensor(4.3606, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▋              | 32474/40000 [39:29<09:17, 13.50it/s]

tensor(4.3387, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▋              | 32484/40000 [39:29<09:17, 13.49it/s]

tensor(4.3641, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▋              | 32494/40000 [39:30<09:15, 13.51it/s]

tensor(4.3557, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▊              | 32504/40000 [39:31<09:16, 13.47it/s]

tensor(4.3353, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▊              | 32514/40000 [39:32<10:31, 11.86it/s]

tensor(4.3228, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▊              | 32524/40000 [39:33<09:48, 12.71it/s]

tensor(4.3085, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▊              | 32534/40000 [39:33<09:23, 13.25it/s]

tensor(4.3870, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▊              | 32544/40000 [39:34<09:18, 13.34it/s]

tensor(4.3587, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▊              | 32554/40000 [39:35<09:28, 13.09it/s]

tensor(4.3714, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▊              | 32564/40000 [39:36<09:17, 13.34it/s]

tensor(4.3586, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▉              | 32574/40000 [39:36<09:12, 13.43it/s]

tensor(4.4580, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▉              | 32584/40000 [39:37<09:09, 13.51it/s]

tensor(4.4141, device='cuda:0', grad_fn=<NllLossBackward0>)


 81%|█████████████████████████████████████████████████████████████▉              | 32594/40000 [39:38<09:07, 13.53it/s]

tensor(4.3437, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|█████████████████████████████████████████████████████████████▉              | 32604/40000 [39:39<09:09, 13.45it/s]

tensor(4.4604, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|█████████████████████████████████████████████████████████████▉              | 32614/40000 [39:39<09:08, 13.47it/s]

tensor(4.3917, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|█████████████████████████████████████████████████████████████▉              | 32624/40000 [39:40<09:06, 13.49it/s]

tensor(4.3213, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████              | 32634/40000 [39:41<09:04, 13.52it/s]

tensor(4.3891, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████              | 32644/40000 [39:41<09:06, 13.45it/s]

tensor(4.3919, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████              | 32654/40000 [39:42<09:04, 13.48it/s]

tensor(4.3643, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████              | 32664/40000 [39:43<09:03, 13.50it/s]

tensor(4.3526, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████              | 32674/40000 [39:44<09:02, 13.49it/s]

tensor(4.3694, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████              | 32684/40000 [39:44<09:38, 12.65it/s]

tensor(4.3892, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████              | 32694/40000 [39:45<10:40, 11.41it/s]

tensor(4.2709, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▏             | 32704/40000 [39:46<10:54, 11.15it/s]

tensor(4.4883, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▏             | 32714/40000 [39:47<10:52, 11.17it/s]

tensor(4.4598, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▏             | 32722/40000 [39:48<11:08, 10.88it/s]

tensor(4.3914, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▏             | 32734/40000 [39:49<10:56, 11.07it/s]

tensor(4.3768, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▏             | 32744/40000 [39:50<09:45, 12.38it/s]

tensor(4.4564, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▏             | 32754/40000 [39:51<08:52, 13.62it/s]

tensor(4.3297, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▎             | 32764/40000 [39:51<08:53, 13.55it/s]

tensor(4.4459, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▎             | 32774/40000 [39:52<09:06, 13.23it/s]

tensor(4.3497, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▎             | 32784/40000 [39:53<09:00, 13.35it/s]

tensor(4.3210, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▎             | 32794/40000 [39:54<09:17, 12.93it/s]

tensor(4.4229, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▎             | 32804/40000 [39:54<09:23, 12.76it/s]

tensor(4.4827, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▎             | 32814/40000 [39:55<09:26, 12.69it/s]

tensor(4.3200, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▎             | 32824/40000 [39:56<08:47, 13.61it/s]

tensor(4.3930, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▍             | 32834/40000 [39:57<08:30, 14.05it/s]

tensor(4.3854, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▍             | 32844/40000 [39:57<08:27, 14.09it/s]

tensor(4.3808, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▍             | 32854/40000 [39:58<08:24, 14.16it/s]

tensor(4.3510, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▍             | 32864/40000 [39:59<08:24, 14.15it/s]

tensor(4.4567, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▍             | 32874/40000 [39:59<08:26, 14.06it/s]

tensor(4.4745, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▍             | 32884/40000 [40:00<08:33, 13.86it/s]

tensor(4.4280, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▍             | 32894/40000 [40:01<08:25, 14.05it/s]

tensor(4.4369, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▌             | 32904/40000 [40:02<08:47, 13.44it/s]

tensor(4.3996, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▌             | 32914/40000 [40:02<08:26, 13.98it/s]

tensor(4.3234, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▌             | 32924/40000 [40:03<08:19, 14.16it/s]

tensor(4.3446, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▌             | 32934/40000 [40:04<08:33, 13.75it/s]

tensor(4.3524, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▌             | 32944/40000 [40:04<08:24, 13.99it/s]

tensor(4.3818, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▌             | 32954/40000 [40:05<08:19, 14.09it/s]

tensor(4.3804, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▋             | 32964/40000 [40:06<08:18, 14.10it/s]

tensor(4.3988, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▋             | 32974/40000 [40:07<08:35, 13.64it/s]

tensor(4.4147, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▋             | 32984/40000 [40:07<08:21, 13.99it/s]

tensor(4.3636, device='cuda:0', grad_fn=<NllLossBackward0>)


 82%|██████████████████████████████████████████████████████████████▋             | 32994/40000 [40:08<08:18, 14.05it/s]

tensor(4.3932, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▋             | 33004/40000 [40:09<08:29, 13.72it/s]

tensor(4.3881, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▋             | 33014/40000 [40:09<08:18, 14.02it/s]

tensor(4.4490, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▋             | 33024/40000 [40:10<08:15, 14.08it/s]

tensor(4.4614, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▊             | 33034/40000 [40:11<08:11, 14.17it/s]

tensor(4.3156, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▊             | 33044/40000 [40:12<08:14, 14.05it/s]

tensor(4.3516, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▊             | 33054/40000 [40:12<08:12, 14.11it/s]

tensor(4.3413, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▊             | 33064/40000 [40:13<08:21, 13.82it/s]

tensor(4.3707, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▊             | 33074/40000 [40:14<08:15, 13.98it/s]

tensor(4.4094, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▊             | 33084/40000 [40:14<08:13, 14.00it/s]

tensor(4.3941, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▉             | 33094/40000 [40:15<08:15, 13.93it/s]

tensor(4.4435, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▉             | 33104/40000 [40:16<08:09, 14.08it/s]

tensor(4.3696, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▉             | 33114/40000 [40:17<08:01, 14.30it/s]

tensor(4.4039, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▉             | 33124/40000 [40:17<08:00, 14.30it/s]

tensor(4.3566, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▉             | 33134/40000 [40:18<08:03, 14.20it/s]

tensor(4.3802, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▉             | 33144/40000 [40:19<08:12, 13.91it/s]

tensor(4.3299, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|██████████████████████████████████████████████████████████████▉             | 33154/40000 [40:19<08:10, 13.95it/s]

tensor(4.3342, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████             | 33164/40000 [40:20<08:09, 13.96it/s]

tensor(4.4123, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████             | 33174/40000 [40:21<08:09, 13.95it/s]

tensor(4.3464, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████             | 33184/40000 [40:22<08:02, 14.12it/s]

tensor(4.3638, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████             | 33194/40000 [40:22<08:07, 13.97it/s]

tensor(4.3945, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████             | 33204/40000 [40:23<07:55, 14.29it/s]

tensor(4.4767, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████             | 33214/40000 [40:24<08:03, 14.03it/s]

tensor(4.4008, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▏            | 33224/40000 [40:24<08:04, 13.99it/s]

tensor(4.3011, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▏            | 33234/40000 [40:25<08:00, 14.08it/s]

tensor(4.3440, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▏            | 33244/40000 [40:26<07:54, 14.23it/s]

tensor(4.3567, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▏            | 33254/40000 [40:26<08:03, 13.95it/s]

tensor(4.3716, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▏            | 33264/40000 [40:27<07:53, 14.24it/s]

tensor(4.3705, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▏            | 33274/40000 [40:28<07:46, 14.41it/s]

tensor(4.2967, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▏            | 33284/40000 [40:29<07:59, 14.02it/s]

tensor(4.3787, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▎            | 33294/40000 [40:29<08:24, 13.29it/s]

tensor(4.4600, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▎            | 33304/40000 [40:30<07:57, 14.03it/s]

tensor(4.3736, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▎            | 33314/40000 [40:31<08:00, 13.91it/s]

tensor(4.2721, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▎            | 33324/40000 [40:31<08:13, 13.53it/s]

tensor(4.4118, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▎            | 33334/40000 [40:32<07:53, 14.08it/s]

tensor(4.3879, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▎            | 33344/40000 [40:33<07:50, 14.15it/s]

tensor(4.4258, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▎            | 33354/40000 [40:34<07:57, 13.92it/s]

tensor(4.3766, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▍            | 33364/40000 [40:34<07:48, 14.17it/s]

tensor(4.3552, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▍            | 33374/40000 [40:35<07:48, 14.14it/s]

tensor(4.4291, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▍            | 33384/40000 [40:36<08:11, 13.45it/s]

tensor(4.4784, device='cuda:0', grad_fn=<NllLossBackward0>)


 83%|███████████████████████████████████████████████████████████████▍            | 33394/40000 [40:36<07:52, 13.99it/s]

tensor(4.3497, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▍            | 33404/40000 [40:37<07:47, 14.11it/s]

tensor(4.3928, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▍            | 33414/40000 [40:38<07:57, 13.79it/s]

tensor(4.4367, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▌            | 33424/40000 [40:39<07:42, 14.21it/s]

tensor(4.4004, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▌            | 33434/40000 [40:39<07:42, 14.19it/s]

tensor(4.4296, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▌            | 33444/40000 [40:40<07:42, 14.17it/s]

tensor(4.3349, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▌            | 33454/40000 [40:41<07:46, 14.04it/s]

tensor(4.4665, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▌            | 33464/40000 [40:41<07:48, 13.95it/s]

tensor(4.3924, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▌            | 33474/40000 [40:42<07:44, 14.04it/s]

tensor(4.4116, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▌            | 33484/40000 [40:43<07:48, 13.91it/s]

tensor(4.4425, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▋            | 33494/40000 [40:44<07:44, 14.02it/s]

tensor(4.4650, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▋            | 33504/40000 [40:44<07:36, 14.22it/s]

tensor(4.3405, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▋            | 33514/40000 [40:45<07:50, 13.78it/s]

tensor(4.3729, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▋            | 33524/40000 [40:46<07:47, 13.85it/s]

tensor(4.4908, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▋            | 33534/40000 [40:46<07:37, 14.12it/s]

tensor(4.3201, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▋            | 33544/40000 [40:47<07:35, 14.18it/s]

tensor(4.4769, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▊            | 33554/40000 [40:48<07:42, 13.92it/s]

tensor(4.4095, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▊            | 33564/40000 [40:48<07:44, 13.87it/s]

tensor(4.3193, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▊            | 33574/40000 [40:49<07:44, 13.85it/s]

tensor(4.3152, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▊            | 33584/40000 [40:50<07:27, 14.35it/s]

tensor(4.3952, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▊            | 33594/40000 [40:51<07:39, 13.93it/s]

tensor(4.4009, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▊            | 33604/40000 [40:51<07:52, 13.53it/s]

tensor(4.4459, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▊            | 33614/40000 [40:52<07:45, 13.71it/s]

tensor(4.3647, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▉            | 33624/40000 [40:53<07:37, 13.93it/s]

tensor(4.3682, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▉            | 33634/40000 [40:53<07:27, 14.22it/s]

tensor(4.3921, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▉            | 33644/40000 [40:54<07:31, 14.07it/s]

tensor(4.3548, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▉            | 33654/40000 [40:55<07:30, 14.10it/s]

tensor(4.4161, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▉            | 33664/40000 [40:56<07:43, 13.68it/s]

tensor(4.3658, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▉            | 33674/40000 [40:56<07:32, 13.99it/s]

tensor(4.4242, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|███████████████████████████████████████████████████████████████▉            | 33684/40000 [40:57<07:33, 13.93it/s]

tensor(4.3883, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████            | 33694/40000 [40:58<07:33, 13.89it/s]

tensor(4.3835, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████            | 33704/40000 [40:58<07:32, 13.93it/s]

tensor(4.3836, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████            | 33714/40000 [40:59<07:26, 14.08it/s]

tensor(4.4486, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████            | 33724/40000 [41:00<07:26, 14.06it/s]

tensor(4.3771, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████            | 33734/40000 [41:01<07:29, 13.93it/s]

tensor(4.3489, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████            | 33744/40000 [41:01<07:27, 13.97it/s]

tensor(4.3761, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████▏           | 33754/40000 [41:02<07:18, 14.24it/s]

tensor(4.4050, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████▏           | 33764/40000 [41:03<07:28, 13.90it/s]

tensor(4.3299, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████▏           | 33774/40000 [41:03<07:29, 13.85it/s]

tensor(4.4252, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████▏           | 33784/40000 [41:04<07:18, 14.16it/s]

tensor(4.3679, device='cuda:0', grad_fn=<NllLossBackward0>)


 84%|████████████████████████████████████████████████████████████████▏           | 33794/40000 [41:05<07:25, 13.92it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▏           | 33804/40000 [41:06<07:17, 14.18it/s]

tensor(4.4187, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▏           | 33814/40000 [41:06<07:09, 14.39it/s]

tensor(4.3609, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▎           | 33824/40000 [41:07<07:19, 14.04it/s]

tensor(4.3531, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▎           | 33834/40000 [41:08<07:16, 14.12it/s]

tensor(4.3590, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▎           | 33844/40000 [41:08<07:24, 13.84it/s]

tensor(4.3268, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▎           | 33854/40000 [41:09<07:15, 14.12it/s]

tensor(4.3381, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▎           | 33864/40000 [41:10<07:19, 13.95it/s]

tensor(4.3292, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▎           | 33874/40000 [41:11<07:12, 14.15it/s]

tensor(4.4089, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▍           | 33884/40000 [41:11<07:13, 14.11it/s]

tensor(4.3688, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▍           | 33894/40000 [41:12<07:16, 14.00it/s]

tensor(4.3994, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▍           | 33904/40000 [41:13<07:22, 13.78it/s]

tensor(4.3630, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▍           | 33914/40000 [41:13<07:09, 14.17it/s]

tensor(4.3362, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▍           | 33924/40000 [41:14<07:06, 14.23it/s]

tensor(4.3699, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▍           | 33934/40000 [41:15<07:12, 14.03it/s]

tensor(4.3283, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▍           | 33944/40000 [41:16<07:11, 14.03it/s]

tensor(4.3140, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▌           | 33954/40000 [41:16<07:10, 14.06it/s]

tensor(4.4008, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▌           | 33964/40000 [41:17<07:02, 14.30it/s]

tensor(4.4984, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▌           | 33974/40000 [41:18<07:07, 14.11it/s]

tensor(4.3248, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▌           | 33984/40000 [41:18<07:06, 14.11it/s]

tensor(4.3149, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▌           | 33994/40000 [41:19<07:04, 14.15it/s]

tensor(4.3751, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▌           | 34004/40000 [41:20<07:06, 14.07it/s]

tensor(4.3924, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▋           | 34014/40000 [41:20<07:17, 13.70it/s]

tensor(4.3781, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▋           | 34024/40000 [41:21<07:25, 13.41it/s]

tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▋           | 34034/40000 [41:22<07:15, 13.70it/s]

tensor(4.3051, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▋           | 34044/40000 [41:23<06:58, 14.23it/s]

tensor(4.3010, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▋           | 34054/40000 [41:23<07:00, 14.15it/s]

tensor(4.3679, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▋           | 34064/40000 [41:24<07:07, 13.88it/s]

tensor(4.3666, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▋           | 34074/40000 [41:25<07:01, 14.05it/s]

tensor(4.3234, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▊           | 34084/40000 [41:25<07:00, 14.08it/s]

tensor(4.3283, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▊           | 34094/40000 [41:26<06:56, 14.17it/s]

tensor(4.3128, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▊           | 34104/40000 [41:27<06:56, 14.15it/s]

tensor(4.4845, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▊           | 34114/40000 [41:28<06:54, 14.18it/s]

tensor(4.3528, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▊           | 34124/40000 [41:28<06:53, 14.20it/s]

tensor(4.3789, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▊           | 34134/40000 [41:29<06:54, 14.14it/s]

tensor(4.3142, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▊           | 34144/40000 [41:30<06:58, 14.00it/s]

tensor(4.4091, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▉           | 34154/40000 [41:30<06:50, 14.23it/s]

tensor(4.4073, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▉           | 34164/40000 [41:31<06:52, 14.13it/s]

tensor(4.3919, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▉           | 34174/40000 [41:32<06:59, 13.90it/s]

tensor(4.2745, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▉           | 34184/40000 [41:33<07:32, 12.85it/s]

tensor(4.3750, device='cuda:0', grad_fn=<NllLossBackward0>)


 85%|████████████████████████████████████████████████████████████████▉           | 34194/40000 [41:33<07:50, 12.35it/s]

tensor(4.3695, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|████████████████████████████████████████████████████████████████▉           | 34204/40000 [41:34<07:30, 12.85it/s]

tensor(4.4275, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████           | 34214/40000 [41:35<07:44, 12.47it/s]

tensor(4.4871, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████           | 34224/40000 [41:36<08:29, 11.35it/s]

tensor(4.3552, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████           | 34234/40000 [41:37<08:19, 11.55it/s]

tensor(4.3558, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████           | 34244/40000 [41:38<07:42, 12.46it/s]

tensor(4.4343, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████           | 34254/40000 [41:39<08:06, 11.80it/s]

tensor(4.4592, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████           | 34264/40000 [41:39<07:19, 13.04it/s]

tensor(4.3623, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████           | 34274/40000 [41:40<07:07, 13.38it/s]

tensor(4.2952, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▏          | 34284/40000 [41:41<07:08, 13.34it/s]

tensor(4.3842, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▏          | 34294/40000 [41:41<07:05, 13.41it/s]

tensor(4.3515, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▏          | 34304/40000 [41:42<08:26, 11.24it/s]

tensor(4.3962, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▏          | 34314/40000 [41:43<07:32, 12.57it/s]

tensor(4.3919, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▏          | 34324/40000 [41:44<07:08, 13.26it/s]

tensor(4.4805, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▏          | 34334/40000 [41:45<07:03, 13.39it/s]

tensor(4.3627, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▎          | 34344/40000 [41:45<07:08, 13.19it/s]

tensor(4.3098, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▎          | 34354/40000 [41:46<08:00, 11.75it/s]

tensor(4.3511, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▎          | 34364/40000 [41:47<08:19, 11.28it/s]

tensor(4.2847, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▎          | 34374/40000 [41:48<07:31, 12.45it/s]

tensor(4.3573, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▎          | 34384/40000 [41:49<08:05, 11.58it/s]

tensor(4.4685, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▎          | 34394/40000 [41:50<07:41, 12.15it/s]

tensor(4.4425, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▎          | 34404/40000 [41:51<08:20, 11.19it/s]

tensor(4.5077, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▍          | 34414/40000 [41:51<07:53, 11.79it/s]

tensor(4.4036, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▍          | 34424/40000 [41:52<07:20, 12.66it/s]

tensor(4.4482, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▍          | 34434/40000 [41:53<06:59, 13.27it/s]

tensor(4.4788, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▍          | 34444/40000 [41:54<06:56, 13.35it/s]

tensor(4.4108, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▍          | 34454/40000 [41:54<06:53, 13.40it/s]

tensor(4.4352, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▍          | 34464/40000 [41:55<06:52, 13.41it/s]

tensor(4.4047, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▌          | 34474/40000 [41:56<06:58, 13.21it/s]

tensor(4.4600, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▌          | 34484/40000 [41:57<06:50, 13.44it/s]

tensor(4.4155, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▌          | 34494/40000 [41:58<07:16, 12.61it/s]

tensor(4.3641, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▌          | 34504/40000 [41:58<07:30, 12.21it/s]

tensor(4.4422, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▌          | 34514/40000 [41:59<08:02, 11.38it/s]

tensor(4.4328, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▌          | 34524/40000 [42:00<07:34, 12.05it/s]

tensor(4.2860, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▌          | 34534/40000 [42:01<07:58, 11.43it/s]

tensor(4.4274, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▋          | 34544/40000 [42:02<07:34, 12.01it/s]

tensor(4.2904, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▋          | 34554/40000 [42:03<07:00, 12.97it/s]

tensor(4.4313, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▋          | 34564/40000 [42:03<06:57, 13.03it/s]

tensor(4.3976, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▋          | 34574/40000 [42:04<07:31, 12.01it/s]

tensor(4.3088, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▋          | 34584/40000 [42:05<06:51, 13.17it/s]

tensor(4.4336, device='cuda:0', grad_fn=<NllLossBackward0>)


 86%|█████████████████████████████████████████████████████████████████▋          | 34594/40000 [42:06<06:28, 13.91it/s]

tensor(4.4069, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▋          | 34604/40000 [42:06<06:28, 13.87it/s]

tensor(4.4324, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▊          | 34614/40000 [42:07<06:25, 13.98it/s]

tensor(4.3526, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▊          | 34624/40000 [42:08<06:25, 13.95it/s]

tensor(4.4187, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▊          | 34634/40000 [42:09<06:24, 13.97it/s]

tensor(4.3868, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▊          | 34644/40000 [42:09<06:21, 14.03it/s]

tensor(4.3819, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▊          | 34654/40000 [42:10<06:56, 12.82it/s]

tensor(4.3916, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▊          | 34664/40000 [42:11<06:55, 12.83it/s]

tensor(4.3562, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▉          | 34674/40000 [42:12<06:32, 13.55it/s]

tensor(4.4447, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▉          | 34684/40000 [42:12<06:20, 13.96it/s]

tensor(4.4306, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▉          | 34694/40000 [42:13<06:46, 13.05it/s]

tensor(4.4246, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▉          | 34704/40000 [42:14<06:48, 12.98it/s]

tensor(4.3680, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▉          | 34714/40000 [42:14<06:26, 13.66it/s]

tensor(4.3383, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▉          | 34724/40000 [42:15<06:36, 13.29it/s]

tensor(4.3336, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|█████████████████████████████████████████████████████████████████▉          | 34734/40000 [42:16<06:49, 12.85it/s]

tensor(4.3831, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████          | 34744/40000 [42:17<06:29, 13.50it/s]

tensor(4.3845, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████          | 34754/40000 [42:17<06:39, 13.14it/s]

tensor(4.4956, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████          | 34764/40000 [42:18<06:28, 13.47it/s]

tensor(4.4231, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████          | 34774/40000 [42:19<06:43, 12.94it/s]

tensor(4.3917, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████          | 34784/40000 [42:20<06:50, 12.69it/s]

tensor(4.3057, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████          | 34794/40000 [42:21<06:55, 12.54it/s]

tensor(4.4054, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▏         | 34804/40000 [42:21<06:48, 12.72it/s]

tensor(4.4420, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▏         | 34814/40000 [42:22<06:40, 12.94it/s]

tensor(4.3190, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▏         | 34824/40000 [42:23<06:11, 13.95it/s]

tensor(4.3639, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▏         | 34834/40000 [42:24<06:06, 14.08it/s]

tensor(4.3497, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▏         | 34844/40000 [42:24<06:03, 14.18it/s]

tensor(4.3822, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▏         | 34854/40000 [42:25<06:03, 14.14it/s]

tensor(4.4054, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▏         | 34864/40000 [42:26<06:03, 14.14it/s]

tensor(4.3296, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▎         | 34874/40000 [42:26<06:19, 13.52it/s]

tensor(4.4453, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▎         | 34884/40000 [42:27<06:04, 14.02it/s]

tensor(4.4916, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▎         | 34894/40000 [42:28<06:12, 13.70it/s]

tensor(4.4026, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▎         | 34904/40000 [42:29<06:16, 13.55it/s]

tensor(4.3517, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▎         | 34914/40000 [42:29<06:04, 13.96it/s]

tensor(4.3113, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▎         | 34924/40000 [42:30<06:34, 12.88it/s]

tensor(4.2913, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▎         | 34934/40000 [42:31<06:33, 12.86it/s]

tensor(4.3952, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▍         | 34944/40000 [42:32<06:08, 13.74it/s]

tensor(4.3893, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▍         | 34954/40000 [42:32<05:57, 14.11it/s]

tensor(4.3526, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▍         | 34964/40000 [42:33<06:05, 13.78it/s]

tensor(4.4064, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▍         | 34974/40000 [42:34<06:03, 13.84it/s]

tensor(4.3655, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▍         | 34984/40000 [42:34<05:57, 14.05it/s]

tensor(4.3669, device='cuda:0', grad_fn=<NllLossBackward0>)


 87%|██████████████████████████████████████████████████████████████████▍         | 34994/40000 [42:35<05:53, 14.14it/s]

tensor(4.4064, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▌         | 35004/40000 [42:36<05:54, 14.09it/s]

tensor(4.3698, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▌         | 35014/40000 [42:37<05:52, 14.14it/s]

tensor(4.3796, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▌         | 35024/40000 [42:37<05:51, 14.16it/s]

tensor(4.4775, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▌         | 35034/40000 [42:38<05:51, 14.11it/s]

tensor(4.4638, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▌         | 35044/40000 [42:39<05:49, 14.17it/s]

tensor(4.4148, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▌         | 35054/40000 [42:39<05:49, 14.16it/s]

tensor(4.3330, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▌         | 35064/40000 [42:40<05:48, 14.15it/s]

tensor(4.3348, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▋         | 35074/40000 [42:41<05:47, 14.16it/s]

tensor(4.4039, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▋         | 35084/40000 [42:42<06:08, 13.32it/s]

tensor(4.4653, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▋         | 35094/40000 [42:42<06:01, 13.59it/s]

tensor(4.4505, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▋         | 35104/40000 [42:43<05:51, 13.93it/s]

tensor(4.3814, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▋         | 35114/40000 [42:44<05:46, 14.11it/s]

tensor(4.3695, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▋         | 35124/40000 [42:44<05:45, 14.13it/s]

tensor(4.4606, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▊         | 35134/40000 [42:45<05:54, 13.74it/s]

tensor(4.4560, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▊         | 35144/40000 [42:46<06:01, 13.42it/s]

tensor(4.3362, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▊         | 35154/40000 [42:47<05:58, 13.51it/s]

tensor(4.2971, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▊         | 35164/40000 [42:47<05:53, 13.66it/s]

tensor(4.4539, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▊         | 35174/40000 [42:48<05:54, 13.60it/s]

tensor(4.2695, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▊         | 35184/40000 [42:49<05:43, 14.02it/s]

tensor(4.3900, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▊         | 35194/40000 [42:49<05:40, 14.10it/s]

tensor(4.3594, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▉         | 35204/40000 [42:50<05:39, 14.13it/s]

tensor(4.3745, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▉         | 35214/40000 [42:51<05:39, 14.08it/s]

tensor(4.3744, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▉         | 35224/40000 [42:52<05:38, 14.12it/s]

tensor(4.3911, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▉         | 35234/40000 [42:52<05:36, 14.15it/s]

tensor(4.4012, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▉         | 35244/40000 [42:53<05:36, 14.12it/s]

tensor(4.4824, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|██████████████████████████████████████████████████████████████████▉         | 35254/40000 [42:54<05:36, 14.12it/s]

tensor(4.3943, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████         | 35264/40000 [42:54<05:34, 14.15it/s]

tensor(4.3991, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████         | 35274/40000 [42:55<05:34, 14.14it/s]

tensor(4.2993, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████         | 35284/40000 [42:56<05:33, 14.14it/s]

tensor(4.3890, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████         | 35294/40000 [42:57<05:32, 14.17it/s]

tensor(4.3465, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████         | 35304/40000 [42:57<05:31, 14.18it/s]

tensor(4.3733, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████         | 35314/40000 [42:58<05:31, 14.14it/s]

tensor(4.3642, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████         | 35324/40000 [42:59<05:30, 14.14it/s]

tensor(4.4107, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████▏        | 35334/40000 [42:59<05:29, 14.18it/s]

tensor(4.3328, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████▏        | 35344/40000 [43:00<05:32, 14.02it/s]

tensor(4.3329, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████▏        | 35354/40000 [43:01<06:07, 12.64it/s]

tensor(4.4481, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████▏        | 35364/40000 [43:02<06:18, 12.26it/s]

tensor(4.3796, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████▏        | 35374/40000 [43:02<05:40, 13.59it/s]

tensor(4.3550, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████▏        | 35384/40000 [43:03<05:39, 13.61it/s]

tensor(4.5079, device='cuda:0', grad_fn=<NllLossBackward0>)


 88%|███████████████████████████████████████████████████████████████████▏        | 35394/40000 [43:04<05:30, 13.93it/s]

tensor(4.2968, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▎        | 35404/40000 [43:05<05:29, 13.93it/s]

tensor(4.3015, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▎        | 35414/40000 [43:05<05:24, 14.11it/s]

tensor(4.3311, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▎        | 35424/40000 [43:06<05:28, 13.94it/s]

tensor(4.3480, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▎        | 35434/40000 [43:07<05:23, 14.13it/s]

tensor(4.4696, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▎        | 35444/40000 [43:07<05:25, 13.98it/s]

tensor(4.3405, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▎        | 35454/40000 [43:08<05:49, 13.01it/s]

tensor(4.3827, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▍        | 35464/40000 [43:09<05:52, 12.88it/s]

tensor(4.4250, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▍        | 35474/40000 [43:10<05:26, 13.86it/s]

tensor(4.4204, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▍        | 35484/40000 [43:10<05:19, 14.12it/s]

tensor(4.3189, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▍        | 35494/40000 [43:11<05:18, 14.15it/s]

tensor(4.4078, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▍        | 35504/40000 [43:12<05:27, 13.74it/s]

tensor(4.2880, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▍        | 35514/40000 [43:13<05:31, 13.52it/s]

tensor(4.3962, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▍        | 35524/40000 [43:13<05:18, 14.07it/s]

tensor(4.3631, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▌        | 35534/40000 [43:14<05:21, 13.88it/s]

tensor(4.3406, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▌        | 35544/40000 [43:15<05:14, 14.16it/s]

tensor(4.3670, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▌        | 35554/40000 [43:15<05:16, 14.04it/s]

tensor(4.4728, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▌        | 35564/40000 [43:16<05:31, 13.38it/s]

tensor(4.3866, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▌        | 35574/40000 [43:17<05:28, 13.46it/s]

tensor(4.4225, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▌        | 35584/40000 [43:18<05:26, 13.51it/s]

tensor(4.3571, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▋        | 35594/40000 [43:18<05:35, 13.13it/s]

tensor(4.3623, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▋        | 35604/40000 [43:19<05:28, 13.36it/s]

tensor(4.3816, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▋        | 35614/40000 [43:20<06:00, 12.18it/s]

tensor(4.4346, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▋        | 35624/40000 [43:21<05:21, 13.60it/s]

tensor(4.2792, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▋        | 35634/40000 [43:21<05:17, 13.74it/s]

tensor(4.3538, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▋        | 35644/40000 [43:22<05:17, 13.74it/s]

tensor(4.3935, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▋        | 35654/40000 [43:23<05:24, 13.41it/s]

tensor(4.2883, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▊        | 35664/40000 [43:24<05:15, 13.75it/s]

tensor(4.3578, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▊        | 35674/40000 [43:24<05:07, 14.06it/s]

tensor(4.4146, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▊        | 35684/40000 [43:25<05:35, 12.85it/s]

tensor(4.3273, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▊        | 35694/40000 [43:26<05:37, 12.75it/s]

tensor(4.4334, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▊        | 35704/40000 [43:27<05:39, 12.66it/s]

tensor(4.3689, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▊        | 35714/40000 [43:27<05:46, 12.35it/s]

tensor(4.3889, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▉        | 35724/40000 [43:28<05:19, 13.40it/s]

tensor(4.4014, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▉        | 35734/40000 [43:29<05:20, 13.30it/s]

tensor(4.3983, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▉        | 35744/40000 [43:30<05:07, 13.84it/s]

tensor(4.3475, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▉        | 35754/40000 [43:30<05:03, 13.97it/s]

tensor(4.3333, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▉        | 35764/40000 [43:31<05:03, 13.96it/s]

tensor(4.3867, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▉        | 35774/40000 [43:32<05:22, 13.12it/s]

tensor(4.4775, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|███████████████████████████████████████████████████████████████████▉        | 35784/40000 [43:33<05:18, 13.23it/s]

tensor(4.3943, device='cuda:0', grad_fn=<NllLossBackward0>)


 89%|████████████████████████████████████████████████████████████████████        | 35794/40000 [43:33<05:09, 13.59it/s]

tensor(4.4253, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████        | 35804/40000 [43:34<05:15, 13.32it/s]

tensor(4.4447, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████        | 35814/40000 [43:35<05:11, 13.43it/s]

tensor(4.4277, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████        | 35824/40000 [43:36<05:18, 13.12it/s]

tensor(4.4207, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████        | 35834/40000 [43:36<05:06, 13.60it/s]

tensor(4.3099, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████        | 35844/40000 [43:37<05:21, 12.91it/s]

tensor(4.3091, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████        | 35854/40000 [43:38<05:16, 13.09it/s]

tensor(4.3812, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▏       | 35864/40000 [43:39<05:07, 13.47it/s]

tensor(4.3272, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▏       | 35874/40000 [43:39<05:01, 13.67it/s]

tensor(4.4338, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▏       | 35884/40000 [43:40<04:59, 13.73it/s]

tensor(4.3016, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▏       | 35894/40000 [43:41<05:03, 13.55it/s]

tensor(4.3688, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▏       | 35904/40000 [43:42<05:40, 12.02it/s]

tensor(4.4117, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▏       | 35914/40000 [43:42<05:29, 12.38it/s]

tensor(4.3618, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▎       | 35924/40000 [43:43<05:02, 13.46it/s]

tensor(4.3794, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▎       | 35934/40000 [43:44<05:06, 13.27it/s]

tensor(4.3787, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▎       | 35944/40000 [43:45<04:59, 13.55it/s]

tensor(4.3474, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▎       | 35954/40000 [43:45<04:55, 13.70it/s]

tensor(4.3666, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▎       | 35964/40000 [43:46<04:54, 13.68it/s]

tensor(4.4204, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▎       | 35974/40000 [43:47<04:49, 13.90it/s]

tensor(4.3683, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▎       | 35984/40000 [43:48<04:45, 14.07it/s]

tensor(4.3293, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▍       | 35994/40000 [43:48<04:55, 13.55it/s]

tensor(4.4248, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▍       | 36004/40000 [43:49<04:46, 13.92it/s]

tensor(4.4367, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▍       | 36014/40000 [43:50<04:44, 14.03it/s]

tensor(4.3565, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▍       | 36024/40000 [43:50<04:42, 14.08it/s]

tensor(4.3415, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▍       | 36034/40000 [43:51<04:40, 14.12it/s]

tensor(4.3648, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▍       | 36044/40000 [43:52<04:39, 14.14it/s]

tensor(4.3908, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▌       | 36054/40000 [43:53<04:40, 14.06it/s]

tensor(4.3860, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▌       | 36064/40000 [43:53<04:40, 14.02it/s]

tensor(4.5142, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▌       | 36074/40000 [43:54<04:39, 14.06it/s]

tensor(4.3258, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▌       | 36084/40000 [43:55<04:39, 14.02it/s]

tensor(4.4302, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▌       | 36094/40000 [43:55<04:36, 14.14it/s]

tensor(4.3554, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▌       | 36104/40000 [43:56<04:46, 13.60it/s]

tensor(4.4213, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▌       | 36114/40000 [43:57<04:38, 13.95it/s]

tensor(4.3579, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▋       | 36124/40000 [43:58<04:37, 13.97it/s]

tensor(4.3130, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▋       | 36134/40000 [43:58<04:41, 13.71it/s]

tensor(4.4226, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▋       | 36144/40000 [43:59<04:34, 14.03it/s]

tensor(4.3450, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▋       | 36154/40000 [44:00<04:32, 14.12it/s]

tensor(4.4172, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▋       | 36164/40000 [44:00<04:33, 14.01it/s]

tensor(4.4721, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▋       | 36174/40000 [44:01<04:32, 14.02it/s]

tensor(4.4156, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▋       | 36184/40000 [44:02<04:31, 14.07it/s]

tensor(4.3224, device='cuda:0', grad_fn=<NllLossBackward0>)


 90%|████████████████████████████████████████████████████████████████████▊       | 36194/40000 [44:03<04:30, 14.06it/s]

tensor(4.4324, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▊       | 36204/40000 [44:03<04:30, 14.05it/s]

tensor(4.3870, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▊       | 36214/40000 [44:04<04:29, 14.06it/s]

tensor(4.3601, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▊       | 36224/40000 [44:05<04:27, 14.10it/s]

tensor(4.3405, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▊       | 36234/40000 [44:05<04:28, 14.04it/s]

tensor(4.3682, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▊       | 36244/40000 [44:06<04:26, 14.07it/s]

tensor(4.3724, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▉       | 36254/40000 [44:07<04:28, 13.93it/s]

tensor(4.3588, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▉       | 36264/40000 [44:08<04:26, 14.01it/s]

tensor(4.3565, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▉       | 36274/40000 [44:08<04:27, 13.91it/s]

tensor(4.3384, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▉       | 36284/40000 [44:09<04:24, 14.05it/s]

tensor(4.3614, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▉       | 36294/40000 [44:10<04:23, 14.08it/s]

tensor(4.3795, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▉       | 36304/40000 [44:10<04:22, 14.07it/s]

tensor(4.3895, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|████████████████████████████████████████████████████████████████████▉       | 36314/40000 [44:11<04:22, 14.06it/s]

tensor(4.3277, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████       | 36324/40000 [44:12<04:21, 14.06it/s]

tensor(4.3547, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████       | 36334/40000 [44:12<04:19, 14.10it/s]

tensor(4.3886, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████       | 36344/40000 [44:13<04:20, 14.02it/s]

tensor(4.4338, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████       | 36354/40000 [44:14<04:20, 14.02it/s]

tensor(4.3161, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████       | 36364/40000 [44:15<04:17, 14.12it/s]

tensor(4.3380, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████       | 36374/40000 [44:15<04:16, 14.14it/s]

tensor(4.3126, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▏      | 36384/40000 [44:16<04:16, 14.08it/s]

tensor(4.4036, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▏      | 36394/40000 [44:17<04:15, 14.10it/s]

tensor(4.3767, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▏      | 36404/40000 [44:17<04:15, 14.08it/s]

tensor(4.4135, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▏      | 36414/40000 [44:18<04:15, 14.06it/s]

tensor(4.4112, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▏      | 36424/40000 [44:19<04:14, 14.06it/s]

tensor(4.4157, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▏      | 36434/40000 [44:20<04:12, 14.11it/s]

tensor(4.3013, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▏      | 36444/40000 [44:20<04:12, 14.06it/s]

tensor(4.4021, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▎      | 36454/40000 [44:21<04:12, 14.03it/s]

tensor(4.3868, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▎      | 36464/40000 [44:22<04:10, 14.13it/s]

tensor(4.3659, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▎      | 36474/40000 [44:22<04:11, 14.01it/s]

tensor(4.3424, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▎      | 36484/40000 [44:23<04:10, 14.01it/s]

tensor(4.3453, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▎      | 36494/40000 [44:24<04:08, 14.09it/s]

tensor(4.4376, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▎      | 36504/40000 [44:25<04:09, 14.03it/s]

tensor(4.3602, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▍      | 36514/40000 [44:25<04:06, 14.12it/s]

tensor(4.3528, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▍      | 36524/40000 [44:26<04:07, 14.02it/s]

tensor(4.3829, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▍      | 36534/40000 [44:27<04:05, 14.11it/s]

tensor(4.3811, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▍      | 36544/40000 [44:27<04:06, 14.00it/s]

tensor(4.4484, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▍      | 36554/40000 [44:28<04:05, 14.06it/s]

tensor(4.3429, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▍      | 36564/40000 [44:29<04:10, 13.69it/s]

tensor(4.3381, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▍      | 36574/40000 [44:30<04:03, 14.05it/s]

tensor(4.3314, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▌      | 36584/40000 [44:30<04:03, 14.02it/s]

tensor(4.5006, device='cuda:0', grad_fn=<NllLossBackward0>)


 91%|█████████████████████████████████████████████████████████████████████▌      | 36594/40000 [44:31<04:06, 13.84it/s]

tensor(4.4338, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▌      | 36604/40000 [44:32<04:01, 14.04it/s]

tensor(4.3534, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▌      | 36614/40000 [44:32<04:00, 14.08it/s]

tensor(4.3682, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▌      | 36624/40000 [44:33<04:00, 14.04it/s]

tensor(4.3954, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▌      | 36634/40000 [44:34<04:01, 13.95it/s]

tensor(4.3998, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▌      | 36644/40000 [44:35<03:59, 14.02it/s]

tensor(4.3562, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▋      | 36654/40000 [44:35<03:57, 14.11it/s]

tensor(4.3546, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▋      | 36664/40000 [44:36<03:57, 14.08it/s]

tensor(4.3017, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▋      | 36674/40000 [44:37<03:56, 14.06it/s]

tensor(4.2973, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▋      | 36684/40000 [44:37<04:04, 13.56it/s]

tensor(4.4311, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▋      | 36694/40000 [44:38<03:59, 13.78it/s]

tensor(4.3289, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▋      | 36704/40000 [44:39<03:58, 13.81it/s]

tensor(4.3212, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▊      | 36714/40000 [44:40<03:54, 13.99it/s]

tensor(4.4345, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▊      | 36724/40000 [44:40<03:54, 13.94it/s]

tensor(4.3865, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▊      | 36734/40000 [44:41<03:52, 14.08it/s]

tensor(4.4277, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▊      | 36744/40000 [44:42<04:01, 13.49it/s]

tensor(4.3498, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▊      | 36754/40000 [44:42<03:53, 13.92it/s]

tensor(4.4771, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▊      | 36764/40000 [44:43<03:49, 14.07it/s]

tensor(4.3457, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▊      | 36774/40000 [44:44<03:48, 14.10it/s]

tensor(4.3684, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▉      | 36784/40000 [44:45<03:47, 14.13it/s]

tensor(4.3890, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▉      | 36794/40000 [44:45<03:48, 14.06it/s]

tensor(4.3557, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▉      | 36804/40000 [44:46<03:48, 14.02it/s]

tensor(4.4182, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▉      | 36814/40000 [44:47<03:46, 14.06it/s]

tensor(4.4452, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▉      | 36824/40000 [44:47<03:45, 14.08it/s]

tensor(4.3576, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|█████████████████████████████████████████████████████████████████████▉      | 36834/40000 [44:48<03:43, 14.16it/s]

tensor(4.3985, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████      | 36844/40000 [44:49<03:44, 14.05it/s]

tensor(4.3884, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████      | 36854/40000 [44:50<03:43, 14.10it/s]

tensor(4.3873, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████      | 36864/40000 [44:50<03:44, 13.99it/s]

tensor(4.4411, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████      | 36874/40000 [44:51<03:43, 14.00it/s]

tensor(4.3063, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████      | 36884/40000 [44:52<03:42, 14.01it/s]

tensor(4.3318, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████      | 36894/40000 [44:52<03:40, 14.09it/s]

tensor(4.4069, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████      | 36904/40000 [44:53<03:39, 14.11it/s]

tensor(4.3765, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▏     | 36914/40000 [44:54<03:38, 14.11it/s]

tensor(4.4104, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▏     | 36924/40000 [44:54<03:38, 14.11it/s]

tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▏     | 36934/40000 [44:55<04:14, 12.04it/s]

tensor(4.4037, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▏     | 36944/40000 [44:56<03:56, 12.90it/s]

tensor(4.3606, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▏     | 36954/40000 [44:57<03:54, 12.98it/s]

tensor(4.4588, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▏     | 36962/40000 [44:58<04:26, 11.39it/s]

tensor(4.3801, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▎     | 36974/40000 [44:59<03:54, 12.88it/s]

tensor(4.4044, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▎     | 36984/40000 [44:59<03:53, 12.92it/s]

tensor(4.4082, device='cuda:0', grad_fn=<NllLossBackward0>)


 92%|██████████████████████████████████████████████████████████████████████▎     | 36994/40000 [45:00<03:46, 13.26it/s]

tensor(4.3801, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▎     | 37004/40000 [45:01<03:56, 12.65it/s]

tensor(4.4197, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▎     | 37014/40000 [45:02<03:51, 12.90it/s]

tensor(4.2976, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▎     | 37024/40000 [45:02<03:42, 13.35it/s]

tensor(4.4205, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▎     | 37034/40000 [45:03<03:42, 13.34it/s]

tensor(4.3718, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▍     | 37044/40000 [45:04<03:40, 13.40it/s]

tensor(4.3760, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▍     | 37054/40000 [45:05<03:37, 13.52it/s]

tensor(4.2941, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▍     | 37064/40000 [45:05<03:39, 13.40it/s]

tensor(4.3444, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▍     | 37074/40000 [45:06<03:38, 13.37it/s]

tensor(4.4178, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▍     | 37084/40000 [45:07<03:38, 13.32it/s]

tensor(4.2891, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▍     | 37094/40000 [45:08<03:37, 13.38it/s]

tensor(4.3597, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▍     | 37104/40000 [45:08<03:37, 13.32it/s]

tensor(4.4251, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▌     | 37114/40000 [45:09<03:35, 13.42it/s]

tensor(4.3771, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▌     | 37124/40000 [45:10<03:41, 12.99it/s]

tensor(4.3589, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▌     | 37134/40000 [45:11<03:34, 13.39it/s]

tensor(4.4894, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▌     | 37144/40000 [45:11<03:32, 13.45it/s]

tensor(4.3013, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▌     | 37154/40000 [45:12<03:35, 13.21it/s]

tensor(4.3840, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▌     | 37164/40000 [45:13<03:30, 13.44it/s]

tensor(4.2959, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▋     | 37174/40000 [45:14<03:30, 13.40it/s]

tensor(4.4077, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▋     | 37184/40000 [45:14<03:29, 13.47it/s]

tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▋     | 37194/40000 [45:15<03:28, 13.43it/s]

tensor(4.3304, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▋     | 37204/40000 [45:16<03:37, 12.86it/s]

tensor(4.3527, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▋     | 37214/40000 [45:17<03:29, 13.30it/s]

tensor(4.3250, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▋     | 37224/40000 [45:17<03:55, 11.80it/s]

tensor(4.3517, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▋     | 37234/40000 [45:18<03:34, 12.88it/s]

tensor(4.4230, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▊     | 37244/40000 [45:19<03:23, 13.56it/s]

tensor(4.4063, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▊     | 37254/40000 [45:20<03:15, 14.04it/s]

tensor(4.4699, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▊     | 37264/40000 [45:20<03:14, 14.05it/s]

tensor(4.4071, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▊     | 37274/40000 [45:21<03:14, 14.01it/s]

tensor(4.4125, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▊     | 37284/40000 [45:22<03:12, 14.13it/s]

tensor(4.3967, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▊     | 37294/40000 [45:22<03:12, 14.05it/s]

tensor(4.3703, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▉     | 37304/40000 [45:23<03:12, 13.99it/s]

tensor(4.3299, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▉     | 37314/40000 [45:24<03:41, 12.15it/s]

tensor(4.3056, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▉     | 37324/40000 [45:25<03:37, 12.32it/s]

tensor(4.3806, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▉     | 37334/40000 [45:26<03:29, 12.72it/s]

tensor(4.3608, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▉     | 37344/40000 [45:26<03:21, 13.18it/s]

tensor(4.3963, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▉     | 37354/40000 [45:27<03:38, 12.12it/s]

tensor(4.3562, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|██████████████████████████████████████████████████████████████████████▉     | 37364/40000 [45:28<03:50, 11.45it/s]

tensor(4.4270, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|███████████████████████████████████████████████████████████████████████     | 37374/40000 [45:29<03:21, 13.06it/s]

tensor(4.3503, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|███████████████████████████████████████████████████████████████████████     | 37384/40000 [45:30<03:33, 12.23it/s]

tensor(4.3964, device='cuda:0', grad_fn=<NllLossBackward0>)


 93%|███████████████████████████████████████████████████████████████████████     | 37394/40000 [45:30<03:35, 12.08it/s]

tensor(4.4134, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████     | 37404/40000 [45:31<03:35, 12.06it/s]

tensor(4.3152, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████     | 37414/40000 [45:32<03:38, 11.85it/s]

tensor(4.4130, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████     | 37424/40000 [45:33<03:27, 12.41it/s]

tensor(4.3319, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████     | 37434/40000 [45:34<03:29, 12.28it/s]

tensor(4.3446, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▏    | 37444/40000 [45:35<03:19, 12.82it/s]

tensor(4.4120, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▏    | 37454/40000 [45:35<03:12, 13.25it/s]

tensor(4.3574, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▏    | 37464/40000 [45:36<03:27, 12.23it/s]

tensor(4.4132, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▏    | 37474/40000 [45:37<03:29, 12.09it/s]

tensor(4.3653, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▏    | 37484/40000 [45:38<03:10, 13.17it/s]

tensor(4.4252, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▏    | 37494/40000 [45:38<03:10, 13.18it/s]

tensor(4.3273, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▎    | 37504/40000 [45:39<03:07, 13.34it/s]

tensor(4.4089, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▎    | 37514/40000 [45:40<03:00, 13.80it/s]

tensor(4.5298, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▎    | 37524/40000 [45:41<02:55, 14.08it/s]

tensor(4.4170, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▎    | 37534/40000 [45:41<02:54, 14.12it/s]

tensor(4.4016, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▎    | 37544/40000 [45:42<02:59, 13.66it/s]

tensor(4.4622, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▎    | 37554/40000 [45:43<03:22, 12.05it/s]

tensor(4.4545, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▎    | 37564/40000 [45:44<03:02, 13.36it/s]

tensor(4.3609, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▍    | 37574/40000 [45:44<03:04, 13.13it/s]

tensor(4.3097, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▍    | 37584/40000 [45:45<02:56, 13.73it/s]

tensor(4.3379, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▍    | 37594/40000 [45:46<02:50, 14.10it/s]

tensor(4.4801, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▍    | 37604/40000 [45:47<03:09, 12.66it/s]

tensor(4.5293, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▍    | 37614/40000 [45:47<03:00, 13.19it/s]

tensor(4.5573, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▍    | 37624/40000 [45:48<03:16, 12.09it/s]

tensor(4.4117, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▌    | 37634/40000 [45:49<03:02, 12.95it/s]

tensor(4.4002, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▌    | 37644/40000 [45:50<02:48, 13.95it/s]

tensor(4.3683, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▌    | 37654/40000 [45:50<03:05, 12.67it/s]

tensor(4.3016, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▌    | 37664/40000 [45:51<03:00, 12.94it/s]

tensor(4.3951, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▌    | 37674/40000 [45:52<02:52, 13.50it/s]

tensor(4.3564, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▌    | 37684/40000 [45:53<02:58, 12.95it/s]

tensor(4.3546, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▌    | 37694/40000 [45:53<02:48, 13.72it/s]

tensor(4.3334, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▋    | 37704/40000 [45:54<02:44, 13.96it/s]

tensor(4.3714, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▋    | 37714/40000 [45:55<02:53, 13.17it/s]

tensor(4.5574, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▋    | 37724/40000 [45:56<02:45, 13.72it/s]

tensor(4.3892, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▋    | 37734/40000 [45:56<02:46, 13.64it/s]

tensor(4.4033, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▋    | 37744/40000 [45:57<02:44, 13.73it/s]

tensor(4.4337, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▋    | 37754/40000 [45:58<02:42, 13.81it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▊    | 37764/40000 [45:59<02:42, 13.74it/s]

tensor(4.3693, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▊    | 37774/40000 [45:59<02:41, 13.81it/s]

tensor(4.3584, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▊    | 37784/40000 [46:00<02:42, 13.66it/s]

tensor(4.4042, device='cuda:0', grad_fn=<NllLossBackward0>)


 94%|███████████████████████████████████████████████████████████████████████▊    | 37794/40000 [46:01<02:39, 13.81it/s]

tensor(4.4326, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▊    | 37804/40000 [46:01<02:36, 14.04it/s]

tensor(4.3259, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▊    | 37814/40000 [46:02<02:39, 13.72it/s]

tensor(4.3719, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▊    | 37824/40000 [46:03<02:46, 13.04it/s]

tensor(4.4828, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▉    | 37834/40000 [46:04<02:36, 13.82it/s]

tensor(4.3636, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▉    | 37844/40000 [46:04<02:35, 13.83it/s]

tensor(4.3815, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▉    | 37854/40000 [46:05<02:35, 13.80it/s]

tensor(4.3792, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▉    | 37864/40000 [46:06<02:31, 14.12it/s]

tensor(4.3769, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▉    | 37874/40000 [46:07<02:38, 13.40it/s]

tensor(4.3482, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▉    | 37884/40000 [46:07<02:40, 13.16it/s]

tensor(4.3025, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|███████████████████████████████████████████████████████████████████████▉    | 37894/40000 [46:08<02:42, 12.96it/s]

tensor(4.3480, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████    | 37904/40000 [46:09<02:46, 12.57it/s]

tensor(4.4324, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████    | 37914/40000 [46:10<02:39, 13.07it/s]

tensor(4.4484, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████    | 37924/40000 [46:10<02:40, 12.95it/s]

tensor(4.3693, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████    | 37934/40000 [46:11<02:50, 12.13it/s]

tensor(4.3623, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████    | 37944/40000 [46:12<02:54, 11.78it/s]

tensor(4.4506, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████    | 37954/40000 [46:13<02:44, 12.42it/s]

tensor(4.3427, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▏   | 37964/40000 [46:14<02:33, 13.26it/s]

tensor(4.3881, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▏   | 37974/40000 [46:14<02:27, 13.70it/s]

tensor(4.3937, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▏   | 37984/40000 [46:15<02:26, 13.77it/s]

tensor(4.3252, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▏   | 37994/40000 [46:16<02:30, 13.30it/s]

tensor(4.3296, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▏   | 38004/40000 [46:17<02:26, 13.61it/s]

tensor(4.4029, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▏   | 38014/40000 [46:17<02:27, 13.50it/s]

tensor(4.4392, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▏   | 38024/40000 [46:18<02:37, 12.54it/s]

tensor(4.2789, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▎   | 38034/40000 [46:19<02:24, 13.60it/s]

tensor(4.3565, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▎   | 38044/40000 [46:20<02:31, 12.95it/s]

tensor(4.3480, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▎   | 38054/40000 [46:20<02:22, 13.69it/s]

tensor(4.3514, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▎   | 38064/40000 [46:21<02:36, 12.33it/s]

tensor(4.4640, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▎   | 38074/40000 [46:22<02:32, 12.60it/s]

tensor(4.3466, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▎   | 38084/40000 [46:23<02:27, 12.99it/s]

tensor(4.4002, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▍   | 38094/40000 [46:23<02:16, 13.91it/s]

tensor(4.3769, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▍   | 38104/40000 [46:24<02:14, 14.10it/s]

tensor(4.3691, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▍   | 38114/40000 [46:25<02:19, 13.56it/s]

tensor(4.3731, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▍   | 38124/40000 [46:26<02:24, 12.97it/s]

tensor(4.4180, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▍   | 38134/40000 [46:26<02:17, 13.62it/s]

tensor(4.4255, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▍   | 38144/40000 [46:27<02:15, 13.75it/s]

tensor(4.3741, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▍   | 38154/40000 [46:28<02:22, 12.96it/s]

tensor(4.4659, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▌   | 38164/40000 [46:29<02:22, 12.91it/s]

tensor(4.3460, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▌   | 38174/40000 [46:29<02:18, 13.20it/s]

tensor(4.3548, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▌   | 38184/40000 [46:30<02:29, 12.19it/s]

tensor(4.4067, device='cuda:0', grad_fn=<NllLossBackward0>)


 95%|████████████████████████████████████████████████████████████████████████▌   | 38194/40000 [46:31<02:12, 13.64it/s]

tensor(4.3393, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▌   | 38204/40000 [46:32<02:07, 14.06it/s]

tensor(4.5028, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▌   | 38214/40000 [46:32<02:06, 14.14it/s]

tensor(4.3302, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▋   | 38224/40000 [46:33<02:05, 14.16it/s]

tensor(4.3183, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▋   | 38234/40000 [46:34<02:08, 13.79it/s]

tensor(4.4110, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▋   | 38244/40000 [46:35<02:07, 13.74it/s]

tensor(4.3256, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▋   | 38254/40000 [46:35<02:07, 13.68it/s]

tensor(4.3530, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▋   | 38264/40000 [46:36<02:08, 13.53it/s]

tensor(4.3323, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▋   | 38274/40000 [46:37<02:07, 13.50it/s]

tensor(4.3143, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▋   | 38284/40000 [46:37<02:06, 13.53it/s]

tensor(4.3816, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▊   | 38294/40000 [46:38<02:06, 13.51it/s]

tensor(4.3629, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▊   | 38304/40000 [46:39<02:05, 13.51it/s]

tensor(4.3469, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▊   | 38314/40000 [46:40<02:03, 13.66it/s]

tensor(4.4327, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▊   | 38324/40000 [46:40<02:07, 13.15it/s]

tensor(4.3398, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▊   | 38334/40000 [46:41<02:07, 13.08it/s]

tensor(4.4044, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▊   | 38344/40000 [46:42<02:13, 12.43it/s]

tensor(4.3331, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▊   | 38354/40000 [46:43<02:01, 13.60it/s]

tensor(4.3148, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▉   | 38364/40000 [46:43<01:57, 13.87it/s]

tensor(4.3474, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▉   | 38374/40000 [46:44<01:57, 13.89it/s]

tensor(4.3986, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▉   | 38384/40000 [46:45<01:55, 13.97it/s]

tensor(4.3595, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▉   | 38394/40000 [46:46<02:00, 13.33it/s]

tensor(4.4022, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▉   | 38404/40000 [46:46<02:00, 13.22it/s]

tensor(4.4266, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|████████████████████████████████████████████████████████████████████████▉   | 38414/40000 [46:47<02:00, 13.11it/s]

tensor(4.4046, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████   | 38424/40000 [46:48<02:01, 13.00it/s]

tensor(4.4263, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████   | 38434/40000 [46:49<02:00, 13.03it/s]

tensor(4.3705, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████   | 38444/40000 [46:49<01:56, 13.33it/s]

tensor(4.3962, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████   | 38454/40000 [46:50<01:50, 13.97it/s]

tensor(4.3269, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████   | 38464/40000 [46:51<02:07, 12.06it/s]

tensor(4.3523, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████   | 38474/40000 [46:52<01:59, 12.78it/s]

tensor(4.3256, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████   | 38484/40000 [46:52<01:57, 12.86it/s]

tensor(4.3731, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▏  | 38494/40000 [46:53<02:09, 11.62it/s]

tensor(4.3461, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▏  | 38504/40000 [46:54<01:53, 13.16it/s]

tensor(4.3209, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▏  | 38514/40000 [46:55<01:45, 14.02it/s]

tensor(4.5405, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▏  | 38524/40000 [46:56<01:44, 14.13it/s]

tensor(4.3846, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▏  | 38534/40000 [46:56<01:43, 14.13it/s]

tensor(4.3621, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▏  | 38544/40000 [46:57<01:52, 12.98it/s]

tensor(4.3283, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▎  | 38554/40000 [46:58<01:55, 12.49it/s]

tensor(4.3490, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▎  | 38564/40000 [46:59<01:56, 12.29it/s]

tensor(4.3967, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▎  | 38574/40000 [46:59<01:49, 13.02it/s]

tensor(4.3199, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▎  | 38584/40000 [47:00<01:44, 13.52it/s]

tensor(4.3077, device='cuda:0', grad_fn=<NllLossBackward0>)


 96%|█████████████████████████████████████████████████████████████████████████▎  | 38594/40000 [47:01<01:47, 13.10it/s]

tensor(4.3939, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▎  | 38604/40000 [47:02<01:49, 12.72it/s]

tensor(4.4195, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▎  | 38614/40000 [47:02<01:45, 13.12it/s]

tensor(4.4718, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▍  | 38624/40000 [47:03<01:50, 12.40it/s]

tensor(4.3214, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▍  | 38634/40000 [47:04<01:41, 13.51it/s]

tensor(4.3285, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▍  | 38644/40000 [47:05<01:46, 12.68it/s]

tensor(4.3440, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▍  | 38654/40000 [47:06<01:43, 13.03it/s]

tensor(4.4068, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▍  | 38664/40000 [47:06<01:39, 13.42it/s]

tensor(4.3138, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▍  | 38674/40000 [47:07<01:42, 12.98it/s]

tensor(4.3794, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▍  | 38684/40000 [47:08<01:41, 12.98it/s]

tensor(4.4702, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▌  | 38694/40000 [47:09<01:38, 13.30it/s]

tensor(4.3695, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▌  | 38704/40000 [47:09<01:34, 13.65it/s]

tensor(4.4038, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▌  | 38714/40000 [47:10<01:32, 13.83it/s]

tensor(4.3489, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▌  | 38724/40000 [47:11<01:30, 14.08it/s]

tensor(4.3904, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▌  | 38734/40000 [47:11<01:29, 14.08it/s]

tensor(4.3236, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▌  | 38744/40000 [47:12<01:29, 14.09it/s]

tensor(4.3861, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▋  | 38754/40000 [47:13<01:29, 13.92it/s]

tensor(4.3328, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▋  | 38764/40000 [47:14<01:27, 14.06it/s]

tensor(4.4302, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▋  | 38774/40000 [47:14<01:31, 13.38it/s]

tensor(4.4096, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▋  | 38784/40000 [47:15<01:28, 13.67it/s]

tensor(4.3449, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▋  | 38794/40000 [47:16<01:25, 14.11it/s]

tensor(4.4306, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▋  | 38804/40000 [47:16<01:25, 14.06it/s]

tensor(4.3264, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▋  | 38814/40000 [47:17<01:26, 13.65it/s]

tensor(4.5540, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▊  | 38824/40000 [47:18<01:23, 14.08it/s]

tensor(4.3740, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▊  | 38834/40000 [47:19<01:22, 14.10it/s]

tensor(4.4076, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▊  | 38844/40000 [47:19<01:26, 13.43it/s]

tensor(4.4837, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▊  | 38854/40000 [47:20<01:22, 13.92it/s]

tensor(4.3691, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▊  | 38864/40000 [47:21<01:22, 13.74it/s]

tensor(4.3525, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▊  | 38874/40000 [47:21<01:20, 13.98it/s]

tensor(4.3432, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▉  | 38884/40000 [47:22<01:22, 13.53it/s]

tensor(4.3520, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▉  | 38894/40000 [47:23<01:20, 13.78it/s]

tensor(4.3772, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▉  | 38904/40000 [47:24<01:17, 14.08it/s]

tensor(4.4435, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▉  | 38914/40000 [47:24<01:16, 14.16it/s]

tensor(4.4767, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▉  | 38924/40000 [47:25<01:21, 13.21it/s]

tensor(4.3826, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▉  | 38934/40000 [47:26<01:18, 13.52it/s]

tensor(4.4232, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|█████████████████████████████████████████████████████████████████████████▉  | 38944/40000 [47:27<01:15, 14.03it/s]

tensor(4.4768, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|██████████████████████████████████████████████████████████████████████████  | 38954/40000 [47:27<01:14, 14.13it/s]

tensor(4.4419, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|██████████████████████████████████████████████████████████████████████████  | 38964/40000 [47:28<01:13, 14.15it/s]

tensor(4.3677, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|██████████████████████████████████████████████████████████████████████████  | 38974/40000 [47:29<01:12, 14.15it/s]

tensor(4.3761, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|██████████████████████████████████████████████████████████████████████████  | 38984/40000 [47:29<01:11, 14.20it/s]

tensor(4.3485, device='cuda:0', grad_fn=<NllLossBackward0>)


 97%|██████████████████████████████████████████████████████████████████████████  | 38994/40000 [47:30<01:11, 14.15it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████  | 39004/40000 [47:31<01:11, 13.84it/s]

tensor(4.4469, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▏ | 39014/40000 [47:32<01:15, 13.04it/s]

tensor(4.4199, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▏ | 39024/40000 [47:32<01:10, 13.93it/s]

tensor(4.3309, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▏ | 39034/40000 [47:33<01:09, 13.98it/s]

tensor(4.4038, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▏ | 39044/40000 [47:34<01:07, 14.07it/s]

tensor(4.2998, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▏ | 39054/40000 [47:34<01:06, 14.15it/s]

tensor(4.3447, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▏ | 39064/40000 [47:35<01:06, 14.12it/s]

tensor(4.3639, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▏ | 39074/40000 [47:36<01:05, 14.16it/s]

tensor(4.3604, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▎ | 39084/40000 [47:37<01:04, 14.12it/s]

tensor(4.5390, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▎ | 39094/40000 [47:37<01:03, 14.16it/s]

tensor(4.3737, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▎ | 39104/40000 [47:38<01:03, 14.16it/s]

tensor(4.4148, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▎ | 39114/40000 [47:39<01:03, 14.05it/s]

tensor(4.3264, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▎ | 39124/40000 [47:39<01:01, 14.15it/s]

tensor(4.4137, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▎ | 39134/40000 [47:40<01:01, 14.13it/s]

tensor(4.3731, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▎ | 39144/40000 [47:41<01:00, 14.18it/s]

tensor(4.3692, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▍ | 39154/40000 [47:42<00:59, 14.16it/s]

tensor(4.3245, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▍ | 39164/40000 [47:42<00:59, 14.15it/s]

tensor(4.3916, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▍ | 39174/40000 [47:43<00:58, 14.19it/s]

tensor(4.3739, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▍ | 39184/40000 [47:44<00:58, 13.87it/s]

tensor(4.3545, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▍ | 39194/40000 [47:44<00:57, 14.00it/s]

tensor(4.4505, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▍ | 39204/40000 [47:45<00:57, 13.78it/s]

tensor(4.4627, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▌ | 39214/40000 [47:46<00:55, 14.11it/s]

tensor(4.3814, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▌ | 39224/40000 [47:47<00:54, 14.15it/s]

tensor(4.3927, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▌ | 39234/40000 [47:47<00:54, 14.18it/s]

tensor(4.3980, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▌ | 39244/40000 [47:48<00:53, 14.04it/s]

tensor(4.3676, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▌ | 39254/40000 [47:49<00:59, 12.52it/s]

tensor(4.3153, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▌ | 39264/40000 [47:50<00:56, 13.03it/s]

tensor(4.3585, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▌ | 39274/40000 [47:50<00:55, 13.00it/s]

tensor(4.3991, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▋ | 39284/40000 [47:51<00:55, 12.82it/s]

tensor(4.3741, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▋ | 39294/40000 [47:52<00:51, 13.71it/s]

tensor(4.3971, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▋ | 39304/40000 [47:52<00:49, 14.10it/s]

tensor(4.3571, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▋ | 39314/40000 [47:53<00:50, 13.64it/s]

tensor(4.3673, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▋ | 39324/40000 [47:54<00:48, 13.93it/s]

tensor(4.3781, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▋ | 39334/40000 [47:55<00:52, 12.75it/s]

tensor(4.3357, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▊ | 39344/40000 [47:56<00:49, 13.25it/s]

tensor(4.4649, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▊ | 39354/40000 [47:56<00:53, 12.08it/s]

tensor(4.4389, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▊ | 39364/40000 [47:57<00:53, 11.95it/s]

tensor(4.3535, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▊ | 39374/40000 [47:58<00:52, 11.89it/s]

tensor(4.3696, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▊ | 39384/40000 [47:59<00:52, 11.64it/s]

tensor(4.4298, device='cuda:0', grad_fn=<NllLossBackward0>)


 98%|██████████████████████████████████████████████████████████████████████████▊ | 39394/40000 [48:00<00:50, 11.96it/s]

tensor(4.3704, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|██████████████████████████████████████████████████████████████████████████▊ | 39404/40000 [48:00<00:46, 12.84it/s]

tensor(4.4164, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|██████████████████████████████████████████████████████████████████████████▉ | 39414/40000 [48:01<00:44, 13.18it/s]

tensor(4.3922, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|██████████████████████████████████████████████████████████████████████████▉ | 39424/40000 [48:02<00:43, 13.30it/s]

tensor(4.5330, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|██████████████████████████████████████████████████████████████████████████▉ | 39434/40000 [48:03<00:42, 13.33it/s]

tensor(4.3104, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|██████████████████████████████████████████████████████████████████████████▉ | 39444/40000 [48:03<00:41, 13.30it/s]

tensor(4.3152, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|██████████████████████████████████████████████████████████████████████████▉ | 39454/40000 [48:04<00:41, 13.18it/s]

tensor(4.3848, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|██████████████████████████████████████████████████████████████████████████▉ | 39464/40000 [48:05<00:45, 11.75it/s]

tensor(4.2911, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████ | 39474/40000 [48:06<00:41, 12.78it/s]

tensor(4.4537, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████ | 39484/40000 [48:07<00:38, 13.24it/s]

tensor(4.3629, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████ | 39494/40000 [48:07<00:37, 13.38it/s]

tensor(4.3743, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████ | 39504/40000 [48:08<00:37, 13.33it/s]

tensor(4.4165, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████ | 39514/40000 [48:09<00:36, 13.38it/s]

tensor(4.3922, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████ | 39524/40000 [48:10<00:35, 13.35it/s]

tensor(4.3663, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████ | 39534/40000 [48:10<00:34, 13.34it/s]

tensor(4.3497, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▏| 39544/40000 [48:11<00:34, 13.31it/s]

tensor(4.3572, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▏| 39554/40000 [48:12<00:34, 12.95it/s]

tensor(4.3761, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▏| 39564/40000 [48:13<00:32, 13.37it/s]

tensor(4.3658, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▏| 39574/40000 [48:13<00:31, 13.39it/s]

tensor(4.3815, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▏| 39584/40000 [48:14<00:32, 12.94it/s]

tensor(4.3707, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▏| 39594/40000 [48:15<00:30, 13.29it/s]

tensor(4.3947, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▏| 39604/40000 [48:16<00:29, 13.34it/s]

tensor(4.3926, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▎| 39614/40000 [48:16<00:28, 13.41it/s]

tensor(4.3462, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▎| 39624/40000 [48:17<00:28, 13.22it/s]

tensor(4.4145, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▎| 39634/40000 [48:18<00:27, 13.43it/s]

tensor(4.3696, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▎| 39644/40000 [48:19<00:26, 13.44it/s]

tensor(4.3466, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▎| 39654/40000 [48:19<00:25, 13.47it/s]

tensor(4.3554, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▎| 39664/40000 [48:20<00:29, 11.26it/s]

tensor(4.4416, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▍| 39674/40000 [48:21<00:26, 12.10it/s]

tensor(4.3604, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▍| 39684/40000 [48:22<00:23, 13.65it/s]

tensor(4.4527, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▍| 39694/40000 [48:23<00:22, 13.81it/s]

tensor(4.3569, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▍| 39704/40000 [48:23<00:21, 13.75it/s]

tensor(4.3538, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▍| 39714/40000 [48:24<00:21, 13.43it/s]

tensor(4.3692, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▍| 39724/40000 [48:25<00:21, 12.91it/s]

tensor(4.3908, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▍| 39734/40000 [48:26<00:19, 13.68it/s]

tensor(4.4535, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▌| 39744/40000 [48:26<00:18, 14.08it/s]

tensor(4.5741, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▌| 39754/40000 [48:27<00:19, 12.85it/s]

tensor(4.4539, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▌| 39764/40000 [48:28<00:18, 12.56it/s]

tensor(4.4493, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▌| 39774/40000 [48:29<00:18, 12.27it/s]

tensor(4.3732, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▌| 39784/40000 [48:29<00:16, 13.25it/s]

tensor(4.3790, device='cuda:0', grad_fn=<NllLossBackward0>)


 99%|███████████████████████████████████████████████████████████████████████████▌| 39794/40000 [48:30<00:15, 12.98it/s]

tensor(4.3675, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▋| 39804/40000 [48:31<00:16, 11.90it/s]

tensor(4.3599, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▋| 39814/40000 [48:32<00:14, 12.42it/s]

tensor(4.3995, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▋| 39824/40000 [48:33<00:13, 13.01it/s]

tensor(4.3455, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▋| 39834/40000 [48:33<00:12, 13.07it/s]

tensor(4.4423, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▋| 39844/40000 [48:34<00:11, 13.26it/s]

tensor(4.3992, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▋| 39854/40000 [48:35<00:11, 13.21it/s]

tensor(4.3907, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▋| 39864/40000 [48:36<00:10, 13.41it/s]

tensor(4.3409, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▊| 39874/40000 [48:36<00:09, 12.92it/s]

tensor(4.3643, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▊| 39884/40000 [48:37<00:08, 13.26it/s]

tensor(4.4517, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▊| 39894/40000 [48:38<00:07, 13.42it/s]

tensor(4.3717, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▊| 39904/40000 [48:39<00:07, 13.21it/s]

tensor(4.4306, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▊| 39914/40000 [48:39<00:06, 13.39it/s]

tensor(4.3376, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▊| 39924/40000 [48:40<00:05, 13.47it/s]

tensor(4.3299, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▊| 39934/40000 [48:41<00:04, 13.46it/s]

tensor(4.3836, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▉| 39944/40000 [48:42<00:04, 13.51it/s]

tensor(4.3730, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▉| 39954/40000 [48:42<00:03, 13.44it/s]

tensor(4.3602, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▉| 39964/40000 [48:43<00:02, 13.50it/s]

tensor(4.3903, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▉| 39974/40000 [48:44<00:01, 13.47it/s]

tensor(4.4115, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▉| 39984/40000 [48:45<00:01, 13.47it/s]

tensor(4.5097, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|███████████████████████████████████████████████████████████████████████████▉| 39994/40000 [48:45<00:00, 13.35it/s]

tensor(4.3342, device='cuda:0', grad_fn=<NllLossBackward0>)


100%|████████████████████████████████████████████████████████████████████████████| 40000/40000 [48:46<00:00, 13.67it/s]


In [None]:
            nn.Linear(1024*21*21, 1000),


In [75]:
train_data.meta.sort_values('height',ascending=False)

Unnamed: 0,file_name,category,height,width
31777,31777,61,1080,1080
11365,11365,38,1080,1920
36847,36847,64,1080,1080
28481,28481,61,980,736
8021,8021,68,829,550
...,...,...,...,...
35928,35928,71,130,197
30577,30577,46,0,0
26310,26310,46,0,0
22393,22393,57,0,0


In [76]:
train_data.meta.sort_values('width',ascending=False)

Unnamed: 0,file_name,category,height,width
11365,11365,38,1080,1920
18036,18036,52,720,1280
32657,32657,59,720,1280
38353,38353,61,720,1280
38198,38198,40,720,1280
...,...,...,...,...
35831,35831,46,130,130
26310,26310,46,0,0
38006,38006,53,0,0
30577,30577,46,0,0


In [None]:
cv2.imread()

In [76]:
train_data[1][0].shape

torch.Size([3, 400, 600])

In [66]:
# to_image = transforms.ToPILImage()

# test = to_image(train_data[1][0])
# test.show()

[[[255 248 241]
  [255 248 241]
  [255 248 241]
  ...
  [254 245 232]
  [254 245 232]
  [254 245 232]]

 [[255 248 241]
  [255 248 241]
  [255 248 241]
  ...
  [254 245 232]
  [254 245 232]
  [254 245 232]]

 [[255 248 241]
  [255 248 241]
  [255 248 241]
  ...
  [254 245 232]
  [254 245 232]
  [254 245 232]]

 ...

 [[219 213 202]
  [219 213 202]
  [218 212 201]
  ...
  [184 180 161]
  [185 181 163]
  [185 181 162]]

 [[219 213 202]
  [219 213 202]
  [218 212 201]
  ...
  [182 179 158]
  [183 179 160]
  [183 180 159]]

 [[219 213 202]
  [219 213 202]
  [218 212 201]
  ...
  [181 178 157]
  [182 179 158]
  [182 179 158]]]
./train_data\1.jpg


In [13]:
test_datasets.meta.loc[1,'category']

'43'

In [48]:
len(test_datasets)

40000

In [52]:
test_datasets.meta[test_datasets.meta['category']=="0"]

NameError: name 'test_datasets' is not defined

In [1]:
def train() :
    #TODO: Make your own training code

    # You SHOULD save your model by
    # torch.save(model.state_dict(), './checkpoint.pth') 
    # You SHOULD not modify the save path
    pass


def get_model(model_name, checkpoint_path):
    
    model = model_name()
    model.load_state_dict(torch.load(checkpoint_path))
    
    return model


def test():
    
    model_name = MyModel
    checkpoint_path = './model.pth' 
    mode = 'test' 
    data_dir = "./test_data"
    meta_path = "./answer.json"
    model = get_model(model_name,checkpoint_path)

    data_transforms = {
        'train' :"YOUR_DATA_TRANSFORM_FUNCTION" , 
        'test': "YOUR_DATA_TRANSFORM_FUNCTION"
    }

    # Create training and validation datasets
    test_datasets = MyDataset(meta_path, data_dir, data_transforms['mode'])

    batch_size = 1
    # Create training and validation dataloaders
    test_dataloader = torch.utils.data.DataLoader(test_datasets, batch_size=batch_size, shuffle=False, num_workers=4)

    # Detect if we have a GPU available
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

    # Send the model to GPU
    model = model.to(device)

    # Set model as evaluation mode
    for param in model.parameters():
        param.requires_grad = False
    model.eval()
    
    # Inference
    result = []
    for images, filename in tqdm(test_dataloader):
        num_image = images.shape[0]
        images = images.to(device)
        outputs = model(images)
        _, preds = torch.max(outputs, 1)
        for i in range(num_image):
            result.append({
                'filename': filename[i],
                'class': preds[i].item()
            })

    result = sorted(result,key=lambda x : int(x['filename'].split('.')[0]))
    
    # Save to csv
    with open('./result.csv', 'w') as f:
        writer = csv.writer(f)
        writer.writerow(['filename','class'])
        for res in result:
            writer.writerow([res['filename'], result['class']])


def main() :
    pass


if __name__ == '__main__':
    main()

  from .autonotebook import tqdm as notebook_tqdm
