In [1]:
import os
import torch
import torch.nn as nn
import torch.backends.cudnn as cudnn
from torchvision import models, transforms, datasets
import torch.nn.functional as F
from torch.cuda.amp import GradScaler, autocast
from tqdm import tqdm

import numpy as np
import shutil

In [2]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(device)

cuda


In [3]:
# root dir
os.chdir("D:/2021/2학기 수업/CV/SelfMatch/")
print(os.getcwd())

D:\2021\2학기 수업\CV\SelfMatch


In [4]:
data_dir_CLR = './datasets_CLR'
checkpoint_dir_CLR = './checkpoint_CLR'
epochs_CLR = 100
batch_size_CLR = 64
lr_CLR = 0.0003
weight_decay_CLR = 0.0004
out_feature_dim_CLR = 64
temperature_CLR = 0.5
n_views_CLR = 2
fp16_precision_CLR = False

In [5]:
if torch.cuda.is_available():
    cudnn.deterministic = True
    cudnn.benchmark = True

In [6]:
class CLRViewGenerator(object):
    def __init__(self, base_transform, n_views = 2):
        self.base_transform = base_transform
        self.n_views = n_views
    
    def __call__(self, x):
        return [self.base_transform(x) for i in range(self.n_views)]

In [7]:
class GaussianBlur(object):
    """blur a single image on CPU"""
    def __init__(self, kernel_size):
        radias = kernel_size // 2
        kernel_size = radias * 2 + 1
        self.blur_h = nn.Conv2d(3, 3, kernel_size=(kernel_size, 1),
                                stride=1, padding=0, bias=False, groups=3)
        self.blur_v = nn.Conv2d(3, 3, kernel_size=(1, kernel_size),
                                stride=1, padding=0, bias=False, groups=3)
        self.k = kernel_size
        self.r = radias

        self.blur = nn.Sequential(
            nn.ReflectionPad2d(radias),
            self.blur_h,
            self.blur_v
        )

        self.pil_to_tensor = transforms.ToTensor()
        self.tensor_to_pil = transforms.ToPILImage()

    def __call__(self, img):
        img = self.pil_to_tensor(img).unsqueeze(0)

        sigma = np.random.uniform(0.1, 2.0)
        x = np.arange(-self.r, self.r + 1)
        x = np.exp(-np.power(x, 2) / (2 * sigma * sigma))
        x = x / x.sum()
        x = torch.from_numpy(x).view(1, -1).repeat(3, 1)

        self.blur_h.weight.data.copy_(x.view(3, 1, self.k, 1))
        self.blur_v.weight.data.copy_(x.view(3, 1, 1, self.k))

        with torch.no_grad():
            img = self.blur(img)
            img = img.squeeze()

        img = self.tensor_to_pil(img)

        return img

class CLRDataset:
    def __init__(self, data_dir):
        self.data_dir = data_dir
    
    @staticmethod
    def getCLRTransform(size, s = 1):
        color_jitter = transforms.ColorJitter(0.8 * s, 0.8 * s, 0.8 * s, 0.2 * s)
        data_transforms = transforms.Compose([transforms.RandomResizedCrop(size=size),
                                              transforms.RandomHorizontalFlip(),
                                              transforms.RandomApply([color_jitter], p=0.8),
                                              transforms.RandomGrayscale(p=0.2),
                                              GaussianBlur(kernel_size=int(0.1 * size)),
                                              transforms.ToTensor()])
        return data_transforms
    
    def getDataset(self, n_views = 2):
        dataset = datasets.CIFAR10(self.data_dir, train = True,
                                   transform = CLRViewGenerator(self.getCLRTransform(96), n_views),
                                   download = False)
        return dataset

In [8]:
dataset = CLRDataset(data_dir_CLR)
train_dataset = dataset.getDataset()

In [9]:
train_loader = torch.utils.data.DataLoader(train_dataset,
                                           batch_size = batch_size_CLR,
                                           shuffle = True,
                                           pin_memory = True,
                                           drop_last = True)

In [10]:
class WRNBasicBlock(torch.nn.Module):
    def __init__(self, in_planes, out_planes, stride, drop_rate = 0.0, activate_before_residual = False):
        super(WRNBasicBlock, self).__init__()      
        self.bn1 = torch.nn.BatchNorm2d(in_planes, momentum = 0.001)
        self.relu1 = torch.nn.LeakyReLU(negative_slope = 0.1, inplace = True)
        self.conv1 = torch.nn.Conv2d(in_planes, out_planes, kernel_size = 3, stride = stride, padding = 1, bias = False)
        
        self.bn2 = torch.nn.BatchNorm2d(out_planes, momentum = 0.001)
        self.relu2 = torch.nn.LeakyReLU(negative_slope = 0.1, inplace = True)
        self.conv2 = torch.nn.Conv2d(out_planes, out_planes, kernel_size = 3, stride = 1, padding = 1, bias = False)
        
        self.drop_rate = drop_rate
        self.equalInOut = (in_planes == out_planes)
        self.convShortcut = (not self.equalInOut) and torch.nn.Conv2d(in_planes, out_planes, kernel_size = 1, stride = stride,
                                                                padding = 0, bias = False) or None
        self.activate_before_residual = activate_before_residual
    
    def forward(self, x):
        if not self.equalInOut and self.activate_before_residual == True:
            x = self.relu1(self.bn1(x))
        else:
            out = self.relu1(self.bn1(x))
        out = self.relu2(self.bn2(self.conv1(out if self.equalInOut else x)))
        
        if self.drop_rate > 0:
            out = F.dropout(out, p=self.drop_rate, training = self.training)
        out = self.conv2(out)
        
        return torch.add(x if self.equalInOut else self.convShortcut(x), out)

In [11]:
class WRNNetworkBlock(torch.nn.Module):
    def __init__(self, nb_layers, in_planes, out_planes, block, stride, drop_rate = 0.0, activate_before_residual = False):
        super(WRNNetworkBlock, self).__init__()
        self.layer = self._make_layer(
            block, in_planes, out_planes, nb_layers, stride, drop_rate, activate_before_residual)
        
    def _make_layer(
            self, block, in_planes, out_planes, nb_layers, stride, drop_rate, activate_before_residual):
        layers = []
        for i in range(int(nb_layers)):
            layers.append(block(i == 0 and in_planes or out_planes, out_planes,
                                i == 0 and stride or 1, drop_rate, activate_before_residual))
        return torch.nn.Sequential(*layers)
    
    def forward(self, x):
        return self.layer(x)

In [12]:
class WRN(torch.nn.Module):
    def __init__(self, num_classes, depth = 28, widen_factor = 2, drop_rate = 0.0):
        super(WRN, self).__init__()
        channels = [16, 16 * widen_factor, 32 * widen_factor, 64 * widen_factor]
        
        # basic block의 depth = 6, basic block 외의 depth = 4
        # 따라서 depth - 4 의 값은 6의 배수여야 함.
        assert((depth - 4) % 6 == 0)
        
        n = (depth - 4) / 6
        block = WRNBasicBlock
        
        self.conv1 = torch.nn.Conv2d(3, channels[0], kernel_size = 3, stride = 1, padding = 1, bias = False)
        
        self.block1 = WRNNetworkBlock(
            n, channels[0], channels[1], block, 1, drop_rate, activate_before_residual = True)
        
        self.block2 = WRNNetworkBlock(
            n, channels[1], channels[2], block, 2, drop_rate)
        
        self.block3 = WRNNetworkBlock(
            n, channels[2], channels[3], block, 2, drop_rate)
        
        self.bn = torch.nn.BatchNorm2d(channels[3], momentum = 0.001)
        self.relu = torch.nn.LeakyReLU(negative_slope = 0.1, inplace = True)
        self.fc = torch.nn.Linear(channels[3], num_classes)
        self.channels = channels[3]
        
        
        dim_mlp = self.fc.in_features
        
        self.fc = nn.Sequential(nn.Linear(dim_mlp, dim_mlp), nn.Dropout(p = 0.7), nn.ReLU(), self.fc)
        
        for m in self.modules():
            if isinstance(m, torch.nn.Conv2d):
                torch.nn.init.kaiming_normal_(m.weight, mode = 'fan_out', nonlinearity = 'leaky_relu')
            elif isinstance(m, torch.nn.BatchNorm2d):
                torch.nn.init.constant_(m.weight, 1.0)
                torch.nn.init.constant_(m.bias, 0.0)
            elif isinstance(m, torch.nn.Linear):
                torch.nn.init.xavier_normal_(m.weight)
                torch.nn.init.constant_(m.bias, 0.0)
        
    def forward(self, x):
        out = self.conv1(x)
        out = self.block1(out)
        out = self.block2(out)
        out = self.block3(out)
        out = self.relu(self.bn(out))
        out = F.adaptive_avg_pool2d(out, 1)
        out = out.view(-1, self.channels)
        return self.fc(out)

In [13]:
class ResNetSimCLR(nn.Module):
    def __init__(self, out_dim):
        super(ResNetSimCLR, self).__init__()
        self.backbone = models.resnet34(pretrained = False, num_classes = out_dim)
        dim_mlp = self.backbone.fc.in_features
        
        self.backbone.fc = nn.Sequential(nn.Linear(dim_mlp, dim_mlp), nn.Dropout(p = 0.7), nn.ReLU(), self.backbone.fc)
        
    def forward(self, x):
        return self.backbone(x)

In [14]:
#model = ResNetSimCLR(out_feature_dim_CLR)
#model = model.to(device)

model = WRN(out_feature_dim_CLR)
model.to(device)

WRN(
  (conv1): Conv2d(3, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
  (block1): WRNNetworkBlock(
    (layer): Sequential(
      (0): WRNBasicBlock(
        (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.001, affine=True, track_running_stats=True)
        (relu1): LeakyReLU(negative_slope=0.1, inplace=True)
        (conv1): Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.001, affine=True, track_running_stats=True)
        (relu2): LeakyReLU(negative_slope=0.1, inplace=True)
        (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (convShortcut): Conv2d(16, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
      )
      (1): WRNBasicBlock(
        (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.001, affine=True, track_running_stats=True)
        (relu1): LeakyReLU(negative_slope=0.1, inplace=True)
        (conv1): Conv2d(32, 32, kernel_size

In [15]:
optimizer = torch.optim.Adam(model.parameters(), lr_CLR, weight_decay = weight_decay_CLR)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=len(train_loader), eta_min = 0, last_epoch = -1)

In [16]:
def save_checkpoint_CLR(state, is_best, filename='checkpoint.pth.tar'):
    torch.save(state, filename)
    if is_best:
        shutil.copyfile(filename, 'model_best.pth.tar')

def accuracy_CLR(output, target, topk=(1,)):
    """Computes the accuracy over the k top predictions for the specified values of k"""
    with torch.no_grad():
        maxk = max(topk)
        batch_size = target.size(0)

        _, pred = output.topk(maxk, 1, True, True)
        pred = pred.t()
        correct = pred.eq(target.view(1, -1).expand_as(pred))

        res = []
        for k in topk:
            correct_k = correct[:k].reshape(-1).float().sum(0, keepdim=True)
            res.append(correct_k.mul_(100.0 / batch_size))
        return res

In [17]:
class SimCLR(object):
    def __init__(self, model, optimizer, scheduler):
        self.model = model
        self.optimizer = optimizer
        self.scheduler = scheduler
        self.criterion = torch.nn.CrossEntropyLoss().to(device)
    
    def info_nce_loss(self, features):
        labels = torch.cat([torch.arange(batch_size_CLR) for i in range(n_views_CLR)], dim = 0)
        #print(labels)
        #print(labels.unsqueeze(0))
        #print(labels.unsqueeze(0).shape)
        labels = (labels.unsqueeze(0) == labels.unsqueeze(1)).float()
        labels = labels.to(device)
        #print(labels.shape)
        #print(labels[0][256])
        #print(features.shape)
        #print(features)
        features = F.normalize(features, dim = 1)
        #print(features.shape)
        #print(features)
        similarity_matrix = torch.matmul(features, features.T)
        #print(similarity_matrix.shape)
        #print(similarity_matrix)
        
        mask = torch.eye(labels.shape[0], dtype = torch.bool).to(device)
        #print(mask)
        #print(mask.shape)
        labels = labels[~mask].view(labels.shape[0], -1)
        similarity_matrix = similarity_matrix[~mask].view(similarity_matrix.shape[0], -1)
        #print(labels.shape)
        #print(similarity_matrix.shape)
        #print(labels[0].bool())
        #print(similarity_matrix)
        
        positives = similarity_matrix[labels.bool()].view(labels.shape[0], -1)
        
        negatives = similarity_matrix[~labels.bool()].view(similarity_matrix.shape[0], -1)
        
        #print(positives.shape)
        #print(negatives.shape)
        #print(positives)
        #print(negatives)
        
        logits = torch.cat([positives, negatives], dim=1)
        labels = torch.zeros(logits.shape[0], dtype=torch.long).to(device)
        
        logits = logits / temperature_CLR
        return logits, labels
    
    def train(self, train_loader):
        scaler = GradScaler(enabled = fp16_precision_CLR)
        
        n_iter = 0
        
        for epoch_counter in range(epochs_CLR):
            for images, _ in tqdm(train_loader):
                images = torch.cat(images, dim=0)
                images = images.to(device)
                
                with autocast(enabled = fp16_precision_CLR):
                    features = self.model(images)
                    logits, labels = self.info_nce_loss(features)
                    loss = self.criterion(logits, labels)
                
                self.optimizer.zero_grad()
                
                scaler.scale(loss).backward()
                scaler.step(self.optimizer)
                scaler.update()
                
                if (n_iter) % 100 == 0:
                    top1, top5 = accuracy_CLR(logits, labels, topk=(1, 5))
                    print('loss = ', loss,', acc/top1 = ', top1[0], ', acc/top5 = ',top5[0])
                
                n_iter += 1
                
            if epoch_counter >= 10:
                self.scheduler.step()
                
        checkpoint_name = 'checkpoint_{:04d}.pth.tar'.format(epochs_CLR)
        save_checkpoint_CLR({
            'epoch': epochs_CLR,
            'state_dict': self.model.state_dict(),
            'optimizer': self.optimizer.state_dict(),
        }, is_best=False, filename=os.path.join(checkpoint_dir_CLR, checkpoint_name))

In [18]:
with torch.cuda.device(0):
        simclr = SimCLR(model=model, optimizer=optimizer, scheduler=scheduler)
        simclr.train(train_loader)

  0%|                                                                                  | 1/781 [00:03<51:44,  3.98s/it]

loss =  tensor(4.8379, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0.7812, device='cuda:0') , acc/top5 =  tensor(5.4688, device='cuda:0')


 13%|██████████▏                                                                     | 100/781 [04:31<31:07,  2.74s/it]

loss =  

 13%|██████████▎                                                                     | 101/781 [04:37<39:56,  3.52s/it]

tensor(4.6807, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0., device='cuda:0') , acc/top5 =  tensor(5.4688, device='cuda:0')


 26%|████████████████████▍                                                           | 200/781 [09:04<26:26,  2.73s/it]

loss =  

 26%|████████████████████▌                                                           | 201/781 [09:10<34:00,  3.52s/it]

tensor(4.7235, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0.7812, device='cuda:0') , acc/top5 =  tensor(6.2500, device='cuda:0')


 38%|██████████████████████████████▋                                                 | 300/781 [13:16<20:02,  2.50s/it]

loss =  

 39%|██████████████████████████████▊                                                 | 301/781 [13:21<25:39,  3.21s/it]

tensor(4.6401, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.9062, device='cuda:0') , acc/top5 =  tensor(9.3750, device='cuda:0')


 51%|████████████████████████████████████████▉                                       | 400/781 [17:32<17:19,  2.73s/it]

loss =  

 51%|█████████████████████████████████████████                                       | 401/781 [17:37<22:17,  3.52s/it]

tensor(4.7511, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0.7812, device='cuda:0') , acc/top5 =  tensor(4.6875, device='cuda:0')


 64%|███████████████████████████████████████████████████▏                            | 500/781 [22:05<12:46,  2.73s/it]

loss =  

 64%|███████████████████████████████████████████████████▎                            | 501/781 [22:11<16:22,  3.51s/it]

tensor(4.7083, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(2.3438, device='cuda:0') , acc/top5 =  tensor(7.8125, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▍                  | 600/781 [26:39<08:16,  2.74s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▌                  | 601/781 [26:44<10:34,  3.53s/it]

tensor(4.5809, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(16.4062, device='cuda:0')


 90%|███████████████████████████████████████████████████████████████████████▋        | 700/781 [31:07<03:41,  2.73s/it]

loss =  

 90%|███████████████████████████████████████████████████████████████████████▊        | 701/781 [31:13<04:41,  3.51s/it]

tensor(4.6330, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0., device='cuda:0') , acc/top5 =  tensor(7.0312, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [34:49<00:00,  2.68s/it]
  2%|█▉                                                                               | 19/781 [00:51<34:38,  2.73s/it]

loss =  

  3%|██                                                                               | 20/781 [00:57<44:14,  3.49s/it]

tensor(4.5980, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.1250, device='cuda:0') , acc/top5 =  tensor(15.6250, device='cuda:0')


 15%|████████████▏                                                                   | 119/781 [05:13<28:33,  2.59s/it]

loss =  

 15%|████████████▎                                                                   | 120/781 [05:18<36:40,  3.33s/it]

tensor(4.5912, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(2.3438, device='cuda:0') , acc/top5 =  tensor(8.5938, device='cuda:0')


 28%|██████████████████████▍                                                         | 219/781 [09:32<24:17,  2.59s/it]

loss =  

 28%|██████████████████████▌                                                         | 220/781 [09:37<31:08,  3.33s/it]

tensor(4.4873, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(13.2812, device='cuda:0')


 41%|████████████████████████████████▋                                               | 319/781 [13:51<20:04,  2.61s/it]

loss =  

 41%|████████████████████████████████▊                                               | 320/781 [13:56<25:43,  3.35s/it]

tensor(4.6144, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(1.5625, device='cuda:0') , acc/top5 =  tensor(10.9375, device='cuda:0')


 54%|██████████████████████████████████████████▉                                     | 419/781 [18:15<15:50,  2.63s/it]

loss =  

 54%|███████████████████████████████████████████                                     | 420/781 [18:21<20:22,  3.39s/it]

tensor(4.5743, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0.7812, device='cuda:0') , acc/top5 =  tensor(7.8125, device='cuda:0')


 66%|█████████████████████████████████████████████████████▏                          | 519/781 [22:39<11:21,  2.60s/it]

loss =  

 67%|█████████████████████████████████████████████████████▎                          | 520/781 [22:44<14:39,  3.37s/it]

tensor(4.5887, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.1250, device='cuda:0') , acc/top5 =  tensor(7.0312, device='cuda:0')


 79%|███████████████████████████████████████████████████████████████▍                | 619/781 [27:01<06:59,  2.59s/it]

loss =  

 79%|███████████████████████████████████████████████████████████████▌                | 620/781 [27:06<08:56,  3.33s/it]

tensor(4.5311, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(13.2812, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▋      | 719/781 [31:20<02:36,  2.52s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▊      | 720/781 [31:25<03:17,  3.24s/it]

tensor(4.4715, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.1250, device='cuda:0') , acc/top5 =  tensor(10.9375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [33:57<00:00,  2.61s/it]
  5%|███▉                                                                             | 38/781 [01:35<31:20,  2.53s/it]

loss =  

  5%|████                                                                             | 39/781 [01:40<40:22,  3.27s/it]

tensor(4.3192, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(2.3438, device='cuda:0') , acc/top5 =  tensor(20.3125, device='cuda:0')


 18%|██████████████▏                                                                 | 138/781 [05:46<26:47,  2.50s/it]

loss =  

 18%|██████████████▏                                                                 | 139/781 [05:51<34:23,  3.21s/it]

tensor(4.4684, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.1250, device='cuda:0') , acc/top5 =  tensor(16.4062, device='cuda:0')


 30%|████████████████████████▍                                                       | 238/781 [09:58<22:38,  2.50s/it]

loss =  

 31%|████████████████████████▍                                                       | 239/781 [10:02<29:11,  3.23s/it]

tensor(4.6772, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0.7812, device='cuda:0') , acc/top5 =  tensor(3.9062, device='cuda:0')


 43%|██████████████████████████████████▌                                             | 338/781 [14:10<18:29,  2.50s/it]

loss =  

 43%|██████████████████████████████████▋                                             | 339/781 [14:15<23:47,  3.23s/it]

tensor(4.5454, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.9062, device='cuda:0') , acc/top5 =  tensor(16.4062, device='cuda:0')


 56%|████████████████████████████████████████████▊                                   | 438/781 [18:22<14:26,  2.53s/it]

loss =  

 56%|████████████████████████████████████████████▉                                   | 439/781 [18:27<18:34,  3.26s/it]

tensor(4.6115, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0.7812, device='cuda:0') , acc/top5 =  tensor(9.3750, device='cuda:0')


 69%|███████████████████████████████████████████████████████                         | 538/781 [22:34<10:15,  2.53s/it]

loss =  

 69%|███████████████████████████████████████████████████████▏                        | 539/781 [22:39<13:08,  3.26s/it]

tensor(4.4712, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(13.2812, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▎              | 638/781 [26:45<05:57,  2.50s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▍              | 639/781 [26:50<07:37,  3.22s/it]

tensor(4.4620, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(13.2812, device='cuda:0')


 94%|███████████████████████████████████████████████████████████████████████████▌    | 738/781 [30:55<01:47,  2.49s/it]

loss =  

 95%|███████████████████████████████████████████████████████████████████████████▋    | 739/781 [31:00<02:15,  3.22s/it]

tensor(4.4387, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(16.4062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [32:43<00:00,  2.51s/it]
  7%|█████▉                                                                           | 57/781 [02:22<30:07,  2.50s/it]

loss =  

  7%|██████                                                                           | 58/781 [02:27<38:49,  3.22s/it]

tensor(4.2849, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(18.7500, device='cuda:0')


 20%|████████████████                                                                | 157/781 [06:33<26:30,  2.55s/it]

loss =  

 20%|████████████████▏                                                               | 158/781 [06:38<33:54,  3.27s/it]

tensor(4.4502, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(17.9688, device='cuda:0')


 33%|██████████████████████████▎                                                     | 257/781 [10:43<21:41,  2.48s/it]

loss =  

 33%|██████████████████████████▍                                                     | 258/781 [10:48<27:53,  3.20s/it]

tensor(4.4751, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(0.7812, device='cuda:0') , acc/top5 =  tensor(10.9375, device='cuda:0')


 46%|████████████████████████████████████▌                                           | 357/781 [14:54<17:48,  2.52s/it]

loss =  

 46%|████████████████████████████████████▋                                           | 358/781 [14:59<22:43,  3.22s/it]

tensor(4.2967, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(2.3438, device='cuda:0') , acc/top5 =  tensor(10.9375, device='cuda:0')


 59%|██████████████████████████████████████████████▊                                 | 457/781 [19:06<13:42,  2.54s/it]

loss =  

 59%|██████████████████████████████████████████████▉                                 | 458/781 [19:11<17:33,  3.26s/it]

tensor(4.4581, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(1.5625, device='cuda:0') , acc/top5 =  tensor(16.4062, device='cuda:0')


 71%|█████████████████████████████████████████████████████████                       | 557/781 [23:18<09:20,  2.50s/it]

loss =  

 71%|█████████████████████████████████████████████████████████▏                      | 558/781 [23:23<11:57,  3.22s/it]

tensor(4.4486, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.9062, device='cuda:0') , acc/top5 =  tensor(16.4062, device='cuda:0')


 84%|███████████████████████████████████████████████████████████████████▎            | 657/781 [27:27<05:12,  2.52s/it]

loss =  

 84%|███████████████████████████████████████████████████████████████████▍            | 658/781 [27:32<06:41,  3.26s/it]

tensor(4.4399, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.1250, device='cuda:0') , acc/top5 =  tensor(12.5000, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▌  | 757/781 [31:39<01:01,  2.55s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▋  | 758/781 [31:44<01:15,  3.28s/it]

tensor(4.3539, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(1.5625, device='cuda:0') , acc/top5 =  tensor(21.8750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [32:40<00:00,  2.51s/it]
 10%|███████▉                                                                         | 76/781 [03:12<29:34,  2.52s/it]

loss =  

 10%|███████▉                                                                         | 77/781 [03:17<38:08,  3.25s/it]

tensor(4.4208, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(22.6562, device='cuda:0')


 23%|██████████████████                                                              | 176/781 [07:27<26:30,  2.63s/it]

loss =  

 23%|██████████████████▏                                                             | 177/781 [07:32<33:42,  3.35s/it]

tensor(4.2659, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.9062, device='cuda:0') , acc/top5 =  tensor(17.1875, device='cuda:0')


 35%|████████████████████████████▎                                                   | 276/781 [11:38<20:53,  2.48s/it]

loss =  

 35%|████████████████████████████▎                                                   | 277/781 [11:43<26:51,  3.20s/it]

tensor(4.4233, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.9062, device='cuda:0') , acc/top5 =  tensor(13.2812, device='cuda:0')


 48%|██████████████████████████████████████▌                                         | 376/781 [15:47<16:46,  2.49s/it]

loss =  

 48%|██████████████████████████████████████▌                                         | 377/781 [15:52<21:29,  3.19s/it]

tensor(4.4243, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.1250, device='cuda:0') , acc/top5 =  tensor(20.3125, device='cuda:0')


 61%|████████████████████████████████████████████████▊                               | 476/781 [19:57<13:04,  2.57s/it]

loss =  

 61%|████████████████████████████████████████████████▊                               | 477/781 [20:02<16:39,  3.29s/it]

tensor(4.2431, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(23.4375, device='cuda:0')


 74%|███████████████████████████████████████████████████████████                     | 576/781 [24:06<08:29,  2.48s/it]

loss =  

 74%|███████████████████████████████████████████████████████████                     | 577/781 [24:11<10:51,  3.20s/it]

tensor(4.2095, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(25.7812, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▏          | 676/781 [28:15<04:21,  2.49s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▎          | 677/781 [28:20<05:32,  3.20s/it]

tensor(4.3615, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(1.5625, device='cuda:0') , acc/top5 =  tensor(18.7500, device='cuda:0')


 99%|███████████████████████████████████████████████████████████████████████████████▍| 776/781 [32:24<00:12,  2.48s/it]

loss =  

 99%|███████████████████████████████████████████████████████████████████████████████▌| 777/781 [32:29<00:12,  3.19s/it]

tensor(4.2770, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(1.5625, device='cuda:0') , acc/top5 =  tensor(18.7500, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [32:37<00:00,  2.51s/it]
 12%|█████████▊                                                                       | 95/781 [03:56<28:15,  2.47s/it]

loss =  

 12%|█████████▉                                                                       | 96/781 [04:01<36:26,  3.19s/it]

tensor(4.2809, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(17.9688, device='cuda:0')


 25%|███████████████████▉                                                            | 195/781 [08:01<23:59,  2.46s/it]

loss =  

 25%|████████████████████                                                            | 196/781 [08:06<30:46,  3.16s/it]

tensor(4.1886, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(26.5625, device='cuda:0')


 38%|██████████████████████████████▏                                                 | 295/781 [12:06<19:53,  2.46s/it]

loss =  

 38%|██████████████████████████████▎                                                 | 296/781 [12:11<25:32,  3.16s/it]

tensor(4.3407, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(26.5625, device='cuda:0')


 51%|████████████████████████████████████████▍                                       | 395/781 [16:15<15:52,  2.47s/it]

loss =  

 51%|████████████████████████████████████████▌                                       | 396/781 [16:20<20:20,  3.17s/it]

tensor(4.2314, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(25.7812, device='cuda:0')


 63%|██████████████████████████████████████████████████▋                             | 495/781 [20:31<13:10,  2.76s/it]

loss =  

 64%|██████████████████████████████████████████████████▊                             | 496/781 [20:36<16:57,  3.57s/it]

tensor(4.1727, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(27.3438, device='cuda:0')


 76%|████████████████████████████████████████████████████████████▉                   | 595/781 [25:07<08:32,  2.76s/it]

loss =  

 76%|█████████████████████████████████████████████████████████████                   | 596/781 [25:13<10:56,  3.55s/it]

tensor(4.1469, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(21.0938, device='cuda:0')


 89%|███████████████████████████████████████████████████████████████████████▏        | 695/781 [29:44<03:57,  2.76s/it]

loss =  

 89%|███████████████████████████████████████████████████████████████████████▎        | 696/781 [29:49<05:02,  3.56s/it]

tensor(4.1403, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(2.3438, device='cuda:0') , acc/top5 =  tensor(21.8750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [33:39<00:00,  2.59s/it]
  2%|█▍                                                                               | 14/781 [00:38<35:18,  2.76s/it]

loss =  

  2%|█▌                                                                               | 15/781 [00:44<45:24,  3.56s/it]

tensor(4.0725, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


 15%|███████████▋                                                                    | 114/781 [05:15<30:41,  2.76s/it]

loss =  

 15%|███████████▊                                                                    | 115/781 [05:20<39:31,  3.56s/it]

tensor(4.1257, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(31.2500, device='cuda:0')


 27%|█████████████████████▉                                                          | 214/781 [09:52<26:05,  2.76s/it]

loss =  

 28%|██████████████████████                                                          | 215/781 [09:57<33:31,  3.55s/it]

tensor(4.0737, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(23.4375, device='cuda:0')


 40%|████████████████████████████████▏                                               | 314/781 [14:20<19:06,  2.46s/it]

loss =  

 40%|████████████████████████████████▎                                               | 315/781 [14:25<24:30,  3.16s/it]

tensor(4.4338, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(23.4375, device='cuda:0')


 53%|██████████████████████████████████████████▍                                     | 414/781 [18:42<15:21,  2.51s/it]

loss =  

 53%|██████████████████████████████████████████▌                                     | 415/781 [18:47<20:15,  3.32s/it]

tensor(4.0277, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 66%|████████████████████████████████████████████████████▋                           | 514/781 [23:13<12:02,  2.71s/it]

loss =  

 66%|████████████████████████████████████████████████████▊                           | 515/781 [23:18<15:26,  3.48s/it]

tensor(4.2127, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(27.3438, device='cuda:0')


 79%|██████████████████████████████████████████████████████████████▉                 | 614/781 [27:44<07:31,  2.70s/it]

loss =  

 79%|██████████████████████████████████████████████████████████████▉                 | 615/781 [27:49<09:37,  3.48s/it]

tensor(4.2823, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 91%|█████████████████████████████████████████████████████████████████████████▏      | 714/781 [32:08<03:00,  2.69s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▏      | 715/781 [32:13<03:49,  3.47s/it]

tensor(4.3131, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(21.8750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [35:09<00:00,  2.70s/it]
  4%|███▍                                                                             | 33/781 [01:29<33:40,  2.70s/it]

loss =  

  4%|███▌                                                                             | 34/781 [01:34<43:13,  3.47s/it]

tensor(4.1843, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(27.3438, device='cuda:0')


 17%|█████████████▌                                                                  | 133/781 [06:00<28:49,  2.67s/it]

loss =  

 17%|█████████████▋                                                                  | 134/781 [06:05<36:59,  3.43s/it]

tensor(4.1245, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(28.1250, device='cuda:0')


 30%|███████████████████████▊                                                        | 233/781 [10:30<24:41,  2.70s/it]

loss =  

 30%|███████████████████████▉                                                        | 234/781 [10:35<31:48,  3.49s/it]

tensor(4.0845, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 43%|██████████████████████████████████                                              | 333/781 [15:01<20:14,  2.71s/it]

loss =  

 43%|██████████████████████████████████▏                                             | 334/781 [15:07<25:59,  3.49s/it]

tensor(4.0656, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


 55%|████████████████████████████████████████████▎                                   | 433/781 [19:32<15:41,  2.71s/it]

loss =  

 56%|████████████████████████████████████████████▍                                   | 434/781 [19:37<20:07,  3.48s/it]

tensor(4.2114, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(21.8750, device='cuda:0')


 68%|██████████████████████████████████████████████████████▌                         | 533/781 [24:02<11:12,  2.71s/it]

loss =  

 68%|██████████████████████████████████████████████████████▋                         | 534/781 [24:08<14:20,  3.48s/it]

tensor(4.0948, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 81%|████████████████████████████████████████████████████████████████▊               | 633/781 [28:34<06:42,  2.72s/it]

loss =  

 81%|████████████████████████████████████████████████████████████████▉               | 634/781 [28:39<08:34,  3.50s/it]

tensor(4.1720, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 94%|███████████████████████████████████████████████████████████████████████████     | 733/781 [33:00<02:07,  2.66s/it]

loss =  

 94%|███████████████████████████████████████████████████████████████████████████▏    | 734/781 [33:05<02:42,  3.45s/it]

tensor(4.0930, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(25., device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [35:10<00:00,  2.70s/it]
  7%|█████▍                                                                           | 52/781 [02:21<32:55,  2.71s/it]

loss =  

  7%|█████▍                                                                           | 53/781 [02:26<42:12,  3.48s/it]

tensor(4.0601, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 19%|███████████████▌                                                                | 152/781 [06:51<26:52,  2.56s/it]

loss =  

 20%|███████████████▋                                                                | 153/781 [06:56<34:38,  3.31s/it]

tensor(4.0605, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(31.2500, device='cuda:0')


 32%|█████████████████████████▊                                                      | 252/781 [11:09<22:52,  2.59s/it]

loss =  

 32%|█████████████████████████▉                                                      | 253/781 [11:14<29:24,  3.34s/it]

tensor(4.1277, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(25.7812, device='cuda:0')


 45%|████████████████████████████████████                                            | 352/781 [15:28<18:16,  2.56s/it]

loss =  

 45%|████████████████████████████████████▏                                           | 353/781 [15:33<23:24,  3.28s/it]

tensor(4.2719, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(23.4375, device='cuda:0')


 58%|██████████████████████████████████████████████▎                                 | 452/781 [19:46<14:16,  2.60s/it]

loss =  

 58%|██████████████████████████████████████████████▍                                 | 453/781 [19:51<18:12,  3.33s/it]

tensor(4.0705, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(28.1250, device='cuda:0')


 71%|████████████████████████████████████████████████████████▌                       | 552/781 [24:11<10:09,  2.66s/it]

loss =  

 71%|████████████████████████████████████████████████████████▋                       | 553/781 [24:16<13:02,  3.43s/it]

tensor(4.0876, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████▊             | 652/781 [28:31<05:37,  2.62s/it]

loss =  

 84%|██████████████████████████████████████████████████████████████████▉             | 653/781 [28:36<07:12,  3.38s/it]

tensor(4.1259, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 96%|█████████████████████████████████████████████████████████████████████████████   | 752/781 [32:49<01:15,  2.59s/it]

loss =  

 96%|█████████████████████████████████████████████████████████████████████████████▏  | 753/781 [32:54<01:33,  3.34s/it]

tensor(4.0378, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(23.4375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [34:04<00:00,  2.62s/it]
  9%|███████▎                                                                         | 71/781 [03:02<30:20,  2.56s/it]

loss =  

  9%|███████▍                                                                         | 72/781 [03:08<40:54,  3.46s/it]

tensor(4.1154, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(3.9062, device='cuda:0') , acc/top5 =  tensor(25., device='cuda:0')


 22%|█████████████████▌                                                              | 171/781 [07:16<25:49,  2.54s/it]

loss =  

 22%|█████████████████▌                                                              | 172/781 [07:21<33:14,  3.28s/it]

tensor(4.1117, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 35%|███████████████████████████▊                                                    | 271/781 [11:30<21:34,  2.54s/it]

loss =  

 35%|███████████████████████████▊                                                    | 272/781 [11:35<27:48,  3.28s/it]

tensor(3.9422, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 48%|██████████████████████████████████████                                          | 371/781 [15:48<18:01,  2.64s/it]

loss =  

 48%|██████████████████████████████████████                                          | 372/781 [15:54<23:29,  3.45s/it]

tensor(3.9589, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 60%|████████████████████████████████████████████████▏                               | 471/781 [20:15<13:49,  2.68s/it]

loss =  

 60%|████████████████████████████████████████████████▎                               | 472/781 [20:20<17:23,  3.38s/it]

tensor(4.0621, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(22.6562, device='cuda:0')


 73%|██████████████████████████████████████████████████████████▍                     | 571/781 [24:34<08:57,  2.56s/it]

loss =  

 73%|██████████████████████████████████████████████████████████▌                     | 572/781 [24:39<11:29,  3.30s/it]

tensor(4.3583, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(22.6562, device='cuda:0')


 86%|████████████████████████████████████████████████████████████████████▋           | 671/781 [29:02<05:01,  2.74s/it]

loss =  

 86%|████████████████████████████████████████████████████████████████████▊           | 672/781 [29:07<06:25,  3.53s/it]

tensor(4.0435, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 99%|██████████████████████████████████████████████████████████████████████████████▉ | 771/781 [33:38<00:27,  2.74s/it]

loss =  

 99%|███████████████████████████████████████████████████████████████████████████████ | 772/781 [33:43<00:31,  3.53s/it]

tensor(4.0389, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [34:05<00:00,  2.62s/it]
 12%|█████████▎                                                                       | 90/781 [04:07<31:45,  2.76s/it]

loss =  

 12%|█████████▍                                                                       | 91/781 [04:13<40:47,  3.55s/it]

tensor(3.9676, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 24%|███████████████████▍                                                            | 190/781 [08:21<24:12,  2.46s/it]

loss =  

 24%|███████████████████▌                                                            | 191/781 [08:26<31:12,  3.17s/it]

tensor(4.1051, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(25., device='cuda:0')


 37%|█████████████████████████████▋                                                  | 290/781 [12:27<20:05,  2.45s/it]

loss =  

 37%|█████████████████████████████▊                                                  | 291/781 [12:32<25:45,  3.15s/it]

tensor(3.8588, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 50%|███████████████████████████████████████▉                                        | 390/781 [16:32<15:58,  2.45s/it]

loss =  

 50%|████████████████████████████████████████                                        | 391/781 [16:37<20:29,  3.15s/it]

tensor(4.2256, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(28.1250, device='cuda:0')


 63%|██████████████████████████████████████████████████▏                             | 490/781 [20:37<11:50,  2.44s/it]

loss =  

 63%|██████████████████████████████████████████████████▎                             | 491/781 [20:42<15:10,  3.14s/it]

tensor(3.9087, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 76%|████████████████████████████████████████████████████████████▍                   | 590/781 [24:43<07:48,  2.45s/it]

loss =  

 76%|████████████████████████████████████████████████████████████▌                   | 591/781 [24:47<09:59,  3.16s/it]

tensor(4.0309, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████▋         | 690/781 [28:48<03:43,  2.46s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████▊         | 691/781 [28:53<04:44,  3.16s/it]

tensor(4.0928, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [32:31<00:00,  2.50s/it]
  1%|▉                                                                                 | 9/781 [00:21<31:23,  2.44s/it]

loss =  

  1%|█                                                                                | 10/781 [00:26<40:50,  3.18s/it]

tensor(4.0371, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 14%|███████████▏                                                                    | 109/781 [04:27<27:33,  2.46s/it]

loss =  

 14%|███████████▎                                                                    | 110/781 [04:32<35:15,  3.15s/it]

tensor(3.9807, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 27%|█████████████████████▍                                                          | 209/781 [08:32<23:23,  2.45s/it]

loss =  

 27%|█████████████████████▌                                                          | 210/781 [08:37<30:04,  3.16s/it]

tensor(4.2061, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(22.6562, device='cuda:0')


 40%|███████████████████████████████▋                                                | 309/781 [12:38<19:13,  2.44s/it]

loss =  

 40%|███████████████████████████████▊                                                | 310/781 [12:42<24:42,  3.15s/it]

tensor(4.2292, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(27.3438, device='cuda:0')


 52%|█████████████████████████████████████████▉                                      | 409/781 [16:43<15:09,  2.45s/it]

loss =  

 52%|█████████████████████████████████████████▉                                      | 410/781 [16:48<19:29,  3.15s/it]

tensor(4.0749, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 65%|████████████████████████████████████████████████████▏                           | 509/781 [20:48<11:05,  2.45s/it]

loss =  

 65%|████████████████████████████████████████████████████▏                           | 510/781 [20:53<14:13,  3.15s/it]

tensor(4.1962, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(23.4375, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████▍                 | 609/781 [24:53<07:00,  2.45s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████▍                 | 610/781 [24:58<09:01,  3.16s/it]

tensor(4.1084, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(31.2500, device='cuda:0')


 91%|████████████████████████████████████████████████████████████████████████▌       | 709/781 [28:59<02:56,  2.45s/it]

loss =  

 91%|████████████████████████████████████████████████████████████████████████▋       | 710/781 [29:03<03:43,  3.15s/it]

tensor(3.9625, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  4%|██▉                                                                              | 28/781 [01:08<30:40,  2.44s/it]

loss =  

  4%|███                                                                              | 29/781 [01:13<39:30,  3.15s/it]

tensor(3.9666, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 16%|█████████████                                                                   | 128/781 [05:13<26:40,  2.45s/it]

loss =  

 17%|█████████████▏                                                                  | 129/781 [05:18<34:10,  3.15s/it]

tensor(4.0632, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(28.9062, device='cuda:0')


 29%|███████████████████████▎                                                        | 228/781 [09:19<22:33,  2.45s/it]

loss =  

 29%|███████████████████████▍                                                        | 229/781 [09:24<29:08,  3.17s/it]

tensor(3.9404, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 42%|█████████████████████████████████▌                                              | 328/781 [13:24<18:36,  2.46s/it]

loss =  

 42%|█████████████████████████████████▋                                              | 329/781 [13:29<23:48,  3.16s/it]

tensor(3.9864, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 55%|███████████████████████████████████████████▊                                    | 428/781 [17:29<14:26,  2.46s/it]

loss =  

 55%|███████████████████████████████████████████▉                                    | 429/781 [17:34<18:33,  3.16s/it]

tensor(3.9550, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 68%|██████████████████████████████████████████████████████                          | 528/781 [21:35<10:22,  2.46s/it]

loss =  

 68%|██████████████████████████████████████████████████████▏                         | 529/781 [21:40<13:16,  3.16s/it]

tensor(3.9123, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 80%|████████████████████████████████████████████████████████████████▎               | 628/781 [25:41<06:14,  2.45s/it]

loss =  

 81%|████████████████████████████████████████████████████████████████▍               | 629/781 [25:45<07:59,  3.16s/it]

tensor(3.9662, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████▌     | 728/781 [29:46<02:09,  2.45s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████▋     | 729/781 [29:51<02:43,  3.15s/it]

tensor(4.1435, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
  6%|████▊                                                                            | 47/781 [01:55<29:49,  2.44s/it]

loss =  

  6%|████▉                                                                            | 48/781 [01:59<38:26,  3.15s/it]

tensor(4.0631, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 19%|███████████████                                                                 | 147/781 [06:00<25:53,  2.45s/it]

loss =  

 19%|███████████████▏                                                                | 148/781 [06:05<33:13,  3.15s/it]

tensor(4.0250, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 32%|█████████████████████████▎                                                      | 247/781 [10:05<21:44,  2.44s/it]

loss =  

 32%|█████████████████████████▍                                                      | 248/781 [10:10<28:00,  3.15s/it]

tensor(4.1459, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(24.2188, device='cuda:0')


 44%|███████████████████████████████████▌                                            | 347/781 [14:10<17:42,  2.45s/it]

loss =  

 45%|███████████████████████████████████▋                                            | 348/781 [14:15<22:48,  3.16s/it]

tensor(4.0820, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 57%|█████████████████████████████████████████████▊                                  | 447/781 [18:16<13:39,  2.45s/it]

loss =  

 57%|█████████████████████████████████████████████▉                                  | 448/781 [18:21<17:30,  3.15s/it]

tensor(3.9644, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 70%|████████████████████████████████████████████████████████                        | 547/781 [22:21<09:34,  2.45s/it]

loss =  

 70%|████████████████████████████████████████████████████████▏                       | 548/781 [22:26<12:15,  3.16s/it]

tensor(3.9943, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████▎             | 647/781 [26:29<05:44,  2.57s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████▍             | 648/781 [26:33<07:15,  3.27s/it]

tensor(3.9604, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 96%|████████████████████████████████████████████████████████████████████████████▌   | 747/781 [30:40<01:23,  2.45s/it]

loss =  

 96%|████████████████████████████████████████████████████████████████████████████▌   | 748/781 [30:45<01:43,  3.15s/it]

tensor(4.1036, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(28.1250, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [32:04<00:00,  2.46s/it]
  8%|██████▊                                                                          | 66/781 [02:41<29:05,  2.44s/it]

loss =  

  9%|██████▉                                                                          | 67/781 [02:46<37:39,  3.16s/it]

tensor(3.9687, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 21%|█████████████████                                                               | 166/781 [06:47<25:04,  2.45s/it]

loss =  

 21%|█████████████████                                                               | 167/781 [06:52<32:19,  3.16s/it]

tensor(4.0437, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 34%|███████████████████████████▏                                                    | 266/781 [10:52<21:00,  2.45s/it]

loss =  

 34%|███████████████████████████▎                                                    | 267/781 [10:57<27:00,  3.15s/it]

tensor(4.0021, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 47%|█████████████████████████████████████▍                                          | 366/781 [14:57<16:57,  2.45s/it]

loss =  

 47%|█████████████████████████████████████▌                                          | 367/781 [15:02<21:48,  3.16s/it]

tensor(3.9320, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 60%|███████████████████████████████████████████████▋                                | 466/781 [19:02<12:53,  2.46s/it]

loss =  

 60%|███████████████████████████████████████████████▊                                | 467/781 [19:07<16:34,  3.17s/it]

tensor(4.0387, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▉                      | 566/781 [23:08<08:46,  2.45s/it]

loss =  

 73%|██████████████████████████████████████████████████████████                      | 567/781 [23:13<11:13,  3.15s/it]

tensor(3.9827, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 85%|████████████████████████████████████████████████████████████████████▏           | 666/781 [27:13<04:41,  2.44s/it]

loss =  

 85%|████████████████████████████████████████████████████████████████████▎           | 667/781 [27:18<06:00,  3.16s/it]

tensor(3.9962, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████▍ | 766/781 [31:18<00:36,  2.45s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████▌ | 767/781 [31:23<00:44,  3.17s/it]

tensor(3.9663, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 11%|████████▊                                                                        | 85/781 [03:28<28:23,  2.45s/it]

loss =  

 11%|████████▉                                                                        | 86/781 [03:32<36:28,  3.15s/it]

tensor(3.9323, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 24%|██████████████████▉                                                             | 185/781 [07:33<24:16,  2.44s/it]

loss =  

 24%|███████████████████                                                             | 186/781 [07:37<31:09,  3.14s/it]

tensor(4.0266, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 36%|█████████████████████████████▏                                                  | 285/781 [11:38<20:10,  2.44s/it]

loss =  

 37%|█████████████████████████████▎                                                  | 286/781 [11:43<25:56,  3.14s/it]

tensor(4.1206, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 49%|███████████████████████████████████████▍                                        | 385/781 [15:43<16:09,  2.45s/it]

loss =  

 49%|███████████████████████████████████████▌                                        | 386/781 [15:48<20:43,  3.15s/it]

tensor(3.9717, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 62%|█████████████████████████████████████████████████▋                              | 485/781 [19:48<12:04,  2.45s/it]

loss =  

 62%|█████████████████████████████████████████████████▊                              | 486/781 [19:53<15:28,  3.15s/it]

tensor(3.9240, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 75%|███████████████████████████████████████████████████████████▉                    | 585/781 [23:53<08:01,  2.46s/it]

loss =  

 75%|████████████████████████████████████████████████████████████                    | 586/781 [23:58<10:13,  3.15s/it]

tensor(4.1019, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(28.1250, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████▏         | 685/781 [27:58<03:54,  2.44s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████▎         | 686/781 [28:03<04:59,  3.15s/it]

tensor(3.9523, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  1%|▍                                                                                 | 4/781 [00:09<31:42,  2.45s/it]

loss =  

  1%|▌                                                                                 | 5/781 [00:14<42:38,  3.30s/it]

tensor(4.0766, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 13%|██████████▋                                                                     | 104/781 [04:15<27:35,  2.44s/it]

loss =  

 13%|██████████▊                                                                     | 105/781 [04:19<35:30,  3.15s/it]

tensor(3.9921, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 26%|████████████████████▉                                                           | 204/781 [08:20<23:32,  2.45s/it]

loss =  

 26%|████████████████████▉                                                           | 205/781 [08:24<30:12,  3.15s/it]

tensor(4.0677, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


 39%|███████████████████████████████▏                                                | 304/781 [12:25<19:25,  2.44s/it]

loss =  

 39%|███████████████████████████████▏                                                | 305/781 [12:29<24:59,  3.15s/it]

tensor(4.0350, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(27.3438, device='cuda:0')


 52%|█████████████████████████████████████████▍                                      | 404/781 [16:30<15:23,  2.45s/it]

loss =  

 52%|█████████████████████████████████████████▍                                      | 405/781 [16:34<19:44,  3.15s/it]

tensor(4.0100, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 65%|███████████████████████████████████████████████████▋                            | 504/781 [20:35<11:17,  2.45s/it]

loss =  

 65%|███████████████████████████████████████████████████▋                            | 505/781 [20:39<14:28,  3.15s/it]

tensor(3.9123, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▊                  | 604/781 [24:40<07:12,  2.45s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▉                  | 605/781 [24:45<09:12,  3.14s/it]

tensor(4.0221, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 90%|████████████████████████████████████████████████████████████████████████        | 704/781 [28:45<03:08,  2.44s/it]

loss =  

 90%|████████████████████████████████████████████████████████████████████████▏       | 705/781 [28:50<03:59,  3.15s/it]

tensor(4.2134, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  3%|██▍                                                                              | 23/781 [00:56<30:54,  2.45s/it]

loss =  

  3%|██▍                                                                              | 24/781 [01:01<39:44,  3.15s/it]

tensor(3.8833, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 16%|████████████▌                                                                   | 123/781 [05:01<26:54,  2.45s/it]

loss =  

 16%|████████████▋                                                                   | 124/781 [05:06<34:34,  3.16s/it]

tensor(4.0072, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 29%|██████████████████████▊                                                         | 223/781 [09:06<22:45,  2.45s/it]

loss =  

 29%|██████████████████████▉                                                         | 224/781 [09:11<29:10,  3.14s/it]

tensor(3.9624, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 41%|█████████████████████████████████                                               | 323/781 [13:11<18:40,  2.45s/it]

loss =  

 41%|█████████████████████████████████▏                                              | 324/781 [13:16<23:57,  3.15s/it]

tensor(3.9426, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 54%|███████████████████████████████████████████▎                                    | 423/781 [17:16<14:35,  2.45s/it]

loss =  

 54%|███████████████████████████████████████████▍                                    | 424/781 [17:21<18:43,  3.15s/it]

tensor(3.9965, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 67%|█████████████████████████████████████████████████████▌                          | 523/781 [21:21<10:30,  2.44s/it]

loss =  

 67%|█████████████████████████████████████████████████████▋                          | 524/781 [21:26<13:28,  3.15s/it]

tensor(3.8247, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 80%|███████████████████████████████████████████████████████████████▊                | 623/781 [25:26<06:25,  2.44s/it]

loss =  

 80%|███████████████████████████████████████████████████████████████▉                | 624/781 [25:31<08:13,  3.14s/it]

tensor(4.0305, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████      | 723/781 [29:31<02:21,  2.44s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████▏     | 724/781 [29:36<02:59,  3.15s/it]

tensor(4.0275, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(27.3438, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  5%|████▎                                                                            | 42/781 [01:42<30:04,  2.44s/it]

loss =  

  6%|████▍                                                                            | 43/781 [01:47<38:36,  3.14s/it]

tensor(3.8338, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 18%|██████████████▌                                                                 | 142/781 [05:47<26:01,  2.44s/it]

loss =  

 18%|██████████████▋                                                                 | 143/781 [05:52<33:24,  3.14s/it]

tensor(4.0018, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 31%|████████████████████████▊                                                       | 242/781 [09:53<21:59,  2.45s/it]

loss =  

 31%|████████████████████████▉                                                       | 243/781 [09:57<28:13,  3.15s/it]

tensor(3.9525, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 44%|███████████████████████████████████                                             | 342/781 [13:58<17:55,  2.45s/it]

loss =  

 44%|███████████████████████████████████▏                                            | 343/781 [14:02<22:59,  3.15s/it]

tensor(3.9196, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 57%|█████████████████████████████████████████████▎                                  | 442/781 [18:03<13:55,  2.46s/it]

loss =  

 57%|█████████████████████████████████████████████▍                                  | 443/781 [18:08<17:46,  3.16s/it]

tensor(3.9868, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 69%|███████████████████████████████████████████████████████▌                        | 542/781 [22:08<09:44,  2.45s/it]

loss =  

 70%|███████████████████████████████████████████████████████▌                        | 543/781 [22:13<12:31,  3.16s/it]

tensor(3.9999, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▊              | 642/781 [26:13<05:40,  2.45s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▊              | 643/781 [26:18<07:16,  3.16s/it]

tensor(3.8231, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(28.9062, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 95%|████████████████████████████████████████████████████████████████████████████    | 742/781 [30:18<01:35,  2.44s/it]

loss =  

 95%|████████████████████████████████████████████████████████████████████████████    | 743/781 [30:23<01:59,  3.14s/it]

tensor(3.9850, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  8%|██████▎                                                                          | 61/781 [02:29<29:24,  2.45s/it]

loss =  

  8%|██████▍                                                                          | 62/781 [02:34<37:45,  3.15s/it]

tensor(3.9880, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 21%|████████████████▍                                                               | 161/781 [06:34<25:15,  2.44s/it]

loss =  

 21%|████████████████▌                                                               | 162/781 [06:39<32:35,  3.16s/it]

tensor(3.8804, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 33%|██████████████████████████▋                                                     | 261/781 [10:39<21:14,  2.45s/it]

loss =  

 34%|██████████████████████████▊                                                     | 262/781 [10:44<27:22,  3.16s/it]

tensor(3.9178, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 46%|████████████████████████████████████▉                                           | 361/781 [14:44<17:09,  2.45s/it]

loss =  

 46%|█████████████████████████████████████                                           | 362/781 [14:49<22:02,  3.16s/it]

tensor(4.0032, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 59%|███████████████████████████████████████████████▏                                | 461/781 [18:50<13:05,  2.46s/it]

loss =  

 59%|███████████████████████████████████████████████▎                                | 462/781 [18:54<16:45,  3.15s/it]

tensor(3.9589, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▍                      | 561/781 [22:55<09:01,  2.46s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▌                      | 562/781 [23:00<11:34,  3.17s/it]

tensor(3.9408, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 85%|███████████████████████████████████████████████████████████████████▋            | 661/781 [27:00<04:54,  2.46s/it]

loss =  

 85%|███████████████████████████████████████████████████████████████████▊            | 662/781 [27:05<06:15,  3.15s/it]

tensor(3.9250, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▉  | 761/781 [31:05<00:49,  2.46s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████  | 762/781 [31:10<01:00,  3.17s/it]

tensor(4.0538, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 10%|████████▎                                                                        | 80/781 [03:15<28:42,  2.46s/it]

loss =  

 10%|████████▍                                                                        | 81/781 [03:20<36:55,  3.16s/it]

tensor(3.8988, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 23%|██████████████████▍                                                             | 180/781 [07:21<24:41,  2.46s/it]

loss =  

 23%|██████████████████▌                                                             | 181/781 [07:25<31:43,  3.17s/it]

tensor(3.9952, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 36%|████████████████████████████▋                                                   | 280/781 [11:26<20:27,  2.45s/it]

loss =  

 36%|████████████████████████████▊                                                   | 281/781 [11:31<26:23,  3.17s/it]

tensor(4.0228, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 49%|██████████████████████████████████████▉                                         | 380/781 [15:31<16:26,  2.46s/it]

loss =  

 49%|███████████████████████████████████████                                         | 381/781 [15:36<21:03,  3.16s/it]

tensor(3.9900, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 61%|█████████████████████████████████████████████████▏                              | 480/781 [19:36<12:17,  2.45s/it]

loss =  

 62%|█████████████████████████████████████████████████▎                              | 481/781 [19:41<15:45,  3.15s/it]

tensor(4.1096, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 74%|███████████████████████████████████████████████████████████▍                    | 580/781 [23:41<08:10,  2.44s/it]

loss =  

 74%|███████████████████████████████████████████████████████████▌                    | 581/781 [23:46<10:28,  3.14s/it]

tensor(3.7682, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▋          | 680/781 [27:47<04:06,  2.44s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▊          | 681/781 [27:51<05:14,  3.15s/it]

tensor(3.8322, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


100%|███████████████████████████████████████████████████████████████████████████████▉| 780/781 [31:52<00:02,  2.44s/it]

loss =  

100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:57<00:00,  2.45s/it]


tensor(4.0070, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 13%|██████████▎                                                                      | 99/781 [04:00<27:44,  2.44s/it]

loss =  

 13%|██████████▏                                                                     | 100/781 [04:05<35:42,  3.15s/it]

tensor(3.9024, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 25%|████████████████████▍                                                           | 199/781 [08:05<23:43,  2.45s/it]

loss =  

 26%|████████████████████▍                                                           | 200/781 [08:10<30:32,  3.15s/it]

tensor(3.9794, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(26.5625, device='cuda:0')


 38%|██████████████████████████████▋                                                 | 299/781 [12:10<19:39,  2.45s/it]

loss =  

 38%|██████████████████████████████▋                                                 | 300/781 [12:15<25:13,  3.15s/it]

tensor(3.9826, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 51%|████████████████████████████████████████▊                                       | 399/781 [16:15<15:31,  2.44s/it]

loss =  

 51%|████████████████████████████████████████▉                                       | 400/781 [16:20<20:01,  3.15s/it]

tensor(3.9638, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 64%|███████████████████████████████████████████████████                             | 499/781 [20:21<11:31,  2.45s/it]

loss =  

 64%|███████████████████████████████████████████████████▏                            | 500/781 [20:25<14:43,  3.15s/it]

tensor(3.8730, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▎                  | 599/781 [24:25<07:24,  2.44s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▍                  | 600/781 [24:30<09:30,  3.15s/it]

tensor(3.9650, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 90%|███████████████████████████████████████████████████████████████████████▌        | 699/781 [28:31<03:21,  2.45s/it]

loss =  

 90%|███████████████████████████████████████████████████████████████████████▋        | 700/781 [28:36<04:16,  3.16s/it]

tensor(4.0025, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:52<00:00,  2.45s/it]
  2%|█▊                                                                               | 18/781 [00:44<31:11,  2.45s/it]

loss =  

  2%|█▉                                                                               | 19/781 [00:48<40:03,  3.15s/it]

tensor(3.9148, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 15%|████████████                                                                    | 118/781 [04:49<27:05,  2.45s/it]

loss =  

 15%|████████████▏                                                                   | 119/781 [04:54<34:50,  3.16s/it]

tensor(4.0256, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 28%|██████████████████████▎                                                         | 218/781 [08:54<22:59,  2.45s/it]

loss =  

 28%|██████████████████████▍                                                         | 219/781 [08:59<29:33,  3.16s/it]

tensor(3.8813, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 41%|████████████████████████████████▌                                               | 318/781 [12:59<18:54,  2.45s/it]

loss =  

 41%|████████████████████████████████▋                                               | 319/781 [13:04<24:14,  3.15s/it]

tensor(4.0552, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 54%|██████████████████████████████████████████▊                                     | 418/781 [17:04<14:49,  2.45s/it]

loss =  

 54%|██████████████████████████████████████████▉                                     | 419/781 [17:09<19:01,  3.15s/it]

tensor(3.9070, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 66%|█████████████████████████████████████████████████████                           | 518/781 [21:09<10:45,  2.46s/it]

loss =  

 66%|█████████████████████████████████████████████████████▏                          | 519/781 [21:14<13:47,  3.16s/it]

tensor(3.9116, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 79%|███████████████████████████████████████████████████████████████▎                | 618/781 [25:15<06:40,  2.46s/it]

loss =  

 79%|███████████████████████████████████████████████████████████████▍                | 619/781 [25:19<08:32,  3.16s/it]

tensor(3.9299, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▌      | 718/781 [29:20<02:34,  2.45s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▋      | 719/781 [29:25<03:16,  3.16s/it]

tensor(3.8584, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  5%|███▊                                                                             | 37/781 [01:30<30:28,  2.46s/it]

loss =  

  5%|███▉                                                                             | 38/781 [01:35<39:16,  3.17s/it]

tensor(4.0111, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 18%|██████████████                                                                  | 137/781 [05:35<26:18,  2.45s/it]

loss =  

 18%|██████████████▏                                                                 | 138/781 [05:40<33:55,  3.17s/it]

tensor(4.0144, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 30%|████████████████████████▎                                                       | 237/781 [09:41<22:10,  2.45s/it]

loss =  

 30%|████████████████████████▍                                                       | 238/781 [09:45<28:33,  3.16s/it]

tensor(3.9954, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 43%|██████████████████████████████████▌                                             | 337/781 [13:46<18:06,  2.45s/it]

loss =  

 43%|██████████████████████████████████▌                                             | 338/781 [13:50<23:11,  3.14s/it]

tensor(3.9720, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 56%|████████████████████████████████████████████▊                                   | 437/781 [17:51<14:00,  2.44s/it]

loss =  

 56%|████████████████████████████████████████████▊                                   | 438/781 [17:56<18:04,  3.16s/it]

tensor(3.9644, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 69%|███████████████████████████████████████████████████████                         | 537/781 [21:56<09:56,  2.44s/it]

loss =  

 69%|███████████████████████████████████████████████████████                         | 538/781 [22:01<12:47,  3.16s/it]

tensor(3.8793, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▏              | 637/781 [26:01<05:52,  2.45s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▎              | 638/781 [26:06<07:30,  3.15s/it]

tensor(3.8156, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 94%|███████████████████████████████████████████████████████████████████████████▍    | 737/781 [30:06<01:47,  2.44s/it]

loss =  

 94%|███████████████████████████████████████████████████████████████████████████▌    | 738/781 [30:11<02:15,  3.15s/it]

tensor(4.0744, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(28.9062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  7%|█████▊                                                                           | 56/781 [02:17<29:35,  2.45s/it]

loss =  

  7%|█████▉                                                                           | 57/781 [02:21<38:03,  3.15s/it]

tensor(4.1497, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(31.2500, device='cuda:0')


 20%|███████████████▉                                                                | 156/781 [06:22<25:33,  2.45s/it]

loss =  

 20%|████████████████                                                                | 157/781 [06:27<32:45,  3.15s/it]

tensor(3.8982, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 33%|██████████████████████████▏                                                     | 256/781 [10:27<21:23,  2.44s/it]

loss =  

 33%|██████████████████████████▎                                                     | 257/781 [10:32<27:30,  3.15s/it]

tensor(3.9178, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 46%|████████████████████████████████████▍                                           | 356/781 [14:33<17:21,  2.45s/it]

loss =  

 46%|████████████████████████████████████▌                                           | 357/781 [14:37<22:16,  3.15s/it]

tensor(3.8987, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 58%|██████████████████████████████████████████████▋                                 | 456/781 [18:38<13:16,  2.45s/it]

loss =  

 59%|██████████████████████████████████████████████▊                                 | 457/781 [18:43<17:01,  3.15s/it]

tensor(3.7860, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 71%|████████████████████████████████████████████████████████▉                       | 556/781 [22:43<09:11,  2.45s/it]

loss =  

 71%|█████████████████████████████████████████████████████████                       | 557/781 [22:48<11:45,  3.15s/it]

tensor(3.8614, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 84%|███████████████████████████████████████████████████████████████████▏            | 656/781 [26:48<05:06,  2.45s/it]

loss =  

 84%|███████████████████████████████████████████████████████████████████▎            | 657/781 [26:53<06:32,  3.17s/it]

tensor(4.0935, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▍  | 756/781 [30:53<01:01,  2.45s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▌  | 757/781 [30:58<01:15,  3.14s/it]

tensor(3.8972, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 10%|███████▊                                                                         | 75/781 [03:03<28:51,  2.45s/it]

loss =  

 10%|███████▉                                                                         | 76/781 [03:08<37:04,  3.16s/it]

tensor(3.8419, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 22%|█████████████████▉                                                              | 175/781 [07:09<24:45,  2.45s/it]

loss =  

 23%|██████████████████                                                              | 176/781 [07:13<31:51,  3.16s/it]

tensor(4.1949, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 35%|████████████████████████████▏                                                   | 275/781 [11:14<20:39,  2.45s/it]

loss =  

 35%|████████████████████████████▎                                                   | 276/781 [11:18<26:36,  3.16s/it]

tensor(3.8951, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 48%|██████████████████████████████████████▍                                         | 375/781 [15:19<16:33,  2.45s/it]

loss =  

 48%|██████████████████████████████████████▌                                         | 376/781 [15:23<21:17,  3.15s/it]

tensor(3.9485, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 61%|████████████████████████████████████████████████▋                               | 475/781 [19:24<12:31,  2.46s/it]

loss =  

 61%|████████████████████████████████████████████████▊                               | 476/781 [19:29<16:03,  3.16s/it]

tensor(3.7854, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 74%|██████████████████████████████████████████████████████████▉                     | 575/781 [23:29<08:26,  2.46s/it]

loss =  

 74%|███████████████████████████████████████████████████████████                     | 576/781 [23:34<10:45,  3.15s/it]

tensor(3.9465, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 86%|█████████████████████████████████████████████████████████████████████▏          | 675/781 [27:34<04:20,  2.46s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▏          | 676/781 [27:39<05:32,  3.17s/it]

tensor(3.9186, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 99%|███████████████████████████████████████████████████████████████████████████████▍| 775/781 [31:40<00:14,  2.44s/it]

loss =  

 99%|███████████████████████████████████████████████████████████████████████████████▍| 776/781 [31:45<00:15,  3.15s/it]

tensor(4.0492, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(28.1250, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 12%|█████████▋                                                                       | 94/781 [03:50<28:00,  2.45s/it]

loss =  

 12%|█████████▊                                                                       | 95/781 [03:55<36:09,  3.16s/it]

tensor(3.9515, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 25%|███████████████████▊                                                            | 194/781 [07:55<23:55,  2.45s/it]

loss =  

 25%|███████████████████▉                                                            | 195/781 [08:00<30:39,  3.14s/it]

tensor(3.9593, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(28.1250, device='cuda:0')


 38%|██████████████████████████████                                                  | 294/781 [12:00<19:50,  2.44s/it]

loss =  

 38%|██████████████████████████████▏                                                 | 295/781 [12:05<25:28,  3.14s/it]

tensor(3.8273, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 50%|████████████████████████████████████████▎                                       | 394/781 [16:06<15:47,  2.45s/it]

loss =  

 51%|████████████████████████████████████████▍                                       | 395/781 [16:11<20:15,  3.15s/it]

tensor(3.9843, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 63%|██████████████████████████████████████████████████▌                             | 494/781 [20:11<11:42,  2.45s/it]

loss =  

 63%|██████████████████████████████████████████████████▋                             | 495/781 [20:16<15:01,  3.15s/it]

tensor(3.9124, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 76%|████████████████████████████████████████████████████████████▊                   | 594/781 [24:16<07:39,  2.46s/it]

loss =  

 76%|████████████████████████████████████████████████████████████▉                   | 595/781 [24:21<09:46,  3.15s/it]

tensor(4.0613, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 89%|███████████████████████████████████████████████████████████████████████         | 694/781 [28:22<03:32,  2.44s/it]

loss =  

 89%|███████████████████████████████████████████████████████████████████████▏        | 695/781 [28:26<04:30,  3.15s/it]

tensor(4.0361, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  2%|█▎                                                                               | 13/781 [00:31<31:22,  2.45s/it]

loss =  

  2%|█▍                                                                               | 14/781 [00:36<40:18,  3.15s/it]

tensor(3.8361, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 14%|███████████▌                                                                    | 113/781 [04:37<27:17,  2.45s/it]

loss =  

 15%|███████████▋                                                                    | 114/781 [04:42<35:08,  3.16s/it]

tensor(4.0306, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 27%|█████████████████████▊                                                          | 213/781 [08:42<23:09,  2.45s/it]

loss =  

 27%|█████████████████████▉                                                          | 214/781 [08:47<29:48,  3.15s/it]

tensor(3.8541, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 40%|████████████████████████████████                                                | 313/781 [12:47<19:09,  2.46s/it]

loss =  

 40%|████████████████████████████████▏                                               | 314/781 [12:52<24:38,  3.17s/it]

tensor(3.9462, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 53%|██████████████████████████████████████████▎                                     | 413/781 [16:53<14:58,  2.44s/it]

loss =  

 53%|██████████████████████████████████████████▍                                     | 414/781 [16:57<19:17,  3.15s/it]

tensor(4.0136, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 66%|████████████████████████████████████████████████████▌                           | 513/781 [20:58<10:55,  2.44s/it]

loss =  

 66%|████████████████████████████████████████████████████▋                           | 514/781 [21:03<14:03,  3.16s/it]

tensor(4.0358, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████▊                 | 613/781 [25:03<06:51,  2.45s/it]

loss =  

 79%|██████████████████████████████████████████████████████████████▉                 | 614/781 [25:08<08:45,  3.15s/it]

tensor(3.9388, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 91%|█████████████████████████████████████████████████████████████████████████       | 713/781 [29:08<02:46,  2.44s/it]

loss =  

 91%|█████████████████████████████████████████████████████████████████████████▏      | 714/781 [29:13<03:31,  3.16s/it]

tensor(3.9306, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  4%|███▎                                                                             | 32/781 [01:18<30:35,  2.45s/it]

loss =  

  4%|███▍                                                                             | 33/781 [01:23<39:15,  3.15s/it]

tensor(3.8624, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 17%|█████████████▌                                                                  | 132/781 [05:23<26:27,  2.45s/it]

loss =  

 17%|█████████████▌                                                                  | 133/781 [05:28<34:03,  3.15s/it]

tensor(4.0076, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


 30%|███████████████████████▊                                                        | 232/781 [09:28<22:25,  2.45s/it]

loss =  

 30%|███████████████████████▊                                                        | 233/781 [09:33<28:45,  3.15s/it]

tensor(3.9129, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 43%|██████████████████████████████████                                              | 332/781 [13:34<18:19,  2.45s/it]

loss =  

 43%|██████████████████████████████████                                              | 333/781 [13:38<23:36,  3.16s/it]

tensor(4.1357, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(26.5625, device='cuda:0')


 55%|████████████████████████████████████████████▎                                   | 432/781 [17:39<14:18,  2.46s/it]

loss =  

 55%|████████████████████████████████████████████▎                                   | 433/781 [17:44<18:18,  3.16s/it]

tensor(3.8603, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 68%|██████████████████████████████████████████████████████▍                         | 532/781 [21:44<10:10,  2.45s/it]

loss =  

 68%|██████████████████████████████████████████████████████▌                         | 533/781 [21:49<13:04,  3.16s/it]

tensor(3.9445, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 81%|████████████████████████████████████████████████████████████████▋               | 632/781 [25:49<06:04,  2.45s/it]

loss =  

 81%|████████████████████████████████████████████████████████████████▊               | 633/781 [25:54<07:47,  3.16s/it]

tensor(3.9535, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 94%|██████████████████████████████████████████████████████████████████████████▉     | 732/781 [29:55<02:00,  2.46s/it]

loss =  

 94%|███████████████████████████████████████████████████████████████████████████     | 733/781 [29:59<02:31,  3.16s/it]

tensor(4.0957, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  7%|█████▎                                                                           | 51/781 [02:04<29:55,  2.46s/it]

loss =  

  7%|█████▍                                                                           | 52/781 [02:09<38:25,  3.16s/it]

tensor(3.9165, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 19%|███████████████▍                                                                | 151/781 [06:10<25:44,  2.45s/it]

loss =  

 19%|███████████████▌                                                                | 152/781 [06:15<33:07,  3.16s/it]

tensor(3.9643, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 32%|█████████████████████████▋                                                      | 251/781 [10:15<21:35,  2.44s/it]

loss =  

 32%|█████████████████████████▊                                                      | 252/781 [10:20<27:45,  3.15s/it]

tensor(3.9336, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 45%|███████████████████████████████████▉                                            | 351/781 [14:20<17:34,  2.45s/it]

loss =  

 45%|████████████████████████████████████                                            | 352/781 [14:25<22:34,  3.16s/it]

tensor(3.9010, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 58%|██████████████████████████████████████████████▏                                 | 451/781 [18:26<13:30,  2.46s/it]

loss =  

 58%|██████████████████████████████████████████████▎                                 | 452/781 [18:30<17:18,  3.16s/it]

tensor(3.9061, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 71%|████████████████████████████████████████████████████████▍                       | 551/781 [22:31<09:23,  2.45s/it]

loss =  

 71%|████████████████████████████████████████████████████████▌                       | 552/781 [22:36<12:00,  3.15s/it]

tensor(3.9588, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████▋             | 651/781 [26:36<05:18,  2.45s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████▊             | 652/781 [26:41<06:46,  3.15s/it]

tensor(4.0507, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 96%|████████████████████████████████████████████████████████████████████████████▉   | 751/781 [30:41<01:13,  2.45s/it]

loss =  

 96%|█████████████████████████████████████████████████████████████████████████████   | 752/781 [30:46<01:31,  3.15s/it]

tensor(3.9851, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  9%|███████▎                                                                         | 70/781 [02:51<29:00,  2.45s/it]

loss =  

  9%|███████▎                                                                         | 71/781 [02:56<37:17,  3.15s/it]

tensor(3.9178, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 22%|█████████████████▍                                                              | 170/781 [06:56<24:51,  2.44s/it]

loss =  

 22%|█████████████████▌                                                              | 171/781 [07:01<32:00,  3.15s/it]

tensor(3.8836, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 35%|███████████████████████████▋                                                    | 270/781 [11:01<20:52,  2.45s/it]

loss =  

 35%|███████████████████████████▊                                                    | 271/781 [11:06<26:44,  3.15s/it]

tensor(4.0307, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 47%|█████████████████████████████████████▉                                          | 370/781 [15:07<16:46,  2.45s/it]

loss =  

 48%|██████████████████████████████████████                                          | 371/781 [15:11<21:32,  3.15s/it]

tensor(3.9471, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 60%|████████████████████████████████████████████████▏                               | 470/781 [19:12<12:41,  2.45s/it]

loss =  

 60%|████████████████████████████████████████████████▏                               | 471/781 [19:17<16:15,  3.15s/it]

tensor(3.8922, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 73%|██████████████████████████████████████████████████████████▍                     | 570/781 [23:17<08:37,  2.45s/it]

loss =  

 73%|██████████████████████████████████████████████████████████▍                     | 571/781 [23:22<11:04,  3.16s/it]

tensor(3.9164, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 86%|████████████████████████████████████████████████████████████████████▋           | 670/781 [27:22<04:31,  2.44s/it]

loss =  

 86%|████████████████████████████████████████████████████████████████████▋           | 671/781 [27:27<05:46,  3.15s/it]

tensor(4.1052, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(26.5625, device='cuda:0')


 99%|██████████████████████████████████████████████████████████████████████████████▊ | 770/781 [31:28<00:26,  2.45s/it]

loss =  

 99%|██████████████████████████████████████████████████████████████████████████████▉ | 771/781 [31:32<00:31,  3.15s/it]

tensor(3.9336, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 11%|█████████▏                                                                       | 89/781 [03:38<28:12,  2.45s/it]

loss =  

 12%|█████████▎                                                                       | 90/781 [03:42<36:22,  3.16s/it]

tensor(3.8869, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 24%|███████████████████▎                                                            | 189/781 [07:43<24:15,  2.46s/it]

loss =  

 24%|███████████████████▍                                                            | 190/781 [07:48<31:08,  3.16s/it]

tensor(3.8553, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 37%|█████████████████████████████▌                                                  | 289/781 [11:48<20:04,  2.45s/it]

loss =  

 37%|█████████████████████████████▋                                                  | 290/781 [11:53<25:39,  3.14s/it]

tensor(3.8837, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 50%|███████████████████████████████████████▊                                        | 389/781 [15:53<15:59,  2.45s/it]

loss =  

 50%|███████████████████████████████████████▉                                        | 390/781 [15:58<20:32,  3.15s/it]

tensor(3.8629, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


 63%|██████████████████████████████████████████████████                              | 489/781 [19:59<11:56,  2.45s/it]

loss =  

 63%|██████████████████████████████████████████████████▏                             | 490/781 [20:03<15:16,  3.15s/it]

tensor(3.9730, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 75%|████████████████████████████████████████████████████████████▎                   | 589/781 [24:04<07:49,  2.45s/it]

loss =  

 76%|████████████████████████████████████████████████████████████▍                   | 590/781 [24:09<10:02,  3.16s/it]

tensor(3.7625, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████▌         | 689/781 [28:09<03:45,  2.45s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████▋         | 690/781 [28:14<04:47,  3.15s/it]

tensor(3.8350, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  1%|▊                                                                                 | 8/781 [00:19<31:29,  2.44s/it]

loss =  

  1%|▉                                                                                 | 9/781 [00:24<40:54,  3.18s/it]

tensor(3.9471, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 14%|███████████                                                                     | 108/781 [04:24<27:27,  2.45s/it]

loss =  

 14%|███████████▏                                                                    | 109/781 [04:29<35:16,  3.15s/it]

tensor(3.8927, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 27%|█████████████████████▎                                                          | 208/781 [08:29<23:21,  2.45s/it]

loss =  

 27%|█████████████████████▍                                                          | 209/781 [08:34<29:59,  3.15s/it]

tensor(3.8760, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 39%|███████████████████████████████▌                                                | 308/781 [12:34<19:16,  2.45s/it]

loss =  

 40%|███████████████████████████████▋                                                | 309/781 [12:39<24:48,  3.15s/it]

tensor(3.9068, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 52%|█████████████████████████████████████████▊                                      | 408/781 [16:40<15:15,  2.45s/it]

loss =  

 52%|█████████████████████████████████████████▉                                      | 409/781 [16:44<19:35,  3.16s/it]

tensor(4.0097, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 65%|████████████████████████████████████████████████████                            | 508/781 [20:45<11:08,  2.45s/it]

loss =  

 65%|████████████████████████████████████████████████████▏                           | 509/781 [20:49<14:16,  3.15s/it]

tensor(3.8807, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████▎                 | 608/781 [24:50<07:03,  2.45s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████▍                 | 609/781 [24:55<09:03,  3.16s/it]

tensor(3.8264, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(57.8125, device='cuda:0')


 91%|████████████████████████████████████████████████████████████████████████▌       | 708/781 [28:55<02:58,  2.45s/it]

loss =  

 91%|████████████████████████████████████████████████████████████████████████▌       | 709/781 [29:00<03:47,  3.15s/it]

tensor(4.0062, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(26.5625, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  3%|██▊                                                                              | 27/781 [01:06<30:41,  2.44s/it]

loss =  

  4%|██▉                                                                              | 28/781 [01:11<39:34,  3.15s/it]

tensor(3.9549, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 16%|█████████████                                                                   | 127/781 [05:11<26:50,  2.46s/it]

loss =  

 16%|█████████████                                                                   | 128/781 [05:16<34:21,  3.16s/it]

tensor(3.8321, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 29%|███████████████████████▎                                                        | 227/781 [09:16<22:39,  2.45s/it]

loss =  

 29%|███████████████████████▎                                                        | 228/781 [09:21<29:08,  3.16s/it]

tensor(3.8016, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 42%|█████████████████████████████████▍                                              | 327/781 [13:22<18:38,  2.46s/it]

loss =  

 42%|█████████████████████████████████▌                                              | 328/781 [13:26<23:48,  3.15s/it]

tensor(3.8823, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 55%|███████████████████████████████████████████▋                                    | 427/781 [17:27<14:30,  2.46s/it]

loss =  

 55%|███████████████████████████████████████████▊                                    | 428/781 [17:32<18:37,  3.17s/it]

tensor(3.8822, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 67%|█████████████████████████████████████████████████████▉                          | 527/781 [21:32<10:25,  2.46s/it]

loss =  

 68%|██████████████████████████████████████████████████████                          | 528/781 [21:37<13:19,  3.16s/it]

tensor(3.7731, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 80%|████████████████████████████████████████████████████████████████▏               | 627/781 [25:37<06:16,  2.44s/it]

loss =  

 80%|████████████████████████████████████████████████████████████████▎               | 628/781 [25:42<08:01,  3.15s/it]

tensor(3.8911, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████▍     | 727/781 [29:42<02:11,  2.44s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████▌     | 728/781 [29:47<02:46,  3.15s/it]

tensor(3.9598, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  6%|████▊                                                                            | 46/781 [01:52<30:05,  2.46s/it]

loss =  

  6%|████▊                                                                            | 47/781 [01:57<38:46,  3.17s/it]

tensor(3.8846, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 19%|██████████████▉                                                                 | 146/781 [05:58<25:56,  2.45s/it]

loss =  

 19%|███████████████                                                                 | 147/781 [06:02<33:10,  3.14s/it]

tensor(3.9422, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


 31%|█████████████████████████▏                                                      | 246/781 [10:03<21:51,  2.45s/it]

loss =  

 32%|█████████████████████████▎                                                      | 247/781 [10:07<28:02,  3.15s/it]

tensor(3.8566, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 44%|███████████████████████████████████▍                                            | 346/781 [14:08<17:46,  2.45s/it]

loss =  

 44%|███████████████████████████████████▌                                            | 347/781 [14:13<22:50,  3.16s/it]

tensor(3.9030, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 57%|█████████████████████████████████████████████▋                                  | 446/781 [18:13<13:41,  2.45s/it]

loss =  

 57%|█████████████████████████████████████████████▊                                  | 447/781 [18:18<17:36,  3.16s/it]

tensor(4.0832, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(29.6875, device='cuda:0')


 70%|███████████████████████████████████████████████████████▉                        | 546/781 [22:18<09:34,  2.45s/it]

loss =  

 70%|████████████████████████████████████████████████████████                        | 547/781 [22:23<12:16,  3.15s/it]

tensor(3.9667, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████▏             | 646/781 [26:23<05:30,  2.45s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████▎             | 647/781 [26:28<07:02,  3.15s/it]

tensor(4.0477, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 96%|████████████████████████████████████████████████████████████████████████████▍   | 746/781 [30:29<01:25,  2.45s/it]

loss =  

 96%|████████████████████████████████████████████████████████████████████████████▌   | 747/781 [30:33<01:46,  3.15s/it]

tensor(3.9040, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  8%|██████▋                                                                          | 65/781 [02:39<29:14,  2.45s/it]

loss =  

  8%|██████▊                                                                          | 66/781 [02:44<37:37,  3.16s/it]

tensor(3.8649, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 21%|████████████████▉                                                               | 165/781 [06:44<25:12,  2.46s/it]

loss =  

 21%|█████████████████                                                               | 166/781 [06:49<32:16,  3.15s/it]

tensor(3.9175, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 34%|███████████████████████████▏                                                    | 265/781 [10:49<20:57,  2.44s/it]

loss =  

 34%|███████████████████████████▏                                                    | 266/781 [10:54<26:55,  3.14s/it]

tensor(3.8851, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 47%|█████████████████████████████████████▍                                          | 365/781 [14:55<16:58,  2.45s/it]

loss =  

 47%|█████████████████████████████████████▍                                          | 366/781 [14:59<21:46,  3.15s/it]

tensor(3.9193, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 60%|███████████████████████████████████████████████▋                                | 465/781 [19:00<12:54,  2.45s/it]

loss =  

 60%|███████████████████████████████████████████████▋                                | 466/781 [19:05<16:37,  3.17s/it]

tensor(4.0579, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▊                      | 565/781 [23:05<08:49,  2.45s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▉                      | 566/781 [23:10<11:17,  3.15s/it]

tensor(3.8416, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 85%|████████████████████████████████████████████████████████████████████            | 665/781 [27:11<04:44,  2.45s/it]

loss =  

 85%|████████████████████████████████████████████████████████████████████▏           | 666/781 [27:15<06:02,  3.15s/it]

tensor(3.9444, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████▎ | 765/781 [31:16<00:39,  2.44s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████▍ | 766/781 [31:21<00:47,  3.15s/it]

tensor(4.0177, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 11%|████████▋                                                                        | 84/781 [03:25<28:23,  2.44s/it]

loss =  

 11%|████████▊                                                                        | 85/781 [03:30<36:33,  3.15s/it]

tensor(3.9170, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 24%|██████████████████▊                                                             | 184/781 [07:31<24:22,  2.45s/it]

loss =  

 24%|██████████████████▉                                                             | 185/781 [07:35<31:15,  3.15s/it]

tensor(4.0507, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 36%|█████████████████████████████                                                   | 284/781 [11:36<20:14,  2.44s/it]

loss =  

 36%|█████████████████████████████▏                                                  | 285/781 [11:41<26:01,  3.15s/it]

tensor(3.9160, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 49%|███████████████████████████████████████▎                                        | 384/781 [15:41<16:12,  2.45s/it]

loss =  

 49%|███████████████████████████████████████▍                                        | 385/781 [15:46<20:45,  3.15s/it]

tensor(3.8956, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 62%|█████████████████████████████████████████████████▌                              | 484/781 [19:46<12:05,  2.44s/it]

loss =  

 62%|█████████████████████████████████████████████████▋                              | 485/781 [19:51<15:31,  3.15s/it]

tensor(3.9581, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 75%|███████████████████████████████████████████████████████████▊                    | 584/781 [23:51<08:02,  2.45s/it]

loss =  

 75%|███████████████████████████████████████████████████████████▉                    | 585/781 [23:56<10:18,  3.16s/it]

tensor(3.8833, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(54.6875, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████          | 684/781 [27:56<03:57,  2.45s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████▏         | 685/781 [28:01<05:02,  3.15s/it]

tensor(3.8998, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  0%|▎                                                                                 | 3/781 [00:07<31:53,  2.46s/it]

loss =  

  1%|▍                                                                                 | 4/781 [00:12<43:33,  3.36s/it]

tensor(4.0185, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 13%|██████████▌                                                                     | 103/781 [04:12<27:38,  2.45s/it]

loss =  

 13%|██████████▋                                                                     | 104/781 [04:17<35:38,  3.16s/it]

tensor(3.9426, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 26%|████████████████████▊                                                           | 203/781 [08:17<23:34,  2.45s/it]

loss =  

 26%|████████████████████▉                                                           | 204/781 [08:22<30:12,  3.14s/it]

tensor(3.8523, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


 39%|███████████████████████████████                                                 | 303/781 [12:22<19:30,  2.45s/it]

loss =  

 39%|███████████████████████████████▏                                                | 304/781 [12:27<25:04,  3.15s/it]

tensor(4.0255, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 52%|█████████████████████████████████████████▎                                      | 403/781 [16:27<15:28,  2.46s/it]

loss =  

 52%|█████████████████████████████████████████▍                                      | 404/781 [16:32<19:46,  3.15s/it]

tensor(3.9693, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 64%|███████████████████████████████████████████████████▌                            | 503/781 [20:33<11:18,  2.44s/it]

loss =  

 65%|███████████████████████████████████████████████████▋                            | 504/781 [20:37<14:31,  3.14s/it]

tensor(3.8716, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▊                  | 603/781 [24:38<07:18,  2.46s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▊                  | 604/781 [24:43<09:18,  3.16s/it]

tensor(3.9172, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 90%|████████████████████████████████████████████████████████████████████████        | 703/781 [28:43<03:11,  2.45s/it]

loss =  

 90%|████████████████████████████████████████████████████████████████████████        | 704/781 [28:48<04:03,  3.16s/it]

tensor(3.8734, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(24.2188, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  3%|██▎                                                                              | 22/781 [00:53<30:58,  2.45s/it]

loss =  

  3%|██▍                                                                              | 23/781 [00:58<39:54,  3.16s/it]

tensor(3.9771, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 16%|████████████▍                                                                   | 122/781 [04:58<26:53,  2.45s/it]

loss =  

 16%|████████████▌                                                                   | 123/781 [05:03<34:31,  3.15s/it]

tensor(4.0305, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 28%|██████████████████████▋                                                         | 222/781 [09:04<22:51,  2.45s/it]

loss =  

 29%|██████████████████████▊                                                         | 223/781 [09:09<29:23,  3.16s/it]

tensor(4.0032, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 41%|████████████████████████████████▉                                               | 322/781 [13:09<18:44,  2.45s/it]

loss =  

 41%|█████████████████████████████████                                               | 323/781 [13:14<24:06,  3.16s/it]

tensor(3.9748, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(31.2500, device='cuda:0')


 54%|███████████████████████████████████████████▏                                    | 422/781 [17:14<14:39,  2.45s/it]

loss =  

 54%|███████████████████████████████████████████▎                                    | 423/781 [17:19<18:52,  3.16s/it]

tensor(3.9076, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 67%|█████████████████████████████████████████████████████▍                          | 522/781 [21:21<10:33,  2.45s/it]

loss =  

 67%|█████████████████████████████████████████████████████▌                          | 523/781 [21:26<13:33,  3.15s/it]

tensor(3.8771, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 80%|███████████████████████████████████████████████████████████████▋                | 622/781 [25:27<06:29,  2.45s/it]

loss =  

 80%|███████████████████████████████████████████████████████████████▊                | 623/781 [25:31<08:19,  3.16s/it]

tensor(3.8941, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▉      | 722/781 [29:32<02:25,  2.46s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████      | 723/781 [29:36<03:02,  3.15s/it]

tensor(3.8916, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
  5%|████▎                                                                            | 41/781 [01:40<30:10,  2.45s/it]

loss =  

  5%|████▎                                                                            | 42/781 [01:45<38:44,  3.15s/it]

tensor(4.0289, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 18%|██████████████▍                                                                 | 141/781 [05:45<26:06,  2.45s/it]

loss =  

 18%|██████████████▌                                                                 | 142/781 [05:50<33:33,  3.15s/it]

tensor(3.8588, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 31%|████████████████████████▋                                                       | 241/781 [09:50<22:09,  2.46s/it]

loss =  

 31%|████████████████████████▊                                                       | 242/781 [09:55<28:19,  3.15s/it]

tensor(3.8409, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 44%|██████████████████████████████████▉                                             | 341/781 [13:55<17:57,  2.45s/it]

loss =  

 44%|███████████████████████████████████                                             | 342/781 [14:00<23:01,  3.15s/it]

tensor(3.8126, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 56%|█████████████████████████████████████████████▏                                  | 441/781 [18:00<13:51,  2.45s/it]

loss =  

 57%|█████████████████████████████████████████████▎                                  | 442/781 [18:05<17:45,  3.14s/it]

tensor(3.9679, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 69%|███████████████████████████████████████████████████████▍                        | 541/781 [22:05<09:44,  2.44s/it]

loss =  

 69%|███████████████████████████████████████████████████████▌                        | 542/781 [22:10<12:33,  3.15s/it]

tensor(3.9437, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▋              | 641/781 [26:11<05:42,  2.45s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▊              | 642/781 [26:15<07:17,  3.15s/it]

tensor(3.8762, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 95%|███████████████████████████████████████████████████████████████████████████▉    | 741/781 [30:16<01:37,  2.45s/it]

loss =  

 95%|████████████████████████████████████████████████████████████████████████████    | 742/781 [30:21<02:02,  3.14s/it]

tensor(3.8166, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  8%|██████▏                                                                          | 60/781 [02:27<29:23,  2.45s/it]

loss =  

  8%|██████▎                                                                          | 61/781 [02:31<37:42,  3.14s/it]

tensor(3.9084, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 20%|████████████████▍                                                               | 160/781 [06:32<25:15,  2.44s/it]

loss =  

 21%|████████████████▍                                                               | 161/781 [06:36<32:34,  3.15s/it]

tensor(3.7488, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 33%|██████████████████████████▋                                                     | 260/781 [10:37<21:14,  2.45s/it]

loss =  

 33%|██████████████████████████▋                                                     | 261/781 [10:42<27:13,  3.14s/it]

tensor(3.9172, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 46%|████████████████████████████████████▉                                           | 360/781 [14:42<17:13,  2.45s/it]

loss =  

 46%|████████████████████████████████████▉                                           | 361/781 [14:47<22:05,  3.16s/it]

tensor(3.9850, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 59%|███████████████████████████████████████████████                                 | 460/781 [18:48<13:06,  2.45s/it]

loss =  

 59%|███████████████████████████████████████████████▏                                | 461/781 [18:52<16:46,  3.15s/it]

tensor(3.8638, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▎                      | 560/781 [22:53<09:00,  2.44s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▍                      | 561/781 [22:58<11:35,  3.16s/it]

tensor(3.8803, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 85%|███████████████████████████████████████████████████████████████████▌            | 660/781 [26:58<04:56,  2.45s/it]

loss =  

 85%|███████████████████████████████████████████████████████████████████▋            | 661/781 [27:03<06:18,  3.16s/it]

tensor(3.8484, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▊  | 760/781 [31:03<00:51,  2.45s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▉  | 761/781 [31:08<01:03,  3.16s/it]

tensor(3.9804, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 10%|████████▏                                                                        | 79/781 [03:13<28:44,  2.46s/it]

loss =  

 10%|████████▎                                                                        | 80/781 [03:18<36:57,  3.16s/it]

tensor(3.7961, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 23%|██████████████████▎                                                             | 179/781 [07:18<24:36,  2.45s/it]

loss =  

 23%|██████████████████▍                                                             | 180/781 [07:23<31:40,  3.16s/it]

tensor(3.8201, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 36%|████████████████████████████▌                                                   | 279/781 [11:24<20:29,  2.45s/it]

loss =  

 36%|████████████████████████████▋                                                   | 280/781 [11:28<26:13,  3.14s/it]

tensor(3.8364, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


 49%|██████████████████████████████████████▊                                         | 379/781 [15:29<16:20,  2.44s/it]

loss =  

 49%|██████████████████████████████████████▉                                         | 380/781 [15:33<21:04,  3.15s/it]

tensor(3.9162, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 61%|█████████████████████████████████████████████████                               | 479/781 [19:34<12:20,  2.45s/it]

loss =  

 61%|█████████████████████████████████████████████████▏                              | 480/781 [19:39<15:50,  3.16s/it]

tensor(3.9396, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 74%|███████████████████████████████████████████████████████████▎                    | 579/781 [23:39<08:15,  2.45s/it]

loss =  

 74%|███████████████████████████████████████████████████████████▍                    | 580/781 [23:44<10:34,  3.16s/it]

tensor(3.9695, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▌          | 679/781 [27:45<04:10,  2.45s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▋          | 680/781 [27:50<05:18,  3.15s/it]

tensor(3.8924, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


100%|███████████████████████████████████████████████████████████████████████████████▊| 779/781 [31:51<00:04,  2.46s/it]

loss =  

100%|███████████████████████████████████████████████████████████████████████████████▉| 780/781 [31:55<00:03,  3.16s/it]

tensor(3.8084, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
 13%|██████████▏                                                                      | 98/781 [04:00<28:03,  2.47s/it]

loss =  

 13%|██████████▎                                                                      | 99/781 [04:04<35:57,  3.16s/it]

tensor(3.9150, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 25%|████████████████████▎                                                           | 198/781 [08:05<23:52,  2.46s/it]

loss =  

 25%|████████████████████▍                                                           | 199/781 [08:10<30:39,  3.16s/it]

tensor(3.7798, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 38%|██████████████████████████████▌                                                 | 298/781 [12:10<19:45,  2.45s/it]

loss =  

 38%|██████████████████████████████▋                                                 | 299/781 [12:15<25:25,  3.16s/it]

tensor(3.9620, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 51%|████████████████████████████████████████▊                                       | 398/781 [16:16<15:38,  2.45s/it]

loss =  

 51%|████████████████████████████████████████▊                                       | 399/781 [16:20<20:03,  3.15s/it]

tensor(3.9557, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 64%|███████████████████████████████████████████████████                             | 498/781 [20:21<11:35,  2.46s/it]

loss =  

 64%|███████████████████████████████████████████████████                             | 499/781 [20:26<14:49,  3.15s/it]

tensor(4.0296, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▎                  | 598/781 [24:26<07:27,  2.45s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▎                  | 599/781 [24:31<09:33,  3.15s/it]

tensor(3.8598, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 89%|███████████████████████████████████████████████████████████████████████▍        | 698/781 [28:33<03:23,  2.45s/it]

loss =  

 90%|███████████████████████████████████████████████████████████████████████▌        | 699/781 [28:38<04:19,  3.16s/it]

tensor(3.8548, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(25.7812, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:57<00:00,  2.45s/it]
  2%|█▊                                                                               | 17/781 [00:41<31:09,  2.45s/it]

loss =  

  2%|█▊                                                                               | 18/781 [00:46<40:26,  3.18s/it]

tensor(3.9344, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 15%|███████████▉                                                                    | 117/781 [04:47<27:09,  2.45s/it]

loss =  

 15%|████████████                                                                    | 118/781 [04:52<34:52,  3.16s/it]

tensor(3.8084, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 28%|██████████████████████▏                                                         | 217/781 [08:52<23:03,  2.45s/it]

loss =  

 28%|██████████████████████▎                                                         | 218/781 [08:57<29:39,  3.16s/it]

tensor(3.8969, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 41%|████████████████████████████████▍                                               | 317/781 [12:58<18:58,  2.45s/it]

loss =  

 41%|████████████████████████████████▌                                               | 318/781 [13:03<24:23,  3.16s/it]

tensor(3.9223, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 53%|██████████████████████████████████████████▋                                     | 417/781 [17:04<14:52,  2.45s/it]

loss =  

 54%|██████████████████████████████████████████▊                                     | 418/781 [17:09<19:07,  3.16s/it]

tensor(3.9982, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 66%|████████████████████████████████████████████████████▉                           | 517/781 [21:09<10:46,  2.45s/it]

loss =  

 66%|█████████████████████████████████████████████████████                           | 518/781 [21:14<13:53,  3.17s/it]

tensor(3.9058, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 79%|███████████████████████████████████████████████████████████████▏                | 617/781 [25:14<06:41,  2.45s/it]

loss =  

 79%|███████████████████████████████████████████████████████████████▎                | 618/781 [25:19<08:33,  3.15s/it]

tensor(3.9237, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▍      | 717/781 [29:20<02:36,  2.45s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▌      | 718/781 [29:24<03:18,  3.14s/it]

tensor(3.9830, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
  5%|███▋                                                                             | 36/781 [01:28<30:23,  2.45s/it]

loss =  

  5%|███▊                                                                             | 37/781 [01:32<39:09,  3.16s/it]

tensor(3.8162, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 17%|█████████████▉                                                                  | 136/781 [05:33<26:14,  2.44s/it]

loss =  

 18%|██████████████                                                                  | 137/781 [05:38<33:43,  3.14s/it]

tensor(3.9627, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 30%|████████████████████████▏                                                       | 236/781 [09:38<22:12,  2.44s/it]

loss =  

 30%|████████████████████████▎                                                       | 237/781 [09:43<28:34,  3.15s/it]

tensor(3.9769, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 43%|██████████████████████████████████▍                                             | 336/781 [13:43<18:08,  2.45s/it]

loss =  

 43%|██████████████████████████████████▌                                             | 337/781 [13:48<23:16,  3.15s/it]

tensor(3.8440, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 56%|████████████████████████████████████████████▋                                   | 436/781 [17:48<14:03,  2.45s/it]

loss =  

 56%|████████████████████████████████████████████▊                                   | 437/781 [17:53<18:03,  3.15s/it]

tensor(3.8116, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 69%|██████████████████████████████████████████████████████▉                         | 536/781 [21:53<09:58,  2.44s/it]

loss =  

 69%|███████████████████████████████████████████████████████                         | 537/781 [21:58<12:47,  3.14s/it]

tensor(3.7940, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 81%|█████████████████████████████████████████████████████████████████▏              | 636/781 [25:59<05:54,  2.45s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▏              | 637/781 [26:03<07:34,  3.15s/it]

tensor(3.9208, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 94%|███████████████████████████████████████████████████████████████████████████▍    | 736/781 [30:04<01:50,  2.45s/it]

loss =  

 94%|███████████████████████████████████████████████████████████████████████████▍    | 737/781 [30:09<02:18,  3.15s/it]

tensor(4.0068, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  7%|█████▋                                                                           | 55/781 [02:14<29:28,  2.44s/it]

loss =  

  7%|█████▊                                                                           | 56/781 [02:19<37:58,  3.14s/it]

tensor(3.9352, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 20%|███████████████▉                                                                | 155/781 [06:19<25:30,  2.44s/it]

loss =  

 20%|███████████████▉                                                                | 156/781 [06:24<32:43,  3.14s/it]

tensor(3.9786, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 33%|██████████████████████████                                                      | 255/781 [10:24<21:21,  2.44s/it]

loss =  

 33%|██████████████████████████▏                                                     | 256/781 [10:29<27:35,  3.15s/it]

tensor(3.9657, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 45%|████████████████████████████████████▎                                           | 355/781 [14:30<17:24,  2.45s/it]

loss =  

 46%|████████████████████████████████████▍                                           | 356/781 [14:34<22:20,  3.15s/it]

tensor(3.9863, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 58%|██████████████████████████████████████████████▌                                 | 455/781 [18:35<13:16,  2.44s/it]

loss =  

 58%|██████████████████████████████████████████████▋                                 | 456/781 [18:40<17:04,  3.15s/it]

tensor(3.9764, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 71%|████████████████████████████████████████████████████████▊                       | 555/781 [22:42<09:30,  2.52s/it]

loss =  

 71%|████████████████████████████████████████████████████████▉                       | 556/781 [22:47<12:09,  3.24s/it]

tensor(3.9054, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 84%|███████████████████████████████████████████████████████████████████             | 655/781 [26:47<05:08,  2.45s/it]

loss =  

 84%|███████████████████████████████████████████████████████████████████▏            | 656/781 [26:52<06:34,  3.15s/it]

tensor(3.8889, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▎  | 755/781 [30:52<01:03,  2.45s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▍  | 756/781 [30:57<01:18,  3.15s/it]

tensor(3.8402, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
  9%|███████▋                                                                         | 74/781 [03:01<28:55,  2.45s/it]

loss =  

 10%|███████▊                                                                         | 75/781 [03:06<37:08,  3.16s/it]

tensor(3.8554, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 22%|█████████████████▊                                                              | 174/781 [07:06<24:44,  2.45s/it]

loss =  

 22%|█████████████████▉                                                              | 175/781 [07:11<31:43,  3.14s/it]

tensor(3.9948, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 35%|████████████████████████████                                                    | 274/781 [11:11<20:44,  2.45s/it]

loss =  

 35%|████████████████████████████▏                                                   | 275/781 [11:16<26:35,  3.15s/it]

tensor(3.8514, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(26.5625, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 48%|██████████████████████████████████████▎                                         | 374/781 [15:16<16:30,  2.43s/it]

loss =  

 48%|██████████████████████████████████████▍                                         | 375/781 [15:21<21:15,  3.14s/it]

tensor(3.8184, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 61%|████████████████████████████████████████████████▌                               | 474/781 [19:22<12:34,  2.46s/it]

loss =  

 61%|████████████████████████████████████████████████▋                               | 475/781 [19:26<16:06,  3.16s/it]

tensor(4.0168, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


 73%|██████████████████████████████████████████████████████████▊                     | 574/781 [23:27<08:26,  2.45s/it]

loss =  

 74%|██████████████████████████████████████████████████████████▉                     | 575/781 [23:32<10:49,  3.15s/it]

tensor(3.9128, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 86%|█████████████████████████████████████████████████████████████████████           | 674/781 [27:32<04:22,  2.45s/it]

loss =  

 86%|█████████████████████████████████████████████████████████████████████▏          | 675/781 [27:36<05:34,  3.15s/it]

tensor(3.8270, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 99%|███████████████████████████████████████████████████████████████████████████████▎| 774/781 [31:37<00:17,  2.46s/it]

loss =  

 99%|███████████████████████████████████████████████████████████████████████████████▍| 775/781 [31:42<00:18,  3.15s/it]

tensor(3.9198, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
 12%|█████████▋                                                                       | 93/781 [03:47<28:02,  2.45s/it]

loss =  

 12%|█████████▋                                                                       | 94/781 [03:52<36:06,  3.15s/it]

tensor(3.8853, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 25%|███████████████████▊                                                            | 193/781 [07:52<24:02,  2.45s/it]

loss =  

 25%|███████████████████▊                                                            | 194/781 [07:57<30:56,  3.16s/it]

tensor(3.9004, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 38%|██████████████████████████████                                                  | 293/781 [11:57<19:51,  2.44s/it]

loss =  

 38%|██████████████████████████████                                                  | 294/781 [12:02<25:40,  3.16s/it]

tensor(4.0094, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 50%|████████████████████████████████████████▎                                       | 393/781 [16:02<15:47,  2.44s/it]

loss =  

 50%|████████████████████████████████████████▎                                       | 394/781 [16:07<20:18,  3.15s/it]

tensor(3.8520, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 63%|██████████████████████████████████████████████████▍                             | 493/781 [20:08<11:47,  2.46s/it]

loss =  

 63%|██████████████████████████████████████████████████▌                             | 494/781 [20:12<15:08,  3.16s/it]

tensor(3.7749, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 76%|████████████████████████████████████████████████████████████▋                   | 593/781 [24:14<07:41,  2.46s/it]

loss =  

 76%|████████████████████████████████████████████████████████████▊                   | 594/781 [24:19<09:50,  3.16s/it]

tensor(3.8860, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 89%|██████████████████████████████████████████████████████████████████████▉         | 693/781 [28:19<03:36,  2.46s/it]

loss =  

 89%|███████████████████████████████████████████████████████████████████████         | 694/781 [28:24<04:34,  3.16s/it]

tensor(3.8097, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  2%|█▏                                                                               | 12/781 [00:29<31:21,  2.45s/it]

loss =  

  2%|█▎                                                                               | 13/781 [00:34<40:20,  3.15s/it]

tensor(3.8121, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


 14%|███████████▍                                                                    | 112/781 [04:34<27:20,  2.45s/it]

loss =  

 14%|███████████▌                                                                    | 113/781 [04:39<35:06,  3.15s/it]

tensor(3.8297, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 27%|█████████████████████▋                                                          | 212/781 [08:39<23:12,  2.45s/it]

loss =  

 27%|█████████████████████▊                                                          | 213/781 [08:44<29:46,  3.14s/it]

tensor(3.9388, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 40%|███████████████████████████████▉                                                | 312/781 [12:44<19:04,  2.44s/it]

loss =  

 40%|████████████████████████████████                                                | 313/781 [12:49<24:33,  3.15s/it]

tensor(3.9919, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 53%|██████████████████████████████████████████▏                                     | 412/781 [16:50<15:05,  2.45s/it]

loss =  

 53%|██████████████████████████████████████████▎                                     | 413/781 [16:55<19:26,  3.17s/it]

tensor(3.8920, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 66%|████████████████████████████████████████████████████▍                           | 512/781 [20:55<10:58,  2.45s/it]

loss =  

 66%|████████████████████████████████████████████████████▌                           | 513/781 [21:00<14:04,  3.15s/it]

tensor(3.8533, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████▋                 | 612/781 [25:01<06:55,  2.46s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████▊                 | 613/781 [25:05<08:51,  3.16s/it]

tensor(3.7664, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 91%|████████████████████████████████████████████████████████████████████████▉       | 712/781 [29:06<02:49,  2.45s/it]

loss =  

 91%|█████████████████████████████████████████████████████████████████████████       | 713/781 [29:11<03:35,  3.16s/it]

tensor(3.9286, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  4%|███▏                                                                             | 31/781 [01:15<30:36,  2.45s/it]

loss =  

  4%|███▎                                                                             | 32/781 [01:20<39:17,  3.15s/it]

tensor(3.9518, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 17%|█████████████▍                                                                  | 131/781 [05:21<26:35,  2.45s/it]

loss =  

 17%|█████████████▌                                                                  | 132/781 [05:25<34:05,  3.15s/it]

tensor(3.9773, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 30%|███████████████████████▋                                                        | 231/781 [09:26<22:26,  2.45s/it]

loss =  

 30%|███████████████████████▊                                                        | 232/781 [09:31<28:48,  3.15s/it]

tensor(3.8658, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 42%|█████████████████████████████████▉                                              | 331/781 [13:31<18:17,  2.44s/it]

loss =  

 43%|██████████████████████████████████                                              | 332/781 [13:36<23:35,  3.15s/it]

tensor(4.0425, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 55%|████████████████████████████████████████████▏                                   | 431/781 [17:36<14:16,  2.45s/it]

loss =  

 55%|████████████████████████████████████████████▎                                   | 432/781 [17:41<18:19,  3.15s/it]

tensor(3.8740, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 68%|██████████████████████████████████████████████████████▍                         | 531/781 [21:41<10:11,  2.44s/it]

loss =  

 68%|██████████████████████████████████████████████████████▍                         | 532/781 [21:46<13:04,  3.15s/it]

tensor(3.8192, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


 81%|████████████████████████████████████████████████████████████████▋               | 631/781 [25:47<06:07,  2.45s/it]

loss =  

 81%|████████████████████████████████████████████████████████████████▋               | 632/781 [25:52<07:49,  3.15s/it]

tensor(4.0067, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 94%|██████████████████████████████████████████████████████████████████████████▉     | 731/781 [29:52<02:01,  2.44s/it]

loss =  

 94%|██████████████████████████████████████████████████████████████████████████▉     | 732/781 [29:57<02:34,  3.15s/it]

tensor(4.0446, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  6%|█████▏                                                                           | 50/781 [02:02<29:50,  2.45s/it]

loss =  

  7%|█████▎                                                                           | 51/781 [02:07<38:16,  3.15s/it]

tensor(3.8679, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 19%|███████████████▎                                                                | 150/781 [06:07<25:43,  2.45s/it]

loss =  

 19%|███████████████▍                                                                | 151/781 [06:12<33:11,  3.16s/it]

tensor(4.0055, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 32%|█████████████████████████▌                                                      | 250/781 [10:13<21:47,  2.46s/it]

loss =  

 32%|█████████████████████████▋                                                      | 251/781 [10:17<27:55,  3.16s/it]

tensor(3.8680, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 45%|███████████████████████████████████▊                                            | 350/781 [14:18<17:39,  2.46s/it]

loss =  

 45%|███████████████████████████████████▉                                            | 351/781 [14:22<22:37,  3.16s/it]

tensor(3.8920, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 58%|██████████████████████████████████████████████                                  | 450/781 [18:23<13:31,  2.45s/it]

loss =  

 58%|██████████████████████████████████████████████▏                                 | 451/781 [18:28<17:19,  3.15s/it]

tensor(3.8164, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 70%|████████████████████████████████████████████████████████▎                       | 550/781 [22:28<09:24,  2.45s/it]

loss =  

 71%|████████████████████████████████████████████████████████▍                       | 551/781 [22:33<12:07,  3.16s/it]

tensor(3.9368, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████▌             | 650/781 [26:33<05:22,  2.46s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████▋             | 651/781 [26:38<06:50,  3.16s/it]

tensor(3.9456, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 96%|████████████████████████████████████████████████████████████████████████████▊   | 750/781 [30:39<01:16,  2.46s/it]

loss =  

 96%|████████████████████████████████████████████████████████████████████████████▉   | 751/781 [30:43<01:35,  3.17s/it]

tensor(3.9397, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(31.2500, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  9%|███████▏                                                                         | 69/781 [02:49<29:02,  2.45s/it]

loss =  

  9%|███████▎                                                                         | 70/781 [02:53<37:13,  3.14s/it]

tensor(3.8995, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 22%|█████████████████▎                                                              | 169/781 [06:54<24:58,  2.45s/it]

loss =  

 22%|█████████████████▍                                                              | 170/781 [06:59<32:20,  3.18s/it]

tensor(3.8768, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 34%|███████████████████████████▌                                                    | 269/781 [10:59<20:51,  2.44s/it]

loss =  

 35%|███████████████████████████▋                                                    | 270/781 [11:04<26:54,  3.16s/it]

tensor(3.8103, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


 47%|█████████████████████████████████████▊                                          | 369/781 [15:04<16:46,  2.44s/it]

loss =  

 47%|█████████████████████████████████████▉                                          | 370/781 [15:09<21:34,  3.15s/it]

tensor(3.8567, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 60%|████████████████████████████████████████████████                                | 469/781 [19:09<12:44,  2.45s/it]

loss =  

 60%|████████████████████████████████████████████████▏                               | 470/781 [19:14<16:19,  3.15s/it]

tensor(3.9374, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 73%|██████████████████████████████████████████████████████████▎                     | 569/781 [23:15<08:40,  2.46s/it]

loss =  

 73%|██████████████████████████████████████████████████████████▍                     | 570/781 [23:20<11:08,  3.17s/it]

tensor(3.9161, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 86%|████████████████████████████████████████████████████████████████████▌           | 669/781 [27:20<04:33,  2.44s/it]

loss =  

 86%|████████████████████████████████████████████████████████████████████▋           | 670/781 [27:25<05:49,  3.15s/it]

tensor(3.9117, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████▊ | 769/781 [31:25<00:29,  2.45s/it]

loss =  

 99%|██████████████████████████████████████████████████████████████████████████████▊ | 770/781 [31:30<00:34,  3.16s/it]

tensor(3.7075, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(55.4688, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 11%|█████████▏                                                                       | 88/781 [03:35<28:14,  2.45s/it]

loss =  

 11%|█████████▏                                                                       | 89/781 [03:40<36:23,  3.15s/it]

tensor(3.8160, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 24%|███████████████████▎                                                            | 188/781 [07:40<24:11,  2.45s/it]

loss =  

 24%|███████████████████▎                                                            | 189/781 [07:45<31:04,  3.15s/it]

tensor(3.8981, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 37%|█████████████████████████████▌                                                  | 288/781 [11:45<20:07,  2.45s/it]

loss =  

 37%|█████████████████████████████▌                                                  | 289/781 [11:50<25:48,  3.15s/it]

tensor(3.9791, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 50%|███████████████████████████████████████▋                                        | 388/781 [15:50<16:01,  2.45s/it]

loss =  

 50%|███████████████████████████████████████▊                                        | 389/781 [15:55<20:37,  3.16s/it]

tensor(3.8536, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 62%|█████████████████████████████████████████████████▉                              | 488/781 [19:56<11:56,  2.45s/it]

loss =  

 63%|██████████████████████████████████████████████████                              | 489/781 [20:00<15:19,  3.15s/it]

tensor(3.8827, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 75%|████████████████████████████████████████████████████████████▏                   | 588/781 [24:01<07:51,  2.44s/it]

loss =  

 75%|████████████████████████████████████████████████████████████▎                   | 589/781 [24:06<10:04,  3.15s/it]

tensor(3.9078, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████▍         | 688/781 [28:06<03:47,  2.45s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████▌         | 689/781 [28:11<04:50,  3.16s/it]

tensor(3.9664, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  1%|▋                                                                                 | 7/781 [00:17<31:31,  2.44s/it]

loss =  

  1%|▊                                                                                 | 8/781 [00:21<41:17,  3.21s/it]

tensor(3.9072, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 14%|██████████▉                                                                     | 107/781 [04:22<27:36,  2.46s/it]

loss =  

 14%|███████████                                                                     | 108/781 [04:27<35:24,  3.16s/it]

tensor(3.9071, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 27%|█████████████████████▏                                                          | 207/781 [08:27<23:24,  2.45s/it]

loss =  

 27%|█████████████████████▎                                                          | 208/781 [08:32<30:15,  3.17s/it]

tensor(3.9821, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 39%|███████████████████████████████▍                                                | 307/781 [12:33<19:17,  2.44s/it]

loss =  

 39%|███████████████████████████████▌                                                | 308/781 [12:37<24:46,  3.14s/it]

tensor(3.9872, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 52%|█████████████████████████████████████████▋                                      | 407/781 [16:38<15:13,  2.44s/it]

loss =  

 52%|█████████████████████████████████████████▊                                      | 408/781 [16:43<19:40,  3.16s/it]

tensor(3.8787, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 65%|███████████████████████████████████████████████████▉                            | 507/781 [20:43<11:11,  2.45s/it]

loss =  

 65%|████████████████████████████████████████████████████                            | 508/781 [20:48<14:23,  3.16s/it]

tensor(3.8378, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████▏                 | 607/781 [24:49<07:05,  2.45s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████▎                 | 608/781 [24:53<09:04,  3.15s/it]

tensor(3.9221, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 91%|████████████████████████████████████████████████████████████████████████▍       | 707/781 [28:54<03:01,  2.45s/it]

loss =  

 91%|████████████████████████████████████████████████████████████████████████▌       | 708/781 [28:59<03:50,  3.15s/it]

tensor(3.8996, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  3%|██▋                                                                              | 26/781 [01:03<30:53,  2.46s/it]

loss =  

  3%|██▊                                                                              | 27/781 [01:08<39:41,  3.16s/it]

tensor(3.9163, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 16%|████████████▉                                                                   | 126/781 [05:09<26:50,  2.46s/it]

loss =  

 16%|█████████████                                                                   | 127/781 [05:13<34:17,  3.15s/it]

tensor(3.8731, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 29%|███████████████████████▏                                                        | 226/781 [09:14<22:38,  2.45s/it]

loss =  

 29%|███████████████████████▎                                                        | 227/781 [09:19<29:05,  3.15s/it]

tensor(3.8796, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 42%|█████████████████████████████████▍                                              | 326/781 [13:19<18:38,  2.46s/it]

loss =  

 42%|█████████████████████████████████▍                                              | 327/781 [13:24<23:59,  3.17s/it]

tensor(3.9820, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 55%|███████████████████████████████████████████▋                                    | 426/781 [17:24<14:29,  2.45s/it]

loss =  

 55%|███████████████████████████████████████████▋                                    | 427/781 [17:29<18:36,  3.15s/it]

tensor(4.0289, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 67%|█████████████████████████████████████████████████████▉                          | 526/781 [21:30<10:27,  2.46s/it]

loss =  

 67%|█████████████████████████████████████████████████████▉                          | 527/781 [21:35<13:22,  3.16s/it]

tensor(3.9062, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 80%|████████████████████████████████████████████████████████████████                | 626/781 [25:35<06:21,  2.46s/it]

loss =  

 80%|████████████████████████████████████████████████████████████████▏               | 627/781 [25:40<08:06,  3.16s/it]

tensor(3.9912, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████▎     | 726/781 [29:41<02:15,  2.46s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████▍     | 727/781 [29:45<02:50,  3.15s/it]

tensor(3.9792, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  6%|████▋                                                                            | 45/781 [01:50<30:04,  2.45s/it]

loss =  

  6%|████▊                                                                            | 46/781 [01:54<38:35,  3.15s/it]

tensor(3.7714, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(55.4688, device='cuda:0')


 19%|██████████████▊                                                                 | 145/781 [05:55<25:55,  2.44s/it]

loss =  

 19%|██████████████▉                                                                 | 146/781 [06:00<33:25,  3.16s/it]

tensor(3.8139, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 31%|█████████████████████████                                                       | 245/781 [10:00<21:53,  2.45s/it]

loss =  

 31%|█████████████████████████▏                                                      | 246/781 [10:05<28:05,  3.15s/it]

tensor(3.9211, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 44%|███████████████████████████████████▎                                            | 345/781 [14:06<17:48,  2.45s/it]

loss =  

 44%|███████████████████████████████████▍                                            | 346/781 [14:10<22:52,  3.16s/it]

tensor(3.8990, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 57%|█████████████████████████████████████████████▌                                  | 445/781 [18:11<13:43,  2.45s/it]

loss =  

 57%|█████████████████████████████████████████████▋                                  | 446/781 [18:15<17:36,  3.15s/it]

tensor(3.9464, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 70%|███████████████████████████████████████████████████████▊                        | 545/781 [22:16<09:37,  2.45s/it]

loss =  

 70%|███████████████████████████████████████████████████████▉                        | 546/781 [22:21<12:19,  3.15s/it]

tensor(3.9503, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████              | 645/781 [26:21<05:33,  2.45s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████▏             | 646/781 [26:26<07:07,  3.17s/it]

tensor(3.9715, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 95%|████████████████████████████████████████████████████████████████████████████▎   | 745/781 [30:26<01:28,  2.45s/it]

loss =  

 96%|████████████████████████████████████████████████████████████████████████████▍   | 746/781 [30:31<01:50,  3.15s/it]

tensor(3.8951, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  8%|██████▋                                                                          | 64/781 [02:36<29:12,  2.44s/it]

loss =  

  8%|██████▋                                                                          | 65/781 [02:41<37:41,  3.16s/it]

tensor(3.7849, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(54.6875, device='cuda:0')


 21%|████████████████▊                                                               | 164/781 [06:41<25:08,  2.44s/it]

loss =  

 21%|████████████████▉                                                               | 165/781 [06:46<32:17,  3.15s/it]

tensor(3.8016, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 34%|███████████████████████████                                                     | 264/781 [10:47<21:06,  2.45s/it]

loss =  

 34%|███████████████████████████▏                                                    | 265/781 [10:52<27:08,  3.16s/it]

tensor(3.8670, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 47%|█████████████████████████████████████▎                                          | 364/781 [14:52<17:04,  2.46s/it]

loss =  

 47%|█████████████████████████████████████▍                                          | 365/781 [14:57<21:50,  3.15s/it]

tensor(4.0505, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 59%|███████████████████████████████████████████████▌                                | 464/781 [18:57<12:55,  2.45s/it]

loss =  

 60%|███████████████████████████████████████████████▋                                | 465/781 [19:02<16:38,  3.16s/it]

tensor(3.8211, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(55.4688, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▊                      | 564/781 [23:03<08:51,  2.45s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▊                      | 565/781 [23:07<11:19,  3.15s/it]

tensor(3.8761, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 85%|████████████████████████████████████████████████████████████████████            | 664/781 [27:08<04:46,  2.45s/it]

loss =  

 85%|████████████████████████████████████████████████████████████████████            | 665/781 [27:13<06:05,  3.15s/it]

tensor(3.8762, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████▎ | 764/781 [31:13<00:41,  2.45s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████▎ | 765/781 [31:18<00:50,  3.15s/it]

tensor(3.9092, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 11%|████████▌                                                                        | 83/781 [03:23<28:28,  2.45s/it]

loss =  

 11%|████████▋                                                                        | 84/781 [03:28<36:33,  3.15s/it]

tensor(3.7701, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


 23%|██████████████████▋                                                             | 183/781 [07:28<24:21,  2.44s/it]

loss =  

 24%|██████████████████▊                                                             | 184/781 [07:33<31:17,  3.14s/it]

tensor(3.9063, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 36%|████████████████████████████▉                                                   | 283/781 [11:33<20:17,  2.45s/it]

loss =  

 36%|█████████████████████████████                                                   | 284/781 [11:38<26:04,  3.15s/it]

tensor(3.8315, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 49%|███████████████████████████████████████▏                                        | 383/781 [15:39<16:14,  2.45s/it]

loss =  

 49%|███████████████████████████████████████▎                                        | 384/781 [15:43<20:53,  3.16s/it]

tensor(3.9594, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 62%|█████████████████████████████████████████████████▍                              | 483/781 [19:44<12:08,  2.44s/it]

loss =  

 62%|█████████████████████████████████████████████████▌                              | 484/781 [19:49<15:36,  3.15s/it]

tensor(3.8445, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.8750, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


 75%|███████████████████████████████████████████████████████████▋                    | 583/781 [23:49<08:06,  2.46s/it]

loss =  

 75%|███████████████████████████████████████████████████████████▊                    | 584/781 [23:54<10:21,  3.16s/it]

tensor(3.9592, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▉          | 683/781 [27:54<03:59,  2.45s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████          | 684/781 [27:59<05:06,  3.16s/it]

tensor(3.8115, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  0%|▏                                                                                 | 2/781 [00:04<32:00,  2.47s/it]

loss =  

  0%|▎                                                                                 | 3/781 [00:09<45:42,  3.53s/it]

tensor(3.6995, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(56.2500, device='cuda:0')


 13%|██████████▍                                                                     | 102/781 [04:10<27:48,  2.46s/it]

loss =  

 13%|██████████▌                                                                     | 103/781 [04:15<35:43,  3.16s/it]

tensor(3.9987, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 26%|████████████████████▋                                                           | 202/781 [08:15<23:45,  2.46s/it]

loss =  

 26%|████████████████████▊                                                           | 203/781 [08:20<30:23,  3.15s/it]

tensor(3.8453, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 39%|██████████████████████████████▉                                                 | 302/781 [12:20<19:36,  2.46s/it]

loss =  

 39%|███████████████████████████████                                                 | 303/781 [12:25<25:06,  3.15s/it]

tensor(3.9228, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 51%|█████████████████████████████████████████▏                                      | 402/781 [16:26<15:27,  2.45s/it]

loss =  

 52%|█████████████████████████████████████████▎                                      | 403/781 [16:30<19:49,  3.15s/it]

tensor(3.9302, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 64%|███████████████████████████████████████████████████▍                            | 502/781 [20:31<11:22,  2.44s/it]

loss =  

 64%|███████████████████████████████████████████████████▌                            | 503/781 [20:36<14:36,  3.15s/it]

tensor(3.9600, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▋                  | 602/781 [24:36<07:17,  2.45s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▊                  | 603/781 [24:41<09:20,  3.15s/it]

tensor(3.9013, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 90%|███████████████████████████████████████████████████████████████████████▉        | 702/781 [28:41<03:12,  2.44s/it]

loss =  

 90%|████████████████████████████████████████████████████████████████████████        | 703/781 [28:46<04:05,  3.15s/it]

tensor(3.8241, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  3%|██▏                                                                              | 21/781 [00:51<31:00,  2.45s/it]

loss =  

  3%|██▎                                                                              | 22/781 [00:56<39:45,  3.14s/it]

tensor(3.8860, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 15%|████████████▍                                                                   | 121/781 [04:56<26:52,  2.44s/it]

loss =  

 16%|████████████▍                                                                   | 122/781 [05:01<34:32,  3.15s/it]

tensor(3.8162, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 28%|██████████████████████▋                                                         | 221/781 [09:02<22:52,  2.45s/it]

loss =  

 28%|██████████████████████▋                                                         | 222/781 [09:06<29:19,  3.15s/it]

tensor(3.9302, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 41%|████████████████████████████████▉                                               | 321/781 [13:07<18:45,  2.45s/it]

loss =  

 41%|████████████████████████████████▉                                               | 322/781 [13:12<24:12,  3.16s/it]

tensor(3.9297, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 54%|███████████████████████████████████████████                                     | 421/781 [17:12<14:41,  2.45s/it]

loss =  

 54%|███████████████████████████████████████████▏                                    | 422/781 [17:17<18:54,  3.16s/it]

tensor(3.8109, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 67%|█████████████████████████████████████████████████████▎                          | 521/781 [21:18<10:38,  2.45s/it]

loss =  

 67%|█████████████████████████████████████████████████████▍                          | 522/781 [21:22<13:39,  3.16s/it]

tensor(3.8578, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 80%|███████████████████████████████████████████████████████████████▌                | 621/781 [25:23<06:32,  2.45s/it]

loss =  

 80%|███████████████████████████████████████████████████████████████▋                | 622/781 [25:28<08:20,  3.15s/it]

tensor(4.0361, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.8750, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▊      | 721/781 [29:28<02:27,  2.45s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▉      | 722/781 [29:33<03:05,  3.15s/it]

tensor(3.8820, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  5%|████▏                                                                            | 40/781 [01:38<30:11,  2.45s/it]

loss =  

  5%|████▎                                                                            | 41/781 [01:42<38:41,  3.14s/it]

tensor(3.8084, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 18%|██████████████▎                                                                 | 140/781 [05:43<26:10,  2.45s/it]

loss =  

 18%|██████████████▍                                                                 | 141/781 [05:48<33:37,  3.15s/it]

tensor(3.8548, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 31%|████████████████████████▌                                                       | 240/781 [09:48<22:06,  2.45s/it]

loss =  

 31%|████████████████████████▋                                                       | 241/781 [09:53<28:20,  3.15s/it]

tensor(3.9005, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 44%|██████████████████████████████████▊                                             | 340/781 [13:54<18:01,  2.45s/it]

loss =  

 44%|██████████████████████████████████▉                                             | 341/781 [13:58<23:10,  3.16s/it]

tensor(3.9625, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 56%|█████████████████████████████████████████████                                   | 440/781 [17:59<13:55,  2.45s/it]

loss =  

 56%|█████████████████████████████████████████████▏                                  | 441/781 [18:04<17:49,  3.15s/it]

tensor(3.8331, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 69%|███████████████████████████████████████████████████████▎                        | 540/781 [22:04<09:53,  2.46s/it]

loss =  

 69%|███████████████████████████████████████████████████████▍                        | 541/781 [22:09<12:38,  3.16s/it]

tensor(3.9960, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(26.5625, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▌              | 640/781 [26:10<05:46,  2.45s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▋              | 641/781 [26:15<07:22,  3.16s/it]

tensor(3.8786, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 95%|███████████████████████████████████████████████████████████████████████████▊    | 740/781 [30:15<01:40,  2.44s/it]

loss =  

 95%|███████████████████████████████████████████████████████████████████████████▉    | 741/781 [30:20<02:06,  3.16s/it]

tensor(3.9042, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
  8%|██████                                                                           | 59/781 [02:24<29:29,  2.45s/it]

loss =  

  8%|██████▏                                                                          | 60/781 [02:29<37:46,  3.14s/it]

tensor(3.9297, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 20%|████████████████▎                                                               | 159/781 [06:29<25:24,  2.45s/it]

loss =  

 20%|████████████████▍                                                               | 160/781 [06:34<32:38,  3.15s/it]

tensor(3.8462, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 33%|██████████████████████████▌                                                     | 259/781 [10:34<21:17,  2.45s/it]

loss =  

 33%|██████████████████████████▋                                                     | 260/781 [10:39<27:18,  3.14s/it]

tensor(3.9771, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 46%|████████████████████████████████████▊                                           | 359/781 [14:39<17:14,  2.45s/it]

loss =  

 46%|████████████████████████████████████▉                                           | 360/781 [14:44<22:06,  3.15s/it]

tensor(3.7534, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 59%|███████████████████████████████████████████████                                 | 459/781 [18:45<13:13,  2.46s/it]

loss =  

 59%|███████████████████████████████████████████████                                 | 460/781 [18:49<16:56,  3.17s/it]

tensor(3.8892, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▎                      | 559/781 [22:50<09:04,  2.45s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▎                      | 560/781 [22:55<11:37,  3.16s/it]

tensor(3.9034, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 84%|███████████████████████████████████████████████████████████████████▌            | 659/781 [26:56<04:58,  2.45s/it]

loss =  

 85%|███████████████████████████████████████████████████████████████████▌            | 660/781 [27:00<06:20,  3.14s/it]

tensor(3.7965, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 759/781 [31:01<00:53,  2.45s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▊  | 760/781 [31:05<01:06,  3.15s/it]

tensor(3.8452, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 10%|████████                                                                         | 78/781 [03:11<28:38,  2.45s/it]

loss =  

 10%|████████▏                                                                        | 79/781 [03:15<36:49,  3.15s/it]

tensor(3.8249, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 23%|██████████████████▏                                                             | 178/781 [07:16<24:34,  2.45s/it]

loss =  

 23%|██████████████████▎                                                             | 179/781 [07:21<31:36,  3.15s/it]

tensor(3.8985, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 36%|████████████████████████████▍                                                   | 278/781 [11:21<20:28,  2.44s/it]

loss =  

 36%|████████████████████████████▌                                                   | 279/781 [11:26<26:20,  3.15s/it]

tensor(3.8278, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 48%|██████████████████████████████████████▋                                         | 378/781 [15:26<16:29,  2.45s/it]

loss =  

 49%|██████████████████████████████████████▊                                         | 379/781 [15:31<21:07,  3.15s/it]

tensor(3.8122, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 61%|████████████████████████████████████████████████▉                               | 478/781 [19:31<12:20,  2.45s/it]

loss =  

 61%|█████████████████████████████████████████████████                               | 479/781 [19:36<15:49,  3.14s/it]

tensor(3.9033, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 74%|███████████████████████████████████████████████████████████▏                    | 578/781 [23:37<08:17,  2.45s/it]

loss =  

 74%|███████████████████████████████████████████████████████████▎                    | 579/781 [23:41<10:36,  3.15s/it]

tensor(3.9078, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▍          | 678/781 [27:42<04:12,  2.45s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▌          | 679/781 [27:47<05:21,  3.15s/it]

tensor(3.9136, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


100%|███████████████████████████████████████████████████████████████████████████████▋| 778/781 [31:47<00:07,  2.44s/it]

loss =  

100%|███████████████████████████████████████████████████████████████████████████████▊| 779/781 [31:52<00:06,  3.15s/it]

tensor(3.8448, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
 12%|██████████                                                                       | 97/781 [03:57<27:55,  2.45s/it]

loss =  

 13%|██████████▏                                                                      | 98/781 [04:02<35:53,  3.15s/it]

tensor(3.8191, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 25%|████████████████████▏                                                           | 197/781 [08:02<23:53,  2.45s/it]

loss =  

 25%|████████████████████▎                                                           | 198/781 [08:07<30:42,  3.16s/it]

tensor(3.8830, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.8750, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 38%|██████████████████████████████▍                                                 | 297/781 [12:08<19:45,  2.45s/it]

loss =  

 38%|██████████████████████████████▌                                                 | 298/781 [12:13<25:25,  3.16s/it]

tensor(3.8852, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 51%|████████████████████████████████████████▋                                       | 397/781 [16:13<15:41,  2.45s/it]

loss =  

 51%|████████████████████████████████████████▊                                       | 398/781 [16:18<20:09,  3.16s/it]

tensor(3.8897, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 64%|██████████████████████████████████████████████████▉                             | 497/781 [20:18<11:37,  2.46s/it]

loss =  

 64%|███████████████████████████████████████████████████                             | 498/781 [20:23<14:54,  3.16s/it]

tensor(3.7833, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


 76%|█████████████████████████████████████████████████████████████▏                  | 597/781 [24:23<07:30,  2.45s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▎                  | 598/781 [24:28<09:36,  3.15s/it]

tensor(4.0313, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 89%|███████████████████████████████████████████████████████████████████████▍        | 697/781 [28:29<03:25,  2.44s/it]

loss =  

 89%|███████████████████████████████████████████████████████████████████████▍        | 698/781 [28:33<04:21,  3.15s/it]

tensor(3.8546, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  2%|█▋                                                                               | 16/781 [00:39<31:11,  2.45s/it]

loss =  

  2%|█▊                                                                               | 17/781 [00:43<40:06,  3.15s/it]

tensor(3.7456, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 15%|███████████▉                                                                    | 116/781 [04:44<27:08,  2.45s/it]

loss =  

 15%|███████████▉                                                                    | 117/781 [04:49<34:51,  3.15s/it]

tensor(3.8410, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.8750, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 28%|██████████████████████▏                                                         | 216/781 [08:49<23:05,  2.45s/it]

loss =  

 28%|██████████████████████▏                                                         | 217/781 [08:54<29:43,  3.16s/it]

tensor(3.8881, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 40%|████████████████████████████████▎                                               | 316/781 [12:54<18:57,  2.45s/it]

loss =  

 41%|████████████████████████████████▍                                               | 317/781 [12:59<24:21,  3.15s/it]

tensor(3.8890, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 53%|██████████████████████████████████████████▌                                     | 416/781 [17:00<14:51,  2.44s/it]

loss =  

 53%|██████████████████████████████████████████▋                                     | 417/781 [17:04<19:06,  3.15s/it]

tensor(3.8836, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 66%|████████████████████████████████████████████████████▊                           | 516/781 [21:05<10:47,  2.44s/it]

loss =  

 66%|████████████████████████████████████████████████████▉                           | 517/781 [21:10<13:50,  3.15s/it]

tensor(3.9123, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 79%|███████████████████████████████████████████████████████████████                 | 616/781 [25:10<06:43,  2.45s/it]

loss =  

 79%|███████████████████████████████████████████████████████████████▏                | 617/781 [25:15<08:36,  3.15s/it]

tensor(3.8578, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▎      | 716/781 [29:15<02:39,  2.45s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▍      | 717/781 [29:20<03:21,  3.15s/it]

tensor(3.9020, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  4%|███▋                                                                             | 35/781 [01:25<30:37,  2.46s/it]

loss =  

  5%|███▋                                                                             | 36/781 [01:30<39:11,  3.16s/it]

tensor(3.9816, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 17%|█████████████▊                                                                  | 135/781 [05:31<26:25,  2.45s/it]

loss =  

 17%|█████████████▉                                                                  | 136/781 [05:35<33:54,  3.15s/it]

tensor(3.7696, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 30%|████████████████████████                                                        | 235/781 [09:36<22:18,  2.45s/it]

loss =  

 30%|████████████████████████▏                                                       | 236/781 [09:41<28:47,  3.17s/it]

tensor(3.8805, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 43%|██████████████████████████████████▎                                             | 335/781 [13:41<18:14,  2.45s/it]

loss =  

 43%|██████████████████████████████████▍                                             | 336/781 [13:46<23:22,  3.15s/it]

tensor(3.9386, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 56%|████████████████████████████████████████████▌                                   | 435/781 [17:46<14:07,  2.45s/it]

loss =  

 56%|████████████████████████████████████████████▋                                   | 436/781 [17:51<18:07,  3.15s/it]

tensor(3.9047, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 69%|██████████████████████████████████████████████████████▊                         | 535/781 [21:52<10:05,  2.46s/it]

loss =  

 69%|██████████████████████████████████████████████████████▉                         | 536/781 [21:56<12:53,  3.16s/it]

tensor(3.8532, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 81%|█████████████████████████████████████████████████████████████████               | 635/781 [25:57<05:57,  2.45s/it]

loss =  

 81%|█████████████████████████████████████████████████████████████████▏              | 636/781 [26:02<07:38,  3.16s/it]

tensor(3.9560, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 94%|███████████████████████████████████████████████████████████████████████████▎    | 735/781 [30:02<01:52,  2.45s/it]

loss =  

 94%|███████████████████████████████████████████████████████████████████████████▍    | 736/781 [30:07<02:21,  3.15s/it]

tensor(3.8409, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  7%|█████▌                                                                           | 54/781 [02:12<29:38,  2.45s/it]

loss =  

  7%|█████▋                                                                           | 55/781 [02:17<38:13,  3.16s/it]

tensor(3.8255, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(26.5625, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 20%|███████████████▊                                                                | 154/781 [06:17<25:34,  2.45s/it]

loss =  

 20%|███████████████▉                                                                | 155/781 [06:22<32:55,  3.16s/it]

tensor(3.8801, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 33%|██████████████████████████                                                      | 254/781 [10:23<21:30,  2.45s/it]

loss =  

 33%|██████████████████████████                                                      | 255/781 [10:27<27:38,  3.15s/it]

tensor(3.8212, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 45%|████████████████████████████████████▎                                           | 354/781 [14:28<17:28,  2.45s/it]

loss =  

 45%|████████████████████████████████████▎                                           | 355/781 [14:33<22:22,  3.15s/it]

tensor(3.9940, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 58%|██████████████████████████████████████████████▌                                 | 454/781 [18:33<13:18,  2.44s/it]

loss =  

 58%|██████████████████████████████████████████████▌                                 | 455/781 [18:38<17:06,  3.15s/it]

tensor(3.7811, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 71%|████████████████████████████████████████████████████████▋                       | 554/781 [22:38<09:14,  2.44s/it]

loss =  

 71%|████████████████████████████████████████████████████████▊                       | 555/781 [22:43<11:49,  3.14s/it]

tensor(4.0094, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 84%|██████████████████████████████████████████████████████████████████▉             | 654/781 [26:43<05:10,  2.44s/it]

loss =  

 84%|███████████████████████████████████████████████████████████████████             | 655/781 [26:48<06:36,  3.15s/it]

tensor(3.9188, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▏  | 754/781 [30:49<01:06,  2.44s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▎  | 755/781 [30:53<01:22,  3.16s/it]

tensor(3.8913, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  9%|███████▌                                                                         | 73/781 [02:58<28:47,  2.44s/it]

loss =  

  9%|███████▋                                                                         | 74/781 [03:03<37:13,  3.16s/it]

tensor(3.8030, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 22%|█████████████████▋                                                              | 173/781 [07:03<24:53,  2.46s/it]

loss =  

 22%|█████████████████▊                                                              | 174/781 [07:08<31:55,  3.16s/it]

tensor(3.8431, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 35%|███████████████████████████▉                                                    | 273/781 [11:09<20:46,  2.45s/it]

loss =  

 35%|████████████████████████████                                                    | 274/781 [11:14<26:37,  3.15s/it]

tensor(3.7631, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(55.4688, device='cuda:0')


 48%|██████████████████████████████████████▏                                         | 373/781 [15:14<16:41,  2.46s/it]

loss =  

 48%|██████████████████████████████████████▎                                         | 374/781 [15:19<21:26,  3.16s/it]

tensor(3.8206, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 61%|████████████████████████████████████████████████▍                               | 473/781 [19:19<12:34,  2.45s/it]

loss =  

 61%|████████████████████████████████████████████████▌                               | 474/781 [19:24<16:07,  3.15s/it]

tensor(3.9464, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 73%|██████████████████████████████████████████████████████████▋                     | 573/781 [23:25<08:28,  2.44s/it]

loss =  

 73%|██████████████████████████████████████████████████████████▊                     | 574/781 [23:30<10:53,  3.16s/it]

tensor(3.8739, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 86%|████████████████████████████████████████████████████████████████████▉           | 673/781 [27:30<04:24,  2.45s/it]

loss =  

 86%|█████████████████████████████████████████████████████████████████████           | 674/781 [27:35<05:37,  3.15s/it]

tensor(3.8886, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 99%|███████████████████████████████████████████████████████████████████████████████▏| 773/781 [31:36<00:19,  2.45s/it]

loss =  

 99%|███████████████████████████████████████████████████████████████████████████████▎| 774/781 [31:40<00:22,  3.15s/it]

tensor(3.8493, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 12%|█████████▌                                                                       | 92/781 [03:45<28:06,  2.45s/it]

loss =  

 12%|█████████▋                                                                       | 93/781 [03:50<36:09,  3.15s/it]

tensor(3.7883, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 25%|███████████████████▋                                                            | 192/781 [07:50<24:02,  2.45s/it]

loss =  

 25%|███████████████████▊                                                            | 193/781 [07:55<30:52,  3.15s/it]

tensor(3.7997, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 37%|█████████████████████████████▉                                                  | 292/781 [11:55<19:56,  2.45s/it]

loss =  

 38%|██████████████████████████████                                                  | 293/781 [12:00<25:41,  3.16s/it]

tensor(3.9699, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 50%|████████████████████████████████████████▏                                       | 392/781 [16:00<15:52,  2.45s/it]

loss =  

 50%|████████████████████████████████████████▎                                       | 393/781 [16:05<20:21,  3.15s/it]

tensor(3.8648, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 63%|██████████████████████████████████████████████████▍                             | 492/781 [20:06<11:49,  2.46s/it]

loss =  

 63%|██████████████████████████████████████████████████▍                             | 493/781 [20:11<15:09,  3.16s/it]

tensor(3.8965, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 76%|████████████████████████████████████████████████████████████▋                   | 592/781 [24:11<07:45,  2.46s/it]

loss =  

 76%|████████████████████████████████████████████████████████████▋                   | 593/781 [24:16<09:54,  3.16s/it]

tensor(3.9784, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 89%|██████████████████████████████████████████████████████████████████████▉         | 692/781 [28:16<03:39,  2.46s/it]

loss =  

 89%|██████████████████████████████████████████████████████████████████████▉         | 693/781 [28:21<04:38,  3.17s/it]

tensor(3.8420, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  1%|█▏                                                                               | 11/781 [00:27<31:39,  2.47s/it]

loss =  

  2%|█▏                                                                               | 12/781 [00:31<40:43,  3.18s/it]

tensor(3.8940, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 14%|███████████▎                                                                    | 111/781 [04:32<27:20,  2.45s/it]

loss =  

 14%|███████████▍                                                                    | 112/781 [04:37<35:07,  3.15s/it]

tensor(3.9347, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 27%|█████████████████████▌                                                          | 211/781 [08:37<23:16,  2.45s/it]

loss =  

 27%|█████████████████████▋                                                          | 212/781 [08:42<29:52,  3.15s/it]

tensor(3.7580, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(54.6875, device='cuda:0')


 40%|███████████████████████████████▊                                                | 311/781 [12:43<19:11,  2.45s/it]

loss =  

 40%|███████████████████████████████▉                                                | 312/781 [12:47<24:43,  3.16s/it]

tensor(3.8911, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 53%|██████████████████████████████████████████                                      | 411/781 [16:48<15:04,  2.45s/it]

loss =  

 53%|██████████████████████████████████████████▏                                     | 412/781 [16:53<19:21,  3.15s/it]

tensor(3.9517, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 65%|████████████████████████████████████████████████████▎                           | 511/781 [20:53<11:00,  2.45s/it]

loss =  

 66%|████████████████████████████████████████████████████▍                           | 512/781 [20:58<14:08,  3.15s/it]

tensor(3.7950, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████▌                 | 611/781 [24:58<06:56,  2.45s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████▋                 | 612/781 [25:03<08:51,  3.14s/it]

tensor(3.9161, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 91%|████████████████████████████████████████████████████████████████████████▊       | 711/781 [29:04<02:52,  2.46s/it]

loss =  

 91%|████████████████████████████████████████████████████████████████████████▉       | 712/781 [29:09<03:38,  3.16s/it]

tensor(3.7738, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  4%|███                                                                              | 30/781 [01:13<30:43,  2.45s/it]

loss =  

  4%|███▏                                                                             | 31/781 [01:18<39:24,  3.15s/it]

tensor(3.8836, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 17%|█████████████▎                                                                  | 130/781 [05:18<26:32,  2.45s/it]

loss =  

 17%|█████████████▍                                                                  | 131/781 [05:23<34:13,  3.16s/it]

tensor(3.8508, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 29%|███████████████████████▌                                                        | 230/781 [09:24<22:33,  2.46s/it]

loss =  

 30%|███████████████████████▋                                                        | 231/781 [09:28<28:58,  3.16s/it]

tensor(3.7257, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 42%|█████████████████████████████████▊                                              | 330/781 [13:29<18:26,  2.45s/it]

loss =  

 42%|█████████████████████████████████▉                                              | 331/781 [13:34<23:41,  3.16s/it]

tensor(3.8908, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 55%|████████████████████████████████████████████                                    | 430/781 [17:34<14:18,  2.45s/it]

loss =  

 55%|████████████████████████████████████████████▏                                   | 431/781 [17:39<18:21,  3.15s/it]

tensor(4.0217, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(30.4688, device='cuda:0')


 68%|██████████████████████████████████████████████████████▎                         | 530/781 [21:40<10:14,  2.45s/it]

loss =  

 68%|██████████████████████████████████████████████████████▍                         | 531/781 [21:44<13:11,  3.17s/it]

tensor(3.8439, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 81%|████████████████████████████████████████████████████████████████▌               | 630/781 [25:45<06:09,  2.45s/it]

loss =  

 81%|████████████████████████████████████████████████████████████████▋               | 631/781 [25:50<07:51,  3.14s/it]

tensor(3.9646, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████▊     | 730/781 [29:50<02:04,  2.45s/it]

loss =  

 94%|██████████████████████████████████████████████████████████████████████████▉     | 731/781 [29:55<02:37,  3.15s/it]

tensor(3.8208, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  6%|█████                                                                            | 49/781 [02:00<29:54,  2.45s/it]

loss =  

  6%|█████▏                                                                           | 50/781 [02:04<38:27,  3.16s/it]

tensor(3.8476, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


 19%|███████████████▎                                                                | 149/781 [06:05<25:45,  2.45s/it]

loss =  

 19%|███████████████▎                                                                | 150/781 [06:10<33:10,  3.15s/it]

tensor(3.9508, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(5.4688, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 32%|█████████████████████████▌                                                      | 249/781 [10:10<21:43,  2.45s/it]

loss =  

 32%|█████████████████████████▌                                                      | 250/781 [10:15<27:57,  3.16s/it]

tensor(3.8593, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 45%|███████████████████████████████████▋                                            | 349/781 [14:15<17:42,  2.46s/it]

loss =  

 45%|███████████████████████████████████▊                                            | 350/781 [14:20<22:42,  3.16s/it]

tensor(3.8076, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 57%|█████████████████████████████████████████████▉                                  | 449/781 [18:21<13:33,  2.45s/it]

loss =  

 58%|██████████████████████████████████████████████                                  | 450/781 [18:26<17:21,  3.15s/it]

tensor(3.7740, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(57.0312, device='cuda:0')


 70%|████████████████████████████████████████████████████████▏                       | 549/781 [22:26<09:29,  2.46s/it]

loss =  

 70%|████████████████████████████████████████████████████████▎                       | 550/781 [22:31<12:11,  3.17s/it]

tensor(3.7952, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████▍             | 649/781 [26:31<05:24,  2.46s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████▌             | 650/781 [26:36<06:53,  3.16s/it]

tensor(3.8119, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


 96%|████████████████████████████████████████████████████████████████████████████▋   | 749/781 [30:37<01:19,  2.48s/it]

loss =  

 96%|████████████████████████████████████████████████████████████████████████████▊   | 750/781 [30:41<01:38,  3.18s/it]

tensor(3.9156, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  9%|███████                                                                          | 68/781 [02:46<29:05,  2.45s/it]

loss =  

  9%|███████▏                                                                         | 69/781 [02:51<37:18,  3.14s/it]

tensor(3.8543, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 22%|█████████████████▏                                                              | 168/781 [06:51<25:00,  2.45s/it]

loss =  

 22%|█████████████████▎                                                              | 169/781 [06:56<32:14,  3.16s/it]

tensor(3.9210, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 34%|███████████████████████████▍                                                    | 268/781 [10:56<21:02,  2.46s/it]

loss =  

 34%|███████████████████████████▌                                                    | 269/781 [11:01<26:56,  3.16s/it]

tensor(3.8075, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 47%|█████████████████████████████████████▋                                          | 368/781 [15:01<16:47,  2.44s/it]

loss =  

 47%|█████████████████████████████████████▊                                          | 369/781 [15:06<21:38,  3.15s/it]

tensor(3.9725, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 60%|███████████████████████████████████████████████▉                                | 468/781 [19:07<12:46,  2.45s/it]

loss =  

 60%|████████████████████████████████████████████████                                | 469/781 [19:11<16:25,  3.16s/it]

tensor(3.9059, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 73%|██████████████████████████████████████████████████████████▏                     | 568/781 [23:12<08:40,  2.44s/it]

loss =  

 73%|██████████████████████████████████████████████████████████▎                     | 569/781 [23:17<11:07,  3.15s/it]

tensor(3.9644, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 86%|████████████████████████████████████████████████████████████████████▍           | 668/781 [27:17<04:36,  2.45s/it]

loss =  

 86%|████████████████████████████████████████████████████████████████████▌           | 669/781 [27:22<05:54,  3.16s/it]

tensor(3.8051, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(57.0312, device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████▋ | 768/781 [31:22<00:31,  2.45s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████▊ | 769/781 [31:27<00:37,  3.15s/it]

tensor(3.8636, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
 11%|█████████                                                                        | 87/781 [03:33<28:15,  2.44s/it]

loss =  

 11%|█████████▏                                                                       | 88/781 [03:38<36:18,  3.14s/it]

tensor(3.8344, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 24%|███████████████████▏                                                            | 187/781 [07:38<24:10,  2.44s/it]

loss =  

 24%|███████████████████▎                                                            | 188/781 [07:43<31:11,  3.16s/it]

tensor(3.9845, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 37%|█████████████████████████████▍                                                  | 287/781 [11:43<20:07,  2.44s/it]

loss =  

 37%|█████████████████████████████▌                                                  | 288/781 [11:48<25:53,  3.15s/it]

tensor(3.8333, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(24.2188, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 50%|███████████████████████████████████████▋                                        | 387/781 [15:48<16:04,  2.45s/it]

loss =  

 50%|███████████████████████████████████████▋                                        | 388/781 [15:53<20:36,  3.15s/it]

tensor(3.7193, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 62%|█████████████████████████████████████████████████▉                              | 487/781 [19:54<11:58,  2.45s/it]

loss =  

 62%|█████████████████████████████████████████████████▉                              | 488/781 [19:59<15:21,  3.15s/it]

tensor(3.8489, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 75%|████████████████████████████████████████████████████████████▏                   | 587/781 [23:59<07:54,  2.45s/it]

loss =  

 75%|████████████████████████████████████████████████████████████▏                   | 588/781 [24:04<10:10,  3.16s/it]

tensor(3.9341, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████▎         | 687/781 [28:04<03:50,  2.45s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████▍         | 688/781 [28:09<04:52,  3.15s/it]

tensor(3.8937, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  1%|▋                                                                                 | 6/781 [00:14<31:34,  2.44s/it]

loss =  

  1%|▋                                                                                 | 7/781 [00:19<41:36,  3.23s/it]

tensor(3.8475, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 14%|██████████▊                                                                     | 106/781 [04:20<27:33,  2.45s/it]

loss =  

 14%|██████████▉                                                                     | 107/781 [04:24<35:29,  3.16s/it]

tensor(3.9493, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 26%|█████████████████████                                                           | 206/781 [08:25<23:28,  2.45s/it]

loss =  

 27%|█████████████████████▏                                                          | 207/781 [08:29<30:15,  3.16s/it]

tensor(3.9427, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 39%|███████████████████████████████▎                                                | 306/781 [12:30<19:21,  2.45s/it]

loss =  

 39%|███████████████████████████████▍                                                | 307/781 [12:35<24:49,  3.14s/it]

tensor(3.8128, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 52%|█████████████████████████████████████████▌                                      | 406/781 [16:35<15:19,  2.45s/it]

loss =  

 52%|█████████████████████████████████████████▋                                      | 407/781 [16:40<19:41,  3.16s/it]

tensor(3.8398, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 65%|███████████████████████████████████████████████████▊                            | 506/781 [20:40<11:13,  2.45s/it]

loss =  

 65%|███████████████████████████████████████████████████▉                            | 507/781 [20:45<14:23,  3.15s/it]

tensor(3.7621, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████                  | 606/781 [24:46<07:08,  2.45s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████▏                 | 607/781 [24:50<09:08,  3.15s/it]

tensor(4.0100, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 90%|████████████████████████████████████████████████████████████████████████▎       | 706/781 [28:51<03:04,  2.45s/it]

loss =  

 91%|████████████████████████████████████████████████████████████████████████▍       | 707/781 [28:56<03:53,  3.15s/it]

tensor(3.9022, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  3%|██▌                                                                              | 25/781 [01:01<30:53,  2.45s/it]

loss =  

  3%|██▋                                                                              | 26/781 [01:06<39:42,  3.16s/it]

tensor(3.9650, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 16%|████████████▊                                                                   | 125/781 [05:06<26:43,  2.44s/it]

loss =  

 16%|████████████▉                                                                   | 126/781 [05:11<34:20,  3.15s/it]

tensor(3.7838, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(24.2188, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 29%|███████████████████████                                                         | 225/781 [09:11<22:40,  2.45s/it]

loss =  

 29%|███████████████████████▏                                                        | 226/781 [09:16<29:08,  3.15s/it]

tensor(3.9019, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 42%|█████████████████████████████████▎                                              | 325/781 [13:16<18:35,  2.45s/it]

loss =  

 42%|█████████████████████████████████▍                                              | 326/781 [13:21<23:52,  3.15s/it]

tensor(3.9393, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 54%|███████████████████████████████████████████▌                                    | 425/781 [17:22<14:30,  2.44s/it]

loss =  

 55%|███████████████████████████████████████████▋                                    | 426/781 [17:26<18:39,  3.15s/it]

tensor(3.9356, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 67%|█████████████████████████████████████████████████████▊                          | 525/781 [21:27<10:28,  2.46s/it]

loss =  

 67%|█████████████████████████████████████████████████████▉                          | 526/781 [21:32<13:22,  3.15s/it]

tensor(3.9685, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 80%|████████████████████████████████████████████████████████████████                | 625/781 [25:32<06:22,  2.45s/it]

loss =  

 80%|████████████████████████████████████████████████████████████████                | 626/781 [25:37<08:09,  3.16s/it]

tensor(3.9515, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████▎     | 725/781 [29:37<02:16,  2.44s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████▎     | 726/781 [29:42<02:53,  3.15s/it]

tensor(3.8099, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  6%|████▌                                                                            | 44/781 [01:47<30:10,  2.46s/it]

loss =  

  6%|████▋                                                                            | 45/781 [01:52<38:43,  3.16s/it]

tensor(3.7673, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 18%|██████████████▊                                                                 | 144/781 [05:52<25:58,  2.45s/it]

loss =  

 19%|██████████████▊                                                                 | 145/781 [05:57<33:18,  3.14s/it]

tensor(3.9088, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 31%|████████████████████████▉                                                       | 244/781 [09:58<21:52,  2.44s/it]

loss =  

 31%|█████████████████████████                                                       | 245/781 [10:03<28:11,  3.16s/it]

tensor(3.8262, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 44%|███████████████████████████████████▏                                            | 344/781 [14:03<17:51,  2.45s/it]

loss =  

 44%|███████████████████████████████████▎                                            | 345/781 [14:08<22:53,  3.15s/it]

tensor(3.7921, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 57%|█████████████████████████████████████████████▍                                  | 444/781 [18:08<13:47,  2.45s/it]

loss =  

 57%|█████████████████████████████████████████████▌                                  | 445/781 [18:13<17:39,  3.15s/it]

tensor(3.9241, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 70%|███████████████████████████████████████████████████████▋                        | 544/781 [22:13<09:41,  2.45s/it]

loss =  

 70%|███████████████████████████████████████████████████████▊                        | 545/781 [22:18<12:23,  3.15s/it]

tensor(3.8254, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▉              | 644/781 [26:18<05:36,  2.46s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████              | 645/781 [26:23<07:10,  3.17s/it]

tensor(3.7741, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(25., device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 95%|████████████████████████████████████████████████████████████████████████████▏   | 744/781 [30:23<01:30,  2.46s/it]

loss =  

 95%|████████████████████████████████████████████████████████████████████████████▎   | 745/781 [30:28<01:54,  3.17s/it]

tensor(3.8923, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  8%|██████▌                                                                          | 63/781 [02:34<29:19,  2.45s/it]

loss =  

  8%|██████▋                                                                          | 64/781 [02:39<37:50,  3.17s/it]

tensor(3.8294, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 21%|████████████████▋                                                               | 163/781 [06:39<25:11,  2.45s/it]

loss =  

 21%|████████████████▊                                                               | 164/781 [06:44<32:28,  3.16s/it]

tensor(3.8693, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 34%|██████████████████████████▉                                                     | 263/781 [10:44<21:07,  2.45s/it]

loss =  

 34%|███████████████████████████                                                     | 264/781 [10:49<27:09,  3.15s/it]

tensor(3.9680, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 46%|█████████████████████████████████████▏                                          | 363/781 [14:49<17:05,  2.45s/it]

loss =  

 47%|█████████████████████████████████████▎                                          | 364/781 [14:54<21:50,  3.14s/it]

tensor(3.9349, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 59%|███████████████████████████████████████████████▍                                | 463/781 [18:54<13:00,  2.46s/it]

loss =  

 59%|███████████████████████████████████████████████▌                                | 464/781 [18:59<16:42,  3.16s/it]

tensor(3.8189, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(25., device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▋                      | 563/781 [22:59<08:54,  2.45s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▊                      | 564/781 [23:04<11:26,  3.16s/it]

tensor(3.9052, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


 85%|███████████████████████████████████████████████████████████████████▉            | 663/781 [27:05<04:50,  2.46s/it]

loss =  

 85%|████████████████████████████████████████████████████████████████████            | 664/781 [27:09<06:11,  3.17s/it]

tensor(3.8961, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████▏ | 763/781 [31:10<00:44,  2.45s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████▎ | 764/781 [31:15<00:53,  3.15s/it]

tensor(3.9557, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
 10%|████████▌                                                                        | 82/781 [03:20<28:35,  2.45s/it]

loss =  

 11%|████████▌                                                                        | 83/781 [03:25<36:43,  3.16s/it]

tensor(3.8733, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 23%|██████████████████▋                                                             | 182/781 [07:25<24:23,  2.44s/it]

loss =  

 23%|██████████████████▋                                                             | 183/781 [07:30<31:20,  3.14s/it]

tensor(3.9791, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 36%|████████████████████████████▉                                                   | 282/781 [11:31<20:17,  2.44s/it]

loss =  

 36%|████████████████████████████▉                                                   | 283/781 [11:35<26:07,  3.15s/it]

tensor(3.9235, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 49%|███████████████████████████████████████▏                                        | 382/781 [15:36<16:16,  2.45s/it]

loss =  

 49%|███████████████████████████████████████▏                                        | 383/781 [15:41<20:53,  3.15s/it]

tensor(3.6954, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(54.6875, device='cuda:0')


 62%|█████████████████████████████████████████████████▎                              | 482/781 [19:41<12:11,  2.45s/it]

loss =  

 62%|█████████████████████████████████████████████████▍                              | 483/781 [19:46<15:39,  3.15s/it]

tensor(4.0075, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(32.0312, device='cuda:0')


 75%|███████████████████████████████████████████████████████████▌                    | 582/781 [23:46<08:07,  2.45s/it]

loss =  

 75%|███████████████████████████████████████████████████████████▋                    | 583/781 [23:51<10:22,  3.14s/it]

tensor(4.0207, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▊          | 682/781 [27:51<04:02,  2.45s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▉          | 683/781 [27:56<05:09,  3.16s/it]

tensor(4.0084, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(4.6875, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  0%|                                                                                  | 1/781 [00:02<31:48,  2.45s/it]

loss =  

  0%|▏                                                                                 | 2/781 [00:07<49:30,  3.81s/it]

tensor(3.9260, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 13%|██████████▎                                                                     | 101/781 [04:07<27:43,  2.45s/it]

loss =  

 13%|██████████▍                                                                     | 102/781 [04:12<35:41,  3.15s/it]

tensor(3.8404, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 26%|████████████████████▌                                                           | 201/781 [08:12<23:42,  2.45s/it]

loss =  

 26%|████████████████████▋                                                           | 202/781 [08:17<30:21,  3.15s/it]

tensor(3.8936, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 39%|██████████████████████████████▊                                                 | 301/781 [12:17<19:35,  2.45s/it]

loss =  

 39%|██████████████████████████████▉                                                 | 302/781 [12:22<25:11,  3.16s/it]

tensor(3.8871, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 51%|█████████████████████████████████████████                                       | 401/781 [16:23<15:32,  2.45s/it]

loss =  

 51%|█████████████████████████████████████████▏                                      | 402/781 [16:27<19:54,  3.15s/it]

tensor(3.7414, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 64%|███████████████████████████████████████████████████▎                            | 501/781 [20:28<11:25,  2.45s/it]

loss =  

 64%|███████████████████████████████████████████████████▍                            | 502/781 [20:33<14:43,  3.17s/it]

tensor(3.8197, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▌                  | 601/781 [24:33<07:21,  2.45s/it]

loss =  

 77%|█████████████████████████████████████████████████████████████▋                  | 602/781 [24:38<09:22,  3.15s/it]

tensor(3.8357, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 90%|███████████████████████████████████████████████████████████████████████▊        | 701/781 [28:39<03:16,  2.45s/it]

loss =  

 90%|███████████████████████████████████████████████████████████████████████▉        | 702/781 [28:43<04:09,  3.16s/it]

tensor(3.9681, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  3%|██                                                                               | 20/781 [00:49<31:02,  2.45s/it]

loss =  

  3%|██▏                                                                              | 21/781 [00:53<39:55,  3.15s/it]

tensor(3.9081, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 15%|████████████▎                                                                   | 120/781 [04:54<26:56,  2.45s/it]

loss =  

 15%|████████████▍                                                                   | 121/781 [04:58<34:43,  3.16s/it]

tensor(3.7049, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(25., device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 28%|██████████████████████▌                                                         | 220/781 [08:59<22:54,  2.45s/it]

loss =  

 28%|██████████████████████▋                                                         | 221/781 [09:04<29:29,  3.16s/it]

tensor(3.8678, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 41%|████████████████████████████████▊                                               | 320/781 [13:04<18:47,  2.45s/it]

loss =  

 41%|████████████████████████████████▉                                               | 321/781 [13:09<24:07,  3.15s/it]

tensor(3.8963, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 54%|███████████████████████████████████████████                                     | 420/781 [17:09<14:43,  2.45s/it]

loss =  

 54%|███████████████████████████████████████████                                     | 421/781 [17:14<18:53,  3.15s/it]

tensor(3.8172, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 67%|█████████████████████████████████████████████████████▎                          | 520/781 [21:15<10:37,  2.44s/it]

loss =  

 67%|█████████████████████████████████████████████████████▎                          | 521/781 [21:19<13:40,  3.15s/it]

tensor(3.7619, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


 79%|███████████████████████████████████████████████████████████████▌                | 620/781 [25:20<06:35,  2.45s/it]

loss =  

 80%|███████████████████████████████████████████████████████████████▌                | 621/781 [25:25<08:24,  3.15s/it]

tensor(3.7973, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▊      | 720/781 [29:25<02:29,  2.45s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▊      | 721/781 [29:30<03:09,  3.16s/it]

tensor(3.8042, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  5%|████                                                                             | 39/781 [01:35<30:17,  2.45s/it]

loss =  

  5%|████▏                                                                            | 40/781 [01:40<38:52,  3.15s/it]

tensor(3.9287, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(34.3750, device='cuda:0')


 18%|██████████████▏                                                                 | 139/781 [05:40<26:08,  2.44s/it]

loss =  

 18%|██████████████▎                                                                 | 140/781 [05:45<33:45,  3.16s/it]

tensor(3.8029, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 31%|████████████████████████▍                                                       | 239/781 [09:45<22:08,  2.45s/it]

loss =  

 31%|████████████████████████▌                                                       | 240/781 [09:50<28:28,  3.16s/it]

tensor(3.9898, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 43%|██████████████████████████████████▋                                             | 339/781 [13:50<18:05,  2.46s/it]

loss =  

 44%|██████████████████████████████████▊                                             | 340/781 [13:55<23:10,  3.15s/it]

tensor(3.8969, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 56%|████████████████████████████████████████████▉                                   | 439/781 [17:56<13:56,  2.44s/it]

loss =  

 56%|█████████████████████████████████████████████                                   | 440/781 [18:00<17:50,  3.14s/it]

tensor(3.8299, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 69%|███████████████████████████████████████████████████████▏                        | 539/781 [22:01<09:53,  2.45s/it]

loss =  

 69%|███████████████████████████████████████████████████████▎                        | 540/781 [22:06<12:39,  3.15s/it]

tensor(3.9414, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▍              | 639/781 [26:06<05:48,  2.45s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▌              | 640/781 [26:11<07:23,  3.15s/it]

tensor(3.8322, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 95%|███████████████████████████████████████████████████████████████████████████▋    | 739/781 [30:11<01:43,  2.45s/it]

loss =  

 95%|███████████████████████████████████████████████████████████████████████████▊    | 740/781 [30:16<02:09,  3.15s/it]

tensor(3.8410, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
  7%|██████                                                                           | 58/781 [02:22<29:31,  2.45s/it]

loss =  

  8%|██████                                                                           | 59/781 [02:26<38:04,  3.16s/it]

tensor(3.7876, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 20%|████████████████▏                                                               | 158/781 [06:27<25:26,  2.45s/it]

loss =  

 20%|████████████████▎                                                               | 159/781 [06:32<32:47,  3.16s/it]

tensor(3.8364, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 33%|██████████████████████████▍                                                     | 258/781 [10:32<21:20,  2.45s/it]

loss =  

 33%|██████████████████████████▌                                                     | 259/781 [10:37<27:19,  3.14s/it]

tensor(3.7693, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 46%|████████████████████████████████████▋                                           | 358/781 [14:37<17:17,  2.45s/it]

loss =  

 46%|████████████████████████████████████▊                                           | 359/781 [14:42<22:14,  3.16s/it]

tensor(3.8273, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 59%|██████████████████████████████████████████████▉                                 | 458/781 [18:42<13:09,  2.45s/it]

loss =  

 59%|███████████████████████████████████████████████                                 | 459/781 [18:47<16:57,  3.16s/it]

tensor(3.7805, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 71%|█████████████████████████████████████████████████████████▏                      | 558/781 [22:47<09:04,  2.44s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▎                      | 559/781 [22:52<11:41,  3.16s/it]

tensor(3.8743, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 84%|███████████████████████████████████████████████████████████████████▍            | 658/781 [26:52<05:02,  2.46s/it]

loss =  

 84%|███████████████████████████████████████████████████████████████████▌            | 659/781 [26:57<06:24,  3.15s/it]

tensor(3.8114, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 97%|█████████████████████████████████████████████████████████████████████████████▋  | 758/781 [30:57<00:56,  2.44s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▋  | 759/781 [31:02<01:09,  3.16s/it]

tensor(3.8685, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:54<00:00,  2.45s/it]
 10%|███████▉                                                                         | 77/781 [03:08<28:48,  2.46s/it]

loss =  

 10%|████████                                                                         | 78/781 [03:13<36:57,  3.15s/it]

tensor(3.7693, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(22.6562, device='cuda:0') , acc/top5 =  tensor(55.4688, device='cuda:0')


 23%|██████████████████▏                                                             | 177/781 [07:13<24:38,  2.45s/it]

loss =  

 23%|██████████████████▏                                                             | 178/781 [07:18<31:37,  3.15s/it]

tensor(3.7440, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 35%|████████████████████████████▎                                                   | 277/781 [11:18<20:32,  2.44s/it]

loss =  

 36%|████████████████████████████▍                                                   | 278/781 [11:23<26:24,  3.15s/it]

tensor(3.8759, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 48%|██████████████████████████████████████▌                                         | 377/781 [15:23<16:27,  2.44s/it]

loss =  

 48%|██████████████████████████████████████▋                                         | 378/781 [15:28<21:09,  3.15s/it]

tensor(3.8632, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 61%|████████████████████████████████████████████████▊                               | 477/781 [19:28<12:23,  2.45s/it]

loss =  

 61%|████████████████████████████████████████████████▉                               | 478/781 [19:33<15:55,  3.15s/it]

tensor(4.0448, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(6.2500, device='cuda:0') , acc/top5 =  tensor(31.2500, device='cuda:0')


 74%|███████████████████████████████████████████████████████████                     | 577/781 [23:35<08:18,  2.44s/it]

loss =  

 74%|███████████████████████████████████████████████████████████▏                    | 578/781 [23:40<10:41,  3.16s/it]

tensor(3.7624, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▎          | 677/781 [27:40<04:14,  2.45s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▍          | 678/781 [27:45<05:24,  3.15s/it]

tensor(3.8263, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 99%|███████████████████████████████████████████████████████████████████████████████▌| 777/781 [31:45<00:09,  2.46s/it]

loss =  

100%|███████████████████████████████████████████████████████████████████████████████▋| 778/781 [31:50<00:09,  3.16s/it]

tensor(3.9538, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 12%|█████████▉                                                                       | 96/781 [03:55<28:02,  2.46s/it]

loss =  

 12%|██████████                                                                       | 97/781 [04:00<35:51,  3.15s/it]

tensor(3.9431, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 25%|████████████████████                                                            | 196/781 [08:00<23:53,  2.45s/it]

loss =  

 25%|████████████████████▏                                                           | 197/781 [08:05<30:40,  3.15s/it]

tensor(3.9610, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.9375, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 38%|██████████████████████████████▎                                                 | 296/781 [12:05<19:53,  2.46s/it]

loss =  

 38%|██████████████████████████████▍                                                 | 297/781 [12:10<25:30,  3.16s/it]

tensor(3.8697, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 51%|████████████████████████████████████████▌                                       | 396/781 [16:11<15:45,  2.45s/it]

loss =  

 51%|████████████████████████████████████████▋                                       | 397/781 [16:15<20:14,  3.16s/it]

tensor(3.7807, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 64%|██████████████████████████████████████████████████▊                             | 496/781 [20:16<11:36,  2.44s/it]

loss =  

 64%|██████████████████████████████████████████████████▉                             | 497/781 [20:21<14:54,  3.15s/it]

tensor(3.8589, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 76%|█████████████████████████████████████████████████████████████                   | 596/781 [24:21<07:34,  2.46s/it]

loss =  

 76%|█████████████████████████████████████████████████████████████▏                  | 597/781 [24:26<09:41,  3.16s/it]

tensor(3.7518, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 89%|███████████████████████████████████████████████████████████████████████▎        | 696/781 [28:26<03:27,  2.44s/it]

loss =  

 89%|███████████████████████████████████████████████████████████████████████▍        | 697/781 [28:31<04:24,  3.14s/it]

tensor(3.8849, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  2%|█▌                                                                               | 15/781 [00:36<31:14,  2.45s/it]

loss =  

  2%|█▋                                                                               | 16/781 [00:41<40:12,  3.15s/it]

tensor(3.8320, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 15%|███████████▊                                                                    | 115/781 [04:41<27:06,  2.44s/it]

loss =  

 15%|███████████▉                                                                    | 116/781 [04:46<35:00,  3.16s/it]

tensor(3.8114, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 28%|██████████████████████                                                          | 215/781 [08:47<23:07,  2.45s/it]

loss =  

 28%|██████████████████████▏                                                         | 216/781 [08:52<29:39,  3.15s/it]

tensor(3.7650, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 40%|████████████████████████████████▎                                               | 315/781 [12:52<18:59,  2.44s/it]

loss =  

 40%|████████████████████████████████▎                                               | 316/781 [12:57<24:21,  3.14s/it]

tensor(3.7950, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 53%|██████████████████████████████████████████▌                                     | 415/781 [16:57<14:56,  2.45s/it]

loss =  

 53%|██████████████████████████████████████████▌                                     | 416/781 [17:02<19:10,  3.15s/it]

tensor(3.9772, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(33.5938, device='cuda:0')


 66%|████████████████████████████████████████████████████▊                           | 515/781 [21:03<10:50,  2.45s/it]

loss =  

 66%|████████████████████████████████████████████████████▊                           | 516/781 [21:07<13:52,  3.14s/it]

tensor(3.8601, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 79%|██████████████████████████████████████████████████████████████▉                 | 615/781 [25:08<06:46,  2.45s/it]

loss =  

 79%|███████████████████████████████████████████████████████████████                 | 616/781 [25:13<08:40,  3.16s/it]

tensor(3.8379, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 92%|█████████████████████████████████████████████████████████████████████████▏      | 715/781 [29:13<02:40,  2.44s/it]

loss =  

 92%|█████████████████████████████████████████████████████████████████████████▎      | 716/781 [29:18<03:24,  3.15s/it]

tensor(3.7337, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  4%|███▌                                                                             | 34/781 [01:23<30:27,  2.45s/it]

loss =  

  4%|███▋                                                                             | 35/781 [01:28<39:19,  3.16s/it]

tensor(3.9303, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 17%|█████████████▋                                                                  | 134/781 [05:28<26:25,  2.45s/it]

loss =  

 17%|█████████████▊                                                                  | 135/781 [05:33<33:51,  3.14s/it]

tensor(3.8514, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 30%|███████████████████████▉                                                        | 234/781 [09:33<22:20,  2.45s/it]

loss =  

 30%|████████████████████████                                                        | 235/781 [09:38<28:46,  3.16s/it]

tensor(3.8355, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 43%|██████████████████████████████████▏                                             | 334/781 [13:39<18:13,  2.45s/it]

loss =  

 43%|██████████████████████████████████▎                                             | 335/781 [13:43<23:31,  3.16s/it]

tensor(3.8311, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 56%|████████████████████████████████████████████▍                                   | 434/781 [17:44<14:09,  2.45s/it]

loss =  

 56%|████████████████████████████████████████████▌                                   | 435/781 [17:49<18:09,  3.15s/it]

tensor(3.8943, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 68%|██████████████████████████████████████████████████████▋                         | 534/781 [21:49<10:05,  2.45s/it]

loss =  

 69%|██████████████████████████████████████████████████████▊                         | 535/781 [21:54<12:55,  3.15s/it]

tensor(4.0135, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 81%|████████████████████████████████████████████████████████████████▉               | 634/781 [25:54<05:59,  2.45s/it]

loss =  

 81%|█████████████████████████████████████████████████████████████████               | 635/781 [25:59<07:42,  3.17s/it]

tensor(3.7931, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 94%|███████████████████████████████████████████████████████████████████████████▏    | 734/781 [30:00<01:54,  2.44s/it]

loss =  

 94%|███████████████████████████████████████████████████████████████████████████▎    | 735/781 [30:04<02:24,  3.14s/it]

tensor(3.9295, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  7%|█████▍                                                                           | 53/781 [02:09<29:43,  2.45s/it]

loss =  

  7%|█████▌                                                                           | 54/781 [02:14<38:10,  3.15s/it]

tensor(3.8923, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 20%|███████████████▋                                                                | 153/781 [06:15<25:40,  2.45s/it]

loss =  

 20%|███████████████▊                                                                | 154/781 [06:19<32:53,  3.15s/it]

tensor(3.8851, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 32%|█████████████████████████▉                                                      | 253/781 [10:20<21:33,  2.45s/it]

loss =  

 33%|██████████████████████████                                                      | 254/781 [10:25<27:44,  3.16s/it]

tensor(3.8612, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 45%|████████████████████████████████████▏                                           | 353/781 [14:25<17:29,  2.45s/it]

loss =  

 45%|████████████████████████████████████▎                                           | 354/781 [14:30<22:24,  3.15s/it]

tensor(3.7485, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(26.5625, device='cuda:0') , acc/top5 =  tensor(56.2500, device='cuda:0')


 58%|██████████████████████████████████████████████▍                                 | 453/781 [18:30<13:21,  2.44s/it]

loss =  

 58%|██████████████████████████████████████████████▌                                 | 454/781 [18:35<17:09,  3.15s/it]

tensor(3.9100, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 71%|████████████████████████████████████████████████████████▋                       | 553/781 [22:36<09:19,  2.45s/it]

loss =  

 71%|████████████████████████████████████████████████████████▋                       | 554/781 [22:40<11:56,  3.16s/it]

tensor(3.8078, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 84%|██████████████████████████████████████████████████████████████████▉             | 653/781 [26:41<05:13,  2.45s/it]

loss =  

 84%|██████████████████████████████████████████████████████████████████▉             | 654/781 [26:46<06:39,  3.15s/it]

tensor(3.7698, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


 96%|█████████████████████████████████████████████████████████████████████████████▏  | 753/781 [30:46<01:08,  2.45s/it]

loss =  

 97%|█████████████████████████████████████████████████████████████████████████████▏  | 754/781 [30:51<01:25,  3.17s/it]

tensor(3.8587, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  9%|███████▍                                                                         | 72/781 [02:56<29:03,  2.46s/it]

loss =  

  9%|███████▌                                                                         | 73/781 [03:01<37:13,  3.15s/it]

tensor(3.7955, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(24.2188, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 22%|█████████████████▌                                                              | 172/781 [07:01<25:01,  2.47s/it]

loss =  

 22%|█████████████████▋                                                              | 173/781 [07:06<32:01,  3.16s/it]

tensor(3.9101, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 35%|███████████████████████████▊                                                    | 272/781 [11:07<20:46,  2.45s/it]

loss =  

 35%|███████████████████████████▉                                                    | 273/781 [11:11<26:42,  3.15s/it]

tensor(3.8781, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 48%|██████████████████████████████████████                                          | 372/781 [15:12<16:45,  2.46s/it]

loss =  

 48%|██████████████████████████████████████▏                                         | 373/781 [15:17<21:27,  3.16s/it]

tensor(3.8111, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 60%|████████████████████████████████████████████████▎                               | 472/781 [19:17<12:38,  2.45s/it]

loss =  

 61%|████████████████████████████████████████████████▍                               | 473/781 [19:22<16:12,  3.16s/it]

tensor(3.8060, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 73%|██████████████████████████████████████████████████████████▌                     | 572/781 [23:22<08:31,  2.45s/it]

loss =  

 73%|██████████████████████████████████████████████████████████▋                     | 573/781 [23:27<10:56,  3.16s/it]

tensor(3.9240, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 86%|████████████████████████████████████████████████████████████████████▊           | 672/781 [27:28<04:26,  2.45s/it]

loss =  

 86%|████████████████████████████████████████████████████████████████████▉           | 673/781 [27:32<05:40,  3.15s/it]

tensor(3.8326, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 99%|███████████████████████████████████████████████████████████████████████████████ | 772/781 [31:33<00:22,  2.45s/it]

loss =  

 99%|███████████████████████████████████████████████████████████████████████████████▏| 773/781 [31:38<00:25,  3.15s/it]

tensor(3.8616, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 12%|█████████▍                                                                       | 91/781 [03:42<28:05,  2.44s/it]

loss =  

 12%|█████████▌                                                                       | 92/781 [03:47<36:14,  3.16s/it]

tensor(3.7806, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 24%|███████████████████▌                                                            | 191/781 [07:48<24:08,  2.45s/it]

loss =  

 25%|███████████████████▋                                                            | 192/781 [07:52<30:57,  3.15s/it]

tensor(3.8636, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 37%|█████████████████████████████▊                                                  | 291/781 [11:53<19:58,  2.45s/it]

loss =  

 37%|█████████████████████████████▉                                                  | 292/781 [11:58<25:39,  3.15s/it]

tensor(3.8370, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 50%|████████████████████████████████████████                                        | 391/781 [15:58<15:56,  2.45s/it]

loss =  

 50%|████████████████████████████████████████▏                                       | 392/781 [16:03<20:23,  3.15s/it]

tensor(3.7541, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(54.6875, device='cuda:0')


 63%|██████████████████████████████████████████████████▎                             | 491/781 [20:04<11:49,  2.45s/it]

loss =  

 63%|██████████████████████████████████████████████████▍                             | 492/781 [20:08<15:11,  3.16s/it]

tensor(3.8642, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 76%|████████████████████████████████████████████████████████████▌                   | 591/781 [24:09<07:47,  2.46s/it]

loss =  

 76%|████████████████████████████████████████████████████████████▋                   | 592/781 [24:14<09:57,  3.16s/it]

tensor(3.7838, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(24.2188, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████▊         | 691/781 [28:14<03:41,  2.46s/it]

loss =  

 89%|██████████████████████████████████████████████████████████████████████▉         | 692/781 [28:19<04:42,  3.17s/it]

tensor(3.7391, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.8750, device='cuda:0') , acc/top5 =  tensor(53.9062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  1%|█                                                                                | 10/781 [00:24<31:27,  2.45s/it]

loss =  

  1%|█▏                                                                               | 11/781 [00:29<40:34,  3.16s/it]

tensor(3.8048, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 14%|███████████▎                                                                    | 110/781 [04:29<27:22,  2.45s/it]

loss =  

 14%|███████████▎                                                                    | 111/781 [04:34<35:16,  3.16s/it]

tensor(3.9105, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(40.6250, device='cuda:0')


 27%|█████████████████████▌                                                          | 210/781 [08:35<23:18,  2.45s/it]

loss =  

 27%|█████████████████████▌                                                          | 211/781 [08:39<29:54,  3.15s/it]

tensor(3.9271, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 40%|███████████████████████████████▊                                                | 310/781 [12:40<19:11,  2.44s/it]

loss =  

 40%|███████████████████████████████▊                                                | 311/781 [12:45<24:41,  3.15s/it]

tensor(3.9759, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 52%|█████████████████████████████████████████▉                                      | 410/781 [16:45<15:10,  2.45s/it]

loss =  

 53%|██████████████████████████████████████████                                      | 411/781 [16:50<19:26,  3.15s/it]

tensor(3.8514, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 65%|████████████████████████████████████████████████████▏                           | 510/781 [20:50<11:02,  2.44s/it]

loss =  

 65%|████████████████████████████████████████████████████▎                           | 511/781 [20:55<14:12,  3.16s/it]

tensor(3.8848, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 78%|██████████████████████████████████████████████████████████████▍                 | 610/781 [24:56<06:57,  2.44s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████▌                 | 611/781 [25:00<08:56,  3.16s/it]

tensor(3.8231, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 91%|████████████████████████████████████████████████████████████████████████▋       | 710/781 [29:01<02:53,  2.45s/it]

loss =  

 91%|████████████████████████████████████████████████████████████████████████▊       | 711/781 [29:06<03:40,  3.15s/it]

tensor(3.7888, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  4%|███                                                                              | 29/781 [01:10<30:47,  2.46s/it]

loss =  

  4%|███                                                                              | 30/781 [01:15<39:35,  3.16s/it]

tensor(3.8235, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


 17%|█████████████▏                                                                  | 129/781 [05:16<26:48,  2.47s/it]

loss =  

 17%|█████████████▎                                                                  | 130/781 [05:21<34:25,  3.17s/it]

tensor(3.9015, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 29%|███████████████████████▍                                                        | 229/781 [09:21<22:28,  2.44s/it]

loss =  

 29%|███████████████████████▌                                                        | 230/781 [09:26<28:52,  3.14s/it]

tensor(3.8933, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 42%|█████████████████████████████████▋                                              | 329/781 [13:26<18:26,  2.45s/it]

loss =  

 42%|█████████████████████████████████▊                                              | 330/781 [13:31<23:41,  3.15s/it]

tensor(3.8102, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(60.9375, device='cuda:0')


 55%|███████████████████████████████████████████▉                                    | 429/781 [17:32<14:23,  2.45s/it]

loss =  

 55%|████████████████████████████████████████████                                    | 430/781 [17:37<18:25,  3.15s/it]

tensor(3.8841, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 68%|██████████████████████████████████████████████████████▏                         | 529/781 [21:37<10:16,  2.45s/it]

loss =  

 68%|██████████████████████████████████████████████████████▎                         | 530/781 [21:42<13:10,  3.15s/it]

tensor(3.8600, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 81%|████████████████████████████████████████████████████████████████▍               | 629/781 [25:42<06:11,  2.45s/it]

loss =  

 81%|████████████████████████████████████████████████████████████████▌               | 630/781 [25:47<07:55,  3.15s/it]

tensor(3.8792, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████▋     | 729/781 [29:48<02:07,  2.45s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████▊     | 730/781 [29:52<02:40,  3.15s/it]

tensor(3.8134, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  6%|████▉                                                                            | 48/781 [01:57<29:52,  2.45s/it]

loss =  

  6%|█████                                                                            | 49/781 [02:02<38:18,  3.14s/it]

tensor(3.8805, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 19%|███████████████▏                                                                | 148/781 [06:02<25:49,  2.45s/it]

loss =  

 19%|███████████████▎                                                                | 149/781 [06:07<33:17,  3.16s/it]

tensor(3.8963, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.8750, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 32%|█████████████████████████▍                                                      | 248/781 [10:07<21:45,  2.45s/it]

loss =  

 32%|█████████████████████████▌                                                      | 249/781 [10:12<27:53,  3.15s/it]

tensor(3.8062, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(25., device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 45%|███████████████████████████████████▋                                            | 348/781 [14:13<17:40,  2.45s/it]

loss =  

 45%|███████████████████████████████████▋                                            | 349/781 [14:17<22:46,  3.16s/it]

tensor(3.8802, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 57%|█████████████████████████████████████████████▉                                  | 448/781 [18:18<13:34,  2.45s/it]

loss =  

 57%|█████████████████████████████████████████████▉                                  | 449/781 [18:23<17:24,  3.15s/it]

tensor(3.7860, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 70%|████████████████████████████████████████████████████████▏                       | 548/781 [22:23<09:30,  2.45s/it]

loss =  

 70%|████████████████████████████████████████████████████████▏                       | 549/781 [22:28<12:11,  3.15s/it]

tensor(3.8504, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.9688, device='cuda:0')


 83%|██████████████████████████████████████████████████████████████████▍             | 648/781 [26:28<05:25,  2.45s/it]

loss =  

 83%|██████████████████████████████████████████████████████████████████▍             | 649/781 [26:33<06:55,  3.15s/it]

tensor(3.7161, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


 96%|████████████████████████████████████████████████████████████████████████████▌   | 748/781 [30:34<01:20,  2.45s/it]

loss =  

 96%|████████████████████████████████████████████████████████████████████████████▋   | 749/781 [30:38<01:41,  3.16s/it]

tensor(3.7564, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  9%|██████▉                                                                          | 67/781 [02:44<29:12,  2.45s/it]

loss =  

  9%|███████                                                                          | 68/781 [02:48<37:35,  3.16s/it]

tensor(3.7894, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 21%|█████████████████                                                               | 167/781 [06:49<25:00,  2.44s/it]

loss =  

 22%|█████████████████▏                                                              | 168/781 [06:54<32:12,  3.15s/it]

tensor(3.7491, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(54.6875, device='cuda:0')


 34%|███████████████████████████▎                                                    | 267/781 [10:54<20:56,  2.44s/it]

loss =  

 34%|███████████████████████████▍                                                    | 268/781 [10:59<26:55,  3.15s/it]

tensor(3.7888, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(16.4062, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 47%|█████████████████████████████████████▌                                          | 367/781 [14:59<16:53,  2.45s/it]

loss =  

 47%|█████████████████████████████████████▋                                          | 368/781 [15:04<21:40,  3.15s/it]

tensor(4.1195, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(9.3750, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 60%|███████████████████████████████████████████████▊                                | 467/781 [19:05<12:46,  2.44s/it]

loss =  

 60%|███████████████████████████████████████████████▉                                | 468/781 [19:09<16:27,  3.15s/it]

tensor(3.9033, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


 73%|██████████████████████████████████████████████████████████                      | 567/781 [23:10<08:43,  2.45s/it]

loss =  

 73%|██████████████████████████████████████████████████████████▏                     | 568/781 [23:15<11:10,  3.15s/it]

tensor(3.8605, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 85%|████████████████████████████████████████████████████████████████████▎           | 667/781 [27:15<04:39,  2.45s/it]

loss =  

 86%|████████████████████████████████████████████████████████████████████▍           | 668/781 [27:20<05:56,  3.16s/it]

tensor(4.0202, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(10.1562, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████▌ | 767/781 [31:21<00:34,  2.45s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████▋ | 768/781 [31:26<00:40,  3.15s/it]

tensor(3.7979, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
 11%|████████▉                                                                        | 86/781 [03:30<28:22,  2.45s/it]

loss =  

 11%|█████████                                                                        | 87/781 [03:35<36:32,  3.16s/it]

tensor(3.7794, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 24%|███████████████████                                                             | 186/781 [07:36<24:23,  2.46s/it]

loss =  

 24%|███████████████████▏                                                            | 187/781 [07:41<31:20,  3.17s/it]

tensor(3.8319, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 37%|█████████████████████████████▎                                                  | 286/781 [11:41<20:16,  2.46s/it]

loss =  

 37%|█████████████████████████████▍                                                  | 287/781 [11:46<25:58,  3.15s/it]

tensor(3.7992, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 49%|███████████████████████████████████████▌                                        | 386/781 [15:46<16:10,  2.46s/it]

loss =  

 50%|███████████████████████████████████████▋                                        | 387/781 [15:51<20:48,  3.17s/it]

tensor(3.8542, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(48.4375, device='cuda:0')


 62%|█████████████████████████████████████████████████▊                              | 486/781 [19:52<12:03,  2.45s/it]

loss =  

 62%|█████████████████████████████████████████████████▉                              | 487/781 [19:56<15:27,  3.15s/it]

tensor(4.0059, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(37.5000, device='cuda:0')


 75%|████████████████████████████████████████████████████████████                    | 586/781 [23:57<07:58,  2.46s/it]

loss =  

 75%|████████████████████████████████████████████████████████████▏                   | 587/781 [24:01<10:12,  3.16s/it]

tensor(3.9663, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 88%|██████████████████████████████████████████████████████████████████████▎         | 686/781 [28:02<03:53,  2.45s/it]

loss =  

 88%|██████████████████████████████████████████████████████████████████████▎         | 687/781 [28:07<04:56,  3.15s/it]

tensor(3.8621, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  1%|▌                                                                                 | 5/781 [00:12<31:36,  2.44s/it]

loss =  

  1%|▋                                                                                 | 6/781 [00:17<41:56,  3.25s/it]

tensor(3.8129, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 13%|██████████▊                                                                     | 105/781 [04:17<27:36,  2.45s/it]

loss =  

 14%|██████████▊                                                                     | 106/781 [04:22<35:21,  3.14s/it]

tensor(3.8929, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(13.2812, device='cuda:0') , acc/top5 =  tensor(49.2188, device='cuda:0')


 26%|████████████████████▉                                                           | 205/781 [08:22<23:29,  2.45s/it]

loss =  

 26%|█████████████████████                                                           | 206/781 [08:27<30:11,  3.15s/it]

tensor(3.8603, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.0938, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 39%|███████████████████████████████▏                                                | 305/781 [12:27<19:24,  2.45s/it]

loss =  

 39%|███████████████████████████████▎                                                | 306/781 [12:32<24:53,  3.14s/it]

tensor(3.9813, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 52%|█████████████████████████████████████████▍                                      | 405/781 [16:33<15:18,  2.44s/it]

loss =  

 52%|█████████████████████████████████████████▌                                      | 406/781 [16:38<19:45,  3.16s/it]

tensor(3.9660, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(38.2812, device='cuda:0')


 65%|███████████████████████████████████████████████████▋                            | 505/781 [20:38<11:13,  2.44s/it]

loss =  

 65%|███████████████████████████████████████████████████▊                            | 506/781 [20:43<14:24,  3.14s/it]

tensor(4.0361, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 77%|█████████████████████████████████████████████████████████████▉                  | 605/781 [24:43<07:10,  2.45s/it]

loss =  

 78%|██████████████████████████████████████████████████████████████                  | 606/781 [24:48<09:13,  3.16s/it]

tensor(3.9682, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(36.7188, device='cuda:0')


 90%|████████████████████████████████████████████████████████████████████████▏       | 705/781 [28:48<03:06,  2.46s/it]

loss =  

 90%|████████████████████████████████████████████████████████████████████████▎       | 706/781 [28:53<03:56,  3.16s/it]

tensor(3.8533, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  3%|██▍                                                                              | 24/781 [00:58<30:57,  2.45s/it]

loss =  

  3%|██▌                                                                              | 25/781 [01:03<39:47,  3.16s/it]

tensor(3.8927, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(11.7188, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 16%|████████████▋                                                                   | 124/781 [05:04<26:47,  2.45s/it]

loss =  

 16%|████████████▊                                                                   | 125/781 [05:08<34:30,  3.16s/it]

tensor(3.9238, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.1875, device='cuda:0') , acc/top5 =  tensor(39.0625, device='cuda:0')


 29%|██████████████████████▉                                                         | 224/781 [09:09<22:46,  2.45s/it]

loss =  

 29%|███████████████████████                                                         | 225/781 [09:14<29:12,  3.15s/it]

tensor(3.8637, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(21.8750, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 41%|█████████████████████████████████▏                                              | 324/781 [13:14<18:40,  2.45s/it]

loss =  

 42%|█████████████████████████████████▎                                              | 325/781 [13:19<23:59,  3.16s/it]

tensor(3.8525, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(51.5625, device='cuda:0')


 54%|███████████████████████████████████████████▍                                    | 424/781 [17:19<14:32,  2.44s/it]

loss =  

 54%|███████████████████████████████████████████▌                                    | 425/781 [17:24<18:41,  3.15s/it]

tensor(3.8822, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 67%|█████████████████████████████████████████████████████▋                          | 524/781 [21:25<10:28,  2.45s/it]

loss =  

 67%|█████████████████████████████████████████████████████▊                          | 525/781 [21:29<13:28,  3.16s/it]

tensor(3.7655, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(59.3750, device='cuda:0')


 80%|███████████████████████████████████████████████████████████████▉                | 624/781 [25:30<06:23,  2.44s/it]

loss =  

 80%|████████████████████████████████████████████████████████████████                | 625/781 [25:35<08:13,  3.16s/it]

tensor(3.8065, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(24.2188, device='cuda:0') , acc/top5 =  tensor(52.3438, device='cuda:0')


 93%|██████████████████████████████████████████████████████████████████████████▏     | 724/781 [29:35<02:19,  2.45s/it]

loss =  

 93%|██████████████████████████████████████████████████████████████████████████▎     | 725/781 [29:40<02:56,  3.14s/it]

tensor(4.0586, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.0312, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]
  6%|████▍                                                                            | 43/781 [01:45<30:07,  2.45s/it]

loss =  

  6%|████▌                                                                            | 44/781 [01:50<38:46,  3.16s/it]

tensor(3.7969, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(44.5312, device='cuda:0')


 18%|██████████████▋                                                                 | 143/781 [05:50<25:58,  2.44s/it]

loss =  

 18%|██████████████▊                                                                 | 144/781 [05:55<33:20,  3.14s/it]

tensor(3.8326, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 31%|████████████████████████▉                                                       | 243/781 [09:56<22:07,  2.47s/it]

loss =  

 31%|████████████████████████▉                                                       | 244/781 [10:01<28:20,  3.17s/it]

tensor(3.8483, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(39.8438, device='cuda:0')


 44%|███████████████████████████████████▏                                            | 343/781 [14:01<17:57,  2.46s/it]

loss =  

 44%|███████████████████████████████████▏                                            | 344/781 [14:06<22:59,  3.16s/it]

tensor(3.8607, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.8438, device='cuda:0') , acc/top5 =  tensor(42.1875, device='cuda:0')


 57%|█████████████████████████████████████████████▍                                  | 443/781 [18:07<13:46,  2.45s/it]

loss =  

 57%|█████████████████████████████████████████████▍                                  | 444/781 [18:11<17:44,  3.16s/it]

tensor(3.9365, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(8.5938, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 70%|███████████████████████████████████████████████████████▌                        | 543/781 [22:12<09:44,  2.46s/it]

loss =  

 70%|███████████████████████████████████████████████████████▋                        | 544/781 [22:17<12:26,  3.15s/it]

tensor(3.7131, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(20.3125, device='cuda:0') , acc/top5 =  tensor(54.6875, device='cuda:0')


 82%|█████████████████████████████████████████████████████████████████▊              | 643/781 [26:17<05:37,  2.45s/it]

loss =  

 82%|█████████████████████████████████████████████████████████████████▉              | 644/781 [26:22<07:13,  3.16s/it]

tensor(3.8055, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(45.3125, device='cuda:0')


 95%|████████████████████████████████████████████████████████████████████████████    | 743/781 [30:22<01:33,  2.46s/it]

loss =  

 95%|████████████████████████████████████████████████████████████████████████████▏   | 744/781 [30:27<01:56,  3.15s/it]

tensor(3.7477, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
  8%|██████▍                                                                          | 62/781 [02:32<29:22,  2.45s/it]

loss =  

  8%|██████▌                                                                          | 63/781 [02:36<37:44,  3.15s/it]

tensor(3.8336, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(50.7812, device='cuda:0')


 21%|████████████████▌                                                               | 162/781 [06:37<25:14,  2.45s/it]

loss =  

 21%|████████████████▋                                                               | 163/781 [06:42<32:23,  3.15s/it]

tensor(3.7725, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(27.3438, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 34%|██████████████████████████▊                                                     | 262/781 [10:42<21:09,  2.45s/it]

loss =  

 34%|██████████████████████████▉                                                     | 263/781 [10:47<27:16,  3.16s/it]

tensor(3.8296, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(19.5312, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 46%|█████████████████████████████████████                                           | 362/781 [14:48<17:08,  2.46s/it]

loss =  

 46%|█████████████████████████████████████▏                                          | 363/781 [14:52<21:58,  3.16s/it]

tensor(3.7588, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(47.6562, device='cuda:0')


 59%|███████████████████████████████████████████████▎                                | 462/781 [18:53<13:01,  2.45s/it]

loss =  

 59%|███████████████████████████████████████████████▍                                | 463/781 [18:58<16:46,  3.16s/it]

tensor(3.8817, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(43.7500, device='cuda:0')


 72%|█████████████████████████████████████████████████████████▌                      | 562/781 [22:58<08:58,  2.46s/it]

loss =  

 72%|█████████████████████████████████████████████████████████▋                      | 563/781 [23:03<11:28,  3.16s/it]

tensor(3.8912, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(46.0938, device='cuda:0')


 85%|███████████████████████████████████████████████████████████████████▊            | 662/781 [27:03<04:51,  2.45s/it]

loss =  

 85%|███████████████████████████████████████████████████████████████████▉            | 663/781 [27:08<06:12,  3.15s/it]

tensor(3.8708, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(17.9688, device='cuda:0') , acc/top5 =  tensor(50., device='cuda:0')


 98%|██████████████████████████████████████████████████████████████████████████████  | 762/781 [31:09<00:46,  2.46s/it]

loss =  

 98%|██████████████████████████████████████████████████████████████████████████████▏ | 763/781 [31:14<00:56,  3.16s/it]

tensor(3.8535, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:56<00:00,  2.45s/it]
 10%|████████▍                                                                        | 81/781 [03:18<28:28,  2.44s/it]

loss =  

 10%|████████▌                                                                        | 82/781 [03:23<36:46,  3.16s/it]

tensor(3.8565, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(7.8125, device='cuda:0') , acc/top5 =  tensor(35.1562, device='cuda:0')


 23%|██████████████████▌                                                             | 181/781 [07:23<24:28,  2.45s/it]

loss =  

 23%|██████████████████▋                                                             | 182/781 [07:28<31:23,  3.15s/it]

tensor(4.0515, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(32.8125, device='cuda:0')


 36%|████████████████████████████▊                                                   | 281/781 [11:29<20:24,  2.45s/it]

loss =  

 36%|████████████████████████████▉                                                   | 282/781 [11:34<26:13,  3.15s/it]

tensor(3.8587, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(12.5000, device='cuda:0') , acc/top5 =  tensor(46.8750, device='cuda:0')


 49%|███████████████████████████████████████                                         | 381/781 [15:34<16:18,  2.45s/it]

loss =  

 49%|███████████████████████████████████████▏                                        | 382/781 [15:39<20:59,  3.16s/it]

tensor(3.8111, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(15.6250, device='cuda:0') , acc/top5 =  tensor(41.4062, device='cuda:0')


 62%|█████████████████████████████████████████████████▎                              | 481/781 [19:39<12:13,  2.45s/it]

loss =  

 62%|█████████████████████████████████████████████████▎                              | 482/781 [19:44<15:45,  3.16s/it]

tensor(3.7319, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(23.4375, device='cuda:0') , acc/top5 =  tensor(56.2500, device='cuda:0')


 74%|███████████████████████████████████████████████████████████▌                    | 581/781 [23:44<08:09,  2.45s/it]

loss =  

 75%|███████████████████████████████████████████████████████████▌                    | 582/781 [23:49<10:26,  3.15s/it]

tensor(3.9023, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(14.0625, device='cuda:0') , acc/top5 =  tensor(35.9375, device='cuda:0')


 87%|█████████████████████████████████████████████████████████████████████▊          | 681/781 [27:50<04:05,  2.45s/it]

loss =  

 87%|█████████████████████████████████████████████████████████████████████▊          | 682/781 [27:54<05:13,  3.17s/it]

tensor(3.8017, device='cuda:0', grad_fn=<NllLossBackward0>) , acc/top1 =  tensor(18.7500, device='cuda:0') , acc/top5 =  tensor(53.1250, device='cuda:0')


100%|████████████████████████████████████████████████████████████████████████████████| 781/781 [31:55<00:00,  2.45s/it]


In [19]:
resume = ''

eval_steps = 2**10
total_steps = 2**20
batch_size = 64
lr = 0.03
weight_decay = 0.0005
exp_mov_avg_decay = 0.999
mu = 7
lambda_u = 1
threshold = 0.95

num_class = 10
num_labeled_data = 40

cifar10_mean = (0.4914, 0.4822, 0.4465)
cifar10_std = (0.2471, 0.2435, 0.2616)

In [20]:
import random
import PIL
import PIL.ImageOps
import PIL.ImageEnhance
import PIL.ImageDraw

PARAMETER_MAX = 10

def _float_parameter(v, max_v):
    return float(v) * max_v / PARAMETER_MAX

def _int_parameter(v, max_v):
    return int(v * max_v / PARAMETER_MAX)

def AutoContrast(img, **kwarg):
    return PIL.ImageOps.autocontrast(img)

def Brightness(img, v, max_v, bias = 0):
    v = _float_parameter(v, max_v) + bias
    return PIL.ImageEnhance.Brightness(img).enhance(v)

def Color(img, v, max_v, bias=0):
    v = _float_parameter(v, max_v) + bias
    return PIL.ImageEnhance.Color(img).enhance(v)


def Contrast(img, v, max_v, bias=0):
    v = _float_parameter(v, max_v) + bias
    return PIL.ImageEnhance.Contrast(img).enhance(v)


def Cutout(img, v, max_v, bias=0):
    if v == 0:
        return img
    v = _float_parameter(v, max_v) + bias
    v = int(v * min(img.size))
    return CutoutAbs(img, v)


def CutoutAbs(img, v, **kwarg):
    w, h = img.size
    x0 = np.random.uniform(0, w)
    y0 = np.random.uniform(0, h)
    x0 = int(max(0, x0 - v / 2.))
    y0 = int(max(0, y0 - v / 2.))
    x1 = int(min(w, x0 + v))
    y1 = int(min(h, y0 + v))
    xy = (x0, y0, x1, y1)
    # gray
    color = (127, 127, 127)
    img = img.copy()
    PIL.ImageDraw.Draw(img).rectangle(xy, color)
    return img


def Equalize(img, **kwarg):
    return PIL.ImageOps.equalize(img)


def Identity(img, **kwarg):
    return img


def Invert(img, **kwarg):
    return PIL.ImageOps.invert(img)


def Posterize(img, v, max_v, bias=0):
    v = _int_parameter(v, max_v) + bias
    return PIL.ImageOps.posterize(img, v)


def Rotate(img, v, max_v, bias=0):
    v = _int_parameter(v, max_v) + bias
    if random.random() < 0.5:
        v = -v
    return img.rotate(v)


def Sharpness(img, v, max_v, bias=0):
    v = _float_parameter(v, max_v) + bias
    return PIL.ImageEnhance.Sharpness(img).enhance(v)


def ShearX(img, v, max_v, bias=0):
    v = _float_parameter(v, max_v) + bias
    if random.random() < 0.5:
        v = -v
    return img.transform(img.size, PIL.Image.AFFINE, (1, v, 0, 0, 1, 0))


def ShearY(img, v, max_v, bias=0):
    v = _float_parameter(v, max_v) + bias
    if random.random() < 0.5:
        v = -v
    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, v, 1, 0))


def Solarize(img, v, max_v, bias=0):
    v = _int_parameter(v, max_v) + bias
    return PIL.ImageOps.solarize(img, 256 - v)


def SolarizeAdd(img, v, max_v, bias=0, threshold=128):
    v = _int_parameter(v, max_v) + bias
    if random.random() < 0.5:
        v = -v
    img_np = np.array(img).astype(np.int)
    img_np = img_np + v
    img_np = np.clip(img_np, 0, 255)
    img_np = img_np.astype(np.uint8)
    img = Image.fromarray(img_np)
    return PIL.ImageOps.solarize(img, threshold)


def TranslateX(img, v, max_v, bias=0):
    v = _float_parameter(v, max_v) + bias
    if random.random() < 0.5:
        v = -v
    v = int(v * img.size[0])
    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, v, 0, 1, 0))


def TranslateY(img, v, max_v, bias=0):
    v = _float_parameter(v, max_v) + bias
    if random.random() < 0.5:
        v = -v
    v = int(v * img.size[1])
    return img.transform(img.size, PIL.Image.AFFINE, (1, 0, 0, 0, 1, v))

def fixMatchAugPool():
    augs = [(AutoContrast, None, None),
            (Brightness, 0.9, 0.05),
            (Color, 0.9, 0.05),
            (Contrast, 0.9, 0.05),
            (Equalize, None, None),
            (Identity, None, None),
            (Posterize, 4, 4),
            (Rotate, 30, 0),
            (Sharpness, 0.9, 0.05),
            (ShearX, 0.3, 0),
            (ShearY, 0.3, 0),
            (Solarize, 256, 0),
            (TranslateX, 0.3, 0),
            (TranslateY, 0.3, 0)]
    return augs

In [21]:
class RandAugmentMC(object):
    def __init__(self, n, m):
        assert n >= 1
        assert 1 <= m <= 10
        self.n = n
        self.m = m
        self.augment_pool = fixMatchAugPool()
        
    def __call__(self, img):
        ops = random.choices(self.augment_pool, k = self.n)
        for op, max_v, bias in ops:
            v = np.random.randint(1, self.m)
            if random.random() < 0.5:
                img = op(img, v = v, max_v = max_v, bias = bias)
        img = CutoutAbs(img, int(32*0.5))
        return img

In [22]:
class TransformFixMatch(object):
    def __init__(self, mean, std):
        self.weak = transforms.Compose([
            transforms.RandomHorizontalFlip(),
            transforms.RandomCrop(size = 32,
                                  padding = int(32 * 0.125),
                                  padding_mode = 'reflect')])
        
        self.strong = transforms.Compose([
            transforms.RandomHorizontalFlip(),
            transforms.RandomCrop(size = 32,
                                  padding = int(32 * 0.125),
                                  padding_mode = 'reflect'),
            RandAugmentMC(n = 2, m = 10)])
        
        self.normalize = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize(mean = mean, std = std)])
        
    def __call__(self, x):
        weak = self.weak(x)
        strong = self.strong(x)
        return self.normalize(weak), self.normalize(strong)

In [23]:
root = './data'
labeled_transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomCrop(size = 32, padding = int(32 * 0.125), padding_mode = 'reflect'),
    transforms.ToTensor(),
    transforms.Normalize(mean = cifar10_mean, std = cifar10_std)
])

test_transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(mean = cifar10_mean, std = cifar10_std)
])

full_dataset = datasets.CIFAR10(root, train = True, download = False)

In [24]:
import math

label_per_class = num_labeled_data // num_class
labels = np.array(full_dataset.targets)
train_labeled_idxs = []
train_unlabeled_idxs = np.array(range(len(labels)))
for i in range(num_class):
    idx = np.where(labels == i)[0]
    idx = np.random.choice(idx, label_per_class, False)
    train_labeled_idxs.extend(idx)
train_labeled_idxs = np.array(train_labeled_idxs)
print(len(train_labeled_idxs))

num_expand_x = math.ceil(batch_size * eval_steps / num_labeled_data)
train_labeled_idxs = np.hstack([train_labeled_idxs for _ in range(num_expand_x)])
print(len(train_labeled_idxs), len(train_unlabeled_idxs))

40
65560 50000


In [25]:
class Cifar10SSL(datasets.CIFAR10):
    def __init__(self, root, idxs, train = True, transform = None, target_transform = None, download = False):
        super().__init__(root, train = train, transform = transform, target_transform = target_transform, download = download)
        if idxs is not None:
            self.data = self.data[idxs]
            self.targets = np.array(self.targets)[idxs]
        
    def __getitem__(self, idx):
        img, target = self.data[idx], self.targets[idx]
        img = Image.fromarray(img)
        
        if self.transform is not None:
            img = self.transform(img)
            
        if self.target_transform is not None:
            target = self.target_transform(target)
            
        return img, target

In [26]:
train_labeled_dataset = Cifar10SSL(root, train_labeled_idxs, train=True, transform=labeled_transform)
train_unlabeled_dataset = Cifar10SSL(root, train_unlabeled_idxs, train=True,
                                     transform=TransformFixMatch(mean = cifar10_mean, std = cifar10_std))
test_dataset = datasets.CIFAR10(
    root, train = False, transform = test_transform, download = False)

In [27]:
from torch.utils.data import RandomSampler, SequentialSampler

labeled_trainloader = torch.utils.data.DataLoader(train_labeled_dataset,
                                 sampler = RandomSampler(train_labeled_dataset),
                                 batch_size = batch_size,
                                 drop_last = True)
unlabeled_trainloader = torch.utils.data.DataLoader(train_unlabeled_dataset,
                                 sampler = RandomSampler(train_unlabeled_dataset),
                                 batch_size = batch_size * mu,
                                 drop_last = True)
test_loader = torch.utils.data.DataLoader(test_dataset,
                         sampler = SequentialSampler(test_dataset),
                         batch_size = batch_size)
                         

In [28]:
#print(model.backbone.fc[0].in_features)
#dim_mlp = model.backbone.fc[0].in_features
        
#model.backbone.fc = nn.Sequential(nn.Linear(dim_mlp, 128), nn.Dropout(p = 0.7), nn.ReLU(), nn.Linear(128, 10))

#torch.nn.init.xavier_normal_(model.backbone.fc[0].weight)
#torch.nn.init.xavier_normal_(model.backbone.fc[3].weight)
#torch.nn.init.constant_(model.backbone.fc[0].bias, 0.0)
#torch.nn.init.constant_(model.backbone.fc[3].bias, 0.0)

#print(model.backbone.fc)
#model.to(device)

print(model.fc[0].in_features)
dim_mlp = model.fc[0].in_features
        
model.fc = nn.Linear(dim_mlp, 10)

torch.nn.init.xavier_normal_(model.fc.weight)
torch.nn.init.constant_(model.fc.bias, 0.0)

print(model.fc)
model.to(device)

128
Linear(in_features=128, out_features=10, bias=True)


WRN(
  (conv1): Conv2d(3, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
  (block1): WRNNetworkBlock(
    (layer): Sequential(
      (0): WRNBasicBlock(
        (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.001, affine=True, track_running_stats=True)
        (relu1): LeakyReLU(negative_slope=0.1, inplace=True)
        (conv1): Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): BatchNorm2d(32, eps=1e-05, momentum=0.001, affine=True, track_running_stats=True)
        (relu2): LeakyReLU(negative_slope=0.1, inplace=True)
        (conv2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (convShortcut): Conv2d(16, 32, kernel_size=(1, 1), stride=(1, 1), bias=False)
      )
      (1): WRNBasicBlock(
        (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.001, affine=True, track_running_stats=True)
        (relu1): LeakyReLU(negative_slope=0.1, inplace=True)
        (conv1): Conv2d(32, 32, kernel_size

In [29]:
no_decay = ['bias', 'bn']
grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(
            nd in n for nd in no_decay)], 'weight_decay': weight_decay},
    {'params': [p for n, p in model.named_parameters() if any(
            nd in n for nd in no_decay)], 'weight_decay': 0.0}
    ]
optimizerFM = torch.optim.SGD(grouped_parameters, lr=lr, momentum = 0.9, nesterov = True)

In [30]:
from torch.optim.lr_scheduler import LambdaLR

def getCosScheduleWithWarmup(optimizer,
                             num_warmup_steps,
                             num_training_steps,
                             num_cycles = 7./16.,
                             last_epoch = -1):
    def _lr_lambda(current_step):
        if current_step < num_warmup_steps:
            return float(current_step) / float(max(1, num_warmup_steps))
        no_progress = float(current_step - num_warmup_steps) / float(max(1, num_training_steps - num_warmup_steps))
        return max(0., math.cos(math.pi * num_cycles * no_progress))
    
    return LambdaLR(optimizer, _lr_lambda, last_epoch)

In [31]:
epochs = math.ceil(total_steps / eval_steps)
scheduler = getCosScheduleWithWarmup(optimizer, 0, total_steps)

In [32]:
from copy import deepcopy

# exponential moving avg
class ModelEMA(object):
    def __init__(self, model, decay):
        self.ema = deepcopy(model)
        self.ema.to(device)
        self.ema.eval()
        self.decay = decay
        self.ema_has_module = hasattr(self.ema, 'module')
        self.param_keys = [k for k, _ in self.ema.named_parameters()]
        self.buffer_keys = [k for k, _ in self.ema.named_buffers()]
        for p in self.ema.parameters():
            p.requires_grad_(False)
    
    def update(self, model):
        needs_module = hasattr(model, 'module') and not self.ema_has_module
        with torch.no_grad():
            msd = model.state_dict()
            esd = self.ema.state_dict()
            for k in self.param_keys:
                if needs_module:
                    j = 'module.' + k
                else:
                    j = k
                model_v = msd[j].detach()
                ema_v = esd[k]
                esd[k].copy_(ema_v * self.decay + (1. - self.decay) * model_v)

            for k in self.buffer_keys:
                if needs_module:
                    j = 'module.' + k
                else:
                    j = k
                esd[k].copy_(msd[j])

In [33]:
ema_model = ModelEMA(model, 0.999)

In [34]:
start_epoch = 0

if resume:
    checkpoint = torch.load(resume)
    best_acc = checkpoint['best_acc']
    start_epoch = checkpoint['epoch']
    model.load_state_dict(checkpoint['state_dict'])
    ema_model.ema.load_state_dict(checkpoint['ema_state_dict'])
    optimizer.load_state_dict(checkpoint['optimizer'])
    scheduler.load_state_dict(checkpoint['scheduler'])

In [35]:
class AvgMeter(object):
    def __init__(self):
        self.reset()
        
    def reset(self):
        self.val = 0
        self.avg = 0
        self.sum = 0
        self.count = 0

    def update(self, val, n=1):
        self.val = val
        self.sum += val * n
        self.count += n
        self.avg = self.sum / self.count

In [36]:
def interleave(x, size):
    s = list(x.shape)
    return x.reshape([-1, size] + s[1:]).transpose(0, 1).reshape([-1] + s[1:])

def deInterleave(x, size):
    s = list(x.shape)
    return x.reshape([size, -1] + s[1:]).transpose(0, 1).reshape([-1] + s[1:])

In [37]:
def calAccuracy(output, target, topk = (1,)):
    maxk = max(topk)
    batch_size = target.size(0)
    
    _, pred = output.topk(maxk, 1, True, True)
    pred = pred.t()
    correct = pred.eq(target.reshape(1, -1).expand_as(pred))
    
    res = []
    for k in topk:
        correct_k = correct[:k].reshape(-1).float().sum(0)
        res.append(correct_k.mul_(100.0 / batch_size))
    return res

In [38]:
def test(test_loader, model, epoch):
    batch_time = AvgMeter()
    data_time = AvgMeter()
    losses = AvgMeter()
    top1 = AvgMeter()
    top5 = AvgMeter()
    end = time.time()

    test_loader = tqdm(test_loader, disable = False)

    with torch.no_grad():
        for batch_idx, (inputs, targets) in enumerate(test_loader):
            data_time.update(time.time() - end)
            model.eval()

            inputs = inputs.to(device)
            targets = targets.to(device)
            outputs = model(inputs)
            loss = F.cross_entropy(outputs, targets)

            prec1, prec5 = calAccuracy(outputs, targets, topk=(1, 5))
            losses.update(loss.item(), inputs.shape[0])
            top1.update(prec1.item(), inputs.shape[0])
            top5.update(prec5.item(), inputs.shape[0])
            batch_time.update(time.time() - end)
            end = time.time()
            test_loader.set_description("Test Iter: {batch:4}/{iter:4}. Data: {data:.3f}s. Batch: {bt:.3f}s. Loss: {loss:.4f}. top1: {top1:.2f}. top5: {top5:.2f}. ".format(
                batch=batch_idx + 1,
                iter=len(test_loader),
                data=data_time.avg,
                bt=batch_time.avg,
                loss=losses.avg,
                top1=top1.avg,
                top5=top5.avg,
            ))
        
        test_loader.close()

    return losses.avg, top1.avg

In [None]:
import time
from PIL import Image

model.zero_grad()
global best_acc
end = time.time()
best_acc = 0

labeled_iter = iter(labeled_trainloader)
unlabeled_iter = iter(unlabeled_trainloader)

model.train()
for epoch in range(start_epoch, epochs):
    batch_time = AvgMeter()
    data_time = AvgMeter()
    losses = AvgMeter()
    losses_x = AvgMeter()
    losses_u = AvgMeter()
    mask_probs = AvgMeter()
    
    p_bar = tqdm(range(eval_steps), disable = False)
    
    for batch_idx in range(eval_steps):
        try:
            inputs_x, targets_x = labeled_iter.next()
        except:            
            labeled_iter = iter(labeled_trainloader)
            inputs_x, targets_x = labeled_iter.next()

        try:
            (inputs_u_w, inputs_u_s), _ = unlabeled_iter.next()
        except:
            unlabeled_iter = iter(unlabeled_trainloader)
            (inputs_u_w, inputs_u_s), _ = unlabeled_iter.next()
        
        data_time.update(time.time() - end)
        batch_size = inputs_x.shape[0]
        inputs = interleave(torch.cat((inputs_x, inputs_u_w, inputs_u_s)), 2*mu + 1).to(device)
        targets_x = targets_x.to(device)
        logits = model(inputs)
        logits = deInterleave(logits, 2*mu + 1)
        logits_x = logits[:batch_size]
        logits_u_w, logits_u_s = logits[batch_size:].chunk(2)
        del logits
        
        targets_x = targets_x.long()
        Lx = F.cross_entropy(logits_x, targets_x, reduction = 'mean')
        
        pseudo_label = torch.softmax(logits_u_w.detach(), dim = -1)
        max_probs, targets_u = torch.max(pseudo_label, dim = -1)
        mask = max_probs.ge(threshold).float()
        Lu = (F.cross_entropy(logits_u_s, targets_u, reduction='none') * mask).mean()
        
        loss = Lx + lambda_u * Lu
        
        loss.backward()
        losses.update(loss.item())
        losses_x.update(Lx.item())
        losses_u.update(Lu.item())
        optimizer.step()
        scheduler.step()
        ema_model.update(model)
        model.zero_grad()
        
        batch_time.update(time.time() - end)
        end = time.time()
        mask_probs.update(mask.mean().item())
        p_bar.set_description("Epoch: {epoch}/{epochs:4}. Iter: {batch:4}/{iter:4}. Loss: {loss:.4f}. Loss_x: {loss_x:.4f}. Loss_u: {loss_u:.4f}. Mask: {mask:.2f}. ".format(
            epoch=epoch + 1,
            epochs=epochs,
            batch=batch_idx + 1,
            iter=eval_steps,
            #lr=scheduler.get_last_lr()[0],
            #data=data_time.avg,
            #bt=batch_time.avg,
            loss=losses.avg,
            loss_x=losses_x.avg,
            loss_u=losses_u.avg,
            mask=mask_probs.avg))
        p_bar.update()
        
    p_bar.close()    
    
    test_model = ema_model.ema
    
    test_loss, test_acc = test(test_loader, test_model, epoch)
    
    is_best = test_acc > best_acc
    best_acc = max(test_acc, best_acc)
    
    model_to_save = model.module if hasattr(model, 'module') else model
    ema_to_save = ema_model.ema.module if hasattr(ema_model.ema, 'module') else ema_model.ema
    
    save_checkpoint_dir = './checkpoint/checkpoint.pth.tar'
    state = {'epoch': epoch + 1,
             'state_dict': model_to_save.state_dict(),
             'ema_state_dict': ema_to_save.state_dict(),
             'acc': test_acc,
             'best_acc': best_acc,
             'optimizer': optimizer.state_dict(),
             'scheduler': scheduler.state_dict(),
            }
    
    torch.save(state, save_checkpoint_dir)
    if is_best:
        shutil.copyfile(save_checkpoint_dir, './checkpoint/model_best.pth.tar')
    

Epoch: 1/1024. Iter: 1024/1024. Loss: 0.1699. Loss_x: 0.1646. Loss_u: 0.0053. Mask: 0.00. : 100%|█| 1024/1024 [11:20<00
Test Iter:  157/ 157. Data: 0.012s. Batch: 0.018s. Loss: 2.2706. top1: 19.39. top5: 61.93. : 100%|█| 157/157 [00:02<00:
Epoch: 2/1024. Iter: 1024/1024. Loss: 0.0099. Loss_x: 0.0022. Loss_u: 0.0077. Mask: 0.01. : 100%|█| 1024/1024 [11:20<00
Test Iter:  157/ 157. Data: 0.012s. Batch: 0.018s. Loss: 2.2404. top1: 23.96. top5: 67.05. : 100%|█| 157/157 [00:02<00:
Epoch: 3/1024. Iter: 1024/1024. Loss: 0.0148. Loss_x: 0.0024. Loss_u: 0.0124. Mask: 0.02. : 100%|█| 1024/1024 [11:20<00
Test Iter:  157/ 157. Data: 0.012s. Batch: 0.018s. Loss: 2.1970. top1: 28.93. top5: 71.65. : 100%|█| 157/157 [00:02<00:
Epoch: 4/1024. Iter: 1024/1024. Loss: 0.0188. Loss_x: 0.0018. Loss_u: 0.0170. Mask: 0.03. : 100%|█| 1024/1024 [11:20<00
Test Iter:  157/ 157. Data: 0.012s. Batch: 0.018s. Loss: 2.1615. top1: 30.21. top5: 72.70. : 100%|█| 157/157 [00:02<00:
Epoch: 5/1024. Iter: 1024/1024. Loss: 0.