In [1]:
import os
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from torchvision import transforms, models, datasets
from efficientnet_pytorch import EfficientNet
import collections
import sys
from mpemu import mpt_emu
from mpemu import qutils
import timm
sys.path.insert(0, "./ViT-pytorch")
from models.modeling import VisionTransformer, CONFIGS
import numpy as np
# Define paths and hyperparameters
BATCH_SIZE = 24
NUM_EPOCHS = 100
LEARNING_RATE = 0.001
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
QUANTIZE = False
TEST_MODEL = False

# quantization
# torch.backends.cudnn.benchmark = True
# filter_module_types = [torch.nn.Conv2d, torch.nn.Linear] # Only quantizing convolution and linear modules
# exempt_modules = ["conv1","fc"]

print()
# define the EfficientNet models to use
# b0 max: 64
# b3 max: 32?
efficientnets = {
    # "b0": EfficientNet.from_pretrained("efficientnet-b0", num_classes=5),
    # "b1": EfficientNet.from_pretrained("efficientnet-b1", num_classes=5),
    # "b2": EfficientNet.from_pretrained("efficientnet-b2", num_classes=5),
    # "b3": EfficientNet.from_pretrained("efficientnet-b3", num_classes=5),
    # "b4": EfficientNet.from_pretrained("efficientnet-b4", num_classes=5),
    # "b5": EfficientNet.from_pretrained("efficientnet-b5", num_classes=5),
    # "b6": EfficientNet.from_pretrained("efficientnet-b6", num_classes=5),
    # "b7": EfficientNet.from_pretrained("efficientnet-b7", num_classes=5),
}

efficientnet_sizes = {
    "b0": 224,
    "b1": 240,
    "b2": 260,
    "b3": 300,
    "b4": 380,
    "b5": 456,
    "b6": 528,
    "b7": 600,
}
# model_name = "vit_base_r50_s16_384"
model_name = "R50-ViT-B_16"
# resnext = timm.create_model(model_name, pretrained=True, num_classes=5)
vit = VisionTransformer(CONFIGS[model_name], 384, zero_head=True, num_classes=5)
model_ckpt = torch.load("r50/checkpoint_11.pt", map_location="cpu")
vit.load_state_dict(model_ckpt["model_state_dict"] if "model_state_dict" in model_ckpt else model_ckpt, strict=False)
#vit.load_from(np.load("R50-ViT-B_16.npz"))
vit.to(DEVICE)
models = [vit]




In [2]:
timm.list_models("*vit*")

['convit_base',
 'convit_small',
 'convit_tiny',
 'crossvit_9_240',
 'crossvit_9_dagger_240',
 'crossvit_15_240',
 'crossvit_15_dagger_240',
 'crossvit_15_dagger_408',
 'crossvit_18_240',
 'crossvit_18_dagger_240',
 'crossvit_18_dagger_408',
 'crossvit_base_240',
 'crossvit_small_240',
 'crossvit_tiny_240',
 'gcvit_base',
 'gcvit_small',
 'gcvit_tiny',
 'gcvit_xtiny',
 'gcvit_xxtiny',
 'levit_128',
 'levit_128s',
 'levit_192',
 'levit_256',
 'levit_256d',
 'levit_384',
 'maxvit_base_224',
 'maxvit_large_224',
 'maxvit_nano_rw_256',
 'maxvit_pico_rw_256',
 'maxvit_rmlp_nano_rw_256',
 'maxvit_rmlp_pico_rw_256',
 'maxvit_rmlp_small_rw_224',
 'maxvit_rmlp_small_rw_256',
 'maxvit_rmlp_tiny_rw_256',
 'maxvit_small_224',
 'maxvit_tiny_224',
 'maxvit_tiny_pm_256',
 'maxvit_tiny_rw_224',
 'maxvit_tiny_rw_256',
 'maxvit_xlarge_224',
 'maxxvit_rmlp_nano_rw_256',
 'maxxvit_rmlp_small_rw_256',
 'maxxvit_rmlp_tiny_rw_256',
 'mobilevit_s',
 'mobilevit_xs',
 'mobilevit_xxs',
 'mobilevitv2_050',
 'mobi

In [None]:
from sklearn.model_selection import train_test_split
import time
from lion_pytorch import Lion
from tqdm import tqdm
from collections import OrderedDict


def train():
    # train the models and evaluate them on the validation set
    # for model_name, model in efficientnets.items():
    for model in models:
        # define the transform for data augmentation and resizing
        # image_size = efficientnet_sizes[model_name]
        image_size = 384
        # Define data augmentations and transformations
        train_transforms = transforms.Compose(
            [
                transforms.Resize((image_size, image_size)),
                transforms.RandomHorizontalFlip(),
                transforms.RandomVerticalFlip(),
                transforms.RandomRotation(20),
                transforms.ToTensor(),
                transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]),
            ]
        )
        val_transforms = transforms.Compose(
            [
                transforms.Resize((image_size, image_size)),
                # transforms.CenterCrop(224),
                transforms.ToTensor(),
                transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]),
            ]
        )

        # Create train and validation datasets
        dataset = datasets.ImageFolder("data_512", transform=train_transforms)
        dataset_val = datasets.ImageFolder("data_512", transform=val_transforms)
        print(dataset.classes)

        train_idx, val_idx = train_test_split(
            list(range(len(dataset.targets))), test_size=0.2, stratify=dataset.targets
        )
        train_dataset = torch.utils.data.Subset(dataset, train_idx)
        val_dataset = torch.utils.data.Subset(dataset_val, val_idx)
        train_loader = torch.utils.data.DataLoader(
            train_dataset,
            batch_size=BATCH_SIZE,
            shuffle=True,
            num_workers=8,
            pin_memory=True,
        )
        val_loader = torch.utils.data.DataLoader(
            val_dataset,
            batch_size=BATCH_SIZE,
            shuffle=True,
            num_workers=8,
            pin_memory=True,
        )

        # Define model
        model.to(DEVICE)

        # Define loss function and optimizer
        criterion = nn.CrossEntropyLoss()
        # optimizer = Lion(model.parameters(), lr=1e-5, weight_decay=1e-2)
        #         optimizer = optim.Adam(model.parameters(), lr=1e-4)
        optimizer = torch.optim.SGD(model.parameters(),
                                lr=1e-3,
                                momentum=0.9,
                                weight_decay=0)

        list_exempt_layers = ["conv1", "fc"]
        #         if "resnet" in args.arch or "resnext" in args.arch:
        #             list_exempt_layers = ["conv1","fc"]
        #         elif args.arch == "vgg19_bn":
        #             list_exempt_layers = ["features.0", "classifier.6"]
        #         elif args.arch == "inception_v3":
        #             list_exempt_layers = ["Conv2d_1a_3x3.conv", "fc"]

        # quantization
        if QUANTIZE:
            model, emulator = mpt_emu.quantize_model(
                model,
                optimizer=optimizer,
                dtype="e4m3",
                device=DEVICE,
                verbose=True,
                list_exempt_layers=list_exempt_layers,
                list_layers_output_fused=[],
            )
            emulator.set_default_inference_qconfig()
        #             filter_module_types = [torch.nn.Conv2d, torch.nn.Linear] # Only quantizing convolution and linear modules
        #             exempt_modules = ["conv1","fc"]
        #             is_training = True
        #             wt_qconfig = qutils.TensorQuantConfig("e4m3", "rne")#, "per-channel")
        #             iact_qconfig   = qutils.TensorQuantConfig("e4m3", "rne")#, "per-tensor")
        #             emb_qconfig    = qutils.TensorQuantConfig("e4m3", "rne")#, "per-channel")
        #             qconfig = qutils.ModuleQuantConfig(wt_qconfig=wt_qconfig, iact_qconfig=iact_qconfig)
        #             model_qconfig_dict  = qutils.get_or_update_model_quant_config_dict(model, filter_module_types, qconfig,
        #                                                                         exempt_modules=exempt_modules)
        #             print("Model quantization configuration")
        #             for layer,qconfig in model_qconfig_dict.items():
        #                 print(layer, qconfig)
        #             print()

        #             qutils.reset_quantization_setup(model, model_qconfig_dict)
        #             qhooks = qutils.add_quantization_hooks(model, model_qconfig_dict, is_training=is_training)
        # test the model
        if TEST_MODEL:
            if QUANTIZE:
                eval_model = emulator.fuse_bnlayers_and_quantize_model(model)
            val_loss = 0.0
            val_acc = 0.0
            with torch.no_grad():
                for images, labels in tqdm(val_loader):
                    images, labels = images.to(DEVICE), labels.to(DEVICE)
                    if QUANTIZE:
                        outputs = eval_model(images)
                    else:
                        outputs = model(images)
                    loss = criterion(outputs, labels)
                    val_loss += loss.item() * images.size(0)
                    _, predictions = torch.max(outputs, 1)
                    val_acc += torch.sum(predictions == labels.data)
            val_loss /= len(val_dataset)
            val_acc /= len(val_dataset)
            print(f"Val   loss: {val_loss:.4f}, Acc: {val_acc:.4f}")

        # Train and validate the model
        for epoch in range(NUM_EPOCHS):
            start = time.time()
            start_total = time.time()
            print(f"Epoch {epoch+1}/{NUM_EPOCHS}")

            # Train the model
            model.train()
            train_loss = 0.0
            train_acc = 0.0
            for images, labels in tqdm(train_loader):
                images, labels = images.to(DEVICE), labels.to(DEVICE)
                outputs, _ = model(images)
                loss = criterion(outputs, labels)
                loss.backward()
                optimizer.step()
                optimizer.zero_grad()
                train_loss += loss.item() * images.size(0)
                _, predictions = torch.max(outputs, 1)
                train_acc += torch.sum(predictions == labels.data)
            train_loss /= len(train_dataset)
            train_acc /= len(train_dataset)
            print(f"Train loss: {train_loss:.4f}, Acc: {train_acc:.4f}")
            print(f"Train time: {time.time() - start}")
            print(torch.cuda.memory_stats(DEVICE))

            start = time.time()
            # Validate the model
            if QUANTIZE:
                eval_model = emulator.fuse_bnlayers_and_quantize_model(model)
            val_loss = 0.0
            val_acc = 0.0
            with torch.no_grad():
                for images, labels in tqdm(val_loader):
                    images, labels = images.to(DEVICE), labels.to(DEVICE)
                    if QUANTIZE:
                        outputs = eval_model(images)
                    else:
                        outputs, _ = model(images)
                    loss = criterion(outputs, labels)
                    val_loss += loss.item() * images.size(0)
                    _, predictions = torch.max(outputs, 1)
                    val_acc += torch.sum(predictions == labels.data)
            val_loss /= len(val_dataset)
            val_acc /= len(val_dataset)
            print(f"Val   loss: {val_loss:.4f}, Acc: {val_acc:.4f}")

            # Save checkpoint
            checkpoint_path = f"checkpoint_{epoch+1}.pt"
            torch.save(
                {
                    "epoch": epoch + 1,
                    "model_state_dict": model.state_dict(),
                    "optimizer_state_dict": optimizer.state_dict(),
                    "train_loss": train_loss,
                    "train_acc": train_acc,
                    "val_loss": val_loss,
                    "val_acc": val_acc,
                },
                checkpoint_path,
            )
            total_end = time.time() - start_total

            # Save loss and accuracy values to file
            with open("loss_acc.txt", "a") as file:
                file.write(
                    f"{model_name}, {train_loss:.4f}, {train_acc:.4f}, {val_loss:.4f}, {val_acc:.4f}, {epoch}, {BATCH_SIZE}, {total_end}\n"
                )

            print(f"Val and misc time: {time.time() - start}")
            print(f"Total time: {total_end}")


if __name__ == "__main__":
    train()

['0', '1', '2', '3', '4']
Epoch 1/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:48<00:00,  1.40it/s]


Train loss: 0.4013, Acc: 0.8681
Train time: 828.2154800891876
OrderedDict([('active.all.allocated', 3735129), ('active.all.current', 721), ('active.all.freed', 3734408), ('active.all.peak', 1300), ('active.large_pool.allocated', 1434171), ('active.large_pool.current', 171), ('active.large_pool.freed', 1434000), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 2300958), ('active.small_pool.current', 550), ('active.small_pool.freed', 2300408), ('active.small_pool.peak', 922), ('active_bytes.all.allocated', 104793636515328), ('active_bytes.all.current', 814213120), ('active_bytes.all.freed', 104792822302208), ('active_bytes.all.peak', 21219655680), ('active_bytes.large_pool.allocated', 104321173530624), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 104320408840192), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 472462984704), ('active_bytes.small_pool.current', 49522688), ('active_bytes.small_pool.f

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.85it/s]


Val   loss: 0.3920, Acc: 0.8656
Val and misc time: 76.47579526901245
Total time: 904.691415309906
Epoch 2/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:43<00:00,  1.41it/s]


Train loss: 0.3866, Acc: 0.8729
Train time: 823.4944593906403
OrderedDict([('active.all.allocated', 7790522), ('active.all.current', 722), ('active.all.freed', 7789800), ('active.all.peak', 1301), ('active.large_pool.allocated', 3004360), ('active.large_pool.current', 171), ('active.large_pool.freed', 3004189), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 4786162), ('active.small_pool.current', 551), ('active.small_pool.freed', 4785611), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 220732397513728), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 220731583300096), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 219748787707392), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 219748023016960), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 983609806336), ('active_bytes.small_pool.current', 49523200), ('active_bytes.small_pool.f

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.85it/s]


Val   loss: 0.3912, Acc: 0.8725
Val and misc time: 76.39053916931152
Total time: 899.8852281570435
Epoch 3/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:43<00:00,  1.41it/s]


Train loss: 0.3774, Acc: 0.8759
Train time: 823.4057307243347
OrderedDict([('active.all.allocated', 11845915), ('active.all.current', 722), ('active.all.freed', 11845193), ('active.all.peak', 1301), ('active.large_pool.allocated', 4574549), ('active.large_pool.current', 171), ('active.large_pool.freed', 4574378), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 7271366), ('active.small_pool.current', 551), ('active.small_pool.freed', 7270815), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 336671158512128), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 336670344298496), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 335176401884160), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 335175637193728), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 1494756627968), ('active_bytes.small_pool.current', 49523200), ('active_bytes.small_poo

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.84it/s]


Val   loss: 0.3996, Acc: 0.8635
Val and misc time: 76.5695161819458
Total time: 899.9753913879395
Epoch 4/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:43<00:00,  1.41it/s]


Train loss: 0.3650, Acc: 0.8795
Train time: 823.320333480835
OrderedDict([('active.all.allocated', 15901308), ('active.all.current', 722), ('active.all.freed', 15900586), ('active.all.peak', 1301), ('active.large_pool.allocated', 6144738), ('active.large_pool.current', 171), ('active.large_pool.freed', 6144567), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 9756570), ('active.small_pool.current', 551), ('active.small_pool.freed', 9756019), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 452609919510528), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 452609105296896), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 450604016060928), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 450603251370496), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 2005903449600), ('active_bytes.small_pool.current', 49523200), ('active_bytes.small_pool

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.85it/s]


Val   loss: 0.3972, Acc: 0.8691
Val and misc time: 76.43351864814758
Total time: 899.7540493011475
Epoch 5/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:43<00:00,  1.41it/s]


Train loss: 0.3525, Acc: 0.8835
Train time: 823.2901659011841
OrderedDict([('active.all.allocated', 19956701), ('active.all.current', 722), ('active.all.freed', 19955979), ('active.all.peak', 1301), ('active.large_pool.allocated', 7714927), ('active.large_pool.current', 171), ('active.large_pool.freed', 7714756), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 12241774), ('active.small_pool.current', 551), ('active.small_pool.freed', 12241223), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 568548680508928), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 568547866295296), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 566031630237696), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 566030865547264), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 2517050271232), ('active_bytes.small_pool.current', 49523200), ('active_bytes.small_p

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.86it/s]


Val   loss: 0.3853, Acc: 0.8720
Val and misc time: 76.30523586273193
Total time: 899.5955262184143
Epoch 6/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:41<00:00,  1.42it/s]


Train loss: 0.3410, Acc: 0.8855
Train time: 821.5853500366211
OrderedDict([('active.all.allocated', 24012094), ('active.all.current', 722), ('active.all.freed', 24011372), ('active.all.peak', 1301), ('active.large_pool.allocated', 9285116), ('active.large_pool.current', 171), ('active.large_pool.freed', 9284945), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 14726978), ('active.small_pool.current', 551), ('active.small_pool.freed', 14726427), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 684487441507328), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 684486627293696), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 681459244414464), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 681458479724032), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 3028197092864), ('active_bytes.small_pool.current', 49523200), ('active_bytes.small_p

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.4237, Acc: 0.8595
Val and misc time: 76.00580883026123
Total time: 897.591285943985
Epoch 7/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:40<00:00,  1.42it/s]


Train loss: 0.3304, Acc: 0.8886
Train time: 820.4561402797699
OrderedDict([('active.all.allocated', 28067487), ('active.all.current', 722), ('active.all.freed', 28066765), ('active.all.peak', 1301), ('active.large_pool.allocated', 10855305), ('active.large_pool.current', 171), ('active.large_pool.freed', 10855134), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 17212182), ('active.small_pool.current', 551), ('active.small_pool.freed', 17211631), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 800426202505728), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 800425388292096), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 796886858591232), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 796886093900800), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 3539343914496), ('active_bytes.small_pool.current', 49523200), ('active_bytes.small

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.4194, Acc: 0.8665
Val and misc time: 75.98956251144409
Total time: 896.4458408355713
Epoch 8/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:40<00:00,  1.42it/s]


Train loss: 0.3171, Acc: 0.8933
Train time: 820.4640779495239
OrderedDict([('active.all.allocated', 32122880), ('active.all.current', 722), ('active.all.freed', 32122158), ('active.all.peak', 1301), ('active.large_pool.allocated', 12425494), ('active.large_pool.current', 171), ('active.large_pool.freed', 12425323), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 19697386), ('active.small_pool.current', 551), ('active.small_pool.freed', 19696835), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 916364963504128), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 916364149290496), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 912314472768000), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 912313708077568), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 4050490736128), ('active_bytes.small_pool.current', 49523200), ('active_bytes.small

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.4393, Acc: 0.8583
Val and misc time: 75.99182081222534
Total time: 896.4560244083405
Epoch 9/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:40<00:00,  1.42it/s]


Train loss: 0.2988, Acc: 0.8991
Train time: 820.6183257102966
OrderedDict([('active.all.allocated', 36178273), ('active.all.current', 722), ('active.all.freed', 36177551), ('active.all.peak', 1301), ('active.large_pool.allocated', 13995683), ('active.large_pool.current', 171), ('active.large_pool.freed', 13995512), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 22182590), ('active.small_pool.current', 551), ('active.small_pool.freed', 22182039), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1032303724502528), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1032302910288896), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1027742086944768), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1027741322254336), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 4561637557760), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.4356, Acc: 0.8616
Val and misc time: 75.99872612953186
Total time: 896.6171782016754
Epoch 10/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:40<00:00,  1.42it/s]


Train loss: 0.2863, Acc: 0.9032
Train time: 820.6819107532501
OrderedDict([('active.all.allocated', 40233666), ('active.all.current', 722), ('active.all.freed', 40232944), ('active.all.peak', 1301), ('active.large_pool.allocated', 15565872), ('active.large_pool.current', 171), ('active.large_pool.freed', 15565701), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 24667794), ('active.small_pool.current', 551), ('active.small_pool.freed', 24667243), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1148242485500928), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1148241671287296), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1143169701121536), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1143168936431104), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 5072784379392), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.4433, Acc: 0.8559
Val and misc time: 75.95457530021667
Total time: 896.6365687847137
Epoch 11/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:42<00:00,  1.41it/s]


Train loss: 0.2712, Acc: 0.9074
Train time: 822.4178295135498
OrderedDict([('active.all.allocated', 44289059), ('active.all.current', 722), ('active.all.freed', 44288337), ('active.all.peak', 1301), ('active.large_pool.allocated', 17136061), ('active.large_pool.current', 171), ('active.large_pool.freed', 17135890), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 27152998), ('active.small_pool.current', 551), ('active.small_pool.freed', 27152447), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1264181246499328), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1264180432285696), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1258597315298304), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1258596550607872), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 5583931201024), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.85it/s]


Val   loss: 0.4706, Acc: 0.8623
Val and misc time: 76.36956810951233
Total time: 898.7875101566315
Epoch 12/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:42<00:00,  1.41it/s]


Train loss: 0.2584, Acc: 0.9109
Train time: 822.216808795929
OrderedDict([('active.all.allocated', 48344452), ('active.all.current', 722), ('active.all.freed', 48343730), ('active.all.peak', 1301), ('active.large_pool.allocated', 18706250), ('active.large_pool.current', 171), ('active.large_pool.freed', 18706079), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 29638202), ('active.small_pool.current', 551), ('active.small_pool.freed', 29637651), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1380120007497728), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1380119193284096), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1374024929475072), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1374024164784640), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 6095078022656), ('active_bytes.small_pool.current', 49523200), ('active_bytes.sm

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.85it/s]


Val   loss: 0.4810, Acc: 0.8522
Val and misc time: 76.46584296226501
Total time: 898.682776927948
Epoch 13/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:42<00:00,  1.41it/s]


Train loss: 0.2432, Acc: 0.9166
Train time: 822.1646957397461
OrderedDict([('active.all.allocated', 52399845), ('active.all.current', 722), ('active.all.freed', 52399123), ('active.all.peak', 1301), ('active.large_pool.allocated', 20276439), ('active.large_pool.current', 171), ('active.large_pool.freed', 20276268), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 32123406), ('active.small_pool.current', 551), ('active.small_pool.freed', 32122855), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1496058768496128), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1496057954282496), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1489452543651840), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1489451778961408), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 6606224844288), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.88it/s]


Val   loss: 0.4797, Acc: 0.8572
Val and misc time: 75.92659139633179
Total time: 898.0914046764374
Epoch 14/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.2281, Acc: 0.9223
Train time: 819.971431016922
OrderedDict([('active.all.allocated', 56455238), ('active.all.current', 722), ('active.all.freed', 56454516), ('active.all.peak', 1301), ('active.large_pool.allocated', 21846628), ('active.large_pool.current', 171), ('active.large_pool.freed', 21846457), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 34608610), ('active.small_pool.current', 551), ('active.small_pool.freed', 34608059), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1611997529494528), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1611996715280896), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1604880157828608), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1604879393138176), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 7117371665920), ('active_bytes.small_pool.current', 49523200), ('active_bytes.sm

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.88it/s]


Val   loss: 0.5220, Acc: 0.8424
Val and misc time: 75.93598079681396
Total time: 895.9075605869293
Epoch 15/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.2186, Acc: 0.9241
Train time: 819.9825131893158
OrderedDict([('active.all.allocated', 60510631), ('active.all.current', 722), ('active.all.freed', 60509909), ('active.all.peak', 1301), ('active.large_pool.allocated', 23416817), ('active.large_pool.current', 171), ('active.large_pool.freed', 23416646), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 37093814), ('active.small_pool.current', 551), ('active.small_pool.freed', 37093263), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1727936290492928), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1727935476279296), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1720307772005376), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1720307007314944), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 7628518487552), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.4941, Acc: 0.8560
Val and misc time: 75.78186869621277
Total time: 895.7645254135132
Epoch 16/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1999, Acc: 0.9296
Train time: 819.9329767227173
OrderedDict([('active.all.allocated', 64566024), ('active.all.current', 722), ('active.all.freed', 64565302), ('active.all.peak', 1301), ('active.large_pool.allocated', 24987006), ('active.large_pool.current', 171), ('active.large_pool.freed', 24986835), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 39579018), ('active.small_pool.current', 551), ('active.small_pool.freed', 39578467), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1843875051491328), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1843874237277696), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1835735386182144), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1835734621491712), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 8139665309184), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.5421, Acc: 0.8565
Val and misc time: 75.95800828933716
Total time: 895.8911371231079
Epoch 17/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1900, Acc: 0.9324
Train time: 819.8039309978485
OrderedDict([('active.all.allocated', 68621417), ('active.all.current', 722), ('active.all.freed', 68620695), ('active.all.peak', 1301), ('active.large_pool.allocated', 26557195), ('active.large_pool.current', 171), ('active.large_pool.freed', 26557024), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 42064222), ('active.small_pool.current', 551), ('active.small_pool.freed', 42063671), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 1959813812489728), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 1959812998276096), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 1951163000358912), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 1951162235668480), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 8650812130816), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.88it/s]


Val   loss: 0.5694, Acc: 0.8575
Val and misc time: 75.88993310928345
Total time: 895.6939823627472
Epoch 18/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:40<00:00,  1.42it/s]


Train loss: 0.1669, Acc: 0.9408
Train time: 820.0137102603912
OrderedDict([('active.all.allocated', 72676810), ('active.all.current', 722), ('active.all.freed', 72676088), ('active.all.peak', 1301), ('active.large_pool.allocated', 28127384), ('active.large_pool.current', 171), ('active.large_pool.freed', 28127213), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 44549426), ('active.small_pool.current', 551), ('active.small_pool.freed', 44548875), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2075752573488128), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2075751759274496), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2066590614535680), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2066589849845248), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 9161958952448), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.5686, Acc: 0.8496
Val and misc time: 75.98429369926453
Total time: 895.9980795383453
Epoch 19/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1611, Acc: 0.9432
Train time: 819.9090349674225
OrderedDict([('active.all.allocated', 76732203), ('active.all.current', 722), ('active.all.freed', 76731481), ('active.all.peak', 1301), ('active.large_pool.allocated', 29697573), ('active.large_pool.current', 171), ('active.large_pool.freed', 29697402), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 47034630), ('active.small_pool.current', 551), ('active.small_pool.freed', 47034079), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2191691334486528), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2191690520272896), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2182018228712448), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2182017464022016), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 9673105774080), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.88it/s]


Val   loss: 0.6318, Acc: 0.8500
Val and misc time: 75.87814545631409
Total time: 895.7873003482819
Epoch 20/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1524, Acc: 0.9455
Train time: 819.787341594696
OrderedDict([('active.all.allocated', 80787596), ('active.all.current', 722), ('active.all.freed', 80786874), ('active.all.peak', 1301), ('active.large_pool.allocated', 31267762), ('active.large_pool.current', 171), ('active.large_pool.freed', 31267591), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 49519834), ('active.small_pool.current', 551), ('active.small_pool.freed', 49519283), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2307630095484928), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2307629281271296), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2297445842889216), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2297445078198784), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 10184252595712), ('active_bytes.small_pool.current', 49523200), ('active_bytes.s

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.88it/s]


Val   loss: 0.6597, Acc: 0.8242
Val and misc time: 75.89291405677795
Total time: 895.6803998947144
Epoch 21/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1343, Acc: 0.9518
Train time: 819.7739100456238
OrderedDict([('active.all.allocated', 84842989), ('active.all.current', 722), ('active.all.freed', 84842267), ('active.all.peak', 1301), ('active.large_pool.allocated', 32837951), ('active.large_pool.current', 171), ('active.large_pool.freed', 32837780), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 52005038), ('active.small_pool.current', 551), ('active.small_pool.freed', 52004487), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2423568856483328), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2423568042269696), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2412873457065984), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2412872692375552), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 10695399417344), ('active_bytes.small_pool.current', 49523200), ('active_bytes.

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.6307, Acc: 0.8474
Val and misc time: 75.8194510936737
Total time: 895.5934863090515
Epoch 22/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1243, Acc: 0.9556
Train time: 819.5470404624939
OrderedDict([('active.all.allocated', 88898382), ('active.all.current', 722), ('active.all.freed', 88897660), ('active.all.peak', 1301), ('active.large_pool.allocated', 34408140), ('active.large_pool.current', 171), ('active.large_pool.freed', 34407969), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 54490242), ('active.small_pool.current', 551), ('active.small_pool.freed', 54489691), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2539507617481728), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2539506803268096), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2528301071242752), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2528300306552320), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 11206546238976), ('active_bytes.small_pool.current', 49523200), ('active_bytes.

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.87it/s]


Val   loss: 0.6814, Acc: 0.8451
Val and misc time: 75.95463871955872
Total time: 895.5017561912537
Epoch 23/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1170, Acc: 0.9582
Train time: 819.6728980541229
OrderedDict([('active.all.allocated', 92953775), ('active.all.current', 722), ('active.all.freed', 92953053), ('active.all.peak', 1301), ('active.large_pool.allocated', 35978329), ('active.large_pool.current', 171), ('active.large_pool.freed', 35978158), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 56975446), ('active.small_pool.current', 551), ('active.small_pool.freed', 56974895), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2655446378480128), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2655445564266496), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2643728685419520), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2643727920729088), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 11717693060608), ('active_bytes.small_pool.current', 49523200), ('active_bytes.

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.7035, Acc: 0.8268
Val and misc time: 75.77357697486877
Total time: 895.4466156959534
Epoch 24/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.1110, Acc: 0.9598
Train time: 819.5844931602478
OrderedDict([('active.all.allocated', 97009168), ('active.all.current', 722), ('active.all.freed', 97008446), ('active.all.peak', 1301), ('active.large_pool.allocated', 37548518), ('active.large_pool.current', 171), ('active.large_pool.freed', 37548347), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 59460650), ('active.small_pool.current', 551), ('active.small_pool.freed', 59460099), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2771385139478528), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2771384325264896), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2759156299596288), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2759155534905856), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 12228839882240), ('active_bytes.small_pool.current', 49523200), ('active_bytes.

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.7352, Acc: 0.8262
Val and misc time: 75.85430526733398
Total time: 895.4389634132385
Epoch 25/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0986, Acc: 0.9643
Train time: 819.792106628418
OrderedDict([('active.all.allocated', 101064561), ('active.all.current', 722), ('active.all.freed', 101063839), ('active.all.peak', 1301), ('active.large_pool.allocated', 39118707), ('active.large_pool.current', 171), ('active.large_pool.freed', 39118536), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 61945854), ('active.small_pool.current', 551), ('active.small_pool.freed', 61945303), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 2887323900476928), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 2887323086263296), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2874583913773056), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2874583149082624), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 12739986703872), ('active_bytes.small_pool.current', 49523200), ('active_bytes

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.6818, Acc: 0.8424
Val and misc time: 75.87059807777405
Total time: 895.6628155708313
Epoch 26/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0896, Acc: 0.9687
Train time: 819.5711622238159
OrderedDict([('active.all.allocated', 105119954), ('active.all.current', 722), ('active.all.freed', 105119232), ('active.all.peak', 1301), ('active.large_pool.allocated', 40688896), ('active.large_pool.current', 171), ('active.large_pool.freed', 40688725), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 64431058), ('active.small_pool.current', 551), ('active.small_pool.freed', 64430507), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3003262661475328), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3003261847261696), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 2990011527949824), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 2990010763259392), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 13251133525504), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.7226, Acc: 0.8327
Val and misc time: 75.77731513977051
Total time: 895.3486618995667
Epoch 27/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0812, Acc: 0.9703
Train time: 819.5205454826355
OrderedDict([('active.all.allocated', 109175347), ('active.all.current', 722), ('active.all.freed', 109174625), ('active.all.peak', 1301), ('active.large_pool.allocated', 42259085), ('active.large_pool.current', 171), ('active.large_pool.freed', 42258914), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 66916262), ('active.small_pool.current', 551), ('active.small_pool.freed', 66915711), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3119201422473728), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3119200608260096), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3105439142126592), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3105438377436160), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 13762280347136), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:15<00:00,  3.88it/s]


Val   loss: 0.7440, Acc: 0.8407
Val and misc time: 75.89843487739563
Total time: 895.4191315174103
Epoch 28/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0722, Acc: 0.9748
Train time: 819.2725274562836
OrderedDict([('active.all.allocated', 113230740), ('active.all.current', 722), ('active.all.freed', 113230018), ('active.all.peak', 1301), ('active.large_pool.allocated', 43829274), ('active.large_pool.current', 171), ('active.large_pool.freed', 43829103), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 69401466), ('active.small_pool.current', 551), ('active.small_pool.freed', 69400915), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3235140183472128), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3235139369258496), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3220866756303360), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3220865991612928), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 14273427168768), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.7638, Acc: 0.8378
Val and misc time: 75.795236825943
Total time: 895.0678911209106
Epoch 29/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0647, Acc: 0.9767
Train time: 819.3603148460388
OrderedDict([('active.all.allocated', 117286133), ('active.all.current', 722), ('active.all.freed', 117285411), ('active.all.peak', 1301), ('active.large_pool.allocated', 45399463), ('active.large_pool.current', 171), ('active.large_pool.freed', 45399292), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 71886670), ('active.small_pool.current', 551), ('active.small_pool.freed', 71886119), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3351078944470528), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3351078130256896), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3336294370480128), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3336293605789696), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 14784573990400), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.8413, Acc: 0.8427
Val and misc time: 75.7714855670929
Total time: 895.1319446563721
Epoch 30/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0700, Acc: 0.9755
Train time: 819.2539167404175
OrderedDict([('active.all.allocated', 121341526), ('active.all.current', 722), ('active.all.freed', 121340804), ('active.all.peak', 1301), ('active.large_pool.allocated', 46969652), ('active.large_pool.current', 171), ('active.large_pool.freed', 46969481), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 74371874), ('active.small_pool.current', 551), ('active.small_pool.freed', 74371323), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3467017705468928), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3467016891255296), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3451721984656896), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3451721219966464), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 15295720812032), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.89it/s]


Val   loss: 0.8063, Acc: 0.8443
Val and misc time: 75.7565689086914
Total time: 895.0106098651886
Epoch 31/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0649, Acc: 0.9765
Train time: 819.0751574039459
OrderedDict([('active.all.allocated', 125396919), ('active.all.current', 722), ('active.all.freed', 125396197), ('active.all.peak', 1301), ('active.large_pool.allocated', 48539841), ('active.large_pool.current', 171), ('active.large_pool.freed', 48539670), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 76857078), ('active.small_pool.current', 551), ('active.small_pool.freed', 76856527), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3582956466467328), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3582955652253696), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3567149598833664), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3567148834143232), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 15806867633664), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.89it/s]


Val   loss: 0.8471, Acc: 0.8454
Val and misc time: 75.79510474205017
Total time: 894.8704011440277
Epoch 32/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0561, Acc: 0.9805
Train time: 819.0176301002502
OrderedDict([('active.all.allocated', 129452312), ('active.all.current', 722), ('active.all.freed', 129451590), ('active.all.peak', 1301), ('active.large_pool.allocated', 50110030), ('active.large_pool.current', 171), ('active.large_pool.freed', 50109859), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 79342282), ('active.small_pool.current', 551), ('active.small_pool.freed', 79341731), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3698895227465728), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3698894413252096), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3682577213010432), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3682576448320000), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 16318014455296), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.8298, Acc: 0.8377
Val and misc time: 75.8245005607605
Total time: 894.8422756195068
Epoch 33/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0494, Acc: 0.9826
Train time: 819.1623313426971
OrderedDict([('active.all.allocated', 133507705), ('active.all.current', 722), ('active.all.freed', 133506983), ('active.all.peak', 1301), ('active.large_pool.allocated', 51680219), ('active.large_pool.current', 171), ('active.large_pool.freed', 51680048), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 81827486), ('active.small_pool.current', 551), ('active.small_pool.freed', 81826935), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3814833988464128), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3814833174250496), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3798004827187200), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3798004062496768), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 16829161276928), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.9603, Acc: 0.8460
Val and misc time: 75.7510335445404
Total time: 894.9135015010834
Epoch 34/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0456, Acc: 0.9848
Train time: 819.2689247131348
OrderedDict([('active.all.allocated', 137563098), ('active.all.current', 722), ('active.all.freed', 137562376), ('active.all.peak', 1301), ('active.large_pool.allocated', 53250408), ('active.large_pool.current', 171), ('active.large_pool.freed', 53250237), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 84312690), ('active.small_pool.current', 551), ('active.small_pool.freed', 84312139), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 3930772749462528), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 3930771935248896), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 3913432441363968), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 3913431676673536), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 17340308098560), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.89it/s]


Val   loss: 0.8358, Acc: 0.8536
Val and misc time: 75.76038956642151
Total time: 895.0294270515442
Epoch 35/100


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1163/1163 [13:39<00:00,  1.42it/s]


Train loss: 0.0428, Acc: 0.9848
Train time: 819.1415586471558
OrderedDict([('active.all.allocated', 141618491), ('active.all.current', 722), ('active.all.freed', 141617769), ('active.all.peak', 1301), ('active.large_pool.allocated', 54820597), ('active.large_pool.current', 171), ('active.large_pool.freed', 54820426), ('active.large_pool.peak', 455), ('active.small_pool.allocated', 86797894), ('active.small_pool.current', 551), ('active.small_pool.freed', 86797343), ('active.small_pool.peak', 923), ('active_bytes.all.allocated', 4046711510460928), ('active_bytes.all.current', 814213632), ('active_bytes.all.freed', 4046710696247296), ('active_bytes.all.peak', 21219656192), ('active_bytes.large_pool.allocated', 4028860055540736), ('active_bytes.large_pool.current', 764690432), ('active_bytes.large_pool.freed', 4028859290850304), ('active_bytes.large_pool.peak', 21118613504), ('active_bytes.small_pool.allocated', 17851454920192), ('active_bytes.small_pool.current', 49523200), ('active_byte

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [01:14<00:00,  3.88it/s]


Val   loss: 0.8693, Acc: 0.8420
Val and misc time: 75.82216811180115
Total time: 894.9638381004333
Epoch 36/100


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 1040/1163 [12:12<01:26,  1.42it/s]