In [1]:
# pytorch imports
import torch
import torch.nn as nn
import torch.optim as optim
from torch.autograd import Variable
from torchvision import datasets, models, transforms
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms, utils


In [2]:
# general imports
from shutil import rmtree
import os
import time

In [3]:
# data science imports
import csv

In [4]:
import cxr_dataset as CXR
import eval_model as E

In [5]:
use_gpu = torch.cuda.is_available()
gpu_count = torch.cuda.device_count()
print("Números de GPUs ativas:" + str(gpu_count))

Números de GPUs ativas:1


In [6]:
def checkpoint(model, best_loss, epoch, LR):
    """
    Salvando o checkpoint do modelo

    Args:
        model: modelo a ser salvo
        best_loss: melhor loss obtido até o momento
        epoch: número da epoch atual
        LR: learning rate atual
    Returns:
        None
    """

    print('Salvando checkpoint...')
    state = {
        'model': model,
        'best_loss': best_loss,
        'epoch': epoch,
        'rng_state': torch.get_rng_state(),
        'LR': LR
    }

    torch.save(state, 'results/checkpoint')

In [7]:
from tqdm import tqdm

def train_model(
        model,
        criterion,
        optimizer,
        LR,
        num_epochs,
        dataloaders,
        dataset_sizes,
        weight_decay):
    """
    Ajusta um modelo torchvision para dados CXR da NIH.

    Args:
        model: modelo torchvision a ser ajustado (densenet-121 neste caso)
        criterion: critério de perda (perda de entropia cruzada binária, BCELoss)
        optimizer: otimizador a ser usado no treinamento (SGD)
        LR: taxa de aprendizado
        num_epochs: continuar o treinamento até este número de epochs
        dataloaders: dataloaders de treinamento e validação do PyTorch
        dataset_sizes: comprimento dos datasets de treinamento e validação
        weight_decay: parâmetro de decaimento de peso que usamos no SGD com momentum
    Returns:
        model: modelo torchvision treinado
        best_epoch: epoch em que a melhor perda de validação do modelo foi obtida

    """
    since = time.time()

    start_epoch = 1
    best_loss = 999999
    best_epoch = -1
    last_train_loss = -1

    # iterar sobre as epochs
    for epoch in range(start_epoch, num_epochs + 1):
        print('epoch {}/{}'.format(epoch, num_epochs))
        print('-' * 10)

        # definir o modelo para o modo de treinamento ou avaliação com base em
        # se estamos no treinamento ou na validação; necessário para obter previsões corretas dada a batchnorm
        for phase in ['train', 'val']:
            if phase == 'train':
                model.train(True)
            else:
                model.train(False)

            running_loss = 0.0

            i = 0
            total_done = 0
            # iterar sobre todos os dados no dataloader de treinamento/validação:
            for data in tqdm(dataloaders[phase]):
                i += 1
                inputs, labels, _ = data
                batch_size = inputs.shape[0]
                inputs = Variable(inputs.cuda())
                labels = Variable(labels.cuda()).float()
                outputs = model(inputs)

                # calcular o gradiente e atualizar os parâmetros na fase de treinamento
                optimizer.zero_grad()
                loss = criterion(outputs, labels)
                if phase == 'train':
                    loss.backward()
                    optimizer.step()

                running_loss += loss.data * batch_size

            epoch_loss = running_loss / dataset_sizes[phase]

            if phase == 'train':
                last_train_loss = epoch_loss

            print(phase + ' epoch {}:loss {:.4f} with data size {}'.format(
                epoch, epoch_loss, dataset_sizes[phase]))

            # diminuir a taxa de aprendizado se não houver melhoria na perda de validação nesta epoch
            if phase == 'val' and epoch_loss > best_loss:
                print("diminuindo a taxa de aprendizado de " + str(LR) + " para " +
                      str(LR / 10) + " pois não estamos vendo melhoria na perda de validação")
                LR = LR / 10
                # criar um novo otimizador com uma taxa de aprendizado menor
                optimizer = optim.SGD(
                    filter(
                        lambda p: p.requires_grad,
                        model.parameters()),
                    lr=LR,
                    momentum=0.9,
                    weight_decay=weight_decay)
                print("criado novo otimizador com taxa de aprendizado " + str(LR))

            # salvar um checkpoint do modelo se tiver a melhor perda de validação até agora
            if phase == 'val' and epoch_loss < best_loss:
                best_loss = epoch_loss
                best_epoch = epoch
                checkpoint(model, best_loss, epoch, LR)

            # registrar a perda de treinamento e validação em cada epoch
            if phase == 'val':
                with open("results/log_train", 'a') as logfile:
                    logwriter = csv.writer(logfile, delimiter=',')
                    if(epoch == 1):
                        logwriter.writerow(["epoch", "train_loss", "val_loss"])
                    logwriter.writerow([epoch, last_train_loss, epoch_loss])

        total_done += batch_size
        if(total_done % (100 * batch_size) == 0):
            print("completado " + str(total_done) + " até agora na epoch")

        # interromper se não houver melhoria na perda de validação em 3 epochs
        if ((epoch - best_epoch) >= 3):
            print("sem melhoria em 3 epochs, interrompendo")
            break

    time_elapsed = time.time() - since
    print('Treinamento completo em {:.0f}m {:.0f}s'.format(
        time_elapsed // 60, time_elapsed % 60))

    # carregar os melhores pesos do modelo para retornar
    checkpoint_best = torch.load('results/checkpoint')
    model = checkpoint_best['model']

    return model, best_epoch

In [8]:
def train_cnn(PATH_TO_IMAGES, LR, WEIGHT_DECAY):
    """
    Treina um modelo torchvision com dados da NIH, dados hiperparâmetros de alto nível.

    Args:
        PATH_TO_IMAGES: caminho para as imagens da NIH
        LR: taxa de aprendizado
        WEIGHT_DECAY: parâmetro de decaimento de peso para SGD

    Returns:
        preds: previsões do modelo torchvision no conjunto de teste com a verdadeira para comparação
        aucs: AUCs para cada par de treino e teste

    """
    NUM_EPOCHS = 20
    BATCH_SIZE = 14

    try:
        rmtree('results/')
    except BaseException:
        pass  # o diretório ainda não existe, não há necessidade de limpá-lo
    os.makedirs("results/")

    # use a média e o desvio padrão do ImageNet para normalização
    mean = [0.485, 0.456, 0.406]
    std = [0.229, 0.224, 0.225]

    N_LABELS = 14  # estamos prevendo 14 rótulos

    # defina as transformações torchvision
    data_transforms = {
        'train': transforms.Compose([
            transforms.RandomHorizontalFlip(),
            transforms.Resize(224),
            # porque o redimensionamento nem sempre dá 224 x 224, isso garante 224 x 224
            transforms.CenterCrop(224),
            transforms.ToTensor(),
            transforms.Normalize(mean, std)
        ]),
        'val': transforms.Compose([
            transforms.Resize(224),
            transforms.CenterCrop(224),
            transforms.ToTensor(),
            transforms.Normalize(mean, std)
        ]),
    }

    # crie dataloaders de treino/val
    transformed_datasets = {}
    transformed_datasets['train'] = CXR.CXRDataset(
        path_to_images=PATH_TO_IMAGES,
        fold='train',
        transform=data_transforms['train'])
    transformed_datasets['val'] = CXR.CXRDataset(
        path_to_images=PATH_TO_IMAGES,
        fold='val',
        transform=data_transforms['val'])

    dataloaders = {}
    dataloaders['train'] = torch.utils.data.DataLoader(
        transformed_datasets['train'],
        batch_size=BATCH_SIZE,
        shuffle=True,
        num_workers=8)
    dataloaders['val'] = torch.utils.data.DataLoader(
        transformed_datasets['val'],
        batch_size=BATCH_SIZE,
        shuffle=True,
        num_workers=8)
    
    
    if not use_gpu:
        raise ValueError("Erro, requer GPU")
    
    model = models.densenet121(weights='DEFAULT')
    num_ftrs = model.classifier.in_features
    # adicione a camada final com # de saídas na mesma dimensão dos rótulos com ativação sigmoidal
    model.classifier = nn.Sequential(
        nn.Linear(num_ftrs, N_LABELS), nn.Sigmoid())

    # coloque o modelo na GPU
    model = model.cuda()

    # defina o critério, otimizador para treinamento
    criterion = nn.BCELoss()
    optimizer = optim.SGD(
        filter(
            lambda p: p.requires_grad,
            model.parameters()),
        lr=LR,
        momentum=0.9,
        weight_decay=WEIGHT_DECAY)
    dataset_sizes = {x: len(transformed_datasets[x]) for x in ['train', 'val']}

    # treine o modelo
    model, best_epoch = train_model(model, criterion, optimizer, LR, num_epochs=NUM_EPOCHS,
                                    dataloaders=dataloaders, dataset_sizes=dataset_sizes, weight_decay=WEIGHT_DECAY)

    # obtenha previsões e AUCs no conjunto de teste
    preds, aucs = E.make_pred_multilabel(
        data_transforms, model, PATH_TO_IMAGES)

    return preds, aucs

In [9]:
PATH_TO_IMAGES = "./images/"
WEIGHT_DECAY = 1e-4
LEARNING_RATE = 0.01
preds, aucs = train_cnn(PATH_TO_IMAGES, LEARNING_RATE, WEIGHT_DECAY)

epoch 1/20
----------


100%|██████████| 72/72 [00:25<00:00,  2.82it/s]


train epoch 1:loss 0.2166 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.97it/s]


val epoch 1:loss 0.1755 with data size 1000
Salvando checkpoint...
epoch 2/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.18it/s]


train epoch 2:loss 0.1651 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.98it/s]


val epoch 2:loss 0.1744 with data size 1000
Salvando checkpoint...
epoch 3/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.19it/s]


train epoch 3:loss 0.1545 with data size 1000


100%|██████████| 72/72 [00:17<00:00,  4.01it/s]


val epoch 3:loss 0.1710 with data size 1000
Salvando checkpoint...
epoch 4/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.17it/s]


train epoch 4:loss 0.1436 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.94it/s]


val epoch 4:loss 0.1722 with data size 1000
diminuindo a taxa de aprendizado de 0.01 para 0.001 pois não estamos vendo melhoria na perda de validação
criado novo otimizador com taxa de aprendizado 0.001
epoch 5/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.18it/s]


train epoch 5:loss 0.1310 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.92it/s]


val epoch 5:loss 0.1703 with data size 1000
Salvando checkpoint...
epoch 6/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.18it/s]


train epoch 6:loss 0.1277 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.93it/s]


val epoch 6:loss 0.1712 with data size 1000
diminuindo a taxa de aprendizado de 0.001 para 0.0001 pois não estamos vendo melhoria na perda de validação
criado novo otimizador com taxa de aprendizado 0.0001
epoch 7/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.22it/s]


train epoch 7:loss 0.1256 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.94it/s]


val epoch 7:loss 0.1698 with data size 1000
Salvando checkpoint...
epoch 8/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.20it/s]


train epoch 8:loss 0.1250 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.99it/s]


val epoch 8:loss 0.1703 with data size 1000
diminuindo a taxa de aprendizado de 0.0001 para 1e-05 pois não estamos vendo melhoria na perda de validação
criado novo otimizador com taxa de aprendizado 1e-05
epoch 9/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.23it/s]


train epoch 9:loss 0.1254 with data size 1000


100%|██████████| 72/72 [00:18<00:00,  3.99it/s]


val epoch 9:loss 0.1712 with data size 1000
diminuindo a taxa de aprendizado de 1e-05 para 1.0000000000000002e-06 pois não estamos vendo melhoria na perda de validação
criado novo otimizador com taxa de aprendizado 1.0000000000000002e-06
epoch 10/20
----------


100%|██████████| 72/72 [00:22<00:00,  3.24it/s]


train epoch 10:loss 0.1250 with data size 1000


100%|██████████| 72/72 [00:17<00:00,  4.01it/s]


val epoch 10:loss 0.1707 with data size 1000
diminuindo a taxa de aprendizado de 1.0000000000000002e-06 para 1.0000000000000002e-07 pois não estamos vendo melhoria na perda de validação
criado novo otimizador com taxa de aprendizado 1.0000000000000002e-07
sem melhoria em 3 epochs, interrompendo
Treinamento completo em 6m 50s
0
160
320
480
640
800
960
