In [1]:
import torch
from torchvision.datasets import ImageFolder
from torchvision import transforms
# from imgaug import augmenters as iaa
import torchvision
from torch.utils.data import Dataset

from torchsummary import summary
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

import numpy as np
from tqdm import tqdm

device = "cpu"

if torch.cuda.is_available():
    device = "cuda"

print(device)

## Definición de clases

In [2]:
dic = {0: 'Daffodil', 1: 'Snowdrop', 2: 'Daisy', 3: 'ColtsFoot', 4: 'Dandelion', \
       5: 'Cowslip', 6: 'Buttercup', 7: 'Windflower', 8: 'Pansy', 9:'LilyValley', \
       10: 'Bluebell', 11: 'Crocus', 12: 'Iris', 13: 'Tigerlily', 14:'Tulip', \
       15: 'Fritillary', 16: 'Sunflower'}

In [3]:
num_classes = len(dic)

## Partición del conjunto de entrenamiento y validación

Para definir los conjuntos de entrenamiento y validación, ocupamos la clase ``ImageFolder``, esta nos genera un objeto que le da la estructura necesaria para el entrenamineto (imagen, etiqueta), recibe la ruta de donde obtendremos las imagenes y se le puede añadir una transformación. 

In [4]:
dataset = ImageFolder('./17flowers/jpg', transform=transforms.Resize((224,224)))
batch_size = 16
num_workers = 0
valid_size = .2

Usamos la clase ``Subset`` de ``torch.utils`` para separar los datos en el conjunto de entrenamiento y validación.

In [8]:
# obtain training indices that will be used for validation
n_samples = len(dataset)
indices = list(range(n_samples))
np.random.shuffle(indices)
split = int(np.floor(valid_size * n_samples))
train_idx, valid_idx = indices[split:], indices[:split]

train_set = torch.utils.data.Subset(dataset, train_idx)
val_set = torch.utils.data.Subset(dataset, valid_idx)

La siguiente clase únicamente la definimos para transformar las imagenes del conjunto de validación en tensores.

In [7]:
class Dataset_tf(Dataset):
    
    def __init__(self, dataset, transform=None):
        self.dataset = dataset
        self.transform = transform
        
    def __getitem__(self, index):
        image, target = self.dataset[index]
        if self.transform:
            image = self.transform(image)
        return image, target
    
    def __len__(self):
        return len(self.dataset)
            

### Data augmentation

Tener un conjunto de datos extenso puede ser crucial para el desempeño de una red neuronal, pero muchas veces esto no es posible, una alternativa para mejorar el entrenamiento cuando no se poseen muchos datos es usar *data augmentation*. Una técnica muy común es aplicar una serie de transformaciones de forma aleatoria a cada elemento de un batch, de tal forma que en cada época se puedan obtener cierta variabilidad con respecto a los datos originales. 

En Pytorch, es posible usar esta tecnica. Existen muchas maneras de hacerlo, puede ocuparse el módulo ``transforms`` que vimos anteriormente o adicionalmente incluir alguna biblioteca para transformar imagenes. En este ejemplo usaremos 
``imgaug``, este es un módulo muy poderoso para *data augmentation*, contiene:

* Más de 60 augmenters y técnicas para modificar imágenes.

* Máscaras de segmentación, cajas de frontera, destacamiento de puntos y mapas de calor.

* Pipelines para augmentation.

Puede consultarse la documentación [aquí](https://imgaug.readthedocs.io/en/latest/). También puede consultarse un ejemplo muy simple donde muestra la integración con Pytorch [aquí](https://towardsdatascience.com/data-augmentation-for-deep-learning-4fe21d1a4eb9).

Definimos la siguiente transformación que usaremos para nuestro ejemplo:

In [5]:
from imgaug import augmenters as iaa

tfs = transforms.Compose([
    iaa.Sequential([
    iaa.Sometimes(0.5, iaa.GaussianBlur((0, 3.0))), # apply Gaussian blur with a sigma between 0 and 3 to 50% of the images
    # apply one of the augmentations: Dropout or CoarseDropout
    iaa.OneOf([
        iaa.Dropout((0.01, 0.1), per_channel=0.5), # randomly remove up to 10% of the pixels
        iaa.CoarseDropout((0.03, 0.15), size_percent=(0.02, 0.05), per_channel=0.2),
    ]),
    # apply from 0 to 3 of the augmentations from the list
    iaa.SomeOf((0, 3),[
        iaa.Sharpen(alpha=(0, 1.0), lightness=(0.75, 1.5)), # sharpen images
        iaa.Emboss(alpha=(0, 1.0), strength=(0, 2.0)), # emboss images
        iaa.Fliplr(1.0), # horizontally flip
        iaa.Sometimes(0.5, iaa.CropAndPad(percent=(-0.25, 0.25))), # crop and pad 50% of the images
        iaa.Sometimes(0.5, iaa.Affine(rotate=5)) # rotate 50% of the images
    ])
],
random_order=True # apply the augmentations in random order
).augment_image,
    transforms.ToTensor()
])

Note que el pipeline consiste de una serie de transformaciones que se aplican de forma aleatoria.

Será necesario definir una nueva clase llamada ``MapDataset`` que nos permita modificar las 
muestras durante el entrenamiento. Esta clase modifica el tamaño de nuestro conjunto, lo hace 
``n_copies`` más grande, la intención es que por cada muestra del conjunto original, el nuevo conjunto 
preserve una copia y haga tres copias transformadas de la original. De esta forma no sólo tendremos un
conjunto más grande, si no que en cada época no necesariamente se tendrán las mismas transformaciones, 
pero si preservaremos la imagenes originales durante todo el entrenamiento.

In [6]:
class MapDataset(Dataset):
    
    def __init__(self, dataset, transform=None, n_copies=4):
        self.dataset = dataset
        self.transform = transform
        self.n_copies = n_copies
        
    def __getitem__(self, index):
        image, target = self.dataset[index // self.n_copies]
        img = np.asarray(image)
        if (index % self.n_copies != 0) and self.transform:
            img = self.transform(img)
        else:
            img = transforms.ToTensor()(img)
            
        return img, target
        

    def __len__(self):
        return self.n_copies * len(self.dataset)

In [9]:
train_set_tf = MapDataset(train_set, tfs)
n_train = len(train_set_tf)

In [10]:
val_set_tf = Dataset_tf(val_set, transforms.ToTensor())
n_val = len(val_set_tf)

Finalmente, prepararamos los conjuntos para el loop de entreanamiento.

In [11]:
train_loader = torch.utils.data.DataLoader(train_set_tf, shuffle = True, batch_size=batch_size,
                                           num_workers=num_workers)
val_loader = torch.utils.data.DataLoader(val_set_tf, shuffle = True, batch_size=batch_size,
                                           num_workers=num_workers)

## Graficación de imágenes

In [None]:
def show(img):
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)), interpolation='nearest')

## Definición de Modelo

Para modelos populares, existen dos formas de definir la arquitectura, la primera es definir la red a partir del módulo ``torch.nn`` como vemos a continuación,

In [12]:
class AlexNet(nn.Module):
    def __init__(self, num_classes=17):
        super(AlexNet, self).__init__()
        self.conv_base = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2, bias=False),
            nn.BatchNorm2d(96),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            
            nn.Conv2d(96, 256, kernel_size=5, stride=1, padding=2, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            
            nn.Conv2d(256, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            
            nn.Conv2d(384, 384, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            
            nn.Conv2d(384, 256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.fc_base = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256*6*6, 4096),
            nn.ReLU(inplace=True),
            
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            
            nn.Linear(4096, num_classes),
        )
        
    def forward(self, x):
        x = self.conv_base(x)
        x = x.view(x.size(0), 256*6*6)
        x = self.fc_base(x)
        return x

In [13]:
oxModel = AlexNet(num_classes)
oxModel = oxModel.to(device)

In [14]:
summary(oxModel, (3,224,224))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Conv2d-1           [-1, 96, 55, 55]          34,848
       BatchNorm2d-2           [-1, 96, 55, 55]             192
              ReLU-3           [-1, 96, 55, 55]               0
         MaxPool2d-4           [-1, 96, 27, 27]               0
            Conv2d-5          [-1, 256, 27, 27]         614,400
       BatchNorm2d-6          [-1, 256, 27, 27]             512
              ReLU-7          [-1, 256, 27, 27]               0
         MaxPool2d-8          [-1, 256, 13, 13]               0
            Conv2d-9          [-1, 384, 13, 13]         885,120
             ReLU-10          [-1, 384, 13, 13]               0
           Conv2d-11          [-1, 384, 13, 13]       1,327,488
             ReLU-12          [-1, 384, 13, 13]               0
           Conv2d-13          [-1, 256, 13, 13]         884,992
             ReLU-14          [-1, 256,

Otra forma es ocupar la arquitectura ya denida en ``torchvison.models``,

In [15]:
import torchvision.models as models

mynet = models.alexnet()
summary(mynet, (3, 224, 224))

Pero la primera forma resulta más cómoda, pues es posible personalizar la aquitectura, de tal forma que podamos agreagar *Batch normalization*, *Dropouyt*, entre otros. En nuestro ejemplo ocuparemos la primera opción.

###  Definición de optimizador y función de costos

In [16]:
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(oxModel.parameters(), lr=0.001, weight_decay=0.0005)

## Entrenamiento

In [17]:
import time
EPOCHS = 50

train_time = 0
epoch_loss = []
epoch_acc = []
val_loss = []
val_acc = []

In [18]:
def training_loop(train_loader, model, optimizer, loss_function, pbar, valid=False):
    running_loss = 0.0
    correct = 0
    total = 0
    if valid: 
        model.eval()
    for i, data in enumerate(train_loader, 0):
        X, Y = data
        X = X.to(device)
        Y = Y.to(device)
        n_update = Y.shape[0]
        if not valid:
            optimizer.zero_grad()
            
        pred = model(X)
        loss = loss_function(pred, Y)
        if not valid:
            loss.backward() 
            optimizer.step()
            
        running_loss += loss.item()
        
        avg_loss = running_loss/(i + 1)
        
        probs = F.softmax(pred, 1)
        label = torch.argmax(probs, dim=1)
        correct += torch.sum(label == Y).item()
        total += Y.shape[0]
        acc = correct/total
        
        pbar.set_postfix(avg_loss='{:.4f}'.format(avg_loss), acc='{:.4f}'.format(acc))
        pbar.update(Y.shape[0])
        
    return avg_loss, acc

In [None]:

for epoch in range(EPOCHS):
    start_time = time.time()
    with tqdm(total = n_train, position=0) as pbar_train:
        pbar_train.set_description(f'Epoch {epoch + 1}/'+str(EPOCHS)+' - training')
        pbar_train.set_postfix(avg_loss='0.0', acc='0.0')
        loss_train, acc_train = training_loop(train_loader, oxModel, optimizer, criterion, pbar_train, valid=False)
        train_time +=  time.time() - start_time
    with tqdm(total = n_val, position=0) as pbar_val:
        pbar_val.set_description(f'Epoch {epoch +1}/'+str(EPOCHS)+' - validation')
        pbar_val.set_postfix(avg_loss='0.0', acc='0.0')
        loss_val, acc_val = training_loop(val_loader, oxModel, None, criterion, pbar_val, valid=True)
    
    epoch_loss.append(loss_train)
    epoch_acc.append(acc_train)
    val_loss.append(loss_val)
    val_acc.append(acc_val)

print("--- %s minutes ---", train_time)

Epoch 1/50 - training: 100%|██████████| 4352/4352 [10:16<00:00,  7.06it/s, acc=0.0551, avg_loss=2.8918]
Epoch 1/50 - validation: 100%|██████████| 272/272 [00:10<00:00, 25.03it/s, acc=0.0515, avg_loss=2.8361]
Epoch 2/50 - training: 100%|██████████| 4352/4352 [10:13<00:00,  7.09it/s, acc=0.0565, avg_loss=2.8332]
Epoch 2/50 - validation: 100%|██████████| 272/272 [00:10<00:00, 26.04it/s, acc=0.0478, avg_loss=2.8378]
Epoch 3/50 - training: 100%|██████████| 4352/4352 [11:02<00:00,  6.57it/s, acc=0.0584, avg_loss=2.8331]
Epoch 3/50 - validation: 100%|██████████| 272/272 [00:10<00:00, 25.52it/s, acc=0.0441, avg_loss=2.8396]
Epoch 4/50 - training: 100%|██████████| 4352/4352 [11:27<00:00,  6.33it/s, acc=0.0535, avg_loss=2.8328]
Epoch 4/50 - validation: 100%|██████████| 272/272 [00:10<00:00, 25.57it/s, acc=0.0441, avg_loss=2.8408]
Epoch 5/50 - training: 100%|██████████| 4352/4352 [14:54<00:00,  4.87it/s, acc=0.0600, avg_loss=2.8328]
Epoch 5/50 - validation: 100%|██████████| 272/272 [00:10<00:00, 

In [None]:
plt.plot(epoch_acc)
plt.plot(val_acc)
plt.title('model accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()

In [None]:
plt.plot(epoch_loss)
plt.plot(val_loss)
plt.title('model loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()