# Problemas

Nesta prática, iremos usar tudo que aprendemos durante o módulo.
Logo, **seu objetivo é determinar e implementar um modelo para cada problema.**

Lembre-se de definir:

1. O Dataloader, tratando a forma de ler as imagens de cada dataset, experimentando transformações diferentes (resize, crop, flips e etc.);
2. Uma arquitetura (tentem usar tanto arquiteturas existentes como propor novas usando camadas de convolução, pooling, e densas);
3. Uma função de custo;
4. Uma algoritmo de otimização (agora, como os problemas são maiores, será possível notar mais claramente a diferença entre diferentes algoritmos).

## Configuração do ambiente

In [None]:
import time, os, sys, numpy as np
import torch
import torchvision
import torch.nn as nn
import torch.nn.functional as F

import PIL
from PIL import Image
from torch import optim
from torchsummary import summary

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
n = torch.cuda.device_count()
devices_ids= list(range(n))

## Funções auxiliares

In [None]:
def evaluate_accuracy(data_iter, net, loss):
    acc_sum, n, l = torch.Tensor([0]), 0, 0
    net.eval()

    with torch.no_grad():
      for X, y in data_iter:
          X, y = X.to(device), y.to(device)
          y_hat = net(X)
          l += loss(y_hat, y).sum()
          acc_sum += (y_hat.argmax(axis=1) == y).sum().item()
          n += y.size()[0]

    return acc_sum.item() / n, l.item() / len(data_iter)

def train_validate(net, train_iter, test_iter, batch_size, trainer, loss, num_epochs):
    print('training on', device)

    for epoch in range(num_epochs):
        net.train()
        train_l_sum, train_acc_sum, n, start = 0.0, 0.0, 0, time.time()

        for X, y in train_iter:
            X, y = X.to(device), y.to(device)
            y_hat = net(X)
            trainer.zero_grad()
            l = loss(y_hat, y).sum()
            l.backward()
            trainer.step()
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(axis=1) == y).sum().item()
            n += y.size()[0]

        test_acc, test_loss = evaluate_accuracy(test_iter, net, loss)

        print('epoch %d, train loss %.4f, train acc %.3f, test loss %.4f, '
              'test acc %.3f, time %.1f sec'
              % (epoch + 1, train_l_sum / len(train_iter), train_acc_sum / n, test_loss, test_acc, time.time() - start))

## Problema 1

Neste problema, classificaremos imagens histólogicas do dataset [*Colorectal Histology*](https://www.kaggle.com/kmader/colorectal-histology-mnist).
Neste caso, vamos receber imagens com tamanho de $150\times 150$ pixels e classificá-las entre 8 classes:

1. tumor
2. stroma
3. complex
4. lympho
5. debris
6. mucosa
7. adipose
8. empty

In [None]:
# Baixando o dataset
!wget https://www.dropbox.com/s/k0f6vxyhcr6gh1r/Kather_texture_2016_image_tiles_5000.zip
!unzip -q Kather_texture_2016_image_tiles_5000.zip

A função `read_images` lê as imagens do dataset.
Este dataset divide em pastas as imagens de cada classe correspondente. Portanto, vamos percorrer essas pastas, adicionando as primeiras 500 imagens para o conjunto de treino. O restante das imagens (a partir da 500) são adicionadas na validação.

O label é definido de acordo com o nome da pasta pelo dicionário self.le definido abaixo. Por exemplo: a pasta 01_TUMOR vai ser correspondente ao self.le['tumor'], que é igual a 0.

In [None]:
class HistologyDataset(torch.utils.data.Dataset):
    def __init__(self, root, transform, train=False, calc_norm=True, has_norm=True):
        self.root = root
        self.train = train
        self.calc_norm = calc_norm
        self.has_norm = has_norm
        # Dicionário para definir o label de cada classe
        self.le = {'tumor': 0, 'stroma': 1, 'complex': 2, 'lympho': 3, 'debris': 4, 'mucosa': 5, 'adipose': 6, 'empty': 7}
        self.transform = transform
        self.load_images()

    def load_images(self):
        self.img_list, self.labels = self.read_images(root=self.root)

    def read_images(self, root):
        img_list, labels = [], []

        if self.train is True:
          for folder in os.listdir(self.root):
            for num, img_name in enumerate(os.listdir(os.path.join(self.root, folder))):
                if num < 500:
                  img_list.append(os.path.join(self.root, folder, img_name))
                  labels.append(self.le[folder.split('_')[1].lower()])
        else:
          for folder in os.listdir(os.path.join(self.root)):
            for num, img_name in enumerate(os.listdir(os.path.join(self.root, folder))):
                if num >= 500:
                  img_list.append(os.path.join(self.root, folder, img_name))
                  labels.append(self.le[folder.split('_')[1].lower()])

        return img_list, labels

    def __getitem__(self, item):
        # Retorna uma imagem para o treino/teste
        if self.has_norm is True:
            # Normaliza a imagem se has_norm for setado como True
            cur_img = self.normalize_image(self.transform(Image.open(self.img_list[item])))
        else:
            # Apenas converte a imagem para tensor, sem normalizar
            cur_img = self.transform(Image.open(self.img_list[item]))
        cur_label = self.labels[item]

        return cur_img, cur_label

    def __len__(self):
        return len(self.img_list)

    def normalize_image(self, img):
        # Normaliza uma imagem
        # Se calc_norm for True, normaliza pela subtração da média dividida pelo desvio para cada canal da imagem
        # Se calc_norm for False, normaliza pelos valores pré-definidos de média e desvio padrão

        if self.calc_norm is True:
            for i in range(img.shape[0]):
                mu = img[i, :, :].mean()
                std = img[i, :, :].std()
                img[i, :, :] = ((img[i, :, :] - mu) / std)
        else:
            img = torchvision.transforms.functional.normalize(img,
                                                              mean=torch.Tensor([0.485, 0.456, 0.406]),
                                                              std=torch.Tensor([0.229, 0.224, 0.225]))
        return img

def load_data(dataset, root, batch_size, resize=None):
    # O transformer define a sequência de transformações que serão aplicadas na imagem
    # Neste caso, a sequência é um redimensionamento da imagem (caso a variável resize seja definida)
    # Seguido de uma transformação para tensor
    # Várias outras transformações estão disponíveis no Pytorch, como crops, flips, espelhamento e etc.

    transformer = []
    if resize is not None:
        transformer += [torchvision.transforms.Resize(size=(resize,resize))]
    transformer += [torchvision.transforms.ToTensor()]
    transformer = torchvision.transforms.Compose(transformer)

    train = dataset(root=root, transform=transformer, train=True)
    test = dataset(root=root, transform=transformer, train=False)
    num_workers = 0 if sys.platform.startswith('win32') else 4

    train_iter = torch.utils.data.DataLoader(train,
                                             batch_size, shuffle=True,
                                             num_workers=num_workers)

    test_iter = torch.utils.data.DataLoader(test,
                                            batch_size, shuffle=False,
                                            num_workers=num_workers)

    return train_iter, test_iter

batch_size = 64
train_iter, test_iter = load_data(HistologyDataset, 'Kather_texture_2016_image_tiles_5000', batch_size, resize=None)

In [None]:
# Implemente aqui sua rede e definição de loss e otimizador

# Experimente criar redes do zero com o conhecimento adquirido no curso até agora
# Experimente também replicar redes já estabelecidas (alexnet, lenet, vgg e etc)
# Experimente também utilizar as redes pré-treinadas já implementadas no torchvision
# Para o caso de rede pré-treinada, lembre-se de modificar a saída da rede para o número de classes do problema

In [None]:
train_validate(model, train_iter, test_iter, batch_size, optimizer, loss, num_epochs)

## Problema 2

Neste problema, classificaremos imagens de sensoriamento remoto de plantações de café do dataset público [Brazilian Coffee Scenes](http://www.patreo.dcc.ufmg.br/2017/11/12/brazilian-coffee-scenes-dataset/).
Neste caso, , vamos receber imagens de $64\times 64$ pixels e classificá-las entre duas classes:

1. café;
2. não café.

In [None]:
# Baixando o dataset
!wget http://www.patreo.dcc.ufmg.br/wp-content/uploads/2017/11/brazilian_coffee_dataset.zip
!unzip -q brazilian_coffee_dataset.zip

Neste dataset, existem 5 pastas (fold1, fold2, ..., fold5) com as imagens, e existem 5 arquivos .txt (fold1.txt, fold2.txt, ..., fold5.txt) com o nome das imagens correspondentes.

Nos arquivos .txt, cada linha representa uma imagem seguindo o formato {classe}.{nome da img} sendo classe igual a coffee ou noncoffee (0 ou 1). Tratamos o nome das imagens de acordo com cada linha do arquivo (não esquecendo de adicionar o .jpg) e convertemos o label em 0 ou 1 dependendo da classe.

Vamos utilizar o fold 1 como validação e o restante dos folds como treino.

In [None]:
class CoffeeDataset(torch.utils.data.Dataset):
    def __init__(self, root, transform, train=False, calc_norm=True, has_norm=True):
        self.root = root
        self.train = train
        self.calc_norm = calc_norm
        self.has_norm = has_norm
        self.load_images()
        self.transform = transform

    def load_images(self):
        self.img_list, self.labels = self.read_images(root=self.root)

    def read_images(self, root):
        img_list, labels = [], []
        if self.train is True:
          for i in range(1,5):
            data_file = open(os.path.join(root, 'fold' + str(i+1) + '.txt'), "r")
            data_list = [i.replace('\n', '') for i in data_file.readlines()]
            for row in data_list:
                img_name = '.'.join(row.split('.')[1:])
                img_list.append(os.path.join(root, 'fold' + str(i+1), img_name + '.jpg'))
                labels.append(0 if row.split('.')[0] == 'coffee' else 1)
        else:
            data_file = open(os.path.join(root, 'fold1.txt'), "r")
            data_list = [i.replace('\n', '') for i in data_file.readlines()]
            for row in data_list:
                img_name = '.'.join(row.split('.')[1:])
                img_list.append(os.path.join(root, 'fold1', img_name + '.jpg'))
                labels.append(0 if row.split('.')[0] == 'coffee' else 1)

        return img_list, labels

    def __getitem__(self, item):
        if self.has_norm is True:
            cur_img = self.normalize_image(self.transform(Image.open(self.img_list[item])))
        else:
            cur_img = self.transform(Image.open(self.img_list[item]))
        cur_label = self.labels[item]

        return cur_img, cur_label

    def __len__(self):
        return len(self.img_list)

    def normalize_image(self, img):
        if self.calc_norm is True:
            for i in range(img.shape[0]):
                mu = img[i, :, :].mean()
                std = img[i, :, :].std()
                img[i, :, :] = ((img[i, :, :] - mu) / std)
        else:
            img = torchvision.transforms.functional.normalize(img,
                                                              mean=torch.Tensor([0.485, 0.456, 0.406]),
                                                              std=torch.Tensor([0.229, 0.224, 0.225]))
        return img

def load_data(dataset, root, batch_size, resize=None):
    transformer = []
    if resize is not None:
        transformer += [torchvision.transforms.Resize(size=(resize,resize))]
    transformer += [torchvision.transforms.ToTensor()]
    transformer = torchvision.transforms.Compose(transformer)

    train = dataset(root=root, transform=transformer, train=True)
    test = dataset(root=root, transform=transformer, train=False)
    num_workers = 0 if sys.platform.startswith('win32') else 4

    train_iter = torch.utils.data.DataLoader(train,
                                             batch_size, shuffle=True,
                                             num_workers=num_workers)

    test_iter = torch.utils.data.DataLoader(test,
                                            batch_size, shuffle=False,
                                            num_workers=num_workers)

    return train_iter, test_iter

batch_size = 64
train_iter, test_iter = load_data(CoffeeDataset, 'brazilian_coffee_scenes', batch_size, resize=None)

In [None]:
# Implemente aqui sua rede e definição de loss e otimizador

# Experimente criar redes do zero com o conhecimento adquirido no curso até agora
# Experimente também replicar redes já estabelecidas (alexnet, lenet, vgg e etc)
# Experimente também utilizar as redes pré-treinadas já implementadas no torchvision
# Para o caso de rede pré-treinada, lembre-se de modificar a saída da rede para o número de classes do problema

In [None]:
train_validate(model, train_iter, test_iter, batch_size, optimizer, loss, num_epochs)

## Problema 3

Neste problema, classificaremos imagens gerais de sensoriamento remoto do dataset público [UCMerced](http://weegee.vision.ucmerced.edu/datasets/landuse.html).
Neste caso, vamos receber imagens de $256\times 256$ pixels e classificá-las entre 21 classes:

1. agricultural
1. airplane
1. baseballdiamond
1. beach
1. buildings
1. chaparral
1. denseresidential
1. forest
1. freeway
1. golfcourse
1. harbor
1. intersection
1. mediumresidential
1. mobilehomepark
1. overpass
1. parkinglot
1. river
1. runway
1. sparseresidential
1. storagetanks
1. tenniscourt

In [None]:
# Baixando o dataset
!wget http://weegee.vision.ucmerced.edu/datasets/UCMerced_LandUse.zip
!unzip -q UCMerced_LandUse.zip

Neste dataset, as imagens estão dividas em pastas com o nome da classe.

Uma sugestão é usar o `enumerate` do Python para percorrer essas pastas, atribuindo o valor do `enumerate` como label da classe. Outra opção é definir um dicionário com o label de cada classe como no exemplo do Colerectal Histology. Para cada pasta, selecione as primeiras 80 imagens para o treino e o restante para o teste.

In [None]:
class UCMercedDataset(torch.utils.data.Dataset):
    def __init__(self, root, transform, train=False, calc_norm=False, has_norm=True):
        self.root = root
        self.train = train
        self.calc_norm = calc_norm
        self.has_norm = has_norm
        self.transform = transform
        self.load_images()

    def load_images(self):
        self.img_list, self.labels = self.read_images(root=self.root)

    def read_images(self, root):
        # Implemente aqui a leitura das imagens

        img_list, labels = [], []

        # Para cada pasta, selecione as primeiras 80 imagens para o treino e o restante para o teste
        # ...

        return img_list, labels

    def __getitem__(self, item):
        # Implemente aqui o retorno de tratamento de cada imagem

        # Lembre-se de aplicar as transformações enviadas ao dataloader (principalmente o ToTensor)

        return img, label

    def __len__(self):
        return len(self.img_list)

    def normalize_image(self, img):
        if self.calc_norm is True:
            for i in range(img.shape[0]):
                mu = img[i, :, :].mean()
                std = img[i, :, :].std()
                img[i, :, :] = ((img[i, :, :] - mu) / std)
        else:
            img = torchvision.transforms.functional.normalize(img,
                                                              mean=torch.Tensor([0.485, 0.456, 0.406]),
                                                              std=torch.Tensor([0.229, 0.224, 0.225]))
        return img

def load_data(dataset, root, batch_size, resize=None):
    # Implemente aqui a definição das transformações e do Dataloader

    # O transformer define a sequência de transformações que serão aplicadas na imagem
    # A principal para o nosso caso é o ToTensor, que converte a imagem no formato lido para um tensor
    # Experimente transformações diferentes, como crops e flips
    # O resize pode ser necessário para datasets com imagems de tamanhos variados

    # Defina também o Dataloader de treino e teste

    return train_iter, test_iter

batch_size = 64
train_iter, test_iter = load_data(UCMercedDataset, os.path.join('UCMerced_LandUse', 'Images'), batch_size, resize=256)

In [None]:
# Implemente aqui sua rede e definição de loss e otimizador

# Experimente criar redes do zero com o conhecimento adquirido no curso até agora
# Experimente também replicar redes já estabelecidas (alexnet, lenet, vgg e etc)
# Experimente também utilizar as redes pré-treinadas já implementadas no torchvision
# Para o caso de rede pré-treinada, lembre-se de modificar a saída da rede para o número de classes do problema

In [None]:
train_validate(model, train_iter, test_iter, batch_size, optimizer, loss, num_epochs)

## Problema 4

Neste problema, classificaremos imagens genéricas de textura do dataset público [*Describable Textures Dataset*](http://www.robots.ox.ac.uk/~vgg/data/dtd/).
Neste caso, vamos receber imagens com tamanho variado (de $300\times 300$ pixels até $640\times 640$) e classificá-las entre 47 classes:

1.  banded
1.  blotchy
1.  braided
1.  bubbly
1.  bumpy
1.  chequered
1.  cobwebbed
1.  cracked
1.  crosshatched
1.  crystalline
1.  dotted
1.  fibrous
1.  flecked
1.  freckled
1.  frilly
1.  gauzy
1.  grid
1.  grooved
1.  honeycombed
1.  interlaced
1.  knitted
1.  lacelike
1.  lined
1.  marbled
1.  matted
1.  meshed
1.  paisley
1.  perforated
1.  pitted
1.  pleated
1.  polka-dotted
1.  porous
1.  potholed
1.  scaly
1.  smeared
1.  spiralled
1.  sprinkled
1.  stained
1.  stratified
1.  striped
1.  studded
1.  swirly
1.  veined
1.  waffled
1.  woven
1.  wrinkled
1.  zigzagged

In [None]:
# Download do dataset
!wget http://www.robots.ox.ac.uk/~vgg/data/dtd/download/dtd-r1.0.1.tar.gz
!tar -xzf dtd-r1.0.1.tar.gz

Neste dataset, na pasta `images` estão as imagens separadas por pastas relacionadas a classe. Na pasta `labels` existem arquivos .txt definindo a divisão das imagens em treino, teste e validação.

Utilize as imagens nos arquivos train1.txt e val1.txt como treino e as imagens nos arquivos teste1.txt como validação. Lembre-se de atribuir o label de acordo com o dicionário `self.le`.

In [None]:
class TextureDataset(torch.utils.data.Dataset):
    def __init__(self, root, transform, train=False, calc_norm=False, has_norm=True):
        self.root = root
        self.train = train
        self.calc_norm = calc_norm
        self.has_norm = has_norm
        # Dicionário para definir o label de cada classe
        self.le = {'banded': 0, 'blotchy': 1, 'braided': 2, 'bubbly': 3, 'bumpy': 4,
                   'chequered': 5, 'cobwebbed': 6, 'cracked': 7, 'crosshatched': 8,
                   'crystalline': 9, 'dotted': 10, 'fibrous': 11, 'flecked': 12,
                   'freckled': 13, 'frilly': 14, 'gauzy': 15, 'grid': 16, 'grooved': 17,
                   'honeycombed': 18, 'interlaced': 19, 'knitted': 20, 'lacelike': 21, 'lined': 22,
                   'marbled': 23, 'matted': 24, 'meshed': 25, 'paisley': 26, 'perforated': 27,
                   'pitted': 28, 'pleated': 29, 'polka-dotted': 30, 'porous': 31, 'potholed': 32,
                   'scaly': 33, 'smeared': 34, 'spiralled': 35, 'sprinkled': 36, 'stained': 37,
                   'stratified': 38, 'striped': 39, 'studded': 40, 'swirly': 41, 'veined': 42,
                   'waffled': 43, 'woven': 44, 'wrinkled': 45, 'zigzagged': 46}
        self.transform = transform
        self.load_images()

    def load_images(self):
        self.img_list, self.labels = self.read_images(root=self.root)

    def read_images(self, root):
        # Implemente aqui a leitura das imagens

        img_list, labels = [], []

        # Imagens nos arquivos train1.txt e val1.txt como treino
        # Imagens nos arquivos teste1.txt como validação
        # Lembre-se de atribuir o label de acordo com o dicionário self.le

        return img_list, labels

    def __getitem__(self, item):
        # Implemente aqui o retorno de tratamento de cada imagem

        # Lembre-se de aplicar as transformações enviadas ao dataloader (principalmente o ToTensor)

        return img, label

    def __len__(self):
        return len(self.img_list)

    def normalize_image(self, img):
        if self.calc_norm is True:
            for i in range(img.shape[0]):
                mu = img[i, :, :].mean()
                std = img[i, :, :].std()
                img[i, :, :] = ((img[i, :, :] - mu) / std)
        else:
            img = torchvision.transforms.functional.normalize(img,
                                                              mean=torch.Tensor([0.485, 0.456, 0.406]),
                                                              std=torch.Tensor([0.229, 0.224, 0.225]))
        return img

def load_data(dataset, root, batch_size, resize=None):
    # Implemente aqui a definição das transformações e do Dataloader

    # O transformer define a sequência de transformações que serão aplicadas na imagem
    # A principal para o nosso caso é o ToTensor, que converte a imagem no formato lido para um tensor
    # Experimente transformações diferentes, como crops e flips
    # O resize pode ser necessário para datasets com imagems de tamanhos variados

    # Defina também o Dataloader de treino e teste

    return train_iter, test_iter

batch_size = 32
train_iter, test_iter = load_data(TextureDataset, os.path.join('dtd'), batch_size, resize=None)

In [None]:
# Implemente aqui sua rede e definição de loss e otimizador

# Experimente criar redes do zero com o conhecimento adquirido no curso até agora
# Experimente também replicar redes já estabelecidas (alexnet, lenet, vgg e etc)
# Experimente também utilizar as redes pré-treinadas já implementadas no torchvision
# Para o caso de rede pré-treinada, lembre-se de modificar a saída da rede para o número de classes do problema

In [None]:
train_validate(model, train_iter, test_iter, batch_size, optimizer, loss, num_epochs)

In [None]:
from matplotlib import pyplot as plt

def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):
    figsize = (num_cols * scale, num_rows * scale)
    axes = plt.subplots(num_rows, num_cols, figsize=figsize)[1].flatten()
    for i, (ax, img) in enumerate(zip(axes, imgs)):
        ax.imshow(img.numpy())
        ax.axes.get_xaxis().set_visible(False)
        ax.axes.get_yaxis().set_visible(False)
        if titles:
            ax.set_title(titles[i])
    return axes

In [None]:
imgs = []

for X, y in train_iter:
    X = np.swapaxes(X, 1, 3)
    imgs = X[0:18]
    break

show_images(imgs, 3, 6, titles=None, scale=3)