In [None]:
%matplotlib inline
import torch
from torch import nn
from torch import optim
import torchvision
from matplotlib import pyplot as plt
from torchvision import transforms
from torchvision import datasets
from collections import defaultdict
history = defaultdict(list)

### O código da célula abaixo contém funções para efetuar a carga dos dados, treinamento teste dos modelos

In [None]:
def get_loaders(batch_size):
    transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,))
    ])

    train_loader = torch.utils.data.DataLoader(
        dataset=datasets.MNIST(
            root='../data', 
            train=True, 
            download=True,
            transform=transform,
        ),
        batch_size=batch_size, 
        shuffle=True
    )

    test_loader = torch.utils.data.DataLoader(
        dataset=datasets.MNIST(
            root='../data', 
            train=False, 
            download=True,
            transform=transform,
        ),
        batch_size=batch_size, 
        shuffle=True
    )
    return train_loader, test_loader

def train_epoch(
        model, 
        device, 
        train_loader, 
        optimizer, 
        criterion, 
        epoch, 
        log_interval
    ):
    model.train()
    history = []
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        history['loss'].append(loss.item())
        optimizer.step()
        if batch_idx % log_interval == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))


def test(
        model, 
        device, 
        criterion, 
        test_loader
    ):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            test_loss += criterion(output, target).item() # sum up batch loss
            pred = output.max(1, keepdim=True)[1] # get the index of the max log-probability
            correct += pred.eq(target.view_as(pred)).sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('Test set: Average loss: {:.4f}, Accuracy: {}/{} ({:.2f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        accuracy))
    return accuracy


def train(
        model,
        train_loader,
        test_loader,
        device,
        lr,
        nb_epochs=3,
        log_interval=100,
    ):
    optimizer = optim.Adam(model.parameters(), lr=lr)
    criterion = nn.CrossEntropyLoss().to(device)

    for epoch in range(1, nb_epochs + 1):
        print('\n* * * Training * * *')
        train_epoch(
            model=model, 
            device=device, 
            train_loader=train_loader, 
            optimizer=optimizer, 
            criterion=criterion, 
            epoch=epoch, 
            log_interval=log_interval
        )
        print('\n* * * Evaluating * * *')
        acc = test(model, device, criterion, test_loader)   
        history['val_acc'].append(acc)
    
    return acc

def check_input(model, device):
    dummy_data = torch.zeros(5, 1, 28, 28).to(device)
    dummy_pred = model(dummy_data)        
    assert dummy_pred.shape == (5, 10), '\nOutput expected: (batch_size, 10) \nOutput found   : {}'.format(dummy_pred.shape)
    print('Passed')
    return dummy_pred

### Hyper-parâmetros que você pode definir

In [None]:
batch_size = 16
device_name = 'cpu'
nb_epochs = 3
log_interval = 500
lr = 1e-3

In [None]:
device = torch.device(device_name)

### Conferência dos dados

In [None]:
train_loader, test_loader = get_loaders(batch_size=batch_size)

In [None]:
print(
    'Train size: ', 
    train_loader.dataset.train_data.shape, 
    train_loader.dataset.train_labels.shape
)
print(
    'Test size : ', 
    test_loader.dataset.test_data.shape, 
    test_loader.dataset.test_labels.shape
)

In [None]:
fig, axs = plt.subplots(1, 5)
for i, ax in enumerate(axs):
    ax.imshow(train_loader.dataset.train_data[i], cmap='gray')
    ax.set_title(train_loader.dataset.train_labels[i].item())
    ax.set_xticks([])
    ax.set_yticks([])

In [None]:
instance = next(iter(train_loader))
print('Instance Example: ', instance[0].shape, instance[1].shape)

## Seu trabalho começa aqui:

## 1. Implemente aqui sua primeira rede convolucional  

Sua ConvNet deve ser capaz de classificar as imagens do MNIST. Lembre-se que as imagens do MNIST tem apenas 1 canal, isto é, elas são em escala de cinza (e não RBG!).

#### Arquitetura:
* Input: (1, 28, 28)
* Conv(32, 3)
* MaxPool(2)
* Conv(64, 3)
* MaxPool(2)
* Flatten 
* Linear(10)
    

In [None]:
class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        
    def forward(self, x):
        
        return out

### 1.1 Verifique se a saída do seu modelo está correta

In [None]:
model = ConvNet().to(device)
dummy_pred = check_input(model, device)

### 1.2 Treine seu modelo por uma ou mais épocas. 

Você deve conseguir ~99% de acurácia na terceira época. 

In [None]:
acc = train(model, train_loader, test_loader, device, lr, nb_epochs, log_interval)
print('Final acc: {:.2f}%'.format(acc))

## 2. Implemente aqui outra rede convolucional  


#### Arquitetura:
* Input: (1, 28, 28)
* Conv(32, 5)
* MaxPool(2)
* Conv(64, 5)
* MaxPool(2)
* Flatten 
* Linear(10)
   
IMPORTANTE: Faça com que o maxpooling seja a única camada que reduz as dimensões espaciais.

In [None]:
class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        
    def forward(self, x):
        
        return out

### 2.1 Verifique se a saída do seu modelo está correta

In [None]:
model = ConvNet().to(device)
dummy_pred = check_input(model, device)

### 2.2 Treine seu modelo por uma ou mais épocas. 


In [None]:
acc = train(model, train_loader, test_loader, device, lr, nb_epochs, log_interval)
print('Final acc: {:.2f}%'.format(acc))

## 3. Implemente aqui mais uma rede convolucional  


#### Arquitetura:
* Input: (1, 28, 28)
* Conv(32, 5)
* MaxPool(2)
* Conv(64, 3)
* MaxPool(2)
* Conv(128, 3)
* GlobalPooling
* Linear(10)
   
IMPORTANTE: Faça com que o maxpooling seja a única camada que reduz as dimensões espaciais.

In [None]:
class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        
    def forward(self, x):
        
        return out

### 3.1 Verifique se a saída do seu modelo está correta

In [None]:
model = ConvNet().to(device)
dummy_pred = check_input(model, device)

### 3.2 Treine seu modelo por uma ou mais épocas. 


In [None]:
acc = train(model, train_loader, test_loader, device, lr, nb_epochs, log_interval)
print('Final acc: {:.2f}%'.format(acc))

## 4. Implemente a arquitetura de rede convolucional conforme segue


#### Arquitetura:
* Input: (1, 28, 28)
* Conv(32, 5, stride=2)
* Conv(64, 3)
* Conv(16, 1) # Redução da dimensionalidade dos canais (bottleneck)
* MaxPool(2)
* Conv(128, 3)
* Conv(64, 1)  # Redução da dimensionalidade dos canais (bottleneck)
* Conv(256, 3)
* GlobalPooling
* Linear(10)
   
IMPORTANTE: Faça com que a primeira convolução e o maxpooling sejam as únicas camadas que reduzem as dimensões espaciais.

In [None]:
class ConvNet(nn.Module):
    def __init__(self):
        super(ConvNet, self).__init__()
        
    def forward(self, x):
        
        return out

### 4.1 Verifique se a saída do seu modelo está correta

In [None]:
model = ConvNet().to(device)
dummy_pred = check_input(model, device)

### 4.2 Treine seu modelo por uma ou mais épocas. 


In [None]:
acc = train(model, train_loader, test_loader, device, lr, nb_epochs, log_interval)
print('Final acc: {:.2f}%'.format(acc))

## 5. Atualize a rede convolucional anterior para usar o container nn.Sequential()

A arquitetura da rede pode ser exatamente igual à rede anterior, porém, agora use o nn.Sequential para criar as camadas.

In [None]:
class ConvNetSeq(nn.Module):
    def __init__(self):
        super(ConvNetSeq, self).__init__()        
        
    def forward(self, x):   
        
        return self.conv(x)

In [None]:
model = ConvNetSeq().to(device)
print(model)
dummy_pred = check_input(model, device)

In [None]:
acc = train(model, train_loader, test_loader, device, lr, nb_epochs, log_interval)
print('Final acc: {:.2f}%'.format(acc))

## 6. Crie uma nova rede substituindo as camadas de convolução da sua primeira rede por blocos Inception.  

Detalhes:

1. Crie um novo módulo (classe que herda do nn.Module) chamado de InceptionModule. 
2. Nesse módulo você deverá criar camadas convolucionais com filtros 1x1, 3x3 e 5x5 paralelamente. No final, concatene o resultado, e aplique mais uma convolução 1x1 para reduzir a dimensionalidade ao tamanho original. 
2. Atualize sua rede convolucional substituindo as camadas de convolução pelo seu bloco Inception. 
3. Treine o modelo e reporte a acurácia. 

In [None]:
class InceptionModule(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(InceptionModule, self).__init__()

    def forward(self, x):
        return out

model = InceptionModule(1, 32)
print(model)

In [None]:
class InceptionNet(nn.Module):
    def __init__(self,):
        super(InceptionNet, self).__init__()            
        # Use aqui o module Inception
    def forward(self, x):        
        return out

In [None]:
model = InceptionNet(device=device).to(device)
dummy_pred = check_input(model, device)

In [None]:
acc = train(model, train_loader, test_loader, device, lr, nb_epochs, log_interval)
print('Final acc: {:.2f}%'.format(acc))