# Trabalho Prático 03 - Implementação de Redes Neurais (NN e CNN)

- Giovanna Louzi Bellonia - 2017086015
- Thiago Martin Poppe - 2017014324

In [23]:
import keras

import numpy as np
import tensorflow as tf
# import seaborn as ss
# import matplotlib.pyplot as plt

from keras.utils import np_utils
from keras.datasets import cifar10

from keras.optimizers import SGD

from keras import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.layers import Conv2D, MaxPooling2D

## Implementação de uma classe para ler os dados do CIFAR-10

- Baseado na leitura dos dados do MNIST presente nos slides

In [2]:
class Cifar10:
    """ Class to read CIFAR-10 data """
    
    @staticmethod
    def read_data():
        """ Static method to read the data """

        (train_images, train_labels), (test_images, test_labels) = cifar10.load_data()

        train_images = train_images.astype('float32')
        test_images = test_images.astype('float32')
        train_images /= 255
        test_images /= 255
        
        # Criando os vetores de one-hot
        train_labels = np_utils.to_categorical(train_labels, 10)
        test_labels = np_utils.to_categorical(test_labels, 10)

        return (train_images, train_labels), (test_images, test_labels)

## Implementação de uma classe para criar uma arquitetura LeNet-5
- Nos baseamos na segunda versão da LeNet-5 disponibilizada nos slides.
- A arquitetura consiste em 2 níves de convolução, com 20 e 50 filtros respectivamente (sempre seguidos de ReLU e MaxPooling2D 2x2).
- Em seguida temos uma fully connected com 500 "neurônios", seguida de uma ReLU para introduzir a não linearidade nos dados.
- No final temos uma fully connected com 10 "neurônios", um para cada classe do nosso dataset. Terminamos com uma softmax para converter os valores em probabilidades.

In [3]:
class LeNet:
    """ Implementation of architecture LeNet-5 """

    @staticmethod
    def build(nRows=32, nCols=32, nChannels=3, nClasses=10, opt='sgd', activation='relu'):
        """ Static method to create LeNet-5 model """

        # Criando um modelo sequencial
        model = keras.Sequential()

        # Adicionando uma camada convolucional, relu e max pooling
        model.add(Conv2D(20, 5, padding='same', input_shape=(nRows, nCols, nChannels)))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando mais uma camada convolucional, relu e max pooling
        model.add(Conv2D(50, 5, padding='same'))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando nossa camada fully connected
        model.add(Flatten())
        model.add(Dense(500))
        model.add(Activation(activation))

        # Adicionando a segunda camada fully connected (final)
        model.add(Dense(nClasses))
        model.add(Activation('softmax'))

        # Compilando o modelo
        model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])

        return model

## Implementação de uma classe para criar nossa primeira arquitetura NN
- Nos baseamos na arquitetura da NN feita para classificar dados do MNIST de digitos.
- A nossa primeira arquitetura consiste em 3 hidden layers, com 64, 128 e 64 "neurônios" respectivamente (sempre seguidos de uma ReLU para introduzir a não linearidade nos dados).
- No final temos uma fully connected com 10 "neurônios", um para cada classe do nosso dataset. Terminamos com uma softmax para converter os valores em probabilidades.

In [4]:
class MyFirstNN:
    """ Implementation of our own NN a architecture """

    @staticmethod
    def build(nRows=32, nCols=32, nChannels=3, nClasses=10, opt='sgd', activation='relu'):
        """ Static method to create our own NN model """

        # Criando um modelo sequencial
        model = Sequential()

        # Adicionando uma hidden layer com 64 nodes
        model.add(Flatten())
        model.add(Dense(64, input_shape=(nRows, nCols, nChannels)))
        model.add(Activation(activation))

        # Adicionando uma hidden layer com 128 nodes
        model.add(Dense(128))
        model.add(Activation(activation))

        # Adicionando uma hidden layer com 64 nodes
        model.add(Dense(64))
        model.add(Activation(activation))

        # Adicionando um fully connected (final)
        model.add(Dense(nClasses))
        model.add(Activation('softmax'))

        # Compilando o modelo
        model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])

        return model

## Implementação de uma classe para criar nossa segunda arquitetura NN
- Nos baseamos no site https://towardsdatascience.com/cifar-10-image-classification-in-tensorflow-5b501f7dc77c para construir essa arquitetura.
- Ela é mais complexa que a anterior, possuindo 3 hidden layers com 128, 256 e 512 "neurônios" respectivamente (sempre seguidos de uma ReLU para introduzir a não linearidade nos dados).
- No final temos uma fully connected com 10 "neurônios", um para cada classe do nosso dataset. Terminamos com uma softmax para converter os valores em probabilidades.

In [5]:
class MySecondNN:
    """ Implementation of our own NN a architecture """

    @staticmethod
    def build(nRows=32, nCols=32, nChannels=3, nClasses=10, opt='sgd', activation='relu'):
        """ Static method to create our own NN model """

        # Criando um modelo sequencial
        model = Sequential()

        # Adicionando uma hidden layer com 128 nodes
        model.add(Flatten())
        model.add(Dense(128, input_shape=(nRows, nCols, nChannels)))
        model.add(Activation(activation))

        # Adicionando uma segunda hidden layer com 256 nodes
        model.add(Dense(256))
        model.add(Activation(activation))

        # Adicionando uma terceira hidden layer com 512 nodes
        model.add(Dense(512))
        model.add(Activation(activation))

        # Adicionando uma fully connected (final)
        model.add(Dense(nClasses))
        model.add(Activation('softmax'))

        # Compilando o modelo
        model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])

        return model

## Implementação de uma classe para criar nossa primeira arquitetura CNN
- Nos baseamos na arquitetura da LeNet-5 para criar a mesma.
- A nossa primeira arquitetura consiste em 4 níves de convolução, com 16, 32, 64 e 128 filtros respectivamente (sempre seguidos de ReLU e MaxPooling2D 2x2).
- Em seguida temos uma fully connected com 512 "neurônios", seguida de uma ReLU para introduzir a não linearidade nos dados.
- No final temos uma fully connected com 10 "neurônios", um para cada classe do nosso dataset. Terminamos com uma softmax para converter os valores em probabilidades.

In [6]:
class MyFirstCNN:
    """ Implementation of our own CNN architecture """

    @staticmethod
    def build(nRows=32, nCols=32, nChannels=3, nClasses=10, opt='sgd', activation='relu'):
        """ Static method to create our own CNN model """

        # Criando um modelo sequencial
        model = keras.Sequential()

        # Adicionando uma camada convolucional, relu e max pooling
        model.add(Conv2D(16, 5, padding='same', input_shape=(nRows, nCols, nChannels)))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando uma camada convolucional, relu e max pooling
        model.add(Conv2D(32, 5, padding='same'))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando mais uma camada convolucional, relu e max pooling
        model.add(Conv2D(64, 5, padding='same'))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando mais uma camada convolucional, relu e max pooling
        model.add(Conv2D(128, 5, padding='same'))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando nossa camada fully connected
        model.add(Flatten())
        model.add(Dense(512))
        model.add(Activation(activation))

        # Adicionando a segunda camada fully connected (final)
        model.add(Dense(nClasses))
        model.add(Activation('softmax'))

        # Compilando o modelo
        model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])

        return model

## Implementação de uma classe para criar nossa segunda arquitetura CNN
- Nos baseamos no site https://towardsdatascience.com/cifar-10-image-classification-in-tensorflow-5b501f7dc77c para construir essa arquitetura.
- Ela é mais complexa que a anterior, consistindo de 4 níves de convolução, com 16, 32, 64 e 128 filtros respectivamente (sempre seguidos de ReLU e MaxPooling2D 2x2).
- Em seguida temos 3 hidden layers com 128, 256 e 512 "neurônios" respectivamente (sempre seguidos de uma ReLU para introduzir a não linearidade nos dados).
- No final temos uma fully connected com 10 "neurônios", um para cada classe do nosso dataset. Terminamos com uma softmax para converter os valores em probabilidades.

In [7]:
class MySecondCNN:
    """ Implementation of our own NN a architecture """

    @staticmethod
    def build(nRows=32, nCols=32, nChannels=3, nClasses=10, opt='sgd', activation='relu'):
        """ Static method to create our own NN model """

        # Criando um modelo sequencial
        model = Sequential()

        # Adicionando uma camada convolucional, relu e max pooling
        model.add(Conv2D(16, 3, padding='same', input_shape=(nRows, nCols, nChannels)))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando uma camada convolucional, relu e max pooling
        model.add(Conv2D(32, 3, padding='same'))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando mais uma camada convolucional, relu e max pooling
        model.add(Conv2D(64, 3, padding='same'))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando mais uma camada convolucional, relu e max pooling
        model.add(Conv2D(128, 3, padding='same'))
        model.add(Activation(activation))
        model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))

        # Adicionando as camadas fully connected
        model.add(Flatten())
        model.add(Dense(128, input_shape=(nRows, nCols, nChannels)))
        model.add(Activation(activation))

        model.add(Dense(256))
        model.add(Activation(activation))

        model.add(Dense(512))
        model.add(Activation(activation))

        # Adicionando um fully connected (final)
        model.add(Dense(nClasses))
        model.add(Activation('softmax'))

        # Compilando o modelo
        model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])

        return model

## Escolha dos hiper-parâmetros (learning rate, epoch, batch size)

- Para escolhermos os melhores hiper-parâmetros para cada arquitetura usamos uma abordagem de grid search.
- Tentamos utilizar a biblioteca scikit-learn para tal, mas não funcionou como esperavamos. Então, optamos por implementar na mão essa mesma ideia.
- Resolvemos iterar por exemplo entre os seguintes valores:

| learning rate | epochs | batch size |
|---------------|--------|------------|
|      0.1      |   10   |     64     |
|      0.01     |   20   |    128     |
|      0.001    |   30   |    256     |

- Para uma visualização melhor, treinamos cada uma das redes e usamos o TensorBoard para visualizar o aprendizado com o passar das épocas. O resultado foi o seguinte:

### Acurácia no treino
![Results train accuracy](result_acc.png)

### Loss no treino
![Results train loss](result_loss.png)

### Acurácia na validação
![Results validation accuracy](result_val_acc.png)

### Loss na validação

![Results validation loss](result_val_loss.png)

- Conseguimos perceber nos plots acima que possuimos um overfit para as redes convolucionais e um underfit para as redes não convolucionais. Testamos treinar com menos épocas e learning rates mais baixos, mas não conseguimos um resultado melhor do que ~68% na acurácia dos testes (este, obtido pelas CNN).

- Tentamos treinar até a época onde a loss começa a crescer novamente e a acurácia a diminuir. Porém, no geral, os resultados foram menores do que os vistos usando esses hiper parâmetros a seguir:


|             | learning rate | epochs | batch size || accuracy (test) | loss (test) |
|-------------|---------------|--------|------------||-----------------|-------------|
|  LeNet-5    | 0.01          | 30     | 64         || 0.65            | 1.30        |
| MyFirstNN   | 0.01          | 30     | 128        || 0.48            | 1.44        |
| MySecondNN  | 0.01          | 30     | 64         || 0.51            | 1.40        |
| MyFirstCNN  | 0.01          | 30     | 64         || 0.64            | 1.50        |
| MySecondCNN | 0.01          | 30     | 64         || 0.67            | 1.08        |


- Mesmo com a melhoria nos resultados, o tempo de treinamento entre redes mais simples foi menor do que em suas versões mais complexas. Sendo assim, devemos realizar um trade-off entre tempo de treino e resultado obtido. Visto que, a melhoria foi de ~3% em média nos testes, talvez fosse melhor optar por uma rede mais simples.

- Com base na tabela acima, fomos capazes de ajustar na mão os hiper parâmetros afim de obter resultados melhores. Por exemplo, para a LeNet-5 encontramos que um learning rate de 0.0025, 25 épocas e batch size igual a 32 no possibilitou um resultado com bem menos overfit (ao invés de termos uma acurácia de ~90% nos treinos tivemos de ~70%) e com acurácia e loss similares aos testes passados, as vezes até melhores que 65% e 1.30, principalmente quanto a loss que fica bem próximo de 1, ficando assim ~23% melhor que o valor observado na tabela acima.

## Matrizes de confusão

- Aqui mostraremos a matriz de confusão para MySecondNN e MySecondCNN, visto que as mesmas foram as que se saíram melhor no teste dentro das suas "categorias", ou seja, NN e CNN.
- Também mostraremos a matriz de confusão para a LeNet-5 para podermos comparar com as demais redes

### Lendo os dados do CIFAR-10

In [12]:
(train_images, train_labels), (test_images, test_labels) = Cifar10.read_data()
classes = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']

### LeNet-5 (hiper parâmetros melhorados)

In [44]:
# Construindo o modelo e treinando o mesmo
model = LeNet.build(opt=SGD(lr=0.0025))
model.fit(train_images, train_labels,
          epochs=25,
          batch_size=32,
          validation_data=(test_images, test_labels), 
          verbose=2)

# Exibindo os resultados no teste
test_loss, test_acc = model.evaluate(test_images,  test_labels, verbose=0)
print('\ntest_acc:', test_acc)
print('test_loss:', test_loss)

# Classificando as imagens e criando a matriz de confusão
_, (_, true_labels) = cifar10.load_data()
preds = model.predict_classes(test_images)
confusion_matrix = tf.Session().run(tf.math.confusion_matrix(labels=true_labels, predictions=preds))

# Normalizando a matriz de confusão
confusion_matrix = np.around(confusion_matrix.astype('float') / confusion_matrix.sum(axis=1)[:, np.newaxis], decimals=2)

Train on 50000 samples, validate on 10000 samples
Epoch 1/25
 - 12s - loss: 2.0623 - acc: 0.2515 - val_loss: 1.9055 - val_acc: 0.3270
Epoch 2/25
 - 11s - loss: 1.8206 - acc: 0.3588 - val_loss: 1.7420 - val_acc: 0.3816
Epoch 3/25
 - 11s - loss: 1.6646 - acc: 0.4122 - val_loss: 1.6216 - val_acc: 0.4295
Epoch 4/25
 - 10s - loss: 1.5483 - acc: 0.4545 - val_loss: 1.5119 - val_acc: 0.4684
Epoch 5/25
 - 10s - loss: 1.4630 - acc: 0.4840 - val_loss: 1.4044 - val_acc: 0.5011
Epoch 6/25
 - 10s - loss: 1.3954 - acc: 0.5068 - val_loss: 1.3681 - val_acc: 0.5087
Epoch 7/25
 - 10s - loss: 1.3397 - acc: 0.5283 - val_loss: 1.3801 - val_acc: 0.5159
Epoch 8/25
 - 10s - loss: 1.2908 - acc: 0.5468 - val_loss: 1.3114 - val_acc: 0.5375
Epoch 9/25
 - 10s - loss: 1.2465 - acc: 0.5643 - val_loss: 1.2527 - val_acc: 0.5541
Epoch 10/25
 - 10s - loss: 1.2049 - acc: 0.5785 - val_loss: 1.2352 - val_acc: 0.5640
Epoch 11/25
 - 10s - loss: 1.1678 - acc: 0.5914 - val_loss: 1.2718 - val_acc: 0.5486
Epoch 12/25
 - 10s - los

In [46]:
confusion_matrix

array([[0.75, 0.  , 0.02, 0.02, 0.01, 0.02, 0.01, 0.02, 0.1 , 0.06],
       [0.03, 0.63, 0.  , 0.02, 0.01, 0.01, 0.01, 0.01, 0.06, 0.24],
       [0.1 , 0.  , 0.39, 0.08, 0.09, 0.18, 0.05, 0.05, 0.02, 0.03],
       [0.03, 0.01, 0.03, 0.43, 0.04, 0.32, 0.04, 0.04, 0.02, 0.05],
       [0.04, 0.  , 0.05, 0.07, 0.5 , 0.12, 0.04, 0.14, 0.03, 0.01],
       [0.02, 0.  , 0.01, 0.11, 0.02, 0.72, 0.02, 0.06, 0.01, 0.01],
       [0.01, 0.01, 0.04, 0.1 , 0.04, 0.09, 0.66, 0.02, 0.01, 0.03],
       [0.02, 0.  , 0.01, 0.04, 0.03, 0.12, 0.  , 0.74, 0.01, 0.04],
       [0.07, 0.02, 0.  , 0.02, 0.  , 0.02, 0.  , 0.01, 0.82, 0.04],
       [0.04, 0.04, 0.  , 0.02, 0.  , 0.02, 0.01, 0.02, 0.05, 0.8 ]])