# Tarefa 02
Nesta tarefa vocês irão projetar duas arquiteturas de CNN utilizando os conceitos, camadas e técnicas vistas no curso. As redes serão treinadas no dataset CIFAR-10 e depois comparadas. As tarefas são:

**1) Definir as arquiteturas; ----> 0.3 pontos** 

- Quantas [camadas](https://keras.io/layers/core/) ela terá?
- Quais as operações utilizadas (convoluções, pooling, fully-connected)?
- Quais serão os parâmetros de cada camada (número e tamanho dos filtros convolucionais, stride, tamanho do pooling, funções de ativação)?
- Que tipo de [inicialização](https://keras.io/initializers/) de pesos você utilizará?
- Haverá dropout? Qual a taxa de dropout? 
- Haverá [regularização](https://keras.io/regularizers/)? Qual a taxa do regularizador?

**2) Definir como será o treino; ----> 0.25 pontos**
- Número de épocas e tamanho do batch (deixe igual p/ as duas redes);
- [Otimizador](https://keras.io/optimizers/);
- [Função de custo](https://keras.io/losses/);

**3) Classificar o conjunto de teste e comparar os resultados; ----> 0.25 pontos**
- Classificar imagens de teste;
- Comparar acurácias;
- Plotar loss pelo número de épocas no conjunto de treinamento e validação de cada rede. 
    
**4) Escrever um parágrafo com as suas conclusões; ----> 0.2 pontos**

-----

## CIFAR-10
Este conjunto de dados é composto de 60000 imagens coloridas de dimensões 32x32, divididas em 10 classes (com 6000 imagens por classe), sendo 50000 para treinamento e 10000 para teste. As classes do CIFAR-10 são **aviões, automóveis, pássaros, gatos, alces, cachorros, sapos, cavalos, navios, caminhões.**

O código abaixo carrega e transforma os dados de entrada para ficarem prontos para serem treinados/classificados pela sua rede. Os conjuntos de treino, validação e teste estão balanceados, portanto a acurácia já estará normalizada nos métodos do Keras.  

In [1]:
#Imports
import os
from numpy import *
from random import seed
seed(42)

import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (15,15) # Make the figures a bit bigger

from keras.datasets import cifar10
from keras.utils import np_utils
#from sklearn.cross_validation import StratifiedShuffleSplit
from sklearn.model_selection import StratifiedShuffleSplit


#Load data
(trainVal_data, trainVal_label), (X_test, y_test) = cifar10.load_data()

# Caso alguem tenha problemas com o StratifiedShuffleSplit, tente descomentar essa versao
#Split trainVal data into train and val sets (already balanced)
# splitIdx = StratifiedShuffleSplit(trainVal_label, 1, test_size=10000, random_state=0)
# for train_index, val_index in splitIdx:
#     X_train, X_val = trainVal_data[train_index], trainVal_data[val_index]
#     y_train, y_val = trainVal_label[train_index], trainVal_label[val_index]
    

splitIdx = StratifiedShuffleSplit(1, test_size=10000, random_state=0)
for train_index, val_index in splitIdx.split(trainVal_data, trainVal_label):
    X_train, X_val = trainVal_data[train_index], trainVal_data[val_index]
    y_train, y_val = trainVal_label[train_index], trainVal_label[val_index]

    
#Transform data
X_train = X_train.reshape(X_train.shape[0], 32, 32, 3)
X_val = X_val.reshape(X_val.shape[0], 32, 32, 3)
X_test = X_test.reshape(X_test.shape[0], 32, 32, 3)

X_train = X_train.astype('float32')
X_val = X_val.astype('float32')
X_test = X_test.astype('float32')

X_train /= 255
X_val /= 255
X_test /= 255

print("Training matrix shape", X_train.shape)
print("Validation matrix shape", X_val.shape)
print("Testing matrix shape", X_test.shape)

Y_train = np_utils.to_categorical(y_train, 10)
Y_val = np_utils.to_categorical(y_val, 10)
Y_test = np_utils.to_categorical(y_test, 10)

Using TensorFlow backend.


Training matrix shape (40000, 32, 32, 3)
Validation matrix shape (10000, 32, 32, 3)
Testing matrix shape (10000, 32, 32, 3)


--------
--------
--------
**A tarefa de vocês começa aqui!!!**

# Definir as duas arquiteturas - [0.3 pontos]
***Não se esqueçam de***:
    - Importar as camadas utilizadas e o tipo do modelo (Sequential);
    - Passar o input_shape na primeira camada da rede;
    - Utilizar ativação `softmax` na última camada densa da rede;

In [16]:
#Imports
import time
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Flatten, Activation
from keras.layers import Conv2D, MaxPooling2D
from keras import optimizers # other stuff needed ... 
from sklearn.utils.class_weight import compute_class_weight
import numpy as np

NB_CLASSES=10

In [17]:
def mymodel(LR=0.1,
F1=20,
F2=100,
F3=300,
conv_act='relu',
FC=1000,
fc_act='relu',
fc_dropout=.01,
N_epochs=10):
    
    input.LR=LR
    input.F1=F1
    input.F1=F2
    input.F1=F3
    input.conv_act=conv_act
    input.FC=FC
    input.fc_act=fc_act
    input.fc_dropout=fc_dropout
    input.N_epochs=N_epochs
    
    seed(42)
    start_time = time.time()
    ########### MODEL ###########
    model = Sequential()
    #CONVOLUTIONAL LAYERS
    model.add(Conv2D(F1, kernel_size=(3, 3), activation=conv_act, input_shape=(32, 32, 3)))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Conv2D(F2, kernel_size=(3, 3), activation=conv_act))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Conv2D(F3, kernel_size=(3, 3), activation=conv_act))
    #FULLY CONNECTED LAYERS
    model.add(Flatten())
    model.add(Dropout(fc_dropout))
    model.add(Dense(FC))
    model.add(Activation(fc_act)) 
    model.add(Dropout(fc_dropout))
    model.add(Dense(FC))
    model.add(Activation(fc_act)) 
    model.add(Dense(10, activation='softmax'))
    ########### MODEL ###########

    #Compile model
    sgd = optimizers.SGD(lr=LR)
    model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

    #Train first CNN
    hist_train = modelOne.fit(X_train, Y_train,
              batch_size=128, epochs=N_epochs, verbose=1,
              validation_data=(X_val, Y_val))


    # Classify test set
    unique, counts = np.unique(y_test, return_counts=True)
    test_sample_per_class = counts
    score = modelOne.evaluate(X_test, Y_test, verbose=1)
    predicted_classes = modelOne.predict_classes(X_test, verbose=1)
    Y_test_classes = np.argmax(Y_test, axis=-1)
    accPerClass = []
    for classIdx in range(NB_CLASSES):
        idx = (Y_test_classes == classIdx)
        correctPred = np.sum(predicted_classes[idx] == Y_test_classes[idx])
        accPerClass.append( correctPred / float(test_sample_per_class[classIdx]))
    t=time.time() - start_time

    res= lambda: None
    res.model=model
    res.train_val_acc=hist_train.history['val_acc']
    res.train_loss=hist_train.history['val_loss']
    res.test_loss=score[0]
    res.test_acc=np.mean(accPerClass)
    res.test_cm=dict(zip(range(19),accPerClass))
    res.run_time=t
    res.input=input

    print("Done in: " ,t," sec")
    print('Test loss:', score[0])
    print("Normalized Acc --> ", np.mean(accPerClass))
    print(dict(zip(range(19),accPerClass)), "\n")
    return res

In [28]:
results=[]
results.append(mymodel())
results.append(mymodel(LR=.001))
results.append(mymodel(LR=.05))
results.append(mymodel(LR=.01))
results.append(mymodel(LR=1))
results.append(mymodel(conv_act='sigmoid'))
results.append(mymodel(FC=100))
results.append(mymodel(FC=10))
results.append(mymodel(F1=10,F2=20,F3=30))
results.append(mymodel(fc_dropout=.5))
results.append(mymodel(fc_dropout=.1))

Train on 40000 samples, validate on 10000 samples
Epoch 1/3

KeyboardInterrupt: 

In [27]:
results[0].run_time

309.5451469421387

In [5]:
# Define 2nd architecture
modelTwo = Sequential()
#modelTwo.add(...)

# Treinamento - [0.25 pontos]
***Não se esqueçam de***:
    - Escolher otimizador e loss;
    - Compilar o modelo;
    - Definir número de épocas, tamanho do batch (utilizar o mesmo para ambas as redes);
    - Passar o conjunto de validação em `validation_data`;

In [6]:
#Compile first model
sgd = optimizers.SGD(lr=0.1) #lr = learning rate
modelOne.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy'])

#Train first CNN
hist_train = modelOne.fit(X_train, Y_train,
          batch_size=128, epochs=1, verbose=1,
#          class_weight = train_class_weights, 
          validation_data=(X_val, Y_val))

Train on 40000 samples, validate on 10000 samples
Epoch 1/1


In [58]:
print(hist_train.history['val_acc'])

[0.4876]


# Resultados no conjunto de teste [0.25 pontos]
***Não se esqueçam de***:
    - Classificar as imagens do conjunto de teste utilizando cada rede;
    - Computar acurácia para cada rede;
    - Comparar ambas as acurácias;
    - Plotar loss pelo número de épocas no conjunto de treinamento e validação de cada rede. 

In [68]:
# Classify test set
unique, counts = np.unique(y_test, return_counts=True)
test_sample_per_class = counts

score = modelOne.evaluate(X_test, Y_test, verbose=1)
predicted_classes = modelOne.predict_classes(X_test, verbose=1)
Y_test_classes = np.argmax(Y_test, axis=-1)
accPerClass = []
for classIdx in range(NB_CLASSES):
    idx = (Y_test_classes == classIdx)
    correctPred = np.sum(predicted_classes[idx] == Y_test_classes[idx])
    accPerClass.append( correctPred / float(test_sample_per_class[classIdx]))

print('Test loss:', score[0])
print("Normalized Acc --> ", np.mean(accPerClass))
print(dict(zip(range(19),accPerClass)), "\n")


Test loss: 1.4418916936874389
Normalized Acc -->  0.48630000000000007
{0: 0.667, 1: 0.39, 2: 0.673, 3: 0.454, 4: 0.262, 5: 0.492, 6: 0.315, 7: 0.506, 8: 0.603, 9: 0.501} 



# Conclusões [0.2 pontos]
Escrevam um parágrafo com as conclusões que vocês tiraram na tarefa. Comentem as diferenças entre as duas arquiteturas e em seus treinamentos, apontando a motivação pelas decisões tomadas. Se o resultado ficou melhor/pior do que o que você esperava, o que você acha que pode ter acontecido?

In [10]:
# Write your paragraph here!