## CNNs en CIFAR10

En este problema, se realizará un contraste con el problema de CIFAR10 resuelto en la tarea 1.

A continuación, los imports necesarios.

In [5]:

import cPickle as pickle
import numpy as np
import os
from sklearn.preprocessing import StandardScaler
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Conv2D, MaxPooling2D
from keras.optimizers import SGD, Adam, RMSprop, Adagrad, Adadelta
from keras.regularizers import l2
import warnings
import keras
import matplotlib
import matplotlib.pyplot as plt

Using TensorFlow backend.


## Subconjunto de Entrenamiento

Se obtiene, al igual que el problema anterior, los datos de CIFAR10 a partir de los archivos por medio de la funcion unpickle.

In [6]:
#Funcion para extraccion de bloques de datos
def unpickle(file):
    fo = open(file, 'rb')
    dict = pickle.load(fo)
    fo.close()
    return dict

Los atributos son separados entre los datos que serán utilizados como inputs, y los atributos que se quieren predecir.

In [7]:
#Separacion de atributos predictores y atributo a predecir
def load_CIFAR_one(filename):
    datadict = unpickle(filename)
    X = datadict['data']
    Y = datadict['labels']
    return X, np.array(Y)

Luego se crean las matrices de entrenamiento y vectores de prueba. Para esto, los datos obtenidos de los archivos son concatenados uno tras de otro, para luego crear las matrices a través de ellos.

In [8]:
#Se crean, matricialmente, conjuntos de entrenamiento, prueba y validacion
def load_CIFAR10(PATH):
    #Creacion de matrices de entrenamiento
    xs = []
    ys = []
    for b in range(1, 6):
        f = os.path.join(PATH, 'data_batch_%d' % (b, ))
        X, Y = load_CIFAR_one(f)
        xs.append(X)
        ys.append(Y)
    Xtr = np.concatenate(xs)
    Ytr = np.concatenate(ys)
    del X, Y
    
    #Creacion de matrices de prueba
    Xts, Yts = load_CIFAR_one(os.path.join(PATH, 'test_batch'))
    
    #Creacion de matrices de validacion
    #Se fusionan los conjuntos Xtr e Ytr
    training_data = Xtr
    training_data_y = Ytr.reshape((50000, 1))
    training_data = np.append(training_data, training_data_y, axis=1)

    #Luego, se extrae el conjunto de validacion a partir del conjunto de entrenamiento
    Xtr = training_data[:45000, :3072]
    Ytr = training_data[:45000, 3072]
    Xv = training_data[45000:, :3072]
    Yv = training_data[45000:, 3072]
    
    return Xtr, Ytr, Xts, Yts, Xv, Yv

In [9]:
def scaler_function(Xtr, Xts, Xv, scale=True):
    scaler_tr = StandardScaler(with_std=scale).fit(Xtr)
    scaler_ts = StandardScaler(with_std=scale).fit(Xts)
    scaler_v = StandardScaler(with_std=scale).fit(Xv)
    Xtr_scaled = scaler_tr.transform(Xtr)
    Xts_scaled = scaler_ts.transform(Xts)
    Xv_scaled = scaler_v.transform(Xv)
    return Xtr_scaled, Xts_scaled, Xv_scaled

In [11]:
Xtr, Ytr, Xts, Yts, Xv, Yv = load_CIFAR10('data/')
num_classes = 10

In [12]:
warnings.filterwarnings('ignore')
Xtr_scaled, Xts_scaled, Xv_scaled = scaler_function(Xtr, Xts, Xv)

Se normalizan las intensidades de cada pixel, en cada canal por 255., para obtener un rango entre 0 y 1.

In [13]:
#dividiendo las intensidades originales de pixel en cada canal por 255
Xtr = np.divide(Xtr , 255.)
Xts = np.divide(Xts , 255.)
Xv = np.divide(Xv , 255.)

A diferencia de la tarea 1, que se trabajaba con una representación unidimensional, en este trabajo se necesita trabajar con su forma original, por lo que se retoma la forma de cada una de las imagenes, para cada subconjunto, de entrenamiento, validación y testeo.

In [14]:
Xtr = Xtr.reshape((Xtr.shape[0],32,32,3))
#Xtr = Xtr.transpose([0, 2, 3, 1]) #only if 'tf' dim-ordering is to be used
Xts= Xts.reshape((Xts.shape[0],32,32,3))
Xv = Xv.reshape((Xv.shape[0],32,32,3))
#x_test= x_test.transpose([0, 2, 3, 1])#remove if 'th' dim-ordering is to be used

Se lleva cada uno de los vectores de clases, a to_categorical, para un funcionamiento más rápido.

In [15]:
Ytr = keras.utils.to_categorical(Ytr, num_classes)
Yts = keras.utils.to_categorical(Yts, num_classes)
Yv = keras.utils.to_categorical(Yv, num_classes)

In [16]:
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Convolution2D, MaxPooling2D

Tal como se especifica, se define una red CNN con arquitectura C x P x C x P x F x F, donde las capas convolucionales utilizan ambas 64 filtros de 3x3 con función de activación ReLu. Y para las capas de pooling se utilizaron filtros de 2x2 con stride 2.

Luego, para las capas MLP, 512 y 10 neuronas, siendo esta última la salida de una función de activación softmax, una por cada tipo de clase de las imágenes.
 Genere un esquema lo m ́as compacto posible que muestre los cambios de forma (dimensionalidad) que experimenta un patr ́on de entrada a medida que se ejecuta un forward-pass y el número de parametros de cada capa.

In [17]:

#PARTE B
model = Sequential()
model.add(Conv2D(64, (3, 3), padding="same", input_shape=Xtr.shape[1:]))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(64, (3, 3), padding="same"))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(num_classes))
model.add(Activation('softmax'))
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_1 (Conv2D)            (None, 32, 32, 64)        1792      
_________________________________________________________________
activation_1 (Activation)    (None, 32, 32, 64)        0         
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 16, 16, 64)        0         
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 16, 16, 64)        36928     
_________________________________________________________________
activation_2 (Activation)    (None, 16, 16, 64)        0         
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 8, 8, 64)          0         
_________________________________________________________________
flatten_1 (Flatten)          (None, 4096)              0         
__________

Gracias a la función summary del modelo, es posible apreciar como está constituída la red en cada una de sus capas, tanto en su dimensionalidad como en la cantidad de parámetros que se ven afectados.

A medida que se ejecuta el forward-pass, se puede observar como va cambiando la dimensionalidad del input, disminuyendo cada una a la mitad, esto de acuerdo a la dimensión que posee la capa de max_pooling, que en este caso es de 2x2, por lo que, la salida de la capa uno de Convolución, pasará de 32x32 a una de 16x16 al salir de la primera capa de max_pooling, teniendo ambas a su vez 64 filtros.

Esto mismo se ve reflejado en las siguientes dos capas, quedando finalmente, una salida (de la segunda max_pooling) de 8x8x64. Después de hacer un "aplanamiento" de las dimensiones (Flatten), la entrada a las red FF tiene una dimensión de 4096, esto dado el producto de la dimensionalidad de la entrada, que es 8*8*64. Para posteriormente disminuir a 512 (512 neuronas) y finalmente a 10, dada la funcion de activación softmax, para obtener una salida acorde al número total de clases.


In [18]:
model.compile(optimizer=SGD(lr=0.0001), loss='categorical_crossentropy', metrics=['accuracy'])
#Se entrena el modelo
hist = model.fit(Xtr, Ytr, epochs=25, batch_size=32, verbose=1, validation_data=(Xv, Yv))

#Se evalua el modelo sobre el conjunto de validacion
score = model.evaluate(Xts, Yts, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

Train on 45000 samples, validate on 5000 samples
Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25
('Test loss:', 1.9688244022369386)
('Test accuracy:', 0.31769999999999998)


El modelo es posteriormente entrenado, utilizando para ello, el optimizador SGD con un learning rate de 0.0001, y con un tipo de medición de error de Categorical_crossentropy.
En este ejemplo, sólo se utiliza un total de 1 epoch, dado el tiempo que demora en su ejecución. Pero en la obtención de los valores reales, se utilizaron 25 epochs.
Al termino del entrenamiento, se logró obtener los siguientes datos.
Accuracy Test: 33%
Loss Test: 1.95

A continuación se puede observar los gráficos obtenidos.

![accProblema1b.jpg](attachment:accProblema1b.jpg)
Se logra apreciar que el porcentaje de exactitud entre los datos testeados y los de entrenamiento eran similares, lo que muestra que la red logra definir bien su respuesta para datos fuera del conjunto de entrenamiento. 

![lossProblema1b.jpg](attachment:lossProblema1b.jpg)


### Control tasa de Aprendizaje

Dado el gran tiempo que toma el entrenamiento de la red, se propone poder controlar la tasa de entrenamiento (el learning rate) para que, en las primeras epochs, esta sea mayor , y comience a disminuir a medida que las epochs ocurren.
Para ello, se comienza cun on lr de 0.001 y cada 10 epochs este disminuirá su valor a la mitad, cosa de que, la velocidad de variación de la derivada del error entorno al peso tenga una convergencia más rápida al comienzo, para luego hacerla más pequeña, para lograr un mejor resultado, cuando los epochs sean mayores y la derivada del error respecto al peso, se encuentre más cerca de su óptimo.


In [19]:

#PARTE C
from keras.optimizers import SGD, rmsprop
from keras.callbacks import LearningRateScheduler
import math
def step_decay(epoch):
	initial_lrate = 0.001
	lrate = initial_lrate * math.pow(0.5, math.floor((1+epoch)/5))
	lrate = max(lrate,0.00001)
	return lrate
opt = SGD(lr=0.0, momentum=0.9, decay=0.0)
lrate = LearningRateScheduler(step_decay)

#Se compila el modelo
model.compile(optimizer=SGD(lr=0.0001), loss='categorical_crossentropy', metrics=['accuracy'])
#Se entrena el modelo
hist = model.fit(Xtr, Ytr, nb_epoch=25, batch_size=32, verbose=1, validation_data=(Xv, Yv), shuffle=True, callbacks=[lrate])

Train on 45000 samples, validate on 5000 samples
Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


Es posible apreciar, que el accuracy en las primeras epochs es mayor, al obtenido en la red anterior. Si se toma en consideración, para la comparación la epoch número 10, es posible apreciar, que en la anterior red, se alcanzaba aproximadamente un 22% d

#### Uso de RMSProp
Para el siguiente entrenamiento, se utilizará la red usada en la parte B) , es decir la red C x P x C x P x F x F. Pero se utilizará el optimizador RMSprop el cual adapta la cantidad de "learning rate" que aplica a cada peso dependiendo del signo de su gradiente. Se implementó con un learning rate de 0.001.

In [20]:
#PARTE D
#PARTE de la B
model = Sequential()
model.add(Conv2D(64, (3, 3), padding="same", input_shape=Xtr.shape[1:]))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(64, (3, 3), padding="same"))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(num_classes))
model.add(Activation('softmax'))
model.summary()

#PARTE D
from keras.optimizers import SGD, rmsprop
opt = rmsprop(lr=0.001, decay=1e-6)
model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(Xtr, Ytr,batch_size=32, nb_epoch=25, validation_data=(Xv, Yv),shuffle=True)

#Se evalua el modelo sobre el conjunto de validacion
score = model.evaluate(Xts, Yts, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_3 (Conv2D)            (None, 32, 32, 64)        1792      
_________________________________________________________________
activation_5 (Activation)    (None, 32, 32, 64)        0         
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 16, 16, 64)        0         
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 16, 16, 64)        36928     
_________________________________________________________________
activation_6 (Activation)    (None, 16, 16, 64)        0         
_________________________________________________________________
max_pooling2d_4 (MaxPooling2 (None, 8, 8, 64)          0         
_________________________________________________________________
flatten_2 (Flatten)          (None, 4096)              0         
__________

Al observar los resultados en los gráficos, es posible apreciar que el porcentaje de exactitud que posee al inicio de los epochs es bastante elevado, es decir que su aprendizaje es bastante rápido al inicio. Pero ocurre el problema de que la red comienza a tener overfitting muy pronunciado.

![accProblema1d.jpg](attachment:accProblema1d.jpg)

Mientras que la red continua "memorizando" los datos de entrenamiento, su validación en los datos de testeo a partir del epoch número 3 app, se ven fuertemente estancados en un porcentaje de exactitud del 60%.

![lossProblema1d.jpg](attachment:lossProblema1d.jpg)

En cuanto al gráfico de error, se observa un comportamiento poco normal en cuanto al error presentado con los datos de testeo, no así para los datos de entrenamiento. El error de prueba comienza a aumentar después de unos epochs, esto se debe a que RMSprop varía el valor del learning rate, lo cual debe afectar negativamente al comportamiento que posee la red en su periodo de aprendizaje.

Si bien, utilizando este optimizado, se lograron mejores resultados que en anteriores redes, esta posee un overfitting muy prematuramente, lo cual afecta negativamente en su desempeño, quizás realizando ciertos ajustes, se pueda solucionar este problema.


#### C × C × P × C × C × P × F × F

Uno de los problemas que tiene la estructura de una red, que está compuesta por capas convolucionales seguidas por capas de Max-Pooling,es que afectan de manera muy prematura en la dimensionalidad de la entrada, algo que puede afectar negativamente al desempeño de esta.

Es por esto que se propone implementar una red con una arquitectura CxCxPxCxCxPxFF , es decir, que la capa convolucional no venga inmediatamente acompañada de una de pooling, si no más bien, de una convolucional, permitiendo así que se mantenga, al menos por una capa, la dimensionalidad de los datos a analizar.

A continuación se implementa dicho modelo, para ello, se utilizan 64 filtros de tamaño 3x3 en las primeras dos capas, seguidas por un Max-Pooling de dimension 2x2. Entre cada CxCxP se coloca un Dropout con probabilidad de 0.25, dado que es una red más profunda. Las siguientes dos capas convolucionales se utilizan 128 filtros en cada una, con tamaño de 3x3.



In [21]:
#PARTE E
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Convolution2D, MaxPooling2D

model = Sequential()
model.add(Conv2D(64, 3, 3, border_mode="same", input_shape=Xtr.shape[1:]))
model.add(Activation('relu'))
model.add(Conv2D(64, 3, 3, border_mode='same'))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
model.add(Conv2D(128, 3, 3, border_mode='same'))
model.add(Activation('relu'))
model.add(Conv2D(128, 3, 3, border_mode="same"))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(num_classes))
model.add(Activation('softmax'))
model.summary()

from keras.optimizers import SGD, rmsprop
opt = rmsprop(lr=0.001, decay=1e-6)
model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
hist = model.fit(Xtr, Ytr,batch_size=32, nb_epoch=25, validation_data=(Xv, Yv),shuffle=True)

#Se evalua el modelo sobre el conjunto de validacion
score = model.evaluate(Xts, Yts, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_5 (Conv2D)            (None, 32, 32, 64)        1792      
_________________________________________________________________
activation_9 (Activation)    (None, 32, 32, 64)        0         
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 32, 32, 64)        36928     
_________________________________________________________________
activation_10 (Activation)   (None, 32, 32, 64)        0         
_________________________________________________________________
max_pooling2d_5 (MaxPooling2 (None, 16, 16, 64)        0         
_________________________________________________________________
dropout_1 (Dropout)          (None, 16, 16, 64)        0         
_________________________________________________________________
conv2d_7 (Conv2D)            (None, 16, 16, 128)       73856     
__________

Si bien el problema logra su cometido, es decir, no disminuye prematuramente la dimensionalidad de los datos analizados, este modelo no presenta una gran mejora con respecto a los anteriores. Es más, tomando en consideración el accuracy de prueba, este comienza a oscilar entre los valores de 55 y 63% aproximadamente entre cada Epoch.


A continuación se pueden observar los gráficos obtenidos en cada epoch.

![accProblema1e.jpg](attachment:accProblema1e.jpg)
![lossProblema1e.jpg](attachment:lossProblema1e.jpg)

#### Max-Pooling por Convolucional

Otro tipo de modelo, de redes convolucionales, utilizan capas convolucionales en vez de utilizar capas de Max-Pooling. Esto dado que ellas, pueden ser reemplazadas por capas Conv2D de stride 2x2, logrando así un desempeño similar, sin la necesidad de disminuir la dimensión de los datos.

La red se implementa con 6 capas, todas convolucionales, donde las 3 primeras tienen 64 filtros de tamaño 3x3, y la tercera, que actua como una Max-Pooling con stride 2x2.  Las dos siguientes poseen 128 filtros de tamaño 3x3, y se termina con una de 64 filtros de tamaño 3x3 y stride 2x2.

In [24]:
#PARTE F
model = Sequential()
model.add(Conv2D(64, (3, 3), padding="same", input_shape=Xtr.shape[1:]))
model.add(Activation('relu'))
model.add(Conv2D(64, (3, 3), padding='same'))
model.add(Activation('relu'))
model.add(Conv2D(64, (3, 3),  strides=(2, 2), padding='valid'))
model.add(Activation('relu'))
model.add(Conv2D(128, (3, 3), padding='same'))
model.add(Activation('relu'))
model.add(Conv2D(128, (3, 3), padding='same'))
model.add(Activation('relu'))
model.add(Conv2D(64, (3, 3),  strides=(2, 2), padding='valid'))
model.add(Activation('relu'))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(num_classes))
model.add(Activation('softmax'))
model.summary()

from keras.optimizers import SGD, rmsprop
opt = rmsprop(lr=0.001, decay=1e-6)
model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
hist = model.fit(Xtr, Ytr,batch_size=32, nb_epoch=25, validation_data=(Xv, Yv),shuffle=True)

#Se evalua el modelo sobre el conjunto de validacion
score = model.evaluate(Xts, Yts, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_21 (Conv2D)           (None, 32, 32, 64)        1792      
_________________________________________________________________
activation_31 (Activation)   (None, 32, 32, 64)        0         
_________________________________________________________________
conv2d_22 (Conv2D)           (None, 32, 32, 64)        36928     
_________________________________________________________________
activation_32 (Activation)   (None, 32, 32, 64)        0         
_________________________________________________________________
conv2d_23 (Conv2D)           (None, 15, 15, 64)        36928     
_________________________________________________________________
activation_33 (Activation)   (None, 15, 15, 64)        0         
_________________________________________________________________
conv2d_24 (Conv2D)           (None, 15, 15, 128)       73856     
__________

Es posible apreciar, que la red tiene un muy buen comienzo, alcanzando el 62% de accuracy en muy pocos epochs, pero esta comienza a disminuir, alcanzando finalmente un 52% de accuracy en los datos de pruebas. Esto demuestra, que, al menos en este problema, una red de capas convolucionales, no mejora el desempeño de la red. Quizás si se realizan ciertos ajustes a la red, sea posible obtener un mejor resultado.

#### Uso de ImageDataGenerator

Una de cuantas mejoras que se pueden realizar a una red, es la de poder entrenarlas con una mayor cantidad de datos posibles, es por eso que en esta actividad se hará uso de un ImageDataGenerator, es decir que, se "crearán" nuevas imágenes a partir de las que ya se tienen.

En este caso las imagenes se verán afectadas gracias a los siguientes factores:
	width_shift_range=0.1, # randomly shift images horizontally (fraction of width)
	height_shift_range=0.1, # randomly shift images vertically (fraction of height)
	horizontal_flip=True, # randomly flip images

Width_shift_range , tendrá un 10% de probabilidad de girar la imagen horizontalmente, height_shift_range, hará lo mismo, pero verticalmente, y el último aleatoreamente dará vuelta una imagen.

Esto puede ayudar a una red, a que aprenda a distinguir un mismo elemento de distintas maneras, permitiendo así, que la red no tenga un comportamiento tan marcado con los datos utilizados en su entrenamiento, y por lo tanto, no permita un overfitting. 

In [25]:
#PARTE G
from keras.preprocessing.image import ImageDataGenerator

model = Sequential()
model.add(Conv2D(64, (3, 3), padding="same", input_shape=Xtr.shape[1:]))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(64, (3, 3), padding="same"))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(num_classes))
model.add(Activation('softmax'))
model.summary()

from keras.optimizers import SGD, rmsprop
opt = rmsprop(lr=0.001, decay=1e-6)
model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])


datagen = ImageDataGenerator(
	featurewise_center=False, # set input mean to 0 over the dataset
	samplewise_center=False, # set each sample mean to 0
	featurewise_std_normalization=False, # divide inputs by std of the dataset
	samplewise_std_normalization=False, # divide each input by its std
	zca_whitening=False, # apply ZCA whitening
	rotation_range=0, # randomly rotate images (degrees, 0 to 180)
	width_shift_range=0.1, # randomly shift images horizontally (fraction of width)
	height_shift_range=0.1, # randomly shift images vertically (fraction of height)
	horizontal_flip=True, # randomly flip images
	vertical_flip=False) # randomly flip images
datagen.fit(Xtr)
model.fit_generator(datagen.flow(Xtr, Ytr,batch_size=32), steps_per_epoch=Xtr.shape[0]//32, epochs=25,validation_data=(Xts, Yts))
######

#Se evalua el modelo sobre el conjunto de validacion
score = model.evaluate(Xts, Yts, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_27 (Conv2D)           (None, 32, 32, 64)        1792      
_________________________________________________________________
activation_39 (Activation)   (None, 32, 32, 64)        0         
_________________________________________________________________
max_pooling2d_7 (MaxPooling2 (None, 16, 16, 64)        0         
_________________________________________________________________
conv2d_28 (Conv2D)           (None, 16, 16, 64)        36928     
_________________________________________________________________
activation_40 (Activation)   (None, 16, 16, 64)        0         
_________________________________________________________________
max_pooling2d_8 (MaxPooling2 (None, 8, 8, 64)          0         
_________________________________________________________________
flatten_7 (Flatten)          (None, 4096)              0         
__________

La red finalmente obtiene un desempeño muy similar a las anteriores redes, es decir, que la forma en que fue implementada, no tuvo real incidencia en una mejora de accuracy.

Aún así, esta medida, si es mejor implementada ( quizás sea necesario variar los porcentajes de probabilidad, o utilizar otras transformaciones) puede ayudar de gran manera al desempeño de una red, esto ya que su finalidad tiene mucho sentido a la hora de entrenar una red.

#### Errores 

A continuación se obtendrán cuales son los tipos de datos que más confusión generan a la red. Para ello, se utilizará la red que obtuvo un mejor desempeño.


In [None]:
#PARTE D
#PARTE de la B
model = Sequential()
model.add(Conv2D(64, (3, 3), padding="same", input_shape=Xtr.shape[1:]))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Conv2D(64, (3, 3), padding="same"))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(num_classes))
model.add(Activation('softmax'))
model.summary()

#PARTE D
from keras.optimizers import SGD, rmsprop
opt = rmsprop(lr=0.001, decay=1e-6)
model.compile(optimizer=opt, loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(Xtr, Ytr,batch_size=32, nb_epoch=25, validation_data=(Xv, Yv),shuffle=True)

#Se evalua el modelo sobre el conjunto de validacion
score = model.evaluate(Xts, Yts, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])