<h1> Reconocimiento de Imágenes en CIFAR10 <h1>

**3.0 Importaciones necesarias**

Se importan módulos y funciones necesarias para trabajar en este problema. Para el trabajo con redes neuronales, se usará TensorFlow como backend de la librería Keras.

In [2]:
from scipy.misc import imread
import cPickle as pickle
import numpy as np
import os
from sklearn.preprocessing import StandardScaler
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.optimizers import SGD
import tensorflow as tf
from top_level_features import hog_features
from top_level_features import color_histogram_hsv
from top_level_features import extract_features
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor as Tree

Using TensorFlow backend.


**3.1 Extracción de archivos**

A continuación, se extraen los bloques correspondientes al conjunto de entrenamiento y al conjunto de pruebas, por medio de la función *unpickle*, que retorna los datos en formato de diccionario.

In [2]:
#Función para extracción de bloques de datos
def unpickle(file):
    fo = open(file, 'rb')
    dict = pickle.load(fo)
    fo.close()
    return dict

In [3]:
#Se extraen bloques de datos a utilizar
db1 = unpickle('data_batch_1')
db2 = unpickle('data_batch_2')
db3 = unpickle('data_batch_3')
db4 = unpickle('data_batch_4')
db5 = unpickle('data_batch_5')

**3.2 Construcción de matrices de entrenamiento, prueba y validación**

Por medio de la función *load_CIFAR_One*, es posible separar, para un determinado bloque, los atributos predictores y el atributo a predecir.

In [4]:
#Separación de atributos predictores y atributo a predecir
def load_CIFAR_one(filename):
    with open(filename, 'rb') as f:
        datadict = pickle.load(f)
        X = datadict['data']
        Y = datadict['labels']
        return X, np.array(Y)

A partir de la función anterior, se procede a construir matricialmente los conjuntos de entrenamiento, prueba y validación con que se trabajará más adelante. Para ello, se implementa, la función *load_CIFAR10*. Notar que el conjunto de validación se crea permutando aleatoriamente las filas del conjunto de entrenamiento y posteriormente se seleccionan mil de estas filas. 

In [5]:
#Se crean, matricialmente, conjuntos de entrenamiento, prueba y validación
def load_CIFAR10(PATH):
    #Creación de matrices de entrenamiento
    xs = []
    ys = []
    for b in range(1, 6):
        f = os.path.join(PATH, 'data_batch_%d' % (b, ))
        X, Y = load_CIFAR_one(f)
        xs.append(X)
        ys.append(Y)
    Xtr = np.concatenate(xs)
    Ytr = np.concatenate(ys)
    del X, Y
    #Creación de matrices de prueba
    Xts, Yts = load_CIFAR_one(os.path.join(PATH, 'test_batch'))
    #Creación de matrices de validación
    training_data = Xtr
    training_data_y = Ytr.reshape((50000, 1))
    training_data = np.append(training_data, training_data_y, axis=1)
    np.random.shuffle(training_data)
    Xv = training_data[:1000, :3072]
    Yv = training_data[:1000, 3072]
    return Xtr, Ytr, Xts, Yts, Xv, Yv

De esta manera, se crean las matrices Xtr e Ytr, que corresponden a las imágenes y labels de entrenamiento, Xts e Yts, similes de los anteriores para el caso de pruebas y Xv e Yv, similes de los anteriores para el caso de validación.

In [6]:
Xtr, Ytr, Xts, Yts, Xv, Yv = load_CIFAR10('.')

**3.3 Normalización de datos**

Se estudian dos estrategias de normalización: Primero, se experimenta dividiendo los datos de las matrices por la intensidad máxima de pixel de cada una. Se comprueba que para todas estas matrices, dicha intensidad es 255. 

In [7]:
print np.amax(Xtr), np.amax(Xts), np.amax(Xv)

255 255 255


Por tanto, se procede a dividir cada celda de las matrices Xtr, Xts y Xv por 255. Como consecuencia de esta operación, cada una de esta celdas posee un valor entre 0 y 1.

In [8]:
Xtr_px = Xtr / float(np.amax(Xtr)) 
Xts_px = Xts / float(np.amax(Xts))
Xv_px = Xv / float(np.amax(Xv))

La segunda estrategia de normalización consiste en escalar los datos de tal forma de que estos sigan una distribución gaussiana de media 0 y varianza 1. Para ello, se construye la función *scaler_function*.

In [9]:
def scaler_function(X1, X2, X3, scale=True):
    scaler = StandardScaler(with_std=scale).fit(Xtr)
    Xtr_scaled = scaler.transform(X1)
    Xts_scaled = scaler.transform(X2)
    Xv_scaled = scaler.transform(X3)
    return Xtr_scaled, Xts_scaled, Xv_scaled

Luego, bajo esta estrategia, se escalan las tres matrices originales.

In [10]:
Xtr_scaled, Xts_scaled, Xv_scaled = scaler_function(Xtr, Xts, Xv)



Sin embargo, es necesario precisar que la media de las matrices son muy cercanas a 0, pero no completamente 0.

In [11]:
Xtr_scaled.mean(axis=0)

array([  3.10516057e-16,  -5.55111512e-19,  -1.22137855e-16, ...,
         1.36955558e-15,  -1.32736044e-16,   1.22275523e-16])

Por otro lado, las varianzas son exactamente 1. 

In [12]:
Xtr_scaled.std(axis=0)

array([ 1.,  1.,  1., ...,  1.,  1.,  1.])

**3.4 Construcción de redes neuronales para problema de reconocimiento de imágenes**

En primer lugar, se transforman los vectores Ytr, Yts e Yv a matrices categóricas. 

In [14]:
Ytr = to_categorical(Ytr)
Yts = to_categorical(Yts)
Yv = to_categorical(Yv)

La primera arquitectura de red neuronal con que se trabaja es una DNN (*Deep Sequential Neural Network*), que corresponde a una clase de red totalmente conectada que procesa datos de forma secuencial a través de sus capas. En este caso, se crea una red con 100 capas ocultas y se ocupa la función de activación de capas *relu*. Posterior a ello, se elimina aleatoriamente el 10% de las capas y se agregan 10 nuevas, pero considerando la función de activación *softmax* para estas últimas. Después de aplicar tales ajuste, se compila el modelo. Una vez compilado, se procede a optimizar el modelo obtenido, es decir, en base a los valores que se obtienen para la función de perdida y para la precisión del modelo aplicado sobre el conjunto de validación, se realizan ajustes en dicho modelo, re-calculando, por ejemplo, los hiper parámetros. Se realizan, en total, 50 iteraciones de optimización.

In [60]:
model = Sequential()
model.add(Dense(100, input_dim=Xtr_scaled.shape[1], init='uniform', activation='relu'))
model.add(Dropout(0.1))
model.add(Dense(10, init='uniform', activation='softmax'))
model.compile(optimizer=SGD(lr=0.05), loss='binary_crossentropy', metrics=['accuracy'])
model.fit(Xtr_scaled, Ytr, nb_epoch=50, batch_size=32, verbose=1, validation_data=(Xv_scaled,Yv))
scores = model.evaluate(Xv_scaled, Yv)
test_acc = scores[1]

Train on 50000 samples, validate on 1000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50

Los resultados del código anterior muestran que en, en promedio, cada iteración de optimización demora 10.64 [s], sumando un tiempo de 532 [s] para el total de iteraciones. Se puede ver como, tanto para el conjunto de entrenamiento como el validación, la función de pérdida experimenta una reducción considerable y a su vez, la precisión aumenta en una proporción no menor.

Se implementa una nueva red, pero se cambia la función de activación de neuronas: Ahora se utiliza *sigmoid*.

In [61]:
model = Sequential()
model.add(Dense(100, input_dim=Xtr_scaled.shape[1], init='uniform', activation='sigmoid'))
model.add(Dropout(0.1))
model.add(Dense(10, init='uniform', activation='softmax'))
model.compile(optimizer=SGD(lr=0.05), loss='binary_crossentropy', metrics=['accuracy'])
model.fit(Xtr_scaled, Ytr, nb_epoch=50, batch_size=32, verbose=1, validation_data=(Xv_scaled,Yv))
scores = model.evaluate(Xv_scaled, Yv)
test_acc = scores[1]

Train on 50000 samples, validate on 1000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50

Al usar la función de activación *sigmoid*, se obtiene una tiempo promedio de 10.98 [s] por iteración en el proceso de optimización del modelo, siendo el total de 549 [s], por lo que requiere de un tiempo mayor respecto al modelo que usó la función de activación *relu*. Además, si bien la función de perdida se reduce y la precisión aumenta al culminar este proceso, no mejora los valores obtenidos por el modelo anterior, como por ejemplo, la precisión sobre el conjunto de validación, que para el caso anterior alcanzó su valor óptimo en 0.9526, mientras que en este caso el óptimo fue 0.9219.  

Por último, se estudia el resultado de reducir la cantidad de capas presentes en la red a casi la mitad, esto es, 55 capas. 

In [62]:
model = Sequential()
model.add(Dense(50, input_dim=Xtr_scaled.shape[1], init='uniform', activation='relu'))
model.add(Dropout(0.1))
model.add(Dense(10, init='uniform', activation='softmax'))
model.compile(optimizer=SGD(lr=0.05), loss='binary_crossentropy', metrics=['accuracy'])
model.fit(Xtr_scaled, Ytr, nb_epoch=50, batch_size=32, verbose=1, validation_data=(Xv_scaled,Yv))
scores = model.evaluate(Xv_scaled, Yv)
test_acc = scores[1]

Train on 50000 samples, validate on 1000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50

Los resultados muestran que al utilizar la misma función de activación que en el primer modelo, pero reduciendo la cantidad de capas a 50 disminuye el tiempo de optimización a 8.2 [s] en promedio por iteración. Sin embargo, la precisión sobre el conjunto de validación es de 0.9373, inferior al valor 0.9526 del primer modelo. 

**3.5 Cambio en el formato de representación de imágenes**

En esta sección, se estudian dos nuevos formatos de representación de los datos: El primero, corresponde a un histograma de tonos. El segundo, a descriptores HOG. En el siguiente código, se crean estas dos representaciones, junto con una tercera representación que combina los atributos de las anteriores. 

In [13]:
features1_tr = extract_features(Xtr_scaled,[hog_features]) #extrae hog features
features2_tr = extract_features(Xtr_scaled,[color_histogram_hsv]) #extrae histogramas de color
features3_tr = extract_features(Xtr_scaled,[hog_features, color_histogram_hsv]) #extrae todo

features1_v = extract_features(Xv_scaled,[hog_features]) #extrae hog features
features2_v = extract_features(Xv_scaled,[color_histogram_hsv]) #extrae histogramas de color
features3_v = extract_features(Xv_scaled,[hog_features, color_histogram_hsv]) #extrae todo

(50000, 32, 32, 3)
(50000, 32, 32, 3)
(50000, 32, 32, 3)
(1000, 32, 32, 3)
(1000, 32, 32, 3)
(1000, 32, 32, 3)


Usando la representación mediante descripores HOG, se entrena red neuronal de 50 capas y función de activación *relu* (se han considerado los resultados de la sección anterior). Se ha reducido la cantidad de capas, dado a que inicialmente se intentó utilizar 100 de ellas, pero el costo en términos de tiempo resultó ser muy alto.

In [67]:
model = Sequential()
model.add(Dense(50, input_dim=features1_tr.shape[1], init='uniform', activation='relu'))
model.add(Dropout(0.1))
model.add(Dense(10, init='uniform', activation='softmax'))
model.compile(optimizer=SGD(lr=0.05), loss='binary_crossentropy', metrics=['accuracy'])
model.fit(features1_tr, Ytr, nb_epoch=50, batch_size=32, verbose=1, validation_data=(features1_v,Yv))
scores = model.evaluate(features1_v, Yv)
test_acc = scores[1]

Train on 50000 samples, validate on 1000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50

En base a los resultados, se puede ver como la precisión sobre el conjunto de validación aumenta muy poco a lo largo del proceso de optimización (De hecho, sólo empieza a mejorar a partir de la iteración 27). Por otro lado, el tiempo de cómputo se reduce en una cantidad no menor, siendo de aproximadamente 2.74 [s] en promedio por iteración, con un tiempo total de 137 [s].

Usando la representación mediante histogramas de tonos, se entrena red neuronal de 50 capas y función de activación *relu*.

In [68]:
model = Sequential()
model.add(Dense(50, input_dim=features2_tr.shape[1], init='uniform', activation='relu'))
model.add(Dropout(0.1))
model.add(Dense(10, init='uniform', activation='softmax'))
model.compile(optimizer=SGD(lr=0.05), loss='binary_crossentropy', metrics=['accuracy'])
model.fit(features2_tr, Ytr, nb_epoch=50, batch_size=32, verbose=1, validation_data=(features2_v,Yv))
scores = model.evaluate(features2_v, Yv)
test_acc = scores[1]

Train on 50000 samples, validate on 1000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50

Analizando los resultados, se puede ver como la precisión sobre el conjunto de validación aumenta muy poco a lo largo del proceso de optimización, siendo obteniendose valores para la función de perdida y precisión inferiores a los conseguidos con la representación mediante descriptores HOG. Por otro lado, el tiempo de cómputo se reduce  a  2[s] en promedio por iteración, con un tiempo total de 100 [s].

Usando la representación combinada de descripores HOG e histogramas de color, se entrena red neuronal de 50 capas y función de activación *relu*.

In [69]:
model = Sequential()
model.add(Dense(50, input_dim=features3_tr.shape[1], init='uniform', activation='relu'))
model.add(Dropout(0.1))
model.add(Dense(10, init='uniform', activation='softmax'))
model.compile(optimizer=SGD(lr=0.05), loss='binary_crossentropy', metrics=['accuracy'])
model.fit(features3_tr, Ytr, nb_epoch=50, batch_size=32, verbose=1, validation_data=(features3_v,Yv))
scores = model.evaluate(features3_v, Yv)
test_acc = scores[1]

Train on 50000 samples, validate on 1000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50

Al observar los resultados anteriores, se observa como, al finalizar el proceso de optimización, la precisión sobre el conjunto de validación resulta ser superior con respecto a cada una de las dos representación anteriores. Además, El tiempo total de cómputo es 116 [s], es decir, 2.32 [s] en promedio por iteración, tiempo que, si bien es superior al alcanzando usando sólo descriptores HOG, es a su vez inferior al alcanzando con histogramas de tonos. Luego, se considera como la mejor opción de las tres estudiadas para construir el modelo y se utilizará en las secciones siguientes.

**3.6 Resolución del problema por medio de una SVR no lineal**

Primero, se entrena SVR sobre representación original de imágenes, con parámetro de regularización C = 1, dados los buenos resultados obtenidos al usar este valor. Tomar en cuenta que el entrenamiento de la SVR puede tomar varias horas de ejecución, lo que muestra que no es el método más indicado para abarcar este problema.

In [None]:
Xtr, Ytr, Xts, Yts, Xv, Yv = load_CIFAR10('.')
Xtr_scaled, Xts_scaled, Xv_scaled = scaler_function(Xtr, Xts, Xv)

model = SVR(C=1,epsilon=0.01)
model.fit(Xtr_scaled,Ytr)
score_tr = model.score(Xtr_scaled, Ytr)
score_v = model.predict(Xv_scaled, Yv)



Los scores obtenidos son:

In [None]:
print "Precisión sobre conjunto de entrenamiento:", score_tr
print "Precisión sobre conjunto de validación:", score_v

Luego, se entrena una SVR con los mismos parámetros del caso anterior, pero ahora sobre la representación combinada de descriptores HOG e histogramas de tonos, pues es la que consiguió los mejores resultados en la sección anterior. El tiempo de entrenamiento de este modelo también puede requerir de varias horas. 

In [3]:
model = SVR(C=1,epsilon=0.01)
model.fit(features3_tr,Ytr)
score_tr = model.score(features3_tr, Ytr)
score_v = model.score(features3_v)

NameError: name 'features3_tr' is not defined

Los scores obtenidos son:

In [None]:
print "Precisión sobre conjunto de entrenamiento:", score_tr
print "Precisión sobre conjunto de validación:", score_v

**3.7 Resolución del problema por medio de un árbol de regresión**

Primero, se entrena árbol de regresión sobre representación original de imágenes, se experimenta con profundidad máxima 10 y 20 (El siguiente código muestra solo para profundidad 20).

In [19]:
model = Tree(random_state=0,max_depth=20)
model.fit(Xtr_scaled,Ytr)
score_tr = model.score(Xtr_scaled, Ytr)
score_v = model.score(Xv_scaled, Yv)

Los scores obtenidos son:

In [20]:
print "Precisión sobre conjunto de entrenamiento:", score_tr
print "Precisión sobre conjunto de validación:", score_v

Precisión sobre conjunto de entrenamiento: 0.852673959313
Precisión sobre conjunto de validación: 0.856074943301


Para profundidad máxima 10, el rendimiento es bastante pobre, siendo la precisión sobre el conjunto de validación apenas del orden de 0.32, pero al aumentar la profundidad a 20, se muestra una gran mejora en el rendimiento sobre el conjunto de validación, siendo del orden de 0.86.

Luego, se entrena árbol con los mismos parámetros del caso anterior, pero ahora sobre la representación mediante combinada. La profundidad del árbol nuevamente es 20.

In [23]:
model = Tree(random_state=0,max_depth=20)
model.fit(features3_tr,Ytr)
score_tr = model.score(features3_tr, Ytr)
score_v = model.score(features3_v, Yv)

Los scores obtenidos son:

In [24]:
print "Precisión sobre conjunto de entrenamiento:", score_tr
print "Precisión sobre conjunto de validación:", score_v

Precisión sobre conjunto de entrenamiento: 0.930198420346
Precisión sobre conjunto de validación: 0.921372860818


Los resultados muestran que la precisión sobre el conjunto de validación mejora desde 0.86 a 0.92; aproximadamente, un aumento no menor. Además, se observó que los tiempos de computo fueron menores, por lo que si se quisiera resolver el problema usando un árbol de regresión, conviene utilizar la representación combinada en vez de la representación original.