# 2 CNNs en Google Street View

En esta sección, trabajaremos con el dataset **SVHN** (Street View House Numbers), correspondiente a imágenes naturales de dígitos de direcciones obtenidos desde Google Street View. El dataset contiene más de 600.000 imágenes de entrenamiento y 26.032 imágenes de test. Para facilitar la realización de experimentos, el dataset de entrenamiento se divide usualmente en un conjunto pequeño de 73.257 imágenes y un conjunto “*extra*” de 531.131 imágenes. En esta tarea trabajaremos sólo con la versión pequeña. Los valientes pueden veriﬁcar que entrenando sobre el conjunto grande los resultados mejoran signiﬁcativamente.

Los datos pueden ser obtenidos (en formato Matlab) ejecutando los siguientes comandos:

```
wget http://ufldl.stanford.edu/housenumbers/train_32x32.mat 
wget http://ufldl.stanford.edu/housenumbers/extra_32x32.mat
wget http://ufldl.stanford.edu/housenumbers/test_32x32.mat

```

## A. Conocer el DataSet

Cargue los datos de entrenamiento y pruebas (“*train 32x32.mat*” y “*test 32x32.mat*”). Determine el tamaño de las imágenes, el número de clases diferentes y de ejemplos en cada categoría. Finalmente, visualice 5 imágenes de entrenamiento y 5 de test (elegidas aleatoriamente). Comente.

```python
1 import scipy.io as sio 
2 import numpy as np 
3 train_data = sio.loadmat('train_32x32.mat') 
4 test_data = sio.loadmat('test_32x32.mat') 
5 X_train = train_data['X'].T 
6 y_train = train_data['y'] - 1 
7 X_test = test_data['X'].T 
8 y_test = test_data['y'] - 1 
9 X_train = X_train.astype('float32') 
10 X_test = X_test.astype('float32') 
11 n_classes = len(np.unique(y_train)) 
12 print np.unique(y_train)
```

## B. Normalización de datos

Normalice las imágenes, dividiendo las intensidades originales de pixel por 255. Represente adecuadamente la salida deseada de la red de modo de tener un vector de tamaño igual al número de clases.

```python
1 from keras.utils import np_utils 
2 X_train /= 255 
3 X_test /= 255 
4 Y_train = np_utils.to_categorical(y_train, n_classes) 
5 Y_test = np_utils.to_categorical(y_test, n_classes)
```

## C. Definir una red convolucional

Deﬁna una CNN con arquitectura C×P×C×P×F×F. Para la primera capa convolucional utilice 16 ﬁltros de 5×5 y para la segunda 512 ﬁltros de 7×7. Para la capa MLP escondida use 20 neuronas. Esta arquitectura, con algunas diferencias, fue una de las primera CNNs entrenadas sobre SVHN y consiguió una accuracy de 94.28%. Genere un esquema lo más compacto posible que muestre los cambios de forma que experimenta un patrón de entrada a medida que se ejecuta un forward-pass. Entrene la red anterior un máximo de 10 epochs. ¿Logra mejorar o al menos igualar el resultado reportado en la literatura?

```python
1 from keras.models import Sequential 
2 from keras.layers.core import Dense, Dropout, Activation, Flatten 
3 from keras.layers.convolutional import Convolution2D, MaxPooling2D, AveragePooling2D 
4 from keras.optimizers import SGD, Adadelta, Adagrad 
5 model = Sequential() 
6 model.add(Convolution2D(16, 5, 5, border_mode='same', activation='relu', 
7                                 input_shape=(n_channels, n_rows, n_cols))) 
8 model.add(MaxPooling2D(pool_size=(2, 2))) 
9 model.add(Convolution2D(512, 7, 7, border_mode='same', activation='relu')) 
10 model.add(MaxPooling2D(pool_size=(2, 2))) 
11 model.add(Flatten()) 
12 model.add(Dense(20, activation='relu')) 
13 model.add(Dense(n_classes, activation='softmax')) 
14 model.summary() 
15 model.compile(loss='categorical_crossentropy', optimizer=adagrad, metrics=['accuracy']) 
16 adagrad = Adagrad(lr=0.01, epsilon=1e-08, decay=0.0) 
17 model.fit(X_train, Y_train, batch_size=1280, nb_epoch=12, verbose=1, \ 
18                                             validation_data=(X_test, Y_test))
```

## D. Modificar tamaño de los filtros

Evalúe el efecto de modiﬁcar el tamaño de los ﬁltros (de convolución y pooling) reportando la sensibilidad del error de pruebas a estos cambios. Presente un gráﬁco o tabla resumen. Por simplicidad entre durante sólo 10 epochs.

## E. Modificar número de filtros

Evalúe el efecto de modiﬁcar el número de ﬁltros para las capas convolucionales tanto en los tiempos de entrenamiento como en el desempeño de la red. Presente un gráﬁco o tabla resumen. Por simplicidad entre durante sólo 10 epochs.

## F. Propuesta de mejora

Proponga una mejora sobre la red deﬁnida en (**c**) que mejore el error de pruebas. Recuerde que debe deﬁnir un subconjunto de validación si necesita elegir entre arquitecturas. 

## G. Visualizacion de pesos y efectos del filtro

Elija una de las redes entrenadas (preferentemente una con buen desempeño) y visualice los pesos correspondientes a los ﬁltros de la primera capa convolucional. Visualice además el efecto del ﬁltro sobre algunas imágenes de entrenamiento. Comente.

## H. Determinar dígitos confusos para la red

Elija una de las redes entrenadas en esta sección y determine los pares de dígitos (por ejemplo “1” con “7”) que la red tiende a confundir. Conjeture el motivo de tal confusión.


## I. Evaluación de convenencia

(Opcional, Bonus +10 en certamen) Evalúe la conveniencia de utilizar todo el dataset (“extra 32x32.mat”) en el entrenamiento de la red.

------------------------

# Desarrollo

Para el desarrollo de esta pregunta se utilizó un código fuente que se encuentra en la carpeta scripts. El archivo lleva el mismo nombre [scripts.py](https://github.com/roloow/Redes-Neuronales/blob/master/Tarea%202/Scripts/Parte%202/scripts.py)

## A)

Mediante la utilización de la función *.shape* podemos obtener como últimos dos resultados, las dimensiones de cada elemento. Aún cuando esto sea evidente dado que bajamos un formato *32x32* Además las clases obtenidas en el conjunto **y** pueden ser enumeradas mediante la función *unique()* de **numpy**, lo que genera una lista de todas las clases distintas y luego basta con obtener el largo de la lista para saber la cantidad de estos.

> Tamaño de las imagenes: 32x32

> Número de clases: 10

Luego para ver las imagenes se utiliza la clásica librería de **matplotlib** pero utilizando la funcionalidad *implot()*. Entonces, se toma un conjunto aleatoreo de ambos grupos. **NOTAR** por temas de memoria, el cambio *astype*, se deja de lado por el momento..

```python
TRAIN_EXAMPLES = random.sample(list(X_train), IMG_NUM)
```
<img src="Scripts/Parte2/5im_entrenamiento.png" style="width: 500px;"/>
```python
TEST_EXAMPLES = random.sample(list(X_test), IMG_NUM)
```
<img src="Scripts/Parte2/5im_test.png" style="width: 500px;"/>

### Comentarios

El uso del transpose se hace, dado que se intento realizar un reshape antes de ejecutarlo, pero existía una variable 32 que quedaba inmovil lo que seguía dejando la imagen ladeada por lo que se decidió utilizar la propiedad *transpose* para reordenar literalmente el conjunto.

## B)

Se realizan los pasos pedidos, sin embargo **Python 2.7** en **Windows** tiene restringido el uso de memoria para los procesos del mismo, por esto utilizar *float32* fue radicalmente imposible, aún cuando teníamos una CPU con 16GB de RAM. Dada la premisa anterior se tuvo que cambiar a *float16*.

```python
X_train = X_train.astype('float16') 
X_test = X_test.astype('float16') 
```

## C)

En primera instancia se crea el modelo y se genera una tabla de contenidos, que básicamente realiza un resumen de las capas y sus salidas.

<center>
```
|-----------------------------|-------------------|----------|
| Layer (type)                | Output Shape      | Param #  |
|-----------------------------|-------------------|----------|
|conv2d_1 (Conv2D)            |(None, 16, 32, 32) |1216      |
|max_pooling2d_1 (MaxPooling2)|(None, 16, 16, 16) |0         |
|conv2d_2 (Conv2D)            |(None, 512, 16, 16)|401920    |
|max_pooling2d_2 (MaxPooling2)|(None, 512, 8, 8)  |0         |
|flatten_1 (Flatten)          |(None, 32768)      |0         |
|dense_1 (Dense)              |(None, 20)         |655380    |
|dense_2 (Dense)              |(None, 10)         |210       |
```
</center>

> Total params: 1,058,726

> Trainable params: 1,058,726

> Non-trainable params: 0

Con esto modelado, se pasa a entrenar la red con una función de perdida **categorical** y un optimizador *Agradad* definido por
```python
Adagrad(lr=0.01, epsilon=1e-08, decay=0.0)
```
Esto con la inclusión de la GPU a **Theano** mediante un archivo *.theanorc* permitió correr el entrenamiento dado que de otra forma, este se veía detenido al llegar a un punto que dejaba a la CPU sin memoria.

La primera epoch:
> Epoch 1/10  |  73257/73257 [==============================] - 617s

> **loss**: 0.2681 - **acc**: 0.9126 - **val_loss**: 0.2033 - **val_acc**: 0.9332

Mientras que en la última
> Epoch 10/10 |  73257/73257 [==============================] - 398s

> **loss**: 0.0583 - **acc**: 0.9842 - **val_loss**: 0.0926 - **val_acc**: 0.9806

En la literatura se habla de un *Accuracy* de *94.28* **%**, y si bien nuestra red convolucional parte siendo inferior a lo leido, tras el entrenamiento supera con amplia diferencia lo esperado.

Luego para poder ver mejor como evoluciona la red se graficó la perdida con respecto a los ciclos de entrenamiento.

<img src="Scripts/Parte2/loss.png" style="width: 300px;"/>


## D)

Para este caso se utilizó el mismo código de la parte **C**, solo que los valores alterados haciendo referencia al código anterior, fueron las tuplas (5,5) y (7,7) para la modificación convolucional y los valores del *pool_size* para la modificación pooling.

Debido a que los números anteriores tenian una cierta correlación decidimos mantenerla, siendo las tuplas números impares y los pool_size números pares. Como probaremos un producto cruz de estos elementos, es decir *CxP* con 3 tuplas y 2 pooling generamos 6 resultados los que son suficientes para analizar.

> CONV = [(5,5), (7,7), (9,9)]

> POOL = [(2,2), (4,4)]

A continuación se presentan de la siguiente forma, los resultados de los errores, un gráfico individual, un gráfico comparativo con los mismos *pool_size* y un gráfico comparativo entre todos. **NOTAR** que al reemplazar por el valor *7* las convoluciones y con *2* de pooling generó un resultado invariante.

#### Convolucion: 5 - Pool Size: 2
<img src="Scripts/Parte2/52.png" style="width: 300px;"/>
#### Convolucion: 5 - Pool Size: 4
<img src="Scripts/Parte2/54.png" style="width: 300px;"/>
#### Convolucion: 7 - Pool Size: 2
<img src="Scripts/Parte2/72.png" style="width: 300px;"/>
#### Convolucion: 7 - Pool Size: 4
<img src="Scripts/Parte2/74.png" style="width: 300px;"/>
#### Convolucion: 9 - Pool Size: 2
<img src="Scripts/Parte2/92.png" style="width: 300px;"/>
#### Convolucion: 9 - Pool Size: 4
<img src="Scripts/Parte2/94.png" style="width: 300px;"/>

#### Convolucion: 5/7/9 - Pool Size: 2
<img src="Scripts/Parte2/222.png" style="width: 300px;"/>
#### Convolucion: 5/9 - Pool Size: 2
<img src="Scripts/Parte2/22.png" style="width: 300px;"/>
#### Convolucion: 5/7/9 - Pool Size: 4
<img src="Scripts/Parte2/444.png" style="width: 300px;"/>

#### Convolucion: 5/7/9 - Pool Size: 2/4
<img src="Scripts/Parte2/222444.png" style="width: 300px;"/>
#### Convolucion: 5/9 - Pool Size: 2/4
<img src="Scripts/Parte2/22444.png" style="width: 300px;"/>

Luego de ver estos gráficos se puede notar claramente como el pooling afecta de manera directa al rendimiento de la red convolucional, siendo que los pooling mayores tengan mejor convergencia en términos de perdida.

## E)

Para esta sección se utilizó lo realizado en la sección anterior dada la modificación de **SOLO** la cantidad de ambas capas, los valores de tamaño. Luego se recepcionaron los tiempos y estos fueron gráficados individualmente como en conjunto. Se utilizaron para la primera capa los valores de **16, 32, 64**, mientras que para la segunda capa los valores de **128, 256, 512**.

**NOTAR** Una gran cantidad de estos datos se perdieron en un corte de energìa, dado que no conociamos la posibilidad de realizar model.save() no pudimos representar la tabla en su completitud, sin embargo, en tiempo de ejecuciòn logramos ver que las arquitecturas que mejor rendimiento tenian eran aquellas que consideraban cantidad de 32 filtros en su capa inicial.

|Capa 1| Capa 2| Loss  | Accuracy |
|:-----|:------|:------|----------|
| 16   | 128   | 0.7678| 0.7775   |
| 16   | 256   | 1.1532| 0.6180   |
| 32   | 256   | 0.6139| 0.8244   |
| 64   | 256   | 1.0439| 0.6810   |

## F)

Finalmente la nueva arquitectura que utilizaremos 

```python
model = Sequential()
model.add(Convolution2D(32, (3, 3), border_mode='same', activation='relu', input_shape=(n_channels, size_h, size_w)))
model.add(Convolution2D(32, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Convolution2D(128, (3, 3), border_mode='same', activation='relu'))
model.add(Convolution2D(128, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Flatten())
model.add(Dense(20, activation='relu'))
model.add(Dense(n_classes, activation='softmax'))
model.summary()
```
<center>
```
|-----------------------------|-------------------|----------|
| Layer (type)                | Output Shape      | Param #  |
|-----------------------------|-------------------|----------|
|conv2d_1 (Conv2D)            |(None, 32, 32, 32) |896       |
|conv2d_2 (Conv2D)            |(None, 32, 30, 30) |9248      |
|max_pooling2d_1 (MaxPooling2)|(None, 32, 15, 15) |0         |
|conv2d_3 (Conv2D)            |(None, 128, 15, 15)|36992     |
|conv2d_4 (Conv2D)            |(None, 128, 13, 13)|147584    |
|max_pooling2d_2 (MaxPooling2)|(None, 512, 6, 6)  |0         |
|flatten_1 (Flatten)          |(None, 32768)      |0         |
|dense_1 (Dense)              |(None, 20)         |92180     |
|dense_2 (Dense)              |(None, 10)         |210       |
```
</center>

> Total params: 287,110

> Trainable params: 287,110

> Non-trainable params: 0

## G)

De las entrenadas, se decide utilizar la convolución 5 con pooling 4. Luego de generar el modelo, se utiliza la propiedad layers que retorna las capas de la red y se selecciona la primera, a lo que se le utiliza la propiedad *get_weight*.
```python
first = model.layers[0]
weights = np.array(first.get_weights())
```
Luego dado que estamos corriendo el código en un script aparte, presentamos el shape de los pesos y un pequeño estracto de ellos.

> (5, 5, 3, 16)

<img src="Scripts/Parte2/pesos.png" style="width: 500px;"/>

Luego seleccionamos una imagen al azar y utilizando *Keras.backend* vemos las acciones de los filtros sobre la imagen en la capa de salida.

<img src="Scripts/Parte2/filter.png" style="width: 100px;"/>

...

## H)

Hemos corrido nuestra red y los resultados son bastante acogedores dado que las clases son reconocidas correctamente en su primera opción, lo que si resaltamos es que el número **2**, por su forma tiende a ser el más confundido con respecto a los demás.
```
5088/5099 [============================>.] - ETA: 0s Class 0 gets:  0 and 6
4149/4149 [==============================] - 16s     Class 1 gets:  1 and 2
2880/2882 [============================>.] - ETA: 0s Class 2 gets:  2 and 1
2523/2523 [==============================] - 9s      Class 3 gets:  3 and 0
2384/2384 [==============================] - 9s      Class 4 gets:  4 and 2
1977/1977 [==============================] - 7s      Class 5 gets:  5 and 2
2016/2019 [============================>.] - ETA: 0s Class 6 gets:  6 and 1
1660/1660 [==============================] - 6s      Class 7 gets:  7 and 2
1595/1595 [==============================] - 6s      Class 8 gets:  8 and 2
1744/1744 [==============================] - 6s      Class 9 gets:  9 and 2
```
## I)

