![](images/header_18.png)<br>

# Redes neuronales convolucionales

Las redes convolucionales son una combinación de un perceptrón multicapa, con capas de pre-procesamiento de los datos de entrada. Estas capas de entrada mejoran y simplifican los datos que serán presentados al perceptrón multicapa. Esta arquitectura es particularmente útil para reconocimiento de patrones en imágenes.

## La inspiración biológica

El perceptrón multicapa es un buen clasificador y método de aprendizaje automático basado en una metafora fisiológica. Sin embargo, la arquitectura que presenta este modelo es muy simplista: La red neuronal se conforma mediante un conjunto, típicamente grande, de neuronas básicamente idénticas, organizadas en capas secuenciales que tampoco se diferencian entre sí. La forma de resolver un problema es, básicamente, la misma sin importar el tipo de problema de que se trate. Las redes neuronales convolucionales se derivan de una metáfora más amplia de la estructura cerebral, específicamente aquella especializada en la comprensión de la información visual.

### Estructura cerebral en el humano

Actualmente, no existe una teoría unificada acerca de la organización y funcionamiento del cerebro que sea universalmente aceptada. Sin embargo, existe un consenso amplio en torno a la idea de que las diferentes regiones en el cerebro se especializan funcionalmente. Anatómicamente, el cerebro se describe en dos hemisferios (derecho e izquierdo), divididos en 6 lóbulos, cuatro de ellos fácilmente identificables (el lóbulo frontal, el lóbulo temporal, el lóbulo parietal y el lóbulo occipital) y otros dos (el lóbulo límbico y el lóbulo insular) localizados más al interior del cerebro.<br><br>

<img src="images/brain_2.png" width=50%><br>

Estas regiones anatómicas han sido asociadas a funciones específicas, una interpretación sujeta a controversia, pero que sigue siendo ampliamente aceptada:

* Hemisferio derecho: Se considera responsable de controlar el movimiento de lado izquierdo del cuerpo, así como asiento de la creatividad, la intuición y el pensamiento holístico.

* Hemisferio izquierdo: Se considera responsable de controlar el movimiento de lado derecho del cuerpo, así como asiento del pensamiento lógico-matemático y el lenguaje.

* Lóbulo frontal: Se encuentra localizado al frente del cerbro y delimitado posteriormente por el surco central y en la parte inferior por el surco lateral. Se considera responsable de controlar el movimiento voluntario de partes específicas del cuerpo, así como de funciones mentales superiores como la planificación y la toma de decisiones. También se considera responsable de la articulación fluida del habla.

* Lóbulo parietal: Se localiza en la parte central superior del cerebro. Se asume responsable de procesar información sensorial relacionada con el gusto, la temperatura, el tacto y la propiocepción. También se le responsabiliza (de acuerdo a la hipótesis de las dos corrientes de la visión) de la interpretación visual del movimiento (trayectoria dorsal). 

* Lóbulo occipital: Localizado en la parte posterior del cerebro, contiene la mayor parte de la corteza visual en los mamíferos y se le considera responsable del procesamiento de la información visual proveniente de los ojos.

* Lóbulo temporal: Se encuentra localizado por abajo del surco lateral. Se le considera responsable de interpretar la información proveniente de los sentidos, particularmente del oído y la vista, comprensión del lenguaje y la asociación de emociones.

* Lóbulo límbico: Se encuentra localizado sobre las caras interiores de cada hemisferio cerebral, en la parte más interna y abarca porciones de los lóbulos frontal, parietal y temporal. Se le responsabiliza del olfato y de influir fuertemente en las emociones.

* Lóbulo insular: Consiste de la corteza cerebral en la parte profunda del surco lateral. Se le relaciona con la conciencia y se asume juega un papel importante en las emociones y el control de la homeostasis del cuerpo.


### Comprensión de la información visual

Una de las teorías de especialización local más influyentes y más cuestionadas en los últimos 30 años es la relacionada con la hipótesis de las dos trayectorías. De acuerdo con esta hipótesis, la información visual (al igual que la auditiva) viaja por dos trayectorias independientes:

* La corriente ventral, que lleva la información visual desde el lóbulo occipital al lóbulo tenporal con el fin de identificar patrones (formas), y 
* La corriente dorsal, que lleva la información visual del lóbulo occipital a lóbulo parietal y cuyo objetivo es detectar movimiento en una escena. 

Aunque aún se cuestiona la supuesta independencia de las dos corrientes, la hipótesis se ha reivindicado en los últimos años y ha sido ampliamente aceptada, al menos en su idea general. De acuerdo a la hipótesis de las dos corrientes, el reconocimiento visual de patrones (forma y color) se puede esquematizar de la siguiente manera:

1. La interpretación de información visual inicia con el sensado de la escena a través de células altamente especializadas en la **retina**: los conos y los bastones (importantes para la detección de movimiento). La percepción de la luz por los humanos se basa, de acuerdo con la teoría (tricromática) de Young–Helmholtz, en la respuesta de tres tipos de conos a diferentes rangos de longitud de onda:<br>&#9633; Los *conos S* que son particularmente sensibles a la luz en el rango 400–500 nm, con un pico de recepción en torno al rango 420–440 nm (en torno al color azul).<br>&#9633; Los *conos M*, sensibles fuertemente a la luz en el rango 450–630 nm, con un pico de recepción en torno al rango 534–555 nm (en la región de colores verde amarillento).<br>&#9633; Los *conos L* que son fuertemente sensibles a la luz en el rango 500–700 nm, con un pico de recepción en torno al rango 564–580 (la región del naranja).
    <img src="images/colors_vision.png" width=75%><br>
La información proveniente de cada tipo de cono puede considerarse como un 'canal' de información. El estímulo visual es recibido por grupos de conos que muestrean porciones del campo visual de forma redundante. La luz recibida en los conos es convertida en una señal eléctrica y transmitida a las *células M* (neuronas) del sistema nervioso.<br><br>

2. Los axones de las células-M se proyectan hacia el núcleo geniculado lateral (**NGL**), a través del nervio óptico (que se convierte en cintilla óptica a partir del quiasma óptico). El NGL es un núcleo en el tálamo que funciona como punto de relevo de la información visual. Consta de 6 capas, 4 de ellas formadas por *células-P* dedicadas a recibir las señales de las celulas-M (provenientes de los conos en la retina). La información recibida en el NGL es descompuesta en estas capas y reenviada a traves de la cintilla óptica a las corteza visual, específicamente a la corteza visual primaria y a la corteza visual secundaria (además, esta información es recombinada con la información proveniente de los bastones y enviada a *V3* para la detección de movimiento).<br><br>

3. La mayor parte de los axones provenientes del NGL, a través de la cintilla óptica, terminan en la  corteza visual primaria **V1**. En la primera fase, entre los 40 y 100 ms después de recibir las señales prevenientes del NGL, V1 realiza actividades de detección de bordes. En este aspecto, la operación de las neuronas en V1 suele ser comparada con la de un filtro de Gabor (con el que es posible detectar bordes haciendo un análisis sobre múltiples frecuencias y/o direcciones). V1 mantiene una fuerte interconexión con V2 (y, al parecer con otras áres como V3, V4 e IT), enviando señales preliminares y recibiendo retroalimentación. Después de los primeros 100ms, V1 utiliza la retroalimentación de la corteza visual secundaria (y, posiblemente, de otras áreas) para realizar un procesamiento más detallado acerca de la organización de la escena. En V1 se inicia la corriente ventral.<br><br>

4. **V2** es la corteza visual secundaria, rodea a la corteza visual primaria y conforma, con V3, el *área de asociación visual*. En gran medida repite las mismas funciones que V1, pero detectando características más complejas, como los contornos y la separación entre fondo y figura (segmentación de la imagen). También juega un papel importante en el enfoque de rasgos importantes en la imagen (a través de los núcleos pulvinares, responsables de la atención y los movimientos sacádicos), sin embargo, esta actividad no se asocia a la corriente ventral (aunque recientemente se ha insistido en la fuerte interrelación entre las dos corrientes).<br><br>

5. **V4** se encuentra localizada por abajo de V2 y recibe la información proveniente de v2. Además, también llegan a V4 señales provenientes directamente de V1 y del NGL y señales provenientes de los núcleos pulvinares. V4 es capaz de reconocer características de complejidad media, como las figuras geométricas simples. <br><br>

6. Desde V4, la información visual sigue su viaje a través de la corriente ventral hacia el **área inferotemporal** (IT), donde se lleva a cabo la identificación de patrones complejos, como el reconocimiento de rostros. Las neuronas en esta región preveen también del acceso a la memoria, con el fin de registrar y recuperar patrones para el reconocimiento de las formas complejas.<br><br>

7. Finalmente, la clasificación de objetos (el juicio sobre el objeto) y la generación de la respuesta motora es realizada mediante circuitos neuronales en la **corteza prefrontal** (CPF).

<img src="images/brain_1.png" width=75%><br>

<img src="images/brain_1b.png" width=75%>

## Convolución sobre imágenes

La forma en que se procesa la información visual en cada etapa del recorrido óptico, y particularmente en la retina, puede representarse mediante una operación de **convolución** sobre una imagen.

La convolución es una operación matemática sobre dos funciones para producir una tercera función:

$$h = f_1 \ast f_2$$

Aquí, $h$ describe la forma en que $f_1$ es modificada por $f_2$. 

En el caso de procesamiento de datos/imágenes, $f_1$ representa los datos de entrada y suele ser denominada *mapa de características*, mientras que $f_2$ es el *núcleo de convolución* y suele considerarse como un *filtro*. El kernel filtra el mapa de características para obtener un nuevo mapa con información de algún tipo (el conjunto de bordes, por ejemplo), o una versión mejorada del mapa original (después de la eliminación de ruido, por ejemplo). El resultado de la convolución es un *mapa transformado de características*. 

<img src="images/convol_1.png" width=90%><br>

En una imagen, la convolución consiste en recorrer (barrer) la imagen original completa con un *filtro* de dimensión $n\times n$, con $n$ típicamente impar (usualmente 3, 5 o 7), calculando, a cada paso, el producto interior (de Frobenius) de la matriz que representa el núcleo de convolución por la matriz que se forma al seleccionar los pixeles bajo el filtro (*matriz subyacente*), como se muestra en la siguiente imagen:

<img src="images/convol_2.png" width=90%><br>

El resultado de cada producto interior es asociado al pixel correspondiente al centro del filtro y registrado en el mapa transformado. Los pixeles en el borde de la imagen no coinciden con el centro del filtro en ningún paso del barrido, por lo que el mapa resultante, al eliminar los pixeles con valor indefinido, resultaría de tamaño menor al mapa original ($n-1$ pixeles menos). Usualmente se prefiere agregar valores arbitrarios para completar la matriz subyacente, de manera que se pueda calcular valores para los pixeles en el borde de la imagen y mantener el tamaño de la imagen original. Una opción frecuente es rellenar los valores 'faltantes' con cero:

<img src="images/convol_3.png" width=45%><br>

El proceso humano de percepción tricromática de la luz hace natural describir los colores como una combinación de tres colores 'primarios', siendo uno de los modelos más conocidos el llamado RGB ('Red', 'Green', 'Blue'). Una imagen en color, entonces, suele representarse como la superposición de tres 'imágenes parciales', una para cada canal o color primario.

<img src="images/Lenna_RGB.png" width=75%><br>

La convolución sobre una imagen en color se realiza utilizando un *kernel* con la misma profundidad; en el caso RGB se utiliza un *kernel* de 3 capas. Cada capa en el *kernel* recorre la capa correspondiente en el mapa original y produce un resultado parcial. Los resultados parciales se integran para generar el mapa de características transformado, de un sólo canal. 

<img src="images/convol_4.png" width=50%><br>

## Arquitectura de la red neuronal convolucional

Los procesos de percepción visual y reconocimiento de patrones por parte del cerebro, incluyendo los aspectos planteados aquí, es un tema aún en discusión por los especialistas en neurociencias. Este conocimiento, sin embargo, se tomó como base para desarrollar una arquitectura de red neuronal particularmente exitosa para el reconocimiento de  patrones en imágenes y que son responsables, en buena medida del nuevo impulso en el área de redes neuronales artificiales: las redes neuronales convolucionales.

Una red neuronal presenta la siguiente arquitectura: 

<img src="images/neuron11.png" width=80%><br>

Aquí se distinguen dos secciones generales. La primera sección está formada, principalmente, por una o más capas de convolución y su objetivo es resaltar los rasgos en la imagen y reducir la dimensión de los datos. Esta sección corresponde a una una etapa de extracción automátizada y opaca de características. La segunda sección, es un perceptrón multicapa, utilizado para hacer la clasificación.

Las diferentes funciones en la sección de extracción de características se modelan a través de capas de neuronas especializadas. El tipo de capa más importante en esta sección es la *capa de convolución*, sin embargo, resulta útil modelar otras tareas mediante capas (ese es el enfoque en TensorFlow, por ejemplo), incluso la función de activación suele describirse mediante una capa de neuronas especializada. A continuación se describen los principales tipos de capas utilizadas en una red convolucional.


### Capa de convolución 

La *capa de convolución* es la componente principal de la sección de extracción de características en una red convolucional. Cada capa de convolución suele estar conformada por una serie de filtros destinados a identificar diferentes rasgos de un mismo mapa de características. Cada filtro $f_i$ procesa, de manera independiente cada uno de los canales de entrada e integr los resultados parciales ara generar un canal $c_i$ en el mapa de salida. 

<img src="images/neuron15.png" width=50%><br>

Desde un punto de vista neuronal, conviene visualizar la capa convolucional como si estuviera formada por un conjunto de neuronas organizadas en grupos, con cada grupo de neuronas $gn_i$ asociado a un filtro $f_i$. En este modelo, cada neurona en el grupo $gn_i$ utiliza como pesos sinápticos la matriz de valores del filtro $f_i$. Por lo tanto, sólo un subgrupo de señales de  entrada son capaces de estimular a la neurona, aquellas señales del mapa de entrada que coinciden con la cobertura del filtro, centrado en la posición de la neurona, como se muestra en la imagen.

<img src="images/neuron14.png" width=40%><br>

Si $\mathbf{x}$ es la matriz de señales de entrada bajo el filtro y $\mathbf{w}$ la matriz de valores del filtro, entonces, la activación en la neurona está dada por 

$$a = \mathbf{x}\cdot \mathbf{w}$$

La activación alimenta la función de activación y la salida de esta función corresponde al valor en el mapa de salida en la misma posición que la neurona. Cada neurona en el grupo de neuronas genera una señal en el mapa de salida. Si la función de activación es la función identidad, entonces el mapa de salida coincide con la forma usual de la convolución sobre una imagen, como fue descrita anteriormente. Si el mapa de entrada contiene varios canales, las neuronas en cada grupo (filtro) procesan integran las señales de los diferentes canales de entrada en un sólo mapa de salida.

La capa convolucional puede, entonces, esquematizarse como un conjunto de grupos especializados de neuronas, cada grupo asociado a un filtro (que le da la especialización a las neuronas), como se muestra en la siguiente figura:

<img src="images/neuron16.png" width=70%><br>

En el modelo neuronal, cada grupo de neuronas $gn_i$ genera un canal de información $c_i$. Todos juntos, estos canales componen el mapa de salida.

La función de activación más utilizada en las capas de convolución (y en redes neuronales profundas, en general) es el *rectificador*, definido como:

$$g(x)=\max(0,x)$$

Una neurona que utiliza esta función de activación se conoce como *relu* (del término en inglés para *unidad lineal rectificada*).

Hay que observar que las neuronas en una capa convolucional no se encuentran interconectadas; cada neurona recibe sus datos de entrada y proyecta su salida al mapa transformado. De esta mnera, la organización en el conjunto de neuronas es más parecido a la que se observa en el nervio óptico que a la mostrada en un circuito neuronal.

#### Paso de barrido

Si las neuronas están separadas entre sí a más de una unidad, es decir, si se define un paso de barrido mayor a uno, entonces la cobertura sobre el mapa original no será continua. 

<img src="images/convol_5.png" width=75%><br>

El resultado, en este caso, será un mapa de salida menor al mapa de entrada. El tamaño del mapa resultante de la convolución, para un mapa original de tamaño $w\times h$, con un *kernel* de $n\times n$, con $r$ pixeles de relleno y un paso de barrido $p$ es: 

$$
[(w+2r-n)/p+1] \times [(h+2r-n)/p+1] 
$$

Considérese, por ejemplo, un mapa inicial de $100\times 100$ pixeles que es convolucionado con un *kernel* de $3\times 3$ pixeles con un paso $p=2$ y usando un relleno $r=1$. El tamaño del mapa transformado sería:

$$
[(100+2-3)/2 + 1] \times [(100+2-3)/2 + 1] =  50\times 50
$$

Esto equivale a un submuestreo de la salida, tomando, en el caso del ejemplo anterior, sólo la mitad de los datos. Para valores de paso mayores a $(n+1)/2$ habrá también un submuestreo de la entrada, es decir, habrá señales de entrada que no influyen en la salida.

<img src="images/convol_6.png" width=20%><br>

### Capa de normalización por lotes

La capa de normalización por lotes es un artefacto utilizado para modificar la salida de la capa de convolución. Se utiliza para aumentar la velocidad de entrenamiento de las redes neuronales profundas, siendo capaz de reducir a menos de una décima parte los pasos de entrenamiento. La razón por la que esta técnica funciona es confusa, sin embargo, esta capa es una componente común en las redes neuronales convolucionales. 

La operación que implementa una capa de normalización por lotes es simple: 

1. Normalizar la salida $z_i^{(l)}$ de cada neurona, utilizando la media y la varianza de los datos en el lote de entrenamiento, generando la nueva señal $z_i^{(l)}\vert_{norm}$.

2. Generar la salida normalizada $\tilde{z}_i^{(l)} = \gamma z_i^{(l)}\vert_{norm} + \beta$, siendo $\gamma$ y $\beta$ parámetros adicionales cuytos valores son determinados por entrenamiento.

De esta manera, la capa de normalización mantiene las salidas de todas las neuronas a las que se aplica en un rango "normal" a los datos de entrenamiento.

Entre los temas aún bajo discusión se encuentra dónde colocar la capa de normalización por lotes, con cierto consenso en que conviene colocarla antes de la función de activación.

<img src="images/neuron17.png" width=40%><br>

De esta manera, aunque en la implementación se suele hablar de capas de normalización por lotes y de activación, en realidad habría que considerar estas capas como modificadores de la capa de convolución.

### Capa de agrupación (*pooling*)

La capa de agrupación ofrece otra opción de submuestreo (adicionalmente al uso de pasos de barrido mayor a uno discutido anteriormente) sobre la salida del proceso de convolución. El principal objetivo, en este caso, es reducir la dimensión de un mapa de características mediante algún proceso de selección o de agregación.

Desde las perspectiva de procesamiento de imágenes/señales, esta forma de submuestreo se obtiene utilizando un filtro que recorre la imagen, típicamente sin traslape, y regresa un valor representativo de la ventana.

<img src="images/convol_7.png" width=50%><br>

La opción más usual es utilizar un filtro de submuestreo de $2\times 2$ pixeles con un paso de barrido de 2. El resultado es una reducción del mapa de entrada a una cuarta parte de su tamaño. El filtro se aplica a cada canal en el mapa de características, generando el mismo número de canales, pero submuestreados.

El valor de salida del filtro puede ser cualquier estadístico, como puede ser el valor máximo, el mínimo, la moda, la mediana o la media. Las opciones disponibles en TensorFlow las opciones disponibles son el máximo y la media; en Deeplearnig4j se encuentra además la $p$-norma. El filtro de valor máximo realiza, además de la reducción de tamaño (asumiendo un paso de barrido adecuado), un filtrado no lineal de ruido que enfatiza los principales rasgos en el mapa; por su parte, el filtrado de media realiza un suavizado del mapa y es menos sensible a valores atípicos. Como en el caso de filtrado estandar sobre imágenes, el filtro más adecuado dependerá de cada caso específico. No obstante, el filtro más empleado en redes convolucionales es el filtro de valor máximo.

Desde la perspectiva neuronal, la capa de muestreo se visualiza como un conjunto de neuronas que reciben como entrada un segmento de datos contiguos del mapa original y lo transforman en su salida. En el caso del filtro de media, los pesos para todas las entradas tienen el mismo valor ($\frac{1}{n\times m}$ con $n\times m$ el tamaño del filtro). En el caso del filtro de valor máximo la metáfora es menos clara; los pesos para cada neurona son:

$$
w_{ij} = \left\{
      \begin{array}{ll}
         1 & \textrm{si } x_{ij} \textrm{ es el valor máximo en } \mathbf{x} \\
         0 & \textrm{cualquier otro caso}
      \end{array} \right.
$$

Siendo $ij$ el índice sobre la matriz de señales de entrada $\mathbf{x}$.

Nuevamente, todas las neuronas en la capa de submuestro utilizan el mismo conjunto de pesos y lo aplican por separado a cada canal de entrada para producir, en conjunto, un mapa de salida con el mismo número de canales.

Alternativamente, en lugar de utilizar una capa de agregación puede utilizarse un paso de barrido del *kernel* sobre la capa de convolución mayor a 1. Usualmente se emplea una u otra opción: paso de barrido mayor a uno o capa de agrupación. Hay que observar que, incrementar el paso de barrido para reducir el tamaño del mapa transformado es más económico que utilizar una capa de submuestreo.

### Capa de aplanado (*flatten*)

La transición entre la sección de extracción de características, que produce mapas 3D y la sección de clasificación, donde el multiperceptrón recibe datos en formato lineal, se realiza a través de una capa especial llamada de aplanado o *flatten*. La función de esta capa es reacomodar las señales en cada canal, apilándolas en un vector unidimensional.

<img src="images/convol_8.png" width=40%><br>

### Capa de deserción (*dropout*)

La sección de clasificación consiste, básicamente, en un perceptrón multicapa. El único rasgo adicional en su implementación en la red convolucional es el uso de un tipo de capa llamado de deserción o de *dropout*, que es común en las arquitecturas de redes neuronales para aprendizaje profundo. 

La deserción es una técnica de regularización cuyo objetivo es simplificar la complejidad de la red y, simultáneamente, reducir el problema de sobreentrenamiento para casos con datos insuficientes. En cada iteración de entrenamiento, un determinado porcentaje de nodos, tomados al azar, son eliminados del entrenamiento (sus activaciones son ignoradas). El resultado es, en ese paso de entrenamiento, equivalente a tener una red más pequeña: 

<img src="images/neuron18.png" width=70%><br>

Puesto que, en la siguiente iteración los nodos seleccionados para eliminación en el entrenamiento será diferente, el resultado final de entrenamiento será semejante a haber entrenado varias redes neuronales traslapadas. 

In [9]:
import os
import numpy as np
import pickle
import warnings
warnings.filterwarnings('ignore')

NEW_TRY = False #True
PATH = 'Data sets/fruits/'

In [10]:
from sklearn.model_selection import train_test_split

def set_training_data(rows, columns, channels):
    images_path = PATH + 'images/'
    directories = [d for d in os.listdir(images_path) 
                  if (os.path.isdir(os.path.join(images_path, d)))]

    labels_idx = {}
    images_dataset = {}
    for i, d in zip(range(len(directories)), directories):
        label_dir = os.path.join(images_path, d)
        category = d.capitalize()
        labels_idx[category] = i

        names = [f for f in os.listdir(label_dir) 
                 if f.endswith(".jpg") or f.endswith(".png")]
        
        for n in names:
            file_name = os.path.join(label_dir, n)
            images_dataset[str(i) + "_" + n.split(".")[0]] = [file_name, category]

    num_categories = len(labels_idx)

    train_data, test_data = train_test_split(list(images_dataset.keys()), test_size=0.2)
    test_y = np.asarray([labels_idx[images_dataset[x][1]] for x in test_data])
    train_y = np.asarray([labels_idx[images_dataset[x][1]] for x in train_data])

    image_size=(rows, columns)
    image_shape=(rows, columns, channels)

    training_data = {
        'train_data': train_data,
        'test_data': test_data,
        'train_y': train_y,
        'test_y': test_y,
        'num_categories': num_categories,
        'image_size': image_size,
        'image_shape': image_shape,
        'images_dataset': images_dataset
    }
    with open(PATH + 'chk/training_data.pickle', 'wb') as handle:
        pickle.dump(training_data, handle, protocol=pickle.HIGHEST_PROTOCOL)
        
    return training_data

def load_training_data():
    with open(PATH + 'chk/training_data.pickle', 'rb') as handle:
        training_data = pickle.load(handle)
        
    return training_data

#_____________________________________________________________________________

if NEW_TRY:
    training_data = set_training_data(100, 100, 3)
else:
    training_data = load_training_data()
    

train_data = training_data['train_data']
test_data = training_data['test_data']
train_y = training_data['train_y']
test_y = training_data['test_y']
num_categories = training_data['num_categories']
image_size = training_data['image_size']
image_shape = training_data['image_shape']
images_dataset = training_data['images_dataset']

### Redes convolucionales con Keras

In [12]:
from keras.models import Sequential, model_from_json
from keras import layers, regularizers as regs
from keras.models import load_model

def create_model():
    tf_model = Sequential([
        layers.Conv2D(32,             # Aplicar pocos filtros destinados a 
                      kernel_size=(5, 5), # ... identificar rasgos grandes
                      input_shape=image_shape,
                      padding='same', # Mantener tamaño original de la imagen
                      strides=(2, 2), # Barrer la imagen en pasos de 2 pixeles
                      use_bias=False  # Bias innecesario por 'BatchNormalization'
                     ),
        layers.BatchNormalization(axis = 1), # La normalización debe ser
        layers.Activation("relu"),           # anterior a la activación        
        
        layers.Conv2D(64, kernel_size=(3, 3), padding='same', use_bias=False),
        layers.AveragePooling2D(pool_size=(2, 2)), # Reducir utilizando la media
        layers.BatchNormalization(axis = 1),
        layers.Activation("relu"),
        
        layers.Conv2D(128, kernel_size=(3, 3), padding='same', use_bias=False),
        layers.AveragePooling2D(pool_size=(2, 2)),
        layers.BatchNormalization(axis = 1),
        layers.Activation("relu"),
        
        layers.Conv2D(256, kernel_size=(3, 3), padding='same', use_bias=False),
        layers.AveragePooling2D(pool_size=(2, 2)),
        layers.BatchNormalization(axis = 1),
        layers.Activation("relu"),
        
        layers.Flatten(),    
        layers.Dense(2048, activation='relu', kernel_regularizer=regs.l2(0.001)),
        layers.Dropout(0.15),
        layers.Dense(768, activation='relu', kernel_regularizer=regs.l2(0.001)),
        layers.Dropout(0.15),
        layers.Dense(512, activation='relu', kernel_regularizer=regs.l2(0.001)),
        layers.Dense(num_categories, activation='softmax') #120
        ])
    tf_model.compile(optimizer='adam',
                    loss='sparse_categorical_crossentropy',
                    metrics=['accuracy'])
    tf_model.save(PATH + 'chk/tf_model.h5')
    tf_model.summary()

    return tf_model

def reload_model():    
    tf_model = load_model(PATH + 'chk/tf_model10.h5')
    tf_model.summary()

    return tf_model

#_____________________________________________________________________________
#NEW_TRY = True

if NEW_TRY:
    tf_model = create_model()
else:
    tf_model = reload_model()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_5 (Conv2D)            (None, 50, 50, 32)        2400      
_________________________________________________________________
batch_normalization_5 (Batch (None, 50, 50, 32)        200       
_________________________________________________________________
activation_5 (Activation)    (None, 50, 50, 32)        0         
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 50, 50, 64)        18432     
_________________________________________________________________
average_pooling2d_1 (Average (None, 25, 25, 64)        0         
_________________________________________________________________
batch_normalization_6 (Batch (None, 25, 25, 64)        100       
_________________________________________________________________
activation_6 (Activation)    (None, 25, 25, 64)        0         
__________

In [13]:
import skimage
from skimage.color import rgba2rgb
from keras.callbacks import ModelCheckpoint

def get_training_sample(start=0, length=1000):
    train_images = []
    end = min(start+length, len(train_data))
    for name in train_data[start:end]:
        image = skimage.data.imread(images_dataset[name][0])
        if image.shape[0] > image.shape[1]:
            image = skimage.transform.rotate(image, 90, resize=True)
        image = skimage.transform.resize(image, image_size, mode='constant')
        if image.shape != image_shape:
            image = rgba2rgb(image)
        train_images.append(image)
    
    return np.asarray(train_images), train_y[start:end]

def train_network():
    segments = 5
    length = int(len(train_data) / segments + 1)
    for j in range(20):
        start = 0
        for i in range(segments):
            train_images, train_targets = get_training_sample(start, length)
            result = tf_model.fit(train_images, train_targets, epochs = 5, 
                                  validation_split=0.1, verbose=1)
            start += length
            print()
        tf_model.save(PATH + 'chk/tf_model' + str(j) + '.h5')
        print("EPOCH END\n\n")

train_network()

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 

Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on

Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on

Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on

Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on

Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on

Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10224 samples, validate on 1136 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END


Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on 1137 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

Train on 10227 samples, validate on

Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

EPOCH END




In [14]:
def get_test_data():
    test_images = []
    for name in test_data:
        image = skimage.data.imread(images_dataset[name][0])
        if image.shape[0] > image.shape[1]:
            image = skimage.transform.rotate(image, 90, resize=True)
        image = skimage.transform.resize(image, image_size, mode='constant')
        test_images.append(image)
    test_images = np.asarray(test_images)
    return test_images
    
def evalute_accuracy():
    test_images = get_test_data()
    
    loss, acc = tf_model.evaluate(test_images, test_y, verbose=0)
    return loss, acc

loss, acc = evalute_accuracy()
print("Calidad de la red:\nLoss: {}\nAcc: {}".format(loss, acc))

Calidad de la red:
Loss: 0.08739986653659008
Acc: 0.9996480112636396


Calidad de la red (Max Pool):<br>
Loss: 0.09856902201466894<br>
Acc: 0.9994368180218233<br><br>

Calidad de la red (Average Pool):<br>
Loss: 0.08739986653659008<br>
Acc: 0.9996480112636396<br><br>

Calidad de la red (Average Pool):<br>
Loss: 0.09177039901016884<br>
Acc: 0.9992256247800071<br><br>