<a href="https://colab.research.google.com/github/jeffheaton/t81_558_deep_learning/blob/master/t81_558_class_06_2_cnn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a redes neuronales convolucionales (CNNs)

* En este Notebook vamos introducir los aspectos más relevantes en relación a las **redes neuronales convolucionales**. Revisaremos algunos aspectos teóricos, para luego implementar lo aprendido utilizando la librería TensorFlow.

* Vamos a tratar los siguientes puntos:
<span></span><br>
    1. [Orígenes de las redes neuronales convolucionales](#M1)
<span></span><br>
    2. [Nuevos tipos de capas](#M2)
<span></span><br>
      2.1. [Capas convolucionales](#M21)
      <span></span><br>
      2.2 [Max Pooling](#M22)
    3. [Ejemplo: Clasificación de flores](#M3)
<span></span><br>


<hr>


## <a name="M1">1. Orígenes de las redes neuronales convolucionales</a>

* Las redes neuronales convolucionales (CNN) son una tecnología que causó un gran impacto en el área de visión por computador.
  * Fukushima  (1980) [[Cite:fukushima1980neocognitron]](https://www.rctn.org/bruno/public/papers/Fukushima1980.pdf) introdujo el concepto original de red neuronal convolucional,
  * LeCun, Bottou, Bengio & Haffner (1998) [[Cite:lecun1995convolutional]](http://yann.lecun.com/exdb/publis/pdf/lecun-bengio-95a.pdf) mejoraron notablemente el concepto original, al introducir la arquitectura LeNet-5.

**Figure 6.LENET: A LeNET-5 Network (LeCun, 1998)**
![A LeNET-5 Network](https://raw.githubusercontent.com/jeffheaton/t81_558_deep_learning/master/images/class_8_lenet5.png "A LeNET-5 Network")

* A pesar de que las CNNs son utilizadas principalmente en visión por computador, esta tecnología también cuenta con aplicaciones en otros campos.

* Como veremos en las siguientes secciones, la disposición los inputs es crucial para entrenar adecuadamente una CNN.
  * La mayoría de las redes neuronales artificiales reciben como input un gran vector de características cuyo orden es irrelevante en principio (sí importa una vez que la red ya fue entrenada con algún determinado orden).
  * Por otro lado, **las CNNs utilizan arreglos o mallas de características** como input, lo que hace a estos modelos idóneos para ser utilizados en imágenes donde la relación de los pixeles con sus respectivas vecindades es relevante.

* En otras palabras, las CNNs utilizan campos sobrepuestos del input para simular u obtener características de forma similar a la visión humana.
  * Las CNNs han demostrado robustez a desafíos en la visión por computador tales como escalamientos, rotaciones y presencia de ruido.

<hr>


## <a name="M2">2. Nuevos tipos de capas</a>

* Hasta ahora, solo hemos visto un tipo de capa (**Dense**). En esta clase, veremos nuevas clases tales como:
  * **Dense Layers** - Fully connected layers.  
  * **Convolution Layers** - Used to scan across images.
  * **Max Pooling Layers** - Used to downsample images.
  * **Dropout Layers** - Used to add regularization.
  * **LSTM and Transformer Layers** - Used for time series data.

### <a name="M22">2.2. Capas convolucionales</a>

* Esta capa ejecuta una operación de **convolución** sobre los inputs, que es una operación matemática que combina dos funciones para describir la superposición entre ambas.

* La convolución toma dos matrices (el input y el *kernel* de convolución), “desliza” una sobre la otra, multiplica los valores de las funciones en todos los puntos de superposición, y suma los productos para crear una nueva matriz de características.

![Aritmética en una convolución](https://miro.medium.com/v2/resize:fit:640/format:webp/1*aDiTGvskrEq2M8viDvdrBA.jpeg "Convolutional Arithmetic")

* Los hiper-parámetros que debemos especificar al crear una capa convolucional son los siguientes:
  * Número de filtros (o kernels)
  * Tamaño del filtro (o kernel)
  * *Stride* o zancada
  * *Padding* o relleno
  * Función de activación

* Observemos el siguiente ejemplo para ver el efecto que tendrá cada uno de estos hiper-parámetros:

![Operación de Convolución](https://miro.medium.com/v2/resize:fit:1100/format:webp/1*HgvzrX2KsfcOQq-gfHx9DA.gif "Convolución")

* Para este caso, tendremos que:
  * Estamos analizando un único filtro
  * Su tamaño es 3x3
  * El stride es unitario
  * No hay padding

* Existen algunas restricciones relacionadas a estos hiper-parámetros:
  * El tamaño del filtro y el *stride* no pueden ser mayores a la imagen o matriz de input.
  * El stride no puede ser cero
  * El número de pasos para que el kernel se mueve desde un extremo a otro en la imagen debe ser entero. Considerando el *stride* como $s$, el *padding* como $p$ y el ancho del filtro como $f$, el número de pasos de izquierda a derecha (se puede hacer un cálculo similar para desplazamiento vertical) estará dado por

  $$ steps = \frac{w - f + 2p}{s}+1 $$

  * Considerando esta ecuación, el padding (adición de ceros o algún otro valor constante en el borde "exterior" de la imagen) debe ser configurado de forma tal que los pasos totales sean un valor entero.

* El filtro o *kernel* es la matriz que se utiliza para "escanear" sobre la imagen y cada uno de los elementos en este matriz corresponderá a un peso de la CNN por ajustar.
  * De este modo, el número total de pesos en una determinada capa convolucional estará dado por:

  ```
  [FilterHeight] * [FilterWidth] * [# of Filters]
  ```
  * Por ejemplo, si se definen filtros cuadrados de tamaño 5 (5x5) y la capa convolucional cuenta con 10 filtros, habrán 250 pesos en esa capa.

* Lectura recomendada: [El concepto de la convolución en gráficos, para comprender las Convolutional Neural Networks (CNN) o redes convolucionadas](https://josecuartas.medium.com/el-concepto-de-la-convoluci%C3%B3n-en-gr%C3%A1ficos-para-comprender-las-convolutional-neural-networks-cnn-519d2eee009c)

### <a name="M22">2.2. Max Pooling</a>

* Las capas de *Max Pooling* se utilizan para sub-muestrear matrices.

* Típicamente, se ubican inmediatamente después de capas convolucionales.
  * Por ejemplo, en LENET hay una capa max-pool inmediatamente después de las capas C1 y C3.
  * Estas capas max-poo disminuyen progresivamente el tamaño de las dimensiones de los arreglos de características que pasan a través de la red
  * Esta técnica permite evitar el *overfitting* (Krizhevsky, Sutskever & Hinton, 2012).

* Una capa de *Max Pooling* tiene los siguientes hiper-parámetros:
  * Spatial Extent (*f*): Especifica que arreglos de 2x2 van a ser disminuidos a un solo pixel o elemento en el output, cuyo valor corresponderá al máximo de los 4 elementos considerados.
  * Stride (*s*)
  * La configuración más común de los hiper-parámetros de una capa max-pool es f=2 y s=2.

* A diferencia de las capas convolucionales, las capas max-pool no utilizan padding ni tienen pesos por ajustar, por lo que no se ven alteradas durante el entrenamiento

* El output de una capa max-pool tendrá un ancho igual a:

$$ w_2 = \frac{w_1 - f}{s} + 1 $$

* Y, similarmente, la altura de su output será:

$$ h_2 = \frac{h_1 - f}{s} + 1 $$

* La "profundidad", o el número de filtros o características, no se verá alterado por la capa de max-pool

* La siguiente figura muestra la operación de *Max Pooling* sobre una grilla de 6x6 para convertirla en un arreglo de 3x3:

![Max Pooling Layer](https://raw.githubusercontent.com/jeffheaton/t81_558_deep_learning/master/images/class_8_conv_maxpool.png "Max Pooling Layer")

## <a name="M3">3. Ejemplo: Clasificación de flores</a>

* En el siguiente ejemplo vamos a resolver el mismo problema de **clasificación de tipos de flores** trabajado anteriormente, pero ahora en vez de utilizar características tales como las dimensiones de los pétalos y sépalos de las flores, utilizaremos imágenes de éstas.

* El set de imágenes contiene tres tipos diferentes de flores iris. Estas están separadas en tres directorios diferentes que especifican el label correspondiente de cada flor:
  * iris-setosa
  * iris-versicolour
  * iris-virginica

* Para resolver este problema, vamos a utilizar la librería **TensorFlow** y los tipos de capas revisados en este tutorial.

* Para resolver este problema vamos a realizar los siguientes pasos:
<span></span><br>
    3.1. [Carga de datos](#M31)
<span></span><br>
    3.2. [Pre-procesamiento de los datos](#M32)
<span></span><br>
    3.3. [Resolución con CNN](#M33)
<span></span><br>
    3.4. [Rendimiento del modelo](#M34)
<span></span><br>
    3.5. [Preguntas](#M35)



<hr>


### <a name="M31">3.1. Carga de datos</a>


* El primer paso que vamos a realizar es el de cargar los datos

In [1]:
import os

URL = "https://github.com/jeffheaton/data-mirror/releases"
DOWNLOAD_SOURCE = URL+"/download/v1/iris-image.zip"
DOWNLOAD_NAME = DOWNLOAD_SOURCE[DOWNLOAD_SOURCE.rfind('/')+1:]

PATH = "/content"
EXTRACT_TARGET = os.path.join(PATH,"iris")
SOURCE = EXTRACT_TARGET # In this case its the same, no subfolder

* Descargamos las imágenes desde la URL indicada, donde está guardado un archivo ZIP que contiene las imágenes.

* El siguiente código descomprime el archivo.

In [2]:
# HIDE OUTPUT
!wget -O {os.path.join(PATH,DOWNLOAD_NAME)} {DOWNLOAD_SOURCE}
!mkdir -p {SOURCE}
!mkdir -p {TARGET}
!mkdir -p {EXTRACT_TARGET}
!unzip -o -d {EXTRACT_TARGET} {os.path.join(PATH, DOWNLOAD_NAME)} >/dev/null

--2024-08-29 16:30:38--  https://github.com/jeffheaton/data-mirror/releases/download/v1/iris-image.zip
Resolving github.com (github.com)... 140.82.116.3
Connecting to github.com (github.com)|140.82.116.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/408419764/d548babd-36c3-414e-add2-a5d9ab941e6e?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20240829%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240829T163039Z&X-Amz-Expires=300&X-Amz-Signature=5dfb613d63a37c3d44184accc00a2b2832cac533e8f6094bd9616392786fd19d&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=408419764&response-content-disposition=attachment%3B%20filename%3Diris-image.zip&response-content-type=application%2Foctet-stream [following]
--2024-08-29 16:30:39--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/408419764/d548babd-36c3-414e-add2-a5d9ab941e6e?X-Amz-

* Se pueden corroborar los directorios usando el siguiente comando:

In [3]:
!ls /content/iris

iris-setosa  iris-versicolour  iris-virginica


<hr>


### <a name="M31">3.1. Pre-procesamiento de los datos</a>

* Ahora, creamos dos objetos _ImageDataGenerator_ utilizando la librería Keras preprocessing, contenida en TensorFlow.

* Usamos este generador para **crear artificialmente más datos de entrenamiento** a través de la manipulación de las muestras disponibles.

* Esta técnica, llamada aumentación de datos, puede producir redes neuronales considerablemente más robustas.

* En este caso, el generador refleja aleatoriamente las imágenes tanto vertical como horizontalmente.

* Keras entrenará la red neuronal considerando tanto las imágenes originales como las reflejadas, "aumentando" significativamente el tamaño del set de entrenamiento.

* Adicionalmente, separamos en subsets de entrenamiento y validación para así poder ocupar _early stopping_.

In [5]:
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator

training_datagen = ImageDataGenerator(
  rescale = 1./255,
  horizontal_flip=True,
  vertical_flip=True,
  width_shift_range=[-200,200],
  rotation_range=360,

  fill_mode='nearest')

train_generator = training_datagen.flow_from_directory(
    directory=SOURCE, target_size=(256, 256),
    class_mode='categorical', batch_size=32, shuffle=True)

validation_datagen = ImageDataGenerator(rescale = 1./255)

validation_generator = validation_datagen.flow_from_directory(
    directory=SOURCE, target_size=(256, 256),
    class_mode='categorical', batch_size=32, shuffle=True)


Found 421 images belonging to 3 classes.
Found 421 images belonging to 3 classes.


<hr>


### <a name="M33">3.3. Resolución con CNN</a>

* Ahora, construimos la CNN de forma similar a las redes neuronales anteriormente implementadas: usando la clase _Keras Sequential_ para listar las capas de nuestro modelo.

* Ahora utilizamos los distintos tipos de capas nuevos vistos en este tutorial:
  * **Conv2D** - The convolution layers.
  * **MaxPooling2D** - The max-pooling layers.
  * **Flatten** - Para "aplanar" un arreglo o matriz 2D a un vector 1D que pueda ser procesado por una capa Dense.
  * **Dense** - Las mismas capas _fully-connected_ vistas anteriormente, generalmente se ocupan como al final del modelo como capa de output.

* Este código es para clasificación multi-clase, por lo que se ocupa una activación _softmax_ en la capa de salida, así como una función de pérdida *categorical_crossentropy*.
  * Esta función de pérdida, utilizada de la mano con la activación _softmax_, se define como:

  $$ L(y,\hat{y}) = -\sum_iy_i\log(\hat{y}_i)$$

  * $y$ : Distribución de probabilidad real (vector _one-hot_)
  * $\hat{y}$ : Vector de probabilidad predicho (output de la activación _softmax_)

* El código para el entrenamiento es muy similar al visto en el tutorial anterior de redes neuronales profundas.



In [6]:
from tensorflow.keras.callbacks import EarlyStopping

class_count = len(train_generator.class_indices)

model = tf.keras.models.Sequential([
    # Note the input shape is the desired size of the image
    # 300x300 with 3 bytes color
    # This is the first convolution
    tf.keras.layers.Conv2D(16, (3,3), activation='relu',
        input_shape=(256, 256, 3)),
    tf.keras.layers.MaxPooling2D(2, 2),
    # The second convolution
    tf.keras.layers.Conv2D(32, (3,3), activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.MaxPooling2D(2,2),
    # The third convolution
    tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.MaxPooling2D(2,2),
    # The fourth convolution
    tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2,2),
    # The fifth convolution
    tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2,2),
    # Flatten the results to feed into a DNN

    tf.keras.layers.Flatten(),
    tf.keras.layers.Dropout(0.5),
    # 512 neuron hidden layer
    tf.keras.layers.Dense(512, activation='relu'),
    # Only 1 output neuron. It will contain a value from 0-1
    tf.keras.layers.Dense(class_count, activation='softmax')
])

model.summary()

model.compile(loss = 'categorical_crossentropy', optimizer='adam')

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


* This code will run very slowly if you do not use a GPU. The above code takes approximately 13 minutes with a GPU.

In [7]:
model.fit(train_generator, epochs=50, steps_per_epoch=10, verbose = 1)

Epoch 1/50


  self._warn_if_super_not_called()


[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 571ms/step - loss: 1.1193
Epoch 2/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - loss: 0.8916
Epoch 3/50


  self.gen.throw(typ, value, traceback)


[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 332ms/step - loss: 0.9413
Epoch 4/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - loss: 0.9068
Epoch 5/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 288ms/step - loss: 0.9005
Epoch 6/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - loss: 0.8540
Epoch 7/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 289ms/step - loss: 0.8789
Epoch 8/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step - loss: 0.8564 
Epoch 9/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 334ms/step - loss: 0.9654
Epoch 10/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - loss: 0.9518
Epoch 11/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 396ms/step - loss: 0.9565
Epoch 12/50
[1m10/10[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - loss: 0.7881


<keras.src.callbacks.history.History at 0x7831ec1e4f10>

<hr>


### <a name="M34">3.4. Rendimiento del modelo</a>

* Evaluamos el modelo considerando las imágenes del subset de validación.

* Notamos que este problema no es trivial predecir la especie de flor iris a partir de imágenes; al parecer, los datos tabulares utilizados en el tutorial anterior (dimensiones de pétalos y sépalos) son más manejables.

In [8]:
from sklearn.metrics import accuracy_score
import numpy as np

validation_generator.reset()
pred = model.predict(validation_generator)

predict_classes = np.argmax(pred,axis=1)
expected_classes = validation_generator.classes

correct = accuracy_score(expected_classes,predict_classes)
print(f"Accuracy: {correct}")

  self._warn_if_super_not_called()


[1m14/14[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 87ms/step
Accuracy: 0.6389548693586699


<hr>


### <a name="M35">3.5. Preguntas</a>