# Redes Neuronales Convolucionales

<p style='text-align: justify;'>Las redes neuronales convolucionales son una extensión de las redes neuronales y son consideradas métodos de aprendizaje profundo. Generalmente se utilizan para el análisis y la clasificación de imágenes.</p>

<p style='text-align: justify;'>La arquitectura de una red convolucional se basa en una secuencia de capas de neuronas, alternando entre capas convolucionales y capas de agrupación. Una representación clásica de las redes convolucionales es la siguiente:</p>

<img src="https://raw.githubusercontent.com/luise-phd/VisionComputacional/refs/heads/main/imgs/CNN.png"/>

<p style='text-align: justify;'><b>Flattening</b> o aplanamiento es un paso que consiste en transformar los datos de entrada multidimensionales, como una imagen o un tensor tridimensional, en un vector unidimensional antes de pasarlos a una capa densa (fully connected) de la red.</p>

# Convolución y capas de convolución

<p style='text-align: justify;'>La convolución no es un concepto nuevo, es una técnica que ha sido utilizada en el procesamiento de señales e imágenes.</p>

<p style='text-align: justify;'>En el procesamiento de imágenes se utilizan filtros predefinidos para resaltar o disminuir ciertas características de las imágenes. Los filtros son aplicados en un barrido por toda la imagen para producir una imagen alterada.</p>

<table>
    <tr>
        <td><img src="https://github.com/luise-phd/VisionComputacional/blob/main/imgs/same_padding_no_strides.gif?raw=true" /></td>
        <td><img src="https://github.com/luise-phd/VisionComputacional/blob/main/imgs/conv.gif?raw=true" width=50% /></td>
    </tr>
</table>

## Capa de convolución

<p style='text-align: justify;'>En las redes de convolución los filtros utilizados no están definidos. Los filtros son "aprendidos" en tiempo de entrenamiento los cuales resaltan las características más importantes de la imagen. Como las redes construyen los filtros directamente a partir de la función de error, los filtros son más efectivos que cualquier filtro hecho manualmente por un humano.</p>

<p style='text-align: justify;'>De hecho, la mayoría de las veces las redes de convolución generan filtros que capturan conceptos abstractos como por ejemplo el borde del mentón o la silueta de la oreja entre otras singularidades. Si agregamos más capas los filtros aprenden a capturar cosas más complejas como por ejemplo ojos o boca.</p>

<p style='text-align: justify;'>El <b>objetivo de la convolución</b> es extraer las características de alto nivel desde una imagen de entrada.</p>

<p style='text-align: justify;'>Algunos parámetros que podemos especificar son:</p>

<ul>
    <li><b>filters:</b> Determina el número de filtros generados en la capa.</li>
    <li><b>padding:</b> Indica la forma que tendrá la imagen resultante después del barrido.</li>
    <li><b>kernel_size:</b> Determina el tamaño de los filtros creados.</li>
    <li><b>strides:</b> Determina el número de pixeles que debe ignorar entre movimientos del barrido.</li>
</ul>

Puedes leer más sobre los parámetros en la documentación oficial:
https://keras.io/layers/convolutional/

## Capa de agrupación

<p style='text-align: justify;'>La capa de agrupación funciona de una manera similar a la capa convolución donde se hace un recorrido a la imagen aplicando una función a cada sección de la imagen. El <b>objetivo de esta capa</b> es agrupar en una imagen las características más relevantes. Esto se realiza con 2 posibles funciones. La primera de ellas es obtener el valor máximo de la sección analizada y la segunda es obtener el promedio de la sección analizada.</p>

Documentación oficial: https://keras.io/layers/pooling/

<table>
    <tr>
        <td><img src="https://github.com/luise-phd/VisionComputacional/blob/main/imgs/same_padding_no_strides.gif?raw=true" width=80% /></td>
        <td><img src="https://github.com/luise-phd/VisionComputacional/blob/main/imgs/pooling.png?raw=true" width=60% /></td>
    </tr>
</table>

### Importar librerías

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
from matplotlib.pyplot import imread
# La función "imread" de "pyplot" se utiliza para leer y cargar imágenes y devuelve la imagen como un arreglo de NumPy.

# Módulo 'keras' que proporciona herramientas para construir y entrenar redes neuronales de forma sencilla
from tensorflow import keras

# Clases y funciones necesarias para construir modelos de Keras
from tensorflow.keras import layers, models

# Conjunto de datos MNIST desde Keras (imágenes de dígitos manuscritos)
from tensorflow.keras.datasets import mnist

# Scipy es una librería para realizar cálculos numéricos y científicos.
# El módulo "signal" permite acceder a todas las funciones y herramientas
# para procesar señales y realizar análisis de datos.
from scipy import signal

# Sklearn es una librería para aprendizaje automático.
# Proporciona una variedad de herramientas y algoritmos para tareas como clasificación,
# regresión, clustering, reducción de dimensionalidad, selección de características, entre otros.
from sklearn.model_selection import train_test_split

# Establecemos el modo de visualización de matplotlib a 'inline',
# lo que hará que las gráficas se muestren en el notebook
%matplotlib inline

### Carga el conjunto de datos MNIST, que contiene imágenes de dígitos manuscritos

In [None]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()
print('Datos de entrenamiento:', x_train.shape)
print('Datos de entrenamiento:', x_test.shape)

# Construyendo y entrenando la NN

<img src="https://github.com/luise-phd/VisionComputacional/blob/main/imgs/CNN_detailed.png?raw=true"/>

### Creación de la CNN

In [None]:
input_layer = x_train

# Crear un modelo secuencial vacío, que es una pila lineal de capas de red neuronal.
model = models.Sequential()

# Creando capa Conv2D_1
# La capa tendrá 32 filtros convolucionales, que son matrices de pesos que se aplican a la imagen de entrada
# para extraer características.
# kernel_size especifica el tamaño de los filtros convolucionales como una tupla de dos valores.
# padding especifica el tipo de relleno (padding) que se utilizará para asegurarse de que la salida de la
# capa convolucional tenga la misma forma que la entrada.
# input_shape especifica la forma de entrada de la capa convolucional, que es una imagen en escala de grises
# de 28x28 píxeles con un canal de color (depth) de 1.
model.add( layers.Conv2D(filters = 32, kernel_size = (5, 5), activation='relu', padding="same", input_shape=(28,28,1,)) )

# Crear capa de agrupamiento Pooling2D_1
# La capa de agrupamiento máximo 2D reduce la dimensionalidad de la salida de la capa convolucional 2D anterior,
# mientras preserva la información más importante. Esto se hace mediante la división de la imagen de entrada en
# regiones de tamaño pool_size (2x2 en este caso), y seleccionando el valor máximo de cada región como salida.
# El parámetro strides especifica la cantidad de pasos (strides) a dar en la imagen de entrada antes de aplicar
# la operación de agrupamiento.
model.add( layers.MaxPooling2D(pool_size = (2, 2), strides=2) )

# Crear capa Conv2D_2
# Se establece un número de filtros de 64, lo que significa que la capa extraerá 64 características
# diferentes de la entrada.
# El parámetro input_shape establece la forma de la entrada a la capa. En este caso, se establece en la
# forma de la capa de entrada anterior, lo que garantiza que la entrada a esta capa de convolución 2D
# tenga la misma forma que la salida de la capa de entrada.
model.add( layers.Conv2D(filters = 64, kernel_size = (5, 5), activation='relu', padding="same", input_shape=input_layer.shape) )

# Creando capa de agrupamiento Pooling2D_2
model.add( layers.MaxPooling2D(pool_size = (2, 2), strides=2) )

model.summary()

### Definición de Capas densas (totalmente conectadas) de la red neuronal
Son las capas que siguen a las capas convolucionales y de agrupamiento (pooling) en la arquitectura del modelo.

In [None]:
# Esta capa toma los datos de la última capa convolucional y los aplana para que puedan ser procesados por
# una capa densa. Por ejemplo, si la salida de la última capa convolucional es un tensor de 4
# dimensiones (batch_size, height, width, channels), la capa Flatten lo convertirá en un tensor de 2
# dimensiones (batch_size, height x width x channels).
model.add(layers.Flatten())

# capa densa tiene 64 neuronas, toma una entrada plana y calcula una salida mediante la multiplicación de una
# matriz de pesos y la adición de un vector de sesgos.

model.add(layers.Dense(64, activation='relu'))
# La capa Dropout se utiliza para prevenir el sobreajuste del modelo. Esta capa elimina aleatoriamente
# algunas de las conexiones de la capa anterior durante el entrenamiento, lo que ayuda a evitar que la red
# se ajuste demasiado a los datos de entrenamiento. En este caso, el argumento rate especifica la fracción
# de conexiones que se eliminarán aleatoriamente en cada paso de entrenamiento (en este caso, el 40%).

model.add(layers.Dropout(rate = 0.4))
model.add(layers.Dense(32, activation='relu'))
model.add(layers.Dropout(rate = 0.4))
model.add(layers.Dense(10, activation='softmax'))

# Resumen del modelo, incluyendo el número de parámetros entrenables en cada capa y el número total
# de parámetros en la red.
model.summary()

### Compilar y entrenar el modelo

In [None]:
# La función de pérdida "sparse_categorical_crossentropy", se aplica a problemas de clasificación múltiple
# en los que las etiquetas son enteros y no se han codificado previamente en formato one-hot.

# Se utiliza la métrica "accuracy" para medir la fracción de predicciones correctas realizadas por el
# modelo en el conjunto de datos de validación.

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(x_train, y_train, validation_data = (x_test, y_test), epochs=12, batch_size = 100);

<p style='text-align: justify;'>El número 600 indica que se han entrenado 600 lotes (o batches) de datos de 100 unidades cada lote durante cada época. El conjunto de entrenamiento tiene 60000 registros.</p>

In [None]:
test_loss, test_acc = model.evaluate(x_test, y_test)
print("Test acc:", test_acc)

<p style='text-align: justify;'>Indica que se está evaluando el modelo en el conjunto de datos de prueba. En este caso, el modelo ha procesado 313 muestras de prueba en 1 segundo con un promedio de pérdida y una precisión (accuracy).</p>

# Probando la CNN

In [None]:
predictions = model.predict(x_test)
y_hat = np.argmax(predictions, axis=1)

### Resumen de datos

In [None]:
errores = x_test[y_test != y_hat]
print("Elementos de prueba: {}".format(y_test.shape[0]))
errores_count = errores.shape[0]
errores_count
print("Errores identificados: {}".format(errores_count))
porcentaje_error = errores_count * 100 / y_test.shape[0]
print("Porcentaje de error: {} %".format(porcentaje_error))

### Graficar las primeras 5 filas de errores

In [None]:
real_labels = y_test[y_test != y_hat]
predicted_labels = y_hat[y_test != y_hat]

k = 0
for j in range(round(errores.shape[0]/5)):
    plt.figure(figsize=(10,10))
    for i in range(min(5,errores_count-5*j)):
        plt.subplot(1,min(5,errores_count-5*j),i+1)
        plt.xticks([])
        plt.yticks([])
        plt.grid(False)
        number = errores[5*j+i].reshape(28,28)
        plt.imshow(number, cmap=plt.cm.binary)
        plt.xlabel("Real: {} Prediccion: {}".format
                   (real_labels[5*j+i],predicted_labels[5*j+i]))
    plt.show()
    k += 1
    if k == 5:
        break

# Matriz de confusión

In [None]:
import seaborn as sns
from sklearn.metrics import confusion_matrix

mod_confusion_matrix = confusion_matrix(y_test, y_hat)
for i in range(10):
    mod_confusion_matrix[i][i] = 0

fig = plt.figure(figsize=(12,10))
ax = fig.add_subplot(1,1,1)
sns.heatmap(mod_confusion_matrix, linewidth=0.5, annot=True, cmap="YlGnBu")
plt.ylabel("Etiquetas Reales")
plt.xlabel("Etiquetas Predecidas")
ax.set_ylim(10.5,-0.5);