<h1> Marco Teórico: Módulo 11: Redes Neuronales Convolucionales (CNN) </h1>

#### 1. Introducción a las Redes Neuronales Convolucionales (CNN)

Las **redes neuronales convolucionales** (CNN, por sus siglas en inglés) son una clase de redes neuronales profundas diseñadas específicamente para procesar datos con una estructura de cuadrícula, como las imágenes. Las CNN han demostrado ser muy efectivas en tareas de visión computacional, tales como la clasificación de imágenes, la detección de objetos y la segmentación. La principal diferencia entre las CNN y las redes neuronales tradicionales (**fully connected**) es que las CNN son capaces de capturar patrones espaciales locales gracias al uso de capas convolucionales y de pooling.

#### 2. Capas de Convolución

Las **capas convolucionales** son el núcleo de una CNN. Estas capas aplican **filtros** (o kernels) que se desplazan sobre la imagen para extraer características locales, como bordes, texturas y estructuras más complejas en etapas posteriores.

**2.1 Operación de Convolución**

La operación de convolución es una operación matemática en la que un filtro $K$ de tamaño $k \times k$ se aplica a una imagen $I$  para generar una salida $S$. Matemáticamente, la convolución para una posición $(i,j)$  de la imagen puede expresarse como:

$
S(i,j) = (I * K)(i,j) = \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} I(i+m, j+n) \cdot K(m,n)
$

Donde:
- $ I(i,j) $ es la intensidad de píxel en la posición $ (i,j) $ de la imagen de entrada,
- $ K(m,n) $ es el valor del kernel o filtro en la posición $ (m,n) $,
- $ S(i,j) $ es el valor de la salida convolucional en la posición $ (i,j) $,
- $ (*) $ denota la operación de convolución.

**2.2 Parámetros: Stride y Padding**

- **Stride (paso)**: El stride es el número de posiciones que se mueve el filtro sobre la imagen. Un stride más alto genera una salida de menor tamaño porque el filtro se mueve más lejos en cada paso. Si el stride es $ s $, entonces el tamaño de la salida $ S $ se calcula como:

$
S_{\text{size}} = \left( \frac{I_{\text{size}} - K_{\text{size}}}{s} + 1 \right)
$

- **Padding (relleno)**: Para evitar que las dimensiones de la imagen se reduzcan demasiado después de cada capa convolucional, se suele aplicar **padding**, que consiste en añadir ceros alrededor de los bordes de la imagen de entrada. El padding puede ser "válido" (sin padding) o "same" (con padding para mantener el tamaño de entrada).

#### 3. Capas de Pooling

Las **capas de pooling** se utilizan para reducir la dimensionalidad de las representaciones y, al mismo tiempo, retener las características más importantes. Esto también ayuda a reducir el riesgo de sobreajuste al hacer el modelo menos dependiente de pequeñas variaciones en la entrada.

##### 3.1 Max Pooling

El **max pooling** selecciona el valor máximo de una región definida por una ventana (por ejemplo, $ 2 \times 2 $). Para una ventana $ 2 \times 2 $, el max pooling se calcula como:

$
M(i,j) = \max \{ I(i+m, j+n) \mid 0 \leq m, n < 2 \}
$

Donde $ M(i,j) $ es el valor máximo dentro de la ventana en la posición $(i,j)$.

##### 3.2 Average Pooling

El **average pooling** en cambio calcula el promedio de los valores dentro de la ventana:

$
A(i,j) = \frac{1}{n^2} \sum_{m=0}^{n-1} \sum_{n=0}^{n-1} I(i+m, j+n)
$

Esta técnica es menos común que el max pooling, pero se usa en algunas arquitecturas.

#### 4. Capas Fully Connected

Las **capas fully connected** o completamente conectadas son similares a las utilizadas en redes neuronales tradicionales. En estas capas, cada neurona está conectada a todas las neuronas de la capa anterior. La salida de las capas convolucionales y de pooling se aplana en un vector de una sola dimensión, que luego se alimenta a una o varias capas fully connected para hacer la predicción final.

La función de activación que comúnmente se usa en la capa de salida para problemas de clasificación es la **función softmax**, que convierte los valores de las neuronas en probabilidades normalizadas:

$
\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}
$

Donde:
- $ z_i $ es el valor de activación de la neurona $ i $,
- $ C $ es el número total de clases.

#### 5. Data Augmentation

El **data augmentation** es una técnica utilizada para aumentar artificialmente el tamaño del conjunto de datos mediante la creación de nuevas muestras a partir de las existentes mediante transformaciones como rotaciones, traslaciones, escalado y espejeo. Estas transformaciones ayudan a que la red sea más robusta a las variaciones y evitan el sobreajuste.

Matemáticamente, si una imagen $ x $ sufre una transformación $ T $, el data augmentation genera una nueva imagen $ x' $ definida por:

$
x' = T(x)
$

Donde $T$ puede ser una transformación geométrica (rotación, escalado) o de color (ajuste de brillo, contraste).

#### 6. Transfer Learning

El **transfer learning** es una técnica en la cual se aprovechan modelos preentrenados en grandes conjuntos de datos (por ejemplo, ImageNet) para adaptarlos a una tarea específica. En lugar de entrenar la red desde cero, se utilizan los pesos preentrenados en las primeras capas y se ajustan las últimas capas para la tarea actual.

Formalmente, si un modelo preentrenado se denota como $ f(x; \theta_{\text{pre}}) $, donde $ \theta_{\text{pre}} $ son los pesos preentrenados, el transfer learning consiste en mantener esos pesos en las primeras capas y ajustar solo los pesos $\theta_{\text{nuevo}}$ de las capas finales para la tarea específica:

$
y = f(x; \theta_{\text{pre}}) + g(x; \theta_{\text{nuevo}})
$

Donde $g(x; \theta_{\text{nuevo}})$ representa las capas recién entrenadas para la tarea de destino.

#### 7. Función de Pérdida y Optimización

La **función de pérdida** más comúnmente utilizada en tareas de clasificación es la **entropía cruzada**:

$
L = - \frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{i,c} \log \hat{y}_{i,c}
$

Donde:
- $ N $ es el número de muestras de entrenamiento,
- $ C $ es el número de clases,
- $ y_{i,c} $ es el valor verdadero $(0 o 1)$ para la clase $c$ de la muestra $i$,
- $ \hat{y}_{i,c} $ es la probabilidad predicha para la clase $c$.

Los parámetros de la red se ajustan mediante **backpropagation**, una técnica que calcula los gradientes de la función de pérdida con respecto a los pesos y luego ajusta los pesos utilizando un algoritmo de optimización como **Adam** o **SGD**.

<h1> Módulo 11: Redes Neuronales Convolucionales (CNN)</h1>

**Conceptos clave:**

Redes neuronales convolucionales para visión computacional.
    
Capas de convolución, pooling y fully connected.
    
Data augmentation y Transfer Learning.

**Proyecto: Clasificación avanzada de imágenes.**
    
Implementar un modelo CNN para clasificar imágenes en el dataset CIFAR-10 o Fashion MNIST, utilizando data augmentation y transfer learning.

**Proyecto 1: CNN para Imágenes en Escala de Grises (Fashion MNIST)**

**1. Preparar el Entorno**

Primero, asegurémonos de tener las bibliotecas necesarias. Puedes instalar las bibliotecas requeridas usando:

In [43]:
#!pip install --upgrade tensorflow keras
#!pip install scipy==1.7.3

In [44]:
#!pip uninstall keras tensorflow
#!pip install tensorflow

In [45]:
#pip install tensorflow matplotlib

**2. Importar las Librerías**

Vamos a importar las librerías necesarias para el proyecto:

In [46]:
import tensorflow as tf
from tensorflow.keras import datasets, layers, models
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import matplotlib.pyplot as plt
import scipy

**3. Cargar el Dataset**

Usaremos el dataset de Fashion MNIST, que está disponible en Keras:

In [47]:
# Cargar el dataset de Fashion MNIST
(train_images, train_labels), (test_images, test_labels) = datasets.fashion_mnist.load_data()

# Normalizar las imágenes y ajustar el formato
train_images = train_images.reshape((60000, 28, 28, 1)).astype('float32') / 255
test_images = test_images.reshape((10000, 28, 28, 1)).astype('float32') / 255

**4. Data Augmentation**

Para mejorar la capacidad de generalización del modelo, usaremos data augmentation:

In [48]:
# Construir un modelo CNN desde cero
model = models.Sequential([
    layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.MaxPooling2D((2, 2)),
    layers.Conv2D(64, (3, 3), activation='relu'),
    layers.Flatten(),
    layers.Dense(64, activation='relu'),
    layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


**5.  Entrenar el Modelo**

Vamos a construir un modelo de red neuronal convolucional usando transfer learning con una red preentrenada:

In [49]:
# Entrenar el modelo
history = model.fit(datagen.flow(train_images, train_labels, batch_size=64),
                    epochs=10,
                    validation_data=(test_images, test_labels))

Epoch 1/10


  def workers(self):


[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 86ms/step - accuracy: 0.5304 - loss: 1.2744 - val_accuracy: 0.7394 - val_loss: 0.6819
Epoch 2/10
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m82s[0m 87ms/step - accuracy: 0.7075 - loss: 0.7720 - val_accuracy: 0.7568 - val_loss: 0.6327
Epoch 3/10
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m70s[0m 74ms/step - accuracy: 0.7474 - loss: 0.6693 - val_accuracy: 0.7939 - val_loss: 0.5437
Epoch 4/10
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m67s[0m 71ms/step - accuracy: 0.7709 - loss: 0.6115 - val_accuracy: 0.7999 - val_loss: 0.5106
Epoch 5/10
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m66s[0m 70ms/step - accuracy: 0.7834 - loss: 0.5815 - val_accuracy: 0.8319 - val_loss: 0.4573
Epoch 6/10
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m64s[0m 68ms/step - accuracy: 0.7953 - loss: 0.5460 - val_accuracy: 0.8394 - val_loss: 0.4353
Epoch 7/10
[1m938/938[0m 

**Paso 6: Evaluar el modelo**

In [50]:
# Evaluar el modelo en el set de test
test_loss, test_acc = model.evaluate(test_images, test_labels)
print(f"Accuracy en test: {test_acc}")

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 10ms/step - accuracy: 0.8555 - loss: 0.4085
Accuracy en test: 0.8546000123023987


**Proyecto 2: Clasificación Avanzada de Imágenes RGB (CIFAR-10)**

**Paso 1: Importar librerías y cargar el dataset**

In [52]:
import tensorflow as tf
from tensorflow.keras import datasets, layers, models
from tensorflow.keras.preprocessing.image import ImageDataGenerator
import numpy as np

# Cargar dataset CIFAR-10
(train_images, train_labels), (test_images, test_labels) = datasets.cifar10.load_data()

# Reescalar imágenes (de 0 a 255 a valores entre 0 y 1)
train_images = train_images / 255.0
test_images = test_images / 255.0

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
[1m170498071/170498071[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m58s[0m 0us/step


**Paso 2: Crear el generador de datos con aumentación**

In [53]:
# Definir el generador de datos con aumentación
datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    horizontal_flip=True)

# Ajustar el generador a los datos de entrenamiento
datagen.fit(train_images)


**Paso 3: Cargar un modelo preentrenado con Transfer Learning**

In [54]:
# Cargar MobileNetV2 preentrenado con pesos de ImageNet (se excluye la capa superior)
base_model = tf.keras.applications.MobileNetV2(weights='imagenet', include_top=False, input_shape=(32, 32, 3))

# Congelar las capas del modelo base
base_model.trainable = False

# Crear el modelo completo agregando capas adicionales
model = models.Sequential([
    base_model,
    layers.GlobalAveragePooling2D(),
    layers.Dense(128, activation='relu'),
    layers.Dense(10, activation='softmax')
])

# Compilar el modelo
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])


  base_model = tf.keras.applications.MobileNetV2(weights='imagenet', include_top=False, input_shape=(32, 32, 3))


Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/mobilenet_v2/mobilenet_v2_weights_tf_dim_ordering_tf_kernels_1.0_224_no_top.h5
[1m9406464/9406464[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 0us/step


**Paso 4: Entrenar el modelo**

In [55]:
# Entrenar el modelo con data augmentation
history = model.fit(datagen.flow(train_images, train_labels, batch_size=64),
                    epochs=10,
                    validation_data=(test_images, test_labels))

Epoch 1/10
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m103s[0m 124ms/step - accuracy: 0.2269 - loss: 2.1059 - val_accuracy: 0.2966 - val_loss: 1.9420
Epoch 2/10
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m91s[0m 116ms/step - accuracy: 0.2818 - loss: 1.9632 - val_accuracy: 0.3106 - val_loss: 1.9141
Epoch 3/10
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m92s[0m 115ms/step - accuracy: 0.2894 - loss: 1.9451 - val_accuracy: 0.3162 - val_loss: 1.8821
Epoch 4/10
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m97s[0m 123ms/step - accuracy: 0.2963 - loss: 1.9300 - val_accuracy: 0.3245 - val_loss: 1.8703
Epoch 5/10
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m90s[0m 114ms/step - accuracy: 0.2972 - loss: 1.9284 - val_accuracy: 0.3274 - val_loss: 1.8623
Epoch 6/10
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m89s[0m 113ms/step - accuracy: 0.3049 - loss: 1.9128 - val_accuracy: 0.3269 - val_loss: 1.8568
Epoch 7/1

**Paso 5: Evaluar el modelo**

In [56]:
# Evaluar el modelo en el set de test
test_loss, test_acc = model.evaluate(test_images, test_labels)
print(f"Accuracy en test: {test_acc}")

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 64ms/step - accuracy: 0.3384 - loss: 1.8315
Accuracy en test: 0.3377000093460083
