_Implementación de una red neuronal convolucional con NumPy para clasificación de imágenes : MNIST_ 🖼️🧠
=========================================================================================================

Introducción
------------

En este documento se detalla el proceso completo para construir, entrenar y evaluar una red neuronal convolucional (CNN) utilizando el conjunto de datos MNIST. Este conjunto de datos es ampliamente reconocido en el campo del aprendizaje automático y la visión por computadora, ya que consiste en 70,000 imágenes de dígitos escritos a mano del 0 al 9, cada una etiquetada con su correspondiente número. 🔢

### Objetivo

El objetivo principal es desarrollar un modelo de CNN que pueda aprender automáticamente a reconocer y clasificar correctamente los dígitos representados en las imágenes de MNIST. Este proceso implica:

*   **Preprocesamiento de Datos:** Las imágenes se normalizan y se preparan para ser alimentadas al modelo. 📊
    
*   **Definición de la Arquitectura de la Red Neuronal:** Se establece la estructura de la red neuronal convolucional, incluyendo capas convolucionales, de pooling y completamente conectadas. 🏗️
    
*   **Entrenamiento del Modelo:** Se ajustan los pesos de la red utilizando el algoritmo de retropropagación (backpropagation) con un método de optimización para minimizar una función de pérdida. ⚙️
    
*   **Evaluación del Rendimiento:** Se evalúa la precisión del modelo utilizando un conjunto de datos de prueba separado y se analizan los resultados obtenidos. ✅
    

Este proyecto no solo muestra cómo implementar una red neuronal para reconocer dígitos, sino que también ofrece una visión general de los pasos necesarios para construir y entrenar modelos de aprendizaje automático en problemas de clasificación de imágenes. 📈

A lo largo del documento, se explicarán detalladamente cada uno de estos pasos, junto con las decisiones de diseño y los resultados obtenidos durante el proceso de desarrollo del modelo de CNN para MNIST. 📚✨

## Bibliotecas Utilizadas

### Instalación de bibliotecas

In [1]:
import sys
!{sys.executable} -m pip install --upgrade pip
!{sys.executable} -m pip install numpy tensorflow keras np_utils





### NumPy

![NumpyLogo](img/numpy_logo.png)

NumPy es una biblioteca fundamental para la computación científica en Python. Proporciona soporte para arreglos multidimensionales, matrices y una amplia variedad de funciones matemáticas de alto nivel para operar en estos arreglos. Es fundamental en el procesamiento numérico y el manejo eficiente de datos para aplicaciones de aprendizaje automático.

#### Importación:



In [2]:
import numpy as np

# TensorFlow

![TensorFlowLogo](img/tensorflow_logo.png)

TensorFlow es una biblioteca de código abierto desarrollada por Google para realizar cálculos numéricos y construir modelos de aprendizaje automático. Es una de las bibliotecas más populares para el desarrollo de modelos de aprendizaje profundo y redes neuronales.

## Keras

![KerasLogo](img/keras_logo.png)

Keras es una biblioteca de redes neuronales de código abierto escrita en Python. Es capaz de ejecutarse sobre TensorFlow, Microsoft Cognitive Toolkit o Theano. Fue desarrollada con la idea de facilitar la experimentación en el campo del aprendizaje profundo. Para esta ocasión, utilizaremos Keras con TensorFlow como backend y también utilizaremos uno de los conjuntos de datos que vienen incluidos en Keras.

## Conjunto de Datos MNIST

El conjunto de datos MNIST es un conjunto estándar de datos de dígitos escritos a mano ampliamente utilizado para entrenar y probar modelos de aprendizaje automático en el campo del reconocimiento óptico de caracteres (OCR). Consiste en un conjunto de 70,000 imágenes en escala de grises de dígitos escritos a mano, cada una de tamaño 28x28 píxeles. Estas imágenes están etiquetadas con el dígito correspondiente del 0 al 9.

### Características del Conjunto de Datos:

- **Imágenes:** Cada imagen representa un dígito del 0 al 9.
- **Tamaño:** Cada imagen tiene dimensiones de 28x28 píxeles.
- **Etiquetas:** Cada imagen está etiquetada con el dígito que representa.

El objetivo típico al trabajar con MNIST es entrenar un modelo de aprendizaje automático para reconocer y clasificar correctamente los dígitos escritos a mano basándose únicamente en las imágenes de entrada.

![MNIST Dataset](img/MnistExamplesModified.png)

## Importación del dataset MNIST y las herramientas necesarias para trabajar con él


In [3]:
import tensorflow.keras.utils as np_utils
from tensorflow.keras.datasets import mnist


2024-09-25 07:00:17.540314: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-09-25 07:00:17.540790: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2024-09-25 07:00:17.544715: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2024-09-25 07:00:17.555318: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-09-25 07:00:17.576333: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been 

## Capas Layer and Dense
### Clase `Layer`
La clase Layer sirve como una clase base para todas las capas de una red neuronal. Contiene dos métodos esenciales, forward y backward, que deben ser implementados en las clases derivadas. Estos métodos representan el pase hacia adelante y el pase hacia atrás de la red.

Pase hacia adelante (Forward Pass):
Recibe una entrada de la capa anterior y calcula la salida para ser enviada a la siguiente capa.
Pase hacia atrás (Backward Pass):
Recibe el gradiente de la salida (de la capa siguiente) y actualiza los pesos u otros parámetros en base a la tasa de aprendizaje. También calcula el gradiente para la entrada, que se propagará hacia atrás.
Atributos
input: Los datos de entrada para la capa, almacenados durante el pase hacia adelante.
output: La salida de la capa después del pase hacia adelante.


In [4]:
class Layer:
    def __init__(self):
        self.input = None
        self.output = None

    def forward(self, input):
        pass

    def backward(self, output_gradient, learning_rate):
        pass


### Descripción

La clase `Layer` es una clase base que define los métodos esenciales de una capa en una red neuronal. Incluye los métodos `forward` y `backward`, que son fundamentales para el entrenamiento de la red. Estos métodos deben ser implementados en las subclases derivadas de `Layer`.

### Métodos

*   **`forward(input)`** : Este método define el pase hacia adelante en la red. Toma como entrada `input` y devuelve la salida correspondiente de la capa. En la implementación base no realiza ninguna operación, ya que se espera que las subclases lo definan.
    
*   **`backward(output_gradient, learning_rate)`** : Este método define la retropropagación de la red. Recibe como parámetros el gradiente de la salida (`output_gradient`) y la tasa de aprendizaje (`learning_rate`). Actualiza los parámetros de la capa en base a estos valores. Similar al pase hacia adelante, su funcionalidad debe ser implementada en las subclases.
    

* * *

Clase `Dense` (Capa Totalmente Conectada)
-----------------------------------------

In [5]:
class Dense(Layer):
    def __init__(self, input_size, output_size):
        self.weights = np.random.randn(output_size, input_size)
        self.bias = np.random.randn(output_size, 1)

    def forward(self, input
):
        self.input = input
        return np.dot(self.weights, self.input) + self.bias

    def backward(self, output_gradient, learning_rate):
        weights_gradient = np.dot(output_gradient, self.input.T)
        input_gradient = np.dot(self.weights.T, output_gradient)
        self.weights -= learning_rate * weights_gradient
        self.bias -= learning_rate * output_gradient
        return input_gradient

### Descripción

La clase `Dense` implementa una capa totalmente conectada, donde cada neurona de la capa está conectada a todas las neuronas de la capa anterior. Se utiliza tanto para aprender características complejas como para realizar predicciones.

### Atributos

*   **`weights`** : Matriz de pesos con dimensiones `(output_size, input_size)` inicializada aleatoriamente. Estos pesos determinan la influencia de cada neurona de la capa anterior sobre las neuronas de la capa actual.
    
*   **`bias`** : Vector de sesgos con dimensiones `(output_size, 1)` también inicializado aleatoriamente. El sesgo se suma a la salida de la multiplicación de los pesos y la entrada.
    

### Métodos

*   **`forward(input)`**: Realiza el pase hacia adelante multiplicando la entrada por los pesos y sumando el sesgo. La ecuación que describe esta operación es:


$$
\begin{aligned}
    \text{salida} = W \cdot X + b
\end{aligned}    
$$

Donde:

*   $W$ es la matriz de pesos.
*   $X$ es el vector de entrada.
*   $b$ es el vector de sesgos.

*   **`backward(output_gradient, learning_rate)`**: Realiza la retropropagación, calculando el gradiente de los pesos y el sesgo a partir del gradiente de la salida. Luego, actualiza los pesos y el sesgo con la tasa de aprendizaje.

    Los gradientes se calculan de la siguiente manera:
    
    *   **Gradiente de los pesos**:

    
$$
\begin{aligned}
    \frac{\partial L}{\partial W} = \text{gradiente\_salida} \cdot X^T
\end{aligned}
$$

    *   **Gradiente de la entrada**:

$$
\begin{aligned}
    \frac{\partial L}{\partial X} = W^T \cdot \text{gradiente\_salida}
\end{aligned}
$$

Finalmente, los pesos y sesgos se actualizan con:

$$
\begin{aligned}
    W = W - \text{tasa\_aprendizaje} \cdot \frac{\partial L}{\partial W}
\end{aligned}
$$

$$
\begin{aligned}
    b = b - \text{tasa\_aprendizaje} \cdot \frac{\partial L}{\partial b}
\end{aligned}
$$

## Clase `Activation`


In [6]:
class Activation(Layer):
    def __init__(self, activation, activation_prime):
        self.activation = activation
        self.activation_prime = activation_prime

    def forward(self, input):
        self.input = input
        return self.activation(self.input)

    def backward(self, output_gradient, learning_rate):
        return np.multiply(output_gradient, self.activation_prime(self.input))


### Descripción

La clase `Activation` representa una capa de activación en una red neuronal. Utiliza una función de activación dada y su derivada para aplicar transformaciones no lineales a la entrada durante el pase hacia adelante y hacia atrás.

### Métodos

*   **`forward(input)`** : Realiza el pase hacia adelante aplicando la función de activación a la entrada y guarda la entrada para su uso posterior en la retropropagación.
    
*   **`backward(output_gradient, learning_rate)`** : Realiza el pase hacia atrás multiplicando el gradiente de salida por la derivada de la función de activación evaluada en la entrada guardada. Este método ajusta la retropropagación de acuerdo con la transformación no lineal aplicada en el pase hacia adelante.
    

* * *

Clase `Tanh`
------------

In [7]:
class Tanh(Activation):
    def __init__(self):
        def tanh(x):
            return np.tanh(x)

        def tanh_prime(x):
            return 1 - np.tanh(x) ** 2

        super().__init__(tanh, tanh_prime)

### Descripción

La clase `Tanh` implementa la función de activación tangente hiperbólica y su derivada. Hereda de `Activation`, especificando la función `tanh` y su derivada `tanh_prime` como los métodos de activación y su derivada respectivamente.

### Métodos

No se agregan métodos adicionales más allá de los heredados de `Activation`.

* * *

Clase `Sigmoid`
---------------

In [8]:
class Sigmoid(Activation):
    def __init__(self):
        def sigmoid(x):
            return 1 / (1 + np.exp(-x))

        def sigmoid_prime(x):
            s = sigmoid(x)
            return s * (1 - s)

        super().__init__(sigmoid, sigmoid_prime)

### Descripción

La clase `Sigmoid` implementa la función de activación sigmoide y su derivada. Al igual que `Tanh`, hereda de `Activation`, especificando la función `sigmoid` y su derivada `sigmoid_prime` como los métodos de activación y su derivada respectivamente.

### Métodos

No se agregan métodos adicionales más allá de los heredados de `Activation`.

* * *

Clase `Softmax`
---------------

In [9]:
class Softmax(Layer):
    def forward(self, input
):
        tmp = np.exp(input)
        self.output = tmp / np.sum(tmp)
        return self.output
    
    def backward(self, output_gradient, learning_rate):
        n = np.size(self.output)
        return np.dot((np.identity(n) - self.output.T) * self.output, output_gradient)

### Descripción

La clase `Softmax` implementa la función de activación softmax, comúnmente utilizada en la capa de salida de una red neuronal para problemas de clasificación multiclase. Calcula las probabilidades normalizadas de clases diferentes y sus gradientes durante el pase hacia adelante y hacia atrás, respectivamente.

### Métodos

*   **`forward(input)`** : Realiza el pase hacia adelante aplicando la función softmax a la entrada. Calcula exponenciales de la entrada, normaliza para obtener probabilidades y guarda el resultado en `self.output`.
    
*   **`backward(output_gradient, learning_rate)`** : Realiza el pase hacia atrás aplicando la derivada de softmax a `output_gradient`. Utiliza una forma optimizada de calcular el gradiente en comparación con la versión original, mejorando la eficiencia computacional durante la retropropagación.


## Funciones de Pérdida y Derivadas

### Función de Error Cuadrático Medio (MSE)


In [10]:
def mse(y_true, y_pred):
    """
    Calcula el error cuadrático medio entre las predicciones y los valores verdaderos.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - float: Error cuadrático medio.
    """
    return np.mean(np.power(y_true - y_pred, 2))

def mse_prime(y_true, y_pred):
    """
    Calcula la derivada del error cuadrático medio respecto a las predicciones.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - numpy array: Gradiente del error cuadrático medio.
    """
    return 2 * (y_pred - y_true) / np.size(y_true)

### Función de Entropía Cruzada Binaria

In [11]:
def binary_cross_entropy(y_true, y_pred):
    """
    Calcula la entropía cruzada binaria entre las predicciones y los valores verdaderos.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - float: Entropía cruzada binaria.
    """
    return np.mean(-y_true * np.log(y_pred) - (1 - y_true) * np.log(1 - y_pred))

def binary_cross_entropy_prime(y_true, y_pred):
    """
    Calcula la derivada de la entropía cruzada binaria respecto a las predicciones.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - numpy array: Gradiente de la entropía cruzada binaria.
    """
    return ((1 - y_true) / (1 - y_pred) - y_true / y_pred) / np.size(y_true)

## Funciones de Predicción y Entrenamiento de Redes Neuronales
### Función de Predicción (`predict`)


In [12]:
def predict(network, input):
    """
    Realiza una predicción utilizando una red neuronal dada.

    Args:
    - network (list): Lista de capas de la red neuronal.
    - input (numpy array): Entrada para la predicción.

    Returns:
    - numpy array: Salida de la red neuronal después de aplicar todas las capas.
    """
    output = input
    for layer in network:
        output = layer.forward(output)
    return output


### Función de Entrenamiento (`train`)

In [13]:
def train(network, loss, loss_prime, x_train, y_train, epochs=1000, learning_rate=0.01, verbose=True):
    """
    Entrena una red neuronal utilizando el algoritmo de retropropagación.

    Args:
    - network (list): Lista de capas de la red neuronal.
    - loss (function): Función de pérdida para evaluar el error.
    - loss_prime (function): Derivada de la función de pérdida para retropropagar el error.
    - x_train (numpy array): Datos de entrada de entrenamiento.
    - y_train (numpy array): Valores verdaderos correspondientes a los datos de entrada.
    - epochs (int): Número de épocas o iteraciones de entrenamiento (default: 1000).
    - learning_rate (float): Tasa de aprendizaje para actualizar los pesos durante el entrenamiento (default: 0.01).
    - verbose (bool): Flag para imprimir el progreso del entrenamiento (default: True).

    Returns:
    - None
    """
    for e in range(epochs):
        error = 0
        for x, y in zip(x_train, y_train):
            # forward
            output = predict(network, x)

            # error
            error += loss(y, output)

            # backward
            grad = loss_prime(y, output)
            for layer in reversed(network):
                grad = layer.backward(grad, learning_rate)

        error /= len(x_train)
        if verbose:
            print(f"{e + 1}/{epochs}, error={error}")


### Función de Preprocesamiento de Datos (`preprocess_data`)

In [14]:
def preprocess_data(x, y, limit):
    """
    Preprocesa los datos de MNIST, transformando las imágenes y las etiquetas para su uso en la red neuronal.

    Args:
    - x (numpy array): Datos de entrada (imágenes).
    - y (numpy array): Etiquetas correspondientes (números del 0 al 9).
    - limit (int): Límite para el número de datos a preprocesar.

    Returns:
    - numpy array: Datos de entrada preprocesados.
    - numpy array: Etiquetas preprocesadas y codificadas.
    """
    # Reorganiza y normaliza los datos de entrada
    x = x.reshape(x.shape[0], 28 * 28, 1)
    x = x.astype("float32") / 255
    # Codifica la salida (números del 0 al 9) en un vector de tamaño 10
    y = np_utils.to_categorical(y)
    y = y.reshape(y.shape[0], 10, 1)
    return x[:limit], y[:limit]


## Carga y Preprocesamiento de Datos MNIST


In [15]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, y_train = preprocess_data(x_train, y_train, 1000)
x_test, y_test = preprocess_data(x_test, y_test, 20)

## Definición de la Arquitectura de la Red Neuronal

In [16]:
network = [
    Dense(28 * 28, 40),
    Tanh(),
    Dense(40, 10),
    Tanh()
]

## Entrenamiento de la Red Neuronal


In [17]:
train(network, mse, mse_prime, x_train, y_train, epochs=100, learning_rate=0.1)

1/100, error=0.8727098636309831
2/100, error=0.8005264391101434
3/100, error=0.7560818280770303
4/100, error=0.6925861391497522
5/100, error=0.5908179474134135
6/100, error=0.43961604290773637
7/100, error=0.26194002219622825
8/100, error=0.1738515989570927
9/100, error=0.14476697212888012
10/100, error=0.1332438957178444
11/100, error=0.12730190206612657
12/100, error=0.12260658720032985
13/100, error=0.11869035231345593
14/100, error=0.11579003262922616
15/100, error=0.11369414201779399
16/100, error=0.1116697405507871
17/100, error=0.10985325118990776
18/100, error=0.10831724712648368
19/100, error=0.10678412216485142
20/100, error=0.10530855873483609
21/100, error=0.10324705450081957
22/100, error=0.10150586079577471
23/100, error=0.09972885028166886
24/100, error=0.09815220083130037
25/100, error=0.09732193067348896
26/100, error=0.09599288066333622
27/100, error=0.09469321959716677
28/100, error=0.09371754537997211
29/100, error=0.09248000910317403
30/100, error=0.091512839787338

## Prueba de la Red Neuronal

In [18]:
for x, y in zip(x_test, y_test):
    output = predict(network, x)
    print('pred:', np.argmax(output), '\ttrue:', np.argmax(y))

pred: 7 	true: 7
pred: 5 	true: 2
pred: 1 	true: 1
pred: 0 	true: 0
pred: 0 	true: 4
pred: 1 	true: 1
pred: 4 	true: 4
pred: 6 	true: 9
pred: 0 	true: 5
pred: 6 	true: 9
pred: 0 	true: 0
pred: 0 	true: 6
pred: 6 	true: 9
pred: 0 	true: 0
pred: 6 	true: 1
pred: 7 	true: 5
pred: 2 	true: 9
pred: 7 	true: 7
pred: 6 	true: 3
pred: 4 	true: 4


## Conclusiones

En este proyecto, hemos explorado el desarrollo y entrenamiento de una red neuronal convolucional (CNN) para la clasificación de dígitos utilizando el conjunto de datos MNIST. A continuación, se presentan las principales conclusiones y hallazgos obtenidos:

### Logros

- **Implementación Exitosa de la CNN:** Se logró implementar y entrenar una CNN utilizando la biblioteca Keras sobre TensorFlow. La red neuronal pudo aprender a reconocer los dígitos escritos a mano con una precisión significativa.

- **Preprocesamiento Eficaz de Datos:** El preprocesamiento de las imágenes de MNIST, incluyendo la normalización y la codificación de las etiquetas, fue crucial para el éxito del modelo.

- **Aprendizaje Automático de Representaciones:** La red neuronal pudo aprender representaciones significativas de las imágenes de dígitos, lo que permitió una clasificación precisa.

### Desafíos y Lecciones Aprendidas

- **Ajuste de Hiperparámetros:** La selección adecuada de hiperparámetros como la tasa de aprendizaje y el número de épocas de entrenamiento fue crucial y requirió experimentación y ajustes iterativos.

- **Interpretación de Resultados:** La evaluación del modelo y la interpretación de las métricas de rendimiento fueron fundamentales para comprender su eficacia y posibles áreas de mejora.

### Futuras Direcciones

- **Mejoras en el Modelo:** Se podrían explorar arquitecturas más complejas de CNN, así como técnicas avanzadas como la regularización y el aumento de datos para mejorar aún más el rendimiento del modelo.

- **Aplicaciones Prácticas:** Este proyecto puede extenderse para aplicaciones prácticas como sistemas de reconocimiento de caracteres en documentos escaneados o aplicaciones de OCR en tiempo real.

En resumen, este proyecto no solo demuestra la aplicación efectiva de técnicas de aprendizaje automático para la clasificación de imágenes, sino que también destaca la importancia de la experimentación rigurosa y la evaluación exhaustiva en el desarrollo de modelos de aprendizaje automático.