_Implementaci√≥n de una red neuronal convolucional con NumPy para clasificaci√≥n de im√°genes : MNIST_ üñºÔ∏èüß†
=========================================================================================================

Introducci√≥n
------------

En este documento se detalla el proceso completo para construir, entrenar y evaluar una red neuronal convolucional (CNN) utilizando el conjunto de datos MNIST. Este conjunto de datos es ampliamente reconocido en el campo del aprendizaje autom√°tico y la visi√≥n por computadora, ya que consiste en 70,000 im√°genes de d√≠gitos escritos a mano del 0 al 9, cada una etiquetada con su correspondiente n√∫mero. üî¢

### Objetivo

El objetivo principal es desarrollar un modelo de CNN que pueda aprender autom√°ticamente a reconocer y clasificar correctamente los d√≠gitos representados en las im√°genes de MNIST. Este proceso implica:

*   **Preprocesamiento de Datos:** Las im√°genes se normalizan y se preparan para ser alimentadas al modelo. üìä
    
*   **Definici√≥n de la Arquitectura de la Red Neuronal:** Se establece la estructura de la red neuronal convolucional, incluyendo capas convolucionales, de pooling y completamente conectadas. üèóÔ∏è
    
*   **Entrenamiento del Modelo:** Se ajustan los pesos de la red utilizando el algoritmo de retropropagaci√≥n (backpropagation) con un m√©todo de optimizaci√≥n para minimizar una funci√≥n de p√©rdida. ‚öôÔ∏è
    
*   **Evaluaci√≥n del Rendimiento:** Se eval√∫a la precisi√≥n del modelo utilizando un conjunto de datos de prueba separado y se analizan los resultados obtenidos. ‚úÖ
    

Este proyecto no solo muestra c√≥mo implementar una red neuronal para reconocer d√≠gitos, sino que tambi√©n ofrece una visi√≥n general de los pasos necesarios para construir y entrenar modelos de aprendizaje autom√°tico en problemas de clasificaci√≥n de im√°genes. üìà

A lo largo del documento, se explicar√°n detalladamente cada uno de estos pasos, junto con las decisiones de dise√±o y los resultados obtenidos durante el proceso de desarrollo del modelo de CNN para MNIST. üìö‚ú®

## Bibliotecas Utilizadas

### Instalaci√≥n de bibliotecas

In [1]:
import sys
!{sys.executable} -m pip install --upgrade pip
!{sys.executable} -m pip install numpy tensorflow keras np_utils





### NumPy

![NumpyLogo](img/numpy_logo.png)

NumPy es una biblioteca fundamental para la computaci√≥n cient√≠fica en Python. Proporciona soporte para arreglos multidimensionales, matrices y una amplia variedad de funciones matem√°ticas de alto nivel para operar en estos arreglos. Es fundamental en el procesamiento num√©rico y el manejo eficiente de datos para aplicaciones de aprendizaje autom√°tico.

#### Importaci√≥n:



In [2]:
import numpy as np

# TensorFlow

![TensorFlowLogo](img/tensorflow_logo.png)

TensorFlow es una biblioteca de c√≥digo abierto desarrollada por Google para realizar c√°lculos num√©ricos y construir modelos de aprendizaje autom√°tico. Es una de las bibliotecas m√°s populares para el desarrollo de modelos de aprendizaje profundo y redes neuronales.

## Keras

![KerasLogo](img/keras_logo.png)

Keras es una biblioteca de redes neuronales de c√≥digo abierto escrita en Python. Es capaz de ejecutarse sobre TensorFlow, Microsoft Cognitive Toolkit o Theano. Fue desarrollada con la idea de facilitar la experimentaci√≥n en el campo del aprendizaje profundo. Para esta ocasi√≥n, utilizaremos Keras con TensorFlow como backend y tambi√©n utilizaremos uno de los conjuntos de datos que vienen incluidos en Keras.

## Conjunto de Datos MNIST

El conjunto de datos MNIST es un conjunto est√°ndar de datos de d√≠gitos escritos a mano ampliamente utilizado para entrenar y probar modelos de aprendizaje autom√°tico en el campo del reconocimiento √≥ptico de caracteres (OCR). Consiste en un conjunto de 70,000 im√°genes en escala de grises de d√≠gitos escritos a mano, cada una de tama√±o 28x28 p√≠xeles. Estas im√°genes est√°n etiquetadas con el d√≠gito correspondiente del 0 al 9.

### Caracter√≠sticas del Conjunto de Datos:

- **Im√°genes:** Cada imagen representa un d√≠gito del 0 al 9.
- **Tama√±o:** Cada imagen tiene dimensiones de 28x28 p√≠xeles.
- **Etiquetas:** Cada imagen est√° etiquetada con el d√≠gito que representa.

El objetivo t√≠pico al trabajar con MNIST es entrenar un modelo de aprendizaje autom√°tico para reconocer y clasificar correctamente los d√≠gitos escritos a mano bas√°ndose √∫nicamente en las im√°genes de entrada.

![MNIST Dataset](img/MnistExamplesModified.png)

## Importaci√≥n del dataset MNIST y las herramientas necesarias para trabajar con √©l


In [3]:
import tensorflow.keras.utils as np_utils
from tensorflow.keras.datasets import mnist


2024-09-25 07:00:17.540314: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-09-25 07:00:17.540790: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2024-09-25 07:00:17.544715: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2024-09-25 07:00:17.555318: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-09-25 07:00:17.576333: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been 

## Capas Layer and Dense
### Clase `Layer`
La clase Layer sirve como una clase base para todas las capas de una red neuronal. Contiene dos m√©todos esenciales, forward y backward, que deben ser implementados en las clases derivadas. Estos m√©todos representan el pase hacia adelante y el pase hacia atr√°s de la red.

Pase hacia adelante (Forward Pass):
Recibe una entrada de la capa anterior y calcula la salida para ser enviada a la siguiente capa.
Pase hacia atr√°s (Backward Pass):
Recibe el gradiente de la salida (de la capa siguiente) y actualiza los pesos u otros par√°metros en base a la tasa de aprendizaje. Tambi√©n calcula el gradiente para la entrada, que se propagar√° hacia atr√°s.
Atributos
input: Los datos de entrada para la capa, almacenados durante el pase hacia adelante.
output: La salida de la capa despu√©s del pase hacia adelante.


In [4]:
class Layer:
    def __init__(self):
        self.input = None
        self.output = None

    def forward(self, input):
        pass

    def backward(self, output_gradient, learning_rate):
        pass


### Descripci√≥n

La clase `Layer` es una clase base que define los m√©todos esenciales de una capa en una red neuronal. Incluye los m√©todos `forward` y `backward`, que son fundamentales para el entrenamiento de la red. Estos m√©todos deben ser implementados en las subclases derivadas de `Layer`.

### M√©todos

*   **`forward(input)`** : Este m√©todo define el pase hacia adelante en la red. Toma como entrada `input` y devuelve la salida correspondiente de la capa. En la implementaci√≥n base no realiza ninguna operaci√≥n, ya que se espera que las subclases lo definan.
    
*   **`backward(output_gradient, learning_rate)`** : Este m√©todo define la retropropagaci√≥n de la red. Recibe como par√°metros el gradiente de la salida (`output_gradient`) y la tasa de aprendizaje (`learning_rate`). Actualiza los par√°metros de la capa en base a estos valores. Similar al pase hacia adelante, su funcionalidad debe ser implementada en las subclases.
    

* * *

Clase `Dense` (Capa Totalmente Conectada)
-----------------------------------------

In [5]:
class Dense(Layer):
    def __init__(self, input_size, output_size):
        self.weights = np.random.randn(output_size, input_size)
        self.bias = np.random.randn(output_size, 1)

    def forward(self, input
):
        self.input = input
        return np.dot(self.weights, self.input) + self.bias

    def backward(self, output_gradient, learning_rate):
        weights_gradient = np.dot(output_gradient, self.input.T)
        input_gradient = np.dot(self.weights.T, output_gradient)
        self.weights -= learning_rate * weights_gradient
        self.bias -= learning_rate * output_gradient
        return input_gradient

### Descripci√≥n

La clase `Dense` implementa una capa totalmente conectada, donde cada neurona de la capa est√° conectada a todas las neuronas de la capa anterior. Se utiliza tanto para aprender caracter√≠sticas complejas como para realizar predicciones.

### Atributos

*   **`weights`** : Matriz de pesos con dimensiones `(output_size, input_size)` inicializada aleatoriamente. Estos pesos determinan la influencia de cada neurona de la capa anterior sobre las neuronas de la capa actual.
    
*   **`bias`** : Vector de sesgos con dimensiones `(output_size, 1)` tambi√©n inicializado aleatoriamente. El sesgo se suma a la salida de la multiplicaci√≥n de los pesos y la entrada.
    

### M√©todos

*   **`forward(input)`**: Realiza el pase hacia adelante multiplicando la entrada por los pesos y sumando el sesgo. La ecuaci√≥n que describe esta operaci√≥n es:


$$
\begin{aligned}
    \text{salida} = W \cdot X + b
\end{aligned}    
$$

Donde:

*   $W$ es la matriz de pesos.
*   $X$ es el vector de entrada.
*   $b$ es el vector de sesgos.

*   **`backward(output_gradient, learning_rate)`**: Realiza la retropropagaci√≥n, calculando el gradiente de los pesos y el sesgo a partir del gradiente de la salida. Luego, actualiza los pesos y el sesgo con la tasa de aprendizaje.

    Los gradientes se calculan de la siguiente manera:
    
    *   **Gradiente de los pesos**:

    
$$
\begin{aligned}
    \frac{\partial L}{\partial W} = \text{gradiente\_salida} \cdot X^T
\end{aligned}
$$

    *   **Gradiente de la entrada**:

$$
\begin{aligned}
    \frac{\partial L}{\partial X} = W^T \cdot \text{gradiente\_salida}
\end{aligned}
$$

Finalmente, los pesos y sesgos se actualizan con:

$$
\begin{aligned}
    W = W - \text{tasa\_aprendizaje} \cdot \frac{\partial L}{\partial W}
\end{aligned}
$$

$$
\begin{aligned}
    b = b - \text{tasa\_aprendizaje} \cdot \frac{\partial L}{\partial b}
\end{aligned}
$$

## Clase `Activation`


In [6]:
class Activation(Layer):
    def __init__(self, activation, activation_prime):
        self.activation = activation
        self.activation_prime = activation_prime

    def forward(self, input):
        self.input = input
        return self.activation(self.input)

    def backward(self, output_gradient, learning_rate):
        return np.multiply(output_gradient, self.activation_prime(self.input))


### Descripci√≥n

La clase `Activation` representa una capa de activaci√≥n en una red neuronal. Utiliza una funci√≥n de activaci√≥n dada y su derivada para aplicar transformaciones no lineales a la entrada durante el pase hacia adelante y hacia atr√°s.

### M√©todos

*   **`forward(input)`** : Realiza el pase hacia adelante aplicando la funci√≥n de activaci√≥n a la entrada y guarda la entrada para su uso posterior en la retropropagaci√≥n.
    
*   **`backward(output_gradient, learning_rate)`** : Realiza el pase hacia atr√°s multiplicando el gradiente de salida por la derivada de la funci√≥n de activaci√≥n evaluada en la entrada guardada. Este m√©todo ajusta la retropropagaci√≥n de acuerdo con la transformaci√≥n no lineal aplicada en el pase hacia adelante.
    

* * *

Clase `Tanh`
------------

In [7]:
class Tanh(Activation):
    def __init__(self):
        def tanh(x):
            return np.tanh(x)

        def tanh_prime(x):
            return 1 - np.tanh(x) ** 2

        super().__init__(tanh, tanh_prime)

### Descripci√≥n

La clase `Tanh` implementa la funci√≥n de activaci√≥n tangente hiperb√≥lica y su derivada. Hereda de `Activation`, especificando la funci√≥n `tanh` y su derivada `tanh_prime` como los m√©todos de activaci√≥n y su derivada respectivamente.

### M√©todos

No se agregan m√©todos adicionales m√°s all√° de los heredados de `Activation`.

* * *

Clase `Sigmoid`
---------------

In [8]:
class Sigmoid(Activation):
    def __init__(self):
        def sigmoid(x):
            return 1 / (1 + np.exp(-x))

        def sigmoid_prime(x):
            s = sigmoid(x)
            return s * (1 - s)

        super().__init__(sigmoid, sigmoid_prime)

### Descripci√≥n

La clase `Sigmoid` implementa la funci√≥n de activaci√≥n sigmoide y su derivada. Al igual que `Tanh`, hereda de `Activation`, especificando la funci√≥n `sigmoid` y su derivada `sigmoid_prime` como los m√©todos de activaci√≥n y su derivada respectivamente.

### M√©todos

No se agregan m√©todos adicionales m√°s all√° de los heredados de `Activation`.

* * *

Clase `Softmax`
---------------

In [9]:
class Softmax(Layer):
    def forward(self, input
):
        tmp = np.exp(input)
        self.output = tmp / np.sum(tmp)
        return self.output
    
    def backward(self, output_gradient, learning_rate):
        n = np.size(self.output)
        return np.dot((np.identity(n) - self.output.T) * self.output, output_gradient)

### Descripci√≥n

La clase `Softmax` implementa la funci√≥n de activaci√≥n softmax, com√∫nmente utilizada en la capa de salida de una red neuronal para problemas de clasificaci√≥n multiclase. Calcula las probabilidades normalizadas de clases diferentes y sus gradientes durante el pase hacia adelante y hacia atr√°s, respectivamente.

### M√©todos

*   **`forward(input)`** : Realiza el pase hacia adelante aplicando la funci√≥n softmax a la entrada. Calcula exponenciales de la entrada, normaliza para obtener probabilidades y guarda el resultado en `self.output`.
    
*   **`backward(output_gradient, learning_rate)`** : Realiza el pase hacia atr√°s aplicando la derivada de softmax a `output_gradient`. Utiliza una forma optimizada de calcular el gradiente en comparaci√≥n con la versi√≥n original, mejorando la eficiencia computacional durante la retropropagaci√≥n.


## Funciones de P√©rdida y Derivadas

### Funci√≥n de Error Cuadr√°tico Medio (MSE)


In [10]:
def mse(y_true, y_pred):
    """
    Calcula el error cuadr√°tico medio entre las predicciones y los valores verdaderos.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - float: Error cuadr√°tico medio.
    """
    return np.mean(np.power(y_true - y_pred, 2))

def mse_prime(y_true, y_pred):
    """
    Calcula la derivada del error cuadr√°tico medio respecto a las predicciones.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - numpy array: Gradiente del error cuadr√°tico medio.
    """
    return 2 * (y_pred - y_true) / np.size(y_true)

### Funci√≥n de Entrop√≠a Cruzada Binaria

In [11]:
def binary_cross_entropy(y_true, y_pred):
    """
    Calcula la entrop√≠a cruzada binaria entre las predicciones y los valores verdaderos.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - float: Entrop√≠a cruzada binaria.
    """
    return np.mean(-y_true * np.log(y_pred) - (1 - y_true) * np.log(1 - y_pred))

def binary_cross_entropy_prime(y_true, y_pred):
    """
    Calcula la derivada de la entrop√≠a cruzada binaria respecto a las predicciones.

    Args:
    - y_true (numpy array): Valores verdaderos.
    - y_pred (numpy array): Predicciones del modelo.

    Returns:
    - numpy array: Gradiente de la entrop√≠a cruzada binaria.
    """
    return ((1 - y_true) / (1 - y_pred) - y_true / y_pred) / np.size(y_true)

## Funciones de Predicci√≥n y Entrenamiento de Redes Neuronales
### Funci√≥n de Predicci√≥n (`predict`)


In [12]:
def predict(network, input):
    """
    Realiza una predicci√≥n utilizando una red neuronal dada.

    Args:
    - network (list): Lista de capas de la red neuronal.
    - input (numpy array): Entrada para la predicci√≥n.

    Returns:
    - numpy array: Salida de la red neuronal despu√©s de aplicar todas las capas.
    """
    output = input
    for layer in network:
        output = layer.forward(output)
    return output


### Funci√≥n de Entrenamiento (`train`)

In [13]:
def train(network, loss, loss_prime, x_train, y_train, epochs=1000, learning_rate=0.01, verbose=True):
    """
    Entrena una red neuronal utilizando el algoritmo de retropropagaci√≥n.

    Args:
    - network (list): Lista de capas de la red neuronal.
    - loss (function): Funci√≥n de p√©rdida para evaluar el error.
    - loss_prime (function): Derivada de la funci√≥n de p√©rdida para retropropagar el error.
    - x_train (numpy array): Datos de entrada de entrenamiento.
    - y_train (numpy array): Valores verdaderos correspondientes a los datos de entrada.
    - epochs (int): N√∫mero de √©pocas o iteraciones de entrenamiento (default: 1000).
    - learning_rate (float): Tasa de aprendizaje para actualizar los pesos durante el entrenamiento (default: 0.01).
    - verbose (bool): Flag para imprimir el progreso del entrenamiento (default: True).

    Returns:
    - None
    """
    for e in range(epochs):
        error = 0
        for x, y in zip(x_train, y_train):
            # forward
            output = predict(network, x)

            # error
            error += loss(y, output)

            # backward
            grad = loss_prime(y, output)
            for layer in reversed(network):
                grad = layer.backward(grad, learning_rate)

        error /= len(x_train)
        if verbose:
            print(f"{e + 1}/{epochs}, error={error}")


### Funci√≥n de Preprocesamiento de Datos (`preprocess_data`)

In [14]:
def preprocess_data(x, y, limit):
    """
    Preprocesa los datos de MNIST, transformando las im√°genes y las etiquetas para su uso en la red neuronal.

    Args:
    - x (numpy array): Datos de entrada (im√°genes).
    - y (numpy array): Etiquetas correspondientes (n√∫meros del 0 al 9).
    - limit (int): L√≠mite para el n√∫mero de datos a preprocesar.

    Returns:
    - numpy array: Datos de entrada preprocesados.
    - numpy array: Etiquetas preprocesadas y codificadas.
    """
    # Reorganiza y normaliza los datos de entrada
    x = x.reshape(x.shape[0], 28 * 28, 1)
    x = x.astype("float32") / 255
    # Codifica la salida (n√∫meros del 0 al 9) en un vector de tama√±o 10
    y = np_utils.to_categorical(y)
    y = y.reshape(y.shape[0], 10, 1)
    return x[:limit], y[:limit]


## Carga y Preprocesamiento de Datos MNIST


In [15]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, y_train = preprocess_data(x_train, y_train, 1000)
x_test, y_test = preprocess_data(x_test, y_test, 20)

## Definici√≥n de la Arquitectura de la Red Neuronal

In [16]:
network = [
    Dense(28 * 28, 40),
    Tanh(),
    Dense(40, 10),
    Tanh()
]

## Entrenamiento de la Red Neuronal


In [17]:
train(network, mse, mse_prime, x_train, y_train, epochs=100, learning_rate=0.1)

1/100, error=0.8727098636309831
2/100, error=0.8005264391101434
3/100, error=0.7560818280770303
4/100, error=0.6925861391497522
5/100, error=0.5908179474134135
6/100, error=0.43961604290773637
7/100, error=0.26194002219622825
8/100, error=0.1738515989570927
9/100, error=0.14476697212888012
10/100, error=0.1332438957178444
11/100, error=0.12730190206612657
12/100, error=0.12260658720032985
13/100, error=0.11869035231345593
14/100, error=0.11579003262922616
15/100, error=0.11369414201779399
16/100, error=0.1116697405507871
17/100, error=0.10985325118990776
18/100, error=0.10831724712648368
19/100, error=0.10678412216485142
20/100, error=0.10530855873483609
21/100, error=0.10324705450081957
22/100, error=0.10150586079577471
23/100, error=0.09972885028166886
24/100, error=0.09815220083130037
25/100, error=0.09732193067348896
26/100, error=0.09599288066333622
27/100, error=0.09469321959716677
28/100, error=0.09371754537997211
29/100, error=0.09248000910317403
30/100, error=0.091512839787338

## Prueba de la Red Neuronal

In [18]:
for x, y in zip(x_test, y_test):
    output = predict(network, x)
    print('pred:', np.argmax(output), '\ttrue:', np.argmax(y))

pred: 7 	true: 7
pred: 5 	true: 2
pred: 1 	true: 1
pred: 0 	true: 0
pred: 0 	true: 4
pred: 1 	true: 1
pred: 4 	true: 4
pred: 6 	true: 9
pred: 0 	true: 5
pred: 6 	true: 9
pred: 0 	true: 0
pred: 0 	true: 6
pred: 6 	true: 9
pred: 0 	true: 0
pred: 6 	true: 1
pred: 7 	true: 5
pred: 2 	true: 9
pred: 7 	true: 7
pred: 6 	true: 3
pred: 4 	true: 4


## Conclusiones

En este proyecto, hemos explorado el desarrollo y entrenamiento de una red neuronal convolucional (CNN) para la clasificaci√≥n de d√≠gitos utilizando el conjunto de datos MNIST. A continuaci√≥n, se presentan las principales conclusiones y hallazgos obtenidos:

### Logros

- **Implementaci√≥n Exitosa de la CNN:** Se logr√≥ implementar y entrenar una CNN utilizando la biblioteca Keras sobre TensorFlow. La red neuronal pudo aprender a reconocer los d√≠gitos escritos a mano con una precisi√≥n significativa.

- **Preprocesamiento Eficaz de Datos:** El preprocesamiento de las im√°genes de MNIST, incluyendo la normalizaci√≥n y la codificaci√≥n de las etiquetas, fue crucial para el √©xito del modelo.

- **Aprendizaje Autom√°tico de Representaciones:** La red neuronal pudo aprender representaciones significativas de las im√°genes de d√≠gitos, lo que permiti√≥ una clasificaci√≥n precisa.

### Desaf√≠os y Lecciones Aprendidas

- **Ajuste de Hiperpar√°metros:** La selecci√≥n adecuada de hiperpar√°metros como la tasa de aprendizaje y el n√∫mero de √©pocas de entrenamiento fue crucial y requiri√≥ experimentaci√≥n y ajustes iterativos.

- **Interpretaci√≥n de Resultados:** La evaluaci√≥n del modelo y la interpretaci√≥n de las m√©tricas de rendimiento fueron fundamentales para comprender su eficacia y posibles √°reas de mejora.

### Futuras Direcciones

- **Mejoras en el Modelo:** Se podr√≠an explorar arquitecturas m√°s complejas de CNN, as√≠ como t√©cnicas avanzadas como la regularizaci√≥n y el aumento de datos para mejorar a√∫n m√°s el rendimiento del modelo.

- **Aplicaciones Pr√°cticas:** Este proyecto puede extenderse para aplicaciones pr√°cticas como sistemas de reconocimiento de caracteres en documentos escaneados o aplicaciones de OCR en tiempo real.

En resumen, este proyecto no solo demuestra la aplicaci√≥n efectiva de t√©cnicas de aprendizaje autom√°tico para la clasificaci√≥n de im√°genes, sino que tambi√©n destaca la importancia de la experimentaci√≥n rigurosa y la evaluaci√≥n exhaustiva en el desarrollo de modelos de aprendizaje autom√°tico.