<H1>Marco Teórico: Redes Neuronales Artificiales (ANN) </H1>

#### **1. Introducción a Redes Neuronales Artificiales (ANN)**

Las redes neuronales artificiales (ANN, por sus siglas en inglés) son modelos computacionales que imitan el funcionamiento del cerebro humano para realizar tareas como la clasificación, predicción y reconocimiento de patrones. Están compuestas por múltiples **capas** de **neuronas** conectadas entre sí, donde cada conexión tiene un **peso** y un **sesgo**, y los valores se propagan hacia adelante usando **funciones de activación**. El aprendizaje se realiza mediante el algoritmo de **retropropagación**.

##### **1.1 Capas de una Red Neuronal**
Una red neuronal típica consta de tres tipos de capas:
- **Capa de Entrada:** Recibe las características de entrada $x_1, x_2, \ldots, x_n $.
- **Capas Ocultas:** Transforman las entradas en funciones intermedias.
- **Capa de Salida:** Produce el resultado final $y$.

##### **1.2 Cálculo del Peso, Sesgo y la Salida de una Neurona**

Cada neurona en una red neuronal procesa la información de las neuronas de la capa anterior. Esto se realiza a través de una combinación lineal de las entradas, ponderadas por los **pesos** correspondientes, y sumando un **sesgo**. Posteriormente, esta combinación se pasa a través de una **función de activación** para obtener la **salida** de la neurona.

La salida de una neurona $i$ en una capa $l$ se calcula mediante los siguientes pasos:

1. **Combinación Lineal de las Entradas:**

   
   La combinación lineal de las entradas a una neurona se calcula como:

   $
   z_i^l = \sum_{j=1}^{n} w_{ij}^l x_j^{l-1} + b_i^l
   $

   Donde:
   - $w_{ij}^l$ es el peso de la conexión entre la neurona $j$ de la capa anterior $l-1$ y la neurona $i$ de la capa actual $l$.
   - $b_i^l$ es el sesgo asociado a la neurona $i$ en la capa $l$.
   - $x_j^{l-1}$ es la salida de la neurona $j$ en la capa anterior $l-1$.
   - $z_i^l$ es el valor combinado antes de aplicar la función de activación.

   El peso $w_{ij}^l$ es un valor que indica la **fuerza** o **importancia** de la conexión entre las neuronas $i$ y $j$, mientras que el sesgo $b_i^l$ ayuda a desplazar la salida de la combinación lineal y ajustarla para mejorar el aprendizaje.

3. **Aplicación de la Función de Activación:**
   
   Para que la red neuronal pueda modelar relaciones no lineales, el valor $z_i^l$ se transforma a través de una **función de activación**. Las funciones de activación más comunes incluyen:

   - **Sigmoide:**
   
   $
   \sigma(z) = \frac{1}{1 + e^{-z}}
   $

   Esta función transforma el valor $z$ en un número entre 0 y 1, útil en modelos de clasificación binaria.

   - **ReLU (Rectified Linear Unit):**
   $
   \text{ReLU}(z) = \max(0, z)
   $
   
   Esta función convierte cualquier valor negativo en cero, permitiendo solo pasar valores positivos. Es muy utilizada en redes neuronales profundas debido a su simplicidad y eficiencia en el entrenamiento.

   - **Tangente Hiperbólica (Tanh):**
   $
   \text{tanh}(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}
   $
   
   La tangente hiperbólica transforma $z$ en un valor entre -1 y 1, lo que permite que las salidas estén centradas en torno a cero.

5. **Salida Final de la Neurona:**
   
   La salida de la neurona $i$ en la capa $l$, denotada como $a_i^l$, es simplemente el resultado de aplicar la función de activación al valor combinado $z_i^l$:

   $
   a_i^l = f(z_i^l) = f\left( \sum_{j=1}^{n} w_{ij}^l x_j^{l-1} + b_i^l \right)
   $

   Esta salida se convierte en la entrada para las neuronas de la siguiente capa o, en el caso de la capa de salida, corresponde a la predicción final del modelo.

##### **1.3 Retropropagación**
El algoritmo de retropropagación es el corazón del aprendizaje de una red neuronal, que ajusta los pesos y los sesgos minimizando una función de pérdida. La **función de pérdida** comúnmente usada es el **error cuadrático medio** para problemas de regresión o la **entropía cruzada** para problemas de clasificación.

$
\mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
$

Donde:

- $y_i$ es el valor real.
- $\hat{y}_i$ es el valor predicho.
- $N$ es el número de ejemplos en el conjunto de entrenamiento.

La actualización de los pesos se realiza mediante la **regla de gradiente descendente**:

$
w_{ij}^l \leftarrow w_{ij}^l - \eta \frac{\partial \mathcal{L}}{\partial w_{ij}^l}
$

Donde:
- $\eta$ es la tasa de aprendizaje.
- $\frac{\partial \mathcal{L}}{\partial w_{ij}^l}$ es el gradiente de la pérdida respecto al peso $w_{ij}^l$.

#### **2. Arquitectura de Redes Neuronales Profundas (DNN)**

Las redes neuronales profundas (**DNN**) son una extensión de las redes neuronales que incluyen múltiples **capas ocultas**. Estas capas permiten aprender características jerárquicas de los datos, lo que hace que las DNN sean extremadamente poderosas en tareas complejas.

##### **2.1 Regularización en Redes Neuronales Profundas**
Para evitar el **sobreajuste** en redes neuronales profundas, se utilizan técnicas de regularización como:
- **Regularización $L_2$:** Añade un término de penalización en la función de pérdida para controlar el tamaño de los pesos.
$
\mathcal{L}_{L_2} = \mathcal{L} + \lambda \sum_{i,j} (w_{ij}^2)
$
- **Dropout:** Durante el entrenamiento, se desactivan aleatoriamente neuronas para evitar que la red dependa excesivamente de ciertas neuronas.

#### **3. Implementación de Redes Neuronales Artificiales con TensorFlow y Keras**

**TensorFlow** es una biblioteca de cálculo numérico y machine learning, mientras que **Keras** es una API de alto nivel que facilita la construcción de redes neuronales.

##### **3.1 Proceso de Entrenamiento**
El proceso de entrenamiento de una ANN consiste en los siguientes pasos:
1. Inicializar pesos y sesgos.
2. Propagar las entradas hacia adelante para calcular las predicciones.
3. Calcular la función de pérdida.
4. Propagar hacia atrás el error para ajustar los pesos.
5. Repetir el proceso hasta que se minimice la pérdida.

##### **3.2 Métricas de Evaluación**
Para evaluar el rendimiento de una red neuronal, se utilizan métricas como:
- **Precisión (Accuracy):**
$
\text{Accuracy} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}(\hat{y}_i = y_i)
$
- **Precisión (Precision):**
$
\text{Precision} = \frac{TP}{TP + FP}
$
- **Exhaustividad (Recall):**
$
\text{Recall} = \frac{TP}{TP + FN}
$
- **F1-Score:**
$
F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
$

Donde:
- $TP$ son los verdaderos positivos.
- $FP$ son los falsos positivos.
- $FN$ son los falsos negativos.

##### **3.3 Ajuste de Hiperparámetros**
El ajuste de hiperparámetros incluye:
- **Número de neuronas** en cada capa.
- **Número de capas ocultas.**
- **Tasa de aprendizaje $\eta$.**
- **Número de épocas** de entrenamiento.

El rendimiento final del modelo depende de encontrar los valores óptimos para estos hiperparámetros mediante técnicas como la **búsqueda en cuadrícula** o **optimización bayesiana**.


**Módulo 10: Redes Neuronales Artificiales (ANN)**

**Conceptos clave:**

Introducción a redes neuronales: capas, activaciones y retropropagación.

Arquitectura de redes neuronales profundas.

Implementación de ANN con TensorFlow y Keras.

**Proyecto: Clasificación de imágenes con redes neuronales.**

Utilizar el dataset CIFAR-10 o MNIST para entrenar una red neuronal que clasifique imágenes. Evaluar su rendimiento utilizando técnicas avanzadas.

**1. Instalación de Librerías Necesarias**

Si aún no tienes TensorFlow y Keras instalados, instálalos usando pip:

In [2]:
#!pip install tensorflow

**2. Importación de Datos**

Vamos a usar el dataset MNIST, que está disponible en TensorFlow:

In [1]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist

# Cargar el dataset MNIST
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

2024-09-17 11:25:36.857515: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-09-17 11:25:37.883101: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-09-17 11:25:38.055131: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-09-17 11:25:39.360870: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


**3. Preprocesamiento de Datos**

Escalaremos las imágenes a valores entre 0 y 1 y convertiremos las etiquetas a una representación categórica:

In [3]:
# Normalizar las imágenes a valores entre 0 y 1
train_images = train_images / 255.0
test_images = test_images / 255.0

# Convertir las etiquetas a formato categórico
train_labels = tf.keras.utils.to_categorical(train_labels, 10)
test_labels = tf.keras.utils.to_categorical(test_labels, 10)

**4. Construcción del Modelo ANN**

Aquí construiremos una red neuronal simple con una capa oculta:

El modelo de red neuronal artificial (ANN) es un ejemplo básico de una arquitectura **feedforward** con capas densas totalmente conectadas, diseñada para la clasificación de imágenes en 10 categorías (como el caso de la base de datos MNIST de dígitos escritos a mano). A continuación se presenta el **marco teórico** que sustenta esta arquitectura, acompañado de explicaciones y ecuaciones relacionadas.

**4.1. Estructura General del Modelo**

El modelo consta de tres capas principales:
- **Capa de entrada (Flatten)**: Convierte una imagen de 28x28 píxeles en un vector de 784 elementos.
- **Capa oculta (Dense)**: Tiene 128 neuronas y usa la función de activación **ReLU** (Rectified Linear Unit).
- **Capa de salida (Dense)**: Tiene 10 neuronas, una por cada clase posible, con la función de activación **softmax** para obtener probabilidades de clasificación.

**4.2. Capa de Entrada: `Flatten(input_shape=(28, 28))`**

Esta capa simplemente reorganiza los datos de entrada. La imagen de 28x28 píxeles se convierte en un vector de longitud 784 (28 * 28). No tiene pesos ni funciones de activación.

Sea **X** el tensor de entrada de la red, con una forma (28, 28). Tras la capa de flattening, se convierte en:

$
\mathbf{x} \in \mathbb{R}^{784}
$

Este vector se utiliza como entrada para la capa densa siguiente.

**4.3. Capa Oculta: `Dense(128, activation='relu')`**

Esta es una capa densa con 128 neuronas. Cada neurona está completamente conectada a la entrada (el vector de 784 elementos). La operación básica en una neurona es una combinación lineal de los pesos y el sesgo (bias), seguido de la aplicación de una función de activación no lineal.

La salida de una neurona $ j $ en esta capa oculta se calcula como:

$
z_j = \sum_{i=1}^{784} w_{ji} x_i + b_j
$

Donde:
- $ x_i $ son los valores de entrada (el vector aplanado),
- $w_{ji}$ son los pesos asociados a cada conexión entre la entrada $i$ y la neurona $j$,
- $b_j$ es el sesgo para la neurona $j$,
- $z_j$ es la suma ponderada que llega a la neurona $j$.

**Activación ReLU:**

Después de calcular $z_j$, se aplica la función de activación **ReLU** (Rectified Linear Unit). ReLU se utiliza para introducir no linealidad en la red, lo que permite que la red neuronal aprenda relaciones complejas.

La función **ReLU** se define como:

$
\text{ReLU}(z_j) = \max(0, z_j)
$

Esto significa que:
- Si $ z_j \geq 0 $, entonces $ \text{ReLU}(z_j) = z_j $,
- Si $ z_j < 0 $, entonces $ \text{ReLU}(z_j) = 0 $.

Esta función selecciona el valor máximo entre 0 y el valor de la suma ponderada $z_j$, descartando los valores negativos. Por ejemplo:
- Si $ z_j = -5 $, entonces $ \text{ReLU}(-5) = 0 $.
- Si $ z_j = 3 $, entonces $ \text{ReLU}(3) = 3 $.

Esto permite que las neuronas solo se activen (es decir, transmitan una señal) cuando el valor $z_j$ sea positivo, lo que facilita un entrenamiento eficiente y una propagación adecuada de los gradientes durante la optimización.

**4.4. Capa de Salida: `Dense(10, activation='softmax')`**
Esta es una capa densa con 10 neuronas, una para cada clase. Su objetivo es calcular la probabilidad de que la entrada pertenezca a cada una de las 10 clases. Cada neurona de salida calcula una suma ponderada similar a la capa oculta, pero en lugar de la función ReLU, se utiliza la función de activación **softmax**.

Para la salida $k$, la función **softmax** se define como:

$
\hat{y}_k = \frac{e^{z_k}}{\sum_{j=1}^{10} e^{z_j}}
$

Donde:
- $ \hat{y}_k $ es la probabilidad predicha para la clase $k$,
- $z_k$ es la entrada a la neurona $k$ de la capa de salida (la suma ponderada de la neurona $k$.

La función **softmax** asegura que la salida de la red sea un vector de probabilidades, es decir, los valores estarán entre 0 y 1, y su suma será 1. Esto permite interpretar la salida como las probabilidades de que la entrada pertenezca a cada clase.


In [4]:
# Construir el modelo ANN
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),  # Convertir imágenes 28x28 a un vector de 784 elementos
    tf.keras.layers.Dense(128, activation='relu'),  # Capa oculta con 128 neuronas y activación ReLU
    tf.keras.layers.Dense(10, activation='softmax')  # Capa de salida con 10 neuronas (una por clase) y activación softmax
])

  super().__init__(**kwargs)


**5. Entrenamiento del Modelo**

**5.1. Función de Pérdida: Entropía Cruzada Categórica**

Dado que se trata de un problema de clasificación multiclase, la función de pérdida más común es la **entropía cruzada categórica**, que mide la diferencia entre la distribución de probabilidades verdadera y la distribución predicha por el modelo. 

La entropía cruzada se define como:

$
\mathcal{L} = - \sum_{k=1}^{10} y_k \log(\hat{y}_k)
$

Donde:
- $y_k$ es la etiqueta verdadera para la clase $k$  (1 si es la clase verdadera, 0 en caso contrario),
- $\hat{y}_k$ es la probabilidad predicha para la clase $k$ .

**5.2. Entrenamiento y Optimización**

Durante el entrenamiento, el modelo ajusta los pesos y sesgos mediante un algoritmo de optimización como **gradiente descendente** o variantes como **Adam**. El objetivo es minimizar la función de pérdida ajustando los pesos $w$ y los sesgos $b$.

La actualización de los pesos sigue la dirección del gradiente negativo de la pérdida con respecto a los pesos:

$
w_{ji} \leftarrow w_{ji} - \eta \frac{\partial \mathcal{L}}{\partial w_{ji}}
$

Donde $\eta$ es la tasa de aprendizaje, y $\frac{\partial \mathcal{L}}{\partial w_{ji}}$ es el gradiente de la pérdida con respecto a los pesos.

**Compilaremos y entrenaremos el modelo:**

In [5]:
# Compilar el modelo
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# Entrenar el modelo
history = model.fit(train_images, train_labels, epochs=5, batch_size=32,
                    validation_split=0.2,  # Usar el 20% de los datos de entrenamiento para validación
                    verbose=2)


Epoch 1/5
1500/1500 - 10s - 7ms/step - accuracy: 0.9190 - loss: 0.2866 - val_accuracy: 0.9557 - val_loss: 0.1525
Epoch 2/5
1500/1500 - 7s - 4ms/step - accuracy: 0.9628 - loss: 0.1289 - val_accuracy: 0.9638 - val_loss: 0.1220
Epoch 3/5
1500/1500 - 8s - 5ms/step - accuracy: 0.9743 - loss: 0.0870 - val_accuracy: 0.9712 - val_loss: 0.0989
Epoch 4/5
1500/1500 - 8s - 5ms/step - accuracy: 0.9811 - loss: 0.0644 - val_accuracy: 0.9730 - val_loss: 0.0916
Epoch 5/5
1500/1500 - 6s - 4ms/step - accuracy: 0.9846 - loss: 0.0499 - val_accuracy: 0.9747 - val_loss: 0.0887


**6. Evaluación del Modelo**

Finalmente, evaluaremos el rendimiento del modelo en el conjunto de datos de prueba:

In [6]:
# Evaluar el modelo
test_loss, test_acc = model.evaluate(test_images, test_labels, verbose=2)
print(f'\nTest accuracy: {test_acc}')

313/313 - 1s - 3ms/step - accuracy: 0.9757 - loss: 0.0774

Test accuracy: 0.9757000207901001
