### **Redes Neuronales** ###

Una Red Neuronal Profunda es una representación de datos en Capas. El término "profunda" hace referencia a la existencia de multiples Capas. Los datos de entrada se transforman en cada capa con el objetivo de aprender más sobre los mismos. El objetivo es predecir un resultado a partir de una serie de datos de entrada.

Cada capa está compuesta por N neuronas conectadas con las capas previos y posteriores. Cada conexión entre neuronas se define por su **Peso** (ajustan la influencia de las entradas). Cada capa también puede tener un **Sesgo** (permiten ajustar la salida de una neurona independientemente de las entradas). Los sesgos permiten que la neurona tenga cierto nivel de activación incluso cuando todas las entradas son cero. Los sesgos son esenciales para que las redes neuronales puedan aprender patrones más complejos y realizar tareas específicas.

Los datos comienzan en la **Capa de Entrada** y se transforman durante su paso por las **Capas Ocultas**, hasta llegar a la predicción en la **Capa de Salida**. El dato en cada neurona se define del siguiente modo (Suma con Pesos):

$Y = (\sum_{i = 0}^{n} w_{i}x_{i}) + b$ 

* w: peso de la conexión
* x: valor de la neurona
* b: sesgo de la capa (es una constante)
* n: número de conexiones
* Y: valor de salida de la neurona

Para completar la ecuación, hay que incluir la **Función de Activación** F(x). Se aplica a la ecuación previa para añadir complejidad y dimensionalidad a la Red Neuronal. La ecuación resultante sería:

$Y = F((\sum_{i = 0}^{n} w_{i}x_{i}) + b)$ 

**Función de Activación:**

La función de activación en una red neuronal es una función matemática aplicada a la salida de cada neurona, que determina si y en qué medida esa neurona debe activarse o no. En otras palabras, la función de activación introduce no linealidades en la red, permitiendo que la red aprenda patrones y relaciones más complejas en los datos. Algunas de las funciones de activación más comunes incluyen:

* Función Sigmoide (Sigmoid): Esta función transforma sus entradas en el rango de 0 a 1, lo que la hace útil en problemas de clasificación binaria.

<img src="..\..\Imágenes\Función de Activación - Sigmoide.png" width="300"/>

* Función Tangente Hiperbólica (Tanh): Similar a la función sigmoide, pero mapea las entradas al rango de -1 a 1, lo que puede ser útil para problemas de clasificación y regresión.

<img src="..\..\Imágenes\Función de Activación - Tangente Hiperbólica.png" width="325"/>

* Rectified Linear Unit (ReLU): Esta función asigna cero a todas las entradas negativas y deja inalteradas las entradas positivas. Es ampliamente utilizada y ha demostrado ser efectiva en muchos casos.

<img src="..\..\Imágenes\Función de Activación - Rectified Linear Unit.png" width="315"/>

* Leaky Rectified Linear Unit (Leaky ReLU): Es similar a ReLU, pero permite que las entradas negativas tengan un pequeño valor lineal en lugar de ser cero. Esto puede ayudar a mitigar algunos problemas asociados con ReLU.

<img src="..\..\Imágenes\Función de Activación - Leaky Rectified Linear Unit.png" width="400"/>

* Unidad Lineal Rectificada (Linear Rectified Unit - ReLU): Similar a la función ReLU, pero sin truncar las entradas negativas a cero. Aunque puede causar problemas con el desvanecimiento del gradiente, se utiliza en ciertos contextos.a cero. Aunque puede causar problemas con el desvanecimiento del gradiente, se utiliza en ciertos contextos.

**Datos:**

Los datos procesados por una Red Neuronal puede variar según el problema a solventar. Al contruir una Red Neuronal, definimos el tamaño y el tipo de dato que puede aceptar:

* Vectores
* Series Temporales o Secuencias
* Imágenes
* Vídeos

**Capas:**

* Capa de Entrada: Recoge los datos de entrada.
* Capa de Salida: Aporta los datos resultantes.
* Capas Ocultas: Son las capas intermedias. No podemos observarlas. 

**Neuronas:**

Cada neurona es responsable de Generar/Contener/Trasladar un valor numérico al siguiente nivel.

**Retropropagación:**

Es el algoritmo utilizado para entrenar la red neuronal mediante la optimización de sus Pesos y Sesgos. Durante la retropropagación, se calculan los gradientes de la función de pérdida con respecto a los pesos y sesgos de la red.

* **Función de Pérdida**(Loss Function): Es la manera en la que evaluamos la bondad del modelo. En los datos de entrenamiento, disponemos de las características (datos de entrada) y las etiquetas (resultados esperados). Por tanto, podemos comparar los datos resultantes del modelo con los resultados esperados. Basándonos en la diferencia entre ambos, podemos determinar si nuestra Red hace o no un buen trabajo. En base a la respuesta, decidiremos que cambios es necesario realizar a los Pesos y Sesgos. Hay varios tipos de Función de Coste, por ejemplo:

    * Error Cuadrático Medio (Mean Squared Error)
    * Error Absoluto Medio (Mean Absolute Error)
    * Pérdida Bisagra (Hinge Loss)

* **Pesos** (Weights): Representan la fuerza de las conexiones entre las neuronas. La retropropagación ajusta estos pesos para minimizar la diferencia entre las salidas predichas y las salidas reales.

* **Sesgos** (Biases): Son parámetros adicionales que se suman a la salida de cada neurona. Los sesgos permiten a la red aprender patrones incluso cuando todas las entradas son cero. Durante la retropropagación, los gradientes con respecto a los sesgos también se calculan y se utilizan para ajustarlos de manera que la red mejore su rendimiento en la tarea específica.

**[Optimizador](https://towardsdatascience.com/optimizers-for-training-neural-network-59450d71caf6):**

Algoritmo de optimización utilizado para ajustar los pesos y sesgos de una red neuronal durante el proceso de entrenamiento. Los más comunes:

* Descenso de Gradiente: Se calcula el gradiente de la función de pérdida con respecto a los pesos de la red. El gradiente indica la dirección en la cual la función de pérdida crece más rápidamente. El objetivo del Descenso del Gradiente es ajustar iterativamente los pesos en la dirección opuesta al gradiente, de manera que la función de pérdida se minimice.
* Descenso del Gradiente Estocástico
* Descenso del Gradiente por Mini-Batches
* Momentum
* Gradiente Acelerado de Nesterov

## **[Creación de una Red Neuronal](https://www.tensorflow.org/tutorials/keras/classification):** ##

**Módulos:**

In [1]:
import tensorflow as tf
from tensorflow import keras

## Librerías de ayuda
import numpy as np
import matplotlib.pyplot as plt

**Dataset:**

Vamos a utilizar un Dataset llamado MNIST Fashion (incluido en el módulo keras). Éste contiene 60.000 imágenes para entrenamiento y 10.000 imágenes para validación, divididas en 10 categorías. Por defecto, Keras realiza la descarga en la ubicación "C:\Users\Jairo\.keras\datasets\fashion-mnist".

In [None]:
fashion_mnist = keras.datasets.fashion_mnist                                         # Cargamos el Dataset Fashion Mnist
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data() # Separar entre Entrenamiento y Validación

In [None]:
print(train_images.shape)
print(type(train_images))
train_images[0, 23, 23]

Por tanto, disponemos de 60.000 imágenes para entrenar nuestra Red Neuronal. Cada imagen está compuesta por 28x28 pixels (784). Accedemos al pixel de la imagen 0 fila 23 y columna 23 y nos devuelve su color (valor numérico entre 0 -negor- y 255 -blanco-

In [None]:
print(train_labels[:10]) # Devuelve 10 etiquetas (resultados)

Las categorías de clasificación son:
* 0 T-shirt/top | 1 Trouser | 2 Pullover | 3 Dress | 4 Coat | 5 Sandal
* 6 Shirt       | 7 Sneaker | 8 Bag      | 9 Ankle boot

In [None]:
class_names = ["T-shirt/top", "Trouser", "Pullover", "Dress", "Coat", "Sandal", "Shirt", "Sneaker", "Bag", "Ankle boot"]

Así se vería una de las imágenes con las que trabajamos

In [None]:
plt.figure()                # Cremos una figura
plt.imshow(train_images[1]) # Indicamos la imagen a mostrar
plt.colorbar()              # Incluimos la barra de color
plt.grid(False)             # Indicamos que no queremos Cuadrícula
plt.show()                  # Mostramos la imagen

**Preprocesamiento de Datos:**

El último paso antes de crear nuestro modelo, es preprocesar los datos. Es necesario aplicar algunas transformaciones a nuestros datos antes de pasárselos al modelo. En este caso, vamos a combertir el color de cada pixel de un valor entre 0 y 255 a un valor entre 0 y 1 (dividiendo cada valor por 255). Valores más pequeños facilitarán al modelo el tratamiento de los mismos.

In [None]:
train_images = train_images / 255.0
test_images = test_images / 255.0

**Construcción del Modelo:**

Vamos a utilizar un modelo secuencial de Keras con tres capas. Este modelo representa una Red Neuronal de Propagación Directa (Feed Forward Neural Network).

In [None]:
model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),  # Capa de Entrada: Pasamos de una matriz 28x28 a un vector de 784 nueronas (cada pixel queda asociado a una neurona)
    keras.layers.Dense(128, activation="relu"),  # Capa Oculta: 128 neuronas (cada neurona de la capa anterior está conectada con todas las neuronas de esta capa)
    keras.layers.Dense(10, activation="softmax") # Capa de Salida: 10 neuronas (cada neurona de la capa anterior está conectada con todas las neuronas de esta capa)
])

**Compilar el Modelo:**

Hay que definir la Función de Pérdida (Loss Function), el optimizador a utilizar y las métricas a las cuales queremos hacer el seguimiento.

In [None]:
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

**Entrenamiento del Modelo:**

In [None]:
model.fit(train_images, train_labels, epochs=5)

**Evaluación del Modelo:**

El parámetro verbose indica (0 --> Oculto, 1 --> Barra de progreso).

In [None]:
test_loss, test_acc = model.evaluate(test_images, test_labels, verbose=1)
print('Test accuracy: ', test_acc)

El dato de Exactitud (Accuracy) obtenido durante el proceso de entrenamiento es mayor que el obtenido durante el proceso de evaluación. Esto ocurre por lo que llamamos "Overfitting" (el modelo ha visto muchas veces los datos de entrada y los ha memorizado; por tanto, no funcionará tan bien con datos que se alejen de aquellos utilizados durante el proceso de entrenamiento). En este caso concreto, se obtendría un mejor resultado con 1 época que con 10.

**Hacer Predicciones:**

In [None]:
predictions = model.predict(test_images)
print(class_names[np.argmax(predictions[0])]) # La predicción indica que es la clase 9 (Ankle boot)
plt.figure()                # Cremos una figura
plt.imshow(test_images[0])  # Indicamos la imagen a mostrar
plt.colorbar()              # Incluimos la barra de color
plt.grid(False)             # Indicamos que no queremos Cuadrícula
plt.show()                  # Mostramos la imagen