# **14. Cómo es el entrenamiento de las Redes Neuronales**

Esta clase se enfocará en cómo entrenar Redes Neuronales, que significa aprender el procedimiento para asegurarse que las Redes Neuronales se están ejecutan lo mejor posible. En esta clase abarcaremos 3 pasos:    
1.  **Escoger la arquitectura**: Vamos a aprender sobre el tipo de Redes Neuronales más apropiadas para resolver diferentes tipos de problemas.
2.  **La receta del entrenamiento**: El proceso que las Redes Neuronales hacen para ser capaces de entregar una predicción y actualizarse para ser un modelo apropiado.
3.  **Ajustar la tasa de entrenamiento**: Porque las Redes Neuronales son a menudo extremadamente complejas y cuentan con muchos parámetros diferentes. Hay cosas finas que debes vigilar para asegurarte de que estos modelos se están entrenando adecuadamente.
  
Vamos a dar un vistazo a la arquitectura, hay varios tipos de Redes Neuronales, hay 3 comunes y de las que vamos a hablar:
1. **Deep Feed-Forward (DNNs) Redes Profundas de Avance**
2. **Convolutional(CNNs) Covolucional**
3. **Recurrent(RNNs) Recurrentes**

![image.png](attachment:image.png)

Vamos a hablar sobre que hace cada una de ellas y para que operaciones especificas son, es decir que tipos de problemas resuelven. 

## **Deep Feed-Forward (DNNs)**
![image.png](attachment:image.png)

Este es el ejemplo del que hablamos anteriormente en una clase. Estas utilizan funciones de activación que hemos visto antes y ellas son muy buenas resolviendo funciones no lineales complejas. 

Así que no necesariamente obedecen una función lineal que vimos en el caso de Aprendizaje Supervisado.

## **Convolutional (CNNs)**
![image.png](attachment:image.png)

Hay otro tipo de Red Neuronal que utiliza el **Operado Convolucional** y de ahí viene su nombre. También mecanismos **pool (de agrupación)**.

Estos operadores son muy útiles para tratar de predecir cosas en las que quieres captar motivos y la escala. Por ejemplo, imágenes y problemas de tipo genómico.

## **Recurrent (RNNs)**

![image.png](attachment:image.png)

Por último, vamos a hablar de las redes neuronales recurrentes.

El objetivo de una red neuronal recurrente es utilizar una idea de memoria o células de compuerta; neuronas que son capaces de recordar una serie larga o una secuencia larga.

Son muy buenas para la información del lenguaje, por ejemplo, donde cada palabra es una secuencia larga de información en la que puede ser necesario recordar las interacciones que se produjeron desde el principio hasta el final de una frase.

Por eso, las redes neuronales recurrentes se utilizan a menudo para entrenar modelos lingüísticos.

> #### Ahora, una vez que hemos elegido nuestra arquitectura de interés, necesitaremos saber cuál es la receta de entrenamiento.

## **Receta de entrenamiento**
![image.png](attachment:image.png)

Por suerte la receta de entrenamiento es similar a la mayoría de las redes neuronales.

Una vez que preparamos nuestros datos, cosa que ya hemos visto antes, e inicializamos nuestros pesos, tenemos **un proceso en tres pasos** muy similar al que discutimos antes, *la regla de decisión*,  y finalmente una* regla de actualización*. 

En el caso de una red neuronal, **la regla de decisión** es más o menos un cálculo de avance, es decir, se parte de la entrada y llegas hasta la capa de salida, **la función de pérdida de error**, que discutiremos en breve, mide lo bien que nuestra Red Neuronal fue capaz de predecir un valor dado un valor de base o el valor real en nuestro dataset de entrenamiento. Tal como las redes neuronales a menudo operan de una manera supervisada.

Y por último, está el **paso de propagación hacia atrás**, **que es la regla de actualización real** de las redes neuronales, que nos ayudará a ajustar los pesos de nuestras redes neuronales para poder tener la mejor predicción posible.


Ahora, en este posible criterio, pensamos en dos formas de mejorar nuestras redes neuronales.

Una es preguntar específicamente si nuestra pérdida está cambiando. Nuestra pérdida es una forma de decir lo bien que nuestras predicciones coinciden con lo que esperamos del valor real. Y a medida que la pérdida se hace más y más pequeña, imaginamos que nuestro modelo está entrenando cada vez mejor. 

Sin embargo, a menudo, como vamos a descubrir un poco más tarde, las redes neuronales pueden a veces sobreadaptarse, lo que significa que han aprendido las reglas de forma demasiado específica para los datos de entrenamiento. Entonces el uso de un conjunto de datos de validación es muy importante.

Y así, al **comprobar el rendimiento**, cualquiera que sea tu métrica en los datos de validación, también puedes ver si la pérdida y el rendimiento de la red neuronal realmente se generaliza a los principios que querías aprender. 

Así que si ese es el caso y encuentras un buen valor para eso, puedes terminar este procedimiento y evaluar en su conjunto de prueba esperando que obtengas un buen resultado.

Vamos a profundizar en estos tres procesos. Primero, comenzando con el feed forward

## **Feed Foward**
![image.png](attachment:image.png)

En este ejemplo, simplemente estamos utilizando **funciones de activación lineal** y el objetivo es tomar una capa de entrada y llegar hasta la capa de salida.

Lo siguiente, evaluamos cada paso, solo hay **una capa oculta**, pero **2 neuronas ocultas**. Así evaluamos las dos neuronas ocultas, lo ponemos en la capa de salida y evaluamos el valor de la predicción.

## **Lost function**
![image.png](attachment:image.png)

A continuación, queremos abordar la **función de pérdida**. Y por suerte, en las clases anteriores
hemos aprendido sobre enfoques supervisados de diferentes pérdidas de regresión y clasificación.

Resulta que en las redes neuronales, estas pérdidas son en realidad bastante parecidas.

Por ejemplo, para la **regresión**, podríamos utilizar **la pérdida de error cuadrático medio**, que es la diferencia entre el valor objetivo frente al valor predicho esperado que se obtendría de las redes neuronales al cuadrado y sumado. 

![image.png](attachment:image.png)

Para la **clasificación**, se puede utilizar algo muy similar a **la función de regresión logística**. Esto se llama **pérdida de entropía cruzada binaria (Binary Cross-Entropy BCE)**.

Y, por supuesto, esto también se puede generalizar a la **clasificación de tipo multi-categórica** a través de las **pérdidas categóricas de entropía cruzada**.

![image.png](attachment:image.png)

La diferencia clave aquí es que para cada **etiqueta diferente** se pueda tener su prueba para ver cómo se apila la probabilidad de predecir la etiqueta correcta.


> #### Una vez que hemos escogido nuestra función de pérdida apropiada para la pregunta y la tarea de interés, tendremos finalmente el paso de propagación hacia atrás.

## **Backpropagation**

![image.png](attachment:image.png)

En términos muy simples, **el paso de propagación hacia atrás** comienza desde la capa de salida y evalúa los pesos en sentido inverso, es decir, comienza con la capa oculta más cercana a la salida y vuelve a la capa de entrada.

>El objetivo del **backpropagation**

El objetivo del **backpropagation** 

![image.png](attachment:image.png)

Es utilizar algo llamado **derivada parcial**, que efectivamente utiliza la **regla de la cadena** para evaluar cuánto debe cambiar el peso. El objetivo tiene que ver con cuánto cambiará la salida con un pequeño cambio en la actualización de un peso en particular. Y con ese principio se puede preguntar cuánto hay que cambiar cada peso en los muchos pesos de su red neuronal. 

Ahora que hemos hablado un poco sobre **backpropagation**, resulta que cuando tienes muchos, muchos tipos diferentes de pesos, se vuelve muy difícil de optimizar.

![image-2.png](attachment:image-2.png)

Así que en la figura que ves estás viendo diferentes tipos de optimizadores que suelen utilizarse en las redes neuronales y la forma en que los enfoques complejos funcionan para alcanzar el punto de la meta, que es la verdadera solución o la mejor solución, **la estrella gris**. 

Como puedes ver estos comportamientos son muy diferentes. Así puedes asegurarte de que estás aprendiendo o de que la forma en que tu modelo actualiza los pesos es la adecuada.

A menudo tendrás que ajustar algo llamado tasa de aprendizaje.

Ahora hay dos cuestiones con la tasa de aprendizaje y tienes que probar para ver lo que funciona mejor para tu red neuronal. 

- **Si la tasa de aprendizaje es demasiado pequeña**, a menudo se tiene una regla de actualización muy lenta y por lo tanto toma mucho tiempo antes de que tu modelo sea capaz de hacer buenas predicciones.

- **Si tu tasa de aprendizaje es demasiado grande**, podría tener problemas con la estabilidad numérica, por lo que se hace muy difícil tener un modelo que se comporte bien y que realice predicciones adecuada.  

Ahora, en el siguiente conjunto de clases, vamos a evaluar cómo asegurarnos de que nuestras redes neuronales están teniendo un buen desempeño y de que al hacer una predicción, podemos sentirnos
confiados en las decisiones que toma la red interna.
