<a href="https://colab.research.google.com/github/msap-uai/PythonDeepLearning/blob/main/Capitulo6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

En los capítulos anteriores hemos avanzado que el aprendizaje en una red neu- 
ronal —que básicamente es un modelo que trata de mapear una entrada (una ima- 
gen de dígito) a una etiqueta (del número correspondiente)— consiste en aprender 
sus parámetros **(pesos y sesgos)** observando muchas muestras y su etiqueta co 
rrespondiente durante el proceso de entrenamiento. 

Recordemos que una capa aplica a sus datos de entrada los pesos y sesgos que tienen almacenados sus neuronas (lo que hemos llamado parámetros de la capa). 

El proceso de aprendizaje consiste, por tanto, en encontrar los valores adecuados de estos parámetros. su valor se va ajustando gradualmente. Por 
tanto, en este contexto, aprender significa encontrar un conjunto de valores para los parámetros de todas las capas en una red, de modo que la red mapee correctamente muestras de entrada a sus etiquetas asociados.

La **función de pérdida** coge las predicciones de la red y el valor verdadero (lo que esperaríamos que la red produjera) de 
la etiqueta y calcula un error cometido en una muestra de entrada específica. Se trata de aprovechar esta medida 
de error cometido como señal de retroalimentación del sistema para ajustar el 
valor de los parámetros

Este ajuste es precisamente el trabajo que realiza el **optimizador**, que implementa esta «retropropagación» de este error para ajustar los pará- 
metros de la forma que hemos dicho.  Este es el ciclo de entrenamiento que, 
repetido un número suficiente de veces, produce valores de peso que minimizan el resultado de la función de pérdida.









Entrenar nuestra red neuronal, es decir, aprender los valores de nuestros pará- 
metros (pesos w y sesgos b) es un proceso iterativo de «ir y venir» por las capas 
de neuronas. A la acción de «ir» propagando hacia adelante la llamaremos forward 
propagation y a la de «venir» retropropagando información en la red la llamaremos 
back propagation.

La primera fase, forward propagation, se da cuando se expone la red a los datos 
de entrenamiento y estos cruzan toda la red neuronal para calcular sus predic- 
ciones o etiquetas (labels en inglés). Es decir, cuando se pasan los datos de en- 
trada a través de la red, de tal manera que todas las neuronas apliquen su transfor- 
mación a la información que reciben de las neuronas de la capa anterior y la envíen 
a las neuronas de la capa siguiente. Cuando los datos hayan cruzado todas las 
capas, y todas sus neuronas hayan realizado sus cálculos, se llegará a la capa final 
con un resultado de predicción de la etiqueta para aquellas muestras de entrada. 
A continuación, usaremos una función de pérdida (loss) para calcular el error de 
estimación, que mide cuán bueno/malo fue nuestro resultado de la predicción en 
relación con el resultado correcto (recordemos que estamos en un entorno de 
aprendizaje supervisado y que disponemos de la etiqueta que nos indica el valor 
esperado). 
Idealmente, queremos que nuestro error calculado sea cero, es decir, sin diver- 
gencia entre lo estimado y lo esperado. Y eso se consigue a medida que se entrena 
el modelo que irá ajustando los pesos de las interconexiones de las neuronas, gra- 
cias a que se propaga hacia atrás la información del error cometido en la esti- 
mación. De ahí su nombre, retropropagación, en inglés backward propagation 


Ahora que ya hemos propagado hacia atrás esta información calculada por la 
función de pérdida, podemos ajustar los pesos de las conexiones entre neuronas. 
Lo que estamos haciendo es que el error calculado se reduzca la próxima vez que 
volvamos a usar la red para una predicción. Para ello usaremos una técnica lla
mada descenso del gradiente (Gradient Descent en inglés), que ajusta 
gradualmente los parámetros del modelo para minimizar la función de coste sobre 
el conjunto de datos entrenamiento.


Recapitulando, el algoritmo de aprendizaje consiste en: 
 
1. Empezar con unos valores (a menudo aleatorios) para los parámetros de la 
red (pesos w j y sesgos b j ). 
2. Coger un conjunto de ejemplos de datos de entrada (lotes) y pasarlos por la 
red para obtener su predicción. 
3. Comparar estas predicciones obtenidas con los valores de etiquetas espe- 
radas y, con ellas, calcular el error cometido mediante la función de pérdida. 
4. Propagar hacia atrás este error para que llegue a todos y cada uno de los 
parámetros que conforman el modelo de la red neuronal. 
5. Usar esta información propagada para actualizar —con el algoritmo des- 
censo del gradiente— los parámetros de la red neuronal, de manera que re- 
duzca el error calculado si lo volvemos a calcular. 
6. Continuar iterando en los anteriores pasos hasta que consideremos que 
tenemos un buen modelo (más adelante veremos cuándo debemos parar).

In [None]:
model.compile(loss='categorical_crossentropy', 
              optimizer='sgd', 
              metrics=['accuracy'])

Se pasan tres argumentos: una función de pérdida (argumento loss), un op- 
timizador (argumento optimizer) y la lista de métricas (argumento metrics), que 
usaremos para la evaluación del modelo. 

Gradient Descent algunas variantes que se usan: 
1. descenso del gradiente en lotes (Bath Gradient Descent en inglés), 
2. descenso del gradiente en minilotes (Mini Bath Gradient Descent en inglés) y 
3. descenso del gradiente estocástico (Stochastic Gradient Descent en inglés).



## OPTIMIZER

Descenso del gradiente es un algoritmo de optimización genérico capaz de encon- 
trar soluciones óptimas a una amplia gama de problemas. La idea general del des 
censo del gradiente es ajustar parámetros de forma iterativa para minimizar una 
función de pérdida. (derivada primera)

El primer caso es el caso del descenso del gradiente estocástico (**SGD** del in- 
glés Stochastic Gradient Descent), cuando se estima el gradiente a partir del error observado para cada muestra del entrenamiento. El término estocástico se refiere al hecho de que cada dato se extrae al azar (estocástico es un sinónimo científico de aleatorio). 

Mientras que el segundo se conoce como descenso del gradiente en lotes (en 
inglés **Batch Gradient Descent**), y se da cuando usamos todo el conjunto de datos 
de entrenamiento en cada paso del algoritmo de optimización, que calcula el error con la función de pérdida. La literatura indica que se pueden obtener mejores resultados con el primer caso. 

una tercera opción, que ajusta los parámetros con un subconjunto de muestras del conjunto de entrenamiento, conocida como descenso del gradiente en minilotes (**Mini Bath Gradient Descent** en inglés). 
Esta opción suele ser mejor que la de descenso del gradiente estocástico y se 
requieren menos cálculos para actualizar los parámetros de la red neuronal.



SGD es muy fácil de implementar en Keras. En el método compile() se indica 
que el optimizador es descenso del gradiente estocástico (valor sgd en el argu- 
mento), y en el método fit() se especifica el tamaño del lote (batch) que cogeremos 
a cada iteración en el argumento batch_size, como se muestra en la siguiente línea 
de código:

**model.fit(X_train, y_train, epochs=5, batch_size=100)** 
 
En este ejemplo de código, estamos dividiendo nuestros datos en lotes de ta- 
maño 100 con el argumento de batch_size. Con el argumento epochs estamos 
indicando cuántas veces realizamos este proceso sobre todos los datos. En futu- 
ros capítulos, cuando ya hayamos presentado los optimizadores, volveremos a ha- 
blar de estos dos argumentos (epochs y batch_size) con más detalle.

 En TensorFlow, con la API de Keras se pueden usar otros optimi- 
zadores, además del SGD ya presentado: RMSprop, AdaGrad, Adadelta, Adam, 
Adamax, Nadam. 

* AdaGrad mejora el algoritmo de descenso del gradiente cuan- 
do tenemos varias dimensiones (el ejemplo visual que hemos considerado solo 
tiene una, pero en realidad hay muchas dimensiones). 
* el algoritmo RMSProp que, excepto en problemas 
muy simples, es un optimizador que casi siempre funciona mucho mejor que Ada- 
Grad. 


In [None]:
from tensorflow.keras.optimizers import RMSprop 
  
my_optimizer = tf.keras.optimizers.RMSprop(0.001)

model.compile(optimizer= my_optimizer, 
              loss='binary_crossentropy', 
              metrics = ['accuracy'])

# LOSS

Una función de pérdida (loss function en inglés) es necesaria para guiar el proceso 
de entrenamiento de la red presentado en la sección anterior, y para cuantificar lo 
cercana que está una determinada red neuronal de su ideal mientras está en el pro- 
ceso de entrenamiento.

la elección de la función 
de pérdida debe coincidir con el problema específico de modelado predictivo—, 
tales como regresión o clasificación,

* **categorical_crossentropy** como función de pérdida, ya que nuestra salida debe ser en formato **categórico**. Y en este caso, además, la salida de la capa final debe pasar a través de una función de activación **softmax** para que cada nodo genere un valor de probabilidad entre 0 y 1.
* sparse_categorical_crossentropy / softmax
* cuando tenemos una tarea de clasificación **binaria**,  una de las funciones de pérdida que se suele usar es **binary_crossentropy**. Si usamos esta función de pérdida, solo necesitamos un nodo de salida para clasificar los datos en dos clases. El valor de salida debe pasar a través de una función de activación **sigmoid**, y el rango de salida debe ser entre 0 y 1.
* Mean Squared Error. Como su nombre indica, esta pérdida se calcula tomando la media de las diferencias al cuadrado entre los valores reales y los pronosticados. 


La elección de la mejor función de pérdida reside en entender qué tipo de error 
es o no es aceptable para el problema en concreto. 