<a href="https://colab.research.google.com/github/jeffheaton/t81_558_deep_learning/blob/master/t81_558_class_05_4_dropout.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Métodos de prevención de over-fitting

## Regularizaciones L1 y L2

* Estas regularizaciones buscan que los pesos de la red neuronal se mantengan lo más bajos posible.

* Las regularizaciones L1 and L2 son técnicas comúnmente utilizadas para reducir el sobre-ajuste [[Cite:ng2004feature]](http://cseweb.ucsd.edu/~elkan/254spring05/Hammon.pdf).

* Estas técnicas pueden trabajar tanto en la función objetivo como una parte del algoritmo de propagación hacia atrás.

* Estos algoritmos funcionan mediante la adición de un peso de penalización que incentiva a la red neuronal a mantener sus pesos en valores pequeños.

* Regularizaciones L1 y L2 calculan esta penalización de forma distinta.

**Figure 5.L1L2: L1 vs L2**
![L1 vs L2](https://raw.githubusercontent.com/jeffheaton/t81_558_deep_learning/master/images/class_9_l1_l2.png "L1 vs L2")

* Como pueden observar, L1 es más tolerante a pesos lejanos de cero, mientras que L2 es menos tolerante.

* Keras permita añadir [penalizaciones L1/L2 directamente en tu modelo](http://tensorlayer.readthedocs.io/en/stable/modules/cost.html).



In [3]:
import tensorflow as tf
from tensorflow import keras

model = keras.models.Sequential([
  keras.layers.Dense(4, activation=tf.nn.relu, input_shape=(4,), kernel_regularizer=keras.regularizers.l1(l1=0.1)),
  keras.layers.Dense(4, activation=tf.nn.relu, kernel_regularizer=keras.regularizers.l2(l2=0.1)),
  keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


## Capa de Dropout

* Introducida por Hinton, Srivastava, Krizhevsky, Sutskever, & Salakhutdinov (2012) [[Cite:srivastava2014dropout]](http://www.jmlr.org/papers/volume15/nandan14a/nandan14a.pdf) con el fin de evitar el sobre-ajuste del modelo a  los datos de entrenamiento.

* El algoritmo de Dropout logra esto mediante la remoción de neuronas y conexiones de forma temporal y aleatoria.
  * A diferencia de las regularizaciones L1 y L2, no se añaden penalidades ni pesos adicionales. .

* El Dropout provoca que las neuronas escondidas de una red neuronal estén temporalmente no disponibles durante parte del entrenamiento.
  * "Botar" parte de la red neuronal hace que la porción restante del modelo tenga que lidiar con el problema e intentar obtener un buen desempeño a pesar de los pesos dejados de lado.
  * Esta técnica reduce la co-adaptación entre neuronas, lo que resulta en un menor sobre-ajuste overfitting.

* La mayoría de las redes neuronales implementan el Dropout como una capa separada.

**Figure 5.DROPOUT: Dropout Regularization**
![Dropout Regularization](https://raw.githubusercontent.com/jeffheaton/t81_558_deep_learning/master/images/class_9_dropout.png "Dropout Regularization")

* Durante el entrenamiento, el modelo elige aleatoriamente diferentes sets de neuronas a apagar con una probabilidad especifica. Por ejemplo, puedo determinar que el 50% de los pesos de una capa se apaguen aleatoriamente.

* La siguiente animación muestra como funciona el Dropout: [animation link](https://yusugomori.com/projects/deep-learning/dropout-relu)

In [5]:
model2 = keras.models.Sequential([
  keras.layers.Dense(4, activation=tf.nn.relu, input_shape=(4,), kernel_regularizer=keras.regularizers.l1(l1=0.1)),
  keras.layers.Dropout(rate=0.8),
  keras.layers.Dense(4, activation=tf.nn.relu, kernel_regularizer=keras.regularizers.l2(l2=0.1)),
  keras.layers.Dropout(rate=0.5),
  keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

model2.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)
