<h1><font color="#113D68" size=6>Deep Learning con Python y Keras</font></h1>

<h1><font color="#113D68" size=5>Parte 4. MLP avanzado</font></h1>

<h1><font color="#113D68" size=4>4. Dropout para reducir el overfitting</font></h1>

<br><br>
<div style="text-align: right">
<font color="#113D68" size=3>Manuel Castillo Cara</font><br>

</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>

* [0. Contexto](#section0)
* [1. Introducción](#section1)
* [2. Regularización por dropout](#section2)
* [3. Dropout en la capa visible](#section3)
* [4. Dropout en capas ocultas](#section4)
* [5. Consejos al utilizar Dropout](#section5)

---
<a id="section0"></a>
# <font color="#004D7F" size=6> 0. Contexto</font>

En esta lección, descubrirá la técnica de regularización de _Dropout_ y cómo aplicarla. Después de completar esta lección, sabrá:
* Cómo funciona la técnica de regularización de _Dropout._
* Cómo utilizar _Dropout_ en sus capas de entrada.
* Cómo utilizar _Dropout_ en sus capas ocultas.

In [None]:
import tensorflow as tf
# Eliminar warning
tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.ERROR)

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section1"></a>
# <font color="#004D7F" size=6>1. Introducción</font>

Dropout es una técnica en la que se ignoran las neuronas seleccionadas al azar durante el entrenamiento. Se eliminan al azar. Esto significa que su contribución a la activación de las neuronas siguientes se elimina temporalmente en el pase hacia adelante y las actualizaciones de peso no se aplican a la neurona en el pase hacia atrás.

Esta dependencia del contexto de una neurona durante el entrenamiento se denomina _coadaptaciones complejas._ Entonces si las neuronas se eliminan aleatoriamente, otras neuronas tendrán que intervenir y manejar la representación requerida para hacer predicciones para las neuronas faltantes.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre el artículo [Dropout: A Simple Way to Prevent Neural Networks from Overfitting](https://jmlr.org/papers/v15/srivastava14a.html)

---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section2"></a>
# <font color="#004D7F" size=6>2. Regularización por Dropout</font>

_Dropout_ se implementa fácilmente seleccionando aleatoriamente los nodos que se eliminarán con una probabilidad determinada (por ejemplo, 20%) en cada ciclo de actualización de peso.

Los ejemplos utilizarán el conjunto de datos de clasificación binaria del conjunto de datos de Sonar.

El modelo de red neuronal de línea de base tiene:
1. Dos capas ocultas, la primera con 60 neuronas y la segunda con 30.
2. Gradiente Descendiente Estocástico se utiliza para el entrenamiento con una tasa de aprendizaje y _momentum_ relativamente bajos.

Veamos los resultados de linea base sin _Dropout._

In [None]:
# Baseline Model on the Sonar Dataset
import pandas as pd
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import LabelEncoder
from keras.optimizers import SGD
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler,labelEncoder
from sklearn.pipeline import Pipeline

# load dataset
dataframe = pd.read_csv("sonar.csv", header=None)
df_values = dataframe.values
# split into input (X) and output (Y) variables
X = dataset[:,0:60].astype(float)
Y = dataset[:,60]

# encode class values as integers
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)

# baseline
def baseline_model():
    # create model
    model = Sequential()
    model.add(Dense(60, input_dim=60, activation='relu'))
    model.add(Dense(30, activation='relu'))
    sgd=SGD(lr=0.01,momentum=0.8)
    model.compile(loss='binary_crossentropy', optimizer=sgd, metrics=['accuracy'])
    return model
# Results
estimator= []
estimator.append ("estandarize", StandardScaler())
estimator.append("MLP",KerasClassifier(build_fn=baseline_model, epochs=300, batch_size=16, verbose=0))
pipeline=Pipeline(estimator)
kfold=StratifiedKFold(n_splits=10, shuffle=True)
results=cross_val_score(pipeline, X, encoded_Y, cv=kfold)
print("Baseline: %.2f%% (%.2f%%)" % (results.mean()*100, results.std()*100))

Baseline: 86.48% (5.39%)


---
<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<a id="section3"></a>
# <font color="#004D7F" size=6>3. Dropout en la capa visible</font>

_Dropout_ se puede aplicar a las neuronas de entrada. En el siguiente ejemplo:

1. Agregamos una nueva capa de exclusión entre la entrada (o capa visible) y la primera capa oculta.
2. La tasa de _Dropout_ se establece en 20%, i.e., una de cada cinco entradas se excluirá al azar.
3. Se impone una restricción en los pesos para cada capa oculta con la norma máxima de los pesos para que no exceda de 3.
    * Esto se hace estableciendo el argumento de `kernel_constraint` en el clase `Dense` al construir las capas.
4. Aumentamos la tasa de aprendizaje y momentum.

Vemoas el código

In [None]:
# Example of Dropout on the Sonar Dataset: Visible Layer
import pandas as pd
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.layers import Dropout
from tensorflow.keras.wrappers.scikit_learn import KerasClassifier

# load dataset
dataframe = pd.read_csv("sonar.csv", header=None)
dataset = dataframe.values

# split into input (X) and output (Y) variables
X = dataset[:,0:60].astype(float)
Y = dataset[:,60]

# encode class values as integers
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)

# dropout in the input layer with weight constraint
def create_model():
    # create model
    model = Sequential()
    model.add(Dropout(0.2, input_shape=(60,)))
    model.add(Dense(60, activation='relu', kernel_constraint=maxnorm(3)))
    model.add(Dense(30, activation='relu', kernel_constraint=maxnorm(3)))
    model.add(Dense(1, activation='sigmoid'))
    # Compile model
    sgd = SGD(lr=0.1, momentum=0.9)
    model.compile(loss='binary_crossentropy', optimizer=sgd, metrics=['accuracy'])
    return model

#Results
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('mlp', KerasClassifier(build_fn=create_model, epochs=300, batch_size=16, verbose=0)))
pipeline = Pipeline(estimators)
kfold = StratifiedKFold(n_splits=10, shuffle=True)
results = cross_val_score(pipeline, X, encoded_Y, cv=kfold)
print("Visible: %.2f%% (%.2f%%)" % (results.mean()*100, results.std()*100))


Visible: 86.57% (8.45%)


<a id="section4"></a>
# <font color="#004D7F" size=6>4. Dropout en capas ocultas</font>

_Dropout_ se aplica también a las capas ocultas. En el siguiente ejemplo:

1. _Dropout_ se aplica entre las dos capas ocultas y entre la última capa oculta y la capa de salida.
2. Nuevamente, se usa una tasa de _Dropout_ del 20%.

In [None]:
# Example of Dropout on the Sonar Dataset: Hidden Layer
import pandas as pd
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.layers import Dropout
from tensorflow.keras.wrappers.scikit_learn import KerasClassifier
from tensorflow.keras.constraints import max_norm

# load dataset
dataframe = pd.read_csv("sonar.csv", header=None)
dataset = dataframe.values

# split into input (X) and output (Y) variables
X = dataset[:,0:60].astype(float)
Y = dataset[:,60]

# encode class values as integers
encoder = LabelEncoder()
encoder.fit(Y)
encoded_Y = encoder.transform(Y)

# dropout in hidden layers with weight constraint
def create_model():
    # create model
    model = Sequential()
    model.add(Dense(60, input_dim=60, activation='relu', kernel_constraint=maxnorm(3)))
    model.add(Dropout(0.2))
    model.add(Dense(30, activation='relu', kernel_constraint=maxnorm(3)))
    model.add(Dropout(0.2))
    model.add(Dense(1, activation='sigmoid'))
    # Compile model
    sgd = SGD(lr=0.1, momentum=0.9)
    model.compile(loss='binary_crossentropy', optimizer=sgd, metrics=['accuracy'])
    return model

# Results
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('mlp', KerasClassifier(build_fn=create_model, epochs=300, batch_size=16, verbose=0)))
pipeline = Pipeline(estimators)
kfold = StratifiedKFold(n_splits=10, shuffle=True)
results = cross_val_score(pipeline, X, encoded_Y, cv=kfold)
print("Hidden: %.2f%% (%.2f%%)" % (results.mean()*100, results.std()*100))



Hidden: 84.14% (5.63%)


<a id="section5"></a>
# <font color="#004D7F" size=6>5. Consejos al utilizar Dropout</font>

El documento original sobre _Dropout_ proporciona resultados experimentales sobre un conjunto de problemas estándar de Machine Learning. Como resultado, proporcionan una serie de heurísticas útiles a considerar cuando se usa la deserción en la práctica:
* Por lo general, utilice un pequeño valor de _Dropout_ del 20% al 20%-50% como punto de partida.
* Utilizar una red más grande.
* Utilizar _Dropout_ en la entrada (capa visible) y capas ocultas.
* Utilizar una gran tasa de aprendizaje y un gran momentum.
* Restrinja el tamaño de los pesos de la red. Una gran tasa de aprendizaje puede resultar en pesos de red muy grandes.

<div style="text-align: right"> <font size=5> <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a></font></div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>