# Under and Over Fitting

El principal problema del _machine learning_ es el trade off entre la optimización y generalización de los modelos.

La optimización es el proceso de ajustar un modelo para conseguir el mejor rendimiento posible con datos de entrenamiento.

La generalización es el rendimiento del modelo entrenado con datos que nunca ha visto.

El objetivo es conseguir un modelo óptimo con los datos de entrenamiento y, a su vez, que aporte una buena generalización a datos nuevos.

Hay una correlación entre la optimización y la generalización, cuando más bajo es la perdida en los datos de entrenamiento, más bajo será en la prueba. En este caso se dice que el modelo esta sub ajustado (_underfitting_).

Luego de varias iteraciones se puede mejorar la perdida en los datos de entrenamiento, pero hay un punto dado en que los datos de prueba dejan de mejorar y la metrica de desempeño empieza a disminuir, en este caso el modelo esta sobre ajustado (_overfitting_). Esto quiere decir que el modelo ha empezado a aprender patrones especificos de los datos entrenamiento, pero son engañosos o irrelevantes para los datos nuevos. En este caso, la mejor solución es conseguir más datos de entrenamiento. Un modelo con más datos generaliza mejor. Cuando no es posible, la siguiente mejor solución consiste en limitar los patrones que puede aprender.

## Reducir el tamaño de la red

La forma mas sencilla de evitar el sobreajuste es reducir el tamaño del modelo: el número de parámetros aprendibles del mismo (dado el número de capas y unidades por capa).

El número de parámetros aprendibles de un modelo suele recibir el nombre de "capacidad" del modelo, un modelo con más parámetros tiene más capacidad de memorizar.

Se debe encontrar un balance en la cantidad de parámetros del modelo para no caer ni en _underfitting_ ni en _overfitting_.

En general se comienza con un modelo con pocas capas y parámetros, y se aumenta el tamaño de las capas o se añaden nuevas capas hasta que vemos disminuir las metricas de evaluación.

## Añadir regularizadores de peso

Los modelos más sencillos suelen tener menos probabilidades de sobre ajuste que los modelos complejos.

En este contexto, un modelo sencillo es aquel que la distribución de los valores de parámetros tienen menos entropía.

Así pues, una forma habitual de mitigar el sobre ajuste es limitar la complejidad de la red forzando sus pesos a tomar solo valores pequeños, generando una distribución de pesos más regulares. 

Esto se logra añadiendo a la función de perdida de la red un coste asociado a tener pesos grandes.

En Keras, la regularización de pesos se añade como instancias regularizadoras de pesos a las capas como argumento.

In [None]:
from keras import regularizers

model = models.Sequential()
model.add(layers.Dense(16,
                       kernel_regularizer=regularizers.l2(0.001),
                       activation='relu',
                       input_shape=(10000,)))
model.add(layers.Dense(16,
                       kernel_regularizer=regularizers.l2(0.001),
                       activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

l2(0.001) significa que cada coeficiente de la matriz de peso de la capa sumará 0.001 * _weight_coefficient_value_ a la perdida total de la red. Observe que, como se esta penalizando solo se añade durante el entrenamiento, la perdida de esta función será mucho más alta en el entrenamiento que en la prueba.

Esto permite hacer más resistente al sobre ajuste.

Existen dos tipos de regularizadores: L1 y L2, y se pueden ocupar de la siguiente manera:

In [None]:
from keras import regularizers

regularizers.l1(0.001)
regularizers.l2(0.001)
regularizers.l1_l2(l1=0.001, l2=0.001)

## Añadir dropout

Es una de las técnicas de regularización más efectivas y más utilizadas para redes neuronales.

Aplicarla a una capa consiste en retirar (poner a cero) aleatoriamente un número de características de salida de la capa durante el entrenamiento .

Suponiendo que una capa determinada devuelve los valores en vector (0.2, 0.5, 1.3, 0.8, 1.1) para una muestra dada durante el entrenamiento. Al aplicar el _dropout_, este vector tendrá algunas entradas en cero distribuidas al azar: por ejemplo (0, 0.5, 1.3, 0, 1.1).

La "tasa de _dropout_" es la fracción de las características que se ponen a cero; normalmente entre 0.2 y 0.5.

Si bien la solución parece extraña y arbitraria, sin embargo, los desarrolladores comentan que se inspiraron, entre otras cosas, en un mecanismo de prevención de fraudes que utilizan los bancos. Los cajeros suelen rotar bastante entre sucursales, con la finalidad de evitar que los colaboradores cooperen en una posible evento de fraude. Esto hizo pensar a los investigadores que quitar aleatoriamente un subconjunto de diferntes neuronas evitaría la conspiración y reduciría el sobre ajuste.

Esto permite romper patrones dados por casualidad que no son significativos.

En Keras el _dropout_ se agrega de la manera siguiente:

In [None]:
model.add(layers.Dropout(0.5))

Se podrían agregar dos capas de _Dropout_ a la red, por ejemplo:

In [None]:
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape(10000,)))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1, activation='sigmoid'))