<a href="https://colab.research.google.com/github/ProfAI/tf00/blob/master/2%20-%20Overfitting%20e%20Dropout/tecniche_di_regolarizzazione.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regolarizzazione
In questo notebook vedremo le principali tecniche che possiamo adottare per contrastare un problema di Overfitting.

## Dipendenze

In [0]:
import numpy as np
import tensorflow as tf
from tensorflow import keras
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

## Prepariamo il Dataset

In [0]:
csv_url = "https://raw.githubusercontent.com/ProfAI/tf00/master/datasets/math_class/math_class_deep.csv"
df = pd.read_csv(csv_url)
to_encode = ["sex", "paid", "higher", "internet", "romantic"]
df[to_encode] = pd.get_dummies(df[to_encode], drop_first=True)

X = df.drop(["student_id","promoted"], axis=1).values
y = df["promoted"].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

## Opzione 1: Ridurre la Complessità della Rete
Una delle cause principali dell'overfitting è l'eccessiva complessità della rete. La complessità è misurabile utilizzando il numero di parametri, se una rete neurale ha un numero eccessivo di strati e nodi per il problema che stiamo affrontando, allora quella rete è eccessivamente complessa. Proviamo a ridurre il numero di strati e nodi della rete precedente per ridurre il numero di parametri.

In [3]:
model = keras.models.Sequential([
    keras.layers.Dense(64, input_shape=[X.shape[1]], activation="relu"),
    keras.layers.Dense(1, input_shape=[X.shape[1]], activation="sigmoid"),
])

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 64)                832       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 65        
Total params: 897
Trainable params: 897
Non-trainable params: 0
_________________________________________________________________


Abbiamo ridotto il numero di parametri da ottimizzare dai 18.305 della rete precendente ad appena 897. Eseguiamo l'addestramento.

In [4]:
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
model.fit(X_train, y_train, epochs=200)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7f862a99e1d0>

Le metriche sul Train Set sono notevolmente peggiorate, ma questa non è per forza una cosa negativa, dato che le ottime metriche di prima erano date da un problema di overfitting. Per verificarlo valutiamo il modello sul Test Set.

In [5]:
print("Loss e Accuracy sul train set: %s " % model.evaluate(X_train, y_train))
print("Loss e Accuracy sul test set: %s " % model.evaluate(X_test, y_test))

Loss e Accuracy sul train set: [0.501724898815155, 0.75] 
Loss e Accuracy sul test set: [0.6389667987823486, 0.6974790096282959] 


Come vedi le metriche sul Train Set e Test Set sono molto simili, siamo riusciti a contrastare l'overfitting.

## Opzione 2: Utilizzare la Regolarizzazione L1 ed L2
Un'altra soluzione per affrontare l'Overfitting è utilizzare tecniche di regolarizzazione, che penalizzano pesi eccessivamente grandi, i quali sono la causa dell'overfitting all'interno della rete. I principali tipi di regolarizzazione sono la **Regolarizzazione L1** e la **Regolarizzazione L2**, la differenza tra queste due è che la L1 agisce in maniera più intensa. Per controllare l'intensità della regolarizzazione è possibile utilizzare un fattore *l*.

In [0]:
regularizer = keras.regularizers.L1L2(l1=0.01, l2=0.1) # dato che l1 è più intensa utilizziamo un fattore più piccolo

Per regolarizzare uno strato possiamo utilizzare il parametro *kernel_regularizer*.

In [7]:
model = keras.models.Sequential()
model.add(keras.layers.Dense(128, input_shape=[X.shape[1]], activation="relu"))
model.add(keras.layers.Dense(128, input_shape=[X.shape[1]], activation="relu", kernel_regularizer=regularizer))
model.add(keras.layers.Dense(1, input_shape=[X.shape[1]], activation="sigmoid"))

model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
model.fit(X_train, y_train, epochs=200)

Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7f8627a5bc50>

In [8]:
print("Loss e Accuracy sul train set: %s " % model.evaluate(X_train, y_train))
print("Loss e Accuracy sul test set: %s " % model.evaluate(X_test, y_test))

Loss e Accuracy sul train set: [0.587184488773346, 0.7246376872062683] 
Loss e Accuracy sul test set: [0.6499906778335571, 0.6974790096282959] 


Anche in questo caso abbiamo ridotto notevolmente l'overfitting.

## Opzione 3: Dropout
La terza opzione, specifica per le reti neurali, è utilizzare degli strati di **Dropout**. Il dropout è una tecnica che consiste nel disattivare randomicamente delle connessioni tra gli strati durante le varie iterazioni dell'algoritmo di ottimizzazione, in modo tale da evitare che certi neuroni si facciano carico di errori di altri neuroni (condizione conosciuta come *co-adaptation*) che può essere causa di overfitting.

In [10]:
model = keras.models.Sequential()
model.add(keras.layers.Dense(128, input_shape=[X.shape[1]], activation="relu"))
model.add(keras.layers.Dropout(0.7)) # ad ogni iterazione disattiviamo il 70% dei neuroni selezionati casualmente...
model.add(keras.layers.Dense(128, input_shape=[X.shape[1]], activation="relu"))
model.add(keras.layers.Dropout(0.7)) # ...stessa cosa qui
model.add(keras.layers.Dense(1, input_shape=[X.shape[1]], activation="sigmoid"))

model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
model.fit(X_train, y_train, epochs=300)

Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300
Epoch 75/300
Epoch 76/300
Epoch 77/300
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7f86268084a8>

In [11]:
print("Loss e Accuracy sul train set: %s " % model.evaluate(X_train, y_train))
print("Loss e Accuracy sul test set: %s " % model.evaluate(X_test, y_test))

Loss e Accuracy sul train set: [0.48785606026649475, 0.7681159377098083] 
Loss e Accuracy sul test set: [0.6346864104270935, 0.6890756487846375] 


Anche utilizzando l'overfitting abbiamo ridotto l'overfitting. Nonostante in questo specifico caso abbiamo ottenuto risultati migliori con le due opzioni precedenti, il dropout è una delle tecniche anti-overfitting maggiormente effettive nel Deep Learning.

## Opzione 4: Tecniche Miste
Non siamo costretti a scegliere a dover scegliere tra una delle opzioni precedenti, ma possiamo utilizzarle insieme nella giusta misura.

In [0]:
regularizer = keras.regularizers.L1L2(l1=0.01, l2=0.1)

In [0]:
model = keras.models.Sequential()
model.add(keras.layers.Dense(64, input_shape=[X.shape[1]], activation="relu"))
model.add(keras.layers.Dropout(0.4))
model.add(keras.layers.Dense(128, input_shape=[X.shape[1]], activation="relu", kernel_regularizer=regularizer))
model.add(keras.layers.Dense(1, input_shape=[X.shape[1]], activation="sigmoid"))

In [14]:
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])
model.fit(X_train, y_train, epochs=500)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7f86256457b8>

In [15]:
print("Loss e Accuracy sul train set: %s " % model.evaluate(X_train, y_train))
print("Loss e Accuracy sul test set: %s " % model.evaluate(X_test, y_test))

Loss e Accuracy sul train set: [0.561765730381012, 0.7318840622901917] 
Loss e Accuracy sul test set: [0.6459847092628479, 0.6974790096282959] 


## Opzione 5: Raccogliere più dati
Okay, questa è sicuramente la soluzione migliore per contrastare l'overfitting, con più dati il modello ha la possibilità di cogliere più pattern ed estrapolare maggiore informazione, ovviamente non è sempre applicabile perché spesso e volentieri i dati non sono accessibili (o semplicemente non esistono).