# Regolarizzazione L1 e L2

La regolarizzazione è una tecnica utilizzata per contrastare il problema dell'overfitting, una situazione che si manifesta quando la rete memorizza le caratteristiche del set di addestramento piuttosto che apprendere da esse.
<br>
<br>
L'overfitting è caratterizzato da:

- **Alta variaza:** le previsioni per modelli addestrati con diverse parti del dataset saranno molto diverse tra loro.
- **Basso bias:** l'errore per le predizioni sul set di addestramento è mediamente molto basso.

<img src="res/overfitting.png" width="500px" /><br>

In questo notebook vedremo come contrastare l'overfitting della nostra rete addestrata sul Fashion MNIST utilizzando la regolarizzazione L1 e L2.
<br>
Importiamo i moduli che ci serviranno.

In [1]:
import numpy as np
import matplotlib.pyplot as plt

from keras.utils import to_categorical

from keras.models import Sequential
from keras.layers import Dense

from keras.callbacks import History 

from keras import optimizers

from time import time

from scripts.random import set_seed # da utilizzare per poter riprodurre i miei risultati

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


## Preparazione dei dati
Carichiamo il dataset Fashion MNIST utilizzando Keras e preprocessiamo i dati.

In [2]:
from keras.datasets import fashion_mnist

# Caricamento del dataset

labels = ["T-shirt/top","Pantalone","Pullover","Vestito","Cappotto","Sandalo","Maglietta","Sneaker","Borsa","Stivaletto"]

(X_train, y_train), (X_test, y_test) = fashion_mnist.load_data()

# Encoding delle immagini

X_train = X_train.reshape(X_train.shape[0],28*28)
X_test = X_test.reshape(X_test.shape[0],28*28)

# Normalizzazione

X_train = X_train/255
X_test = X_test/255

# Encoding del target

num_classes=10

y_train_dummy = to_categorical(y_train, num_classes)
y_test_dummy = to_categorical(y_test, num_classes)

Adesso ogni immagine è codificata in un vettore contenente il valore dei pixel normalizzati disposti su di un'unica riga.
<br>
Il target è codificato all'interno di 10 variabili dummy, una per ogni classe, in cui la variabile alla posizione della classe di appartenenza vale 1 (True), mentre le altre valgono 0 (False).

## Riconoscere l'overfitting
Evidenziare un problema di overfitting è molto semplice, un modello che ne soffre avrà memorizzato la struttura dei dati di addestramento, piuttosto che imparare da essi, quindi l'errore per le predizioni sul train set sarà molto basso, invece fallirà nel generalizzare, perciò l'errore nel test set sarà decisamente più alto.<br><br>
Quindi per riconoscere l'overfitting è sufficente confrontare questi due valori.

In [None]:
from os import environ
environ["PYTHONHASHSEED"] = '0'
environ["CUDA_VISIBLE_DEVICES"]='-1'
environ["TF_CUDNN_USE_AUTOTUNE"] ='0'

import tensorflow as tf

session_conf = tf.ConfigProto(intra_op_parallelism_threads=1,
                              inter_op_parallelism_threads=1)
sess = tf.Session(graph=tf.get_default_graph(), config=session_conf)
     
from numpy.random import seed as np_seed
np_seed(seed)
import random
random.seed(seed)
tf.set_random_seed(seed)


In [9]:
from keras.regularizers import l1_l2, l2

set_seed(0) # per poter riprodurre i miei risultati

model = Sequential()
model.add(Dense(512, activation='relu', input_dim=X_train.shape[1]))
model.add(Dense(256, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(num_classes, activation='softmax'))

In [10]:
adam = optimizers.Adam()
model.compile(optimizer=adam, loss="categorical_crossentropy", metrics=["accuracy"])

In [11]:
"""
Epoch 3/3
60000/60000 [==============================] - 2s 35us/step - loss: 0.3373 - acc: 0.8782
Train Accuracy = 0.8842 - Train Loss = 0.3160
Test Accuracy = 0.8642 - Test Loss = 0.3749
"""

model.fit(X_train, y_train_dummy, epochs=3, batch_size=512)
    
metrics_train = model.evaluate(X_train, y_train_dummy, verbose=0)
metrics_test = model.evaluate(X_test, y_test_dummy, verbose=0)

print("Train Accuracy = %.4f - Train Loss = %.4f" % (metrics_train[1], metrics_train[0]))
print("Test Accuracy = %.4f - Test Loss = %.4f" % (metrics_test[1], metrics_test[0]))

Epoch 1/3
Epoch 2/3
Epoch 3/3
Train Accuracy = 0.8847 - Train Loss = 0.3133
Test Accuracy = 0.8650 - Test Loss = 0.3728


La differenza tra errore sul set di addestramento e sul set di test è elevatissima, specialmente per quanto riguarda la log loss. Siamo di fronte a un caso di overfitting.

## Utilizzare la regolarizzazione con Keras

Con Keras possiamo regolarizzare pesi, bias e output lineare di un determinato strato utilizzando i seguenti parametri della classe Dense:

- **kernel_regularizer**: applica la regolarizzazione ai pesi di uno strato.
- **bias_regularizer**: applica la regolarizzazione ai bias di uno strato.
- **activity_regularizer**: applica la regolarizzazione all'ouput lineare di uno strato.

## Applicare la regolarizzazione L2

La **regolarizzazione L2** è una tecnica di regolarizzazione che consiste nell'aggiungere una penalità per i pesi nella funzione di costo durante la fase di addestramento.<br>
La penalità è data dalla somma dei quadrati dei pesi:
$$\lambda\sum_{j=1}^{M}W_j^2$$<br>
**Lambda** è il **parametro di regolarizzazione** ed è un'altro iperparametro.
<br><br>
Possiamo utilizzare la regolarizzazione L2 in uno strato della nostra passando al parametro la funzione l2 con all'interno il valore del parametro di regolarizzazione.

In [None]:
from keras.regularizers import l2
set_seed(0) # per poter riprodurre i miei risultati

model = Sequential()
model.add(Dense(512, activation='relu', input_dim=X_train.shape[1], kernel_regularizer=l2(0.01)))
model.add(Dense(256, activation='relu', kernel_regularizer=l2(0.01)))
model.add(Dense(128, activation='relu'))
model.add(Dense(num_classes, activation='softmax'))

model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])

model.fit(X_train, y_train_dummy, epochs=100, batch_size=512)
    
metrics_train = model.evaluate(X_train, y_train_dummy, verbose=0)
metrics_test = model.evaluate(X_test, y_test_dummy, verbose=0)

print("Train Accuracy = %.4f - Train Loss = %.4f" % (metrics_train[1], metrics_train[0]))
print("Test Accuracy = %.4f - Test Loss = %.4f" % (metrics_test[1], metrics_test[0]))

## Aggiungere la regolarizzazione L1

La regolarizzazione L1 è un'altra tecnica di regolarizzazione che funziona in maniera simile alla L2, con la differenza che il termine di regolarizza sarà dato dalla somma del valore assoluto dei pesi:
$$\lambda\sum_{j=1}^{M}|W_j|$$<br>
e viene sempre applicato alla funzione di costo durante la fase di addestramento. La regolarizzazione L1 è molto più intensa della L2 e tende a ridurre a 0 molti pesi.
<br>
Nella pratica la regolarizzazione L2 porta quasi sempre a migliori risultati della L1, una buona tecnica consiste nell'utilizzarle insieme, con Keras possiamo farlo passando al parametro kernel_regularizer la funzione l1_l2 (se volessi utilizzare solo la L1, puoi anche farlo utilizzando la funzione l1).

In [None]:
import missinglink
missinglink_callback = missinglink.KerasCallback(project='5721485469548544')

In [None]:
# from keras.regularizers import l1 # Nel caso volessi utilizzare solo la regolarizzazione l1
from keras.regularizers import l1_l2,l2

"""
Train Accuracy = 0.8295 - Train Loss = 0.7705
Test Accuracy = 0.8204 - Test Loss = 0.8011
"""

set_seed(0) # per poter riprodurre i miei risultati

model = Sequential()
model.add(Dense(512, activation='relu', input_dim=X_train.shape[1], kernel_regularizer=l2(0.01)))
model.add(Dense(256, activation='relu', kernel_regularizer=l1_l2(l1=0.0001,l2=0.001)))
model.add(Dense(128, activation='relu'))
model.add(Dense(num_classes, activation='softmax'))


In [None]:
model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])

model.fit(X_train, y_train_dummy, epochs=3, batch_size=512, callbacks=[missinglink_callback])

metrics_train = model.evaluate(X_train, y_train_dummy, verbose=0)
metrics_test = model.evaluate(X_test, y_test_dummy, verbose=0)

print("Train Accuracy = %.4f - Train Loss = %.4f" % (metrics_train[1], metrics_train[0]))
print("Test Accuracy = %.4f - Test Loss = %.4f" % (metrics_test[1], metrics_test[0]))

Siamo ancora dai risultati ottimali, ma applicando la regolarizzazione siamo riusciti a contrastare l'overfitting e abbiamo creato un modello in grado di apprendere dai dati di addestramento e generalizzare su dati sconosciuti.

In [None]:
model.summary()