# E02 - Entrainement modèle DL

## Callbacks

In [None]:
from tensorflow.keras import callbacks

### Tensorboard

In [None]:
from tensorflow.keras import callbacks
%load_ext tensorboard
log_dir = '/'
tensorboard = callbacks.TensorBoard(log_dir = log_dir)

### EarlyStopping

 Le surapprentissage est un cauchemar pour les praticiens du Machine Learning. Une façon de l’éviter consiste à interrompre le processus prématurément. La fonction EarlyStopping a diverses métriques / arguments que vous pouvez modifier pour définir le moment où le processus d'entraînement doit s'arrêter.


In [None]:
from tensorflow.keras.callbacks import EarlyStopping
early_stopping = EarlyStopping(monitor = 'val_loss', 
                               min_delta = 0.01,
                               patience = 5,
                               verbose = 1,
                               mode = 'auto',
                               restore_best_weights = True)

- **monitor** Métrique à surveiller pour déclencher l'arrêt anticipé, par exemple, 'val_loss' pour la perte sur l'ensemble de validation ou 'val_accuracy' pour l'exactitude sur l'ensemble de validation.
- **min_delta** Différence minimale considérée comme une amélioration de la métrique surveillée. Une valeur par défaut de 0 signifie que toute amélioration sera considérée comme significative.
- **patience** Le nombre d'époques sans amélioration de la métrique surveillée avant que l'entraînement ne soit arrêté.
    - Par exemple, si patience=3, l'entraînement sera arrêté si la métrique ne s'améliore pas pendant trois époques consécutives.
- **verbose** Niveau de verbosité pour les messages pendant l'entraînement. Un entier (0, 1 ou 2) ou un booléen (True ou False).
- **mode** Le mode de la métrique à surveiller. Il peut prendre les valeurs 'auto', 'min' ou 'max'. Dans le cas de 'auto', il sera automatiquement déduit en fonction de la métrique surveillée.
- **baseline** La valeur de référence de la métrique à partir de laquelle les améliorations seront calculées. Si la métrique surveillée n'améliore pas la valeur de référence, l'entraînement sera arrêté.
- **restore_best_weights** Un booléen indiquant si les meilleurs poids du modèle doivent être restaurés après l'arrêt de l'entraînement. 
    - Si True, les poids du modèle à la fin de la meilleure époque seront restaurés.
    - Si False, les poids du modèle à la fin de la dernière époque seront utilisés.

### ReduceLearningRate (ReduceLROnPlateau)

Permet de réduire le taux d'apprentissage (learning rate) du modèle lorsque certaines conditions sont remplies, ce qui peut aider à améliorer la convergence du modèle et à éviter de rester bloqué dans des minimas locaux lors de l'entraînement.

In [None]:
from tensorflow.keras.callbacks import ReduceLROnPlateau
earlystop = ReduceLROnPlateau(monitor = 'val_accuracy',
                        min_delta = 0.01,
                        patience = 3,
                        factor = 0.2, 
                        cooldown = 3,
                        verbose = 1)

- **monitor** Métrique à surveiller pour déclencher la réduction du taux d'apprentissage, par exemple, 'val_loss' pour la perte sur l'ensemble de validation ou 'val_accuracy' pour l'exactitude sur l'ensemble de validation.
- **factor** Facteur de réduction du taux d'apprentissage. Après chaque déclenchement, le taux d'apprentissage sera multiplié par ce facteur.
    - Par exemple, si factor=0.1, le taux d'apprentissage sera réduit à 10% de sa valeur actuelle.
- **patience** Nombre d'époques sans amélioration de la métrique surveillée avant de réduire le taux d'apprentissage.
    - Par exemple, si patience=3, le taux d'apprentissage sera réduit si la métrique ne s'améliore pas pendant trois époques consécutives.
- **verbose** Niveau de verbosité pour les messages pendant l'entraînement. Un entier (0, 1 ou 2) ou un booléen (True ou False).
- **mode** Mode de la métrique à surveiller. Il peut prendre les valeurs 'auto', 'min' ou 'max'. Dans le cas de 'auto', il sera automatiquement déduit en fonction de la métrique surveillée.
- **min_delta** Différence minimale considérée comme une amélioration de la métrique surveillée. Une valeur par défaut de 0 signifie que toute amélioration sera considérée comme significative.
- **cooldown** Nombre d'époques supplémentaires à attendre après une réduction du taux d'apprentissage avant de reprendre une surveillance normale. Cela permet d'éviter de réduire le taux d'apprentissage de manière trop fréquente.
- **min_lr** Valeur plancher pour le taux d'apprentissage. Le taux d'apprentissage ne sera pas réduit en dessous de cette valeur.

### ModelCheckPoint

Permet de sauvegarder les poids du modèle à certains moments pendant l'entraînement. Cela permet de conserver les poids du modèle ayant les meilleures performances sur l'ensemble de validation ou à des étapes spécifiques de l'entraînement.

In [None]:
from tensorflow.keras.callbacks import ModelCheckpoint
checkpoint = ModelCheckpoint(filepath='best_model', monitor='val_accuracy', save_best_only=True, verbose=1)

- **filepath** Chemin du fichier où les poids du modèle seront sauvegardés. Vous pouvez utiliser des motifs de noms de fichiers pour inclure des informations variables telles que le numéro de l'époque dans le nom du fichier.
- **monitor** Métrique à surveiller pour déterminer les meilleurs poids du modèle, par exemple, 'val_loss' pour la perte sur l'ensemble de validation ou 'val_accuracy' pour l'exactitude sur l'ensemble de validation.
- **save_best_only** Booléen indiquant si seuls les meilleurs poids du modèle doivent être sauvegardés. Si True, seuls les poids qui améliorent la métrique surveillée seront sauvegardés.
- **save_weights_only** Booléen indiquant si seuls les poids du modèle doivent être sauvegardés (True) ou s'il faut sauvegarder tout le modèle, y compris l'architecture (False).
- **mode** Mode de la métrique à surveiller. Il peut prendre les valeurs 'auto', 'min' ou 'max'. Dans le cas de 'auto', il sera automatiquement déduit en fonction de la métrique surveillée.
- **verbose** Niveau de verbosité pour les messages pendant l'entraînement. Un entier (0, 1 ou 2) ou un booléen (True ou False).
- **save_freq** Fréquence à laquelle les poids du modèle seront sauvegardés. Il peut être un entier (nombre d'époques entre chaque sauvegarde), ou une chaîne de caractères 'epoch' (pour sauvegarder à la fin de chaque époque) ou 'batch' (pour sauvegarder à la fin de chaque lot/batch).

### LearningRateScheduler

Permet de modifier le taux d'apprentissage (learning rate) du modèle à des étapes spécifiques de l'entraînement en fonction d'une fonction définie par l'utilisateur. Cela permet d'ajuster dynamiquement le taux d'apprentissage pendant l'entraînement pour améliorer la convergence du modèle.

In [None]:
from tensorflow.keras.callbacks import LearningRateScheduler
# Définition de la fonction pour ajuster le taux d'apprentissage
def lr_schedule(epoch):
    """
    Fonction pour ajuster le taux d'apprentissage en fonction de l'époque.
    """
    learning_rate = 0.1
    if epoch > 50:
        learning_rate = 0.01
    if epoch > 100:
        learning_rate = 0.001
    return learning_rate

lr_scheduler = LearningRateScheduler(lr_schedule, verbose=1)

- **schedule** La fonction qui définit le taux d'apprentissage en fonction du numéro de l'époque. Cette fonction prend comme entrée l'époque actuelle (un entier) et renvoie le taux d'apprentissage souhaité (un nombre).
- **verbose** Niveau de verbosité pour les messages pendant l'entraînement. Un entier (0, 1 ou 2) ou un booléen (True ou False).

### Timing Callback

Mesure le temps écoulé entre les epochs et début et de fin de calllback.


In [None]:
from tensorflow.keras.callbacks import Callback
from timeit import default_timer as timer

class TimingCallback(Callback):
    def __init__(self, logs={}):
        self.logs=[]
    def on_epoch_begin(self, epoch, logs={}):
        self.starttime = timer()
    def on_epoch_end(self, epoch, logs={}):
        self.logs.append(timer()-self.starttime)

time_callback = TimingCallback()

### TerminateOnNan

Permet de stopper l'entraînement quand la fonction de perte a divergé (de valeur NaN). Ce callback peut être utile pour éviter de continuer à entraîner le modèle s'il a divergé ou d'arrêter le calcul en cas de données non conformes.

In [None]:
from tensorflow.keras.callbacks import TerminateOnNaN
TON = TerminateOnNaN()

### Custom Callback

In [None]:
Documentation : https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/Callback

In [None]:
# Exemple de custom :
class CustomCallBack(Callback):
    def on_train_batch_end(self, batch, logs=None):
        print('Pour le batch {}, l\'erreur de train est {:7.2f}.'.format(batch, logs['loss']))

    def on_epoch_end(self, epoch, logs=None):
        print('La perte de validation pour l\'epoch {} est {:7.2f} et la métrique est {:7.2f}.'.format(epoch, logs['val_loss'], logs['val_mean_absolute_error']))

    def on_test_end(self, logs=None):
        print('Validation finie')

## Fit classique

In [None]:
# tailles des échantillons
nb_img_train = train_generator.samples
nb_img_test = test_generator.samples

model_history = model.fit(generator = train_dataset,
                          validation_data = test_dataset,
                          epochs = 20,
                          steps_per_epoch = nb_img_train // batch_size, 
                          validation_steps = nb_img_test // batch_size,
                          callbacks = [tensorboard],
                          verbose = True)

- **generator** Les données d'entraînement. Cela peut être un tableau NumPy ou un générateur de données.
- **validation_data** Les données de validation utilisées pour évaluer le modèle à la fin de chaque époque. Cela peut être un tuple contenant les données de validation et les étiquettes associées, ou un générateur de données.
- **epochs**  Spécifie le nombre d'itérations d'entraînement que le modèle effectuera sur l'ensemble des données.
- **steps_per_epoch** Le nombre d'itérations (pas) à effectuer par époque d'entraînement. Il correspond au nombre total d'échantillons d'entraînement divisé par la taille du batch.
- **validation_split**  Spécifie la proportion d'exemples à utiliser pour la validation.
    - Lors de l'entraînement, le modèle utilise une partie des données (1 - validation_split) pour l'apprentissage, et le reste (validation_split) pour la validation, afin d'évaluer les performances du modèle sur un ensemble de données distinct et de détecter le surapprentissage.   
- **batch_size** Détermine la taille de chaque lot (ou batch) de données utilisé pour une mise à jour des poids du modèle.       
- **validation_steps** Le nombre d'itérations (pas) à effectuer par époque de validation. Il correspond au nombre total d'échantillons de validation divisé par la taille du batch. Dans cet exemple, nb_img_test // batch_size est utilisé pour spécifier le nombre de pas par époque de validation.
- **callbacks**  Liste de callbacks à utiliser pendant l'entraînement.
- **shuffle** Booléen indiquant si les données doivent être mélangées avant chaque époque. Par défaut, il est défini à True.
- **class_weight** Dictionnaire indiquant comment pondérer les classes. Utile pour équilibrer les classes déséquilibrées dans un problème de classification.
- **sample_weight** Tableau de poids associé à chaque échantillon. Utile pour attribuer des poids différents à certains échantillons lors de l'entraînement.
- **initial_epoch** Epoque à partir de laquelle commencer l'entraînement. Cela peut être utile si vous souhaitez reprendre l'entraînement d'un modèle à partir d'une époque spécifique
- **verbose**  Niveau de verbosité pour les messages pendant l'entraînement. Un entier (0, 1 ou 2) ou un booléen (True ou False).

## Fit personnalisée

In [None]:
# Fonction d'entrainnement
optimizer = tf.keras.optimizers.Adam(learning_rate = 0.001)

def train_op(model,inputs,targets):
    with tf.GradientTape() as tape:
        y_pred = model(inputs, training = True)
        loss_value = tf.reduce_mean(tf.keras.losses.sparse_categorical_crossentropy(targets, y_pred))
        
    grads = tape.gradient(loss_value, model.trainable_variables)
    optimizer.apply_gradients(zip(grads, model.trainable_variables))
    
    return loss_value.numpy()

In [None]:
# Entrainnement
grads = []
epochs = 5

for i in range(epochs):
    for X_t, y_t in dataset:
        train_op(model, X_t, y_t)
    loss = tf.reduce_mean(tf.keras.losses.sparse_categorical_crossentropy(y_test, model(X_test.reshape([-1,28,28,1])))).numpy()
    print('epoch', i, 'loss :', loss)
    grads.append(loss)
