# Understanding dropouts

## Introduction
Le **surapprentissage** est un problème majeur dans l'entraînement des réseaux de neurones profonds. Une technique efficace pour le combattre est le **Dropout**.

Dans ce notebook, nous allons :
1. Mais le dropout, c'est quoi ?
2. Exemple d'application de la technique du Dropout.
3. Comparer les performances d'un réseau avec et sans Dropout.
4. Présenter cette technique sur d'autres types de modèles

<div style="background-color: #d4edda; color: black; padding: 10px; border-radius: 5px;">
Plan d'action, on va faire un exemple de dropout et ensuite on va venir comparer aux autres techniques de régularisation et enfin on va venir les combiner et montrer que le dropout se combine très bien avec du L2 ou norma par lots par exemple dans notre cas (MNIST).

Ensuite on va venir faire un état de l'art des différents réseaux de neuronnes qui sont efficaces avec le dropouts ou pas et conclure quant à cette technique et son utilisation sur les modèles de deep.
</div>

***
## 1. Mais le dropout, c'est quoi ?

### Un peu d'histoire
Avant l’introduction du Dropout, plusieurs approches avaient déjà exploré l’idée d’ajouter du bruit aux réseaux de neurones pour améliorer leur généralisation. **Hanson (1990)** a proposé la **Stochastic Delta Rule**, qui injectait du bruit dans l’apprentissage des poids pour limiter le surapprentissage. **Bishop (1995)** a démontré que **perturber les entrées** d’un modèle pouvait être interprété comme une forme de régularisation bayésienne. **LeCun et al. (1998)** ont testé l’**ajout de bruit** dans les activations des neurones pour limiter la dépendance excessive aux données d'entraînement. D’autres travaux, comme ceux de **Hinton & Nowlan (1992)** et **Neal (1995, 2001)**, ont étudié l’utilisation de **distributions probabilistes sur les poids et les activations** afin d’améliorer la généralisation des modèles.

Le **Dropout** a été introduit en **2014** par **Srivastava et al.** dans leur article **"Dropout: A Simple Way to Prevent Neural Networks from Overfitting"**. Cette technique a été développée pour pallier le problème du surapprentissage dans les réseaux de neurones profonds. Avant son introduction, les méthodes classiques de régularisation comme la **pénalisation L2** et le **early stopping** étaient couramment utilisées, mais elles ne suffisaient pas toujours à éviter l'adaptation excessive aux données d'entraînement.

L'idée principale derrière le Dropout était inspirée de l'**apprentissage par ensembles**, où plusieurs modèles indépendants sont combinés pour améliorer la généralisation. Toutefois, entraîner et stocker plusieurs réseaux de neurones profonds était **coûteux en calcul**. Srivastava et son équipe ont alors cherché un moyen d'obtenir un effet similaire au **model averaging**, mais de manière bien **plus efficace**.


### Fonctionnement du Dropout

Leur solution a été de **perturber l'apprentissage en désactivant aléatoirement des neurones à chaque itération**, forçant ainsi chaque neurone à apprendre des représentations **plus robustes** sans dépendre excessivement de neurones spécifiques. En empêchant la formation de **co-adaptations trop spécialisées**, cette approche a conduit à des modèles généralisant mieux aux données non vues. De plus, lors de la phase de **test**, tous les **neurones sont activés** mais leurs **poids sont ajustés** pour compenser les désactivations précédentes, simulant ainsi un moyennage implicite d'un grand nombre de **réseaux plus petits entraînés en parallèle**.


### Impact sur l’apprentissage des réseaux de neurones
Le Dropout a plusieurs effets bénéfiques sur l'apprentissage :
- **Réduction du surapprentissage** : en empêchant les neurones de trop s’adapter aux données d’entraînement.
- **Amélioration de la robustesse** : chaque neurone doit apprendre des représentations plus générales, car il ne peut pas compter sur d’autres neurones spécifiques.
- **Effet d’ensemble (ensemble learning)** : en échantillonnant différents sous-réseaux à chaque itération, le modèle final se comporte comme une combinaison de plusieurs réseaux différents, ce qui améliore la généralisation.


***
## 2. Exemple d'application de la technique du Dropout.

### Présentation du modèle 

Ca sera plus simple pour tout le monde si je reprends un modèle que l'on connait. On va tout simplement utiliser le modèle que nous avions défini au TD de deep learning sur la reconnaissance de chiffres manuscrits à l'aide de MNIST. Nous partirons de là et nous appliquerons la technique du dropout pour vraiment comprendre l'interêt de cette technique.

In [None]:
# importation des librairies, données et visualisation des différents datasets
# création du modèle de réseaux de neuronnes
# On fit le modèle 
# On fait des essais d'overfitting

Le modèle est fini nous allons maintenant le tester et vérifier son erreur

In [None]:
# Test du modèle 
# présentation des résultats sans le dropout

### Conclusion

Sans le dropout, le modèle a tendance à surapprendre, nous voyons alors que lors des tests l'erreur est très grande.
***
### Application du dropout

Nous allons ici étapes par étapes appliquer le dropout à notre modèle. Les différentes étapes seront présentées sous forme de questions auquelles vous pourrez tenter de répondre. Il est fortement conseillé de tenter de résoudre les questions par vous même  pour comprendre le dropout en pratique et savoir l'appliquer.

Torch utilise le dropout spatial, qui est décrit ici : https://arxiv.org/pdf/1411.4280.pdf

<div class="alert alert-success">
Question 1 : Crée un réseau qui inclut au moins une couche de dropout.
</div>

In [None]:
# %load solutions/Q1.py
class DropoutNet(nn.Module):
    
    def __init__(self):
        ...
        # A compléter

    def forward(self, x):
        ...
        # A compléter

net = DropoutNet()
train_history, valid_history = train(net, earlystopping=False)
plot_train_val(train_history, valid_history)

<div class="alert alert-success">
Question 2 : Crée un réseau qui inclut des dropouts aléatoirement.
</div>

<div class="alert alert-success">
Question 3 : Crée un code pour faire en sorte que le modèle s'entraine de manière répétée en appliquant à chaque entrainement, un dropout aléatoire.
</div>

<div class="alert alert-success">
Question 4 : Crée un code qui vient ajuster les poids des neurones et qui vient tester votre modèle.
</div>

Bravo, vous avez appliqué le dropout au modèle de reconnaissance de chiffres de MNIST. J'espère que ca s'est bien passé et que vous avez bien saisi comment est ce que le dropout intervient dans l'entrainement pour éviter le surapprentissage. 

Je me permets de te transmettre un petit message du créateur de ce notebook :

*Salut à toi jeune codeur ! J'espère que ce petit message va te faire sourire au milieu de tes corrections de notebooks interminables. Je te souhaite bon courage pour la suite et surtout n'oublie pas de me mettre une bonne note, sinon je serais pas content. Bisous*

In [1]:
# C'est chat gpt qui me l'a généré

# Importation des bibliothèques
import numpy as np
import tensorflow as tf
from tensorflow import keras
import matplotlib.pyplot as plt

# Chargement des données MNIST
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0  # Normalisation

# Création d'un modèle simple sans Dropout
def create_model(dropout_rate=0.0):
    model = keras.models.Sequential([
        keras.layers.Flatten(input_shape=(28, 28)),
        keras.layers.Dense(512, activation='relu'),
        keras.layers.Dropout(dropout_rate),  # Ajout du Dropout ici
        keras.layers.Dense(10, activation='softmax')
    ])
    model.compile(optimizer='adam',
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])
    return model

# Entraînement du modèle sans Dropout
model_no_dropout = create_model(dropout_rate=0.0)
history_no_dropout = model_no_dropout.fit(x_train, y_train, epochs=10, validation_data=(x_test, y_test))

# Entraînement du modèle avec Dropout
model_with_dropout = create_model(dropout_rate=0.5)
history_with_dropout = model_with_dropout.fit(x_train, y_train, epochs=10, validation_data=(x_test, y_test))

# Comparaison des performances
plt.plot(history_no_dropout.history['val_accuracy'], label='Sans Dropout')
plt.plot(history_with_dropout.history['val_accuracy'], label='Avec Dropout')
plt.xlabel('Épochs')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

"""
## Conclusion
Nous avons vu que le Dropout permet de réduire le surapprentissage et d'améliorer la généralisation du modèle.
Des extensions possibles incluent l'expérimentation avec différents taux de Dropout ou l'application à d'autres modèles.
"""

ModuleNotFoundError: No module named 'tensorflow'

### Comparaison avec d’autres techniques de régularisation
Le Dropout est souvent comparé à d’autres techniques de régularisation utilisées pour améliorer la généralisation des modèles :
- **L2 (Weight Decay)** : Ajoute une pénalité sur la taille des poids pour éviter des valeurs extrêmes.
- **L1 (Lasso)** : Encourage la parcimonie en poussant certains poids vers zéro.
- **Max-norm** : Contraint les poids à ne pas dépasser une certaine norme.
- **Batch Normalization** : Normalise les activations pour stabiliser l’apprentissage et accélérer la convergence.

Chacune de ces méthodes a ses avantages, mais le Dropout est particulièrement efficace lorsqu'il est combiné avec d’autres régularisations, comme L2 ou la normalisation par lots.