# LayerNorm
La normalisation de couche (LayerNorm) est une technique utilisée dans les réseaux neuronaux, y compris dans l'architecture Transformer couramment utilisée dans les tâches de traitement du langage naturel (NLP). Elle aide à stabiliser et à améliorer l'entraînement des réseaux neuronaux profonds en normalisant les entrées de chaque couche.

Dans le contexte de l'architecture Transformer, qui se compose de plusieurs couches d'auto-attention et de réseaux neuronaux à propagation avant, la normalisation de couche est appliquée à la fois avant et après les sous-couches de chaque couche (c'est-à-dire avant le mécanisme d'auto-attention et avant le réseau neuronal à propagation avant).

Voici une brève explication de la façon dont fonctionne la normalisation de couche :

1. **Normalisation de l'Entrée** :
   - Pour chaque position dans la séquence d'entrée, les valeurs à travers différentes dimensions (par exemple, les plongements de mots) sont normalisées indépendamment.
   - Cela signifie que pour chaque dimension, la moyenne et l'écart-type sont calculés sur l'ensemble du lot (batch) et appliqués élément par élément pour normaliser les valeurs.

2. **Transformation Affine** :
   - Après la normalisation, une transformation affine est appliquée à chaque dimension. Cela implique de mettre à l'échelle et de décaler les valeurs en utilisant des paramètres apprenables (gamma et beta) pour chaque dimension.
   - Cela permet au modèle d'apprendre combien mettre à l'échelle ou décaler les valeurs normalisées.

Mathématiquement, pour une dimension donnée $i$ et une position $j$ dans la séquence d'entrée, l'opération de normalisation de couche peut être représentée comme suit :

$$
\text{LayerNorm}(x_{ij}) = \gamma_i \cdot \frac{x_{ij} - \mu_i}{\sigma_i} + \beta_i
$$

Où :
- $x_{ij}$ est la valeur d'entrée pour la dimension $i$ à la position $j$.
- $\mu_i$ est la moyenne des valeurs pour la dimension $i$ sur l'ensemble du lot.
- $\sigma_i$ est l'écart-type des valeurs pour la dimension $i$ sur l'ensemble du lot.
- $\gamma_i$ et $\beta_i$ sont des paramètres apprenables pour la mise à l'échelle et le décalage.

Les principaux avantages de la normalisation de couche dans le contexte de l'architecture Transformer sont :

1. **Stabilité** :
   - Elle aide à stabiliser le processus d'entraînement en réduisant le déplacement covariant interne, qui peut se produire lorsque la distribution des activations change pendant l'entraînement.

2. **Réduction de la Dépendance à l'Initialisation** :
   - La normalisation de couche réduit la sensibilité du modèle à l'initialisation des poids.

3. **Amélioration de la Généralisation** :
   - Elle peut conduire à une convergence plus rapide et à de meilleures performances de généralisation.

4. **Réduction du Besoin de la Normalisation par Lots** :
   - Dans de nombreux cas, la normalisation de couche peut remplacer ou compléter la normalisation par lots, qui est plus couramment utilisée dans d'autres types d'architectures de réseaux neuronaux.

En somme, la normalisation de couche est un composant crucial pour construire des modèles d'apprentissage en profondeur efficaces et stables, en particulier dans des architectures comme le Transformer qui impliquent de multiples couches de calculs.

In [4]:
import torch 
import torch.nn as nn

In [5]:
class LayerNorm(nn.Module):
    def __init__(self, d_model):
        super(LayerNorm, self).__init__()
        self.d_model = d_model
        self.alpha = nn.Parameter(torch.ones(self.d_model))
        self.bias = nn.Parameter(torch.zeros(self.d_model))
    
    def forward(self, x):
        norm = self.alpha*(x - x.mean(dim=-1, keepdim=True))/(x.std(dim=-1, keepdim=True) + 1e-7) + \
                            self.bias
        return norm

In [7]:
# Exemple d'utilisation
layer_norm = LayerNorm(d_model=512)  # En supposant 512 caractéristiques

# Création d'un tenseur d'entrée aléatoire de forme (taille_du_lot, longueur_de_la_séquence, caractéristiques)
input_tensor = torch.randn(32, 20, 512)

# Application de la normalisation des couches
output_tensor = layer_norm(input_tensor)

print(output_tensor.shape)  # Devrait s'imprimer : torch.Size([32, 20, 512])

torch.Size([32, 20, 512])


# Feed-Forward Neural Network
   - Après le mécanisme d'auto-attention, la sortie passe à travers un réseau de neurones à propagation avant (FFN).
   - Le FFN est un réseau neuronal simple composé de deux transformations linéaires (couches entièrement connectées) avec une fonction d'activation non linéaire (généralement ReLU ou GELU) appliquée entre elles.
   - Le FFN fonctionne de manière indépendante à chaque position dans la séquence.



Le composant "feed-forward" est essentiel car il permet au modèle de capturer des relations complexes entre les mots d'une séquence. En appliquant des transformations non linéaires aux sorties de l'auto-attention, le modèle peut apprendre des motifs plus sophistiqués dans les données.



In [8]:
class FeedForward(nn.Module):
    def __init__(self, d_model, hidden_size=2048, droprate=0.1):
        super(FeedForward, self).__init__()
        self.fc1 = nn.Linear(d_model, hidden_size)
        self.dropout = nn.Dropout(droprate)
        self.fc2 = nn.Linear(hidden_size, d_model)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.dropout(x)
        x = self.fc2(x)
        return x

In [9]:
FF=FeedForward(512)
# Application du layer
output_tensor = FF(input_tensor)

print(output_tensor.shape)  # Devrait s'imprimer : torch.Size([32, 20, 512])

torch.Size([32, 20, 512])
