# Mécanisme d'attention
En traitement du langage naturel (NLP), l'attention fait référence à un mécanisme permettant à un modèle de se concentrer sur des parties spécifiques de l'entrée lors de la prise de décision. Cela est particulièrement important dans les tâches de compréhension de texte, de traduction automatique, et d'autres applications NLP.

L'attention dans NLP est souvent réalisée à l'aide de mécanismes tels que l'attention basée sur les transformateurs, qui ont révolutionné de nombreuses tâches de NLP.

L'équation de l'attention dans le contexte des transformers peut être exprimée en utilisant LaTeX comme suit :

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{{QK^T}}{\sqrt{d_k}}\right) V
$$

Dans cette équation :

- $Q$ représente la matrice de requête (Query).
- $K$ représente la matrice de clé (Key).
- $V$ représente la matrice de valeur (Value).
- $\text{softmax}$ est la fonction de softmax qui normalise les scores d'attention.
- $d_k$ est la dimension de la clé.

Cette équation calcule les poids d'attention pour chaque paire de requête-clé. Ces poids sont utilisés pour pondérer les valeurs, donnant ainsi une représentation pondérée des informations.

Cela permet au modèle d'apprendre à se concentrer sur différentes parties de l'entrée en fonction de la tâche à accomplir, améliorant ainsi les performances dans de nombreuses applications NLP.


Explication :

1. Nous définissons une classe `ModuleAttention` personnalisée qui hérite de `nn.Module`. Ce module contient trois couches linéaires (`self.W_q`, `self.W_k`, et `self.W_v`) qui seront utilisées pour transformer les matrices de requête, de clé et de valeur en entrée.

2. Dans la méthode `forward`, nous appliquons les transformations linéaires aux matrices d'entrée `Q`, `K`, et `V` pour obtenir `q`, `k`, et `v`.

3. Ensuite, nous calculons les scores d'attention, les poids d'attention et la sortie finale en utilisant la même procédure que précédemment.

4. Dans le code principal, nous générons des données aléatoires (`Q`, `K`, et `V`) et créons une instance de `ModuleAttention` avec des dimensions d'entrée et cachées spécifiées.

5. Nous appliquons le mécanisme d'attention en appelant le module avec `Q`, `K`, et `V`.

6. Enfin, nous imprimons l'entrée (`Q`) et la sortie.

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [None]:


class ModuleAttention(nn.Module):
    def __init__(self, dim_entree, dim_cachee):
        super(ModuleAttention, self).__init__()

        self.W_q = nn.Linear(dim_entree, dim_cachee, bias=False)
        self.W_k = nn.Linear(dim_entree, dim_cachee, bias=False)
        self.W_v = nn.Linear(dim_entree, dim_cachee, bias=False)

    def forward(self, X):
        q = self.W_q(X)
        k = self.W_k(X)
        v = self.W_v(X)

        scores = torch.matmul(q, k.transpose(-2, -1)) / (K.size(-1)** 0.5)
        poids_attention = F.softmax(scores, dim=-1)
        sortie = torch.matmul(poids_attention, v)

        return sortie


In [None]:

# Générer des données aléatoires
X = torch.randn(3, 4, 5)  # Taille de lot de 3, 4 requêtes, chacune avec une dimension de 5


# Créer le module d'attention
module_attention = ModuleAttention(dim_entree=5, dim_cachee=10)

# Appliquer le mécanisme d'attention
sortie = module_attention(X)

print("Entrée (X):", X)
print("Sortie:", sortie)


Entrée (Q): tensor([[[-0.5295,  2.0963, -1.9470, -1.1883,  1.5356],
         [ 0.3852, -0.5441, -1.6336, -0.7697, -0.6062],
         [-0.8084, -0.4302, -0.9308, -1.2673,  2.9480],
         [ 1.5320, -1.8932, -0.2014, -0.6770,  0.0478]],

        [[-0.1531, -0.2689,  0.0730,  0.5146, -0.2539],
         [ 0.6599,  0.1553, -0.1086, -0.0092,  2.1382],
         [-0.6784, -0.3757,  0.7186, -0.6309,  0.0193],
         [ 0.2035,  2.0154,  2.2795,  1.7233, -0.1711]],

        [[ 1.3183, -0.5741,  1.3496, -0.3333, -0.2220],
         [ 1.1988, -0.6285,  0.9968, -1.4363, -1.6455],
         [-1.5933, -0.2748, -0.5862,  1.6317,  0.6865],
         [-0.1581,  0.9783, -0.0180,  0.4559, -2.3155]]])
Sortie: tensor([[[ 0.2254, -0.2288, -0.6786,  0.3408,  0.2478, -0.9811, -0.1463,
           0.9622,  0.1015, -0.4047],
         [ 0.2450, -0.1526, -0.9531,  0.2715,  0.4129, -1.1471, -0.1552,
           1.0772,  0.3018, -0.7277],
         [-0.0146, -0.2051, -0.5113,  0.2539,  0.1269, -0.3210,  0.1744,
       