<h1 style="color:red; text-align:center; text-decoration:underline;">Mécanisme d’Attention (Self-Attention)</h1>


In [8]:
# self_attention_demo.py

import numpy as np

# ============ Étape 1 : Génération des embeddings simples ============
def build_embeddings(word):
    np.random.seed(hash(word) % 10000)  # pour des résultats reproductibles par mot
    return np.random.rand(4)

# Exemple de phrase
sentence = "In this tutorial I will show you how to build embeddings and the self attention mechanism."
words = sentence.split()
embeddings = [build_embeddings(word) for word in words]

# ============ Étape 2 : Fonction softmax simplifiée ============
def softmax(x):
    exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True))  # pour la stabilité numérique
    return exp_x / np.sum(exp_x, axis=-1, keepdims=True)

# ============ Étape 3 : Mécanisme de self-attention simplifié ============
def self_attention(embeddings):
    Q = np.array(embeddings)
    K = np.array(embeddings)
    V = np.array(embeddings)

    # Calcul des scores d'attention
    scores = np.dot(Q, K.T)

    # Application de softmax pour obtenir les poids d'attention
    attention_weights = softmax(scores)

    # Calcul des valeurs pondérées
    weighted_values = np.dot(attention_weights, V)
    return attention_weights, weighted_values

# Exécution du mécanisme
attention_weights, weighted_values = self_attention(embeddings)

# ============ Étape 4 : Analyse des poids d'attention ============
print("\n=== Analyse des poids d'attention ===")
print("Phrase originale:", sentence, "\n")
for i, word in enumerate(words):
    print(f"Pour le mot '{word}':")
    top_3 = sorted(range(len(words)), key=lambda j: attention_weights[i][j], reverse=True)[:3]
    for j in top_3:
        print(f"  Attention vers '{words[j]}' : {attention_weights[i][j]:.4f}")
    print()

# ============ Étape 5 : Interprétation relationnelle ============
print("=== Relations d'attention principales (hors soi-même) ===")
for i, word in enumerate(words):
    sorted_indices = np.argsort(-attention_weights[i])
    # Ignore le mot lui-même (attention à soi-même)
    for idx in sorted_indices:
        if idx != i:
            print(f"Le mot '{word}' est influencé principalement par '{words[idx]}' (poids: {attention_weights[i][idx]:.4f})")
            break



=== Analyse des poids d'attention ===
Phrase originale: In this tutorial I will show you how to build embeddings and the self attention mechanism. 

Pour le mot 'In':
  Attention vers 'In' : 0.1209
  Attention vers 'embeddings' : 0.1116
  Attention vers 'show' : 0.0992

Pour le mot 'this':
  Attention vers 'show' : 0.0890
  Attention vers 'this' : 0.0824
  Attention vers 'In' : 0.0799

Pour le mot 'tutorial':
  Attention vers 'tutorial' : 0.1235
  Attention vers 'attention' : 0.1177
  Attention vers 'will' : 0.1069

Pour le mot 'I':
  Attention vers 'attention' : 0.0885
  Attention vers 'tutorial' : 0.0839
  Attention vers 'and' : 0.0803

Pour le mot 'will':
  Attention vers 'tutorial' : 0.1232
  Attention vers 'attention' : 0.1209
  Attention vers 'will' : 0.1147

Pour le mot 'show':
  Attention vers 'show' : 0.1192
  Attention vers 'embeddings' : 0.1134
  Attention vers 'In' : 0.0936

Pour le mot 'you':
  Attention vers 'In' : 0.1014
  Attention vers 'embeddings' : 0.0904
  Attentio

<h3 style="color:#0056b3; text-decoration:underline;">Résultat et Interprétation</h3>

Cette expérimentation met en œuvre un mécanisme de <strong>self-attention</strong> permettant à chaque mot d’une phrase de pondérer les autres mots en fonction de leur importance contextuelle.  
Chaque mot est représenté par un vecteur numérique aléatoire, et les poids d’attention sont calculés pour chaque paire de mots via un produit scalaire entre <code>Query</code> et <code>Key</code>, normalisé ensuite par une fonction softmax.

Les résultats montrent que certains mots comme <code>'attention'</code>, <code>'tutorial'</code> ou <code>'will'</code> attribuent une attention élevée à d’autres mots sémantiquement pertinents dans le contexte de la phrase.  
D’autres termes comme <code>'show'</code> ou <code>'embeddings'</code> concentrent également l’attention, soulignant leur rôle central dans la construction du sens global.

Ce comportement démontre que le mécanisme d’attention permet à un mot de “se reconstruire” dynamiquement en combinant de manière pondérée les informations issues des autres mots.  
L’algorithme capte ainsi les <strong>relations sémantiques implicites</strong> même sans apprentissage supervisé, révélant sa puissance dans la modélisation du langage naturel.

Ce test confirme l’intérêt du self-attention comme brique fondamentale des modèles de type Transformer. Il montre que la compréhension du sens global repose sur la capacité à intégrer des dépendances longues, au-delà de la proximité immédiate entre mots, ouvrant la voie à des représentations linguistiques plus expressives et contextuellement précises.
