# 1-Définition des matrices Q, K, V

In [1]:
import numpy as np

# Nous travaillons avec 3 tokens fictifs
tokens = ["t1", "t2", "t3"]
print("Tokens :", tokens)

# On définit des matrices Q, K, V simples à la main
# d_k = 2 pour que tout reste lisible
Q = np.array([
    [1.0, 0.0],  # Query pour t1
    [0.0, 1.0],  # Query pour t2
    [1.0, 1.0],  # Query pour t3
])

K = np.array([
    [1.0, 0.0],  # Key   pour t1
    [1.0, 1.0],  # Key   pour t2
    [0.0, 1.0],  # Key   pour t3
])

V = np.array([
    [1.0, 0.0],  # Value pour t1
    [0.0, 1.0],  # Value pour t2
    [1.0, 1.0],  # Value pour t3
])

print("Q =\n", Q)
print("\nK =\n", K)
print("\nV =\n", V)

d_k = Q.shape[1]
print("\nd_k =", d_k)


Tokens : ['t1', 't2', 't3']
Q =
 [[1. 0.]
 [0. 1.]
 [1. 1.]]

K =
 [[1. 0.]
 [1. 1.]
 [0. 1.]]

V =
 [[1. 0.]
 [0. 1.]
 [1. 1.]]

d_k = 2


# 2. Scores bruts : S = Q K^T / sqrt(d_k)

In [3]:
S = Q @ K.T / np.sqrt(d_k)  # (3 x 3)
print("S = Q K^T / sqrt(d_k) :\n", np.round(S, 3))


S = Q K^T / sqrt(d_k) :
 [[0.707 0.707 0.   ]
 [0.    0.707 0.707]
 [0.707 1.414 0.707]]



# 3. Softmax ligne par ligne

In [4]:


def softmax_rowwise(x):
    # x : matrice (n x m)
    # on applique softmax sur chaque ligne
    x_max = np.max(x, axis=1, keepdims=True)      # pour la stabilité numérique
    e = np.exp(x - x_max)
    return e / e.sum(axis=1, keepdims=True)

A = softmax_rowwise(S)
print("A = softmax_ligne_par_ligne(S) :\n", np.round(A, 3))

print("\nVérification (somme des lignes de A) :")
print(np.round(A.sum(axis=1), 3))


A = softmax_ligne_par_ligne(S) :
 [[0.401 0.401 0.198]
 [0.198 0.401 0.401]
 [0.248 0.503 0.248]]

Vérification (somme des lignes de A) :
[1. 1. 1.]



# 4. Sortie de la self-attention : O = A V


In [5]:


O = A @ V  # (3 x 2)
print("O = A V :\n", np.round(O, 3))

for i, tok in enumerate(tokens):
    print(f"Représentation transformée pour {tok} :", np.round(O[i], 3))


O = A V :
 [[0.599 0.599]
 [0.599 0.802]
 [0.497 0.752]]
Représentation transformée pour t1 : [0.599 0.599]
Représentation transformée pour t2 : [0.599 0.802]
Représentation transformée pour t3 : [0.497 0.752]


In [6]:
import pandas as pd

df_S = pd.DataFrame(S, index=tokens, columns=tokens)
df_A = pd.DataFrame(A, index=tokens, columns=tokens)

print("Scores S :")
display(df_S.style.format("{:.3f}"))

print("Poids d'attention A :")
display(df_A.style.format("{:.3f}"))


Scores S :


Unnamed: 0,t1,t2,t3
t1,0.707,0.707,0.0
t2,0.0,0.707,0.707
t3,0.707,1.414,0.707


Poids d'attention A :


Unnamed: 0,t1,t2,t3
t1,0.401,0.401,0.198
t2,0.198,0.401,0.401
t3,0.248,0.503,0.248
