In [1]:
import numpy as np

Objetivo: A função softmax converte uma lista de números em uma distribuição de probabilidades.
Como funciona:
Primeiro, np.exp(x) calcula o exponencial de cada valor em x.
Em seguida, np.sum(np.exp(x), axis=-1, keepdims=True) calcula a soma desses exponenciais ao longo da última dimensão (axis=-1), mantendo as dimensões originais (keepdims=True).
Finalmente, cada valor exponencial é dividido pela soma total para obter a probabilidade correspondente.

In [2]:
def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=-1, keepdims=True)

Objetivo: A função cross_attention implementa o mecanismo de atenção cruzada, calculando as "pesos de atenção" e a "saída ponderada" para as sequências de entrada.
Passos detalhados:

scores = np.dot(Q, K.T): Calcula as pontuações de atenção multiplicando as matrizes Q (queries) e K.T (a transposta de keys). Isso mede a similaridade entre cada par de elementos de Q e K.

attention_weights = softmax(scores): Aplica a função softmax nas pontuações para transformar essas pontuações em probabilidades, que indicam a importância relativa de cada palavra em K para cada palavra em Q.

output = np.dot(attention_weights, V): Multiplica os pesos de atenção pelos valores V para calcular a saída final, que é uma combinação ponderada dos valores V baseada nas probabilidades calculadas.


In [3]:
def cross_attention(Q, K, V):
    scores = np.dot(Q, K.T)
    attention_weights = softmax(scores)
    output = np.dot(attention_weights, V)
    return output, attention_weights

In [4]:
Q = np.array([
    [1, 0, 0],
    [0, 1, 0]
])

K = np.array([
    [1, 0, 1],
    [0, 2, 0],
    [1, 1, 1]
])
V = K



Q: É uma matriz que representa a sequência de destino (ou queries). Cada linha corresponde a uma "palavra" na sequência de destino.

K: É a matriz que representa a sequência de origem (ou keys). Cada linha corresponde a uma "palavra" na sequência de origem.

V: Geralmente, V (values) é igual a K. Representa os valores que serão combinados para gerar a saída.

In [5]:
output, attention_weights = cross_attention(Q, K, V)

Chama a função: A função cross_attention é chamada com as matrizes Q, K, e V.
Resultados:

output: É a saída final, ou seja, a nova representação das palavras na sequência de destino depois de aplicar a atenção cruzada.

attention_weights: São os pesos de atenção, que mostram quanto cada palavra na sequência de destino se relaciona com as palavras na sequência de origem.

In [6]:
print("Sequência de Destino (Q):")
print(Q)
print("\nSequência de Origem (K e V):")
print(K)
print("\nPesos de Atenção:")
print(attention_weights)
print("\nSaída com Cross-Attention Aplicada:")
print(output)

Sequência de Destino (Q):
[[1 0 0]
 [0 1 0]]

Sequência de Origem (K e V):
[[1 0 1]
 [0 2 0]
 [1 1 1]]

Pesos de Atenção:
[[0.4223188  0.1553624  0.4223188 ]
 [0.09003057 0.66524096 0.24472847]]

Saída com Cross-Attention Aplicada:
[[0.8446376  0.73304361 0.8446376 ]
 [0.33475904 1.57521038 0.33475904]]


Objetivo: Exibir os valores de Q, K, os pesos de atenção calculados, e a saída final output.
Resultados mostrados:

Sequência de Destino (Q): Exibe a matriz Q.

Sequência de Origem (K e V): Exibe a matriz K (e V que é igual a K).
Pesos de Atenção: Mostra as probabilidades calculadas que indicam a importância de cada palavra.

Saída com Cross-Attention Aplicada: Mostra a nova sequência gerada após a aplicação da atenção cruzada.