**O Nascimento do Mecanismo de Atenção**

Um dos motivos pelos quais gosto de assistir palestras de grandes especialistas, mesmo sobre temas que já conheço bem, é ver como eles apresentam suas ideias e ouvir algumas histórias interessantes. Além disso, é sempre bom escutar pessoas inteligentes.

Em um vídeo introdutório sobre transformadores, Andrej Karpathy menciona o artigo de 2015, "Neural Machine Translation by Jointly Learning to Align and Translate," que deu início ao mecanismo de atenção. Ele também fala sobre algumas trocas de e-mails com Dzmitry Bahdanau, o autor principal do artigo. Dzmitry enviou a Andrej um e-mail longo explicando o contexto de como surgiu a ideia da atenção (a partir de 18:36 no vídeo — link abaixo, no Youtube).

Na época, já se conhecia o gargalo entre o codificador e o decodificador, e muitos experimentos fracassados haviam sido feitos. Dzmitry, refletindo sobre como ele mesmo traduz entre idiomas, percebeu que sempre mudava seu foco entre as línguas de origem e destino. Para gerar a próxima palavra na tradução — ou entender por que uma certa palavra foi usada — era necessário olhar para várias palavras da frase original. Ele modelou essa mudança de foco usando softmax, e, surpreendentemente, funcionou na primeira tentativa. O resto é a história que todos conhecemos!

Curiosamente, o termo "atenção" foi sugerido por Yoshua Bengio em uma das últimas edições do artigo. Será que a ideia teria ganhado tanta força sem um nome tão atraente? Essa é a sabedoria dos grandes. Quase posso visualizar o momento: "Certo, Dzmitry, mostre o que você tem. Ah, isso é Atenção!"

Convenhamos, o nome foi genial!

Link para a aula: https://www.youtube.com/watch?v=XfpMkf4rD6E&t=1115s

In [1]:
import numpy as np

# Frase de exemplo
frase = "O gato está no tapete"

# Função para criar embeddings simples (apenas para demonstração)
def criar_embedding(palavra):
    return np.random.rand(4)  # Vetor de 4 dimensões para cada palavra

# Função softmax simplificada
def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=0)

# Criando embeddings para cada palavra
palavras = frase.split()
embeddings = [criar_embedding(palavra) for palavra in palavras]

# Função de self-attention simplificada
def self_attention(embeddings):
    # Criando matrizes Q, K, V (simplificadas)
    Q = np.array(embeddings)
    K = np.array(embeddings)
    V = np.array(embeddings)
    
    # Calculando os scores de atenção
    scores = np.dot(Q, K.T)
    
    # Aplicando softmax para obter os pesos de atenção
    pesos_atencao = softmax(scores)
    
    # Calculando os valores ponderados
    valores_ponderados = np.dot(pesos_atencao, V)
    
    return pesos_atencao, valores_ponderados

# Aplicando self-attention
pesos_atencao, valores_ponderados = self_attention(embeddings)

# Exibindo os resultados
print("Frase original:", frase)
print("\nPesos de Atenção:")
for i, palavra in enumerate(palavras):
    print(f"\nPara a palavra '{palavra}':")
    for j, outra_palavra in enumerate(palavras):
        print(f"  Atenção para '{outra_palavra}': {pesos_atencao[i][j]:.4f}")

print("\nExplicação:")
for i, palavra in enumerate(palavras):
    max_atencao = np.argmax(pesos_atencao[i])
    print(f"'{palavra}' presta mais atenção em '{palavras[max_atencao]}'")

Frase original: O gato está no tapete

Pesos de Atenção:

Para a palavra 'O':
  Atenção para 'O': 0.3302
  Atenção para 'gato': 0.2707
  Atenção para 'está': 0.2431
  Atenção para 'no': 0.2600
  Atenção para 'tapete': 0.1965

Para a palavra 'gato':
  Atenção para 'O': 0.1781
  Atenção para 'gato': 0.1835
  Atenção para 'está': 0.1683
  Atenção para 'no': 0.1822
  Atenção para 'tapete': 0.1666

Para a palavra 'está':
  Atenção para 'O': 0.2293
  Atenção para 'gato': 0.2412
  Atenção para 'está': 0.2910
  Atenção para 'no': 0.2255
  Atenção para 'tapete': 0.2633

Para a palavra 'no':
  Atenção para 'O': 0.1501
  Atenção para 'gato': 0.1598
  Atenção para 'está': 0.1380
  Atenção para 'no': 0.1856
  Atenção para 'tapete': 0.1481

Para a palavra 'tapete':
  Atenção para 'O': 0.1123
  Atenção para 'gato': 0.1448
  Atenção para 'está': 0.1596
  Atenção para 'no': 0.1467
  Atenção para 'tapete': 0.2255

Explicação:
'O' presta mais atenção em 'O'
'gato' presta mais atenção em 'gato'
'está' pre

# Exemplo Simplificado de Self-Attention

Este notebook demonstra um exemplo simplificado de como o self-attention funciona em uma frase básica.

## Visão Geral

- Usamos a frase "O gato está no tapete" como exemplo.
- Criamos embeddings simples para cada palavra.
- Implementamos uma versão simplificada do self-attention.
- Analisamos como cada palavra se relaciona com as outras na frase.

## Componentes Principais

1. **Criação de Embeddings**
   - Função `criar_embedding`: Gera vetores aleatórios para representar palavras.
   - Em modelos reais, estes embeddings seriam aprendidos durante o treinamento.

2. **Função Softmax**
   - Converte scores em probabilidades.

3. **Self-Attention Simplificado**
   - Função `self_attention`: Simula o processo de self-attention.
   - Cria matrizes Q, K e V simplificadas.
   - Calcula scores de atenção e aplica softmax.
   - Calcula valores ponderados.

## Processo

1. Dividimos a frase em palavras.
2. Criamos embeddings para cada palavra.
3. Aplicamos o self-attention aos embeddings.
4. Analisamos os pesos de atenção resultantes.

## Resultados

O código exibe:
- Pesos de atenção entre cada par de palavras.
- Uma interpretação simplificada de qual palavra recebe mais atenção de cada palavra da frase.

## Observações

- Este é um exemplo muito simplificado para fins didáticos.
- Em um Transformer real, o processo seria mais complexo:
  - Múltiplas camadas de atenção.
  - Múltiplas cabeças de atenção.
  - Treinamento para aprender embeddings e pesos.

Este exemplo ajuda a visualizar como o contexto é considerado no processamento de linguagem natural usando self-attention.

In [2]:
import numpy as np

# Frase de exemplo
frase = "Scoras é uma empresa que cria Agentes de Inteligência Artificial"

# Função para criar embeddings simples (apenas para demonstração)
def criar_embedding(palavra):
    return np.random.rand(4)  # Vetor de 4 dimensões para cada palavra

# Função softmax simplificada
def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=0)

# Criando embeddings para cada palavra
palavras = frase.split()
embeddings = [criar_embedding(palavra) for palavra in palavras]

# Função de self-attention simplificada
def self_attention(embeddings):
    # Criando matrizes Q, K, V (simplificadas)
    Q = np.array(embeddings)
    K = np.array(embeddings)
    V = np.array(embeddings)
    
    # Calculando os scores de atenção
    scores = np.dot(Q, K.T)
    
    # Aplicando softmax para obter os pesos de atenção
    pesos_atencao = softmax(scores)
    
    # Calculando os valores ponderados
    valores_ponderados = np.dot(pesos_atencao, V)
    
    return pesos_atencao, valores_ponderados

# Aplicando self-attention
pesos_atencao, valores_ponderados = self_attention(embeddings)

# Exibindo os resultados
print("Frase original:", frase)
print("\nPesos de Atenção:")
for i, palavra in enumerate(palavras):
    print(f"\nPara a palavra '{palavra}':")
    # Mostrar apenas as 3 palavras com maior atenção
    top_3 = sorted(range(len(palavras)), key=lambda j: pesos_atencao[i][j], reverse=True)[:3]
    for j in top_3:
        print(f"  Atenção para '{palavras[j]}': {pesos_atencao[i][j]:.4f}")

print("\nExplicação:")
for i, palavra in enumerate(palavras):
    max_atencao = np.argmax(pesos_atencao[i])
    print(f"'{palavra}' presta mais atenção em '{palavras[max_atencao]}'")

Frase original: Scoras é uma empresa que cria Agentes de Inteligência Artificial

Pesos de Atenção:

Para a palavra 'Scoras':
  Atenção para 'Scoras': 0.1107
  Atenção para 'que': 0.1060
  Atenção para 'empresa': 0.1020

Para a palavra 'é':
  Atenção para 'é': 0.1589
  Atenção para 'Artificial': 0.1093
  Atenção para 'Inteligência': 0.0980

Para a palavra 'uma':
  Atenção para 'uma': 0.1375
  Atenção para 'cria': 0.1139
  Atenção para 'empresa': 0.1049

Para a palavra 'empresa':
  Atenção para 'empresa': 0.0845
  Atenção para 'Scoras': 0.0674
  Atenção para 'Artificial': 0.0620

Para a palavra 'que':
  Atenção para 'que': 0.2060
  Atenção para 'Scoras': 0.1674
  Atenção para 'Agentes': 0.1425

Para a palavra 'cria':
  Atenção para 'de': 0.1197
  Atenção para 'cria': 0.1197
  Atenção para 'Inteligência': 0.1179

Para a palavra 'Agentes':
  Atenção para 'Agentes': 0.2135
  Atenção para 'que': 0.1824
  Atenção para 'é': 0.1639

Para a palavra 'de':
  Atenção para 'de': 0.1148
  Atenção pa

# Exemplo Expandido de Self-Attention

Este notebook demonstra um exemplo simplificado de self-attention aplicado a uma frase mais complexa.

## Frase de Exemplo

"Scoras é uma empresa que cria Agentes de Inteligência Artificial"

## Comparação com o Exemplo Anterior

1. **Tamanho da Frase**
   - Nova frase: 9 palavras vs. 5 palavras anteriormente
   - Resulta em mais embeddings e uma matriz de atenção maior (9x9 vs. 5x5)

2. **Nome Próprio "Scoras"**
   - Tratado como qualquer outra palavra neste exemplo simplificado
   - Em modelos reais, poderia receber tratamento especial

3. **Exibição dos Resultados**
   - Adaptada para mostrar apenas as 3 palavras com maior atenção para cada palavra
   - Melhora a legibilidade com uma frase mais longa

4. **Complexidade Computacional**
   - Operações matriciais maiores devido ao aumento de palavras

5. **Contexto Mais Rico**
   - A frase mais longa oferece mais oportunidades para relações entre palavras
   - Exemplo: "Inteligência" e "Artificial" provavelmente terão forte relação

6. **Potencial para Relações Mais Complexas**
   - Mais palavras permitem capturar relações de longa distância na frase

## Observações Importantes

- Este exemplo ainda é muito simplificado comparado a modelos reais de NLP:
  - Stop words (como "é", "uma", "que") normalmente receberiam tratamento especial
  - Nomes próprios como "Scoras" poderiam ter embeddings pré-treinados
  - A atenção seria calculada em múltiplas camadas e cabeças

- Os embeddings aleatórios neste exemplo não produzem relações semanticamente significativas
  - Em um modelo treinado, esperaríamos ver relações mais coerentes entre as palavras

## Conclusão

Este exemplo expandido ilustra como o self-attention pode lidar com frases mais longas e complexas, mesmo que de forma simplificada. Ele demonstra a flexibilidade do mecanismo de atenção em processar entradas de diferentes tamanhos e complexidades.