# Lista 8 - Transformers

Na lista passada, exploramos mecanismos de atenção como métodos adicionais a serem aplicados a redes recorrentes para melhorar seus resultados. Nessa lista exploraremos o modelo Transformer, a primeira arquitetura a incorporar o mecanismo de atenção como parte central do processamento.
Nesta lista nos basearemos [neste artigo ilustrado](http://jalammar.github.io/illustrated-transformer/) para implementar uma versão simplificada da arquitetura do Transformer. A ideia é que implementar essa versão simplificada nos ajudará a entender quais peças a constituem e como cada um delas se encaixa.

Essa definitivamente não é maneira como um Transformer é de fato implementado, porque questões de complexidade e eficiência são bastante relevantes, mas ao retirá-las do caminho, poderemos entender melhor a estrutura conceitual e algoritmica do modelo.

De forma supercial, um tranformer é constituído de duas partes, uma componente de codificação e uma componente de decodificação. A componente de codificação é composta por uma pilha de Encoders e a componente de decofdificação por uma pilha de Decoders. Nesta lista implementaremos uma versão simplificada de um Encoder.

**Dica: Quando necessário use as funções matmul e softmax importadas abaixo**

In [None]:
import numpy as np
from numpy import matmul
from scipy.special import softmax

# <font color='blue'>  Questão 1 </font>

Comece implementado o mecanismo de auto-atenção, seguindo a maneira como ele é descrito [no artigo](http://jalammar.github.io/illustrated-transformer/). Use apenas a biblioteca numpy, não use o tensorflow, keras ou semelhantes. Essa não será uma versão eficiente, mas deve ser fácil de ser lida e entendida. Não se preocupe com o treinamento. Apenas considere que são fornecidas a matriz de input e as matrizes de query, key  e value já calculados e implemente uma função que aplique sobre elas o mecanismo de auto-atenção e retorne uma nova matriz de representações, representada pela variável output.

In [None]:
def self_attention(X, query, key, value):
    #Sua resposta começa aqui
    
    #Sua resposta acaba aqui
    return output

Com o mecanismo de auto-atenção implementado, podemos agora implementar a camada de encoder em si. Para te ajudar, já fornecemos algumas peças: uma rede feed-foward simplificada e uma camada de normalização. Basta encaixá-las nos lugares corretos dentro da camada e garantir que as partes por você implementadas estejam corretas e compatíveis com essas funções. Não modifique as funções feed_foward e layer_norm

In [None]:
def feed_forward(x):
    embedding_length = x.shape[-1]
    inner_dim = 4 * embedding_length
    ff_result = matmul(x, np.random.randn(embedding_length, inner_dim))
    ff_result = np.maximum(0, ff_result)  # ReLU activation
    ff_result = matmul(ff_result, np.random.randn(inner_dim, embedding_length))
    return ff_result

In [None]:
def layer_norm(x):
    norm_x = (x - np.mean(x, axis=-1, keepdims=True)) / np.sqrt(np.var(x, axis=-1, keepdims=True) + 1e-8)
    return norm_x

# <font color='blue'>  Questão 2 </font>

Agora que você tem as peças necessárias, implemente na função abaixo a arquitetura de uma camada de Encoder de transformer. Novamente, siga a arquitetura como definida [neste artigo](http://jalammar.github.io/illustrated-transformer/), use apenas o numpy e não se precupe com o treinamento dos parâmetros, suponha apenas que a entrada x é dada e que as matrizes Wq, Wk, Wv e Wo já foram treinadas.

Para simplificar, implemente o encoder como tendo **uma única cabeça de atenção (attention-head)**. Note que a matriz Wo ainda é necessária mesmo quando existe apenas uma camada de atenção, pois ela serve como uma forma de converter a dimensionalidade da matriz retornada pela camada de auto-atenção.

In [None]:
def encoder_layer(x, Wq, Wk, Wv, Wo):
    #Sua resposta começa aqui

    #Sua resposta acaba aqui
    return x

Agora você pode testar a sua implementação das questões anteriores, executando a célula abaixo. Execute-a sem modificá-la. Nenhum resultado específico é esperado. Apenas que tudo rode sem erros de dimensionalidade gerando um output de formato (4,8).

In [None]:
#Preenchemos os parâmetros com valores aleatórios para fazer um teste de
#sanidade com  a arquitetura implementada
embedding_length = 8
sequence_length = 4
model_dimension = 3
input_data = np.random.randn(sequence_length, embedding_length)
Wq = np.random.randn(embedding_length, model_dimension)
Wk = np.random.randn(embedding_length, model_dimension)
Wv = np.random.randn(embedding_length, model_dimension)
Wo = np.random.randn(model_dimension, embedding_length)
output = encoder_layer(input_data, Wq, Wk, Wv, Wo)
print(output.shape)

# <font color='blue'>  Questão 3 </font>
Para finalizar, descreva de forma concisa quais seriam as diferenças na sua implementação se, ao invés de implementar uma camada de Encoder, você fosse implementar um Decoder do Transformer.

**<font color='red'> Sua resposta aqui </font>**