<img src="https://github.com/alan-barzilay/NLPortugues/blob/master/imagens/logo_nlportugues.png?raw=true"  style="height:65%" align="right">


# Lista 8 - Transformers 
**Nome:**

**Numero Usp:**













______________

# Classificação de Texto com Transformer

O objetivo deste exercício é usar o tensorflow para implementar um único bloco encoder da arquitetura Transformer, com diversas cabeças, e usar o seu resultado para classificar um texto.  Os proncipais blocos são dados, mas você derá implementar os seguintes passos:
  1. Extrair os dados de treinamento e teste do córpus
  2. Construir o embedding e a camada de posicionamento do transformer
  3. Conectar a entrada ao blco transformer e a sua saída a uma rede feed-forward.  Compilar e testar.

## Setup


In [2]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers


## Implementa Auto-Atenção Multi-cabeça como uma camada Keras

Processamento da entrada:

  1. Para cada palavra da entrada _X_, insira num espaço de dimensão _d_;
  2. Partilha em _H_ cabeças.  Em cada cabeça multiplica _X_ com as matrizes de pesos $W_Q, W_K, W_V$;
  
![self-attention-matrix-calculation.png](attachment:self-attention-matrix-calculation.png)

  3. Processamento de uma cabeça, calcula a atenção usando _Q,K,V_ e obtém uma matriz de saída para cada cabeça;


![self-attention-matrix-calculation-2.png](attachment:self-attention-matrix-calculation-2.png)

  4. Processamento multi-cabeça, concatenando as saídasem uma única matriz de saída;
![transformer_attention_heads_qkv.png](attachment:transformer_attention_heads_qkv.png)



  5. Multiplica a matriz concatenada por uma matriz de pesos de saída $W^O$.

In [5]:
class MultiHeadSelfAttention(layers.Layer):
    def __init__(self, embed_dim, num_heads ):
        super(MultiHeadSelfAttention, self).__init__()
        if embed_dim % num_heads != 0:
            raise ValueError(
                f"dimensão do embedding = {embed_dim} deve ser "  +
                "divisível pelo n. de cabeças = {num_heads}"
            )
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.projection_dim = embed_dim // num_heads
        self.query_dense = layers.Dense(embed_dim)
        self.key_dense = layers.Dense(embed_dim)
        self.value_dense = layers.Dense(embed_dim)
        self.combine_heads = layers.Dense(embed_dim)

    def attention(self, query, key, value):
        score = tf.matmul(query, key, transpose_b=True)
        dim_key = tf.cast(tf.shape(key)[-1], tf.float32)
        scaled_score = score / tf.math.sqrt(dim_key)
        weights = tf.nn.softmax(scaled_score, axis=-1)
        output = tf.matmul(weights, value)
        return output, weights

    def separate_heads(self, x, batch_size):
        # divide o embedding_dim em n_cabeças de projection_dim (batch_size e seq_len são mantidos)
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.projection_dim))
        # reordena o n_cabeças com a seq_len
        return tf.transpose(x, perm=[0, 2, 1, 3])

    def call(self, inputs):
        # x.shape = [batch_size, seq_len, embedding_dim]
        batch_size = tf.shape(inputs)[0]
        query = self.query_dense(inputs)  # (batch_size, seq_len, embed_dim)
        key = self.key_dense(inputs)      # (batch_size, seq_len, embed_dim)
        value = self.value_dense(inputs)  # (batch_size, seq_len, embed_dim)
        query = self.separate_heads(
            query, batch_size
        )  # (batch_size, num_heads, seq_len, projection_dim)
        key = self.separate_heads(
            key, batch_size
        )  # (batch_size, num_heads, seq_len, projection_dim)
        value = self.separate_heads(
            value, batch_size
        )  # (batch_size, num_heads, seq_len, projection_dim)
        attention, weights = self.attention(query, key, value)
        attention = tf.transpose(
            attention, perm=[0, 2, 1, 3]
        )  # (batch_size, seq_len, num_heads, projection_dim)
        concat_attention = tf.reshape(
            attention, (batch_size, -1, self.embed_dim)
        )  # (batch_size, seq_len, embed_dim)
        output = self.combine_heads(
            concat_attention
        )  # (batch_size, seq_len, embed_dim)
        return output



## Implementa um bloco Transformer como uma camada


In [6]:
class TransformerBlock(layers.Layer):
    def __init__(self, embed_dim, num_heads, ff_dim, rate=0.1):
        super(TransformerBlock, self).__init__()
        self.att = MultiHeadSelfAttention(embed_dim, num_heads)
        self.ffn = keras.Sequential(
            [layers.Dense(ff_dim, activation="relu"), 
             layers.Dense(embed_dim),
            ]
        )
        self.layernorm1 = layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = layers.LayerNormalization(epsilon=1e-6)
        self.dropout1 = layers.Dropout(rate)
        self.dropout2 = layers.Dropout(rate)

    def call(self, inputs, training):
        attn_output = self.att(inputs)
        attn_output = self.dropout1(attn_output, training=training)
        out1 = self.layernorm1(inputs + attn_output)
        ffn_output = self.ffn(out1)
        ffn_output = self.dropout2(ffn_output, training=training)
        return self.layernorm2(out1 + ffn_output)



## Implementa a camada de _embedding_ e posicionamento

## <font color='blue'>Questão 1 </font>

Aqui começa a nossa implementação.  A ideia é fazer o seguinte:

  - pegue um string $s$ e substitua cada token pelo seu _embedding_ $x_e$. Vamos novamente utilizar os vetores de palavras de 50 dimensões para lingua portuguesa fornecidos pelo NILC, como na Lista 04. Para evitar problemas de mémoria você deve utilizar apenas as 200 mil palavras mais comum. Nós ja fornecemos um script que realiza esse pré-processamento por você, basta baixar o arquivo cbow_s50.zip do site do NILC, extrai-lo na pasta deste notebook e rodar a célula seguinte. 
  - vamos calcular o posicionamento (para 50 posições) de acordo com o método **Transformer**.  Existem algumas formas de fazer isso
      * Criar uma camada específica para codificar o posicionamento.  Esta camada recebe na entrada o número da posição  e retorna um vetor de tamanho embedding_dim (50 para nós), e deve ser treinada junto co o resto.
      * Usar o método de posicionamento dos Transformes. **É isso que vocês irão fazer !!!** a forma de computar esses valores é:
      
      $$PE[pos, i] = sin \left(\frac{pos}{10000^{i/d}}\right), ~~~~~i \textrm{ é par}$$
      
      $$PE[pos, i] = cos \left(\frac{pos}{10000^{(i-1)/d}} \right),   ~~~~i \textrm{ é ímpar}$$
      
onde $pos$ é a posição, $i$ é a dimensãoe $d$ é a dimensão do embedding (50, no nosso caso).  Sinta-se a vontade para alterar esta fórmula!

  - **Some** o embedding com o posicionamento

In [None]:
# Complete o código abaixo
class TokenAndPositionEmbedding(layers.Layer):
    def __init__(self, maxlen, vocab_size, embed_dim):
        super(TokenAndPositionEmbedding, self).__init__()
        # ...
    def call(self, x):  # o que  é x aqui?
        # ...
        return x + positions

## Prepare o dataset

## <font color='blue'>Questão 2 </font>

   Vamos usar o dataset da B2W, como entrada teremos o campo `review_text` e como saída (o que queremos prever) é 0 campo `recommend_to_a_friend`, com "yes" -> 1 e "no" -> 0.
   
   V deve dividir os dados com 80% treino e 20% teste.  Dê uma embaralhada aleatória nos dados para, se você quiser, fazer validação cruzada ($k$-fold).


In [None]:
# Seu código aqui
x_train = 
y_train =
, batch_size=32, epochs=2, validation_data=(x_test, y_test

In [None]:
vocab_size = 20000  # Only consider the top 20k words
maxlen = 200  # Only consider the first 200 words of each movie review
(x_train, y_train), (x_val, y_val) = keras.datasets.imdb.load_data(num_words=vocab_size)
print(len(x_train), "Training sequences")
print(len(x_val), "Validation sequences")
x_train = keras.preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen)
x_val = keras.preprocessing.sequence.pad_sequences(x_val, maxlen=maxlen)


## Crie um classificador usando o bloco transformer

## <font color='blue'>Questão 3 </font>

A camada do transformer produz um vetor para cada palavra da sequência de entrada.  Aqui você tem duas possibilidades e vai ter de escolher:
  - Pegar a média em todas as saídas e usar uma rede de feed forward sobre ela para classificar o texto.
  - Inserir uma mesma palavra <start> no início de todas as sentenças, com embedding comomo de qualquer outra palavra.   Usar uma rede de feed forward sobre a saída desta palavra <start>  para classificar o texto.  

In [None]:
# complete 0 código abaixo
embed_dim = 50  # tamanho do Embedding de cada token
num_heads = 5   # N. de cabeças de atenção
ff_dim = 32     # tamanho da camada oculta nas redes feed forward dentro do transformer

inputs = layers.Input(shape = ... )
embedding_layer = TokenAndPositionEmbedding(maxlen, vocab_size, embed_dim)
x = embedding_layer(inputs)

# ...
outputs = #...

model = keras.Model(inputs=inputs, outputs=outputs)


In [None]:

embed_dim = 32  # Embedding size for each token
num_heads = 2  # Number of attention heads
ff_dim = 32  # Hidden layer size in feed forward network inside transformer

inputs = layers.Input(shape=(maxlen,))
embedding_layer = TokenAndPositionEmbedding(maxlen, vocab_size, embed_dim)
x = embedding_layer(inputs)
transformer_block = TransformerBlock(embed_dim, num_heads, ff_dim)
x = transformer_block(x)
x = layers.GlobalAveragePooling1D()(x)
x = layers.Dropout(0.1)(x)
x = layers.Dense(20, activation="relu")(x)
x = layers.Dropout(0.1)(x)
outputs = layers.Dense(2, activation="softmax")(x)

model = keras.Model(inputs=inputs, outputs=outputs)



## Treine e Teste

(Pode mudar, se quiser)

In [None]:
model.compile("adam", "sparse_categorical_crossentropy", metrics=["accuracy"])
history = model.fit(
    x_train, y_train, batch_size=32, epochs=2, validation_data=(x_test, y_test)
)
