# Mecanismos de atenção

Atenção consiste em combinar diferentes informações sendo processadas por uma rede neural de forma a aumentar o contexto dos atributos. Por exemplo, ao processar uma imagem, filtros de CNNs combinam valores bem locais (ex: regiões 3x3), e são necessárias muitas camadas para que a rede consiga combinar regiões distintias de uma imagem. Mecanismos de atenção podem ser utilizados para combinar regiões distantes de uma imagem, o que permite que cada região seja processada com um contexto global.

### Atenção de canais

A atenção de canais envolve enaltecer canais de ativação que são importantes e suprimir canais com menor relevância. Um módulo muito utilizado é o chamado *squeeze-and-excitation*, que facilita a modulação dos valores dos canais coonforme a necessidade de processamento da rede.

In [1]:
import torch
from torch import nn

class SqueezeExcitation(nn.Module):

    def __init__(self, in_channels, squeeze_channels=None):
        """
        Args:
            in_channels (int): nro de canais de entrada
            squeeze_channels (int): nro de canais intermediários
        """
        super().__init__()

        if squeeze_channels is None:
            squeeze_channels = in_channels

        self.avgpool = nn.AdaptiveAvgPool2d(1)
        self.fc1 = nn.Conv2d(in_channels, squeeze_channels, 1)
        self.activation = nn.ReLU()
        self.fc2 = nn.Conv2d(squeeze_channels, in_channels, 1)
        self.scale_activation = nn.Sigmoid()

    def forward(self, x):

        # bs x C x 1 x 1
        scale = self.avgpool(x)
        # Mistura os canais com uma convolução 1 x 1 bottleneck, que reduz
        # o número de canais
        scale = self.fc1(scale)
        scale = self.activation(scale)
        # Aumenta novamente o número de canais
        scale = self.fc2(scale)
        # Normaliza no intervalo [0,1]
        scale = self.scale_activation(scale)
        # Reescala os canais 
        # bs x C x 1 x 1 * bs x C x H x W
        x = scale*x

        return x
    
se = SqueezeExcitation(16, 4)

# Batch com 8 ativações, cada uma possuindo 16 canais e tamanho 64x64
y = se(torch.rand(8, 16, 64, 64))
y.shape

torch.Size([8, 16, 64, 64])

### Atenção espacial

A atenção espacial consiste em transformar regiões da imagem em tokens. Esses tokens não possuem uma posição espacial, eles são tratados como um *bag of tokens* que podem ser combinados de forma independente, sem levar em conta a proximidade entre eles. Tokens são exatamente o mesmo conceito encontrado em processamento de língua natural (NLP).

In [2]:
class PatchifyLayer(nn.Module):
    """Módulo que transforma uma imagem em um conjunto de tokens."""
        
    def __init__(self, image_size, patch_size, token_dim):
        """`image_size` precisa ser divisível por `patch_size`.

        Args:
            image_size (int): tamanho da imagem que será processada.
            patch_size (int): tamanho das regiões que serão transformada em tokens.
            token_dim (int): número de atributos gerados para cada token.
        """
        super().__init__()

        # Note o stride. Essa camada transforma cada região patch_size x patch_size 
        # da imagem em token_dim x 1 x 1
        self.conv_proj = nn.Conv2d(
            3, token_dim, kernel_size=patch_size, stride=patch_size
        )

        # Novo tamanho da imagem
        new_size = image_size//patch_size
        # Tamanho da sequência de tokens
        seq_length = new_size**2

        self.token_dim = token_dim
        self.new_size = new_size
        self.seq_length = seq_length

    def forward(self, x):

        # (bs, c, image_size, image_size) -> (bs, token_dim, new_size, new_size)
        x = self.conv_proj(x)
        # (bs, token_dim, new_size, new_size) -> (bs, token_dim, (new_size*new_size))
        x = x.reshape(x.shape[0], self.token_dim, -1)
        # Coloca a dimensão espacial como segunda, pois o padrão de camadas de 
        # atenção é bs x seq_length x token_dim
        x = x.permute(0, 2, 1)

        return x

# 8 imagens RGB de tamanho 224 x 224
x = torch.rand(8, 3, 224, 224)
pl = PatchifyLayer(image_size=224, patch_size=16, token_dim=768)
tokens = pl(x)
tokens.shape

torch.Size([8, 196, 768])

Cada imagem em um batch é representada por 196 tokens, cada um possuindo 768 atributos

Tendo a imagem representada como uma sequência, podemos aplicar um mecanismo de atenção à imagem

In [3]:
def attention(query, key, value):
    
    # Tamanho de cada token
    d_k = query.shape[-1]
    # Similaridade entre cada par de tokens da sequência
    scores = torch.matmul(query, key.transpose(-2, -1)) / d_k**0.5
    # Normaliza a similaridade entre [0,1]
    p_attn = scores.softmax(dim=-1)
    # Atualiza os valores dos tokens de acordo com as similaridades
    value = torch.matmul(p_attn, value)

    return value

out = attention(tokens, tokens, tokens)
out.shape

torch.Size([8, 196, 768])

Note que o mecanismo de atenção não possui parâmetros treináveis!

O artigo original sobre atenção define a chamada multi-headed attention, que consiste em realizar diversas atenções em paralelo para aumentar o poder de expressividade do modelo

In [4]:
class MultiHeadedAttention(nn.Module):
    def __init__(self, heads, token_dim):
        super().__init__()

        # Valor usado para normalização
        d_k = token_dim//heads
        self.heads = heads
        self.d_k = d_k
        # Camadas de projeção antes da atenção
        self.proj_query = nn.Linear(token_dim, token_dim)
        self.proj_key = nn.Linear(token_dim, token_dim)
        self.proj_value = nn.Linear(token_dim, token_dim)
        self.final = nn.Linear(token_dim, token_dim)

    def proj_and_reshape(self, layer, x):
        '''Aplica uma transformação linear e redimensiona o resultado
        para ser usado na função de atenção.'''

        bs = x.shape[0]
        # A multiplicação x*layer.weight abaixo possui dimensão:
        # (bs x n x token_dim) * (token_dim x heads*d_k)
        # onde n é o tamanho da sequência.
        # Cada sequência com token_dim (heads*d_k) atributos é multiplicada por 
        # uma coluna da camada linear. Isso é equivalente a fazer a sequinte operação:
        # Aplicar `heads`` camadas, cada uma com tamanho token_dim x d_k, nas sequências
        # e depois concatenar os resultados. 
        x = layer(x)
        # Visualiza o resultado como uma matriz bs x heads x n x d_k. Isso
        # possibilita aplicar a função `attention` nas dimensões n x d_k
        x = x.view(bs, -1, self.heads, self.d_k).transpose(1, 2)

        return x

    def forward(self, query, key, value):

        nbatches = query.shape[0]
        query_proj = self.proj_and_reshape(self.proj_query, query)
        key_proj = self.proj_and_reshape(self.proj_key, key)
        value_proj = self.proj_and_reshape(self.proj_value, value)

        x = attention(query_proj, key_proj, value_proj)
        # Redimensiona de bs x heads x n x d_k para bs x n x token_dim
        x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.heads*self.d_k)

        return self.final(x)
    
mha = MultiHeadedAttention(heads=12, token_dim=768)
out = mha(tokens, tokens, tokens)
out.shape

torch.Size([8, 196, 768])

O Pytorch possui uma camada que faz exatamente o que implementamos:

In [5]:
mha = nn.MultiheadAttention(embed_dim=768, num_heads=12, batch_first=True)
out, attn_weights  = mha(tokens, tokens, tokens)
print(out.shape, attn_weights.shape)

torch.Size([8, 196, 768]) torch.Size([8, 196, 196])


A camada também retorna a multiplicação entre as chaves e queries (variável `p_attn` na nossa função de atenção). Essa variável é útil para verificar o relacionamento entre os tokens da sequência.

In [6]:
print(mha.in_proj_weight.shape)
print(mha.out_proj.weight.shape)

torch.Size([2304, 768])
torch.Size([768, 768])


O atributo `in_proj_weight` é a matriz de pesos das projeções das chaves, queries e valores. O Pytorch realiza as projeções em uma única multiplicação matricial. Para fazer isso basta concatenar as matrizes `proj_query`, `proj_key` e `proj_value` da nossa classe. Não fizemos dessa forma para deixar o código mais simples de entender.

O atributo `out_proj` é a camada linear de saída que implementamos (`final`)

Até o momento utilizamos a chamada *self-attention*, que consiste em utilizar a mesma variável como query, key e value. Mas o mecanismo de atenção pode ser utilizado de forma natural para misturar diferentes informações. Por exemplo, uma camada de atenção pode receber como entrada atributos sobre um texto e sobre uma imagem. Nesse caso, é comum associar `key` e `value` com os atributos do texto e `query` com os atributos da imagem:

In [7]:
# batch com 8 sequências de tokens de imagens
tokens_img = torch.rand(8, 196, 768)
# batch com 8 sequências de tokens de texto, cada texto possui 20 tokens e
# cada token 512 atributos. Por exemplo, esses textos podem ser descrições
# da imagem como "Uma imagem de um cachorro dormindo"
tokens_text = torch.rand(8, 20, 768)

#              query         key         value
out, _ = mha(tokens_img, tokens_text, tokens_text)
out.shape

torch.Size([8, 196, 768])

Os nomes *key*, *value* e *query* referenciam conceitos de banco de dados. Podemos considerar que *key* e *value* representam as chaves e valores de itens de um banco de dados. *query* é uma busca feita no banco. A similaridade entre a busca (*query*) e as chaves (*keys*) é calculada. A busca vai ser mais similar a algumas chaves do que outras. Os elementos mais similares encontrados na busca são usados para atualizar os valores de *value*, e esses valores atualizados são a saída da camada. 