In [2]:
import torch
from torch import nn

In [5]:
# Modelo transformer para aprendizado de sequência usando PyTorch

class Transformer(nn.Module):

    def __init__(self, vocab_size, embedding_dim, n_heads, n_layers, dropout):

        super().__init__()

        #Atributos
        self.vocab_size = vocab_size
        self.embedding_dim = embedding_dim
        self.n_heads = n_heads
        self.n_layers = n_layers
        self.dropout = dropout

        # Define a camada de embedding que transformara a sequencia de entrada em uma sequencia de vetores de dimensão fixa
        self.embedding = nn.Embedding(vocab_size, embedding_dim)

        # Define o mecanismo de auto-atencao multi-headed
        self.attention = nn.MultiheadAttention(embedding_dim, n_heads, dropout=dropout)

        # Define a rede neural feed-forward que será usad apara gerar a sequência de saída a partir da sequência de entrada
        self.feed_forward = nn.Sequential(
            nn.Linear(embedding_dim, embedding_dim),
            nn.ReLU(),
            nn.Linear(embedding_dim, embedding_dim)
        )

        # Define a camada de saída final que transformará a sequência de saída na forma da saída desejada
        self.out = nn.Linear(embedding_dim, vocab_size)

    def forward(self, x):

        # Aplica a camada de embedding a sequencia de entrada
        x = self.embedding(x)

        # Aplica o mecanismo multi-headed self-attention
        x = self.attention(x)

        # Aplica o método feed-forward
        x = self.feed_forward(x)

        # Aplicada a camada final 
        x = self.out(x)

        return x

Para criar um modelo transformador, você pode instanciar a classe Transformer e especificar os hiperparâmetros do modelo, como tamanho do vocabulário, a dimensão do embedding, o número de "cabeças" de atenção, o número de camadas e a taxa de dropout

In [6]:
# Exemplo
modelo = Transformer(vocab_size = 1000,
        embedding_dim=32,
        n_heads=4,
        n_layers=2,
        dropout=0.5)

In [7]:
modelo.modules

<bound method Module.modules of Transformer(
  (embedding): Embedding(1000, 32)
  (attention): MultiheadAttention(
    (out_proj): NonDynamicallyQuantizableLinear(in_features=32, out_features=32, bias=True)
  )
  (feed_forward): Sequential(
    (0): Linear(in_features=32, out_features=32, bias=True)
    (1): ReLU()
    (2): Linear(in_features=32, out_features=32, bias=True)
  )
  (out): Linear(in_features=32, out_features=1000, bias=True)
)>

In [8]:
modelo.attention

MultiheadAttention(
  (out_proj): NonDynamicallyQuantizableLinear(in_features=32, out_features=32, bias=True)
)