# Classificação de palavras com LSTM

Na linguagem natural, classificar uma palavra como artigo, verbo ou nome é uma tarefa extremamente simples. Há casos em que uma palavra pode ter dois significados diferentes em uma frase, dependendo do contexto. A palavra "um" por exemplo pode significar um numeral ou um artigo indefinido. Para nós, é extremamente simples idetificar o contexto no qual uma palavra foi aplicada, uma vez que basta analisarmos o restante da frase. Para um computador, essa tarefa não é tão simples. Como o significado de uma palavra depende da frase na qual ela foi utilizada, a utilização de RNN torna-se uma boa escolha para fazer a análise da sequência (nesse caso, a frase). Neste exemplo, originalmente feito por https://github.com/LeanManager/NLP-PyTorch/blob/master/LSTM%20Speech%20Tagging%20with%20PyTorch.ipynb, utilizaremos a arquitetura LSTM para classificação de palavras em artigo, nome ou verbo. Será utilizada uma base de dados extremamente simples, pois o importante é apenas entender o funcionamento da rede LSTM.

## Dados para treinamento

A nossa base de dados tem a forma mostrada no arquivo frases.txt.

A primeira linha é um dicionário contendo as possíveis tags, a segunda linha está vazia e as demais contém as frases e as tags de cada palavra. Tomando a primeira frase como exemplo:

O gato comeu o queijo

O -> artigo
gato -> nome
comeu -> verbo
o -> artigo
queijo -> nome

A base de dados também contém algumas frases com advérbios e numerais, bem como frases sem advérbio e com artigos indefinidos. Esta foi uma maneira extremamente simplista de tentar dizer para a rede que quando há um advérbio antes de "um", então ele é um número. Caso contrário, um artigo indefinido. 

Redes neurais não costumam se dar bem com palavras como dados de entrada. Portanto, em primeiro lugar iremos transformar sequências de palavras, ou frases, em vetores de números. Como utilizaremos o pytorch, faremos o uso de tensores para realizar tal tarefa. 

Para facilitar o uso da rede, implementamos tudo em uma classe LSTMTagger, como foi originalmente batizada pelo autor. Antes de mostrar a implementação, vamos ver como o modelo deve se comportar.

## Criando o modelo

Nosso modelo assume que as seguintes condições são satisfeitas:

1. A entrada é uma sequência de palavras do tipo [w1, w2, ..., wn]
2. As palavras na entrada vêm de uma frase (ou uma string)
3. Temos um número de tags limitado: ART, NN, V (Artigo, Nome, Verbo
4. Queremos prever uma tag para cada palavra na entrada

Para realizar a previsão (ou predição, considerando que a saída será mostrada ou "dita" pela rede), utilizaremos uma LSTM para uma sequência de testes e aplicaremos a função softmax ao hidden state. O resultato deverá ser um tensor com a pontuação das tags a partir do qual poderemos predizer a tag de uma palavra baseado no máximo valor apresentado nas pontuações obtidas.

Matematicamente, podemos representar uma previsão de tag da seguinte maneira:

$$\hat{y}_i = \text{argmax}_j (\text{logSoftmax}(Ah_i + b))_j$$

Onde $A$ é um peso aprendido pelo modelo, $b$ um termo de bias aprendido e $h_i$ o hidden state no tempo $i$.

### Embeddings

A rede LSTM recebe como argumento um tamanho de entrada e um tamanho para o hidden state. Porém, raramente as sentenças possuem tamanho fixo. Para contornar isso, pode ser utilizada uma camada de associação logo após a entrada. Essa camada é capaz de receber uma palavra e gerar um tensor numérico de tamanho definido que a representa. Assim, ainda que a palavra varie de tamanho, após passar pela camada de associação, ela terá o tamanho definido previamente pelo usuário. 

Após passar pela camada de associação, os tensores são tratados pela camada LSTM e por fim por uma camada linear. Essa basicamente faz uma transformação linear na saída do hidden state da LSTM para que ela saia com as dimensões especificadas pelo usuário. Nesse caso, a saída para cada palavra deverá ser um vetor de 3 posições, cada uma contendo uma pontuação para cada tag: [ART, NN, V].

![Arquitetura do modelo](Imagens/Arquitetura.png)

Agora que já vimos a arquitetura do modelo, vamos para a implementação. 

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np
import ast
import warnings

class LSTMTagger(nn.Module):

    def __init__(self, device, embedding_dim, hidden_dim, training_data_file):
        ''' Incializa as camadas do modelo'''
        super(LSTMTagger, self).__init__()

        # verifica se device está ok
        if device == "gpu":
            self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

            # Verifica se encontrou uma gpu disponível
            if self.device == "cpu":
                warnings.warn('ATENÇÃO: Nenhuma gpu foi encontrada!')

        elif device == "cpu":
            self.device = "cpu"
        else:
            raise ValueError('Nenhum dispositivo com essa nomenclatura pode ser reconhecido pelo modelo.')

        # A inicialização do modelo já armazena os dados de treinamento nele. 
        self.training_data, self.word2idx, self.tag2idx = self.read_training_data(training_data_file)

        # Obtém o tamanho do vocabulário, ou seja, a quantidade de palavras 
        # contempladas pelo modelo.
        vocab_size = len(self.word2idx)

        # Obtém o tamanho do conjunto de tags, ou seja, a quantidade de tags 
        # contempladas pelo modelo. 
        tagset_size = len(self.tag2idx)
        
        # Inicializa a dimensão do hidden layer
        self.hidden_dim = hidden_dim

        # Camada de associação que obtém vetores de um tamanho específico a partir
        # de uma palavra
        self.word_embeddings = nn.Embedding(vocab_size, embedding_dim).to(self.device)

        # A LSTM recebe os vetores da camada de associação como entrada e sai 
        # com os hidden states de tamanho hidden_dim
        self.lstm = nn.LSTM(embedding_dim, hidden_dim).to(self.device)

        # Camada linear que mapeia a dimensão do hidden state para o número 
        # de tags que se deseja obter na saída, ou seja, tagset_size
        self.hidden2tag = nn.Linear(hidden_dim, tagset_size).to(self.device)
        
        # Inicializa o hidden state
        self.hidden = self.init_hidden()

        
    def init_hidden(self):
        '''
        No início do treinamento, o modelo precisa inicializar o hidden state. 
        Como ele é formado basicamente por dados anteriores (h[t-1]), no início 
        não haverá qualquer hidden state. Esta função define um hidden state 
        inicial como um tensor de zeros.
        '''
        # As dimensões dos tensores são (n_layers, batch_size, hidden_dim)
        return (torch.zeros(1, 1, self.hidden_dim).to(self.device),
                torch.zeros(1, 1, self.hidden_dim).to(self.device))

    def forward(self, sentence):
        ''' Define o comportamento feedfoward do modelo '''
        # cria vetores para cada palavra na sentença através da camada de associação (embedding)
        embeds = self.word_embeddings(sentence)
        
        # obtém a saída e o hidden state aplicando os vetores das embedded words 
        # e o hidden state anterior.
        lstm_out, self.hidden = self.lstm(
            embeds.view(len(sentence), 1, -1), self.hidden)
        
        # Obtém a pontuação para a tag mais provável utilizando a função softmax
        tag_outputs = self.hidden2tag(lstm_out.view(len(sentence), -1))
        tag_scores = F.log_softmax(tag_outputs, dim=1)
        
        return tag_scores

    def train(self, n_epochs):
        """
        Treina o modelo
        """

        # Define a função de perda e o otimizador.
        # Nesse caso, são utilizadas as funções negative log likelihood e 
        # stochastic gradient descent.
        loss_function = nn.NLLLoss()
        optimizer = optim.SGD(self.parameters(), lr=0.1)

        for epoch in range(n_epochs):
    
            epoch_loss = 0.0
            
            # Obtém todas as sentenças e tags correspondentes nos dados de treinamento
            for sentence, tags in self.training_data:
                
                # zera os gradientes
                self.zero_grad()

                # zera o hidden state da LSTM, ou seja, reseta a história da mesma
                self.hidden = self.init_hidden()

                # prepara as entradas para o processamento pela rede, 
                # transforma todas as sentenças e targets em tensores numéricos
                sentence_in = self.prepare_sequence(sentence, self.word2idx)
                targets = self.prepare_sequence(tags, self.tag2idx)

                # forward pass para obter a pontuação das tags
                tag_scores = self(sentence_in)

                # calcula o loss e o gradiente
                loss = loss_function(tag_scores, targets)
                epoch_loss += loss.item()
                loss.backward()
                
                # atualiza os parâmetros do modelo
                optimizer.step()
                
            # Imprime a loss/perda média a cada 20 épocas.
            if(epoch%20 == 19):
                print("Epoch: %d, loss: %1.5f" % (epoch+1, epoch_loss/len(self.training_data)))

    def read_training_data(self, file):
        """
        Função para ler os dados para treinamento. As frases obtidas são divididas 
        em uma lista de palavras, onde cada palavra possui uma tag já associada. 
        """
        f = open(file)
        first_line = f.readline()

        tag2idx = ast.literal_eval(first_line)

        second_line = f.readline()
        lines = f.readlines()

        training_data = []

        for line in lines:
            line = line.split(', [')
            words = line[0].split()
            tags = ast.literal_eval('[' + line[1])
            training_data.append((words, tags))

        word2idx = {}

        for sent, tags in training_data:
            for word in sent:
                if word not in word2idx:
                    word2idx[word] = len(word2idx)

        return training_data, word2idx, tag2idx

    def prepare_sequence(self, seq, to_idx):
        """
        Esta função recebe uma sequência de palavras e retorna um tensor 
        correspondente de valores numéricos (índices de cada palavra).
        """
        
        idxs = [to_idx[w] for w in seq]
        idxs = np.array(idxs)
        
        tensor = torch.from_numpy(idxs).long()

        tensor = tensor.to(self.device)

        return tensor

    def predict_tags(self, sentence):
        """
        Prediz as tags de cada palavra de uma sentença.
        """

        seq = sentence.lower().split()

        inputs = self.prepare_sequence(seq, self.word2idx)
        tag_scores = self(inputs)
        print(tag_scores)

        # Obtém os índices com maior pontuação
        _, predicted_tags = torch.max(tag_scores, 1)

        # Converte os números em tags reais para melhor visualização

        tags = []

        for tag_id in predicted_tags:
            key = list(self.tag2idx.keys())[tag_id]
            tags.append(key)

        print('\n')
        print('Predicted tags: \n',tags)

Vamos instanciar o nosso modelo.

In [2]:
# EMBEDDING_DIM define o tamanho do vetor da palavra.
# Neste exemplo, com vocabulário simples e um conjunto de treinamento muito limitado, 
# resolvemos manter os valores das dimensões pequenos. 
EMBEDDING_DIM = 6
HIDDEN_DIM = 6

# Instancia o modelo
model = LSTMTagger("gpu", EMBEDDING_DIM, HIDDEN_DIM, 'frases.txt')

Observe que o modelo lê automaticamente a base de dados de treinamento quando instanciado. Após ler os dados desejados, ele cria índices para cada palavra e para cada tag, como definido na base de dados. Além disso, ele obtém os dados para treinamento como uma lista de tuplas. Cada tupla contém duas listas, uma contendo as palavras de cada sentença e a outra contendo as respectivas tags.

In [3]:
# Obtém os dados e imprime
training_data, word2idx, tag2idx = model.read_training_data('frases.txt')
print(training_data,'\n---\n',word2idx,'\n---\n',tag2idx)

[(['O', 'gato', 'comeu', 'o', 'queijo'], ['ART', 'NN', 'V', 'ART', 'NN']), (['Ela', 'leu', 'aquele', 'livro'], ['NN', 'V', 'ART', 'NN']), (['O', 'cachorro', 'ama', 'arte'], ['ART', 'NN', 'V', 'NN']), (['O', 'elefante', 'atende', 'o', 'telefone'], ['ART', 'NN', 'V', 'ART', 'NN']), (['O', 'rapaz', 'precisa', 'de', 'um', 'gato'], ['ART', 'NN', 'V', 'PP', 'ART', 'NN']), (['O', 'rapaz', 'mora', 'com', 'uma', 'amiga'], ['ART', 'NN', 'V', 'PP', 'ART', 'NN']), (['O', 'garoto', 'pegou', 'um', 'item'], ['ART', 'NN', 'V', 'ART', 'NN']), (['A', 'garota', 'pegou', 'somente', 'um', 'item'], ['ART', 'NN', 'V', 'ADV', 'NUM', 'NN']), (['O', 'garoto', 'pegou', 'mais', 'de', 'um', 'item'], ['ART', 'NN', 'V', 'ADV', 'PP', 'NUM', 'NN']), (['A', 'garota', 'falou', 'com', 'mais', 'de', 'uma', 'pessoa'], ['ART', 'NN', 'V', 'PP', 'ADV', 'PP', 'NUM', 'NN'])] 
---
 {'O': 0, 'gato': 1, 'comeu': 2, 'o': 3, 'queijo': 4, 'Ela': 5, 'leu': 6, 'aquele': 7, 'livro': 8, 'cachorro': 9, 'ama': 10, 'arte': 11, 'elefante': 1

Para trabalhar com o pytorch, precisamos utilizar tensores. Para isso, criamos uma função que recebe a frase e o dicionário de índices. A seguir, a função cria um vetor de índices, transforma em um numpy array e por fim em um tensor.

In [4]:
# verifica o que a função prepare_sequence faz com uma das sentenças que serão 
# utilizadas no treinamento
example_input = model.prepare_sequence("O elefante atende o telefone".lower().split(), model.word2idx)

print(example_input)

tensor([ 3, 12, 13,  3, 14], device='cuda:0')


Para verificar como o modelo se comporta, realizaremos um teste. Definiremos uma sentença com palavras existentes em nossa base de dados anteriormente definida. A seguir, utilizaremos o método predict_tags do modelo para verificar a quais tags ele está associando cada palavra. 

In [5]:
# verifica como o modelo se sai antes do treinamento
model.predict_tags("O queijo ama o elefante")

tensor([[-1.6251, -1.8151, -2.2346, -1.6311, -1.6082, -1.9856],
        [-1.6707, -1.7463, -2.2539, -1.6620, -1.6546, -1.8867],
        [-1.6469, -1.7890, -2.2507, -1.6516, -1.6009, -1.9559],
        [-1.6560, -1.8006, -2.2284, -1.6339, -1.5993, -1.9733],
        [-1.6775, -1.8015, -2.2301, -1.5655, -1.6365, -1.9882]],
       device='cuda:0', grad_fn=<LogSoftmaxBackward>)


Predicted tags: 
 ['ADV', 'ADV', 'ADV', 'ADV', 'NUM']


Para este exemplo, o nosso modelo classificou todas as palavras da frase "O queijo ama o elefante" como advérbios. Sabemos que isso está incorreto e por isso devemos treinar o modelo. No entanto, ele parece estar se comportando como queríamos no início. 

Para o treinamento, utilizamos a função de perda NLL e a função de otimização SGD.

In [6]:
# Treina o modelo
n_epochs = 300
model.train(n_epochs)

Epoch: 20, loss: 1.35293
Epoch: 40, loss: 0.97541
Epoch: 60, loss: 0.63286
Epoch: 80, loss: 0.40344
Epoch: 100, loss: 0.26964
Epoch: 120, loss: 0.19055
Epoch: 140, loss: 0.14054
Epoch: 160, loss: 0.10526
Epoch: 180, loss: 0.08002
Epoch: 200, loss: 0.06277
Epoch: 220, loss: 0.05065
Epoch: 240, loss: 0.04188
Epoch: 260, loss: 0.03537
Epoch: 280, loss: 0.03043
Epoch: 300, loss: 0.02660


Realizaremos dois testes com o modelo treinado. O primeiro será com a mesma frase de antes. O segundo será com uma frase envolvendo a palavra "uma". Vamos ver se o modelo irá acertar na sua escolha de tags?

In [7]:
# verifica como o modelo se sai depois de treinado
model.predict_tags("O queijo ama o elefante")

tensor([[-2.6363e-01, -1.5963e+00, -4.9171e+00, -4.0909e+00, -5.3005e+00,
         -9.7924e+00],
        [-6.9394e+00, -3.7683e-02, -3.3907e+00, -1.0154e+01, -6.0974e+00,
         -1.0141e+01],
        [-3.3881e+00, -5.5340e+00, -4.0873e-02, -8.4815e+00, -6.5227e+00,
         -7.3415e+00],
        [-3.8628e-03, -6.4373e+00, -6.1776e+00, -8.7467e+00, -1.1227e+01,
         -1.1900e+01],
        [-7.6810e+00, -2.6280e-02, -3.6789e+00, -1.1570e+01, -8.5295e+00,
         -1.0960e+01]], device='cuda:0', grad_fn=<LogSoftmaxBackward>)


Predicted tags: 
 ['ART', 'NN', 'V', 'ART', 'NN']


No primeiro teste após o treino, o modelo teve sucesso na classificação das palavras. Vamos ver como ele se sairá no segundo teste..

In [8]:
# Realiza um novo teste
model.predict_tags("O garoto falou com uma pessoa")

tensor([[-1.8689e-02, -4.5763e+00, -4.8660e+00, -7.8221e+00, -9.1739e+00,
         -1.1237e+01],
        [-9.5435e+00, -4.0073e-02, -3.2793e+00, -1.1746e+01, -6.5314e+00,
         -9.3141e+00],
        [-5.6767e+00, -4.3971e+00, -2.4783e-02, -9.2788e+00, -5.6359e+00,
         -5.2825e+00],
        [-3.9262e+00, -7.3387e+00, -2.3203e+00, -6.0578e+00, -5.3785e+00,
         -1.3418e-01],
        [-7.5519e-03, -7.1979e+00, -7.7570e+00, -5.1939e+00, -8.7966e+00,
         -7.3443e+00],
        [-3.3780e+00, -4.6409e-02, -6.2302e+00, -5.8212e+00, -5.0758e+00,
         -9.8332e+00]], device='cuda:0', grad_fn=<LogSoftmaxBackward>)


Predicted tags: 
 ['ART', 'NN', 'V', 'PP', 'ART', 'NN']


Observe que a rede teve sucesso na classificação da palavra "uma". Isso aconteceu pelo fato de termos inserido frases na base de dados que sugerem essa escolha. Por não haver advérbio antes de "uma", entende-se que se trata de um artigo indefinido. 

## Finalizando

O modelo se comportou bem e conseguiu acertar as tags de cada palavra. Foi um exemplo extremamente simples, mas que mostrou o funcionamento da LSTM. Para exemplos maiores e mais complexos, uma base de dados maior poderia ser utilizada. Assim, vimos que uma rede LSTM pode ser utilizada para classificar palavras como artigo, verbo e nome, mas não para por aí. Redes que utilizam arquitetura semelhante podem por exemplo traduzir textos! O google tradutor funciona dessa maneira. 