## Redes neuronales para análisis de sentimiento sobre IMBD

En este cuaderno entrenaremos y evaluaremos un modelo sencillo basado en la arquitectura Transforer para clasificar reviews de películas en positivas o negativas. Para hacerlo, además de utilizar pytorch, utilizaremos el paquete adicional `torchtext` , que nos ofrece algunas funciones útiles para trabajar con texto.

In [None]:
#conda install -c pytorch torchtext

In [34]:
import torch
from torchtext.legacy import data
from torchtext.legacy import datasets
import random
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

## Descargando y procesando los datos

En primer lugar debemos tener instalado `spacy`, con el tokenizador ingés estándar (`python -m spacy download en`), para separar las reviews en palabras.

Ahora, definiremos dos variables, una el `TEXT`, que será nuestra $x$, y la otra `LABEL`, que será nuestra $y$. Fijaos en que en el caso de las features tenemos que especificar el tokenizador que vamos a utilizar, mientras que para la label simplemente será un valor numérico

In [2]:
TEXT = data.Field(tokenize = 'spacy')
LABEL = data.LabelField(dtype = torch.float)

Ahora, dividiremos los datos en un conjunto de entrenamiento y otro de evaluación. Fijémonos en que, al igual que como en el MNIST, torchtext ofrece un submódulo datasets que contiene los datasets de NLP más populares, como el IMDB.

In [3]:
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)

downloading aclImdb_v1.tar.gz


aclImdb_v1.tar.gz: 100%|██████████| 84.1M/84.1M [00:05<00:00, 15.6MB/s]


Echemos un vistazo al primer ejemplo de entrenamiento

In [4]:
print(vars(train_data.examples[-1]))

{'text': ['I', 'rarely', 'comment', 'on', 'films', 'but', 'I', "'ve", 'read', 'the', 'other', 'comments', 'and', 'I', 'can', 'not', 'believe', 'that', 'there', 'are', 'people', 'applauding', 'this', 'celluloid', 'rubbish', '.', 'I', 'know', 'there', 'are', 'certain', 'people', 'who', 'have', 'their', 'own', 'agenda', 'but', 'lets', 'take', 'it', 'on', 'merit', ';', 'poorly', 'acted', ',', 'badly', 'shot', 'and', 'the', 'story', 'felt', 'as', 'the', 'director', 'was', 'making', 'it', 'up', 'as', 'he', 'was', 'going', 'along', '.', 'I', 'am', 'not', 'going', 'to', 'focus', 'on', 'the', 'sexual', 'aspect', 'of', 'the', 'film', 'involving', 'little', 'kids', 'as', 'the', 'makers', 'of', 'the', 'film', 'obviously', 'knew', 'what', 'they', 'wanted', 'and', 'what', 'their', 'audience', 'would', 'want', '.', 'All', 'I', 'can', 'say', 'is', 'it', 'is', 'a', 'terrible', 'film', ',', 'the', 'content', 'is', 'poor', 'and', 'offensive', ',', 'the', 'production', 'is', 'amateurish', 'and', 'I', 'am'

Como esperamos, la review ha sido clasificada como positiva `pos`.

Ahora, haremos otra partición para validación

In [5]:
SEED = 1230245
train_data, valid_data = train_data.split(random_state = random.seed(SEED))

**Ejercicio** Para el conjunto de entrenamiento, y cada clase, ¿cuánto mide la review más larga y la más corta (en tokens)?

In [15]:
max([len(vars(example)['text']) for example in train_data.examples if vars(example)['label'] == 'pos'])

2789

In [16]:
min([len(vars(example)['text']) for example in train_data.examples if vars(example)['label'] == 'pos'])

20

In [17]:
max([len(vars(example)['text']) for example in train_data.examples if vars(example)['label'] == 'neg'])

1827

In [18]:
min([len(vars(example)['text']) for example in train_data.examples if vars(example)['label'] == 'neg'])

12

### Construyendo el vocabulario

Ahora que ya tenemos para la $x$ una lista de palabras, ¿cómo podemos convertirla en un vector?

Now we have for $x$ a list of words, but how we can convert that to a vector?

El primer paso es definir un vocabulario, esto es, un subconjunto de todas las palabras que aparecen en el dataset, y solo nos fijaremos en esas palabras. Nuestro vocabulario tendrá un tamaño de 5000 palabras. Hay muchas formas de construirlo, pero la más usual es la de que quedarnos con las 5000 palabras más comunes en nuestro dataset.

In [19]:
MAX_VOCAB_SIZE = 5000

TEXT.build_vocab(train_data, max_size = MAX_VOCAB_SIZE)
LABEL.build_vocab(train_data)

Esto es, este vocabulario recién creado, a cada palabra $w_i$ le asigna un entero distinto. El vocabulario no es más que una aplicación $V : W \rightarrow \lbrace 0, \ldots, 5002 \rbrace \subset \mathbb{N}$ del conjunto de palabras $W$ a los respectivos números enteros.

La inclusión de dos número enteros adicionales (por eso es 5002 y no 5000) es debida a que necesitamos un código especial para las palabras "raras" que no están entre las 5000 más comunes, y otro número especial para indicar el final de la frase (usarlo como "padding").

### Exploración de features

Ahora, podemos acceder al atributo `TEXT.vocab` para explorar el dataset. Por ejemplo, podemos encontrar los 20 tokens más comunes:

In [20]:
print(TEXT.vocab.freqs.most_common(20))

[('the', 204939), (',', 193428), ('.', 166611), ('a', 110046), ('and', 109807), ('of', 101629), ('to', 94217), ('is', 77027), ('in', 61493), ('I', 54393), ('it', 54084), ('that', 49441), ('"', 44019), ("'s", 43582), ('this', 42423), ('-', 36926), ('/><br', 35892), ('was', 35099), ('as', 30466), ('with', 29954)]


Por ejemplo, podemos ver que `the`es la palabra más común, apareciendo 203504 veces en nuestro corpus.

El método stoi calcula la función $V$ anterior ('string to integer')


In [21]:
TEXT.vocab.stoi['the']

2

También tenemos acceso a la función inversa, de enteros a strings:

In [22]:
print(TEXT.vocab.itos[:10])

['<unk>', '<pad>', 'the', ',', '.', 'a', 'and', 'of', 'to', 'is']


**Ejercicio** ¿Qué código numérico le ha asignado a la clase positiva?

In [25]:
LABEL.vocab.stoi['pos']

1

## Definición del modelo: capas de Transformers

Ahora que ya tenemos el vocabulario, podemos representar cada palabra como un vector one-hot, sobre el espacio $\lbrace 0, 1 \rbrace^{5002}$. Este espacio es muy disperso ("vacío"), y hace que cada palabra se encuentre a la misma distancia que cualquier otra. Así que lo primero que podemos hacer en NLP profundo es aplicar una proyección lineal a un espacio de dimensionalidad mucho más baja. Esto es, para la iésima palabra, haremos $h_i = W x_i$, donde $W$ es una matriz de tamaño $100 \times 5002$. El 100 se refiere a la dimensión del "embedding". Para más información, podéis consultar por *word embeddings*.

Después, tras haber calculado esta nueva representación de las palabras, podemos aplicar una capa de Transformer, una arquitectura que está diseñada para captar patrones en secuencias de símbolos, con el objetivo de aprender qué partes de una frase son más informativas respecto a su sentimiento. La arquitectura Transformer es muy reciente (https://arxiv.org/abs/1706.03762) y, al contrario que las antecesoras redes recurrentes, es más fácil de paralelizar por lo que su entrenamiento es mucho más rápido.

Para ver los detalles de la arquitectura Transformer podéis consultar los siguientes artículos:

* https://jalammar.github.io/illustrated-transformer/

* https://nlp.seas.harvard.edu/2018/04/03/attention.html

In [26]:
class Transformer(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, 
                    dropout, pad_idx):
        super().__init__()
        
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx = pad_idx)
        self.enc = nn.TransformerEncoderLayer(embedding_dim, 4, hidden_dim)
        self.fc = nn.Linear(embedding_dim, output_dim)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, text):
        
        embedded = self.dropout(self.embedding(text))
        hidden = self.enc(embedded)
        hidden = hidden.mean(dim=0)
        return self.fc(hidden)

Como en el cuaderno anterior, definimos ahora los hiperparámetros y los iteradores sobre el dataset

In [27]:
BATCH_SIZE = 16

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits(
    (train_data, valid_data, test_data), 
    batch_size = BATCH_SIZE,
    device = device)

# Las dos dimensiones de la matriz de embeddings W:
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 100

#  Como solo queremos predecir positivo o negativo, simplemente el output es un número escalar
# en R^1 (usando la sigmoide para obtener una probabilidad)
OUTPUT_DIM = 1
# Apilaremos dos capas de Transformers
N_LAYERS = 2
# Especificamos algo de dropout para regularizar la red neuronal
DROPOUT = 0.5
PAD_IDX = TEXT.vocab.stoi[TEXT.pad_token]

model = Transformer(INPUT_DIM, 
            16, 
            EMBEDDING_DIM // 10, 
            OUTPUT_DIM, 
            N_LAYERS, 
            DROPOUT, 
            PAD_IDX)

model = model.to(device)


optimizer = optim.Adam(model.parameters())
criterion = nn.BCEWithLogitsLoss()
criterion = criterion.to(device)

## Entrenando el modelo

El resto del cuaderno es como el anterior, solo tenemos que definir una función auxiliar para calcular la tasa de acierto y las funciones de entrenamiento y evaluación

In [28]:
def binary_accuracy(preds, y):
    """
    Returns accuracy per batch, i.e. if you get 8/10 right, this returns 0.8, NOT 8
    """
    rounded_preds = torch.round(torch.sigmoid(preds))
    correct = (rounded_preds == y).float()
    acc = correct.sum() / len(correct)
    return acc

In [29]:
def train(model, iterator, optimizer, criterion):
    
    epoch_loss = 0
    epoch_acc = 0
    
    model.train()
    
    for (text, cls) in iterator:
        
        optimizer.zero_grad()
        predictions = model(text).squeeze(1)
        loss = criterion(predictions, cls)
        acc = binary_accuracy(predictions, cls)
        loss.backward()
        optimizer.step()
        
        epoch_loss += loss.item()
        epoch_acc += acc.item()
        
    return epoch_loss / len(iterator), epoch_acc / len(iterator)

In [30]:
def evaluate(model, iterator, criterion):
    
    epoch_loss = 0
    epoch_acc = 0
    
    model.eval()
    
    with torch.no_grad():
    
        for (text, cls) in iterator:

            predictions = model(text).squeeze(1)
            loss = criterion(predictions, cls)
            acc = binary_accuracy(predictions, cls)

            epoch_loss += loss.item()
            epoch_acc += acc.item()
        
    return epoch_loss / len(iterator), epoch_acc / len(iterator)

Tras definir estos bucles, entrenamos el modelo

Ojo: para tardar menos, hemos puesto como conjunto de train el de validación (que es más pequeño) y como validación el de test.

In [None]:
N_EPOCHS = 5

for epoch in range(N_EPOCHS):

    train_loss, train_acc = train(model, valid_iterator, optimizer, criterion)
    valid_loss, valid_acc = evaluate(model, test_iterator, criterion)
    
    torch.save(model.state_dict(), 'model.pt' + str(epoch))
    
    print(f'Epoch: {epoch+1:02}')
    print(f'\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. Acc: {valid_acc*100:.2f}%')

Epoch: 01
	Train Loss: 0.676 | Train Acc: 56.75%
	 Val. Loss: 0.625 |  Val. Acc: 64.96%
Epoch: 02
	Train Loss: 0.605 | Train Acc: 67.00%
	 Val. Loss: 0.544 |  Val. Acc: 72.66%
Epoch: 03
	Train Loss: 0.551 | Train Acc: 72.17%
	 Val. Loss: 0.506 |  Val. Acc: 75.28%
Epoch: 04
	Train Loss: 0.501 | Train Acc: 75.74%
	 Val. Loss: 0.487 |  Val. Acc: 77.06%


KeyboardInterrupt: ignored

Como vemos, aun estando en GPU es lento. Si tenéis un rato, podéis dejarlo unas cuantas épocas más, y la accuracy debería llegar al 90% aproximadamente. 

En la clase, vamos a probar con un modelo más sencillo, en el ejercicio del final

**Ejercicio** ¿Podemos hacerlo mejor? Trata de modificar los hiperparámetros para ver como cambia la tasa de acierto

**Ejercicio** Sustituye la capa de Transformer por una lineal y observa cómo cambia la tasa de acierto.



In [36]:
class MLP_NLP(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, 
                    dropout, pad_idx):
        super().__init__()
        
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx = pad_idx)
        self.enc = nn.Linear(embedding_dim, hidden_dim)
        self.fc = nn.Linear(hidden_dim, output_dim)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, text):
        
        embedded = self.dropout(self.embedding(text))
        hidden = F.relu(self.enc(embedded))
        hidden = hidden.mean(dim=0)
        return self.fc(hidden)

In [39]:
model = MLP_NLP(INPUT_DIM, 
            16, 
            EMBEDDING_DIM // 10, 
            OUTPUT_DIM, 
            N_LAYERS, 
            DROPOUT, 
            PAD_IDX)

model = model.to(device)

optimizer = optim.Adam(model.parameters())
criterion = nn.BCEWithLogitsLoss()
criterion = criterion.to(device)

In [40]:
N_EPOCHS = 5

for epoch in range(N_EPOCHS):

    train_loss, train_acc = train(model, valid_iterator, optimizer, criterion)
    valid_loss, valid_acc = evaluate(model, test_iterator, criterion)
    
    torch.save(model.state_dict(), 'model.pt' + str(epoch))
    
    print(f'Epoch: {epoch+1:02}')
    print(f'\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. Acc: {valid_acc*100:.2f}%')

Epoch: 01
	Train Loss: 0.692 | Train Acc: 51.62%
	 Val. Loss: 0.690 |  Val. Acc: 50.04%
Epoch: 02
	Train Loss: 0.682 | Train Acc: 59.03%
	 Val. Loss: 0.674 |  Val. Acc: 55.91%
Epoch: 03
	Train Loss: 0.644 | Train Acc: 68.45%
	 Val. Loss: 0.614 |  Val. Acc: 69.03%
Epoch: 04
	Train Loss: 0.560 | Train Acc: 74.57%
	 Val. Loss: 0.531 |  Val. Acc: 74.57%
Epoch: 05
	Train Loss: 0.488 | Train Acc: 78.41%
	 Val. Loss: 0.479 |  Val. Acc: 77.22%
