# Natural Language Processing en PyTorch

In [1]:
import torch

## Tutorial 1: Ciclo de trabajo

El objetivo ahora es describir con un ejemplo el ciclo de trabajo que se usa para entrenar un algoritmo de NLP. En este caso se hará **clasificación de texto sobre el corpus AG NEWS**: se desea predecir, a partir de una frase perteneciente al corpus, el tipo de noticia (Internacional, Deportes, Negocios o Ciencia/Tecnología) a la que pertenece. La idea no es implementar un modelo muy complicado, sino estudiar todo el proceso de programación al rededor del mismo. Esto incluye:

1. Definir las muestras a partir de del corpus de texto en una forma eficiente. En este caso se dispone del corpus *AG NEWS*, conformado por una colección de noticias pertenecientes a distintas categorías. De cada noticia se conoce a qué categoría pertenece. Con esto, se definen los conjuntos de entrenamiento, validación y testeo. 

2. Crear un objeto que permita manejar las muestras en un formato "utilizable". Este objeto se conoce como Dataloader y hay uno por cada conjunto de muestras. 

3. Definir un modelo simple y el grafo computacional que permita ejecutar el algoritmo de *backpropagation* para encontrar los parámetros del modelo.

4. Crear las funciones para visualizar que el entrenamiento se está realizando con éxito. Esto generalmente incluye el loop principal del algoritmo y el cálculo de la cantidad de aciertos en el conjunto de validación. 

### 1. Creación de las muestras

Nuestro dataset es conjunto de muestras, cada una de ellas conformada por una secuencia de palabras o *tokens*, que conforman una frase de una noticia del corpus, y un label que indica la categoría a la que pertenece esa secuencia de tokens. 

    sample1 = ( ['wall', 'st', '.', 'bears', 'claw', 'back', 'into', 'the', 'black', '(', 'reuters', ')', 'reuters', '-', 'short-sellers', ',', 'wall', 'street', "'", 's', 'dwindling\\band', 'of', 'ultra-cynics', ',', 'are', 'seeing', 'green', 'again', '.', 'wall st', 'st .', '. bears', 'bears claw', 'claw back', 'back into', 'into the', 'the black', 'black (', '( reuters', 'reuters )', ') reuters', 'reuters -', '- short-sellers', 'short-sellers ,', ', wall', 'wall street', "street '", "' s", 's dwindling\\band', 'dwindling\\band of', 'of ultra-cynics', 'ultra-cynics ,', ', are', 'are seeing', 'seeing green', 'green again', 'again .'], 'Business' )
    
    sample2 = ( ['european', 'union', 'extends', 'microsoft-time', 'warner', 'review', 'brussels', ',', 'belgium', '(', 'ap', ')', '--', 'european', 'antitrust', 'regulators', 'said', 'monday', 'they', 'have', 'extended', 'their', 'review', 'of', 'a', 'deal', 'between', 'microsoft', 'corp', '.', '(', 'msft', ')', 'and', 'time', 'warner', 'inc', '.', '.', '.', 'european union', 'union extends', 'extends microsoft-time', 'microsoft-time warner', 'warner review', 'review brussels', 'brussels ,', ', belgium', 'belgium (', '( ap', 'ap )', ') --', '-- european', 'european antitrust', 'antitrust regulators', 'regulators said', 'said monday', 'monday they', 'they have', 'have extended', 'extended their', 'their review', 'review of', 'of a', 'a deal', 'deal between', 'between microsoft', 'microsoft corp', 'corp .', '. (', '( msft', 'msft )', ') and', 'and time', 'time warner', 'warner inc', 'inc .', '. .', '. .'], 'Sci/Tec')
    
    ...
    
    sampleN = ( ['patriots', 'sign', 'top', 'pick', 'watson', '(', 'reuters', ')', 'reuters', '-', 'the', 'new', 'england', 'patriots\\monday', 'announced', 'the', 'signing', 'of', 'first-round', 'draft', 'pick', 'benjamin\\watson', '.', 'as', 'per', 'team', 'policy', ',', 'terms', 'of', 'the', 'tight', 'end', "'", 's', 'deal', 'were\\not', 'released', '.', 'patriots sign', 'sign top', 'top pick', 'pick watson', 'watson (', '( reuters', 'reuters )', ') reuters', 'reuters -', '- the', 'the new', 'new england', 'england patriots\\monday', 'patriots\\monday announced', 'announced the', 'the signing', 'signing of', 'of first-round', 'first-round draft', 'draft pick', 'pick benjamin\\watson', 'benjamin\\watson .', '. as', 'as per', 'per team', 'team policy', 'policy ,', ', terms', 'terms of', 'of the', 'the tight', 'tight end', "end '", "' s", 's deal', 'deal were\\not', 'were\\not released', 'released .'], 'Sports')

Para hacer más eficiente la definición de las muestras se define el **vocabulario**, que contiene todas las palabras que aparecen en el corpus. De esta forma, la secuencia de palabras va a pasar a componerse del índice del vocabulario de cada una de estas palabras, y la categoría, a ser el índice en la lista de categorías `['World', 'Sports', 'Business', 'Sci/Tec']`.

    sample1 = (tensor([    572,     564,       2,    2326,   49106,     150,      88,       3,
                          1143,      14,      32,      15,      32,      16,  443749,       4,
                           572,     499,      17,      10,  741769,       7,  468770,       4,
                            52,    7019,    1050,     442,       2,   14341,     673,  141447,
                        326092,   55044,    7887,     411,    9870,  628642,      43,      44,
                           144,     145,  299709,  443750,   51274,     703,   14312,      23,
                       1111134,  741770,  411508,  468771,    3779,   86384,  135944,  371666,
                          4052], 2)

    sample2 = (tensor([   227,    377,   4085,  81800,   1910,   1790,   3038,      4,   6645,
                           14,     36,     15,     67,    227,   2631,   1384,     31,     74,
                           90,     49,   2393,     50,   1790,      7,      6,    164,    312,
                          101,    115,      2,     14,   4406,     15,      9,    134,   1910,
                           85,      2,      2,      2,   1068, 469452, 358665,  81801, 474085,
                       433611,  18201,  16373,  62492,     62,     63,    584,  71591,  44508,
                        26665,  25055,    979,  19427,   1845,  52443,  17357, 165870,  10476,
                          107,   1187,  23580,  51777,    981,    126,    384,  13942,  12119,
                         2404,  16413,   3225,   9773,     89,     37,     37]), 3 )

    ...

    sampleN = (tensor([   1968,    1025,     181,    3153,   22347,      14,      32,      15,
                            32,      16,       3,      27,     430, 1029946,     184,       3,
                          4162,       7,    7000,    3061,    3153,  622440,       2,      21,
                           677,     148,    1247,       4,    2358,       7,       3,    3389,
                           208,      17,      10,     164, 1283369,     466,       2,  418788,
                        205275,   84380,  420603,  474767,      43,      44,     144,     145,
                           119,     324,    2872,  753763, 1029947,    3056,   38172,   30591,
                        158144,   49428,   26084, 1037969,  622441,    3782,   54761,   75502,
                         70592,   15745,  170329,    7607,      29,   84113,   18112,  355484,
                            23,   32659,  713718, 1283370,   23833]), 1 )
                            
De tener el corpus distribuído en varios archivos, se debería hacer un preprocesamiento en el cual esos archivos pasan a ser muestras como las que se muestran a continuación. Este preprocesamiento incluye la tokenización, el conteo de frecuencias de cada palabra, la definición del vocabulario y el relleno con ceros para que todas tengan el mismo largo, entre otras cosas. Este paso tiene bastante importancia en el resultado final, por lo que juega un papel bastante importante, pero lo vamos a dejar para otro tutorial.

El dataset va a ser representado por una instancia de la clase `AgNewsDataset`, definida por nosotros, que es a su vez una subclase de la clase `torch.utils.data.Dataset` (que es la madre de todas las clases para entrenar redes neuronales).

In [2]:
from torchtext.datasets import text_classification
NGRAMS = 2
import os
if not os.path.isdir('../AG_NEWS'):
    os.mkdir('../AG_NEWS')


class AgNewsDataset(torch.utils.data.Dataset):
    
    unk_token = 'UNK_TOKEN'
    pad_token = 'PAD_TOKEN'
    
    def __init__(self, root_dir='./AG_NEWS', n_grams=2, train=True):
        
        super(AgNewsDataset, self).__init__()
        train_dataset, test_dataset = text_classification.DATASETS['AG_NEWS'](
            root=root_dir, ngrams=n_grams, vocab=None)
        
        if train:
            self.samples = train_dataset._data
            self.vocabulary = list(dict(train_dataset._vocab.freqs).keys())
            self.freqs = dict(train_dataset._vocab.freqs)
        else:
            self.samples = test_dataset._data
            self.vocabulary = list(dict(test_dataset._vocab.freqs).keys())
            self.freqs = dict(test_dataset._vocab.freqs)
            
        self.vocabulary.insert(0,self.pad_token)
        self.vocabulary.insert(1,self.unk_token)
        self.word_to_index = {w: idx for (idx, w) in enumerate(self.vocabulary)}
        self.index_to_word = {idx: w for (idx, w) in enumerate(self.vocabulary)}
        self.size_of_longest_sentence = max([len(sample[1]) for sample in self.samples])
        self.categories = ['World', 'Sports', 'Business', 'Sci/Tec']
    
    def __len__(self):
        return len(self.samples)
    
    def __getitem__(self, idx):
        label, text = self.samples[idx]
        text = torch.nn.functional.pad(text, 
                                       pad=(0,self.size_of_longest_sentence - len(text)),
                                       mode='constant', 
                                       value=self.word_to_index[self.pad_token])
        return text, label
    
train_dataset = AgNewsDataset(root_dir='../AG_NEWS', n_grams=2, train=True)
val_dataset = AgNewsDataset(root_dir='../AG_NEWS', n_grams=2, train=True)
test_dataset = AgNewsDataset(root_dir='../AG_NEWS', n_grams=2, train=False)

120000lines [00:04, 26133.95lines/s]
120000lines [00:08, 14288.85lines/s]
7600lines [00:00, 14704.91lines/s]
120000lines [00:04, 26369.68lines/s]
120000lines [00:08, 14214.49lines/s]
7600lines [00:00, 11527.20lines/s]
120000lines [00:04, 26434.21lines/s]
120000lines [00:08, 14219.97lines/s]
7600lines [00:00, 14646.98lines/s]


En la clase anterior se sobreescribieron los métodos `__len__` y `__getitem__` que sirven, respectivamente, para obtener el tamaño del dataset con la función `len()` de Python y para indexar a las instancias de la clase:

In [3]:
print('Cantidad de muestras de entrenamiento:', len(train_dataset) )
print('Cantidad de muestras de testeo:', len(test_dataset) )
print()

text, label = train_dataset[0]
print('Ejemplo de muestra:')
print( (text, label) )
print()
print('Misma muestra con las palabras del vocabulario: ')
print( ([train_dataset.index_to_word[int(idx)] for idx in text], train_dataset.categories[label]) )

Cantidad de muestras de entrenamiento: 120000
Cantidad de muestras de testeo: 7600

Ejemplo de muestra:
(tensor([    572,     564,       2,    2326,   49106,     150,      88,       3,
           1143,      14,      32,      15,      32,      16,  443749,       4,
            572,     499,      17,      10,  741769,       7,  468770,       4,
             52,    7019,    1050,     442,       2,   14341,     673,  141447,
         326092,   55044,    7887,     411,    9870,  628642,      43,      44,
            144,     145,  299709,  443750,   51274,     703,   14312,      23,
        1111134,  741770,  411508,  468771,    3779,   86384,  135944,  371666,
           4052,       0,       0,       0,       0,       0,       0,       0,
              0,       0,       0,       0,       0,       0,       0,       0,
              0,       0,       0,       0,       0,       0,       0,       0,
              0,       0,       0,       0,       0,       0,       0,       0,
              0

## 2. Batch de muestras

Una vez definido el dataset, se obtiene el dataloader, el cual es una subclase de la clase `torch.utils.data.DataLoader` y recibe como argumentos:

* una función para muestrear aleatoriamente, 
* el tamaño del batch y 
* la instancia de `torch.utils.data.Dataset` definida anteriormente.

Además, en este paso definimos cuántas y cuáles muestras del conjunto de entrenamiento se van a usar como validación.

In [24]:
batch_size = 512 # Tamaño del batch
val_size = .05 # Proporción de muestras utilizadas para validación 
NUM_TRAIN = int((1 - val_size) * len(train_dataset)) # Cantidad de muestras de entrenamiento
NUM_VAL = len(train_dataset) - NUM_TRAIN # Cantidad de muestras para validación
sampler = lambda start, end: torch.utils.data.SubsetRandomSampler(range(start, end)) # Función para mezclar aleatoriamente las muestras


# Dataloader para las muestras de entrenamiento:
train_dataloader = torch.utils.data.DataLoader(train_dataset, 
                                               batch_size=batch_size, 
                                               sampler=sampler(0, NUM_TRAIN))

# Dataloader para las muestras de validación:
val_dataloader = torch.utils.data.DataLoader(val_dataset, 
                                             batch_size=batch_size, 
                                             sampler=sampler(NUM_TRAIN, NUM_TRAIN+NUM_VAL))

# Dataloader para las muestras de testeo:
test_dataloader = torch.utils.data.DataLoader(test_dataset, 
                                              batch_size=batch_size)

### 3. Definición del modelo

Para este ejemplo vamos a usar implementar simplemente una red de una capa, con salida Softmax, y el *Negative Log Likelihood* como función de costo. Esto es equivalente minimizar la *Cross Entropy* entre las puntuaciones de cada clase.

![alt text](model.png)

Los modelos en Pytorch pueden hacerse de muchas formas, pero la más cómoda es la que implica hacer una sublcase de `torch.nn.Module` (que es la madre de todos los modelos) y definir dentro de ella el método `forward()` y el método `loss()`.

In [10]:
import torch.nn as nn

class SoftmaxClassifier(torch.nn.Module):
    
    def __init__(self, n_vectors, n_classes):
        
        super(SoftmaxClassifier, self).__init__()
        self.emb = nn.Embedding(n_vectors, n_classes)
        
    def forward(self, x):
        scores = self.emb(x).mean(dim=1)
        return scores
    
    def loss(self, scores, target):
        lf = nn.CrossEntropyLoss()
        return lf(scores, target)
    
n_classes = len(train_dataset.categories) # Cantidad de categorías
n_vectors = len(train_dataset.vocabulary) # Cantidad de palabras que contiene la frase
model = SoftmaxClassifier(n_vectors, n_classes)

In [28]:
import torch.nn as nn

class EmbeddingSoftmaxClassifier(torch.nn.Module):
    
    def __init__(self, n_vectors, embedding_dim, n_classes):
        
        super(EmbeddingSoftmaxClassifier, self).__init__()
        self.emb = nn.Embedding(n_vectors, embedding_dim)
        self.linear = nn.Linear(embedding_dim, n_classes)
        
    def forward(self, x):
        emb = self.emb(x).mean(dim=1)
        scores = self.linear(emb)
        return scores
    
    def loss(self, scores, target):
        lf = nn.CrossEntropyLoss()
        return lf(scores, target)
    
n_classes = len(train_dataset.categories) # Cantidad de categorías
n_vectors = len(train_dataset.vocabulary) # Cantidad de palabras que contiene la frase
embedding_dim = 100
model = EmbeddingSoftmaxClassifier(n_vectors, embedding_dim, n_classes)

### 4. Entrenamiento

In [26]:
import torch.optim as optim

def CheckAccuracy(loader, model, device, input_dtype, target_dtype):  
    num_correct = 0
    num_samples = 0
    model.eval()  
    with torch.no_grad():
        for x, y in loader:
            x = x.to(device=device, dtype=input_dtype)  
            y = y.to(device=device, dtype=target_dtype)
            
            scores = model(x)
            _, preds = scores.max(1)
            num_correct += (preds == y).sum()
            num_samples += preds.size(0)

        return num_correct, num_samples
        

def TrainModel(model, data, epochs=1, learning_rate=1e-2, sample_loss_every=100):
    
    input_dtype = data['input_dtype'] 
    target_dtype = data['target_dtype']
    device = data['device']
    train_dataloader = data['train_dataloader']
    val_dataloader = data['val_dataloader']
    
    performance_history = {'iter': [], 'loss': [], 'accuracy': []}
    
    model = model.to(device=device)
    optimizer = optim.SGD(model.parameters(), lr=learning_rate)
    batch_size = len(train_dataloader)
    for e in range(epochs):
        for t, (x,y) in enumerate(train_dataloader):
            model.train()
            x = x.to(device=device, dtype=input_dtype)
            y = y.to(device=device, dtype=target_dtype)

            # Forward pass
            scores = model(x) 
            
            # Backward pass
            loss = model.loss(scores,y)                 
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            if (e * batch_size + t) % sample_loss_every == 0:
                num_correct, num_samples = CheckAccuracy(val_dataloader, model, device, input_dtype, target_dtype)
                performance_history['iter'].append(t)
                performance_history['loss'].append(loss.item())
                performance_history['accuracy'].append(float(num_correct) / num_samples)
                print('Epoch: %d, Iteration: %d, Accuracy: %d/%d ' % (e, t, num_correct, num_samples))
                
    num_correct, num_samples = CheckAccuracy(val_dataloader, model, device, input_dtype, target_dtype)
    print('Final accuracy: %.2f%%' % (100 * float(num_correct) / num_samples) )
    
    return performance_history

In [31]:
# Especificaciones de cómo adquirir los datos para entrenamiento:
use_gpu = True
if torch.cuda.is_available() and use_gpu:
    device = torch.device('cuda')
else:
    device = torch.device('cpu')

data = {
    'device': device,
    'input_dtype': torch.long,
    'target_dtype': torch.long,
    'train_dataloader': train_dataloader,
    'val_dataloader': val_dataloader
}

# Hiperparámetros del modelo y otros:
epochs = 200 # Cantidad de epochs
sample_loss_every = 300 # Cantidad de iteraciones para calcular la cantidad de aciertos
learning_rate = 1e-4 # Tasa de aprendizaje

# Entrenamiento:
performance_history = TrainModel(model, data, epochs, learning_rate, sample_loss_every)

Epoch: 0, Iteration: 0, Accuracy: 1479/6000 
Epoch: 1, Iteration: 77, Accuracy: 1473/6000 
Epoch: 2, Iteration: 154, Accuracy: 1465/6000 
Epoch: 4, Iteration: 8, Accuracy: 1481/6000 
Epoch: 5, Iteration: 85, Accuracy: 1485/6000 
Epoch: 6, Iteration: 162, Accuracy: 1481/6000 
Epoch: 8, Iteration: 16, Accuracy: 1491/6000 


KeyboardInterrupt: 

In [33]:
print('Tamaño del vocabulario: ', len(train_dataset.vocabulary))
print('Cantidad de muestras de entrenamiento: ', NUM_TRAIN)

Tamaño del vocabulario:  1308844
Cantidad de muestras de entrenamiento:  114000
