In [1]:
import torch
from TorchDataUtils import *
from AGNewsDataset import *

%load_ext autoreload
%autoreload 2

# Manejo de datos en NLP

Todo esto está sacado de https://github.com/joosthub/PyTorchNLPBook, que es el github del libro que usan en cs224n. El capítulo 3 tiene un ejemplo "Classifying Sentiment of Restaurant Reviews" que es la fuente de toda esta información.

## Ciclo de trabajo

Para hacer un modelo de NLP, hay que hacer varias cosas:

1. Preprocesar el texto, de manera de obtener un .csv con todas las muestras de training y de test.

2. Definir un vocabulario. Para eso, se suele hacer un objeto a parte que contenga todos los handlers del vocabulario.

3. Definir un Vectorizer, que es un objeto que se usa para convertir las muestras del dataset en vectores que se puedan pasar al modelo.

4. Definir un objeto Dataset, que represente a las muestras en su conjunto. 

5. Definir un Dataloader que  maneje el muestreo aleatorio del dataset, la cantidad de muestras de validación, cargar las muestras a las gpu's y eso.

6. Recién en este paso, se puede hacer el modelo.

In [2]:
train_dataset = AGNewsDataset(root='./AG_NEWS/', train=True, use_test_tokens=True)
test_dataset = AGNewsDataset(root='./AG_NEWS/', train=False, use_test_tokens=True)

print("""Train Dataset:
Cantidad de muestras de entrenamiento: {}
Tamaño de cada muestra: {}
Categorías: ['World', 'Sports', 'Business', 'Sci/Tech']
""".format(len(train_dataset), len(train_dataset[0][0])))

print("""Test Dataset:
Cantidad de muestras de testeo: {}
Tamaño de cada muestra: {}
Categorías: ['World', 'Sports', 'Business', 'Sci/Tech']
""".format(len(test_dataset), len(test_dataset[0][0])))

print("Tamaño del vocabulario: {}".format(len(train_dataset.vocabulary)))
print("Se usan las palabras del train y del test")

train_dataloader, val_dataloader, test_dataloader = generate_data_batches(train_dataset, test_dataset,
                                                                         batch_size=128)

Train Dataset:
Cantidad de muestras de entrenamiento: 120000
Tamaño de cada muestra: 19
Categorías: ['World', 'Sports', 'Business', 'Sci/Tech']

Test Dataset:
Cantidad de muestras de testeo: 7600
Tamaño de cada muestra: 17
Categorías: ['World', 'Sports', 'Business', 'Sci/Tech']

Tamaño del vocabulario: 73916
Se usan las palabras del train y del test


In [3]:
import torch.nn as nn

class TextClassifier(nn.Module):
    
    def __init__(self, vocab_size, n_classes):
        super(TextClassifier, self).__init__()
        self.emb = nn.Embedding(vocab_size, n_classes)
        
    def forward(self, x):
        return self.emb(x).mean(dim=1)
    
    def loss(self, scores, target):
        lf = nn.CrossEntropyLoss()
        return lf(scores, target)
    
vocab_size = len(train_dataset.vocabulary)
n_classes = 4
model = TextClassifier(vocab_size, n_classes)

In [19]:
import pandas as pd
df = pd.read_csv('./AG_NEWS/preprocessed_train.csv')
for index, row in df.iterrows():
    if index > 2:
        break
    row['Title'] = 'hola'
    df.iloc[index] = row

[autoreload of AGNewsDataset failed: Traceback (most recent call last):
  File "/home/lestien/anaconda3/envs/TorchEnv/lib/python3.7/site-packages/IPython/extensions/autoreload.py", line 245, in check
    superreload(m, reload, self.old_objects)
  File "/home/lestien/anaconda3/envs/TorchEnv/lib/python3.7/site-packages/IPython/extensions/autoreload.py", line 394, in superreload
    module = reload(module)
  File "/home/lestien/anaconda3/envs/TorchEnv/lib/python3.7/imp.py", line 314, in reload
    return importlib.reload(module)
  File "/home/lestien/anaconda3/envs/TorchEnv/lib/python3.7/importlib/__init__.py", line 169, in reload
    _bootstrap._exec(spec, module)
  File "<frozen importlib._bootstrap>", line 630, in _exec
  File "<frozen importlib._bootstrap_external>", line 724, in exec_module
  File "<frozen importlib._bootstrap_external>", line 860, in get_code
  File "<frozen importlib._bootstrap_external>", line 791, in source_to_code
  File "<frozen importlib._bootstrap>", line 219

Unnamed: 0,Title,Class label
0,hola,3
1,hola,3
2,hola,3
3,Iraq<TS>Halts<TS>Oil<TS>Exports<TS>from<TS>Mai...,3
4,Oil<TS>prices<TS>soar<TS>to<TS>all-time<TS>rec...,3


In [5]:
# Parámetros de las muestras:
data = {
    'use_gpu': True, # Trasladar o no las muestras a la GPU
    'input_dtype': torch.long, # Tipo de dato de las muestras de entrada
    'target_dtype': torch.long, # Tipo de dato de las muestras de salida
    'train_dataloader': train_dataloader, # Dataset de entrenamiento
    'val_dataloader': val_dataloader # Dataset de validación
}

# Parámetros de optimización:
epochs = 10 # Cantidad de epochs
sample_loss_every = 100 # Cantidad de iteraciones para calcular la cantidad de aciertos
learning_rate = 1e-4 # Tasa de aprendizaje
check_on_train = False # Queremos ver los resultados también en el train set

# Entrenamiento:
performance_history = SGDTrainModel(model, data, epochs, learning_rate, sample_loss_every, check_on_train)

Epoch: 0, Batch number: 0
Accuracy on validation dataset: 636/2400 (26.50%)

Epoch: 0, Batch number: 100
Accuracy on validation dataset: 636/2400 (26.50%)

Epoch: 0, Batch number: 200
Accuracy on validation dataset: 636/2400 (26.50%)

Epoch: 0, Batch number: 300
Accuracy on validation dataset: 636/2400 (26.50%)

Epoch: 0, Batch number: 400
Accuracy on validation dataset: 636/2400 (26.50%)

Epoch: 0, Batch number: 500
Accuracy on validation dataset: 637/2400 (26.54%)

Epoch: 0, Batch number: 600
Accuracy on validation dataset: 637/2400 (26.54%)

Epoch: 0, Batch number: 700
Accuracy on validation dataset: 637/2400 (26.54%)

Epoch: 0, Batch number: 800
Accuracy on validation dataset: 637/2400 (26.54%)

Epoch: 0, Batch number: 900
Accuracy on validation dataset: 637/2400 (26.54%)

Epoch: 1, Batch number: 81
Accuracy on validation dataset: 637/2400 (26.54%)

Epoch: 1, Batch number: 181
Accuracy on validation dataset: 637/2400 (26.54%)

Epoch: 1, Batch number: 281
Accuracy on validation data