In [1]:
import torch
from pytorch_utils_v03 import *

%load_ext autoreload
%autoreload 2

# Notas Pytorch (versión 3)

El procedimiento para hacer un modelo paramétrico supervisado en Pytorch es siempre el mismo:

1. Programar una función `GetDataLoaders()` que devuelva los dataloaders de los conjuntos de entrenamiento, validación y testeo de un dataset específico.

2. Definir la forma del modelo neuronal y hacer una subclase de `torch.nn.Module` que lo represente.

3. Entrenar el modelo. Para esto, se hace una función `ModelTrain()` que obtenga los parámetros del modelo anterior a partir del conjunto de entrenamiento y calcule la performance del mismo sobre el conjunto de validación. Este proceso es iterativo y se repite hasta encontrar la mejor performance sobre el conjunto de validación. Luego, se ven los resultados en el conjunto de testeo. 

Vamos a explicar con más detalle cada uno de estos pasos.

## El Dataset

El primer paso es organizar el dataset, es decir, definir cómo le vamos a pasar la información de las muestras a la función de entrenamiento. 

En los programas de Pytorch, toda la información del dataset queda incluída en dos objetos del módulo `torch.utils.data`: `torch.utils.data.Dataset` y `torch.utils.data.DataLoader`. El primero es el objeto que representa a las muestras, mientras que el segundo es el que se usa para pasarle las muestras a la función de entrenamiento. En general, los datasets disponibles se componen de un conjunto de entrenamiento y otro de testeo. Además, se desea destinar parte de las muestras de entrenamiento a un proceso de validación mientras se está entrenando (para no usar las muestras de testeo). 

Por lo tanto, se desea implementar una función `GetData()` (que funciona para un dataset específico) que permita acceder a las muestras de entrenamiento y de testeo, y además devuelva los dataloaders necesarios para utilizar en la función de entrenamiento del modelo.

```Python
def GetData(transform, val_size, batch_size):
    
    # Proceso de carga de datos
    # ...
    
    return train_dataloader, val_dataloader, test_tadaloader
```

**Ejemplo.** Se dispone del dataset CIFAR10, que tiene las siguientes características:

* Contiene un conjunto de 50000 muestras de entrenamiento y 10000 muestras de testeo.
* Cada muestra consiste en una imagen de 32x32 píxels en RGB y un número que representa el índice correspondiente al contenido de la imagen en la lista `['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']`.

A continuación mostramos una implementación de la carga de este dataset con las siguientes características:

* Las imágenes se modifican para tener un tamaño 224x244 y se cargan en memoria en tensores de tamaño 3x224x24.
* Las imágenes se representan en punto flotante y se normalizan en media y varianza.
* Para el proceso de entrenamiento se utilizará un *batch* de tamaño 64 (es decir, cada *batch* de datos contiene 64 muestras).

In [13]:
val_size = .02 # Proporción de muestras del training set destinadas a validación.
batch_size = 64 # Tamaño del batch
transform = T.Compose([T.Resize(224),
                       T.ToTensor(),
                       T.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))]) # Transformación de las imágenes


# Obtenemos los dataloaders:
cifar10_train = CIFAR10('Datasets/TorchvisionDatasets/CIFAR10/train', train=True, download=True,
                        transform=transform)

cifar10_val = CIFAR10('Datasets/TorchvisionDatasets/CIFAR10/train', train=True, download=True,
                      transform=transform)

cifar10_test = CIFAR10('Datasets/TorchvisionDatasets/CIFAR10/test/', train=False, download=True, 
                       transform=transform)

NUM_TRAIN = int((1 - val_size) * len(cifar10_train))
NUM_VAL = len(cifar10_train) - NUM_TRAIN

train_dataloader = DataLoader(cifar10_train, 
                              batch_size=batch_size, 
                              sampler=sampler.SubsetRandomSampler(range(NUM_TRAIN)))

val_dataloader = DataLoader(cifar10_val, 
                            batch_size=batch_size, 
                            sampler=sampler.SubsetRandomSampler(range(NUM_TRAIN, NUM_TRAIN+NUM_VAL)))

test_dataloader = DataLoader(cifar10_test, batch_size=batch_size)

print()
print('CIFAR10 Dataset:')
print()
print('Cantidad de muestras de entrenamiento disponibles: %d' % len(train_dataloader.dataset) )
print('Cantidad de muestras de testeo disponibles: %d' % len(test_dataloader.dataset) )
print('Cantidad de muestras de entrenamiento destinadas a validación: %d' % (len(train_dataloader.dataset) * val_size // 1))

TypeError: object.__init__() takes exactly one argument (the instance to initialize)

Para definir las transformaciones realizadas a las imágenes antes de cargarlas se utiliza el módulo `torch.transforms` cargado como `T`. También pueden definirse transformaciones propias como se muestra a continuación:

In [5]:
class MNISTReshape(object):
    def __call__(self, sample):
        return sample[0,:,:]
    
val_size = .02 # Proporción de muestras del training set destinadas a validación.
batch_size = 64 # Tamaño del batch
transform = T.Compose([MNISTReshape(),
                       T.ToTensor()])

# Obtenemos los dataloaders:
mnist_train = CIFAR10('Datasets/TorchvisionDatasets/CIFAR10/train', train=True, download=True,
                      transform=transform)

mnist_val = CIFAR10('Datasets/TorchvisionDatasets/CIFAR10/train', train=True, download=True,
                    transform=transform)

mnist_test = CIFAR10('Datasets/TorchvisionDatasets/CIFAR10/test/', train=False, download=True, 
                     transform=transform)

NUM_TRAIN = int((1 - val_size) * len(mnist_train))
NUM_VAL = len(mnist_train) - NUM_TRAIN

train_dataloader = DataLoader(mnist_train, 
                              batch_size=batch_size, 
                              sampler=sampler.SubsetRandomSampler(range(NUM_TRAIN)))

val_dataloader = DataLoader(mnist_val, 
                            batch_size=batch_size, 
                            sampler=sampler.SubsetRandomSampler(range(NUM_TRAIN, NUM_TRAIN+NUM_VAL)))

test_dataloader = DataLoader(mnist_test, batch_size=batch_size)

print()
print('MNIST Dataset:')
print()
print('Cantidad de muestras de entrenamiento disponibles: %d' % len(train_dataloader.dataset) )
print('Cantidad de muestras de testeo disponibles: %d' % len(test_dataloader.dataset) )
print('Cantidad de muestras de entrenamiento destinadas a validación: %d' % (len(train_dataloader.dataset) * val_size // 1))

Files already downloaded and verified
Files already downloaded and verified
Files already downloaded and verified

MNIST Dataset:

Cantidad de muestras de entrenamiento disponibles: 50000
Cantidad de muestras de testeo disponibles: 10000
Cantidad de muestras de entrenamiento destinadas a validación: 1000


In [67]:
cifar10_train = dset.CIFAR10('Datasets/TorchvisionDatasets/CIFAR10/train', train=True, download=True,
                                 transform=transform)

Files already downloaded and verified


In [85]:
print(dir(cifar10_train))
cifar10_train.__module__

['__add__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__len__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_check_integrity', '_format_transform_repr', '_load_meta', '_repr_indent', 'base_folder', 'class_to_idx', 'classes', 'data', 'download', 'extra_repr', 'filename', 'meta', 'root', 'target_transform', 'targets', 'test_list', 'tgz_md5', 'train', 'train_list', 'transform', 'transforms', 'url']


'torchvision.datasets.cifar'

In [7]:
val_size = .02 # Proporción de muestras del training set destinadas a validación.
batch_size = 64 # Tamaño del batch
n_grams = 2 # Modelo de bi-gramas

train_dataloader, val_dataloader, test_dataloader = GetAGNewsDataset(val_size, batch_size, n_grams)

120000lines [00:04, 27171.81lines/s]
120000lines [00:08, 14370.02lines/s]
7600lines [00:00, 14663.17lines/s]


In [40]:
import torchtext
dir(torchtext)

['__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 'data',
 'datasets',
 'utils',
 'vocab']

In [56]:
print(torchtext.datasets.AG_NEWS is torchtext.datasets.text_classification.DATASETS['AG_NEWS'])
dir(torchtext.datasets.AG_NEWS)

True


['__annotations__',
 '__call__',
 '__class__',
 '__closure__',
 '__code__',
 '__defaults__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__get__',
 '__getattribute__',
 '__globals__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__kwdefaults__',
 '__le__',
 '__lt__',
 '__module__',
 '__name__',
 '__ne__',
 '__new__',
 '__qualname__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__']

In [64]:
print(torchtext.datasets.SST) # is torchtext.datasets.text_classification.DATASETS['SST'])
dir(torchtext.datasets.SST)
print(torch.utils.data.__bases__)

<class 'torchtext.datasets.sst.SST'>


AttributeError: module 'torch.utils.data' has no attribute '__bases__'

In [None]:
agnews_train, agnews_test = torchtext.datasets.text_classification.DATASETS['AG_NEWS'](
        root='./Datasets/TextDatasets/AG_NEWS', ngrams=n_grams, vocab=None)

In [10]:
print(type(agnews_train))
print(isinstance(agnews_train,torch.utils.data.Dataset))

<class 'torchtext.datasets.text_classification.TextClassificationDataset'>
True


In [16]:
agnews_train[0]

(2,
 tensor([    572,     564,       2,    2326,   49106,     150,      88,       3,
            1143,      14,      32,      15,      32,      16,  443749,       4,
             572,     499,      17,      10,  741769,       7,  468770,       4,
              52,    7019,    1050,     442,       2,   14341,     673,  141447,
          326092,   55044,    7887,     411,    9870,  628642,      43,      44,
             144,     145,  299709,  443750,   51274,     703,   14312,      23,
         1111134,  741770,  411508,  468771,    3779,   86384,  135944,  371666,
            4052]))

In [37]:
print(agnews_train.__dict__.keys())
print(dir(agnews_train))
print(dir(agnews_train.get_vocab()))
vocab = agnews_train.get_vocab()
i = 0 
for word in vocab:
    print(type(word))
    if i > 20:
        break
    i += 1

dict_keys(['_data', '_labels', '_vocab'])
['__add__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_data', '_labels', '_vocab', 'get_labels', 'get_vocab']
['UNK', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__len__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_default_unk_index', 'extend', 'freqs', 'itos', 'load_vectors', 'set_vectors', 'stoi', 'unk_inde

In [15]:
agnews_train._vocab

<torchtext.vocab.Vocab at 0x7f403adff390>