# Pytorch & Torchtext

In [1]:
%%capture
# Nos aseguramos que torchtext este en la ultima version
!pip install torch==1.8.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html
import torch

In [2]:
# Creacion a partir de otra estructura
a = [[2,3,4], [4,5,6]]
t = torch.tensor(a)
print("Desde una lista de listas\n", t)
print("\nDimensiones del tensor\n", t.size())
print("\nNumero de dimensiones del tensor\n", t.dim())

Desde una lista de listas
 tensor([[2, 3, 4],
        [4, 5, 6]])

Dimensiones del tensor
 torch.Size([2, 3])

Numero de dimensiones del tensor
 2


In [3]:
# Creacion de un tensor "vacio"
t = torch.empty(2,2,3)
print("Tensor vacio\n", t)

Tensor vacio
 tensor([[[2.1200e-33, 0.0000e+00, 3.3631e-44],
         [0.0000e+00,        nan, 6.4460e-44]],

        [[1.1578e+27, 1.1362e+30, 7.1547e+22],
         [4.5828e+30, 1.2121e+04, 7.1846e+22]]])


In [4]:
# Creacion de tensores con puros 1 o puros ceros
t = torch.ones(2,3,4)
# t = torch.zeros(2,3,4,5)
print("Puros unos\n", t) # notar la tercera dimension

Puros unos
 tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])


In [5]:
# Random sampling
t = torch.empty(3, 2).uniform_() # notar operacion in-place
print("Distribucion uniforme\n", t)

t = torch.randn(2, 3)
print("\nDistribucion normal\n", t)

Distribucion uniforme
 tensor([[0.3605, 0.9104],
        [0.4279, 0.8410],
        [0.6106, 0.8126]])

Distribucion normal
 tensor([[-1.4472, -0.7244,  1.8079],
        [ 0.8905,  0.2942, -0.9349]])


In [6]:
# Operaciones matematicas
t = torch.ones(3,4)
print("Operaciones con escalares\n", t + 5)

Operaciones con escalares
 tensor([[6., 6., 6., 6.],
        [6., 6., 6., 6.],
        [6., 6., 6., 6.]])


In [7]:
# Operaciones entre tensores
t1 = torch.ones(2, 3)
t1

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [8]:
t2 = torch.ones(2, 3) * 2
print("Operaciones entre tensores\n", t1 + t2)

Operaciones entre tensores
 tensor([[3., 3., 3.],
        [3., 3., 3.]])


In [9]:
# Tambien se pueden hacer operaciones in-place, se modifica el mismo tensor
t = torch.ones(2,3)
t.add_(1)
print("Suma in-place\n", t)

Suma in-place
 tensor([[2., 2., 2.],
        [2., 2., 2.]])


In [10]:
# Hay veces que es util reorganizar los datos de un tensor, o agregar
# dimensiones 
t = torch.arange(16)
print("Dimensiones de partida\n", t.shape)

t = t.view(-1, 8)
print("\nUsamos el metodo .view() y el -1 para que torch infiera dimensiones\n", t.shape)

t = t.flatten() # Aqui tambien se podria usar .view(-1)
print("\nPodemos volver a aplanar el tensor con .flatten()\n", t.shape)

t = t.view(-1, 4).unsqueeze(1) # tambien podria ser .view(-1, 1, 4)
print("\nPodemos agregar dimensiones sin agregar datos con .unsqueeze()\n", t.shape)

t = t.squeeze()
print("\nCon .squeeze() podemos sacar todas las dimensiones de tamanno 1\n", t.shape)

Dimensiones de partida
 torch.Size([16])

Usamos el metodo .view() y el -1 para que torch infiera dimensiones
 torch.Size([2, 8])

Podemos volver a aplanar el tensor con .flatten()
 torch.Size([16])

Podemos agregar dimensiones sin agregar datos con .unsqueeze()
 torch.Size([4, 1, 4])

Con .squeeze() podemos sacar todas las dimensiones de tamanno 1
 torch.Size([4, 4])


In [11]:
# Podemos hacer las tipicas sumas
t = torch.randn(5, 10)
# dim = 0 es suma de filas y 1 de columnas
print(f"dim=0: {t.sum(dim=0)}")
print(f"dim=1: {t.sum(dim=1)}")

dim=0: tensor([ 1.0297, -0.1845,  2.2744, -7.2324, -4.5985,  0.2478,  1.2916,  0.8038,
        -0.3246, -1.4856])
dim=1: tensor([-2.5060, -0.8198, -0.5575, -4.0351, -0.2600])


In [12]:
# Tal como con numpy podemos hacer funciones
def softmax(T, dim):
  T = torch.as_tensor(T)
  T = T - torch.max(T)
  deno = torch.exp(T)
  suma = torch.sum(torch.exp(T), dim=dim, keepdim=True)
  output = deno/suma
  return output

In [13]:
t = torch.randn(5, 32)
softmax(t, dim=1)

tensor([[0.0174, 0.0239, 0.0415, 0.0387, 0.0235, 0.0187, 0.1856, 0.0542, 0.0159,
         0.0238, 0.0519, 0.0240, 0.0208, 0.0166, 0.0290, 0.0290, 0.0215, 0.0212,
         0.0071, 0.0146, 0.0500, 0.0149, 0.0260, 0.0287, 0.0273, 0.0103, 0.0114,
         0.0219, 0.0072, 0.0655, 0.0409, 0.0172],
        [0.0197, 0.0148, 0.0122, 0.0118, 0.0167, 0.0705, 0.0140, 0.0083, 0.0183,
         0.0880, 0.0374, 0.0214, 0.0449, 0.0054, 0.0092, 0.0225, 0.0055, 0.0180,
         0.0101, 0.0052, 0.1512, 0.0396, 0.0170, 0.0099, 0.0978, 0.0226, 0.0350,
         0.0129, 0.0333, 0.0099, 0.0153, 0.1014],
        [0.0074, 0.1372, 0.0033, 0.0159, 0.0269, 0.0399, 0.0010, 0.0167, 0.0883,
         0.0024, 0.0065, 0.1752, 0.0234, 0.0129, 0.0301, 0.0176, 0.0071, 0.0117,
         0.0187, 0.0037, 0.0683, 0.0129, 0.0387, 0.0243, 0.0056, 0.0105, 0.0152,
         0.0197, 0.1199, 0.0140, 0.0120, 0.0131],
        [0.0360, 0.0747, 0.0178, 0.0071, 0.0204, 0.0652, 0.0139, 0.0204, 0.0102,
         0.0018, 0.0072, 0.0469, 0.0139,

In [14]:
# Primero usemos un comando de shell para obtener informacion de la GPU
# Recuerden cambiar el runtime del colab
!nvidia-smi

Thu Jun 16 22:51:41 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   39C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [15]:
# Verificar si cuda esta disponible en el entorno
print("Habemus GPU?", torch.cuda.is_available())
if torch.cuda.is_available(): # Usar esto para codigo agnostico
    print("Cuantas GPUs me regala Google?", torch.cuda.device_count())

Habemus GPU? True
Cuantas GPUs me regala Google? 1


In [16]:
# Mover tensores entre gpu y cpu
t = torch.empty(3, 4)
print(f"Los tensores se instancian en la {t.device} por default")

t = t.cuda() # .cuda() retorna un nuevo tensor en GPU
print(f"Pero se pueden mover al dispositivo {t.device} usando el methodo .cuda()")

t = torch.empty(3, 4).to("cuda") # Tambien se puede usar con "cpu"
print(f"Tambien se pueden llevar a {t.device} usando el metodo .to()")

Los tensores se instancian en la cpu por default
Pero se pueden mover al dispositivo cuda:0 usando el methodo .cuda()
Tambien se pueden llevar a cuda:0 usando el metodo .to()


In [17]:
# Veamos el uso de la gpu
!nvidia-smi

Thu Jun 16 22:51:53 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   41C    P0    26W /  70W |   1162MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [18]:
# Ahora creemos un tensor tremendo
t = torch.empty(6000, 1000, 1000, device="cuda", dtype=torch.int8) # Cada elemento pesa 1 byte

# Y veamos cuanta VRAM estamos usando
!nvidia-smi

Thu Jun 16 22:51:56 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   41C    P0    26W /  70W |   6886MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [20]:
import pandas as pd
import torch.nn as nn
import torch.optim as optim
from tqdm import tqdm

# Parte 2: Clasificación de Texto usando la librería torchtext (Embeddings + FeedForward)

Ahora usaremos capas de Embedding y en redes feed forward para la clasificación de texto.

In [21]:
%%capture --no-stderr
# Comencemos instalando el paquete
!pip install torchtext==0.9.0

## Datos

Descarguémos el dataset que usaremos en los ejmplos de esta parte de la auxiliar

In [22]:
!wget raw.githubusercontent.com/uchile-nlp/ArgumentMining2017/master/data/complete_data.csv.gz
# !gunzip complete_data.csv.gz

--2022-06-16 22:53:17--  http://raw.githubusercontent.com/uchile-nlp/ArgumentMining2017/master/data/complete_data.csv.gz
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://raw.githubusercontent.com/uchile-nlp/ArgumentMining2017/master/data/complete_data.csv.gz [following]
--2022-06-16 22:53:17--  https://raw.githubusercontent.com/uchile-nlp/ArgumentMining2017/master/data/complete_data.csv.gz
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 9304385 (8.9M) [application/octet-stream]
Saving to: ‘complete_data.csv.gz’


2022-06-16 22:53:18 (20.6 MB/s) - ‘complete_data.csv.gz’ saved [9304385/9304385]



In [23]:
import gzip
import csv
with gzip.open('complete_data.csv.gz', 'rt') as f:
  data = csv.DictReader(f, strict=True, escapechar="\\")

  # Para este ejemplo solo voy a trabajar con documentos de la categoria 1, "Valores"
  dataset = tuple(
      # Usemos lowercase para que el vocabulario no quede tan grande
      (row["constitutional_concept"], row["argument"].lower()) 
      for row in data if row["topic"] == "1" and row["argument"]
  )

dataset = dataset[:10000]

# Mostremos algunos ejemplos
from random import sample
for example in sample(dataset, 3):
    print("\nEjemplo aleatorio:\n", example)


Ejemplo aleatorio:
 ('Justicia', 'porque a todas las personas se les debe respetar y todo niño tiene derecho a ser escuchado y la justicia es igual para todos.')

Ejemplo aleatorio:
 ('Bien Común / Comunidad', 'un principio que debe primar es que todas las personas se beneficien a partir de un sistema sustentado, en la ayuda mutua y el compromiso social.')

Ejemplo aleatorio:
 ('Democracia', 'la democracia es la base para tener un país justo.')


## Splits

In [24]:
# Ahora con este vocabulario podemos armar un set de train y uno de validacion
import torch
from torch.utils.data.dataset import random_split
train_len = int(len(dataset) * .8)

train_split, validation_split = random_split(dataset, [train_len, len(dataset) - train_len])

print("Algunos ejemplos del dataset:")
for example in sample(list(train_split), 3):
    print(example)

Algunos ejemplos del dataset:
('Respeto / Conservación de la naturaleza o medio ambiente', 'transversal, (salud, economía, educación). sustentabilidad (social). compartir el valor. calidad de vida')
('Inclusión', 'no solo inclusio, siono también integrae, incluir a las personas con acapacidades diferentes con igualdad y dignidad. asumirlos como iguales a todos.')
('Plurinacionalismo', 'el reconocimiento de los pueblos originarios como nación, en el marco del estado chileno y la toma en cuenta de la diversidad y multiculturalidad del país asegurando el acceso a las condiciones  para vivir y desarrollar su propia identidad . (el desacuerdo se dio sobre la plurinacionalidad)')


## Vocabulario (a partir del train split)

Ahora construiremos el vocabulario, para esto necesitamos un tokenizador, pero ``torchtext`` no tiene un tokenizador para español así que bajaremos uno de ``spacy``

In [25]:
!python -m spacy download es

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)
[K     |████████████████████████████████| 16.2 MB 7.0 MB/s 
Building wheels for collected packages: es-core-news-sm
  Building wheel for es-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for es-core-news-sm: filename=es_core_news_sm-2.2.5-py3-none-any.whl size=16172933 sha256=8d555ff5f5b468b29a3daaaa36a39332aacf1288bed1d528a1d8a52e67282be5
  Stored in directory: /tmp/pip-ephem-wheel-cache-paglmlul/wheels/21/8d/a9/6c1a2809c55dd22cd9644ae503a52ba6206b04aa57ba83a3d8
Successfully built es-core-news-sm
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')
[38;5;2m

In [26]:
# Ahora si construiremos el vocabulario y la lista de labels
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

tokenizer = get_tokenizer("spacy", "es")
vocab = build_vocab_from_iterator(tokenizer(text[1]) for text in train_split)
labels = list({doc[0] for doc in train_split})
label_map = {label: index for index, label in enumerate(labels)}

print("\nTamanno del vocabulario:", len(vocab))
print("Algunas palabras del vocabulario:", sample(vocab.itos, 5))
print("\nCantidad de labels:", len(labels))
print("Algunos labels:", sample(labels, 3))

8000lines [00:02, 3552.38lines/s]


Tamanno del vocabulario: 9393
Algunas palabras del vocabulario: ['respetuoso', 'comenzar', 'pasado', 'útil', 'campesinas']

Cantidad de labels: 54
Algunos labels: ['Paz / Convivencia pacífica', 'Libertad de culto', 'Bien Común / Comunidad']





In [27]:
label_map

{'Amistad cívica': 49,
 'Autonomía / Libertad': 8,
 'Bien Común / Comunidad': 42,
 'Ciudadanía': 12,
 'Democracia': 33,
 'Democracia participativa': 45,
 'Derechos humanos': 24,
 'Desarrollo': 36,
 'Desarrollo integral': 3,
 'Desarrollo sustentable': 4,
 'Descentralización': 41,
 'Dignidad': 39,
 'Diversidad': 43,
 'Emprendimiento libre': 37,
 'Equidad': 20,
 'Equidad de género': 48,
 'Estado de Derecho': 50,
 'Estado garante': 52,
 'Estado laico': 7,
 'Familia': 26,
 'Familia basada en matrimonio heterosexual': 0,
 'Identidad cultural': 19,
 'Igualdad': 28,
 'Inclasificable/No corresponde': 31,
 'Inclusión': 44,
 'Innovación / Creatividad': 16,
 'Integración': 22,
 'Justicia': 2,
 'Justicia social': 18,
 'Libertad': 47,
 'Libertad de conciencia': 17,
 'Libertad de culto': 9,
 'Libertad de expresión': 15,
 'Multiculturalidad': 11,
 'Otro': 32,
 'Participación': 27,
 'Patriotismo': 25,
 'Paz / Convivencia pacífica': 23,
 'Pluralismo': 38,
 'Plurinacionalismo': 13,
 'Probidad': 21,
 'Pro

## Modelo con capa de Embedding

In [28]:
# Pum ahora hagamos la arquitectura
# simplecita, un capa de embedding, y luego una red feed forward de 
import torch.nn as nn
import torch.nn.functional as F

# Red neuronal con una sola capa escondida
class ArgumentClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim, num_class, hidden_size, pad_idx):
        super().__init__()

        # capa de embedding
        self.embedding = nn.Embedding(vocab_size, embed_dim, pad_idx)
        # self.embedding = nn.EmbeddingBag(vocab_size, embed_dim, mode="mean")

        # capas de la MLP
        self.fc = nn.Linear(embed_dim, num_class)
        # self.fc1 = nn.Linear(embed_dim, hidden_size)
        # self.fc2 = nn.Linear(hidden_size, num_class)

    def forward(self, batch):
        # La representacion de un documento sera el promedio de los
        # embeddings de sus palabras.
        # (B, N, 1) -> (B, N, E)
        h = self.embedding(batch)
        # (B, N, E) -> (B, E)
        h = h.mean(dim=1)
        # h = self.embedding(batch)
        
        # computar las capas de la red MLP
        h = self.fc(h)
        # h = F.relu(self.fc1(h))
        # h = self.fc2(h)
        
        return h
        # return torch.softmax(h, -1)

## Entrenamiento

Primero, necesitamos definir una función que convierta un conjunto de items de nuestro dataset en un batch,recordando que los tensores en pytorch tienen que ser homogeneos. Esta función recibe una lista de muestras del dataset y debe retornar tensores que agrupan estas muestras. 

Por ejemplo, si cada ejemplo de nuestro dataset contiene 2 elementos y nuestro tamanno de batch es de 16, entonces esta función debe retorna una tupla de 2 tensores, cada uno de dimension 16 x ... 

In [29]:
from itertools import zip_longest

# creamos lista de tensores
train_dataset, validation_dataset = [
    [
        (
            label_map[item[0]],
            torch.tensor([vocab[token] for token in tokenizer(item[1])]),
        ) for item in split
    ] for split in [train_split, validation_split]
]

¿Pero que estamos haciendo en la lista de comprehesion anterior?... Bueno, basicamente estamos entregando los vectores de una forma legible por el computador, de tal forma que el modelo entienda en el entrenamiento una forma numerica de las palabras.

In [30]:
# Lo que ve el comput
for data in sample(train_dataset, 2):
  print(data)

(2, tensor([ 117,    7,  275,   24,  252,   43,  717,    3,   45,    3,  571,    3,
          38,  445,    3,   24,   43,    9,    5, 1356,    4]))
(8, tensor([  52,    2, 1224,   20,   39,  452,  104]))


In [31]:
# Lo que vería un humano
for key in label_map:
  if label_map[key] == data[0]:
    print(f"label: {key}")

human_text = ''
for i in data[1]:
  human_text += vocab.itos[i] + ' '
print(f"text: {human_text}")

label: Autonomía / Libertad
text: libertad de gobernar por sus propias leyes 


In [32]:
def generate_batch(batch):
    return (
        # En este caso como los labels son números, 
        # el tensor es de una sola dimension de tamanno batch_size
        torch.tensor([item[0] for item in batch]),

        # En este caso se retorna un tensor de 2 dimensiones, batch_size x N,
        # donde N es mayor largo de los ejemplo en el batch. Aca se realiza
        # padding de los ejemplos mas cortos.
        torch.tensor(
            list(
                zip(
                    *zip_longest(
                        *[item[1] for item in batch], fillvalue=vocab["<pad>"]
                    )
                )
            )
        ),
    )

In [33]:
# Ahora creamos funciones para entrenar y validar el modelo
from torch.utils.data import DataLoader


def train_func(train_dataset):

    # Entranamos el modelo
    train_loss = 0
    train_acc = 0
    data = DataLoader(
        train_dataset,
        batch_size=BATCH_SIZE,
        shuffle=True,
        collate_fn=generate_batch,
    )
    for i, (cls, text) in enumerate(data):
        optimizer.zero_grad()
        cls, text = cls.to(device), text.to(device)
        output = model(text)
        
        loss = criterion(output, cls)
        loss.backward()
        optimizer.step()
        train_loss += loss.item()
        
        train_acc += (output.argmax(1) == cls).sum().item()

    # Ajustar el learning rate
    # scheduler.step()

    return train_loss / len(train_dataset), train_acc / len(train_dataset)


def test(test_dataset):
    test_loss = 0
    acc = 0
    data = DataLoader(
        test_dataset, batch_size=BATCH_SIZE, collate_fn=generate_batch
    )
    for cls, text in data:
        cls, text = cls.to(device), text.to(device)
        with torch.no_grad():
            output = model(text)
            loss = criterion(output, cls)
            test_loss += loss.item()
            acc += (output.argmax(1) == cls).sum().item()

    return test_loss / len(test_dataset), acc / len(test_dataset)

In [34]:
# Ahora por fin tenemos todo lo necesario para entrenar el modelo.
import time

N_EPOCHS = 10
LEARN_RATE = 2.0
STEP_SIZE = 1
BATCH_SIZE = 16
EMBED_DIM = 100
HIDDEN_SIZE = 1024

device = "cuda" if torch.cuda.is_available() else "cpu"

model = ArgumentClassifier(
    vocab_size=len(vocab),
    embed_dim=EMBED_DIM,
    num_class=len(labels),
    hidden_size=HIDDEN_SIZE,
    pad_idx=vocab["<pad>"],
).to(device)

criterion = torch.nn.CrossEntropyLoss().to(device)
optimizer = torch.optim.SGD(model.parameters(), lr=LEARN_RATE)
# scheduler = torch.optim.lr_scheduler.StepLR(optimizer, STEP_SIZE)


for epoch in range(N_EPOCHS):

    start_time = time.time()
    train_loss, train_acc = train_func(train_dataset)
    valid_loss, valid_acc = test(validation_dataset)

    secs = int(time.time() - start_time)
    mins = secs // 60
    secs = secs % 60

    print(
        f"Epoch: {epoch + 1}", f" | time in {mins} minutes, {secs} seconds",
    )
    print(
        f"\tLoss: {train_loss:.4f}(train)\t|"
        f"\tAcc: {train_acc * 100:.1f}%(train)"
    )
    print(
        f"\tLoss: {valid_loss:.4f}(valid)\t|"
        f"\tAcc: {valid_acc * 100:.1f}%(valid)"
    )

Epoch: 1  | time in 0 minutes, 1 seconds
	Loss: 0.1968(train)	|	Acc: 21.2%(train)
	Loss: 0.1832(valid)	|	Acc: 27.1%(valid)
Epoch: 2  | time in 0 minutes, 0 seconds
	Loss: 0.1679(train)	|	Acc: 33.2%(train)
	Loss: 0.1674(valid)	|	Acc: 32.4%(valid)
Epoch: 3  | time in 0 minutes, 0 seconds
	Loss: 0.1507(train)	|	Acc: 40.4%(train)
	Loss: 0.1575(valid)	|	Acc: 37.5%(valid)
Epoch: 4  | time in 0 minutes, 1 seconds
	Loss: 0.1384(train)	|	Acc: 45.2%(train)
	Loss: 0.1497(valid)	|	Acc: 40.4%(valid)
Epoch: 5  | time in 0 minutes, 0 seconds
	Loss: 0.1289(train)	|	Acc: 48.8%(train)
	Loss: 0.1443(valid)	|	Acc: 42.2%(valid)
Epoch: 6  | time in 0 minutes, 0 seconds
	Loss: 0.1208(train)	|	Acc: 50.9%(train)
	Loss: 0.1406(valid)	|	Acc: 44.2%(valid)
Epoch: 7  | time in 0 minutes, 0 seconds
	Loss: 0.1142(train)	|	Acc: 53.7%(train)
	Loss: 0.1376(valid)	|	Acc: 45.4%(valid)
Epoch: 8  | time in 0 minutes, 0 seconds
	Loss: 0.1084(train)	|	Acc: 56.2%(train)
	Loss: 0.1349(valid)	|	Acc: 46.5%(valid)
Epoch: 9  | time

# Parte 3: Pero en la tarea nos piden hacer una red con CNN... como se hacen?

Para este caso vamos a trabajar con un dataset de noticias, el cual es fácilmente descargable con la librería y da muchos mejores resultados (ya que los anteriores estaban ahí nomas).

In [35]:
# por si las moscas importamos todo denuevo (para los que recién se unen a la sintonia)
# https://pytorch.org/text/stable/datasets.html#ag-news
import os
import torch
from random import choice
from torchtext.datasets import AG_NEWS
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

os.makedirs("data", exist_ok=True)
train_dataset, test_dataset = AG_NEWS(root="data", split=('train', 'test'))
train_list = list(train_dataset)
test_list = list(test_dataset)

# Informacion relevante del dataset
tokenizer = get_tokenizer("basic_english")
vocab = build_vocab_from_iterator(tokenizer(x[1]) for x in train_list)
num_classes = 4

train.csv: 29.5MB [00:01, 23.0MB/s]
test.csv: 1.86MB [00:00, 56.4MB/s]                  
120000lines [00:03, 32851.52lines/s]


Luego, creamos una red no tan profunda pero bien competente para nuestra tarea:

In [36]:
import torch
import torch.nn as nn
from itertools import zip_longest

class CNNClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim=32, num_classes=10, 
                 cnn_pool_channels=24, cnn_kernel_size=3):
      super().__init__()
      

      # capa de embedding
      self.embedding = nn.Embedding(vocab_size, embed_dim)

      # capa de convolución
      self.conv = nn.Conv1d(
          in_channels=1,
          out_channels=cnn_pool_channels,
          kernel_size=cnn_kernel_size * embed_dim,
          stride=embed_dim,
      )

      fc_in_size = cnn_pool_channels

      # capa lineal
      self.fc = nn.Linear(fc_in_size, num_classes)

      self.init_weights()

    def init_weights(self):
      initrange = 0.5
      self.embedding.weight.data.uniform_(-initrange, initrange)
      self.fc.weight.data.uniform_(-initrange, initrange)
      self.fc.bias.data.zero_()

    def forward(self, text, offsets):
      # preparamos el input de la capa de embeddings a partir de text y offsets
      # (N x longest_text)
      text = torch.tensor(
          list(
              zip(
                  *zip_longest(
                      *([text[o:offsets[i+1]] for i, o in enumerate(offsets[:-1])] + [text[offsets[-1]:len(texts)]]), 
                      fillvalue=vocab["<pad>"]
                  )
              )
          )
      ).to(text.device)

      # (N x longest_text x embed_dim)
      h = self.embedding(text)

      # (N x pool_channels)
      h = h.view(h.size(0), 1, -1)
      h = torch.relu(self.conv(h))
      h = h.mean(dim=2)

      # (N x num_classes)
      return self.fc(h)

Finalmente, generamos la función para cargar por batch y luego entrenamos directamente.

In [None]:
import sys
from torch.optim import SGD, lr_scheduler
from torch.utils.data import DataLoader
from torch.autograd import Variable

def generate_batch(batch):
  label = torch.tensor([entry[0]-1 for entry in batch])
  texts = [tokenizer(entry[1]) for entry in batch]
  offsets = [0] + [len(text) for text in texts]
  offsets = torch.tensor(offsets[:-1]).cumsum(dim=0)
  big_text = torch.cat([torch.tensor([vocab.stoi[t] for t in text]) for text in texts])
  return big_text, offsets, label

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

BATCH_SIZE = 16
NUM_EPOCHS = 50
TEST_BATCH_SIZE = BATCH_SIZE * 5
LR = 1e-1

model = CNNClassifier(len(vocab), num_classes=num_classes).to(device)
optimizer = SGD(model.parameters(), lr=LR)
criterion = nn.CrossEntropyLoss().to(device)
scheduler = lr_scheduler.LambdaLR(optimizer, lr_lambda=[lambda epoch: .9 ** (epoch // 10)])

split_size = {'train': len(train_list), 'test': len(test_list)}

# train_dataset, test_dataset = AG_NEWS(root="data")
for epoch in range(1, NUM_EPOCHS):
  train_loader = DataLoader(train_list, batch_size=BATCH_SIZE, collate_fn=generate_batch)
  test_loader = DataLoader(test_list, batch_size=TEST_BATCH_SIZE, collate_fn=generate_batch)
  loaders = {'train': train_loader, 'test': test_loader}
  for phase in ['train', 'test']:
    if phase == 'train':
      model.train()
    else:
      model.eval()

    total_acc, total_loss = 0, 0
    for i, (texts, offsets, cls) in enumerate(loaders[phase]):
      texts = texts.to(device)
      offsets = offsets.to(device)
      cls = cls.to(device)

      optimizer.zero_grad()
      with torch.set_grad_enabled(phase == 'train'):
        output = model(texts, offsets)
        loss = criterion(output, cls)
        total_loss += loss.item()
        if phase == 'train':
          loss.backward()
          optimizer.step()
      
      acc = (output.argmax(1) == cls).sum().item()
      total_acc += acc

      sys.stdout.write('\rEpoch: {0:03d}\t Phase: {1} Iter: {2:03d}/{3:03d}\t iter-Acc: {4:.3f}%\t iter-Loss: {5:.3f}'.format(epoch, phase, i+1, len(loaders[phase]), acc/len(offsets)*100, loss.item()))

    if phase == 'train':
      scheduler.step()
    print('\n {0}\tAvg. Acc: {1:.3f}%\t Avg. Loss: {2:.3f}'.format(phase, total_acc/split_size[phase]*100, total_loss/split_size[phase]))

cuda
Epoch: 001	 Phase: train Iter: 7500/7500	 iter-Acc: 93.750%	 iter-Loss: 0.142
 train	Avg. Acc: 61.205%	 Avg. Loss: 0.057
Epoch: 001	 Phase: test Iter: 095/095	 iter-Acc: 83.750%	 iter-Loss: 0.425
 test	Avg. Acc: 79.039%	 Avg. Loss: 0.007
Epoch: 002	 Phase: train Iter: 7500/7500	 iter-Acc: 93.750%	 iter-Loss: 0.097
 train	Avg. Acc: 84.952%	 Avg. Loss: 0.027
Epoch: 002	 Phase: test Iter: 095/095	 iter-Acc: 86.250%	 iter-Loss: 0.307
 test	Avg. Acc: 84.895%	 Avg. Loss: 0.006
Epoch: 003	 Phase: train Iter: 5730/7500	 iter-Acc: 93.750%	 iter-Loss: 0.280

Como podemos ver, con esta segunda perspectiva tenemos un clasificador mas competente en relación con el anterior. La idea es que tengan diferente perspectivas en la construcción.