In [13]:
import torch
import torchtext
import re
import nltk
import itertools

# Implementación del algoritmo word2vec

Link de ayuda: [Word2Vec](https://rguigoures.github.io/word2vec_pytorch/)

**Objetivo.** Nuestro objetivo es utilizar un corpus de texto para entender el significado de los gramas que aparecen en el mismo. Para hacer eso, hay que definir un **modelo de lenguaje**, es decir una serie de reglas que nos van a conducir a entender el texto. 

El algoritmo *word2vec* define dos modelos de lenguaje distintos, pero basados en el hecho de que el significado de las palabras puede deducirse de su contexto (**hipótesis distribucional**). Esto se hace para entender el texto a través de su segmentación en palabras y, posteriormente, de la asignación de un vector de $\mathbb{R}^{n}$ a cada palabra. 

## CBOW

El primer algoritmo *word2vec* propone un modelo de lenguaje de la siguiente manera:

* El corpus de texto con el que se trabaja consiste en una sucesión ordenada de palabras y/o signos de puntuación, tabulación, fin de página, etc., que para generalizar, llamaremos "gramas". 

* Los gramas que aparecen en el texto pertenecen a un vocabulario $V = \{ w_1, w_2, \ldots, w_{|V|} \}$. Este vocabulario contiene a los gramas codificadss con *one-hot* vectors, es decir, 

$$
w_{i_j} = 
\begin{cases} 
  1 & \mbox{si} & j = i \\
  0 & \mbox{si} & j \neq i 
\end{cases}
$$


* Se definen las variables aleatorias $\mathbf{X}_{-m}, \mathbf{X}_{-m+1}, \ldots, \mathbf{X}_{-1}, \mathbf{X}_0, \mathbf{X}_{1}, \ldots, \mathbf{X}_{m}$, todas ellas con realizaciones en $V$, y para cada sucesión contigua de gramas encontrada en el texto, se tiene una probabilidad conjunta 

$$
P(\mathbf{X}_{-m} = x_{-m}, \mathbf{X}_{-m+1} = x_{-m+1}, \ldots, \mathbf{X}_{-1} = x_{-1}, \mathbf{X}_0 = x_{0}, \mathbf{X}_{1} = x_1, \ldots, \mathbf{X}_{m-1} =x_{m-1}, \mathbf{X}_{m} = x_{m})
$$

* Se desea estimar la probabilidad 
$$
P(\mathbf{X}_0 = w_i | \mathbf{X}_{-m} = x_{-m}, \mathbf{X}_{-m+1} = x_{-m+1}, \ldots, \mathbf{X}_{-1} = x_{-1}, \mathbf{X}_{1} = x_1, \ldots, \mathbf{X}_{m-1} =x_{m-1}, \mathbf{X}_{m} = x_{m})
$$
para todo $i=1,\ldots,|V|$ y para cada conjunto posible de $x_{-m},\ldots,x_{m}$ de vectores pertenecientes a $V$.

## Skip-gram

El modelo *Skip-gram* propone algo similar, aunque esta vez se busca estimar

$$
P(\mathbf{X}_{-m} = x_{-m}, \mathbf{X}_{-m+1} = x_{-m+1}, \ldots, \mathbf{X}_{-1} = x_{-1}, \mathbf{X}_{1} = x_1, \ldots, \mathbf{X}_{m-1} =x_{m-1}, \mathbf{X}_{m} = x_{m} | \mathbf{X}_0 = x_0)
$$

Si se asume idependencia condicional, esta probabilidad es igual a

$$
\prod_{i=-m\\i\neq 0}^{m} P(\mathbf{X}_{i} = x_i | \mathbf{X}_0 = x_0)
$$

# Simulación

El corpus de texto *Brown* es un conjunto de archivos de texto divididos por categoría.

In [60]:
nltk.download('brown', download_dir='/home/lestien/anaconda3/envs/TorchEnv/nltk_data')
from nltk.corpus import brown

[nltk_data] Downloading package brown to
[nltk_data]     /home/lestien/anaconda3/envs/TorchEnv/nltk_data...
[nltk_data]   Package brown is already up-to-date!


In [61]:
print('Corpus categories:')
print(brown.categories())
print()

Corpus categories:
['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction']



Definimos un corpus para cada categoría. Un corpus es un conjunto de frases que aparecen en el conjunto de textos en la categoría. Un corpus es una lista de listas de palabras. Por ejemplo, para la categoría "news" se tiene el siguiente corpus:

In [67]:
categories = ['news']
corpus_unpreproceced = brown.sents(categories=categories)
print('Cantidad de frases en estas categorías: ',len(corpus_unpreproceced))
print()

print('Algunos ejemplos:')
print()
n = 5
for i in range(n):
    print('Frase {}:'.format(i+1))
    print(corpus_unpreproceced[i])
    print()

Cantidad de frases en estas categorías:  4623

Algunos ejemplos:

Frase 1:
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.']

Frase 2:
['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.']

Frase 3:
['The', 'September-October', 'term', 'jury', 'had', 'been', 'charged', 'by', 'Fulton', 'Superior', 'Court', 'Judge', 'Durwood', 'Pye', 'to', 'investigate', 'reports', 'of', 'possible', '``', 'irregularities', "''", 'in', 'the', 'hard-fought', 'primary', 'which', 'was', 'won', 'by', 'Mayor-nominate',

In [68]:
corpus = []

print('Procesando texto...')
for sentence in corpus_unpreproceced:
    text = ' '.join(sentence)
    text = text.lower()
    text.replace('\n', ' ')
    text = re.sub('[^a-z ]+', '', text)
    corpus.append([w for w in text.split() if w != ''])
    
print()
print('Nuevo texto:')
print()
n = 5
for i in range(n):
    print('Frase {}:'.format(i+1))
    print(corpus_unpreproceced[i])
    print()

Procesando texto...

Nuevo texto:

Frase 1:
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.']

Frase 2:
['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.']

Frase 3:
['The', 'September-October', 'term', 'jury', 'had', 'been', 'charged', 'by', 'Fulton', 'Superior', 'Court', 'Judge', 'Durwood', 'Pye', 'to', 'investigate', 'reports', 'of', 'possible', '``', 'irregularities', "''", 'in', 'the', 'hard-fought', 'primary', 'which', 'was', 'won', 'by', 'Mayor-nominate', 'Ivan', 'Allen', 'Jr.', '.']



Definimos el vocabulario para este corpus:

In [69]:
vocabulary = set(itertools.chain.from_iterable(corpus))

word_to_index = {w: idx for (idx, w) in enumerate(vocabulary)}
index_to_word = {idx: w for (idx, w) in enumerate(vocabulary)}

Obtenemos las muestras en forma de tupla `(contexto, palabra central)`:

In [122]:
m = 2
samples = []
for sentence in corpus:
    for i, word in enumerate(sentence):
        first_context_word_index = max(0,i-m)
        last_context_word_index = min(i+m+1, len(sentence))
        samples.append((sentence[first_context_word_index:i] + sentence[i+1:last_context_word_index], word))
        
print('Cantidad de muestras disponibles: ', len(samples))

Cantidad de muestras disponibles:  87004


In [139]:
class BrownDataset(torch.utils.data.Dataset):
    
    def __init__(self, categories, root='./', preprocessing=None, context_size=2):
        nltk.download('brown', download_dir=root)
        from nltk.corpus import brown
        self.corpus_unpreproceced = brown.sents(categories=categories)
        self.preprocessing = preprocessing
        
        if self.preprocessing:
            self.corpus = self.preprocessing(self.corpus_unpreproceced)
        else:
            self.corpus = self.corpus_unpreproceced
        
        self.vocabulary = set(itertools.chain.from_iterable(self.corpus))

        self.word_to_index = {w: idx for (idx, w) in enumerate(self.vocabulary)}
        self.index_to_word = {idx: w for (idx, w) in enumerate(self.vocabulary)}
        
        samples = []
        for sentence in self.corpus:
            for i, word in enumerate(sentence):
                first_context_word_index = max(0,i-m)
                last_context_word_index = min(i+m+1, len(sentence))
                samples.append((sentence[first_context_word_index:i] + sentence[i+1:last_context_word_index], word))
        
        self.samples = samples
        
    def __len__(self):
        return len(self.samples)
        
    def __getitem__(self, idx):
        
        context, word = self.samples[idx]
        idx_context = torch.empty(len(context), dtype=torch.float32)
        idx_word = torch.tensor(self.word_to_index[word], dtype=torch.float32)
        for i, w in enumerate(context):
            idx_context[i] = self.word_to_index[w]

        return idx_context, idx_word
       

        
class PreprocessBrown(object):
    
    def __call__(self,corpus_unpreproceced):
        corpus = []
        for sentence in corpus_unpreproceced:
            text = ' '.join(sentence)
            text = text.lower()
            text.replace('\n', ' ')
            text = re.sub('[^a-z ]+', '', text)
            corpus.append([w for w in text.split() if w != ''])
        return corpus


categories = ['news']
context_size = 2
train_dataset = BrownDataset(categories=categories,
                             root='/home/lestien/anaconda3/envs/TorchEnv/nltk_data',
                             preprocessing=PreprocessBrown(),
                             context_size=context_size)

print('Cantidad de muestas:', len(train_dataset))
print()
c, w = train_dataset[0]
print('context:')
for i in c:
    print(train_dataset.index_to_word[i.tolist()])
print()
print('Palabra central:')
print(train_dataset.index_to_word[w.tolist()])

[nltk_data] Downloading package brown to
[nltk_data]     /home/lestien/anaconda3/envs/TorchEnv/nltk_data...
[nltk_data]   Package brown is already up-to-date!


Cantidad de muestas: 87004

context:
fulton
county

Palabra central:
the


Ahora falta hacer el resto del modelo.

In [142]:
from torch.utils.data import SubsetRandomSampler, DataLoader


val_size = .02
batch_size = 64

NUM_TRAIN = int((1 - val_size) * len(train_dataset))
NUM_VAL = len(train_dataset) - NUM_TRAIN

train_dataloader = DataLoader(train_dataset, 
                              batch_size=batch_size, 
                              sampler=SubsetRandomSampler(range(NUM_TRAIN)))

val_dataloader = DataLoader(train_dataset, 
                            batch_size=batch_size, 
                            sampler=SubsetRandomSampler(range(NUM_TRAIN, NUM_TRAIN+NUM_VAL)))

In [143]:
import torch.optim as optim

def CheckAccuracy(loader, model, device):  
    num_correct = 0
    num_samples = 0
    model.eval()  # set model to evaluation mode
    with torch.no_grad():
        for x, y in loader:
            x = x.to(device=device, dtype=torch.float32)  # move to device, e.g. GPU
            y = y.to(device=device, dtype=torch.long)
            scores = model(x)
            _, preds = scores.max(1)
            num_correct += (preds == y).sum()
            num_samples += preds.size(0)
        
        return num_correct, num_samples
        

def train(model, data, epochs=1, learning_rate=1e-2, sample_loss_every=100):
    
    input_dtype = data['input_dtype'] 
    target_dtype = data['target_dtype']
    device = data['device']
    train_dataloader = data['train_dataloader']
    val_dataloader = data['val_dataloader']
    
    performance_history = {'iter': [], 'loss': [], 'accuracy': []}
    
    model = model.to(device=device)
    optimizer = optim.SGD(model.parameters(), lr=learning_rate)
    for e in range(epochs):
        for t, (x,y) in enumerate(train_dataloader):
            x = x.to(device=device, dtype=input_dtype)
            y = y.to(device=device, dtype=target_dtype)

            # Forward pass
            scores = model(x)

            # Backward pass
            loss = model.loss(scores,y)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            if t % sample_loss_every == 0:
                num_correct, num_samples = CheckAccuracy(val_dataloader, model, device)
                performance_history['iter'].append(t)
                performance_history['loss'].append(loss.item())
                performance_history['accuracy'].append(float(num_correct) / num_samples)
                print('Epoch: %d, Iteration: %d, Accuracy: %d/%d ' % (e, t, num_correct, num_samples))
                
    num_correct, num_samples = CheckAccuracy(val_dataloader, model, device)
    print('Final accuracy: %.2f%%' % (100 * float(num_correct) / num_samples) )
    
    return performance_history

In [145]:
import torch.nn as nn

class Word2Vec(nn.Module):
    
    def __init__(self, vocab_size, embedding_size):
        super(Word2Vec,self).__init__()
        self.embeddings = nn.Embedding(vocab_size, embedding_size)
        self.linear = nn.Linear(embedding_size, vocab_size)
        
    def forward(self, context_word):
        emb = self.embeddings(context_word)
        hidden = self.linear(emb)
        return out
    
    def loss(self, scores, target):
        m = nn.CrossEntropyLoss()
        return m(scores,target)
    
vocab_size = len(train_dataset.vocabulary)
embedding_size = 50
model = Word2Vec(vocab_size, embedding_size)

In [146]:
    
# Especificaciones de cómo adquirir los datos para entrenamiento:
if torch.cuda.is_available():
    device = torch.device('cuda')
else:
    device = torch.device('cpu')
    
data = {
    'device': device,
    'input_dtype': torch.float32, 
    'target_dtype': torch.long,
    'train_dataloader': train_dataloader,
    'val_dataloader': val_dataloader
}

# Hiperparámetros del modelo y otros:
epochs = 1 # Cantidad de epochs
sample_loss_every = 50 # Cantidad de iteraciones para calcular la cantidad de aciertos
learning_rate = 1e-2 # Tasa de aprendizaje

# Entrenamiento:
performance_history = train(model, data, epochs, learning_rate, sample_loss_every)

RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 0. Got 4 and 2 in dimension 1 at /opt/conda/conda-bld/pytorch_1570910687650/work/aten/src/TH/generic/THTensor.cpp:689