# Métodos distribucionales neuronales

A continuación se describirán algunos de los métodos para obtener VSM con redes neuronales. Estos métodos también hacen uso de la hipótesis distribucional, pero estimando la probabilidad de ocurrencia $P(w_i|w_j)$ de la salida de una red neuronal a definir.

Métodos a definir:

* Word2Vec
* GloVe
* RNN

## `word2vec`

El algoritmo `word2vec` presenta dos modelos para estimar la probabilidad de un modelo de lenguaje con redes neuronales. Esto significa que el modelo estima la probabilidad de que, dada una serie de palabras $w_1,\ldots, w_N$ se obtenga una palabra $w_c$ del vocabulario. 

El primero de ellos, estima esta probabilidad a partir de muestras de contextos y sus palabras centrales, es decir, $P(w_c|w_{c-n},\ldots,w_{c-1},w_{c+1},\ldots,w_{c+n})$ (**CBOW**).

El segundo, hace lo opuesto: estima la misma probabilidad a partir de las palabras centrales y les muestra los contextos (**Skip-Gram**).

Ambos métodos utilizan como función de costo la función de máxima verosimilud, que en el contexto de clasificación es igual a la cross-entropy entre la distribución resultante y la verdadera. También es posible plantear otras funciones de costo para optimizar el entrenamiento.

In [4]:
import torch
from torch.utils.data import Dataset, DataLoader
import itertools

In [41]:
# Definimos el corpus y el vocabulario

import os

def get_corpus_and_vocab(root, split_fn):
    filenames = os.listdir(ROOT_PATH)
    corpus_idx = []
    tk_to_idx = {}
    vocab_len = 0
    for filename in filenames:
        with open(os.path.join(root,filename), 'r') as f:
            doc = split_fn(f.read())
        corpus_idx.append([])
        doc_idx = corpus_idx[-1]
        for tk in doc:
            if tk not in tk_to_idx:
                tk_to_idx[tk] = vocab_len
                vocab_len += 1
            doc_idx.append(tk_to_idx[tk])
            
    
    idx_to_tk = {idx: tk for tk, idx in tk_to_idx.items()}
    return corpus_idx, idx_to_tk

#corpus = [['w1', 'w2', 'w3', 'w4', 'w5'], ['w2', 'w2', 'w5', 'w4']]
ROOT_PATH = '../../Utils/Datasets/aclImdb/train/unsup/'
split_fn = lambda x: x.split(' ')
corpus_idx, idx_to_tk = get_corpus_and_vocab(ROOT_PATH, split_fn)
get_size(corpus_idx) + get_size(idx_to_tk)

KeyboardInterrupt: 

In [17]:
class WindowTextDataset(Dataset):
    
    def get_samples(self, corpus_idx, left_n, right_n):
        unk_token_idx = len(self.tk_to_idx)
        context_size = left_n + right_n
        words = []
        contexts = []
        for doc in corpus_idx:
            for i in range(left_n):
                doc.insert(0,unk_token_idx)
            for i in range(right_n):
                doc.append(unk_token_idx)
            for i, idx in enumerate(doc[left_n:-right_n],left_n):
                words.append(idx)
                contexts.append(doc[i-left_n:i] + doc[i+1:i+right_n+1])
            for i in range(left_n):
                doc.pop(0)
            for i in range(right_n):
                doc.pop(-1)
        words = torch.tensor(words).view(-1,1).repeat(1,context_size).view(-1)
        contexts = torch.tensor(contexts).view(-1)
        mask = (words != unk_token_idx) * (contexts != unk_token_idx)
        return words[mask], contexts[mask]
    
    def __init__(self,corpus_idx,left_n,right_n):
        self.words, self.contexts = self.get_samples(corpus_idx,left_n,right_n)
        
    def __getitem__(self,idx):
        return self.words[idx], self.contexts[idx]
    
    def __len__(self):
        return len(self.words)

types_list = list(vocab.keys())
left_n, right_n = 2, 1
dataset = WindowTextDataset(corpus,types_list,left_n,right_n)