# Negative sampling

In questa parte riprendiamo il notebook del word2vec e affrontiamo il negative sampling

In [1]:
import os
import time
import requests
import shutil
from tqdm.auto import tqdm

dataset = "https://s3.amazonaws.com/video.udacity-data.com/topher/2018/October/5bbe6499_text8/text8.zip"
folder_result = "./data/" 

with requests.get(dataset, stream=True, verify=False) as r:
    total_length = int(r.headers.get("Content-Length"))
    with tqdm.wrapattr(r.raw, "read", total=total_length, desc="")as raw:
        with open(f"{os.path.join(folder_result,os.path.basename(r.url))}", 'wb') as output:
            shutil.copyfileobj(raw, output)



  0%|          | 0/31344016 [00:00<?, ?it/s]

In [2]:
import zipfile
with zipfile.ZipFile("./data/text8.zip","r") as zip_ref:
    zip_ref.extractall(folder_result)

In [3]:
# read in the extracted text file      
with open('data/text8') as f:
    text = f.read()

# print out the first 100 characters
print(text[:100])

 anarchism originated as a term of abuse first used against early working class radicals including t


!wget https://raw.githubusercontent.com/fdalforno/nlp/master/utils.py

In [4]:
import utils

# get list of words
words = utils.preprocess(text)
print(words[:30])

['anarchism', 'originated', 'as', 'a', 'term', 'of', 'abuse', 'first', 'used', 'against', 'early', 'working', 'class', 'radicals', 'including', 'the', 'diggers', 'of', 'the', 'english', 'revolution', 'and', 'the', 'sans', 'culottes', 'of', 'the', 'french', 'revolution', 'whilst']


In [5]:
# print some stats about this word data
print("Total words in text: {}".format(len(words)))
print("Unique words: {}".format(len(set(words)))) # `set` removes any duplicate words

Total words in text: 16680599
Unique words: 63641


In [6]:
vocab_to_int, int_to_vocab = utils.create_lookup_tables(words)
int_words = [vocab_to_int[word] for word in words]

print(int_words[:30])

[5233, 3080, 11, 5, 194, 1, 3133, 45, 58, 155, 127, 741, 476, 10571, 133, 0, 27349, 1, 0, 102, 854, 2, 0, 15067, 58112, 1, 0, 150, 854, 3580]


In [7]:
from collections import Counter
import random
import numpy as np

threshold = 1e-5
word_counts = Counter(int_words)
#print(list(word_counts.items())[0])  # dictionary of int_words, how many times they appear

total_count = len(int_words)
freqs = {word: count/total_count for word, count in word_counts.items()}
p_drop = {word: 1 - np.sqrt(threshold/freqs[word]) for word in word_counts}
# discard some frequent words, according to the subsampling equation
# create a new list of words for training
train_words = [word for word in int_words if random.random() < (1 - p_drop[word])]

print(train_words[:30])

[3080, 3133, 741, 10571, 27349, 15067, 58112, 1, 854, 10712, 454, 539, 97, 1423, 7088, 5233, 44611, 2877, 2621, 8983, 6437, 4186, 362, 5233, 1818, 4860, 6753, 7573, 11064, 7088]


In [15]:
def get_target(words, idx, window_size=5):
    ''' Get a list of words in a window around an index. '''
    
    R = np.random.randint(1, window_size+1)
    start = idx - R if (idx - R) > 0 else 0
    stop = idx + R
    target_words = words[start:idx] + words[idx+1:stop+1]
    
    return list(target_words)

In [19]:
# test your code!

# run this cell multiple times to check for random window selection
int_text = [i for i in range(10)]
print('Input: ', int_text)
idx=5 # word index of interest

target = get_target(int_text, idx=idx, window_size=5)
print('Target: ', target)  # you should get some indices around the idx

Input:  [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
Target:  [0, 1, 2, 3, 4, 6, 7, 8, 9]


In [20]:
def get_batches(words, batch_size, window_size=5):
    ''' Create a generator of word batches as a tuple (inputs, targets) '''
    
    n_batches = len(words)//batch_size
    
    # only full batches
    words = words[:n_batches*batch_size]
    
    for idx in range(0, len(words), batch_size):
        x, y = [], []
        batch = words[idx:idx+batch_size]
        for ii in range(len(batch)):
            batch_x = batch[ii]
            batch_y = get_target(batch, ii, window_size)
            y.extend(batch_y)
            x.extend([batch_x]*len(batch_y))
        yield x, y

In [14]:
int_text = [i for i in range(20)]
x,y = next(get_batches(int_text, batch_size=4, window_size=5))

print('x\n', x)
print('y\n', y)

x
 [0, 0, 0, 1, 1, 2, 2, 3]
y
 [1, 2, 3, 0, 2, 1, 3, 2]


In [21]:
def cosine_similarity(embedding, valid_size=16, valid_window=100, device='cpu'):
    """ Returns the cosine similarity of validation words with words in the embedding matrix.
        Here, embedding should be a PyTorch embedding module.
    """
    
    # Here we're calculating the cosine similarity between some random words and 
    # our embedding vectors. With the similarities, we can look at what words are
    # close to our random words.
    
    # sim = (a . b) / |a||b|
    
    embed_vectors = embedding.weight
    
    # magnitude of embedding vectors, |b|
    magnitudes = embed_vectors.pow(2).sum(dim=1).sqrt().unsqueeze(0)
    
    # pick N words from our ranges (0,window) and (1000,1000+window). lower id implies more frequent 
    valid_examples = np.array(random.sample(range(valid_window), valid_size//2))
    valid_examples = np.append(valid_examples,
                               random.sample(range(1000,1000+valid_window), valid_size//2))
    valid_examples = torch.LongTensor(valid_examples).to(device)
    
    valid_vectors = embedding(valid_examples)
    similarities = torch.mm(valid_vectors, embed_vectors.t())/magnitudes
        
    return valid_examples, similarities

In [22]:
import torch
from torch import nn
import torch.optim as optim

# Negative Sampling

Vediamo ora la parte in cui si differenzia il sistema presentato. Il limite della soluzione precedente è dato dal fatto che per ogni token nella fase di training usiamo l'output del layer softmax. Ciò significa che per parola di input andiamo a fare delle piccole modifiche a milioni di pesi. Questo rende la fase di training della rete molto inefficiente.

Possiamo approssimare il loss del livello softmax aggiornando solo un piccolo sottoinsieme di pesi alla volta. Aggiorneremo i pesi per l'esempio corretto, ma useremo soltanto un piccolo sottoinseme di casi negativi. Questo processo è chiamato [negative sampling]((http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf).

Dobbiamo fare due modifiche, Inanzitutto non dobbiamo fare il softmax di tutte le parole ma ci occuperemo di una sola parola alla volta. In modo simile a come utilizziamo la tabella di embeddings per mappare la parola di ingresso nell'hidden layer, ora possiamo usare una ulteriore tabella per mappare la parola di output.

Ora abbiamo due embedding layer uno per la parola di input e uno per la parola di output. In secondo luogo utilizziamo una loss function modificata in cui utilizzeremo la parola obiettivo e un piccolo sottoinsieme di parole esempio rumorose.

$$
- \large \log{\sigma\left(u_{w_O}\hspace{0.001em}^\top v_{w_I}\right)} -
\sum_i^N \mathbb{E}_{w_i \sim P_n(w)}\log{\sigma\left(-u_{w_i}\hspace{0.001em}^\top v_{w_I}\right)}
$$

Questa funzione è un pò complicata, analizzeremo questo un pochino alla volta. $u_{w_O}\hspace{0.001em}^\top$ rappresenta il vettore di embedding per la nostra parola "output" (trasposta, il simbolo  $^\top$  rappresenta questo), $v_{w_I}$ rappresenta l'embedding del vettore per la parola di "input". Allora il primo termime 

$$\large \log{\sigma\left(u_{w_O}\hspace{0.001em}^\top v_{w_I}\right)}$$

ci dice che useremo il log della funzione sigmoide del prodotto scalare del word vector di "input" e del word vector di "output". Ora passiamo al secondo termine, diamo una prima occhiata al

$$\large \sum_i^N \mathbb{E}_{w_i \sim P_n(w)}$$ 

Questo significa che useremo le parole della somma delle parole $w_i$ estratte da una distribuzione di parole rumorose $w_i \sim P_n(w)$. La distribuzione del rumore è essenzialmente il nostro vocabolario di parole che non sono nel contesto della parola di input. Per ottenere questo possiamo scegliere della parole casuali dal nostro vocabolario.

$P_n(w)$ è una distribuzione di probabilità arbitraria, il che significa che possiamo decidere quale peso possiamo dare alle parole che siamo campionando. Potremmo scegliere una distribuzione uniforme dove tutte le parole campione hanno la stessa probabilità di essere scelte. Oppure possiamo scegliere di usare la frequenza con cui le parole compaiono nel dataset ovvero la distribuzione unigramma $U(w)$. 

L'autore ha trovate empiricamente che la miglior distribuzione e  $U(w)^{3/4}$.

Finalmente nella funzione:

$$\large \log{\sigma\left(-u_{w_i}\hspace{0.001em}^\top v_{w_I}\right)},$$ 

possiamo usare la funzione log-sigmoid del negato prodotto scalare del vettore di input.

<img src="images/neg_sampling_loss.png" width=50%>

Per avere una idea di quello che stiamo facendo, ricordiamo che la funzione sigmoide ritorna una probabilità tra 0 e 1. 
Il primo termine della funzione loss spinge la probabilita che la nostra rete stia elaborando la parola corretta $w_O$ verso 1. Nel secondo termine stiamo negando il sigmoide del vettore di input, stiamo spingendo la probabilità delle parole di rumore verso 0.

In [23]:
import torch
from torch import nn
import torch.optim as optim

In [24]:
class SkipGramNeg(nn.Module):
    def __init__(self, n_vocab, n_embed, noise_dist=None):
        super().__init__()
        
        self.n_vocab = n_vocab
        self.n_embed = n_embed
        self.noise_dist = noise_dist
        
        # define embedding layers for input and output words
        self.in_embed = nn.Embedding(n_vocab, n_embed)
        self.out_embed = nn.Embedding(n_vocab, n_embed)
        
        # Initialize embedding tables with uniform distribution
        # I believe this helps with convergence
        self.in_embed.weight.data.uniform_(-1, 1)
        self.out_embed.weight.data.uniform_(-1, 1)
        
    def forward_input(self, input_words):
        input_vectors = self.in_embed(input_words)
        return input_vectors
    
    def forward_output(self, output_words):
        output_vectors = self.out_embed(output_words)
        return output_vectors
    
    def forward_noise(self, batch_size, n_samples):
        """ Generate noise vectors with shape (batch_size, n_samples, n_embed)"""
        if self.noise_dist is None:
            # Sample words uniformly
            noise_dist = torch.ones(self.n_vocab)
        else:
            noise_dist = self.noise_dist
            
        # Sample words from our noise distribution
        noise_words = torch.multinomial(noise_dist,
                                        batch_size * n_samples,
                                        replacement=True)
        
        device = "cuda" if model.out_embed.weight.is_cuda else "cpu"
        noise_words = noise_words.to(device)
        
        noise_vectors = self.out_embed(noise_words).view(batch_size, n_samples, self.n_embed)
        
        return noise_vectors

In [25]:
class NegativeSamplingLoss(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, input_vectors, output_vectors, noise_vectors):
        
        batch_size, embed_size = input_vectors.shape
        
        # Input vectors should be a batch of column vectors
        input_vectors = input_vectors.view(batch_size, embed_size, 1)
        
        # Output vectors should be a batch of row vectors
        output_vectors = output_vectors.view(batch_size, 1, embed_size)
        
        # bmm = batch matrix multiplication
        # correct log-sigmoid loss
        out_loss = torch.bmm(output_vectors, input_vectors).sigmoid().log()
        out_loss = out_loss.squeeze()
        
        # incorrect log-sigmoid loss
        noise_loss = torch.bmm(noise_vectors.neg(), input_vectors).sigmoid().log()
        noise_loss = noise_loss.squeeze().sum(1)  # sum the losses over the sample of noise vectors

        # negate and sum correct and noisy log-sigmoid losses
        # return average batch loss
        return -(out_loss + noise_loss).mean()

## Trainig 

Qui sotto il codice che esegue la fase di trainig, si raccomanda di utilizzare la GPU quando possibile

In [26]:
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Get our noise distribution
# Using word frequencies calculated earlier in the notebook
word_freqs = np.array(sorted(freqs.values(), reverse=True))
unigram_dist = word_freqs/word_freqs.sum()
noise_dist = torch.from_numpy(unigram_dist**(0.75)/np.sum(unigram_dist**(0.75)))

# instantiating the model
embedding_dim = 300
model = SkipGramNeg(len(vocab_to_int), embedding_dim, noise_dist=noise_dist).to(device)

# using the loss that we defined
criterion = NegativeSamplingLoss() 
optimizer = optim.Adam(model.parameters(), lr=0.003)

print_every = 1500
steps = 0
epochs = 5

# train for some number of epochs
for e in range(epochs):
    
    # get our input, target batches
    for input_words, target_words in get_batches(train_words, 512):
        steps += 1
        inputs, targets = torch.LongTensor(input_words), torch.LongTensor(target_words)
        inputs, targets = inputs.to(device), targets.to(device)
        
        # input, output, and noise vectors
        input_vectors = model.forward_input(inputs)
        output_vectors = model.forward_output(targets)
        noise_vectors = model.forward_noise(inputs.shape[0], 5)

        # negative sampling loss
        loss = criterion(input_vectors, output_vectors, noise_vectors)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        # loss stats
        if steps % print_every == 0:
            print("Epoch: {}/{}".format(e+1, epochs))
            print("Loss: ", loss.item()) # avg batch loss at this point in training
            valid_examples, valid_similarities = cosine_similarity(model.in_embed, device=device)
            _, closest_idxs = valid_similarities.topk(6)

            valid_examples, closest_idxs = valid_examples.to('cpu'), closest_idxs.to('cpu')
            for ii, valid_idx in enumerate(valid_examples):
                closest_words = [int_to_vocab[idx.item()] for idx in closest_idxs[ii]][1:]
                print(int_to_vocab[valid_idx.item()] + " | " + ', '.join(closest_words))
            print("...\n")

KeyboardInterrupt: 

## Visualizzare il risultato 

Come fatto precedentemente utilizziamo la funzione T-SNE per visualizzare il risultato

In [None]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

In [None]:
# getting embeddings from the embedding layer of our model, by name
embeddings = model.in_embed.weight.to('cpu').data.numpy()

In [None]:
viz_words = 380
tsne = TSNE()
embed_tsne = tsne.fit_transform(embeddings[:viz_words, :])

In [None]:
fig, ax = plt.subplots(figsize=(16, 16))
for idx in range(viz_words):
    plt.scatter(*embed_tsne[idx, :], color='steelblue')
    plt.annotate(int_to_vocab[idx], (embed_tsne[idx, 0], embed_tsne[idx, 1]), alpha=0.7)