In [7]:
import numpy as np
import matplotlib.pyplot as plt

# Word vector (word embedding), word2vec y co-ocurrence matrix

En estas notas se van a estudiar los temas que involucran word vectors, especialmente los que buscan representar el significado de las palabras a partir de ... (word2vec) y los que buscan ... (co-ocurrence matrix).

Estas notas abarcan las lectures 01 y 02 del curso.

## Word vector

La idea es representar el significado de una palabra con un vector. De esta manera, palabras con significado "cercano" (o sea, sinónimos) estarían representadas por vectores cercanos entre ellos en este espacio.

## Co-ocurrence matrix (matriz de co-ocurrencia)

La primera forma de representar el significado de una palabra es deduciéndolo a partir de su contexto. El razonamiento es: una palabra va a aparecer muy seguido al lado de ciertas palabras, dado que su significado en general se relaciona con estas. Con esto, se puede definir una matriz de coocurrencia:

A co-occurrence matrix counts how often things co-occur in some environment. Given some word $w_i$ occurring in the document, we consider the *context window* surrounding $w_i$. Supposing our fixed window size is $n$, then this is the $n$ preceding and $n$ subsequent words in that document, i.e. words $w_{i-n} \dots w_{i-1}$ and $w_{i+1} \dots w_{i+n}$. We build a *co-occurrence matrix* $M$, which is a symmetric word-by-word matrix in which $M_{ij}$ is the number of times $w_j$ appears inside $w_i$'s window.

**Example: Co-Occurrence with Fixed Window of n=1**:

Document 1: "all that glitters is not gold"

Document 2: "all is well that ends well"


|     *    | START | all | that | glitters | is   | not  | gold  | well | ends | END |
|----------|-------|-----|------|----------|------|------|-------|------|------|-----|
| START    | 0     | 2   | 0    | 0        | 0    | 0    | 0     | 0    | 0    | 0   |
| all      | 2     | 0   | 1    | 0        | 1    | 0    | 0     | 0    | 0    | 0   |
| that     | 0     | 1   | 0    | 1        | 0    | 0    | 0     | 1    | 1    | 0   |
| glitters | 0     | 0   | 1    | 0        | 1    | 0    | 0     | 0    | 0    | 0   |
| is       | 0     | 1   | 0    | 1        | 0    | 1    | 0     | 1    | 0    | 0   |
| not      | 0     | 0   | 0    | 0        | 1    | 0    | 1     | 0    | 0    | 0   |
| gold     | 0     | 0   | 0    | 0        | 0    | 1    | 0     | 0    | 0    | 1   |
| well     | 0     | 0   | 1    | 0        | 1    | 0    | 0     | 0    | 1    | 1   |
| ends     | 0     | 0   | 1    | 0        | 0    | 0    | 0     | 1    | 0    | 0   |
| END      | 0     | 0   | 0    | 0        | 0    | 0    | 1     | 1    | 0    | 0   |

**Note:** In NLP, we often add START and END tokens to represent the beginning and end of sentences, paragraphs or documents. In thise case we imagine START and END tokens encapsulating each document, e.g., "START All that glitters is not gold END", and include these tokens in our co-occurrence counts.

Más información sobre matrices de co-ocurrencia [acá](https://medium.com/data-science-group-iitr/word-embedding-2d05d270b285) y [acá](http://web.stanford.edu/class/cs124/lec/vectorsemantics.video.pdf)

In [4]:
def DistinctWords(corpus):
    """ 
        Devuelve una lista con todas las palabras que aparecen en corpus, sin repetición.
        Params:
            corpus (lista de lista de strings): corpus of todos los documentos
        Return:
            corpus_words (lista de strings): lista con todas las palabras que aparecen en corpus, 
            ordenadas alfanuméricamente y sin repetición.
            num_corpus_words (entero): tamaño de la lista.
    """
    
    # Lista con las palabras del corpus sin repetición
    corpus_words = sorted(list(set([item for sublist in corpus for item in sublist])))
    
    # Tamaño de la lista
    num_corpus_words = len(corpus_words)

    return corpus_words, num_corpus_words


def GetCoocurrenceMatrix(corpus, window_size=4):
    """ 
        Calcula la matriz de co-ocurrencia de un dado corpus, usando la función anterior.
        Nota: las ventanas de las palabras en los extremos son más chicas que las de las 
        del medio, porque no tienen palabras en uno de los lados.
    
        Params:
            corpus (lista de lista de strings): corpus of todos los documentos.
            window_size (entero): tamaño de la ventana.
            
        Return:
            M: 2-D numpy array que representa la matriz de co-ocurrencia. El orden en que están las
            palabras es el mismo en que está la lista que devuelve la función DistinctWords(corpus).
            word2Ind (diccionario): Diccionario para obtener los índices de la matriz M a partir 
            de la palabra.
    """
    
    # Obtengo las palabras del corpus sin repetición
    words, num_words = DistinctWords(corpus)
    M = np.zeros((num_words,num_words))
    word2Ind = {key: value for (key,value) in zip(words,range(num_words))}
    
    # Lleno la matriz de co-ocurrencias
    for sentence in corpus:
        current_index = 0
        sentence_len = len(sentence)
        indices = [word2Ind[i] for i in sentence]
        while current_index < sentence_len:
            left  = max(current_index - window_size, 0)
            right = min(current_index + window_size + 1, sentence_len) 
            current_word = sentence[current_index]
            current_word_index = word2Ind[current_word]
            words_around = indices[left:current_index] + indices[current_index+1:right]
            
            for ind in words_around:
                M[current_word_index, ind] += 1
            
            current_index += 1
                    
    return M, word2Ind

A esto se suele hacer una reducción de la dimensionalidad con PCA o con SVD. Esto implica achicar la matriz con esa técnica y obtener una con una dimensión mucho más chica.

REVISAR EL CONCEPTO DE SVD