# Métodos Distribucionales Frecuentistas

Recordemos que el área de lexical semantics se encarga de estudiar el significado de las palabras individualmente, y que la primera estrategia es representar a las palabras como vectores para estudiar sus características comunes.
Además, hay dos grandes formas de obtener word vectors: denotacional y distribuída. A continuación se verán los métodos frecuentistas para obtener representaciones distribuídas del significado de las palabras. Para lo que sigue se asume que se dispone de un corpus de texto ya tokenizado.

## Matriz de co-ocurrencias

La matriz de co-ocurrencias es una forma de representar la estadística del contenido de un corpus de texto. A continuación se explican diferentes ejemplos de cómo definir matrices de co-ocurrencia según un corpus y cómo se utiliza este método para obtener un espacio de características semánticas. Veamos algunos ejemplos.

Supongamos que tenemos acceso a un corpus de texto que consiste de un conjunto de documentos ya tokenizados y, por lo tanto, a la lista de types que forman el vocabulario utilizado en dichos documentos. Con esta información puede definirse una matriz de co-ocurrencias de types por documentos como sigue: cada fila de la matriz corresponde con un type y cada columna con un documento, de manera que cada fila se compone de la cantidad de veces que apareció el type correspondiente a esa fila en cada documento. Más formalmente, el índice $w_{ij}$ de la matriz es la cantidad de veces que apareció el type $i$ en el documento $j$ del corpus.

COMPLETAR CON EJEMPLO

Con el mismo razonamiento, se pueden construir matrices de co-ocurrencias para los diferentes corpus de texto, definiendo diferentes funcionalidades y aplicaciones. Por ejemplo, existen corpus en que se disponen los contextos discursivos de las frases que lo componen. Es decir, para cada frase se tiene si fue una pregunta, una afirmación, una definición, etc. de manera que es posible construir una matriz con el mismo procedimiento que antes. Esta vez, las columnas representan los contextos discursivos y cada fila contiene la cuenta de los contextos discursivos de cada type. 

COMPLETAR CON EJEMPLO

Como estos, existen más ejemplos. Sin embargo, a continuación explicaremos cómo se utiliza este método para obtener un espacio vectorial de características semánticas.

Con el objetivo de obtener una representación vectorial de las características semánticas de las palabras, puede definirse, a partir de la hipótesis distribucional, una matriz de co-ocurrencias cuyas filas contenga esta información. La hipótesis distribucional afirma que el significado de las palabras queda definido por el contexto en el que aparecen, por lo que la matriz de co-ocurrencias contendrá tantas columnas como types, y cada fila mostrará la cantidad de veces que apareció el type correspondiente a esa fila en el contexto de cada type. Es decir, dado un corpus con un vocabulario de tamaño $V$, la matriz de co-ocurrencias tiene dimensión $VxV$ y su componente $w_{ij}$ representa la cantidad de veces que apareció el type $i$ en el contexto del type $j$. 

También podría haberse definido de manera inversa: el índice $w_{ij}$ de la matriz contiene la la cantidad de veces que apareció el type $j$ en el contexto del type $i$, que para el caso en que el peso del contexto (ver la sección siguiente) es el mismo, el resultado es trasponer la matriz anterior.

COMPLETAR CON EJEMPLO

En general, este proceso puede verse como un esquema de selección de características (**feature selection***), puesto que se está asignando un vector a cada palabra en donde cada índice representa una cantidad (veces que apareció en un contexto, documento o lo que sea), es decir una magnitud de una característica. 

---
##### Code Snippets

A continuación utilizamos el [Large Movie Review Dataset](http://ai.stanford.edu/~amaas/data/sentiment/), que contiene comentarios de películas con su respectiva clasificación, para obtener una representación semántica de las palabras que aparecen en dicho dataset. En este caso no interesa la calificación del comentario, puesto que lo único que vamos a hacer va a ser aprender la representación de las palabras. 

In [1]:
# Obtenemos el corpus

import os

ROOT_PATH = '../../Utils/Datasets/aclImdb/train/unsup/'
filenames = os.listdir(ROOT_PATH)[:3]
corpus = []
for filename in filenames:
    with open(os.path.join(ROOT_PATH,filename), 'r') as f:
        corpus.append(f.read().split(' '))

print('Number of documents in corpus: {}'.format(len(corpus)))
print('Number of total tokens in corpus: {}'.format(sum([len(doc) for doc in corpus])))

Number of documents in corpus: 3
Number of total tokens in corpus: 1143


In [2]:
# Definimos el vocabulario para el corpus

import itertools
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

def get_vocab_from_corpus(corpus):
    vocab = {token: 0 for token in list(set(itertools.chain.from_iterable(corpus)))}
    for token in itertools.chain.from_iterable(corpus):
        vocab[token] += 1
    return vocab
    
vocab = get_vocab_from_corpus(corpus)
print('Vocabulary size: {}'.format(len(vocab)))
plt.semilogx(np.arange(len(vocab)), sorted(vocab.values(),reverse=True), marker='o', fillstyle='none', linestyle='none')
plt.xlabel('words')
plt.ylabel('frequencies')

NameError: name 'vocab' is not defined

Definimos dos maneras de contar ocurrencias en un contexto:

* Por cada palabra del documento, sus $N$ palabras anteriores y sus $N$ siguientes cuentan como una ocurrencia en la matriz de co-ocurrencias. Es decir, para una palabra $w_c$ de un documento y su respectivo contexto formado por por $w_{c-N}, \ldots, w_{c-1}, w_{c+1}, \ldots, w_{c+N}$, los índices $m_{w_c;w_{c-N}}$,$m_{w_c;w_{c-N-1}}$, etc. de la matriz se incrementan una vez su cuenta.
* De manera equivalente, definimos la segunda forma de contar ocurrencias, con la excepción de que las palabras más alejadas pesan menos en la cuenta de la ocurrencia (por ejemplo, caen con 1/n).

In [30]:
def filter_by_token(occurrences_dict, token):
    keys_to_remove = []
    for key in occurrences_dict.keys():
        if key[0] == token or key[1] == token:
            keys_to_remove.append(key)
    for key in keys_to_remove:
        occurrences_dict.pop(key)
    return occurrences_dict

    
def filter_by_freq(occurrences_dict, vocab, min_freq=1, max_freq=np.inf):
    tokens_to_remove = []
    for token in vocab:
        if vocab[token] < min_freq or vocab[token] > max_freq:
            tokens_to_remove.append(token)
    for token in tokens_to_remove:
        occurrences_dict = filter_by_token(occurrences_dict,token)
        vocab.pop(token)
    return occurrences_dict, vocab

    
def get_context(corpus, window=None, left_n=2, right_n=2):
    occurrences_dict = {}
    unk_token='?UNK?'
    if window is None:
        window1 = [1. for i in range(left_n)]
        window2 = [1. for i in range(right_n)]
    else:
        if len(window) != left_n + right_n:
            raise RuntimeError('El tamaño de la ventana tiene que coincidir con el tamaño del contexto')
        window1 = window[:left_n]
        window2 = window[left_n:]
    for doc in corpus:
        for i in range(left_n):
            doc.insert(0,unk_token)
        for i in range(right_n):
            doc.append(unk_token)
        for i, token in enumerate(doc):
            context1 = doc[i-left_n:i] 
            context2 = doc[i+1:i+right_n+1]
            for j, c in zip(window1,context1):
                try:
                    occurrences_dict[(token, c)] += j
                except KeyError:
                    occurrences_dict[(token, c)] = j
            for j, c in zip(window2,context2):
                try:
                    occurrences_dict[(token, c)] += j
                except KeyError:
                    occurrences_dict[(token, c)] = j
        for i in range(left_n):
            doc.pop(0)
        for i in range(right_n):
            doc.pop(-1)
    occurrences_dict = filter_by_token(occurrences_dict, unk_token)
    return occurrences_dict

#corpus = [['w1', 'w2', 'w3', 'w4', 'w5'], ['w2', 'w2', 'w5', 'w4']]

window = [1/2, 1., 1.]
occurrences_dict = get_context(corpus, window=window, left_n=2, right_n=1)
occurrences_dict, vocab = filter_by_freq(occurrences_dict, vocab, min_freq=1, max_freq=np.inf)

A continuación vamos a evaluar este método de selección de features, con algunas de las formas que se describen en el notebook introductorio de vsm.

In [35]:
# Utilizamos una matriz ya diseñada para hacer las pruebas
import pandas as pd
import vsm

DATA_HOME = os.path.join('/home/lestien/Documents/Cursos/cs224u - Natural Language Understanding/data', 'vsmdata') 
imdb20 = pd.read_csv(
    os.path.join(DATA_HOME, 'imdb_window20-flat.csv.gz'), index_col=0)

In [48]:
for distfunc in [vsm.euclidean, vsm.cosine, vsm.jaccard]:
    print('Distance function: {}. Neighbors: {}'.format(distfunc.__name__,list(vsm.neighbors('good', imdb20, distfunc).head().index)))

Distance function: euclidean. Neighbors: ['good', 'really', 'great', 'well', 'story']
Distance function: cosine. Neighbors: ['good', '.', 'pretty', 'acting', 'measure']
Distance function: jaccard. Neighbors: ['good', 'like', 'really', 'great', 'see']


---

## Reponderamiento 

A pesar de que se pueden definir diferentes métricas que sean invariantes ante la diferencia de frecuencias, es posible hacer una modificación de TODOS los vectores del espacio semántico. Es decir, modificar la matriz de co-ocurrencias teniendo en cuenta todos sus valores. Si bien las métricas anteriores pueden verse como un forma de modificar la matriz para que las diferencias de frecuencias no alteren el contenido semántico de los vectores, en este caso se está usando TODOS los vectores al mismo tiempo. Este procese se conoce como **reponderamiento de la matriz de coocurrencias**.

### Observed/Expected

Reweighting by observed-over-expected values captures one of the central patterns in all of VSMs: we can adjust the actual cell value in a co-occurrence matrix using information from the corresponding row and column. 

In the case of observed-over-expected, the rows and columns define our expectation about what the cell value would be if the two co-occurring words were independent. In dividing the observed count by this value, we amplify cells whose values are larger than we would expect.

So that this doesn't look more complex than it is, for an $m \times n$ matrix $X$, define

$$\textbf{rowsum}(X, i) = \sum_{j=1}^{n}X_{ij}$$

$$\textbf{colsum}(X, j) = \sum_{i=1}^{m}X_{ij}$$

$$\textbf{sum}(X) = \sum_{i=1}^{m}\sum_{j=1}^{n} X_{ij}$$

$$\textbf{expected}(X, i, j) = 
\frac{
  \textbf{rowsum}(X, i) \cdot \textbf{colsum}(X, j)
}{
  \textbf{sum}(X)
}$$


Then the observed-over-expected value is

$$\textbf{oe}(X, i, j) = \frac{X_{ij}}{\textbf{expected}(X, i, j)}$$

In many contexts, it is more intuitive to first normalize the count matrix into a joint probability table and then think of $\textbf{rowsum}$ and $\textbf{colsum}$ as probabilities. Then it is clear that we are comparing the observed joint probability with what we would expect it to be under a null hypothesis of independence. These normalizations do not affect the final results, though.

Let's do a quick worked-out example. Suppose we have the count matrix $X$ = 

|    .     | a  | b  | rowsum |
|----------|----|----|-------|
| __x__    | 34 | 11 |  45   |
| __y__    | 47 | 7  |  54   |
|__colsum__| 81 | 18 |  99   |

Then we calculate like this:

$$\textbf{oe}(X, 1, 0) = \frac{47}{\frac{54 \cdot 81}{99}} = 1.06$$

And the full table looks like this:

|    .   | a    | b    | 
|--------|------|------|
| __x__  | 0.92 | 1.34 | 
| __y__  | 1.06 | 0.71 |

In [49]:
imdb20_oe = vsm.observed_over_expected(imdb20)
for distfunc in [vsm.euclidean, vsm.cosine, vsm.jaccard]:
    print('Distance function: {}. Neighbors: {}'.format(distfunc.__name__,list(vsm.neighbors('good', imdb20_oe, distfunc).head().index)))

Distance function: euclidean. Neighbors: ['good', 'movie', 'br', 'great', 'film']
Distance function: cosine. Neighbors: ['good', '.', 'movie', 'br', 'film']
Distance function: jaccard. Neighbors: ['good', 'great', 'really', 'well', 'better']


### PMI y PPMI

Pointwise Mutual Information (PMI) is observed-over-expected in log-space:

$$\textbf{pmi}(X, i, j) = \log\left(\frac{X_{ij}}{\textbf{expected}(X, i, j)}\right)$$

This basic definition runs into a problem for $0$ count cells. The usual response is to set $\log(0) = 0$, but this is arguably confusing – cell counts that are smaller than expected get negative values, cell counts that are larger than expected get positive values, and 0-count values are placed in the middle of this ranking without real justification.

For this reason, it is more typical to use __Positive PMI__, which maps all negative PMI values to $0$:

$$\textbf{ppmi}(X, i, j) = 
\begin{cases}
\textbf{pmi}(X, i, j) & \textrm{if } \textbf{pmi}(X, i, j) > 0 \\
0 & \textrm{otherwise}
\end{cases}$$

In [50]:
imdb20_ppmi = vsm.observed_over_expected(imdb20)
for distfunc in [vsm.euclidean, vsm.cosine, vsm.jaccard]:
    print('Distance function: {}. Neighbors: {}'.format(distfunc.__name__,list(vsm.neighbors('good', imdb20_ppmi, distfunc).head().index)))

Distance function: euclidean. Neighbors: ['good', 'movie', 'br', 'great', 'film']
Distance function: cosine. Neighbors: ['good', '.', 'movie', 'br', 'film']
Distance function: jaccard. Neighbors: ['good', 'great', 'really', 'well', 'better']


### TF-IDF

Perhaps the best known reweighting schemes is __Term Frequency–Inverse Document Frequency (TF-IDF)__, which is, I believe, still the backbone of today's Web search technologies. As the name suggests, it is built from TF and IDF measures:

For an $m \times n$ matrix $X$:

$$\textbf{TF}(X, i, j) = \frac{X_{ij}}{\textbf{colsum}(X, i, j)}$$

$$\textbf{IDF}(X, i, j) = \log\left(\frac{n}{|\{k : X_{ik} > 0\}|}\right)$$

$$\textbf{TF-IDF}(X, i, j) = \textbf{TF}(X, i, j) \cdot \textbf{IDF}(X, i, j)$$


TF-IDF generally performs best with sparse matrices. It severely punishes words that appear in many documents; if a word appears in every document, then its IDF value is 0. As a result, it can even be problematic with verb dense word $\times$ word matrices like ours, where most words appear with most other words.

There is an implementation of TF-IDF for dense matrices in `vsm.tfidf`.

__Important__: `sklearn`'s version, [TfidfTransformer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html#sklearn.feature_extraction.text.TfidfTransformer), assumes that term frequency (TF) is defined row-wise and document frequency is defined column-wise. That is, it assumes `sklearn`'s document $\times$ word basic design, which makes sense for classification tasks, where the design is example $\times$ features. This is the transpose of the way we've been thinking.

## Reducción de la dimensionalidad