In [2]:
import numpy as np

import matplotlib.pyplot as plt
%matplotlib notebook

import torch
from torch.utils.data import Dataset, DataLoader

# Introducción a Word Vectors

**Objetivo:** Representar en un espacio vectorial el significado de las palabras. 

En un contexto de aprendizaje, se va a buscar encontrar una representación que mejore la performance de una tarea específica. Por ejemplo, podemos hacer **predicción del lenguaje**: dado una palabra o serie de palabras, predigo cuál va salir a continuación. Eso se puede ver como un problema de clasificación en el que se tiene un conjunto $V = \{ casa,\; auto\; el,\; la\} $ que representa el vocabulario y, dado una serie de palabras pertencecientes a $V$, se desea encontrar la siguiente palabra, también perteneciente a $V$, de la oración.

Vamos a describir los algoritmos Word2vec que hacen esta tarea.

## Word2Vec

"*You should know a word by the company it keeps*"

Tanto para CBOW como para Skip-gram, la tarea está fija (y es la predicción del lenguaje). Lo que se va hacer es estimar la probabilidad $P(palabra|contexto)$ y medir la performance (definida como missclassification) con el set de validación. 

La diferencia entre los modelos está en que tengo diferentes entradas y salidas, y por lo tanto diferentes ejemplos de entrenamiento y diferentes modelos de $P(palabra|contexto)$.

### CBOW

1. La entrada va a ser una secuencia de $2m$ palabras y la salida va a ser una palabra sola.
2. Los ejemplos de entrenamiento son contexto + palabra central, encontrados en un texto.
3. La probabilidad $P(palabra|contexto)$ se va a calcular con una softmax y dos matrices $\mathcal{U}$ y $\mathcal{V}$.

Concretamente:

1. $m_c:(x_{c-m}, \ldots, x_{c-1}, x_{c+1}, \ldots, x_{c+m})$ es la muestra de entrada y $x_{c}$ es la muestra de salida. Se obtienen las muestras para todo $c$.
2. Se obtienen $v_{c-m}=\mathcal{V}x_{c-m}, \ldots, v_{c+m}=\mathcal{V}x_{c+m}$ y se calcula el promedio de ellos: 
$$
\hat{v} = \frac{v_{c-m} + \ldots + v_{c+m}}{2m}
$$
3. Se obtiene $z = \mathcal{U}\hat{v}$
4. Se obtiene $p=\hat{y}[j]$ con $\hat{y} = softmax(z)$ y $j$ el índice en que $x_{c}=1$ como estimativo de la probabilidad $P(x_{c}|x_{c-m},\ldots,x_{c-1},x_{c+1},\ldots,x_{c+m};\mathcal{U},\mathcal{V})$
5. Los parámetros de este modelo se estiman por ML o por minimización de la cross-entropy. Es exactamente la misma cuenta:
$$
\begin{equation}
\begin{split}
\hat{\mathcal{U}},\hat{\mathcal{V}} &= argmax_{\mathcal{U},\mathcal{V}} P(muestra) \\
&= argmax_{\mathcal{U},\mathcal{V}} \prod_{c=1}^{N}P(x_c|m_c)\\
&= argmax_{\mathcal{U},\mathcal{V}} \sum_{c=1}^{N}\log P(x_c|m_c)\\
&= argmax_{\mathcal{U},\mathcal{V}} \sum_{c=1}^{N}\log softmax(\mathcal{U}mean(\mathcal{V}m_c)^{\mathbb{1}_{\{ x_c\}}}\\
&= argmin_{\mathcal{U},\mathcal{V}} -\sum_{c=1}^{N}\sum_{i=1}^{|V|}y_i \log softmax(\mathcal{U}mean(\mathcal{V}m_c)\\
&= argmin_{\mathcal{U},\mathcal{V}}\sum_{c=1}^{N}H(\hat{y},y)
\end{split}
\end{equation}
$$
con $y$ definida como: $y_i = 1$ si $x_c=i$ y 0 en otro caso, y $\hat{y}= softmax(\mathcal{U}mean(\mathcal{V}m_c)$.

**Disgresión computacional:** Me parece que la posta está en definir matemáticamente las matrices que se me dé la gana y después hacerlo eficiente en la práctica.

La cuenta final de este modelo queda:

$$
\begin{equation}
\begin{split}

\end{split}
\end{equation}
$$

```Python
V_size = 100 # Tamaño del vocabulario
n = 10 # Dimensión del espacio de wordvectors
N = 1000 # Cantidad de muestras

V = np.random.randn(n,V_size) # input matrix
U = np.random.randn(V_size,n) # output matrix

for c in range(X_train.shape[0]):
    x_c = X_train[c,:] 
    m_c = X_train[c-m:c-1:c+1:c+m]

    y_hat = np.softmax(U @ np.mean(V[:,m_c == 1]))
    
```