<img style="float: left;;" src='Figures/alinco.png' /></a>

# Actividad 6: WordEmbeddings (Modelo CBOW)



En esta acividad, practicarás cómo calcular wordembedding y utilizarlas para el análisis de sentimientos.

- Para implementar el análisis de sentimientos, podemos ir más allá de contar el número de palabras positivas y negativas.
- Podrás encontrar una manera de representar cada palabra numéricamente, mediante un vector.
- El vector podría entonces representar estructuras sintácticas (es decir, partes del discurso) y semánticas (es decir, significado).

En esta actividad, explorarás una forma clásica de generar wordembeddings de palabras.
- Implementarás un modelo famoso llamado modelo de bolsa continua de palabras (CBOW).


Saber cómo entrenar estos modelos te brindará una mejor comprensión de los vectores palabras, que son los componentes básicos de muchas aplicaciones en el procesamiento del lenguaje natural.

<a name='1'></a>
# Continuous bag of words (CBOW)

Observemos la siguiente sentencia:
>**'I am happy because I am learning'**.

- En el modelado de bolsa continua de palabras (CBOW), intentamos predecir la palabra central dadas algunas palabras de contexto (las palabras alrededor de la palabra central).

- Por ejemplo, si tuviera que elegir un contexto de tamaño medio, digamos $C = 2$, entonces intentaría predecir la palabra **happy** dado el contexto que incluye 2 palabras antes y 2 palabras después de la palabra central. :

> $C$ words before: [I, am]

> $C$ words after: [because, I]

- en otras palabras:

$$context = [I,am, because, I]$$
$$target = happy$$

La estructura del modelo se ve como sigue:

<div style="width:image width px; font-size:100%; text-align:center;"><img src='Figures/word2.png' alt="alternate text" width="width" height="height" style="width:600px;height:250px;" /> Figure 1 </div>

dond $\bar x$ es el promedio de todos los vectores one-hot de las palabras de contexto.

<div style="width:image width px; font-size:100%; text-align:center;"><img src='mean_vec2.png' alt="alternate text" width="width" height="height" style="width:600px;height:250px;" /> Figure 2 </div>

Una vez que ya tenemos los vectores contextos, podemos usar $\bar x$  como la entrada al modelo

La arquitectura a implementar es la siguiente:

\begin{align}
 h &= W_1 \  X + b_1  \tag{1} \\
 a &= ReLU(h)  \tag{2} \\
 z &= W_2 \  a + b_2   \tag{3} \\
 \hat y &= softmax(z)   \tag{4} \\
\end{align}

In [49]:
# Importar librerias y funciones de ayuda (utils2)
import nltk
from nltk.tokenize import word_tokenize
import numpy as np
from collections import Counter
from utils2 import sigmoid, get_batches, compute_pca, get_dict

In [50]:

nltk.data.path.append('.')

In [51]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [52]:
# cargar y tokenizar

In [53]:
# obtener la distribucion de frecuencias en el vocabulario


#### Mapear las palabras a sus indices y de indices a palabras


In [54]:
# get_dict obtener los diccionarios ind2vec, vec2ind


<a name='2'></a>
# Entrenando el Modelo

###  Inicialización del modelo

Ahora inicializarás dos matrices y dos vectores.
- La primera matriz ($W_1$) es de dimensión $N \times V$, donde $V$ es el número de palabras en tu vocabulario y $N$ es la dimensión de tu vector de palabras.
- La segunda matriz ($W_2$) es de dimensión $V \times N$.
- El vector $b_1$ tiene dimensiones $N\times 1$
- El vector $b_2$ tiene dimensiones $V\times 1$.
- $b_1$ y $b_2$ son los vectores bias.

La estructura general del modelo se verá como en la Figura 1, pero en esta etapa solo estamos inicializando los parámetros.


In [55]:
def initialize_model(N,V, random_seed=1):
    '''
    Inputs:
        N:  dimension of hidden vector
        V:  dimension of vocabulary
        random_seed: random seed for consistent results in the unit tests
     Outputs:
        W1, W2, b1, b2: initialized weights and biases
    '''

    np.random.seed(random_seed)

    # W1 shape (N,V)
    W1 = np.random.rand(N,V)
    # W2  shape (V,N)
    W2 = np.random.rand(V,N)
    # b1  shape (N,1)
    b1 = np.random.rand(N,1)
    # b2  shape (V,1)
    b2 = np.random.rand(V,1)

    return W1, W2, b1, b2

In [56]:
# Testear la función.


<a name='2.1'></a>
### 2.1 Softmax
Antes de que podamos comenzar a entrenar el modelo, debemos implementar la función softmax como se define en la ecuación 5:  

<br>
$$ \text{softmax}(z_i) = \frac{e^{z_i} }{\sum_{i=0}^{V-1} e^{z_i} }  \tag{5} $$

- La indexación de matrices en el código comienza en 0.
- $V$ es el número de palabras en el vocabulario (que también es el número de filas de $z$).
- $i$ va de 0 a |V| - 1.


**Implemente la función softmax a continuación. **

- Supongamos que la entrada $z$ a `softmax` es una matriz 2D
- Cada ejemplo de entrenamiento está representado por una columna de forma (V, 1) en esta matriz 2D.
- Puede haber más de una columna en la matriz 2D, porque puede incluir un lote de ejemplos para aumentar la eficiencia. Llamemos al tamaño del lote $m$ en minúsculas, por lo que la matriz $z$ tiene la forma (V, m)
- Al tomar la suma de $i=1 \cdots V-1$, toma la suma de cada columna (cada ejemplo) por separado.


In [57]:
def softmax(z):
    '''
    Inputs:
        z: output scores from the hidden layer
    Outputs:
        yhat: prediction (estimate of y)
    '''


    return yhat

In [58]:
# Testear la función

<a name='2.2'></a>
### Forward propagation

Implemente la propagación directa $z$ según las ecuaciones (1) a (3). <br>

\begin{align}
 h &= W_1 \  X + b_1  \tag{1} \\
 a &= ReLU(h)  \tag{2} \\
 z &= W_2 \  a + b_2   \tag{3} \\
\end{align}

Para ello utilizarás como función de activación la ReLU dada por::

$$f(h)=\max (0,h) \tag{6}$$

In [59]:
def forward_prop(x, W1, W2, b1, b2):
    '''
    Inputs:
        x:  average one hot vector for the context
        W1, W2, b1, b2:  matrices and biases to be learned
     Outputs:
        z:  output score vector
    '''


    return z, h

In [60]:
# Testear la función



## Función de Costo


In [61]:
# cross-entropy cost functioN
def compute_cost(y, yhat, batch_size):
    # cost function
    logprobs = np.multiply(np.log(yhat),y) + np.multiply(np.log(1 - yhat), 1 - y)
    cost = - 1/batch_size * np.sum(logprobs)
    cost = np.squeeze(cost)
    return cost

In [62]:
# Testear la función



## Entrenar al modelo - Backpropagation

Ahora que has entendido cómo funciona el modelo CBOW, lo entrenarás. <br>
Creaste una función para la propagación hacia adelante. Ahora implementará una función que calcula los gradientes para propagar los errores hacia atrás.

In [63]:
def relu(z):
    result = z.copy()
    result[result<0]=0
    return result

In [64]:
l1=np.array([[0.52727857,  0.52727857,  0.52727857,  0.52727857],
 [-0.1259346,  -0.1259346,  -0.1259346 , -0.1259346 ],
 [ 0.39739328,  0.39739328,  0.39739328,  0.39739328],
 [-0.33644763, -0.33644763, -0.33644763, -0.33644763]])

In [65]:
def back_prop(x, yhat, y, h, W1, W2, b1, b2, batch_size):
    '''
    Inputs:
        x:  average one hot vector for the context
        yhat: prediction (estimate of y)
        y:  target vector
        h:  hidden vector (see eq. 1)
        W1, W2, b1, b2:  matrices and biases
        batch_size: batch size
     Outputs:
        grad_W1, grad_W2, grad_b1, grad_b2:  gradients of matrices and biases
    '''


    return grad_W1, grad_W2, grad_b1, grad_b2

In [66]:
# Testear la función



## Gradient Descent

Ahora que ha implementado una función para calcular los gradientes, implementará el descenso de gradientes por **lotes** en su conjunto de entrenamiento.

**Hint:** Para eso, usarás `initialize_model` y las funciones `back_prop` que acabas de crear (y la función `compute_cost`). También puedes utilizar la función auxiliar `get_batches` proporcionada:

```for x, y in get_batches(data, word2Ind, V, C, batch_size):```

```...```
Además: imprima el costo después de procesar cada lote (use el tamaño de lote = 128)

In [67]:

def gradient_descent(data, word2Ind, N, V, num_iters, alpha=0.03):

    '''
    This is the gradient_descent function

      Inputs:
        data:      text
        word2Ind:  words to Indices
        N:         dimension of hidden vector
        V:         dimension of vocabulary
        num_iters: number of iterations
     Outputs:
        W1, W2, b1, b2:  updated matrices and biases

    '''

    return W1, W2, b1, b2

In [68]:
# testear la función



## Visualización de los vectores palabra
En esta parte visualizarás los vectores de palabras entrenados usando la función que acabas de codificar arriba.

In [69]:
# visualizar las palabras
