# **Tarea 3 - Word Embeddings 📚**

**Integrantes:** Sebastián Tinoco, José Luis Cádiz

**Fecha límite de entrega 📆:** 3 de mayo.

**Tiempo estimado de dedicación:** 200 minutos


**Instrucciones:**
- El ejercicio consiste en:
    - Responder preguntas relativas a los contenidos vistos en los vídeos y slides de las clases. 
    - Entrenar Word2Vec y Word Context Matrix sobre un pequeño corpus.
    - Evaluar los embeddings obtenidos en una tarea de clasificación.
- La tarea se realiza en grupos de **máximo** 2 personas. Puede ser invidivual pero no es recomendable.
- La entrega es a través de u-cursos a más tardar el día estipulado arriba. No se aceptan atrasos.
- El formato de entrega es este mismo Jupyter Notebook.
- Al momento de la revisión tu código será ejecutado. Por favor verifica que tu entrega no tenga errores de compilación. 
- En el horario de auxiliar pueden realizar consultas acerca de la tarea a través del canal de Discord del curso. 


**Referencias**

Vídeos: 

- [Linear Models](https://youtu.be/zhBxDsNLZEA)
- [Neural Networks](https://youtu.be/oHZHA8h2xN0)
- [Word Embeddings](https://youtu.be/wtwUsJMC9CA)

## **Preguntas teóricas 📕 (2 puntos).** ##
Para estas preguntas no es necesario implementar código, pero pueden utilizar pseudo código.

### **Parte 1: Modelos Lineales (1 ptos)**

Suponga que tiene un dataset de 10.000 documentos etiquetados por 4 categorías: política, deporte, negocios y otros. 

**Pregunta 1**: Diseñe un modelo lineal capaz de clasificar un documento según estas categorías donde el output sea un vector con una distribución de probabilidad con la pertenencia a cada clase. 

Especifique: representación de los documentos de entrada, parámetros del modelo, transformaciones necesarias para obtener la probabilidad de cada etiqueta y función de pérdida escogida. **(0.5 puntos)**

**Respuesta**: A continuación se enumeran los pasos a seguir para diseñar un modelo ilneal que clasifique documentos.
1. **Representación**: Una representación básica podría ser One-Hot Vector, el cual consiste en representar cada oración del corpus como un vector sparse del tamaño del vacabulario, el cual tiene un 1 si la palabra aparece y 0 si no. Otra opción es Bag-of-Words (BOW), el cual también representa las oraciones como vectores sparse pero intenta capturar además, el orden de las palabras a traves de bigramas,trigramas etc. Esta representación vendrá dada por
el vector $\vec{x}$.

2. **Modelo**: Consideremos un modelo lineal de la forma $\vec{\hat{y}}=f(x)=\vec{x}\cdot W+\vec{b}$, donde $\vec{x}$ es el input. $W$, $\vec{b}$ son parámetros del modelo e $\vec{\hat{y}}$ es el Output de dimensión igual al número de etiquetas de la tarea de clasificación, en este caso dimensión 4.


3. **Transformaciones del Ouput para obtener probabilidad de etiqueta**: Para obtener una representación probabilistica del Output del modelo lineal, dicho Ouput es pasado por una función $\textit{Softmax}$ :

$\vec{\hat{y}}=\textit{Softmax}(\vec{x}\cdot W+\vec{b})$, donde la predicción estará dada por:  $Prediction=\hat{y}=argmax_{i}(\vec{\hat{y}}_{[i]})$, es decir, se asigna la etiqueta que tenga mayor probabilidad.


4. **Entrenamiento**: para mejorar la calidad de las predicciones se deben ajustar los parámetros del modelo de modo de maximizar la capacidad predictiva del modelo. Para esto es de vital importancia definir una
función de pérdida o también conocida como $\textit{Loss}$. Para una predicción dada, La función de $\textit{Loss}$, puede ser definida como
$\textit{Loss}$=$L(f(\vec{x},\vec{\Theta}),y_{true})$=$L(\hat{y},y_{true})$, donde $\vec{\Theta}$ representa los parámetros del modelo, $\hat{y}$ la predicción e $y_{true}$ la etiqueta correcta. Para considerar todas las predicciones que se harían sobre el conjunto de entrenamiento se define la función de $\textit{Loss}$ para todo el $\textit{Corpus}$: $\mathcal{L}(\vec{\Theta})=\frac{1}{N}\sum_{i=1}^{N}L(\hat{y_{i}},y_{true_{i}})$. Una función de pérdida adecuada para la tarea de clasificación es la conocida $\textit{Cross-Entropy-Loss}$. 

**Pregunta 2**: Explique cómo funciona el proceso de entrenamiento en este tipo de modelos y su evaluación. **(0.5 puntos)**

**Respuesta**: Como se menciono anteriormente, para el proceso de entrenamiento se debe definir una función de pérdida a optimizar con el objetivo de obtener los parámetros $\vec{\Theta}$ que minimicen la función de pérdida. 
Matemáticamente estos parámetros estarán dados por la siguiente expresión:
$$\hat{\Theta}=\textit{Argmin}_{\vec{\Theta}}\mathcal{L}(\vec{\Theta})=\textit{Argmin}_{\vec{\Theta}}\frac{1}{N}\sum_{i=1}^{N}L(\hat{y_{i}},y_{true_{i}})$$


En este caso para la tarea que se busca cumplir una buena función de pérdida es  $\textit{Cross-Entropy-Loss}$, la cual cuantifica la no similitud entre la etiqueta real y la etiqueta predicha, matemáticamente esta definida por la siguiente expresión:
$$\mathcal{L}_{cross-entropy}(\vec{\hat{y}},\vec{y}_{true})=-\sum_{i=1}^{N}\vec{y}_{true_{i}}\cdot\log(\vec{\hat{y_{i}}})$$ 

El método de optimización utilizado estan basandos en los métodos basados en gradientes. Estos métodos son más económicos computacionalmente que derivar sobre todas las variables y calcular las diversas soluciones de cada derivada parcial particular. Un ejemplo básico de este tipo de métodos es el $\textit{``Online Stochastic Gradient Descent''} $. 

Este método consiste en inicializar los parámetros del modelo con valores aleatorios y mientras no se cumpla un criterio de stop, como por ejemplo que la variación porcentual entre el $\vec{\Theta}$ anterior y el $\vec{\Theta}$ actualizado no sea lo suficiemente pequeño a un $\vec{\varepsilon}$, se iterará sobre cada registro del conjunto de entrenamiento, calculando la predicción que haría el modelo, luego se computa el error mediante la función de pérdida y la etiqueta verdadera, para luego calcular el gradiente respecto a los parámetros $\vec{\Theta}$. Luego $\vec{\Theta}$ es actualizado: $\vec{\Theta}=\vec{\Theta}-\eta\cdot\nabla\mathcal{L}$, donde $\eta$ se conoce como la tasa de aprendizaje. Esta actualización continuará hasta que se cumpla el criterio de stop, con esto obteniendo los parámetros del modelo ya entrenado.

Para evaluar el modelo, se debe contar con un conjunto de test, totalmente distinto al conjunto de entrenamiento, el cual debe contar también con las etiquetas verdaderas, de modo de hacer predicciones con el modelo ya entrenado, para luego calcular alguna métrica de clasificación como $\textit{Accuracy, Precision, Recall, F1}$ etc.

### **Parte 2: Redes Neuronales (1 ptos)** 

Supongamos que tenemos la siguiente red neuronal.

![image.png](https://drive.google.com/uc?export=view&id=1fFTjtMvH6MY8o42_vj010y8eTuCVb5a3)

**Pregunta 1**: En clases les explicaron como se puede representar una red neuronal de una y dos capas de manera matemática. Dada la red neuronal anterior, defina la salida $\vec{\hat{y}}$ en función del vector $\vec{x}$, pesos $W^i$, bias $b^i$ y funciones $g,f,h$. 

Adicionalmente liste y explicite las dimensiones de cada matriz y vector involucrado en la red neuronal. **(0.5 Puntos)**

**Respuesta**: 

Formula:
$\vec{\hat{y}} = NN_{MLP3}(\vec{x}) =\vec{h}^{3}\cdot\vec{W}^{4}$, $\vec{W}^{4}$ dim (1,4).

donde:

* $\vec{h}^{3}=h(\vec{h}^{2}\cdot\vec{W}^{3}+\vec{b}^{3})$, donde $\vec{W}^{3}$ dim (3,1), $\vec{b}^{3}$ dim (1,1).
* $\vec{h}^{2}=f(\vec{h}^{1}\cdot\vec{W}^{2}+\vec{b}^{2})$, donde $\vec{W}^{2}$ dim (2,3), $\vec{b}^{2}$ dim (1,3).
* $\vec{h}^{1}=g(\vec{x}\cdot\vec{W}^{1}+\vec{b}^{1})$, donde $\vec{W}^{1}$ dim (3,2), $\vec{b}^{1}$ dim (1,2), $\vec{x}$ dim (1,3).

**Pregunta 2**: Explique qué es backpropagation. ¿Cuales serían los parámetros a evaluar en la red neuronal anterior durante backpropagation? **(0.25 puntos)**

**Respuesta**: Los parámetros a optimizar dentro de una red neuronal son los pesos sinapticos asociados a las conexiones entre una capa y otra, junto con sus respectivos bias de cada capa. Para optimizar los parámetros de la red neuronal se utilizan métodos del descenso del gradiente, pero el problema es que las redes neuronales se caracterizan por tener una gran cantidad de parámetros, lo que en la practica hace muy costoso cumputacionalmente calcular todas las derivadas. Por esto es necesario calcular estas derivadas de una manera más eficiente. 

Backpropagation es un técnica que permite obtener las derivadas parciales de una función $\textit{Loss}$ respecto a todos los parámetros de un modelo de una manera más eficiente guardando las derivadas que se repiten. El gradiente se calcula de forma recursiva, es decir se calculan las derivadas parciales desde las capas más profundas hasta las más superficiales, de modo de ir guardando las derivadas profundas que luego son utilizadas en las derivadas parciales de las capas menos profundas producto de la regla de la cadena. Esto sucede porque se entiende que el error imputado de un parámetro depende de los errores imputados de los parámetros de las capas más profundas, es decir el error imputado de cada parámetro se propaga de adelante hacia atras ($\textit{Back-Propagation}$). Con esto finalmente, se logra reducir el costo cumputacional al no recalcular derivadas. 


**Pregunta 3**: Explique los pasos de backpropagation. En la red neuronal anterior: Cuales son las derivadas que debemos calcular para poder obtener $\vec{\delta^l_{[j]}}$ en todas las capas? **(0.25 puntos)**

**Respuesta**: La idea es calcular el gradiente de manera eficiente, i.e. calcular las derivadas parciales de los parámetros de las capas superiores secuencialmente hasta las capas  inferiores. Del tal modo de aprovechar la dependencia de las derivadas parciales de las capas inferiores respecto a las superiores, reciclando ciertos calculos. Esto en computación se llama programación dinámica.

Pasos:

1. Se inicializa la red con valores aleatorios para todos sus pesos.
2. $\textbf{Fordward propagation}$ - (Evaluar ejemplos): Para cada ejemplo de los datos de entrenamiento se alimenta la red neuronal, se calculan las funciones de activación desde las capas inferiores hasta las superiores de forma recursiva. según la ecuación:
$$h^{l}_{j}=\left (\sum_{i}W_{i,j}^{l}\cdot z_{i}^{l-1}\right )+b_{j}^{l}\hspace{0.1cm}donde\hspace{0.1cm} z_{j}^{l}=g\left(h_{j}^{l}\right), z_{j}^{0}=x_{j}$$

3. Se obtiene la salida de la red y se evalua la $\textit{Loss}$, $\mathcal{L}(\vec{\Theta},\vec{\hat{y}},\vec{y}_{true})$, obteniendo una $\textit{Loss}$ de la forma  $\mathcal{L}(\vec{\Theta})$.
4. $\textbf{Back propagation}$: Calcular el gradiente de $\mathcal{L}(\vec{\Theta})$ mediante el calculo de las derivadas parciales de los parámetros desde las capas superiores hasta las inferiores, guardando las derivadas que se van obteniendo. La derivada de un parámetro $W^{l}_{i,j}$ esta definida por la siguiente expresión:
$$\frac{\partial\mathcal{L}}{\partial W^{l}_{i,j}}=\delta^{l}_{j}\cdot z^{l-1}_{i}$$

donde $\delta^{l}_{j}=\frac{\partial\mathcal{L}}{\partial h^{l}_{j}}=\sum_{k}\left( \delta^{l+1}_{k} \cdot W^{l+1}_{j,k}\cdot g'\left(h^{l}_{j}\right)    \right)$, de este modo se deben  obtener los deltas de las capas superiores para obtener los deltas de las capas inferiores. Dicho de otra forma, se deben obtener las derivadas parciales del $\textit{Loss}$ respecto a la salida de cada neurona desde las capas superiores hasta las capas inferiores. En este caso particular de la capa 3, 2 y 1 de forma secuencial.

## **Preguntas prácticas 💻 (4 puntos).** ##

### **Parte 3: Word Embeddings**

En la auxiliar 2 se nombraron dos formas de crear word vectors:

-  Distributional Vectors.
-  Distributed Vectors.

El objetivo de esta parte es comparar las dos embeddings obtenidos de estas dos estrategias en una tarea de clasificación.

In [None]:
import re  
import pandas as pd 
from time import time  
from collections import defaultdict 
import string 
import multiprocessing
import os
import gensim
import sklearn
from sklearn import linear_model
from collections import Counter
import numpy as np
import scipy
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix, cohen_kappa_score, classification_report

from google.colab import drive
drive.mount("/content/drive")

# word2vec
from gensim.models import Word2Vec, KeyedVectors, FastText
from gensim.models.phrases import Phrases, Phraser
from sklearn.model_selection import train_test_split
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
logger = logging.getLogger(__name__)

Mounted at /content/drive


#### **Parte A (1 punto)** 

En esta parte debe crear una matriz palabra contexto, para esto, complete el siguiente template (para esta parte puede utilizar las librerías ```numpy``` y/o ```scipy```). Hint: revise como utilizar matrices sparse de ```scipy```

```python
class WordContextMatrix:

  def __init__(self, vocab_size, window_size, dataset, tokenizer):
    # se sugiere agregar un una estructura de datos para guardar las
    # palabras del vocab y para guardar el conteo de coocurrencia
    ...
    
  def add_word_to_vocab(self, word):
    # Le puede ser útil considerar un token unk al vocab
    # para palabras fuera del vocab
    ...
  
  def build_matrix(self):
    ...

  def matrix2dict(self):
    # se recomienda transformar la matrix a un diccionario de embedding.
    ...

```

puede modificar los parámetros o métodos si lo considera necesario. Para probar la matrix puede utilizar el siguiente corpus.

```python
corpus = [
  "I like deep learning.",
  "I like NLP.",
  "I enjoy flying."
]
```

Obteniendo una matriz parecia a esta:

***Resultado esperado***: 

| counts   | I  | like | enjoy | deep | learning | NLP | flying | . |   
|----------|---:|-----:|------:|-----:|---------:|----:|-------:|--:|
| I        | 0  |  2   |  1    |    0 |  0       |   0 | 0      | 0|            
| like     |  2 |    0 |  0    |    1 |  0       |   1 | 0      | 0 | 
| enjoy    |  1 |    0 |  0    |    0 |  0       |   0 | 1      | 0 |
| deep     |  0 |    1 |  0    |    0 |  1       |   0 | 0      | 0 |  
| learning |  0 |    0 |  0    |    1 |  0       |   0 | 0      | 1 |          
| NLP      |  0 |    1 |  0    |    0 |  0       |   0 | 0      | 1 |
| flying   |  0 |    0 |  1    |    0 |  0       |   0 | 0      | 1 | 
| .        |  0 |    0 |  0    |    0 |  1       |   1 | 1      | 0 | 

``

**Respuesta:**

In [None]:
import re

# tokenizador usado en Tarea 1
class CoolTokenizer:
  def tokenize(self, text):
    ### Inicio del código ###
    tokens = re.findall(r"[\w']+|[().,!?;-]", text) # se hace un match a las palabras + puntuaciones (. , ! ? ;)
    return tokens
    ### Fín del código ###

In [None]:
class WordContextMatrix:

  def __init__(self, vocab_size, window_size, dataset, tokenizer):
    # se sugiere agregar un una estructura de datos para guardar las
    # palabras del vocab y para guardar el conteo de coocurrencia
    self.vocab_size = vocab_size # tamaño del vocabulario
    self.window_size = window_size # tamaño de la ventana
    self.dataset = dataset # corpus
    self.tokenizer = tokenizer # tokenizer 
    self.vocab = None # vocabulario del corpus
    self.matrix = None # matriz de contexto

  def build_matrix(self):
    # si vocabulario no tiene tokens, inicializar
    if self.matrix is None:
      self.get_vocabulary()
    
    # si vocab_size excede vocabulario del corpus, igualar al vocabulario del corpus
    if self.vocab_size >= len(self.vocab):
      self.vocab_size = len(self.vocab) - 1

    self.matrix = pd.DataFrame(np.zeros((self.vocab_size + 1, self.vocab_size + 1)), columns = self.vocab, index = self.vocab) # init de matriz contexto

    for doc in self.dataset: # para cada documento en el corpus
      tokens = [token for token in self.tokenizer.tokenize(doc)] # obtengo tokens del doc
      for i in range(len(tokens)): # para cada token
          LeftWindow = [tokens[i-j] if i-j >= 0 else None for j in range(1, self.window_size+1)] # obtengo la ventana izquierda, tokens con índice fuera del documento son None
          RightWindow = [tokens[i+j] if i+j+1 <= len(tokens) else None for j in range(1, self.window_size+1)] # obtengo la ventana derecha, tokens con índice fuera del documento son None

          for left_token in LeftWindow: # para cada token de la ventana izquierda
            if left_token is not None: # si el token no es None
              LeftPair = [tokens[i], left_token] # genero par
              LeftPair = [token if token in self.vocab else 'unk' for token in LeftPair] # asigno unk a tokens que no esten en vocabulario
              self.matrix.loc[LeftPair[0], LeftPair[1]] += 1 # update a matriz contexto

          for right_token in RightWindow: # para cada token de la ventana derecha
            if right_token is not None: # si el token no es None
              RightPair = [tokens[i], right_token] # genero par
              RightPair = [token if token in self.vocab else 'unk' for token in RightPair] # asigno unk a tokens que no esten en vocabulario 
              self.matrix.loc[RightPair[0], RightPair[1]] += 1 # update a matriz contexto

    return self.matrix

  def matrix2dict(self):
    if self.matrix is not None:
      return self.matrix.to_dict()
    raise ValueError('Debes entrenar la matriz de contexto primero.')

  def get_vocabulary(self):
    self.vocab = ['unk'] # init de vocabulario con token 'unk'
    for doc in self.dataset: # para cada documento en el corpus
      tokens = [token for token in self.tokenizer.tokenize(doc)] # obtengo tokens 
      for token in tokens: # para cada token del documento
        if len(self.vocab) >= self.vocab_size+1: # break si vocabulario excede tamaño del vocabulario deseado
          break
        if token not in self.vocab: # si token no está en vocabulario
          self.vocab.append(token) # agrego token

    return self.vocab

In [None]:
corpus = [
  "I like deep learning.",
  "I like NLP.",
  "I enjoy flying."
]

context_class = WordContextMatrix(vocab_size = 10, window_size = 1, dataset = corpus, tokenizer = CoolTokenizer())
ContextMatrix = context_class.build_matrix()
# obtenemos matriz con las columnas e índices ordenados para una mejor comparación :)
ContextMatrix[['I', 'like', 'enjoy', 'deep', 'learning', 'NLP', 'flying', '.', 'unk']].reindex(['I', 'like', 'enjoy', 'deep', 'learning', 'NLP', 'flying', '.', 'unk'])

Unnamed: 0,I,like,enjoy,deep,learning,NLP,flying,.,unk
I,0.0,2.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
like,2.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0
enjoy,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
deep,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
learning,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0
NLP,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
flying,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
.,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0
unk,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### **Parte B (1.5 puntos)**

En esta parte es debe entrenar Word2Vec de gensim y construir la matriz palabra contexto utilizando el dataset de diálogos de los Simpson. 

Utilizando el dataset adjunto con la tarea:

In [None]:
path = '/content/drive/MyDrive/MDS/NLP/Tarea 3/'
data_file = "dialogue-lines-of-the-simpsons.zip"
df = pd.read_csv(path + data_file)
stopwords = pd.read_csv(
    'https://raw.githubusercontent.com/Alir3z4/stop-words/master/english.txt'
).values
stopwords = Counter(stopwords.flatten().tolist())
df = df.dropna().reset_index(drop=True) # Quitar filas vacias
df.head()

Unnamed: 0,raw_character_text,spoken_words
0,Miss Hoover,"No, actually, it was a little of both. Sometim..."
1,Lisa Simpson,Where's Mr. Bergstrom?
2,Miss Hoover,I don't know. Although I'd sure like to talk t...
3,Lisa Simpson,That life is worth living.
4,Edna Krabappel-Flanders,The polls will be open from now until the end ...


**Pregunta 1**: Ayudándose de los pasos vistos en la auxiliar, entrene los modelos Word2Vec. **(0.75 punto)** (Hint, le puede servir explorar un poco los datos)

**Respuesta**:

In [None]:
!pip install cpython # instalación de cpython para entrenar mas rápido el modelo

model_w2v = Word2Vec(min_count=10,
                      window=4,
                      size=200,
                      sample=6e-5,
                      alpha=0.03,
                      min_alpha=0.0007,
                      negative=20,
                      workers=multiprocessing.cpu_count())

Collecting cpython
  Downloading cPython-0.0.6.tar.gz (4.7 kB)
Building wheels for collected packages: cpython
  Building wheel for cpython (setup.py) ... [?25l[?25hdone
  Created wheel for cpython: filename=cPython-0.0.6-py3-none-any.whl size=4913 sha256=74a355611ede74c7458d2161d53489646eea27070ef138525c33a7c419b3c84b
  Stored in directory: /root/.cache/pip/wheels/88/92/ea/c32ad929e979a7303e010b29c736c793368f6f61c8c9902865
Successfully built cpython
Installing collected packages: cpython
Successfully installed cpython-0.0.6


In [None]:
model_w2v.build_vocab(df['spoken_words'].apply(lambda x: CoolTokenizer().tokenize(x)), progress_per=10000)

2022-05-08 20:39:44,242 : INFO : collecting all words and their counts
2022-05-08 20:39:44,244 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2022-05-08 20:39:44,282 : INFO : PROGRESS: at sentence #10000, processed 127439 words, keeping 11962 word types
2022-05-08 20:39:44,318 : INFO : PROGRESS: at sentence #20000, processed 256983 words, keeping 18463 word types
2022-05-08 20:39:44,370 : INFO : PROGRESS: at sentence #30000, processed 399063 words, keeping 24196 word types
2022-05-08 20:39:44,410 : INFO : PROGRESS: at sentence #40000, processed 532120 words, keeping 28179 word types
2022-05-08 20:39:44,450 : INFO : PROGRESS: at sentence #50000, processed 654826 words, keeping 31857 word types
2022-05-08 20:39:44,489 : INFO : PROGRESS: at sentence #60000, processed 768830 words, keeping 35006 word types
2022-05-08 20:39:44,530 : INFO : PROGRESS: at sentence #70000, processed 893426 words, keeping 38351 word types
2022-05-08 20:39:44,571 : INFO : PROGRESS: at 

In [None]:
t = time()
model_w2v.train(df['spoken_words'], total_examples=model_w2v.corpus_count, epochs=15, report_delay=10)
print('Time to train the model: {} mins'.format(round((time() - t) / 60, 2)))

2022-05-08 20:39:47,188 : INFO : training model with 2 workers on 8086 vocabulary and 200 features, using sg=0 hs=0 sample=6e-05 negative=20 window=4
2022-05-08 20:39:48,210 : INFO : EPOCH 1 - PROGRESS: at 3.59% examples, 145590 words/s, in_qsize 3, out_qsize 0
2022-05-08 20:39:58,291 : INFO : EPOCH 1 - PROGRESS: at 48.61% examples, 176588 words/s, in_qsize 3, out_qsize 0
2022-05-08 20:40:08,320 : INFO : EPOCH 1 - PROGRESS: at 82.04% examples, 159640 words/s, in_qsize 3, out_qsize 0
2022-05-08 20:40:13,534 : INFO : worker thread finished; awaiting finish of 1 more threads
2022-05-08 20:40:13,557 : INFO : worker thread finished; awaiting finish of 0 more threads
2022-05-08 20:40:13,564 : INFO : EPOCH - 1 : training on 6982745 raw words (4120749 effective words) took 26.4s, 156332 effective words/s
2022-05-08 20:40:14,601 : INFO : EPOCH 2 - PROGRESS: at 2.85% examples, 115298 words/s, in_qsize 3, out_qsize 0
2022-05-08 20:40:24,607 : INFO : EPOCH 2 - PROGRESS: at 36.38% examples, 137125 

Time to train the model: 3.75 mins


In [None]:
model_w2v.init_sims(replace=True)

2022-05-08 20:43:32,241 : INFO : precomputing L2-norms of word weight vectors


**Pregunta 2**: Cree una matriz palabra contexto usando el mismo dataset. Configure el largo del vocabulario a 1000 o 2000 tokens, puede agregar valores mayores pero tenga en cuenta que la construcción de la matriz puede tomar varios minutos. Puede que esto tarde un poco. **(0.75 punto)** 

**Respuesta:**

In [None]:
context_class = WordContextMatrix(vocab_size = 1000, window_size = 1, dataset = df['spoken_words'], tokenizer = CoolTokenizer())
context_class.build_matrix()

Unnamed: 0,unk,No,",",actually,it,was,a,little,of,both,...,gallon,chocolate,Check,brownie,fudge,chip,write,shopping,question,What's
unk,222776.0,526.0,59101.0,114.0,4850.0,2835.0,24393.0,1494.0,15078.0,112.0,...,1.0,60.0,14.0,3.0,20.0,20.0,36.0,28.0,67.0,78.0
No,526.0,0.0,1510.0,0.0,10.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,0.0
",",59101.0,1510.0,2.0,84.0,1757.0,95.0,806.0,135.0,151.0,12.0,...,0.0,19.0,5.0,0.0,3.0,1.0,11.0,4.0,19.0,1.0
actually,114.0,0.0,84.0,0.0,4.0,7.0,12.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
it,4850.0,10.0,1757.0,4.0,2.0,551.0,117.0,0.0,183.0,2.0,...,0.0,1.0,66.0,0.0,0.0,0.0,10.0,0.0,0.0,23.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
chip,20.0,0.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,...,0.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
write,36.0,0.0,11.0,0.0,10.0,0.0,42.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
shopping,28.0,0.0,4.0,0.0,0.0,0.0,2.0,1.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
question,67.0,3.0,19.0,0.0,0.0,0.0,38.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### **Parte C (1.5 puntos): Aplicar embeddings para clasificar**

Ahora utilizaremos los embeddings que acabamos de calcular para clasificar palabras basadas en su polaridad (positivas o negativas). 

Para esto ocuparemos el lexicón AFINN incluido en la tarea, que incluye una lista de palabras y un 1 si su connotación es positiva y un -1 si es negativa.

In [None]:
AFINN = 'AFINN_full.csv'
df_afinn = pd.read_csv(path + AFINN, sep='\t', header=None)
df_afinn.columns = ['tokens', 'sentiment']

Hint: Para w2v y la wcm son esperables KeyErrors debido a que no todas las palabras del corpus de los simpsons tendrán una representación en AFINN. Para el caso de la matriz palabra contexto se recomienda convertir su matrix a un diccionario. Pueden utilizar esta función auxiliar para filtrar las filas en el dataframe que no tienen embeddings (como w2v no tiene token UNK se deben ignorar).

In [None]:
def try_apply(model,word):
    try:
        aux = model[word]
        return True
    except KeyError:
        #logger.error('Word {} not in dictionary'.format(word))
        return False

**Pregunta 1**: Transforme las palabras del corpus de AFINN a la representación en embedding que acabamos de calcular (con ambos modelos). 

Su dataframe final debe ser del estilo [embedding, sentimiento], donde los embeddings corresponden a $X$ y el sentimiento asociado con el embedding a $y$ (positivo/negativo, 1/-1). 

Para ambos modelos, separar train y test de acuerdo a la siguiente función. **(0.5 puntos)**

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.1, stratify=y)
```

**Respuesta**:

Usando **Word2Vec**:

In [None]:
from sklearn.base import BaseEstimator, TransformerMixin

In [None]:
class BaseFeature(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self

class Doc2VecTransformer(BaseFeature):
    """ Transforma tweets a representaciones vectoriales usando algún modelo de Word Embeddings.
    """
    
    def __init__(self, model, aggregation_func):
        # extraemos los embeddings desde el objeto contenedor. ojo con esta parte.
        self.model = model.wv 
        
        # indicamos la función de agregación (np.min, np.max, np.mean, np.sum, ...)
        self.aggregation_func = aggregation_func

    def simple_tokenizer(self, doc, lower=False):
        """Tokenizador. Elimina signos de puntuación, lleva las letras a minúscula(opcional) y 
           separa el tweet por espacios.
        """
        if lower:
            doc.translate(str.maketrans('', '', string.punctuation)).lower().split()
        return doc.translate(str.maketrans('', '', string.punctuation)).split()

    def transform(self, X, y = None):
        
        doc_embeddings = []
        
        for doc in X:
            tokens = self.simple_tokenizer(doc, lower = True) 
            
            selected_wv = []
            for token in tokens:
                if token in self.model.vocab:
                    selected_wv.append(self.model[token])
                    
            if len(selected_wv) > 0:
                doc_embedding = self.aggregation_func(np.array(selected_wv), axis=0)
                doc_embeddings.append(doc_embedding)
            else: 
                print('No pude encontrar ningún embedding en el tweet: {}. Agregando vector de ceros.'.format(doc))
                doc_embeddings.append(np.zeros(self.model.vector_size)) # la dimension del modelo 

        return np.array(doc_embeddings)

In [None]:
doc2vec = Doc2VecTransformer(model = model_w2v, aggregation_func = np.mean)
X_w2v = df_afinn.copy()
X_w2v = X_w2v[X_w2v['tokens'].apply(lambda x: try_apply(model_w2v, x))]
y_w2v = X_w2v['sentiment'].copy()
X_w2v = pd.DataFrame(doc2vec.transform(X_w2v['tokens']), index = X_w2v.index)
X_w2v['sentiment'] = y_w2v
X_w2v

  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,191,192,193,194,195,196,197,198,199,sentiment
0,-0.005876,-0.054479,0.065025,0.110985,-0.023531,0.109618,0.013256,-0.036617,-0.116491,-0.031573,...,-0.128080,0.059815,-0.009228,-0.093840,-0.072648,-0.068154,0.094327,-0.025039,-0.077103,1
7,-0.110011,-0.112570,-0.044812,-0.058394,-0.053793,-0.123762,0.075538,-0.068715,-0.094696,-0.037426,...,-0.038582,-0.098724,0.103043,-0.013736,0.124108,-0.023571,-0.009953,-0.114544,0.024868,-1
9,0.072491,-0.086120,0.046757,0.117633,-0.102832,0.034850,-0.022824,0.027937,0.039232,0.021773,...,0.019732,-0.062010,-0.041085,-0.083030,-0.068607,0.004719,0.010059,0.115425,0.048619,-1
10,-0.104290,0.119675,0.080029,-0.016221,-0.049657,0.068766,0.111652,-0.039882,0.035907,0.109498,...,-0.123379,0.094522,-0.093058,-0.082436,-0.081324,0.075243,0.102320,-0.122094,-0.122374,1
11,0.052578,-0.075405,0.102743,-0.085386,0.020334,0.126363,-0.063047,0.101807,0.062998,-0.031244,...,0.039064,-0.109978,-0.109080,-0.053130,-0.036817,-0.120643,-0.066891,0.080402,-0.082499,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3371,-0.005660,-0.083179,0.016850,0.003787,-0.009689,-0.082245,-0.075694,-0.009051,-0.094080,0.003337,...,-0.030801,0.106755,0.023161,-0.000579,0.086996,0.080699,-0.021623,0.058399,-0.055221,-1
3373,0.084346,0.051804,-0.050418,-0.084778,0.065223,-0.062585,-0.009248,-0.104003,0.085828,-0.099530,...,0.064509,-0.017097,-0.103393,0.111755,-0.046810,0.091307,-0.048306,0.054815,-0.003193,1
3374,0.091559,-0.017416,0.051470,-0.014099,0.074353,-0.050761,0.120351,-0.081860,-0.038195,0.009496,...,-0.120570,-0.047766,0.011517,0.007626,-0.094805,-0.022648,-0.122114,-0.117493,-0.031219,1
3376,0.007774,0.038983,-0.110513,0.086117,-0.050191,0.060727,-0.026059,-0.014616,0.062172,-0.024311,...,0.039644,0.060710,-0.095590,-0.102332,0.005206,0.094312,0.118114,-0.042657,0.000738,1


Usando la **wcm**:

In [None]:
context_dict = context_class.matrix2dict()
X_context = df_afinn.copy()
X_context = X_context[X_context['tokens'].apply(lambda x: try_apply(context_dict, x))] # filtro de lexicon
y_context = X_context['sentiment'].copy().reset_index(drop = True)
X_context = X_context['tokens'].apply(lambda x: context_dict[x]) # transformacion de palabras
X_context = pd.json_normalize(X_context)
X_context['sentiment'] = y_context
X_context

Unnamed: 0,unk,No,",",actually,it,was,a,little,of,both,...,chocolate,Check,brownie,fudge,chip,write,shopping,question,What's,sentiment
0,36.0,0.0,4.0,0.0,0.0,0.0,10.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
1,8.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1
2,44.0,0.0,9.0,0.0,0.0,2.0,10.0,2.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
3,13.0,0.0,5.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1
4,10.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,122.0,0.0,96.0,0.0,11.0,35.0,0.0,0.0,4.0,2.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,84.0,-1
96,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,25.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
97,69.0,0.0,29.0,0.0,19.0,2.0,4.0,0.0,5.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1
98,19.0,0.0,5.0,0.0,0.0,0.0,2.0,0.0,2.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,-1


In [None]:
y_context = X_context['sentiment']
X_context = X_context.drop(columns = 'sentiment')
X_train_context, X_test_context, y_train_context, y_test_context = train_test_split(X_context, y_context, 
                                                                                    random_state=0, test_size=0.1,
                                                                                    stratify=y_context)

y_w2v = X_w2v['sentiment']
X_w2v = X_w2v.drop(columns = 'sentiment')
X_train_w2v, X_test_w2v, y_train_w2v, y_test_w2v = train_test_split(X_w2v, y_w2v, random_state=0, test_size=0.1, 
                                                                    stratify=y_w2v)

**Pregunta 2**: Entrenar una regresión logística (vista en auxiliar) y reportar accuracy, precision, recall, f1 y confusion_matrix para ambos modelos. Por qué se obtienen estos resultados? Cómo los mejorarías? Como podrías mejorar los resultados de la matriz palabra contexto? es equivalente al modelo word2vec? **(1 punto)**

**Respuesta**:

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
lr_w2v = LogisticRegression(max_iter=1000000)
lr_w2v.fit(X_train_w2v, y_train_w2v)
y_pred_w2v = lr_w2v.predict(X_test_w2v)

conf_matrix_w2v = confusion_matrix(y_test_w2v, y_pred_w2v)
print(conf_matrix_w2v)

print(classification_report(y_test_w2v, y_pred_w2v))

[[37 15]
 [26 14]]
              precision    recall  f1-score   support

          -1       0.59      0.71      0.64        52
           1       0.48      0.35      0.41        40

    accuracy                           0.55        92
   macro avg       0.54      0.53      0.52        92
weighted avg       0.54      0.55      0.54        92



In [None]:
lr_context = LogisticRegression(max_iter=1000000)
lr_context.fit(X_train_context, y_train_context)
y_pred_context = lr_context.predict(X_test_context)

conf_matrix_context = confusion_matrix(y_test_context, y_pred_context)
print(conf_matrix_context)

print(classification_report(y_test_context, y_pred_context))

[[2 3]
 [1 4]]
              precision    recall  f1-score   support

          -1       0.67      0.40      0.50         5
           1       0.57      0.80      0.67         5

    accuracy                           0.60        10
   macro avg       0.62      0.60      0.58        10
weighted avg       0.62      0.60      0.58        10



Se concluye que, para este caso particular, la **wcm** obtiene un mejor rendimiento en casi todas las métricas. Pese a esto, es de notar que los resultados de ambos modelos tienen un poder de predicción pobre, ligeramente mejor a la clasificación aleatoria (la cual posee un accuracy de 0.5). Esto se puede explicar en los datos de entrenamiento (diálogo de los Simpsons), los que no necesariamente pueden representar la positividad de un comentario o palabra. Además, es de notar que ambos modelos no son tan comparables, pues el vocabulario usado para generar las representaciones no es el mismo (en **word2vec** se usó un vocabulario con tamaño del corpus, mientras que en **wcm** se usó un vocabulario con tamaño 1.000). Finalmente, ambos modelos poseen bastante espacio de mejora, tomando desde aumentar el tamaño de la ventana para construir los embeddings, aumentar el tamaño del vocabulario, mejorar el tokenizador (aplicando preprocesamiento como lowercase) y cambiar el set de entrenamiento.

# Bonus: +0.25 puntos en cualquier pregunta

**Pregunta 1**: Replicar la parte anterior utilizando embeddings pre-entrenados en un dataset más grande y obtener mejores resultados. Les puede servir [ésta](https://radimrehurek.com/gensim/downloader.html#module-gensim.downloader) documentacion de gensim **(0.25 puntos)**.

**Respuesta**:

In [None]:
import gensim.downloader as api

model_pretrained = api.load('word2vec-google-news-300') # embedding preentrenado a usar
doc2vec = Doc2VecTransformer(model = model_pretrained, aggregation_func = np.mean)
X_pretrained = df_afinn.copy()
X_pretrained = X_pretrained[X_pretrained['tokens'].apply(lambda x: try_apply(model_pretrained, x))]
y_pretrained = X_pretrained['sentiment'].copy()
X_pretrained = pd.DataFrame(doc2vec.transform(X_pretrained['tokens']), index = X_pretrained.index)
X_pretrained['sentiment'] = y_pretrained
X_pretrained

2022-05-08 20:53:35,576 : INFO : Creating /root/gensim-data




2022-05-08 21:00:04,755 : INFO : word2vec-google-news-300 downloaded
2022-05-08 21:00:04,765 : INFO : loading projection weights from /root/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz
2022-05-08 21:06:23,836 : INFO : loaded (3000000, 300) matrix from /root/gensim-data/word2vec-google-news-300/word2vec-google-news-300.gz
  # This is added back by InteractiveShellApp.init_path()


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,291,292,293,294,295,296,297,298,299,sentiment
0,-0.057861,0.160156,-0.031128,0.190430,0.087891,-0.182617,-0.187500,-0.176758,0.159180,0.232422,...,-0.304688,-0.357422,0.150391,-0.183594,-0.148438,0.014893,-0.003006,0.038574,0.175781,1
1,0.365234,-0.089355,-0.154297,0.408203,-0.375000,-0.232422,0.312500,0.123535,0.149414,0.322266,...,-0.013855,0.041260,-0.002197,0.146484,-0.029907,-0.176758,-0.234375,0.103516,0.112793,-1
2,0.384766,0.425781,0.093262,0.032471,-0.131836,0.203125,0.349609,-0.236328,-0.036133,-0.071289,...,0.154297,-0.437500,-0.096191,-0.024292,0.064941,0.112305,-0.155273,-0.192383,0.306641,1
3,0.191406,-0.174805,0.046143,0.324219,-0.027954,0.394531,-0.242188,0.419922,0.402344,0.019287,...,0.158203,-0.173828,-0.047363,0.170898,0.020142,0.092285,0.010498,0.041016,-0.001282,-1
4,-0.010925,0.431641,0.283203,0.335938,0.056152,-0.460938,0.061279,-0.028931,0.077148,0.182617,...,-0.145508,-0.332031,0.133789,-0.020874,-0.078613,-0.149414,-0.077637,-0.151367,0.165039,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3377,-0.139648,0.154297,-0.035645,0.402344,0.086914,-0.039307,0.051025,-0.423828,-0.123535,0.221680,...,0.044678,-0.451172,-0.029907,-0.051514,0.060791,0.275391,-0.121582,0.145508,0.045654,-1
3378,-0.045410,-0.019043,0.059326,0.060791,0.068848,-0.437500,-0.013245,-0.027710,0.103027,0.253906,...,-0.205078,0.009277,-0.139648,-0.057129,-0.175781,0.189453,0.212891,-0.047852,0.088379,1
3379,0.267578,0.125977,0.225586,0.234375,-0.236328,0.355469,0.059570,-0.160156,0.015564,-0.076172,...,0.125000,-0.208984,0.074219,-0.263672,-0.265625,0.042480,-0.026855,0.006012,0.090332,-1
3380,0.072754,0.182617,-0.075684,-0.125000,-0.112305,0.152344,0.061035,0.083496,0.188477,0.250000,...,0.414062,-0.130859,-0.001709,0.109375,0.005524,0.144531,0.277344,-0.075684,0.111328,-1


In [None]:
y_pretrained = X_pretrained['sentiment'].copy()
X_pretrained = X_pretrained.drop(columns = 'sentiment')
X_train_pretrained, X_test_pretrained, y_train_pretrained, y_test_pretrained = train_test_split(X_pretrained, y_pretrained, random_state=0, test_size=0.1,
                                                                                                stratify=y_pretrained)

In [None]:
lr_pretrained = LogisticRegression(max_iter=1000000)
lr_pretrained.fit(X_train_pretrained, y_train_pretrained)
y_pred_pretrained = lr_pretrained.predict(X_test_pretrained)

conf_matrix_pretrained = confusion_matrix(y_test_pretrained, y_pred_pretrained)
print(conf_matrix_pretrained)

print(classification_report(y_test_pretrained, y_pred_pretrained))

[[206   5]
 [  6 106]]
              precision    recall  f1-score   support

          -1       0.97      0.98      0.97       211
           1       0.95      0.95      0.95       112

    accuracy                           0.97       323
   macro avg       0.96      0.96      0.96       323
weighted avg       0.97      0.97      0.97       323



Se concluye que los resultados mejorar substancialmente al usar embeddings entrenados con un corpus mejor y más grande.